角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的順序組合的選取,從而能 得到文本新詞;通過(guò)對(duì)文本新詞結(jié)果中含有共有字的文本新詞的合并,從而能準(zhǔn)確的得到 由多個(gè)字組成文本新詞。
[0050] 圖3是根據(jù)本發(fā)明實(shí)施例的文本中新詞發(fā)現(xiàn)的裝置的主要模塊的示意圖。
[0051] 如圖3所示,本發(fā)明實(shí)施例的文本中新詞發(fā)現(xiàn)的裝置20主要包括提取模塊201、計(jì) 算模塊202、選取模塊203。
[0052] 提取模塊201用于將文本中的每個(gè)字分隔開(kāi),利用深度神經(jīng)網(wǎng)絡(luò)算法提取每個(gè)字 的特征向量;計(jì)算模塊202用于計(jì)算文本中每相鄰兩個(gè)字的特征向量的夾角余弦值并將計(jì) 算結(jié)果排序;選取模塊203用于選取所有所述夾角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的順 序組合作為文本新詞,并輸出所述文本新詞。
[0053] 提取模塊201還用于在將文本中的每個(gè)字分隔開(kāi)之前,將所述文本按照標(biāo)點(diǎn)符 號(hào)進(jìn)行分行,使每行成為一個(gè)短文本。
[0054] 提取模塊201還用于在利用深度神經(jīng)網(wǎng)絡(luò)算法提取每個(gè)字的特征向量之后,對(duì)所 述每個(gè)字按照字為鍵、特征向量為值的形式生成哈希字典進(jìn)行存儲(chǔ)。
[0055] 計(jì)算模塊202還用于在將計(jì)算結(jié)果排序之后,去除所述計(jì)算結(jié)果中相同兩字的組 合及字母和/或數(shù)字的組合。
[0056] 選取模塊203還用于在選取所有所述夾角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的 順序組合作為文本新詞之后,遍歷所述文本新詞,判斷是否存在兩個(gè)文本新詞,其中一個(gè)文 本新詞的最后一個(gè)字是另一個(gè)文本新詞的第一個(gè)字,若存在,則將所述兩個(gè)文本新詞按照 順序合并去掉中間重復(fù)字得到一個(gè)新的文本新詞;判斷所述新的文本新詞在所述文本中是 否存在,若存在,則刪除合并前的兩個(gè)文本新詞,保留所述新的文本新詞;若不存在,則保留 合并前的兩個(gè)文本新詞。
[0057] 從以上描述可以看出,在本發(fā)明實(shí)施例中,通過(guò)將文本拆分成短文本,從而能減少 計(jì)算的復(fù)雜程度;通過(guò)將文本中的一個(gè)一個(gè)字拆分開(kāi),從而能保證計(jì)算機(jī)對(duì)文本中單個(gè)字 符的識(shí)別;通過(guò)深度神經(jīng)網(wǎng)絡(luò)提取每個(gè)字的特征向量,從而能保證對(duì)字的特征向量的自動(dòng) 提取,節(jié)省觀察數(shù)據(jù)特征的時(shí)間;通過(guò)對(duì)提取后的字與其特征向量的哈希字典存儲(chǔ),從而 能保證特征向量提取結(jié)果的有效存儲(chǔ),同時(shí)方便后續(xù)處理過(guò)程對(duì)提取結(jié)果的有效查詢和運(yùn) 用;通過(guò)對(duì)文本中每相鄰兩個(gè)字的特征向量的余弦距離的計(jì)算,從而能方便判斷出每相鄰 兩個(gè)字是否是一個(gè)文本新詞;通過(guò)對(duì)每相鄰兩個(gè)字的特征向量余弦距離的計(jì)算結(jié)果的排 序,從而方便對(duì)夾角余弦值大的相鄰兩個(gè)字的順序組合的選??;通過(guò)對(duì)計(jì)算結(jié)果中相同兩 字的組合以及數(shù)字和/或字母組合等干擾項(xiàng)的剔除,從而能保障得到的下述選取結(jié)果的高 質(zhì)量;通過(guò)對(duì)所有所述夾角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的順序組合的選取,從而能 得到文本新詞;通過(guò)對(duì)文本新詞結(jié)果中含有共有字的文本新詞的合并,從而能準(zhǔn)確的得到 由多個(gè)字組成文本新詞。
[0058] 上述【具體實(shí)施方式】,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明 白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何 在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍 之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種文本中新詞發(fā)現(xiàn)的方法,其特征在于,包括: 將文本中的每個(gè)字分隔開(kāi),利用深度神經(jīng)網(wǎng)絡(luò)算法提取每個(gè)字的特征向量; 計(jì)算文本中每相鄰兩個(gè)字的特征向量的夾角余弦值并將計(jì)算結(jié)果排序; 選取所有所述夾角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的順序組合作為文本新詞,并輸 出所述文本新詞。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 在將文本中的每個(gè)字分隔開(kāi)之前,將所述文本按照標(biāo)點(diǎn)符號(hào)進(jìn)行分行,使每行成為一 個(gè)短文本。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述方法還包括: 在利用深度神經(jīng)網(wǎng)絡(luò)算法提取每個(gè)字的特征向量之后,對(duì)所述每個(gè)字按照字為鍵、特 征向量為值的形式生成哈希字典進(jìn)行存儲(chǔ)。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 在將計(jì)算結(jié)果排序之后,去除所述計(jì)算結(jié)果中相同兩字的組合及字母和/或數(shù)字的組 合。5. 根據(jù)權(quán)利要求1或4所述的方法,其特征在于,所述方法還包括:在選取所有所述夾 角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的順序組合作為文本新詞之后, 遍歷所述文本新詞,判斷是否存在兩個(gè)文本新詞,其中一個(gè)文本新詞的最后一個(gè)字是 另一個(gè)文本新詞的第一個(gè)字,若存在,則將所述兩個(gè)文本新詞按照順序合并去掉中間重復(fù) 字得到一個(gè)新的文本新詞; 判斷所述新的文本新詞在所述文本中是否存在,若存在,則刪除合并前的兩個(gè)文本新 詞,保留所述新的文本新詞;若不存在,則保留合并前的兩個(gè)文本新詞。6. -種文本中新詞發(fā)現(xiàn)的裝置,其特征在于,包括: 提取模塊,用于將文本中的每個(gè)字分隔開(kāi),利用深度神經(jīng)網(wǎng)絡(luò)算法提取每個(gè)字的特征 向量; 計(jì)算模塊,用于計(jì)算文本中每相鄰兩個(gè)字的特征向量的夾角余弦值并將計(jì)算結(jié)果排 序; 選取模塊,用于選取所有所述夾角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的順序組合作為 文本新詞,并輸出所述文本新詞。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述提取模塊還用于: 在將文本中的每個(gè)字分隔開(kāi)之前,將所述文本按照標(biāo)點(diǎn)符號(hào)進(jìn)行分行,使每行成為一 個(gè)短文本。8. 根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述提取模塊還用于: 在利用深度神經(jīng)網(wǎng)絡(luò)算法提取每個(gè)字的特征向量之后,對(duì)所述每個(gè)字按照字為鍵、特 征向量為值的形式生成哈希字典進(jìn)行存儲(chǔ)。9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述計(jì)算模塊還用于: 在將計(jì)算結(jié)果排序之后,去除所述計(jì)算結(jié)果中相同兩字的組合及字母和/或數(shù)字的組 合。10. 根據(jù)權(quán)利要求6或9所述的裝置,其特征在于,所述選取模塊還用于: 在選取所有所述夾角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的順序組合作為文本新詞之 后, 遍歷所述文本新詞,判斷是否存在兩個(gè)文本新詞,其中一個(gè)文本新詞的最后一個(gè)字是 另一個(gè)文本新詞的第一個(gè)字,若存在,則將所述兩個(gè)文本新詞按照順序合并去掉中間重復(fù) 字得到一個(gè)新的文本新詞; 判斷所述新的文本新詞在所述文本中是否存在,若存在,則刪除合并前的兩個(gè)文本新 詞,保留所述新的文本新詞;若不存在,則保留合并前的兩個(gè)文本新詞。
【專(zhuān)利摘要】本發(fā)明提供一種文本中新詞發(fā)現(xiàn)的方法和裝置,能夠自動(dòng)發(fā)現(xiàn)文本中字的特征,并通過(guò)挖掘字的特征向量的相似度從文本中發(fā)現(xiàn)出新詞,節(jié)省了現(xiàn)有技術(shù)中觀察數(shù)據(jù)特征的時(shí)間,提高新詞發(fā)現(xiàn)的效率。該方法包括:將文本中的每個(gè)字分隔開(kāi),利用深度神經(jīng)網(wǎng)絡(luò)算法提取每個(gè)字的特征向量;計(jì)算文本中每相鄰兩個(gè)字的特征向量的夾角余弦值并將計(jì)算結(jié)果排序;選取所有所述夾角余弦值大于預(yù)設(shè)閾值的相鄰兩個(gè)字的順序組合作為文本新詞,并輸出所述文本新詞。
【IPC分類(lèi)】G06F17/28
【公開(kāi)號(hào)】CN105095196
【申請(qǐng)?zhí)枴緾N201510443291
【發(fā)明人】邵佳帥, 牟川, 邢志峰
【申請(qǐng)人】北京京東尚科信息技術(shù)有限公司, 北京京東世紀(jì)貿(mào)易有限公司
【公開(kāi)日】2015年11月25日
【申請(qǐng)日】2015年7月24日