文本中新詞發(fā)現(xiàn)的方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機技術領域,尤其涉及一種文本中新詞發(fā)現(xiàn)的方法和裝置。
【背景技術】
[0002] 隨著自然語言處理技術的近年來的不斷發(fā)展,新詞發(fā)現(xiàn)也變得越來越重要(本文 中的新詞發(fā)現(xiàn)是指將文本中詞語發(fā)現(xiàn)出來,為后續(xù)進行的分詞、標注、主體提取等操作做準 備)??梢哉f詞是我們做自然語言處理的第一步也是最重要的一步。只有當我們已經有詞 的時候,我們才可以對含有這些詞的文本進行分詞、標注、主題提取等后續(xù)操作。此外,隨著 網絡新詞激增,新詞發(fā)現(xiàn)技術不僅要發(fā)現(xiàn)目前還沒有的詞,還要發(fā)現(xiàn)每天不斷涌現(xiàn)出的新 1·^] O
[0003] 近年來,新詞發(fā)現(xiàn)已經有很多技術,例如可以通過隱馬爾可夫模型、條件隨機場等 模型在文本中進行新詞發(fā)現(xiàn)。
[0004] 隱馬爾可夫模型(Hidden Markov Model,HMM)是統(tǒng)計模型,它用來描述一個含有 隱含未知參數(shù)的馬爾可夫過程。隱馬爾可夫模型作為一種統(tǒng)計分析模型,創(chuàng)立于20世紀70 年代。80年代得到了傳播和發(fā)展,成為信號處理的一個重要方向,現(xiàn)已成功地用于語音識 另IJ,行為識別,文字識別以及故障診斷等領域。
[0005] 條件隨機場(conditional random fields,簡稱CRF,或CRFs),是一種判別式概率 模型,是隨機場的一種,常用于標注或分析序列資料,如自然語言文字或是生物序列。
[0006] 但是,現(xiàn)有的隱馬爾可夫模型、條件隨機場等模型在文本中新詞發(fā)現(xiàn)的過程中仍 存在一定的缺陷:它們都需要通過人工的方法來發(fā)現(xiàn)字與字的特征,需要花費大量的時間 觀察大量的數(shù)據(jù)去總結。因此,現(xiàn)有技術中利用隱馬爾可夫模型、條件隨機場等模型的計算 代價高,耗時長。
【發(fā)明內容】
[0007] 有鑒于此,本發(fā)明提供一種文本中新詞發(fā)現(xiàn)的方法和裝置,能夠自動發(fā)現(xiàn)文本中 字的特征,并通過挖掘字的特征向量的相似度從文本中發(fā)現(xiàn)出新詞,節(jié)省了現(xiàn)有技術中觀 察數(shù)據(jù)特征的時間,提高新詞發(fā)現(xiàn)的效率。
[0008] 為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種文本中新詞發(fā)現(xiàn)的方法。
[0009] 本發(fā)明的文本中新詞發(fā)現(xiàn)的方法包括:將文本中的每個字分隔開,利用深度神經 網絡算法提取每個字的特征向量;計算文本中每相鄰兩個字的特征向量的夾角余弦值并將 計算結果排序;選取所有所述夾角余弦值大于預設閾值的相鄰兩個字的順序組合作為文本 新詞,并輸出所述文本新詞。
[0010] 可選地,所述方法還包括:在將文本中的每個字分隔開之前,將所述文本按照標點 符號進行分行,使每行成為一個短文本。
[0011] 可選地,所述方法還包括:在利用深度神經網絡算法提取每個字的特征向量之后, 對所述每個字按照字為鍵、特征向量為值的形式生成哈希字典進行存儲。
[0012] 可選地,所述方法還包括:在將計算結果排序之后,去除所述計算結果中相同兩字 的組合及字母和/或數(shù)字的組合。
[0013] 可選地,所述方法還包括:在選取所有所述夾角余弦值大于預設閾值的相鄰兩個 字的順序組合作為文本新詞之后,遍歷所述文本新詞,判斷是否存在兩個文本新詞,其中一 個文本新詞的最后一個字是另一個文本新詞的第一個字,若存在,則將所述兩個文本新詞 按照順序合并去掉中間重復字得到一個新的文本新詞;判斷所述新的文本新詞在所述文本 中是否存在,若存在,則刪除合并前的兩個文本新詞,保留所述新的文本新詞;若不存在,則 保留合并前的兩個文本新詞。
[0014] 根據(jù)本發(fā)明的另一方面,提供一種文本中新詞發(fā)現(xiàn)的裝置。
[0015] 本發(fā)明的文本中新詞發(fā)現(xiàn)的裝置包括:提取模塊,用于將文本中的每個字分隔開, 利用深度神經網絡算法提取每個字的特征向量;計算模塊,用于計算文本中每相鄰兩個字 的特征向量的夾角余弦值并將計算結果排序;選取模塊,用于選取所有所述夾角余弦值大 于預設閾值的相鄰兩個字的順序組合作為文本新詞,并輸出所述文本新詞。
[0016] 可選地,所述提取模塊還用于:在將文本中的每個字分隔開之前,將所述文本按照 標點符號進行分行,使每行成為一個短文本。
[0017] 可選地,所述提取模塊還用于:在利用深度神經網絡算法提取每個字的特征向量 之后,對所述每個字按照字為鍵、特征向量為值的形式生成哈希字典進行存儲。
[0018] 可選地,所述計算模塊還用于:在將計算結果排序之后,去除所述計算結果中相同 兩字的組合及字母和/或數(shù)字的組合。
[0019] 可選地,所述選取模塊還用于:在選取所有所述夾角余弦值大于預設閾值的相鄰 兩個字的順序組合作為文本新詞之后,遍歷所述文本新詞,判斷是否存在兩個文本新詞,其 中一個文本新詞的最后一個字是另一個文本新詞的第一個字,若存在,則將所述兩個文本 新詞按照順序合并去掉中間重復字得到一個新的文本新詞;判斷所述新的文本新詞在所述 文本中是否存在,若存在,則刪除合并前的兩個文本新詞,保留所述新的文本新詞;若不存 在,則保留合并前的兩個文本新詞。
[0020] 根據(jù)本發(fā)明的技術方案,通過將文本拆分成短文本,從而能減少計算的復雜程度; 通過將文本中的一個一個字拆分開,從而能保證計算機對文本中單個字符的識別;通過深 度神經網絡提取每個字的特征向量,從而能保證對字的特征向量的自動提取,節(jié)省觀察數(shù) 據(jù)特征的時間;通過對提取后的字與其特征向量的哈希字典存儲,從而能保證特征向量提 取結果的有效存儲,同時方便后續(xù)處理過程對提取結果的有效查詢和運用;通過對文本中 每相鄰兩個字的特征向量的余弦距離的計算,從而能方便判斷出每相鄰兩個字是否是一個 文本新詞;通過對每相鄰兩個字的特征向量余弦距離的計算結果的排序,從而方便對夾角 余弦值大的相鄰兩個字的順序組合的選??;通過對計算結果中相同兩字的組合以及數(shù)字和 /或字母組合等干擾項的剔除,從而能保障得到的下述選取結果的高質量;通過對所有所 述夾角余弦值大于預設閾值的相鄰兩個字的順序組合的選取,從而能得到文本新詞;通過 對文本新詞結果中含有共有字的文本新詞的合并,從而能準確的得到由多個字組成文本新 1·^] O
【附圖說明】
[0021] 附圖用于更好地理解本發(fā)明,不構成對本發(fā)明的不當限定。其中:
[0022] 圖1是根據(jù)本發(fā)明實施例的文本中新詞發(fā)現(xiàn)的方法的主要步驟的示意圖;
[0023] 圖2是根據(jù)本發(fā)明實施例的文本中新詞發(fā)現(xiàn)的方法的具體流程的示意圖;
[0024] 圖3是根據(jù)本發(fā)明實施例的文本中新詞發(fā)現(xiàn)的裝置的主要模塊的示意圖。
【具體實施方式】
[0025] 以下結合附圖對本發(fā)明的示范性實施例做出說明,其中包括本發(fā)明實施例的各種 細節(jié)以助于理解,應當將它們認為僅僅是示范性的。因此,本領域普通技術人員應當認識 到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同 樣,為了清楚和簡明,以下的描述中省略了對公知功能和結構的描述。
[0026] 圖1是根據(jù)本發(fā)明實施例的文本中新詞發(fā)現(xiàn)的方法的主要步驟的示意圖