文本中新詞發(fā)現(xiàn)的方法和裝置的制造方法

文檔序號：9375584閱讀：372來源：國知局

文本中新詞發(fā)現(xiàn)的方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機技術領域，尤其涉及一種文本中新詞發(fā)現(xiàn)的方法和裝置。
【背景技術】
[0002] 隨著自然語言處理技術的近年來的不斷發(fā)展，新詞發(fā)現(xiàn)也變得越來越重要（本文中的新詞發(fā)現(xiàn)是指將文本中詞語發(fā)現(xiàn)出來，為后續(xù)進行的分詞、標注、主體提取等操作做準備）?？梢哉f詞是我們做自然語言處理的第一步也是最重要的一步。只有當我們已經有詞的時候，我們才可以對含有這些詞的文本進行分詞、標注、主題提取等后續(xù)操作。此外，隨著網絡新詞激增，新詞發(fā)現(xiàn)技術不僅要發(fā)現(xiàn)目前還沒有的詞，還要發(fā)現(xiàn)每天不斷涌現(xiàn)出的新 1·^] O
[0003] 近年來，新詞發(fā)現(xiàn)已經有很多技術，例如可以通過隱馬爾可夫模型、條件隨機場等模型在文本中進行新詞發(fā)現(xiàn)。
[0004] 隱馬爾可夫模型（Hidden Markov Model，HMM)是統(tǒng)計模型，它用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。隱馬爾可夫模型作為一種統(tǒng)計分析模型，創(chuàng)立于20世紀70 年代。80年代得到了傳播和發(fā)展，成為信號處理的一個重要方向，現(xiàn)已成功地用于語音識另IJ，行為識別，文字識別以及故障診斷等領域。
[0005] 條件隨機場（conditional random fields，簡稱CRF，或CRFs)，是一種判別式概率模型，是隨機場的一種，常用于標注或分析序列資料，如自然語言文字或是生物序列。
[0006] 但是，現(xiàn)有的隱馬爾可夫模型、條件隨機場等模型在文本中新詞發(fā)現(xiàn)的過程中仍存在一定的缺陷：它們都需要通過人工的方法來發(fā)現(xiàn)字與字的特征，需要花費大量的時間觀察大量的數(shù)據(jù)去總結。因此，現(xiàn)有技術中利用隱馬爾可夫模型、條件隨機場等模型的計算代價高，耗時長。

【發(fā)明內容】

[0007] 有鑒于此，本發(fā)明提供一種文本中新詞發(fā)現(xiàn)的方法和裝置，能夠自動發(fā)現(xiàn)文本中字的特征，并通過挖掘字的特征向量的相似度從文本中發(fā)現(xiàn)出新詞，節(jié)省了現(xiàn)有技術中觀察數(shù)據(jù)特征的時間，提高新詞發(fā)現(xiàn)的效率。
[0008] 為實現(xiàn)上述目的，根據(jù)本發(fā)明的一個方面，提供了一種文本中新詞發(fā)現(xiàn)的方法。
[0009] 本發(fā)明的文本中新詞發(fā)現(xiàn)的方法包括：將文本中的每個字分隔開，利用深度神經網絡算法提取每個字的特征向量；計算文本中每相鄰兩個字的特征向量的夾角余弦值并將計算結果排序；選取所有所述夾角余弦值大于預設閾值的相鄰兩個字的順序組合作為文本新詞，并輸出所述文本新詞。
[0010] 可選地，所述方法還包括：在將文本中的每個字分隔開之前，將所述文本按照標點符號進行分行，使每行成為一個短文本。
[0011] 可選地，所述方法還包括：在利用深度神經網絡算法提取每個字的特征向量之后，對所述每個字按照字為鍵、特征向量為值的形式生成哈希字典進行存儲。
[0012] 可選地，所述方法還包括：在將計算結果排序之后，去除所述計算結果中相同兩字的組合及字母和/或數(shù)字的組合。
[0013] 可選地，所述方法還包括：在選取所有所述夾角余弦值大于預設閾值的相鄰兩個字的順序組合作為文本新詞之后，遍歷所述文本新詞，判斷是否存在兩個文本新詞，其中一個文本新詞的最后一個字是另一個文本新詞的第一個字，若存在，則將所述兩個文本新詞按照順序合并去掉中間重復字得到一個新的文本新詞；判斷所述新的文本新詞在所述文本中是否存在，若存在，則刪除合并前的兩個文本新詞，保留所述新的文本新詞；若不存在，則保留合并前的兩個文本新詞。
[0014] 根據(jù)本發(fā)明的另一方面，提供一種文本中新詞發(fā)現(xiàn)的裝置。
[0015] 本發(fā)明的文本中新詞發(fā)現(xiàn)的裝置包括：提取模塊，用于將文本中的每個字分隔開，利用深度神經網絡算法提取每個字的特征向量；計算模塊，用于計算文本中每相鄰兩個字的特征向量的夾角余弦值并將計算結果排序；選取模塊，用于選取所有所述夾角余弦值大于預設閾值的相鄰兩個字的順序組合作為文本新詞，并輸出所述文本新詞。
[0016] 可選地，所述提取模塊還用于：在將文本中的每個字分隔開之前，將所述文本按照標點符號進行分行，使每行成為一個短文本。
[0017] 可選地，所述提取模塊還用于：在利用深度神經網絡算法提取每個字的特征向量之后，對所述每個字按照字為鍵、特征向量為值的形式生成哈希字典進行存儲。
[0018] 可選地，所述計算模塊還用于：在將計算結果排序之后，去除所述計算結果中相同兩字的組合及字母和/或數(shù)字的組合。
[0019] 可選地，所述選取模塊還用于：在選取所有所述夾角余弦值大于預設閾值的相鄰兩個字的順序組合作為文本新詞之后，遍歷所述文本新詞，判斷是否存在兩個文本新詞，其中一個文本新詞的最后一個字是另一個文本新詞的第一個字，若存在，則將所述兩個文本新詞按照順序合并去掉中間重復字得到一個新的文本新詞；判斷所述新的文本新詞在所述文本中是否存在，若存在，則刪除合并前的兩個文本新詞，保留所述新的文本新詞；若不存在，則保留合并前的兩個文本新詞。
[0020] 根據(jù)本發(fā)明的技術方案，通過將文本拆分成短文本，從而能減少計算的復雜程度；通過將文本中的一個一個字拆分開，從而能保證計算機對文本中單個字符的識別；通過深度神經網絡提取每個字的特征向量，從而能保證對字的特征向量的自動提取，節(jié)省觀察數(shù) 據(jù)特征的時間；通過對提取后的字與其特征向量的哈希字典存儲，從而能保證特征向量提取結果的有效存儲，同時方便后續(xù)處理過程對提取結果的有效查詢和運用；通過對文本中每相鄰兩個字的特征向量的余弦距離的計算，從而能方便判斷出每相鄰兩個字是否是一個文本新詞；通過對每相鄰兩個字的特征向量余弦距離的計算結果的排序，從而方便對夾角余弦值大的相鄰兩個字的順序組合的選??；通過對計算結果中相同兩字的組合以及數(shù)字和 /或字母組合等干擾項的剔除，從而能保障得到的下述選取結果的高質量；通過對所有所述夾角余弦值大于預設閾值的相鄰兩個字的順序組合的選取，從而能得到文本新詞；通過對文本新詞結果中含有共有字的文本新詞的合并，從而能準確的得到由多個字組成文本新 1·^] O
【附圖說明】
[0021] 附圖用于更好地理解本發(fā)明，不構成對本發(fā)明的不當限定。其中：
[0022] 圖1是根據(jù)本發(fā)明實施例的文本中新詞發(fā)現(xiàn)的方法的主要步驟的示意圖；
[0023] 圖2是根據(jù)本發(fā)明實施例的文本中新詞發(fā)現(xiàn)的方法的具體流程的示意圖；
[0024] 圖3是根據(jù)本發(fā)明實施例的文本中新詞發(fā)現(xiàn)的裝置的主要模塊的示意圖。
【具體實施方式】
[0025] 以下結合附圖對本發(fā)明的示范性實施例做出說明，其中包括本發(fā)明實施例的各種細節(jié)以助于理解，應當將它們認為僅僅是示范性的。因此，本領域普通技術人員應當認識到，可以對這里描述的實施例做出各種改變和修改，而不會背離本發(fā)明的范圍和精神。同樣，為了清楚和簡明，以下的描述中省略了對公知功能和結構的描述。
[0026] 圖1是根據(jù)本發(fā)明實施例的文本中新詞發(fā)現(xiàn)的方法的主要步驟的示意圖

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：邵佳帥;牟川;邢志峰;
技術所有人：北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司;
我是此專利的發(fā)明人

上一篇：一種處理數(shù)據(jù)的方法及裝置的制造方法
上一篇：基于知識圖譜的人機問答方法和系統(tǒng)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

新詞發(fā)現(xiàn)算法相關技術

新詞發(fā)現(xiàn)相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本中新詞發(fā)現(xiàn)的方法和裝置的制造方法