用于文本識別的數(shù)據(jù)處理方法及裝置制造方法

文檔序號：6637967閱讀：236來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

用于文本識別的數(shù)據(jù)處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種用于文本識別的數(shù)據(jù)處理方法及裝置，該用于文本識別的數(shù)據(jù)處理方法包括：獲取語料中的目標(biāo)詞；獲取語料中的參考詞；將目標(biāo)詞轉(zhuǎn)換為詞向量，得到目標(biāo)詞向量，將參考詞轉(zhuǎn)換為詞向量，得到參考詞向量；計算目標(biāo)詞向量和參考詞向量的相似度；將相似度和預(yù)設(shè)閾值比較；以及如果相似度不大于預(yù)設(shè)閾值，則確定目標(biāo)詞是背景噪音詞，如果相似度大于預(yù)設(shè)閾值，則確定目標(biāo)詞不是背景噪音詞。通過本發(fā)明，解決了現(xiàn)有技術(shù)中過濾背景噪音詞準(zhǔn)確率低的問題，進一步達到了提高過濾背景噪聲詞準(zhǔn)確率的效果。
【專利說明】用于文本識別的數(shù)據(jù)處理方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域，具體而言，涉及一種用于文本識別的數(shù)據(jù)處理方法及裝置。

【背景技術(shù)】
[0002] 為了節(jié)省存儲空間和提高搜索效率，搜索引擎在索引頁面或處理搜索請求時會自動忽略某些字或詞，這些字或詞即被稱為停用詞（Stop Words)。通常，停用詞大致分為如下兩類：一類停用詞是指應(yīng)用廣泛、在網(wǎng)絡(luò)上隨處可見的詞，比如"Web" 一詞幾乎在每個網(wǎng)站上均會出現(xiàn)，對這樣的詞搜索引擎無法保證能夠給出真正相關(guān)的搜索結(jié)果，難以幫助縮小搜索范圍，同時還會降低搜索的效率；另一類停用詞是指語氣助詞、副詞、介詞、連接詞等，通常這些詞自身并無明確的意義，只有將其放入一個完整的句子中才有一定作用，如常見的"的"、"在"之類的詞。
[0003] 自然語言處理的各個任務(wù)進行之前都會通過去停用詞步驟對這些停用詞進行過濾。通常，對于特定語言，都有通用的停用詞表進行過濾。但是，在特定自然語言處理任務(wù) (如主題提取、文本分類）中，除需要過濾停用詞外，還需要事先過濾掉背景噪音詞。所謂背景噪音詞，是指語料自身帶來的與主題無關(guān)的無意義詞串，包括絕對噪音和相對噪音。其中，絕對噪音是指分布穩(wěn)定，累計出現(xiàn)次數(shù)較多的詞，如"人民日報訊"、"據(jù)新華社電"等；相對噪音是指其本身不是噪音，但是在特定處理的領(lǐng)域集中成為噪音的一些詞語，這些詞語對特定領(lǐng)域內(nèi)主題的細(xì)分不起作用，如"糾紛"、"原告"等詞本身不是噪音，但是在法律判決文書卷宗的語料集中則成為了背景噪音。
[0004] 背景噪音詞與停用詞一樣，無論是對主題分類還是存儲空間還是檢索效率而言，背景噪音詞的存在都不起任何作用，因此也應(yīng)當(dāng)事先予以過濾。但不同于停用詞，背景噪音詞無法通過人工整理獲得。傳統(tǒng)的解決方案是通過直接統(tǒng)計語料中每個詞的詞頻并與設(shè)置的閾值比較的方式予以過濾，具體包括：首先，對語料中的文本進行分詞，去停用詞等處理，得到切分詞的序列；其次，對切分詞進行計數(shù)統(tǒng)計，統(tǒng)計每個切分詞的詞頻（出現(xiàn)的次數(shù)），記為tf，以及每個切分詞的文檔頻數(shù)（出現(xiàn)的文檔數(shù)），記為df;最后，對tf和df進行簡單的統(tǒng)計變換（相乘、除等，也可以不做變換），并設(shè)定相應(yīng)的閾值，若統(tǒng)計值滿足閾值的條件，則認(rèn)為該切分詞為背景噪音詞，如下公式所示：

【權(quán)利要求】
1. 一種用于文本識別的數(shù)據(jù)處理方法，其特征在于，包括：獲取語料中的目標(biāo)詞；獲取所述語料中的參考詞；將所述目標(biāo)詞轉(zhuǎn)換為詞向量，得到目標(biāo)詞向量，將所述參考詞轉(zhuǎn)換為詞向量，得到參考詞向量；計算所述目標(biāo)詞向量和所述參考詞向量的相似度；將所述相似度和預(yù)設(shè)闊值比較；W及如果所述相似度不大于所述預(yù)設(shè)闊值，則確定所述目標(biāo)詞是背景噪音詞，如果所述相似度大于所述預(yù)設(shè)闊值，則確定所述目標(biāo)詞不是背景噪音詞。
2. 根據(jù)權(quán)利要求1所述的用于文本識別的數(shù)據(jù)處理方法，其特征在于，所述參考詞向量包括多個參考詞向量，計算所述目標(biāo)詞向量與所述參考詞向量的相似度包括：依次計算所述目標(biāo)詞向量與所述多個參考詞向量中每一個參考詞向量的相似度，得到所述目標(biāo)詞向量與所述多個參考詞向量的相似度集合；W及獲取所述相似度集合中值最大的相似度作為所述目標(biāo)詞向量與所述參考詞向量的相似度。
3. 根據(jù)權(quán)利要求1所述的用于文本識別的數(shù)據(jù)處理方法，其特征在于，通過分布式描述方法將所述目標(biāo)詞轉(zhuǎn)換為詞向量，得到所述目標(biāo)詞向量，將所述參考詞轉(zhuǎn)換為詞向量，得到所述參考詞向量。
4. 根據(jù)權(quán)利要求1所述的用于文本識別的數(shù)據(jù)處理方法，其特征在于，在獲取所述目標(biāo)詞和所述參考詞之前，所述方法還包括：將所述語料中的文本進行分詞，得到切分詞集合；W及過濾所述切分詞集合中的停用詞，其中，從過濾停用詞后的切分詞集合中獲取所述目標(biāo)詞和所述參考詞。
5. 根據(jù)權(quán)利要求1所述的用于文本識別的數(shù)據(jù)處理方法，其特征在于，計算所述目標(biāo) 詞向量和所述參考詞向量的相似度包括：計算所述目標(biāo)詞向量和所述參考詞向量的夾角的余弦值；W及通過余弦值計算所述目標(biāo)詞向量和所述參考詞向量的相似度。
6. -種用于文本識別的數(shù)據(jù)處理裝置，其特征在于，包括：第一獲取單元，用于獲取語料中的目標(biāo)詞；第二獲取單元，用于獲取所述語料中的參考詞；轉(zhuǎn)換單元，用于將所述目標(biāo)詞轉(zhuǎn)換為詞向量，得到目標(biāo)詞向量，將所述參考詞轉(zhuǎn)換為詞向量，得到參考詞向量；計算單元，用于計算所述目標(biāo)詞向量和所述參考詞向量的相似度；比較單元，用于比較所述相似度和預(yù)設(shè)闊值；W及確定單元，用于當(dāng)所述相似度不大于所述預(yù)設(shè)闊值，則確定所述目標(biāo)詞是背景噪音詞，當(dāng)所述相似度大于所述預(yù)設(shè)闊值，則確定所述目標(biāo)詞不是背景噪音詞。
7. 根據(jù)權(quán)利要求6所述的用于文本識別的數(shù)據(jù)處理裝置，其特征在于，所述參考詞向量包括多個參考詞向量，所述計算單元包括：第一計算模塊，用于依次計算所述目標(biāo)詞向量與所述多個參考詞向量中每一個參考詞向量的相似度，得到所述目標(biāo)詞向量與所述多個參考詞向量的相似度集合；w及獲取模塊，用于獲取所述相似度集合中值最大的相似度作為所述目標(biāo)詞向量與所述參考詞向量的相似度。
8. 根據(jù)權(quán)利要求6所述的用于文本識別的數(shù)據(jù)處理裝置，其特征在于，所述轉(zhuǎn)換單元通過分布式描述裝置將所述目標(biāo)詞轉(zhuǎn)換為詞向量，得到所述目標(biāo)詞向量，將所述參考詞轉(zhuǎn) 換為詞向量，得到所述參考詞向量。
9. 根據(jù)權(quán)利要求6所述的用于文本識別的數(shù)據(jù)處理裝置，其特征在于，所述裝置還包括：分詞單元，用于將所述語料中的文本進行分詞，得到切分詞集合；W及過濾單元，用于過濾所述切分詞集合中的停用詞，其中，從過濾停用詞后的切分詞集合中獲取所述目標(biāo)詞和所述參考詞。
10. 根據(jù)權(quán)利要求6所述的用于文本識別的數(shù)據(jù)處理裝置，其特征在于，所述計算單元包括：第二計算模塊，用于計算所述目標(biāo)詞向量和所述參考詞向量的夾角的余弦值；W及第=計算模塊，用于通過余弦值計算所述目標(biāo)詞向量和所述參考詞向量的相似度。
【文檔編號】G06F17/30GK104462378SQ201410751278
【公開日】2015年3月25日申請日期:2014年12月9日優(yōu)先權(quán)日:2014年12月9日
【發(fā)明者】何鑫申請人:北京國雙科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何鑫;
技術(shù)所有人：北京國雙科技有限公司;
我是此專利的發(fā)明人

上一篇：獲得應(yīng)用渠道包的校驗值的方法和裝置制造方法
上一篇：圖數(shù)據(jù)的搜索方法和裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本處理方法相關(guān)技術(shù)

使用ocr識別文本相關(guān)技術(shù)

圖片文本識別相關(guān)技術(shù)

pdf文本識別相關(guān)技術(shù)

無線識別裝置相關(guān)技術(shù)

文本識別工具相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于文本識別的數(shù)據(jù)處理方法及裝置制造方法