用于文本識別的數(shù)據(jù)處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種用于文本識別的數(shù)據(jù)處理方法及裝置,該用于文本識別的數(shù)據(jù)處理方法包括:獲取語料中的目標(biāo)詞;獲取語料中的參考詞;將目標(biāo)詞轉(zhuǎn)換為詞向量,得到目標(biāo)詞向量,將參考詞轉(zhuǎn)換為詞向量,得到參考詞向量;計算目標(biāo)詞向量和參考詞向量的相似度;將相似度和預(yù)設(shè)閾值比較;以及如果相似度不大于預(yù)設(shè)閾值,則確定目標(biāo)詞是背景噪音詞,如果相似度大于預(yù)設(shè)閾值,則確定目標(biāo)詞不是背景噪音詞。通過本發(fā)明,解決了現(xiàn)有技術(shù)中過濾背景噪音詞準(zhǔn)確率低的問題,進一步達到了提高過濾背景噪聲詞準(zhǔn)確率的效果。
【專利說明】用于文本識別的數(shù)據(jù)處理方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域,具體而言,涉及一種用于文本識別的數(shù)據(jù)處理方 法及裝置。
【背景技術(shù)】
[0002] 為了節(jié)省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自 動忽略某些字或詞,這些字或詞即被稱為停用詞(Stop Words)。通常,停用詞大致分為如下 兩類:一類停用詞是指應(yīng)用廣泛、在網(wǎng)絡(luò)上隨處可見的詞,比如"Web" 一詞幾乎在每個網(wǎng)站 上均會出現(xiàn),對這樣的詞搜索引擎無法保證能夠給出真正相關(guān)的搜索結(jié)果,難以幫助縮小 搜索范圍,同時還會降低搜索的效率;另一類停用詞是指語氣助詞、副詞、介詞、連接詞等, 通常這些詞自身并無明確的意義,只有將其放入一個完整的句子中才有一定作用,如常見 的"的"、"在"之類的詞。
[0003] 自然語言處理的各個任務(wù)進行之前都會通過去停用詞步驟對這些停用詞進行過 濾。通常,對于特定語言,都有通用的停用詞表進行過濾。但是,在特定自然語言處理任務(wù) (如主題提取、文本分類)中,除需要過濾停用詞外,還需要事先過濾掉背景噪音詞。所謂 背景噪音詞,是指語料自身帶來的與主題無關(guān)的無意義詞串,包括絕對噪音和相對噪音。其 中,絕對噪音是指分布穩(wěn)定,累計出現(xiàn)次數(shù)較多的詞,如"人民日報訊"、"據(jù)新華社電"等;相 對噪音是指其本身不是噪音,但是在特定處理的領(lǐng)域集中成為噪音的一些詞語,這些詞語 對特定領(lǐng)域內(nèi)主題的細(xì)分不起作用,如"糾紛"、"原告"等詞本身不是噪音,但是在法律判決 文書卷宗的語料集中則成為了背景噪音。
[0004] 背景噪音詞與停用詞一樣,無論是對主題分類還是存儲空間還是檢索效率而言, 背景噪音詞的存在都不起任何作用,因此也應(yīng)當(dāng)事先予以過濾。但不同于停用詞,背景噪音 詞無法通過人工整理獲得。傳統(tǒng)的解決方案是通過直接統(tǒng)計語料中每個詞的詞頻并與設(shè)置 的閾值比較的方式予以過濾,具體包括:首先,對語料中的文本進行分詞,去停用詞等處理, 得到切分詞的序列;其次,對切分詞進行計數(shù)統(tǒng)計,統(tǒng)計每個切分詞的詞頻(出現(xiàn)的次數(shù)), 記為tf,以及每個切分詞的文檔頻數(shù)(出現(xiàn)的文檔數(shù)),記為df;最后,對tf和df進行簡 單的統(tǒng)計變換(相乘、除等,也可以不做變換),并設(shè)定相應(yīng)的閾值,若統(tǒng)計值滿足閾值的條 件,則認(rèn)為該切分詞為背景噪音詞,如下公式所示:
【權(quán)利要求】
1. 一種用于文本識別的數(shù)據(jù)處理方法,其特征在于,包括: 獲取語料中的目標(biāo)詞; 獲取所述語料中的參考詞; 將所述目標(biāo)詞轉(zhuǎn)換為詞向量,得到目標(biāo)詞向量,將所述參考詞轉(zhuǎn)換為詞向量,得到參考 詞向量; 計算所述目標(biāo)詞向量和所述參考詞向量的相似度; 將所述相似度和預(yù)設(shè)闊值比較;W及 如果所述相似度不大于所述預(yù)設(shè)闊值,則確定所述目標(biāo)詞是背景噪音詞,如果所述相 似度大于所述預(yù)設(shè)闊值,則確定所述目標(biāo)詞不是背景噪音詞。
2. 根據(jù)權(quán)利要求1所述的用于文本識別的數(shù)據(jù)處理方法,其特征在于,所述參考詞向 量包括多個參考詞向量,計算所述目標(biāo)詞向量與所述參考詞向量的相似度包括: 依次計算所述目標(biāo)詞向量與所述多個參考詞向量中每一個參考詞向量的相似度,得到 所述目標(biāo)詞向量與所述多個參考詞向量的相似度集合;W及 獲取所述相似度集合中值最大的相似度作為所述目標(biāo)詞向量與所述參考詞向量的相 似度。
3. 根據(jù)權(quán)利要求1所述的用于文本識別的數(shù)據(jù)處理方法,其特征在于,通過分布式描 述方法將所述目標(biāo)詞轉(zhuǎn)換為詞向量,得到所述目標(biāo)詞向量,將所述參考詞轉(zhuǎn)換為詞向量,得 到所述參考詞向量。
4. 根據(jù)權(quán)利要求1所述的用于文本識別的數(shù)據(jù)處理方法,其特征在于,在獲取所述目 標(biāo)詞和所述參考詞之前,所述方法還包括: 將所述語料中的文本進行分詞,得到切分詞集合;W及 過濾所述切分詞集合中的停用詞, 其中,從過濾停用詞后的切分詞集合中獲取所述目標(biāo)詞和所述參考詞。
5. 根據(jù)權(quán)利要求1所述的用于文本識別的數(shù)據(jù)處理方法,其特征在于,計算所述目標(biāo) 詞向量和所述參考詞向量的相似度包括: 計算所述目標(biāo)詞向量和所述參考詞向量的夾角的余弦值;W及 通過余弦值計算所述目標(biāo)詞向量和所述參考詞向量的相似度。
6. -種用于文本識別的數(shù)據(jù)處理裝置,其特征在于,包括: 第一獲取單元,用于獲取語料中的目標(biāo)詞; 第二獲取單元,用于獲取所述語料中的參考詞; 轉(zhuǎn)換單元,用于將所述目標(biāo)詞轉(zhuǎn)換為詞向量,得到目標(biāo)詞向量,將所述參考詞轉(zhuǎn)換為詞 向量,得到參考詞向量; 計算單元,用于計算所述目標(biāo)詞向量和所述參考詞向量的相似度; 比較單元,用于比較所述相似度和預(yù)設(shè)闊值;W及 確定單元,用于當(dāng)所述相似度不大于所述預(yù)設(shè)闊值,則確定所述目標(biāo)詞是背景噪音詞, 當(dāng)所述相似度大于所述預(yù)設(shè)闊值,則確定所述目標(biāo)詞不是背景噪音詞。
7. 根據(jù)權(quán)利要求6所述的用于文本識別的數(shù)據(jù)處理裝置,其特征在于,所述參考詞向 量包括多個參考詞向量,所述計算單元包括: 第一計算模塊,用于依次計算所述目標(biāo)詞向量與所述多個參考詞向量中每一個參考詞 向量的相似度,得到所述目標(biāo)詞向量與所述多個參考詞向量的相似度集合;w及 獲取模塊,用于獲取所述相似度集合中值最大的相似度作為所述目標(biāo)詞向量與所述參 考詞向量的相似度。
8. 根據(jù)權(quán)利要求6所述的用于文本識別的數(shù)據(jù)處理裝置,其特征在于,所述轉(zhuǎn)換單元 通過分布式描述裝置將所述目標(biāo)詞轉(zhuǎn)換為詞向量,得到所述目標(biāo)詞向量,將所述參考詞轉(zhuǎn) 換為詞向量,得到所述參考詞向量。
9. 根據(jù)權(quán)利要求6所述的用于文本識別的數(shù)據(jù)處理裝置,其特征在于,所述裝置還包 括: 分詞單元,用于將所述語料中的文本進行分詞,得到切分詞集合;W及 過濾單元,用于過濾所述切分詞集合中的停用詞, 其中,從過濾停用詞后的切分詞集合中獲取所述目標(biāo)詞和所述參考詞。
10. 根據(jù)權(quán)利要求6所述的用于文本識別的數(shù)據(jù)處理裝置,其特征在于,所述計算單元 包括: 第二計算模塊,用于計算所述目標(biāo)詞向量和所述參考詞向量的夾角的余弦值;W及 第=計算模塊,用于通過余弦值計算所述目標(biāo)詞向量和所述參考詞向量的相似度。
【文檔編號】G06F17/30GK104462378SQ201410751278
【公開日】2015年3月25日 申請日期:2014年12月9日 優(yōu)先權(quán)日:2014年12月9日
【發(fā)明者】何鑫 申請人:北京國雙科技有限公司