專利名稱:一種計(jì)算中文詞語(yǔ)語(yǔ)義相似度的控制方法以及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本挖掘領(lǐng)域,具體地,是一種計(jì)算中文詞語(yǔ)語(yǔ)義相似度的方法。
背景技術(shù):
詞語(yǔ)語(yǔ)義相似度是信息處理領(lǐng)域中的一個(gè)重要課題,它在詞義排歧、機(jī)器翻譯、自動(dòng)應(yīng)答、情報(bào)檢索、文本類聚等應(yīng)用中都有廣泛用途。然而詞語(yǔ)相似度是一個(gè)主觀性相當(dāng)強(qiáng)的概念,如何得到一個(gè)接近于人類判斷標(biāo)準(zhǔn)的相似度是一項(xiàng)很困難的工作?,F(xiàn)有的詞語(yǔ)相似度計(jì)算大致分為兩類一類是根據(jù)某種世界知識(shí)來計(jì)算,另一類是利用大規(guī)模的語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)計(jì)算。前者根據(jù)概念間結(jié)構(gòu)層次關(guān)系組織成的語(yǔ)義詞典, 利用這類語(yǔ)言學(xué)資源中概念間的上下為關(guān)系和同為關(guān)系來計(jì)算詞語(yǔ)語(yǔ)義相似度,這類方法比較直觀而且簡(jiǎn)單有效,但它受人主觀影響比較大有事不能反映客觀現(xiàn)實(shí)。后者通過上下文背景知識(shí)的統(tǒng)計(jì)分布來進(jìn)行相似度計(jì)算,這種方法比較依賴于訓(xùn)練所用的語(yǔ)料庫(kù),計(jì)算量比較大,另外受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾比較大,有時(shí)會(huì)出現(xiàn)明顯的錯(cuò)誤。在英語(yǔ)方面,英語(yǔ)的詞語(yǔ)語(yǔ)義相似度研究已經(jīng)比較成熟,眾多的研究人員不僅提出了大量的計(jì)算方法,而且在評(píng)價(jià)標(biāo)準(zhǔn)、語(yǔ)料庫(kù)、語(yǔ)義字典等方面均已比較完備。但中文由于其本身的特殊性,在分詞,語(yǔ)法,語(yǔ)義等方面相對(duì)于英語(yǔ)來說都更復(fù)雜,所以研究成果比較匱乏,而且結(jié)果也不是很理想。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種計(jì)算中文詞語(yǔ)語(yǔ)義相似度的控制方法,其特征在于,包括如下步驟a.獲取詞語(yǔ)對(duì),并根據(jù)所述詞語(yǔ)對(duì)獲取相應(yīng)的特征向量,其中所述詞語(yǔ)對(duì)包括第一詞語(yǔ)以及第二詞語(yǔ),與之相對(duì)應(yīng)的特征向量為第一特征向量以及第二特征向量;b.將只在所述第一特征向量或者所述第二特征向量出現(xiàn)的詞語(yǔ)項(xiàng)作為第一詞語(yǔ)項(xiàng),查找所述第一詞語(yǔ)項(xiàng)在同義詞詞林中的編碼,根據(jù)所述編碼在同一特征向量中查找所述編碼下的詞語(yǔ)項(xiàng),將查找出的詞語(yǔ)項(xiàng)對(duì)應(yīng)的值中最大的值作為所述第一詞語(yǔ)項(xiàng)的值,其中,對(duì)每一個(gè)只在所述第一特征向量或者所述第二特征向量出現(xiàn)的詞語(yǔ)項(xiàng),重復(fù)步驟b,分別得到相對(duì)應(yīng)與所述第一特征向量的第一拓展特征向量以及相對(duì)應(yīng)于所述第二特征向量的第二拓展特征向量;c.將所述第一特征向量以及第二特征向量中的一個(gè)詞語(yǔ)項(xiàng)作為第二詞語(yǔ)項(xiàng),查找其在同義詞詞林中的編碼,將所述第二詞語(yǔ)項(xiàng)所在的原始向量中屬于所述編碼的所有詞語(yǔ)項(xiàng)對(duì)應(yīng)的值進(jìn)行累加并將該編碼和累加值加入到對(duì)應(yīng)的映射向量中,其中,對(duì)每一個(gè)所述第一特征向量以及第二特征向量的詞語(yǔ)項(xiàng)重復(fù)步驟C,分別得到相對(duì)應(yīng)與所述第一特征向量的第一映射特征向量以及相對(duì)應(yīng)于所述第二特征向量的第二映射特征向量;以及d.根據(jù)所述拓展特征向量以及所述映射特征向量計(jì)算詞語(yǔ)相似度。根據(jù)本發(fā)明的另一個(gè)方面還提供一種計(jì)算中文詞語(yǔ)語(yǔ)義相似度的控制裝置,其特征在于,包括如下模塊特征向量生成模塊,其用于分別生成與所述第一詞語(yǔ)以及第二詞語(yǔ)對(duì)應(yīng)的第一特征向量以及第二特征向量;拓展特征向量生成模塊,其用于對(duì)所述特征向量進(jìn)行詞義拓展生成拓展特征向量;映射特征向量生成模塊,其用于對(duì)所述特征向量進(jìn)行語(yǔ)義映射生成映射特征向量;以及相似度計(jì)算模塊,其用于根據(jù)所述拓展特征向量以及映射特征向量的相似度計(jì)算最終相似度的值。根據(jù)本發(fā)明的另一個(gè)方面還提供一種計(jì)算中文詞語(yǔ)語(yǔ)義相似度的計(jì)算方法,其特征在于,包括如下步驟a.獲取與特定的詞語(yǔ)對(duì)相關(guān)的特征向量;b.對(duì)獲得的特征向量進(jìn)行語(yǔ)義拓展和語(yǔ)義映射;c.計(jì)算詞語(yǔ)相似度。優(yōu)選地,所述步驟a包括如下步驟al.對(duì)于特定的詞語(yǔ)對(duì),抓取特定量的文本片段。對(duì)于每個(gè)詞語(yǔ),我們從語(yǔ)料庫(kù)中抽取定量的包含了該詞的文本片段;a2.對(duì)于獲得到的文本片段,首先進(jìn)行分詞,統(tǒng)計(jì)共現(xiàn)詞出現(xiàn)的頻度,對(duì)于每個(gè)特定詞語(yǔ),得到一個(gè)跟它相關(guān)的由它共現(xiàn)詞以及頻數(shù)組成的特征向量;a3.引入一個(gè)參數(shù)μ,對(duì)a2中的向量進(jìn)行初步過濾。
·
優(yōu)選地,所述步驟b包括如下步驟bl.對(duì)于步驟a中獲得到的特征向量,進(jìn)行語(yǔ)義拓展,得到新的特征向量;b2.對(duì)于步驟a中獲得到的特征向量進(jìn)行語(yǔ)義映射,得到另一組新的特征向量。優(yōu)選地,所述步驟bl包括如下步驟bll.對(duì)于只在一個(gè)向量V1中出現(xiàn)的項(xiàng)I1,我們首先得到它在同義詞詞林中的編碼山12.在同一個(gè)向量V1中查找屬于該編碼的項(xiàng);在'中用那些項(xiàng)中的值的最大值作為項(xiàng)I1的值。優(yōu)選地,所述步驟b2包括如下步驟,b21.我們把步驟a中得到的特征向量的項(xiàng)映射到同義詞詞林的編碼山22.用原始向量中處于此編碼下的項(xiàng)的值的累加值作為新的特征向量的值。優(yōu)選地,所述步驟c包括如下步驟cl.對(duì)步驟b中獲得的兩組新向量進(jìn)行詞頻對(duì)比度過濾;c2.利用余弦相似度計(jì)算公式得到兩個(gè)相似度值;c3.對(duì)兩個(gè)相似度值進(jìn)行加權(quán)計(jì)算得到最終相似度值。優(yōu)選地,所述步驟c包括如下步驟cll.引入詞頻對(duì)比度參數(shù)λ ;cl2.只保留兩個(gè)向量中頻數(shù)比值在l/λ和λ之間的項(xiàng)。優(yōu)選地,所述步驟c2包括如下步驟c21.利用余弦相似度計(jì)算公式根據(jù)步驟bl得到的語(yǔ)義拓展向量得到相似度Simraipansim ;c22.利用余弦相似度計(jì)算公式根據(jù)步驟bl得到的語(yǔ)乂拓展向星得到相似度Simmapping。優(yōu)選地,所述步驟c3包括如下步驟c31.引入?yún)?shù)α ;c32.最終相似度計(jì)算公式為 Sim= a Simexpansion+(I- a ) Simmapping0針對(duì)現(xiàn)有中文詞語(yǔ)相似度計(jì)算方法的不準(zhǔn)確性,本發(fā)明通過結(jié)合利用同義詞詞林(擴(kuò)展版)以及大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)兩種傳統(tǒng)相似度計(jì)算方法,考慮到了傳統(tǒng)的基于統(tǒng)計(jì)的方法可能存在的語(yǔ)義缺失和稀疏性問題。利用同義詞林來對(duì)特征向量進(jìn)行豐富,提高了相似度計(jì)算的準(zhǔn)確度。
通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖I示出根據(jù)本發(fā)明的第一實(shí)施例的,所述計(jì)算中文詞語(yǔ)語(yǔ)義相似度的控制方法的流程圖;圖2示出根據(jù)本發(fā)明的第一實(shí)施例的,在根據(jù)所述詞對(duì)獲取所述特征向量的流程圖;圖3示出根據(jù)本發(fā)明的第一實(shí)施例的,對(duì)所述特征向量進(jìn)行語(yǔ)義拓展獲取拓展特征向量的流程圖;圖4示出根據(jù)本發(fā)明的第一實(shí)施例的,對(duì)所述特征向量進(jìn)行語(yǔ)義映射獲取映射特征向量的流程圖;以及圖5示出根據(jù)本發(fā)明的第二實(shí)施例的,所述計(jì)算中文詞語(yǔ)語(yǔ)義相似度控制裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖I示出根據(jù)本發(fā)明的第一實(shí)施例的,所述計(jì)算中文詞語(yǔ)語(yǔ)義相似度的控制方法的流程圖。具體地,本圖示出了所述計(jì)算中文詞語(yǔ)語(yǔ)義相似度的六個(gè)步驟。首選是步驟S201,所述控制裝置獲取所述待計(jì)算的中文詞對(duì),其中,所述中文詞對(duì)包括第一詞語(yǔ)以及第二詞語(yǔ),并根據(jù)所述詞對(duì)分別生成與所述詞語(yǔ)相適應(yīng)的特征向量,其中所述特征向量分別為與所述第一詞語(yǔ)相對(duì)應(yīng)的第一特征向量以及與所述第二詞語(yǔ)相對(duì)應(yīng)的第二特征向量,所述特征向量通過包含所述詞對(duì)的文本片段的獲取,分詞,統(tǒng)計(jì)篩選等過程進(jìn)行生成。具體地,所述特征向量的生成如圖2所示。之后為步驟S202,所述控制裝置對(duì)根據(jù)所述詞對(duì)生成的第一特征向量以及第二特征向量進(jìn)行語(yǔ)義拓展并分別生成第一拓展特征向量以及第二拓展特征向量,所述拓展特征向量通過只在一個(gè)所述特征向量中的詞語(yǔ)項(xiàng)在同一特征向量中同義詞的頻數(shù),也就是同一特征向量中同義詞的值進(jìn)行所述只在一個(gè)所述特征向量中的詞語(yǔ)項(xiàng)的語(yǔ)義拓展,具體地,所述特征向量的語(yǔ)義拓展如圖3所示。步驟S202之后為步驟S203,所述控制裝置根據(jù)所述步驟S202中生成的拓展特征向量進(jìn)行余弦相似度計(jì)算。優(yōu)選地,在所述步驟S202執(zhí)行的同時(shí)執(zhí)行步驟S204,所述控制裝置對(duì)根據(jù)所述詞對(duì)生成的第一特征向量以及第二特征向量進(jìn)行語(yǔ)義映射并分別生成第一映射特征向量以及第二映射特征向量,所述映射特征向量通過所述特征向量中的詞語(yǔ)項(xiàng)在所述詞語(yǔ)項(xiàng)所在的特征向量的原始向量中同義詞的頻數(shù),也就是所述原始向量中所述詞語(yǔ)項(xiàng)的同義詞的值的累加值進(jìn)行語(yǔ)義映射。具體地,所述特征向量的語(yǔ)義映射如圖4所示。步驟S204之后為步驟S205,所述控制裝置根據(jù)所述步驟S202中生成的映射特征向量進(jìn)行余弦相似度計(jì)算。所述步驟S203以及步驟S205執(zhí)行完成后獲得兩個(gè)相似度的值也就是根據(jù)第一拓展特征向量與第二特征拓展向量計(jì)算的拓展相似度以及根據(jù)第一映射特征向量以及第二映射特征向量計(jì)算的映射相似度的值,步驟S206根據(jù)獲得的兩個(gè)相似度的值進(jìn)行加權(quán)計(jì)算,所述最終相似度根據(jù)如下公式計(jì)算Sim=a Simexpansim+(I-a ) SimmappingA11K α為加權(quán)參數(shù)。ct的值優(yōu)選地可以不斷得根據(jù)最終相似度的值以及所述詞語(yǔ)對(duì)進(jìn)行調(diào)試。在本實(shí)施例的一個(gè)變化例中,所述控制裝置通過對(duì)所述拓展特征向量以及所述映射特征向量中的詞語(yǔ)項(xiàng)進(jìn)行過濾來刪除過于離散的詞語(yǔ)項(xiàng)以實(shí)現(xiàn)所述最終相似度計(jì)算的準(zhǔn)確性。具體地,所述步驟S203之前對(duì)所述第一拓展特征向量以及第二拓展特征向量中的詞語(yǔ)項(xiàng)進(jìn)行過濾,若所述第一拓展特征向量與第二拓展特征向量詞語(yǔ)項(xiàng)的頻數(shù)比在第二閾值與第二閾值的倒數(shù)之間,則保留為新第一拓展特征向量與新第二拓展特征向量的詞語(yǔ)項(xiàng)。之后執(zhí)行步驟S203,所述控制裝置對(duì)新第一拓展特征向量與新第二拓展特征向量進(jìn)行余弦相似度計(jì)算。同時(shí)在步驟S2 05之前對(duì)所述第一映射特征向量以及第二映射特征向量中的詞語(yǔ)項(xiàng)進(jìn)行過濾,若所述第一映射特征向量與第二映射特征向量詞語(yǔ)項(xiàng)的頻數(shù)比在第二閾值與第二閾值的倒數(shù)之間,則保留為新第一映射特征向量與新第二映射特征向量的詞語(yǔ)項(xiàng)。之后執(zhí)行步驟S205,所述控制裝置對(duì)新第一映射特征向量與新第二映射特征向量進(jìn)行余弦相似度計(jì)算。本領(lǐng)域技術(shù)人員理解,本領(lǐng)域技術(shù)人員結(jié)合現(xiàn)有技術(shù)以及上述實(shí)施例可以實(shí)現(xiàn)所述變化例,在此不予贅述。這樣的變化例并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容,在此不予贅述。圖2示出根據(jù)本發(fā)明的第一實(shí)施例的,在根據(jù)所述詞對(duì)獲取所述特征向量的流程圖。具體地,圖2示出了所述特征向量通過包含所述詞對(duì)的文本片段的獲取,分詞,統(tǒng)計(jì)篩選等過程進(jìn)行生成過程,其共有8個(gè)步驟。首先是步驟S211,所述控制裝置獲取待計(jì)算的詞對(duì),優(yōu)選地,所述詞對(duì)由用戶進(jìn)行輸入。在本實(shí)施例的一個(gè)變化例中,所述控制裝置作為詞義排歧、機(jī)器翻譯、自動(dòng)應(yīng)答、情報(bào)檢索、文本類聚等應(yīng)用的子裝置,所述詞語(yǔ)對(duì)的輸入由上述應(yīng)用的其他模塊進(jìn)行選擇輸入。之后為步驟S212,所述控制裝置分別獲取包含所述第一詞語(yǔ)以及第二詞語(yǔ)的文本片段,具體地,所述控制裝置從語(yǔ)料庫(kù)中抓取定量的文本片段。步驟S212后為步驟S213,所述控制裝置對(duì)所述第一文本片段以及所述第二文本片段進(jìn)行分詞。所述分詞工具優(yōu)選地,可以是ICTCLAS分詞工具,其分詞及詞性標(biāo)注精度達(dá)95%以上。分詞后所述短句被分成具有獨(dú)立語(yǔ)義的詞語(yǔ),每個(gè)詞語(yǔ)都有詞性標(biāo)注。根據(jù)通用停詞表可以去掉一些無意義的詞語(yǔ),這也就是步驟S214,所述控制裝置判斷所述詞語(yǔ)是否為停詞,如“在”、“里面”、“也”、“的”、“它”、“為”為停詞,若所述詞語(yǔ)為停詞則進(jìn)行詞語(yǔ)刪除并進(jìn)一步判斷下一詞語(yǔ)是否為停詞,若所述詞語(yǔ)不是停詞則保留。之后執(zhí)行步驟S215,統(tǒng)計(jì)所述第一文本片段以及所述第二文本片段的詞頻。步驟S215執(zhí)行完后執(zhí)行步驟S216,以所述共現(xiàn)詞為詞語(yǔ)項(xiàng),所述共現(xiàn)詞的頻數(shù)為所述詞語(yǔ)項(xiàng)的值,生成所述原始向量,其中所述原始向量為分別對(duì)應(yīng)第一詞語(yǔ)的第一原始向量以及對(duì)應(yīng)第二詞語(yǔ)的第二原始向量。之后執(zhí)行步驟S217,判斷所述第一原始向量以及第二原始向量中所述詞語(yǔ)項(xiàng)的頻數(shù),也就是所述詞語(yǔ)項(xiàng)的值是否大于第一閾值,若所述詞語(yǔ)項(xiàng)的值大于所述第一閾值則予以保留作為所述特征向量的詞語(yǔ)項(xiàng),若所述詞語(yǔ)項(xiàng)的值小于所述第一閾值則進(jìn)行詞語(yǔ)刪除。S217之后執(zhí)行步驟S218,將所述保留的詞語(yǔ)項(xiàng)及其值作為所述特征向量的詞語(yǔ)項(xiàng)及其值,由此生成所述特征向量,所述第一原始向量對(duì)應(yīng)所述第一特征向量,所述第二原始向量對(duì)應(yīng)所述第二特征向量。具體地,本領(lǐng)域技術(shù)人員理解,所述第一閾值的確定,優(yōu)選地,可以是給定的數(shù)值,如5,15,20等,也可以是關(guān)于所述文本片段的量的函數(shù)。圖3示出根據(jù)本發(fā)明的第一實(shí)施例的,對(duì)所述特征向量進(jìn)行語(yǔ)義拓展獲取拓展特征向量的流程圖。具體地,本圖示出了 5個(gè)步驟,首先是步驟S221,所述控制裝置獲取只在一個(gè)特征向量中出現(xiàn)的詞語(yǔ)項(xiàng)在同義詞詞林中的編碼。具體地,本領(lǐng)域技術(shù)人員理解,所述第一特征向量以及所述第二特征向量中的詞語(yǔ)項(xiàng)經(jīng)過第一閾值的過濾,有些詞語(yǔ)項(xiàng)只存在某一特征向量中。之后執(zhí)行步驟S222,所述詞語(yǔ)項(xiàng)在同義詞詞林中的編碼被獲取后,在同一特征向量中查找所述編碼下的詞語(yǔ)項(xiàng)的值中最大的一項(xiàng)。其后執(zhí)行步驟S223,并將所述最大值作為所述步驟S221中所述的詞語(yǔ)項(xiàng)的值。具體地,本領(lǐng)域技術(shù)人員理解,若所述詞語(yǔ)項(xiàng)“成功”只存在于所述第二特征向量中,則在所述第二特征向量中查找在同義詞詞林中與所述詞語(yǔ)項(xiàng)“成功”屬于同一編號(hào)下的“勝利”、“獲勝”等,所述第二特征向量中詞語(yǔ)項(xiàng)“勝利”的值為6、詞語(yǔ)項(xiàng)“獲勝”的值為8,由于所述詞語(yǔ)項(xiàng)“獲勝”的值大于“勝利”的值則將所述第二特征向量中詞語(yǔ)項(xiàng)“獲勝”的值作為所述第二特征向量中詞語(yǔ)項(xiàng)“成功”的值,此時(shí),所述第二特征向量中“成功”的值變?yōu)?。步驟S223執(zhí)行完成后執(zhí)行步驟S224,所述控制裝置判斷是否所有只存在于一個(gè)特征向量中的詞語(yǔ)項(xiàng)都已處理完畢,若還有所述只存在于一個(gè)特征向量中的詞語(yǔ)項(xiàng)未被處理,則重復(fù)執(zhí)行步驟S221至步驟S223。若判斷所有只存在于一個(gè)特征向量中的詞語(yǔ)項(xiàng)都已處理完畢則生成所述拓展特征向量,其中,所述第一拓展特征向量對(duì)應(yīng)所述第一特征向量,所述第二拓展特征向量對(duì)應(yīng)所述第二特征向量。具體地,本領(lǐng)域技術(shù)人員理解,優(yōu)選地,所述控制裝置判斷是否所有只存在于一個(gè)特征向量中的詞語(yǔ)項(xiàng)都已處理完畢之前,對(duì)已處理的詞語(yǔ)項(xiàng)做相應(yīng)處理記號(hào)以便區(qū)分只存在于一個(gè)特征向量中的詞語(yǔ)是否已處理。 圖4示出根據(jù)本發(fā)明的第一實(shí)施例的,對(duì)所述特征向量進(jìn)行語(yǔ)義映射獲取映射特征向量的流程圖。具體地,本圖示出了 5個(gè)步驟,首先是步驟S241,所述控制裝置獲取特征向量中詞語(yǔ)項(xiàng)在同義詞詞林中的編碼。之后執(zhí)行步驟S242,獲取所述詞語(yǔ)項(xiàng)在同義詞詞林中的編碼被獲取,在同一特征向量的原始向量中查找所述編碼下的詞語(yǔ)項(xiàng)的值并進(jìn)行累力口。其后執(zhí)行步驟S243,并將所述累加值作為所述映射特征向量中該詞語(yǔ)項(xiàng)的值。具體地,本領(lǐng)域技術(shù)人員理解,對(duì)于原始向量爸爸=I媽媽:295,母親:11,爹0,爸:48,節(jié)11,····};父親={媽媽20,母親144,爹10,爸10,節(jié)53,....};映射后生成的向量為爸爸=認(rèn)1104801:306,六1104六01:48,0&24六01:11···};父親={Ah04B01:164,AhO4AOl:20,Ca24AOl: 53. · · };因?yàn)閶寢尯湍赣H被映射到同義詞詞林中的編碼Ah04B01,爹和爸映射到同義詞詞林中的編碼Ah04A01,節(jié)被映射到同義詞詞林中的編碼Ca24A01。在本實(shí)施例的一個(gè)變化例中,所述控制裝置獲取所述詞語(yǔ)項(xiàng)在同義詞詞林中的編碼,如果該編碼在對(duì)應(yīng)的特征向量中沒有被統(tǒng)計(jì)過,將所述詞語(yǔ)項(xiàng)所在的特征向量中屬于所述編碼的所有詞語(yǔ)項(xiàng)對(duì)應(yīng)的值進(jìn)行累加并將該編碼和累加值加入到對(duì)應(yīng)的映射向量中。之后執(zhí)行步驟S244,所述控制裝置判斷是否所有特征向量中的詞語(yǔ)項(xiàng)都已處理完畢,若還有所述特征向量中的詞語(yǔ)項(xiàng)未被處理,則重復(fù)執(zhí)行步驟S241至步驟S243。若判斷所有特征向量中的詞語(yǔ)項(xiàng)都已處理完畢則生成所述映射特征向量,其中,所述第一映射特征向量對(duì)應(yīng)所述第一特征向量,所述第二映射特征向量對(duì)應(yīng)所述第二特征向量。圖5示出根據(jù)本發(fā)明的第二實(shí)施例的,所述計(jì)算中文詞語(yǔ)語(yǔ)義相似度控制裝置的結(jié)構(gòu)示意圖。具體地本圖示出了四個(gè)模塊,包括特征向量生成模塊11,其用于分別生成與所述第一詞語(yǔ)以及第二詞語(yǔ)對(duì)應(yīng)的第一特征向量以及第二特征向量;拓展特征向量生成模塊12,其用于對(duì)所述特征向量進(jìn)行詞義拓展生成拓展特征向量;映射特征向量生成模塊13,其用于對(duì)所述特征向量進(jìn)行語(yǔ)義映射生成映射特征向量;以及相似度計(jì)算模塊14,其用于根據(jù)所述拓展特征向量以及映射特征向量的相似度計(jì)算最終相似度的值。具體地,所述特征向量生成模塊11包括文本獲取模塊,其用于獲取分別包含第一詞語(yǔ)以及第二詞語(yǔ)的定量文本片段;頻數(shù)統(tǒng)計(jì)模塊,其用于統(tǒng)計(jì)所述文本片段中出現(xiàn)的共現(xiàn)詞的頻數(shù);第一判斷模塊,其用于判斷所述共現(xiàn)詞的頻數(shù)是否大于第一閾值;以及第一生成模塊,其用于根據(jù)所述第一判斷模塊的判斷結(jié)果生成所述特征向量(圖中均未示出)。更為具體地,所述文本獲取模塊所述控制裝置分別獲取包含所述第一詞語(yǔ)以及第二詞語(yǔ)的文本片段,具體地,所述控制裝置從語(yǔ)料庫(kù)中抓取定量的文本片段,并且所述第一文本片段包含所述第一詞語(yǔ),所述第二文本片段包括所述第二詞語(yǔ)。所述頻數(shù)統(tǒng)計(jì)模塊具體地,統(tǒng)計(jì)所述第一文本片段以及所述第二文本片段中不為停詞的共現(xiàn)詞的詞頻。所述第一判斷模塊判斷所述第一原始向量以及第二原始向量中所述詞語(yǔ)項(xiàng)的頻數(shù),也就是所述詞語(yǔ)項(xiàng)的值是否大于第一閾值,若所述詞語(yǔ)項(xiàng)的值大于所述第一閾值則予以保留作為所述特征向量的詞語(yǔ)項(xiàng)。所述第一生成模塊將所述保留的詞語(yǔ)項(xiàng)及其值作為所述特征向量的詞語(yǔ)項(xiàng)及其值,由此生成所述特征向量,其中,所述第一原始向量對(duì)應(yīng)所述第一特征向量,所述第二原始向量對(duì)應(yīng)所述第二特征向量。所述拓展特征向量生成模塊12對(duì)根據(jù)所述詞對(duì)生成的第一特征向量以及第二特征向量進(jìn)行語(yǔ)義拓展并分別生成第一拓展特征向量以及第二拓展特征向量,所述拓展特征向量通過只在一個(gè)所述特征向量中的詞語(yǔ)項(xiàng)在另一特征向量中同義詞的頻數(shù),也就是另一特征向量中同義詞的值進(jìn)行所述只在一個(gè)所述特征向量中的詞語(yǔ)項(xiàng)的語(yǔ)義拓展。所述映射特·征向量生成模塊13對(duì)根據(jù)所述詞對(duì)生成的第一特征向量以及第二特征向量進(jìn)行語(yǔ)義映射并分別生成第一映射特征向量以及第二映射特征向量,所述映射特征向量通過所述特征向量中的詞語(yǔ)項(xiàng)在所述詞語(yǔ)項(xiàng)所在的特征向量的原始向量中同義詞的頻數(shù),也就是所述原始向量中所述詞語(yǔ)項(xiàng)同屬的同義詞詞林編碼的詞語(yǔ)項(xiàng)的值的累加值進(jìn)行語(yǔ)義映射。所述相似度計(jì)算模塊14,具體地,根據(jù)所述拓展特征向量生成模塊12中生成的拓展特征向量進(jìn)行余弦相似度計(jì)算以及根據(jù)所述映射特征向量生成模塊13中生成的映射特征向量進(jìn)行余弦相似度計(jì)算。根據(jù)獲得的兩個(gè)相似度的值進(jìn)行加權(quán)計(jì)算,所述最終相似度根據(jù)如下公式計(jì)算Sim= CiSimexpansim+(I-a) Simmapping,其中,α為加權(quán)參數(shù)。α的值優(yōu)選地可以不斷得根據(jù)最終相似度的值以及所述詞語(yǔ)對(duì)進(jìn)行調(diào)試。優(yōu)選地,在所述拓展特征向量生成模塊12以及所述映射特征向量生成模塊13可以同時(shí)運(yùn)行。以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。
權(quán)利要求
1.一種計(jì)算中文詞語(yǔ)語(yǔ)義相似度的控制方法,其特征在于,包括如下步驟 a.獲取詞語(yǔ)對(duì),并根據(jù)所述詞語(yǔ)對(duì)獲取相應(yīng)的特征向量,其中所述詞語(yǔ)對(duì)包括第一詞語(yǔ)以及第二詞語(yǔ),與之相對(duì)應(yīng)的特征向量為第一特征向量以及第二特征向量; b.對(duì)所述特征向量進(jìn)行語(yǔ)義拓展獲得拓展特征向量; c.對(duì)所述特征向量進(jìn)行語(yǔ)義映射獲得映射特征向量;以及 d.根據(jù)所述拓展特征向量以及所述映射特征 向量計(jì)算詞語(yǔ)相似度。
2.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟b包括如下步驟 b/.將只在所述第一特征向量或者所述第二特征向量出現(xiàn)的詞語(yǔ)項(xiàng)作為第一詞語(yǔ)項(xiàng),查找所述第一詞語(yǔ)項(xiàng)在同義詞詞林中的編碼,根據(jù)所述編碼在所述第一詞語(yǔ)項(xiàng)所屬的特征向量中查找所述編碼下的詞語(yǔ)項(xiàng),將查找出的詞語(yǔ)項(xiàng)對(duì)應(yīng)的值中最大的值作為所述第一詞語(yǔ)項(xiàng)的值, 其中,對(duì)每一個(gè)只在所述第一特征向量或者所述第二特征向量出現(xiàn)的詞語(yǔ)項(xiàng),重復(fù)步驟b',分別得到相對(duì)應(yīng)與所述第一特征向量的第一拓展特征向量以及相對(duì)應(yīng)于所述第二特征向量的第二拓展特征向量。
3.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟c包括如下步驟 c'.將所述第一特征向量以及第二特征向量中的一個(gè)詞語(yǔ)項(xiàng)作為第二詞語(yǔ)項(xiàng),查找其在同義詞詞林中的編碼,如果該編碼在對(duì)應(yīng)的特征向量中沒有被統(tǒng)計(jì)過,將所述第二詞語(yǔ)項(xiàng)所在的原始向量中屬于所述編碼的所有詞語(yǔ)項(xiàng)對(duì)應(yīng)的值進(jìn)行累加并將該編碼和累加值加入到對(duì)應(yīng)的映射向量中。, 其中,對(duì)每一個(gè)所述第一特征向量以及第二特征向量的詞語(yǔ)項(xiàng)重復(fù)步驟C,分別得到相對(duì)應(yīng)與所述第一特征向量的第一映射特征向量以及相對(duì)應(yīng)于所述第二特征向量的第二映射特征向量。
4.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟a包括如下步驟 al.對(duì)于所述第一詞語(yǔ)以及所述第二詞語(yǔ),分別在語(yǔ)料庫(kù)中抽取定量的包含所述第一詞語(yǔ)的第一文本片段和包含所述第二詞語(yǔ)的第二文本片段; a2.將所述第一文本片段以及第二文本片段進(jìn)行分詞,所述第一文本片斷中出現(xiàn)的詞語(yǔ)都是所述第一詞語(yǔ)的共現(xiàn)詞;所述第二文本片斷中出現(xiàn)的詞語(yǔ)都是所述第二詞語(yǔ)的共現(xiàn)詞,分別在兩個(gè)文本片段中進(jìn)行共現(xiàn)詞的頻數(shù)統(tǒng)計(jì),并將所述第一文本片段的共現(xiàn)詞及其頻數(shù)組成第一原始向量以及所述第二文本片段的共現(xiàn)詞及其頻數(shù)組成第二原始向量,其中所述共現(xiàn)詞作為所述向量的詞語(yǔ)項(xiàng),所述共現(xiàn)詞的頻數(shù)作為所述詞語(yǔ)項(xiàng)的值; a3.分別判斷所述第一原始向量以及第二原始向量各詞語(yǔ)項(xiàng)的值是否大于第一閾值;以及 a4.若所述第一原始向量或者第二原始向量各詞語(yǔ)項(xiàng)的值大于第一閾值則將所述詞語(yǔ)項(xiàng)及其值保留為所述第一特征向量或者第二特征向量的的詞語(yǔ)項(xiàng)及其值。
5.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟d包括如下步驟 dl.根據(jù)所述拓展特征向量以及所述映射特征向量利用余弦相似度計(jì)算公式得到兩個(gè)相似度值; d2.對(duì)兩個(gè)相似度值進(jìn)行加權(quán)計(jì)算得到最終相似度值。
6.根據(jù)權(quán)利要求5所述的控制方法,其特征在于,所述步驟dl之前包括如下步驟-判斷所述拓展特征向量之間以及所述映射特征拓展向量之間各詞語(yǔ)項(xiàng)的詞頻對(duì)比度是否在第二閾值以及第二閾值的倒數(shù)之間; -若所述拓展特征向量之間以及所述映射特征拓展向量之間各詞語(yǔ)項(xiàng)的詞頻對(duì)比度在第二閾值以及第二閾值的倒數(shù)之間,則將所述詞語(yǔ)項(xiàng)及其值保留為新拓展特征向量或者新映射特征拓展向量的詞語(yǔ)項(xiàng)及其值。
7.根據(jù)權(quán)利要求5所述的控制方法,其特征在于,所述步驟dl包括如下步驟 dll.根據(jù)所述第一拓展特征向量以及所述第二拓展特征向量利用余弦相似度計(jì)算公式得到拓展相似度值Simexpansim ; dl2.根據(jù)所述第一映射特征向量以及所述第二映射特征向量利用余弦相似度計(jì)算公式得到拓展相似度值Simmapping。
8.根據(jù)權(quán)利要求5至7任一項(xiàng)所述的控制方法,其特征在于,所述最終相似度根據(jù)如下 公式計(jì)算 Sim= a Simexpansion+(I- a ) Simm apping0 其中,α為加權(quán)參數(shù)。
9.一種計(jì)算中文詞語(yǔ)語(yǔ)義相似度的控制裝置,其特征在于,包括如下模塊 特征向量生成模塊,其用于分別生成與所述第一詞語(yǔ)以及第二詞語(yǔ)對(duì)應(yīng)的第一特征向量以及第二特征向量; 拓展特征向量生成模塊,其用于對(duì)所述特征向量進(jìn)行詞義拓展生成拓展特征向量; 映射特征向量生成模塊,其用于對(duì)所述特征向量進(jìn)行語(yǔ)義映射生成映射特征向量;以及 相似度計(jì)算模塊,其用于根據(jù)所述拓展特征向量以及映射特征向量的相似度計(jì)算最終相似度的值。
10.根據(jù)權(quán)利要求9所述的控制裝置,其特征在于,所述特征向量生成模塊包括 文本獲取模塊,其用于獲取分別包含第一詞語(yǔ)以及第二詞語(yǔ)的定量文本片段; 頻數(shù)統(tǒng)計(jì)模塊,其用于統(tǒng)計(jì)所述文本片段中出現(xiàn)的共現(xiàn)詞的頻數(shù); 第一判斷模塊,其用于判斷所述共現(xiàn)詞的頻數(shù)是否大于第一閾值;以及 第一生成模塊,其用于根據(jù)所述第一判斷模塊的判斷結(jié)果生成所述特征向量。
11.根據(jù)權(quán)利要求9所述的控制裝置,其特征在于,所述相似度計(jì)算模塊包括 第一計(jì)算模塊,其用于計(jì)算所述拓展特征向量以及所述映射特征向量的相似度的值; 第二計(jì)算模塊,其用于根據(jù)第一計(jì)算模塊的計(jì)算結(jié)果進(jìn)行加權(quán)計(jì)算獲得最終相似度的值。
12.根據(jù)權(quán)利要求11所述的控制裝置,其特征在于,所述相似度計(jì)算模塊包括 第二判斷模塊,其用于判斷所述拓展特征向量之間以及所述映射特征拓展向量之間各詞語(yǔ)項(xiàng)的詞頻對(duì)比度是否在第二閾值以及第二閾值的倒數(shù)之間; 第二生成模塊,其用于根據(jù)所述第二判斷模塊的判斷結(jié)果生成所述拓展特征向量以及所述映射特征向量。
13.根據(jù)權(quán)利要求11所述的控制裝置,其特征在于,所述第一計(jì)算模塊包括 拓展相似度計(jì)算模塊,其用于根據(jù)所述第一拓展特征向量以及所述第二拓展特征向量利用余弦相似度計(jì)算公式得到拓展相似度值Simraipansim ;映射相似度計(jì)算模塊,其用于根據(jù)所述第一映射特征向量以及所述第二映射特征向量利用余弦 相似度計(jì)算公式得到拓展相似度值Simmapping。
全文摘要
本發(fā)明提供一種計(jì)算中文詞語(yǔ)語(yǔ)義相似度的控制方法,其結(jié)合了基于同義詞詞林以及基于統(tǒng)計(jì)的方法,其特征在于,包括如下步驟a.獲取詞語(yǔ)對(duì),并根據(jù)所述詞語(yǔ)對(duì)獲取相應(yīng)的特征向量;b.對(duì)所述特征向量進(jìn)行語(yǔ)義拓展生成拓展特征向量;c.對(duì)所述特征向量進(jìn)行語(yǔ)義映射生成映射特征向量;以及d.根據(jù)所述拓展特征向量以及所述映射特征向量計(jì)算詞語(yǔ)相似度。
文檔編號(hào)G06F17/27GK102955774SQ20121017455
公開日2013年3月6日 申請(qǐng)日期2012年5月30日 優(yōu)先權(quán)日2012年5月30日
發(fā)明者楊燕, 吳雯, 吳奔斌, 霍曉駿, 王偉杰, 洪磊, 張波, 崔永利, 賀樑, 宋樹彬 申請(qǐng)人:華東師范大學(xué)