本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種改進(jìn)的文本相似度求解方法。
背景技術(shù):
目前主要的文本相似度計(jì)算方法有兩類,第一類是基于數(shù)理統(tǒng)計(jì)的方法,例如經(jīng)典的向量空間模型方法。這類方法計(jì)算簡(jiǎn)單,能在詞匯出現(xiàn)的頻度和頻率層面上反映兩個(gè)文本的相似程度。但是一個(gè)有實(shí)際意義的文本,它有自己想表達(dá)的中心思想,這是語(yǔ)義層面上的概念,數(shù)理統(tǒng)計(jì)方法提取出來(lái)的中心思想與文本實(shí)際表達(dá)的中心思想相差甚遠(yuǎn)。因此,如果想要準(zhǔn)確的計(jì)算文本之間的相似度,必須從語(yǔ)義層面上進(jìn)行著手;第二類是基于語(yǔ)義分析的方法,這類方法利用語(yǔ)義詞典對(duì)文本中的詞匯進(jìn)行語(yǔ)義分析,但沒(méi)有深入語(yǔ)義間的內(nèi)在聯(lián)系,也沒(méi)有考慮文本中特征詞匯中不同詞匯對(duì)文本的重要程度的差異問(wèn)題,因此計(jì)算的準(zhǔn)確率較低。為了滿足上述需求,本發(fā)明提供了一種改進(jìn)的文本相似度求解方法。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)于文本中特征詞匯中不同詞匯對(duì)文本的重要程度的差異問(wèn)題,本發(fā)明提供了一種改進(jìn)的文本相似度求解方法。
為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:初始化文本語(yǔ)料庫(kù)模塊,對(duì)待比較文本(W1,W2)的進(jìn)行預(yù)處理。
步驟2:基于信息論方法,計(jì)算詞匯在文本中權(quán)重值WI。
步驟3:根據(jù)詞匯位置信息,計(jì)算詞匯在文本中的權(quán)重值
步驟4:綜合考慮上述兩因子,構(gòu)造提取文本(W1,W2)中的特征值目標(biāo)函數(shù)分別提取文本(W1,W2)中的特征值。
步驟5:求解待比較文本(W1,W2)間的文本相似度sim(W1,W2)。
本發(fā)明有益效果是:
1、此方法比傳統(tǒng)的文本相似度計(jì)算方法得到的結(jié)果具有更高的準(zhǔn)確性,更符合人工提取的結(jié)果。
2、此方法在信息檢索、機(jī)器翻譯、自動(dòng)問(wèn)答系統(tǒng)等領(lǐng)域都具有更好的適用性。
3、為后續(xù)的文本聚類提供良好的理論基礎(chǔ)。
附圖說(shuō)明
圖1一種改進(jìn)的文本相似度求解方法的結(jié)構(gòu)流程圖
具體實(shí)施方式
為了解決文本中特征詞匯中不同詞匯對(duì)文本的重要程度的差異,結(jié)合圖1對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:
步驟1:初始化文本語(yǔ)料庫(kù)模塊,對(duì)待比較文本(W1,W2)的進(jìn)行預(yù)處理,其具體描述過(guò)程如下:
利用分詞系統(tǒng)和停用表分別對(duì)文本(W1,W2)進(jìn)行分詞和去停用詞處理。
步驟2:基于信息論方法,計(jì)算詞匯在文本中權(quán)重值WI,其具體計(jì)算過(guò)程如下:
基于信息論詞頻的計(jì)算公式有:
上式為詞匯關(guān)于詞頻在文檔中所具有的信息量,p(c1,2)分別為詞c1、c2在文本中的概率值。
基于信息論文檔頻率的計(jì)算公式有:
為詞匯關(guān)于文檔頻率在文檔庫(kù)中所具有的信息量,為分別含有c1、c2的文檔數(shù),N為文檔庫(kù)中文檔的總個(gè)數(shù)。
綜上所述,有基于信息論計(jì)算詞匯權(quán)重的函數(shù),如下式:
步驟3:根據(jù)詞匯位置信息,計(jì)算詞匯在文本中的權(quán)重值其具體計(jì)算過(guò)程如下:
根據(jù)調(diào)研資料顯示,特征詞越在文本靠前位置,越能代表文本的中心思想。通過(guò)步驟2得到詞匯在文本的權(quán)重值,取前20個(gè)特征詞匯。對(duì)這些詞匯進(jìn)行位置權(quán)重劃分。有位置向量,如下:
詞匯位置權(quán)重函數(shù)為:
上式ai與bj分別為特征詞最靠前出現(xiàn)的段落位置和對(duì)應(yīng)段落所在的句子位置。
步驟4:綜合考慮上述兩因子,構(gòu)造提取文本(W1,W2)中的特征值目標(biāo)函數(shù)分別提取文本(W1,W2)中的特征值,其具體計(jì)算過(guò)程如下:
提取文本(W1,W2)中的特征值目標(biāo)函數(shù)為:
上式α、β分別為WI、對(duì)特征提取影響的權(quán)重系數(shù),α+β=1,一般α>β,即基于信息論得到的詞頻與文檔頻率的權(quán)重函數(shù)對(duì)文本(W1,W2)中特征提取的影響更大,其值可以根據(jù)實(shí)驗(yàn)測(cè)試出來(lái)。
步驟5:求解待比較文本(W1,W2)間的文本相似度sim(W1,W2),其具體計(jì)算過(guò)程如下:
根據(jù)步驟4計(jì)算得出的特征詞匯權(quán)重值,相關(guān)領(lǐng)域?qū)<疫x取前m位關(guān)鍵詞,這里m<20,既分別有文本(W1,W2)對(duì)應(yīng)的特征詞向量。
根據(jù)歐式距離計(jì)算兩特征詞向量間的距離
最后得到兩文本(W1,W2)間的文本相似度sim(W1,W2):
上式ω為平滑因子,可以根據(jù)實(shí)驗(yàn)得出最佳值。