一種改進(jìn)的文本相似度求解方法與流程

文檔序號(hào)：11063473閱讀：765來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域，具體涉及一種改進(jìn)的文本相似度求解方法。

背景技術(shù)：

目前主要的文本相似度計(jì)算方法有兩類，第一類是基于數(shù)理統(tǒng)計(jì)的方法，例如經(jīng)典的向量空間模型方法。這類方法計(jì)算簡(jiǎn)單，能在詞匯出現(xiàn)的頻度和頻率層面上反映兩個(gè)文本的相似程度。但是一個(gè)有實(shí)際意義的文本，它有自己想表達(dá)的中心思想，這是語(yǔ)義層面上的概念，數(shù)理統(tǒng)計(jì)方法提取出來(lái)的中心思想與文本實(shí)際表達(dá)的中心思想相差甚遠(yuǎn)。因此，如果想要準(zhǔn)確的計(jì)算文本之間的相似度，必須從語(yǔ)義層面上進(jìn)行著手；第二類是基于語(yǔ)義分析的方法，這類方法利用語(yǔ)義詞典對(duì)文本中的詞匯進(jìn)行語(yǔ)義分析，但沒(méi)有深入語(yǔ)義間的內(nèi)在聯(lián)系，也沒(méi)有考慮文本中特征詞匯中不同詞匯對(duì)文本的重要程度的差異問(wèn)題，因此計(jì)算的準(zhǔn)確率較低。為了滿足上述需求，本發(fā)明提供了一種改進(jìn)的文本相似度求解方法。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)于文本中特征詞匯中不同詞匯對(duì)文本的重要程度的差異問(wèn)題，本發(fā)明提供了一種改進(jìn)的文本相似度求解方法。

為了解決上述問(wèn)題，本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的：

步驟1：初始化文本語(yǔ)料庫(kù)模塊，對(duì)待比較文本(W₁，W₂)的進(jìn)行預(yù)處理。

步驟2：基于信息論方法，計(jì)算詞匯在文本中權(quán)重值W_I。

步驟3：根據(jù)詞匯位置信息，計(jì)算詞匯在文本中的權(quán)重值

步驟4：綜合考慮上述兩因子，構(gòu)造提取文本(W₁，W₂)中的特征值目標(biāo)函數(shù)分別提取文本(W₁，W₂)中的特征值。

步驟5：求解待比較文本(W₁，W₂)間的文本相似度sim(W₁，W₂)。

本發(fā)明有益效果是：

1、此方法比傳統(tǒng)的文本相似度計(jì)算方法得到的結(jié)果具有更高的準(zhǔn)確性，更符合人工提取的結(jié)果。

2、此方法在信息檢索、機(jī)器翻譯、自動(dòng)問(wèn)答系統(tǒng)等領(lǐng)域都具有更好的適用性。

3、為后續(xù)的文本聚類提供良好的理論基礎(chǔ)。

附圖說(shuō)明

圖1一種改進(jìn)的文本相似度求解方法的結(jié)構(gòu)流程圖

具體實(shí)施方式

為了解決文本中特征詞匯中不同詞匯對(duì)文本的重要程度的差異，結(jié)合圖1對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明，其具體實(shí)施步驟如下：

步驟1：初始化文本語(yǔ)料庫(kù)模塊，對(duì)待比較文本(W₁，W₂)的進(jìn)行預(yù)處理，其具體描述過(guò)程如下：

利用分詞系統(tǒng)和停用表分別對(duì)文本(W₁，W₂)進(jìn)行分詞和去停用詞處理。

步驟2：基于信息論方法，計(jì)算詞匯在文本中權(quán)重值W_I，其具體計(jì)算過(guò)程如下：

基于信息論詞頻的計(jì)算公式有：

上式為詞匯關(guān)于詞頻在文檔中所具有的信息量，p(c_1，2)分別為詞c₁、c₂在文本中的概率值。

基于信息論文檔頻率的計(jì)算公式有：

為詞匯關(guān)于文檔頻率在文檔庫(kù)中所具有的信息量，為分別含有c₁、c₂的文檔數(shù)，N為文檔庫(kù)中文檔的總個(gè)數(shù)。

綜上所述，有基于信息論計(jì)算詞匯權(quán)重的函數(shù)，如下式：

步驟3：根據(jù)詞匯位置信息，計(jì)算詞匯在文本中的權(quán)重值其具體計(jì)算過(guò)程如下：

根據(jù)調(diào)研資料顯示，特征詞越在文本靠前位置，越能代表文本的中心思想。通過(guò)步驟2得到詞匯在文本的權(quán)重值，取前20個(gè)特征詞匯。對(duì)這些詞匯進(jìn)行位置權(quán)重劃分。有位置向量，如下：

詞匯位置權(quán)重函數(shù)為：

上式a_i與b_j分別為特征詞最靠前出現(xiàn)的段落位置和對(duì)應(yīng)段落所在的句子位置。

步驟4:綜合考慮上述兩因子，構(gòu)造提取文本(W₁，W₂)中的特征值目標(biāo)函數(shù)分別提取文本(W₁，W₂)中的特征值，其具體計(jì)算過(guò)程如下：

提取文本(W₁，W₂)中的特征值目標(biāo)函數(shù)為：

上式α、β分別為W_I、對(duì)特征提取影響的權(quán)重系數(shù)，α+β＝1，一般α＞β，即基于信息論得到的詞頻與文檔頻率的權(quán)重函數(shù)對(duì)文本(W₁，W₂)中特征提取的影響更大，其值可以根據(jù)實(shí)驗(yàn)測(cè)試出來(lái)。

步驟5：求解待比較文本(W₁，W₂)間的文本相似度sim(W₁，W₂)，其具體計(jì)算過(guò)程如下：

根據(jù)步驟4計(jì)算得出的特征詞匯權(quán)重值，相關(guān)領(lǐng)域?qū)＜疫x取前m位關(guān)鍵詞，這里m<20，既分別有文本(W₁，W₂)對(duì)應(yīng)的特征詞向量。

根據(jù)歐式距離計(jì)算兩特征詞向量間的距離

最后得到兩文本(W₁，W₂)間的文本相似度sim(W₁，W₂)：

上式ω為平滑因子，可以根據(jù)實(shí)驗(yàn)得出最佳值。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金平艷;
技術(shù)所有人：四川用聯(lián)信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本相似度相關(guān)技術(shù)

字符串相似度算法相關(guān)技術(shù)

句子相似度相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種改進(jìn)的文本相似度求解方法與流程