專利名稱:一種基于萬(wàn)有引力的文本相似度計(jì)算方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文本的相似度計(jì)算方法,具體是涉及以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn),是一種基于萬(wàn)有引力的文本相似度計(jì)算方法。
背景技術(shù):
目前應(yīng)用最廣的文本相似度計(jì)算方法是基于向量空間模型的余弦計(jì)算方法。向量空間模型將文本表示成一個(gè)權(quán)值向量,向量中的每一項(xiàng)均由詞項(xiàng)組成,而每個(gè)詞項(xiàng)的權(quán)重由TFIDF方法確定。余弦計(jì)算公式則計(jì)算文本權(quán)值向量的夾角的余弦值,并以此作為文本相似度。但是使用基于向量空間模型的余弦計(jì)算方法計(jì)算文本的相似度時(shí),存在以下不足:
(I)向量空間模型把文本看成詞項(xiàng)的集合,把詞項(xiàng)與詞項(xiàng)之間的關(guān)系看成是獨(dú)立的,這樣就損失了大量的文本結(jié)構(gòu)信息。(2)余弦計(jì)算公式?jīng)]有考慮文本中關(guān)鍵詞之間的語(yǔ)義相關(guān)性,也沒(méi)有考慮關(guān)鍵詞之間的結(jié)構(gòu)相關(guān)性。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)基于向量空間模型的余弦計(jì)算方法的不足,提供一種基于萬(wàn)有引力的文本相似度計(jì)算方法,該計(jì)算方法以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn)。為了達(dá)到上述的目的,本發(fā)明的構(gòu)思如下:以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn);所述的緊密度是關(guān)鍵詞之間相關(guān)性,與關(guān)鍵詞和關(guān)鍵詞對(duì)的權(quán)重相關(guān)。根據(jù)上述的發(fā)明思想,本發(fā)明采用下述技術(shù)方案:
一種基于萬(wàn)有引力的文本相似度計(jì)算方法,其特征在于,其具體步驟如下:
(1)輸入領(lǐng)域文集中的任意兩篇文本;
(2)文本表示與最大公共子圖的生成;
(3)基于萬(wàn)有引力計(jì)算文本的最大公共子圖的緊密度;
(4)計(jì)算文本的相似度;
(5)輸出文本的相似度。所述的文本的最大公共子圖的緊密度,其緊密度計(jì)算式如下:
權(quán)利要求
1.一種基于萬(wàn)有引力的文本相似度計(jì)算方法,其特征在于:以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn);所述的緊密度是關(guān)鍵詞之間相關(guān)性,與關(guān)鍵詞和關(guān)鍵詞對(duì)的權(quán)重相關(guān);其具體步驟如下: (1)輸入領(lǐng)域文集中的任意兩篇文本; (2)文本表示與最大公共子圖的生成; (3)基于萬(wàn)有引力計(jì)算文本的最大公共子圖的緊密度; (4)計(jì)算文本的相似度; (5)輸出文本的相似度。
2.按權(quán)利要求1所述的基于萬(wàn)有引力的文本相似度計(jì)算方法,其特征在于:所述步驟(3)中的文本的最大公共子圖的緊密度,其緊密度計(jì)算式如下:
3.按權(quán)利要求1所述的基于萬(wàn)有引力的文本相似度計(jì)算方法,其特征在于:所述步驟(4)中的文本的相似度,其相似度計(jì)算式如下:
全文摘要
本發(fā)明公開(kāi)了一種基于萬(wàn)有引力的文本相似度計(jì)算方法。該方法具體步驟如下(1)輸入領(lǐng)域文集中的任意兩篇文本;(2)文本表示與最大公共子圖的生成;(4)基于萬(wàn)有引力計(jì)算文本的最大公共子圖的緊密度;(5)計(jì)算文本的相似度;(6)輸出文本的相似度。該方法以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn);該方法簡(jiǎn)便易操作,效果好。
文檔編號(hào)G06F17/27GK103164394SQ201310093108
公開(kāi)日2013年6月19日 申請(qǐng)日期2013年3月22日 優(yōu)先權(quán)日2012年7月16日
發(fā)明者陳雪, 吳超 申請(qǐng)人:上海大學(xué)