專利名稱:一種文檔相似度衡量方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文檔相似度計(jì)算領(lǐng)域,尤其是涉及一種文檔相似度衡 量方法。
背景技術(shù):
文檔相似度計(jì)算就是利用文檔自身的信息,計(jì)算出兩個(gè)文檔的相 似度。該方法被廣泛的應(yīng)用到各個(gè)領(lǐng)域,包括信息檢索,協(xié)同推薦系 統(tǒng),圖書館分類系統(tǒng),等相關(guān)的領(lǐng)域中。我們將文檔的內(nèi)容和連接信 息作為對象,對這樣的文檔信息進(jìn)行分析^Mv而用于文檔的相似度的計(jì)算。
隨著越來越多的文檔涌現(xiàn),現(xiàn)在^f艮難將同一個(gè)主題的文檔聚到該 主題下。過去的幾年中, 一方面許多科研工作者提出了一些基于內(nèi)容 的相似度計(jì)算方法,比如向量空間模型和布爾模型等相關(guān)的模型,但 是這些方法均有一定的局限性。因?yàn)楝F(xiàn)實(shí)中的文檔數(shù)據(jù)中,還存在的 大量的連接的信息,這些連接對于文檔相似度的分析也非常的重要。 比方說,兩篇論文有相同的作者或者兩篇論文發(fā)表在相同的會(huì)議上, 那么這兩篇論文的相似性就比較大。在這里我們把作者和文檔之間的 關(guān)系和會(huì)議和文檔之間的關(guān)系作為連接信息。但是如果只利用內(nèi)容來 分析文檔的相似度,而不用文檔的連接信息,那么計(jì)算的文檔的相似 度就不夠精確。另一方面,很多研究工作者提出了一些基于連接的文 檔相似度的計(jì)算的方法,但是這些方法沒有利用到文檔的內(nèi)容的信息, 因?yàn)閷τ谶B接分析來說存在著一定的噪聲因素,因此上會(huì)造成一定的 主題漂移的現(xiàn)象,從而導(dǎo)致文檔相似度計(jì)算的不準(zhǔn)確。綜合上面這些文檔聚類的方法,提出了一種新的方法,這種方法 有效的利用到了文檔的內(nèi)容信息和文檔之間的連接信息來進(jìn)行相似性 計(jì)算,從而在準(zhǔn)確度和效率方面,都有了很大的提高。
發(fā)明內(nèi)容
本發(fā)明是鑒于上述技術(shù)問題而產(chǎn)生的。本發(fā)明的一個(gè)目的是提出 一種文檔相似度^f軒量方法。
在一個(gè)方面中,根據(jù)本發(fā)明的文檔相似度衡量方法包括A、對要 處理的文檔信息進(jìn)行建模,構(gòu)建出文檔星型圖模型,該星型圖結(jié)構(gòu)包 括周邊節(jié)點(diǎn)集和中心節(jié)點(diǎn)集,其中星型圖的中心是相應(yīng)文檔,周邊節(jié) 點(diǎn)集包括多個(gè)周邊特征節(jié)點(diǎn)集;B、對在步驟A得到的星型圖模型進(jìn)行 迭代計(jì)算,從而得到文檔的最終相似度結(jié)果;C、輸出最終的文檔之間 的相似度結(jié)果。
在這個(gè)方面中,其中步驟B進(jìn)一步包括Bl、將星型圖結(jié)構(gòu)信息 轉(zhuǎn)化成對應(yīng)的各個(gè)周邊特征節(jié)點(diǎn)集與中心節(jié)點(diǎn)集的轉(zhuǎn)移矩陣;B2、才艮 據(jù)各個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣和對應(yīng)的轉(zhuǎn)移矩陣來迭代地計(jì)算一 次迭代的文檔相似度矩陣;B3、利用步驟B2中的這次迭代所得到的文 檔相似度矩陣來迭代地計(jì)算各個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣以送至步 驟B2以作為下一次迭代的輸入;B4、對步驟B2的這次迭代結(jié)果與上 次迭代結(jié)果進(jìn)行比較以得到文檔相似度矩陣的變化情況,如果兩次迭 代文檔相似度矩陣的變化小于設(shè)定收斂參數(shù)iJ,那么迭代停止,如果大 于收斂參數(shù)月,那么接著回到步驟B2,重復(fù)下次迭代的過程,直到收 斂為止。
在這個(gè)方面中,其中步驟B2進(jìn)一步包括利用各個(gè)周邊特征節(jié)點(diǎn) 集相似度矩陣以及在步驟Bl所得到的各個(gè)周邊特征節(jié)點(diǎn)集與中心節(jié) 點(diǎn)集的轉(zhuǎn)移矩陣來計(jì)算基于各個(gè)周邊特征的中心節(jié)點(diǎn)集相似度矩陣;
5對基于各個(gè)周邊特征的中心節(jié)點(diǎn)集相似度矩陣進(jìn)行平均,從而得到一
次迭代的文檔相似度矩陣。
在這個(gè)方面中,其中利用下述公式來分別計(jì)算各個(gè)周邊特征集與
中心節(jié)點(diǎn)集的二部圖的相似度矩陣, — 單位矩陣
其中,c是衰減因子,取值范圍在0到1之間,、k, 是對應(yīng) 的轉(zhuǎn)移矩陣。
在這個(gè)方面中,其中一個(gè)周邊特征節(jié)點(diǎn)集是內(nèi)容信息節(jié)點(diǎn)集,而 其他周邊特征節(jié)點(diǎn)集為連接節(jié)點(diǎn)集。
在這個(gè)方面中,其中步驟A進(jìn)一步包括Al、對要處理的文檔信 息分別處理;A2、對內(nèi)容節(jié)點(diǎn)集和連接節(jié)點(diǎn)集進(jìn)行鏈接統(tǒng)一,構(gòu)建出 星型圖結(jié)構(gòu),星型圖的周邊節(jié)點(diǎn)集是文檔所對應(yīng)的內(nèi)容信息節(jié)點(diǎn)集和 其他周邊特征節(jié)點(diǎn)集。
通過本發(fā)明,從二部圖相似度計(jì)算方法成功的擴(kuò)展到了星型圖結(jié) 構(gòu)上,從而高效的解決了文檔相似度計(jì)算的問題。
結(jié)合隨后的附圖,從下面的詳細(xì)說明中可顯而易見的得出本發(fā)明 的上述及其他目的、特征及優(yōu)點(diǎn)。在附圖中 圖l給出了根據(jù)本發(fā)明的方法的主流程圖; 圖2給出了根據(jù)本發(fā)明的方法的子流程圖; 圖3給出了根據(jù)本發(fā)明的方法的另一子流程圖; 圖4給出了文檔模型的示例; 圖5給出了文檔-內(nèi)容轉(zhuǎn)移矩陣的構(gòu)建示例;圖6給出了文檔-作者轉(zhuǎn)移矩陣的構(gòu)建示例; 圖7給出了單元矩陣的示例;
圖8給出了能夠?qū)嵤┍景l(fā)明的一個(gè)示例環(huán)境的示意圖。
具體實(shí)施例方式
隨著越來越多的文檔的涌現(xiàn),如何將相同主題的文檔進(jìn)行歸類劃 分就成為了研究的重點(diǎn)。因此上,文檔之間的相似度就成為了圖書館 學(xué),信息檢索領(lǐng)域和協(xié)同推薦領(lǐng)域研究的重點(diǎn)。在圖書管理學(xué)領(lǐng)域, 圖書管理人員可以通過計(jì)算文檔之間的相似度,將相同主題的文檔進(jìn) 行歸類管理。信息;險(xiǎn)索領(lǐng)域,對相似文檔的分類標(biāo)注,可以大大的提 高文檔查詢的精度和效率。對于協(xié)同推薦領(lǐng)域,系統(tǒng)可以根據(jù)用戶閱 讀文檔的情況以及文檔之間的相似度關(guān)系,將文檔推薦給用戶。因此 上,文檔相似度計(jì)算的方法有著非常廣泛的應(yīng)用前景。文檔相似度計(jì) 算的研究主要包括兩個(gè)方面基于文檔內(nèi)容的相似度的研究和基于文 檔連接的相似度的研究。本發(fā)明即就是結(jié)合兩個(gè)方面的研究提出 一種 基于內(nèi)容和連接的文檔相似性衡量的方法。
為了更全面地理解本發(fā)明及其優(yōu)點(diǎn),下面結(jié)合附圖及具體實(shí)施例 對本發(fā)明做進(jìn)一步詳細(xì)地說明。
首先,參考圖1,對根據(jù)本發(fā)明的一種結(jié)合內(nèi)容和鏈接信息的文檔 相似度衡量方法進(jìn)行說明。
如圖l所示,根據(jù)本發(fā)明的一種結(jié)合內(nèi)容和鏈接信息的文檔相似 度衡量方法包括步驟
A、 對要處理的多個(gè)文檔的信息進(jìn)行建模,構(gòu)建出文檔星型圖模型。 隨后參考圖2,對該步驟進(jìn)行詳細(xì)的描述。
B、 對在步驟A得到的星型圖模型進(jìn)行迭代計(jì)算,從而得到文檔之 間的最終相似度結(jié)果。隨后參考圖3,對該步驟進(jìn)行詳細(xì)地描述。
7C、最后,輸出文檔之間的相似度結(jié)果。
接下來,參考圖2,對星型圖建模過程進(jìn)行更詳細(xì)地描述。 如圖2所示,該星型圖建模過程(步驟A)進(jìn)一步包括 Al、對文檔信息分別處理。對于內(nèi)容信息來說,從文檔的內(nèi)容信 息中抽取出對應(yīng)的詞的信息,構(gòu)建出文檔和詞所對應(yīng)的二部圖關(guān)系。 對于連接信息來說,從文檔中抽耳又所對應(yīng)的文檔和相對應(yīng)的連接信息 的二部圖關(guān)系。連接信息例如包括作者、會(huì)議、關(guān)鍵詞等等。例如, 比方i兌對于文檔和作者連接關(guān)系來"i兌,就構(gòu)建出文檔和作者對應(yīng)的二 部圖關(guān)系。當(dāng)然也可分別構(gòu)建出文檔與會(huì)議、關(guān)鍵詞等等二部圖關(guān)系。 對于本領(lǐng)域普通技術(shù)人員來說文檔信息并不局限于此。
A2、對內(nèi)容信息和連接信息進(jìn)行鏈接統(tǒng)一,構(gòu)建出星型圖結(jié)構(gòu)。 星型圖的中心是所對應(yīng)的文檔,星型圖的周邊信息是文檔所對應(yīng)的內(nèi) 容信息和連接信息。通過星型圖模型,最終將文檔的內(nèi)容信息和連接 信息結(jié)合到一起。圖4給出了星型圖模型的示例。其中,中心節(jié)點(diǎn)集 是文檔,而周邊節(jié)點(diǎn)集是所對應(yīng)的內(nèi)容信息和連接信息。在該實(shí)例中, 連接信息包括三個(gè)方面,即文檔的作者信息、文檔所發(fā)表的會(huì)議信息、 以及文檔的關(guān)鍵詞信息。
由上可知,該星型圖結(jié)構(gòu)信息包括周邊節(jié)點(diǎn)集和中心節(jié)點(diǎn)集。中
心節(jié)點(diǎn)集就是文檔的集合,例如文檔l、文檔2.......文檔n。周邊節(jié)
點(diǎn)集包括內(nèi)容節(jié)點(diǎn)集、作者節(jié)點(diǎn)集、會(huì)議節(jié)點(diǎn)集、關(guān)鍵詞節(jié)點(diǎn)集。在 下文中將內(nèi)容、作者、會(huì)議、關(guān)鍵詞統(tǒng)稱為周邊特征。由此可知,作 者節(jié)點(diǎn)集是一類周邊特征節(jié)點(diǎn)集,會(huì)議節(jié)點(diǎn)集也是一類周邊特征節(jié)點(diǎn) 集,當(dāng)然對于內(nèi)容節(jié)點(diǎn)集和關(guān)鍵詞節(jié)點(diǎn)集也同樣如此。也就是說,周 邊節(jié)點(diǎn)集包括多個(gè)周邊特征節(jié)點(diǎn)集。當(dāng)然,很顯然的是周邊節(jié)點(diǎn)集并 不局限于此,而可以包括任何適當(dāng)?shù)闹苓吿卣鞴?jié)點(diǎn)集。
下面,參考圖3,對相似度計(jì)算過程進(jìn)行更詳細(xì)地描述。如圖3所示,該相似度計(jì)算過程(步驟B)進(jìn)一步包括 Bl、將星型圖結(jié)構(gòu)信息轉(zhuǎn)化成對應(yīng)的各個(gè)周邊轉(zhuǎn)移矩陣。星型圖 轉(zhuǎn)化成轉(zhuǎn)移矩陣就是分別構(gòu)建成周邊節(jié)點(diǎn)集與中心節(jié)點(diǎn)集的二步圖的 轉(zhuǎn)移矩陣。因?yàn)橹苓吂?jié)點(diǎn)集包括例如內(nèi)容節(jié)點(diǎn)集、作者節(jié)點(diǎn)集、會(huì)議
節(jié)點(diǎn)集、關(guān)^t詞節(jié)點(diǎn)集這樣的多個(gè)特征集,因此存在多個(gè)周邊特征集 與中心節(jié)點(diǎn)集的轉(zhuǎn)移矩陣。例如存在內(nèi)容節(jié)點(diǎn)集與中心節(jié)點(diǎn)集的轉(zhuǎn)移 矩陣、作者節(jié)點(diǎn)集與中心節(jié)點(diǎn)集的轉(zhuǎn)移矩陣等等。隨后參考圖5和圖6
對轉(zhuǎn)移矩陣的構(gòu)建進(jìn)行說明。
B2、根據(jù)各個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣來迭代地計(jì)算一次迭代 的文檔相似度矩陣。
首先,利用各個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣以及在步驟B1所得到 的各個(gè)周邊特征節(jié)點(diǎn)集與中心節(jié)點(diǎn)集的轉(zhuǎn)移矩陣來計(jì)算各個(gè)周邊特征 節(jié)點(diǎn)集 一 中心節(jié)點(diǎn)集相似度矩陣。
具體地說,利用下述公式來分別計(jì)算各個(gè)周邊特征與文檔的二部
圖的相似度矩陣。也就是說,分別計(jì)算作者、會(huì)議、關(guān)鍵詞、以及內(nèi)
容與文檔的二部圖的相似度矩陣。 ' 單位矩陣
、 ,=i 乂.=1
其中,c是衰減因子,取值范圍在0到1之間,;。、;'。是二部 圖之間的轉(zhuǎn)移矩陣。在初始情況下,各個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣 和中心節(jié)點(diǎn)集相似度矩陣分別都是單位矩陣。也就是說,單位矩陣包 括n行和n列。對于作者節(jié)點(diǎn)集的單位矩陣而言,第l行和第l列與 文檔1的作者相對應(yīng),第2行和第2列與文檔2的作者相對應(yīng),依次 類推。當(dāng)然對于會(huì)議節(jié)點(diǎn)集,關(guān)鍵詞節(jié)點(diǎn)集、以及內(nèi)容節(jié)點(diǎn)集而言同 樣如此。例如,如圖7所示,圖7中給出了中心節(jié)點(diǎn)集單元矩陣和作
9者節(jié)點(diǎn)集單元矩陣。對于同一文檔而言相似度為1,對于不同文檔而言
相似度為0。
對于周邊特征是作者這個(gè)例子來說,A就是所對應(yīng)的作者相似度矩
陣,^;和^o就是所對應(yīng)的作者到文檔的轉(zhuǎn)移矩陣,這個(gè)公式就是計(jì)算 的Fa, K兩個(gè)文檔之間就作者而言的相似度矩陣。當(dāng)然,對于周邊特 征是會(huì)議來說,通過該計(jì)算可得到兩個(gè)文檔之間就會(huì)議而言的相似度 矩陣。對于其他周邊特征而言同樣如此。通過該計(jì)算,就得到了一次 迭代的就各個(gè)周邊特征而言的中心節(jié)點(diǎn)集相似度矩陣,在下文中還將 其統(tǒng)稱為基于周邊特征的中心節(jié)點(diǎn)集相似度矩陣。
接下來,對通過上面計(jì)算所得到的多個(gè)基于周邊特征的中心節(jié)點(diǎn) 集相似度矩陣進(jìn)行平均,從而得到一次迭代的文檔相似度矩陣。具體 地說,通過作者得到基于作者的中心節(jié)點(diǎn)集相似度矩陣,通過會(huì)議得 到基于會(huì)議的中心節(jié)點(diǎn)集相似度矩陣,通過內(nèi)容信息得到基于內(nèi)容信 息的中心節(jié)點(diǎn)集相似度矩陣,通過關(guān)鍵詞得到基于關(guān)鍵詞的中心節(jié)點(diǎn) 集相似度矩陣,從而對這四個(gè)基于周邊特征的中心節(jié)點(diǎn)集相似度矩陣 取均值得到一次迭代的文檔相似度矩陣。
B3、利用步驟B2中的這次迭代所得到的文檔相似度矩陣來計(jì)算各 個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣以送至步驟B2以作為下一次迭代的輸 入。
該計(jì)算過程同樣也利用上述公式。例如,才艮據(jù)上述7>式,利用在 步驟B2所得到文檔相似度矩陣和作者節(jié)點(diǎn)集與中心節(jié)點(diǎn)集的轉(zhuǎn)移矩 陣,可得到作者節(jié)點(diǎn)集相似度矩陣。同樣,分別求出會(huì)議節(jié)點(diǎn)集、關(guān) 鍵詞節(jié)點(diǎn)集、內(nèi)容節(jié)點(diǎn)集相似度矩陣。
B4、對步驟B2的這次迭代結(jié)果與上次迭代結(jié)果進(jìn)行比較以得到文 檔相似度矩陣的變化情況。如果兩次迭代文檔相似度矩陣的變化小于 設(shè)定收斂參數(shù)"那么迭代停止。如果大于收斂參數(shù)"那么接著回到步驟B2,重復(fù)下次迭代的過程,直到收斂為止。 一般情況下,參數(shù)s的 取值為0.01,所以該方法一詢殳經(jīng)過7-9次迭^。
下面,參考圖5和圖6,對轉(zhuǎn)移矩陣的構(gòu)建進(jìn)行詳細(xì)地描述。 圖5是基于內(nèi)容的轉(zhuǎn)移矩陣的示例。如圖5(a),圖中構(gòu)建出來了 詞和文檔的二部圖,其中二部圖的邊的權(quán)重值描述的是詞頻信息,即 詞在該文檔中出現(xiàn)的頻率。如圖5(b),得到了基于權(quán)重的由文檔節(jié)點(diǎn) 集到內(nèi)容節(jié)點(diǎn)集的概率轉(zhuǎn)移矩陣。而內(nèi)容節(jié)點(diǎn)集到文檔節(jié)點(diǎn)集的概率 轉(zhuǎn)移矩陣是該矩陣的轉(zhuǎn)秩。轉(zhuǎn)移矩陣描述的是節(jié)點(diǎn)之間概率游走轉(zhuǎn)移
關(guān)系,比方{兌々支設(shè)在圖5 (a)的節(jié)點(diǎn)docl上站上一個(gè)人,那么他下一 步將會(huì)游走到節(jié)點(diǎn)apple的概率就是2/(2+1+3)=1/3。通過此可知,該轉(zhuǎn)
移矩陣的行是文檔l、文檔2.....文檔n,列是從內(nèi)容信息中抽取的
各個(gè)詞。換句話說,轉(zhuǎn)移矩陣中的各個(gè)單元表示對應(yīng)文檔中含有對應(yīng) 詞的個(gè)數(shù)與所有文檔中含有對應(yīng)詞的個(gè)數(shù)的比率?;氐綀D5, docl包 含apple的個(gè)數(shù)是2,所有文檔中包含apple的個(gè)數(shù)是(2+l+3)-6,因此 對應(yīng)單元是2/(2+1+3)=1/3。
圖6是文檔節(jié)點(diǎn)集到-連接信息節(jié)點(diǎn)集的概率轉(zhuǎn)移矩陣的示例。 因?yàn)檫B接信息不存在邊的權(quán)重信息,所以對于圖6 (a)的結(jié)構(gòu)圖來說 得到了圖6 (b)的由文檔節(jié)點(diǎn)集到作者節(jié)點(diǎn)集的概率轉(zhuǎn)移矩陣。該轉(zhuǎn) 移矩陣的行是文檔l、文檔2.....文檔n,列是各個(gè)連接信息。
下面將會(huì)結(jié)合圖8來提供關(guān)于本發(fā)明處理范例的詳細(xì)描述。
在該范例中,文本信息可通過多種方式輸入設(shè)備輸入,如存儲(chǔ)設(shè) 備(硬盤,閃存),光驅(qū),^:盤輸入或通過網(wǎng)絡(luò)傳輸。此后,如圖4所 示,將文本信息轉(zhuǎn)化成相對應(yīng)的星型圖結(jié)構(gòu)。然后,圖l-3中的一系 列步驟將會(huì)執(zhí)行,迭代計(jì)算完成后得到相對應(yīng)的文本之間的相似度。
至此,已對本發(fā)明的詳細(xì)流程進(jìn)行了描述。本方法從二部圖相似 度計(jì)算方法成功的擴(kuò)展到了星型圖結(jié)構(gòu)上,從而高效的解決了文檔相似度計(jì)算的問題。
對于本領(lǐng)域的普通技術(shù)人員來說可顯而易見的得出其他優(yōu)點(diǎn)和修
述的具體說明及示例性實(shí)施例。因此,在不脫離由隨后權(quán)利要求及其 等價(jià)體所定義的 一般發(fā)明構(gòu)思的精神和范圍的情況下,可對其做出各 種修改。
權(quán)利要求
1、一種文檔相似度衡量方法包括步驟A、對要處理的文檔信息進(jìn)行建模,構(gòu)建出文檔星型圖模型,該星型圖結(jié)構(gòu)包括周邊節(jié)點(diǎn)集和中心節(jié)點(diǎn)集,其中星型圖的中心是相應(yīng)文檔,周邊節(jié)點(diǎn)集包括多個(gè)周邊特征節(jié)點(diǎn)集;B、對在步驟A得到的星型圖模型進(jìn)行迭代計(jì)算,從而得到文檔的最終相似度結(jié)果;C、輸出最終的文檔之間的相似度結(jié)果。
2、 根據(jù)權(quán)利要求l的方法,其中步驟B進(jìn)一步包括Bl 、將星型圖結(jié)構(gòu)信息轉(zhuǎn)化成對應(yīng)的各個(gè)周邊特征節(jié)點(diǎn)集與中心 節(jié)點(diǎn)集的轉(zhuǎn)移矩陣;B2、根據(jù)各個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣和對應(yīng)的轉(zhuǎn)移矩陣來迭 代地計(jì)算一次迭代的文檔相似度矩陣;B3、利用步驟B2中的這次迭代所得到的文檔相似度矩陣和對應(yīng)的 轉(zhuǎn)移矩陣來迭代地計(jì)算各個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣以送至步驟B2以作為下一次迭代的輸入;B4、對步驟B2的這次迭代結(jié)果與上次迭代結(jié)果進(jìn)行比較以得到文 檔相似度矩陣的變化情況,如果兩次迭代文檔相似度矩陣的變化小于 設(shè)定收斂參數(shù)fl,那么迭代停止,如果大于收斂參數(shù)w,那么接著回到 步驟B2,重復(fù)下次迭代的過程,直到收斂為止。
3、 根據(jù)權(quán)利要求2的方法,其中步驟B2進(jìn)一步包括利用各個(gè)周邊特征節(jié)點(diǎn)集相似度矩陣以及在步驟B1所得到的各 個(gè)周邊特征節(jié)點(diǎn)集與中心節(jié)點(diǎn)集的轉(zhuǎn)移矩陣來計(jì)算基于各個(gè)周邊特征 的中心節(jié)點(diǎn)集相似度矩陣;對基于各個(gè)周邊特征的中心節(jié)點(diǎn)集相似度矩陣進(jìn)行平均,從而得 到 一次迭代的文檔相似度矩陣。
4、 根據(jù)權(quán)利要求3的方法,其中利用下述公式來分別計(jì)算各個(gè)周邊 特征集與中心節(jié)點(diǎn)集的二部圖的相似度矩陣,<formula>formula see original document page 3</formula>其中,c是衰減因子,取值范圍在0到1之間,,《巧是對應(yīng) 的轉(zhuǎn)移矩陣。
5、 根據(jù)權(quán)利要求2的方法,其中一個(gè)周邊特征節(jié)點(diǎn)集是內(nèi)容信息節(jié) 點(diǎn)集,而其他周邊特征節(jié)點(diǎn)集為連接信息節(jié)點(diǎn)集。
6、 根據(jù)權(quán)利要求5的方法,其中步驟A進(jìn)一步包括 Al、對要處理的文檔信息分別處理;A2、對內(nèi)容信息節(jié)點(diǎn)集和連接信息節(jié)點(diǎn)集進(jìn)行鏈接統(tǒng)一,構(gòu)建出 星型圖結(jié)構(gòu),星型圖的周邊節(jié)點(diǎn)集是文檔所對應(yīng)的內(nèi)容信息節(jié)點(diǎn)集和 連接信息節(jié)點(diǎn)集。
全文摘要
一種文檔相似度衡量方法,該方法包括步驟A.對要處理的文檔信息進(jìn)行建模,構(gòu)建出文檔星型圖模型,該星型圖結(jié)構(gòu)包括周邊節(jié)點(diǎn)集和中心節(jié)點(diǎn)集,其中星型圖的中心是相應(yīng)文檔,周邊節(jié)點(diǎn)集包括多個(gè)周邊特征節(jié)點(diǎn)集;B.對在步驟A得到的星型圖模型進(jìn)行迭代計(jì)算,從而得到文檔的最終相似度結(jié)果;C.輸出最終的文檔之間的相似度結(jié)果。本發(fā)明從二部圖相似度計(jì)算方法成功的擴(kuò)展到了星型圖結(jié)構(gòu)上,從而高效的解決了文檔相似度計(jì)算的問題。
文檔編號(hào)G06F17/27GK101576903SQ20091007878
公開日2009年11月11日 申請日期2009年3月3日 優(yōu)先權(quán)日2009年3月3日
發(fā)明者軍 何, 劉紅巖, 佩 李, 杜小勇, 蔡元哲, 旭 賈 申請人:杜小勇