專利名稱:一種基于專家投票的文本相似網(wǎng)絡(luò)構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文本相似網(wǎng)絡(luò)構(gòu)建方法,具體是涉及采用專家投票法確定任意兩篇文本間是否建立鏈接的相似度閾值,然后根據(jù)該局部閾值建立文本的相似網(wǎng)絡(luò),是一種基于專家投票的文本相似網(wǎng)絡(luò)構(gòu)建方法。
背景技術(shù):
目前構(gòu)建文本相似網(wǎng)絡(luò)的普遍方法是全局閾值法。全局閾值法是通過人工或機(jī)器學(xué)習(xí)等方法設(shè)定的所有文本的相似度閾值,然后根據(jù)該全局閾值建立文本的相似網(wǎng)絡(luò)的方法,但是這種全局閾值法存在以下不足
(I)全局閾值法不能夠體現(xiàn)不同文本的不同鏈接特點。(2)全局閾值法不能夠根據(jù)鏈接涉及的兩個文本的相似度進(jìn)行精確的控制。(3)全局閾值法不能夠支持文本相似網(wǎng)絡(luò)的動態(tài)擴(kuò)展,當(dāng)增加新的文本時,需要重新計算全局閾值。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對全局閾值法的不足,提供一種基于專家投票的文本相似網(wǎng)絡(luò)構(gòu)建方法,該方法通過專家投票法產(chǎn)生的局部閾值對文本間的鏈接進(jìn)行精確的控制,體現(xiàn)了不同文本間的不同鏈接特點,且支持相似網(wǎng)絡(luò)的動態(tài)擴(kuò)展。為了達(dá)到上述的目的,本發(fā)明的構(gòu)思如下通過專家投票法產(chǎn)生的局部閾值對文本間的鏈接進(jìn)行精確的控制,體現(xiàn)不同文本間的不同鏈接特點,且支持相似網(wǎng)絡(luò)的動態(tài)擴(kuò)展;所述的局部閾值就是任意兩個文本間是否建立鏈接的相似度閾值。根據(jù)上述的發(fā)明思想,本發(fā)明采用下述技術(shù)方案
一種基于專家投票的文本相似網(wǎng)絡(luò)構(gòu)建方法,其特征在于,其具體步驟如下
(1)輸入領(lǐng)域文集;
(2)文本表不與相似性度量;
(3)使用專家投票法建立文本間的鏈接;
所述的專家投票法,其局部閾值IH十算式如下
權(quán)利要求
1.一種基于專家投票的文本相似網(wǎng)絡(luò)構(gòu)建方法,其特征在于通過專家投票法產(chǎn)生的局部閾值對文本間的鏈接進(jìn)行精確的控制,體現(xiàn)了不同文本間的不同鏈接特點,且支持相似網(wǎng)絡(luò)的動態(tài)擴(kuò)展;所述的局部閾值就是任意兩篇文本間是否建立鏈接的相似度閾值;其具體步驟如下 (1)輸入領(lǐng)域文集; (2)文本表不與相似性度量; (3)使用專家投票法建立文本間的鏈接; (4)輸出文本相似網(wǎng)絡(luò)。
2.按權(quán)利要求I所述的基于專家投票的文本相似網(wǎng)絡(luò)構(gòu)建方法,其特征在于所述步驟(3)中的專家投票法,其局部閾值IH十算式如下
全文摘要
本發(fā)明公開了一種基于專家投票的文本相似網(wǎng)絡(luò)構(gòu)建方法。該方法具體步驟如下(1)輸入領(lǐng)域文集;(2)文本表示與相似性度量;(3)使用專家投票法建立文本間的鏈接;(4)輸出文本相似網(wǎng)絡(luò)。該方法通過專家投票法產(chǎn)生的局部閾值對文本間的鏈接進(jìn)行精確的控制,體現(xiàn)了不同文本間的不同鏈接特點,且支持相似網(wǎng)絡(luò)的動態(tài)擴(kuò)展;該方法簡便易操作,效果好。
文檔編號G06F17/27GK102831159SQ20121024386
公開日2012年12月19日 申請日期2012年7月16日 優(yōu)先權(quán)日2012年7月16日
發(fā)明者陳雪, 吳超 申請人:上海大學(xué)