本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及新的關(guān)鍵詞提取技術(shù)。
背景技術(shù):
關(guān)鍵詞,是表述文本主題內(nèi)容的詞匯集合,是文本更簡略的摘要,用戶可以根據(jù)關(guān)鍵詞快速和粗略的獲取文檔的內(nèi)容。所以文檔關(guān)鍵詞可以幫助用戶迅速的從大量的文檔集合中找到用戶需要或者與其相關(guān)的文檔。但除學(xué)術(shù)論文包含關(guān)鍵詞外,大量的文檔沒有關(guān)鍵詞,尤其是上述提到的互聯(lián)網(wǎng)上的眾多網(wǎng)頁。語言專家手工提取關(guān)鍵詞,其準(zhǔn)確率較高,但對海量文檔信息手工提取是一個繁重且不可行的方法。目前常用的關(guān)鍵詞提取方法,包括詞頻-反文檔頻率方法、信息增益等方法。詞頻-反文檔頻率方法的簡單結(jié)構(gòu)并不能有效地反映詞匯或短語的重要程度和特征值的分布情況,所以tf-idf的精度并不是很高。信息增益方法只適合用來提取一個類別的文本特征,而無法用于提取多個類別的文本特征。因此,為了改善文本檢索的現(xiàn)狀,人們積極研究人工智能和自然語言處理的各種技術(shù),很多學(xué)者提出采用機器智能自動提取關(guān)鍵詞的方法。由此可見,關(guān)鍵詞自動抽取是文本自動處理的基礎(chǔ)與核心技術(shù),是解決信息檢索的效率和準(zhǔn)確度的關(guān)鍵技術(shù),關(guān)鍵詞是表述文本主題,為了滿足上述需求,本發(fā)明提供一種新的關(guān)鍵詞提取技術(shù)。
技術(shù)實現(xiàn)要素:
針對從多主題文檔中找出一些非高頻并且對主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實現(xiàn)自動提取文檔中主題詞的問題以及常用的關(guān)鍵詞提取方法精度不高的不足,本發(fā)明提供了一種新的關(guān)鍵詞提取技術(shù)。
為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
步驟1:利用中文分詞技術(shù)對文本進(jìn)行分詞處理;
步驟2:根據(jù)停用表對文本詞匯進(jìn)行去停用詞處理,得到詞匯集w;
步驟3:構(gòu)造相關(guān)度函數(shù)re(ci,c(w1))對上述詞匯集w進(jìn)行從大到小排序處理,取前n個詞語構(gòu)成一個多主題網(wǎng)絡(luò)模型m;
步驟4:構(gòu)造目標(biāo)函數(shù)f確定不同主題間的連接詞link(c);
步驟5:構(gòu)造叉函數(shù)把連接詞有效的融入多主題網(wǎng)絡(luò)模型中,模型圖記為m′。
本發(fā)明有益效果是:
1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的文本關(guān)鍵詞集合的準(zhǔn)確度更高。
2、把詞語語義關(guān)系映射到主題網(wǎng)絡(luò)模型圖上,既考慮了多主題性,又區(qū)分了主題間的不同特征,提取的文本關(guān)鍵詞更符合經(jīng)驗值;
3、為后續(xù)的文本相似度與文本聚類技術(shù)提供良好的理論基礎(chǔ)。
4、此算法具有更大的利用價值。
5、此方法精確地計算了特征詞匯中不同詞匯對文本思想的貢獻(xiàn)度。
附圖說明
圖1新的關(guān)鍵詞提取技術(shù)的結(jié)構(gòu)流程圖
圖2n元語法分詞算法圖解
圖3中文文本預(yù)處理過程流程圖
圖4n個詞語構(gòu)成一個多主題網(wǎng)絡(luò)模型圖m
圖5多主題網(wǎng)絡(luò)模型圖m′
具體實施方式
為了解決從多主題文檔中找出一些非高頻并且對主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實現(xiàn)自動提取文檔中主題詞的問題以及常用的關(guān)鍵詞提取方法精度不高的問題、結(jié)合圖1-圖5對本發(fā)明進(jìn)行了詳細(xì)說明,其具體實施步驟如下:
步驟1:利用中文分詞技術(shù)對文本進(jìn)行分詞處理,其具體分詞技術(shù)過程如下:
步驟1.1:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識出來;如果詞典中不存在相關(guān)匹配,就簡單地分割出單字作為詞;直到漢字串為空。
步驟1.2:依據(jù)概率統(tǒng)計學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點依次規(guī)定為sm1m2m3m4m5e,其結(jié)構(gòu)圖如圖2所示。
步驟1.3:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具體計算過程如下:
根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個詞,第i條路徑包含詞的個數(shù)為ni。即n條路徑詞的個數(shù)集合為(n1,n2,…,nn)。
得min()=min(n1,n2,…,nn)
在上述留下的剩下的(n-m路徑中,求解每條相鄰路徑的權(quán)重大小。
在統(tǒng)計語料庫中,計算每個詞的信息量x(ci),再求解路徑相鄰詞的共現(xiàn)信
息量x(ci,ci+1)。既有下式:
x(ci)=|x(ci)1-x(ci)2|
上式x(ci)1為文本語料庫中詞ci的信息量,x(ci)2為含詞ci的文本信息量。
x(ci)1=-p(ci)1lnp(ci)1
上式p(ci)1為ci在文本語料庫中的概率,n為含詞ci的文本語料庫的個數(shù)。
x(ci)2=-p(ci)2lnp(ci)2
上式p(ci)2為含詞ci的文本數(shù)概率值,n為統(tǒng)計語料庫中文本總數(shù)。
同理x(ci,ci+1)=|x(ci,ci+1)1-x(ci,ci+1)2|
x(ci,ci+1)1為在文本語料庫中詞(ci,ci+1)的共現(xiàn)信息量,x(ci,ci+1)2為相鄰詞(ci,ci+1)共現(xiàn)的文本信息量。
同理x(ci,ci+1)1=-p(ci,ci+1)1lnp(ci,ci+1)1
上式p(ci,ci+1)1為在文本語料庫中詞(ci,ci+1)的共現(xiàn)概率,m為在文本庫中詞(ci,ci+1)共現(xiàn)的文本數(shù)量。
x(ci,ci+1)2=-p(ci,ci+1)2lnp(ci,ci+i)2
p(ci,ci+1)2為文本庫中相鄰詞(ci,ci+1)共現(xiàn)的文本數(shù)概率。
綜上可得每條相鄰路徑的權(quán)值為
w(ci,ci+1)=x(ci)+x(ci+1)-2x(ci,ci+1)
步驟1.4:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體計算過程如下:
有n條路徑,每條路徑長度不一樣,假設(shè)路徑長度集合為(l1,l2,…,ln)。
假設(shè)經(jīng)過取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長度集合為
則每條路徑權(quán)重為:
上式
權(quán)值最大的一條路徑:
步驟2:根據(jù)停用表對文本詞匯進(jìn)行去停用詞處理,得到詞匯集w,其具體描述如下:
停用詞是指在文本中出現(xiàn)頻率高,但對于文本標(biāo)識卻沒有太大作用的單詞。去停用詞的過程就是將特征項與停用詞表中的詞進(jìn)行比較,如果匹配就將該特征項刪除。
綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過程流程圖如圖3。
步驟3:構(gòu)造相關(guān)度函數(shù)re(ci,c(w1))對上述詞匯集w進(jìn)行從大到小排序處理,取前n個詞語構(gòu)成一個多主題網(wǎng)絡(luò)模型m,其具體計算過程如下:
利用下列公式,先提取文中信息量最大的詞匯作為文本的核心詞匯;
上式n總為文本詞匯集合總的個數(shù),ni為第i個詞匯在文本出現(xiàn)的次數(shù),αi為位置權(quán)重值i∈(1,2,…,n),βj為詞性權(quán)重值,j∈(1,2,3,4)。
再根據(jù)w1對應(yīng)的詞匯作為參考詞匯c(w1),計算其他詞匯與它的相關(guān)度,公式如下:
n(ci,c(w1))為詞匯ci與核心詞匯c(w1)在文本中同一句話中出現(xiàn)的次數(shù),n(ci)為詞匯n(ci)在文本中出現(xiàn)的次數(shù),n(c(w1))為核心詞匯c(w1)在文本中出現(xiàn)的次數(shù)。
上式
提取前n位作為文本的特征詞匯,即參考詞匯c(w1)與re(ci,c(w1))值更大的前n-1位所對應(yīng)的詞匯ci集合。
步驟4:構(gòu)造目標(biāo)函數(shù)f確定不同主題間的連接詞link(c),其具體計算過程如下:
目標(biāo)函數(shù)f:
上式averg(c,zj)為連接詞c與文檔主題相關(guān)度的均值,max(zj)為主題zj最能體現(xiàn)文檔的含義。
上式j(luò)為第j個主題,主題個數(shù)為g個,h為主題中詞匯的個數(shù),它是個變量,主題不同,h的值就不同,
max(zj)=max[n(w1,z1),n(w1,z2),…,n(w1,zg)]
上式n(w1,zj)為核心詞匯在主題j中共現(xiàn)的次數(shù),取其最大值即找到了最佳主題。
步驟5:構(gòu)造叉函數(shù)d把連接詞有效的融入多主題網(wǎng)絡(luò)模型中,模型圖記為m′,其計算過程如下:
根據(jù)步驟4中f函數(shù)得到的link(c)大小,從大到小取前m個連接詞(link(c));
叉函數(shù):
上式g(ci′/wj′)為ci′相對于wj′的共現(xiàn)度,g(wj′/ci′)為wj′相對于ci′的共現(xiàn)度。
同理
上式n(ci′,wj′)為連接詞ci′與詞匯集中詞匯wj′在一句話中出現(xiàn)的次數(shù),n(wj′)為詞匯集中詞匯wj′在文檔中出現(xiàn)的次數(shù),n(ci′)為連接詞ci′在文檔中出現(xiàn)的次數(shù),這里n(ci′)≠n(wj′)、n(ci′,wj′)=n(wj′,ci′)。
根據(jù)叉函數(shù)d的值從大到小取n-1個詞匯對,即得文檔中n個關(guān)鍵詞。
新的關(guān)鍵詞提取技術(shù),其偽代碼計算過程如下:
輸入:一個文檔
輸出:提取文檔中的核心關(guān)鍵詞。