本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及新的小世界網(wǎng)絡(luò)模型實(shí)現(xiàn)文本特征的提取方法。
背景技術(shù):
目前常用的文本特征提取方法,包括詞頻-反文檔頻率方法—tf-idf、信息增益方法、互信息等方法;tf-idf的簡(jiǎn)單結(jié)構(gòu)并不能有效地反映詞匯或短語(yǔ)的重要程度和特征值的分布情況,所以tf-idf的精度并不是很高。信息增益方法只適合用來(lái)提取一個(gè)類別的文本特征,而無(wú)法用于提取多個(gè)類別的文本特征?;バ畔⒎椒紤]了類別出現(xiàn)概率與集合出現(xiàn)概率之比,那么會(huì)造成一個(gè)缺陷,那就是類別集合中文本的數(shù)量差異會(huì)很大程度上影響文本特征提取的準(zhǔn)確性。面對(duì)海量文本,如何快速掌握某篇文章的主題、把握作者思想,成為節(jié)約讀者時(shí)間、提高閱讀速度的關(guān)鍵問(wèn)題。文本特征指的是最能代表文本主旨的詞匯集合,文本特征不僅可以很好的概括文本主要內(nèi)容和主旨,而且可以降低文本處理的復(fù)雜程度。然而目前常用的文本特征提取方法沒(méi)有考慮特征詞匯的語(yǔ)義地位和其對(duì)文本主旨表達(dá)所做的貢獻(xiàn)、忽略文檔的語(yǔ)義信息和結(jié)構(gòu)信息,導(dǎo)致關(guān)鍵詞語(yǔ)義和結(jié)構(gòu)信息的缺失。為了滿足上述需求,本發(fā)明提供了一種新的小世界網(wǎng)絡(luò)模型實(shí)現(xiàn)文本特征的提取方法。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)于常用的文本特征提取方法沒(méi)有考慮特征詞匯的語(yǔ)義地位和其對(duì)文本主旨表達(dá)所做貢獻(xiàn)的不足,本發(fā)明提供了一種新的小世界網(wǎng)絡(luò)模型實(shí)現(xiàn)文本特征的提取方法。
為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:初始化文本語(yǔ)料庫(kù)模塊,對(duì)文本w的進(jìn)行中文分詞預(yù)處理。
步驟2:給步驟1中分詞結(jié)果的文本進(jìn)行位置、詞性加權(quán)處理。
步驟3:得到的文本詞匯集合依據(jù)其語(yǔ)義相關(guān)度r(c1,c2)會(huì)出現(xiàn)聚合現(xiàn)象,構(gòu)建詞匯語(yǔ)義網(wǎng)絡(luò)模型圖。
步驟4:根據(jù)圖中詞匯在整個(gè)語(yǔ)義網(wǎng)絡(luò)圖中的重要度構(gòu)造兩函數(shù)參數(shù)w1(ci)、w2(ci),即可得詞匯在整個(gè)文本中的地位和貢獻(xiàn)度。
步驟5:根據(jù)步驟4中的兩參數(shù)設(shè)置合適閾值提取文本中的特征詞匯,即為代表文本主旨的特征詞匯向量。
本發(fā)明有益效果是:
1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的特征詞匯集合的準(zhǔn)確度更高。
2、克服了信息增益方法只適合用來(lái)提取一個(gè)類別的文本特征的不足。
3、此算法具有更大的利用價(jià)值。
4、此方法精確地計(jì)算了特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度。
5、計(jì)算特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度具有更高的精確度。
6、為后續(xù)的文本相似度與文本聚類技術(shù)提供良好的理論基礎(chǔ)。
7、此方法著重在語(yǔ)義分析的角度來(lái)提取文本中的特征詞匯,更符合人們的經(jīng)驗(yàn)值。
8、融合了統(tǒng)計(jì)學(xué)方法,又綜合了關(guān)鍵詞在文本中的貢獻(xiàn)度,構(gòu)建的詞匯語(yǔ)義網(wǎng)絡(luò)模型圖準(zhǔn)確度更高。
9、在詞匯語(yǔ)義網(wǎng)絡(luò)模型中提取關(guān)鍵詞,既考慮了鄰近節(jié)點(diǎn)的密度,又考慮鄰近節(jié)點(diǎn)邊的權(quán)重,關(guān)鍵詞的提取更好的符合經(jīng)驗(yàn)值。
9、數(shù)據(jù)處理更加規(guī)范,易于詞匯語(yǔ)義網(wǎng)絡(luò)模型的生成。
10、在關(guān)鍵詞的相關(guān)度計(jì)算過(guò)程中,設(shè)定了更加嚴(yán)苛的約束條件,構(gòu)成的詞
匯語(yǔ)義網(wǎng)絡(luò)模型圖更加符合實(shí)際情況。
附圖說(shuō)明
圖1新的小世界網(wǎng)絡(luò)模型實(shí)現(xiàn)文本特征的提取方法的結(jié)構(gòu)流程圖
圖2中文文本預(yù)處理過(guò)程流程圖
圖3n元語(yǔ)法分詞算法圖解
圖4詞匯語(yǔ)義網(wǎng)絡(luò)模型圖
具體實(shí)施方式
為了解決常用的文本特征提取方法沒(méi)有考慮特征詞匯的語(yǔ)義地位和其對(duì)文本主旨表達(dá)所做貢獻(xiàn)的問(wèn)題,結(jié)合圖1-圖4對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:
步驟1:初始化文本語(yǔ)料庫(kù)模塊,對(duì)文本w的進(jìn)行中文分詞預(yù)處理,其具體描述過(guò)程如下:
綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過(guò)程流程圖如圖2。。
這里分詞方法利用一種基于信息論中文自動(dòng)分詞算法,其具體分詞和去停用詞步驟如下:
步驟1.1:利用停用表對(duì)文本進(jìn)行去停用詞處理。
步驟1.2:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,其具體描述如下:
把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識(shí)出來(lái);如果詞典中不存在相關(guān)匹配,就簡(jiǎn)單地分割出單字作為詞;直到漢字串為空。
步驟1.3:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為sm1m2m3m4m5e,其結(jié)構(gòu)圖如圖3所示。
步驟1.4:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具體計(jì)算過(guò)程如下:
根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞,第i條路徑包含詞的個(gè)數(shù)為ni。即n條路徑詞的個(gè)數(shù)集合為(n1,n2,…,nn)。
得min()=min(n1,n2,…,nn)
在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權(quán)重大小。
在統(tǒng)計(jì)語(yǔ)料庫(kù)中,計(jì)算每個(gè)詞的信息量x(ci),再求解路徑相鄰詞的共現(xiàn)信
息量x(ci,ci+1)。既有下式:
x(ci)=|x(ci)1-x(ci)2|
上式x(ci)1為文本語(yǔ)料庫(kù)中詞ci的信息量,x(ci)2為含詞ci的文本信息量。
x(ci)1=-p(ci)1lnp(ci)1
上式p(ci)1為ci在文本語(yǔ)料庫(kù)中的概率,n為含詞ci的文本語(yǔ)料庫(kù)的個(gè)數(shù)。
x(ci)2=-p(ci)2lnp(ci)2
上式p(ci)2為含詞ci的文本數(shù)概率值,n為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。
同理x(ci,ci+1)=|x(ci,ci+1)1-x(ci,ci+1)2|
x(ci,ci+1)1為在文本語(yǔ)料庫(kù)中詞(ci,ci+1)的共現(xiàn)信息量,x(ci,ci+1)2為相鄰詞(ci,ci+1)共現(xiàn)的文本信息量。
同理x(ci,ci+1)1=-p(ci,ci+1)1lnp(ci,ci+1)1
上式p(ci,ci+1)1為在文本語(yǔ)料庫(kù)中詞(ci,ci+1)的共現(xiàn)概率,m為在文本庫(kù)中詞(ci,ci+1)共現(xiàn)的文本數(shù)量。
x(ci,ci+1)2=-p(ci,ci+1)2lnp(ci,ci+1)2
p(ci,ci+1)2為文本庫(kù)中相鄰詞(ci,ci+1)共現(xiàn)的文本數(shù)概率。
綜上可得每條相鄰路徑的權(quán)值為
w(ci,ci+1)=x(ci)+x(ci+1)-2x(ci,ci+1)
步驟1.5:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體計(jì)算過(guò)程如下:
有n條路徑,每條路徑長(zhǎng)度不一樣,假設(shè)路徑長(zhǎng)度集合為(l1,l2,…,ln)。
假設(shè)經(jīng)過(guò)取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長(zhǎng)度集合為
則每條路徑權(quán)重為:
上式
權(quán)值最大的一條路徑:
步驟2:給步驟1中分詞結(jié)果的文本進(jìn)行位置、詞性加權(quán)處理,其具體描述如下:
αj代表位置權(quán)重,其賦值規(guī)則為:文本第一行是標(biāo)題,賦予權(quán)值5;段首第一個(gè)詞等于“摘要”,則賦予權(quán)值3;段首第一個(gè)詞等于“關(guān)鍵字”或“關(guān)鍵詞”,則賦予權(quán)值5;段首第一個(gè)詞等于“結(jié)論”,賦予權(quán)值3;其它,每段首賦予權(quán)值1;
βk代表詞性權(quán)重,其賦值規(guī)則為:現(xiàn)代漢語(yǔ)語(yǔ)法中,一個(gè)句子主要由主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)等成分構(gòu)成。從詞性的角度看,名詞一般擔(dān)當(dāng)主語(yǔ)和賓語(yǔ)的角色,動(dòng)詞一般擔(dān)當(dāng)謂語(yǔ)的角色,形容詞和副詞一般擔(dān)當(dāng)定語(yǔ)的角色。詞性的不同,造成了它們對(duì)文本或者句子的表示內(nèi)容的能力的不一樣。根據(jù)調(diào)查統(tǒng)計(jì)得出名詞、動(dòng)詞、形容詞、副詞的權(quán)重值依次為β1、β2、β3和β4,且β1>β2>β3>β4,其值可以由專家指出。
步驟3:得到的文本詞匯集合依據(jù)其語(yǔ)義相關(guān)度r(c1,c2)會(huì)出現(xiàn)聚合現(xiàn)象,構(gòu)建詞匯語(yǔ)義網(wǎng)絡(luò)模型圖,其具體計(jì)算過(guò)程如下:
基于《知網(wǎng)》的詞匯相關(guān)度計(jì)算方法,文本特征詞匯集合中的兩兩詞匯間相關(guān)度計(jì)算公式為:
上式ρ(icn)為兩詞匯本體概念共同的父節(jié)點(diǎn)密度,d(icn)為兩詞匯本體概念共同的父節(jié)點(diǎn)深度,ρmax(s)為義原網(wǎng)狀結(jié)構(gòu)中對(duì)應(yīng)父節(jié)點(diǎn)所在的樹狀結(jié)構(gòu)中的最大節(jié)點(diǎn)密度值,dmax(s)為義原網(wǎng)狀結(jié)構(gòu)中對(duì)應(yīng)父節(jié)點(diǎn)所在的樹狀結(jié)構(gòu)中的樹的度。n′=0為兩詞匯(c1,c2)間無(wú)特殊關(guān)系,n′>0為兩詞匯(c1,c2)間有特殊關(guān)系,a為由專家給定的特殊關(guān)系權(quán)重,a∈(0,1),α、β分別為對(duì)應(yīng)的影響系數(shù),α、β∈(0,1),這個(gè)可以由實(shí)驗(yàn)測(cè)出,α+β=1。
聯(lián)合詞匯在文本中的重要度、基于統(tǒng)計(jì)方法,構(gòu)造詞匯對(duì)文本影響函數(shù)y(ci),根據(jù)r1(c1,c2)的值,y(ci)需歸一化處理:
即為
ni為詞匯ci在文本中出現(xiàn)的頻數(shù),
約束條件為:
ni·j為第j文本中詞匯ci出現(xiàn)的頻數(shù),
綜合y(ci)、r1(c1,c2),即可得語(yǔ)義相關(guān)度r(c1,c2)
ρ、σ分別為對(duì)應(yīng)因子的影響系數(shù),ρ、σ∈(0,1),ρ+σ=1,其指可以根據(jù)實(shí)驗(yàn)測(cè)出,一般ρ>σ,同理w、w′,不一樣的是,也許w′≥w,這個(gè)要視具體情況而定。
利用上式構(gòu)建詞匯語(yǔ)義網(wǎng)絡(luò)模型圖,如圖4。
步驟4:根據(jù)圖中詞匯在整個(gè)語(yǔ)義網(wǎng)絡(luò)圖中的重要度構(gòu)造兩函數(shù)參數(shù)w1(ci)、w2(ci),即可得詞匯在整個(gè)文本中的地位和貢獻(xiàn)度,其具體計(jì)算過(guò)程如下:
特征詞匯的分支越多,詞匯在整個(gè)文本中的地位和貢獻(xiàn)度越大,可以通過(guò)下式計(jì)算詞匯在整個(gè)語(yǔ)義網(wǎng)絡(luò)圖中的重要度;
計(jì)算特征詞匯相鄰邊的平均權(quán)重w2(ci)
r(ci,cm)為ci與相鄰詞匯cm的相關(guān)度值,l為鄰邊數(shù)。
步驟5:根據(jù)步驟4中的兩參數(shù)設(shè)置合適閾值提取文本中的特征詞匯,即為代表文本主旨的特征詞匯向量,其具體計(jì)算過(guò)程如下:
相關(guān)專家設(shè)定w1(ci)、w2(ci)能夠滿足合適閾值ε、ε′∈(0,1),提取滿足下式關(guān)系的特征詞匯;
wl(ci)>ε
w2(ci)>ε′
只有同時(shí)滿足上式兩條件,則提取該關(guān)鍵詞作為文本特征詞匯。