本發(fā)明屬于計算機數(shù)據(jù)挖掘領(lǐng)域中文本挖掘領(lǐng)域,涉及一種基于加權(quán)左右鄰接熵與對稱條件概率相結(jié)合的短文本新詞發(fā)現(xiàn)方法。
背景技術(shù):
:新詞發(fā)現(xiàn)是一種重要的信息組織方式,研究的目標是自動挖掘和分析文本中出現(xiàn)的新詞。隨著網(wǎng)絡(luò)技術(shù)、社交網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,語言的內(nèi)涵、形式都在不斷的改變與擴充。網(wǎng)絡(luò)QQ、微博、論壇等這一時下最為流行的媒體,涌現(xiàn)了大量個體主觀信息,這些信息對市場趨勢、行為預(yù)測、觀點分析、人機交互等諸多領(lǐng)域有著極為重要的現(xiàn)實意義。新詞發(fā)現(xiàn)作為中文信息處理領(lǐng)域的一項基礎(chǔ)性任務(wù),直接影響到分詞技術(shù)、自然語言處理等其它中文信息處理任務(wù)的準確性與性能。越來越多的新詞是由互聯(lián)網(wǎng)用戶直接創(chuàng)造的,因此從互聯(lián)網(wǎng)用戶直接產(chǎn)生的語料中挖掘新詞將是一個新的研究熱點。面向互聯(lián)網(wǎng)的新詞發(fā)現(xiàn)具有極其重要的研究意義:從理論研究上看,新詞發(fā)現(xiàn)對機器翻譯、信息檢索、語法句法分析等領(lǐng)域有很大的影響,還為分詞技術(shù)、自然語言處理、人工智能中其他多語言相關(guān)問題的解決提供良好的基礎(chǔ),同時在所取得的每一個進步,都有助于加深我們對人類的智能、語言、思維、情感等問題的了解。更重要的是,情感分析還具有廣闊的應(yīng)用前景,能夠與時俱進的掌握社會動態(tài)、經(jīng)濟民生、時下焦點,可以帶來巨大的經(jīng)濟和社會效益。從商業(yè)活動的角度看,輸入法需要根據(jù)當下熱門詞匯更準確貼近的理解用戶此刻想要輸入的語句含義;微博需要挖掘時下網(wǎng)絡(luò)熱門用語制造話題創(chuàng)造熱點度和刷新率;產(chǎn)品生產(chǎn)、銷售廠商希望通過當下熱門新詞包裝商品,提高大眾接受度并跟蹤用戶對產(chǎn)品的反饋來獲得改進產(chǎn)品質(zhì)量的針對性意見。從文化生活的角度看,新詞發(fā)現(xiàn)技術(shù)能夠反映當下廣大網(wǎng)民關(guān)注度最高的熱門事件,通過網(wǎng)絡(luò)與民眾針對某些事件產(chǎn)生的新詞能夠了解大眾對于熱門事件的褒貶觀點,有利于用戶快速準確定位事件的本質(zhì),了解正反兩方面的評論意見,對于準確把握社會脈搏,建設(shè)社會有著重要意義。當前新詞識別的主流方法分為兩類:一類是基于規(guī)則的方法,另一類是基于統(tǒng)計的方法?;谝?guī)則的方法主要是利用構(gòu)詞法的構(gòu)詞原理,制定詞語共性規(guī)則庫(規(guī)則庫中包含詞語的語法、結(jié)構(gòu)等相關(guān)信息),再利用匹配規(guī)則識別新詞。其優(yōu)點是新詞發(fā)現(xiàn)的針對性強、準確率較高,缺點是由于規(guī)則只能針對某一特定領(lǐng)域制定,存在規(guī)則編寫依賴領(lǐng)域?qū)<?、維護成本巨大,且不同領(lǐng)域之間規(guī)則的移植性、適應(yīng)性不強,另外規(guī)則過多還容易引起規(guī)則沖突等問題?;诮y(tǒng)計的方法,主要是通過考察語料中的特征信息,計算詞語互信息、成詞概率等統(tǒng)計指標,再利用閾值發(fā)現(xiàn)新詞。其優(yōu)點是統(tǒng)計的方法可以根據(jù)具體的情況進行設(shè)定,方法比較靈活,適應(yīng)能力強,缺點是在統(tǒng)計的過程中需要大規(guī)模的語料進行模型訓(xùn)練,訓(xùn)練過程中可能因數(shù)據(jù)的稀疏,導(dǎo)致準確率低下的問題。從調(diào)研的情況看,目前的新詞識別研究成果中對于未登錄詞語的發(fā)現(xiàn)識別工作效果十分明顯,但是用這些方法對于“舊詞新義”所導(dǎo)致的歧義問題效果比較一般。綜上所述,開發(fā)一種能夠?qū)⒔y(tǒng)計和規(guī)則相結(jié)合的方法,較好地在規(guī)則與統(tǒng)計之間達到平衡是非常有必要的。因此,基于加權(quán)左右鄰接熵與對稱條件概率相結(jié)合的新詞發(fā)現(xiàn)方法不但具有深遠的理論價值,而且有著廣闊的應(yīng)用前景,可以創(chuàng)造較大的社會和經(jīng)濟效益。技術(shù)實現(xiàn)要素:針對上述已有方法存在的問題,為了提高新詞發(fā)現(xiàn)的準確率,本發(fā)明提出了一種基于加權(quán)左右鄰接熵與對稱條件概率相結(jié)合的新詞發(fā)現(xiàn)方法。本發(fā)明主要包含兩個方面:(1)計算對稱條件概率來衡量詞短語的內(nèi)聚性。(2)計算可能構(gòu)成新詞的短語的左右鄰接熵,來衡量詞組的靈活性。對稱條件概率是衡量給定字符串s中所有可能提取的詞組的內(nèi)聚性,也就是詞組固定搭配的概率。給定一個字符串s,其長度為n,ci代表語句s中的第i個字,P(.)表示給定詞組在語料中出現(xiàn)的概率。那么,字符串s的對稱條件概率計算公式為公式(1)SCP(s)=P(s)21n-1Σi=1n-1P(c1,ci)P(ci+1,cn)---(1)]]>在信息論中,信息熵用來衡量變量的不確定性。鄰接熵統(tǒng)計量利用信息熵來衡量候選新詞s的左鄰字符和右鄰字符的不確定性。不確定性越高,表明候選新詞s的上下文環(huán)境就越豐富。字符x和字符y表示候選新詞s的左鄰字符和右鄰字符,則該候選新詞s的左鄰熵HL(s)和右鄰熵HR(s)的計算方法見公式(2)和公式(3),BE(s)值取左鄰熵和右鄰熵的較小值,見公式(4)。HL(s)=-∑xp(x|s)logp(x|s)(2)HR(s)=-∑yp(y|s)logp(y|s)(3)BE(s)=min{HL(s),HR(s)}(4)使用公式(2)和公式(3)計算左鄰熵和右鄰熵的時候,對于鄰接字符x和鄰接字符y,如果該鄰接字符x作為該新詞s左鄰字符的次數(shù)與該鄰接字符y作為該新詞s右鄰字符的次數(shù)相同,即p(x|s)等于p(y|s)。那么字符x和字符y帶來的信息量就是相等的。也就是說字符x和字符y對于候選新詞s的鄰接熵值的貢獻是一樣的。如果字符x是一個標點符號,而字符y是一個普通漢字字符,直覺上,字符x比字符y更能說明s是一個新詞。也就是說字符x比字符y對候選新詞s能否成詞的貢獻更大。對于字符串能否成詞,不同的鄰接字符的貢獻是不一樣的。本發(fā)明給每個鄰接字符x一個權(quán)值λx,λx的取值通過字符x出現(xiàn)的頻率來確定。加權(quán)的左鄰熵和右鄰熵的計算見公式(5)和公式(6),加權(quán)鄰接熵sBE分別由公式(5),公式(6)和公式(4)計算。HL(s)=∑x-λxp(x|s)logp(x|s)(5)HR(s)=∑y-λyp(y|s)logp(y|s)(6)其中,x代表每一個字符,所以求和相當于對s中的每個字符求公式,再求和。成詞的概率計算方法,對鄰接熵的值和對稱條件概率的值進行歸一化處理,然后對兩個結(jié)果進行加權(quán)計算。計算方法如公式(7)。Prword(s)=(1-μ)Nor(BE(s))+μNor(SCP(s))(7)根據(jù)實際實驗的結(jié)果,本發(fā)明μ的取值為0.2。BE(s)的歸一化計算方法如公式(8)和SCP(s)的歸一化計算方法如公式(9)。Nor(BE(s))=BE(s)-minBE(s)MaxBE(s)-MinBE(s)---(8)]]>Nor(SCP(s))=SCP(s)-τ3σ+12---(9)]]>其中τ是所選各短文本的SCP(s)平均值,σ為各SCP(s)的標準差。根據(jù)Prword(s)的值確定詞s是否為新詞,即如果Prword(s)≥TPr,則將該子串s添加為候選詞;其中TPr為設(shè)定的閾值。與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:本發(fā)明提出的基于加權(quán)左右鄰接熵與互信息相結(jié)合的新詞發(fā)現(xiàn)方法進行了驗證。如表1,實驗證明,采用基于加權(quán)左右鄰接熵與對稱條件概率相結(jié)合的新詞發(fā)現(xiàn)的計算方法,新詞發(fā)現(xiàn)的準確率優(yōu)于現(xiàn)有的方法。表1為本發(fā)明的實驗數(shù)據(jù)對比表語料規(guī)模準確率召回率50M87.65%80.82%500M90.23%86.73%附圖說明圖1為本發(fā)明的方法流程圖。具體實施方式下面,結(jié)合具體的實施例對本發(fā)明進行詳細說明。結(jié)合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍?;诩訖?quán)左右鄰接熵與對稱條件概率相結(jié)合的短文本新詞發(fā)現(xiàn)方法流程如圖1所示,其基本步驟如下:1.初始化。設(shè)置抽取詞的頻率閾值Tfreq,成詞概率閾值Tpr,SCP的閾值TSCP,BE的閾值TBE,參數(shù)μ和參數(shù)λ。2.構(gòu)建語料(選取的若干短文本)索引,提取長度為2≤L≤4的所有候選詞。3.對于每一個子串s,計算s的頻率freq(s)。4.如果freq(s)≥Tfreq,則利用公式(1)計算SCP(s),利用公式(4),公式(5),公式(6)計算BE(s)。5.如果SCP(s)<TSCP,則繼續(xù)步驟3。6.如果BE(s)<TBE,則繼續(xù)步驟3。7.利用公式(8)計算Nor(BE(s))的值。8.利用公式(9)計算Nor(SCP(s))的值。9.利用公式(7)計算Prword(s)的值。10.如果Prword(s)≥TPr,則將該子串s添加為候選詞。當前第1頁1 2 3