專利名稱:基于語義構(gòu)詞約束的漢語二字詞抽取方法
技術(shù)領(lǐng)域:
基于語義構(gòu)詞約束的漢語二字詞抽取方法屬于自然語言處理技術(shù)領(lǐng)域漢語中,詞是由字組成的。這和英語中短語的情況類似短語由若干個(gè)詞構(gòu)成,短語之間亦無顯式分隔符號(hào)。因此漢語的自動(dòng)抽詞與英語的短語自動(dòng)抽取工作是相似的。目前關(guān)于詞或短語抽取的研究,國內(nèi)外學(xué)者都做了不少工作,方法大致可分為兩類基于統(tǒng)計(jì)和基于規(guī)則。
基于規(guī)則的方法則需要一些事先掌握知識(shí)的指導(dǎo),從而建立相應(yīng)規(guī)則來判斷是否成詞或短語。例如將語料進(jìn)行詞性標(biāo)注后使用語法或語義規(guī)則來識(shí)別;建立停用詞表,將所有含有停用詞或功能詞的串識(shí)別為非詞。但從語言學(xué)中歸納出相應(yīng)規(guī)則相當(dāng)困難,且規(guī)則的通用程度差,故此類方法效果均不甚佳。基于統(tǒng)計(jì)的方法是當(dāng)前研究的主流。主要從兩個(gè)角度考察一個(gè)符號(hào)串成詞或短語的可能性。一是衡量該符號(hào)串內(nèi)部結(jié)合緊密度,認(rèn)為結(jié)合緊密度高的串成詞可能性大。常用的衡量方法包括頻度(Frequency)、互信息(Mutual Information)以及其它一些統(tǒng)計(jì)量。另一角度則考察該串對上下文環(huán)境的依賴度,認(rèn)為候選串過分依賴于其上下文環(huán)境時(shí),其成詞可能性小。
目前的統(tǒng)計(jì)方法中,那些基于內(nèi)部結(jié)合緊密度的抽詞方法,主要以字為單位進(jìn)行處理,往往忽略了漢語的重要特性對大部分的詞(復(fù)合詞)而言,其組成成分(字或詞)之間存在一定的語義構(gòu)詞約束關(guān)系??梢哉J(rèn)為這些語義約束關(guān)系反映了漢語中的一些構(gòu)詞法,即存在強(qiáng)約束力的兩個(gè)語義能夠搭配成詞的可能性大。這意味著,可以利用語義約束關(guān)系來幫助識(shí)別詞語。
基于語義約束的自動(dòng)抽詞思想很直接不是從組成的字來判斷是否成詞,而是從其對應(yīng)語義來判斷是否能成詞。例如詞典中已經(jīng)收錄了“美軍”,“日軍”和“蘇軍”三個(gè)詞,它們都遵從“國家+軍隊(duì)”的語義搭配模式。因此,通過對詞典的學(xué)習(xí),我們可以發(fā)現(xiàn)“國家+軍隊(duì)”這個(gè)語義搭配存在較強(qiáng)的約束關(guān)系。于是對于具有同樣語義搭配模式的候選串“俄軍”,就可正確地推斷出它也是一個(gè)詞。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于語義構(gòu)詞約束的漢語二字詞抽取方法。
本發(fā)明的特征在于它是通過衡量字之間的語義約束強(qiáng)度來判斷候選字符串能否成詞的一種方法,即它以表示漢語詞匯語義的隱馬爾可夫模型(HMM)為基礎(chǔ),用Baum-Welch算法來不斷地更新HMM中的語義狀態(tài)轉(zhuǎn)移概率矩陣和狀態(tài)轉(zhuǎn)移處的輸出字符概率矩陣,直到收斂為止,然后再確定重新估算的上述HMM參數(shù),根據(jù)這些表示狀態(tài)轉(zhuǎn)移的次數(shù)和轉(zhuǎn)移處產(chǎn)生字符次數(shù)的概率矩陣便可得出表征語義約束關(guān)系的字符對應(yīng)語義的概率和語義序列的聯(lián)合緊密程度,最后便可由此計(jì)算出表征成詞可能性的參數(shù);該方法是在計(jì)算機(jī)上依次按下列步驟實(shí)現(xiàn)的,具體而言,可分為兩個(gè)階段。學(xué)習(xí)階段(1)訓(xùn)練詞典中的詞條全部輸入計(jì)算機(jī),構(gòu)成訓(xùn)練詞典WW={(wi,freqi)|i=1,…,l}其中,wi、freqi分別為第i個(gè)詞及其頻度;(2)用隱馬爾可夫模型HMM表示漢語詞匯的語義集合HMM=(S,C,PS,PC,II)其中,S={s0,s1,s2,…,sn},si表示詞w的任意一個(gè)語義,s0為初始狀態(tài),S為語義的狀態(tài)集合;C={c1,c2,…,cm},ct為狀態(tài)轉(zhuǎn)移處輸出的任意一個(gè)漢字,C為輸出字符集合;PS=[pij]為狀態(tài)轉(zhuǎn)移概率矩陣,其中pij=p(sj|si),表示從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj的概率,i=0,…,n,j=1,…,n。
PC=[ait]為一個(gè)n×m的輸出矩陣,其中ait=p(ct|si),表示狀態(tài)si產(chǎn)生輸出字符ct的概率。
II=(π0,…,πn)為初始向量,其中πi為狀態(tài)si作為初始狀態(tài)的概率。
(3)按平均的策略初始化PS、PC對PS有pij=1/n,其中i=0,…,n,j=1,…,n,即從語義狀態(tài)si到狀態(tài)集S中任伺一個(gè)語義狀態(tài)sj的轉(zhuǎn)移概率都相等。
對PC有ait=1/m,其中i=1,…,n,t=1,…,m,即語義狀態(tài)si產(chǎn)生字符集中任意字符ct的概率相等。
(4)初始化當(dāng)前參數(shù)PS、PC下HMM的可信度QW=0。
(5)結(jié)合Baum-Welch算法和當(dāng)前參數(shù)PS、PC,重新估計(jì)HMM的參數(shù)PS′、PC′(5.1)設(shè)w是由c1和c2組成的二字詞,即w=c1c2,從《漢字義類信息庫》中統(tǒng)計(jì)出詞w所有可能的語義狀態(tài)、語義序列、及狀態(tài)轉(zhuǎn)移路徑c1具有n1個(gè)語義s11,s12,…, c2具有n2個(gè)語義s21,s22,…, 由于全部語義序列都從初始狀態(tài)s0出發(fā),則詞w有n1×n2個(gè)可能的語義序列s0s11s21,s0s11s22,……, ,可能的狀態(tài)轉(zhuǎn)移路徑為s0→s1i、s1i→s2j(其中i=1,...,n1,j=1,...,n2);(5.2)用Baum-Welch算法和當(dāng)前參數(shù)PS、PC求出發(fā)生狀態(tài)轉(zhuǎn)移s0→s1i的概率p(s0→s1i)p(s0→s1i)=p(s1i|s0)p(c1|s1i)Σj=1n2[p(s2j|s1i)p(c2|s2j)],]]>p(s1i|s0)從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i的概率,p(c1|s1i)在狀態(tài)s1i處產(chǎn)生輸出字符c1的概率,p(s2j|s1i)從狀態(tài)s1i轉(zhuǎn)移狀態(tài)s2j的概率,p(c2|s2j)在狀態(tài)s2j處產(chǎn)生輸出字符c2的概率,p(s0→s1i)表示在滿足從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i并產(chǎn)生輸出字符c1,再從狀態(tài)s1i轉(zhuǎn)移到s2j并產(chǎn)生輸出字符c2這一概率條件下,從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i的概率;p(s1i→s2j)=p(s1i|s0)p(c1|s1i)p(s2j|s1i)p(c2|s2j),表示在從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i并產(chǎn)生輸出字符c1,再從狀態(tài)s1i轉(zhuǎn)移到s2j并產(chǎn)生輸出字符c2這一概率條件下,從狀態(tài)s1i轉(zhuǎn)移狀態(tài)s2j的概率;(5.3)根據(jù)下式求出,詞w從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj,且在狀態(tài)sj處產(chǎn)生輸出字符集中任一字符ct∈C的次數(shù) 這表示,詞w從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i,且在狀態(tài)s1i處產(chǎn)生輸出字符c1的次數(shù)為p(s0→s1i)×freq;詞w從狀態(tài)s1i轉(zhuǎn)移狀態(tài)s2j且在狀態(tài)s2j處產(chǎn)生輸出字符c2的次數(shù)為p(s1i→s2j)×freq;其他情況發(fā)生的次數(shù)為零。
(5.4)累計(jì)訓(xùn)練詞典中所有詞w各自的Countw(ct;si→sj),得到整部訓(xùn)練詞典中從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj,且在狀態(tài)sj處產(chǎn)生輸出字符ct的總次數(shù)C(ct;si→sj)C(ct;si→sj)=Σ∀wCountw(c1;si→sj)]]>(5.5)計(jì)算其他輔助矩陣,以便重新估計(jì)HMM參數(shù)PS′、PC′C1(si,sj)=Σ∀ct∈CC(ct;si→sj)]]>,表示整部訓(xùn)練詞典中從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj處產(chǎn)生輸出字符集C中任意一個(gè)字符ct∈C的次數(shù),它也是從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj的次數(shù);C2(si)=Σj=1nC1(si,sj)]]>,表示整部訓(xùn)練詞典中由狀態(tài)si轉(zhuǎn)移到狀態(tài)集S中任意一個(gè)語義狀態(tài)sj的次數(shù)之和,即由狀態(tài)si發(fā)生轉(zhuǎn)移的次數(shù);C3(ct;sj)=Σ∀si∈SC(ct;si→sj)]]>,表示從狀態(tài)集S中任意一個(gè)語義狀態(tài)si轉(zhuǎn)移到sj,且在sj輸出字符ct的次數(shù)之和,即表示整部詞典中任一語義狀態(tài)sj輸出字符ct的次數(shù);C4(sj)=Σ∀ct∈CC3(ct;sj)]]>,表示整部詞典中狀態(tài)sj出現(xiàn)的次數(shù),即等于狀態(tài)sj產(chǎn)生輸出字符集C中任意字符ct∈C的次數(shù)之和。
(5.6)根據(jù)以上的輔助矩陣即次數(shù)矩陣,重新估計(jì)HMM參數(shù)PS′、PC′狀態(tài)轉(zhuǎn)移矩陣PS′=[pij′]pij′為狀態(tài)si到狀態(tài)sj的轉(zhuǎn)移概率,可用從si轉(zhuǎn)移到sj的次數(shù)C1(si,sj)與由si發(fā)生轉(zhuǎn)移次數(shù)C2(si)的比值來估計(jì),即pij′=C1(si,sj)/C2(si)。輸出矩陣PC′=[ait′]ait′為狀態(tài)si產(chǎn)生字符ct的概率,可用si產(chǎn)生ct的次數(shù)C3(ct;si)與整部詞典中si出現(xiàn)次數(shù)C4(si)的比值來估計(jì),即ait′=C3(ct;si)/C4(si);(6)評估在新參數(shù)PS′、PC′下HMM的可信度QW′QW′=Σc1c2∈WΣs1s2∈c1c2p′(s1s2)p′(s1|c1)p′(s2|c2)]]>其中,c1c2表示訓(xùn)練詞典W中的任意一個(gè)詞條。s1表示字c1可對應(yīng)的任意一個(gè)語義,s2表示c2可對應(yīng)的任一語義,s1、s2∈S。p′(s1|c1)表示新參數(shù)PS′、PC′下,漢字c1對應(yīng)語義s1的概率,可用步驟(5)的輔助矩陣計(jì)算p′(s1|c1)=C3(c1;s1)/Σ∀sk∈SC3(c1;sk)]]>,sk是屬于S的任意語義。
p′(s2|c2)表示新參數(shù)PS′、PC′下,漢字c2對應(yīng)語義s2的概率,計(jì)算方法與p(s1|c1)相同,即p′(s2|c2)=C3(c2;s2)/Σ∀sk∈SC3(c2;sk).]]>p′(s1,s2)表示新參數(shù)PS′、PC′下語義序列s1s2的同現(xiàn)概率,其計(jì)算方式為P′(s1,s2)=C1(s1,s2)/Σ∀sk∈SΣ∀st∈SC1(sk,st)]]>,sk,st是屬于狀態(tài)集S的任意語義。
(7)計(jì)算δQ=QW′-QW設(shè)定δ0為是否收斂的閾值。
若δQ≤δ0則HMM參數(shù)估計(jì)過程收斂,執(zhí)行下一步驟(8);否則便用PS′、PC′、QW′分別代替PS、PC、QW,返回步驟(4),重新估計(jì)HMM參數(shù)PS′、PC′。
(8)根據(jù)步驟(5)所得的輔助矩陣,來計(jì)算語義約束關(guān)系p(sj|ct)、MI(si,sj)。設(shè)sk,st是屬于狀態(tài)集S的任意語義,則有p(sj|ct)=C3(ct;sj)/Σ∀sk∈SC3(ct;sk)]]>,表示漢字ct對應(yīng)語義sj的概率。MI(si,sj)=log2p(si,sj)p(si)p(sj)]]>,表示語義序列sisj的聯(lián)合緊密程度和構(gòu)詞的可能性。其中p(si)為語義si出現(xiàn)概率,p(si)=C4(si)/Σ∀sk∈SC4(sk)]]>;p(sisj)為語義序列sisj的同現(xiàn)概率,p(si,sj)=C1(si,sj)/Σ∀sk∈SΣ∀st∈SC1(sk,st);]]>(9)保存所需的p(sj|ct)和MI(si,sj)矩陣,學(xué)習(xí)階段結(jié)束抽詞決策階段(1)輸入要候選二字串c1c2。
(2)從《漢字義類信息庫》中查詢到漢字c1具有n1個(gè)語義,分別是s11,s12,…, 漢字c2具有n2個(gè)語義,分別是s21,s22,…, (3)計(jì)算成詞可能性LWMI(c1c2)。LWMI(c1c2)=Σi=1n1Σj=1n2MI(s1i,s2j)p(s1i|c1)p(s2j|c2).]]>此式的物理意義為,對c1c2的每個(gè)語義序列s1i,s2j查詢其構(gòu)詞的可能性MI(s1i,s2j),并將所有可能語義序列的構(gòu)詞可能性加權(quán)組合起來,作為c1c2這個(gè)漢字串的成詞可能性。
(4)若LW(c1c2)≥t0則判斷c1c2為詞。其中,t0為給定的閾值,通過大量實(shí)驗(yàn)結(jié)果,我們認(rèn)為較合適的選擇為t0=0。
實(shí)驗(yàn)證明語義約束法的準(zhǔn)確率在相同的召回率下要高于傳統(tǒng)的互信息方法。
為了評測我們發(fā)明的基于語義約束漢語自動(dòng)抽詞方法,我們設(shè)計(jì)了如下的實(shí)驗(yàn)實(shí)驗(yàn)條件PII650MHZ的PC,256M內(nèi)存,Visual C++語言實(shí)現(xiàn)程序?qū)嶒?yàn)數(shù)據(jù)從1998年人民日報(bào)的標(biāo)注語料中生成一個(gè)標(biāo)準(zhǔn)答案表,該表中共有238,946個(gè)二字串,其中23,725個(gè)是詞。應(yīng)用《漢字義類信息庫》(由清華大學(xué)人工智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室自然語言處理組提供)來為每個(gè)漢字尋找所有對應(yīng)的語義。
實(shí)驗(yàn)結(jié)果抽詞的性能用兩個(gè)性能指標(biāo)來衡量召回率和準(zhǔn)確率。
為了觀察基于語義約束的方法的效果,我們將它與傳統(tǒng)最通用的基于字的互信息方法進(jìn)行比較?;バ畔⒎椒?,對每個(gè)候選串計(jì)算MI(c1c2)=log2p(c1c2)p(c1)p(c2)]]>,若MI(c1c2),大于給定閾值,則判斷候選串為詞。上式中p(c1)和p(c1c2)分別表示c1和c1c2在實(shí)際語料中出現(xiàn)的概率。本實(shí)驗(yàn)中,這些概率信息從102MB大小的人民日報(bào)語料庫中統(tǒng)計(jì)而得。表1.兩種抽詞方法在不同召回率時(shí)相應(yīng)的F-Measure性能
在表1中,Sem表示基于語義約束的方法,MI表示傳統(tǒng)的互信息方法。觀察圖、表可發(fā)現(xiàn),基于語義約束的抽詞方法比傳統(tǒng)基于字的抽詞方法在性能上有了相當(dāng)顯著的提高。Sem的最大F-Measure比MI高21個(gè)百分點(diǎn),而平均F-Measure指標(biāo)也提高了12.8%。
本項(xiàng)技術(shù)可用于各種自然語言處理中,包括未登錄詞識(shí)別、詞典自動(dòng)生成、基于n-gram的信息檢索特征選取、自動(dòng)建立文檔索引等應(yīng)用。
權(quán)利要求
1.基于語義構(gòu)詞約束的漢語二字詞抽取方法,其特征在于,它是通過衡量字之間的語義約束強(qiáng)度來判斷候選字符串能否成詞的一種方法,即它以表示漢語詞匯語義的隱馬爾可夫模型(HMM)為基礎(chǔ),用Baum-Welch算法來不斷地更新HMM中的語義狀態(tài)轉(zhuǎn)移概率矩陣和狀態(tài)轉(zhuǎn)移處的輸出字符概率矩陣,直到收斂為止,然后再確定重新估算的上述HMM參數(shù),根據(jù)這些表示狀態(tài)轉(zhuǎn)移的次數(shù)和轉(zhuǎn)移處產(chǎn)生字符次數(shù)的概率矩陣便可得出表征語義約束關(guān)系的字符對應(yīng)語義的概率和語義序列的聯(lián)合緊密程度,最后便可由此計(jì)算出表征成詞可能性的參數(shù);該方法是在計(jì)算機(jī)上依次按下列步驟實(shí)現(xiàn)的,具體而言,可分為兩個(gè)階段學(xué)習(xí)階段(1)訓(xùn)練詞典中的詞條全部輸入計(jì)算機(jī),構(gòu)成訓(xùn)練詞典WW={(wi,freqi)|i=1,…,l}其中,wi、freqi分別為第i個(gè)詞及其頻度;(2)用隱馬爾可夫模型HMM表示漢語詞匯的語義集合HMM=(S,C,PS,PC,II)其中,S={s0,s1,s2,…,sn},si表示詞w的任意一個(gè)語義,s0為初始狀態(tài),S為語義的狀態(tài)集合;C={c1,c2,…,cm},ct為狀態(tài)轉(zhuǎn)移處輸出的任意一個(gè)漢字,C為輸出字符集合;PS=[pij]為狀態(tài)轉(zhuǎn)移概率矩陣,其中pij=p(sj|si),表示從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj的概率,i=0,…,n,j=1,…,n;PC=[ait]為一個(gè)n×m的輸出矩陣,其中ait=p(ct|si),表示狀態(tài)si產(chǎn)生輸出字符ct的概率;II=(π0,…,πn)為初始向量,其中πi為狀態(tài)si作為初始狀態(tài)的概率;(3)按平均的策略初始化PS、PS對PS有pij=1/n,其中i=0,…,n,j=1,…,n,即從語義狀態(tài)si到狀態(tài)集S中任何一個(gè)語義狀態(tài)sj的轉(zhuǎn)移概率都相等;對PC有ait=1/m,其中i=1,…,n,t=1,…,m,即語義狀態(tài)si產(chǎn)生字符集中任意字符ct的概率相等;(4)初始化當(dāng)前參數(shù)PS、PC下HMM的可信度QW=0;(5)結(jié)合Baum-Welch算法和當(dāng)前參數(shù)PS、PC,重新估計(jì)HMM的參數(shù)PS′、PC′(5.1)設(shè)w是由c1和c2組成的二字詞,即w=c1c2,從《漢字義類信息庫》中統(tǒng)計(jì)出詞w所有可能的語義狀態(tài)、語義序列、及狀態(tài)轉(zhuǎn)移路徑c1具有n1個(gè)語義s11,s12,…, c2具有n2個(gè)語義s21,s22,…, 由于全部語義序列都從初始狀態(tài)s0出發(fā),則詞w有n1×n2個(gè)可能的語義序列s0s11s21,s0s11s22,……, ,可能的狀態(tài)轉(zhuǎn)移路徑為s0→s1i、s1i→s2j(其中i=1,...,n1,j=1,...,n2);(5.2)用Baum-Welch算法和當(dāng)前參數(shù)PS、PC求出發(fā)生狀態(tài)轉(zhuǎn)移s0→s1i的概率p(S0→S1i)p(s0→s1i)=p(s1i|s0)p(c1|s1i)Σj=1n2[p(s2j|s1i)p(c2|s2j)],]]>p(S1i|s0)從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i的概率,p(c1|s1i)在狀態(tài)s1i處產(chǎn)生輸出字符c1的概率,p(s2j|s1i)從狀態(tài)s1i轉(zhuǎn)移狀態(tài)s2j的概率,p(c2|s2j)在狀態(tài)s2j處產(chǎn)生輸出字符c2的概率,p(s0→s1i)表示;在滿足從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i并產(chǎn)生輸出字符c1,再從狀態(tài)s1i轉(zhuǎn)移到s2j并產(chǎn)生輸出字符c2這一概率條件下,從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i的概率;p(s1i→s2j)=p(s1i|s0)p(c1|s1i)p(s2j|s1i)p(c2|s2j),表示在從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i并產(chǎn)生輸出字符c1,再從狀態(tài)s1i轉(zhuǎn)移到s2j并產(chǎn)生輸出字符c2這一概率條件下,從狀態(tài)s1i轉(zhuǎn)移狀態(tài)s2j的概率;(5.3)根據(jù)下式求出,詞w從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj,且在狀態(tài)sj處產(chǎn)生輸出字符集中任一字符ct∈C的次數(shù) 這表示,詞w從狀態(tài)s0轉(zhuǎn)移狀態(tài)s1i,且在狀態(tài)s1i處產(chǎn)生輸出字符c1的次數(shù)為p(s0→s1i)×freq;詞w從狀態(tài)s1i轉(zhuǎn)移狀態(tài)s2j且在狀態(tài)s2j處產(chǎn)生輸出字符c2的次數(shù)為p(s1i→s2j)×freq;其他情況發(fā)生的次數(shù)為零;(5.4)累計(jì)訓(xùn)練詞典中所有詞w各自的Countw(ct;si→sj),得到整部訓(xùn)練詞典中從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj,且在狀態(tài)sj處產(chǎn)生輸出字符ct的總次數(shù)C(ct;si→sj)C(ct;si→sj)=Σ∀wCountw(ct;si→sj)]]>(5.5)計(jì)算其他輔助矩陣,以便重新估計(jì)HMM參數(shù)PS′、PC′C1(si,sj)=Σ∀ct∈CC(ct;si→sj)]]>,表示整部訓(xùn)練詞典中從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj處產(chǎn)生輸出字符集C中任意一個(gè)字符ct∈C的次數(shù),它也是從狀態(tài)si轉(zhuǎn)移到狀態(tài)sj的次數(shù);C2(si)=Σj=1nC1(si,sj)]]>,表示整部訓(xùn)練詞典中由狀態(tài)si轉(zhuǎn)移到狀態(tài)集S中任意一個(gè)語義狀態(tài)sj的次數(shù)之和,即由狀態(tài)si發(fā)生轉(zhuǎn)移的次數(shù);C3(ct;sj)=Σ∀si∈sC(ct;si→sj)]]>,表示從狀態(tài)集S中任意一個(gè)語義狀態(tài)si轉(zhuǎn)移到sj,且在sj輸出字符ct的次數(shù)之和,即表示整部詞典中任一語義狀態(tài)sj輸出字符ct的次數(shù);C4(sj)=Σ∀ct∈CC3(ct;sj)]]>,表示整部詞典中狀態(tài)sj出現(xiàn)的次數(shù),即等于狀態(tài)sj產(chǎn)生輸出字符集C中任意字符ct∈C的次數(shù)之和;(4.6)根據(jù)以上的輔助矩陣即次數(shù)矩陣,重新估計(jì)HMM參數(shù)PS′、PC′狀態(tài)轉(zhuǎn)移矩陣PS′=[pij′]pij′為狀態(tài)si到狀態(tài)sj的轉(zhuǎn)移概率,可用從si轉(zhuǎn)移到sj的次數(shù)C1(si,sj)與由si發(fā)生轉(zhuǎn)移次數(shù)C2(si)的比值來估計(jì),即pij′=C1(si,sj)/C2(si);輸出矩陣PC′=[ait′]ait′為狀態(tài)si產(chǎn)生字符ct的概率,可用si產(chǎn)生ct的次數(shù)C3(ct;si)與整部詞典中si出現(xiàn)次數(shù)C4(si)的比值來估計(jì),即ait′=C3(ct;si)/C4(si);(6)評估在新參數(shù)PS′、PC′下HMM的可信度QW′QW′=Σc1c2∈WΣs1s2∈c1c2p′(s1s2)p′(s1|c1)p′(s2|c2)]]>其中,c1c2表示訓(xùn)練詞典W中的任意一個(gè)詞條;s1表示字c1可對應(yīng)的任意一個(gè)語義,s2表示c2可對應(yīng)的任一語義,s1、s2∈S;p′(s1|c1)表示新參數(shù)PS′、PC′下,漢字c1對應(yīng)語義s1的概率,可用步驟(5)的輔助矩陣計(jì)算p′(s1|c1)=C3(c1;s1)/Σ∀sk∈SC3(c1;sk)]]>,sk是屬于S的任意語義;p′(s2|c2)表示新參數(shù)PS′、PC′下,漢字c2對應(yīng)語義s2的概率,計(jì)算方法與p(s1|c1)相同,即p′(s2|c2)=C3(c2;s2)/Σ∀sk∈SC3(c2;sk);]]>p′(s1,s2)表示新參數(shù)PS′、PC′下語義序列s1s2的同現(xiàn)概率,其計(jì)算方式為P′(s1,s2)=C1(s1,s2)/Σ∀sk∈SΣ∀st∈SC1(sk,st)]]>,sk,st是屬于狀態(tài)集S的任意語義;(7)計(jì)算δQ=QW′-QW設(shè)定δ0為是否收斂的閾值;若δQ≤δ0則HMM參數(shù)估計(jì)過程收斂,執(zhí)行下一步驟(8);否則便用PS′、PC′、QW′分別代替PS、PC、QW,返回步驟(4),重新估計(jì)HMM參數(shù)PS′、PC′;(8)根據(jù)步驟(5)所得的輔助矩陣,來計(jì)算語義約束關(guān)系p(sj|ct)、MI(si,sj);設(shè)sk,st是屬于狀態(tài)集S的任意語義,則有p(sj|ct)=C3(ct;sj)/Σ∀sk∈SC3(ct;sk)]]>表示漢字ct對應(yīng)語義sj的概率;MI(si,sj)=log2p(si,sj)p(si)p(sj)]]>,表示語義序列sisj的聯(lián)合緊密程度和構(gòu)詞的可能性;其中p(si)為語義si出現(xiàn)概率,p(si)=C4(si)/Σ∀sk∈SC4(sk)]]>;p(sisj)為語義序列sisj的同現(xiàn)概率,p(si,sj)=C1(si,sj)/Σ∀sk∈SΣ∀st∈SC1(sk,st);]]>(9)保存所需的p(sj|ct)和MI(si,sj)矩陣,學(xué)習(xí)階段結(jié)束抽詞決策階段(1)輸入要候選二字串c1c2;(2)從《漢字義類信息庫》中查詢到漢字c1具有n1個(gè)語義,分別是s11,s12,…, 漢字c2具有n2個(gè)語義,分別是s21,s22,…, (3)計(jì)算成詞可能性LWM1(c1c2);LWMI(c1c2)=Σi=1n1Σj=1n2MI(s1i,s2j)p(s1i|c1)p(s2j|c2);]]>此式的物理意義為,對c1c2的每個(gè)語義序列s1i,s2j查詢其構(gòu)詞的可能性MI(s1i,s2j),并將所有可能語義序列的構(gòu)詞可能性加權(quán)組合起來,作為c1c2這個(gè)漢字串的成詞可能性;(4)若LW(c1c2)≥t0則判斷c1c2為詞;其中,t0為給定的閾值,通過大量實(shí)驗(yàn)結(jié)果,我們認(rèn)為較合適的選擇為t0=0。
全文摘要
基于語義構(gòu)詞約束的漢語二字詞抽取方法屬于自然語言處理技術(shù)領(lǐng)域,其特征在于,它是通過衡量字之間的語義約束強(qiáng)度來判斷候選字符串能否成詞的方法,即它以表示漢語詞匯語義的隱馬爾可夫模型(HMM)為基礎(chǔ),用Baum-Welch算法來更新HMM中的語義狀態(tài)轉(zhuǎn)移概率矩陣和狀態(tài)轉(zhuǎn)移處的輸出字符概率矩陣,然后根據(jù)表示狀態(tài)轉(zhuǎn)移次數(shù)和轉(zhuǎn)移處產(chǎn)生字符次數(shù)的概率矩陣來求出表征語義約束關(guān)系的字符對應(yīng)語義的概率和語義序列的聯(lián)合緊密程度,最后根據(jù)這兩個(gè)參數(shù)便可算出成詞的判決值。它與傳統(tǒng)的互信息法比較,在召回率相同下,準(zhǔn)確率更高些。
文檔編號(hào)G06F17/16GK1447264SQ03121940
公開日2003年10月8日 申請日期2003年4月18日 優(yōu)先權(quán)日2003年4月18日
發(fā)明者羅盛芬, 孫茂松 申請人:清華大學(xué)