一種基于重復字串的微博新詞非監(jiān)督自動抽取方法
【專利摘要】本發(fā)明公開了一種基于重復字串的微博新詞非監(jiān)督自動抽取方法,先對待處理的微博文檔進行文本切分,利用動態(tài)規(guī)劃的分詞方法切分文本,切分出待識別的字串,將待識別字串中切詞碎片組合,組合成待識別的新詞,然后根據(jù)統(tǒng)計選詞模型從待識別的字串提取出候選新詞,緊接著利用規(guī)則過濾模型對候選詞進行過濾,最后得到最終的新詞。本發(fā)明的有益效果是有效的保證了較高的準確率,并不過分依賴規(guī)則字庫,同時保證了新詞的抽取速度。
【專利說明】—種基于重復字串的微博新詞非監(jiān)督自動抽取方法【技術領域】
[0001]本發(fā)明屬于新詞語檢索方法【技術領域】,涉及一種基于重復字串的微博新詞非監(jiān)督自動抽取方法。
【背景技術】
[0002]新詞識別是困擾中文自動分詞領域的主要問題之一,而隨著微博的發(fā)展,加速了新詞的出現(xiàn)速度。新詞的非監(jiān)督自動識別對于其他自然語言處理任務至關重要。中文文本的自動切分是自然語言處理領域一項重要的基礎工作。新詞的識別和處理是制約中文分詞系統(tǒng)精度進一步提高的困難之一。目前,新詞抽取研究主要集中在實體名詞的抽取,特別是人名、地名、機構名的抽取。其他新詞在構成上基本沒有普遍的規(guī)律,相關的研究較少,識別率也很低。新詞抽取所使用的方法主要有基于統(tǒng)計和基于規(guī)則的方法?;诮y(tǒng)計的方法容易實現(xiàn),但受統(tǒng)計語料的影響非常明顯;基于規(guī)則的方法準確率高,但對規(guī)則庫完備性有很大的依賴性。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在提供一種基于重復字串的微博新詞非監(jiān)督自動抽取方法,解決了現(xiàn)有的新詞抽取準確率低,對規(guī)則庫完備性依賴程度性高的問題。
[0004]本發(fā)明所采用的技術方案是先對待處理的微博文檔進行文本切分,利用動態(tài)規(guī)劃的分詞方法切分文本,切分出待識別的字串,將待識別字串中切詞碎片組合,組合成待識別的新詞,然后根據(jù)統(tǒng)計選詞模型從待識別的字串提取出候選新詞,緊接著利用規(guī)則過濾模型對候選詞進行過濾,最后得到最終的新詞。
[0005]本發(fā)明的技術特點還在于動態(tài)規(guī)劃的分詞方法為:首先用最長次匹配法切分待處理文本,建立候選詞路徑有向圖,然后計算圖中每個節(jié)點的代價值,接著利用Dijkastra算法計算出最小代價路徑,得到最佳切詞路徑。統(tǒng)計選詞模型基于大量微博語料進行統(tǒng)計,包括基于局部重復字串的特征和基于全局用詞信息的特征;基于局部重復字串的特征包括:字串共現(xiàn)次數(shù)和基于字串共現(xiàn)次數(shù)的互信息;基于全局用詞信息的特征包括成詞率、位置相關成詞率、構詞相似度;規(guī)則過濾模型包括停用詞表、姓氏成詞率的調(diào)整規(guī)則、量詞詞首停用的規(guī)則。
[0006] 本發(fā)明的有益效果是有效的保證了較高的準確率,并不過分依賴規(guī)則字庫,同時保證了新詞的抽取速度。
【專利附圖】
【附圖說明】
[0007]圖1是本發(fā)明一種基于重復字串的微博新詞非監(jiān)督自動抽取方法的多字字串與二字詞的互信息特征值比較圖;
[0008]圖2是本發(fā)明多字詞和二字詞的IWP特征比較圖;
[0009]圖3是本發(fā)明二字詞和多字詞的P0S_IWP值比較圖?!揪唧w實施方式】:
[0010]下面結合附圖和【具體實施方式】對本發(fā)明進行詳細說明。
[0011]先對待處理的微博文檔進行文本切分,利用動態(tài)規(guī)劃的分詞方法切分文本,切分出待識別的字串,將待識別字串中切詞碎片組合,組合成待識別的新詞,動態(tài)規(guī)劃的分詞方法為:首先用最長次匹配法切分待處理文本,建立候選詞路徑有向圖出自論文:【孫曉,黃德根.基于最長次長匹配分詞的一體化中文分詞與詞性標注[J].大連理工大學學報.2010.,50(6):1028-1034.】,然后計算圖中每個節(jié)點的代價值,接著利用Dijkastra算法計算出最小代價路徑,得到最佳切詞路徑。例:設句子S=CtlC1C2……Cn,其中S代表句子,Ci (O ^n)表示句子S中的第i個漢字,根據(jù)最長次匹配法將句子S所有可能的切分路徑組成有向圖DAG。令DAG=〈V,Ε,Ψ>,其中,V=(Pi)O ≤ i ≤ (m+1)}為節(jié)點P的集合,m為句子中字的個數(shù);E= IeijI i〈j,0≤i≤m, I≤j≤m+1}為圖中邊e的集合,eij表示從節(jié)點Pi指向節(jié)點Pj的有向邊^(qū) = IeijMPi, P」〉},表示邊eij與節(jié)點Pi和Pj的關系。
[0012]假定句子S有k中切分方式,則對應于有向圖DAG而言有k條不同路徑。設Wj=Wj [O]WjtUffjra-ffjti]是s的第j條切分路徑(ο ( j ( k),該路徑中共有I個單詞,Wj[?](0^ j ^ I)是路徑中的第i個單詞。利用公式(I)計算句子S第j條切分路徑的概率:公式(I) =P(Wj) = PdjtOD^Pdjtl] I Wj [O])*…*P (Wj [I] I Wj [O]...Wj [1-1]),根據(jù)公式(I ),定義S的第j條切分路徑中第i (0<i< I)個單詞的頻度;
[0013]
【權利要求】
1.一種基于重復字串的微博新詞非監(jiān)督自動抽取方法,其特征在于:先對待處理的微博文檔進行文本切分,利用動態(tài)規(guī)劃的分詞方法切分文本,切分出待識別的字串,將待識別字串中切詞碎片組合,組合成待識別的新詞,然后根據(jù)統(tǒng)計選詞模型從待識別的字串提取出候選新詞,緊接著利用規(guī)則過濾模型對候選詞進行過濾,最后得到最終的新詞。
2.按照權利要求1所述一種基于重復字串的微博新詞非監(jiān)督自動抽取方法,其特征在于:所述動態(tài)規(guī)劃的分詞方法為:首先用最長次匹配法切分待處理文本,建立候選詞路徑有向圖,然后計算圖中每個節(jié)點的代價值,接著利用Dijkastra算法計算出最小代價路徑,得到最佳切詞路徑。
3.按照權利要求2所述一種基于重復字串的微博新詞非監(jiān)督自動抽取方法,其特征在于:所述統(tǒng)計選詞模型基于大量微博語料進行統(tǒng)計,包括基于局部重復字串的特征和基于全局用詞信息的特征;基于局部重復字串的特征包括:字串共現(xiàn)次數(shù)和基于字串共現(xiàn)次數(shù)的互信息;基于全局用詞信息的特征包括成詞率、位置相關成詞率、構詞相似度。
4.按照權利要求1所述一種基于重復字串的微博新詞非監(jiān)督自動抽取方法,其特征在于:所述規(guī)則過濾模型包括停用詞表、姓氏成詞率的調(diào)整規(guī)則、量詞詞首停用的規(guī)則。
【文檔編號】G06F17/27GK103678656SQ201310719081
【公開日】2014年3月26日 申請日期:2013年12月23日 優(yōu)先權日:2013年12月23日
【發(fā)明者】孫曉, 李承程, 葉嘉麒, 唐陳意, 任福繼 申請人:合肥工業(yè)大學