基于序列模式的新詞發(fā)現(xiàn)方法

文檔序號(hào)：6486083閱讀：473來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：基于序列模式的新詞發(fā)現(xiàn)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及文本信息處理技術(shù)領(lǐng)域，特別涉及一種基于序列模式的新詞發(fā)現(xiàn)方法。
背景技術(shù)：
近年來(lái)，隨著網(wǎng)絡(luò)日益普及，互聯(lián)網(wǎng)上的文本規(guī)模逐步擴(kuò)大，信息資源不斷增加。為了從大量的資源中檢索和挖掘有價(jià)值的信息，研究界大力發(fā)展文本處理的技術(shù)。其中，新詞發(fā)現(xiàn)技術(shù)是諸多公司和研究所的研究熱點(diǎn)。所謂新詞發(fā)現(xiàn)，是指從文本中以自動(dòng)或半自動(dòng)的方式獲得未登錄詞。半自動(dòng)的新詞獲取需要人工干預(yù)，而自動(dòng)新詞獲取不需要人工干預(yù)。新詞發(fā)現(xiàn)是學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。對(duì)于學(xué)術(shù)界而言，良好的新詞發(fā)現(xiàn)方法能夠極大地?cái)U(kuò)充詞典，減輕詞典編纂者的工作量，也能極大地幫助研究人員研究新詞新語(yǔ)。對(duì)于工業(yè)界而言，好的新詞發(fā)現(xiàn)方法可以在應(yīng)用在不同領(lǐng)域，例如拼音輸入法、微博和博客的實(shí)時(shí)挖掘、分詞系統(tǒng)的詞表擴(kuò)充、輿論監(jiān)控、敏感詞提取、突發(fā)性事件發(fā)現(xiàn)和熱點(diǎn)信息提
取等等。盡管學(xué)術(shù)界對(duì)新詞的定義存在爭(zhēng)議，導(dǎo)致對(duì)新詞的界定不盡相同。比較流行的定義為，新詞是通過(guò)各種途徑產(chǎn)生的具有現(xiàn)代漢語(yǔ)基本詞匯所沒(méi)有的新形式、新意義和新用法的詞語(yǔ)。該定義在理論上可行，但在工程實(shí)踐中可操作性不強(qiáng)。新意義和新用法在實(shí)踐中不容易判定。因此，本方法從文本處理的工程實(shí)際出發(fā)，把新詞界定為未登錄詞，即詞表未覆蓋的詞語(yǔ)都是新詞。關(guān)于新詞發(fā)現(xiàn)的研究方法，主要包括如下兩種(1)基于監(jiān)督的新詞發(fā)現(xiàn)方法，該方法適合處理低頻和較短的字符串組成的新詞。這種方法一般基于訓(xùn)練語(yǔ)料，采用各種統(tǒng)計(jì)模型進(jìn)行識(shí)別?；诒O(jiān)督的新詞發(fā)現(xiàn)方法的缺點(diǎn)在于容易受到訓(xùn)練語(yǔ)料和分詞系統(tǒng)的影響，導(dǎo)致系統(tǒng)準(zhǔn)確率不高或者獲得的新詞存在種種限制。(2)基于非監(jiān)督的新詞發(fā)現(xiàn)方法，該方法適合處理高頻和較長(zhǎng)的字符串組成的新詞。這種方法一般不需要訓(xùn)練語(yǔ)料進(jìn)行統(tǒng)計(jì)分析，直接從字或詞出發(fā)計(jì)算字符串或詞串的成詞概率。基于非監(jiān)督的新詞發(fā)現(xiàn)方法的缺點(diǎn)在于計(jì)算復(fù)雜度太高，新詞發(fā)現(xiàn)的準(zhǔn)確率不
尚ο

發(fā)明內(nèi)容
(一)要解決的技術(shù)問(wèn)題本發(fā)明要解決的技術(shù)問(wèn)題是如何提供一種計(jì)算復(fù)雜度低、新詞發(fā)現(xiàn)準(zhǔn)確率高并能夠支持任意長(zhǎng)度的新詞發(fā)現(xiàn)的新詞發(fā)現(xiàn)方法。(二)技術(shù)方案
為解決上述技術(shù)問(wèn)題，本發(fā)明提供了一種基于序列模式的新詞發(fā)現(xiàn)方法，該方法包括步驟A、基于序列模式抽取候選字符串；步驟B、估計(jì)候選字符串的成詞概率；步驟C、將成詞概率大于第一預(yù)設(shè)閾值的候選字符串作為新詞輸出。優(yōu)選地，所述步驟C具體包括基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾串過(guò)濾，將剩余的候選字符串作為新詞輸出。優(yōu)選地，所述基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾串過(guò)濾，將剩余的候選字符串作為新詞輸出具體包括步驟301、對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行分詞；步驟302、對(duì)詞進(jìn)行N元搭配測(cè)試，找出垃圾串；步驟303、對(duì)垃圾串進(jìn)行過(guò)濾，將剩余的候選字符串作為新詞輸出。優(yōu)選地，所述基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾串過(guò)濾，將剩余的候選字符串作為新詞輸出具體包括如果成詞概率大于第一預(yù)設(shè)閾值的候選字符串的子串是新詞且該子串成詞概率高于所述成詞概率大于第一預(yù)設(shè)閾值的候選字符串的成詞概率，則判定所述成詞概率大于第一預(yù)設(shè)閾值的候選字符串是垃圾串，對(duì)垃圾串進(jìn)行過(guò)濾，將所述成詞概率大于第一預(yù)設(shè)閾值的候選字符串的子串作為新詞輸出。優(yōu)選地，所述步驟A具體包括步驟201、計(jì)算漢字頻次；步驟202、輸出左候選字符串和右候選字符串；步驟203、抽取候選字符串。優(yōu)選地，所述步驟202具體包括構(gòu)造左有序pat數(shù)組結(jié)構(gòu)輸出左候選字符串并構(gòu) 造右有序Pat數(shù)組結(jié)構(gòu)輸出右候選字符串。優(yōu)選地，所述構(gòu)造左有序pat數(shù)組結(jié)構(gòu)輸出左候選字符串具體包括計(jì)算累積頻次，構(gòu)造索引堆，對(duì)索引堆排序，根據(jù)索引堆提取公共前綴，將出現(xiàn)頻度大于第二預(yù)設(shè)閾值的公共前綴作為左候選字符串輸出。優(yōu)選地，所述構(gòu)造右有序pat數(shù)組結(jié)構(gòu)輸出右候選字符串具體包括計(jì)算累積頻次，構(gòu)造索引堆，對(duì)索引堆排序，根據(jù)索引堆提取公共前綴，將出現(xiàn)頻度大于第三預(yù)設(shè)閾值的公共前綴作為右候選字符串輸出。優(yōu)選地，所述成詞概率的計(jì)算公式為:p (S) = λ J (S) * λ 2q (S)，其中，t (S)和q (S)
分別為字符串S的左右鄰接概率和內(nèi)部構(gòu)成概率。入工和λ2分別為t(s)和q(S)的權(quán)重；
所述t(S)的計(jì)算公式為
權(quán)利要求
一種基于序列模式的新詞發(fā)現(xiàn)方法，其特征在于，該方法包括步驟A、基于序列模式抽取候選字符串；步驟B、估計(jì)候選字符串的成詞概率；步驟C、將成詞概率大于第一預(yù)設(shè)閾值的候選字符串作為新詞輸出。
2.如權(quán)利要求1所述的新詞發(fā)現(xiàn)方法，其特征在于，所述步驟C具體包括基于N元語(yǔ) 法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾串過(guò)濾，將剩余的候選字符串作為新詞輸出。
3.如權(quán)利要求2所述的新詞發(fā)現(xiàn)方法，其特征在于，所述基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾串過(guò)濾，將剩余的候選字符串作為新詞輸出具體包括步驟301、對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行分詞；步驟302、對(duì)詞進(jìn)行N元搭配測(cè)試，找出垃圾串；步驟303、對(duì)垃圾串進(jìn)行過(guò)濾，將剩余的候選字符串作為新詞輸出。
4.如權(quán)利要求2所述的新詞發(fā)現(xiàn)方法，其特征在于，所述基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾串過(guò)濾，將剩余的候選字符串作為新詞輸出具體包括如果成詞概率大于第一預(yù)設(shè)閾值的候選字符串的子串是新詞且該子串成詞概率高于所述成詞概率大于第一預(yù)設(shè)閾值的候選字符串的成詞概率，則判定所述成詞概率大于第一預(yù) 設(shè)閾值的候選字符串是垃圾串，對(duì)垃圾串進(jìn)行過(guò)濾，將所述成詞概率大于第一預(yù)設(shè)閾值的候選字符串的子串作為新詞輸出。
5.如權(quán)利要求1所述的新詞發(fā)現(xiàn)方法，其特征在于，所述步驟A具體包括步驟201、計(jì)算漢字頻次；步驟202、輸出左候選字符串和右候選字符串；步驟203、抽取候選字符串。
6.如權(quán)利要求5所述的新詞發(fā)現(xiàn)方法，其特征在于，所述步驟202具體包括構(gòu)造左有序pat數(shù)組結(jié)構(gòu)輸出左候選字符串并構(gòu)造右有序pat數(shù)組結(jié)構(gòu)輸出右候選字符串。
7.如權(quán)利要求6所述的新詞發(fā)現(xiàn)方法，其特征在于，所述構(gòu)造左有序pat數(shù)組結(jié)構(gòu)輸出左候選字符串具體包括計(jì)算累積頻次，構(gòu)造索引堆，對(duì)索引堆排序，根據(jù)索引堆提取公共前綴，將出現(xiàn)頻度大于第二預(yù)設(shè)閾值的公共前綴作為左候選字符串輸出。
8.如權(quán)利要求6所述的新詞發(fā)現(xiàn)方法，其特征在于，所述構(gòu)造右有序pat數(shù)組結(jié)構(gòu)輸出右候選字符串具體包括計(jì)算累積頻次，構(gòu)造索引堆，對(duì)索引堆排序，根據(jù)索引堆提取公共前綴，將出現(xiàn)頻度大于第三預(yù)設(shè)閾值的公共前綴作為右候選字符串輸出。
9.如權(quán)利要求1-8中任一項(xiàng)所述的新詞發(fā)現(xiàn)方法，其特征在于，所述成詞概率的計(jì)算公式為p(S) = Xlt(S)*X2q(S)，其中，t(S)和q(S)分別為字符串S的左右鄰接概率和內(nèi) 部構(gòu)成概率。入工和λ2分別為t(S)和q(S)的權(quán)重；所述t (S)的計(jì)算公式為柳=count(Sl) * count(SR) * fregjS) Jreq(S) freq{S) a其中，Coimt(SL)為字符串S的左鄰接字?jǐn)?shù)目；count (Se)為字符串S的右鄰接字?jǐn)?shù)目； freq(S)為字符串S的頻次；α為調(diào)整因子；所述q(S)的計(jì)算公式為2q{S) = ^qm(Si)=Σ禮⑷Si eS,、 word(s) ^)=———freq(s)其中WOTd(S)表示字符S與其它字符組合成詞的頻次，Qffl(S)表示字S的構(gòu)詞能力， freq(s)為字符s的頻次。
10.如權(quán)利要求9所述的新詞發(fā)現(xiàn)方法，其特征在于，所述county為1 ；所述 count (Se)為 1 ο
全文摘要
本發(fā)明公開(kāi)了一種基于序列模式的新詞發(fā)現(xiàn)方法，該方法包括步驟A、基于序列模式抽取候選字符串；步驟B、估計(jì)候選字符串的成詞概率；步驟C、將成詞概率大于第一預(yù)設(shè)閾值的候選字符串作為新詞輸出。該方法根據(jù)已有的序列模式發(fā)現(xiàn)算法挖掘得到候選字符串，通過(guò)對(duì)字符串上下文和內(nèi)部結(jié)構(gòu)來(lái)估計(jì)字符串的成詞概率，并引入N元語(yǔ)法和分詞算法來(lái)進(jìn)行候選字符串的過(guò)濾。該方法的優(yōu)點(diǎn)在于1)新詞發(fā)現(xiàn)的計(jì)算復(fù)雜度大大降低，大大提高了新詞發(fā)現(xiàn)的速度。2)支持任意長(zhǎng)度的新詞發(fā)現(xiàn)。3)準(zhǔn)確率明顯超出了已有的新詞發(fā)現(xiàn)方法，通過(guò)采用全新的字符串成詞概率估計(jì)和垃圾串過(guò)濾策略，本方法的新詞發(fā)現(xiàn)準(zhǔn)確率大大提高。
文檔編號(hào)G06F17/22GK101976233SQ201010503929
公開(kāi)日2011年2月16日申請(qǐng)日期2010年9月30日優(yōu)先權(quán)日2010年9月30日
發(fā)明者牟小峰申請(qǐng)人:北京新媒傳信科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：牟小峰
技術(shù)所有人：北京新媒傳信科技有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種基于立體匹配的彩色圖像三維重建方法
上一篇：一種秸稈高效沼氣化利用預(yù)處理效果的評(píng)價(jià)方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

新詞發(fā)現(xiàn)算法相關(guān)技術(shù)

新詞發(fā)現(xiàn)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于序列模式的新詞發(fā)現(xiàn)方法