亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法

文檔序號(hào):6556067閱讀:340來源:國知局
專利名稱:一種新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及文本信息處理領(lǐng)域,尤其涉及一種新詞發(fā)現(xiàn)方法和系統(tǒng)。
背景技術(shù)
中文(還有日語等亞洲語言)不像西方語言那樣使用空格表示詞的邊界,因此分詞是中文語言處理的首要任務(wù)。然而隨著互聯(lián)網(wǎng)內(nèi)容服務(wù)(比如微博、小說)的迅速發(fā)展, 網(wǎng)絡(luò)新詞不斷涌現(xiàn),自動(dòng)語音識(shí)別(ASR)、文本-語音(TTS)、搜索引擎等系統(tǒng)里所采用的分詞模型需要不斷更新新詞才不會(huì)過時(shí),因此新詞發(fā)現(xiàn)最近成為研究熱點(diǎn)。目前新詞發(fā)現(xiàn)所面臨的問題大概有三方面1.缺乏有效依據(jù)。對(duì)于新詞目前沒有明確定義,現(xiàn)有技術(shù)中,一般是用詞典(作為背景語料)去除前景語料中的非新詞,再用規(guī)則從剩余的短語碎片中判斷新詞。但是由于新詞的組成千差萬別,許多情況下不具備普遍規(guī)律,如小說中的人名譯名,魔法名,種族名, 用詞典和規(guī)則的方法往往達(dá)不到良好效果。2.詞邊界難于確定?,F(xiàn)有技術(shù)中,采用基于語料庫和概率統(tǒng)計(jì)方法的統(tǒng)計(jì)語言模型(一般為用前N-I個(gè)漢字來推測(cè)當(dāng)前這個(gè)漢字的Markov模型稱為N-gram(N元文法)語言模型,其中,當(dāng)N= 1,2,3時(shí),分別稱為Unigram模型、Bigram模型和!digram模型)建立分詞系統(tǒng)時(shí),對(duì)于前景語料,背景語料的分詞模型可信度大打折扣,特別是在新詞附近;而采用停用詞(語料中詞頻較高,但沒有意義的詞,如“的”、“太”等)規(guī)則的方法時(shí),停用詞也會(huì)帶來負(fù)面作用,過濾掉一些可能新詞,比如"可的便利店"的“可的”。3.更新困難。依賴于分詞的新詞發(fā)現(xiàn),往往需要將背景語料和前景語料結(jié)合起來重新訓(xùn)練分詞模型,滾動(dòng)地發(fā)現(xiàn)新詞,流程復(fù)雜而且耗時(shí)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種新詞發(fā)現(xiàn)方法和系統(tǒng),利用背景語料的統(tǒng)計(jì)信息篩選新詞,對(duì)新詞的邊界進(jìn)行判別,避免對(duì)背景語料里已有新詞重新發(fā)現(xiàn),減少了人工校對(duì)的負(fù)擔(dān)。為解決上述問題,本發(fā)明提出一種新詞發(fā)現(xiàn)方法,包括根據(jù)bigram語言模型抽取已知背景語料的bigram元素,并統(tǒng)計(jì)所述已知背景語料中所有bigram元素的詞頻和與種數(shù);根據(jù)bigram語言模型抽取前景語料的bigram元素,并統(tǒng)計(jì)所述前景語料中所有 bigram元素的詞頻和與種數(shù);根據(jù)上述所有統(tǒng)計(jì)確定所述前景語料中符合第一預(yù)設(shè)規(guī)則的bigram元素;根據(jù)n-gram語言模型對(duì)所述前景語料中剩余的bigram元素進(jìn)行在所述前景語料中的向前和向后擴(kuò)展,確定所述前景語料中符合第二預(yù)設(shè)規(guī)則的n-gram元素,得到新詞列表。進(jìn)一步的,所述第一預(yù)設(shè)規(guī)則包括
該bigram元素在所述前景語料和已知背景語料中的出現(xiàn)概率比值與在所述前景語料和已知背景語料中所有bigram元素的平均概率的比值之比大于第一預(yù)設(shè)閾值;所述前景語料中該bigram元素的詞頻與所有bigram元素的詞頻均值之比大于第二預(yù)設(shè)閾值;該bigram元素的首字或尾字在所述前景語料中的相關(guān)度大于第三預(yù)設(shè)閾值。進(jìn)一步的,所述已知背景語料為國家語委現(xiàn)代漢語語料庫中的語料。進(jìn)一步的,所述相關(guān)度的計(jì)算公式為
權(quán)利要求
1.一種新詞發(fā)現(xiàn)方法,其特征在于,包括根據(jù)bigram語言模型抽取已知背景語料的bigram元素,并統(tǒng)計(jì)所述已知背景語料中所有bigram元素的詞頻和與種數(shù);根據(jù)bigram語言模型抽取前景語料的bigram元素,并統(tǒng)計(jì)所述前景語料中所有 bigram元素的詞頻和與種數(shù);根據(jù)上述所有統(tǒng)計(jì)確定所述前景語料中符合第一預(yù)設(shè)規(guī)則的bigram元素; 根據(jù)n-gram語言模型對(duì)所述前景語料中剩余的bigram元素進(jìn)行在所述前景語料中的向前和向后擴(kuò)展,得到所述前景語料的n-gram元素,確定所述前景語料中符合第二預(yù)設(shè)規(guī)則的n-gram元素,得到新詞列表。
2.如權(quán)利要求1所述的新詞發(fā)現(xiàn)方法,其特征在于,所述第一預(yù)設(shè)規(guī)則包括該bigram元素在所述前景語料和已知背景語料中的出現(xiàn)概率比值與在所述前景語料和已知背景語料中所有bigram元素的平均概率的比值之比大于第一預(yù)設(shè)閾值;所述前景語料中該bigram元素的詞頻與所有bigram元素的詞頻均值之比大于第二預(yù)設(shè)閾值;該bigram元素的首字或尾字在所述前景語料中的相關(guān)度大于第三預(yù)設(shè)閾值。
3.如權(quán)利要求2所述的新詞發(fā)現(xiàn)方法,其特征在于,所述相關(guān)度的計(jì)算公式為
4.如權(quán)利要求1所述的新詞發(fā)現(xiàn)方法,其特征在于,所述已知背景語料為國家語委現(xiàn)代漢語語料庫中的語料。
5.如權(quán)利要求1所述的新詞發(fā)現(xiàn)方法,其特征在于,所述第二預(yù)設(shè)規(guī)則包括該n-gram元素由某(n_l) -gram元素向前或向后擴(kuò)展一個(gè)字得到時(shí),該n-gram元素關(guān)于該(n-l)-gram元素的條件概率大于第四預(yù)設(shè)閾值;該n-gram元素向前或向后擴(kuò)展一個(gè)字得到(n+1)-gram元素時(shí),該(n+1)-gram元素關(guān)于該n-gram元素的條件概率小于等于所述第四預(yù)設(shè)閾值;該n-gram元素的詞頻與所述前景語料中所有bigram元素的詞頻均值之比大于第五預(yù)設(shè)閾值。
6.如權(quán)利要求5所述的新詞發(fā)現(xiàn)方法,其特征在于,得到新詞列表時(shí),某(n-D-gram 元素獨(dú)立成詞的向前獨(dú)立概率和向后獨(dú)立概率均大于所述第四預(yù)設(shè)閾值時(shí),保留該 (n-1) -gram元素于所述新詞列表中;其中,當(dāng)由Xi_n+1,. . .,Xi^1組成的(n-1) -gram元素向后擴(kuò)展一個(gè)字Xi得到由Xi_n+1,. . .,Xi組成的n-gram元素時(shí),使該由Xi_n+1,...,Xi組成的n-gram元素關(guān)于該由Xi_n+1, · · ·,Xi^1組成的(n-1) -gram元素的條件概率P (Xi | Xi_n+1,. . .,Xi^1)大于第四預(yù)設(shè)閾值的字Xi有j種,則定義該由Xi-n+1,. . ·,X^組成的(11-1)1儀111元素獨(dú)立成詞的向后獨(dú)立概率?31_1&_11+1,..., Xh)為
7.如權(quán)利要求5所述的新詞發(fā)現(xiàn)方法,其特征在于,根據(jù)n-gram語言模型對(duì)所述前景語料中剩余的bigram元素進(jìn)行在所述前景語料中的向前和向后擴(kuò)展得到trigram元素的過程中,對(duì)所述剩余的bigram元素及得到trigram元素進(jìn)行篩選更新。
8.如權(quán)利要求7所述的新詞發(fā)現(xiàn)方法,其特征在于,當(dāng)由Xi_2,Xp1組成的bigram元素向后擴(kuò)展一個(gè)字Xi_得到由Xi_2,,Xi_組成的 trigram元素時(shí),滿足所述字Xi_關(guān)于該bigram元素的條件概率大于所述第四預(yù)設(shè)閾值后, 若該bigram元素的首字Xi_2關(guān)于由Xi_1; Xi組成的bigram元素的條件概率大于所述第四預(yù)設(shè)閾值,則所述由Xi_2,Xi-!, Xi-組成的trigram元素能繼續(xù)擴(kuò)展;若該bigram元素的首字Xi_2關(guān)于由Xi_1; Xi組成的bigram元素的條件概率小于等于所述第四預(yù)設(shè)閾值,則所述由χ",Xh組成的bigram元素和所述由Xi_2,,Xi_組成的 trigram元素均不是有效的新詞;當(dāng)由Xi_2,Xp1組成的bigram元素向前擴(kuò)展一個(gè)字Xi__3得到由Xi_3_,Xi_2,X^1組成的 trigram元素時(shí),滿足所述字Xi__3關(guān)于該bigram元素的條件概率大于所述第四預(yù)設(shè)閾值后,若該bigram元素的尾字Xh關(guān)于由Xi_3,Xi_2組成的bigram元素的條件概率大于所述第四預(yù)設(shè)閾值,則所述由Xi-3_,Xi_2,Xi-!組成的trigram元素能繼續(xù)擴(kuò)展;若該bigram元素的尾字Xh關(guān)于由Xi_3,Xi_2組成的bigram元素的條件概率小于等于所述第四預(yù)設(shè)閾值,則所述由χ",Xi-!組成的bigram元素和所述由Xi_3_,Xi_2,Xi^1組成的 trigram元素均不是有效的新詞。
9.一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于,包括bigram背景模塊,用于根據(jù)bigram語言模型抽取已知背景語料的bigram元素,并統(tǒng)計(jì)所述已知背景語料中所有bigram元素的詞頻和與種數(shù);bigram前景模塊,用于根據(jù)bigram語言模型抽取前景語料的bigram元素,并統(tǒng)計(jì)所述前景語料中所有bigram元素的詞頻和與種數(shù);bigram篩選模塊,用于根據(jù)所述bigram背景模塊和bigram前景模塊統(tǒng)計(jì)確定所述前景語料中符合第一預(yù)設(shè)規(guī)則的bigram元素;n-gram擴(kuò)展模塊,用于根據(jù)n-gram語言模型對(duì)經(jīng)所述bigram篩選模塊過濾后剩余的 bigram元素進(jìn)行在所述前景語料中的向前和向后擴(kuò)展,得到所述前景語料的n-gram元素,確定所述前景語料中符合第二預(yù)設(shè)規(guī)則的n-gram元素,得到新詞列表。
10.如權(quán)利要求9所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所述第一預(yù)設(shè)規(guī)則包括該bigram元素在所述前景語料和已知背景語料中的出現(xiàn)概率比值與在所述前景語料和已知背景語料中所有bigram元素的平均概率的比值之比大于第一預(yù)設(shè)閾值;所述前景語料中該bigram元素的詞頻與所有bigram元素的詞頻均值之比大于第二預(yù)設(shè)閾值;該bigram元素的首字或尾字在所述前景語料中的相關(guān)度大于第三預(yù)設(shè)閾值。
11.如權(quán)利要求10所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所述相關(guān)度的計(jì)算公式為
12.如權(quán)利要求9所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所述已知背景語料為國家語委現(xiàn)代漢語語料庫中的語料。
13.如權(quán)利要求9所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所述第二預(yù)設(shè)規(guī)則包括該n-gram元素由某(n_l) -gram元素向前或向后擴(kuò)展一個(gè)字得到時(shí),該n-gram元素關(guān)于該(n-l)-gram元素的條件概率大于第四預(yù)設(shè)閾值;該n-gram元素向前或向后擴(kuò)展一個(gè)字得到(n+1)-gram元素時(shí),該(n+1)-gram元素關(guān)于該n-gram元素的條件概率小于等于所述第四預(yù)設(shè)閾值;該n-gram元素的詞頻與所述前景語料中所有bigram元素的詞頻均值之比大于第五預(yù)設(shè)閾值。
14.如權(quán)利要求9所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,得到新詞列表時(shí),某(n-D-gram 元素獨(dú)立成詞的向前獨(dú)立概率和向后獨(dú)立概率均大于所述第四預(yù)設(shè)閾值時(shí),保留該 (n-1)-gram元素于所述新詞列表中;其中,當(dāng)由Xi_n+1,. . .,Xi^1組成的(n-1) -gram元素向后擴(kuò)展一個(gè)字Xi得到由Xi_n+1,. . .,Xi組成的n-gram元素時(shí),使該由Xi_n+1,...,Xi組成的n-gram元素關(guān)于該由Xi_n+1, · · ·,Xi^1組成的(n-1) -gram元素的條件概率P (Xi | Xi_n+1,. . .,Xi^1)大于第四預(yù)設(shè)閾值的字Xi有j種,則定義該由Xi-n+1,. . ·,X^組成的(11-1)1儀111元素獨(dú)立成詞的向后獨(dú)立概率?31_1&_11+1,..., Xh)為
15.如權(quán)利要求9所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,根據(jù)n-gram語言模型對(duì)所述前景語料中剩余的bigram元素進(jìn)行在所述前景語料中的向前和向后擴(kuò)展得到trigram元素的過程中,對(duì)所述剩余的bigram元素及得到trigram元素進(jìn)行篩選更新。
16.如權(quán)利要求15所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,當(dāng)由Xi_2,Xp1組成的bigram元素向后擴(kuò)展一個(gè)字Xi_得到由Xi_2,,Xi_組成的 trigram元素時(shí),滿足所述字Xi_關(guān)于該bigram元素的條件概率大于所述第四預(yù)設(shè)閾值后,若該bigram元素的首字Xi_2關(guān)于由Xi_1; Xi組成的bigram元素的條件概率大于所述第四預(yù)設(shè)閾值,則所述由Xi_2,Xi-!, Xi-組成的trigram元素能繼續(xù)擴(kuò)展;若該bigram元素的首字Xi_2關(guān)于由Xi_1; Xi組成的bigram元素的條件概率小于等于所述第四預(yù)設(shè)閾值,則所述由χ",Xh組成的bigram元素和所述由Xi_2,,Xi_組成的 trigram元素均不是有效的新詞;當(dāng)由Xi_2,Xp1組成的bigram元素向前擴(kuò)展一個(gè)字Xi__3得到由Xi_3_,Xi_2,X^1組成的 trigram元素時(shí),滿足所述字Xi__3關(guān)于該bigram元素的條件概率大于所述第四預(yù)設(shè)閾值后,若該bigram元素的尾字Xh關(guān)于由Xi_3,Xi_2組成的bigram元素的條件概率大于所述第四預(yù)設(shè)閾值,則所述由Xi-3_,Xi_2,Xi-!組成的trigram元素能繼續(xù)擴(kuò)展;若該bigram元素的尾字Xh關(guān)于由Xi_3,Xi_2組成的bigram元素的條件概率小于等于所述第四預(yù)設(shè)閾值,則所述由χ",Xi-!組成的bigram元素和所述由Xi_3_,Xi_2,Xi^1組成的 trigram元素均不是有效的新詞。
全文摘要
本發(fā)明提供一種新詞發(fā)現(xiàn)方法和系統(tǒng),基于bigram語言模型分別提取了前背景語料的bigram元素,并分別得到前背景語料的統(tǒng)計(jì)信息,利用統(tǒng)計(jì)信息及第一預(yù)設(shè)規(guī)則過濾bigram元素,再利用n-gram語言模型及第二預(yù)設(shè)規(guī)則對(duì)剩余的bigram元素進(jìn)行前景語料中的擴(kuò)展,n-gram元素的更新不需要對(duì)背景語料重新計(jì)算,避免對(duì)背景語料里已有新詞重新發(fā)現(xiàn),利用第二預(yù)設(shè)規(guī)則判別新詞的邊界,去除垃圾bigram元素和n-gram元素,簡單易用,減少了人工校對(duì)的負(fù)擔(dān)。
文檔編號(hào)G06F17/27GK102231153SQ20111013804
公開日2011年11月2日 申請(qǐng)日期2011年5月25日 優(yōu)先權(quán)日2011年5月25日
發(fā)明者吳悅 申請(qǐng)人:盛樂信息技術(shù)(上海)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1