專利名稱:結(jié)合內(nèi)部聚合度和外部離散信息熵的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)新詞發(fā)現(xiàn)的方法,屬于計(jì)算機(jī)自然語言處理領(lǐng)域。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展和網(wǎng)民規(guī)模不斷膨脹,新詞大量出現(xiàn)在網(wǎng)絡(luò)并迅速滲入人們的日常生活,這已經(jīng)成為一種語言現(xiàn)象。同時(shí),在諸如信息檢索、自動(dòng)分詞、詞典編纂以及機(jī)器翻譯等眾多中文信息處理領(lǐng)域,新詞發(fā)現(xiàn)的效果,在很大程度上影響著這些中文信息處理領(lǐng)域的效果,尤其以中文自動(dòng)分詞技術(shù)最為明顯,由于中文自身的特點(diǎn),它不像英文那樣在詞與詞之間有明顯的空格間隔,如何將不斷涌現(xiàn)的新詞準(zhǔn)確切分出來已經(jīng)是中文信息處理中至關(guān)重要的一步,因此,有效的識(shí)別新詞,將對(duì)提高中文信息處理相關(guān)領(lǐng)域的效果起到重要的作用。
在新詞發(fā)現(xiàn)方法方面,目前主要有基于規(guī)則和基于統(tǒng)計(jì)兩大類方法?;谝?guī)則的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法其主要思想是根據(jù)新詞的字與字的組合方式、詞語外型特點(diǎn)或詞語內(nèi)部構(gòu)造特征建立規(guī)則庫,然后通過規(guī)則匹配方法來識(shí)別新詞。具體是通過一方面以新詞的詞語內(nèi)部構(gòu)詞特征為基礎(chǔ)建立常規(guī)新詞識(shí)別規(guī)則庫,另一方面從網(wǎng)上詞語的構(gòu)詞特點(diǎn)出發(fā)建立特殊新詞識(shí)別規(guī)則庫,并將這些規(guī)則分為常規(guī)構(gòu)詞規(guī)則、詞語過濾規(guī)則、特殊構(gòu)詞規(guī)則等,利用這些規(guī)則組合過濾識(shí)別網(wǎng)絡(luò)新詞。但是,由于建立新詞發(fā)現(xiàn)規(guī)則的過程需要對(duì)大量新詞的特點(diǎn)進(jìn)行細(xì)致的分析,這個(gè)過程需要投入大量的人力和時(shí)間,且新詞發(fā)現(xiàn)規(guī)則通常都與具體的領(lǐng)域相關(guān),只能在有限的領(lǐng)域中發(fā)現(xiàn)新詞時(shí)使用,不易移植到其他領(lǐng)域中;另外,該新詞發(fā)現(xiàn)方法關(guān)于抽取出來的規(guī)則的形式較單一,很難將所有的情況都覆蓋到,因此這種方法通常準(zhǔn)確率不高且建立一個(gè)新詞識(shí)別系統(tǒng)的周期很長?;诮y(tǒng)計(jì)的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法,一般是基于統(tǒng)計(jì)概論,利用詞頻過濾策略提取出候選字串,然后再利用語言學(xué)知識(shí)將不是新詞語的候選字串排除;或者是基于統(tǒng)計(jì)字與字的共現(xiàn)頻率,計(jì)算字與字之間的相關(guān)度,尋找相關(guān)度最大的字與字的組合?;诮y(tǒng)計(jì)的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法可以較好的利用統(tǒng)計(jì)信息來發(fā)現(xiàn)新詞,但是,缺少對(duì)詞語的內(nèi)部和外部結(jié)構(gòu)特征的考慮,同時(shí),這種方法,在識(shí)別出現(xiàn)頻率較低的詞語時(shí),效果不好,且基于統(tǒng)計(jì)的方法在發(fā)現(xiàn)較長的新詞語時(shí),將導(dǎo)致時(shí)間復(fù)雜度急劇增大,因此基于統(tǒng)計(jì)的新詞發(fā)現(xiàn)方法一般會(huì)受限在識(shí)別比較短的新詞語。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種結(jié)合內(nèi)部聚合度和外部離散信息熵的網(wǎng)絡(luò)新詞發(fā)現(xiàn)的新方法。為實(shí)現(xiàn)上述目的,本發(fā)明所采取的技術(shù)方案是本發(fā)明結(jié)合內(nèi)部聚合度和外部離散信息熵的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法包括步驟I):對(duì)網(wǎng)絡(luò)語料庫包含的所有文本句子進(jìn)行切詞處理,將每個(gè)文本句子中的長度小于等于η的字串切分出來,并將切分出來的所有互不相同的字串作為候選字串;其中,η為整數(shù)且η > 1,每個(gè)所述文本句子是一個(gè)不包含任何標(biāo)點(diǎn)符號(hào)的語句;步驟2):任意選出一個(gè)未作過新詞判斷處理的候選字串;步驟3):判斷所選出的當(dāng)前候選字串在所述網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率是否小于閾值M,M > O ;如果不是,則執(zhí)行步驟4),否則在仍然存在未作過新詞判斷處理的候選字串時(shí)返回執(zhí)行步驟2);步驟4):對(duì)當(dāng)前候選字串作k-ι種切分,每一種切分都將當(dāng)前候選字串切分成兩個(gè)子字串,其中,k為當(dāng)前候選字串的長度;分別計(jì)算每一種切分所獲得的兩個(gè)子字串隨機(jī)結(jié)合構(gòu)成當(dāng)前候選字串的概率,并進(jìn)一步計(jì)算當(dāng)前候選字串的內(nèi)部聚合度;在所有候選字串中找出以當(dāng)前候選字串為前綴的全部字串,并將以當(dāng)前候選字串為前綴的全部字串構(gòu)成當(dāng)前候選字串的右鄰接字串集,計(jì)算所述右鄰接字串集的信息熵;在所有候選字串中找出以當(dāng)前候選字串為后綴的全部字串,并將以當(dāng)前候選字串為后綴的 全部字串構(gòu)成當(dāng)前候選字串的左鄰接字串集,計(jì)算所述左鄰接字串集的信息熵;以所述右鄰接字串集的信息熵和左鄰接字串集的信息熵中的較小者作為當(dāng)前候選字串的外部離散信息熵;步驟5):如果當(dāng)前候選字串的內(nèi)部聚合度超過預(yù)先設(shè)定的內(nèi)部聚合度閾值,并且,當(dāng)前候選字串的外部離散信息熵超過預(yù)先設(shè)定的外部離散信息熵閾值,那么判斷當(dāng)前候選字串為網(wǎng)絡(luò)新詞,并在仍然存在未作過新詞判斷處理的候選字串時(shí)返回執(zhí)行步驟2),其中,所述內(nèi)部聚合度的閾值和外部離散信息熵的閾值均大于O ;如果當(dāng)前候選字串的內(nèi)部聚合度未超過預(yù)先設(shè)定的所述內(nèi)部聚合度閾值,或者,當(dāng)前候選字串的外部離散信息熵未超過預(yù)先設(shè)定的所述外部離散信息熵閾值,那么判斷當(dāng)前候選字串不是網(wǎng)絡(luò)新詞,并在仍然存在未作過新詞判斷處理的候選字串時(shí)返回執(zhí)行步驟2)。進(jìn)一步地,本發(fā)明所述步驟I)中的n=5。進(jìn)一步地,本發(fā)明所述步驟3)中的M=25。進(jìn)一步地,本發(fā)明在所述步驟4)中,當(dāng)前候選字串被切分而獲得的兩個(gè)子字串隨機(jī)結(jié)合構(gòu)成當(dāng)前候選字串的概率的計(jì)算公式如式(I )所示Pj(subl_j, sub2_j) =p (subl_j) Xp(sub2_j) (I)式(I )中,Pj(subl_j,sub2_j)表示當(dāng)前候選字串被切分而獲得的兩個(gè)子字串隨機(jī)結(jié)合構(gòu)成當(dāng)前候選字串的概率;subl_j、sub2_j分別表示對(duì)當(dāng)前候選字串進(jìn)行一種切分時(shí)所獲得的兩個(gè)子字串;p(subl_j)和p(sub2_j)分別對(duì)應(yīng)表示子字串subl_j、sub2_j在網(wǎng)絡(luò)語料庫中出現(xiàn)的概率,且 P (subl_j) =Count (subl_j) /L, p (sub2_j) =count (sub2_j) /L ;count (subl_j) >count (sub2_j)分別對(duì)應(yīng)表示子字串subl_j、sub2_j在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率山表示所有候選字串在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率之和。進(jìn)一步地,本發(fā)明在所述步驟4)中,當(dāng)前候選字串的內(nèi)部聚合度的計(jì)算公式如式
(II)所示IC(Wi) =p (Wi)/max(ρ」(subl_j, sub2_j)) I ^ j < k (II)式(II)中,Wi表示當(dāng)前候選字串,IC(Wi)表示當(dāng)前候選字串的內(nèi)部聚合度,P(Wi)表示當(dāng)前候選字串在網(wǎng)絡(luò)語料庫中出現(xiàn)的概率,且P (Wi) =count (Wi) /L, count (Wi)表示當(dāng)前候選字串在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率,L表示所有候選字串在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率之和,Pj(subl_j,sub2_j)表示當(dāng)前候選字串被切分而獲得的兩個(gè)子字串隨機(jī)結(jié)合構(gòu)成當(dāng)前候選字串的概率,max(Pj(subl_j, sub2_j))表示按所有切分方法對(duì)當(dāng)前候選字串進(jìn)行切分而對(duì)應(yīng)得到的所有h(subl_j,sub2_j)中的最大值,k表示當(dāng)前候選字串的長度,k的大小與當(dāng)前候選字串中包含的字符個(gè)數(shù)相等。進(jìn)一步地,本發(fā)明在所述步驟4)中,所述右鄰接字串集的信息熵的計(jì)算公式如式
(III)所示
權(quán)利要求
1.一種結(jié)合內(nèi)部聚合度和外部離散信息熵的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法,其特征在于,包括 步驟I):對(duì)網(wǎng)絡(luò)語料庫包含的所有文本句子進(jìn)行切詞處理,將每個(gè)文本句子中的長度小于等于η的字串切分出來,并將切分出來的所有互不相同的字串作為候選字串;其中,η為整數(shù)且η > 1,每個(gè)所述文本句子是一個(gè)不包含任何標(biāo)點(diǎn)符號(hào)的語句; 步驟2):任意選出一個(gè)未作過新詞判斷處理的候選字串; 步驟3):判斷所選出的當(dāng)前候選字串在所述網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率是否小于閾值Μ,M > O ;如果不是,則執(zhí)行步驟4),否則在仍然存在未作過新詞判斷處理的候選字串時(shí)返回執(zhí)行步驟2); 步驟4):對(duì)當(dāng)前候選字串作k-Ι種切分,每一種切分都將當(dāng)前候選字串切分成兩個(gè)子 字串,其中,k為當(dāng)前候選字串的長度;分別計(jì)算每一種切分所獲得的兩個(gè)子字串隨機(jī)結(jié)合構(gòu)成當(dāng)前候選字串的概率,并進(jìn)一步計(jì)算當(dāng)前候選字串的內(nèi)部聚合度; 在所有候選字串中找出以當(dāng)前候選字串為前綴的全部字串,并將以當(dāng)前候選字串為前綴的全部字串構(gòu)成當(dāng)前候選字串的右鄰接字串集,計(jì)算所述右鄰接字串集的信息熵;在所有候選字串中找出以當(dāng)前候選字串為后綴的全部字串,并將以當(dāng)前候選字串為后綴的全部字串構(gòu)成當(dāng)前候選字串的左鄰接字串集,計(jì)算所述左鄰接字串集的信息熵;以所述右鄰接字串集的信息熵和左鄰接字串集的信息熵中的較小者作為當(dāng)前候選字串的外部離散信息熵; 步驟5):如果當(dāng)前候選字串的內(nèi)部聚合度超過預(yù)先設(shè)定的內(nèi)部聚合度閾值,并且,當(dāng)前候選字串的外部離散信息熵超過預(yù)先設(shè)定的外部離散信息熵閾值,那么判斷當(dāng)前候選字串為網(wǎng)絡(luò)新詞,并在仍然存在未作過新詞判斷處理的候選字串時(shí)返回執(zhí)行步驟2),其中,所述內(nèi)部聚合度的閾值和外部離散信息熵的閾值均大于O ; 如果當(dāng)前候選字串的內(nèi)部聚合度未超過預(yù)先設(shè)定的所述內(nèi)部聚合度閾值,或者,當(dāng)前候選字串的外部離散信息熵未超過預(yù)先設(shè)定的所述外部離散信息熵閾值,那么判斷當(dāng)前候選字串不是網(wǎng)絡(luò)新詞,并在仍然存在未作過新詞判斷處理的候選字串時(shí)返回執(zhí)行步驟2)。
2.根據(jù)權(quán)利要求I所述的方法,其特征是所述步驟I)中的n=5。
3.根據(jù)權(quán)利要求I所述的方法,其特征是所述步驟3)中的M=25。
4.根據(jù)權(quán)利要求I所述的方法,其特征是在所述步驟4)中,當(dāng)前候選字串被切分而獲得的兩個(gè)子字串隨機(jī)結(jié)合構(gòu)成當(dāng)前候選字串的概率的計(jì)算公式如式(I )所示Pj(subl_j, sub2_j) =p (subl_j) X p (sub2_j) (I) 式(I )中,Pj(subl_j,sub2_j)表示當(dāng)前候選字串被切分而獲得的兩個(gè)子字串隨機(jī)結(jié)合構(gòu)成當(dāng)前候選字串的概率;subl_j、sub2_j分別表示對(duì)當(dāng)前候選字串進(jìn)行一種切分時(shí)所獲得的兩個(gè)子字串;p(subl_j)和p(sub2_j)分別對(duì)應(yīng)表示子字串subl_j、sub2_j在網(wǎng)絡(luò)語料庫中出現(xiàn)的概率,且 P (subl_j) =count (subl_j)/L, p (sub2_j) =count (sub2_j)/L ;count (subl_j) >count (sub2_j)分別對(duì)應(yīng)表示子字串subl_j、sub2_j在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率山表示所有候選字串在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率之和。
5.根據(jù)權(quán)利要求I或4所述的方法,其特征是在所述步驟4)中,當(dāng)前候選字串的內(nèi)部聚合度的計(jì)算公式如式(II)所示IC(Wi) =p (Wi)/max(p」(subl_j, sub2_j)) I ^ j < k (II) 式(II)中,Wi表示當(dāng)前候選字串,IC(Wi)表示當(dāng)前候選字串的內(nèi)部聚合度,P(Wi)表示當(dāng)前候選字串在網(wǎng)絡(luò)語料庫中出現(xiàn)的概率,且P (Wi) =Count (Wi) /L, count (Wi)表示當(dāng)前候選字串在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率,L表示所有候選字串在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率之和,Pj(subl_j, sub2_j)表示當(dāng)前候選字串被切分而獲得的兩個(gè)子字串隨機(jī)結(jié)合構(gòu)成當(dāng)前候選字串的概率,max(Pj(subl_j, sub2_j))表示按所有切分方法對(duì)當(dāng)前候選字串進(jìn)行切分而對(duì)應(yīng)得到的所有Pj(subl_j, sub2_j)中的最大值,k表示當(dāng)前候選字串的長度,k的大小與當(dāng)前候選字串中包含的字符個(gè)數(shù)相等。
6.根據(jù)權(quán)利要求I或4所述的方法,其特征是在所述步驟4)中,所述當(dāng)前候選字串的右鄰接字串集的信息熵的計(jì)算公式如式(III)所示
7.根據(jù)權(quán)利要求I或4所述的方法,其特征是在所述步驟4)中,所述當(dāng)前候選字串的左鄰接字串集的信息熵的計(jì)算公式如式(IV)所示
8.根據(jù)權(quán)利要求5所述的方法,其特征是在所述步驟4)中,所述當(dāng)前候選字串的右鄰接字串集的信息熵的計(jì)算公式如式(ΠΙ)所示
9.根據(jù)權(quán)利要求I所述的方法,其特征是在所述步驟5)中,所述內(nèi)部聚合度的閾值等于4. 5。
10.根據(jù)權(quán)利要求I或9所述的方法,其特征是在所述步驟5)中,所述外部離散信息熵的閾值等于O. 8。
全文摘要
本發(fā)明公開了一種結(jié)合內(nèi)部聚合度和外部離散信息熵的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法,包括對(duì)網(wǎng)絡(luò)語料庫包含的所有文本句子進(jìn)行切詞處理,并將切分出來的所有互不相同的字串作為候選字串;對(duì)在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率超過固定閾值的候選字串,計(jì)算其內(nèi)部聚合度和外部離散信息熵,并根據(jù)該候選字串的內(nèi)部聚合度和外部離散信息熵進(jìn)一步判斷候選目標(biāo)詞串是否為網(wǎng)絡(luò)新詞。本發(fā)明方法提出針對(duì)判斷一個(gè)候選字串是否為網(wǎng)絡(luò)新詞的兩個(gè)關(guān)鍵因素候選字串的內(nèi)部聚合度和外部離散信息熵,同時(shí)考慮了候選字串的穩(wěn)定性、獨(dú)立性和完整性,能夠有效的發(fā)現(xiàn)網(wǎng)絡(luò)上出現(xiàn)的新詞。
文檔編號(hào)G06F17/30GK102930055SQ20121046989
公開日2013年2月13日 申請日期2012年11月18日 優(yōu)先權(quán)日2012年11月18日
發(fā)明者林懷忠, 陳澤鋒, 李鵬飛 申請人:浙江大學(xué)