專利名稱:利用成語知識的判別式分詞系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢語分詞系統(tǒng),尤其涉及一種判別式分詞系統(tǒng),具體涉及一種利用成語知識的判別式分詞系統(tǒng);此外,本發(fā)明還涉及一種利用成語知識的判別式分詞方法。
背景技術(shù):
目前漢語分詞系統(tǒng)中常用的判別式分詞系統(tǒng),基于判別式機(jī)器學(xué)習(xí)的分詞技術(shù)在長詞識別上性能不足,這些長詞主要是成語和仿詞(時間、日期等)。在目前已有的判別式分詞系統(tǒng)中,對于長詞的處理僅僅考慮到帶有固定模式的仿詞(時間、日期等),沒有考慮到成語、慣用語作為一種常見的長詞的特殊處理,現(xiàn)有的方法利用若干窗口的字特征進(jìn)行分詞,不能抓住長距離,對于成語這樣的長詞切分精度往往不高?,F(xiàn)有判別式分詞方法主要依靠指定窗口大小的字特征來實(shí)現(xiàn)分詞,這種方法在長詞切分上性能不佳,這種方法要提高長詞的切分性能只能通過擴(kuò)大窗口的范圍,但是擴(kuò)大窗口范圍會帶來計(jì)算量的巨大提高。因此,需要一種新的方法來改善分詞中的長詞切分準(zhǔn)確率。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種利用成語知識的判別式分詞系統(tǒng)及方法,其在不提高計(jì)算復(fù)雜性的情況下,可以顯著改善長詞的分詞性能,提高分詞算法中對于長詞切分的準(zhǔn)確率。為解決上述技術(shù)問題,本發(fā)明提供一種利用成語知識的判別式分詞方法,包括如下步驟第一步,分詞知識庫的訓(xùn)練,包括步驟1,對人工分詞的文本抽取基本特征;步驟2,對人工分詞的文本抽取成語特征;步驟3,對抽取的特征進(jìn)行訓(xùn)練,得到分詞用的知識庫;第二步,從待切分的原始文本中獲取基本特征;第三步,從待切分的原始文本中獲取成語特征;第四步,利用第一步訓(xùn)練得到的分詞知識庫對待切分的原始文本進(jìn)行分詞。第一步的步驟1中,所述對人工分詞的文本抽取基本特征主要是抽取若干窗口的字特征。第一步的步驟2中,采用從成語詞典中抽取成語特征。第三步中,采用從成語詞典中獲取成語特征。所述成語特征通過成語詞典與待切分的原始文本進(jìn)行匹配,如果某些文字被成功匹配,這些文字就被賦以如下特征該字是成功匹配的成語的首字=B-Idiom ;該字是成功匹配的成語的中間字I-Idiom ;
該字是成功匹配的成語的尾字=E-Idiom ;其他沒有被匹配成功的文字被賦以0ther。所述成語詞典與待切分的原始文本進(jìn)行匹配采用正向最大匹配或者逆向最大匹配。此外,本發(fā)明還提供一種利用成語知識的判別式分詞系統(tǒng),包括分詞知識庫訓(xùn)練模塊、獲取基本特征模塊、獲取成語特征模塊和分詞模塊;所述分詞知識庫訓(xùn)練模塊包括抽取基本特征模塊、抽取成語特征模塊和訓(xùn)練模塊;該抽取基本特征模塊用于對人工分詞的文本抽取基本特征;該抽取成語特征模塊用于對人工分詞的文本抽取成語特征;該訓(xùn)練模塊用于對上述抽取的特征進(jìn)行訓(xùn)練,得到分詞知識庫;該獲取基本特征模塊用于從待切分的原始文本中獲取基本特征;該抽取成語特征模塊用于從待切分的原始文本中獲取成語特征;該分詞模塊用于利用分詞知識庫訓(xùn)練模塊得到的分詞知識庫對待切分的原始文本進(jìn)行分詞。所述抽取成語特征模塊和所述獲取成語特征模塊通過成語詞典與待切分的原始文本進(jìn)行匹配,賦以成語特征。本發(fā)明的有益效果在于本發(fā)明方法利用成語詞典作為知識源,將成語詞典與待切分的原始文本自動匹配結(jié)果作為判別式機(jī)器學(xué)習(xí)算法中的切分特征,利用這些加強(qiáng)的特征來提高分詞算法中對于成語切分的準(zhǔn)確率。本發(fā)明方法利用成語詞典知識作為一種增強(qiáng)特征,與原有字特征結(jié)合使用,在不提高計(jì)算復(fù)雜性的情況下,可以顯著改善長詞的分詞性能。
圖1是本發(fā)明方法中模型分詞知識庫的訓(xùn)練過程示意圖;圖2是本發(fā)明方法中利用分詞知識庫進(jìn)行分詞的過程示意圖;圖3是本發(fā)明系統(tǒng)的模塊結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明方法利用成語詞典作為知識源,將成語詞典與待切分的原始文本自動匹配結(jié)果作為判別式機(jī)器學(xué)習(xí)算法中的切分特征,利用這些加強(qiáng)的特征來提高分詞算法中對于成語切分的準(zhǔn)確率。本發(fā)明一種利用成語知識的判別式分詞方法的具體流程見圖1和圖2。圖1是模型分詞知識庫的訓(xùn)練過程,圖2是利用分詞知識庫進(jìn)行分詞的過程。如圖1所示,本發(fā)明方法中模型分詞知識庫的訓(xùn)練過程包括如下步驟步驟1 對人工分詞的文本(人工切分的分詞語料)抽取基本特征,主要是抽取若干窗口的字特征,目前已有的分詞訓(xùn)練模塊也具備這一步驟;步驟2 對人工分詞的文本抽取成語特征,這是目前分析訓(xùn)練模塊都沒有的步驟; 可以通過改變成語特征的獲取方式來獲取其他形式的成語特征,例如,可以從成語詞典中獲取成語特征(見圖1),也可以通過來源于網(wǎng)絡(luò)的“成語大全”獲取成語特征,等等;步驟3 對抽取的特征進(jìn)行訓(xùn)練,得到分詞用的知識庫。如圖2所示,本發(fā)明方法中利用分詞知識庫對待切分的原始文本進(jìn)行分詞的過程包括如下步驟步驟1 從待切分的原始文本中獲取基本特征;步驟2 從待切分的原始文本中獲取成語特征;可以通過改變成語特征的獲取方式來獲取其他形式的成語特征,例如,可以從成語詞典中獲取成語特征(見圖2),也可以通過來源于網(wǎng)絡(luò)的“成語大全”獲取成語特征,等等;步驟3 利用圖1中步驟訓(xùn)練得到的分詞知識庫對待切分的原始文本進(jìn)行分詞。上述圖1和圖2中的成語特征可以按如下方法獲得成語特征通過一部成語詞典與待切分的原始文本進(jìn)行匹配(正向最大匹配或者逆向最大匹配),如果某些文字被成功匹配,這些文字就被賦以如下特征該字是成功匹配的成語的首字=B-Idiom ;該字是成功匹配的成語的中間字I-Idiom ;該字是成功匹配的成語的尾字=E-Idiom ;其他沒有被匹配成功的文字被賦以0ther。正向(逆向)最大匹配指設(shè)定詞典中最長的詞的字?jǐn)?shù)N,將句子從左到右(正向) 或者從右到左(逆向)以N個字進(jìn)行匹配,如果匹配不成功,則去掉最后一個字,直到在詞典中匹配成功了 M個字的詞組,前移M,再次取N個字進(jìn)行匹配,直至句子結(jié)束,例如假設(shè)詞典為內(nèi)塔尼亞胡胡說的的確確實(shí)實(shí)在在理并且假定最長詞為5個字;正向匹配“內(nèi)塔尼亞胡說的確實(shí)在理”的匹配結(jié)果為“內(nèi)塔尼亞胡說的確實(shí)在理”;逆向匹配“內(nèi)塔尼亞胡說的確實(shí)在理”的匹配結(jié)果為“內(nèi)塔尼亞胡說的確實(shí)在理”。如圖3所示,本發(fā)明一種利用成語知識的判別式分詞系統(tǒng),包括分詞知識庫訓(xùn)練模塊、獲取基本特征模塊、獲取成語特征模塊和分詞模塊;分詞知識庫訓(xùn)練模塊中包括抽取基本特征模塊、抽取成語特征模塊和訓(xùn)練模塊。該抽取基本特征模塊用于對人工分詞的文本抽取基本特征;該抽取成語特征模塊用于對人工分詞的文本抽取成語特征;該訓(xùn)練模塊用于對上述抽取基本特征模塊和抽取成語特征模塊抽取的特征進(jìn)行訓(xùn)練,得到分詞知識庫;該獲取基本特征模塊用于從待切分的原始文本中獲取基本特征;該抽取成語特征模塊用于從待切分的原始文本中獲取成語特征;該分詞模塊用于利用分詞知識庫訓(xùn)練模塊得到的分詞知識庫對待切分的原始文本進(jìn)行分詞。該抽取成語特征模塊和該獲取成語特征模塊通過成語詞典與待切分的原始文本進(jìn)行匹配,賦以成語特征。
權(quán)利要求
1.一種利用成語知識的判別式分詞方法,其特征在于,包括如下步驟 第一步,分詞知識庫的訓(xùn)練,包括步驟1,對人工分詞的文本抽取基本特征; 步驟2,對人工分詞的文本抽取成語特征; 步驟3,對抽取的特征進(jìn)行訓(xùn)練,得到分詞用的知識庫; 第二步,從待切分的原始文本中獲取基本特征; 第三步,從待切分的原始文本中獲取成語特征;第四步,利用第一步訓(xùn)練得到的分詞知識庫對待切分的原始文本進(jìn)行分詞。
2.如權(quán)利要求1所述的利用成語知識的判別式分詞方法,其特征在于,第一步的步驟1 中,所述對人工分詞的文本抽取基本特征主要是抽取若干窗口的字特征。
3.如權(quán)利要求1所述的利用成語知識的判別式分詞方法,其特征在于,第一步的步驟2 中,采用從成語詞典中抽取成語特征。
4.如權(quán)利要求1所述的利用成語知識的判別式分詞方法,其特征在于,第三步中,采用從成語詞典中獲取成語特征。
5.如權(quán)利要求3或4所述的利用成語知識的判別式分詞方法,其特征在于,所述成語特征通過成語詞典與待切分的原始文本進(jìn)行匹配,如果某些文字被成功匹配,這些文字就被賦以如下特征該字是成功匹配的成語的首字=B-Idiom ; 該字是成功匹配的成語的中間字=I-Idiom ; 該字是成功匹配的成語的尾字=E-Idiom ; 其他沒有被匹配成功的文字被賦以0ther。
6.如權(quán)利要求5所述的利用成語知識的判別式分詞方法,其特征在于,所述成語詞典與待切分的原始文本進(jìn)行匹配采用正向最大匹配或者逆向最大匹配。
7.一種利用成語知識的判別式分詞系統(tǒng),其特征在于,包括分詞知識庫訓(xùn)練模塊、獲取基本特征模塊、獲取成語特征模塊和分詞模塊;所述分詞知識庫訓(xùn)練模塊包括抽取基本特征模塊、抽取成語特征模塊和訓(xùn)練模塊;該抽取基本特征模塊用于對人工分詞的文本抽取基本特征;該抽取成語特征模塊用于對人工分詞的文本抽取成語特征;該訓(xùn)練模塊用于對上述抽取的特征進(jìn)行訓(xùn)練,得到分詞知識庫;該獲取基本特征模塊用于從待切分的原始文本中獲取基本特征;該抽取成語特征模塊用于從待切分的原始文本中獲取成語特征;該分詞模塊用于利用分詞知識庫訓(xùn)練模塊得到的分詞知識庫對待切分的原始文本進(jìn)行分詞。
8.如權(quán)利要求7所述的利用成語知識的判別式分詞系統(tǒng),其特征在于,所述抽取成語特征模塊和所述獲取成語特征模塊通過成語詞典與待切分的原始文本進(jìn)行匹配,賦以成語特征。
全文摘要
本發(fā)明公開了一種利用成語知識的判別式分詞方法,包括如下步驟第一步,分詞知識庫的訓(xùn)練,包括步驟1,對人工分詞的文本抽取基本特征;步驟2,對人工分詞的文本抽取成語特征;步驟3,對抽取的特征進(jìn)行訓(xùn)練,得到分詞用的知識庫;第二步,從待切分的原始文本中獲取基本特征;第三步,從待切分的原始文本中獲取成語特征;第四步,利用第一步訓(xùn)練得到的分詞知識庫對待切分的原始文本進(jìn)行分詞。此外,本發(fā)明還公開了一種利用成語知識的判別式分詞系統(tǒng)。本發(fā)明在不提高計(jì)算復(fù)雜性的情況下,可以顯著改善長詞的分詞性能,提高分詞算法中對于長詞切分的準(zhǔn)確率。
文檔編號G06F17/27GK102314415SQ201010221629
公開日2012年1月11日 申請日期2010年7月8日 優(yōu)先權(quán)日2010年7月8日
發(fā)明者毛新年 申請人:盛樂信息技術(shù)(上海)有限公司