漢語依存樹庫中未登錄詞的處理方法
【專利摘要】本發(fā)明屬于計(jì)算語言學(xué)的自然語言處理領(lǐng)域,公開了一種漢語依存樹庫中未登錄詞的處理方法,該方法包括步驟:A,利用同義詞詞林,查找未登錄詞的所有同義詞;B,根據(jù)漢字字形特征,計(jì)算未登錄詞與其所有同義詞之間的字形相似度;C,當(dāng)未登錄詞與多個(gè)同義詞的字形相似度相同時(shí),抽取所映射的詞及其對應(yīng)的詞性的信息量,改進(jìn)字形相似度計(jì)算模型;D,抽取字形相似度最大的詞為未登錄詞的最優(yōu)映射詞,作為樹庫中對未登錄詞的解釋。本發(fā)明可以再不擴(kuò)大樹庫規(guī)模的前提下,令依存句法分析中的單元對<詞性,詞性>回升到<詞性,詞>或<詞,詞性>,從而達(dá)到細(xì)化信息粒度,緩解數(shù)據(jù)稀疏問題,改進(jìn)依存句法分析性能。
【專利說明】漢語依存樹庫中未登錄詞的處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種對漢語依存語法樹庫中未登錄詞的處理方法,通過樹庫已知詞實(shí)現(xiàn)對未登錄詞的理解,屬于計(jì)算語言學(xué)中的自然語言處理領(lǐng)域。
【背景技術(shù)】
[0002]句法分析是自然語言處理的核心問題之一,其性能的好壞,直接影響到自然語言句子自動理解的正確性和有效性。依存句法分析比結(jié)構(gòu)化句法分析更容易處理,近年來受到了人們的廣泛關(guān)注。目前許多國家正建立和發(fā)展自己語言的樹庫,隨著詞匯本身強(qiáng)大的排歧能力漸漸被挖掘出來,越來越多的依存句法分析統(tǒng)計(jì)模型趨于詞匯化。
[0003]詞匯是最有區(qū)別力的信息,語言在詞匯層面幾乎沒有歧義。詞匯以及詞匯之間的依存,包含著極豐富的表征信息,這使得越來越多的句法分析器趨向于詞匯化。但詞匯化建模中存在的難點(diǎn)是詞匯信息的數(shù)據(jù)稀疏問題,目前主要采用詞性信息進(jìn)行平滑,如將詞單元對〈詞,詞〉回退為〈詞,詞性 >、〈詞性,詞〉、〈詞性,詞性 >。但由于詞性標(biāo)記的數(shù)量少,信息粒度較粗,不可避免地會產(chǎn)生大量的句法歧義。
[0004]現(xiàn)有樹庫規(guī)模較小,實(shí)際應(yīng)用中存在大量未在樹庫中出現(xiàn)的詞匯,也即未登錄詞。這使得依存句法分析無法利用這些詞的詞匯信息,從而降低句法分析的精確度,嚴(yán)重阻礙了句法分析的發(fā)展。目前在英文方面主要趨向兩種方式解決未登錄詞問題:花費(fèi)大量人力、物力擴(kuò)大樹庫規(guī)模;利用現(xiàn)有資源,實(shí)現(xiàn)同一類別詞匯相互間的映射轉(zhuǎn)換。在中文方面主要采用詞性信息平滑技術(shù),但存在信息粒度粗,句法歧義大的缺陷。因此,迫切地需要一種針對漢語特點(diǎn)的樹庫未登錄詞處理方法,以解決樹庫中數(shù)據(jù)稀疏和信息粒度粗的問題,提高句法分析精確度。
【發(fā)明內(nèi)容】
[0005]為了解決依存句法分析中樹庫數(shù)據(jù)稀疏問題以及采用詞性信息平滑帶來的信息粒度粗等問題,本發(fā)明提供了一種漢語依存樹庫中未登錄詞的處理方法,實(shí)現(xiàn)樹庫未登錄詞與已知詞的映射轉(zhuǎn)換,在不擴(kuò)大數(shù)據(jù)規(guī)模的情況下,令單元對〈詞性,詞性 > 可以回升到〈詞性,詞 > 或〈詞,詞性 >,以細(xì)化信息粒度,緩解數(shù)據(jù)稀疏問題,改進(jìn)依存句法分析的性能。
[0006]為了達(dá)到上述目的,本發(fā)明提供一種依存樹庫中未登錄詞的處理方法,具體步驟包括:
A、利用同義詞詞林,查找未登錄詞的所有同義詞;
B、根據(jù)漢語字形特征,設(shè)計(jì)詞語之間的字形相似度計(jì)算模型,計(jì)算未登錄詞及其所有同義詞之間的字形相似度;
C、對于未登錄詞存在多個(gè)同義詞與之映射時(shí),抽取所映射的詞及其對應(yīng)詞性的信息量,改進(jìn)字形相似度計(jì)算模型;
D、根據(jù)字形相似度,抽取最優(yōu)映射詞。
[0007]其中,步驟A具體為:根據(jù)哈工大信息檢索研究室《同義詞詞林》擴(kuò)展版的編碼方式,抽取與未登錄詞5層編碼均相等的所有詞匯,作為同義詞。
[0008]步驟B,利用漢字是象形文字,其字形和字義的聯(lián)系密切的特點(diǎn)。同時(shí),漢字字庫相對比較穩(wěn)定,構(gòu)詞頻率高的常用字約3,000字,總數(shù)也就2萬多個(gè)字,絕大多數(shù)的新詞也是由現(xiàn)有的字庫組成的。因此將全體漢字用一個(gè)向量表示,向量的維數(shù)即為全體漢字?jǐn)?shù)目,向量的值或者說權(quán)重為某一特定單元中漢字出現(xiàn)的次數(shù);
[0009]設(shè)η為全體漢字字?jǐn)?shù),sw表示單個(gè)漢字,則全體漢字的向量表示:(sWl,SW2,…
,SWn) O
[0010]為此,詞匯的字形相似度計(jì)算模型:
【權(quán)利要求】
1.一種漢語依存樹庫中未登錄詞的處理方法,其特征在于,所述方法包括以下步驟: 利用同義詞詞林,查找未登錄詞的所有同義詞; 根據(jù)漢字字形特征,設(shè)計(jì)詞語之間的字形相似度計(jì)算模型,計(jì)算未登錄詞及其所有同義詞之間的字形相似度; 當(dāng)未登錄詞存在多個(gè)同義詞與之映射時(shí),抽取所映射的詞及其對應(yīng)詞性的信息量,改進(jìn)字形相似度計(jì)算模型; 根據(jù)字形相似度,抽取未登錄詞的最優(yōu)映射詞,作為樹庫中對未登錄詞的解釋。
2.如權(quán)利要求1所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,在步驟A中,借助現(xiàn)有語義資源,尋找與樹庫中未登錄詞在語義上相同或相近或相關(guān)的所有詞,作為未登錄詞的同義詞。
3.如權(quán)利要求1和權(quán)利要求2所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,在步驟A中,選用了哈爾濱工業(yè)大學(xué)信息檢索研究室擴(kuò)展版的《同義詞詞林》作為語義資源,獲取未登錄詞的同義詞。
4.如權(quán)利要求1所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,在步驟B中,漢字字形特征是指根據(jù)漢字是象形文字的特點(diǎn),利用字形表征漢字字義,具體做法是全體漢字用一個(gè)向量表示,向量的維數(shù)即為全體漢字總數(shù),向量的值或者說權(quán)重為某一特定單元中漢字出現(xiàn)的次數(shù)。
5.如權(quán)利要求1所述和權(quán)利要求4所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,字形相似度計(jì)算模型如下:
6.如權(quán)利要求1所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,當(dāng)存在多個(gè)同義詞與未登錄詞字形相似度值相同時(shí),引入詞的頻度信息來調(diào)整字形相似度計(jì)算模型,調(diào)整后的字形相似度計(jì)算模型如下:
7.如權(quán)利要求1所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,字形相似度最大的詞作為未登錄詞的最優(yōu)映射詞,在樹庫中作為對未登錄詞的解釋,其選擇方式如下:
【文檔編號】G06F17/27GK103678272SQ201210344884
【公開日】2014年3月26日 申請日期:2012年9月17日 優(yōu)先權(quán)日:2012年9月17日
【發(fā)明者】呂學(xué)強(qiáng), 鄭略省, 王玥, 關(guān)曉炟 申請人:北京信息科技大學(xué)