漢語依存樹庫中未登錄詞的處理方法

文檔序號：6488876閱讀：697來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

漢語依存樹庫中未登錄詞的處理方法
【專利摘要】本發(fā)明屬于計(jì)算語言學(xué)的自然語言處理領(lǐng)域，公開了一種漢語依存樹庫中未登錄詞的處理方法，該方法包括步驟：A，利用同義詞詞林，查找未登錄詞的所有同義詞；B，根據(jù)漢字字形特征，計(jì)算未登錄詞與其所有同義詞之間的字形相似度；C，當(dāng)未登錄詞與多個(gè)同義詞的字形相似度相同時(shí)，抽取所映射的詞及其對應(yīng)的詞性的信息量，改進(jìn)字形相似度計(jì)算模型；D，抽取字形相似度最大的詞為未登錄詞的最優(yōu)映射詞，作為樹庫中對未登錄詞的解釋。本發(fā)明可以再不擴(kuò)大樹庫規(guī)模的前提下，令依存句法分析中的單元對<詞性，詞性>回升到<詞性，詞>或<詞，詞性>，從而達(dá)到細(xì)化信息粒度，緩解數(shù)據(jù)稀疏問題，改進(jìn)依存句法分析性能。
【專利說明】漢語依存樹庫中未登錄詞的處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種對漢語依存語法樹庫中未登錄詞的處理方法，通過樹庫已知詞實(shí)現(xiàn)對未登錄詞的理解，屬于計(jì)算語言學(xué)中的自然語言處理領(lǐng)域。
【背景技術(shù)】
[0002]句法分析是自然語言處理的核心問題之一，其性能的好壞，直接影響到自然語言句子自動理解的正確性和有效性。依存句法分析比結(jié)構(gòu)化句法分析更容易處理，近年來受到了人們的廣泛關(guān)注。目前許多國家正建立和發(fā)展自己語言的樹庫，隨著詞匯本身強(qiáng)大的排歧能力漸漸被挖掘出來，越來越多的依存句法分析統(tǒng)計(jì)模型趨于詞匯化。
[0003]詞匯是最有區(qū)別力的信息，語言在詞匯層面幾乎沒有歧義。詞匯以及詞匯之間的依存，包含著極豐富的表征信息，這使得越來越多的句法分析器趨向于詞匯化。但詞匯化建模中存在的難點(diǎn)是詞匯信息的數(shù)據(jù)稀疏問題，目前主要采用詞性信息進(jìn)行平滑，如將詞單元對〈詞，詞〉回退為〈詞，詞性 >、〈詞性，詞〉、〈詞性，詞性 >。但由于詞性標(biāo)記的數(shù)量少，信息粒度較粗，不可避免地會產(chǎn)生大量的句法歧義。
[0004]現(xiàn)有樹庫規(guī)模較小，實(shí)際應(yīng)用中存在大量未在樹庫中出現(xiàn)的詞匯，也即未登錄詞。這使得依存句法分析無法利用這些詞的詞匯信息，從而降低句法分析的精確度，嚴(yán)重阻礙了句法分析的發(fā)展。目前在英文方面主要趨向兩種方式解決未登錄詞問題:花費(fèi)大量人力、物力擴(kuò)大樹庫規(guī)模；利用現(xiàn)有資源，實(shí)現(xiàn)同一類別詞匯相互間的映射轉(zhuǎn)換。在中文方面主要采用詞性信息平滑技術(shù)，但存在信息粒度粗，句法歧義大的缺陷。因此，迫切地需要一種針對漢語特點(diǎn)的樹庫未登錄詞處理方法，以解決樹庫中數(shù)據(jù)稀疏和信息粒度粗的問題，提高句法分析精確度。

【發(fā)明內(nèi)容】

[0005]為了解決依存句法分析中樹庫數(shù)據(jù)稀疏問題以及采用詞性信息平滑帶來的信息粒度粗等問題，本發(fā)明提供了一種漢語依存樹庫中未登錄詞的處理方法，實(shí)現(xiàn)樹庫未登錄詞與已知詞的映射轉(zhuǎn)換，在不擴(kuò)大數(shù)據(jù)規(guī)模的情況下，令單元對〈詞性，詞性 > 可以回升到〈詞性，詞 > 或〈詞，詞性 >，以細(xì)化信息粒度，緩解數(shù)據(jù)稀疏問題，改進(jìn)依存句法分析的性能。
[0006]為了達(dá)到上述目的，本發(fā)明提供一種依存樹庫中未登錄詞的處理方法，具體步驟包括:
A、利用同義詞詞林，查找未登錄詞的所有同義詞；
B、根據(jù)漢語字形特征，設(shè)計(jì)詞語之間的字形相似度計(jì)算模型，計(jì)算未登錄詞及其所有同義詞之間的字形相似度；
C、對于未登錄詞存在多個(gè)同義詞與之映射時(shí)，抽取所映射的詞及其對應(yīng)詞性的信息量，改進(jìn)字形相似度計(jì)算模型；
D、根據(jù)字形相似度，抽取最優(yōu)映射詞。
[0007]其中，步驟A具體為:根據(jù)哈工大信息檢索研究室《同義詞詞林》擴(kuò)展版的編碼方式，抽取與未登錄詞5層編碼均相等的所有詞匯，作為同義詞。
[0008]步驟B，利用漢字是象形文字，其字形和字義的聯(lián)系密切的特點(diǎn)。同時(shí)，漢字字庫相對比較穩(wěn)定，構(gòu)詞頻率高的常用字約3，000字，總數(shù)也就2萬多個(gè)字，絕大多數(shù)的新詞也是由現(xiàn)有的字庫組成的。因此將全體漢字用一個(gè)向量表示，向量的維數(shù)即為全體漢字?jǐn)?shù)目，向量的值或者說權(quán)重為某一特定單元中漢字出現(xiàn)的次數(shù)；
[0009]設(shè)η為全體漢字字?jǐn)?shù)，sw表示單個(gè)漢字，則全體漢字的向量表示:(sWl，SW2,…
,SWn) O
[0010]為此，詞匯的字形相似度計(jì)算模型:
【權(quán)利要求】
1.一種漢語依存樹庫中未登錄詞的處理方法，其特征在于，所述方法包括以下步驟: 利用同義詞詞林，查找未登錄詞的所有同義詞；根據(jù)漢字字形特征，設(shè)計(jì)詞語之間的字形相似度計(jì)算模型，計(jì)算未登錄詞及其所有同義詞之間的字形相似度；當(dāng)未登錄詞存在多個(gè)同義詞與之映射時(shí)，抽取所映射的詞及其對應(yīng)詞性的信息量，改進(jìn)字形相似度計(jì)算模型；根據(jù)字形相似度，抽取未登錄詞的最優(yōu)映射詞，作為樹庫中對未登錄詞的解釋。
2.如權(quán)利要求1所述的漢語依存樹庫中未登錄詞的處理方法，其特征在于，在步驟A中，借助現(xiàn)有語義資源，尋找與樹庫中未登錄詞在語義上相同或相近或相關(guān)的所有詞，作為未登錄詞的同義詞。
3.如權(quán)利要求1和權(quán)利要求2所述的漢語依存樹庫中未登錄詞的處理方法，其特征在于，在步驟A中，選用了哈爾濱工業(yè)大學(xué)信息檢索研究室擴(kuò)展版的《同義詞詞林》作為語義資源，獲取未登錄詞的同義詞。
4.如權(quán)利要求1所述的漢語依存樹庫中未登錄詞的處理方法，其特征在于，在步驟B中，漢字字形特征是指根據(jù)漢字是象形文字的特點(diǎn)，利用字形表征漢字字義，具體做法是全體漢字用一個(gè)向量表示，向量的維數(shù)即為全體漢字總數(shù)，向量的值或者說權(quán)重為某一特定單元中漢字出現(xiàn)的次數(shù)。
5.如權(quán)利要求1所述和權(quán)利要求4所述的漢語依存樹庫中未登錄詞的處理方法，其特征在于，字形相似度計(jì)算模型如下:
6.如權(quán)利要求1所述的漢語依存樹庫中未登錄詞的處理方法，其特征在于，當(dāng)存在多個(gè)同義詞與未登錄詞字形相似度值相同時(shí)，引入詞的頻度信息來調(diào)整字形相似度計(jì)算模型，調(diào)整后的字形相似度計(jì)算模型如下:
7.如權(quán)利要求1所述的漢語依存樹庫中未登錄詞的處理方法，其特征在于，字形相似度最大的詞作為未登錄詞的最優(yōu)映射詞，在樹庫中作為對未登錄詞的解釋，其選擇方式如下:
【文檔編號】G06F17/27GK103678272SQ201210344884
【公開日】2014年3月26日申請日期:2012年9月17日優(yōu)先權(quán)日:2012年9月17日
【發(fā)明者】呂學(xué)強(qiáng), 鄭略省, 王玥, 關(guān)曉炟申請人:北京信息科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂學(xué)強(qiáng);鄭略省;王玥;關(guān)曉炟;
技術(shù)所有人：北京信息科技大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

漢語依存樹庫中未登錄詞的處理方法