專利名稱:漢語語義格分層識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于詞法、句法和句義結(jié)構(gòu)特征的漢語語義格分層識別方法,屬于計算機科學與自然語言處理技術(shù)領(lǐng)域。
背景技術(shù):
漢語語義格是漢語語義學理論中的重要部分,漢語語義學是自然語言處理在語義學層次上分析語言的一個理論,正越來越受到重視。人們通過將各種各樣的詞語劃分為若干個語義格,進而使用分類方法解決識別問題。自然語言處理研究的問題會涉及自然語言的形態(tài)學、語法學、語義學和語用學等幾個層次。形態(tài)學(morphology)研究詞的內(nèi)部結(jié)構(gòu),包括屈折變化和構(gòu)詞法兩個部分;語法學(syntax)研究句子結(jié)構(gòu)成分之間的互相關(guān)系和組成句子系列的規(guī)則;語義學(semantics)是一門研究意義,特別是語言意義的學科,其關(guān)注的重點是語言單元(如詞、詞組、句子、篇章等)到底說了什么;語用學(pragmatics)是現(xiàn)代語言學用來指從使用者的角度研究語言,關(guān)注的重點在于為什么在特定的上下文中要說這句話。形態(tài)學和語法學分析問題早已引起人們的廣泛關(guān)注,并取得了積極的進展;但是卻缺乏對語言的深度理解,不能真正實現(xiàn)機器對語言進行正確理解的目的。語義學層次的研究能使計算機進行深層語義的理解,是計算機對語目進行真正理解的關(guān)鍵。漢語語義格識別需要解決2個基本問題:1.如何選取代表性強、區(qū)分度高的特征來區(qū)分不同的語義格;2.采用何種識別準確率高、速度快的識別方法對不同的語義格進行區(qū)分。1.在特征提取方面:(I)詞法特征:對漢語的句子進行分詞處理,進而提取詞法特征,得到詞法特征序列。此類特征是形態(tài)學這一層上對語言進行分析處理得到的,只能提供詞法方面的信息,不能提供更深層次的信息。(2)句法特征:對漢語的句子進行句法處理,進而提取句法特征,得到句法特征序列。此類特征是語法學這一層上對語言進行分析處理得到的,只能提供短語方面的信息。2.在語義格區(qū)分方面:(I)支持向量機(SVM)算法:支持向量機(Support Vector Machine, SVM)是建立在統(tǒng)計學習理論的VC維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力。SVM算法在訓練時,需要對核函數(shù)、核函數(shù)參數(shù)不斷進行調(diào)整以進行優(yōu)化,因此訓練過程往往比較復雜,這是該算法使用中的重要不足;另外,SVM算法是一種兩分類算法,對于多種類別的識別,需要對算法做進一步的改進。(2) Naive Bayes算法:該算法產(chǎn)生的理論背景是Bayes定理,并沒有考慮可能存在的依賴關(guān)系,具有運算量小、能夠快速生成挖掘模型的特點,適合作為探索算法,但是識別準確率不高。
綜上所述,對于漢語語義格識別這一應(yīng)用場景,現(xiàn)有的特征包括詞法和句法特征,存在特征有限、代表性不強、無法表達深層意義等不足;同時,分類算法較多,而漢語語義格識別又是新的領(lǐng)域,需要從眾多算法中嘗試不同的算法,進而選擇速度快、識別準確率高的算法。
發(fā)明內(nèi)容
本發(fā)明的目的是為解決語義分析中語義格識別問題,提出一種基于詞法、句法和句義結(jié)構(gòu)特征的語義格識別方法。本發(fā)明的設(shè)計原理為使用詞法、句法和句義結(jié)構(gòu)特征和分層次識別的策略實現(xiàn)漢語語義格識別;使用C4.5決策樹算·法和最大熵算法相結(jié)合的方法提升分層次識別的準確度。句義結(jié)構(gòu)特征:對漢語的句子進行句義處理,進而提取句義結(jié)構(gòu)特征,得到句義結(jié)構(gòu)特征序列。此類特征是語義學這一層次上對語言進行分析處理得到的,能夠提供句義方面的信息,相比詞法和句法特征,代表性更強。C4.5決策樹算法是ID3的后繼,是Quinlan于1993年提出的。相比ID3,C4.5有兩點較為重要的改進:1)在屬性選擇上,C4.5使用信息增益率代替了 ID3的信息增益,克服了屬性偏倚問題;2)C4.5可以實現(xiàn)對連續(xù)值的處理,彌補了 ID3只能處理離散值的不足。決策樹比較適合探測式的發(fā)現(xiàn),其構(gòu)造不需要任何領(lǐng)域知識和參數(shù)設(shè)置;決策樹也可以清晰地反映出較為重要的特征有哪些,進而得到影響漢語語義格識別的主要因素;另外,決策樹計算較為簡單,速度較快,易于轉(zhuǎn)化為分類規(guī)則。分層次識別:根據(jù)漢語語義學的理論,漢語句子中的詞語可分為三大類:基本格(7種:施事格、遭遇格、主事格、受事格、結(jié)果格、說明格、與格)、一般格(范圍格、時間格、空間格、工具格、方式格、基準格、根由格、屬格、描寫格、同位格、否定格、其他格)、非語義格。三個類別中的詞語比例大致接近1:1:1,首先進行三個類別的初步識別,可以去除掉大量非語義格,減少待識別詞語的數(shù)量,達到提高效率的目的;語義格的種類較多,而一般格和基本格的作用和特點都不同,先進行初步識別再進行精確識別有利于調(diào)整各自的特征,提高精確識別準確率。本發(fā)明的技術(shù)方案是通過如下步驟實現(xiàn)的:步驟1,為了進行語義學層次的分析,首先對漢語句子進行標注,形成訓練測試集A。訓練集A中包含的句子數(shù)目用m表示。步驟1.1,使用ICTCLAS對漢語句子進行分詞處理,并進行校對,標記句子中的詞序X= {O, I, 2,…k},其中k為句子中包含詞語數(shù)目最多時,詞的數(shù)目。步驟1.2,在步驟1.1的基礎(chǔ)上,對漢語句子進行句法標注,得到比詞法更高一級句法單元:短語及短語類型,最終得到樹狀的句法結(jié)構(gòu)。步驟1.3,在步驟1.2的基礎(chǔ)上,依據(jù)漢語語義學理論對漢語句子進行句義結(jié)構(gòu)標注,得到比句法更高一級的句義結(jié)構(gòu)。步驟2,獲取最小完整語義單元,形成訓練測試集B,其中訓練測試集B中包含有最小語義單元數(shù)目用η表示。首先,給出一個定義。
定義1:各句義結(jié)構(gòu)類型均以簡單句義為基礎(chǔ),因此,定義簡單句義的句義結(jié)構(gòu)形式為最小完整語義單元,非簡單句義可以通過最小完整語義單元擴展而來。句義結(jié)構(gòu)類型即句義類型,根據(jù)漢語句義的實際情況,將句義類型劃分為簡單句義、復雜句義、復合句義和多重句義四種類型。其中,簡單句義是結(jié)構(gòu)最簡單的類型,只包含一層句義結(jié)構(gòu),一般表現(xiàn)為一個命題,通常包括一個謂詞(或并列謂詞)。復雜句義是指某些句義成分本身就是一個句義或引出一個句義的情況,即一個句義中又包含著一個句義,被包含的句義稱為成分句義。復雜句義中可能包含有多個成分句義,但是每一個成分句義都是簡單句義,即整個復雜句義只含有兩層句義結(jié)構(gòu)。復合句義是指兩個或兩個以上的簡單句義,按照某種語義關(guān)系緊密地聯(lián)結(jié)在一起,共同表達一個比較復雜的意思,通常具有兩個或兩個以上的話題。復合句義中的簡單句義叫做分句義,它們都是簡單句,且處在同一個層次上。多重句義指某個成分句義自身是一個復雜句義或復合句義,并且因此而含有更多層的句義結(jié)構(gòu)。步驟2.1,獲取句義結(jié)構(gòu)的頂層句義類型標記Y= {0,1,2,3},其中Y=0、l、2、3分別代表該句子為簡單句義、復雜句義、復合句義、多重句義;將簡單句義類型的句子直接輸出,其他句子進入下一步處理。步驟2.2,對非簡單句義類型進行從頂向下搜索,提取出句子中包含的簡單句義部分,輸出結(jié)果,并用一個標示符標記這個簡單句義,將其看作一個整體,化簡其上層句義結(jié)構(gòu)。步驟2.3,重復步驟2.2,直到本句的句義結(jié)構(gòu)化簡為形如簡單句義的一層句義結(jié)構(gòu)形式時,結(jié)束對該句的最小完整語義單元的提取工作,輸出結(jié)果形成訓練測試集B。步驟3,進行漢語語義格初步識別。步驟3.1,特征選取,具體步驟如下:步驟3.1.1,綜合詞法、句法和句義結(jié)構(gòu)特征共P維,利用隨機森林算法獲取基礎(chǔ)特征集。將訓練測試集B均分為F等份,然后分別采取隨機森林算法進行識別,得到特征(包括詞法、句法和句義結(jié)構(gòu)特征,共P維)重要程度的排序信息,最后取F等份排序前N維特征的并集作為語義格初步識別的NI維基礎(chǔ)特征集。步驟3.1.2,首先,在步驟3.1.1得到的NI維特征基礎(chǔ)上逐個增加其他特征進行語義格的初步識別,并記錄識別準確率;然后對識別結(jié)果進行比較,選擇識別準確率提高最大的作為新特征加入到基礎(chǔ)特征集中。步驟3.1.3,重復3.1.2直到識別準確率不再提高,最終得到Kl維特征。步驟3.2,根據(jù)步驟3.1選取的Kl維特征,利用C4.5決策樹算法和訓練測試集B進行訓練,得到識別模型;利用識別模型進行漢語語義格的初步識別。步驟4,進行漢語語義格中基本格的精確識別。步驟4.1,特征選取,具體步驟如下:步驟4.1.1,綜合詞法、句法和句義結(jié)構(gòu)特征共P維,利用隨機森林算法獲取基礎(chǔ)特征集。將訓練測試集B均分為F等份,然后分別采取隨機森林算法進行識別,得到特征(包括詞法特征、句法特征和句義結(jié)構(gòu)特征,共P維)重要程度的排序信息,最后取F等份排序前N維特征的并集作為漢語語義格中基本格精確識別的Ν2維基礎(chǔ)特征集。
步驟4.1.2,首先,在步驟4.1.1得到的N2維特征基礎(chǔ)上逐個增加其他特征進行語義格中基本格的精確識別,并記錄識別準確率;然后對識別結(jié)果進行比較,選擇識別準確率提聞最大的作為新特征加入到基礎(chǔ)特征集中。步驟4.1.3,重復4.1.2直到識別準確率不再提高,最終得到K2維特征。步驟4.2,根據(jù)步驟4.1選取的K2維特征,采用C4.5決策樹算法和最大熵算法和訓練測試集B分別進行訓練,得到兩個識別模型;通過比較識別結(jié)果,采用C4.5決策樹識別模型和最大熵識別模型相結(jié)合的方法進行漢語語義格中基本格的識別。步驟5,漢語語義格中一般格的精確識別。步驟5.1,特征選取,具體步驟如下:步驟5.1.1,綜合詞法、句法和句義結(jié)構(gòu)特征共P維,利用隨機森林算法獲取基礎(chǔ)特征集。將訓練測試集B均分為F等份,然后分別采取隨機森林算法進行識別,得到特征(包括詞法、句法和句義結(jié)構(gòu)特征,共P維)重要程度的排序信息,最后取F等份排序前N維特征的并集作為漢語語義格中一般格精確識別的N3維基礎(chǔ)特征集。步驟5.1.2,首先,在步驟5.1.1得到的N3維特征基礎(chǔ)上逐個增加其他特征進行語義格中一般格的精確識別,并記錄識別準確率;然后對識別結(jié)果進行比較,選擇識別準確率提聞最大的作為新特征加入到基礎(chǔ)特征集中。步驟5.1.3,重復5.1.2直到識別準確率不再提高,最終得到K3維特征。步驟5.2,根據(jù)步驟5.1選取的K3維特征,采用C4.5決策樹算法和帶有標記的訓練測試集B進行訓練,得到一般格識別模型;采用一般格識別模型進行漢語語義格中一般格的精確識別。有益效果相比于形態(tài)學和語法學只能對語言進行淺層分析,本發(fā)明為語義學自動分析提供語義格的自動識別,是語義學自動分析的關(guān)鍵工作,采用的漢語語義格分層次識別方法具有效率高、識別準確率高的特點。與不進行分層次識別而直接進行漢語語義格識別相比,分層次識別策略具有更高的識別準確率,并且在基本格和一般格的精確識別中可以采用并行處理方式,具有更高的效率。
圖1為本發(fā)明的漢語語義格識別方法原理圖;圖2為具體實施方式
中漢語語義格初步識別方法的原理圖;圖3為具體實施方式
中漢語語義格初步識別方法的特征添加實驗結(jié)果;圖4為具體實施方式
中漢語語義格中基本格精確識別方法的原理圖;圖5為具體實施方式
中漢語語義格中基本格精確識別方法的特征添加實驗結(jié)果;圖6為具體實施方式
中漢語語義格中一般格精確識別方法的原理圖;圖7為具體實施方式
中漢語語義格中一般格精確識別方法的特征添加實驗結(jié)果;圖8為具體實施方式
中漢語語義格初步識別的準確率;圖9為具體實施方式
中漢語語義格中基本格精確識別的準確率;圖10為具體實施方式
中漢語語義格中一般格精確識別的準確率。
具體實施例方式為了更好的說明本發(fā)明的目的和優(yōu)點,下面結(jié)合附圖和實施例對本發(fā)明方法的實施方式做進一步詳細說明。以漢語句子為輸入,設(shè)計并部署I項測試:針對6486個漢語句子的識別測試。下面對上述測試流程進行說明,所有測試流程均在同一臺計算機上完成,具體配置為:Intel (R)Core (TM)2Duo CPU(主頻 1.97GHz),2.0OGB 內(nèi)存,Windows XP SP3 操作系統(tǒng)。步驟1,為了進行語義學層次的分析,首先對6486個漢語句子進行標注,形成訓練測試集A。 步驟1.1,使用ICTCLAS對漢語句子進行分詞處理,并進行校對,標記6486個漢語句子中的詞序。步驟1.2,在步驟1.1的基礎(chǔ)上,對6486個漢語句子進行句法標注,得到比詞法更高一級句法單元:短語及短語類型,最終得到6486個樹狀的句法結(jié)構(gòu)。步驟1.3,在步驟1.2的基礎(chǔ)上,依據(jù)漢語語義學對6486個漢語句子進行句義結(jié)構(gòu)標注,得到6486個比句法更高一級的句義結(jié)構(gòu)。步驟2,獲取最小完整語義單元,形成訓練測試集B。步驟2.1,獲取6486個句義結(jié)構(gòu)的頂層句義類型標記,將簡單句義類型的句子直接輸出,其他句子進入下一步處理。步驟2.2,對非簡單句義句子進行從頂向下搜索,提取出句子中包含的簡單句義部分,輸出結(jié)果,并用一個標示符標記這個簡單句義,將其看作一個整體,化簡其上層句義結(jié)構(gòu)。步驟2.3,重復步驟2.2,直到所有句子的句義結(jié)構(gòu)化簡為形如簡單句義的一層句義結(jié)構(gòu)形式時,輸出結(jié)果,并結(jié)束對最小完整語義單元的提取工作。通過對6486個漢語句子進行最小完整語義單元的提取工作,共得到包含9045個最小完整語義單元的訓練測試集B,其具體句型分布如表I所示。表I獲取最小完整語義單元數(shù)目
句式類型主謂句非主謂句把字句被字句連動句兼語句總計
原句3363602845799316561 6486
最小立攀
* 4127 S26 I 07 W/ 141 1332 9045 I吾乂單■兀_步驟3,對9045個最小完整語義單元進行漢語語義格初步識別。步驟3.1,特征選取。步驟3.1.1,將9045個最小完整語義單元均分為3等份,然后分別采取隨機森林算法進行識別,得到特征(包括詞法、句法和句義結(jié)構(gòu)特征,共50維)重要程度的排序信息,最后取3等份排序前20維特征的并集作為漢語語義格初步識別的基礎(chǔ)特征集,具體特征如表2所示。
表2漢語語義格初步識別的基礎(chǔ)特征集
權(quán)利要求
1.一種漢語語義格分層識別方法,其特征在于,所述方法包括以下步驟: 步驟1,為了進行語義分析,首先對大量漢語句子進行標注,形成訓練測試集A。
步驟2,獲取最小完整語義單元,形成訓練測試集B。
步驟3,進行漢語語義格初步識別。
步驟3.1,特征選取。
步驟3.2,根據(jù)步驟3.1選取的Kl維特征利用C4.5決策樹算法進行漢語語義格的初步識別。
步驟4,進行漢語語義格中基本格的精確識別。
步驟4.1,特征選取。
步驟4.2,根據(jù)步驟4.1選取的K2維特征采用C4.5決策樹算法和最大熵算法相結(jié)合的方法進行漢語語義格中基本格的識別。
步驟5,漢語語義格中一般格的精確識別。
步驟5.1,特征選取。
步驟5.2,根據(jù)步驟5.1選取的K3維特征采用C4.5決策樹算法進行漢語語義格中一般格的精確識別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,權(quán)利要求1中步驟I中采用ICTCLAS方法對文本進行分詞,并根據(jù)漢語語義學理論進行詞法和句法標注,分別得到詞法特征、句法特征和句義結(jié)構(gòu)特征信息 。詞法特征是分詞后得到的;句法特征是進行句法標注后概括得到的;句義結(jié)構(gòu)特征是進行句義結(jié)構(gòu)標注后概括得到的。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,權(quán)利要求1中步驟2中將所有的漢語句子進行分解,得到形如簡單句義句義結(jié)構(gòu)形式的最小完整語義單元,具體步驟包括:步驟1,獲取句義結(jié)構(gòu)的頂層句義類型標記Y={0,I, 2,3},其中Y=0、l、2、3分別代表該句子為簡單句義、復雜句義、復合句義、多重句義;將簡單句義類型的句子直接輸出,其他句子進入下一步處理。
步驟2,對非簡單句義類型進行從頂向下搜索,提取出句子中包含的簡單句義部分,輸出結(jié)果,并用一個標示符標記這個簡單句義,將其看作一個整體,化簡其上層句義結(jié)構(gòu)。
步驟3,重復步驟2,直到本句的句義結(jié)構(gòu)化簡為形如簡單句義的一層句義結(jié)構(gòu)形式時,結(jié)束對該句的最小完整語義單元的提取工作,輸出結(jié)果形成訓練測試集B。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟3.1、步驟4.1、步驟5.1所述的特征提取都是基于詞法特征、句法特征、句義結(jié)構(gòu)特征提取的,但是最后提取出的特征是不一樣的,其步驟包括: 步驟1,綜合詞法、句法和句義結(jié)構(gòu)特征共P維,利用隨機森林算法獲取基礎(chǔ)特征集。將訓練測試集B均分為F等份,然后分別采取隨機森林算法進行識別,得到特征(包括詞法、句法和句義結(jié)構(gòu)特征,共P維)重要程度的排序信息,最后取F等份排序前N維特征的并集作為語義格初步識別的NI維基礎(chǔ)特征集。
步驟2,首先,在步驟I得到的NI維特征基礎(chǔ)上逐個增加其他特征進行語義格的初步識另O,并記錄識別準確率;然后對識別結(jié)果進行比較,選擇識別準確率提高最大的作為新特征加入到基礎(chǔ)特征集中。
步驟3,重復步驟2直到識別準確率不再提高,最終分別得到所需特征。權(quán)利要求1中步驟3.1、步驟4.1、步驟5.1分別得到K1、K2、K3維特征。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟3、步驟4、步驟5所述的對漢語語義格進行初步識別后,再進行漢語語義格中基本格 和一般格的精確識別方法為:分別提取詞法、句法和句義結(jié)構(gòu)特征,選擇適合識別任務(wù)的特征;使用與識別任務(wù)相適應(yīng)的算法。
全文摘要
本發(fā)明涉及一種基于詞法、句法和句義結(jié)構(gòu)特征的漢語語義格分層識別方法,屬于計算機科學與自然語言處理技術(shù)領(lǐng)域。本發(fā)明在增加了句義結(jié)構(gòu)特征的基礎(chǔ)上,首先獲取最小完整語義單元;進而提取詞法、句法和句義結(jié)構(gòu)特征并使用C4.5決策樹算法進行漢語語義格的初步識別;然后選擇詞法、句法和句義特征并使用C4.5決策樹算法與最大熵算法相結(jié)合的方法實現(xiàn)漢語語義格中基本格的精確識別;最后再次選擇詞法、句法和句義特征并使用C4.5決策樹算法實現(xiàn)漢語語義格中一般格的精確識別。與現(xiàn)有語言分析技術(shù)相比,本發(fā)明為語義學自動分析自然語言提供了漢語語義格的自動識別,是實現(xiàn)自動語義分析的基礎(chǔ)。本發(fā)明可實現(xiàn)并行處理,能夠提高計算機處理效率。
文檔編號G06F17/27GK103150303SQ20131007401
公開日2013年6月12日 申請日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 孟強, 潘麗敏, 魏超, 韓磊 申請人:北京理工大學