專利名稱:一種高精度漢語謂詞識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于規(guī)則和統(tǒng)計相結(jié)合的漢語謂詞識別方法,屬于自然語言處理與機器學(xué)習(xí)領(lǐng)域。
背景技術(shù):
自然語言處理技術(shù)在詞法和句法上的研究已經(jīng)取得了重大進(jìn)展,相比較而言,對語義、語用和語境知識的研究一直是一個難以跨越的瓶頸。要想讓計算機真正的理解自然語言,語義分析是必經(jīng)之路。謂詞識別是進(jìn)行進(jìn)一步語義分析的基礎(chǔ),對于語義分析的后續(xù)工作起著關(guān)鍵性的作用,因此,高準(zhǔn)確率、高效率的謂詞識別方法尤其重要。漢語謂詞識別需要解決兩個基本問題:1.如何提取代表性強、區(qū)分度高的規(guī)則或者特征組合來約束或者表征謂詞;2.采用何種準(zhǔn)確率高、判定速度快的模型來識別謂詞。綜觀現(xiàn)有謂詞識別方法,主要是基于規(guī)則的方法和基于統(tǒng)計的方法,還有規(guī)則和統(tǒng)計相結(jié)合的方法。1.基于規(guī)則的方法規(guī)則的方法通常由語言學(xué)家基于語料和內(nèi)省的辦法構(gòu)造規(guī)則庫進(jìn)行自然語言處理,對于語言學(xué)的知識有很好的概括性和解釋性,但是因為規(guī)則的顆粒度大小、覆蓋面大小、規(guī)則間競爭沖突等問題很難把握,基于規(guī)則的方法有其瓶頸之處。主要的方法有:(I)面向基于實例的漢英機器翻譯系統(tǒng)(Example-Based Machine Translation,EBMT)的漢語謂詞識別:該方法提出了一種折中的漢語句子分析方法一骨架依存分析法,通過確定謂詞來把握句子的整體結(jié)構(gòu),提出了一種根據(jù)漢英例句集合中英語例句的謂詞來識別相應(yīng)的漢語例句的謂詞的策略。對例句集合中的3000漢語例句進(jìn)行謂詞的自動識別,識別準(zhǔn)確率達(dá)到87.3%。(2)面向科技論文的謂詞識別:該方法是針對科技論文這一特定文體的句法分析研究提出的謂詞識別,僅對動詞做中心謂詞(限于句子第一層的謂詞)的情況進(jìn)行了識別,沒有給出實驗的具體識別準(zhǔn)確率。其識別的基本步驟為:1)按照字典對句子(以句號結(jié)尾)進(jìn)行分詞,將具有動詞性質(zhì)的詞放入集合D中;2)若D為空則給出錯誤信息;若D中只有一個元素則用一部分規(guī)則判斷,然后轉(zhuǎn)入句法分析;否則轉(zhuǎn)入第三步;3)運用另一部分規(guī)則刪去D中不屬于中心謂詞的動詞,若D為空則給出錯誤信息;否則轉(zhuǎn)入第四步;4)運用剩余的規(guī)則找出中心謂詞。(3)利用主語和謂語的句法關(guān)系識別謂詞:在利用謂詞候選項的靜態(tài)語法特征和動態(tài)語法特征來識別謂詞的基礎(chǔ)上,提出了一種利用句子的主語和謂語之間句法關(guān)系來識別謂詞的方法。該方法的具體步驟為:1)根據(jù)詞性選擇出主語的初始候選項和謂詞的初始候選項;2)根據(jù)在訓(xùn)練集中習(xí)得的特征對謂詞候選項進(jìn)行進(jìn)一步篩選,將一些可以成為主語的謂詞候選項歸入主語候選項的集合;3)對主語候選項進(jìn)行一定的連接,使句子的結(jié)構(gòu)更加清晰,并為下一步判別句子的類型做準(zhǔn)備;4)判別句子的類型,并根據(jù)結(jié)果選擇出謂詞候選項所具有的句法特征;5)將謂詞候選項具有的特征組織并計算,計算得出的值作為度量謂詞候選項的標(biāo)準(zhǔn)。經(jīng)過測試,謂詞的識別準(zhǔn)確率達(dá)到了 91.3%(開放測試中的結(jié)果)。(4)面向數(shù)據(jù)分析的謂詞識別:該方法提出面向事件描述小句的漢語自動句法分析的方法和步驟,在句法分析之前對真實語料進(jìn)行小句劃分的預(yù)處理,預(yù)處理階段采用一種基于謂詞識別和規(guī)則方法,將漢語句子分割成多個事件描述小句;然后基于DOP對漢語事件描述小句進(jìn)行句法分析;最后通過組合處理實現(xiàn)完整句子的句法分析。該方法的好處是可以將句法分析的任務(wù)分步處理,將詞數(shù)較多的復(fù)雜句簡單化,從而提高句法分析的速度和精度。謂詞識別是作為事件描述小句識別的一部分開展的。該方法基于CIPS-ParsEval-2009提供的171篇TCT訓(xùn)練語料,對動詞、形容詞做謂詞的情況均進(jìn)行了識另U,取得了 89.94%的識別準(zhǔn)確率。2.基于統(tǒng)計的方法(I)基于統(tǒng)計決策樹模型(Statistical Decision Tree,簡稱SDT)的謂詞識別:SDT是一個決策機制,它根據(jù)一系列特征來為每一個可能的選擇賦予一個概率值P (f |h)。其中,h表示一系列特征,f為當(dāng)前做出的選擇。概率值P(f|h)由前η個特征提問序列ql,q2,…,qn來決定。其中,第i個特征提問僅與前i_l個特征提問有關(guān),內(nèi)部結(jié)點是提問結(jié)點,一個提問結(jié)點表示對一個特征的提問,從該結(jié)點延伸的樹枝代表該特征可能的取值,葉結(jié)點是選擇結(jié)點,表示符合從根結(jié)點到該葉結(jié)點的路徑上所有特征的詞的分類(這里的分類包括候選詞是謂詞和候選詞不是謂詞兩類),并且葉結(jié)點作出的選擇是以概率的形式表示的。識別某個例句的謂詞就是在所有的葉結(jié)點中找出概率最大的那一個作為謂詞。應(yīng)用SDT對動詞和形容詞做謂詞的情況進(jìn)行識別,閉集測試識別準(zhǔn)確率最高可達(dá)81.3%,開集測試準(zhǔn)確率最高可達(dá)78.6%。(2)基于支持向量機(Support Vector Machine,簡稱SVM)的謂詞識別:SVM方法是建立在統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以求獲得最好的推廣能力。使用SVM方法,將BFS-CTC語料庫中1510個句子作為實驗數(shù)據(jù),采用十折交叉驗證法得到的單模板和多模版謂詞識別準(zhǔn)確率分別為88.21%和 88.75%。 (3)基于最大熵模型的謂詞識別:最大熵模型是最大熵分類器的理論基礎(chǔ),其基本思想是為所有已知的因素建立模型,而把所有未知的因素排除在外。最大熵模型的一個最顯著的特點是其不要求特征具有條件獨立性,因此,人們可以相對任意地加入對最終分類有用的特征,而不用顧及它們之間是否會相互影響。另外,相對SVM等基于空間距離的分類方法.最大熵模型能夠較為容易地對多類分類問題進(jìn)行建模,并且給各個類別輸出一個相對客觀的概率分布結(jié)果,便于后續(xù)推理步驟使用。上述優(yōu)點使其成功應(yīng)用于信息抽取、句法分析等多個自然語言處理領(lǐng)域。(4)基于統(tǒng)計概率模型的謂詞識別:首先根據(jù)句中詞的語法屬性,確定謂詞候選集,通過極大似然估計對謂詞候選詞在句中充當(dāng)謂詞的概率進(jìn)行近似計算,謂詞自動識別的過程相當(dāng)于根據(jù)候選詞的當(dāng)前語境特征選擇一個概率最大的候選詞的過程,利用絕對折扣模型對參數(shù)進(jìn)行平滑。實驗在一個有3000個句子的中文樹庫上進(jìn)行,樹庫中的每個句子都人工標(biāo)注了句法成分。實驗顯示,謂詞識別率最高分別達(dá)到了 80.6% (動詞性謂詞)和83.2% (形容詞性謂詞)。
(5)基于模糊關(guān)系矩陣的謂詞識別:該方法設(shè)計出一種漢語語法規(guī)則,通過系統(tǒng)學(xué)習(xí),自動建立模糊關(guān)系矩陣以識別漢語中的謂詞,不僅對動詞、形容詞做謂詞的情況進(jìn)行識別,還對名詞做謂詞的情況進(jìn)行了識別,不過三者不是分開進(jìn)行,而是利用同一套方法識另O。謂詞識別的原理是:對于一個句子,首先對這個句子進(jìn)行分詞,得到這個句子的詞語集合W ;其次對W進(jìn)行謂詞識別預(yù)處理,如對明顯不能做謂詞的詞語排除,得到一個準(zhǔn)謂詞集合,以及提取準(zhǔn)謂詞的靜態(tài)特征和環(huán)境特征因素集;然后把準(zhǔn)謂詞集合與因素集合統(tǒng)一建立起模糊矩陣,使之與特征權(quán)值矩陣相乘,可得一個一階矩陣,取其最大元素的下標(biāo)對應(yīng)的準(zhǔn)謂詞就是句子的謂詞。3.規(guī)則與統(tǒng)計相結(jié)合的方法羅振聲等(2003)提出了一種規(guī)則和特征學(xué)習(xí)相結(jié)合的謂語識別方法,將整個過程分為語片捆綁、謂詞粗篩選和謂詞精篩選三個階段。在謂詞粗篩選中,利用規(guī)則過濾掉明顯不能充當(dāng)謂詞的詞,得到一個準(zhǔn)謂詞集;在精篩選階段,選擇謂詞的支持特征,根據(jù)統(tǒng)計計算得到每個特征對謂詞的支持度,然后利用準(zhǔn)謂詞在句子中的上下文出現(xiàn)的特征對準(zhǔn)謂詞集中的詞進(jìn)行再次篩選,從而確定出句子的謂詞,該方法采用H.Ney和U.Essen提出的線性減值法來處理數(shù)據(jù)稀疏問題。實驗所用的統(tǒng)計和測試語料主要選自新浪網(wǎng)的新聞文本,共50篇文章,1951個句子,約36910個詞。在封閉測試中系統(tǒng)識別準(zhǔn)確率約在88%左右,在開放測試中識別率在85%左右。總結(jié)以上幾種謂詞識別方法可以得出:(I)各種方法得到的謂詞識別準(zhǔn)確率一般不超過90%,準(zhǔn)確率還有很大的提升空間;(2)謂詞識別用的特征大部分僅使用了詞法特征,很少使用到其他更高級的特征;(3)大部分方法僅對動詞性謂詞進(jìn)行了識別,對于形容詞和習(xí)用語等其他詞性作謂詞的情況研究較少。
發(fā)明內(nèi)容
本發(fā)明的目的是為解決謂詞高精度高效率識別問題,提出一種基于規(guī)則和統(tǒng)計相結(jié)合的漢語謂詞識別方法,即采用規(guī)則初步判定和決策樹判定模型二次判定兩個層次進(jìn)行判定,將兩次判定結(jié)果進(jìn)行綜合,最終得到謂詞識別結(jié)果。本發(fā)明的設(shè)計原理為:采用分步識別的方法,從已進(jìn)行詞法和句法標(biāo)注的句子中識別出謂詞,首先對待測句子進(jìn)行詞法分析,得到可疑謂詞(可能為謂詞的詞)及其個數(shù);接著利用可疑謂詞個數(shù)是否為I等判定條件進(jìn)行初步謂詞識別;其次對不滿足初步識別判定條件的可疑謂詞,提取相關(guān)詞法和句法特征并利用C4.5算法訓(xùn)練得到的決策樹判定模型對其進(jìn)行謂詞識別;最終匯總兩步識別結(jié)果給出每個待測句子中的謂詞。具體的漢語謂詞識別原理圖如圖1所示。本發(fā)明的技術(shù)方案包括訓(xùn)練和識別兩個過程具體實現(xiàn)步驟如下:步驟1,對已進(jìn)行詞法和句法標(biāo)注的句子中的詞進(jìn)行詞性分析,統(tǒng)計出每個句子中的可疑謂詞及其個數(shù)。由于在漢語中,具有某些詞性的詞,如介詞、助詞、代詞等,它們無法充當(dāng)謂詞或者只在極少的情況下充當(dāng)謂詞,因此,為了提高算法效率,并且不影響識別效果,首先對句子中的每個詞進(jìn)行詞性分析,不可能作為謂詞的詞,則不對其進(jìn)行特征提取及識別,僅對可疑謂詞進(jìn)行下一步處理。所述的句子在訓(xùn)練過程中指的是訓(xùn)練句子,在識別過程中指的是待測句子。
步驟2,在步驟I的基礎(chǔ)上,對標(biāo)注語料進(jìn)行特征提取和訓(xùn)練最終得到?jīng)Q策樹判定模型,該步驟分為特征提取和采用C4.5算法訓(xùn)練決策樹兩個步驟。所述的標(biāo)注語料指的是具有謂詞標(biāo)記的語料,具體過程如下:步驟2.1,訓(xùn)練階段的特征提取輸入的是經(jīng)過詞法、句法標(biāo)注的訓(xùn)練句子以及步驟I得到的可疑謂詞及其個數(shù),用人工形式總結(jié)歸納出相關(guān)的初始詞法、句法特征,再通過特征篩選實驗得到訓(xùn)練句子的最終詞法、句法特征及謂詞標(biāo)記。所述的特征篩選實驗的目的是將無用的特征或作用較小的特征去除,最終選出最優(yōu)的特征組合(或特征子集),特征子集選擇問題,就是找到原始特征集合的一個簡潔子集,使得機器學(xué)習(xí)算法在僅包含這個子集中特征的數(shù)據(jù)集合上運行后,產(chǎn)生一個盡可能高精確度的分類器。因此,特征子集選擇的關(guān)鍵是找到一個簡潔且優(yōu)良的特征子集。具體步驟如下:步驟2.1.1,去除單個特征,記錄識別結(jié)果,并按照識別效果從高到低排序。步驟2.1.2,識別效果越好說明去除的特征對于特征組合的貢獻(xiàn)越小,所以按照步
2.1.1的排序結(jié)果,根據(jù)識別效果從高到低依次去除特征,利用剩下特征進(jìn)行測試。步驟2.2,C4.5算法訓(xùn)練決策樹過程是將步驟2.1得到的詞法、句法特征以及謂詞標(biāo)記,輸入到C4.5算法進(jìn)行訓(xùn)練,最終得到謂詞決策樹判定模型。步驟2.2.1,所述的C4.5算法是一種重要的機器學(xué)習(xí)算法,是ID3算法的一種改進(jìn)算法,其優(yōu)點是:產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。具體的算法流程如下:1.創(chuàng)建節(jié)點N,如果訓(xùn)練集為空,在返回節(jié)點N標(biāo)記為失敗,如果訓(xùn)練集中的所有記錄都屬于同一個類別,則以該類別標(biāo)記節(jié)點N ;2.如果候選屬性為空,則返回N作為葉節(jié)點,標(biāo)記為訓(xùn)練集中最普通的類;3.對每一個候選屬性如果是聯(lián)系的就對該屬性進(jìn)行離散化;4.選擇候選屬性中具有最高信息增益的屬性D,標(biāo)記節(jié)點N為屬性D,對每一個屬性D的一致值d,由節(jié)點N長出一個條件為D=d的分支;5.設(shè)s是訓(xùn)練集中D=d的訓(xùn)練樣本的集合,如果s為空,則加上一個樹葉,標(biāo)記為訓(xùn)練集中最普通的類,否則加上一個有C4.5 (R_{D},C,s)返回的點。步驟2.2.2,本發(fā)明采用的是C4.5算法訓(xùn)練決策樹,需要針對C4.5算法進(jìn)行參數(shù)選取。對于C4.5算法,需要調(diào)整的參數(shù)主要有裁剪比例confidenceFactor和最小分支支撐事例數(shù)minNumObj。參數(shù)選擇實驗具體方法是:將裁剪比例和最小分支支撐事例數(shù)分別按一定大小步長取值,根據(jù)相應(yīng)的取值得到謂詞識別準(zhǔn)確率、召回率和F值,最好的識別結(jié)果所對應(yīng)的參數(shù)即為最終的參數(shù)。步驟3,訓(xùn)練過程結(jié)束后是識別過程,包括初步識別、特征提取和謂詞判定三個步驟,具體步驟為:步驟3.1,初步識別過程輸入的是步驟I得到的可疑謂詞及其個數(shù)以及經(jīng)過詞法、句法標(biāo)注的待測句子,利用相關(guān)的判定條件對可疑謂詞進(jìn)行初步識別,符合判定條件的直接給出識別結(jié)果,不符合判定條件的則進(jìn)行下一步特征提取操作。該步驟使用了基于規(guī)則的方法進(jìn)行謂詞的初步識別。所述的判定條件是:
1、可疑謂詞的個數(shù)如果為1,則該可疑謂詞為謂詞。該判定條件基于一個約定:任何完整的句子必定含有至少一個謂詞。2、可疑謂詞為動詞“是”且處于“是……的”結(jié)構(gòu)中,則判斷該可疑謂詞為非謂詞。3、可疑謂詞為“掉、完、完畢”且緊跟在一個動詞之后,則判斷其為非謂詞。4、可疑謂詞為“來說、說、來講、講、而言”且處在介詞“對” “就” “從”之后構(gòu)成介詞性短語,則判斷其為非謂詞。步驟3.2,識別過程的特征提取輸入的是經(jīng)過詞法和句法標(biāo)注的待測句子以及不符合初步識別判定條件的句子,輸出的是相應(yīng)可疑謂詞的詞法、句法特征。所述的特征即表I所列特征。步驟3.3,謂詞判定過程輸入的是特征提取步驟3.2得到的特征和步驟2.2得到的決策樹判定模型,輸出的是可疑謂詞的判定結(jié)果,即是否為謂詞。有益效果相比于基于規(guī)則的漢語謂詞識別方法,本發(fā)明采用的基于規(guī)則和統(tǒng)計相結(jié)合的方法具有準(zhǔn)確率高、對非動詞性謂詞識別率高等特點。經(jīng)過特征篩選和參數(shù)選取,在保證高準(zhǔn)確率的前提下本發(fā)明具有較高的識別效率和較小的計算消耗。與最大熵、SVM等機器學(xué)習(xí)方法相比,本發(fā)明采用“規(guī)則判定+C4.5決策樹判定”的方法實現(xiàn)謂詞最終識別,具有更快的識別速率和更高的識別準(zhǔn)確率,并可識別動詞以外的其他詞性的謂詞,具有很好的應(yīng)用價值和推廣價值。
圖1為本發(fā)明的謂詞識別方法原理圖;圖具體實施方式
中BFS-CTC的一個句子標(biāo)注實例;圖具體實施方式
中BFS-CTC標(biāo)注語料庫中的一個句法樹標(biāo)注實例;圖4為具體實施方式
中頂端dj到首動詞路徑示意圖;圖5為具體實施方式
中依次去除特征后的識別結(jié)果;圖6為具體實施方式
中謂詞識別準(zhǔn)確率隨數(shù)據(jù)量遞增結(jié)果,橫軸以3,000為步長將21,422條待測數(shù)據(jù)分為7份(最后一份為3,422條數(shù)據(jù)),然后從3,000條數(shù)據(jù)開始,每次增加3,000條數(shù)據(jù),每一個點分別得到識別結(jié)果。
具體實施例方式為了更好的說明本發(fā)明的目的和優(yōu)點,下面結(jié)合附圖和實施例對本發(fā)明方法的實施方式做進(jìn)一步詳細(xì)說明。為了高效高精度識別謂詞,設(shè)計并部署了謂詞識別實驗。為了使用少量的特征實現(xiàn)更好的識別結(jié)果,去除相互制約以及會降低準(zhǔn)確率的特征,得到最優(yōu)的特征組合首先要進(jìn)行特征篩選實驗;為了在相同的特征和算法下取得最好的識別結(jié)果,需要對算法的參數(shù)進(jìn)行優(yōu)化,所以還要進(jìn)行參數(shù)選擇實驗。實驗數(shù)據(jù)來自于BFS-CTC漢語標(biāo)注語料庫(Bei jing Forest Studio-ChineseTag Corpus)ο相比于目前在漢語語義角色標(biāo)注領(lǐng)域主要使用的CPB語料庫(ChineseProposition Bank), BFS-CTC中的語料增加了對句子句義類型的標(biāo)注,并且提供了完整的語義角色標(biāo)注以及各句義成分之間的組合關(guān)系。BFS-CTC由北京理工大學(xué)信息安全與對抗技術(shù)實驗室自行開發(fā),其原始語料來源于新聞?wù)Z料中的句子(如Sohu、Sina、人民日報等),所有的句子均經(jīng)過了詞法、句法、句義結(jié)構(gòu)的標(biāo)注。其中,詞法標(biāo)注集采用北京大學(xué)的詞性標(biāo)注規(guī)范;句法標(biāo)注集采用北京大學(xué)計算語言學(xué)研究所規(guī)范;句義結(jié)構(gòu)標(biāo)注集則依據(jù)賈彥德先生的漢語語義學(xué)理論制定,定義了句義類型(4種,包括簡單句義、復(fù)雜句義、復(fù)合句義、多重句義)、語義格類型(基本格7種,如施事格、受事格等,一般格11種,如時間格、空間格等)、謂詞類型(4種,包括O目、I目、2目、多目)、謂詞時態(tài)(3種,包括過去時、現(xiàn)在時、將來時)等,并規(guī)范了漢語句義成分之間的關(guān)系。目前BFS-CTC的規(guī)模為10,021句,約92,000詞,涵蓋了漢語中的主謂句、非主謂句、把字句、被字句、連動句、兼語句等各種句式。圖2是BFS-CTC的一個句子標(biāo)注實例。實驗采用BFS-CTC中10021個句子,總詞性選擇后共有24231個待測詞,其中謂詞16029個,非謂詞8202個。實驗以單個類別的準(zhǔn)確率(Precision)、召回率(recall)、F值(F-Score)及整體準(zhǔn)確率(Precision。作為評價指標(biāo)。假設(shè)類別A,其準(zhǔn)確率、召回率、F值計算方法如式(I)、式(2)、式(3)所示。
權(quán)利要求
1.高精度漢語謂詞識別方法,其特征在于:采用分步識別的方法,首先對待測句子進(jìn)行詞法分析,得到可疑謂詞及其個數(shù);接著利用可疑謂詞個數(shù)是否為I等判定條件進(jìn)行初步謂詞識別;其次對不滿足初步識別判定條件的可疑謂詞,提取相關(guān)詞法和句法特征并利用C4.5算法訓(xùn)練得到的決策樹判定模型對其進(jìn)行謂詞識別;最終匯總兩步識別結(jié)果給出每個待測句子中的謂詞。本發(fā)明不僅能夠進(jìn)一步提升謂詞識別準(zhǔn)確率,還可以有效減少訓(xùn)練和識別的時間開銷,并且對非動詞作謂詞的情況也能有效識別。包括如下步驟: 步驟1,對已進(jìn)行詞法和句法標(biāo)注的句子中的詞進(jìn)行詞性分析,統(tǒng)計出每個句子中的可疑謂詞及其個數(shù)。由于在漢語中,具有某些詞性的詞,如介詞、助詞、代詞等,它們無法充當(dāng)謂詞或者只在極少的情況下充當(dāng)謂詞。因此,為了提高算法效率,并且不影響識別效果,首先對句子中的每個詞進(jìn)行詞性分析,不可能作為謂詞的詞,則不對其進(jìn)行特征提取及識別。僅對可能成為謂詞的詞(可疑謂詞)進(jìn)行下一步處理。所述的句子在訓(xùn)練過程中指的是訓(xùn)練句子,在識別過程中指的是待測句子。 步驟2,在步驟I的基礎(chǔ)上,對標(biāo)注語料進(jìn)行特征提取和訓(xùn)練最終得到?jīng)Q策樹判定模型,該步驟分為特征提取和C4.5算法訓(xùn)練決策樹兩個步驟。所述的標(biāo)注語料指的是具有謂詞標(biāo)記的語料,具體過程如下: 步驟2.1,訓(xùn)練階段的特征提取輸入的是經(jīng)過詞法、句法標(biāo)注的訓(xùn)練句子以及步驟I得到的可疑謂詞及其個數(shù),用人工形式總結(jié)歸納出相關(guān)的初始詞法、句法特征,再通過特征篩選實驗得到訓(xùn)練句子的最終詞法、句法特征及謂詞標(biāo)記。
所述的特征篩選實驗的目的是將無用的特征或作用較小的特征去除,最終選出最優(yōu)的特征組合(或特征子集),特征子集選擇問題,就是找到原始特征集合的一個簡潔子集,使得機器學(xué)習(xí)算法在僅包含這個子集中特征的數(shù)據(jù)集合上運行后,產(chǎn)生一個盡可能高精確度的分類器。因此,特征子集選擇的關(guān)鍵是找到一個簡潔且優(yōu)良的特征子集。具體步驟如下:步驟2.1.1,去除單個特征,記錄識別結(jié)果,并按照識別效果從高到低排序。
步驟2.1.2,識別效果越好說明去除的特征對于特征組合的貢獻(xiàn)越小,所以按照步.2.1.1的排序結(jié)果,根據(jù)識別效果從高到低依次去除特征,利用剩下特征進(jìn)行測試。
步驟2.2,C4.5算法訓(xùn)練決策樹過程是將步驟2.1得到的詞法、句法特征以及謂詞標(biāo)記,輸入到C4.5算法進(jìn)行訓(xùn)練,最終得到謂詞決策樹判定模型。
步驟2.2.1,所述的C4.5算法是一種重要的機器學(xué)習(xí)算法,是ID3算法的一種改進(jìn)算法,其優(yōu)點是:產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。具體的算法流程如下:1.創(chuàng)建節(jié)點N,如果訓(xùn)練集為空,在返回節(jié)點N標(biāo)記為失敗,如果訓(xùn)練集中的所有記錄都屬于同一個類別,則以該類別標(biāo)記節(jié)點N ;2.如果候選屬性為空,則返回N作為葉節(jié)點,標(biāo)記為訓(xùn)練集中最普通的類;3.對每一個候選屬性如果是聯(lián)系的就對該屬性進(jìn)行離散化;4.選擇候選屬性中具有最高信息增益的屬性D,標(biāo)記節(jié)點N為屬性D,對每一個屬性D的一致值d,由節(jié)點N長出一個條件為D=d的分支;5.設(shè)s是訓(xùn)練集中D=d的訓(xùn)練樣本的集合,如果s為空,則加上一個樹葉,標(biāo)記為訓(xùn)練集中最普通的類,否則加上一個有C4.5 (R_{D},C,s)返回的點。 步驟2.2.2,本發(fā)明采用的是C4.5算法訓(xùn)練決策樹,需要針對C4.5算法進(jìn)行參數(shù)選取。對于C4.5算法,需要調(diào)整的參數(shù)主要有裁剪比例confidenceFactor和最小分支支撐事例數(shù)minNumObj。參數(shù)選擇實驗具體方法是:將裁剪比例和最小分支支撐事例數(shù)分別按一定大小步長取值,根據(jù)相應(yīng)的取值得到謂詞識別準(zhǔn)確率、召回率和F值,最好的識別結(jié)果所對應(yīng)的參數(shù)即為最終的參數(shù)。
步驟3,訓(xùn)練過程結(jié)束后是識別過程,包括初步識別、特征提取和謂詞判定三個步驟,具體步驟為: 步驟3.1,初步識別過程輸入的是步驟I得到的可疑謂詞及其個數(shù)以及經(jīng)過詞法、句法標(biāo)注的待測句子,利用相關(guān)的判定條件對可疑謂詞進(jìn)行初步識別,符合判定條件的直接給出識別結(jié)果,不符合判定條件的則進(jìn)行下一步特征提取操作。該步驟使用了基于規(guī)則的方法進(jìn)行謂詞的初步識別。
所述的判定條件是: (1)可疑謂詞的個數(shù)如果為1,則該可疑謂詞為謂詞。該判定條件基于一個約定:任何完整的句子必定含有至少一個謂詞。
(2)可疑謂詞為動詞“是”且處于“是……的”結(jié)構(gòu)中,則判斷該可疑謂詞為非謂詞。
(3)可疑謂詞為“掉、完、完畢”且緊跟在一個動詞之后,則判斷其為非謂詞。
(4)可疑謂詞為“來說、說、來講、講、而言”且處在介詞“對”“就” “從”之后構(gòu)成介詞性短語,則判斷其為非謂詞。
步驟3.2,識別過程的特征提取輸入的是經(jīng)過詞法和句法標(biāo)注的待測句子以及不符合初步識別判定條件的句子,輸出的是相應(yīng)可疑謂詞的詞法、句法特征。
步驟3.3,謂詞 判定過程輸入的是特征提取步驟3.2得到的特征和步驟2.2得到的決策樹判定模型,輸出的是可疑謂詞的判定結(jié)果,即是否為謂詞。
2.根據(jù)權(quán)利要求1所述的高精度漢語謂詞識別方法,其特征在于:步驟I對已進(jìn)行詞法、句法標(biāo)注的句子進(jìn)行詞性分析,統(tǒng)計可疑謂詞和可疑謂詞的個數(shù),去掉介詞、助詞、代詞等無法充當(dāng)謂詞或者只在極少的情況下充當(dāng)謂詞的詞,為下一步進(jìn)行初步判定和最終判定做準(zhǔn)備。
3.根據(jù)權(quán)利要求1所述的高精度漢語謂詞識別方法,其特征在于:步驟2.1所采用的特征如表I所示,這些特征包含詞法特征和句法特征,其中句法特征是建立在BFS-CTC句法標(biāo)規(guī)范之上的,這些特征具有很好的代表性和很高的區(qū)分度,在具體實施方式
中進(jìn)行特征篩選以獲得最優(yōu)特征組合。
4.根據(jù)權(quán)利要求1所述的高精度漢語謂詞識別方法,其特征在于:步驟2.2中所述的訓(xùn)練過程采用C4.5算法訓(xùn)練決策樹判定模型,利用了 C4.5算法產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高的優(yōu)點。
5.根據(jù)權(quán)利要求1所述的高精度漢語謂詞識別方法,其特征在于:步驟3.1所述的初步識別過程是利用相關(guān)的判定條件對步驟I得到的可疑謂詞及其個數(shù)以及經(jīng)過詞法、句法標(biāo)注的待測句子,進(jìn)行可疑謂詞初步識別,符合判定條件的直接給出識別結(jié)果,不符合判定條件的則進(jìn)行下一步特征提取操作。所述的判定條件是: (1)可疑謂詞的個數(shù)如果為1,則該可疑謂詞為謂詞。該判定條件基于一個約定:任何完整的句子必定含有至少一個謂詞。
(2)可疑謂詞為動詞“是”且處于“是……的”結(jié)構(gòu)中,則判斷該可疑謂詞為非謂詞。
(3)可疑謂詞為“掉、完、完畢”且緊跟在一個動詞之后,則判斷其為非謂詞。
(4)可疑謂詞為“來說、說、來講、講、而言”且處在介詞“對”“就” “從”之后構(gòu)成介詞性短語,則判斷其為非謂詞。
6.根據(jù)權(quán)利要求1所述的高精度漢語謂詞識別方法,其特征在于:步驟3.2識別過程的特征提取輸入的是經(jīng)過詞法和句法標(biāo)注的待測句子以及不符合初步識別判定條件的句子,輸出的是相應(yīng) 可疑謂詞的詞法、句法特征。
全文摘要
本發(fā)明涉及一種基于規(guī)則和統(tǒng)計相結(jié)合的謂詞識別方法,屬于自然語言處理與機器學(xué)習(xí)領(lǐng)域,目的是為解決謂詞高精度高效率識別問題。本發(fā)明采用分步識別方法,從已進(jìn)行詞法和句法標(biāo)注的句子中識別謂詞,首先對待測句子進(jìn)行詞法分析,得到可疑謂詞及其個數(shù);接著利用初步識別判定條件進(jìn)行謂詞初步識別;對不滿足初步識別判定條件的可疑謂詞提取相關(guān)詞法和句法特征并利用C4.5訓(xùn)練得到的決策樹判定模型對其進(jìn)行判定;最終匯總兩步識別結(jié)果給出每個待測句子中的謂詞。本發(fā)明具有準(zhǔn)確率高、識別速度快、對非動詞性謂詞識別率高等特點,適用于要求高精度的漢語謂詞識別領(lǐng)域,對句義分析的發(fā)展具有很大的推動作用,具有很好的應(yīng)用價值和推廣價值。
文檔編號G06F17/28GK103150381SQ201310080760
公開日2013年6月12日 申請日期2013年3月14日 優(yōu)先權(quán)日2013年3月14日
發(fā)明者羅森林, 白建敏, 潘麗敏, 韓磊, 魏超 申請人:北京理工大學(xué)