本發(fā)明涉及一種基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法,屬于自然語(yǔ)言處理
技術(shù)領(lǐng)域:
。
背景技術(shù):
:謂語(yǔ)動(dòng)詞的識(shí)別在機(jī)器翻譯、句法分析、信息抽取中扮演著很重要的角色。在句子分析中,主語(yǔ)、謂語(yǔ)、賓語(yǔ)是句子的主干,而謂語(yǔ)是主語(yǔ)和賓語(yǔ)產(chǎn)生聯(lián)系的關(guān)鍵。故謂語(yǔ)動(dòng)詞可謂是句子的核心所在。例如,依存句法分析中,謂語(yǔ)動(dòng)詞便是放在樹(shù)根的位置。同時(shí),一個(gè)句子的語(yǔ)義主要是由其核心謂語(yǔ)動(dòng)詞所決定的。因此,高效準(zhǔn)確的謂語(yǔ)動(dòng)詞識(shí)別方法更加凸顯它的重要性。語(yǔ)言學(xué)家喬姆斯基證明了世界上實(shí)際只有一種人類(lèi)語(yǔ)言。而且,多年前就有人提出世界上所有語(yǔ)言必屬于三種類(lèi)型(SVO、SOV以及VSO)之一,例如漢語(yǔ)、英語(yǔ)語(yǔ)種屬于SVO類(lèi)型,日語(yǔ)語(yǔ)種屬于SOV類(lèi)型,但句子成分都離不開(kāi)主謂賓的主干成分。那么,世界上肯定有一種通用的識(shí)別模型,這種模型在針對(duì)一般自然語(yǔ)言上也一定會(huì)抓住其共性,把所需要的特征提取出來(lái)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供了一種基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法,以用于提高一般自然語(yǔ)言中的謂語(yǔ)動(dòng)詞識(shí)別的高效性和精確度。該方法不僅通過(guò)詞性標(biāo)注,過(guò)濾處理和疑似動(dòng)詞識(shí)別來(lái)提高識(shí)別謂語(yǔ)動(dòng)詞的高效性,而且通過(guò)給定的句法特性和φ2統(tǒng)計(jì)法提高識(shí)別謂語(yǔ)動(dòng)詞搭配組的精確性。本發(fā)明的技術(shù)方案是:一種基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法,首先對(duì)輸入的待測(cè)句子進(jìn)行預(yù)處理分析,具體包括:判定語(yǔ)種、詞性標(biāo)注、對(duì)應(yīng)的過(guò)濾處理和疑似動(dòng)詞抽?。黄浯?,進(jìn)行疑似謂語(yǔ)動(dòng)詞的排查,通過(guò)句法特性甄別出疑似動(dòng)詞中的謂語(yǔ)動(dòng)詞;接著判斷該動(dòng)詞是否以動(dòng)詞搭配組的情況出現(xiàn),這里利用φ2統(tǒng)計(jì)法來(lái)判斷動(dòng)詞搭配組的真?zhèn)?;最后根?jù)識(shí)別結(jié)果輸出所測(cè)句子的謂語(yǔ)動(dòng)詞或是謂語(yǔ)動(dòng)詞搭配組信息。所述基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法的具體步驟如下:Step1、對(duì)待測(cè)句子進(jìn)行預(yù)處理分析:輸入句子,通過(guò)文本語(yǔ)種識(shí)別工具判定語(yǔ)種,使用詞性標(biāo)注工具對(duì)句子中的詞逐個(gè)進(jìn)行詞性標(biāo)注,然后對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞性,如語(yǔ)氣詞等進(jìn)行過(guò)濾處理,接下來(lái),根據(jù)詞性標(biāo)注結(jié)果抽取出疑似動(dòng)詞,若無(wú)疑似動(dòng)詞,則直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若有疑似動(dòng)詞,則進(jìn)行如下步驟Step2;通過(guò)詞性標(biāo)注,把不同類(lèi)別的詞區(qū)別開(kāi)來(lái),方便后續(xù)的疑似動(dòng)詞判別和不相關(guān)詞性(如語(yǔ)氣詞)的過(guò)濾。Step2、疑似謂語(yǔ)動(dòng)詞的排查:通過(guò)疑似謂語(yǔ)動(dòng)詞的形態(tài)分析和句法規(guī)則庫(kù)得到疑似謂語(yǔ)動(dòng)詞;這部分通過(guò)針對(duì)謂語(yǔ)動(dòng)詞的詞法句法特性分析來(lái)達(dá)到甄別謂語(yǔ)動(dòng)詞的目的,并為下一步的謂語(yǔ)動(dòng)詞搭配組識(shí)別做鋪墊。Step3、動(dòng)詞搭配組識(shí)別:將疑似謂語(yǔ)動(dòng)詞的詞找到后,分析該謂語(yǔ)動(dòng)詞是否是以動(dòng)詞搭配組的形式出現(xiàn),如果不是,則把該疑似謂語(yǔ)動(dòng)詞作為待測(cè)句子的謂語(yǔ)動(dòng)詞輸出,如果是,則進(jìn)行動(dòng)詞搭配組的識(shí)別,其中,利用φ2統(tǒng)計(jì)法來(lái)判別該動(dòng)詞搭配組的真?zhèn)?;通過(guò)φ2統(tǒng)計(jì)法來(lái)判別動(dòng)詞搭配組的真?zhèn)蔚姆椒?,這樣基于統(tǒng)計(jì)的方法結(jié)合計(jì)算機(jī)高效的計(jì)算能力,從而達(dá)到高效的識(shí)別出動(dòng)詞搭配組的真?zhèn)?,避免了基于?guī)則的識(shí)別方法帶來(lái)的繁瑣和規(guī)則與規(guī)則之間相互約束的局限。Step4、根據(jù)上述步驟,輸出所識(shí)別出待測(cè)句子的謂語(yǔ)動(dòng)詞或是謂語(yǔ)動(dòng)詞搭配組信息。所述步驟Step1中,對(duì)待測(cè)句子進(jìn)行詞性標(biāo)注、對(duì)應(yīng)的過(guò)濾處理和疑似動(dòng)詞抽取,其操作步驟如下:Step1.1、對(duì)輸入的待測(cè)句子通過(guò)文本語(yǔ)種識(shí)別工具判定語(yǔ)種,通過(guò)分詞工具進(jìn)行分詞并對(duì)切分出來(lái)的單詞標(biāo)注詞性;Step1.2、根據(jù)標(biāo)注的詞性判斷,若無(wú)疑似動(dòng)詞,則不進(jìn)行下面的一系列分析,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若存在疑似動(dòng)詞,則進(jìn)行步驟Step1.3;Step1.3、存在疑似動(dòng)詞,則對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞性,如語(yǔ)氣詞,部分副詞等進(jìn)行過(guò)濾處理,用于減輕句法分析負(fù)擔(dān),提高識(shí)別效率。所述步驟Step2中所述的疑似謂語(yǔ)動(dòng)詞排查,其具體步驟如下:Step2.1、若疑似謂語(yǔ)動(dòng)詞個(gè)數(shù)為1,則結(jié)合形態(tài)分析和句法規(guī)則庫(kù),對(duì)該疑似謂語(yǔ)動(dòng)詞是否在該句中作為謂語(yǔ)成分出現(xiàn)進(jìn)行甄別;若判斷出不是謂語(yǔ)動(dòng)詞,則流程不進(jìn)行下面的步驟,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若判斷出是謂語(yǔ)動(dòng)詞,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別;Step2.2、若疑似謂語(yǔ)動(dòng)詞個(gè)數(shù)超過(guò)1個(gè),則逐個(gè)對(duì)這些詞進(jìn)行形態(tài)分析,若可以判定,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別;若不能判定,則利用句法規(guī)則庫(kù)進(jìn)行判定,若判斷出不是謂語(yǔ)動(dòng)詞,則流程不進(jìn)行下面的步驟,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息,若判斷出是謂語(yǔ)動(dòng)詞,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別。例如,英語(yǔ)中比較句中出現(xiàn)的助動(dòng)詞(如do、will、would等)和這些動(dòng)詞的正向距離大小判定最有可能是謂語(yǔ)動(dòng)詞角色的詞,通過(guò)判定則轉(zhuǎn)入Step3步驟中的動(dòng)詞搭配組識(shí)別。所述步驟Step3中所述的動(dòng)詞搭配組識(shí)別,判別該動(dòng)詞是否以動(dòng)詞搭配組的形式在該句子中展現(xiàn),具體是:Step3.1、若初步判定是二元?jiǎng)釉~搭配組,則再通過(guò)詞語(yǔ)窗口,窗口長(zhǎng)度視不同語(yǔ)種而定,判斷該二元?jiǎng)釉~搭配組后面是否有與之搭配的詞出現(xiàn),若有,則通過(guò)φ2統(tǒng)計(jì)法來(lái)判別該動(dòng)詞搭配的真?zhèn)?;若無(wú),則將該二元?jiǎng)釉~搭配組中的動(dòng)詞作為待測(cè)句子最終的謂語(yǔ)動(dòng)詞進(jìn)行輸出;Step3.2、若初步判定是三元?jiǎng)釉~搭配組或是更多元的動(dòng)詞搭配組,再通過(guò)將其匹配多元?jiǎng)釉~搭配庫(kù)的形式進(jìn)行真?zhèn)闻袆e。詳細(xì)的φ2統(tǒng)計(jì)法用于判定動(dòng)詞搭配組真?zhèn)蔚姆椒ㄈ缦拢罕?對(duì)于兩個(gè)詞w1和w2,建立關(guān)聯(lián)表如下:w2!w2∑w1aba+b!w1cdc+d∑a+cb+da+b+c+d上表中,a表示詞w1、w2出現(xiàn)的次數(shù),b表示不在詞w1、w2中的w1的出現(xiàn)次數(shù),c表示不在詞w1、w2中的w2的出現(xiàn)次數(shù),d表示既不是w1又不是w2的詞的次數(shù),a+b是w1出現(xiàn)的總詞數(shù),c+d是非w1的總詞數(shù),a+c是w2的出現(xiàn)詞數(shù),b+d是非w2的總詞數(shù),N=a+b+c+d表示語(yǔ)料庫(kù)中的總詞數(shù)。根據(jù)上面的聯(lián)立表,φ2統(tǒng)計(jì)量定義公式如下公式(1):φ2=(a×d-b×c)2(a+b)×(a+c)×(b+d)×(c+d)---(1)]]>當(dāng)a=0時(shí),φ2近于0,即當(dāng)w1和w2從不共現(xiàn)時(shí),φ2取極小值。當(dāng)b=c=0時(shí),φ2=1,即當(dāng)w1和w2總是共現(xiàn)時(shí),φ2取極大值。φ2值越大,說(shuō)明w1和w2共現(xiàn)的機(jī)會(huì)越多,相反,φ2值越小,則說(shuō)明w1和w2共現(xiàn)的機(jī)會(huì)越小?;谏鲜靓?統(tǒng)計(jì)法思想,借助語(yǔ)料庫(kù)來(lái)統(tǒng)計(jì)動(dòng)詞搭配組情況,通過(guò)比較設(shè)定的門(mén)限和統(tǒng)計(jì)量φ2的值來(lái)判定該動(dòng)詞搭配組真?zhèn)?。這里需要說(shuō)明的是:a、a+b、a+c是提前統(tǒng)計(jì)好已存放入數(shù)據(jù)庫(kù)的;而針對(duì)大于兩個(gè)詞組合的動(dòng)詞搭配組(如英語(yǔ)中的takecareof),則通過(guò)匹配多元?jiǎng)釉~搭配庫(kù)(人工整理),若匹配成功,則認(rèn)定是真動(dòng)詞搭配組,否則,系統(tǒng)只輸出動(dòng)詞信息作為謂語(yǔ)動(dòng)詞。本發(fā)明的有益效果是:本發(fā)明基于句法特性與統(tǒng)計(jì)相融合的方法,通過(guò)詞性標(biāo)注,過(guò)濾處理和疑似動(dòng)詞抽取來(lái)提高識(shí)別謂語(yǔ)動(dòng)詞的高效性,通過(guò)句法特性分析和φ2統(tǒng)計(jì)法提高識(shí)別謂語(yǔ)動(dòng)詞和謂語(yǔ)動(dòng)詞搭配的精確性。本發(fā)明的可行性高并適用于一般自然語(yǔ)言的謂語(yǔ)動(dòng)詞識(shí)別。附圖說(shuō)明圖1為本發(fā)明的整體流程圖;圖2為本發(fā)明的詳細(xì)流程圖。具體實(shí)施方式實(shí)施例1:如圖1-2所示,一種基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法,首先對(duì)輸入的待測(cè)句子進(jìn)行預(yù)處理分析,具體包括:判定語(yǔ)種、詞性標(biāo)注、對(duì)應(yīng)的過(guò)濾處理和疑似動(dòng)詞抽?。黄浯?,進(jìn)行疑似謂語(yǔ)動(dòng)詞的排查,通過(guò)句法特性甄別出疑似動(dòng)詞中的謂語(yǔ)動(dòng)詞;接著判斷該動(dòng)詞是否以動(dòng)詞搭配組的情況出現(xiàn),這里利用φ2統(tǒng)計(jì)法來(lái)判斷動(dòng)詞搭配組的真?zhèn)?;最后根?jù)識(shí)別結(jié)果輸出所測(cè)句子的謂語(yǔ)動(dòng)詞或是謂語(yǔ)動(dòng)詞搭配組信息。所述基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法的具體步驟如下:Step1、對(duì)待測(cè)句子進(jìn)行預(yù)處理分析:輸入句子,通過(guò)文本語(yǔ)種識(shí)別工具判定語(yǔ)種,使用詞性標(biāo)注工具對(duì)句子中的詞逐個(gè)進(jìn)行詞性標(biāo)注,然后對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞性,如語(yǔ)氣詞等進(jìn)行過(guò)濾處理,接下來(lái),根據(jù)詞性標(biāo)注結(jié)果抽取出疑似動(dòng)詞,若無(wú)疑似動(dòng)詞,則直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若有疑似動(dòng)詞,則進(jìn)行如下步驟Step2;Step2、疑似謂語(yǔ)動(dòng)詞的排查:通過(guò)疑似謂語(yǔ)動(dòng)詞的形態(tài)分析和句法規(guī)則庫(kù)得到疑似謂語(yǔ)動(dòng)詞;Step3、動(dòng)詞搭配組識(shí)別:將疑似謂語(yǔ)動(dòng)詞的詞找到后,分析該謂語(yǔ)動(dòng)詞是否是以動(dòng)詞搭配組的形式出現(xiàn),如果不是,則把該疑似謂語(yǔ)動(dòng)詞作為待測(cè)句子的謂語(yǔ)動(dòng)詞輸出,如果是,則進(jìn)行動(dòng)詞搭配組的識(shí)別,其中,利用φ2統(tǒng)計(jì)法來(lái)判別該動(dòng)詞搭配組的真?zhèn)危籗tep4、根據(jù)上述步驟,輸出所識(shí)別出待測(cè)句子的謂語(yǔ)動(dòng)詞或是謂語(yǔ)動(dòng)詞搭配組信息。所述步驟Step1中,對(duì)待測(cè)句子進(jìn)行詞性標(biāo)注、對(duì)應(yīng)的過(guò)濾處理和疑似動(dòng)詞抽取,其操作步驟如下:Step1.1、對(duì)輸入的待測(cè)句子通過(guò)文本語(yǔ)種識(shí)別工具判定語(yǔ)種,通過(guò)分詞工具進(jìn)行分詞并對(duì)切分出來(lái)的單詞標(biāo)注詞性;Step1.2、根據(jù)標(biāo)注的詞性判斷,若無(wú)疑似動(dòng)詞,則不進(jìn)行下面的一系列分析,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若存在疑似動(dòng)詞,則進(jìn)行步驟Step1.3;Step1.3、存在疑似動(dòng)詞,則對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞性,如語(yǔ)氣詞,部分副詞等進(jìn)行過(guò)濾處理,用于減輕句法分析負(fù)擔(dān),提高識(shí)別效率。所述步驟Step2中所述的疑似謂語(yǔ)動(dòng)詞排查,其具體步驟如下:Step2.1、若疑似謂語(yǔ)動(dòng)詞個(gè)數(shù)為1,則結(jié)合形態(tài)分析和句法規(guī)則庫(kù),對(duì)該疑似謂語(yǔ)動(dòng)詞是否在該句中作為謂語(yǔ)成分出現(xiàn)進(jìn)行甄別;若判斷出不是謂語(yǔ)動(dòng)詞,則流程不進(jìn)行下面的步驟,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若判斷出是謂語(yǔ)動(dòng)詞,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別;Step2.2、若疑似謂語(yǔ)動(dòng)詞個(gè)數(shù)超過(guò)1個(gè),則逐個(gè)對(duì)這些詞進(jìn)行形態(tài)分析,若可以判定,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別;若不能判定,則利用句法規(guī)則庫(kù)進(jìn)行判定,若判斷出不是謂語(yǔ)動(dòng)詞,則流程不進(jìn)行下面的步驟,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息,若判斷出是謂語(yǔ)動(dòng)詞,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別。所述步驟Step3中所述的動(dòng)詞搭配組識(shí)別,判別該動(dòng)詞是否以動(dòng)詞搭配組的形式在該句子中展現(xiàn),具體是:Step3.1、若初步判定是二元?jiǎng)釉~搭配組,則再通過(guò)詞語(yǔ)窗口,窗口長(zhǎng)度視不同語(yǔ)種而定,判斷該二元?jiǎng)釉~搭配組后面是否有與之搭配的詞出現(xiàn),若有,則通過(guò)φ2統(tǒng)計(jì)法來(lái)判別該動(dòng)詞搭配的真?zhèn)危蝗魺o(wú),則將該二元?jiǎng)釉~搭配組中的動(dòng)詞作為待測(cè)句子最終的謂語(yǔ)動(dòng)詞進(jìn)行輸出;Step3.2、若初步判定是三元?jiǎng)釉~搭配組或是更多元的動(dòng)詞搭配組,再通過(guò)將其匹配多元?jiǎng)釉~搭配庫(kù)的形式進(jìn)行真?zhèn)闻袆e。實(shí)施例2:如圖1-2所示,一種基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法,所述基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法的具體步驟如下:Step1、對(duì)待測(cè)句子進(jìn)行預(yù)處理分析:輸入句子,通過(guò)文本語(yǔ)種識(shí)別工具判定語(yǔ)種為英語(yǔ)語(yǔ)種,使用詞性標(biāo)注工具(例如stanford大學(xué)的詞性標(biāo)注工具)對(duì)句子中的詞逐個(gè)進(jìn)行詞性標(biāo)注,然后對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞性,如語(yǔ)氣詞等進(jìn)行過(guò)濾處理,接下來(lái),根據(jù)詞性標(biāo)注結(jié)果抽取出疑似動(dòng)詞,若無(wú)疑似動(dòng)詞,則直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若有疑似動(dòng)詞,則進(jìn)行如下步驟Step2;例如:Whataninterestingstory!中沒(méi)有疑似動(dòng)詞,則直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若有疑似動(dòng)詞,可根據(jù)詞性判斷,對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞(如語(yǔ)氣詞,部分副詞等)進(jìn)行過(guò)濾處理,也可以進(jìn)行步驟Step2。Step2、疑似謂語(yǔ)動(dòng)詞的排查:通過(guò)疑似謂語(yǔ)動(dòng)詞的形態(tài)分析(如原形,過(guò)去式,過(guò)去分詞還是動(dòng)名詞形式出現(xiàn))和句法規(guī)則庫(kù)得到疑似謂語(yǔ)動(dòng)詞;Step3、動(dòng)詞搭配組識(shí)別:將疑似謂語(yǔ)動(dòng)詞的詞找到后,分析該謂語(yǔ)動(dòng)詞是否是以動(dòng)詞搭配組的形式出現(xiàn),如果不是,則把該疑似謂語(yǔ)動(dòng)詞作為待測(cè)句子的謂語(yǔ)動(dòng)詞輸出,如果是,則進(jìn)行動(dòng)詞搭配組的識(shí)別,其中,利用φ2統(tǒng)計(jì)法來(lái)判別該動(dòng)詞搭配組的真?zhèn)?;例如:makeup,goon;這里我們利用φ2統(tǒng)計(jì)法判定其搭配的真?zhèn)?。Step4、根據(jù)上述步驟,輸出所識(shí)別出待測(cè)句子的謂語(yǔ)動(dòng)詞或是謂語(yǔ)動(dòng)詞搭配組信息。所述步驟Step1中,對(duì)待測(cè)句子進(jìn)行詞性標(biāo)注、對(duì)應(yīng)的過(guò)濾處理和疑似動(dòng)詞抽取,其操作步驟如下:Step1.1、對(duì)輸入的待測(cè)句子通過(guò)文本語(yǔ)種識(shí)別工具判定語(yǔ)種,通過(guò)分詞工具進(jìn)行分詞并對(duì)切分出來(lái)的單詞標(biāo)注詞性;Step1.2、根據(jù)標(biāo)注的詞性判斷,若無(wú)疑似動(dòng)詞,則不進(jìn)行下面的一系列分析,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若存在疑似動(dòng)詞,則進(jìn)行步驟Step1.3;Step1.3、存在疑似動(dòng)詞,則對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞性,如語(yǔ)氣詞,部分副詞等進(jìn)行過(guò)濾處理,用于減輕句法分析負(fù)擔(dān),提高識(shí)別效率。例如:語(yǔ)氣詞(oh、hi、hello、wow等),大部分副詞(wonderfully、quickly、sadly、surprisingly等),如此便會(huì)減輕接下來(lái)的句法分析負(fù)擔(dān),提高識(shí)別效率;所述步驟Step2中所述的疑似謂語(yǔ)動(dòng)詞排查,其具體步驟如下:Step2.1、若疑似謂語(yǔ)動(dòng)詞個(gè)數(shù)為1,則結(jié)合形態(tài)分析和句法規(guī)則庫(kù),對(duì)該疑似謂語(yǔ)動(dòng)詞是否在該句中作為謂語(yǔ)成分出現(xiàn)進(jìn)行甄別;若判斷出不是謂語(yǔ)動(dòng)詞,則流程不進(jìn)行下面的步驟,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若判斷出是謂語(yǔ)動(dòng)詞,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別;例如:Whatanamazingbook!疑似動(dòng)詞有一個(gè),則結(jié)合形態(tài)分析和句法規(guī)則庫(kù),對(duì)該疑似動(dòng)詞是否在該句中作為謂語(yǔ)成分出現(xiàn)進(jìn)行甄別;該book前面是一ADJ形容詞,說(shuō)明該book不是謂語(yǔ)動(dòng)詞,則流程不進(jìn)行下面的步驟,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;Step2.2、若疑似謂語(yǔ)動(dòng)詞個(gè)數(shù)超過(guò)1個(gè),則逐個(gè)對(duì)這些詞進(jìn)行形態(tài)分析,若可以判定,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別;若不能判定,則利用句法規(guī)則庫(kù)進(jìn)行判定,若判斷出不是謂語(yǔ)動(dòng)詞,則流程不進(jìn)行下面的步驟,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息,若判斷出是謂語(yǔ)動(dòng)詞,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別。例如,英語(yǔ)中比較句中出現(xiàn)的助動(dòng)詞(如do、will、would等)和這些疑似動(dòng)詞的距離大小判定最有可能是謂語(yǔ)動(dòng)詞角色的詞,通過(guò)判定則轉(zhuǎn)入Step3步驟中的動(dòng)詞搭配組識(shí)別。例如:Ibooksomebooks.有兩個(gè)疑似動(dòng)詞,而且,兩個(gè)動(dòng)詞的原形一樣,那么,通過(guò)上下文分析,第一個(gè)book前一個(gè)詞性是代名詞,第二個(gè)books前面是形容詞詞性,則系統(tǒng)自動(dòng)判定出第一個(gè)book便是我們要找的謂語(yǔ)動(dòng)詞。所述步驟Step3中所述的動(dòng)詞搭配組識(shí)別,判別該動(dòng)詞是否以動(dòng)詞搭配組的形式在該句子中展現(xiàn),具體是:Step3.1、若初步判定是二元?jiǎng)釉~搭配組,則再通過(guò)詞語(yǔ)窗口(人工設(shè)定其長(zhǎng)度),窗口長(zhǎng)度視不同語(yǔ)種而定,判斷該二元?jiǎng)釉~搭配組后面是否有與之搭配的詞(介詞或是副詞)出現(xiàn),若有,則通過(guò)φ2統(tǒng)計(jì)法來(lái)判別該動(dòng)詞搭配的真?zhèn)?;若無(wú),則將該二元?jiǎng)釉~搭配組中的動(dòng)詞作為待測(cè)句子最終的謂語(yǔ)動(dòng)詞進(jìn)行輸出;Step3.2、若初步判定是三元?jiǎng)釉~搭配組或是更多元的動(dòng)詞搭配組,再通過(guò)將其匹配多元?jiǎng)釉~搭配庫(kù)的形式進(jìn)行真?zhèn)闻袆e。詳細(xì)的φ2統(tǒng)計(jì)法用于判定動(dòng)詞搭配組真?zhèn)蔚姆椒ㄈ缦拢簩?duì)于φ2統(tǒng)計(jì)法語(yǔ)料庫(kù)中的動(dòng)詞,依次統(tǒng)計(jì)它們?cè)谟⒄Z(yǔ)語(yǔ)料庫(kù)中可能出現(xiàn)的搭配組合。并將統(tǒng)計(jì)出的各個(gè)動(dòng)詞的詞頻、能夠和動(dòng)詞構(gòu)成搭配的小品詞詞頻以及動(dòng)詞與小品詞共同出現(xiàn)的詞頻存入數(shù)據(jù)庫(kù),以提高后續(xù)查詢(xún)計(jì)算的速度。選擇大學(xué)高年級(jí)英語(yǔ)語(yǔ)料庫(kù)(由開(kāi)放的CLEC提供),總計(jì)單詞量為239387個(gè)。如統(tǒng)計(jì)動(dòng)詞make的搭配情況,那么,經(jīng)過(guò)統(tǒng)計(jì),可計(jì)算出語(yǔ)料庫(kù)中make(包括make的變形:makes、made、making)和其后所跟的小品詞w2的頻次,將其一一存入數(shù)據(jù)庫(kù)。表2對(duì)于兩個(gè)單詞w1和w2,建立關(guān)聯(lián)表,以make(w1)up(w2)為例:上表中,a表示單詞make、up共同出現(xiàn)的次數(shù),b表示不在單詞make、up中的make的出現(xiàn)次數(shù),c表示不在單詞make、up中的up的出現(xiàn)次數(shù),d表示既不是make又不是up的詞的次數(shù),a+b是make出現(xiàn)的總詞數(shù),c+d是非make的總詞數(shù),a+c是up的出現(xiàn)詞數(shù),b+d是非up的總詞數(shù),N=a+b+c+d表示語(yǔ)料庫(kù)中的總詞數(shù)。統(tǒng)計(jì)可得到的數(shù)據(jù)有a、a+b、a+c、a+b+c+d,已在表中展現(xiàn),表中的其他數(shù)據(jù)是由上述統(tǒng)計(jì)得到的數(shù)據(jù)計(jì)算而來(lái)。因此根據(jù)上面的聯(lián)立表,φ2統(tǒng)計(jì)量計(jì)算如下公式(1):φ2=(a×d-b×c)2(a+b)×(a+c)×(b+d)×(c+d)---(1)]]>將表中的相應(yīng)數(shù)據(jù)代入公式(1),則統(tǒng)計(jì)量φ2≈0.001545。當(dāng)統(tǒng)計(jì)量φ2值越大,說(shuō)明make(包含其變形)與它后面的小品詞w2共現(xiàn)的機(jī)會(huì)越多,即它們是動(dòng)詞搭配組的概率越大,通過(guò)設(shè)置門(mén)限T和計(jì)算統(tǒng)計(jì)量φ2,若統(tǒng)計(jì)量φ2>T,則系統(tǒng)自動(dòng)將該動(dòng)詞搭配組識(shí)別為真動(dòng)詞搭配組,否則,識(shí)別為偽動(dòng)詞搭配組。而對(duì)于由三個(gè)詞組合的動(dòng)詞搭配組(如:takecareof),通過(guò)其與人工整理的動(dòng)詞搭配庫(kù)進(jìn)行匹配,若匹配成功,則系統(tǒng)自動(dòng)識(shí)別為真搭配組,否則為偽搭配組。實(shí)施例3:如圖1-2所示,一種基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法,本實(shí)施例以壯族語(yǔ)言為背景做謂語(yǔ)動(dòng)詞識(shí)別,法定的壯文是拼音文字,由拉丁字母組成,用以拼寫(xiě)壯語(yǔ)標(biāo)準(zhǔn)音的一套書(shū)寫(xiě)符號(hào)系統(tǒng),它以北部方言為基礎(chǔ),以武鳴縣的語(yǔ)言為標(biāo)準(zhǔn)音組成壯文的書(shū)寫(xiě)規(guī)范。壯文中的詞無(wú)詞形變化,而次序和虛詞是表達(dá)語(yǔ)法意義的主要手段;所述基于句法特性與統(tǒng)計(jì)融合的自然語(yǔ)言謂語(yǔ)動(dòng)詞識(shí)別方法的具體步驟如下:Step1、對(duì)待測(cè)句子進(jìn)行預(yù)處理分析:輸入句子,通過(guò)文本語(yǔ)種識(shí)別工具判定語(yǔ)種為壯族語(yǔ)言,使用詞性標(biāo)注工具對(duì)句子中的詞逐個(gè)進(jìn)行詞性標(biāo)注,然后對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞性,如語(yǔ)氣詞等進(jìn)行過(guò)濾處理,接下來(lái),根據(jù)詞性標(biāo)注結(jié)果抽取出疑似動(dòng)詞,若無(wú)疑似動(dòng)詞,則直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若有疑似動(dòng)詞,則進(jìn)行如下步驟Step2;Step2、疑似謂語(yǔ)動(dòng)詞的排查:通過(guò)疑似謂語(yǔ)動(dòng)詞的形態(tài)分析和句法規(guī)則庫(kù)得到疑似謂語(yǔ)動(dòng)詞;Step3、動(dòng)詞搭配組識(shí)別:將疑似謂語(yǔ)動(dòng)詞的詞找到后,分析該謂語(yǔ)動(dòng)詞是否是以動(dòng)詞搭配組的形式出現(xiàn),如果不是,則把該疑似謂語(yǔ)動(dòng)詞作為待測(cè)句子的謂語(yǔ)動(dòng)詞輸出,如果是,則進(jìn)行動(dòng)詞搭配組的識(shí)別,其中,利用φ2統(tǒng)計(jì)法來(lái)判別該動(dòng)詞搭配組的真?zhèn)危焕纾篽aupoi(進(jìn)去);這里利用φ2統(tǒng)計(jì)法進(jìn)行判定。Step4、根據(jù)上述步驟,輸出所識(shí)別出待測(cè)句子的謂語(yǔ)動(dòng)詞或是謂語(yǔ)動(dòng)詞搭配組信息。所述步驟Step1中,對(duì)待測(cè)句子進(jìn)行詞性標(biāo)注、對(duì)應(yīng)的過(guò)濾處理和疑似動(dòng)詞抽取,其操作步驟如下:Step1.1、對(duì)輸入的待測(cè)句子通過(guò)文本語(yǔ)種識(shí)別工具判定語(yǔ)種為壯文,通過(guò)分詞工具進(jìn)行分詞并對(duì)切分出來(lái)的單詞標(biāo)注詞性;Step1.2、根據(jù)標(biāo)注的詞性判斷,若無(wú)疑似動(dòng)詞,則不進(jìn)行下面的一系列分析,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息;若存在疑似動(dòng)詞,則進(jìn)行步驟Step1.3;Step1.3、存在疑似動(dòng)詞,則對(duì)分析謂語(yǔ)動(dòng)詞不相關(guān)的詞性,如語(yǔ)氣詞,部分副詞等進(jìn)行過(guò)濾處理,用于減輕句法分析負(fù)擔(dān),提高識(shí)別效率。所述步驟Step2中所述的疑似謂語(yǔ)動(dòng)詞排查,其具體步驟如下:Step2.1、若疑似謂語(yǔ)動(dòng)詞個(gè)數(shù)為1,結(jié)合壯文動(dòng)詞語(yǔ)法規(guī)范做進(jìn)一步確認(rèn),確認(rèn)完畢,輸出該句相應(yīng)的謂語(yǔ)動(dòng)詞信息;Step2.2、若疑似謂語(yǔ)動(dòng)詞個(gè)數(shù)超過(guò)1個(gè),則逐個(gè)對(duì)這些詞進(jìn)行上下文分析,若可以判定,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別;若不能判定,則利用句法規(guī)則庫(kù)進(jìn)行判定,若判斷出不是謂語(yǔ)動(dòng)詞,則流程不進(jìn)行下面的步驟,直接輸出句中無(wú)謂語(yǔ)動(dòng)詞的提示信息,若判斷出是謂語(yǔ)動(dòng)詞,則轉(zhuǎn)入進(jìn)行動(dòng)詞搭配組識(shí)別。例如謂語(yǔ)動(dòng)詞總是和賓語(yǔ)距離最近,便可排除掉另一個(gè)充當(dāng)副詞成分的動(dòng)詞做謂語(yǔ)的誤判;例如:putautau.跑拿書(shū)來(lái)。即:跑去拿書(shū)來(lái)。那么這個(gè)例子中的“put”和“au”都有可能是謂語(yǔ)動(dòng)詞,根據(jù)上述句法特性,“au”距離比較近,故排除“put”,該句的謂語(yǔ)動(dòng)詞為“au”。所述步驟Step3中所述的動(dòng)詞搭配組識(shí)別,判別該動(dòng)詞是否以動(dòng)詞搭配組的形式在該句子中展現(xiàn),具體是:Step3.1、若初步判定是二元?jiǎng)釉~搭配組,則再通過(guò)詞語(yǔ)窗口(人工設(shè)定其長(zhǎng)度),窗口長(zhǎng)度視不同語(yǔ)種而定,判斷該二元?jiǎng)釉~搭配組后面是否有與之搭配的詞(介詞或是副詞)出現(xiàn),若有,則通過(guò)φ2統(tǒng)計(jì)法來(lái)判別該動(dòng)詞搭配的真?zhèn)?;若無(wú),則將該二元?jiǎng)釉~搭配組中的動(dòng)詞作為待測(cè)句子最終的謂語(yǔ)動(dòng)詞進(jìn)行輸出;Step3.2、若初步判定是三元?jiǎng)釉~搭配組或是更多元的動(dòng)詞搭配組,再通過(guò)將其匹配多元?jiǎng)釉~搭配庫(kù)的形式進(jìn)行真?zhèn)闻袆e。對(duì)于壯文,可以借助《武鳴土語(yǔ)》《武鳴壯族民間故事》為語(yǔ)料庫(kù),通過(guò)φ2統(tǒng)計(jì)法進(jìn)行動(dòng)詞搭配組的判別。例如發(fā)現(xiàn)haupoi(進(jìn)去)對(duì)應(yīng)的φ2值>設(shè)定的門(mén)限T,則系統(tǒng)自動(dòng)判定它們是真動(dòng)詞搭配組,否則判定為假搭配組。而對(duì)于三詞以上的詞所組成的典型動(dòng)詞搭配組,例如:luanloηθamcmaη(胡說(shuō)八道),采用匹配多元?jiǎng)釉~搭配庫(kù)(人工整理)的形式進(jìn)行判別,若匹配成功,則系統(tǒng)判定為真搭配組,否則判定為偽搭配組。最后,結(jié)合步驟Step2和步驟Step3的分析結(jié)果,將系統(tǒng)的謂語(yǔ)動(dòng)詞或是謂語(yǔ)動(dòng)詞搭配組信息輸出。上面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作了詳細(xì)說(shuō)明,但是本發(fā)明并不限于上述實(shí)施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。當(dāng)前第1頁(yè)1 2 3