本發(fā)明涉及自然語言處理
技術領域:
,具體涉及一種基于依存約束和知識的副詞詞義消歧方法和裝置。
背景技術:
:詞義消歧是指根據(jù)歧義詞的上下文環(huán)境而自動判定其詞義。詞義消歧是自然語言處理領域的基礎性任務,對機器翻譯、信息檢索、文本分類、自動文摘等具有直接影響?;谥R庫的詞義消歧方法是目前唯一能夠真正應用于大規(guī)模詞義消歧任務的方法。其效果主要受到三個因素的影響:一是知識庫的規(guī)模和質量,二是上下文相關詞選擇的準確性,三是詞義相關度計算方法?,F(xiàn)有的知識庫建設方法,可以劃分為自動構建和人工構建兩種方式。前者通過統(tǒng)計學習的方法從語料庫中自動獲取知識,比如詞共現(xiàn)、語言模型等;這種方法并未考慮詞語的句法、詞義關系,其難免受到一些近距離的噪聲詞的干擾。后者人工構建知識庫;面對詞義消歧所需知識的海量規(guī)模,顯然是難以實現(xiàn)的?,F(xiàn)有的詞義消歧方法在為歧義詞選擇上下文相關詞時,往往采用滑動窗口的方法;這種方法無法排除近距離的噪聲詞,同時會忽略遠距離的相關詞。這種滑動窗口的選擇方法,沒有考慮到歧義詞詞性的區(qū)別;不同的詞性具有不同的特點,在為其進行相關詞選擇時應區(qū)別對待;現(xiàn)有方法顯然忽視了詞性的區(qū)別?,F(xiàn)有的詞義相關度計算方法,往往只是利用詞典考慮詞義的相關程度,而忽略了從句法或語義關系上考慮詞義的相關程度。現(xiàn)有方法存在的這些問題,制約了詞義消歧效果的提升。面對現(xiàn)有基于知識庫的詞義消歧方法所存在的以上技術問題,本發(fā)明專利針對副詞詞義消歧的特點,充分挖掘依存句法分析技術的優(yōu)勢,實現(xiàn)一種基于依存約束和知識的副詞詞義消歧方法和裝置,力求能夠在一定程度上推動這些問題的解決。技術實現(xiàn)要素:為解決現(xiàn)有技術存在的不足,本發(fā)明公開了一種基于依存約束和知識的副詞詞義消歧方法和裝置,以更準確地判定歧義副詞的詞義。為此,本發(fā)明提供如下技術方案:一種基于依存約束和知識的副詞詞義消歧方法,包括以下步驟:步驟一、對大規(guī)模語料進行依存句法分析,收集所得的依存元組并統(tǒng)計其頻數(shù),構建依存知識庫;步驟二、對歧義副詞所在句子進行依存句法分析,從中提取支配詞及從屬詞均為實詞并且依存關系為2種設定類型的依存元組,作為歧義副詞的依存約束集合;步驟三、根據(jù)語義詞典,為歧義副詞的各個詞義,依次提取同義詞集、反義詞集作為相應詞義的詞義代表詞集;步驟四、根據(jù)依存知識庫和詞義代表詞集,依次計算歧義副詞的各個詞義在依存約束集合的后驗概率;步驟五、根據(jù)步驟四的計算結果,選擇后驗概率最大的詞義作為歧義副詞的正確詞義;若多個詞義同時取得相等的最大后驗概率,則從中選擇詞頻最高的詞義作為歧義副詞的正確詞義。基于依存約束和知識的副詞詞義消歧方法中,所述依存元組為三元組形式,包括依存關系類型、支配詞、從屬詞,可表示為:依存關系類型(支配詞,從屬詞);其中支配詞包含支配詞的原形和詞性信息,從屬詞包含從屬詞的原形和詞性信息。進一步的,所述步驟一中,在構建依存知識庫時,具體為:步驟1-1)對大規(guī)模語料庫中的各個文檔,依次進行依存句法分析和詞形還原處理,收集其中蘊含的依存元組,并記錄各依存元組的出現(xiàn)頻次;步驟1-2)匯總各文檔中包含的依存元組集合和頻次信息,得到依存知識庫。進一步的,所述步驟二中,在提取歧義副詞的依存約束集合時,具體為:步驟2-1)對歧義副詞所在的句子進行依存句法分析和詞形還原處理,收集其中涉及歧義副詞的依存元組;步驟2-2)對收集到的依存元組進行過濾,僅保留支配詞及從屬詞均為實詞并且依存關系為以下2種設定類型的元組:副詞修飾(advmod),并列連接(conj)。步驟2-3)將過濾后所得的依存元組的集合,作為歧義副詞的依存約束集合。進一步的,所述步驟三中,在提取各個詞義的詞義代表詞集時,具體為:步驟3-1)根據(jù)WordNet的Synonyms關系獲得當前詞義的同義詞集;步驟3-2)根據(jù)WordNet的Antonym關系獲得當前詞義的反義詞集;步驟3-3)將上述兩類詞集合并,剔除詞組及歧義副詞自身后,作為當前詞義的詞義代表詞集。進一步的,所述步驟四中,在計算詞義在依存約束集合中的后驗概率時,具體為:步驟4-1)依次計算各個詞義代表詞在各個依存約束條件下的后驗概率,具體為:將詞義代表詞集中的某一詞義代表詞記作將某一依存約束元組記作r′j并表示為:rj(w1,w2);若歧義副詞為依存約束元組中的支配詞,則此后驗概率由公式(1)計算;P(wsi|rj′)=P(wsi|rj,w2)=c(rj,wsi,w2)+1c(rj,*,w2)+M---(1)]]>其中,表示依存關系類型為rj、支配詞為從屬詞為w2的依存元組的數(shù)量;c(rj,*,w2)表示依存關系類型為rj、從屬詞為w2的依存元組的數(shù)量;M表示語義詞典中包含的副詞詞形的總數(shù);若歧義副詞為依存約束元組中的從屬詞,則此后驗概率由公式(2)計算;P(wsi|rj′)=P(wsi|rj,w1)=c(rj,w1,wsi)+1c(rj,w1,*)+M---(2)]]>其中,表示依存關系類型為rj、支配詞為w1、從屬詞為的依存元組的數(shù)量;c(rj,w1,*)表示依存關系類型為rj、支配詞為w1的依存元組的數(shù)量;M表示語義詞典中包含的副詞詞形的總數(shù)。步驟4-2)依次計算各個詞義在依存約束集合條件下的后驗概率,具體為:假定各個依存約束元組之間彼此條件獨立,則此后驗概率可由公式(3)計算;P(si|R)=maxwsi∈WsiΠrj′∈RP(wsi|rj′)---(3)]]>其中,si表示某一詞義,R表示依存約束集合,表示詞義代表詞集,r′j表示某一依存約束元組,表示某一詞義代表詞。一種基于依存約束和知識的副詞詞義消歧裝置,包括:依存知識庫構建單元,用于對大規(guī)模語料進行依存句法分析,收集所得的依存元組并統(tǒng)計其頻數(shù),構建依存知識庫;歧義詞依存約束集合提取單元,用于對歧義副詞所在句子進行依存句法分析,從中提取支配詞及從屬詞均為實詞并且依存關系為2種設定類型的依存元組,作為歧義副詞的依存約束集合;歧義詞詞義代表詞集提取單元,用于根據(jù)語義詞典,為歧義副詞的各個詞義,依次提取同義詞集、反義詞集作為相應詞義的詞義代表詞集;詞義后驗概率計算單元,用于根據(jù)依存知識庫和詞義代表詞集,依次計算歧義副詞的各個詞義在依存約束集合的后驗概率;歧義詞詞義選擇單元,用于根據(jù)詞義后驗概率計算單元的輸出數(shù)據(jù),選擇后驗概率最大的詞義作為歧義副詞的正確詞義;若多個詞義同時取得相等的最大后驗概率,則從中選擇詞頻最高的詞義作為歧義副詞的正確詞義。基于依存約束和知識的副詞詞義消歧裝置中,所述依存元組為三元組形式,包括依存關系類型、支配詞、從屬詞,可表示為:依存關系類型(支配詞,從屬詞);其中支配詞包含支配詞的原形和詞性信息,從屬詞包含從屬詞的原形和詞性信息。進一步的,所述依存知識庫構建單元還包括:單文檔依存處理單元,用于對大規(guī)模語料庫中的各個文檔,依次進行依存句法分析和詞形還原處理,收集其中蘊含的依存元組,并記錄各依存元組的出現(xiàn)頻次;依存知識歸并單元,用于匯總各文檔中包含的依存元組集合和頻次信息,得到依存知識庫;進一步的,所述歧義詞依存約束集合提取單元還包括:歧義句依存處理單元,用于對歧義副詞所在的句子進行依存句法分析和詞形還原處理,收集其中涉及歧義副詞的依存元組;依存元組過濾單元,用于對收集到的依存元組進行過濾,僅保留支配詞及從屬詞均為實詞并且依存關系為以下2種設定類型的元組:副詞修飾(advmod),并列連接(conj);依存約束集合收集單元,用于將過濾后所得的依存元組的集合作為歧義副詞的依存約束集合;進一步的,所述歧義詞詞義代表詞集提取單元還包括:同義代表詞提取單元,用于根據(jù)WordNet的Synonyms關系獲得當前詞義的同義詞集;反義代表詞提取單元,用于根據(jù)WordNet的Antonym關系獲得當前詞義的反義詞集;詞義代表詞歸并單元,用于將同義詞集、反義詞集合并,剔除詞組及歧義副詞自身后,作為當前詞義的詞義代表詞集;進一步的,所述詞義后驗概率計算單元還包括:詞義代表詞后驗概率計算單元,用于計算特定詞義代表詞在特定依存約束條件下的后驗概率;詞義在依存約束集合條件下的后驗概率計算單元,用于計算特定詞義在依存約束集合條件下的后驗概率。本發(fā)明的有益效果:1、本發(fā)明利用依存句法分析技術完成依存知識庫的構建,考慮了詞語之間的句法、語義關系,所構建的依存知識庫具有較高質量。2、針對副詞的特點,本發(fā)明優(yōu)選了2種類型的語義關系密切的依存元組,構建其依存約束集合,可減少其它無關元組的干擾,使其上下文相關詞的選擇更為準確。3、針對副詞的特點,本發(fā)明優(yōu)選同義詞集、反義詞集作為相應詞義的詞義代表詞集,能夠較為準確地評估詞義在上下文環(huán)境的適合程度。4、本發(fā)明提出的詞義在依存約束集合的后驗概率的計算方法,考慮了句法、語義關系,能夠更為全面準確地評估詞義與上下文環(huán)境的匹配程度。5、本發(fā)明提出的基于依存約束和知識的副詞詞義消歧方法和裝置,能夠自動完成依存知識庫的構建,準確地選擇依存約束元組,并計算詞義的后驗概率,具有較高的消歧正確率,改善副詞的詞義消歧效果。附圖說明圖1為根據(jù)本發(fā)明實施方式基于依存約束和知識的副詞詞義消歧方法的流程圖;圖2為根據(jù)本發(fā)明實施方式基于依存約束和知識的副詞詞義消歧裝置的結構示意圖;圖3為根據(jù)本發(fā)明實施方式依存知識庫構建單元的結構示意圖;圖4為根據(jù)本發(fā)明實施方式歧義詞依存約束集合提取單元的結構示意圖;圖5為根據(jù)本發(fā)明實施方式歧義詞詞義代表詞集提取單元的結構示意圖;圖6為根據(jù)本發(fā)明實施方式詞義后驗概率計算單元的結構示意圖。具體實施方式:為了使本
技術領域:
的人員更好地理解本發(fā)明實施例的方案,下面結合附圖和實施方式對發(fā)明實施例作進一步的詳細說明。以對句子“Texteditorsweredevelopedthatallowedchangesandcorrectionstobemademuchmoreeasilythanwithpunchcard.”中的歧義副詞easily進行消歧處理為例。根據(jù)WordNet3.0,副詞easily的詞義信息如表1所示。表1其中,#r代表詞性為副詞,#1~#3代表三個不同的詞義編號。本發(fā)明實施例基于依存約束和知識的副詞詞義消歧方法的流程圖,如圖1所示,包括以下步驟。步驟101,構建依存知識庫。對大規(guī)模語料進行依存句法分析,收集所得的依存元組并統(tǒng)計其頻數(shù),構建依存知識庫,具體為:步驟1-1)對大規(guī)模語料庫中的各個文檔,依次進行依存句法分析和詞形還原處理,收集其中蘊含的依存元組,并記錄各依存元組的出現(xiàn)頻次;步驟1-2)匯總各文檔中包含的依存元組集合和頻次信息,得到依存知識庫。本發(fā)明實施例中,使用ReuterCorpus作為語料庫,其中包含了路透社人工收集整理的80余萬篇新聞文檔;依存句法分析工具采用斯坦福大學所提供的StanfordParser句法分析器,使用englishPCFG.ser.gz語言模型,并允許對依存關系進行折疊和傳遞處理;借助WordNet3.0進行詞形還原。首先根據(jù)步驟1-1)逐篇對ReuterCorpus中的新聞文檔進行依存句法分析和詞形還原處理,收集形如“relation(w1,w2)”的依存元組,并記錄它們的出現(xiàn)頻次。(本發(fā)明專利具體實施方式中所述依存元組“relation(w1,w2)”中的支配詞w1和從屬詞w2均包括其原形和詞性信息)。然后根據(jù)步驟1-2)將各新聞文檔包含的依存元組集合和頻次信息合并,得到依存知識庫。最終得到的依存知識庫中共包含不同類型的依存元組13417302個,其出現(xiàn)頻次總和為93850841個。步驟102,提取歧義副詞的依存約束集合。對歧義副詞所在句子進行依存句法分析,從中提取2種類型的依存元組,作為歧義副詞的依存約束集合,具體為:步驟2-1)對歧義副詞所在的句子進行依存句法分析和詞形還原處理,收集其中涉及歧義副詞的依存元組。本發(fā)明實施例中,依存句法分析工具采用斯坦福大學所提供的StanfordParser句法分析器,使用englishPCFG.ser.gz語言模型,并允許對依存關系進行折疊和傳遞處理;借助WordNet3.0進行詞形還原。對句子“Texteditorsweredevelopedthatallowedchangesandcorrectionstobemademuchmoreeasilythanwithpunchcard.”進行依存句法分析和詞形還原處理后,得到的依存元組集合包含如下元組:nn(editor,text),nsubjpass(develop,editor),auxpass(develop,be),complm(allow,that),ccomp(develop,allow),dobj(allow,change),dobj(allow,correction),conj(change,correction),aux(make,to),auxpass(make,be),xcomp(allow,make),advmod(make,easily),advmod(easily,much),advmod(easily,more),prep(make,than),pcomp(than,with),prep(than,card),nn(card,punch)。從上述依存元組集合中收集涉及到歧義副詞easily的元組,得到的依存元組集合包含如下元組:advmod(make,easily),advmod(easily,much),advmod(easily,more)。步驟2-2)對收集到的依存元組進行過濾,僅保留支配詞及從屬詞均為實詞并且依存關系為以下2種設定類型的元組:副詞修飾(advmod),并列連接(conj)。本發(fā)明實施例中,對步驟2-1)所得到的依存元組集合進行過濾,僅保留支配詞及從屬詞均為實詞并且依存關系為2種設定類型的元組,過濾后的依存元組集合包含如下元組:advmod(make,easily),advmod(easily,much),advmod(easily,more)。步驟2-3)將過濾后所得的依存元組的集合,作為歧義副詞的依存約束集合。本發(fā)明實施例中,將步驟2-2)所得到的依存元組集合,作為歧義副詞的依存約束集合。可得依存約束集合包含如下元組:advmod(make,easily),advmod(easily,much),advmod(easily,more)。需要說明的是,在本發(fā)明實施例中,依存元組中的支配詞和從屬詞均包括原形和詞性信息。對于依存約束集合中所涉及的詞語,easily即指副詞easily、much即指副詞much、more即指副詞more、make即指動詞make。步驟103,提取歧義副詞的詞義代表詞集。根據(jù)語義詞典WordNet3.0,為歧義副詞的各個詞義,依次提取同義詞集、反義詞集作為相應詞義的詞義代表詞集,具體為:步驟3-1)根據(jù)WordNet的Synonyms關系獲得當前詞義的同義詞集;步驟3-2)根據(jù)WordNet的Antonym關系獲得當前詞義的反義詞集;步驟3-3)將上述兩類詞集合并,剔除詞組及歧義副詞自身后,作為當前詞義的詞義代表詞集。在本發(fā)明實施例中,對于歧義副詞easily的各個詞義的處理的說明,以easily#r#1為例。對于詞義easily#r#1,由步驟3-1)可得其同義詞集為{easily,easy};由步驟3-2)可得其反義詞集為空集;由步驟3-3),將前述兩類詞集合并,并剔除詞組及easily自身后,可得詞義easily#r#1的詞義代表詞集為{easy}。同理,對于詞義easily#r#2,由步驟3-1)至步驟3-3),可得其詞義代表詞集為空集。同理,對于詞義easily#r#3,由步驟3-1)至步驟3-3),可得其詞義代表詞集為{well}。步驟104,計算歧義副詞的各個詞義后驗概率。根據(jù)依存知識庫和詞義代表詞集,依次計算歧義副詞的各個詞義在依存約束集合的后驗概率,具體為:步驟4-1)依次計算各個詞義代表詞在各個依存約束條件下的后驗概率,具體為:將詞義代表詞集中的某一詞義代表詞記作將某一依存約束元組記作r′j并表示為:rj(w1,w2);若歧義副詞為依存約束元組中的支配詞,則此后驗概率由公式(1)計算;P(wsi|rj′)=P(wsi|rj,w2)=c(rj,wsi,w2)+1c(rj,*,w2)+M---(1)]]>其中,表示依存關系類型為rj、支配詞為從屬詞為w2的依存元組的數(shù)量;c(rj,*,w2)表示依存關系類型為rj、從屬詞為w2的依存元組的數(shù)量;M表示語義詞典中包含的副詞詞形的總數(shù);若歧義副詞為依存約束元組中的從屬詞,則此后驗概率由公式(2)計算;P(wsi|rj′)=P(wsi|rj,w1)=c(rj,w1,wsi)+1c(rj,w1,*)+M---(2)]]>其中,表示依存關系類型為rj、支配詞為w1、從屬詞為的依存元組的數(shù)量;c(rj,w1,*)表示依存關系類型為rj、支配詞為w1的依存元組的數(shù)量;M表示語義詞典中包含的副詞詞形的總數(shù)。步驟4-2)依次計算各個詞義在依存約束集合條件下的后驗概率,具體為:假定各個依存約束元組之間彼此條件獨立,則此后驗概率可由公式(3)計算;P(si|R)=maxwsi∈WsiΠrj′∈RP(wsi|rj′)---(3)]]>其中,si表示某一詞義,R表示依存約束集合,表示詞義代表詞集,r′j表示某一依存約束元組,表示某一詞義代表詞。在本發(fā)明實施例中,因WordNet3.0中副詞詞形總數(shù)為4601,故公式(1)和(2)中的M值均設為4601。以詞義easily#r#1為例,說明步驟4-1)至步驟4-3)的具體操作過程。由步驟102已得,依存約束集合R包含如下元組:advmod(make,easily),advmod(easily,much),advmod(easily,more)。由步驟103已得,詞義easily#r#1(記作s1)的詞義代表詞集為{easy}。由步驟4-1)依次計算中的各個詞義代表詞在依存約束集合R中各依存約束條件下的后驗概率,過程如下:因easily為依存約束元組advmod(make,easily)的從屬詞,故詞義代表詞easy在該依存約束元組中的后驗概率可由公式(2)計算;根據(jù)步驟101統(tǒng)計而得的依存知識庫,可得c(advmod,make,easy)的值為61,c(advmod,make,*)的值為23649;故可得:P(easy|advmod,make)=c(advmod,make,easy)+1c(advmod,make,*)+4601=61+123649+4601=0.0021946902654867255]]>因easily為依存約束元組advmod(easily,much)的支配詞,故詞義代表詞easy在該依存約束元組中的后驗概率可由公式(1)計算;根據(jù)步驟101統(tǒng)計而得的依存知識庫,可得c(advmod,easy,much)的值為123,c(advmod,*,much)的值為32586;故可得:P(easy|advmod,much)=c(advmod,easy,much)+1c(advmod,easy,*)+4601=123+132586+4601=0.00333449861510743]]>同理,可得:P(easy|advmod,more)=1.039533457384326E-5由步驟4-2)計算詞義easily#r#1在依存約束集合條件下的后驗概率,過程如下:已知依存約束集合R中所包含的依存約束元組分別為:advmod(make,easily),advmod(easily,much),advmod(easily,more);詞義easily#r#1的為{easy}。首先,對于詞義easily#r#1的各個詞義代表詞分別計算其對于詞義代表詞easy,代入步驟4-1)的計算結果,可得:Πrj′∈RP(easy|rj′)=0.0021946902654867255×0.00333449861510743×1.039533457384326E-5=7.60750506861466E-11.]]>然后,根據(jù)公式(3),從各個詞義代表詞的中選一個最大值作為P(s1|R);對于easily#r#1,其僅有一個詞義代表詞easy,故直接可得P(s1|R)的值為7.60750506861466E-11。對于其它各個詞義easily#r#2~easily#r#3,分別記作s2~s3;由步驟4-1)和步驟4-2),同理可得:P(s2|R)=0.0P(s3|R)=5.949053131179934E-11步驟105,根據(jù)詞義后驗概率選擇歧義副詞的正確詞義。根據(jù)步驟104的計算結果,選擇后驗概率最大的詞義作為歧義副詞的正確詞義;若多個詞義同時取得相等的最大后驗概率,則從中選擇詞頻最高的詞義作為歧義副詞的正確詞義。由步驟104,比較P(s1|R)、P(s2|R)、P(s3|R)的大小,可知P(s1|R)的值最大,故將詞義s1,即easily#r#1,作為歧義副詞easily的正確詞義。需要說明的是,步驟105中,如果多個詞義同時取得相等的最大后驗概率,則根據(jù)WordNet3.0的詞頻信息,從中選擇詞頻最高的詞義作為歧義副詞的正確詞義。通過以上操作步驟,即可完成歧義副詞easily的詞義消歧工作。相應地,本發(fā)明實施例還提供一種基于依存約束和知識的副詞詞義消歧裝置,其結構示意圖如圖2所示。在該實施例中,所述裝置包括:依存知識庫構建單元201,用于對大規(guī)模語料進行依存句法分析,收集所得的依存元組并統(tǒng)計其頻數(shù),構建依存知識庫;歧義詞依存約束集合提取單元202,用于對歧義副詞所在句子進行依存句法分析,從中提取支配詞及從屬詞均為實詞并且依存關系為2種設定類型的依存元組,作為歧義副詞的依存約束集合;歧義詞詞義代表詞集提取單元203,用于根據(jù)語義詞典,為歧義副詞的各個詞義,依次提取同義詞集、反義詞集作為相應詞義的詞義代表詞集;詞義后驗概率計算單元204,用于根據(jù)依存知識庫和詞義代表詞集,依次計算歧義副詞的各個詞義在依存約束集合的后驗概率;歧義詞詞義選擇單元205,用于根據(jù)詞義后驗概率計算單元的輸出數(shù)據(jù),選擇后驗概率最大的詞義作為歧義副詞的正確詞義;若多個詞義同時取得相等的最大后驗概率,則從中選擇詞頻最高的詞義作為歧義副詞的正確詞義;需要說明的是,在本發(fā)明實施例中,該裝置中各構成單元所述依存元組為三元組形式,包括依存關系類型、支配詞、從屬詞,可表示為:依存關系類型(支配詞,從屬詞);其中支配詞包含支配詞的原形和詞性信息,從屬詞包含從屬詞的原形和詞性信息。圖2所示裝置的依存知識庫構建單元201的結構示意圖如圖3所示,其包括:單文檔依存處理單元301,用于對大規(guī)模語料庫中的各個文檔,依次進行依存句法分析和詞形還原處理,收集其中蘊含的依存元組,并記錄各依存元組的出現(xiàn)頻次;依存知識歸并單元302,用于匯總各文檔中包含的依存元組集合和頻次信息,得到依存知識庫。圖2所示裝置的歧義詞依存約束集合提取單元202的結構示意圖如圖4所示,其包括:歧義句依存處理單元401,用于對歧義副詞所在的句子進行依存句法分析和詞形還原處理,收集其中涉及歧義副詞的依存元組;依存元組過濾單元402,用于對收集到的依存元組進行過濾,僅保留支配詞及從屬詞均為實詞并且依存關系為以下2種設定類型的元組:副詞修飾(advmod),并列連接(conj);依存約束集合收集單元403,用于將過濾后所得的依存元組的集合作為歧義副詞的依存約束集合。圖2所示裝置的歧義詞詞義代表詞集提取單元203的結構示意圖如圖5所示,其包括:同義代表詞提取單元501,用于根據(jù)WordNet的Synonyms關系獲得當前詞義的同義詞集;反義代表詞提取單元502,用于根據(jù)WordNet的Antonym關系獲得當前詞義的反義詞集;詞義代表詞歸并單元503,用于將同義詞集、反義詞集合并,剔除詞組及歧義副詞自身后,作為當前詞義的詞義代表詞集。圖2所示裝置的詞義后驗概率計算單元204的結構示意圖如圖6所示,其包括:詞義代表詞后驗概率計算單元601,用于計算特定詞義代表詞在特定依存約束條件下的后驗概率;詞義在依存約束集合條件下的后驗概率計算單元602,用于計算特定詞義在依存約束集合條件下的后驗概率??梢詫D2~圖6所示的基于依存約束和知識的副詞詞義消歧裝置集成到各種硬件實體中。比如,可以將基于依存約束和知識的副詞詞義消歧裝置集成到:個人電腦、平板電腦、智能手機、工作站等設備之中??梢酝ㄟ^指令或指令集存儲的儲存方式將本發(fā)明實施方式所提出的基于依存約束和知識的副詞詞義消歧方法存儲在各種存儲介質上。這些存儲介質包括但不局限于:軟盤、光盤、硬盤、內存、U盤、CF卡、SM卡等。綜上所述,在本發(fā)明實施方式中,對大規(guī)模語料進行依存句法分析,收集所得的依存元組并統(tǒng)計其頻數(shù),構建依存知識庫;對歧義副詞所在句子進行依存句法分析,從中提取支配詞及從屬詞均為實詞并且依存關系為2種設定類型的依存元組,作為歧義副詞的依存約束集合;根據(jù)語義詞典,為歧義副詞的各個詞義,依次提取同義詞集、反義詞集作為相應詞義的詞義代表詞集;根據(jù)依存知識庫和詞義代表詞集,依次計算歧義副詞的各個詞義在依存約束集合的后驗概率;選擇后驗概率最大的詞義作為歧義副詞的正確詞義(若多個詞義同時取得相等的最大后驗概率,則從中選擇詞頻最高的詞義作為歧義副詞的正確詞義)。由此可見,應用本發(fā)明實施方式之后,實現(xiàn)了基于依存約束和知識的副詞詞義消歧。本發(fā)明實施方式可以利用依存句法分析技術完成依存知識庫的構建,從而提高知識庫的質量;優(yōu)選了2種類型的依存元組,從而排除無關元組的干擾,使其上下文相關詞的選擇更為準確;優(yōu)選了2種類型的詞義代表詞集,從而較為準確地評估詞義在上下文環(huán)境的適合程度;提出了詞義在依存約束集合的后驗概率的計算方法,考慮了句法、語義關系,從而更為全面準確地評估詞義與上下文環(huán)境的匹配程度。本發(fā)明實施方式所實現(xiàn)的基于依存約束和知識的副詞詞義消歧方法和裝置,能夠自動完成依存知識庫的構建,準確地選擇依存約束元組,并計算詞義的后驗概率,具有較高的消歧正確率。本說明書中的實施例采用遞進的方式描述,彼此相同相似的部分互相參見即可。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上對本發(fā)明實施例進行了詳細介紹,本文中應用了具體實施方式對本發(fā)明進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法和裝置;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,故本說明書不應理解為對本發(fā)明的限制。當前第1頁1 2 3