本發(fā)明涉及計算機
技術領域:
的自然語言處理,具體地,涉及一種基于參數概念表達動詞語義的方法及系統(tǒng)。
背景技術:
:隨著人工智能技術應用的越來越深入,人工智能技術對人類生活起著更多的作用。其中自然語言理解技術是計算機理解人類語言的重要技術,其中最為困難的地方就是理解人類語言的語義。動詞對于理解句子的句法和語法上都起著中心性的作用。分布假設()表明可以用一個詞語的上下文信息來表示這個詞語的語義,例如這個詞語周圍的詞。一個動詞在句子中有其獨特的角色,因為它包含了與其主語和賓語的依存關系,所以可以用這個動詞的主語和賓語來表達這個動詞的語義。類似的系統(tǒng)包括ReVerb(),采用了“詞袋模型”的方法,但這種模型有如下缺點:1)無法考慮同義詞的關系;2)“詞袋模型”維度很高,因此計算效率低下;3)生成的模型是人類不可讀的。為了彌補這些缺陷,一個很自然的方法就是使用這些主語和賓語的抽象概念或類型來表示,而不是直接使用這些詞。類似的系統(tǒng)包括FrameNet(),它通過人類標注動詞的主語和賓語類型來表達這個動詞的語義。但是,這個系統(tǒng)也有一些明顯的缺陷:1)人工標注工作量巨大,無法進行拓展;2)動詞參數的抽象程度太高,例如動詞“eat”的賓語概念只有“Ingestibles”所以無法表達動詞的多種語義。經檢索,申請?zhí)枮?201010290860.5,名稱為:基于事件本體的動詞語義信息提取方法,在該發(fā)明中使用一種涉及基于事件本體的動詞語義信息提取方法,通過匹配動詞和動詞角色的方法,提高了識別動詞的準確率。然而,該發(fā)明中并沒有對動詞生成一個人類可讀與機器可計算的概念集,且無法改變人類對于動詞的語義粒度的設置。申請?zhí)枮?200510088741.0,名稱為:一種用于句子分析中動詞歧義結構消解的語義分析方法,在該發(fā)明中利用句子分析中的動詞歧義結構消解的語義;包括:語義模型的構建和語義分析方法,所述的語義模型用于表達動詞的歧義結構,所述的語義分析方法根據語義模型實現歧義結構的判斷、消解和計算。該發(fā)明建立了一種表達動詞歧義結構的統(tǒng)一的語義模型,把歧義結構上升到句子層面進行處理;但是沒有用到外部的知識庫,所以不能對動詞的語義進行表示。綜上所述,ReVerb系統(tǒng)對動詞的表達粒度太細,而FrameNet對動詞表達的粒度又太粗,所以我們急需一個能準確表達動詞語義的算法和系統(tǒng)。技術實現要素:針對現有技術中的缺陷,本發(fā)明的目的是提供一種基于參數概念表達動詞語義的方法及系統(tǒng)。根據本發(fā)明提供的基于參數概念表達動詞語義的方法,包括如下步驟:步驟1:抽取動詞與賓語,以及動詞與主語的依存關系;步驟2:根據動詞與賓語、動詞與主語的依存關系計算動詞參數對于模式的熵值,并計算動詞參數對于該動詞的互信息值,計算得到動詞參數權重;步驟3:將動詞參數進行概念化,即尋找具有最大動詞參數權重的k團。優(yōu)選地,所述步驟2包括:步驟2.1:計算動詞參數對于模式的熵值,熵值越大,則動詞參數的質量越好,所述質量是指某個詞作為這個動詞的參數的可靠度;Entropyv(e)=-Σm∈Me,vP(m)logP(m);]]>式中:Entropyv(e)表示詞e對于動詞v的模式熵,P(m)表示模式m出現的概率,m表示模式m,即詞e和動詞v的不同搭配組合,Me,v表示詞e和動詞v的所有搭配組合;步驟2.2:計算動詞參數對于動詞的互信息值,互信息值越高,則動詞參數的質量越好,具體地,采用的二值的互信息,計算公式如下:MIv(e)=f(x)=1,p(v,e)logp(v,e)p(v)p(e)>0-1,otherwise;]]>式中:MIv(e)表示詞e相對于動詞v的互信息,p(v,e)表示在語料中動詞v和詞e一起出現的概率,p(v)表示動詞v出現的概率,p(e)表示詞e出現的概率;步驟2.3:計算動詞參數的權重值Qv(e),計算公式如下:Qv(e)=Entropyv(e)×MIv(e)。優(yōu)選地,所述步驟3包括:采用分支限界的算法找到最大權重的k團;其中,所述分支限界的算法是指:構造一個搜索樹,樹的每一層,除去根節(jié)點,均表示的是是否選擇某個參數概念,其中左分支就是選擇該參數概念,右分支表示不選擇該參數概念;當選擇到的參數概念數量為k時,判斷此k個參數概念是否在圖中是一個團,如果是,則返回正確;如果不是一個團,則返回錯誤。根據本發(fā)明提供的基于參數概念表達動詞語義的系統(tǒng),包括:依存關系抽取模塊:用于抽取動詞與賓語,以及動詞與主語的依存關系;動詞參數權重計算模塊:用于根據動詞與賓語、動詞與主語的依存關系計算動詞參數對于模式的熵值,并計算動詞參數對于該動詞的互信息值,計算得到動詞參數權重;動詞參數概念化模塊,用于將動詞參數進行概念化,即尋找具有最大動詞參數權重的k團。優(yōu)選地,所述動詞參數權重計算模塊包括:熵值計算模塊:計算動詞參數對于模式的熵值,熵值越大,則動詞參數的質量越好,所述質量是指某個詞作為這個動詞的參數的可靠度;計算公式中如下:Entropyv(e)=-Σm∈Me,vP(m)logP(m);]]>式中:Entropyv(e)表示詞e對于動詞v的模式熵,P(m)表示模式m出現的概率,m表示模式m,即詞e和動詞v的不同搭配組合,Me,v表示詞e和動詞v的所有搭配組合;互信息值計算模塊:計算動詞參數對于動詞的互信息值,互信息值越高,則動詞參數的質量越好,具體地,采用的二值的互信息,計算公式如下:MIv(e)=f(x)=1,p(v,e)logp(v,e)p(v)p(e)>0-1,otherwise;]]>式中:MIv(e)表示詞e相對于動詞v的互信息,p(v,e)表示在語料中動詞v和詞e一起出現的概率,p(v)表示動詞v出現的概率,p(e)表示詞e出現的概率;動詞參數的權重值計算模塊:計算動詞參數的權重值Qv(e),計算公式如下:Qv(e)=Entropyv(e)×MIv(e)。優(yōu)選地,所述動詞參數概念化模塊采用分支限界的算法找到最大權重的k團;其中,所述分支限界的算法是指:構造一個搜索樹,樹的每一層,除去根節(jié)點,均表示的是是否選擇某個參數概念,其中左分支就是選擇該參數概念,右分支表示不選擇該參數概念;當選擇到的參數概念數量為k時,判斷此k個參數概念是否在圖中是一個團,如果是,則返回正確;如果不是一個團,則返回錯誤。與現有技術相比,本發(fā)明具有如下的有益效果:1、本發(fā)明提供的基于參數概念表達動詞語義的方法,創(chuàng)造性地利用外部的知識庫來表示動詞的語義,并且提供給用戶選擇動詞語義粒度的參數,使得得到的動詞語義概念的大小適中。2、本發(fā)明提供的基于參數概念表達動詞語義的方法,得到即可被人類讀懂的動詞語義概念,也可以被機器直接進行計算。附圖說明通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:圖1為本發(fā)明技術程序框架圖;圖2為一種概念圖結構;圖3為對應圖2的另一種概念圖結構;圖4為分支限界的搜索樹示意圖。具體實施方式下面結合具體實施例對本發(fā)明進行詳細說明。以下實施例將有助于本領域的技術人員進一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應當指出的是,對本領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進。這些都屬于本發(fā)明的保護范圍。根據本發(fā)明提供的基于參數概念表達動詞語義的方法及系統(tǒng),首先提出了一種準確抽取動詞參數概念的算法,抽取的動詞參數均來至于知識庫,所述知識庫包括Probase和WordNet。這些知識庫存儲了大量的概念與實體的關系,稱作“IsA”的關系,比如蘋果(apple)是一種(IsA)水果(fruit),則水果是概念,蘋果是實體。定義了兩個概念的語義重疊分數如下:Overlap(c1,c2)=|Ec1∩Ec2|/min{Ec1,Ec2};]]>其中,和分別表示概念c1和c2的實體集合。然后,本發(fā)明將動詞參數概念化的問題轉換成一個在無向圖中找到最大權重的k團問題。一個概念圖G=(C,L,W),其中C表示知識庫的概念集,L表示兩個概念之間的語義重疊分數小于一定的閾值τ,W表示在圖中某個概念的權重,用來表示這個概念相對于某個動詞的質量,也就是這個概念是否能表達這個動詞的用法,比如“食物”相對于“吃”這個動詞。圖2、圖3展示了某個概念圖的結構。通過計算概念圖下面包含的實體的數量來定義概念權重,即假設對于某個動詞來說這些實體的重要性一致,但是這種情況一般是不滿足的。所以本發(fā)明定義了對某個動詞v的實體e的質量以動詞參數權重Qv(e)表示,與步驟2.3對應,因此對于動詞v的概念c的動詞參數權重可以定義如下:wv(c)=Σe∈{e|eIsAc}Qv(e)]]>式中:wv(c)表示概念c相對于動詞v的參數權重;e是某個實體,c是某個概念,eIsAc表示實體e是概念c的一個實例,比如“蘋果”是“食物”的一個實例。因此,動詞參數概念化問題就是在概念圖G=(C,L,W)中找到一個k團(定義為Ck),使得下面的方程值最大,方程式如下:fv(Ck)=Σc∈Ckwc(c);]]>具體地,包括如下步驟:步驟1:抽取動詞與賓語,以及動詞與主語的依存關系;步驟2:根據動詞與賓語、動詞與主語的依存關系計算動詞參數對于模式的熵值,并計算動詞參數對于該動詞的互信息值,計算得到動詞參數權重;步驟3:將動詞參數進行概念化,即尋找具有最大動詞參數權重的k團。所述步驟2包括:步驟2.1:計算動詞參數對于模式的熵值,熵值越大,則動詞參數的質量(也就是某個詞作為這個動詞的參數的可靠度)越好;Entropyv(e)=-Σm∈Me,vP(m)logP(m);]]>式中:Entropyv(e)表示詞e對于動詞v的模式熵,P(m)表示模式m出現的概率,m表示模式m(詞e和動詞v的不同搭配組合),Me,v表示詞e和動詞v的所有搭配組合;步驟2.2:計算動詞參數對于動詞的互信息值,互信息值越高,則動詞參數的質量越好,具體地,采用的二值的互信息,計算公式如下:MIv(e)=f(x)=1,p(v,e)logp(v,e)p(v)p(e)>0-1,otherwise;]]>式中:MIv(e)表示詞e相對于動詞v的互信息,p(v,e)表示在語料中動詞v和詞e一起出現的概率,p(v)表示動詞v出現的概率,p(e)表示詞e出現的概率;步驟2.3:計算動詞參數的權重值:Qv(e)=Entropyv(e)×MIv(e)。所述步驟3包括:采用分支限界的算法找到最大權重的k團。圖2中C0,C1,C2和C3分別代表四個參數概念,其中C0和C3,C1和C3的重合度較高(語義相對較近),從而構建出一個圖,圖中C0和C3,C1和C3沒有邊相連接,如圖3所示。目標是在圖3所示的圖中找到最大的權值的k團,這里令k=3;分支限界的算法值得是構造一個搜索樹,如圖4所示,樹的每一層(除去根節(jié)點)表示的是是否選擇某個參數概念,其中左分支就是選擇該參數概念,右分支表示不選擇該參數概念;當選擇到的參數概念數量為k時,判斷此k個參數概念是否在圖中是一個團,如果是則返回正確,不是一個團則返回錯誤,示例參見圖4。以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領域技術人員可以在權利要求的范圍內做出各種變形或修改,這并不影響本發(fā)明的實質內容。當前第1頁1 2 3