1.一種基于參數(shù)概念表達(dá)動詞語義的方法,其特征在于,包括如下步驟:
步驟1:抽取動詞與賓語,以及動詞與主語的依存關(guān)系;
步驟2:根據(jù)動詞與賓語、動詞與主語的依存關(guān)系計算動詞參數(shù)對于模式的熵值,并計算動詞參數(shù)對于該動詞的互信息值,計算得到動詞參數(shù)權(quán)重;
步驟3:將動詞參數(shù)進行概念化,即尋找具有最大動詞參數(shù)權(quán)重的k團。
2.根據(jù)權(quán)利要求1所述的基于參數(shù)概念表達(dá)動詞語義的方法,其特征在于,所述步驟2包括:
步驟2.1:計算動詞參數(shù)對于模式的熵值,熵值越大,則動詞參數(shù)的質(zhì)量越好,所述質(zhì)量是指某個詞作為這個動詞的參數(shù)的可靠度;
式中:Entropyv(e)表示詞e對于動詞v的模式熵,P(m)表示模式m出現(xiàn)的概率,m表示模式m,即詞e和動詞v的不同搭配組合,Me,v表示詞e和動詞v的所有搭配組合;
步驟2.2:計算動詞參數(shù)對于動詞的互信息值,互信息值越高,則動詞參數(shù)的質(zhì)量越好,具體地,采用的二值的互信息,計算公式如下:
式中:MIv(e)表示詞e相對于動詞v的互信息,p(v,e)表示在語料中動詞v和詞e一起出現(xiàn)的概率,p(v)表示動詞v出現(xiàn)的概率,p(e)表示詞e出現(xiàn)的概率;
步驟2.3:計算動詞參數(shù)的權(quán)重值Qv(e),計算公式如下:
Qv(e)=Entropyv(e)×MIv(e)。
3.根據(jù)權(quán)利要求1所述的基于參數(shù)概念表達(dá)動詞語義的方法,其特征在于,所述步驟3包括:采用分支限界的算法找到最大權(quán)重的k團;其中,所述分支限界的算法是指:構(gòu)造一個搜索樹,樹的每一層,除去根節(jié)點,均表示的是是否選擇某個參數(shù)概念,其中左分支就是選擇該參數(shù)概念,右分支表示不選擇該參數(shù)概念;當(dāng)選擇到的參數(shù)概念數(shù)量為k時,判斷此k個參數(shù)概念是否在圖中是一個團,如果是,則返回正確;如果不是一個團,則返回錯誤。
4.一種基于參數(shù)概念表達(dá)動詞語義的系統(tǒng),其特征在于,包括:
依存關(guān)系抽取模塊:用于抽取動詞與賓語,以及動詞與主語的依存關(guān)系;
動詞參數(shù)權(quán)重計算模塊:用于根據(jù)動詞與賓語、動詞與主語的依存關(guān)系計算動詞參數(shù)對于模式的熵值,并計算動詞參數(shù)對于該動詞的互信息值,計算得到動詞參數(shù)權(quán)重;
動詞參數(shù)概念化模塊,用于將動詞參數(shù)進行概念化,即尋找具有最大動詞參數(shù)權(quán)重的k團。
5.根據(jù)權(quán)利要求4所述的基于參數(shù)概念表達(dá)動詞語義的系統(tǒng),其特征在于,所述動詞參數(shù)權(quán)重計算模塊包括:
熵值計算模塊:計算動詞參數(shù)對于模式的熵值,熵值越大,則動詞參數(shù)的質(zhì)量越好,所述質(zhì)量是指某個詞作為這個動詞的參數(shù)的可靠度;計算公式中如下:
式中:Entropyv(e)表示詞e對于動詞v的模式熵,P(m)表示模式m出現(xiàn)的概率,m表示模式m,即詞e和動詞v的不同搭配組合,Me,v表示詞e和動詞v的所有搭配組合;
互信息值計算模塊:計算動詞參數(shù)對于動詞的互信息值,互信息值越高,則動詞參數(shù)的質(zhì)量越好,具體地,采用的二值的互信息,計算公式如下:
式中:MIv(e)表示詞e相對于動詞v的互信息,p(v,e)表示在語料中動詞v和詞e一起出現(xiàn)的概率,p(v)表示動詞v出現(xiàn)的概率,p(e)表示詞e出現(xiàn)的概率;
動詞參數(shù)的權(quán)重值計算模塊:計算動詞參數(shù)的權(quán)重值Qv(e),計算公式如下:
Qv(e)=Entropyv(e)×MIv(e)。
6.根據(jù)權(quán)利要求4所述的基于參數(shù)概念表達(dá)動詞語義的系統(tǒng),其特征在于,所述動詞參數(shù)概念化模塊采用分支限界的算法找到最大權(quán)重的k團;其中,所述分支限界的算法是指:構(gòu)造一個搜索樹,樹的每一層,除去根節(jié)點,均表示的是是否選擇某個參數(shù)概念,其中左分支就是選擇該參數(shù)概念,右分支表示不選擇該參數(shù)概念;當(dāng)選擇到的參數(shù)概念數(shù)量為k時,判斷此k個參數(shù)概念是否在圖中是一個團,如果是,則返回正確;如果不是一個團,則返回錯誤。