相似度Θ計算方法如下:。其中,d是在Hownet義原層次體系中tl的 義原到t2的義原的路徑長度,α是一個可調節(jié)的參數(shù)。Hownet是一個漢語詞匯語義的本 體。
[0135] 另外,假設兩個事件El和Ε2的論元相同個數(shù)記為SA,E1中包含但Ε2不包含的論 元數(shù)記為NSA1,E2包含但El不包含的論元數(shù)記為NSA2。事件對(E1,E2)的轉化組合項特 征設置方法如下:
[0136] 如果SA>0則把特征19置為1,否則轉2);
[0137] 如果NSADO并且NSA2>0則把特征19置為0,否則轉3);
[0138] 如果SA>NSA1或者SA>NSA2則把特征19置為1,否則置為0。
[0139] 例如:例2中的事件El和E2的事件對(El,E2)的事件屬性特征為:
[0140] 例 10 :〈9 = 1X10 = 1X11 = 1X12 = 0X13 = 0X14 = 1X15 = 2X16 = 0X17 =0X18 = 1>
[0141] 事件El和E2的事件類型(Type)、極性(Polarity)和時態(tài)(Tense) -致,所以特 征9、10和11設置為1 ;事件El和E2的觸發(fā)詞不同,特征12設置為0 ;事件El和E2的觸 發(fā)詞不是同義詞,特征13設置為0 ;事件El和E2的相同論元個數(shù)為1 (猴爪),不同的為0 個(只有2個事件的某個相同核心角色都有對應論元,才比較是否相同或不同),則特征14 和15分別設置為1和0 ;事件El和E2所在的事件句為第1句和第2句(從SenID獲?。?所以間隔句子數(shù)為〇 ;事件El和E2的觸發(fā)詞不匹配,特征17設置為0 ;兩個事件El和E2 的論元相同個數(shù)SA記為1,El中包含但E2不包含的論元數(shù)NSAl記為3, E2包含但El不包 含的論元數(shù)NSA2記為1,。則由于SA>0,把特征19設置為1。
[0142] S205 :為標注文本特征集合中的每個特征根據(jù)所述特征對應的事件對從同指標注 文本中檢索所述事件對是否存在于標注同指事件表中:如果存在,把類別"1"加入所述特 征前;如果不存在,把類別"0"加入所述特征前,最后,把加了所述類別的特征更新到標注 文本特征集合。
[0143] 具體地,加了類別后的每個特征格式為:〈類別X各個特征〉。所述標注同指事件 表是表示同指事件關系的表,每個表項中包含指向同一個事件本體的事件集合。類別"0" 和" 1"分別表示事件對不是/是同指事件。
[0144] 假如例I、例2和例3的內容組成標注文本特征集合中的一個文檔,則由于在例7 的同類型事件表中找到El和E2是同指事件(第一項),則El和E2的事件對(El,E2)特征 為:
[0145] 例 11 :〈1>〈1 =傷人案 >〈2 = NNX3 = 5X4 = PERX4 = WEAX4 = L0CX5 =看 ><6 = VVX7 = 5X8 = PERX8 = WEAX9 = 1X10 = 1X11 = 1X12 = 0X13 = 0X14 = 1X15 = 2X16 = 0X17 = 0X18 = 1>
[0146] 測試文本特征集合中的每個特征項沒有類別,需要同指事件識別方法為其識別兩 個事件是否存在同指關系。
[0147] 步驟S3 :根據(jù)標注文本特征集合中各個事件對的特征,訓練一個同指事件識別模 型;再利用所述同指事件識別模型判別測試文本特征集合中每個特征對應的事件對是否存 在同指關系,得到事件同指第一集合。
[0148] 圖4是本發(fā)明較佳實施例提供的中文同指事件識別方法步驟S3分解流程圖。如 圖4所示,本發(fā)明較佳實施例提供的中文同指事件識別方法步驟S3還包括以下步驟。
[0149] S301 :把標注文本特征集合中的特征作為輸入,調用分類工具訓練得到一個同指 事件識別模型,其中,所述同指事件識別模型包括標注文本(訓練集)特征集合、訓練得到 的參數(shù)和分類工具。
[0150] 于此,所述分類工具可以是貝葉斯分類器、支持向量機分類器或最大熵分類器等。
[0151] 標注文本特征集合中的特征的例子如例11所示。利用貝葉斯、支持向量機或最大 熵等分類器,可以訓練得到一個所述同指事件識別模型。
[0152] S302:把測試文本特征集合中每個事件對的特征作為輸入,調用同指事件識別模 型識別每個所述事件對是否為同指事件,得到事件同指第一集合。
[0153] 所述事件同指第一集合中的每個事件對的格式如下:
[0154] 〈事件El,事件E2,同指結果R,置信度O
[0155] 其中,同指結果R和置信度C是同指事件識別模型的輸出結果,同指結果R為1表 示同指事件,為〇表示不是同指事件。置信度C為一個0-1之間的概率。
[0156] 例如:以下是對例8中的事件對進行同指關系識別后的輸出結果:
[0157] 例 12 :E1,E2,1,0· 574
[0158] El, E4,1,0. 952
[0159] El,E8,0,0. 845
[0160] E2, Ε4,0,0· 862
[0161] Ε2, Ε8,0,0· 941
[0162] Ε4, Ε8,0,0· 759
[0163] Ε3, Ε6,0,0· 508
[0164] Ε3, Ε9,0,0· 653
[0165] Ε6, Ε9,0,0· 873
[0166] Ε7, Ε10,0,0· 671
[0167] 步驟S4 :對事件同指第一集合中初步識別的同指事件結果以文檔為單位進行全 局優(yōu)化,得到事件同指集合。
[0168] 具體而言,上述優(yōu)化過程為:根據(jù)事件同指第一集合構建全局優(yōu)化文檔集合,所述 全局優(yōu)化文檔集合中的每個文檔包括一個目標函數(shù)和4種約束條件,所述4種約束條件為 傳遞性約束、觸發(fā)詞詞距離約束、觸發(fā)詞句距離約束和角色約束;并調用整形線性規(guī)劃工 具,對所述全局優(yōu)化文檔集合中的每個文檔求解,得到最終的事件同指集合。
[0169] 圖5是本發(fā)明較佳實施例提供的中文同指事件識別方法步驟S4分解流程圖。如 圖5所示,本發(fā)明較佳實施例提供的中文同指事件識別方法步驟S4還包括以下步驟。
[0170] S401、以文檔為單位,基于分類概率最大化的思想為測試文本中的每個文檔創(chuàng)建 目標函數(shù),加入所述文檔對應的全局優(yōu)化文檔(初始為空),所有的全局優(yōu)化文檔構成全局 優(yōu)化文檔集合。
[0171] 本步驟中,所述目標函數(shù)如下:
[0172] 其中,D表示一個文檔中的所有事件對集合,每個文檔都有一個目標函數(shù);Ρ<1ιΡ表 示事件對(Ei,Ej)被分類為同指事件的概率,來自事件同指第一集合中的置信度C,如果所 述事件同指第一集合中事件對(Ei,Ej)被分類為同指事件(同指結果R^= I) 否則,P^= I-C^p 和分別表示在所述事件同指第一集合中事件對 (Ei,Ej)的同指結果和置信度屬性,在Χ<1ι]>是一個二元變量(0或1),是目標函數(shù)最終的輸 出結果,χ<?為1表示事件對(Ei, Ej)被推理為同指事件,為0表示事件對(Ei, Ej)被推 理為非同指事件。
[0173] 例如,例12所對應文檔的目標函數(shù)根據(jù)定義為:
[0174] 例 13 :
[0175] Max(xl2*log(0. 574) + (l-xl2)*loga_0· 574)) + (xl4*log(0. 952) + (l-xl4)*log( 1-0. 952)) + (xl8*log(1-0. 845) + (l-xl8)*log(0· 845)) + (x24*log(1-0. 862) + (l-x24)*log (0· 862)) + (x28*log(l-0. 941) + (l-x28)*log(0. 941)) + (x48*log(l-0. 759) + (l-x48)*log (0· 759)) + (x36*log(l-0. 508) + (l-x36)*log(0. 508)) + (x39*log(l-0. 653) + (l-x39)*log (0· 653)) + (x69*log(l-0. 873) + (l-x69)*log(0. 873)) + (x710*log(l-0. 671) + (l-x710)*l 〇g(0. 671)))
[0176] 例13是形式化描述的目標函數(shù)展開后的一個例子。其中,xl2等以x開頭的變量 是0-1二元變量,用于指示事件對是否存在同指關系。如:xl2和X89分別對應事件對(E1, E2)和(E8, E9),其它依次類推。Max是一個整形線性規(guī)劃工具的運算符,表示求后面公式 的最大值。
[0177] S402、根據(jù)同指事件的傳遞性原理,如果Ei和Ej是同指事件,并且Ej和Ek是同 指事件,則Ei和Ek是同指事件,為全局優(yōu)化文檔集合中的每個文檔加入傳遞性約束條件, 所述傳遞性約束條件為1。
[0178] 例如,例12所對應文檔的傳遞性約束條件有:
[0179] 例 14 :
[0180] xl2+x24-xl4< = 1
[0181] χ12+χ28-χ18< = I
[0182] xl4+x48-xl8< = I
[0183] x24+x48-xl8< = I
[0184] χ36+χ69-χ39< = I
[0185] S403、如果事件同指第一集合中任意一個事件對(Ei,Ej)的觸發(fā)詞詞距離小于第 二閾值,并且它們的語義相似度Θ大于等于第三閾值,為全局優(yōu)化文檔集合中的事件對 (Ei,Ej)所在的文檔加入觸發(fā)詞詞距離約束條件為:
[0186] ,其中,觸發(fā)詞詞距離是指分詞后文檔中的兩個觸發(fā)詞之間詞組的數(shù)量。
[0187] 例如,設置第二閾值和第三閾值分別為15和0. 8,例1所示的文本中,E3(受傷)和 E6(重傷)觸發(fā)詞詞距離為12,小于第二閾值,"受傷"和"重傷"的語義相似度Θ為0.862, 大于第三閾值,則設置以下觸發(fā)詞詞距離約束條件:
[0188] 例 15 :x36 = 1
[0189] S404、如果事件同指第一集合中任意一個事件對(Ei,Ej)在文檔中對應的事件句 是相鄰句或間隔1句,并且它們對應的事件類型在所述文檔中出現(xiàn)次數(shù)最多,為全局優(yōu)化 文檔集合中的事件對(Ei,Ej)所在的文檔加入觸發(fā)詞句距離約束條件為:,其中,相鄰句是 指在文檔中首尾相鄰的兩個句子;間隔1句是指兩個句子中間有一個句子間隔。
[0190] 例如,事件E2和E4位于相鄰句,而且它們的事件類型"Attack"對應的事件數(shù)量 最多(5個),則設置以下觸發(fā)詞句距離約束條件:
[0191] 例 16 :x24 = 1
[0192] S