一種事件類型識(shí)別方法及裝置的制造方法

文檔序號(hào)：10725053閱讀：460來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種事件類型識(shí)別方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種事件類型識(shí)別方法及裝置。該方法包括以下步驟：對(duì)訓(xùn)練集中所有文本進(jìn)行分詞、提取詞性處理后訓(xùn)練詞向量空間模型，提取文本的特征，將文本表示為特征向量；對(duì)于訓(xùn)練集進(jìn)行事件類型聚類，訓(xùn)練帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型；對(duì)于測試樣本同樣進(jìn)行分析、提取詞性處理，并利用已經(jīng)訓(xùn)練好的詞向量模型，得到特征表示；利用類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行事件類別識(shí)別。借助于本發(fā)明的技術(shù)方案，能夠利用同一群組中的類型共享信息來減輕標(biāo)注數(shù)據(jù)不平衡帶來的問題。
【專利說明】
一種事件類型識(shí)別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計(jì)算機(jī)自然語言處理領(lǐng)域，特別涉及一種事件類型識(shí)別方法及裝置。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時(shí)代的來臨，特別是微博、微信、購物等移動(dòng)應(yīng)用的推廣，文本數(shù)量呈爆炸式增長，如何從文本中挖掘出有價(jià)值的信息成為當(dāng)前的一項(xiàng)重要研究課題。信息抽取是從大量無結(jié)構(gòu)文本中識(shí)別和抽取人們感興趣的信息，為進(jìn)一步的話題檢測與跟蹤、信息檢索、知識(shí)問答等應(yīng)用打下基礎(chǔ)。例如，從網(wǎng)站瀏覽記錄中提取用戶關(guān)心的話題，從新聞報(bào) 道中提取爆炸、恐怖襲擊等重大事件。美國著名機(jī)構(gòu)TDT(Topic Detection and Tracking) 針對(duì)新聞媒體等網(wǎng)絡(luò)文本設(shè)立了專門的研究課題，目的是能夠?qū)π侣劽襟w中的熱點(diǎn)話題進(jìn) 行持續(xù)地追蹤和檢索。TDT的主要任務(wù)包括：（a)文本數(shù)據(jù)信息過濾和提?。唬╞)熱點(diǎn)事件發(fā) 生時(shí)間抽?。唬╟)熱點(diǎn)事件與話題挖掘。其中事件類型識(shí)別是TDT的關(guān)鍵技術(shù)。目前主流的事件類型識(shí)別方法采用了有監(jiān)督學(xué)習(xí)方法。有監(jiān)督學(xué)習(xí)方法利用標(biāo)注好的實(shí)例集合來訓(xùn)練分類器。但是，現(xiàn)在可獲取的已標(biāo)注數(shù)據(jù)都是高度不平衡的。原因在于常見事件和不常見事件的出現(xiàn)情況有很大不同。舉例來說，ACE2005將事件分為了8個(gè)大類，33個(gè)小類。
[0003] 表一
[0005] 表一顯示了 ACE2005語料中的已標(biāo)注事件中最常見及最不常見事件的統(tǒng)計(jì)信息。最常出現(xiàn)的事件的出現(xiàn)次數(shù)比最不常見的事件的出現(xiàn)次數(shù)高了大約55(3187/57)倍。對(duì)于普通事件來說，比如攻擊和運(yùn)輸，它們?cè)诂F(xiàn)實(shí)生活中經(jīng)常發(fā)生，語料中也有數(shù)以百計(jì)的此類標(biāo)注實(shí)例。然而，對(duì)于那些不常見的事件，語料中僅僅只有幾條標(biāo)注的實(shí)例。像引渡、假釋和宣告無罪這些類別的事件，在語料庫中只有不到10條標(biāo)注實(shí)例。顯然，在這樣一個(gè)小規(guī)模的訓(xùn)練數(shù)據(jù)集上很難得到一個(gè)令人滿意的結(jié)果。

【發(fā)明內(nèi)容】

[0006] 鑒于上述問題，提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種事件類型識(shí)別方法及裝置。
[0007] 本發(fā)明的提供一種事件類型識(shí)別方法，包括以下步驟：
[0008] 對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練，根據(jù) 詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量:Ti，進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri，r2,. . .，rn];
[0009] 在特征向量Γι的基礎(chǔ)上加入事件類型向量得到特征向量v，對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇，訓(xùn)練所述訓(xùn)練樣本集，得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型；
[0010] 對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量，進(jìn)而將測試樣本表示為特征向量；
[0011] 將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型，然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。
[0012] 本發(fā)明還提供了一種事件類型識(shí)別裝置，包括訓(xùn)練樣本集特征提取模塊、事件類型聚類及訓(xùn)練模塊、測試樣本集特征提取模塊、以及測試模塊；
[0013] 所述訓(xùn)練樣本集特征提取模塊，用于對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā) 詞及觸發(fā)詞的上下文表示為特征向量ri，進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri，r2, ...， rn]；
[0014] 所述事件類型聚類及訓(xùn)練模塊，用于在特征向量^的基礎(chǔ)上加入事件類型向量得到特征向量ν，對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇，訓(xùn)練所述訓(xùn)練樣本集，得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型；
[0015] 所述測試樣本集特征提取模塊，用于對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量，進(jìn)而將所述測試樣本表示為特征向量；
[0016] 所述測試模塊，用于將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型，然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。
[0017] 本發(fā)明有益效果如下：
[0018] 本發(fā)明實(shí)施例運(yùn)用聚類算法將所有事件類型自動(dòng)聚為幾個(gè)群組，并且提出類型-群組正則項(xiàng)來促進(jìn)同一個(gè)群組中的類型在訓(xùn)練過程中共享信息，這樣稀疏的類型的事件就可以從同一個(gè)群組中的密集類型中獲取部分信息。進(jìn)一步的，本發(fā)明實(shí)施例的神經(jīng)網(wǎng)絡(luò)模型使用詞向量作為輸入并且具有自動(dòng)學(xué)習(xí)特征，充分利用了神經(jīng)網(wǎng)絡(luò)的優(yōu)勢，能夠解決事件檢測任務(wù)中數(shù)據(jù)不平衡帶來的問題。
【附圖說明】
[0019] 圖1是本發(fā)明方法實(shí)施例的事件類型識(shí)別方法的流程圖；
[0020] 圖2是本發(fā)明方法實(shí)施例實(shí)例1的事件類型識(shí)別方法的示意圖；
[0021] 圖3是本發(fā)明裝置實(shí)施例的事件類型識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022] 為了解決現(xiàn)有技術(shù)事件檢測任務(wù)中數(shù)據(jù)不平衡帶來的問題，本發(fā)明提供了一種事件類型識(shí)別方法及裝置，以下結(jié)合附圖以及實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不限定本發(fā)明。
[0023] 根據(jù)本發(fā)明的方法實(shí)施例，提供了一種事件類型識(shí)別方法，圖1是本發(fā)明方法實(shí)施例的事件類型識(shí)別方法的流程圖，如圖1所示，根據(jù)本發(fā)明方法實(shí)施例的事件類型識(shí)別方法，包括如下處理：
[0024] 步驟101，對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn) 練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri，進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri，r2,. . .，rn]。
[0025] 在步驟101中，所述預(yù)定詞性的詞語為名稱和動(dòng)詞。
[0026] 進(jìn)一步的，所述對(duì)訓(xùn)練樣本集和測試樣本集除進(jìn)行分詞以及標(biāo)注詞性處理，還包括去除停用詞等。
[0027] 具體的，對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn) 練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量包括以下步驟：
[0028]對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后得到詞序列{W1，W2, ...，wT}，對(duì)所述詞序列Iwi，W2，...，WT}構(gòu)建模型的目標(biāo)函數(shù)，所述模型的目標(biāo)函數(shù)如公式1所示；
[0029]
[0030] 在公式1中，T代表詞序列中詞的個(gè)數(shù);c是詞向量模型訓(xùn)練過程中限定的上下文范圍；p(wt+j |wt)用公式2表示；
[0031]
[0032] 在公式2中，v?4和分別表不wt的輸入向量和輸出向量;W代表詞典集合的大??；
[0033] 根據(jù)所述模型的目標(biāo)函數(shù)，對(duì)訓(xùn)練樣本集進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量。
[0034] 具體的，將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量n，進(jìn)而將所述訓(xùn)練樣本集表示為特征向量[ri，r2,...，r n]包括以下步驟：
[0035] 根據(jù)訓(xùn)練樣本集中詞語的詞性，將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞；
[0036] 根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量n，進(jìn)而將所述訓(xùn)練樣本集表示為特征向量[ri，r2,. . .，rn];
[0037] 在公式[ri，r2,. . .，rn]中，ri表示ri~rn中任意一個(gè)觸發(fā)詞加上觸發(fā)詞上下文的特征表示，η為觸發(fā)詞的總個(gè)數(shù)；η 6 表示ri屬于di的實(shí)數(shù)空間；di=dwXni，di 表示η詞向量的維度，dw表示ri所對(duì)應(yīng)的觸發(fā)詞的詞向量的維度，m表示ri所對(duì)應(yīng)的觸發(fā)詞的上下文詞語的數(shù)量。
[0038] 步驟102，在特征向量ri的基礎(chǔ)上加入事件類型向量得到特征向量v，對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇，訓(xùn)練所述訓(xùn)練樣本集，得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型。
[0039] 具體的，在所述特征向量Γι的基礎(chǔ)上加入事件類型向量得到特征向量V，對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇并進(jìn)行處理包括以下步驟：
[0040] 在所述特征向量ri的基礎(chǔ)上加入事件類型得到特征向量V，進(jìn)而得到所述訓(xùn)練樣本集的特征向量V，其中，v E 11夂>5·，.即v屬于din的實(shí)數(shù)空間，din=di+m,，di表示ri詞向量的維度，m表示觸發(fā)詞對(duì)應(yīng)的事件類型的個(gè)數(shù)；
[0041 ]根據(jù)訓(xùn)練樣本集中每一個(gè)觸發(fā)詞的特征向量v和訓(xùn)練樣本集的特征向量V，利用K-means聚類算法對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇；
[0042]統(tǒng)計(jì)每一個(gè)聚類簇中事件類型的個(gè)數(shù)和觸發(fā)詞的個(gè)數(shù)，如果某個(gè)事件在聚類簇中的觸發(fā)詞個(gè)數(shù)比在所述標(biāo)注樣本集中觸發(fā)詞個(gè)數(shù)的一半還少，那么將該事件類型從聚類簇中移除;如果聚類簇只包含一個(gè)事件類型，那么將該聚類簇刪除。
[0043]具體的，根據(jù)所述聚類簇，訓(xùn)練所述訓(xùn)練樣本集，得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型包括以下步驟：
[0044] 對(duì)訓(xùn)練集合(x(1);y(1))，定義負(fù)對(duì)數(shù)似然損失函數(shù)J(0)，
[0045]
[0046] 在公式3，J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù)，表示一個(gè)事件類別的標(biāo)簽;代表訓(xùn)練樣本，0代表參數(shù)；
[0048]在公式4中，c是C中的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;n(°'k)代表第 C聚類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù)，Wo代表輸出層的權(quán)重矩陣，代表第C類簇中第 k個(gè)事件類型的權(quán)重；代表C中所有權(quán)重向量的平均值；其中，辦@ 代表第C聚類簇中第j個(gè)事件類型的權(quán)重；
[0049] 將J(0)和R(0)代入公式5,采用隨機(jī)梯度下降法(SGD)將損失函數(shù)最小化獲得Θ的值；
[0050] 損失函數(shù) ^(0),^(0)=^0)+(^(0)公式 5;
[0051] 在公式5中，^(θ)代表損失函數(shù)，u是權(quán)衡J(0)和R(0)的超參數(shù)。
[0052]步驟103,對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量，進(jìn)而將所述測試樣本表示為特征向量。在本發(fā)明中，所述測試樣本指的是測試樣本集中的文本。
[0053]本發(fā)明步驟103的具體操作與步驟101相同或相似。
[0054]步驟104,將測試樣本集中的每一個(gè)測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型，然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。
[0055]具體的，將測試樣本集的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò) 模型中并進(jìn)行softmax操作得到測試樣本屬于某一事件的概率包括以下步驟：
[0056]將測試樣本集的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型中，對(duì)于某一個(gè)事件s，得到以Θ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量〇;
[0057]利用公式6對(duì)所有事件類型進(jìn)行softmax操作，得到測試樣本屬于某一事件的概率；
[0059] 在公式6中，p(i|x，0)表示給定文本X屬于第i類事件的概率;〇1代表第i個(gè)類別的值，〇k代表第k個(gè)類別的值;k代表一個(gè)事件，m代表事件的種類，Θ代表參數(shù)。
[0060] 為了使本發(fā)明方式實(shí)施例更加清楚明白，以下結(jié)合具體實(shí)例1，對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
[0061] 本發(fā)明方法實(shí)施例實(shí)例1的執(zhí)行環(huán)境采用一臺(tái)具有2.4G赫茲中央處理器和8G字節(jié) 內(nèi)存的奔騰4計(jì)算機(jī)并用JAVA語言編制了事件類型識(shí)別程序，還可以采用其他的執(zhí)行環(huán)境，在此不再贅述。
[0062] 圖2是本發(fā)明方法實(shí)施例實(shí)例1的事件類型識(shí)別方法的示意圖，如圖2所示，所述方法包括以下步驟：
[0063] 步驟1:對(duì)訓(xùn)練樣本集中每一個(gè)文本進(jìn)行分詞等文本預(yù)處理工作；
[0064]其中，步驟1中所述分詞指的是利用NLPIR的分詞工具將一個(gè)文本切割為一個(gè)個(gè)獨(dú) 立的詞語，那么一個(gè)文本就可以表示為[詞1，詞2···詞η]，其中η為該文本的詞語數(shù)目。
[0065] 步驟1中所述預(yù)處理工作包括去除文本的停用詞、標(biāo)注詞語的詞性，以達(dá)到去除一定的干擾的目的。
[0066] 所述詞性指的是詞語屬于名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、連詞、助詞、嘆詞、擬聲詞、區(qū)別詞、語氣詞、或狀態(tài)詞中的一種。
[0067] 步驟2:對(duì)分詞后的文本進(jìn)行詞向量模型訓(xùn)練。
[0068]本發(fā)明方法實(shí)施例實(shí)例1使用Skip-gram模型進(jìn)行詞向量模型訓(xùn)練。在傳統(tǒng)η元語言模型的上下文中，通常是給出第i個(gè)詞之前的η個(gè)詞的序列{Wl-n，，要求預(yù)測第i 個(gè)詞Wi的概率分布，該過程是一個(gè)連續(xù)序列的預(yù)測過程。而對(duì)于Skip-gram語言模型，給定一個(gè)詞wt，它的輸出是預(yù)測第w t+j的概率。其中，j可能是大于1或小于-1的整數(shù)，因而詞wt與詞wt+廟詞序列中的位置并不一定連續(xù)，此所謂"跳躍"。形式化的，給定詞序列{ W1，w2，...， WT}，模型的目標(biāo)函數(shù)為最大化如下指數(shù)概率：
[0070]在公式1中，T代表代表詞序列中詞的個(gè)數(shù)，c是訓(xùn)練模型過程中限定的上下文范圍。C值越大，模型利用的上下文范圍越廣，則訓(xùn)練所得的模型可能越準(zhǔn)確。對(duì)于p (wt+j I Wt) 用公式2表示，
[0072] 在公式2中，1%和__vWi分別表不wt的輸入向量和輸出向量;W代表詞典集合的大小。
[0073] 步驟3:提取文本的特征，將文本表示為特征向量；
[0074] 所述步驟3進(jìn)一步包括以下步驟：
[0075] 步驟31:提取文本中的名詞和動(dòng)詞作為事件觸發(fā)詞；
[0076] 步驟32:根據(jù)步驟2得到每一個(gè)觸發(fā)詞的詞向量攸€ 其中《代表詞向量，cU表示詞向量的維度，，表示dw的實(shí)數(shù)空間，wfH,表示w屬于這個(gè)實(shí)數(shù)空間。為了更有效地描述文本，我們引入每一個(gè)觸發(fā)詞的上下文作為特征表示，那么一個(gè)文本可以表示為：[n， ?，. . .，rn]，其中tv€H^sdi = dwXrn，n為觸發(fā)詞的總個(gè)數(shù)，m為上下文詞語的數(shù)量。
[0077] 步驟4:對(duì)于訓(xùn)練集進(jìn)行事件類型聚類。
[0078] 所述步驟4進(jìn)一步包括以下步驟：
[0079] 步驟41:為每一個(gè)觸發(fā)詞構(gòu)造一個(gè)特征向量v，V € 其中din = di+m。!!!為事件類型的個(gè)數(shù)。具體來講，特征向量的內(nèi)容由觸發(fā)詞的詞向量，其上下文的詞向量以及觸發(fā)詞對(duì)應(yīng)的事件類型的詞向量拼接而成。后m維的向量，用來區(qū)分不同的事件類型，使得同一類型的事件聚到一個(gè)類中。不同類別的向量之間正交，這樣使得不同類型的向量差異最大，相同類型的向量差異最小。
[0080] 步驟42:利用κ-means聚類算法對(duì)訓(xùn)練集中的觸發(fā)詞進(jìn)行訓(xùn)練。假設(shè)訓(xùn)練樣本集有 N個(gè)觸發(fā)詞以及他們的描述向量V= {vi，V2,. . .，vn}，給定群組數(shù)量k，那么K-mean算法的目標(biāo)是將V分成k個(gè)群組S= {Si，S2,. . .，Sk};
[0081] 步驟43:對(duì)每一個(gè)聚類簇，統(tǒng)計(jì)其中的事件類型的個(gè)數(shù)以及觸發(fā)詞個(gè)數(shù)。
[0082]步驟44:如果某個(gè)事件在聚類簇c中的觸發(fā)詞個(gè)數(shù)比它在整個(gè)語料中觸發(fā)詞個(gè)數(shù) 的一半還少，那么將該事件類型從聚類簇c中移除。
[0083]步驟45:如果聚類簇c只包含一個(gè)事件類型，那么將該聚類簇刪除。
[0084] 步驟5:訓(xùn)練帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型；
[0085] 基于人工神經(jīng)網(wǎng)絡(luò)，把模型訓(xùn)練成如下形式= (WE，Wh，W。)3。
[0086] 其中WE是指詞向量，Wh和W。分別為人工神經(jīng)網(wǎng)絡(luò)的隱藏層和輸出層。對(duì)于一個(gè)給定的事件s，以Θ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量〇,其中的第i個(gè)值〇1是第i個(gè)類別的置信度。為了獲得條件概率P(i |χ，θ)，對(duì)所有事件類型進(jìn)行softmax操作：
[0088] 在公式6中，〇i代表第i個(gè)類別的值，〇k代表第k個(gè)類別的值;k代表一個(gè)事件，m代表事件的種類，Θ代表參數(shù)；
[0089] 對(duì)訓(xùn)練集合(X(1);y(1))，定義負(fù)對(duì)數(shù)似然損失函數(shù)J(0)，
[0090] !( 8 ) ::: -ZLi 浪.名} 公式 3;
[0091] 在公式3，J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù)，y(1)表示一個(gè)事件類別的標(biāo)簽;χ(1)代表訓(xùn)練樣本，Θ代表參數(shù)；
[0092] 為了共享不同事件類型的相關(guān)信息，將一個(gè)正則化項(xiàng)添加到損失函數(shù)中，定義正則化項(xiàng)R(0)
[0093] 在公式4中，c是C中的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;n(°'k)代表第 c聚類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù)，W。代表輸出層的權(quán)重矩陣代表第c類簇中第 k個(gè)事件類型的權(quán)重;代表c中所有權(quán)重向量的平均值
其中，代表第c聚類簇中第j個(gè)事件類型的權(quán)重；
[0094] 其中C是所有類型聚類簇，c是C中的一個(gè)聚類。n(°'k)是c中第k個(gè)類型的觸發(fā)詞個(gè) 數(shù)，ι?是c中所有類型的權(quán)重向量的平均值。W。是輸出層的權(quán)重矩陣。這個(gè)假設(shè)背后的直覺是，相似的事件類型應(yīng)該有相似的權(quán)重向量。上述方程中的二次項(xiàng)使得同一個(gè)群組中的權(quán) 重向量相似。而它的系數(shù)使得實(shí)例越多的類型越不會(huì)受到這一項(xiàng)的懲罰。也就是說，有足夠多的已標(biāo)注實(shí)例的類型將基本保持它們的權(quán)重向量不變。相反，那些實(shí)例很少的類型就需要從群組中學(xué)習(xí)。這樣，稀疏類型就可以從密集類型中獲益，讓我們的模型能夠減輕因?yàn)闃?biāo) 注數(shù)據(jù)不平衡給事件類別識(shí)別帶來的影響。
[0095] 最終的損失函數(shù)^(θ)表述如下：
[0096] J/(0)=J(0)+aR(0)公式 5;
[0097] 其中，a是權(quán)衡J和R的超參數(shù)。采用隨機(jī)梯度下降法(SGD)將上述損失函數(shù)最小化來獲得Θ的值。
[0098] 步驟6:對(duì)于待分類的文本，同樣進(jìn)行分詞預(yù)處理，并得到文本的特征向量表示，最后利用步驟5得到的分類器模型進(jìn)行分類。
[0099] 本發(fā)明方法實(shí)施例公開的面向非均衡樣本的事件類型識(shí)別方法，與現(xiàn)有技術(shù)相比，具有如下優(yōu)點(diǎn)：
[0100] 1、提出了一個(gè)全新的事件類型識(shí)別框架。通過使同一群組中的類型共享信息來減輕標(biāo)注數(shù)據(jù)不平衡帶來的問題。
[0101] 2、分類模型將詞向量作為特征輸入，能夠利用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢自動(dòng)學(xué)習(xí)特征。
[0102] 裝置實(shí)施例
[0103] 根據(jù)本發(fā)明的裝置實(shí)施例，提供了一種事件類型識(shí)別方法裝置，圖3是本發(fā)明裝置實(shí)施例的事件類型識(shí)別裝置的結(jié)構(gòu)示意圖，如圖3所示，根據(jù)本發(fā)明裝置實(shí)施例的事件類型識(shí)別裝置包括:訓(xùn)練樣本集特征提取模塊10、事件類型聚類及訓(xùn)練模塊12、測試樣本集特征提取模塊14、以及測試模塊16;以下對(duì)本發(fā)明實(shí)施例的各個(gè)模塊進(jìn)行詳細(xì)的說明。
[0104] 具體地，所述訓(xùn)練樣本集特征提取模塊10,用于對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè) 詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri，進(jìn)而將訓(xùn)練樣本集表示為特征向量
[!Γ?，!Γ2，· · ·，!Γη]〇
[0105] 更加具體的，所述訓(xùn)練樣本集特征提取模塊10包括訓(xùn)練樣本集分詞子模塊、訓(xùn)練樣本集特征表示子模塊；
[0106] 所述訓(xùn)練樣本集分詞子模塊具體用于：
[0107] 對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后得到詞序列{W1，W2, ...，WT}，對(duì)所述詞序列Iwi，W2，...，WT}構(gòu)建模型的目標(biāo)函數(shù)，所述模型的目標(biāo)函數(shù)如公式1所示；
[0109]在公式1中，T代表詞序列中詞的個(gè)數(shù);c是詞向量模型訓(xùn)練過程中限定的上下文范圍；p(wt+j |wt)用公式2表示；

[0111] 在公式2中，和vWt分別表不wt的輸入向量和輸出向量;W代表詞典集合的大小；[0112] 根據(jù)所述模型的目標(biāo)函數(shù)，對(duì)訓(xùn)練樣本集進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量；[0113] 所述訓(xùn)練樣本集特征表示子模塊具體用于：[0114] 根據(jù)訓(xùn)練樣本集中詞語的詞性，將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞；[0115] 根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量n，進(jìn)而將所述訓(xùn)練樣本集表示為特征向量[ri，r2,. . .，rn];[0116] 在公式[ri，r2,. . .，rn]中，ri表示ri~rn中任意一個(gè)觸發(fā)詞加上觸發(fā)詞上下文的特征表示，η為觸發(fā)詞的總個(gè)數(shù)；€! ? 表示ri屬于di的實(shí)數(shù)空間；di = dwXni，di表示η詞向量的維度，dw表示ri所對(duì)應(yīng)的觸發(fā)詞的詞向量的維度，m表示ri所對(duì)應(yīng)的觸發(fā)詞的上下文詞語的數(shù)量。[0117] 所述事件類型聚類及訓(xùn)練模塊12,用于在特征向量^的基礎(chǔ)上加入事件類型向量得到特征向量V，對(duì)訓(xùn)練樣本集中的觸發(fā)詞進(jìn)行事件類型聚類，得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇，訓(xùn)練所述訓(xùn)練樣本集，得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型。[0118] 更加具體的，所述事件類型聚類及訓(xùn)練模塊12包括事件類型聚類子模塊、及神經(jīng) 網(wǎng)絡(luò)模型訓(xùn)練子模塊；[0119] 所述事件類型聚類子模塊具體用于：[0120] 在所述特征向量η的基礎(chǔ)上加入事件類型得到特征向量V，進(jìn)而得到所述訓(xùn)練樣本集的特征向量V，其中，V' ，即v屬于din的實(shí)數(shù)空間，din = di+m，di表示ri詞向量的維度，m表示觸發(fā)詞對(duì)應(yīng)的事件類型的個(gè)數(shù)；[0121 ]根據(jù)訓(xùn)練樣本集中每一個(gè)觸發(fā)詞的特征向量v和訓(xùn)練樣本集的特征向量V，利用K-means聚類算法對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇；[0122] 統(tǒng)計(jì)每一個(gè)聚類簇中事件類型的個(gè)數(shù)和觸發(fā)詞的個(gè)數(shù)，如果某個(gè)事件在聚類簇中的觸發(fā)詞個(gè)數(shù)比在所述標(biāo)注樣本集中觸發(fā)詞個(gè)數(shù)的一半還少，將該事件類型從聚類簇中移除;如果聚類簇只包含一個(gè)事件類型，將該聚類簇刪除；[0123] 所述神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練子模塊具體用于，[0124] 對(duì)訓(xùn)練集合(x(1);y(1))，定義負(fù)對(duì)數(shù)似然損失函數(shù)J(0)，
[0126]在公式3，J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù)，y(1)表示一個(gè)事件類別的標(biāo)簽;x (1)代表訓(xùn)練樣本，0代表參數(shù)；
[0128] 在公式4中，c是C中的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;n(°'k)代表第 c聚類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù)，W。代表輸出層的權(quán)重矩陣，代表第c類簇中第 k個(gè)事件類型的權(quán)重代表c中所有權(quán)重向量的平均值其中，^4@代表第c聚類簇中第j個(gè)事件類型的權(quán)重；
[0129] 將J(0)和R(0)代入公式5,采用隨機(jī)梯度下降法(S⑶)將損失函數(shù)最小化獲得Θ的值；
[0130] 損失函數(shù) ^(0),^(0)=^0)+(^(0)公式 5;
[0131]在公式5中，^(θ)代表損失函數(shù)，u是權(quán)衡J(0)和R(0)的超參數(shù)。
[0132] 所述測試樣本集特征提取模塊14,用于對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量，進(jìn)而將所述測試樣本表示為特征向量。
[0133] 所述測試模塊16,用于將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng) 的神經(jīng)網(wǎng)絡(luò)模型，然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。
[0134] 更加具體的，所述測試模塊16具體用于：
[0135] 將將測試樣本集中的每一個(gè)測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型中，對(duì)于某一個(gè)事件s，得到以Θ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量〇;
[0136] 利用公式6對(duì)所有事件類型進(jìn)行softmax操作，得到測試樣本屬于某一事件的概率；
[0138] 在公式6中，p(i | χ，θ)表示給定文本X屬于第i類事件的概率;〇i代表第i個(gè)類別的值，〇k代表第k個(gè)類別的值;k代表一個(gè)事件，m代表事件的種類，Θ代表參數(shù)。
[0139] 本發(fā)明實(shí)施例提出了一種采用神經(jīng)網(wǎng)絡(luò)模型來解決事件檢測任務(wù)中數(shù)據(jù)不平衡 (非均衡樣本）問題的方法和裝置，在訓(xùn)練過程中促進(jìn)不同的事件類型共享有效信息。具體來說，首先，運(yùn)用聚類算法將所有事件類型自動(dòng)聚為幾個(gè)群組，并且提出一個(gè)類型-群組正則項(xiàng)來促進(jìn)同一個(gè)群組中的類型在訓(xùn)練過程中共享信息。這樣，稀疏的類型的事件就可以從同一個(gè)群組中的密集類型中獲取部分信息。進(jìn)一步，我們的模型使用詞向量作為輸入并且自動(dòng)學(xué)習(xí)特征，充分利用了神經(jīng)網(wǎng)絡(luò)的優(yōu)勢。
[0140] 顯然，本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【主權(quán)項(xiàng)】
1. 一種事件類型識(shí)別方法，其特征在于，包括W下步驟：對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri，進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri，n，...，rn]; 在特征向量ri的基礎(chǔ)上加入事件類型向量得到特征向量V，對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇，訓(xùn)練所述訓(xùn)練樣本集，得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型；對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā) 詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量，進(jìn)而將測試樣本表示為特征向量，所述測試樣本為測試樣本集中的文本；將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型，然后進(jìn)行 softmax操作得到測試樣本屬于某一事件的概率。2. 如權(quán)利要求1所述的事件類型識(shí)別方法，其特征在于，對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量包括W下步驟：對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后得到詞序列|W1，W2, ...，wt}，對(duì)所述詞序列{W1，W2，...，wt}構(gòu)建模型的目標(biāo)函數(shù)，所述模型的目標(biāo)函數(shù)如公式1所示；公或1 在公式1中，T代表詞序列中詞的個(gè)數(shù);C是詞向量模型訓(xùn)練過程中限定的上下文范圍；P (wt+j|wt)用公式2表示；公式2 在公式2中，分別表示wt的輸入向量和輸出向量;W表示詞典集合的大??；根據(jù)所述模型的目標(biāo)函數(shù)，對(duì)訓(xùn)練樣本集進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量。3. 如權(quán)利要求1所述的事件類型識(shí)別方法，其特征在于，將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量 ri，進(jìn)而將所述訓(xùn)練樣本集表示為特征向量[η，η，...，rn]包括W下步驟：根據(jù)訓(xùn)練樣本集中詞語的詞性，將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞；根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri，進(jìn)而將所述訓(xùn)練樣本集表示為特征向量[ri，n，...，rn]; 在公式[ri，r2,. . .，rn]中，ri表示ri~Γη中任意一個(gè)觸發(fā)詞加上觸發(fā)詞上下文的特征表示，η為觸發(fā)詞的總個(gè)數(shù)；r;' € R'·氣r; 6 表示η屬于di的實(shí)數(shù)空間；di = dwXni，di表示η 詞向量的維度，dw表示ri所對(duì)應(yīng)的觸發(fā)詞的詞向量的維度，ni表示ri所對(duì)應(yīng)的觸發(fā)詞的上下文詞語的數(shù)量。4. 如權(quán)利要求1所述的事件類型識(shí)別方法，其特征在于，在所述特征向量ri的基礎(chǔ)上加入事件類型向量得到特征向量V，對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇并進(jìn)行處理包括W下步驟：在所述特征向量ri的基礎(chǔ)上加入事件類型得到特征向量V，進(jìn)而得到所述訓(xùn)練樣本集的特征向量V，其中，Y gd"，，即V屬于din的實(shí)數(shù)空間，din = di+m，di表示ri詞向量的維度，m表示觸發(fā)詞對(duì)應(yīng)的事件類型的個(gè)數(shù)；根據(jù)訓(xùn)練樣本集中每一個(gè)觸發(fā)詞的特征向量V和訓(xùn)練樣本集的特征向量V，利用K- means聚類算法對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇；統(tǒng)計(jì)每一個(gè)聚類簇中事件類型的個(gè)數(shù)和觸發(fā)詞的個(gè)數(shù)，如果某個(gè)事件在聚類簇中的觸發(fā)詞個(gè)數(shù)比在所述標(biāo)注樣本集中觸發(fā)詞個(gè)數(shù)的一半還少，那么將該事件類型從聚類簇中移除;如果聚類簇只包含一個(gè)事件類型，那么將該聚類簇刪除。5. 如權(quán)利要求1所述的事件類型識(shí)別方法，其特征在于，根據(jù)所述聚類簇，訓(xùn)練所述訓(xùn) 練樣本集，得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型包括W下步驟：對(duì)訓(xùn)練集合(xW;yW)，定義負(fù)對(duì)數(shù)似然損失函數(shù)J(9)，公式3; 在公式3，J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù)，yW表示一個(gè)事件類別的標(biāo)簽;xW代表訓(xùn)練樣本，Θ代表參數(shù)；定義正則化項(xiàng) 、t 公式4; 在公式4中，C是帥的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;代表第C聚類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù)，W。代表輸出層的權(quán)重矩陣，代表第C類簇中第k個(gè) 事件類型的權(quán)重；代表C中所有權(quán)重向量的平均值癢中，代表第C聚類簇中第j個(gè)事件類型的權(quán)重；將J(e)和R(0)代入公式5,采用隨機(jī)梯度下降法將損失函數(shù)最小化獲得Θ的值；損失函數(shù)r (0)，r (0)=J(0)+aR(0) 公式5; 在公式5中，j/(0)代表損失函數(shù)，α是權(quán)衡J(0)和R(0)的超參數(shù)。6. 如權(quán)利要求1所述的事件類型識(shí)別方法，其特征在于，將測試樣本集中的每一個(gè)測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型中并進(jìn)行softmax操作得到測試樣本屬于某一事件的概率包括W下步驟：將測試樣本集的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型中，對(duì)于某一個(gè)事件S，得到ΚΘ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量0; 利用公式6對(duì)所有事件類型進(jìn)行softmax操作，得到測試樣本屬于某一事件的概率；公乂 6: 在公式6中，ρα?χ,θ)表示給定文本X屬于第i類事件的概率;〇1代表第i個(gè)類別的值，Ok 代表第k個(gè)類別的值;k代表一個(gè)事件，m代表事件的種類，Θ代表參數(shù)。7. -種事件類型識(shí)別裝置，其特征在于，包括訓(xùn)練樣本集特征提取模塊、事件類型聚類及訓(xùn)練模塊、測試樣本集特征提取模塊、W及測試模塊；所述訓(xùn)練樣本集特征提取模塊，用于對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量；將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri，進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri，r2,. . .，Γη]; 所述事件類型聚類及訓(xùn)練模塊，用于在特征向量ri的基礎(chǔ)上加入事件類型向量得到特征向量V，對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇，訓(xùn)練所述訓(xùn)練樣本集，得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型；所述測試樣本集特征提取模塊，用于對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞，根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量，進(jìn)而將所述測試樣本表示為特征向量；所述測試模塊，用于將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng) 網(wǎng)絡(luò)模型，然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。8. 如權(quán)利要求7所述的事件類型識(shí)別裝置，其特征在于，所述訓(xùn)練樣本集特征提取模塊包括訓(xùn)練樣本集分詞子模塊、訓(xùn)練樣本集特征表示子模塊；所述訓(xùn)練樣本集分詞子模塊具體用于：對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后得到詞序列|W1，W2, ...，wt}，對(duì)所述詞序列{W1，W2，. . .，wt}構(gòu)建模型的目標(biāo)函數(shù)，所述模型的目標(biāo)函數(shù)如公式1所示；公式1; 在公式1中，T代表詞序列中詞的個(gè)數(shù);C是詞向量模型訓(xùn)練過程中限定的上下文范圍；P (wt+j|wt)用公式2表示；公式2; 在公式2中，\.和v":,.分別表不wt的輸入向量和輸出向量;W代表詞典集合的大小；根據(jù)所述模型的目標(biāo)函數(shù)，對(duì)訓(xùn)練樣本集進(jìn)行詞向量模型訓(xùn)練，根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量；所述訓(xùn)練樣本集特征表示子模塊具體用于：根據(jù)訓(xùn)練樣本集中詞語的詞性，將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞；根據(jù)事件觸發(fā)詞的詞向量，將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri，進(jìn)而將所述訓(xùn)練樣本集表示為特征向量[ri，r2,. . .，rn]; 在公式[ri，r2,. . .，rn]中，ri表示ri~Γη中任意一個(gè)觸發(fā)詞加上觸發(fā)詞上下文的特征表示，η為觸發(fā)詞的總個(gè)數(shù)巧€齡;，Γ; e;批嗦示ri屬于di的實(shí)數(shù)空間；di = dw X m，d康示ri詞向量的維度，dw表示η所對(duì)應(yīng)的觸發(fā)詞的詞向量的維度，ni表示ri所對(duì)應(yīng)的觸發(fā)詞的上下文詞語的數(shù)量。9. 如權(quán)利要求7所述的事件類型識(shí)別裝置，其特征在于，所述事件類型聚類及訓(xùn)練模塊包括事件類型聚類子模塊、及神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練子模塊；所述事件類型聚類子模塊具體用于：在所述特征向量ri的基礎(chǔ)上加入事件類型得到特征向量V，進(jìn)而得到所述訓(xùn)練樣本集的特征向量V，其中，V泛，即V屬于din的實(shí)數(shù)空間，din = di+m，di表示ri詞向量的維度，m表示觸發(fā)詞對(duì)應(yīng)的事件類型的個(gè)數(shù)；根據(jù)訓(xùn)練樣本集中每一個(gè)觸發(fā)詞的特征向量V和訓(xùn)練樣本集的特征向量V，利用K- means聚類算法對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類，得到多個(gè)聚類簇；統(tǒng)計(jì)每一個(gè)聚類簇中事件類型的個(gè)數(shù)和觸發(fā)詞的個(gè)數(shù)，如果某個(gè)事件在聚類簇中的觸發(fā)詞個(gè)數(shù)比在所述標(biāo)注樣本集中觸發(fā)詞個(gè)數(shù)的一半還少，將該事件類型從聚類簇中移除；如果聚類簇只包含一個(gè)事件類型，將該聚類簇刪除；所述神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練子模塊具體用于，對(duì)訓(xùn)練集合(xW;yW)，定義負(fù)對(duì)數(shù)似然損失函數(shù)J(9)，公式3; 在公式3，J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù)，yW表示一個(gè)事件類別的標(biāo)簽;XW代表訓(xùn)練樣本，Θ代表參數(shù)；定義正則化項(xiàng)R(e) 公式4; 在公式4中，C是帥的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;代表第C聚類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù)，W。代表輸出層的權(quán)重矩陣，孩滬代表第C類簇中第k個(gè) 事件類型的權(quán)重;'終:代表C中所有權(quán)重向量的平均值；串中，代表第 C聚類簇中第j個(gè)事件類型的權(quán)重；將J(e)和R(0)代入公式5,采用隨機(jī)梯度下降法將損失函數(shù)最小化獲得Θ的值；損失函數(shù)(0)，J/ (θ)=·Τ(θ)+αΚ(θ) 公式5; 在公式5中，j/(0)代表損失函數(shù)，α是權(quán)衡J(0)和R(0)的超參數(shù)。10. 如權(quán)利要求7所述的事件類型識(shí)別裝置，其特征在于，所述測試模塊具體用于：將將測試樣本集中的每一個(gè)測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng) 的神經(jīng)網(wǎng)絡(luò)模型中，對(duì)于某一個(gè)事件S，得到ΚΘ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量0; 利用公式6對(duì)所有事件類型進(jìn)行softmax操作，得到測試樣本屬于某一事件的概率；公式6; 在公式6中，p(i I χ，θ)表示給定文本X屬于第i類事件的概率;oi代表第i個(gè)類別的值，Ok 代表第k個(gè)類別的值;k代表一個(gè)事件，m代表事件的種類，Θ代表參數(shù)。
【文檔編號(hào)】G06F17/30GK106095928SQ201610409465
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月12日
【發(fā)明人】佟玲玲, 杜翠蘭, 鈕艷, 劉洋, 段東圣, 魯睿, 程光, 項(xiàng)菲, 柳毅
【申請(qǐng)人】國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：佟玲玲;杜翠蘭;鈕艷;劉洋;段東圣;魯睿;程光;項(xiàng)菲;柳毅;
技術(shù)所有人：國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

條形碼類型識(shí)別相關(guān)技術(shù)

條碼類型識(shí)別相關(guān)技術(shù)

文件類型識(shí)別相關(guān)技術(shù)

運(yùn)行時(shí)類型識(shí)別相關(guān)技術(shù)

自動(dòng)灑水噴頭類型識(shí)別相關(guān)技術(shù)

配電裝置的類型及特點(diǎn)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種事件類型識(shí)別方法及裝置的制造方法