一種事件類型識(shí)別方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種事件類型識(shí)別方法及裝置。該方法包括以下步驟:對(duì)訓(xùn)練集中所有文本進(jìn)行分詞、提取詞性處理后訓(xùn)練詞向量空間模型,提取文本的特征,將文本表示為特征向量;對(duì)于訓(xùn)練集進(jìn)行事件類型聚類,訓(xùn)練帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型;對(duì)于測試樣本同樣進(jìn)行分析、提取詞性處理,并利用已經(jīng)訓(xùn)練好的詞向量模型,得到特征表示;利用類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行事件類別識(shí)別。借助于本發(fā)明的技術(shù)方案,能夠利用同一群組中的類型共享信息來減輕標(biāo)注數(shù)據(jù)不平衡帶來的問題。
【專利說明】
一種事件類型識(shí)別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計(jì)算機(jī)自然語言處理領(lǐng)域,特別涉及一種事件類型識(shí)別方法及裝置。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時(shí)代的來臨,特別是微博、微信、購物等移動(dòng)應(yīng)用的推廣,文本數(shù)量呈 爆炸式增長,如何從文本中挖掘出有價(jià)值的信息成為當(dāng)前的一項(xiàng)重要研究課題。信息抽取 是從大量無結(jié)構(gòu)文本中識(shí)別和抽取人們感興趣的信息,為進(jìn)一步的話題檢測與跟蹤、信息 檢索、知識(shí)問答等應(yīng)用打下基礎(chǔ)。例如,從網(wǎng)站瀏覽記錄中提取用戶關(guān)心的話題,從新聞報(bào) 道中提取爆炸、恐怖襲擊等重大事件。美國著名機(jī)構(gòu)TDT(Topic Detection and Tracking) 針對(duì)新聞媒體等網(wǎng)絡(luò)文本設(shè)立了專門的研究課題,目的是能夠?qū)π侣劽襟w中的熱點(diǎn)話題進(jìn) 行持續(xù)地追蹤和檢索。TDT的主要任務(wù)包括:(a)文本數(shù)據(jù)信息過濾和提?。唬╞)熱點(diǎn)事件發(fā) 生時(shí)間抽?。唬╟)熱點(diǎn)事件與話題挖掘。其中事件類型識(shí)別是TDT的關(guān)鍵技術(shù)。目前主流的事 件類型識(shí)別方法采用了有監(jiān)督學(xué)習(xí)方法。有監(jiān)督學(xué)習(xí)方法利用標(biāo)注好的實(shí)例集合來訓(xùn)練分 類器。但是,現(xiàn)在可獲取的已標(biāo)注數(shù)據(jù)都是高度不平衡的。原因在于常見事件和不常見事件 的出現(xiàn)情況有很大不同。舉例來說,ACE2005將事件分為了8個(gè)大類,33個(gè)小類。
[0003] 表一
[0005] 表一顯示了 ACE2005語料中的已標(biāo)注事件中最常見及最不常見事件的統(tǒng)計(jì)信息。 最常出現(xiàn)的事件的出現(xiàn)次數(shù)比最不常見的事件的出現(xiàn)次數(shù)高了大約55(3187/57)倍。對(duì)于 普通事件來說,比如攻擊和運(yùn)輸,它們?cè)诂F(xiàn)實(shí)生活中經(jīng)常發(fā)生,語料中也有數(shù)以百計(jì)的此類 標(biāo)注實(shí)例。然而,對(duì)于那些不常見的事件,語料中僅僅只有幾條標(biāo)注的實(shí)例。像引渡、假釋和 宣告無罪這些類別的事件,在語料庫中只有不到10條標(biāo)注實(shí)例。顯然,在這樣一個(gè)小規(guī)模的 訓(xùn)練數(shù)據(jù)集上很難得到一個(gè)令人滿意的結(jié)果。
【發(fā)明內(nèi)容】
[0006] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的一種事件類型識(shí)別方法及裝置。
[0007] 本發(fā)明的提供一種事件類型識(shí)別方法,包括以下步驟:
[0008] 對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練,根據(jù) 詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定詞性的詞 語作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向 量:Ti,進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri,r2,. . .,rn];
[0009] 在特征向量Γι的基礎(chǔ)上加入事件類型向量得到特征向量v,對(duì)訓(xùn)練樣本集進(jìn)行事 件類型聚類,得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇,訓(xùn)練所述訓(xùn)練樣本集,得到帶 有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型;
[0010] 對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模型得到測 試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞,根據(jù)事件 觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量,進(jìn)而將測試樣本表示為特 征向量;
[0011] 將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型,然后 進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。
[0012] 本發(fā)明還提供了一種事件類型識(shí)別裝置,包括訓(xùn)練樣本集特征提取模塊、事件類 型聚類及訓(xùn)練模塊、測試樣本集特征提取模塊、以及測試模塊;
[0013] 所述訓(xùn)練樣本集特征提取模塊,用于對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞 性處理后進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向 量;將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā) 詞及觸發(fā)詞的上下文表示為特征向量ri,進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri,r2, ..., rn];
[0014] 所述事件類型聚類及訓(xùn)練模塊,用于在特征向量^的基礎(chǔ)上加入事件類型向量得 到特征向量ν,對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類,得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚 類簇,訓(xùn)練所述訓(xùn)練樣本集,得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型;
[0015] 所述測試樣本集特征提取模塊,用于對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞 性處理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞 性的詞語作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為 特征向量,進(jìn)而將所述測試樣本表示為特征向量;
[0016] 所述測試模塊,用于將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的 神經(jīng)網(wǎng)絡(luò)模型,然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。
[0017] 本發(fā)明有益效果如下:
[0018] 本發(fā)明實(shí)施例運(yùn)用聚類算法將所有事件類型自動(dòng)聚為幾個(gè)群組,并且提出類型-群組正則項(xiàng)來促進(jìn)同一個(gè)群組中的類型在訓(xùn)練過程中共享信息,這樣稀疏的類型的事件就 可以從同一個(gè)群組中的密集類型中獲取部分信息。進(jìn)一步的,本發(fā)明實(shí)施例的神經(jīng)網(wǎng)絡(luò)模 型使用詞向量作為輸入并且具有自動(dòng)學(xué)習(xí)特征,充分利用了神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,能夠解決事 件檢測任務(wù)中數(shù)據(jù)不平衡帶來的問題。
【附圖說明】
[0019] 圖1是本發(fā)明方法實(shí)施例的事件類型識(shí)別方法的流程圖;
[0020] 圖2是本發(fā)明方法實(shí)施例實(shí)例1的事件類型識(shí)別方法的示意圖;
[0021] 圖3是本發(fā)明裝置實(shí)施例的事件類型識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022] 為了解決現(xiàn)有技術(shù)事件檢測任務(wù)中數(shù)據(jù)不平衡帶來的問題,本發(fā)明提供了一種事 件類型識(shí)別方法及裝置,以下結(jié)合附圖以及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理 解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。
[0023] 根據(jù)本發(fā)明的方法實(shí)施例,提供了一種事件類型識(shí)別方法,圖1是本發(fā)明方法實(shí)施 例的事件類型識(shí)別方法的流程圖,如圖1所示,根據(jù)本發(fā)明方法實(shí)施例的事件類型識(shí)別方 法,包括如下處理:
[0024] 步驟101,對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn) 練,根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定 詞性的詞語作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示 為特征向量ri,進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri,r2,. . .,rn]。
[0025] 在步驟101中,所述預(yù)定詞性的詞語為名稱和動(dòng)詞。
[0026] 進(jìn)一步的,所述對(duì)訓(xùn)練樣本集和測試樣本集除進(jìn)行分詞以及標(biāo)注詞性處理,還包 括去除停用詞等。
[0027] 具體的,對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn) 練,根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量包括以下步驟:
[0028]對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后得到詞序列{W1,W2, ...,wT}, 對(duì)所述詞序列Iwi,W2,...,WT}構(gòu)建模型的目標(biāo)函數(shù),所述模型的目標(biāo)函數(shù)如公式1所示;
[0029]
[0030] 在公式1中,T代表詞序列中詞的個(gè)數(shù);c是詞向量模型訓(xùn)練過程中限定的上下文范 圍;p(wt+j |wt)用公式2表示;
[0031]
[0032] 在公式2中,v?4和分別表不wt的輸入向量和輸出向量;W代表詞典集合的大??;
[0033] 根據(jù)所述模型的目標(biāo)函數(shù),對(duì)訓(xùn)練樣本集進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向量模型 的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量。
[0034] 具體的,將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向 量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量n,進(jìn)而將所述訓(xùn)練樣本集表示為特征向 量[ri,r2,...,r n]包括以下步驟:
[0035] 根據(jù)訓(xùn)練樣本集中詞語的詞性,將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞;
[0036] 根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量n,進(jìn)而 將所述訓(xùn)練樣本集表示為特征向量[ri,r2,. . .,rn];
[0037] 在公式[ri,r2,. . .,rn]中,ri表示ri~rn中任意一個(gè)觸發(fā)詞加上觸發(fā)詞上下文的特 征表示,η為觸發(fā)詞的總個(gè)數(shù);η 6 表示ri屬于di的實(shí)數(shù)空間;di=dwXni,di 表示η詞向量的維度,dw表示ri所對(duì)應(yīng)的觸發(fā)詞的詞向量的維度,m表示ri所對(duì)應(yīng)的觸發(fā)詞 的上下文詞語的數(shù)量。
[0038] 步驟102,在特征向量ri的基礎(chǔ)上加入事件類型向量得到特征向量v,對(duì)訓(xùn)練樣本 集進(jìn)行事件類型聚類,得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇,訓(xùn)練所述訓(xùn)練樣本 集,得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型。
[0039] 具體的,在所述特征向量Γι的基礎(chǔ)上加入事件類型向量得到特征向量V,對(duì)訓(xùn)練樣 本集進(jìn)行事件類型聚類,得到多個(gè)聚類簇并進(jìn)行處理包括以下步驟:
[0040] 在所述特征向量ri的基礎(chǔ)上加入事件類型得到特征向量V,進(jìn)而得到所述訓(xùn)練樣 本集的特征向量V,其中,v E 11夂>5·,.即v屬于din的實(shí)數(shù)空間,din=di+m,,di表示ri詞向量的 維度,m表示觸發(fā)詞對(duì)應(yīng)的事件類型的個(gè)數(shù);
[0041 ]根據(jù)訓(xùn)練樣本集中每一個(gè)觸發(fā)詞的特征向量v和訓(xùn)練樣本集的特征向量V,利用K-means聚類算法對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類,得到多個(gè)聚類簇;
[0042]統(tǒng)計(jì)每一個(gè)聚類簇中事件類型的個(gè)數(shù)和觸發(fā)詞的個(gè)數(shù),如果某個(gè)事件在聚類簇中 的觸發(fā)詞個(gè)數(shù)比在所述標(biāo)注樣本集中觸發(fā)詞個(gè)數(shù)的一半還少,那么將該事件類型從聚類簇 中移除;如果聚類簇只包含一個(gè)事件類型,那么將該聚類簇刪除。
[0043]具體的,根據(jù)所述聚類簇,訓(xùn)練所述訓(xùn)練樣本集,得到帶有類型聚類正則化項(xiàng)的神 經(jīng)網(wǎng)絡(luò)模型包括以下步驟:
[0044] 對(duì)訓(xùn)練集合(x(1);y(1)),定義負(fù)對(duì)數(shù)似然損失函數(shù)J(0),
[0045]
[0046] 在公式3,J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù),表示一個(gè)事件類別的標(biāo)簽;代表 訓(xùn)練樣本,0代表參數(shù);
[0048]在公式4中,c是C中的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;n(°'k)代表第 C聚類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù),Wo代表輸出層的權(quán)重矩陣,代表第C類簇中第 k個(gè)事件類型的權(quán)重;代表C中所有權(quán)重向量的平均值;其中,辦@ 代表第C聚類簇中第j個(gè)事件類型的權(quán)重;
[0049] 將J(0)和R(0)代入公式5,采用隨機(jī)梯度下降法(SGD)將損失函數(shù)最小化獲得Θ的 值;
[0050] 損失函數(shù) ^(0),^(0)=^0)+(^(0)公式 5;
[0051] 在公式5中,^(θ)代表損失函數(shù),u是權(quán)衡J(0)和R(0)的超參數(shù)。
[0052]步驟103,對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模 型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞, 根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量,進(jìn)而將所述測試 樣本表示為特征向量。在本發(fā)明中,所述測試樣本指的是測試樣本集中的文本。
[0053]本發(fā)明步驟103的具體操作與步驟101相同或相似。
[0054]步驟104,將測試樣本集中的每一個(gè)測試樣本的特征向量輸入到所述帶有類型聚 類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型,然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。
[0055]具體的,將測試樣本集的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò) 模型中并進(jìn)行softmax操作得到測試樣本屬于某一事件的概率包括以下步驟:
[0056]將測試樣本集的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型中, 對(duì)于某一個(gè)事件s,得到以Θ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量〇;
[0057]利用公式6對(duì)所有事件類型進(jìn)行softmax操作,得到測試樣本屬于某一事件的概 率;
[0059] 在公式6中,p(i|x,0)表示給定文本X屬于第i類事件的概率;〇1代表第i個(gè)類別的 值,〇k代表第k個(gè)類別的值;k代表一個(gè)事件,m代表事件的種類,Θ代表參數(shù)。
[0060] 為了使本發(fā)明方式實(shí)施例更加清楚明白,以下結(jié)合具體實(shí)例1,對(duì)本發(fā)明進(jìn)一步詳 細(xì)說明。
[0061] 本發(fā)明方法實(shí)施例實(shí)例1的執(zhí)行環(huán)境采用一臺(tái)具有2.4G赫茲中央處理器和8G字節(jié) 內(nèi)存的奔騰4計(jì)算機(jī)并用JAVA語言編制了事件類型識(shí)別程序,還可以采用其他的執(zhí)行環(huán)境, 在此不再贅述。
[0062] 圖2是本發(fā)明方法實(shí)施例實(shí)例1的事件類型識(shí)別方法的示意圖,如圖2所示,所述方 法包括以下步驟:
[0063] 步驟1:對(duì)訓(xùn)練樣本集中每一個(gè)文本進(jìn)行分詞等文本預(yù)處理工作;
[0064]其中,步驟1中所述分詞指的是利用NLPIR的分詞工具將一個(gè)文本切割為一個(gè)個(gè)獨(dú) 立的詞語,那么一個(gè)文本就可以表示為[詞1,詞2···詞η],其中η為該文本的詞語數(shù)目。
[0065] 步驟1中所述預(yù)處理工作包括去除文本的停用詞、標(biāo)注詞語的詞性,以達(dá)到去除一 定的干擾的目的。
[0066] 所述詞性指的是詞語屬于名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、連詞、 助詞、嘆詞、擬聲詞、區(qū)別詞、語氣詞、或狀態(tài)詞中的一種。
[0067] 步驟2:對(duì)分詞后的文本進(jìn)行詞向量模型訓(xùn)練。
[0068]本發(fā)明方法實(shí)施例實(shí)例1使用Skip-gram模型進(jìn)行詞向量模型訓(xùn)練。在傳統(tǒng)η元語 言模型的上下文中,通常是給出第i個(gè)詞之前的η個(gè)詞的序列{Wl-n,,要求預(yù)測第i 個(gè)詞Wi的概率分布,該過程是一個(gè)連續(xù)序列的預(yù)測過程。而對(duì)于Skip-gram語言模型,給定 一個(gè)詞wt,它的輸出是預(yù)測第w t+j的概率。其中,j可能是大于1或小于-1的整數(shù),因而詞wt與 詞wt+廟詞序列中的位置并不一定連續(xù),此所謂"跳躍"。形式化的,給定詞序列{ W1,w2,..., WT},模型的目標(biāo)函數(shù)為最大化如下指數(shù)概率:
[0070]在公式1中,T代表代表詞序列中詞的個(gè)數(shù),c是訓(xùn)練模型過程中限定的上下文范 圍。C值越大,模型利用的上下文范圍越廣,則訓(xùn)練所得的模型可能越準(zhǔn)確。對(duì)于p (wt+j I Wt) 用公式2表示,
[0072] 在公式2中,1%和__vWi分別表不wt的輸入向量和輸出向量;W代表詞典集合的大小。
[0073] 步驟3:提取文本的特征,將文本表示為特征向量;
[0074] 所述步驟3進(jìn)一步包括以下步驟:
[0075] 步驟31:提取文本中的名詞和動(dòng)詞作為事件觸發(fā)詞;
[0076] 步驟32:根據(jù)步驟2得到每一個(gè)觸發(fā)詞的詞向量攸€ 其中《代表詞向量,cU表 示詞向量的維度,,表示dw的實(shí)數(shù)空間,wfH,表示w屬于這個(gè)實(shí)數(shù)空間。為了更有效地 描述文本,我們引入每一個(gè)觸發(fā)詞的上下文作為特征表示,那么一個(gè)文本可以表示為:[n, ?,. . .,rn],其中tv€H^sdi = dwXrn,n為觸發(fā)詞的總個(gè)數(shù),m為上下文詞語的數(shù)量。
[0077] 步驟4:對(duì)于訓(xùn)練集進(jìn)行事件類型聚類。
[0078] 所述步驟4進(jìn)一步包括以下步驟:
[0079] 步驟41:為每一個(gè)觸發(fā)詞構(gòu)造一個(gè)特征向量v,V € 其中din = di+m。!!!為事件 類型的個(gè)數(shù)。具體來講,特征向量的內(nèi)容由觸發(fā)詞的詞向量,其上下文的詞向量以及觸發(fā)詞 對(duì)應(yīng)的事件類型的詞向量拼接而成。后m維的向量,用來區(qū)分不同的事件類型,使得同一類 型的事件聚到一個(gè)類中。不同類別的向量之間正交,這樣使得不同類型的向量差異最大,相 同類型的向量差異最小。
[0080] 步驟42:利用κ-means聚類算法對(duì)訓(xùn)練集中的觸發(fā)詞進(jìn)行訓(xùn)練。假設(shè)訓(xùn)練樣本集有 N個(gè)觸發(fā)詞以及他們的描述向量V= {vi,V2,. . .,vn},給定群組數(shù)量k,那么K-mean算法的目 標(biāo)是將V分成k個(gè)群組S= {Si,S2,. . .,Sk};
[0081] 步驟43:對(duì)每一個(gè)聚類簇,統(tǒng)計(jì)其中的事件類型的個(gè)數(shù)以及觸發(fā)詞個(gè)數(shù)。
[0082]步驟44:如果某個(gè)事件在聚類簇c中的觸發(fā)詞個(gè)數(shù)比它在整個(gè)語料中觸發(fā)詞個(gè)數(shù) 的一半還少,那么將該事件類型從聚類簇c中移除。
[0083]步驟45:如果聚類簇c只包含一個(gè)事件類型,那么將該聚類簇刪除。
[0084] 步驟5:訓(xùn)練帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型;
[0085] 基于人工神經(jīng)網(wǎng)絡(luò),把模型訓(xùn)練成如下形式= (WE,Wh,W。)3。
[0086] 其中WE是指詞向量,Wh和W。分別為人工神經(jīng)網(wǎng)絡(luò)的隱藏層和輸出層。對(duì)于一個(gè)給定 的事件s,以Θ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量〇,其中的第i個(gè)值 〇1是第i個(gè)類別的置信度。 為了獲得條件概率P(i |χ,θ),對(duì)所有事件類型進(jìn)行softmax操作:
[0088] 在公式6中,〇i代表第i個(gè)類別的值,〇k代表第k個(gè)類別的值;k代表一個(gè)事件,m代表 事件的種類,Θ代表參數(shù);
[0089] 對(duì)訓(xùn)練集合(X(1);y(1)),定義負(fù)對(duì)數(shù)似然損失函數(shù)J(0),
[0090] !( 8 ) ::: -ZLi 浪.名} 公式 3;
[0091] 在公式3,J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù),y(1)表示一個(gè)事件類別的標(biāo)簽;χ(1)代表 訓(xùn)練樣本,Θ代表參數(shù);
[0092] 為了共享不同事件類型的相關(guān)信息,將一個(gè)正則化項(xiàng)添加到損失函數(shù)中,定義正 則化項(xiàng)R(0)
[0093] 在公式4中,c是C中的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;n(°'k)代表第 c聚類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù),W。代表輸出層的權(quán)重矩陣代表第c類簇中第 k個(gè)事件類型的權(quán)重;代表c中所有權(quán)重向量的平均值
其中,代 表第c聚類簇中第j個(gè)事件類型的權(quán)重;
[0094] 其中C是所有類型聚類簇,c是C中的一個(gè)聚類。n(°'k)是c中第k個(gè)類型的觸發(fā)詞個(gè) 數(shù),ι?是c中所有類型的權(quán)重向量的平均值。W。是輸出層的權(quán)重矩陣。這個(gè)假設(shè)背后的直覺 是,相似的事件類型應(yīng)該有相似的權(quán)重向量。上述方程中的二次項(xiàng)使得同一個(gè)群組中的權(quán) 重向量相似。而它的系數(shù)使得實(shí)例越多的類型越不會(huì)受到這一項(xiàng)的懲罰。也就是說,有足夠 多的已標(biāo)注實(shí)例的類型將基本保持它們的權(quán)重向量不變。相反,那些實(shí)例很少的類型就需 要從群組中學(xué)習(xí)。這樣,稀疏類型就可以從密集類型中獲益,讓我們的模型能夠減輕因?yàn)闃?biāo) 注數(shù)據(jù)不平衡給事件類別識(shí)別帶來的影響。
[0095] 最終的損失函數(shù)^(θ)表述如下:
[0096] J/(0)=J(0)+aR(0)公式 5;
[0097] 其中,a是權(quán)衡J和R的超參數(shù)。采用隨機(jī)梯度下降法(SGD)將上述損失函數(shù)最小化 來獲得Θ的值。
[0098] 步驟6:對(duì)于待分類的文本,同樣進(jìn)行分詞預(yù)處理,并得到文本的特征向量表示,最 后利用步驟5得到的分類器模型進(jìn)行分類。
[0099] 本發(fā)明方法實(shí)施例公開的面向非均衡樣本的事件類型識(shí)別方法,與現(xiàn)有技術(shù)相 比,具有如下優(yōu)點(diǎn):
[0100] 1、提出了一個(gè)全新的事件類型識(shí)別框架。通過使同一群組中的類型共享信息來減 輕標(biāo)注數(shù)據(jù)不平衡帶來的問題。
[0101] 2、分類模型將詞向量作為特征輸入,能夠利用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢自動(dòng)學(xué)習(xí)特征。
[0102] 裝置實(shí)施例
[0103] 根據(jù)本發(fā)明的裝置實(shí)施例,提供了一種事件類型識(shí)別方法裝置,圖3是本發(fā)明裝置 實(shí)施例的事件類型識(shí)別裝置的結(jié)構(gòu)示意圖,如圖3所示,根據(jù)本發(fā)明裝置實(shí)施例的事件類型 識(shí)別裝置包括:訓(xùn)練樣本集特征提取模塊10、事件類型聚類及訓(xùn)練模塊12、測試樣本集特征 提取模塊14、以及測試模塊16;以下對(duì)本發(fā)明實(shí)施例的各個(gè)模塊進(jìn)行詳細(xì)的說明。
[0104] 具體地,所述訓(xùn)練樣本集特征提取模塊10,用于對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分 詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè) 詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞 向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri,進(jìn)而將訓(xùn)練樣本集表示為特征向量
[!Γ?,!Γ2,· · ·,!Γη]〇
[0105] 更加具體的,所述訓(xùn)練樣本集特征提取模塊10包括訓(xùn)練樣本集分詞子模塊、訓(xùn)練 樣本集特征表示子模塊;
[0106] 所述訓(xùn)練樣本集分詞子模塊具體用于:
[0107] 對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后得到詞序列{W1,W2, ...,WT}, 對(duì)所述詞序列Iwi,W2,...,WT}構(gòu)建模型的目標(biāo)函數(shù),所述模型的目標(biāo)函數(shù)如公式1所示;
[0109]在公式1中,T代表詞序列中詞的個(gè)數(shù);c是詞向量模型訓(xùn)練過程中限定的上下文范 圍;p(wt+j |wt)用公式2表示;
[0111] 在公式2中,和vWt分別表不wt的輸入向量和輸出向量;W代表詞典集合的大小;[0112] 根據(jù)所述模型的目標(biāo)函數(shù),對(duì)訓(xùn)練樣本集進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向量模型 的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量;[0113] 所述訓(xùn)練樣本集特征表示子模塊具體用于:[0114] 根據(jù)訓(xùn)練樣本集中詞語的詞性,將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞;[0115] 根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量n,進(jìn)而 將所述訓(xùn)練樣本集表示為特征向量[ri,r2,. . .,rn];[0116] 在公式[ri,r2,. . .,rn]中,ri表示ri~rn中任意一個(gè)觸發(fā)詞加上觸發(fā)詞上下文的特征表示,η為觸發(fā)詞的總個(gè)數(shù);€! ? 表示ri屬于di的實(shí)數(shù)空間;di = dwXni,di表示η詞向量的維度,dw表示ri所對(duì)應(yīng)的觸發(fā)詞的詞向量的維度,m表示ri所對(duì)應(yīng)的觸發(fā)詞 的上下文詞語的數(shù)量。[0117] 所述事件類型聚類及訓(xùn)練模塊12,用于在特征向量^的基礎(chǔ)上加入事件類型向量 得到特征向量V,對(duì)訓(xùn)練樣本集中的觸發(fā)詞進(jìn)行事件類型聚類,得到多個(gè)聚類簇并進(jìn)行處 理;根據(jù)所述聚類簇,訓(xùn)練所述訓(xùn)練樣本集,得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型。[0118] 更加具體的,所述事件類型聚類及訓(xùn)練模塊12包括事件類型聚類子模塊、及神經(jīng) 網(wǎng)絡(luò)模型訓(xùn)練子模塊;[0119] 所述事件類型聚類子模塊具體用于:[0120] 在所述特征向量η的基礎(chǔ)上加入事件類型得到特征向量V,進(jìn)而得到所述訓(xùn)練樣本集的特征向量V,其中,V' ,即v屬于din的實(shí)數(shù)空間,din = di+m,di表示ri詞向量的維度,m表示觸發(fā)詞對(duì)應(yīng)的事件類型的個(gè)數(shù);[0121 ]根據(jù)訓(xùn)練樣本集中每一個(gè)觸發(fā)詞的特征向量v和訓(xùn)練樣本集的特征向量V,利用K-means聚類算法對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類,得到多個(gè)聚類簇;[0122] 統(tǒng)計(jì)每一個(gè)聚類簇中事件類型的個(gè)數(shù)和觸發(fā)詞的個(gè)數(shù),如果某個(gè)事件在聚類簇中 的觸發(fā)詞個(gè)數(shù)比在所述標(biāo)注樣本集中觸發(fā)詞個(gè)數(shù)的一半還少,將該事件類型從聚類簇中移 除;如果聚類簇只包含一個(gè)事件類型,將該聚類簇刪除;[0123] 所述神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練子模塊具體用于,[0124] 對(duì)訓(xùn)練集合(x(1);y(1)),定義負(fù)對(duì)數(shù)似然損失函數(shù)J(0),
[0126]在公式3,J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù),y(1)表示一個(gè)事件類別的標(biāo)簽;x (1)代表 訓(xùn)練樣本,0代表參數(shù);
[0128] 在公式4中,c是C中的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;n(°'k)代表第 c聚類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù),W。代表輸出層的權(quán)重矩陣,代表第c類簇中第 k個(gè)事件類型的權(quán)重代表c中所有權(quán)重向量的平均值其中,^4@代 表第c聚類簇中第j個(gè)事件類型的權(quán)重;
[0129] 將J(0)和R(0)代入公式5,采用隨機(jī)梯度下降法(S⑶)將損失函數(shù)最小化獲得Θ的 值;
[0130] 損失函數(shù) ^(0),^(0)=^0)+(^(0)公式 5;
[0131]在公式5中,^(θ)代表損失函數(shù),u是權(quán)衡J(0)和R(0)的超參數(shù)。
[0132] 所述測試樣本集特征提取模塊14,用于對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注 詞性處理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定 詞性的詞語作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示 為特征向量,進(jìn)而將所述測試樣本表示為特征向量。
[0133] 所述測試模塊16,用于將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng) 的神經(jīng)網(wǎng)絡(luò)模型,然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。
[0134] 更加具體的,所述測試模塊16具體用于:
[0135] 將將測試樣本集中的每一個(gè)測試樣本的特征向量輸入到所述帶有類型聚類正則 化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型中,對(duì)于某一個(gè)事件s,得到以Θ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量〇;
[0136] 利用公式6對(duì)所有事件類型進(jìn)行softmax操作,得到測試樣本屬于某一事件的概 率;
[0138] 在公式6中,p(i | χ,θ)表示給定文本X屬于第i類事件的概率;〇i代表第i個(gè)類別的 值,〇k代表第k個(gè)類別的值;k代表一個(gè)事件,m代表事件的種類,Θ代表參數(shù)。
[0139] 本發(fā)明實(shí)施例提出了一種采用神經(jīng)網(wǎng)絡(luò)模型來解決事件檢測任務(wù)中數(shù)據(jù)不平衡 (非均衡樣本)問題的方法和裝置,在訓(xùn)練過程中促進(jìn)不同的事件類型共享有效信息。具體 來說,首先,運(yùn)用聚類算法將所有事件類型自動(dòng)聚為幾個(gè)群組,并且提出一個(gè)類型-群組正 則項(xiàng)來促進(jìn)同一個(gè)群組中的類型在訓(xùn)練過程中共享信息。這樣,稀疏的類型的事件就可以 從同一個(gè)群組中的密集類型中獲取部分信息。進(jìn)一步,我們的模型使用詞向量作為輸入并 且自動(dòng)學(xué)習(xí)特征,充分利用了神經(jīng)網(wǎng)絡(luò)的優(yōu)勢。
[0140] 顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【主權(quán)項(xiàng)】
1. 一種事件類型識(shí)別方法,其特征在于,包括W下步驟: 對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向 量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量;將訓(xùn)練樣本集中的預(yù)定詞性的詞語作 為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri, 進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri,n,...,rn]; 在特征向量ri的基礎(chǔ)上加入事件類型向量得到特征向量V,對(duì)訓(xùn)練樣本集進(jìn)行事件類型 聚類,得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇,訓(xùn)練所述訓(xùn)練樣本集,得到帶有類型 聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型; 對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后輸入所述詞向量模型得到測試樣 本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的詞語作為事件觸發(fā)詞,根據(jù)事件觸發(fā) 詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量,進(jìn)而將測試樣本表示為特征向 量,所述測試樣本為測試樣本集中的文本; 將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型,然后進(jìn)行 softmax操作得到測試樣本屬于某一事件的概率。2. 如權(quán)利要求1所述的事件類型識(shí)別方法,其特征在于,對(duì)訓(xùn)練樣本集中所有文本進(jìn)行 分詞、標(biāo)注詞性處理后進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每 個(gè)詞語的詞向量包括W下步驟: 對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后得到詞序列|W1,W2, ...,wt},對(duì)所 述詞序列{W1,W2,...,wt}構(gòu)建模型的目標(biāo)函數(shù),所述模型的目標(biāo)函數(shù)如公式1所示;公或1 在公式1中,T代表詞序列中詞的個(gè)數(shù);C是詞向量模型訓(xùn)練過程中限定的上下文范圍;P (wt+j|wt)用公式2表示;公式2 在公式2中,分別表示wt的輸入向量和輸出向量;W表示詞典集合的大??; 根據(jù)所述模型的目標(biāo)函數(shù),對(duì)訓(xùn)練樣本集進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向量模型的輸 出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量。3. 如權(quán)利要求1所述的事件類型識(shí)別方法,其特征在于,將訓(xùn)練樣本集中的名詞和動(dòng)詞 作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量 ri,進(jìn)而將所述訓(xùn)練樣本集表示為特征向量[η,η,...,rn]包括W下步驟: 根據(jù)訓(xùn)練樣本集中詞語的詞性,將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞; 根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri,進(jìn)而將所述 訓(xùn)練樣本集表示為特征向量[ri,n,...,rn]; 在公式[ri,r2,. . .,rn]中,ri表示ri~Γη中任意一個(gè)觸發(fā)詞加上觸發(fā)詞上下文的特征表 示,η為觸發(fā)詞的總個(gè)數(shù);r;' € R'·氣r; 6 表示η屬于di的實(shí)數(shù)空間;di = dwXni,di表示η 詞向量的維度,dw表示ri所對(duì)應(yīng)的觸發(fā)詞的詞向量的維度,ni表示ri所對(duì)應(yīng)的觸發(fā)詞的上下 文詞語的數(shù)量。4. 如權(quán)利要求1所述的事件類型識(shí)別方法,其特征在于,在所述特征向量ri的基礎(chǔ)上加 入事件類型向量得到特征向量V,對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類,得到多個(gè)聚類簇并進(jìn)行 處理包括W下步驟: 在所述特征向量ri的基礎(chǔ)上加入事件類型得到特征向量V,進(jìn)而得到所述訓(xùn)練樣本集的 特征向量V,其中,Y gd",,即V屬于din的實(shí)數(shù)空間,din = di+m,di表示ri詞向量的維度,m表 示觸發(fā)詞對(duì)應(yīng)的事件類型的個(gè)數(shù); 根據(jù)訓(xùn)練樣本集中每一個(gè)觸發(fā)詞的特征向量V和訓(xùn)練樣本集的特征向量V,利用K- means聚類算法對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類,得到多個(gè)聚類簇; 統(tǒng)計(jì)每一個(gè)聚類簇中事件類型的個(gè)數(shù)和觸發(fā)詞的個(gè)數(shù),如果某個(gè)事件在聚類簇中的觸 發(fā)詞個(gè)數(shù)比在所述標(biāo)注樣本集中觸發(fā)詞個(gè)數(shù)的一半還少,那么將該事件類型從聚類簇中移 除;如果聚類簇只包含一個(gè)事件類型,那么將該聚類簇刪除。5. 如權(quán)利要求1所述的事件類型識(shí)別方法,其特征在于,根據(jù)所述聚類簇,訓(xùn)練所述訓(xùn) 練樣本集,得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型包括W下步驟: 對(duì)訓(xùn)練集合(xW;yW),定義負(fù)對(duì)數(shù)似然損失函數(shù)J(9),公式3; 在公式3,J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù),yW表示一個(gè)事件類別的標(biāo)簽;xW代表訓(xùn)練 樣本,Θ代表參數(shù);定義正則化項(xiàng) 、t 公式4; 在公式4中,C是帥的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;代表第C聚 類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù),W。代表輸出層的權(quán)重矩陣,代表第C類簇中第k個(gè) 事件類型的權(quán)重;代表C中所有權(quán)重向量的平均值癢中,代 表第C聚類簇中第j個(gè)事件類型的權(quán)重; 將J(e)和R(0)代入公式5,采用隨機(jī)梯度下降法將損失函數(shù)最小化獲得Θ的值; 損失函數(shù)r (0),r (0)=J(0)+aR(0) 公式5; 在公式5中,j/(0)代表損失函數(shù),α是權(quán)衡J(0)和R(0)的超參數(shù)。6. 如權(quán)利要求1所述的事件類型識(shí)別方法,其特征在于,將測試樣本集中的每一個(gè)測試 樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型中并進(jìn)行softmax操作 得到測試樣本屬于某一事件的概率包括W下步驟: 將測試樣本集的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型中,對(duì)于 某一個(gè)事件S,得到ΚΘ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量0; 利用公式6對(duì)所有事件類型進(jìn)行softmax操作,得到測試樣本屬于某一事件的概率;公乂 6: 在公式6中,ρα?χ,θ)表示給定文本X屬于第i類事件的概率;〇1代表第i個(gè)類別的值,Ok 代表第k個(gè)類別的值;k代表一個(gè)事件,m代表事件的種類,Θ代表參數(shù)。7. -種事件類型識(shí)別裝置,其特征在于,包括訓(xùn)練樣本集特征提取模塊、事件類型聚類 及訓(xùn)練模塊、測試樣本集特征提取模塊、W及測試模塊; 所述訓(xùn)練樣本集特征提取模塊,用于對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處 理后進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向量模型的輸出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量; 將訓(xùn)練樣本集中的預(yù)定詞性的詞語作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞 及觸發(fā)詞的上下文表示為特征向量ri,進(jìn)而將訓(xùn)練樣本集表示為特征向量[ri,r2,. . .,Γη]; 所述事件類型聚類及訓(xùn)練模塊,用于在特征向量ri的基礎(chǔ)上加入事件類型向量得到特 征向量V,對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類,得到多個(gè)聚類簇并進(jìn)行處理;根據(jù)所述聚類簇, 訓(xùn)練所述訓(xùn)練樣本集,得到帶有類型聚類正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)模型; 所述測試樣本集特征提取模塊,用于對(duì)測試樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處 理后輸入所述詞向量模型得到測試樣本中每個(gè)詞語的詞向量;將測試樣本集中預(yù)定詞性的 詞語作為事件觸發(fā)詞,根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征 向量,進(jìn)而將所述測試樣本表示為特征向量; 所述測試模塊,用于將測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng)的神經(jīng) 網(wǎng)絡(luò)模型,然后進(jìn)行softmax操作得到測試樣本屬于某一事件的概率。8. 如權(quán)利要求7所述的事件類型識(shí)別裝置,其特征在于,所述訓(xùn)練樣本集特征提取模塊 包括訓(xùn)練樣本集分詞子模塊、訓(xùn)練樣本集特征表示子模塊; 所述訓(xùn)練樣本集分詞子模塊具體用于: 對(duì)訓(xùn)練樣本集中所有文本進(jìn)行分詞、標(biāo)注詞性處理后得到詞序列|W1,W2, ...,wt},對(duì)所 述詞序列{W1,W2,. . .,wt}構(gòu)建模型的目標(biāo)函數(shù),所述模型的目標(biāo)函數(shù)如公式1所示;公式1; 在公式1中,T代表詞序列中詞的個(gè)數(shù);C是詞向量模型訓(xùn)練過程中限定的上下文范圍;P (wt+j|wt)用公式2表示;公式2; 在公式2中,\.和v":,.分別表不wt的輸入向量和輸出向量;W代表詞典集合的大小; 根據(jù)所述模型的目標(biāo)函數(shù),對(duì)訓(xùn)練樣本集進(jìn)行詞向量模型訓(xùn)練,根據(jù)詞向量模型的輸 出得到訓(xùn)練樣本集中每個(gè)詞語的詞向量; 所述訓(xùn)練樣本集特征表示子模塊具體用于: 根據(jù)訓(xùn)練樣本集中詞語的詞性,將訓(xùn)練樣本集中的名詞和動(dòng)詞作為事件觸發(fā)詞; 根據(jù)事件觸發(fā)詞的詞向量,將觸發(fā)詞及觸發(fā)詞的上下文表示為特征向量ri,進(jìn)而將所述 訓(xùn)練樣本集表示為特征向量[ri,r2,. . .,rn]; 在公式[ri,r2,. . .,rn]中,ri表示ri~Γη中任意一個(gè)觸發(fā)詞加上觸發(fā)詞上下文的特征表 示,η為觸發(fā)詞的總個(gè)數(shù)巧€齡;,Γ; e;批嗦示ri屬于di的實(shí)數(shù)空間;di = dw X m,d康示ri詞 向量的維度,dw表示η所對(duì)應(yīng)的觸發(fā)詞的詞向量的維度,ni表示ri所對(duì)應(yīng)的觸發(fā)詞的上下文 詞語的數(shù)量。9. 如權(quán)利要求7所述的事件類型識(shí)別裝置,其特征在于,所述事件類型聚類及訓(xùn)練模塊 包括事件類型聚類子模塊、及神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練子模塊; 所述事件類型聚類子模塊具體用于: 在所述特征向量ri的基礎(chǔ)上加入事件類型得到特征向量V,進(jìn)而得到所述訓(xùn)練樣本集的 特征向量V,其中,V泛,即V屬于din的實(shí)數(shù)空間,din = di+m,di表示ri詞向量的維度,m表 示觸發(fā)詞對(duì)應(yīng)的事件類型的個(gè)數(shù); 根據(jù)訓(xùn)練樣本集中每一個(gè)觸發(fā)詞的特征向量V和訓(xùn)練樣本集的特征向量V,利用K- means聚類算法對(duì)訓(xùn)練樣本集進(jìn)行事件類型聚類,得到多個(gè)聚類簇; 統(tǒng)計(jì)每一個(gè)聚類簇中事件類型的個(gè)數(shù)和觸發(fā)詞的個(gè)數(shù),如果某個(gè)事件在聚類簇中的觸 發(fā)詞個(gè)數(shù)比在所述標(biāo)注樣本集中觸發(fā)詞個(gè)數(shù)的一半還少,將該事件類型從聚類簇中移除; 如果聚類簇只包含一個(gè)事件類型,將該聚類簇刪除; 所述神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練子模塊具體用于, 對(duì)訓(xùn)練集合(xW;yW),定義負(fù)對(duì)數(shù)似然損失函數(shù)J(9),公式3; 在公式3,J(0)表示負(fù)對(duì)數(shù)似然損失函數(shù),yW表示一個(gè)事件類別的標(biāo)簽;XW代表訓(xùn)練 樣本,Θ代表參數(shù);定義正則化項(xiàng)R(e) 公式4; 在公式4中,C是帥的一個(gè)聚類簇;C代表訓(xùn)練樣本集中所有的聚類簇;代表第C聚 類簇中第k個(gè)事件類型的觸發(fā)詞個(gè)數(shù),W。代表輸出層的權(quán)重矩陣,孩滬代表第C類簇中第k個(gè) 事件類型的權(quán)重;'終:代表C中所有權(quán)重向量的平均值;串中,代表第 C聚類簇中第j個(gè)事件類型的權(quán)重; 將J(e)和R(0)代入公式5,采用隨機(jī)梯度下降法將損失函數(shù)最小化獲得Θ的值; 損失函數(shù)(0),J/ (θ)=·Τ(θ)+αΚ(θ) 公式5; 在公式5中,j/(0)代表損失函數(shù),α是權(quán)衡J(0)和R(0)的超參數(shù)。10. 如權(quán)利要求7所述的事件類型識(shí)別裝置,其特征在于,所述測試模塊具體用于: 將將測試樣本集中的每一個(gè)測試樣本的特征向量輸入到所述帶有類型聚類正則化項(xiàng) 的神經(jīng)網(wǎng)絡(luò)模型中,對(duì)于某一個(gè)事件S,得到ΚΘ為參數(shù)的人工神經(jīng)網(wǎng)絡(luò)輸出向量0; 利用公式6對(duì)所有事件類型進(jìn)行softmax操作,得到測試樣本屬于某一事件的概率;公式6; 在公式6中,p(i I χ,θ)表示給定文本X屬于第i類事件的概率;oi代表第i個(gè)類別的值,Ok 代表第k個(gè)類別的值;k代表一個(gè)事件,m代表事件的種類,Θ代表參數(shù)。
【文檔編號(hào)】G06F17/30GK106095928SQ201610409465
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月12日
【發(fā)明人】佟玲玲, 杜翠蘭, 鈕艷, 劉洋, 段東圣, 魯睿, 程光, 項(xiàng)菲, 柳毅
【申請(qǐng)人】國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心