本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法及裝置。
背景技術(shù):
事件識(shí)別(eventrecognition)是信息抽取(informationextraction,ie)領(lǐng)域中一個(gè)非常重要的研究方向,也是自然語(yǔ)言處理(naturallanguageprocessing,nlp)任務(wù)的一項(xiàng)基礎(chǔ)工作,主要是為了通過(guò)識(shí)別文檔中的事件,從而判斷文檔是否與某一特定類型的事件相關(guān)。
目前事件識(shí)別方法主要分為兩類,一類是基于監(jiān)督機(jī)器學(xué)習(xí)的方法,依賴于大量的人工標(biāo)注數(shù)據(jù),獲取較好抽取效果的同時(shí),耗時(shí)耗力,并且可移植性較差。另一類是基于半監(jiān)督學(xué)習(xí)的自舉(bootstrapping)方法,該方法能夠解決監(jiān)督機(jī)器學(xué)習(xí)的方法中存在的上述缺點(diǎn),但是抽取的效果高度依賴于初始種子的質(zhì)量和迭代過(guò)程中的條件約束,并且在自舉迭代的后期,錯(cuò)誤增長(zhǎng)非常的快速;為了克服上述缺陷,取得較高的事件抽取準(zhǔn)確率,對(duì)自舉方法做了嚴(yán)格的句法結(jié)構(gòu)限制,在此限制之下,會(huì)導(dǎo)致很多描述需要識(shí)別出的特定類型事件的事件短語(yǔ)無(wú)法學(xué)習(xí)到,進(jìn)而導(dǎo)致事件識(shí)別性能較差。
綜上所述,如何提供一種事件識(shí)別性能較好的事件短語(yǔ)學(xué)習(xí)技術(shù)方案,是目前本領(lǐng)域技術(shù)人員亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法及裝置,以提高事件識(shí)別性能。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法,包括:
獲取學(xué)習(xí)到的動(dòng)賓結(jié)構(gòu)的事件短語(yǔ),并提取所述事件短語(yǔ)中包含的待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞;
利用預(yù)先基于訓(xùn)練語(yǔ)料集訓(xùn)練得到的詞嵌入模型得到與每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞對(duì)應(yīng)的詞向量;
基于所述詞向量計(jì)算每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞與所述訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度,并選取出對(duì)應(yīng)相似度大于相似度閾值的訓(xùn)練名詞及訓(xùn)練動(dòng)詞作為對(duì)應(yīng)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞的相似語(yǔ)義詞;
將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞的對(duì)應(yīng)相似語(yǔ)義詞映射該事件短語(yǔ)中的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞重新組成新的擴(kuò)展短語(yǔ),并利用所述事件短語(yǔ)及對(duì)應(yīng)擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)。
優(yōu)選的,基于所述詞向量計(jì)算每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞與所述訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度,包括:
按照下列公式基于所述詞向量計(jì)算每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞與所述訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度:
其中,
優(yōu)選的,將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞的對(duì)應(yīng)相似語(yǔ)義詞映射該事件短語(yǔ)中的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞重新組成新的擴(kuò)展短語(yǔ),包括:
將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞與該事件短語(yǔ)中包含的待擴(kuò)展名詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ),并將同一事件短語(yǔ)中包含的待擴(kuò)展名詞與該事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ)。
優(yōu)選的,利用所述擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)之前,還包括:
確定每個(gè)擴(kuò)展短語(yǔ)在所述訓(xùn)練語(yǔ)料集中出現(xiàn)的頻率,并將該頻率小于短語(yǔ)頻率閾值的擴(kuò)展短語(yǔ)刪除;
確定每個(gè)擴(kuò)展短語(yǔ)中動(dòng)詞結(jié)構(gòu)部分在所述訓(xùn)練語(yǔ)料集中出現(xiàn)的頻率,并將該頻率小于結(jié)構(gòu)頻率閾值的擴(kuò)展短語(yǔ)刪除。
優(yōu)選的,基于訓(xùn)練語(yǔ)料集訓(xùn)練得到詞嵌入模型,包括:
利用word2vec對(duì)訓(xùn)練語(yǔ)料集訓(xùn)練得到詞嵌入模型。
一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)裝置,包括:
提取模塊,用于:獲取學(xué)習(xí)到的動(dòng)賓結(jié)構(gòu)的事件短語(yǔ),并提取所述事件短語(yǔ)中包含的待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞;
分析模塊,用于:利用預(yù)先基于訓(xùn)練語(yǔ)料集訓(xùn)練得到的詞嵌入模型得到與每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞對(duì)應(yīng)的詞向量;
計(jì)算模塊,用于:基于所述詞向量計(jì)算每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞與所述訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度,并選取出對(duì)應(yīng)相似度大于相似度閾值的訓(xùn)練名詞及訓(xùn)練動(dòng)詞作為對(duì)應(yīng)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞的相似語(yǔ)義詞;
學(xué)習(xí)模塊,用于:將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞的對(duì)應(yīng)相似語(yǔ)義詞映射該事件短語(yǔ)中的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞重新組成新的擴(kuò)展短語(yǔ),并利用所述事件短語(yǔ)及對(duì)應(yīng)擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)。
優(yōu)選的,所述計(jì)算模塊包括:
計(jì)算單元,用于:按照下列公式基于所述詞向量計(jì)算每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞與所述訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度:
其中,
優(yōu)選的,所述學(xué)習(xí)模塊包括:
重組單元,用于:將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞與該事件短語(yǔ)中包含的待擴(kuò)展名詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ),并將同一事件短語(yǔ)中包含的待擴(kuò)展名詞與該事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ)。
優(yōu)選的,還包括:
約束模塊,用于:確定每個(gè)擴(kuò)展短語(yǔ)在所述訓(xùn)練語(yǔ)料集中出現(xiàn)的頻率,并將該頻率小于短語(yǔ)頻率閾值的擴(kuò)展短語(yǔ)刪除;確定每個(gè)擴(kuò)展短語(yǔ)中動(dòng)詞結(jié)構(gòu)部分在所述訓(xùn)練語(yǔ)料集中出現(xiàn)的頻率,并將該頻率小于結(jié)構(gòu)頻率閾值的擴(kuò)展短語(yǔ)刪除。
優(yōu)選的,還包括:
訓(xùn)練模塊,用于利用word2vec對(duì)訓(xùn)練語(yǔ)料集訓(xùn)練得到詞嵌入模型。
本發(fā)明提供了一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法及裝置,其中該方法包括:獲取學(xué)習(xí)到的動(dòng)賓結(jié)構(gòu)的事件短語(yǔ),并提取所述事件短語(yǔ)中包含的待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞;利用預(yù)先基于訓(xùn)練語(yǔ)料集訓(xùn)練得到的詞嵌入模型得到與每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞對(duì)應(yīng)的詞向量;基于所述詞向量計(jì)算每個(gè)所述待擴(kuò)展名詞及所述待擴(kuò)展動(dòng)詞與所述訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度,并選取出對(duì)應(yīng)相似度大于相似度閾值的訓(xùn)練名詞及訓(xùn)練動(dòng)詞作為對(duì)應(yīng)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞的相似語(yǔ)義詞;將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞的對(duì)應(yīng)相似語(yǔ)義詞映射該事件短語(yǔ)中的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞重新組成新的擴(kuò)展短語(yǔ),并利用所述事件短語(yǔ)及對(duì)應(yīng)擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)。本申請(qǐng)公開(kāi)的技術(shù)方案中,獲取自舉方法中學(xué)習(xí)到的事件短語(yǔ)并由中提取到待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞,通過(guò)詞嵌入確定出與每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞對(duì)應(yīng)的相似語(yǔ)義詞,從而通過(guò)待擴(kuò)展名詞、待擴(kuò)展動(dòng)詞及對(duì)應(yīng)的相似語(yǔ)義詞泛化出更多具有相似語(yǔ)義的同類事件短語(yǔ),即擴(kuò)展短語(yǔ),并將得到的擴(kuò)展短語(yǔ)及事件短語(yǔ)用于事件短語(yǔ)學(xué)習(xí)中,從而有效解決了現(xiàn)有技術(shù)中由于嚴(yán)格的句法結(jié)構(gòu)限制導(dǎo)致無(wú)法學(xué)習(xí)到很多特定事件的事件短語(yǔ)的問(wèn)題,且實(shí)驗(yàn)表明,本申請(qǐng)公開(kāi)的上述技術(shù)方案可以有效的學(xué)習(xí)到新的事件短語(yǔ),即擴(kuò)展短語(yǔ),在事件識(shí)別性能上得到了顯著的提升。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中及物動(dòng)詞后接直接賓語(yǔ)的示意圖;
圖3為本發(fā)明實(shí)施例提供的本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中不及物動(dòng)詞后加介詞后再接賓語(yǔ)的示意圖;
圖4為本發(fā)明實(shí)施例提供的本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中短語(yǔ)抽取方法的示例圖;
圖5為本發(fā)明實(shí)施例提供的本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中單詞替換方法的示意圖;
圖6為本發(fā)明實(shí)施例提供的本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中word2vec中的cbow模型和skip-gram模型的示意圖;
圖7為本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中word2vec采用hierarchicalsoftmax優(yōu)化策略訓(xùn)練單詞嵌入表示的網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
圖8為本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中實(shí)驗(yàn)的動(dòng)詞擴(kuò)展在事件識(shí)別任務(wù)上的結(jié)果f值變化趨勢(shì)圖;
圖9為本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中實(shí)驗(yàn)的名詞擴(kuò)展在事件識(shí)別任務(wù)上的結(jié)果f值變化趨勢(shì)圖;
圖10為本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中實(shí)驗(yàn)的50維詞向量模型下動(dòng)詞名詞擴(kuò)展在事件識(shí)別任務(wù)上的準(zhǔn)確率對(duì)比圖;
圖11為本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參閱圖1,其示出了本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法的流程圖,可以包括:
s11:獲取學(xué)習(xí)到的動(dòng)賓結(jié)構(gòu)的事件短語(yǔ),并提取事件短語(yǔ)中包含的待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞。
本申請(qǐng)公開(kāi)的技術(shù)方案可以從huang和riloff(即文獻(xiàn)ruihonghuangandellenriloff,2013.multi-facetedeventrecognitionwithbootstrappeddictionaries.inhlt-naacl,pages41–51;后文簡(jiǎn)稱h&r)中的自舉方法展開(kāi),通過(guò)語(yǔ)義上的相似語(yǔ)義映射來(lái)學(xué)習(xí)出更多事件短語(yǔ),以克服自舉方法中固有的局限性。其中對(duì)于識(shí)別任務(wù)的對(duì)象具體可以根據(jù)實(shí)際需要進(jìn)行確定,如可以主要識(shí)別社會(huì)動(dòng)亂(civilunrest)這一特定主題的事件。具體來(lái)說(shuō),本申請(qǐng)中獲取到的事件短語(yǔ)具體可以是在h&r方法中第四輪迭代時(shí)學(xué)習(xí)到的,包括事件表示短語(yǔ)(eventphrases,ep)和事件目的短語(yǔ)(purposephrases,pp),這是因?yàn)樵趆&r方法的第四輪迭代中學(xué)習(xí)到的短語(yǔ)在事件識(shí)別效果上達(dá)到了最高,從而有利于提高本申請(qǐng)?zhí)峁┑募夹g(shù)方案的事件識(shí)別性能。
另外在h&r自舉迭代學(xué)習(xí)方法中,為了減少噪聲在自動(dòng)迭代過(guò)程增長(zhǎng)過(guò)快,對(duì)短語(yǔ)的格式進(jìn)行了嚴(yán)格的限定,要求事件表示短語(yǔ)和事件目的短語(yǔ)必須為動(dòng)賓結(jié)構(gòu),具體表現(xiàn)形式有兩種,其一是及物動(dòng)詞后接直接賓語(yǔ),如圖2,其二是不及物動(dòng)詞后加介詞后再接賓語(yǔ),如圖3。其中,賓語(yǔ)為一個(gè)名詞短語(yǔ)的核心詞(nounhead),因此可以根據(jù)短語(yǔ)的已知結(jié)構(gòu)進(jìn)行動(dòng)詞提取與名詞提取,圖4展示了幾種短語(yǔ)的抽取方法;如圖4所示,p1為一個(gè)(a)類結(jié)構(gòu)的短語(yǔ),動(dòng)詞為短語(yǔ)首單詞,名詞為短語(yǔ)尾單詞,p2為一個(gè)(b)類結(jié)構(gòu)的短語(yǔ),提取方法同p1,p3雖為一個(gè)(a)類結(jié)構(gòu)的短語(yǔ),但由于動(dòng)詞為不定式結(jié)構(gòu),因此,動(dòng)詞為“to”后面的第一個(gè)單詞,名詞為短語(yǔ)尾單詞。本申請(qǐng)中的待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞即為事件短語(yǔ)中包含的名詞及動(dòng)詞。另外本申請(qǐng)中的相似語(yǔ)義詞和同義詞被認(rèn)為表達(dá)的含義相同。
s12:利用預(yù)先基于訓(xùn)練語(yǔ)料集訓(xùn)練得到的詞嵌入模型得到與每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞對(duì)應(yīng)的詞向量。
需要說(shuō)明的是,訓(xùn)練語(yǔ)料集為根據(jù)實(shí)際需要進(jìn)行獲取的,通常訓(xùn)練語(yǔ)料集中包含有數(shù)量非常大的詞語(yǔ),如可以選取gigaword英文第四版單語(yǔ)語(yǔ)料集作為訓(xùn)練語(yǔ)料集。通過(guò)對(duì)訓(xùn)練語(yǔ)料集的訓(xùn)練得到詞嵌入模型,從而將每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞作為詞嵌入模型的輸入,得到的輸出即為對(duì)應(yīng)詞的詞向量。由此,通過(guò)不同詞向量之間的相似度確定出可以作為相似語(yǔ)義詞的詞語(yǔ),也即利用wordembedding(詞嵌入)的方式實(shí)現(xiàn)相似語(yǔ)義詞的選取。具體來(lái)說(shuō),詞嵌入是一組語(yǔ)言模型和自然語(yǔ)言處理中特征學(xué)習(xí)技術(shù)的總稱,詞匯中的單詞被映射到相對(duì)于詞匯量的大小而言低維空間的實(shí)數(shù)向量;單詞嵌入的基本思想是采用神經(jīng)網(wǎng)絡(luò)或者深度學(xué)習(xí)方法,構(gòu)建某種模型來(lái)捕捉目標(biāo)單詞與上下文其他單詞之間的共現(xiàn)關(guān)系,進(jìn)而將單詞表示成向量的形式;單詞嵌入將語(yǔ)義信息融入在單詞向量表示之中,基于聚類的思想,神經(jīng)網(wǎng)絡(luò)能讓語(yǔ)義相近的詞擁有相似的向量,直觀的來(lái)說(shuō),就是在單詞向量表示的空間中,相似的詞往往離得更近。相似的單詞距離近能讓我們從一個(gè)句子演變出一類相似的句子;這不僅指把一個(gè)詞替換成一個(gè)它的同義詞,如圖5中的(1)中將“door”替換成了“gate”,而且指把一個(gè)詞換成一個(gè)相似類別里面的詞,如圖5中的(2)中將“blue”替換成“red”。
s13:基于詞向量計(jì)算每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞與訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度,并選取出對(duì)應(yīng)相似度大于相似度閾值的訓(xùn)練名詞及訓(xùn)練動(dòng)詞作為對(duì)應(yīng)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞的相似語(yǔ)義詞。
其中,計(jì)算上述相似度具體可以為計(jì)算每個(gè)待擴(kuò)展名詞的詞向量與訓(xùn)練語(yǔ)料中包含的每個(gè)訓(xùn)練名詞的詞向量之間的相似度,計(jì)算每個(gè)待擴(kuò)展動(dòng)詞的詞向量與訓(xùn)練語(yǔ)料中包含的每個(gè)訓(xùn)練動(dòng)詞的詞向量之間的相似度,從而可以確定出與待擴(kuò)展動(dòng)詞及待擴(kuò)展名詞具有相近含義(相似語(yǔ)義詞)的訓(xùn)練動(dòng)詞及訓(xùn)練名詞。其中相似度閾值可以根據(jù)實(shí)際需要進(jìn)行設(shè)定,當(dāng)相似度大于相似度閾值時(shí)則說(shuō)明該相似度對(duì)應(yīng)的兩個(gè)詞向量距離較近,對(duì)應(yīng)的這兩個(gè)詞向量對(duì)應(yīng)的兩個(gè)詞語(yǔ)含義相近,否則,則說(shuō)明該相似度對(duì)應(yīng)的兩個(gè)詞向量距離較遠(yuǎn),對(duì)應(yīng)的這兩個(gè)詞向量對(duì)應(yīng)的兩個(gè)詞語(yǔ)含義并不相近。當(dāng)然還可以根據(jù)實(shí)際需要進(jìn)行其他設(shè)定,如對(duì)于任一待擴(kuò)展名詞或待擴(kuò)展動(dòng)詞,選取與其的相似度最大的預(yù)設(shè)數(shù)量個(gè)(如15個(gè))訓(xùn)練名詞或訓(xùn)練動(dòng)詞作為其相似語(yǔ)義詞,均在本發(fā)明的保護(hù)范圍之內(nèi)。
s14:將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞的對(duì)應(yīng)相似語(yǔ)義詞映射該事件短語(yǔ)中的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞重新組成新的擴(kuò)展短語(yǔ),并利用所述事件短語(yǔ)及對(duì)應(yīng)擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)。
獲取待相似語(yǔ)義詞后,可以將待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞及對(duì)應(yīng)相似語(yǔ)義詞組成新的短語(yǔ),即擴(kuò)展短語(yǔ),從而泛化出更多具有相似語(yǔ)義的同類事件短語(yǔ),并將得到的這些擴(kuò)展短語(yǔ)及事件短語(yǔ)同時(shí)用于h&r方法的事件短語(yǔ)學(xué)習(xí),完成對(duì)應(yīng)的測(cè)評(píng)。
本申請(qǐng)公開(kāi)的技術(shù)方案中,獲取自舉方法中學(xué)習(xí)到的事件短語(yǔ)并由中提取到待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞,通過(guò)詞嵌入確定出與每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞對(duì)應(yīng)的相似語(yǔ)義詞,從而通過(guò)待擴(kuò)展名詞、待擴(kuò)展動(dòng)詞及對(duì)應(yīng)的相似語(yǔ)義詞泛化出更多具有相似語(yǔ)義的同類事件短語(yǔ),即擴(kuò)展短語(yǔ),并將得到的擴(kuò)展短語(yǔ)及事件短語(yǔ)用于事件短語(yǔ)學(xué)習(xí)中,從而有效解決了現(xiàn)有技術(shù)中由于嚴(yán)格的句法結(jié)構(gòu)限制導(dǎo)致無(wú)法學(xué)習(xí)到很多特定事件的事件短語(yǔ)的問(wèn)題,且實(shí)驗(yàn)表明,本申請(qǐng)公開(kāi)的上述技術(shù)方案可以有效的學(xué)習(xí)到新的事件短語(yǔ),即擴(kuò)展短語(yǔ),在事件識(shí)別性能上得到了顯著的提升。
本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法,基于詞向量計(jì)算每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞與訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度,可以包括:
按照下列公式基于詞向量計(jì)算每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞與訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度:
其中,
需要說(shuō)明的是,計(jì)算相似度時(shí)可以根據(jù)實(shí)際需要選用不同的方式,本申請(qǐng)中采用余弦相似度作為不同詞語(yǔ)之間的相似度,從而能夠使得計(jì)算量較少,且得到的相似度結(jié)果較準(zhǔn)確,當(dāng)然根據(jù)實(shí)際需要選用的其他方式均在本發(fā)明的保護(hù)范圍之內(nèi)。
本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法,將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞的對(duì)應(yīng)相似語(yǔ)義詞映射該事件短語(yǔ)中的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞重新組成新的擴(kuò)展短語(yǔ),可以包括:
將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞與該事件短語(yǔ)中包含的待擴(kuò)展名詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ),并將同一事件短語(yǔ)中包含的待擴(kuò)展名詞與該事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ)。
需要說(shuō)明的是,實(shí)現(xiàn)擴(kuò)展短語(yǔ)的重組的方法可以根據(jù)實(shí)際需要進(jìn)行設(shè)置,此處以一個(gè)事件短語(yǔ)進(jìn)行說(shuō)明,如可以將該事件短語(yǔ)中包含的待擴(kuò)展名詞及該待擴(kuò)展名詞對(duì)應(yīng)的相似語(yǔ)義詞均稱為名詞,待擴(kuò)展動(dòng)詞及該待擴(kuò)展動(dòng)詞對(duì)應(yīng)的相似語(yǔ)義詞均稱為動(dòng)詞,從而將每個(gè)名詞與每個(gè)動(dòng)詞分別組成擴(kuò)展短語(yǔ);也可以將待擴(kuò)展名詞與待擴(kuò)展動(dòng)詞的每個(gè)相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ),將待擴(kuò)展動(dòng)詞與待擴(kuò)展名詞的每個(gè)相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ),當(dāng)然還可以根據(jù)實(shí)際需要進(jìn)行其他設(shè)定,均在本發(fā)明的保護(hù)范圍之內(nèi)。而通過(guò)實(shí)驗(yàn)證明,上述舉例中的第二種,即將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞與該事件短語(yǔ)中包含的待擴(kuò)展名詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ),并將同一事件短語(yǔ)中包含的待擴(kuò)展名詞與該事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ),得到的擴(kuò)展短語(yǔ)包含噪聲較小,有利于提升事件識(shí)別準(zhǔn)確率。
本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法,利用擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)之前,還可以包括:
確定每個(gè)擴(kuò)展短語(yǔ)在所述訓(xùn)練語(yǔ)料集中出現(xiàn)的頻率,并將該頻率小于短語(yǔ)頻率閾值的擴(kuò)展短語(yǔ)刪除;
確定每個(gè)擴(kuò)展短語(yǔ)中動(dòng)詞結(jié)構(gòu)部分在所述訓(xùn)練語(yǔ)料集中出現(xiàn)的頻率,并將該頻率小于結(jié)構(gòu)頻率閾值的擴(kuò)展短語(yǔ)刪除。
其中短語(yǔ)頻率閾值及結(jié)構(gòu)頻率閾值可以根據(jù)實(shí)際需要進(jìn)行設(shè)定,兩者可以相同,也可以不同,均在本發(fā)明的保護(hù)范圍之內(nèi)。對(duì)于任一擴(kuò)展短語(yǔ)中動(dòng)詞結(jié)構(gòu)部分的出現(xiàn)頻率的具體可以統(tǒng)計(jì)該擴(kuò)展短語(yǔ)中的動(dòng)詞結(jié)構(gòu)部分在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù),出現(xiàn)的頻率小于結(jié)構(gòu)頻率閾值說(shuō)明擴(kuò)展短語(yǔ)中動(dòng)詞結(jié)構(gòu)部分為不常用的搭配,此時(shí)將其進(jìn)行刪除;對(duì)于任一擴(kuò)展短語(yǔ)的出現(xiàn)頻率的具體可以統(tǒng)計(jì)該擴(kuò)展短語(yǔ)在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù),出現(xiàn)的頻率小于短語(yǔ)頻率閾值說(shuō)明擴(kuò)展短語(yǔ)為不常用的搭配,此時(shí)將其進(jìn)行刪除。根據(jù)以上兩者實(shí)現(xiàn)語(yǔ)言學(xué)約束,能夠進(jìn)一步保證事件識(shí)別準(zhǔn)確率。具體來(lái)說(shuō),通過(guò)上述語(yǔ)言學(xué)約束主要可以實(shí)現(xiàn)兩方面的約束,一是動(dòng)詞搭配是否合理,二是動(dòng)名詞搭配組合是否符合語(yǔ)言學(xué)使用習(xí)慣。例如:原短語(yǔ)“calledforprotest”,其中動(dòng)詞called的相似語(yǔ)義詞學(xué)習(xí)到declares、branded、invoked等,原詞called是不及物動(dòng)詞,因此需要連接一個(gè)介詞for后再接賓語(yǔ),然而相似語(yǔ)義詞declares、branded、invoked均為及物動(dòng)詞,所以不存在類似“declaresforprotest”這樣的用法,因此要過(guò)濾掉;針對(duì)動(dòng)賓搭配的情況,例如:“precededastrike”,原動(dòng)詞preceded,學(xué)習(xí)得到的相似語(yǔ)義詞有followed、opened、witnessed等,但是“followedastrike”、“openedastrike”搭配的情況不符合英語(yǔ)語(yǔ)言學(xué)習(xí)慣,因此要過(guò)濾掉這兩種情況,只保留“witnessedastrike”;舉例中的原短語(yǔ)即為學(xué)習(xí)到的事件短語(yǔ),對(duì)應(yīng)的原詞即為原短語(yǔ)中的動(dòng)詞或名詞。另外擴(kuò)展短語(yǔ)中的動(dòng)詞結(jié)構(gòu)部分可以指該擴(kuò)展短語(yǔ)中除名詞之外的全部部分。
本發(fā)明實(shí)施例提供的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法,基于訓(xùn)練語(yǔ)料集訓(xùn)練得到詞嵌入模型,可以包括:
利用word2vec對(duì)訓(xùn)練語(yǔ)料集訓(xùn)練得到詞嵌入模型。
需要說(shuō)明的是,獲取單詞嵌入表示的工具有很多,常見(jiàn)的有word2vec、glove等,本申請(qǐng)中采用word2vec訓(xùn)練詞嵌入模型,從而保證模型具有較好的性能。word2vec是一個(gè)用于獲得單詞嵌入的開(kāi)源工具包,是cbow(continuousbag-of-wordsmodel)模型和skip-gram模型的實(shí)現(xiàn),是目前在諸多自然語(yǔ)言處理任務(wù)中獲取詞嵌入表示最常用的方法之一,其本質(zhì)上是對(duì)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型基礎(chǔ)上的優(yōu)化。cbow模型和skip-gram模型都是三層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,分別是輸入層、投影層以及輸出層,不同的是,這兩個(gè)模型的輸入輸出的方向剛好相反。如圖6所示,cbow是已知當(dāng)前詞wt的下文wt-2,wt-1,wt+1,wt+2的前提下預(yù)測(cè)當(dāng)前詞wt,在cbow模型中,上下文每一個(gè)詞對(duì)當(dāng)前詞wt出現(xiàn)概率的影響權(quán)重是相同的,因此不必考慮上下文單詞的次序問(wèn)題。而skip-gram模型則恰恰相反,是在已知當(dāng)前詞wt的前提下,預(yù)測(cè)其上下文wt-2,wt-1,wt+1,wt+2,skip允許在預(yù)先設(shè)定的窗口內(nèi)的單詞中間隔著一些詞,因?yàn)槟P蜁?huì)分別進(jìn)行兩兩單詞間概率的計(jì)算,所以可以有效的排除助詞等的干擾。
對(duì)于cbow和skip-gram兩個(gè)模型,word2vec給出了兩套優(yōu)化策略來(lái)加快詞向量的訓(xùn)練效率,分別是hierarchicalsoftmax(層次softmax)和negativesampling(負(fù)采樣)。hierarchicalsoftmax是一種對(duì)輸出層進(jìn)行優(yōu)化的策略,輸出層從原始模型的利用softmax計(jì)算概率值改為利用哈夫曼樹(shù)計(jì)算概率值。哈夫曼樹(shù)是二叉樹(shù),在葉子節(jié)點(diǎn)及葉子節(jié)點(diǎn)的權(quán)值給定的情況下,該樹(shù)的帶權(quán)路徑長(zhǎng)度最短(一個(gè)節(jié)點(diǎn)的帶權(quán)路徑長(zhǎng)度指根節(jié)點(diǎn)到該節(jié)點(diǎn)的路徑長(zhǎng)度乘以該節(jié)點(diǎn)的權(quán),樹(shù)的帶權(quán)路徑長(zhǎng)度指全部葉子節(jié)點(diǎn)的帶權(quán)路徑長(zhǎng)度之和)。直觀上可以看出,葉子節(jié)點(diǎn)的權(quán)越大,則該葉子節(jié)點(diǎn)就應(yīng)該離根節(jié)點(diǎn)越近。因此對(duì)于模型來(lái)說(shuō)就是,詞頻越高的詞,距離根節(jié)點(diǎn)就越近。從根節(jié)點(diǎn)出發(fā),到達(dá)指定葉子節(jié)點(diǎn)的路徑是唯一的。hierarchicalsoftmax正是利用這條路徑來(lái)計(jì)算指定詞的概率,而非用softmax來(lái)計(jì)算。negativesampling是noise-contrastiveestimation(nce,噪聲對(duì)比估計(jì))的簡(jiǎn)化版本:把語(yǔ)料中一個(gè)詞串的中心詞替換為別的詞,構(gòu)造語(yǔ)料dd中不存在的詞串作為負(fù)樣本。因此在這種策略下,優(yōu)化目標(biāo)變?yōu)榱耍鹤畲蠡龢颖镜母怕?,同時(shí)最小化負(fù)樣本的概率。
因此,word2vec的訓(xùn)練方法有四種,分別是cbow模型采用hierarchicalsoftmax策略,cbow模型采用negativesampling策略,skip-gram采用hierarchicalsoftmax策略,skip-gram采用negativesampling策略。圖7展示了word2vec采用hierarchicalsoftmax優(yōu)化策略訓(xùn)練單詞嵌入表示的網(wǎng)絡(luò)結(jié)構(gòu)示意圖,由圖可知,整個(gè)訓(xùn)練過(guò)程還是三層神經(jīng)網(wǎng)絡(luò),分別是輸入層、投影層和輸出層。cbow模型輸入層是當(dāng)前詞的上下文窗口中的單詞向量,并在投影層對(duì)窗口中單詞向量進(jìn)行加和。而skip-gram模型的輸入層是當(dāng)前詞的向量,在投影層進(jìn)行恒等映射。兩個(gè)模型的輸出層都是樹(shù)形結(jié)構(gòu)的,是以詞表中的全部單詞作為葉子節(jié)點(diǎn),單詞的詞頻作為節(jié)點(diǎn)的權(quán)值,構(gòu)造的一棵哈夫曼樹(shù)。投影層與哈夫曼樹(shù)的非葉子節(jié)點(diǎn)相連,葉子則對(duì)應(yīng)詞表中的單詞,任意非葉子節(jié)點(diǎn)僅表示一個(gè)向量,而并不是具體的某個(gè)單詞,僅作為輔助向量,最終所有葉子結(jié)點(diǎn)的向量就是訓(xùn)練得到的詞向量。
另外采用以下實(shí)驗(yàn)證明本申請(qǐng)公開(kāi)的上述技術(shù)方案的良好性能:
本申請(qǐng)采用上文中指出的h&r論文中相同的測(cè)試數(shù)據(jù)集,共包含400篇英文文檔。h&r選取了6個(gè)關(guān)鍵詞:protest,strike,march,rally,riot,occupy以及它們的不同形態(tài)的詞作為種子,從英文gigaword語(yǔ)料中抽取至少包含以上1個(gè)關(guān)鍵詞(或其變形)的文檔出來(lái)作為候選文檔,約100萬(wàn)篇文檔,然后從中隨機(jī)抽取400篇文章作為測(cè)試數(shù)據(jù)集,由兩位標(biāo)注者同時(shí)進(jìn)行標(biāo)注,標(biāo)注文檔是否是一個(gè)社會(huì)動(dòng)亂主題的文章。最后將這400篇文檔分為兩部分,其中100篇為調(diào)試集(tuningset),剩下的300篇為測(cè)試集(testset)。調(diào)試集是用于測(cè)試之前的調(diào)整,把實(shí)驗(yàn)中的參數(shù)在調(diào)試集上調(diào)試到最佳,然后使用調(diào)試集中的最佳參數(shù)再在測(cè)試集上進(jìn)行測(cè)評(píng),最終得到測(cè)評(píng)結(jié)果。采用準(zhǔn)確率、召回率和f值作為測(cè)評(píng)指標(biāo)來(lái)衡量在文檔級(jí)別上的事件識(shí)別效果。其中,準(zhǔn)確率(precision,p)是指系統(tǒng)正確識(shí)別出的個(gè)數(shù)占識(shí)別出的總數(shù)的比例,召回率(recall,r)是系統(tǒng)正確識(shí)別出來(lái)的個(gè)數(shù)占整個(gè)測(cè)試集中標(biāo)注為正確的總數(shù)的比例,f值(f-measure)是綜合了準(zhǔn)確率和召回率的一個(gè)綜合性評(píng)價(jià)指標(biāo),是precision和recall加權(quán)調(diào)和平均值。在本文的實(shí)驗(yàn)中,計(jì)算p,r,f值的公式如下:
本實(shí)驗(yàn)所使用的語(yǔ)料是gigaword英文第四版語(yǔ)料集,約1.27億句子,33億單詞的規(guī)模大小。利用python擴(kuò)展工具包gensim中集成的word2vec模型訓(xùn)練詞嵌入,采用cbow模型,層次softmax優(yōu)化策略來(lái)訓(xùn)練模型。在維度參數(shù)上,分別在20維、50維和100維三個(gè)維度上訓(xùn)練了三組模型作對(duì)比實(shí)驗(yàn)。并且利用全部語(yǔ)料集作為語(yǔ)言學(xué)約束的檢查。
實(shí)驗(yàn)結(jié)果測(cè)評(píng)采用h&r標(biāo)注400篇文檔作為測(cè)評(píng)數(shù)據(jù)集,其中300篇作為測(cè)試集(testset),100篇作為調(diào)試集(tuningset),整個(gè)測(cè)評(píng)系統(tǒng)使用準(zhǔn)確率、召回率和f值作為評(píng)價(jià)指標(biāo)。
分別在20維、50維和100維三組詞嵌入模型下進(jìn)行動(dòng)詞的相似詞抽取,并在每個(gè)詞嵌入模型下,分別進(jìn)行與原詞最相似的top1到top10的單詞,進(jìn)行替換擴(kuò)展學(xué)習(xí)新的事件短語(yǔ),最后將擴(kuò)展好的短語(yǔ)在測(cè)試集上進(jìn)行事件識(shí)別任務(wù)的測(cè)評(píng),實(shí)驗(yàn)結(jié)果如表1所示:
表1動(dòng)詞相似語(yǔ)義詞替換短語(yǔ)擴(kuò)展實(shí)驗(yàn)結(jié)果
類似的,進(jìn)行名詞相似詞抽取,進(jìn)行事件短語(yǔ)的學(xué)習(xí),其結(jié)果如表2所示:
表2名詞相似語(yǔ)義詞替換短語(yǔ)擴(kuò)展實(shí)驗(yàn)結(jié)果
從表1和表2的實(shí)驗(yàn)結(jié)果可以看出,根據(jù)詞嵌入模型擴(kuò)展學(xué)習(xí)事件短語(yǔ),在維度為50的時(shí)候效果最好,在動(dòng)詞擴(kuò)展中最好結(jié)果召回率76.2%,名詞擴(kuò)展中最好結(jié)果召回率77.2%,相比baseline系統(tǒng)第四輪最好結(jié)果的召回率71%分別提升了5.2%和6.2%;動(dòng)詞擴(kuò)展中取得最好結(jié)果時(shí)f值81.1%,名詞擴(kuò)展中f值為81.3%,相比baseline系統(tǒng)f值79%分別提升了2.1%和2.3%。
下面針對(duì)動(dòng)詞與名詞擴(kuò)展學(xué)習(xí)事件短語(yǔ)的方法進(jìn)行對(duì)比分析,圖8和圖9展示了這兩種方法實(shí)驗(yàn)結(jié)果的f值變化趨勢(shì)。
根據(jù)圖8和圖9,可以發(fā)現(xiàn)動(dòng)詞擴(kuò)展短語(yǔ)的方法,其f值變化趨勢(shì)接近正太分布結(jié)構(gòu),在top3或top4的時(shí)候取得最好結(jié)果,而名詞擴(kuò)展方法f值變化總體呈上升趨于平行的趨勢(shì),基本都在top7及以后取得最好結(jié)果。接著再分析兩種方法隨著擴(kuò)展短語(yǔ)數(shù)量的增加,準(zhǔn)確率的變化情況。圖10展示了在50維模型下,兩種方法準(zhǔn)確率隨擴(kuò)展短語(yǔ)數(shù)量增加的對(duì)比情況。由圖10可以看出,采用名詞擴(kuò)展的方法準(zhǔn)確率要高于動(dòng)詞擴(kuò)展的方法。
根據(jù)以上的分析,可以得出結(jié)論,采用動(dòng)詞擴(kuò)展方法,最好結(jié)果在擴(kuò)展與原詞最接近的3到4個(gè)詞時(shí),效果最好,召回率提升的同時(shí),準(zhǔn)確率不會(huì)降低太多,而采用名詞擴(kuò)展方法,最好結(jié)果在擴(kuò)展7到8個(gè)詞的時(shí)候,此時(shí)召回率可以得到最大的提升的同時(shí),準(zhǔn)確率也在可以接受的范圍,再往后,隨著短語(yǔ)數(shù)量的增加,并不會(huì)帶來(lái)f值的提升,推測(cè)原因是,很多新的事件短語(yǔ)并沒(méi)有在測(cè)評(píng)語(yǔ)料中出現(xiàn),因此,無(wú)法對(duì)測(cè)評(píng)結(jié)果產(chǎn)生影響。
本發(fā)明實(shí)施例公開(kāi)的技術(shù)方案中與現(xiàn)有技術(shù)中對(duì)應(yīng)技術(shù)方案原理一致的部分并未詳細(xì)說(shuō)明,以免過(guò)多贅述。
本發(fā)明實(shí)施例還公開(kāi)了一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)裝置,如圖11所示,可以包括:
提取模塊11,用于:獲取學(xué)習(xí)到的動(dòng)賓結(jié)構(gòu)的事件短語(yǔ),并提取事件短語(yǔ)中包含的待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞;
分析模塊12,用于:利用預(yù)先基于訓(xùn)練語(yǔ)料集訓(xùn)練得到的詞嵌入模型得到與每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞對(duì)應(yīng)的詞向量;
計(jì)算模塊13,用于:基于詞向量計(jì)算每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞與訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度,并選取出對(duì)應(yīng)相似度大于相似度閾值的訓(xùn)練名詞及訓(xùn)練動(dòng)詞作為對(duì)應(yīng)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞的相似語(yǔ)義詞;
學(xué)習(xí)模塊14,用于:將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞的對(duì)應(yīng)相似語(yǔ)義詞映射該事件短語(yǔ)中的待擴(kuò)展動(dòng)詞、待擴(kuò)展名詞重新組成新的擴(kuò)展短語(yǔ),并利用事件短語(yǔ)及對(duì)應(yīng)擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)。
本發(fā)明實(shí)施例公開(kāi)的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)裝置,計(jì)算模塊可以包括:
計(jì)算單元,用于:按照下列公式基于詞向量計(jì)算每個(gè)待擴(kuò)展名詞及待擴(kuò)展動(dòng)詞與訓(xùn)練語(yǔ)料集中包含的訓(xùn)練名詞及訓(xùn)練動(dòng)詞的相似度:
其中,
本發(fā)明實(shí)施例公開(kāi)的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)裝置,學(xué)習(xí)模塊可以包括:
重組單元,用于:將同一事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞與該事件短語(yǔ)中包含的待擴(kuò)展名詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ),并將同一事件短語(yǔ)中包含的待擴(kuò)展名詞與該事件短語(yǔ)中包含的待擴(kuò)展動(dòng)詞的各相似語(yǔ)義詞分別組成擴(kuò)展短語(yǔ)。
本發(fā)明實(shí)施例公開(kāi)的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)裝置,還可以包括:
約束模塊,用于:利用擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)之前,確定每個(gè)擴(kuò)展短語(yǔ)在訓(xùn)練語(yǔ)料集中出現(xiàn)的頻率,并將該頻率小于短語(yǔ)頻率閾值的擴(kuò)展短語(yǔ)刪除;利用所述擴(kuò)展短語(yǔ)實(shí)現(xiàn)事件短語(yǔ)學(xué)習(xí)之前,確定每個(gè)擴(kuò)展短語(yǔ)中動(dòng)詞結(jié)構(gòu)部分在所述訓(xùn)練語(yǔ)料集中出現(xiàn)的頻率,并將該頻率小于結(jié)構(gòu)頻率閾值的擴(kuò)展短語(yǔ)刪除。
本發(fā)明實(shí)施例公開(kāi)的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)裝置,還可以包括:
訓(xùn)練模塊,用于利用word2vec對(duì)訓(xùn)練語(yǔ)料集訓(xùn)練得到詞嵌入模型。
本發(fā)明實(shí)施例公開(kāi)的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)裝置中相關(guān)部分的說(shuō)明請(qǐng)參見(jiàn)本發(fā)明實(shí)施例公開(kāi)的一種基于詞嵌入語(yǔ)義映射的事件短語(yǔ)學(xué)習(xí)方法中對(duì)應(yīng)部分的詳細(xì)說(shuō)明,在此不再贅述。
對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。