亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于遞歸神經(jīng)網(wǎng)絡(luò)的隱式篇章關(guān)系分析方法與流程

文檔序號:12887235閱讀:403來源:國知局

本發(fā)明涉及一種隱式篇章關(guān)系分析方法,特別涉及一種基于遞歸神經(jīng)網(wǎng)絡(luò)的隱式篇章關(guān)系分析方法,屬于自然語言處理應(yīng)用技術(shù)領(lǐng)域。



背景技術(shù):

作為自然語言處理應(yīng)用技術(shù)領(lǐng)域中的一項(xiàng)重要任務(wù),篇章關(guān)系分析,尤其是隱式篇章關(guān)系分析,一直為學(xué)者們所不懈研究著,并在統(tǒng)計(jì)機(jī)器翻譯、信息抽取、情感分析等領(lǐng)域發(fā)揮著重要的作用。隨著自然語言的語義分析逐漸成為學(xué)術(shù)和應(yīng)用的主流,針對一篇文章,如何高效正確地理解其結(jié)構(gòu)與內(nèi)容,引起了越來越多研究人員的重視。如今又恰逢大數(shù)據(jù)時(shí)代,海量且無結(jié)構(gòu)的信息層出不窮,將這些數(shù)據(jù)應(yīng)用在隱式篇章關(guān)系分析上,能對現(xiàn)有的結(jié)果有較大的提升。然而,之前很多基于特征工程的隱式篇章關(guān)系分析方法存在普遍的數(shù)據(jù)稀疏性問題,而普通的深度學(xué)習(xí)方法,雖然應(yīng)用到深度語義表示,但是并沒有考慮到句子本身的連貫性順序和句子內(nèi)部的句法結(jié)構(gòu),因此,需要一種基于遞歸神經(jīng)網(wǎng)絡(luò)的方法,能夠結(jié)合深度語義表示和句法結(jié)構(gòu)樹,訓(xùn)練出一個(gè)高效的隱式篇章關(guān)系分析模型,這是一項(xiàng)既有學(xué)術(shù)意義又有實(shí)用價(jià)值的研究課題。

隱式篇章關(guān)系分析,顧名思義,旨在篇章級別對沒有篇章連接詞連接的句際關(guān)系進(jìn)行識(shí)別與歸類。由于篇章連接詞的缺失,整個(gè)隱式篇章關(guān)系的識(shí)別與分類過程,便從單個(gè)篇章連接詞的語義分析轉(zhuǎn)變?yōu)槠抡撛Y(jié)構(gòu)的語義分析。目前,關(guān)于隱式篇章關(guān)系分析方面的研究并不充分,仍處于探索階段;另外,沒有篇章連接詞這一特征的幫助,也使得隱式篇章關(guān)系分析的研究更加難以深入。主流的隱式篇章關(guān)系分析方法著眼于用特征或淺層語義表征隱式篇章關(guān)系論元對,針對句內(nèi)與句際的深度語義挖掘和深度句法結(jié)構(gòu)鮮有嘗試。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是為解決以往在隱式篇章關(guān)系分析中存在的下述問題:1)針對特征工程的方法無法有效利用深度語義信息以及數(shù)據(jù)稀疏的問題;2)針對普通神經(jīng)網(wǎng)絡(luò)的方法沒有考慮句子原有連貫性的問題;3)針對普通的深度學(xué)習(xí)方法沒有考慮句子原有的句法結(jié)構(gòu)信息的問題;4)針對單詞本身存在的一詞多義問題。本發(fā)明提出使用詞的分布式表示解決稀疏性問題,使用雙向lstm網(wǎng)絡(luò)解決詞的多義性問題,使用遞歸神經(jīng)網(wǎng)絡(luò)融合句法結(jié)構(gòu)信息,從而在理解深度語義的基礎(chǔ)上進(jìn)行隱式篇章分析。

為實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:

本發(fā)明技術(shù)方案的思想是:首先,根據(jù)大規(guī)模語料庫,訓(xùn)練表示單詞語義的詞向量;其次,根據(jù)pdtb2.0標(biāo)注語料,訓(xùn)練bi-lstm模型,提取每個(gè)lstm模型中的隱層變量并進(jìn)行合成,用得到的向量表示每個(gè)單詞的語義以獲取該單詞所在的上下文信息,從而消除歧義性;再次,根據(jù)pdtb2.0人工標(biāo)注的句法樹,遞歸地合成每個(gè)論元,合成函數(shù)采用神經(jīng)張量法,在句法樹的根節(jié)點(diǎn)得到對于每個(gè)論元的向量表示;最后,將兩個(gè)向量拼接后輸入多層感知機(jī)進(jìn)行分類,使用隨機(jī)梯度下降法擬合隱式篇章關(guān)系類別標(biāo)簽,找到使性能達(dá)到最優(yōu)的模型參數(shù)完成隱式篇章關(guān)系的分析。

本發(fā)明的具體技術(shù)方案如下:

一種基于層次深度語義的隱式篇章關(guān)系分析方法,該方法包括以下步驟:

步驟一、語料預(yù)處理:統(tǒng)計(jì)pttb2.0中每個(gè)單詞出現(xiàn)的頻率,保留出現(xiàn)頻率最高的20000個(gè)單詞,將其他單詞標(biāo)記為<unk>,將句法樹中標(biāo)注的詞性進(jìn)行刪除,并將其二叉化;

步驟二、詞的embedding表示:使用大規(guī)模語料庫訓(xùn)練word2vec,將論元中每個(gè)單詞映射為向量空間的低維向量,從而表示每個(gè)單詞的語義;

步驟三、構(gòu)建雙向lstm層:對于每個(gè)論元,分別按從頭到尾和從尾到頭的順序構(gòu)建lstm模型,將兩個(gè)模型的隱層向量拼接后表示每個(gè)單詞,作為下一層的輸入;

(1)對于訓(xùn)練語料中的每個(gè)論元,即標(biāo)注有篇章關(guān)系類別的句子,首先用步驟二中訓(xùn)練的詞向量對其進(jìn)行編碼,即把每個(gè)單詞映射為維度為50的向量;

(2)對于每個(gè)論元,分別構(gòu)建前向和后向的lstm網(wǎng)絡(luò),lstm過程的合成函數(shù)如下:

ht=ot×tanh(ct),(3)

其中,xt是第t個(gè)位置的單詞的向量表示,it,ft,ot分別表示輸入門、記憶門和輸出門,ta,b表示在網(wǎng)絡(luò)參數(shù)a和b之下的非線性變換,ct和ct-1分別表示當(dāng)前時(shí)刻和上一時(shí)刻的狀態(tài)變量,為候選狀態(tài)變量,ht和ht-1分別表示當(dāng)前時(shí)刻和上一時(shí)刻的隱藏變量。經(jīng)過足夠次數(shù)的迭代以后,ht中將包含單詞xt所所在的上文信息。本模型中,使用兩個(gè)方向的lstm模型對論元進(jìn)行編碼,所得隱變量分別為我們將其拼接作為第t個(gè)單詞的向量表示:

步驟四、構(gòu)建遞歸神經(jīng)網(wǎng)絡(luò):按照步驟一處理過的句法樹,遞歸地合成每個(gè)單詞,由遞歸神經(jīng)網(wǎng)絡(luò)的輸出得到每個(gè)論元的向量表示,將兩個(gè)論元的向量拼接,作為下一層的輸入;

遞歸神經(jīng)網(wǎng)絡(luò)構(gòu)建過程為:

(1)獲取句法樹:我們使用pdtb2.0所標(biāo)注的成分句法樹,首先將其二叉化,即保證樹中每個(gè)節(jié)點(diǎn)最多只有兩個(gè)子節(jié)點(diǎn),然后去掉詞性,最終得到由左右括號和單詞所組成的句法序列,比如((thecat)(satdown));

(2)確定合成順序:對于第一步所得句法序列,我們從左至右進(jìn)行遍歷,讀取到左括號’(’時(shí),不采取任何操作,讀取到右括號’)’時(shí),執(zhí)行reduce操作,讀取到單詞時(shí),執(zhí)行shift操作?,F(xiàn)將shift和reduce操作定義如下:

shift:對于讀取到的單詞w,將其在步驟一中所得的向量表示ht壓入堆棧s。

reduce:從堆棧s中彈出兩個(gè)元素xi和xj,將xi和xj按照(3)中所述合成函數(shù)進(jìn)行合成,并將合成結(jié)果壓入堆棧s;

(3)確定合成函數(shù):對于從堆棧s中彈出的元素xi和xj,按照如下方式合成:

其中,v∈r2d×2d×d是合成張量,w∈rd×2d是合成矩陣,b∈rd是和合成偏置,向量維度d=100,f是relu激活函數(shù),產(chǎn)生的新向量y將會(huì)重新被壓入堆棧s作為新的合成函數(shù)的輸入。

步驟五、構(gòu)建多層感知機(jī)分類器:將步驟四中的得到的向量輸入多層感知機(jī)中,在全連接的網(wǎng)絡(luò)之后接入softmax函數(shù),最終得到分類預(yù)判結(jié)果,利用語料庫真實(shí)標(biāo)注結(jié)果與預(yù)判結(jié)果計(jì)算交叉熵作為損失函數(shù),采用隨機(jī)梯度下降法更新模型中的參數(shù),迭代一定次數(shù)后達(dá)到收斂。

步驟六、進(jìn)行篇章關(guān)系識(shí)別:將待識(shí)別論元對作為訓(xùn)練后神經(jīng)網(wǎng)絡(luò)的輸入,利用多層感知機(jī)的輸出得到每個(gè)類別上的分類概率,選取其中概率最大值對應(yīng)的篇章關(guān)系作為最終的篇章關(guān)系識(shí)別結(jié)果。

有益效果

本發(fā)明對比現(xiàn)有技術(shù),通過采用雙向lstm和遞歸神經(jīng)網(wǎng)絡(luò),將深度語義信息和句子本身的句法結(jié)構(gòu)信息相結(jié)合,同時(shí)根據(jù)上下文內(nèi)容解決了詞的多義性問題,在隱式篇章關(guān)系類別標(biāo)簽的指導(dǎo)下提升分析精度的同時(shí),實(shí)現(xiàn)了各層次語義向量的互相優(yōu)化,彌補(bǔ)了基于特征選取的機(jī)器學(xué)習(xí)方法導(dǎo)致的錯(cuò)判,能夠有效地利用未標(biāo)注語料及不同層次語義信息進(jìn)行分析,使用戶能夠更快速而準(zhǔn)確地獲得隱式篇章關(guān)系的分析結(jié)果。

附圖說明

圖1為本發(fā)明方法的系統(tǒng)架構(gòu)圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例,對本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)說明。

圖1為本發(fā)明方法的系統(tǒng)架構(gòu)圖。本實(shí)施例首先介紹bi-lstm的構(gòu)建過程,然后介紹基于句法樹遞歸神經(jīng)網(wǎng)絡(luò)的合成過程,最后介紹整個(gè)模型的訓(xùn)練方法。

根據(jù)步驟一進(jìn)行語料預(yù)處理,實(shí)現(xiàn)步驟如下:

(1)統(tǒng)計(jì)pdtb2.0語料中每個(gè)單詞的出現(xiàn)頻數(shù),并按照頻數(shù)排序,取頻數(shù)最高的前20000個(gè)單詞存儲(chǔ)為詞典,對于其他單詞統(tǒng)一標(biāo)記為<unk>;

(2)對于pdtb2.0語料標(biāo)注的句法樹,使用stanfordparser中的binarization方法進(jìn)行二叉化,之后刪除其中的詞性標(biāo)注作為后續(xù)輸入。

根據(jù)步驟二進(jìn)行詞的embedding表示,實(shí)現(xiàn)步驟如下:

(1)獲取訓(xùn)練語料:爬蟲獲取giga新聞?wù)Z料,在每一句最后加入句子結(jié)尾標(biāo)記<end>,作為后續(xù)輸入;

(2)使用word2vec工具訓(xùn)練詞向量,選擇cbow模型,輸出維度為50,學(xué)習(xí)率設(shè)置為1e-3,窗口大小設(shè)置為5,訓(xùn)練之后得到詞向量文件。

根據(jù)步驟三,構(gòu)建雙向lstm層,實(shí)現(xiàn)步驟如下:

(1)對于訓(xùn)練語料中的每個(gè)論元,即標(biāo)注有篇章關(guān)系類別的句子,首先用步驟二中訓(xùn)練的詞向量對其進(jìn)行編碼,即把每個(gè)單詞映射為維度為50的向量;

(2)對于每個(gè)論元,分別構(gòu)建前向和后向的lstm網(wǎng)絡(luò),lstm過程的合成函數(shù)如下:

ht=ot×tanh(ct),(3)

其中,xt是第t個(gè)位置的單詞的向量表示,it,ft,ot分別表示輸入門、記憶門和輸出門,ta,b表示在網(wǎng)絡(luò)參數(shù)a和b之下的非線性變換,ct和ct-1分別表示當(dāng)前時(shí)刻和上一時(shí)刻的狀態(tài)變量,為候選狀態(tài)變量,ht和ht-1分別表示當(dāng)前時(shí)刻和上一時(shí)刻的隱藏變量。經(jīng)過足夠次數(shù)的迭代以后,ht中將包含單詞xt所所在的上文信息。本模型中,使用兩個(gè)方向的lstm模型對論元進(jìn)行編碼,所得隱變量分別為我們將其拼接作為第t個(gè)單詞的向量表示:

根據(jù)步驟四構(gòu)建遞歸神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)步驟如下:

(1)獲取句法樹:我們使用pdtb2.0所標(biāo)注的成分句法樹,首先將其二叉化,即保證樹中每個(gè)節(jié)點(diǎn)最多只有兩個(gè)子節(jié)點(diǎn),然后去掉詞性,最終得到由左右括號和單詞所組成的句法序列,比如((thecat)(satdown));

(2)確定合成順序:對于第一步所得句法序列,我們從左至右進(jìn)行遍歷,讀取到左括號’(’時(shí),不采取任何操作,讀取到右括號’)’時(shí),執(zhí)行reduce操作,讀取到單詞時(shí),執(zhí)行shift操作。現(xiàn)將shift和reduce操作定義如下:

shift:對于讀取到的單詞w,將其在步驟一中所得的向量表示ht壓入堆棧s。

reduce:從堆棧s中彈出兩個(gè)元素xi和xj,將xi和xj按照(3)中所述合成函數(shù)進(jìn)行合成,并將合成結(jié)果壓入堆棧s;

(3)確定合成函數(shù):對于從堆棧s中彈出的元素xi和xj,按照如下方式合成:

其中,v∈r2d×2d×d是合成張量,w∈rd×2d是合成矩陣,b∈rd是和合

成偏置,向量維度d=100,f是relu激活函數(shù),產(chǎn)生的新向量y將會(huì)重新

被壓入堆棧s作為新的合成函數(shù)的輸入。

根據(jù)步驟五構(gòu)建多層感知機(jī)分類器,其實(shí)現(xiàn)步驟如下:

(1)對于待分類的論元對(arg1,arg2),分別使用步驟二所述合成方式進(jìn)行合成,最后得到包含論元語義信息和句法信息的向量(x1,x2),將兩個(gè)向量拼接后輸入多層感知機(jī)進(jìn)行分類,得到預(yù)測的類別概率

(2)對于語料中標(biāo)注的關(guān)系類別,編碼成一維one-hot的表示l,然后計(jì)算損失函數(shù):

其中x1,x2表示論元1和論元2,c表示要分類的類別數(shù),和l分別表示預(yù)測標(biāo)簽和真實(shí)標(biāo)簽,lj和分別表示在第j個(gè)類別下的真實(shí)標(biāo)簽值和預(yù)測概率值。

(3)對于步驟五(2)中所得損失函數(shù),使用隨機(jī)梯度下降法的一個(gè)變種adagrad更新模型中的參數(shù),迭代至收斂,模型構(gòu)建完成。

根據(jù)步驟六進(jìn)行篇章關(guān)系識(shí)別,其實(shí)現(xiàn)步驟如下:

(1)對于每對待識(shí)別的論元,輸入到上述步驟所述網(wǎng)絡(luò)結(jié)構(gòu),得到最后多層感知機(jī)的輸出

(2)將作為本次篇章關(guān)系的識(shí)別結(jié)果,即為所求。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1