本發(fā)明涉及基于LSTM的漢語零指代消解方法。
背景技術(shù):
:指代是指篇章中用一個指代詞回指某個以前說過的語言單位。在語言學(xué)中,指代詞稱為照應(yīng)語,所指的對象或內(nèi)容稱為先行語?;刂甘切揶o學(xué)的一種術(shù)語,是指在一段話或語篇中一次又一次的提及同一個詞,同一個人或同一個事物的現(xiàn)象。指代消解就是確定照應(yīng)語和先行語之間相互關(guān)系的過程,是自然語言處理的關(guān)鍵問題之一。在自然語言中,讀者能夠根據(jù)上下文的關(guān)系推斷出來的部分經(jīng)常會被省略,被省略的部分在句子中承擔(dān)句子的句法成分,并且回指前文中說過的語言單位,這個現(xiàn)象稱為零指代。零指代即指在本身應(yīng)該出現(xiàn)回指詞的地方用零代詞代替。例如:小芹那年九歲,晌午做撈飯,聽見媽媽哼哼得很中聽,站在桌前聽了一會,把做飯也忘了。上述例子中每個處回指主語都是“小芹”,但卻沒有用實際的人稱代詞回指,而采用零形回指,但不影響全句的理解。對于中文等亞洲文字而言,省略句法結(jié)構(gòu)中某個部分的現(xiàn)象高達36%。這表明了中文中出現(xiàn)零指代的現(xiàn)象是很普遍的。由于零指代現(xiàn)象的普遍存在性,使得中文在很多領(lǐng)域的研究都困難重重。比如,在機器翻譯領(lǐng)域中,在無法知道省略部分所代表意思的時候,無法將中文翻譯成目標(biāo)語言等等。因此中文零指代的研究是自然語言處理的關(guān)鍵和熱點問題之一,在自然語言篇章理解中舉足輕重。通常在一段話中,為了保證文本的簡潔明了,文本中往往會省略掉很多信息,人們能通過上下文獲得這些信息,但是機器對于缺省的地方不能理解,這就要有一種方法來從文本中獲得缺省的信息。中文零指代的研究就是為解決這樣的問題而提出的。中文零指代的研究不但在信息抽取中起著重要作用,在機器翻譯、文本分類和信息抽取等應(yīng)用中也極為關(guān)鍵。早期零指代的研究主要利用語言的句法特征形成邏輯規(guī)則進行消解,比較有代表性的方法包括中心理論,基于句法的方法等。此類方法主要問題是表示和處理都非常困難,且需要大量的人工干預(yù),同時系統(tǒng)的可移植性和自動化程度都比較差。因此機器學(xué)習(xí)方法用于解決指代消解的問題,如決策樹,SVM,treekernel方法等。但是由于基于句法特征向量或者句法樹結(jié)構(gòu)的方法很難更有效的提高零指代消解問題的準(zhǔn)確率。隨著deeplearning研究方法的興起和發(fā)展,在自然語言處理領(lǐng)域,越來越多使用詞向量來解決自然語言處理任務(wù),也取得了不錯的效果,將詞用“詞向量”的方式表示可謂是將deeplearning引入NLP領(lǐng)域的一個核心技術(shù)。所以使用詞向量和神經(jīng)網(wǎng)絡(luò)方法來解決零指代消解任務(wù)變成了一種很有必要的嘗試和創(chuàng)新。目前漢語零指代消解的方法主要有三類:(1)把漢語零指代消解看作是一個二元分類任務(wù)。對句子中的每個零指代位置,首先根據(jù)規(guī)則確定其先行詞候選集;根據(jù)設(shè)計的特征模版,在完全句法樹上提取特征得到正負訓(xùn)練樣本;訓(xùn)練一個二元分類器進行漢語零指代消解。(2)把該問題同樣看作一個二元分類問題。首先在完全句法樹上確定零指代的位置、先行詞候選以及標(biāo)記出正反例;抽取包含零指代位置和先行詞候選的子樹,根據(jù)treekernel原理,使用SVM-TK工具訓(xùn)練一個二元分類器進行零指代的消解。(3)無監(jiān)督方法。有許多無監(jiān)督方法也應(yīng)用在漢語零指代消解問題中,如combingranking模型,IntegerLinearPrograming模型,概率模型等。以上傳統(tǒng)方法中只利用了句子中零指代出現(xiàn)位置上下文句法信息而沒有利用其語義信息,導(dǎo)致漢語零指代消解任務(wù)的準(zhǔn)確率低以及對語義信息理解確率低。技術(shù)實現(xiàn)要素:本發(fā)明的目的是為了解決現(xiàn)有方法漢語零指代消解任務(wù)的準(zhǔn)確率低以及對語義信息理解準(zhǔn)確率低的缺點,而提出一種基于LSTM的漢語零指代消解方法。上述的發(fā)明目的是通過以下技術(shù)方案實現(xiàn)的:步驟一、對已有的文本數(shù)據(jù)中每一個詞進行處理,采用word2vec工具對處理后的文本數(shù)據(jù)中每一個詞進行訓(xùn)練,得到一個詞向量字典,其中每一個詞都對應(yīng)著一個詞向量;步驟二、使用OntoNotes5.0語料庫中的漢語數(shù)據(jù),該漢語數(shù)據(jù)中句子的零指代及其先行詞有明確的標(biāo)注;對已經(jīng)標(biāo)記出零指代位置的句子,先用句法分析工具轉(zhuǎn)換成完全句法樹的形式,在完全句法樹中,對出現(xiàn)在零指代位置之前的所有NP結(jié)點選取最大的NP結(jié)點和修飾性NP結(jié)點作為該零指代的先行詞候選集;所述NP為名詞短語;步驟三、對出現(xiàn)在零指代位置之后的句子抽取關(guān)鍵詞,與每個零指代的先行詞候選集中的名詞短語組成一個訓(xùn)練樣本,如果當(dāng)前零指代的先行詞候選集中的候選短語是零指代真正的先行詞,則該訓(xùn)練樣本為正例樣本,否則為負例樣本;步驟四、將正負例樣本中所有的詞組成一個詞字典,給每個詞一個id標(biāo)號,將正負例樣本中的所有詞用id標(biāo)號替換,得到詞序列,作為模型的輸入;輸入的詞序列連接Embedding層,Embedding層將輸入的id標(biāo)號轉(zhuǎn)換成詞向量,采用步驟一得到的詞向量字典初始化Embedding層的所有詞向量;Embedding層連接雙向LSTM網(wǎng)絡(luò)層,將每個時刻雙向LSTM網(wǎng)絡(luò)層的輸出結(jié)果拼接起來,送入Dropout層;Dropout層連接邏輯回歸層,邏輯回歸層輸出一個介于0到1之間的數(shù)值,表示模型輸入樣本被判定為正例樣本的概率值,這個值作為模型的輸出;所述Embedding層為嵌入層;LSTM為長短期記憶模型。發(fā)明效果本發(fā)明相關(guān)研究不僅是對信息學(xué)、語言學(xué)相關(guān)理論的佐證,同時對自然語言理解有促進作用。本發(fā)明為了解決傳統(tǒng)方法只利用了詞法和句法結(jié)構(gòu)信息或者統(tǒng)計概率信息等,沒有在語義分析層面進行漢語零指代任務(wù)消解的問題,創(chuàng)新性的提出使用詞向量和LSTM模型來進行該任務(wù)。在相同的數(shù)據(jù)集上,本發(fā)明與傳統(tǒng)有監(jiān)督方法相比,F(xiàn)1-score值提升了5.8%,與無監(jiān)督方法比提升了2%。通過語料數(shù)據(jù)訓(xùn)練得到的詞向量被證明含有特定的結(jié)構(gòu)和語義信息,是一種很好的語義表達形式。本發(fā)明提出了一種關(guān)鍵詞的提取方法,將句子中零指代位置下文出現(xiàn)的詞中與先行詞有關(guān)的詞提取出來,與每個先行詞候選組成一個樣本,然后就將漢語零指代消解問題轉(zhuǎn)化成一個二元分類任務(wù),再設(shè)計了適合該分類問題的雙向LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過訓(xùn)練得到這個二元分類模型。使用該模型進行漢語零指代消解,只要將句子轉(zhuǎn)換成相應(yīng)的格式輸入模型就能得到分類結(jié)果。解決現(xiàn)有方法中只利用了句子中零指代出現(xiàn)位置上下文句法信息而沒有利用其語義信息、漢語零指代消解任務(wù)的準(zhǔn)確率低以及對語義信息理解準(zhǔn)確率低的缺點,本發(fā)明考慮了語義信息,提高了漢語零指代消解任務(wù)的準(zhǔn)確率和對語義信息理解的準(zhǔn)確率。本發(fā)明提出一種關(guān)鍵詞的抽取方法,在句子中零指代出現(xiàn)位置的下文抽取相關(guān)的名詞和動詞,設(shè)置一個關(guān)鍵詞長度參數(shù),如果抽取的關(guān)鍵詞多于該參數(shù)則進行裁剪,反之則進行補充。對零指代的先行詞候選短語,由于短語中的詞數(shù)量不固定,也要設(shè)定一個詞數(shù)量參數(shù),進行相應(yīng)的剪裁或補充。本發(fā)明使用詞向量作為一種語義表達的方式,使用雙向LSTM神經(jīng)網(wǎng)絡(luò)進行語義關(guān)系建模。通過對句子中先行詞候選短語和零指代下文中的關(guān)鍵詞進行語義建模,尋找兩者之間的語義關(guān)系,從而更好的在語義層面進行漢語零指代消解。本發(fā)明使用雙向LSTM網(wǎng)絡(luò),通過訓(xùn)練得到的詞向量字典用來初始化LSTM網(wǎng)絡(luò)中的Embedding層參數(shù),雙向LSTM層是由一個正向LSTM層和一個反向的LSTM層組成,這兩個LSTM層每個時間結(jié)點的輸出作為一個邏輯回歸層的輸入,最后用邏輯回歸層的輸出作為二元分類模型的輸出。舉例說明該發(fā)明的流程和效果。對于句子“中國機電產(chǎn)品進出口貿(mào)易繼續(xù)增加,*pro*占總進出口的比重繼續(xù)上升?!本渥又小?pro*”是零指代出現(xiàn)的位置,將該句子轉(zhuǎn)換成完全句法樹,在“*pro*”前面出現(xiàn)的NP結(jié)點,確定零指代位置的先行詞候選短語是:“中國機電產(chǎn)品進出口貿(mào)易”,“中國”,“機電產(chǎn)品”。“*pro*”真正的先行詞是“中國機電產(chǎn)品進出口貿(mào)易”。根絕關(guān)鍵詞抽取規(guī)則,在零指代位置“*pro*”的下文抽取的關(guān)鍵詞是:“占”、“進出口”、“比重”、“繼續(xù)”、“上升”。設(shè)置最大關(guān)鍵詞數(shù)目為6,先行詞候選短語最大詞數(shù)為3,如果詞數(shù)不夠,用符號“*”來填充。得到三個樣本:[產(chǎn)品進出口貿(mào)易–占進出口比重繼續(xù)上升*]、[**中國–占進出口比重繼續(xù)上升*]和[*機電產(chǎn)品–占進出口比重繼續(xù)上升*]。通過詞字典,將這些樣本中的詞替換成詞ID,然后輸入已經(jīng)訓(xùn)練好的基于雙向LSTM的二元分類模型。模型會將[產(chǎn)品進出口貿(mào)易–占進出口比重繼續(xù)上升*]分為正例,另外兩個樣本分為負例,認為“中國機電產(chǎn)品進出口貿(mào)易”是“*pro*”真正的先行詞。附圖說明圖1為整個基于雙向LSTM進行漢語零指代消解的流程圖;圖2為具體實施方式一提出的雙向LSTM模型網(wǎng)絡(luò)結(jié)構(gòu)圖;圖3為傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)圖;圖4為dropout網(wǎng)絡(luò)結(jié)構(gòu)圖。具體實施方式具體實施方式一:結(jié)合圖1說明本實施方式,本實施方式的一種基于詞向量和雙向LSTM的漢語零指代消解方法,具體是按照以下步驟制備的:步驟一、對已有的文本數(shù)據(jù)中每一個詞進行簡單的處理,采用word2vec工具對處理后的文本數(shù)據(jù)中每一個詞進行訓(xùn)練(word2vec是一款開源軟件,專門用來將分好詞的文本通過內(nèi)部的模型,將詞轉(zhuǎn)換成相應(yīng)的向量),得到一個詞向量字典,其中每一個詞都對應(yīng)著一個詞向量;步驟二、使用OntoNotes5.0語料庫中的漢語部分數(shù)據(jù),該漢語部分數(shù)據(jù)中句子的零指代及其先行詞有明確的標(biāo)注;對已經(jīng)標(biāo)記出零指代位置的句子文本,先用句法分析工具(將句子轉(zhuǎn)換成樹狀形式的工具,如:StanfordParser)轉(zhuǎn)換成完全句法樹的形式,在完全句法樹中,對出現(xiàn)在零指代位置之前的所有NP(名詞短語)結(jié)點選取最大的NP結(jié)點(祖先結(jié)點中無NP結(jié)點)和修飾性NP結(jié)點(父節(jié)點是NP結(jié)點并且右兄弟結(jié)點也是NP結(jié)點)作為該零指代的先行詞候選集;所述NP為名詞短語;步驟三、對出現(xiàn)在零指代位置之后的句子(從零指代出現(xiàn)位置到句子末尾)抽取關(guān)鍵詞,與每個零指代的先行詞候選集中的名詞短語NP組成一個訓(xùn)練樣本,如果當(dāng)前零指代的先行詞候選集中的候選短語是零指代真正的先行詞,則該訓(xùn)練樣本為正例樣本,否則為負例樣本;步驟四、將正負例樣本中所有的詞組成一個詞字典,給每個詞一個id標(biāo)號,將正負例樣本中的所有詞用id標(biāo)號替換,得到詞序列,作為模型的輸入;輸入的詞序列連接Embedding層,Embedding層將輸入的id標(biāo)號轉(zhuǎn)換成詞向量,采用步驟一得到的詞向量字典初始化Embedding層的所有詞向量參數(shù);Embedding層連接雙向LSTM網(wǎng)絡(luò)層,用于提取特征;將每個時刻雙向LSTM網(wǎng)絡(luò)層的輸出結(jié)果拼接起來,送入Dropout層;Dropout層連接邏輯回歸層,邏輯回歸層輸出一個介于0到1之間的數(shù)值,表示模型輸入樣本被判定為正例的概率值,這個值作為模型的輸出;所述Embedding層為嵌入層;LSTM為長短期記憶模型;Dropout層為一種特殊網(wǎng)絡(luò)結(jié)構(gòu),模型訓(xùn)練的時候dropout網(wǎng)絡(luò)層會隨機的選擇某個比例的隱含單元失去作用。如圖3和圖4;圖3為傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)圖,圖4為dropout網(wǎng)絡(luò)結(jié)構(gòu)圖;Dropout是指在模型訓(xùn)練時隨機讓網(wǎng)絡(luò)某些隱含層節(jié)點的權(quán)重不工作,不工作的那些節(jié)點可以暫時認為不是網(wǎng)絡(luò)結(jié)構(gòu)的一部分,但是它的權(quán)重得保留下來(只是暫時不更新而已),因為下次樣本輸入時它可能又得工作了(有點抽象,具體實現(xiàn)看后面的實驗部分)??梢哉J為是一種特殊的網(wǎng)絡(luò)結(jié)構(gòu)。具體實施方式二:本實施方式與具體實施方式一不同的是:所述步驟一中對已有的文本數(shù)據(jù)進行簡單的處理的過程為:使用分詞程序?qū)σ延械奈谋緮?shù)據(jù)中句子進行分詞,將特殊字符進行去除,只保留漢字、英文和標(biāo)點(特殊字符比如希臘字母、俄文字母、注音符號、特殊符號等)。具體實施方式三:本實施方式與具體實施方式一或二不同的是:所述步驟二中先行詞候選集的處理方式為:設(shè)置先行詞候選集最大詞數(shù)目為n,1≤n≤maxW,maxW表示一個句子的最大詞數(shù)目;如果先行詞候選集詞數(shù)目小于n,則用符號*進行填充直到詞數(shù)目等于n;如果先行詞候選集詞數(shù)目大于n,則只保留最后n個詞;在詞映射成詞向量階段,*映射成零向量。具體實施方式四:本實施方式與具體實施方式一至三之一不同的是:所述步驟三中對出現(xiàn)在零指代位置之后的句子(從零指代出現(xiàn)位置到句子末尾)抽取關(guān)鍵詞;具體過程為:設(shè)置關(guān)鍵詞最大詞數(shù)為m,1≤m≤maxW,maxW表示一個句子的最大詞數(shù)目,關(guān)鍵詞提取規(guī)則是:抽取句子中的名詞和動詞;如果抽取的總詞數(shù)小于m,則用符號*進行填充,直到達到m個詞;如果抽取的總詞數(shù)等于m,則不需要額外處理;如果抽取的總詞數(shù)大于m,則要對抽取的所有詞進行裁剪,首先刪除修飾性名詞,計算刪除修飾性名詞后的抽取的總詞數(shù),如果抽取的總詞數(shù)等于m,則不需要額外處理;如果抽取的總詞數(shù)小于m,則用符號*進行填充,直到達到m個詞;如果抽取的總詞數(shù)大于m,則再刪除名詞中除修飾性名詞外的名詞,計算刪除后的抽取的總詞數(shù),如果抽取的總詞數(shù)小于m,則用符號*進行填充,直到達到m個詞;如果抽取的總詞數(shù)等于m,則不需要額外處理;如果抽取的總詞數(shù)大于m,則再刪除動詞,計算刪除動詞后的抽取的總詞數(shù),如果抽取的總詞數(shù)小于m,則用符號*進行填充,直到達到m個詞;如果抽取的總詞數(shù)等于m,則不需要額外處理。具體實施方式五:本實施方式與具體實施方式一至四之一不同的是:所述步驟四中雙向LSTM網(wǎng)絡(luò)層包括正向LSTM層和反向LSTM層;如圖2所示;LSTM層的作用就是在輸入的關(guān)鍵詞序列上提取特征;正負例樣本中的所有詞分別正向輸入正向LSTM層,反向輸入反向LSTM層;使用雙向LSTM層分別保存兩個方向輸入的信息。理論上可以使模型在處理當(dāng)前時刻數(shù)據(jù)時利用到整個序列的上下文信息,最后這兩個LSTM層在每個時序的輸出都拼接起來。3個門以及獨立的memorycell的設(shè)計,使得LSTM單元有保存,讀取、重置和更新長距離歷史信息的能力。具體實施方式六:本實施方式與具體實施方式一至五之一不同的是:所述LSTM層由LSTM單元組成,每個時序都對應(yīng)一個LSTM單元;LSTM單元在每個時序都會輸入一個詞向量,然后輸出一個值,每個時序的輸出值經(jīng)過拼接操作(兩個向量的拼接操作可以看作是將第二個向量追加到第一個向量的末尾,使其合并成一個新的向量)得到一個特征向量,送入Dropout層,與Dropout層的邏輯回歸層連接,邏輯回歸層輸出一個介于0到1之間的數(shù)值,表示輸入樣本被判定為正例的概率值,這個值作為模型的輸出。具體實施方式七:本實施方式與具體實施方式一至六之一不同的是:所述LSTM層由LSTM單元組成,每個時序都對應(yīng)一個LSTM單元;LSTM單元在每個時序都會輸入一個詞向量,然后LSTM單元輸出一個值;具體過程為:LSTM單元專門設(shè)計了記憶單元(memorycell)用于保存歷史信息。歷史信息的更新和利用分別受到3個門的控制——輸入門(inputgate),遺忘門(forgetgate),輸出門(outputgate);設(shè)h為LSTM單元輸出數(shù)據(jù),c為LSTM候選記憶單元值,x為LSTM單元輸入數(shù)據(jù);(1)根據(jù)傳統(tǒng)RNN的公式計算當(dāng)前時刻的候選記憶單元值Wxc、Whc分別是LSTM單元當(dāng)前時刻輸入數(shù)據(jù)xt和上一時刻LSTM單元輸出數(shù)據(jù)ht-1的權(quán)值參數(shù),bc為偏置參數(shù),h為激活函數(shù);c~t=tanh(Wxcxt+Whcht-1+bc)]]>(2)計算輸入門inputgate的值it,輸入門用于控制當(dāng)前數(shù)據(jù)輸入對記憶單元狀態(tài)值的影響。所有門的計算除了受當(dāng)前輸入數(shù)據(jù)xt和上一時刻LSTM單元輸出值ht-1影響外,還受上一時刻記憶單元值ct-1的影響。it=σ(Wxixt+Whiht-1+Wcict-1+bi)其中,Wxi為LSTM單元當(dāng)前時刻輸入數(shù)據(jù)xt的權(quán)值參數(shù),Whi為上一時刻LSTM單元輸出數(shù)據(jù)ht-1的權(quán)值參數(shù),Wci為上一時刻候選記憶單元值ct-1的權(quán)值參數(shù),bi為偏置參數(shù);σ為激活函數(shù);(3)計算遺忘門forgetgate的值ft,遺忘門用于控制歷史信息對當(dāng)前記憶單元狀態(tài)值的影響。ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)其中,Wxf為LSTM單元當(dāng)前時刻輸入數(shù)據(jù)xt的權(quán)值參數(shù),Whf為上一時刻LSTM單元輸出數(shù)據(jù)ht-1的權(quán)值參數(shù),Wcf為上一時刻候選記憶單元值ct-1的權(quán)值參數(shù),bf為偏置參數(shù);(4)計算當(dāng)前時刻記憶單元值ct;其中,⊙表示逐點乘積;由公式可見,記憶單元更新取決于上一時刻候選記憶單元值ct-1和當(dāng)前時刻的候選記憶單元值,并且通過輸入門和遺忘門分別對這兩部分因素進行調(diào)節(jié)。(5)計算輸出門ot;用于控制記憶單元狀態(tài)值的輸出。ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)其中,Wxo為LSTM單元當(dāng)前時刻輸入數(shù)據(jù)xt的權(quán)值參數(shù),Who為上一時刻LSTM單元輸出數(shù)據(jù)ht-1的權(quán)值參數(shù),Wco為上一時刻候選記憶單元值ct-1的權(quán)值參數(shù),bo為偏置參數(shù);(6)最后LSTM單元的輸出為ht=ot⊙tanh(ct)。具體實施方式八:本實施方式與具體實施方式一至七之一不同的是:所述σ一般取logisticsigmoid函數(shù),取值范圍0≤σ≤1。具體實施方式九:本實施方式與具體實施方式一至八之一不同的是:所述對LSTM單元輸出的值,使用邏輯回歸進行二元分類,邏輯回歸層的輸出結(jié)果是模型輸入的樣本,被預(yù)測為正例的概率值(本專利提出的模型最后的輸出就是這個概率值,這個概率值越準(zhǔn)確,說明模型越好),這個值作為模型的輸出具體過程為:分類公式為:p(y=1|x)=exp(w·x+b)1+exp(w·x+b)]]>其中,x為dropout網(wǎng)絡(luò)輸出的特征向量,b為偏置向量,y為分類標(biāo)簽,分為正例標(biāo)簽或者負例標(biāo)簽;邏輯回歸p(y=1|x)計算的是在輸入的特征向量是x的條件下y為正例標(biāo)簽的概率;在基于雙向LSTM模型的漢語零指代消解框架中。為了防止神經(jīng)網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象,使用dropout技術(shù)來避免模型出現(xiàn)過擬合現(xiàn)象。Dropout層在模型訓(xùn)練的時候隨機讓一定比例(比例p通常取0.5)的隱含節(jié)點不工作。不工作的這些節(jié)點對應(yīng)的權(quán)值在這次訓(xùn)練中就不會更新。但是在模型使用的時候,所有節(jié)點都會被用到,恢復(fù)全連接。通過這種機制達到防止出現(xiàn)過擬合現(xiàn)象。整個LSTM二元分類網(wǎng)絡(luò)的構(gòu)造過程是:在數(shù)據(jù)預(yù)處理階段,將抽取的關(guān)鍵詞序列利用詞字典轉(zhuǎn)換成詞標(biāo)號序列;然后將這些詞標(biāo)號序列作為神經(jīng)網(wǎng)絡(luò)的輸入,連接到embedding層,embedding層將每個時序的詞標(biāo)號轉(zhuǎn)換成詞向量,分別順序傳給正向LSTM網(wǎng)絡(luò)層和逆序傳給反向LSTM網(wǎng)絡(luò)層;兩個LSTM層在每個時間序列都會有一個輸出,把這些輸出結(jié)果橫向拼接起來(通過concatenate操作,拼接到一起),然后送入dropout層;dropout層輸出結(jié)果送入邏輯回歸分類層,最后輸出分類概率值。采用以下實施例驗證本發(fā)明的有益效果:實施例一:本實施例一,具體是按照以下步驟制備的:(1)樣本提取。在OntoNote5.0語料庫抽取包含漢語零指代的句子和其完全句法樹。在句子的完全句法樹上抽取先行詞候選集。每個先行詞候選短語與其零指代構(gòu)成一個樣本,根據(jù)該候選短語是否是零指代的真正先行詞來確定該樣本為正例或負例。(2)關(guān)鍵詞抽取。通過本發(fā)明提出的關(guān)鍵詞抽取策略,抽取句子中零指代位置至句尾的關(guān)鍵詞和候選短語的關(guān)鍵詞。最后根據(jù)詞字典,將這些關(guān)鍵詞替換成詞標(biāo)號。(3)將正負訓(xùn)練樣本送入本發(fā)明提出的雙向LSTM模型框架,經(jīng)過訓(xùn)練之后得到一個漢語零指代消解模型。(4)最后將新的測試樣本(同樣來自上述方法和語料庫)送入模型,根據(jù)模型的預(yù)測結(jié)果和測試樣本的真實結(jié)果,得到測試數(shù)據(jù)。測試結(jié)果如下:準(zhǔn)確率召回率F1值50.750.750.7本發(fā)明還可有其它多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,本領(lǐng)域技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護范圍。當(dāng)前第1頁1 2 3