本發(fā)明涉及自然語言處理領(lǐng)域,尤其是一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法。
背景技術(shù):
:命名實(shí)體識(shí)別是從非結(jié)構(gòu)化的自然文本中識(shí)別人名、地名、組織結(jié)構(gòu)名、時(shí)間和數(shù)字表達(dá)等有意義的實(shí)體指稱和類別。命名實(shí)體識(shí)別是許多自然語言處理技術(shù)中的重要組成部分,在線中醫(yī)文本命名實(shí)體識(shí)別是識(shí)別互聯(lián)網(wǎng)中醫(yī)學(xué)領(lǐng)域文本中有特定含義的實(shí)體,包括疾病、癥狀、藥物、食材等。現(xiàn)有的相關(guān)技術(shù)可以分為兩類,一類是基于人工規(guī)則,例如根據(jù)詞語出現(xiàn)的概率,將出現(xiàn)次數(shù)超過一定概率的詞語識(shí)別為命名實(shí)體;或者根據(jù)詞語的組成模式,例如人名由姓氏和名字組成等。另一類是基于機(jī)器學(xué)習(xí)方法,當(dāng)前應(yīng)用較為廣泛的識(shí)別技術(shù)主要是基于機(jī)器學(xué)習(xí)方法,相關(guān)的方法有支持向量機(jī)模型(SVM)、最大熵模型(MaximumEntropy)、隱馬爾科夫模型(HMM)、條件隨機(jī)場(CRF)等,其中條件隨機(jī)場是應(yīng)用較多的模型。上述傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)方法依賴于特征選取的程度較高,特征選取的方法需要基于大量的領(lǐng)域知識(shí)和經(jīng)驗(yàn),同時(shí)需要花費(fèi)大量的時(shí)間精力進(jìn)行試驗(yàn),無法保證結(jié)果的最優(yōu)化。如何有效利用大規(guī)模無標(biāo)注語料,實(shí)現(xiàn)特征自動(dòng)提取是眾多研究學(xué)者的關(guān)注課題。另一方面,深度學(xué)習(xí)在圖像處理和語音識(shí)別領(lǐng)域取得了相當(dāng)顯著的進(jìn)展,同時(shí)也開始被應(yīng)用到自然語言處理領(lǐng)域中。深度學(xué)習(xí)方法能夠在一定程度上很好地替代一般的特征提取方法,更好的提取詞語、句子、篇章的語義信息,相關(guān)的模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork)、卷積神經(jīng)網(wǎng)絡(luò)、長短時(shí)記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)以及一些混合模型的方法等。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是針對(duì)上述現(xiàn)有技術(shù)的不足,提供了一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法,該方法有效解決了實(shí)際應(yīng)用中在中醫(yī)文本大數(shù)據(jù)上進(jìn)行命名實(shí)體識(shí)別的低效率、低準(zhǔn)確率問題。本發(fā)明的目的可以通過如下技術(shù)方案實(shí)現(xiàn):一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法,所述方法包括以下步驟:1)通過網(wǎng)絡(luò)爬蟲獲取在線中醫(yī)文本數(shù)據(jù),對(duì)在線中醫(yī)文本數(shù)據(jù)進(jìn)行包含編碼轉(zhuǎn)換、無關(guān)信息去除等的預(yù)處理操作,再利用已有的專業(yè)詞典等及人工輔助對(duì)獲取的在線中醫(yī)文本數(shù)據(jù)中的命名實(shí)體進(jìn)行標(biāo)注;2)利用word2vec工具在大規(guī)模的無標(biāo)注語料上進(jìn)行學(xué)習(xí),獲取固定長度的詞向量并組成相應(yīng)的詞匯表;3)將步驟1)中標(biāo)注過的在線中醫(yī)文本數(shù)據(jù)進(jìn)行分詞,對(duì)于每個(gè)句子,通過查找步驟2)的詞匯表,將詞語轉(zhuǎn)化為固定長度詞向量,將固定長度詞向量轉(zhuǎn)化為向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,其中,當(dāng)句子長度不足時(shí)以空白符填充;4)將多個(gè)連續(xù)時(shí)刻的步驟3)中卷積神經(jīng)網(wǎng)絡(luò)的輸出作為雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,輸出待識(shí)別的在線中醫(yī)文本數(shù)據(jù)詞語的識(shí)別結(jié)果,其中,雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層的神經(jīng)元輸入還包括上一時(shí)刻隱含層的輸出及識(shí)別結(jié)果向量化的數(shù)據(jù)。優(yōu)選的,步驟1)中,所述對(duì)獲取的在線中醫(yī)文本數(shù)據(jù)中的命名實(shí)體進(jìn)行標(biāo)注采用的是BIO標(biāo)注集,即標(biāo)注集中包含{B,I,O},其中B表示命名實(shí)體詞語的開頭,I表示實(shí)體詞語的其余部分,O表示詞語不屬于命名實(shí)體的部分;優(yōu)選的,步驟2)中,所述語料數(shù)據(jù)的收集通過互聯(lián)網(wǎng)進(jìn)行,利用word2vec訓(xùn)練得到的詞向量每一維代表了特定的詞語特征,可選維度為100、200、500。優(yōu)選的,步驟3)中,所述卷積神經(jīng)網(wǎng)絡(luò)的卷積層包含多種大小的卷積核,通過詞語的上下文信息自動(dòng)提取文本特征,卷積層后接隨時(shí)間最大池化層對(duì)多個(gè)局部卷積特征進(jìn)行下采樣操作。優(yōu)選的,步驟3)中,所述卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)采用均值為0及方差為2/n的高斯分布進(jìn)行初始化,其中,n為輸入個(gè)數(shù),采用隨機(jī)梯度下降進(jìn)行迭代求解。優(yōu)選的,步驟4)中,所述雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)包含兩個(gè)隱含層,每個(gè)隱含層都包含前向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)和后向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)組成的雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)詞語的前后上下文特征進(jìn)行建模。優(yōu)選的,步驟4)中,所述雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)步驟3)中卷積神經(jīng)網(wǎng)絡(luò)的輸出作為輸入,分別計(jì)算每個(gè)輸入詞語屬于某個(gè)命名實(shí)體類別標(biāo)志的概率,以最大概率所屬的類別作為詞語最后的類別標(biāo)志。本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:1、本發(fā)明提供了一種基于深度學(xué)習(xí)方法的在線中醫(yī)文本命名實(shí)體識(shí)別方法,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)需識(shí)別的文本序列提取特征,將特征向量作為數(shù)據(jù)輸入到雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)中來完成識(shí)別過程,相比于使用傳統(tǒng)方法進(jìn)行命名實(shí)體識(shí)別,減少了特征提取的復(fù)雜性和工作量,簡化了處理過程,顯著提高了識(shí)別效率。2、本發(fā)明將詞語轉(zhuǎn)化為固定長度詞向量,相比于傳統(tǒng)的獨(dú)熱模型,詞向量在大規(guī)模語料上的擴(kuò)展性更好,降低了表示維度,減少了存儲(chǔ)空間并可以計(jì)算詞與詞之間的相似性,提升了模型的健壯性。3、本發(fā)明采用雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)輸出待識(shí)別的在線中醫(yī)文本數(shù)據(jù)詞語的識(shí)別結(jié)果,其中,雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層的神經(jīng)元輸入還包括上一時(shí)刻隱含層的輸出及識(shí)別結(jié)果向量化的數(shù)據(jù),因此,模型識(shí)別當(dāng)前的詞語和訓(xùn)練過程時(shí),利用了當(dāng)前時(shí)刻的輸入及上一時(shí)刻的語言特征向量,將詞語的上下文信息及依賴關(guān)系都學(xué)習(xí)和識(shí)別到了,簡化了識(shí)別的工作,提升了識(shí)別效率。附圖說明圖1為本發(fā)明實(shí)施例采用的基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法流程圖。圖2為本發(fā)明實(shí)施例采用的雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)雙層網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。圖3為本發(fā)明實(shí)施例采用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。圖4為本發(fā)明實(shí)施例采用的長短時(shí)記憶神經(jīng)元結(jié)構(gòu)示意圖。具體實(shí)施方式下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。實(shí)施例:本實(shí)施例提供了一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法,所述方法的流程圖如圖1所示,包括以下步驟:步驟一、通過網(wǎng)絡(luò)爬蟲獲取在線中醫(yī)文本數(shù)據(jù),對(duì)在線中醫(yī)文本數(shù)據(jù)進(jìn)行包含編碼轉(zhuǎn)換、無關(guān)信息去除等的預(yù)處理操作,再利用已有的專業(yè)詞典等及人工輔助對(duì)獲取的在線中醫(yī)文本數(shù)據(jù)中的命名實(shí)體進(jìn)行標(biāo)注,標(biāo)注采用BIO標(biāo)注集,即標(biāo)注集中包含{B,I,O},其中B表示命名實(shí)體詞語的開頭,I表示實(shí)體詞語的其余部分,O表示詞語不屬于命名實(shí)體的部分;步驟二、利用word2vec工具在大規(guī)模的無標(biāo)注語料上進(jìn)行學(xué)習(xí),獲取固定長度的詞向量并組成相應(yīng)的詞匯表;本步驟中,語料數(shù)據(jù)通過互聯(lián)網(wǎng)收集,利用word2vec訓(xùn)練得到的詞向量包含了良好的語義特征,學(xué)習(xí)了上下文的語義信息,其中的每一維代表了特定的詞語特征,維度較少,一般的可選維度為100、200、500等。步驟三、將步驟一中標(biāo)注過的在線中醫(yī)文本數(shù)據(jù)進(jìn)行分詞,對(duì)于每個(gè)句子,通過查找步驟二的詞匯表,將詞語轉(zhuǎn)化為固定長度詞向量,將固定長度詞向量轉(zhuǎn)化為向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,其中,當(dāng)句子長度不足時(shí)以空白符填充;本步驟中,當(dāng)詞語位于句子首尾或句子長度不足時(shí),用空白符Padding補(bǔ)足到句子M,多個(gè)詞語組成向量矩陣并作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,表1與表2為步驟三的一個(gè)相關(guān)示例:表1表2進(jìn)一步地,本步驟中,所述卷積神經(jīng)網(wǎng)絡(luò)的卷積層包含多種大小的卷積核,通過詞語的上下文信息自動(dòng)提取文本特征,卷積層后接隨時(shí)間最大池化層對(duì)多個(gè)局部卷積特征進(jìn)行下采樣操作。所述卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)采用均值為0及方差為2/n的高斯分布進(jìn)行初始化,采用隨機(jī)梯度下降進(jìn)行迭代求解。所述均值為0及方差為2/n的高斯分布初始化方法即MSRA初始化方法,該方法替代了傳統(tǒng)的高斯分布初始化方法,解決了深度網(wǎng)絡(luò)難以收斂的問題,公式如下:其中n為輸入個(gè)數(shù)。所述卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示,第一層為卷積層,包括多個(gè)大小的卷積核,每個(gè)大小的卷積核有多個(gè),每個(gè)卷積核寬度與詞語向量的長度相同,通過訓(xùn)練后得到包含不同權(quán)值的權(quán)重矩陣,每個(gè)輸入的向量矩陣分別與不同的權(quán)重矩陣進(jìn)行二維卷積計(jì)算,得到局部卷積特征圖,卷積層的前向傳播可以表示為如下公式:其中1為當(dāng)前卷積層下標(biāo),x為對(duì)應(yīng)層的輸出,j為特征圖下標(biāo),w為卷積核參數(shù),b為偏置,M表示輸入集合,其中f函數(shù)為激勵(lì)函數(shù),選擇ReLu作為激勵(lì)函數(shù),它可以使網(wǎng)絡(luò)稀疏化,減少參數(shù)依賴和過擬合的情況。所述ReLu函數(shù)可以表示為:f(x)=max(0,x)其中max函數(shù)表示取0和x中的最大值。所述卷積神經(jīng)網(wǎng)絡(luò)的第二層是Max-over-timePooling層,對(duì)上層的輸出進(jìn)行降維,減少過擬合,減少模型參數(shù),對(duì)于上述卷積核得到的每個(gè)特征圖輸出中都只保留最大的值。所述卷積神經(jīng)網(wǎng)絡(luò)的最后部分是全連接網(wǎng)絡(luò),全連接網(wǎng)絡(luò)的輸出是固定長度的向量,作為下層長短時(shí)記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,全連接網(wǎng)絡(luò)以上層的輸出為輸入,通過誤差反向傳播的方式進(jìn)行訓(xùn)練。步驟四、將多個(gè)連續(xù)時(shí)刻的步驟三中卷積神經(jīng)網(wǎng)絡(luò)的輸出作為雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,輸出待識(shí)別的在線中醫(yī)文本數(shù)據(jù)詞語的識(shí)別結(jié)果,其中,雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層的神經(jīng)元輸入還包括上一時(shí)刻隱含層的輸出及識(shí)別結(jié)果向量化的數(shù)據(jù)。本步驟中,所述雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)包含兩個(gè)隱含層,如圖2所示,每個(gè)隱含層都包含前向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)和后向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)組成的雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)詞語的前后上下文特征進(jìn)行建模。本步驟中,所述雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)步驟三中卷積神經(jīng)網(wǎng)絡(luò)的輸出作為輸入,分別計(jì)算每個(gè)輸入詞語屬于某個(gè)命名實(shí)體類別標(biāo)志的概率,以最大概率所屬的類別作為詞語最后的類別標(biāo)志。本步驟中,雙向長短時(shí)記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)利用了前后詞語的特征、中間詞特征、命名實(shí)體特征,LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)是對(duì)傳統(tǒng)RNN(RecurrentNeuralNetwork)的改進(jìn),通過引入單元狀態(tài)來保留一定時(shí)間的記憶信息,避免了求導(dǎo)時(shí)梯度消失的問題,LSTM網(wǎng)絡(luò)包括一個(gè)輸入層、兩個(gè)隱含層和一個(gè)softmax層,通過BPTT(BackpropagationThroughTime)的方法進(jìn)行學(xué)習(xí),實(shí)現(xiàn)網(wǎng)絡(luò)誤差反向傳播及權(quán)重更新,具體組成部分如下:輸入層包括多個(gè)單元,每個(gè)單元的輸入為上層卷積網(wǎng)絡(luò)的輸出,一定長度的輸出組成LSTM網(wǎng)絡(luò)的輸入;隱含層接受上層輸入,每個(gè)隱含層由指定數(shù)量的LSTM單元組成,每個(gè)單元由輸入門、遺忘門、輸出門和自連接組成,具體結(jié)構(gòu)如圖4所示,可以用如下公式描述:i=sigmoid(xtUi+st-1Wi+bi)f=sigmoid(xtUf+st-1Wf+bf)o=sigmoid(xtUo+st-1Wo+bo)g=tanT(xtUg+st-1Wg+bg)其中i、f、o分別表示輸入門、遺忘門、輸出門的輸出,t表示t時(shí)刻,t-1表示上一時(shí)刻,bi、bf、bo、bg表示相應(yīng)的偏置向量,ɡ、s分別表示輸入激活函數(shù)的輸出和輸出激活函數(shù)的輸出,c為單元最后的記憶狀態(tài),U、W表示相應(yīng)的權(quán)值矩陣。其中遺忘門控制了單元從過去的“記憶”中需要保留或丟棄的信息,輸出越接近于1表示保留的相關(guān)信息越多,即控制文本的上下文對(duì)當(dāng)前詞語的影響,輸入門控制了獲得新的輸入后,單元需要保留的信息,輸出門控制了信息有多少程度上是對(duì)外可見的。每個(gè)隱含層包括從前往后傳遞的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)和從后往前傳遞的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò),同一個(gè)隱含層的不同傳遞方向的神經(jīng)單元不直接連接。倒數(shù)第二層為單層全連接層,最后一層為softmax分類器,根據(jù)輸出的最大概率值來判斷相應(yīng)的每個(gè)詞語的命名實(shí)體標(biāo)注。本方法的標(biāo)注采用經(jīng)典的BIO模型進(jìn)行標(biāo)注,將命名實(shí)體分為兩類,即食材(用F表示)、病癥(用D表示),其中B表示命名實(shí)體詞語的開頭,I表示實(shí)體詞語的其余部分,O表示詞語不屬于命名實(shí)體的部分,例如針對(duì)句子“你描述的問題是因?yàn)槲笩岬陌Y狀”,相應(yīng)標(biāo)記如表3所示:你描述的問題是因?yàn)槲笩岬陌Y狀OOOOOOOOOB-DI-DOOO表3以上所述,僅為本發(fā)明專利較佳的實(shí)施例,但本發(fā)明專利的保護(hù)范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明專利所公開的范圍內(nèi),根據(jù)本發(fā)明專利的技術(shù)方案及其發(fā)明專利構(gòu)思加以等同替換或改變,都屬于本發(fā)明專利的保護(hù)范圍。當(dāng)前第1頁1 2 3