一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法與流程

文檔序號(hào)：11919284閱讀：307來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法與流程

本發(fā)明涉及自然語言處理領(lǐng)域，尤其是一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法。
背景技術(shù)：
：命名實(shí)體識(shí)別是從非結(jié)構(gòu)化的自然文本中識(shí)別人名、地名、組織結(jié)構(gòu)名、時(shí)間和數(shù)字表達(dá)等有意義的實(shí)體指稱和類別。命名實(shí)體識(shí)別是許多自然語言處理技術(shù)中的重要組成部分，在線中醫(yī)文本命名實(shí)體識(shí)別是識(shí)別互聯(lián)網(wǎng)中醫(yī)學(xué)領(lǐng)域文本中有特定含義的實(shí)體，包括疾病、癥狀、藥物、食材等。現(xiàn)有的相關(guān)技術(shù)可以分為兩類，一類是基于人工規(guī)則，例如根據(jù)詞語出現(xiàn)的概率，將出現(xiàn)次數(shù)超過一定概率的詞語識(shí)別為命名實(shí)體；或者根據(jù)詞語的組成模式，例如人名由姓氏和名字組成等。另一類是基于機(jī)器學(xué)習(xí)方法，當(dāng)前應(yīng)用較為廣泛的識(shí)別技術(shù)主要是基于機(jī)器學(xué)習(xí)方法，相關(guān)的方法有支持向量機(jī)模型(SVM)、最大熵模型(MaximumEntropy)、隱馬爾科夫模型(HMM)、條件隨機(jī)場(CRF)等，其中條件隨機(jī)場是應(yīng)用較多的模型。上述傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)方法依賴于特征選取的程度較高，特征選取的方法需要基于大量的領(lǐng)域知識(shí)和經(jīng)驗(yàn)，同時(shí)需要花費(fèi)大量的時(shí)間精力進(jìn)行試驗(yàn)，無法保證結(jié)果的最優(yōu)化。如何有效利用大規(guī)模無標(biāo)注語料，實(shí)現(xiàn)特征自動(dòng)提取是眾多研究學(xué)者的關(guān)注課題。另一方面，深度學(xué)習(xí)在圖像處理和語音識(shí)別領(lǐng)域取得了相當(dāng)顯著的進(jìn)展，同時(shí)也開始被應(yīng)用到自然語言處理領(lǐng)域中。深度學(xué)習(xí)方法能夠在一定程度上很好地替代一般的特征提取方法，更好的提取詞語、句子、篇章的語義信息，相關(guān)的模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork)、卷積神經(jīng)網(wǎng)絡(luò)、長短時(shí)記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)以及一些混合模型的方法等。技術(shù)實(shí)現(xiàn)要素：本發(fā)明的目的是針對(duì)上述現(xiàn)有技術(shù)的不足，提供了一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法，該方法有效解決了實(shí)際應(yīng)用中在中醫(yī)文本大數(shù)據(jù)上進(jìn)行命名實(shí)體識(shí)別的低效率、低準(zhǔn)確率問題。本發(fā)明的目的可以通過如下技術(shù)方案實(shí)現(xiàn)：一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法，所述方法包括以下步驟：1)通過網(wǎng)絡(luò)爬蟲獲取在線中醫(yī)文本數(shù)據(jù)，對(duì)在線中醫(yī)文本數(shù)據(jù)進(jìn)行包含編碼轉(zhuǎn)換、無關(guān)信息去除等的預(yù)處理操作，再利用已有的專業(yè)詞典等及人工輔助對(duì)獲取的在線中醫(yī)文本數(shù)據(jù)中的命名實(shí)體進(jìn)行標(biāo)注；2)利用word2vec工具在大規(guī)模的無標(biāo)注語料上進(jìn)行學(xué)習(xí)，獲取固定長度的詞向量并組成相應(yīng)的詞匯表；3)將步驟1)中標(biāo)注過的在線中醫(yī)文本數(shù)據(jù)進(jìn)行分詞，對(duì)于每個(gè)句子，通過查找步驟2)的詞匯表，將詞語轉(zhuǎn)化為固定長度詞向量，將固定長度詞向量轉(zhuǎn)化為向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，其中，當(dāng)句子長度不足時(shí)以空白符填充；4)將多個(gè)連續(xù)時(shí)刻的步驟3)中卷積神經(jīng)網(wǎng)絡(luò)的輸出作為雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入，輸出待識(shí)別的在線中醫(yī)文本數(shù)據(jù)詞語的識(shí)別結(jié)果，其中，雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層的神經(jīng)元輸入還包括上一時(shí)刻隱含層的輸出及識(shí)別結(jié)果向量化的數(shù)據(jù)。優(yōu)選的，步驟1)中，所述對(duì)獲取的在線中醫(yī)文本數(shù)據(jù)中的命名實(shí)體進(jìn)行標(biāo)注采用的是BIO標(biāo)注集，即標(biāo)注集中包含{B，I，O}，其中B表示命名實(shí)體詞語的開頭，I表示實(shí)體詞語的其余部分，O表示詞語不屬于命名實(shí)體的部分；優(yōu)選的，步驟2)中，所述語料數(shù)據(jù)的收集通過互聯(lián)網(wǎng)進(jìn)行，利用word2vec訓(xùn)練得到的詞向量每一維代表了特定的詞語特征，可選維度為100、200、500。優(yōu)選的，步驟3)中，所述卷積神經(jīng)網(wǎng)絡(luò)的卷積層包含多種大小的卷積核，通過詞語的上下文信息自動(dòng)提取文本特征，卷積層后接隨時(shí)間最大池化層對(duì)多個(gè)局部卷積特征進(jìn)行下采樣操作。優(yōu)選的，步驟3)中，所述卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)采用均值為0及方差為2/n的高斯分布進(jìn)行初始化，其中，n為輸入個(gè)數(shù)，采用隨機(jī)梯度下降進(jìn)行迭代求解。優(yōu)選的，步驟4)中，所述雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)包含兩個(gè)隱含層，每個(gè)隱含層都包含前向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)和后向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)組成的雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)，對(duì)詞語的前后上下文特征進(jìn)行建模。優(yōu)選的，步驟4)中，所述雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)步驟3)中卷積神經(jīng)網(wǎng)絡(luò)的輸出作為輸入，分別計(jì)算每個(gè)輸入詞語屬于某個(gè)命名實(shí)體類別標(biāo)志的概率，以最大概率所屬的類別作為詞語最后的類別標(biāo)志。本發(fā)明與現(xiàn)有技術(shù)相比，具有如下優(yōu)點(diǎn)和有益效果：1、本發(fā)明提供了一種基于深度學(xué)習(xí)方法的在線中醫(yī)文本命名實(shí)體識(shí)別方法，采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)需識(shí)別的文本序列提取特征，將特征向量作為數(shù)據(jù)輸入到雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)中來完成識(shí)別過程，相比于使用傳統(tǒng)方法進(jìn)行命名實(shí)體識(shí)別，減少了特征提取的復(fù)雜性和工作量，簡化了處理過程，顯著提高了識(shí)別效率。2、本發(fā)明將詞語轉(zhuǎn)化為固定長度詞向量，相比于傳統(tǒng)的獨(dú)熱模型，詞向量在大規(guī)模語料上的擴(kuò)展性更好，降低了表示維度，減少了存儲(chǔ)空間并可以計(jì)算詞與詞之間的相似性，提升了模型的健壯性。3、本發(fā)明采用雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)輸出待識(shí)別的在線中醫(yī)文本數(shù)據(jù)詞語的識(shí)別結(jié)果，其中，雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層的神經(jīng)元輸入還包括上一時(shí)刻隱含層的輸出及識(shí)別結(jié)果向量化的數(shù)據(jù)，因此，模型識(shí)別當(dāng)前的詞語和訓(xùn)練過程時(shí)，利用了當(dāng)前時(shí)刻的輸入及上一時(shí)刻的語言特征向量，將詞語的上下文信息及依賴關(guān)系都學(xué)習(xí)和識(shí)別到了，簡化了識(shí)別的工作，提升了識(shí)別效率。附圖說明圖1為本發(fā)明實(shí)施例采用的基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法流程圖。圖2為本發(fā)明實(shí)施例采用的雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)雙層網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。圖3為本發(fā)明實(shí)施例采用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。圖4為本發(fā)明實(shí)施例采用的長短時(shí)記憶神經(jīng)元結(jié)構(gòu)示意圖。具體實(shí)施方式下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述，但本發(fā)明的實(shí)施方式不限于此。實(shí)施例：本實(shí)施例提供了一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法，所述方法的流程圖如圖1所示，包括以下步驟：步驟一、通過網(wǎng)絡(luò)爬蟲獲取在線中醫(yī)文本數(shù)據(jù)，對(duì)在線中醫(yī)文本數(shù)據(jù)進(jìn)行包含編碼轉(zhuǎn)換、無關(guān)信息去除等的預(yù)處理操作，再利用已有的專業(yè)詞典等及人工輔助對(duì)獲取的在線中醫(yī)文本數(shù)據(jù)中的命名實(shí)體進(jìn)行標(biāo)注，標(biāo)注采用BIO標(biāo)注集，即標(biāo)注集中包含{B，I，O}，其中B表示命名實(shí)體詞語的開頭，I表示實(shí)體詞語的其余部分，O表示詞語不屬于命名實(shí)體的部分；步驟二、利用word2vec工具在大規(guī)模的無標(biāo)注語料上進(jìn)行學(xué)習(xí)，獲取固定長度的詞向量并組成相應(yīng)的詞匯表；本步驟中，語料數(shù)據(jù)通過互聯(lián)網(wǎng)收集，利用word2vec訓(xùn)練得到的詞向量包含了良好的語義特征，學(xué)習(xí)了上下文的語義信息，其中的每一維代表了特定的詞語特征，維度較少，一般的可選維度為100、200、500等。步驟三、將步驟一中標(biāo)注過的在線中醫(yī)文本數(shù)據(jù)進(jìn)行分詞，對(duì)于每個(gè)句子，通過查找步驟二的詞匯表，將詞語轉(zhuǎn)化為固定長度詞向量，將固定長度詞向量轉(zhuǎn)化為向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，其中，當(dāng)句子長度不足時(shí)以空白符填充；本步驟中，當(dāng)詞語位于句子首尾或句子長度不足時(shí)，用空白符Padding補(bǔ)足到句子M，多個(gè)詞語組成向量矩陣并作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，表1與表2為步驟三的一個(gè)相關(guān)示例：表1表2進(jìn)一步地，本步驟中，所述卷積神經(jīng)網(wǎng)絡(luò)的卷積層包含多種大小的卷積核，通過詞語的上下文信息自動(dòng)提取文本特征，卷積層后接隨時(shí)間最大池化層對(duì)多個(gè)局部卷積特征進(jìn)行下采樣操作。所述卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)采用均值為0及方差為2/n的高斯分布進(jìn)行初始化，采用隨機(jī)梯度下降進(jìn)行迭代求解。所述均值為0及方差為2/n的高斯分布初始化方法即MSRA初始化方法，該方法替代了傳統(tǒng)的高斯分布初始化方法，解決了深度網(wǎng)絡(luò)難以收斂的問題，公式如下：其中n為輸入個(gè)數(shù)。所述卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示，第一層為卷積層，包括多個(gè)大小的卷積核，每個(gè)大小的卷積核有多個(gè)，每個(gè)卷積核寬度與詞語向量的長度相同，通過訓(xùn)練后得到包含不同權(quán)值的權(quán)重矩陣，每個(gè)輸入的向量矩陣分別與不同的權(quán)重矩陣進(jìn)行二維卷積計(jì)算，得到局部卷積特征圖，卷積層的前向傳播可以表示為如下公式：其中1為當(dāng)前卷積層下標(biāo)，x為對(duì)應(yīng)層的輸出，j為特征圖下標(biāo)，w為卷積核參數(shù)，b為偏置，M表示輸入集合，其中f函數(shù)為激勵(lì)函數(shù)，選擇ReLu作為激勵(lì)函數(shù)，它可以使網(wǎng)絡(luò)稀疏化，減少參數(shù)依賴和過擬合的情況。所述ReLu函數(shù)可以表示為：f(x)＝max(0，x)其中max函數(shù)表示取0和x中的最大值。所述卷積神經(jīng)網(wǎng)絡(luò)的第二層是Max-over-timePooling層，對(duì)上層的輸出進(jìn)行降維，減少過擬合，減少模型參數(shù)，對(duì)于上述卷積核得到的每個(gè)特征圖輸出中都只保留最大的值。所述卷積神經(jīng)網(wǎng)絡(luò)的最后部分是全連接網(wǎng)絡(luò)，全連接網(wǎng)絡(luò)的輸出是固定長度的向量，作為下層長短時(shí)記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入，全連接網(wǎng)絡(luò)以上層的輸出為輸入，通過誤差反向傳播的方式進(jìn)行訓(xùn)練。步驟四、將多個(gè)連續(xù)時(shí)刻的步驟三中卷積神經(jīng)網(wǎng)絡(luò)的輸出作為雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入，輸出待識(shí)別的在線中醫(yī)文本數(shù)據(jù)詞語的識(shí)別結(jié)果，其中，雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層的神經(jīng)元輸入還包括上一時(shí)刻隱含層的輸出及識(shí)別結(jié)果向量化的數(shù)據(jù)。本步驟中，所述雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)包含兩個(gè)隱含層，如圖2所示，每個(gè)隱含層都包含前向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)和后向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)組成的雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)，對(duì)詞語的前后上下文特征進(jìn)行建模。本步驟中，所述雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)步驟三中卷積神經(jīng)網(wǎng)絡(luò)的輸出作為輸入，分別計(jì)算每個(gè)輸入詞語屬于某個(gè)命名實(shí)體類別標(biāo)志的概率，以最大概率所屬的類別作為詞語最后的類別標(biāo)志。本步驟中，雙向長短時(shí)記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)利用了前后詞語的特征、中間詞特征、命名實(shí)體特征，LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)是對(duì)傳統(tǒng)RNN(RecurrentNeuralNetwork)的改進(jìn)，通過引入單元狀態(tài)來保留一定時(shí)間的記憶信息，避免了求導(dǎo)時(shí)梯度消失的問題，LSTM網(wǎng)絡(luò)包括一個(gè)輸入層、兩個(gè)隱含層和一個(gè)softmax層，通過BPTT(BackpropagationThroughTime)的方法進(jìn)行學(xué)習(xí)，實(shí)現(xiàn)網(wǎng)絡(luò)誤差反向傳播及權(quán)重更新，具體組成部分如下：輸入層包括多個(gè)單元，每個(gè)單元的輸入為上層卷積網(wǎng)絡(luò)的輸出，一定長度的輸出組成LSTM網(wǎng)絡(luò)的輸入；隱含層接受上層輸入，每個(gè)隱含層由指定數(shù)量的LSTM單元組成，每個(gè)單元由輸入門、遺忘門、輸出門和自連接組成，具體結(jié)構(gòu)如圖4所示，可以用如下公式描述：i＝sigmoid(xtUi+st-1Wi+bi)f＝sigmoid(xtUf+st-1Wf+bf)o＝sigmoid(xtUo+st-1Wo+bo)g=tanT(xtUg+st-1Wg+bg)其中i、f、o分別表示輸入門、遺忘門、輸出門的輸出，t表示t時(shí)刻，t-1表示上一時(shí)刻，bi、bf、bo、bg表示相應(yīng)的偏置向量，ɡ、s分別表示輸入激活函數(shù)的輸出和輸出激活函數(shù)的輸出，c為單元最后的記憶狀態(tài)，U、W表示相應(yīng)的權(quán)值矩陣。其中遺忘門控制了單元從過去的“記憶”中需要保留或丟棄的信息，輸出越接近于1表示保留的相關(guān)信息越多，即控制文本的上下文對(duì)當(dāng)前詞語的影響，輸入門控制了獲得新的輸入后，單元需要保留的信息，輸出門控制了信息有多少程度上是對(duì)外可見的。每個(gè)隱含層包括從前往后傳遞的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)和從后往前傳遞的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)，同一個(gè)隱含層的不同傳遞方向的神經(jīng)單元不直接連接。倒數(shù)第二層為單層全連接層，最后一層為softmax分類器，根據(jù)輸出的最大概率值來判斷相應(yīng)的每個(gè)詞語的命名實(shí)體標(biāo)注。本方法的標(biāo)注采用經(jīng)典的BIO模型進(jìn)行標(biāo)注，將命名實(shí)體分為兩類，即食材(用F表示)、病癥(用D表示)，其中B表示命名實(shí)體詞語的開頭，I表示實(shí)體詞語的其余部分，O表示詞語不屬于命名實(shí)體的部分，例如針對(duì)句子“你描述的問題是因?yàn)槲笩岬陌Y狀”，相應(yīng)標(biāo)記如表3所示：你描述的問題是因?yàn)槲笩岬陌Y狀OOOOOOOOOB-DI-DOOO表3以上所述，僅為本發(fā)明專利較佳的實(shí)施例，但本發(fā)明專利的保護(hù)范圍并不局限于此，任何熟悉本
技術(shù)領(lǐng)域：
的技術(shù)人員在本發(fā)明專利所公開的范圍內(nèi)，根據(jù)本發(fā)明專利的技術(shù)方案及其發(fā)明專利構(gòu)思加以等同替換或改變，都屬于本發(fā)明專利的保護(hù)范圍。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：文貴華;陳佳浩
技術(shù)所有人：華南理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度學(xué)習(xí)的在線中醫(yī)文本命名實(shí)體識(shí)別方法與流程