亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實(shí)體識(shí)別方法與流程

文檔序號(hào):11276301閱讀:266來(lái)源:國(guó)知局
一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實(shí)體識(shí)別方法與流程

本發(fā)明涉及網(wǎng)絡(luò)文本的處理及分析,尤其涉及一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實(shí)體識(shí)別的方法。



背景技術(shù):

網(wǎng)絡(luò)使得信息的采集、傳播的速度和規(guī)模達(dá)到空前的水平,實(shí)現(xiàn)了全球的信息共享與交互,它已經(jīng)成為信息社會(huì)必不可少的基礎(chǔ)設(shè)施?,F(xiàn)代通信和傳播技術(shù),大大提高了信息傳播的速度和廣度。但與之俱來(lái)的問(wèn)題和“副作用”是:洶涌而來(lái)的信息有時(shí)使人無(wú)所適從,從浩如煙海的信息海洋中迅速而準(zhǔn)確地獲取自己最需要的信息,變得非常困難。如何從海量的網(wǎng)絡(luò)文本中分析出互聯(lián)網(wǎng)用戶所關(guān)注的人物、地點(diǎn)、機(jī)構(gòu)等命名實(shí)體,成為網(wǎng)上營(yíng)銷、群體情感分析等各種上層應(yīng)用提供重要的支持信息。這使得面向網(wǎng)絡(luò)文本的命名實(shí)體識(shí)別成為網(wǎng)絡(luò)數(shù)據(jù)處理與分析中的一項(xiàng)重要的核心技術(shù)。

人們處理命名實(shí)體識(shí)別的方法研究主要分為兩類,基于規(guī)則的方法(rule-based)和基于統(tǒng)計(jì)的方法(statistic-based)。隨著機(jī)器學(xué)習(xí)理論的不斷完善和計(jì)算性能的極大提高,基于統(tǒng)計(jì)學(xué)的方法更加受到人們青睞。

目前,命名實(shí)體識(shí)別應(yīng)用的統(tǒng)計(jì)模型方法主要包括:隱馬爾可夫模型、決策樹(shù)、最大熵模型、支持向量機(jī)、條件隨機(jī)場(chǎng)以及人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)在命名實(shí)體識(shí)別方面可以的到比條件隨機(jī)場(chǎng)、最大熵模型等模型取得更好的結(jié)果,但實(shí)用仍以條件隨機(jī)場(chǎng)、最大熵模型為主,如專利號(hào)cn201310182978.x使用條件隨機(jī)場(chǎng)并結(jié)合命名實(shí)體庫(kù)提出了對(duì)微博文本的命名實(shí)體識(shí)別方法及裝置、專利號(hào)cn200710098635.x提出了一種利用字特征使用最大熵模型建模的命名實(shí)體識(shí)別方法。人工神經(jīng)網(wǎng)絡(luò)難以實(shí)用的原因在于人工神經(jīng)網(wǎng)絡(luò)在命名實(shí)體識(shí)別領(lǐng)域常需要將詞轉(zhuǎn)化成詞向量空間中的向量,因此對(duì)于新生詞匯無(wú)法得到對(duì)應(yīng)的向量,所以無(wú)法得到大規(guī)模的實(shí)際應(yīng)用。

基于上述現(xiàn)狀,針對(duì)網(wǎng)絡(luò)文本的命名實(shí)體識(shí)別主要存在以下問(wèn)題:第一,網(wǎng)絡(luò)文本因存在大量網(wǎng)絡(luò)詞匯、新生詞匯、錯(cuò)別字,無(wú)法訓(xùn)練出包含所有詞的詞向量空間以訓(xùn)練神經(jīng)網(wǎng)絡(luò)。第二,網(wǎng)絡(luò)文本存在的語(yǔ)言形式任意、語(yǔ)法結(jié)構(gòu)不規(guī)范、錯(cuò)別字多等現(xiàn)象導(dǎo)致其命名實(shí)體識(shí)別準(zhǔn)確率下降。



技術(shù)實(shí)現(xiàn)要素:

發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種增量提取詞特征而不需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)、同時(shí)概率消歧識(shí)別的基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實(shí)體識(shí)別方法,該方法通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò),獲取神經(jīng)網(wǎng)絡(luò)對(duì)詞語(yǔ)所屬命名實(shí)體類型的預(yù)測(cè)概率矩陣,對(duì)神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)矩陣再以概率模型進(jìn)行消歧,提高了網(wǎng)絡(luò)文本命名實(shí)體識(shí)別的準(zhǔn)確性和準(zhǔn)確率。

技術(shù)方案:為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:

一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實(shí)體識(shí)別方法,將無(wú)標(biāo)簽語(yǔ)料分詞,利用word2vec提取詞向量,將樣本語(yǔ)料轉(zhuǎn)換成詞特征矩陣并窗口化,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在神經(jīng)網(wǎng)絡(luò)的輸出層加入softmax函數(shù)做歸一化處理,得到每個(gè)詞對(duì)應(yīng)命名實(shí)體類別的概率矩陣。將概率矩陣重新窗口化,利用條件隨機(jī)場(chǎng)模型進(jìn)行消歧,得到最后的命名實(shí)體標(biāo)注。

具體包括以下步驟:

步驟1,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)獲取無(wú)標(biāo)簽語(yǔ)料,從語(yǔ)料庫(kù)獲取有命名實(shí)體標(biāo)注的樣本語(yǔ)料,利用自然語(yǔ)言工具對(duì)無(wú)標(biāo)簽語(yǔ)料進(jìn)行分詞。

步驟2,對(duì)已分詞好的無(wú)標(biāo)簽語(yǔ)料和樣本語(yǔ)料通過(guò)word2vec工具進(jìn)行詞向量空間的訓(xùn)練。

步驟3,將樣本語(yǔ)料中的文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,并對(duì)詞向量窗口化,將窗口w乘詞向量長(zhǎng)度d的二維矩陣作為神經(jīng)網(wǎng)絡(luò)的輸入。將樣本語(yǔ)料中的標(biāo)簽轉(zhuǎn)成one-hot形式作為神經(jīng)網(wǎng)絡(luò)的輸出。神經(jīng)網(wǎng)絡(luò)的輸出層采用softmax函數(shù)進(jìn)行歸一化,使神經(jīng)網(wǎng)絡(luò)的分類結(jié)果為詞匯屬于非命名實(shí)體及各類命名實(shí)體的概率,調(diào)整神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)、深度、節(jié)點(diǎn)數(shù)、步長(zhǎng)、激活函數(shù)、初始值參數(shù)以及選取激活函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

步驟4,將神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)矩陣重新窗口化,將待標(biāo)注詞的上下文預(yù)測(cè)信息作為條件隨機(jī)場(chǎng)模型中待標(biāo)注詞的實(shí)際分類的關(guān)聯(lián)點(diǎn),根據(jù)訓(xùn)練語(yǔ)料利用em算法,計(jì)算出各邊的期望值,訓(xùn)練出對(duì)應(yīng)的條件隨機(jī)場(chǎng)模型。

步驟5,識(shí)別時(shí),首先將待識(shí)別文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,若word2vec模型中不包含對(duì)應(yīng)的訓(xùn)練詞匯,則采用增量學(xué)習(xí)、獲取詞向量、回溯詞向量空間的方法將該詞轉(zhuǎn)換為詞向量,并對(duì)詞向量窗口化,將窗口w乘詞向量長(zhǎng)度d的二維矩陣作為神經(jīng)網(wǎng)絡(luò)的輸入。然后將神經(jīng)網(wǎng)絡(luò)得到的預(yù)測(cè)矩陣重新窗口化放入訓(xùn)練好的條件隨機(jī)場(chǎng)模型中進(jìn)行消歧,獲得待識(shí)別文本中最終的命名實(shí)體標(biāo)注。

優(yōu)選的:所述word2vec工具的參數(shù)如下:詞向量長(zhǎng)度選擇200,迭代次數(shù)25次,初始步長(zhǎng)0.025,最小步長(zhǎng)0.0001,選用cbow模型。

優(yōu)選的:所述神經(jīng)網(wǎng)絡(luò)的參數(shù)如下:隱藏層2層,隱藏節(jié)點(diǎn)數(shù)150個(gè),步長(zhǎng)0.01,batchsize選取40,激活函數(shù)使用sigmoid函數(shù)。

優(yōu)選的:將樣本語(yǔ)料中的標(biāo)簽轉(zhuǎn)成one-hot形式的方法:將樣本語(yǔ)料中的”/o”、”/n”、”/p”標(biāo)簽相應(yīng)的轉(zhuǎn)化為命名實(shí)體標(biāo)簽”/org-b”、”/org-i”、”/per-b”、”/per-i”、”/loc-b”、”/loc-i”,在轉(zhuǎn)換成one-hot的形式。

優(yōu)選的:詞向量窗口化的窗口大小為5。

優(yōu)選的:神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),從樣本數(shù)據(jù)中抽取十分之一的詞匯不參與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,作為神經(jīng)網(wǎng)絡(luò)的衡量標(biāo)準(zhǔn)。

本發(fā)明相比現(xiàn)有技術(shù),具有以下有益效果:

可以增量提取出不需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)的詞向量,利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)并用概率模型消歧,使得該方法在網(wǎng)絡(luò)文本的命名實(shí)體識(shí)別中擁有更好的實(shí)用性、準(zhǔn)確性和準(zhǔn)確率。在網(wǎng)絡(luò)文本的命名實(shí)體識(shí)別任務(wù)中,本發(fā)明根據(jù)其存在網(wǎng)絡(luò)詞匯、新生詞匯的特性,提供了一種不改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的詞向量增量學(xué)習(xí)方法,為應(yīng)對(duì)網(wǎng)絡(luò)文本中語(yǔ)法結(jié)構(gòu)不規(guī)范、錯(cuò)別字多的問(wèn)題,采用了概率消歧的方法。因此本發(fā)明的方法在網(wǎng)絡(luò)文本命名實(shí)體識(shí)別任務(wù)中可產(chǎn)生較高的準(zhǔn)確率。

附圖說(shuō)明

圖1是根據(jù)本發(fā)明訓(xùn)練一個(gè)基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實(shí)體識(shí)別裝置的流程圖。

圖2是根據(jù)本發(fā)明將詞轉(zhuǎn)化為詞特征的流程圖。

圖3是根據(jù)本發(fā)明文本處理以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的示意圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)例僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià)形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。

一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實(shí)體識(shí)別方法,將無(wú)標(biāo)簽語(yǔ)料分詞,利用word2vec提取詞向量,將樣本語(yǔ)料轉(zhuǎn)換成詞特征矩陣并窗口化,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在神經(jīng)網(wǎng)絡(luò)的輸出層加入softmax函數(shù)做歸一化處理,得到每個(gè)詞對(duì)應(yīng)命名實(shí)體類別的概率矩陣。將概率矩陣重新窗口化,利用條件隨機(jī)場(chǎng)模型進(jìn)行消歧,得到最后的命名實(shí)體標(biāo)注。

具體包括以下步驟:

步驟1,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)無(wú)標(biāo)簽網(wǎng)絡(luò)文本,并從各語(yǔ)料庫(kù)下載有命名實(shí)體標(biāo)注的語(yǔ)料作為樣本語(yǔ)料,利用自然語(yǔ)言工具對(duì)無(wú)標(biāo)簽語(yǔ)料進(jìn)行分詞。

步驟2,對(duì)已分詞好的無(wú)標(biāo)簽語(yǔ)料和樣本語(yǔ)料通過(guò)word2vec工具進(jìn)行詞向量空間的訓(xùn)練。

步驟3,將樣本語(yǔ)料中的文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,作為神經(jīng)網(wǎng)絡(luò)的輸入。將樣本語(yǔ)料中的標(biāo)簽轉(zhuǎn)成one-hot形式作為神經(jīng)網(wǎng)絡(luò)的輸出,因?yàn)樵谖谋咎幚砣蝿?wù)中,一個(gè)命名實(shí)體可能被分割成多個(gè)詞匯,所以為了保證識(shí)別出命名實(shí)體具完整性,標(biāo)注形式采用iob模式進(jìn)行標(biāo)注。

詞匯為何類命名實(shí)體不能僅憑詞匯本身判定,還需要依靠詞匯所處上下文信息決定,因此在建立神經(jīng)網(wǎng)絡(luò)時(shí),我們引入窗口的概念,即在判斷詞匯的時(shí)候,將詞匯及其固定長(zhǎng)度上下文的特征信息都作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸入不再是詞特征向量的長(zhǎng)度d,而是窗口w乘詞特征長(zhǎng)度d的二維矩陣。

神經(jīng)網(wǎng)絡(luò)的輸出層采用softmax函數(shù)進(jìn)行歸一化,使神經(jīng)網(wǎng)絡(luò)的分類結(jié)果為詞匯屬于非命名實(shí)體及各類命名實(shí)體的概率。調(diào)整神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)、深度、節(jié)點(diǎn)數(shù)、步長(zhǎng)、激活函數(shù)、初始值參數(shù)以及選取激活函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

步驟4,將神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)矩陣重新窗口化,將待標(biāo)注詞的上下文預(yù)測(cè)信息作為條件隨機(jī)場(chǎng)模型中待標(biāo)注詞的實(shí)際分類的關(guān)聯(lián)點(diǎn),根據(jù)訓(xùn)練語(yǔ)料利用em算法,計(jì)算出各邊的期望值,訓(xùn)練出對(duì)應(yīng)的條件隨機(jī)場(chǎng)模型。

步驟5,識(shí)別時(shí),首先將待識(shí)別文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,若word2vec模型中不包含對(duì)應(yīng)的訓(xùn)練詞匯,則采用增量學(xué)習(xí)、獲取詞向量、回溯詞向量空間的方法將該詞轉(zhuǎn)換為詞向量。

(1)將待轉(zhuǎn)換詞匯在已訓(xùn)練的詞向量空間中匹配。

(2)若待轉(zhuǎn)換詞匯在詞向量空間中能夠匹配,則直接將詞匯轉(zhuǎn)換成對(duì)應(yīng)詞向量。

(3)若word2vec模型中不包含對(duì)應(yīng)詞匯,則備份詞向量空間,防止增量學(xué)習(xí)產(chǎn)生的詞空間偏移導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型精度的下降,載入word2vec模型,獲取不匹配詞匯所在句子獲取不匹配詞匯所在句子,將其放入word2vec模型中進(jìn)行增量訓(xùn)練,并獲取詞匯的詞向量,利用備份的詞向量空間,回溯模型。

對(duì)詞向量窗口化,將窗口w乘詞向量長(zhǎng)度d的二維矩陣作為神經(jīng)網(wǎng)絡(luò)的輸入。然后將神經(jīng)網(wǎng)絡(luò)得到的預(yù)測(cè)矩陣重新窗口化放入訓(xùn)練好的條件隨機(jī)場(chǎng)模型中進(jìn)行消歧,獲得待識(shí)別文本中最終的命名實(shí)體標(biāo)注。

實(shí)例

從搜狗新聞網(wǎng)站爬蟲(chóng)網(wǎng)絡(luò)文本,從數(shù)據(jù)堂語(yǔ)料庫(kù)下載有命名實(shí)體語(yǔ)料作為樣本語(yǔ)料,利用自然語(yǔ)言工具對(duì)爬蟲(chóng)網(wǎng)絡(luò)文本進(jìn)行分詞,將分好詞的語(yǔ)料與樣本語(yǔ)料利用python中的gensim包通過(guò)word2vec模型進(jìn)行詞向量空間的訓(xùn)練,具體參數(shù)如下,詞向量長(zhǎng)度選擇200,迭代次數(shù)25次,初始步長(zhǎng)0.025,最小步長(zhǎng)0.0001,選用cbow模型。

將樣本語(yǔ)料的文本按照已訓(xùn)練的word2vec模型轉(zhuǎn)換成代表詞特征的詞向量,若word2vec模型中不包含對(duì)應(yīng)的訓(xùn)練詞匯,則采用增量學(xué)習(xí)、獲取詞向量、回溯詞向量空間的方法將該詞轉(zhuǎn)換為詞向量。作為每個(gè)詞的特征。將數(shù)據(jù)堂提供樣本語(yǔ)料中的”/o”、”/n”、”/p”等標(biāo)簽相應(yīng)的轉(zhuǎn)化為命名實(shí)體標(biāo)簽”/org-b”、”/org-i”、”/per-b”、”/per-i”、”/loc-b”、”/loc-i”等,并轉(zhuǎn)換成one-hot的形式作為神經(jīng)網(wǎng)絡(luò)的輸出。

設(shè)定窗口大小為5,即在考慮當(dāng)前詞的命名實(shí)體類別時(shí),將其本身和前后各兩個(gè)詞的詞特征作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸入為batchsize*1000的向量,從樣本數(shù)據(jù)中抽取十分之一的詞匯不參與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,作為神經(jīng)網(wǎng)絡(luò)的衡量標(biāo)準(zhǔn),神經(jīng)網(wǎng)絡(luò)的輸出層采用softmax函數(shù)進(jìn)行歸一化,使神經(jīng)網(wǎng)絡(luò)的分類結(jié)果為詞匯屬于非命名實(shí)體及各類命名實(shí)體的概率,暫時(shí)取概率最大值作為最終分類結(jié)果。調(diào)整神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu)、深度、節(jié)點(diǎn)數(shù)、步長(zhǎng)、激活函數(shù)、初始值等參數(shù),使神經(jīng)網(wǎng)絡(luò)取得較為良好的精確度,最終具體參數(shù)如下,隱藏層2層,隱藏節(jié)點(diǎn)數(shù)150個(gè),步長(zhǎng)0.01,batchsize選取40,激活函數(shù)使用sigmoid時(shí)可以產(chǎn)生良好的分類效果,準(zhǔn)確度可以達(dá)到99.83%,最具代表性的人名、地名、機(jī)構(gòu)名的f值可以達(dá)到93.4%、84.2%、80.4%。

將神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)矩陣取概率最大值作為最終分類結(jié)果的步驟移除,直接將概率矩陣重新窗口化,將待標(biāo)注詞的上下文預(yù)測(cè)信息作為條件隨機(jī)場(chǎng)模型中待標(biāo)注詞的實(shí)際分類的關(guān)聯(lián)點(diǎn),根據(jù)訓(xùn)練語(yǔ)料利用em算法,計(jì)算出條件隨機(jī)場(chǎng)各邊的期望值,訓(xùn)練出對(duì)應(yīng)的條件隨機(jī)場(chǎng)模型,在使用條件隨機(jī)場(chǎng)進(jìn)行消歧后人名、地名、機(jī)構(gòu)名的f值可以提升至94.8%、85.0%、82.0%。

通過(guò)上文的具體實(shí)施例可以看出,與傳統(tǒng)的有監(jiān)督的命名實(shí)體識(shí)別方法相比,本發(fā)明提供的基于神經(jīng)網(wǎng)絡(luò)概率消歧的文本命名實(shí)體識(shí)別方法,使用了一種可增量提取詞特征而不產(chǎn)生詞向量空間偏移的詞向量轉(zhuǎn)換方法,使神經(jīng)網(wǎng)絡(luò)可以應(yīng)用在新詞、錯(cuò)別字多的網(wǎng)絡(luò)文本中。而且,本發(fā)明對(duì)神經(jīng)網(wǎng)絡(luò)輸出的概率矩陣重新窗口化,采用條件隨機(jī)場(chǎng)模型進(jìn)行上下文消歧,可以較好的解決網(wǎng)絡(luò)文本中錯(cuò)別字多、語(yǔ)法不規(guī)范的現(xiàn)象。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1