亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于word2vec的遠監(jiān)督非分類關(guān)系提取方法及系統(tǒng)與流程

文檔序號:11230481閱讀:276來源:國知局
基于word2vec的遠監(jiān)督非分類關(guān)系提取方法及系統(tǒng)與流程

本發(fā)明涉及弱監(jiān)督分類領(lǐng)域,具體涉及一種基于word2vec的遠監(jiān)督非分類關(guān)系提取方法及系統(tǒng)。



背景技術(shù):

當前在農(nóng)業(yè)領(lǐng)域的類本體知識圖譜方面,研究還處于起步階段,非分類關(guān)系(除了上下位關(guān)系分類關(guān)系的其他關(guān)系)的相關(guān)文獻報道也比較少。雖然有文獻分別在面向古農(nóng)學(xué)和茶學(xué)領(lǐng)域也涉及到了非分類關(guān)系的學(xué)習,如,何琳的《領(lǐng)域本體的半自動構(gòu)建及檢索研究》、徐濟成的《面向蔬菜領(lǐng)域的本體學(xué)習建模研究》等,但都是采用了最基本的關(guān)聯(lián)規(guī)則方法發(fā)現(xiàn)存在關(guān)系的概念對。不僅抽取的關(guān)系種類不夠豐富,語料也主要來自書籍和文獻,沒有利用web上龐大的數(shù)據(jù)資源。而且抽取的非分類關(guān)系的準確率也遠低于一般分類關(guān)系的抽取準確率。

利用遠監(jiān)督方法進行非分類關(guān)系抽取,多會產(chǎn)生標簽噪音,zeng,d.等人在《distantsupervisionforrelationextractionviapiecewiseconvolutionalneuralnetworks》利用多實例學(xué)習方法去除噪音,takamatsus等人在《reducingwronglabelsindistantsupervisionforrelationextraction》采用高質(zhì)量模板去除標簽噪音。

但是大多數(shù)遠監(jiān)督關(guān)系識別方法中去除標簽噪音的聚類算法沒有充分考慮向量空間中各詞向量之間的語法、語義信息,而網(wǎng)絡(luò)百科和蔬菜網(wǎng)站對蔬菜品種的詞條描述中,上下文信息很重要,并且對關(guān)系提取影響很大,因此,如何提供一種準確度較高的適用于蔬菜領(lǐng)域的非分類關(guān)系提取方法,成為亟待解決的技術(shù)問題。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明實施例提供一種基于word2vec的遠監(jiān)督非分類關(guān)系提取方法及系統(tǒng)。

一方面,本發(fā)明實施例提出一種基于word2vec的遠監(jiān)督非分類關(guān)系提取方法,包括:

s1、爬取網(wǎng)絡(luò)百科和大型蔬菜網(wǎng)站的網(wǎng)絡(luò)蔬菜領(lǐng)域非結(jié)構(gòu)化文本數(shù)據(jù)作為語料,對所述語料依次進行預(yù)處理、數(shù)據(jù)對齊,得到初步的訓(xùn)練語料;

本實施例中,對所述語料依次進行預(yù)處理、數(shù)據(jù)對齊具體為對所述語料依次進行分詞、詞性標注等處理,并將處理結(jié)果和知識庫中數(shù)據(jù)對齊。

s2、利用所述初步的訓(xùn)練語料訓(xùn)練word2vec模型,并利用所述word2vec模型將上述初步的訓(xùn)練語料中的句子中的詞轉(zhuǎn)化成空間向量,對于每個句子,將該句子中的詞的空間向量相加并做平均處理得到該句子的空間向量;

s3、將所述初步的訓(xùn)練語料按照非分類關(guān)系類型進行聚合,對于聚合得到的每個關(guān)系的聚合數(shù)據(jù),抽取常見句子模式和不常見的句子模式;

s4、將k設(shè)為2,以啟發(fā)式方式選擇兩個分別滿足兩種不同模式的句子空間向量作為k-means聚類方法的初始中心,并對所有句子空間向量進行聚類,選擇滿足常見句子模式的一類,得到質(zhì)量較好的訓(xùn)練語料;

s5、由所述質(zhì)量較好的訓(xùn)練語料訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,通過組成所述卷積神經(jīng)網(wǎng)絡(luò)模型的一個卷積層、一個池化層和一個全連接softmax層,從所述句子的空間向量提取非分類關(guān)系。

另一方面,本發(fā)明實施例一種基于word2vec的遠監(jiān)督非分類關(guān)系提取系統(tǒng),包括:

獲取單元,用于爬取網(wǎng)絡(luò)百科和大型蔬菜網(wǎng)站的網(wǎng)絡(luò)蔬菜領(lǐng)域非結(jié)構(gòu)化文本數(shù)據(jù)作為語料,對所述語料依次進行預(yù)處理、數(shù)據(jù)對齊,得到初步的訓(xùn)練語料;

訓(xùn)練單元,用于利用所述初步的訓(xùn)練語料訓(xùn)練word2vec模型,并利用所述word2vec模型將上述初步的訓(xùn)練語料中的句子中的詞轉(zhuǎn)化成空間向量,對于每個句子,將該句子中的詞的空間向量相加并做平均處理得到該句子的空間向量;

聚合單元,用于將所述初步的訓(xùn)練語料按照非分類關(guān)系類型進行聚合,對于聚合得到的每個關(guān)系的聚合數(shù)據(jù),抽取常見句子模式和不常見的句子模式;

聚類單元,用于將k設(shè)為2,以啟發(fā)式方式選擇兩個分別滿足兩種不同模式的句子空間向量作為k-means聚類方法的初始中心,并對所有句子空間向量進行聚類,選擇滿足常見句子模式的一類,得到質(zhì)量較好的訓(xùn)練語料;

提取單元,用于由所述質(zhì)量較好的訓(xùn)練語料訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,通過組成所述卷積神經(jīng)網(wǎng)絡(luò)模型的一個卷積層、一個池化層和一個全連接softmax層,從所述句子的空間向量提取非分類關(guān)系。

本發(fā)明實施例提出的基于word2vec的遠監(jiān)督非分類關(guān)系提取方法及系統(tǒng),以網(wǎng)絡(luò)蔬菜領(lǐng)域非結(jié)構(gòu)化文本為語料,使用word2vec工具進行語料訓(xùn)練,通過聚類算法減少標簽噪音,最后利用卷積神經(jīng)網(wǎng)絡(luò)模型提取非分類關(guān)系。所用的word2vec工具不僅訓(xùn)練詞向量具有高效性,而且所獲得的詞向量能夠獲取語法、語義信息,這就使得通過聚類算法聚類得到的句子具有語法和語義信息,這將有效保障遠監(jiān)督去除標簽噪音的效果。另外,利用卷積神經(jīng)網(wǎng)絡(luò)模型提取非分類關(guān)系能夠有效避免自然語言處理工具多階段處理過程誤差累積問題,因而,相較于沒有充分考慮向量空間中各詞向量之間的語法、語義信息的現(xiàn)有技術(shù),本發(fā)明更適用于蔬菜領(lǐng)域,且非分類關(guān)系提取的準確度較高。

附圖說明

圖1為本發(fā)明一種基于word2vec的遠監(jiān)督非分類關(guān)系提取方法一實施例的流程示意圖;

圖2為本發(fā)明一種基于word2vec的遠監(jiān)督非分類關(guān)系提取系統(tǒng)一實施例的結(jié)構(gòu)示意圖。

具體實施方式

為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

參看圖1,本實施例公開一種基于word2vec的遠監(jiān)督非分類關(guān)系提取方法,包括:

s1、爬取網(wǎng)絡(luò)百科和大型蔬菜網(wǎng)站的網(wǎng)絡(luò)蔬菜領(lǐng)域非結(jié)構(gòu)化文本數(shù)據(jù)作為語料,對所述語料依次進行預(yù)處理、數(shù)據(jù)對齊,得到初步的訓(xùn)練語料;

所述s1,可以包括:

s10、利用編寫的語料采集腳本程序從網(wǎng)絡(luò)蔬菜百科和大型蔬菜網(wǎng)站上抓取非結(jié)構(gòu)化文本數(shù)據(jù)作為語料,并對所述語料做低頻詞過濾、分詞、詞性標注等預(yù)處理;

s11、將步驟s10得到的語料與預(yù)設(shè)的知識庫中的關(guān)系實例進行對齊,得到初步的訓(xùn)練語料,

此步驟是基于如下假設(shè):如果兩個概念之間存在某種語義關(guān)系,那么所有包含這兩個實體概念的句子也表達了這種關(guān)系,

例如,<保健作用,番茄,胃>非分類關(guān)系,按照上述假設(shè)從文本集中找到所有包含“番茄”和“胃”的句子i和ii:

i.“番茄具有健胃消食的功效”;

ii.“空腹食番茄往往造成胃不適、胃脹痛”,

非分類關(guān)系實例與這些句子就構(gòu)成了一個對齊數(shù)據(jù),但是由上可知ii并沒有表達“保健作用”的關(guān)系,屬于噪音數(shù)據(jù),下面步驟將要去除標簽噪音,并提取蔬菜領(lǐng)域非分類關(guān)系:

s2、利用所述初步的訓(xùn)練語料訓(xùn)練word2vec模型,并利用所述word2vec模型將上述初步的訓(xùn)練語料中的句子中的詞轉(zhuǎn)化成空間向量,對于每個句子,將該句子中的詞的空間向量相加并做平均處理得到該句子的空間向量;

步驟s2中使用的word2vec是google公司開放的一款用于訓(xùn)練詞向量的軟件工具,它根據(jù)給定的語料庫,通過優(yōu)化后的訓(xùn)練模型快速有效將句子中的每一個詞映射成k維空間中的具有真實值的向量,并且這些向量獲取了語法、語義特征,其核心架構(gòu)包括cbow和skip-gram。

其中,cbow模型簡單理解就是上下文決定當前詞出現(xiàn)的概率,本發(fā)明采用skip-gram模型,此模型是以當前詞預(yù)測上下文出現(xiàn)的概率。在對語料進行處理時,常常會因為處理窗口大小的限制,導(dǎo)致超出窗口范圍的詞語與當前詞之間的關(guān)系不能被正確地反映到模型之中,如果單純擴大窗口又會增加訓(xùn)練的復(fù)雜度。skip-gram模型通過“跳過某些字符”很好的解決了這個問題。例如網(wǎng)絡(luò)百科詞條“茄子生長要求較高溫度”2個四元組,分別是“茄子生長要求較高”、“生長要求較高溫度”都沒有表達句子本意。skip-gram模型卻允許某些詞被跳過,若跳過兩個詞,則有四元組“茄子要求較高溫度”,“茄子生長較高溫度”都能表達本意。利用word2vec工具具體步驟如下:

(1)、利用初步得到的訓(xùn)練語料訓(xùn)練word2vec模型;

(2)、由word2vec模型可以得到語料句子中每個詞的空間向量,這些詞向量包括語法和語義信息。將每個句子中所有詞的空間向量相加并做平均化處理得到相應(yīng)的每個句子向量。如,句子“豆角富含蛋白質(zhì)、胡蘿卜素、營養(yǎng)價值高”,通過訓(xùn)練的word2vec模型,可以得到“豆角”、“富含”、“蛋白質(zhì)”、“胡蘿卜素”、“營養(yǎng)”、“價值”、“高”的空間向量,將上述詞的向量相加并做平均即可得到整個句子的空間向量。

s3、將所述初步的訓(xùn)練語料按照非分類關(guān)系類型進行聚合,對于聚合得到的每個關(guān)系的聚合數(shù)據(jù),抽取常見句子模式和不常見的句子模式;

所述s3,可以包括:

s30、對所述初步得到的訓(xùn)練語料按照句子所含有的非分類關(guān)系類型進行聚合,對于每個關(guān)系的聚合數(shù)據(jù),使用dl-cotrain算法尋找句子模式,抽取其中一個常見的句子模式和一個不常見的句子模式,即選出使得h(x)=(count(x)+a)/(n+ka)分值高的模型,其中k為分類數(shù)目2,a表示平滑參數(shù)(一般為0.1),count(x)表示特征x出現(xiàn)的次數(shù),n表示一種非分類關(guān)系的對齊數(shù)據(jù)的個數(shù);

s4、將k設(shè)為2,以啟發(fā)式方式選擇兩個分別滿足兩種不同模式的句子空間向量作為k-means聚類方法的初始中心,并對所有句子空間向量進行聚類,選擇滿足常見句子模式的一類,得到質(zhì)量較好的訓(xùn)練語料;

所述s4,可以包括:

s40、選擇兩個滿足不同模型的句子作為兩個類的初始中心;

s41、將k設(shè)為2,采用k-means聚類算法對所有滿足這兩種句子模式的句子進行聚類,選擇滿足常見句子模式的一類。此過程因為是基于具有語法和語義信息的文本空間詞向量,故最終得到的句子也具有語法和語義信息,能夠有效地去除標簽噪音,得到質(zhì)量較好的訓(xùn)練語料;

s5、由所述質(zhì)量較好的訓(xùn)練語料訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,通過組成所述卷積神經(jīng)網(wǎng)絡(luò)模型的一個全連接softmax層,從所述句子的空間向量提取非分類關(guān)系。

所述s5,可以包括:

s50、將所述質(zhì)量較好的訓(xùn)練語料訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,將所述句子的空間向量輸入所述卷積神經(jīng)網(wǎng)絡(luò),依次由所述卷積神經(jīng)網(wǎng)絡(luò)的卷積層自動提取文本特征,池化層做下采樣,全連接層輸出非分類關(guān)系的預(yù)測概率,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型包括一個卷積層,一個池化層和一個全連接softmax層。

可以理解的是,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括一個卷積層,一個池化層和一個全連接softmax層,由每一個卷積層自動提取多個句子特征值,采用最大池化操作能夠選擇出最重要且具有固定長度的的句子特征。最后將所有卷積層生成的句子特征向量進行串接,得到一個新的句子特征向量,將所有特征向量整合,最終作為一個特征向量傳入一個全連接的softmax層中,最后輸出各非分類關(guān)系的概率分布。

本實施例提出的基于word2vec的遠監(jiān)督非分類關(guān)系提取方法,以網(wǎng)絡(luò)蔬菜領(lǐng)域非結(jié)構(gòu)化文本為語料,使用word2vec工具進行語料訓(xùn)練,通過聚類算法減少標簽噪音,最后利用卷積神經(jīng)網(wǎng)絡(luò)模型提取非分類關(guān)系。所用的word2vec工具不僅訓(xùn)練詞向量具有高效性,而且所獲得的詞向量能夠獲取語法、語義信息,這就使得通過聚類算法聚類得到的句子具有語法和語義信息,這將有效保障遠監(jiān)督去除標簽噪音的效果。另外,利用卷積神經(jīng)網(wǎng)絡(luò)模型提取非分類關(guān)系能夠有效避免自然語言處理工具多階段處理過程誤差累積問題,因而,相較于沒有充分考慮向量空間中各詞向量之間的語法、語義信息的現(xiàn)有技術(shù),本發(fā)明更適用于蔬菜領(lǐng)域,且非分類關(guān)系提取的準確度較高。

參看圖2,本實施例公開一種基于word2vec的遠監(jiān)督非分類關(guān)系提取系統(tǒng),包括:

獲取單元1,用于爬取網(wǎng)絡(luò)百科和大型蔬菜網(wǎng)站的網(wǎng)絡(luò)蔬菜領(lǐng)域非結(jié)構(gòu)化文本數(shù)據(jù)作為語料,對所述語料依次進行預(yù)處理、數(shù)據(jù)對齊,得到初步的訓(xùn)練語料;

本實施例中,所述獲取單元,可以包括:

抓取子單元,用于利用編寫的語料采集腳本程序從網(wǎng)絡(luò)蔬菜百科和大型蔬菜網(wǎng)站上抓取非結(jié)構(gòu)化文本數(shù)據(jù)作為語料,并對所述語料做低頻詞過濾、分詞、詞性標注等預(yù)處理;

對齊子單元,用于將所述抓取子單元得到的語料與預(yù)設(shè)的知識庫中的關(guān)系實例進行對齊,得到初步的訓(xùn)練語料。

訓(xùn)練單元2,用于利用所述初步的訓(xùn)練語料訓(xùn)練word2vec模型,并利用所述word2vec模型將上述初步的訓(xùn)練語料中的句子中的詞轉(zhuǎn)化成空間向量,對于每個句子,將該句子中的詞的空間向量相加并做平均處理得到該句子的空間向量;

聚合單元3,用于將所述初步的訓(xùn)練語料按照非分類關(guān)系類型進行聚合,對于聚合得到的每個關(guān)系的聚合數(shù)據(jù),抽取常見句子模式和不常見的句子模式;

所述聚合單元,具體可以用于:

對所述初步得到的訓(xùn)練語料按照句子所含有的非分類關(guān)系類型進行聚合,對于每個關(guān)系的聚合數(shù)據(jù),使用dl-cotrain算法尋找句子模式,抽取其中一個常見的句子模式和一個不常見的句子模式。

聚類單元4,用于將k設(shè)為2,以啟發(fā)式方式選擇兩個分別滿足兩種不同模式的句子空間向量作為k-means聚類方法的初始中心,并對所有句子空間向量進行聚類,選擇滿足常見句子模式的一類,得到質(zhì)量較好的訓(xùn)練語料;

提取單元5,用于由所述質(zhì)量較好的訓(xùn)練語料訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,通過組成所述卷積神經(jīng)網(wǎng)絡(luò)模型的一個卷積層、一個池化層和一個全連接softmax層,從所述句子的空間向量提取非分類關(guān)系。

所述提取單元,具體可以用于:

將所述質(zhì)量較好的訓(xùn)練語料訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,將所述句子的空間向量輸入所述卷積神經(jīng)網(wǎng)絡(luò),依次由所述卷積神經(jīng)網(wǎng)絡(luò)的卷積層自動提取文本特征,池化層做下采樣,全連接層輸出非分類關(guān)系的預(yù)測概率,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型包括一個卷積層,一個池化層和一個全連接softmax層。

本實施例提出的基于word2vec的遠監(jiān)督非分類關(guān)系提取系統(tǒng),以網(wǎng)絡(luò)蔬菜領(lǐng)域非結(jié)構(gòu)化文本為語料,使用word2vec工具進行語料訓(xùn)練,通過聚類算法減少標簽噪音,最后利用卷積神經(jīng)網(wǎng)絡(luò)模型提取非分類關(guān)系。所用的word2vec工具不僅訓(xùn)練詞向量具有高效性,而且所獲得的詞向量能夠獲取語法、語義信息,這就使得通過聚類算法聚類得到的句子具有語法和語義信息,這將有效保障遠監(jiān)督去除標簽噪音的效果。另外,利用卷積神經(jīng)網(wǎng)絡(luò)模型提取非分類關(guān)系能夠有效避免自然語言處理工具多階段處理過程誤差累積問題,因而,相較于沒有充分考慮向量空間中各詞向量之間的語法、語義信息的現(xiàn)有技術(shù),本發(fā)明更適用于蔬菜領(lǐng)域,且非分類關(guān)系提取的準確度較高。

本發(fā)明具有如下優(yōu)點;

在應(yīng)用領(lǐng)域方面,本發(fā)明致力于提取蔬菜領(lǐng)域非分類關(guān)系,非分類關(guān)系在很大程度能夠提高蔬菜領(lǐng)域海量信息中信息查詢的準確率與召回率,增加知識表達的完備性,將為人們快速準確地獲取所需蔬菜信息的智能語義信息服務(wù)帶來可能,提高蔬菜領(lǐng)域信息化服務(wù)的水平。

雖然結(jié)合附圖描述了本發(fā)明的實施方式,但是本領(lǐng)域技術(shù)人員可以在不脫離本發(fā)明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權(quán)利要求所限定的范圍之內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1