亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)的制作方法

文檔序號(hào):12550763閱讀:602來源:國知局
用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)的制作方法與工藝

本發(fā)明自然語言處理領(lǐng)域,特別涉及用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)。



背景技術(shù):

大數(shù)據(jù)時(shí)代的到來為世界創(chuàng)造了新的機(jī)會(huì),對(duì)大數(shù)據(jù)進(jìn)行分析利用體現(xiàn)大數(shù)據(jù)的價(jià)值,自然語言處理在大數(shù)據(jù)分析中占據(jù)重要的地位,面對(duì)海量的網(wǎng)絡(luò)文本資源,通過運(yùn)用自然語言處理的分析方法自動(dòng)地、智能提取出有用信息,或者判斷出文本或者文本發(fā)布者所蘊(yùn)含的某種情感傾向,無論是在輿情分析還是商業(yè)調(diào)查中都有著重要的實(shí)際應(yīng)用意義。利用分析結(jié)果,可以對(duì)事情的發(fā)展演變進(jìn)行或者用戶喜好正確的預(yù)判,進(jìn)而提前采取相應(yīng)的措施來實(shí)現(xiàn)更大的正面效果。

自然語言處理中經(jīng)常需要使用詞典來進(jìn)行對(duì)應(yīng)的特征抽取,以詞典中的詞作為特征,通過詞典匹配來抽取對(duì)應(yīng)的特征詞匯,在特征詞匯抽取的基礎(chǔ)上結(jié)合設(shè)定的模型或者算法來判定該文本對(duì)應(yīng)的傾向或者性質(zhì),分析的可靠性大大增加。

然而現(xiàn)有的領(lǐng)域詞典,卻缺乏對(duì)具體問題的適用性,針對(duì)性不強(qiáng)。在分析具體領(lǐng)域或者具體話題時(shí),使用現(xiàn)有的大而寬泛的領(lǐng)域詞典,并不能夠達(dá)到理想的分析效果,構(gòu)建針對(duì)性的領(lǐng)域詞典十分必要,然而手動(dòng)構(gòu)建詞典非常的耗時(shí)耗力;不能滿足海量文本分析的需求。這樣的背景下如果能實(shí)現(xiàn):根據(jù)用戶具體分析需求快速構(gòu)建針對(duì)性強(qiáng)的領(lǐng)域,將有極大節(jié)省全手動(dòng)構(gòu)建詞典的人力物力,然而現(xiàn)有技術(shù)中還缺乏能夠?qū)崿F(xiàn)這類詞典快速構(gòu)建功能的相應(yīng)工具。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),用戶只需將待處理文本和領(lǐng)域種子詞輸入本系統(tǒng)中所述系統(tǒng)就可以實(shí)現(xiàn)在自動(dòng)區(qū)分文本主題領(lǐng)域的基礎(chǔ)上,根據(jù)種子詞進(jìn)行對(duì)應(yīng)領(lǐng)域詞典的自動(dòng)構(gòu)建。

為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),所述系統(tǒng)在自動(dòng)區(qū)分文本主題領(lǐng)域的基礎(chǔ)上,根據(jù)種子詞進(jìn)行對(duì)應(yīng)領(lǐng)域詞典的自動(dòng)構(gòu)建;

所述詞典構(gòu)建包含以下實(shí)現(xiàn)過程:

(1)提取出待處理文本集中各文本的關(guān)鍵詞;

(2)對(duì)待處理文本進(jìn)行聚類,生成N個(gè)主題文本集,其中N為整數(shù)且N≥2;

(3)統(tǒng)計(jì)種子詞在各主題文本集中出現(xiàn)的頻率;將頻率超過閾值的主題文本集保留,作為領(lǐng)域詞典擴(kuò)展的源文本集;

(4)計(jì)算種子詞與源文本集的文本中各候選詞的關(guān)聯(lián)度,將關(guān)聯(lián)度到達(dá)閾值的候選詞作為領(lǐng)域詞存入待擴(kuò)充的詞典中。

進(jìn)一步的,所述步驟(1)中采用以下算法公式提取文本中關(guān)鍵詞。所述算法的計(jì)算公式為:

TR(vi)是文本中詞vi的重要性,d是阻尼系數(shù),一般設(shè)置為0.85,N是無向圖中所有詞的個(gè)數(shù),relat{vi}是與詞vi有共現(xiàn)關(guān)系的詞集合,vj是relat{vi}中的任意一個(gè)詞,TR(vj)是vj的重要性,N(pj)是與vj有共現(xiàn)關(guān)系的詞的個(gè)數(shù)。

進(jìn)一步的,所述步驟(2)中對(duì)待處理文本聚類包含以下過程:

(2-1)初始時(shí),每個(gè)待處理文本各自為一個(gè)類;

類間距離定義為兩個(gè)類中兩兩文本對(duì)間距離的最大值,文本間距離的計(jì)算公式如下:

其中C(t1,t2)表示文本1和文本2之間的距離,t1∩t2表示文本1和文本2之間包含相同關(guān)鍵詞的個(gè)數(shù),mid(t1,t2)表示文本1和文本2中包含關(guān)鍵詞的平均個(gè)數(shù);類間距離計(jì)算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意兩個(gè)類簇之間的距離,ca和cb分別代表兩個(gè)類,C(ta,tb)表示兩個(gè)文本之間的距離,ta和tb分別表示兩個(gè)文本,并且要求ta∈ca、tb∈cb(2-2)計(jì)算所有類兩兩之間的距離,將距離最小的類進(jìn)行合并,命名為cnew;

(2-3)在待處理文本集中將已被合并的初始類簇刪除,并將新類簇cnew加入到聚類結(jié)果中;

(2-4)重復(fù)步驟(2-1)至(2-3),直到待處理文本集中僅包含N個(gè)類簇時(shí),停止聚類。此時(shí)待處理文本集中包含的是經(jīng)過聚類后形成的N個(gè)主題,其中N的具體個(gè)數(shù),根據(jù)實(shí)際應(yīng)用所而自行設(shè)定。

作為一種優(yōu)選:所述步驟(4)中候選詞與種子詞的關(guān)聯(lián)度計(jì)算公式為:

其中p(word1,word2)為詞word1和詞word2共同出現(xiàn)的概率,p(word1)和p(word2)表示詞word1和詞word2分別出現(xiàn)的概率。

作為一種優(yōu)選,所述步驟(2)中,N=3。

作為一種優(yōu)選,所述步驟(3)中,僅保留種子詞出現(xiàn)頻率最高的主題文本集作為詞典擴(kuò)充的源文本集。

作為一種優(yōu)選,所述步驟(4)中候選詞與種子詞的閾值設(shè)置為MI(word1,word2)=0.2,當(dāng)文本集中詞匯與種子詞的關(guān)聯(lián)度≥0.2時(shí),就將該詞作為擴(kuò)展詞匯添加到所要構(gòu)建的詞典中。

進(jìn)一步的,所述詞典生成系統(tǒng)為加載有上述功能的計(jì)算機(jī)或者服務(wù)器。

與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),用戶只需將待處理文本和領(lǐng)域種子詞輸入本系統(tǒng)中所述系統(tǒng)就可以實(shí)現(xiàn)在自動(dòng)區(qū)分文本主題領(lǐng)域的基礎(chǔ)上,根據(jù)種子詞進(jìn)行對(duì)應(yīng)領(lǐng)域詞典的自動(dòng)構(gòu)建。本發(fā)明系統(tǒng)自動(dòng)區(qū)分待處理文本的主題類型,并根據(jù)種子詞實(shí)現(xiàn)主題文本集與對(duì)應(yīng)領(lǐng)域的自動(dòng)匹配,在關(guān)系密切的主題文本集中來實(shí)現(xiàn)詞典的詞匯的擴(kuò)展,詞典構(gòu)建的準(zhǔn)確性更高。

本發(fā)明系統(tǒng)的種子詞根據(jù)用戶需要自行選取,種子詞的選取可根據(jù)分析的具體方向而定,因此更加具有針對(duì)性,更加符合用戶使用的需要。相比于普通的領(lǐng)域詞典,本發(fā)明系統(tǒng)所構(gòu)建的領(lǐng)域詞典具有更強(qiáng)靈活。詞典的實(shí)用性更強(qiáng),更加適應(yīng)于具體問題或者主題的文本分析。為自然語言處理提供可靠的詞典自動(dòng)生成工具。

附圖說明:

圖1為本發(fā)明系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖。

圖2為本發(fā)明系統(tǒng)詞典構(gòu)建的實(shí)現(xiàn)過程示意圖。

圖3為本發(fā)明系統(tǒng)詞典構(gòu)建步驟(4)的實(shí)現(xiàn)過程示意圖。

具體實(shí)施方式

下面結(jié)合試驗(yàn)例及具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本發(fā)明內(nèi)容所實(shí)現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。

提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),所述系統(tǒng)在自動(dòng)區(qū)分文本主題領(lǐng)域的基礎(chǔ)上,根據(jù)種子詞進(jìn)行對(duì)應(yīng)領(lǐng)域詞典的自動(dòng)構(gòu)建。如圖1所示,包括文本預(yù)處理系統(tǒng)和詞典構(gòu)建系統(tǒng),所述文本預(yù)處理系統(tǒng)對(duì)待處理的文本進(jìn)行包括分詞、去高頻詞和去停用詞的處理;所述詞典構(gòu)建系統(tǒng)根據(jù)領(lǐng)域種子詞對(duì)領(lǐng)域詞典進(jìn)行自動(dòng)擴(kuò)充,構(gòu)建出對(duì)應(yīng)的領(lǐng)域詞典。

為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),詞典包含如圖2所示的以下實(shí)現(xiàn)步驟:

(1)提取出待處理文本集中各文本的關(guān)鍵詞;待處理文本通過文本輸入端口輸入到預(yù)處理系統(tǒng)中進(jìn)行預(yù)處理后,輸入到詞典構(gòu)建系統(tǒng)中。

(2)對(duì)待處理文本進(jìn)行聚類,形成N個(gè)主題文本集,其中N為≥2的整數(shù)。

(3)根據(jù)用戶所選取的種子詞,統(tǒng)計(jì)種子詞在各主題文本集中出現(xiàn)的頻率;將種子詞出現(xiàn)頻率超過閾值的主題文本集保留,作為領(lǐng)域詞典擴(kuò)展的源文本集。通過聚類對(duì)待處理文本集進(jìn)行分類,形成了不同主題的文本集合,同一主題內(nèi)的文本之間的關(guān)聯(lián)程度更高,為后續(xù)的詞典擴(kuò)展進(jìn)行了語料的準(zhǔn)備和篩選。

通過聚類形成不同主題文本集后,經(jīng)過計(jì)算種子詞在主題文本關(guān)鍵詞的出現(xiàn)頻率,進(jìn)而分析出不同主題與所構(gòu)建詞典領(lǐng)域之間的關(guān)系遠(yuǎn)近,將關(guān)系較遠(yuǎn)的文本集舍棄,這樣在進(jìn)行詞典擴(kuò)展時(shí),只在領(lǐng)域較近的主題中進(jìn)行,大大提高了詞典擴(kuò)展來源語料的質(zhì)量,詞典擴(kuò)展的準(zhǔn)確性顯著提升,同時(shí)由于僅在于所擴(kuò)展的領(lǐng)域最近的文本集中進(jìn)行詞典擴(kuò)展,縮小了詞典擴(kuò)展時(shí)計(jì)算的范圍,減少了詞典擴(kuò)展的計(jì)算量,提高了詞典擴(kuò)展的效率。

用戶自行選取種子詞的方式,對(duì)于具體領(lǐng)域或者問題的針對(duì)性更強(qiáng),所構(gòu)建的詞典的適用更加靈活。

(4)計(jì)算種子詞與源文本集的各詞的關(guān)聯(lián)度,將關(guān)聯(lián)度到達(dá)設(shè)定閾值的詞作為領(lǐng)域詞存入待擴(kuò)充的詞典中。

進(jìn)一步的,所述步驟(1)中采用以下算法公式提取文本中關(guān)鍵詞。所述算法的計(jì)算公式為:

TR(vi)是文本中詞vi的重要性。d是阻尼系數(shù),一般設(shè)置為0.85。N是無向圖中(將文本分詞后,抽象成一個(gè)無向圖,其中文本中的每個(gè)詞是圖中的一個(gè)節(jié)點(diǎn))所有詞的個(gè)數(shù)。relat{vi}是與詞vi有共現(xiàn)關(guān)系的詞集合。vj是relat{vi}中的任意一個(gè)詞,TR(vj)是vj的重要性,N(pj)是與vj有共現(xiàn)關(guān)系的詞的個(gè)數(shù)。

通過本計(jì)算公式進(jìn)行迭代計(jì)算,抽取TR(vi)大于閾值的對(duì)應(yīng)詞作為該文本的關(guān)鍵詞;通過關(guān)鍵詞的自動(dòng)抽取,為文本聚類進(jìn)行準(zhǔn)備。

進(jìn)一步的,所述步驟(2)中對(duì)待處理文本聚類包含以下過程:

(2-1)初始時(shí),每個(gè)待處理文本各自為一個(gè)類;

類間距離定義為兩個(gè)類中兩兩文本對(duì)間距離的最大值,文本間距離的計(jì)算公式如下:

其中C(t1,t2)表示文本1和文本2之間的距離,t1∩t2表示文本1和文本2之間包含相同關(guān)鍵詞的個(gè)數(shù),mid(t1,t2)表示文本1和文本2中包含關(guān)鍵詞的平均個(gè)數(shù);類間距離計(jì)算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意兩個(gè)類簇之間的距離,ca和cb分別代表兩個(gè)類,C(ta,tb)表示兩個(gè)文本之間的距離,ta和tb分別表示兩個(gè)文本,并且要求ta∈ca、tb∈cb(2-2)計(jì)算所有類兩兩之間的距離,將距離最小的類進(jìn)行合并,命名為cnew;

(2-3)在待處理文本集中將已被合并的初始類簇刪除,并將新類簇cnew加入到聚類結(jié)果中;

(2-4)重復(fù)步驟(2-1)至(2-3),直到待處理文本集中僅包含N個(gè)類簇時(shí),停止聚類。此時(shí)待處理文本集中包含的是經(jīng)過聚類后形成的N個(gè)主題,其中N的具體個(gè)數(shù),根據(jù)實(shí)際應(yīng)用而自行設(shè)定。

作為一種優(yōu)選,所述步驟(2-4)N=3,將待處理文本集僅分為三個(gè)主題,方便后續(xù)計(jì)算。

作為一種優(yōu)選;所述步驟(3)中,僅保留種子詞出現(xiàn)頻率最高的主題文本集作為詞典擴(kuò)充的源文本集;本步驟從個(gè)主題文本集中選取與種子詞關(guān)系最密切的文本集,使得詞典擴(kuò)展的語料集更加符合領(lǐng)域的特點(diǎn),詞典的擴(kuò)展質(zhì)量更高,針對(duì)性更強(qiáng)。

作為一種優(yōu)選:所述步驟(4)中詞匯與種子詞的關(guān)聯(lián)度計(jì)算采用互信息的計(jì)算思想,所采用的計(jì)算公式為:

其中p(word1,word2)為詞word1和詞word2共同出現(xiàn)的概率,p(word1)和p(word2)表示詞word1和詞word2分別出現(xiàn)的概率?;バ畔⑺惴▽?duì)于分析詞匯之間的關(guān)聯(lián)度,算法簡潔容易實(shí)現(xiàn),計(jì)算效率較高;互信息是計(jì)算語言學(xué)模型的分析方法,它度量兩個(gè)對(duì)象之間的相互性。在過濾問題中用于度量特征對(duì)于主題的區(qū)分度。在進(jìn)行領(lǐng)域詞典構(gòu)建時(shí),在用戶自行選取種子詞的基礎(chǔ)上,利用互信息的方法來計(jì)算待擴(kuò)充的詞匯和現(xiàn)有種子詞的相關(guān)性,相關(guān)度越高表示該詞與種子詞的關(guān)聯(lián)性越高。

作為一種優(yōu)選,所述步驟(4)的閾值設(shè)置為MI(word1,word2)=0.2,當(dāng)文本集中候選詞與種子詞的關(guān)聯(lián)度≥0.2時(shí),就將該詞作為擴(kuò)展詞匯添加到所要構(gòu)建的詞典中,所述步驟(4)的計(jì)算過程如圖3所示。

進(jìn)一步的,所述用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)為加載有上述功能的計(jì)算機(jī)或服務(wù)器。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1