本發(fā)明屬于關(guān)鍵詞抽取領(lǐng)域,更具體地,涉及一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法。
背景技術(shù):
1、關(guān)鍵詞抽取方法能夠從文檔中抽取重要的關(guān)鍵詞語(yǔ),使讀者可以迅速獲知文檔的核心內(nèi)容,因此被廣泛應(yīng)用于信息檢索、文本分類(lèi)和文本聚類(lèi)等領(lǐng)域。關(guān)鍵詞提取本質(zhì)上是一個(gè)排序問(wèn)題,而不是分類(lèi)問(wèn)題(jiang等人2009;zhangetal.2017)。將關(guān)鍵詞提取作為排序任務(wù),就是構(gòu)建一個(gè)函數(shù),該函數(shù)將候選關(guān)鍵詞的特征映射為關(guān)鍵度分?jǐn)?shù)(即成為關(guān)鍵詞的概率)。
2、最新文獻(xiàn)呈現(xiàn)出將神經(jīng)網(wǎng)絡(luò)引入排序任務(wù)的趨勢(shì)。sarkar等人(2010)采用由候選關(guān)鍵詞的頻率、idf、長(zhǎng)度和位置信息組成的特征集訓(xùn)練多層感知器神經(jīng)網(wǎng)絡(luò)。mu等人(2020)首先在bert上獲去候選關(guān)鍵詞基礎(chǔ),用bi-lstm提取候選關(guān)鍵詞的特征向量,然后使用包含sigmoid激活函數(shù)的全連接前饋網(wǎng)絡(luò)對(duì)候選者進(jìn)行排名。xiong等人(2019)使用詞嵌入、位置嵌入和視覺(jué)特征(如位置、字體大小和html-dom特征等)來(lái)表征候選關(guān)鍵詞,應(yīng)用基于卷積transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)對(duì)候選關(guān)鍵詞內(nèi)部詞語(yǔ)之間的相互作用進(jìn)行建模,并使用前饋層對(duì)候選關(guān)鍵詞進(jìn)行排名。
3、但現(xiàn)有關(guān)鍵詞抽取方法尚未從理論上厘清不同子語(yǔ)域與詞語(yǔ)關(guān)鍵度之間的互動(dòng)關(guān)系,尚未對(duì)區(qū)分詞語(yǔ)關(guān)鍵度的句法、語(yǔ)義、篇章等層面特征的統(tǒng)計(jì)信息進(jìn)行系統(tǒng)分析和整合,尚未找到適用于各子語(yǔ)域的有效的關(guān)鍵詞抽取一般方法,關(guān)鍵詞抽取精度仍然不能滿(mǎn)足各類(lèi)應(yīng)用需求,有待進(jìn)一步研究。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的缺陷和改進(jìn)需求,本發(fā)明提供了一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法,其目的在于提高關(guān)鍵詞抽取的精度。
2、為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種用于關(guān)鍵詞抽取的關(guān)鍵度判斷模型構(gòu)建方法,包括:
3、構(gòu)建候選關(guān)鍵詞識(shí)別模型:基于訓(xùn)練樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到,其中,每個(gè)訓(xùn)練樣本包括一個(gè)n元子串對(duì)應(yīng)的特征以及該n元子串在其所在文本中是否為關(guān)鍵詞的標(biāo)簽;每個(gè)n元子串為由其所在文本中連續(xù)的n個(gè)詞所組成的詞片段;每個(gè)n元子串對(duì)應(yīng)的特征為判斷句法完整性所獲取的該n元子串的詞形句法信息;
4、構(gòu)建候選關(guān)鍵詞的關(guān)鍵度表征模型:基于訓(xùn)練樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到,其中,每個(gè)訓(xùn)練樣本包括一個(gè)候選關(guān)鍵詞t對(duì)應(yīng)的獨(dú)立型關(guān)鍵性特征和依賴(lài)型關(guān)鍵性特征以及該候選關(guān)鍵詞的關(guān)鍵度標(biāo)簽;獨(dú)立型關(guān)鍵性特征包括子語(yǔ)域類(lèi)型τd和候選關(guān)鍵詞長(zhǎng)度ιt,依賴(lài)型關(guān)鍵性特征包括啟發(fā)式特征獨(dú)特性特征和代表性特征所述關(guān)鍵度表征模型表示為
5、所述候選關(guān)鍵詞識(shí)別模型和所述關(guān)鍵度表征模型構(gòu)成關(guān)鍵度判斷模型,完成構(gòu)建,其中,該關(guān)鍵度判斷模型在訓(xùn)練文本所屬的語(yǔ)言社區(qū)內(nèi)共享。
6、進(jìn)一步,所述候選關(guān)鍵詞識(shí)別模型的具體訓(xùn)練方式為:
7、s1、構(gòu)建訓(xùn)練樣本集,包括正樣本集和負(fù)樣本集,每個(gè)樣本包括一個(gè)n元子串對(duì)應(yīng)的特征向量以及該n元子串在目標(biāo)文本中是否為關(guān)鍵詞的標(biāo)簽;正樣本數(shù)量和負(fù)樣本數(shù)量均為p;
8、s2、基于當(dāng)前訓(xùn)練樣本集迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別模型,當(dāng)?shù)螖?shù)達(dá)到輪次閾值時(shí),重新獲取p個(gè)負(fù)樣本構(gòu)成新的負(fù)樣本集;采用當(dāng)前訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)識(shí)別模型從新的負(fù)樣本集中將正樣本識(shí)別出并刪除,得到更新后的負(fù)樣本集;該更新后的負(fù)樣本集和所述正樣本集構(gòu)成新的訓(xùn)練樣本集;基于新的訓(xùn)練樣本集重復(fù)執(zhí)行該步驟,直至得到迭代終止條件,完成候選關(guān)鍵詞識(shí)別模型的訓(xùn)練。
9、進(jìn)一步,所述候選關(guān)鍵詞識(shí)別模型的網(wǎng)絡(luò)結(jié)構(gòu)包括四個(gè)部分:
10、第一個(gè)部分為嵌入層,用于將輸入的詞形句法特征轉(zhuǎn)換為嵌入形式;第二個(gè)部分包括兩個(gè)卷積層、兩個(gè)最大池化層和一個(gè)transformer編碼器,用于捕獲詞形句法模式;第三個(gè)部分包括兩個(gè)線(xiàn)性層和一個(gè)非線(xiàn)性激活層,用于將詞形句法模式轉(zhuǎn)換為二進(jìn)制概率向量,所述二進(jìn)制概率向量包括結(jié)構(gòu)非完好概率i-prob和結(jié)構(gòu)完好概率w-prob;第四個(gè)部分為識(shí)別單元,用于計(jì)算每個(gè)n元子串對(duì)應(yīng)的所述二進(jìn)制概率向量中結(jié)構(gòu)完好概率和結(jié)構(gòu)非完好概率的差值ω=(w-prob)-(i-prob),并將ω大于0對(duì)應(yīng)的n元子串作為候選關(guān)鍵詞。
11、進(jìn)一步,所述候選關(guān)鍵詞的關(guān)鍵度表征模型的具體訓(xùn)練方式為:
12、s1、構(gòu)建訓(xùn)練樣本集,包括正樣本集和負(fù)樣本集,每個(gè)樣本包括一個(gè)候選關(guān)鍵詞對(duì)應(yīng)的獨(dú)立型關(guān)鍵性特征和依賴(lài)型關(guān)鍵性特征以及該候選關(guān)鍵詞在其所在文本中的關(guān)鍵度標(biāo)簽;正樣本的關(guān)鍵度標(biāo)簽為1,負(fù)樣本的關(guān)鍵度為0,負(fù)樣本數(shù)量為正樣本數(shù)量p的θ倍;
13、s2、基于當(dāng)前訓(xùn)練樣本集迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)排序模型,當(dāng)?shù)螖?shù)達(dá)到輪次閾值時(shí),采用抽樣方法重新獲取p×θ個(gè)負(fù)樣本構(gòu)成新的負(fù)樣本集;采用當(dāng)前訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)排序模型從新的負(fù)樣本集中將正樣本識(shí)別出并刪除,得到更新后的負(fù)樣本集;該更新后的負(fù)樣本集和所述正樣本集構(gòu)成新的訓(xùn)練樣本集;基于新的訓(xùn)練樣本集重復(fù)該步驟,直至得到迭代終止條件,完成神經(jīng)網(wǎng)絡(luò)識(shí)別模型的訓(xùn)練。
14、進(jìn)一步,所述候選關(guān)鍵詞的關(guān)鍵度表征模型的網(wǎng)絡(luò)結(jié)構(gòu)包括:
15、第一個(gè)部分為兩個(gè)嵌入層和一個(gè)點(diǎn)積單元,兩個(gè)嵌入層分別用于將子語(yǔ)域類(lèi)型和候選關(guān)鍵詞長(zhǎng)度轉(zhuǎn)化為嵌入形式,點(diǎn)積單元用于將依賴(lài)型關(guān)鍵性特征與子語(yǔ)域類(lèi)型和候選關(guān)鍵詞長(zhǎng)度的嵌入形式進(jìn)行點(diǎn)積;
16、第二個(gè)部分包括兩個(gè)transformer編碼器、三個(gè)卷積層和三個(gè)池化層,用于捕獲關(guān)鍵度信息;
17、第三個(gè)部分包括一個(gè)線(xiàn)性層,用于基于關(guān)鍵度信息,計(jì)算每個(gè)候選關(guān)鍵詞對(duì)應(yīng)的負(fù)關(guān)鍵度評(píng)分n-score和正關(guān)鍵度評(píng)分p-score,并將每個(gè)候選關(guān)鍵詞對(duì)應(yīng)的正關(guān)鍵度評(píng)分和負(fù)關(guān)鍵度評(píng)分的差值r=(p-score)-(n-score),作為該候選關(guān)鍵詞的關(guān)鍵度。
18、進(jìn)一步,所述啟發(fā)式特征包括:大小寫(xiě)關(guān)鍵值,首現(xiàn)位置關(guān)鍵值,頻次關(guān)鍵值,以及語(yǔ)境多樣性關(guān)鍵值;
19、所述獨(dú)特性特征包括:tf-idf關(guān)鍵值,有效差異關(guān)鍵值,詞語(yǔ)獨(dú)特性關(guān)鍵值;
20、所述代表性特征包括:散度,基于詞語(yǔ)的個(gè)性化中心性指標(biāo),以及基于主題的中心性指標(biāo)。
21、進(jìn)一步,所述大小寫(xiě)關(guān)鍵值表示為:式中,n為候選關(guān)鍵詞t在其所在文本中出現(xiàn)的次數(shù),ti為候選關(guān)鍵詞t在其所在文本中的第i個(gè)實(shí)例,mt為候選關(guān)鍵詞t中的詞數(shù)量,即候選關(guān)鍵詞t對(duì)應(yīng)的元數(shù)n的取值;為ti中大寫(xiě)詞的個(gè)數(shù);
22、所述首現(xiàn)位置關(guān)鍵值表示為:式中,為候選關(guān)鍵詞t在d中首次出現(xiàn)的位置,ns,d為d中句子的總數(shù)量;
23、所述頻次關(guān)鍵值表示為:式中,nt為候選關(guān)鍵詞t的頻率,為候選關(guān)鍵詞t所屬n元子串的平均頻率,σngram為候選關(guān)鍵詞t所屬n元子串的標(biāo)準(zhǔn)差;
24、所述tf-idf關(guān)鍵值stf-idf表示為:式中,d|為用于構(gòu)建訓(xùn)練樣本集的參考語(yǔ)料庫(kù)中文本的數(shù)量,dj為參考語(yǔ)料庫(kù)中的包含候選關(guān)鍵詞t的第j個(gè)文本;
25、所述有效差異關(guān)鍵值seffect-size表示為:式中,為候選關(guān)鍵詞t在d中的概率,為候選關(guān)鍵詞t在參考語(yǔ)料庫(kù)中的概率;
26、所述散度ssentence-dispersion表示為:式中,ct為候選關(guān)鍵詞t在d中出現(xiàn)的句子數(shù),nd為d中出現(xiàn)的句子數(shù);
27、所述基于詞語(yǔ)的個(gè)性化中心性指標(biāo)是通過(guò)圖的方式獲取得到,包括位置排序關(guān)鍵值、tf-idf排序關(guān)鍵值、詞語(yǔ)排序關(guān)鍵值以及簡(jiǎn)單排序關(guān)鍵值;
28、所述基于主題的中心性指標(biāo)是通過(guò)圖計(jì)算方式獲取得,包括特征向量中心性得分、接近中心性得分以及介數(shù)中心性得分。
29、本發(fā)明還提供一種關(guān)鍵詞抽取方法,包括:
30、對(duì)目標(biāo)文本依次進(jìn)行規(guī)范化處理、依存句法分析,以生成n元子串列表,每個(gè)n元子串為由目標(biāo)文本中連續(xù)的n個(gè)詞所組成的詞片段;
31、獲取如上所述的方法所構(gòu)建的所述目標(biāo)文本所屬語(yǔ)言社區(qū)的關(guān)鍵度判斷模型,采用其中的候選關(guān)鍵詞識(shí)別模型,從所述n元子串列表中識(shí)別出候選關(guān)鍵詞,每個(gè)候選關(guān)鍵詞為一個(gè)n元子串;
32、計(jì)算每個(gè)候選關(guān)鍵詞的如上所述的方法中所述的獨(dú)立型關(guān)鍵性特征和依賴(lài)型關(guān)鍵性特征;
33、采用所述關(guān)鍵度判斷模型中的關(guān)鍵度表征模型,基于每個(gè)候選關(guān)鍵詞的關(guān)鍵度;
34、基于關(guān)鍵度對(duì)各個(gè)候選關(guān)鍵詞進(jìn)行排序,基于所述排序的結(jié)果,結(jié)合實(shí)際需要,完成關(guān)鍵詞抽取。
35、進(jìn)一步,還包括:
36、對(duì)所有候選關(guān)鍵詞進(jìn)行聚類(lèi);
37、根據(jù)每個(gè)類(lèi)中候選關(guān)鍵詞的最大關(guān)鍵度,對(duì)各類(lèi)進(jìn)行排序,根據(jù)排序結(jié)果,結(jié)合實(shí)際需要,確定前k個(gè)類(lèi)中最大關(guān)鍵度對(duì)應(yīng)的候選關(guān)鍵詞,作為最終的關(guān)鍵詞抽取結(jié)果。
38、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的方法的步驟。
39、總體而言,通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案,能夠取得以下有益效果:
40、(1)本發(fā)明將有監(jiān)督關(guān)鍵詞提取視為關(guān)鍵詞排序任務(wù),提出語(yǔ)言社區(qū)共享關(guān)鍵度判斷模式的斷言,并據(jù)此提出排序任務(wù)的形式化模型,即基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)框架。進(jìn)一步,本發(fā)明提出的關(guān)鍵度判斷模型包括候選關(guān)鍵詞識(shí)別模型和關(guān)鍵度表征模型,關(guān)于關(guān)鍵度表征模型,創(chuàng)造性將其設(shè)計(jì)為也就是,給定文檔d中一個(gè)候選關(guān)鍵詞t,其關(guān)鍵度計(jì)算依賴(lài)于兩類(lèi)特征:獨(dú)立型特征和依賴(lài)型特征。獨(dú)立型特征影響依賴(lài)型特征,依賴(lài)型特征的取值會(huì)沿著獨(dú)立型特征維度發(fā)生變化。上式指定了兩類(lèi)獨(dú)立型特征:子語(yǔ)域類(lèi)型(τd)和候選關(guān)鍵詞長(zhǎng)度(ιt),它們對(duì)三種依賴(lài)型特征類(lèi)型具有相互傳遞的影響(用乘法號(hào)x表示)。三種依賴(lài)型特征分別為:?jiǎn)l(fā)式特證獨(dú)特性特征和代表性特征本發(fā)明在理論上提出了上述關(guān)鍵度判斷模型,基于模型的關(guān)鍵度計(jì)算,在特定語(yǔ)言社區(qū)共享,用于斷文本中的關(guān)鍵詞,這種通過(guò)神經(jīng)網(wǎng)絡(luò)的方法將社區(qū)所共享的關(guān)鍵度表征模型模擬出來(lái),極大提高了關(guān)鍵詞抽取的精度和效率。
41、(2)本發(fā)明還提出了提出基于正樣本標(biāo)簽缺失學(xué)習(xí)相關(guān)研究的訓(xùn)練策略。由于關(guān)鍵詞是與否是個(gè)體主觀判斷的結(jié)果,訓(xùn)練集中不可避免地包含無(wú)標(biāo)簽正樣本,即另一個(gè)體可能標(biāo)識(shí)為關(guān)鍵詞的候選關(guān)鍵詞,基于此,本優(yōu)選方式提出的基于正樣本標(biāo)簽缺失學(xué)習(xí)方式,保證了模型訓(xùn)練精度。