本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種關(guān)鍵詞的提取方法及裝置。
背景技術(shù):
關(guān)鍵詞提取是從給定的文本中提取出能反映文本主旨信息的詞或短語(yǔ),在自動(dòng)摘要、文本挖掘、信息檢索中發(fā)揮著重要作用,尤其是實(shí)現(xiàn)自動(dòng)標(biāo)注的關(guān)鍵方法。其中,根據(jù)是否需要標(biāo)注訓(xùn)練語(yǔ)料可以把關(guān)鍵詞抽取方法分為兩大類:有監(jiān)督關(guān)鍵詞抽取和無(wú)監(jiān)督關(guān)鍵詞抽取。
基于詞圖的無(wú)監(jiān)督關(guān)鍵詞抽取是基于詞語(yǔ)在文檔中的分布進(jìn)而建立詞圖節(jié)點(diǎn),然后根據(jù)詞語(yǔ)的覆蓋影響力、位置影響力和頻度影響力三個(gè)方面加權(quán)計(jì)算臨近詞語(yǔ)所傳遞的影響力,也就是計(jì)算詞圖中節(jié)點(diǎn)的邊長(zhǎng),并根據(jù)詞圖中節(jié)點(diǎn)的邊長(zhǎng)從文檔中提取關(guān)鍵詞。
但是,基于詞圖的關(guān)鍵詞抽取方法中文本的詞頻可表示頻度影響力,詞共現(xiàn)關(guān)系可表示位置影響力和覆蓋影響力,因此基于詞圖的關(guān)鍵詞抽取方法抽取的關(guān)鍵詞是文本中詞頻和詞共現(xiàn)關(guān)系出現(xiàn)較多的詞,而這些詞往往與文本的主題并不相關(guān),因此為了使提取的關(guān)鍵詞更加切合文本主題,取得較好的關(guān)鍵詞效果往往需要人工經(jīng)驗(yàn)進(jìn)行干預(yù),即在衡量詞語(yǔ)的重要性時(shí)往往采用相對(duì)簡(jiǎn)單的經(jīng)驗(yàn)賦值方法,如對(duì)于在主題中出現(xiàn)的詞語(yǔ)賦予較高的權(quán)重。因此現(xiàn)有基于詞圖的關(guān)鍵詞抽取方法需要人工干預(yù),提取關(guān)鍵詞的智能性、效率均較低。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種關(guān)鍵詞的提取方法及裝置,主要目的在于解決現(xiàn)有關(guān)鍵詞提取智能性、效率均較低的問(wèn)題。
依據(jù)本發(fā)明一個(gè)方面,提供了一種關(guān)鍵詞的提取方法,包括:
獲取目標(biāo)文本中各個(gè)詞的主題影響度向量,所述詞的主題影響度向量用于表示所述詞對(duì)所述目標(biāo)文本中主題的影響度;
根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,所述重要度用于表示所述詞與所述目標(biāo)文本的關(guān)聯(lián)程度;
從所述目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞。
具體的,述獲取目標(biāo)文本中各個(gè)詞的主題影響度向量包括:
通過(guò)文檔主題生成模型LDA計(jì)算所述目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率及每個(gè)主題中每個(gè)詞出現(xiàn)的概率;
將所述目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率分別與所述每個(gè)主題中每個(gè)詞出現(xiàn)的概率進(jìn)行點(diǎn)乘計(jì)算,得到所述目標(biāo)文本中各個(gè)詞的主題影響度向量。
進(jìn)一步地,所述根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度之前,所述方法還包括:
以所述目標(biāo)文本中的詞作為所述詞圖中的節(jié)點(diǎn),所述目標(biāo)文本中詞的位置相鄰關(guān)系作為所述節(jié)點(diǎn)間的連接邊,構(gòu)建所述目標(biāo)文本的詞圖。
具體的,所述根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,包括:
通過(guò)所述詞的主題影響度向量計(jì)算目標(biāo)文本中各個(gè)詞之間的相似度;
根據(jù)所述目標(biāo)文本的詞圖及所述各個(gè)詞之間的相似度計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。
具體的,所述通過(guò)所述詞的主題影響度向量計(jì)算目標(biāo)文本中各個(gè)詞之間的相似度包括:
獲取所述目標(biāo)文本的詞圖中具有連接邊的兩節(jié)點(diǎn)對(duì)應(yīng)的詞;
通過(guò)計(jì)算所述具有連接邊的兩節(jié)點(diǎn)對(duì)應(yīng)的詞的主題影響度向量的余弦相似度值,確定各個(gè)詞之間的相似度。
具體的,所述根據(jù)所述目標(biāo)文本的詞圖及所述各個(gè)詞之間的相似度計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度包括:
將詞與詞之間的相似度作為所述目標(biāo)文本的詞圖中對(duì)應(yīng)節(jié)點(diǎn)連接邊的邊值;
對(duì)所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的各個(gè)連接邊的邊值進(jìn)行累加獲得所述詞的重要度。
具體的,所述根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度包括:
將所述詞的主題影響度向量設(shè)置為所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的權(quán)重值;
根據(jù)基于詞圖模型的關(guān)鍵詞抽取TextRank算法和所述節(jié)點(diǎn)的權(quán)重值計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。
具體的,所述從所述目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞包括:
從所述目標(biāo)文本中選取重要度最高的詞作為所述目標(biāo)文本的關(guān)鍵詞。
依據(jù)本發(fā)明另一個(gè)方面,提供了一種關(guān)鍵詞的提取裝置,包括:
獲取單元,用于獲取目標(biāo)文本中各個(gè)詞的主題影響度向量,所述詞的主題影響度向量用于表示所述詞對(duì)所述目標(biāo)文本中主題的影響度;
計(jì)算單元,用于根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,所述重要度用于表示所述詞與所述目標(biāo)文本的關(guān)聯(lián)程度;
選取單元,用于從所述目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞。
具體的,所述獲取單元包括:
計(jì)算模塊,用于通過(guò)文檔主題生成模型LDA計(jì)算所述目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率及每個(gè)主題中每個(gè)詞出現(xiàn)的概率;
點(diǎn)乘模塊,用于將所述目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率分別與所述每個(gè)主題中每個(gè)詞出現(xiàn)的概率進(jìn)行點(diǎn)乘計(jì)算,得到所述目標(biāo)文本中各個(gè)詞的主題影響度向量。
進(jìn)一步地,所述裝置還包括:
構(gòu)建單元,用于以所述目標(biāo)文本中的詞作為所述詞圖中的節(jié)點(diǎn),所述目標(biāo)文本中詞的位置相鄰關(guān)系作為所述節(jié)點(diǎn)間的連接邊,構(gòu)建所述目標(biāo)文本的詞圖。
具體的,所述計(jì)算單元包括:
第一計(jì)算模塊,用于通過(guò)所述詞的主題影響度向量計(jì)算目標(biāo)文本中各個(gè)詞之間的相似度;
第二計(jì)算模塊,用于根據(jù)所述目標(biāo)文本的詞圖及所述各個(gè)詞之間的相似度計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。
具體的,所述第一計(jì)算模塊包括:
獲取子模塊,用于獲取所述目標(biāo)文本的詞圖中具有連接邊的兩節(jié)點(diǎn)對(duì)應(yīng)的詞;
確定子模塊,用于通過(guò)計(jì)算所述具有連接邊的兩節(jié)點(diǎn)對(duì)應(yīng)的詞的主題影響度向量的余弦相似度值,確定各個(gè)詞之間的相似度。
具體的,所述第二計(jì)算模塊包括:
配置子模塊,用于將詞與詞之間的相似度作為所述目標(biāo)文本的詞圖中對(duì)應(yīng)節(jié)點(diǎn)連接邊的邊值;
累加子模塊,用于對(duì)所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的各個(gè)連接邊的邊值進(jìn)行累加獲得所述詞的重要度。
具體的,所述計(jì)算單元還包括:
設(shè)置模塊,用于將所述詞的主題影響度向量設(shè)置為所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的權(quán)重值;
第三計(jì)算模塊,用于根據(jù)基于詞圖模型的關(guān)鍵詞抽取TextRank算法和所述節(jié)點(diǎn)的權(quán)重值計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。
所述選取單元,具體用于從所述目標(biāo)文本中選取重要度最高的詞作為所述目標(biāo)文本的關(guān)鍵詞。
借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):
本發(fā)明實(shí)施例提供的一種關(guān)鍵詞的提取方法及裝置,首先獲取目標(biāo)文本中各個(gè)詞的主題影響度向量,所述詞的主題影響度向量用于表示所述詞對(duì)所述目標(biāo)文本中主題的影響度,然后根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,所述重要度用于表示所述詞與所述目標(biāo)文本的關(guān)聯(lián)程度,最后從所述目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞。與目前通過(guò)人工經(jīng)驗(yàn)干預(yù)詞在文本中主題的重要性以實(shí)現(xiàn)提取關(guān)鍵詞相比,本發(fā)明實(shí)施例通過(guò)文檔主題生成模型計(jì)算目標(biāo)文本中各個(gè)詞的主題影響度向量,然后以詞的主題影響度向量作為衡量詞對(duì)目標(biāo)文本中主題的重要性,因此本發(fā)明實(shí)施例而無(wú)需再通過(guò)人工經(jīng)驗(yàn)設(shè)置詞在文本主題中的重要性,并且根據(jù)文檔主題生成模型得到的詞的主體影響度向量能夠準(zhǔn)確表示詞對(duì)目標(biāo)文本中主題的影響度,因此根據(jù)目標(biāo)文本的詞圖及詞的主題影響度向量可從目標(biāo)文本中提取到關(guān)鍵詞,從而通過(guò)本發(fā)明實(shí)施例可提高關(guān)鍵詞的提取效率及提取智能性。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了本發(fā)明實(shí)施例提供的一種關(guān)鍵詞的提取方法流程圖;
圖2示出了本發(fā)明實(shí)施例提供的另一種關(guān)鍵詞的提取方法流程圖;
圖3示出了本發(fā)明實(shí)施例提供的一種關(guān)鍵詞的提取裝置結(jié)構(gòu)框圖;
圖4示出了本發(fā)明實(shí)施例提供的另一種關(guān)鍵詞提的取裝置結(jié)構(gòu)框圖。
圖5示出了本發(fā)明實(shí)施例提供的目標(biāo)文本的詞圖示意圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實(shí)施例提供了一種關(guān)鍵詞的提取方法,如圖1所示,該方法包括:
101、獲取目標(biāo)文本中各個(gè)詞的主題影響度向量。
其中,所述詞的主題影響度向量用于表示所述詞對(duì)所述目標(biāo)文本中主題的影響度,詞的主題影響度向量是詞在目標(biāo)文本中對(duì)所有主題的影響度。需要說(shuō)明的是,對(duì)于目標(biāo)文本d中的詞w來(lái)說(shuō),令F表示該詞w對(duì)目標(biāo)文本d中的主題影響度向量,可以認(rèn)為詞w出現(xiàn)在一個(gè)主題z中的概率越大,則該詞語(yǔ)相對(duì)于主題z而言影響度越大;若詞w對(duì)應(yīng)的主題z在目標(biāo)文本d中的出現(xiàn)概率越大,則表明主題z相對(duì)于目標(biāo)文本d的影響度越大。因此可通過(guò)目標(biāo)文本d的中主題z出現(xiàn)的概率與主題z中詞w出現(xiàn)的概率的乘積確定詞w在目標(biāo)文本d中對(duì)主題z的主題影響度向量,但是根據(jù)主題z出現(xiàn)的概率與主題z中詞w出現(xiàn)的概率的乘積確定的主題影響度向量是詞w對(duì)主題z的影響度向量,而非詞w對(duì)目標(biāo)文本詞d中全部主題的影響度。并且目標(biāo)文本d中可包含多個(gè)主題,且詞w可以同時(shí)出現(xiàn)在多個(gè)出題當(dāng)中,因此需要根據(jù)目標(biāo)文本d的中每個(gè)主題出現(xiàn)的概率與所述每個(gè)主題中詞w出現(xiàn)的概率進(jìn)行的點(diǎn)乘結(jié)果,確定詞w對(duì)目標(biāo)文本d中的主題影響度向量F。
基于以上分析,本發(fā)明實(shí)施例可根據(jù)LDA(Latent Dirichlet Allocation,文檔主題生成模型)獲取目標(biāo)文本中各個(gè)詞的主體影響度向量,具體的獲取主題影響度向量過(guò)程可以為:首先對(duì)目標(biāo)文本進(jìn)行分詞,然后通過(guò)LDA計(jì)算目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率及每個(gè)主題中每個(gè)詞出現(xiàn)的概率,然后將目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率與所述每個(gè)主題中每個(gè)詞出現(xiàn)的概率進(jìn)行的點(diǎn)乘結(jié)果,作為目標(biāo)文本中各個(gè)詞的主體影響度向量。
102、根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。
其中,所述重要度用于表示所述詞與所述目標(biāo)文本的關(guān)聯(lián)程度,詞的重要度越大,詞與目標(biāo)文本的關(guān)聯(lián)程度越強(qiáng);詞的重要程度越小,詞與目標(biāo)文本的關(guān)聯(lián)程度越弱。需要說(shuō)明的是,目標(biāo)文本的詞圖是基于TextRank(基于詞圖模型的關(guān)鍵詞抽取算法)算法構(gòu)建的,即以目標(biāo)文本中的詞作為所述詞圖中的節(jié)點(diǎn),目標(biāo)文本中詞的位置相鄰關(guān)系作為所述節(jié)點(diǎn)間的連接邊,構(gòu)建目標(biāo)文本的詞圖。
在本發(fā)明實(shí)施例中,可以將詞的主題影響度向量作為目標(biāo)文本詞圖中節(jié)點(diǎn)的權(quán)重值,然后將節(jié)點(diǎn)的權(quán)重值代入TextRank算法公式中,并基于節(jié)點(diǎn)的權(quán)重值和目標(biāo)文本詞圖中臨近詞語(yǔ)所傳遞的影響力計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度;還可以通過(guò)詞的主題影響度向量計(jì)算目標(biāo)文本詞圖中臨近兩節(jié)點(diǎn)連接邊的邊值,然后統(tǒng)計(jì)目標(biāo)文本詞圖中連接同一節(jié)點(diǎn)連接邊的邊值,最后將統(tǒng)計(jì)的結(jié)果作為目標(biāo)文本中各個(gè)詞的重要度。
例如,目標(biāo)文本詞圖中包括節(jié)點(diǎn)A、B、C、D、E,節(jié)點(diǎn)A對(duì)應(yīng)詞A、節(jié)點(diǎn)B對(duì)應(yīng)詞B、節(jié)點(diǎn)C對(duì)應(yīng)詞C、節(jié)點(diǎn)D對(duì)應(yīng)詞D、節(jié)點(diǎn)E對(duì)應(yīng)詞E,節(jié)點(diǎn)A與節(jié)點(diǎn)B、C、D相連接,即節(jié)點(diǎn)A與節(jié)點(diǎn)B、C、D之間存在連接邊,若節(jié)點(diǎn)A的主題影響度向量為a,節(jié)點(diǎn)B的主題影響度向量為b,節(jié)點(diǎn)C的主題影響度向量為c,節(jié)點(diǎn)D的主題影響度向量為d,節(jié)點(diǎn)E的主題影響度向量為e。則可將a作為節(jié)點(diǎn)A的權(quán)重值,b作為節(jié)點(diǎn)B的權(quán)重值,c作為節(jié)點(diǎn)C的權(quán)重值,d作為節(jié)點(diǎn)D的權(quán)重值,e作為節(jié)點(diǎn)E的權(quán)重值,通過(guò)TextRank算法對(duì)節(jié)點(diǎn)的權(quán)重值及目標(biāo)文本詞圖中的節(jié)點(diǎn)關(guān)系進(jìn)行計(jì)算,以得到各節(jié)點(diǎn)的重要度,即得到目標(biāo)文本中各個(gè)詞的重要度;另外還可以根據(jù)詞圖中節(jié)點(diǎn)連接邊的邊值獲取目標(biāo)文本中各個(gè)詞的重要度,即首先通過(guò)詞A與詞B的主體影響度向量計(jì)算節(jié)點(diǎn)A與節(jié)點(diǎn)B之間連接邊的邊值ab,詞A與詞C的主體影響度向量計(jì)算節(jié)點(diǎn)A與節(jié)點(diǎn)C之間連接邊的邊值ac,詞A與詞D的主體影響度向量計(jì)算節(jié)點(diǎn)A與節(jié)點(diǎn)D之間連接邊的邊值ad,然后對(duì)連接節(jié)點(diǎn)A的連接邊的邊值ab、ac、ad進(jìn)行累加,得到節(jié)點(diǎn)的重要度,即得到詞A與目標(biāo)文本的關(guān)聯(lián)程度。
103、從所述目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞。
其中,所述預(yù)設(shè)重要度可以根據(jù)實(shí)際需要進(jìn)行設(shè)置,如可從目標(biāo)文本中選取重要度最高的詞作為目標(biāo)文本的關(guān)鍵詞,還可以從目標(biāo)文本中選取重要度超過(guò)預(yù)置數(shù)值的詞作為目標(biāo)文本的關(guān)鍵詞,本發(fā)明實(shí)施例不做具體限定。需要說(shuō)明的是,預(yù)置數(shù)值設(shè)置的越大,從目標(biāo)文本中提取的關(guān)鍵詞越多;預(yù)置數(shù)值設(shè)置的越小,從目標(biāo)文本中提取的關(guān)鍵詞越少。
本發(fā)明實(shí)施例提供的一種關(guān)鍵詞的提取方法,首先通過(guò)文檔主題生成模型計(jì)算目標(biāo)文本中各個(gè)詞的主題影響度向量,然后以詞的主題影響度向量作為衡量詞對(duì)目標(biāo)文本中主題的重要性,并根據(jù)目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,最后從目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞。由于本發(fā)明實(shí)施例在獲取目標(biāo)文本的關(guān)鍵詞的過(guò)程中,無(wú)需人工經(jīng)驗(yàn)設(shè)置詞在文本主題中的重要性,且根據(jù)文檔主題生成模型得到的詞的主體影響度向量能夠準(zhǔn)確表示詞對(duì)目標(biāo)文本中主題的影響度,因此通過(guò)本發(fā)明實(shí)施例可提高關(guān)鍵詞的提取效率及提取智能性。
本發(fā)明實(shí)施例提供了另一種關(guān)鍵詞的提取方法,如圖2所示,所述方法包括:
201、獲取目標(biāo)文本中各個(gè)詞的主題影響度向量。
其中,所述詞的主題影響度向量用于表示所述詞對(duì)所述目標(biāo)文本中主題的影響度,詞的主題影響度向量是詞在目標(biāo)文本中對(duì)所有主題的影響。對(duì)于本發(fā)明實(shí)施例,所述獲取目標(biāo)文本中各個(gè)詞的主題影響度向量包括:通過(guò)文檔主題生成模型LDA計(jì)算所述目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率及每個(gè)主題中每個(gè)詞出現(xiàn)的概率;將所述目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率分別與所述每個(gè)主題中每個(gè)詞出現(xiàn)的概率進(jìn)行點(diǎn)乘計(jì)算,得到所述目標(biāo)文本中各個(gè)詞的主題影響度向量。關(guān)于獲取目標(biāo)文本中各個(gè)詞的主題影響度向量的相關(guān)描述,可以參考圖1對(duì)應(yīng)部分的描述,本發(fā)明實(shí)施例此處將不再贅述。
202、以所述目標(biāo)文本中的詞作為詞圖中的節(jié)點(diǎn),所述目標(biāo)文本中詞的位置相鄰關(guān)系作為所述節(jié)點(diǎn)間的連接邊,構(gòu)建目標(biāo)文本的詞圖。
其中,詞的位置相鄰關(guān)系是詞在目標(biāo)文本中的語(yǔ)句先后順序,節(jié)點(diǎn)間的連接邊為無(wú)向連接邊。例如在目標(biāo)文本中存在詞A、B、C、D、E,且上述詞在目標(biāo)文本中出現(xiàn)的順序?yàn)锳BCDBEA,則根據(jù)詞在文本中出現(xiàn)的順序可構(gòu)建的目標(biāo)文本的詞圖如圖5所示,其中節(jié)點(diǎn)B與節(jié)點(diǎn)A、C、D、E位置相鄰,所以節(jié)點(diǎn)B與節(jié)點(diǎn)A、C、D、E之間有連接邊,節(jié)點(diǎn)E與節(jié)點(diǎn)A位置相鄰,所以節(jié)點(diǎn)E與節(jié)點(diǎn)A之間有連接邊。
203、根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。
其中,所述重要度用于表示所述詞與所述目標(biāo)文本的關(guān)聯(lián)程度,詞的重要度越大,詞與目標(biāo)文本的關(guān)聯(lián)程度越強(qiáng);詞的重要程度越小,詞與目標(biāo)文本的關(guān)聯(lián)程度越弱。
對(duì)于本發(fā)明實(shí)施例,步驟203包括:通過(guò)所述詞的主題影響度向量計(jì)算目標(biāo)文本中各個(gè)詞之間的相似度;根據(jù)所述目標(biāo)文本的詞圖及所述各個(gè)詞之間的相似度計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。其中,本發(fā)明實(shí)施例可以通過(guò)歐式距離、余弦相似度等算法計(jì)算詞與詞之間的相似度,本發(fā)明實(shí)施例不做具體限定。具體的可通過(guò)計(jì)算詞之間的主題影響度向量的歐式距離或余弦相似度得到詞之間的相似度,例如詞A的主題影響度向量為a,詞B的主題影響度向量為b,則計(jì)算詞A與詞B的相似度可通過(guò)計(jì)算主題影響度向量a與b的余弦相似度得到,然后將詞A與詞B的相似度作為目標(biāo)文本詞圖中節(jié)點(diǎn)A與節(jié)點(diǎn)B之間連接邊的邊值。
具體的,所述通過(guò)所述詞的主題影響度向量計(jì)算目標(biāo)文本中各個(gè)詞之間的相似度包括:獲取所述目標(biāo)文本的詞圖中具有連接邊的兩節(jié)點(diǎn)對(duì)應(yīng)的詞;通過(guò)計(jì)算所述具有連接邊的兩節(jié)點(diǎn)對(duì)應(yīng)的詞的主題影響度向量的余弦相似度值,確定各個(gè)詞之間的相似度。如在圖5的目標(biāo)文本的詞圖中,節(jié)點(diǎn)A對(duì)應(yīng)詞A、節(jié)點(diǎn)B對(duì)應(yīng)詞B、節(jié)點(diǎn)C對(duì)應(yīng)詞C、節(jié)點(diǎn)D對(duì)應(yīng)詞D、節(jié)點(diǎn)E對(duì)應(yīng)詞E,節(jié)點(diǎn)B與節(jié)點(diǎn)A、C、D、E之間具有連接邊,則將詞B與詞A的主題影響度向量的余弦相似度值作為詞B與詞A的相似度,詞B與詞C的主題影響度向量的余弦相似度值作為詞B與詞C的相似度,詞B與詞D的主題影響度向量的余弦相似度值作為詞B與詞D的相似度,詞B與詞E的主題影響度向量的余弦相似度值作為詞B與詞E的相似度。
具體的,所述根據(jù)所述目標(biāo)文本的詞圖及所述各個(gè)詞之間的相似度計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度包括:將詞與詞之間的相似度作為所述目標(biāo)文本的詞圖中對(duì)應(yīng)節(jié)點(diǎn)連接邊的邊值;對(duì)所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的各個(gè)連接邊的邊值進(jìn)行累加獲得所述詞的重要度。如在圖5的目標(biāo)文本的詞圖中,節(jié)點(diǎn)A對(duì)應(yīng)詞A、節(jié)點(diǎn)B對(duì)應(yīng)詞B、節(jié)點(diǎn)C對(duì)應(yīng)詞C、節(jié)點(diǎn)D對(duì)應(yīng)詞D、節(jié)點(diǎn)E對(duì)應(yīng)詞E,節(jié)點(diǎn)B與節(jié)點(diǎn)A、C、D、E之間具有連接邊,則將詞B與詞A的相似度作為節(jié)點(diǎn)B、A連接邊的邊值ba,將詞B與詞C的相似度作為節(jié)點(diǎn)B、C連接邊的邊值bc,將詞B與詞D的相似度作為節(jié)點(diǎn)B、D連接邊的邊值bd,將詞B與詞E的相似度作為節(jié)點(diǎn)B、E連接邊的邊值be,計(jì)算詞B在目標(biāo)文本中的重要度可以通過(guò)對(duì)連接節(jié)點(diǎn)B的連接邊的邊值進(jìn)行累加得到,即根據(jù)bc+bd+bd+be的和得到詞B在目標(biāo)文本中的重要度。
對(duì)于本發(fā)明實(shí)施例,步驟203還包括:將所述詞的主題影響度向量設(shè)置為所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的權(quán)重值;根據(jù)基于詞圖模型的關(guān)鍵詞抽取TextRank算法和所述節(jié)點(diǎn)的權(quán)重值計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。在本發(fā)明實(shí)施例中,將詞的主題影響度向量設(shè)置為所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的權(quán)重值,即通過(guò)詞的主題影響度向量衡量詞在目標(biāo)文本中的重要性,省略了通過(guò)人工經(jīng)驗(yàn)對(duì)目標(biāo)文本中詞的賦值步驟,進(jìn)而改進(jìn)TextRank算法的詞重要性迭代計(jì)算公式,因此根據(jù)TextRank算法和節(jié)點(diǎn)的權(quán)重值計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,可提高關(guān)鍵詞的提取效率及提取智能性。
204、從所述目標(biāo)文本中選取重要度最高的詞作為所述目標(biāo)文本的關(guān)鍵詞。
本發(fā)明實(shí)施例提供的另一種關(guān)鍵詞的提取方法,由于目標(biāo)文本的結(jié)構(gòu)組成和目標(biāo)文本之間所蘊(yùn)含的主題信息是關(guān)鍵詞抽取的重要依據(jù),因此本發(fā)明實(shí)施例基于LDA主題模型可獲取目標(biāo)文本中各個(gè)詞的主題影響度向量,然后根據(jù)目標(biāo)文本的詞圖及所述各個(gè)詞之間的相似度計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,最后將目標(biāo)文本中重要度最高的詞作為目標(biāo)文本的關(guān)鍵詞。即本發(fā)明實(shí)施例通過(guò)LDA主題模型和TextRank算法對(duì)關(guān)鍵詞進(jìn)行抽取,由于以詞的主題影響度向量可作為衡量詞對(duì)目標(biāo)文本中主題的重要性,且根據(jù)文檔主題生成模型得到的詞的主體影響度向量能夠準(zhǔn)確表示詞對(duì)目標(biāo)文本中主題的影響度,因此通過(guò)本發(fā)明實(shí)施例可提高關(guān)鍵詞的提取效率及提取智能性。
進(jìn)一步地,本發(fā)明實(shí)施例提供一種關(guān)鍵詞的提取裝置,如圖3所示,所述裝置包括:獲取單元31、計(jì)算單元32、選取單元33。
獲取單元31,用于獲取目標(biāo)文本中各個(gè)詞的主題影響度向量,所述詞的主題影響度向量用于表示所述詞對(duì)所述目標(biāo)文本中主題的影響度,詞的主題影響度向量是詞在目標(biāo)文本中對(duì)所有主題的影響度。
需要說(shuō)明的是,對(duì)于目標(biāo)文本d中的詞w來(lái)說(shuō),令F表示該詞w對(duì)目標(biāo)文本d中的主題影響度向量,可以認(rèn)為詞w出現(xiàn)在一個(gè)主題z中的概率越大,則該詞語(yǔ)相對(duì)于主題z而言影響度越大;若詞w對(duì)應(yīng)的主題z在目標(biāo)文本d中的出現(xiàn)概率越大,則表明主題z相對(duì)于目標(biāo)文本d的影響度越大。因此可通過(guò)目標(biāo)文本d的中主題z出現(xiàn)的概率與主題z中詞w出現(xiàn)的概率的乘積確定詞w在目標(biāo)文本d中對(duì)主題z的主題影響度向量,但是根據(jù)主題z出現(xiàn)的概率與主題z中詞w出現(xiàn)的概率的乘積確定的主題影響度向量是詞w對(duì)主題z的影響度向量,而非詞w對(duì)目標(biāo)文本詞d中全部主題的影響度。并且目標(biāo)文本d中可包含多個(gè)主題,且詞w可以同時(shí)出現(xiàn)在多個(gè)出題當(dāng)中,因此需要根據(jù)目標(biāo)文本d的中每個(gè)主題出現(xiàn)的概率與所述每個(gè)主題中詞w出現(xiàn)的概率進(jìn)行的點(diǎn)乘結(jié)果,確定詞w對(duì)目標(biāo)文本d中的主題影響度向量F。
基于以上分析,本發(fā)明實(shí)施例可根據(jù)LDA(Latent Dirichlet Allocation,文檔主題生成模型)獲取目標(biāo)文本中各個(gè)詞的主體影響度向量,具體的獲取主題影響度向量過(guò)程可以為:首先對(duì)目標(biāo)文本進(jìn)行分詞,然后通過(guò)LDA計(jì)算目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率及每個(gè)主題中每個(gè)詞出現(xiàn)的概率,然后將目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率與所述每個(gè)主題中每個(gè)詞出現(xiàn)的概率進(jìn)行的點(diǎn)乘結(jié)果,作為目標(biāo)文本中各個(gè)詞的主體影響度向量。
計(jì)算單元32,用于根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,所述重要度用于表示所述詞與所述目標(biāo)文本的關(guān)聯(lián)程度。
其中,詞的重要度越大,詞與目標(biāo)文本的關(guān)聯(lián)程度越強(qiáng);詞的重要程度越小,詞與目標(biāo)文本的關(guān)聯(lián)程度越弱。需要說(shuō)明的是,目標(biāo)文本的詞圖是基于TextRank(基于詞圖模型的關(guān)鍵詞抽取算法)算法構(gòu)建的,即以目標(biāo)文本中的詞作為所述詞圖中的節(jié)點(diǎn),目標(biāo)文本中詞的位置相鄰關(guān)系作為所述節(jié)點(diǎn)間的連接邊,構(gòu)建目標(biāo)文本的詞圖。
在本發(fā)明實(shí)施例中,可以將詞的主題影響度向量作為目標(biāo)文本詞圖中節(jié)點(diǎn)的權(quán)重值,然后將節(jié)點(diǎn)的權(quán)重值代入TextRank算法公式中,并基于節(jié)點(diǎn)的權(quán)重值和目標(biāo)文本詞圖中臨近詞語(yǔ)所傳遞的影響力計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度;還可以通過(guò)詞的主題影響度向量計(jì)算目標(biāo)文本詞圖中臨近兩節(jié)點(diǎn)連接邊的邊值,然后統(tǒng)計(jì)目標(biāo)文本詞圖中連接同一節(jié)點(diǎn)連接邊的邊值,最后將統(tǒng)計(jì)的結(jié)果作為目標(biāo)文本中各個(gè)詞的重要度。
例如,目標(biāo)文本詞圖中包括節(jié)點(diǎn)A、B、C、D、E,節(jié)點(diǎn)A對(duì)應(yīng)詞A、節(jié)點(diǎn)B對(duì)應(yīng)詞B、節(jié)點(diǎn)C對(duì)應(yīng)詞C、節(jié)點(diǎn)D對(duì)應(yīng)詞D、節(jié)點(diǎn)E對(duì)應(yīng)詞E,節(jié)點(diǎn)A與節(jié)點(diǎn)B、C、D相連接,即節(jié)點(diǎn)A與節(jié)點(diǎn)B、C、D之間存在連接邊,若節(jié)點(diǎn)A的主題影響度向量為a,節(jié)點(diǎn)B的主題影響度向量為b,節(jié)點(diǎn)C的主題影響度向量為c,節(jié)點(diǎn)D的主題影響度向量為d,節(jié)點(diǎn)E的主題影響度向量為e。則可將a作為節(jié)點(diǎn)A的權(quán)重值,b作為節(jié)點(diǎn)B的權(quán)重值,c作為節(jié)點(diǎn)C的權(quán)重值,d作為節(jié)點(diǎn)D的權(quán)重值,e作為節(jié)點(diǎn)E的權(quán)重值,通過(guò)TextRank算法對(duì)節(jié)點(diǎn)的權(quán)重值及目標(biāo)文本詞圖中的節(jié)點(diǎn)關(guān)系進(jìn)行計(jì)算,以得到各節(jié)點(diǎn)的重要度,即得到目標(biāo)文本中各個(gè)詞的重要度;另外還可以根據(jù)詞圖中節(jié)點(diǎn)連接邊的邊值獲取目標(biāo)文本中各個(gè)詞的重要度,即首先通過(guò)詞A與詞B的主體影響度向量計(jì)算節(jié)點(diǎn)A與節(jié)點(diǎn)B之間連接邊的邊值ab,詞A與詞C的主體影響度向量計(jì)算節(jié)點(diǎn)A與節(jié)點(diǎn)C之間連接邊的邊值ac,詞A與詞D的主體影響度向量計(jì)算節(jié)點(diǎn)A與節(jié)點(diǎn)D之間連接邊的邊值ad,然后對(duì)連接節(jié)點(diǎn)A的連接邊的邊值ab、ac、ad進(jìn)行累加,得到節(jié)點(diǎn)的重要度,即得到詞A與目標(biāo)文本的關(guān)聯(lián)程度。
選取單元33,用于從所述目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞。
其中,所述預(yù)設(shè)重要度可以根據(jù)實(shí)際需要進(jìn)行設(shè)置,如可從目標(biāo)文本中選取重要度最高的詞作為目標(biāo)文本的關(guān)鍵詞,還可以從目標(biāo)文本中選取重要度超過(guò)預(yù)置數(shù)值的詞作為目標(biāo)文本的關(guān)鍵詞,本發(fā)明實(shí)施例不做具體限定。需要說(shuō)明的是,預(yù)置數(shù)值設(shè)置的越大,從目標(biāo)文本中提取的關(guān)鍵詞越多;預(yù)置數(shù)值設(shè)置的越小,從目標(biāo)文本中提取的關(guān)鍵詞越少。
需要說(shuō)明的是,本發(fā)明實(shí)施例提供的一種關(guān)鍵詞的提取裝置所涉及各功能單元的其他相應(yīng)描述,可以參考圖2所示方法的對(duì)應(yīng)描述,在此不再贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。
本發(fā)明實(shí)施例提供的一種關(guān)鍵詞的提取裝置,首先通過(guò)文檔主題生成模型計(jì)算目標(biāo)文本中各個(gè)詞的主題影響度向量,然后以詞的主題影響度向量作為衡量詞對(duì)目標(biāo)文本中主題的重要性,并根據(jù)目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,最后從目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞。由于本發(fā)明實(shí)施例在獲取目標(biāo)文本的關(guān)鍵詞的過(guò)程中,無(wú)需人工經(jīng)驗(yàn)設(shè)置詞在文本主題中的重要性,且根據(jù)文檔主題生成模型得到的詞的主體影響度向量能夠準(zhǔn)確表示詞對(duì)目標(biāo)文本中主題的影響度,因此通過(guò)本發(fā)明實(shí)施例可提高關(guān)鍵詞的提取效率及提取智能性。
進(jìn)一步地,本發(fā)明實(shí)施例提供另一種關(guān)鍵詞的提取裝置,如圖4所示,所述裝置包括:獲取單元41、計(jì)算單元42、選取單元43。
獲取單元41,用于獲取目標(biāo)文本中各個(gè)詞的主題影響度向量,所述詞的主題影響度向量用于表示所述詞對(duì)所述目標(biāo)文本中主題的影響度;
計(jì)算單元42,用于根據(jù)所述目標(biāo)文本的詞圖及所述詞的主題影響度向量計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,所述重要度用于表示所述詞與所述目標(biāo)文本的關(guān)聯(lián)程度;
選取單元43,用于從所述目標(biāo)文本中選取符合預(yù)設(shè)重要度的詞作為所述目標(biāo)文本的關(guān)鍵詞。
具體的,所述獲取單元41包括:
計(jì)算模塊411,用于通過(guò)文檔主題生成模型LDA計(jì)算所述目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率及每個(gè)主題中每個(gè)詞出現(xiàn)的概率;
點(diǎn)乘模塊412,用于將所述目標(biāo)文本的中每個(gè)主題出現(xiàn)的概率分別與所述每個(gè)主題中每個(gè)詞出現(xiàn)的概率進(jìn)行點(diǎn)乘計(jì)算,得到所述目標(biāo)文本中各個(gè)詞的主題影響度向量。
進(jìn)一步地,所述裝置還包括:
構(gòu)建單元44,用于以所述目標(biāo)文本中的詞作為所述詞圖中的節(jié)點(diǎn),所述目標(biāo)文本中詞的位置相鄰關(guān)系作為所述節(jié)點(diǎn)間的連接邊,構(gòu)建所述目標(biāo)文本的詞圖。
其中,詞的位置相鄰關(guān)系是詞在目標(biāo)文本中的先后順序,節(jié)點(diǎn)間的連接邊為無(wú)向連接邊。例如在目標(biāo)文本中存在詞A、B、C、D、E,且上述詞在目標(biāo)文本中出現(xiàn)的順序?yàn)锳BCDBEA,則根據(jù)詞在文本中出現(xiàn)的順序可構(gòu)建的目標(biāo)文本的詞圖如圖5所示,其中節(jié)點(diǎn)B與節(jié)點(diǎn)A、C、D、E位置相鄰,所以節(jié)點(diǎn)B與節(jié)點(diǎn)A、C、D、E之間有連接邊,節(jié)點(diǎn)E與節(jié)點(diǎn)A位置相鄰,所以節(jié)點(diǎn)E與節(jié)點(diǎn)A之間有連接邊。
具體的,所述計(jì)算單元42包括:
第一計(jì)算模塊421,用于通過(guò)所述詞的主題影響度向量計(jì)算目標(biāo)文本中各個(gè)詞之間的相似度;
第二計(jì)算模塊422,用于根據(jù)所述目標(biāo)文本的詞圖及所述各個(gè)詞之間的相似度計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。
其中,本發(fā)明實(shí)施例可以通過(guò)歐式距離、余弦相似度等算法計(jì)算詞與詞之間的相似度,本發(fā)明實(shí)施例不做具體限定。具體的可通過(guò)計(jì)算詞之間的主題影響度向量的歐式距離或余弦相似度得到詞之間的相似度,例如詞A的主題影響度向量為a,詞B的主題影響度向量為b,則計(jì)算詞A與詞B的相似度可通過(guò)計(jì)算主題影響度向量a與b的余弦相似度得到,然后將詞A與詞B的相似度作為目標(biāo)文本詞圖中節(jié)點(diǎn)A與節(jié)點(diǎn)B之間連接邊的邊值。
具體的,所述第一計(jì)算模塊421包括:
獲取子模塊4211,用于獲取所述目標(biāo)文本的詞圖中具有連接邊的兩節(jié)點(diǎn)對(duì)應(yīng)的詞;
確定子模塊4212,用于通過(guò)計(jì)算所述具有連接邊的兩節(jié)點(diǎn)對(duì)應(yīng)的詞的主題影響度向量的余弦相似度值,確定各個(gè)詞之間的相似度。
具體的,所述第二計(jì)算模塊422包括:
配置子模塊4221,用于將詞與詞之間的相似度作為所述目標(biāo)文本的詞圖中對(duì)應(yīng)節(jié)點(diǎn)連接邊的邊值;
累加子模塊4222,用于對(duì)所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的各個(gè)連接邊的邊值進(jìn)行累加獲得所述詞的重要度。
如在圖5的目標(biāo)文本的詞圖中,節(jié)點(diǎn)A對(duì)應(yīng)詞A、節(jié)點(diǎn)B對(duì)應(yīng)詞B、節(jié)點(diǎn)C對(duì)應(yīng)詞C、節(jié)點(diǎn)D對(duì)應(yīng)詞D、節(jié)點(diǎn)E對(duì)應(yīng)詞E,節(jié)點(diǎn)B與節(jié)點(diǎn)A、C、D、E之間具有連接邊,則將詞B與詞A的相似度作為節(jié)點(diǎn)B、A連接邊的邊值ba,將詞B與詞C的相似度作為節(jié)點(diǎn)B、C連接邊的邊值bc,將詞B與詞D的相似度作為節(jié)點(diǎn)B、D連接邊的邊值bd,將詞B與詞E的相似度作為節(jié)點(diǎn)B、E連接邊的邊值be,計(jì)算詞B在目標(biāo)文本中的重要度可以通過(guò)對(duì)連接節(jié)點(diǎn)B的連接邊的邊值進(jìn)行累加得到,即根據(jù)bc+bd+bd+be的和得到詞B在目標(biāo)文本中的重要度。
具體的,所述計(jì)算單元42還包括:
設(shè)置模塊423,用于將所述詞的主題影響度向量設(shè)置為所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的權(quán)重值;
第三計(jì)算模塊424,用于根據(jù)基于詞圖模型的關(guān)鍵詞抽取TextRank算法和所述節(jié)點(diǎn)的權(quán)重值計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度。
在本發(fā)明實(shí)施例中,將詞的主題影響度向量設(shè)置為所述目標(biāo)文本的詞圖中節(jié)點(diǎn)的權(quán)重值,即通過(guò)詞的主題影響度向量衡量詞在目標(biāo)文本中的重要性,省略了通過(guò)人工經(jīng)驗(yàn)對(duì)目標(biāo)文本中詞的賦值步驟,進(jìn)而改進(jìn)TextRank算法的詞重要性迭代計(jì)算公式,因此根據(jù)TextRank算法和節(jié)點(diǎn)的權(quán)重值計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,可提高關(guān)鍵詞的提取效率及提取智能性。
所述選取單元43,具體用于從所述目標(biāo)文本中選取重要度最高的詞作為所述目標(biāo)文本的關(guān)鍵詞。
需要說(shuō)明的是,本發(fā)明實(shí)施例提供的一種關(guān)鍵詞的提取裝置所涉及各功能單元的其他相應(yīng)描述,可以參考圖2所示方法的對(duì)應(yīng)描述,在此不再贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。
本發(fā)明實(shí)施例提供的另一種關(guān)鍵詞的提取裝置,由于目標(biāo)文本的結(jié)構(gòu)組成和目標(biāo)文本之間所蘊(yùn)含的主題信息是關(guān)鍵詞抽取的重要依據(jù),因此本發(fā)明實(shí)施例基于LDA主題模型可獲取目標(biāo)文本中各個(gè)詞的主題影響度向量,然后根據(jù)目標(biāo)文本的詞圖及所述各個(gè)詞之間的相似度計(jì)算所述目標(biāo)文本中各個(gè)詞的重要度,最后將目標(biāo)文本中重要度最高的詞作為目標(biāo)文本的關(guān)鍵詞。即本發(fā)明實(shí)施例通過(guò)LDA主題模型和TextRank算法對(duì)關(guān)鍵詞進(jìn)行抽取,由于以詞的主題影響度向量可作為衡量詞對(duì)目標(biāo)文本中主題的重要性,且根據(jù)文檔主題生成模型得到的詞的主體影響度向量能夠準(zhǔn)確表示詞對(duì)目標(biāo)文本中主題的影響度,因此通過(guò)本發(fā)明實(shí)施例可提高關(guān)鍵詞的提取效率及提取智能性。
在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。
可以理解的是,上述方法及裝置中的相關(guān)特征可以相互參考。另外,上述實(shí)施例中的“第一”、“第二”等是用于區(qū)分各實(shí)施例,而并不代表各實(shí)施例的優(yōu)劣。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
在此處所提供的說(shuō)明書中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的關(guān)鍵詞提取方法及裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。