本發(fā)明涉及關(guān)鍵詞提取
技術(shù)領(lǐng)域:
,特別是涉及一種基于圖模型的關(guān)鍵詞提取方法及裝置。
背景技術(shù):
:目前,關(guān)鍵詞的提取方法多種多樣,例如,基于語義的關(guān)鍵詞提取方法、基于網(wǎng)頁的關(guān)鍵詞提取方法等,而基于圖模型的關(guān)鍵詞提取方法,相對于基于其他主題的關(guān)鍵詞提取方法,該方法更為簡單直接,無需訓(xùn)練,并且效果更好,因而得到了廣泛的應(yīng)用?,F(xiàn)有的基于圖模型的關(guān)鍵詞提取方法,通過把文本分割成若干組成單元(單詞、句子),并建立圖模型,利用投票機(jī)制對文本中的組成單元進(jìn)行排序,然后選取排序靠前的組成單元作為關(guān)鍵詞。具體的,先把給定的文本按照完整句子進(jìn)行分割。然后對于每個句子進(jìn)行分詞和詞性標(biāo)注處理,得到詞及詞對應(yīng)的詞性標(biāo)注,根據(jù)詞及詞性標(biāo)注,過濾掉這些詞中介詞、助詞、連詞、感嘆詞等停用詞,保留名詞、動詞、形容詞等指定詞性的詞,并將指定詞性的詞作為候選關(guān)鍵詞。再根據(jù)候選關(guān)鍵詞,構(gòu)建候選關(guān)鍵詞圖模型,即將候選關(guān)鍵詞為候選關(guān)鍵詞圖模型的節(jié)點(diǎn),候選關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系作為關(guān)鍵詞圖模型的邊。其中,候選關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系通過計算候選關(guān)鍵詞之間的相似度得到,在基于圖模型的關(guān)鍵詞提取方法中,采用加窗的方式構(gòu)建詞與詞之間的相似度,讓每個窗口內(nèi)的詞給它相鄰的窗口投票,投票的權(quán)重取決于自己的票數(shù),由于每個窗口與它相鄰的窗口有共現(xiàn)的詞,因此也可以說詞與詞之間的相似度是通過詞與詞共現(xiàn)得到的。最后在這個圖上候選關(guān)鍵詞的票數(shù)經(jīng)過迭代投票,可以得到候選關(guān)鍵詞的票數(shù)排序,并選取票數(shù)靠前的候選關(guān)鍵詞作為關(guān)鍵詞。但是,現(xiàn)有的基于圖模型的關(guān)鍵詞提取方法僅僅基于當(dāng)前文本,如果當(dāng)前文本是短文本,那么文本中所有的詞幾乎都只出現(xiàn)一次,沒法確定具體哪個詞是重要的,因此每個詞都可能被提取出來,導(dǎo)致無法準(zhǔn)確提取關(guān)鍵詞;如果當(dāng)前文本是長文本,一些多次出現(xiàn)的詞(例如“由于”、“大概”等),由于其對自身有投票,使其自身的票數(shù)過高,從而造成這些詞重復(fù)出現(xiàn)的詞重要性過高,但是這些詞本身提取沒有意義,導(dǎo)致關(guān)鍵詞提取的準(zhǔn)確率不高??傊?,僅僅基于當(dāng)前文本來提取關(guān)鍵詞,無論當(dāng)前文本是長文本,還是短文本,文本中的一些詞因為語義較為分散或者出現(xiàn)次數(shù)較多而被作為關(guān)鍵詞提取出來,最終都導(dǎo)致關(guān)鍵詞提取的準(zhǔn)確率不高。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種基于圖模型的關(guān)鍵詞提取方法及裝置,提高關(guān)鍵詞提取的準(zhǔn)確率。具體技術(shù)方案如下:本發(fā)明實(shí)施例公開了一種基于圖模型的關(guān)鍵詞提取方法,所述方法包括:獲取待處理文本,并對所述待處理文本進(jìn)行分詞,得到所述待處理文本對應(yīng)的候選關(guān)鍵詞;在詞向量模型中查找所述候選關(guān)鍵詞對應(yīng)的詞向量,所述詞向量模型包括所述候選關(guān)鍵詞的詞向量;根據(jù)所述詞向量構(gòu)建所述候選關(guān)鍵詞的詞相似度矩陣;獲取所述待處理文本對應(yīng)的語料庫,計算所述候選關(guān)鍵詞在所述語料庫中的全局信息,得到所述候選關(guān)鍵詞的全局權(quán)重,并將所述全局權(quán)重作為所述候選關(guān)鍵詞的初始權(quán)重,所述全局信息表征所述候選關(guān)鍵詞在所述語料庫的重要度,所述語料庫至少包括搜索日志和網(wǎng)絡(luò)文檔;根據(jù)所述候選關(guān)鍵詞的初始權(quán)重和所述詞相似度矩陣對所述候選關(guān)鍵詞進(jìn)行排序,提取所述待處理文本的關(guān)鍵詞。可選的,所述根據(jù)所述詞向量構(gòu)建所述候選關(guān)鍵詞的詞相似度矩陣,包括:根據(jù)公式:計算所述候選關(guān)鍵詞之間對應(yīng)的詞向量夾角的余弦值,其中,θ表示所述候選關(guān)鍵詞之間的向量的夾角,x1k表示其中一個候選關(guān)鍵詞n維空間中對應(yīng)的向量的特征值,x2k表示其中另一個候選關(guān)鍵詞n維空間中對應(yīng)的向量的特征值,n表示向量空間的維度;根據(jù)所述詞向量夾角的余弦值,構(gòu)建所述候選關(guān)鍵詞相似度矩陣??蛇x的,計算所述候選關(guān)鍵詞在所述語料庫中的全局信息,得到所述候選關(guān)鍵詞的全局權(quán)重,包括:計算所述候選關(guān)鍵詞在所述語料庫中的詞頻和逆文檔頻率,得到所述候選關(guān)鍵詞的全局權(quán)重,并將所述全局權(quán)重作為所述候選關(guān)鍵詞的初始權(quán)重??蛇x的,所述計算所述候選關(guān)鍵詞在所述語料庫中的詞頻和逆文檔頻率,包括:計算所述候選關(guān)鍵詞在所述搜索日志或所述網(wǎng)絡(luò)文檔中的頻率,得到所述候選關(guān)鍵詞在所述語料庫中的詞頻;根據(jù)公式:idf=log(d/dt)計算所述候選關(guān)鍵詞在所述語料庫中的逆文檔頻率,其中,idf表示所述候選關(guān)鍵詞在所述語料庫中的逆文檔頻率,d表示包含所述語料庫的文本總數(shù),dt表示所述語料庫中包含所述候選關(guān)鍵詞的文本數(shù)量;根據(jù)公式:tf_idf=tf*idf計算所述候選關(guān)鍵詞的全局信息,得到所述候選關(guān)鍵詞的全局權(quán)重,其中,tf_idf表示所述候選關(guān)鍵詞的全局權(quán)重,tf表示所述候選關(guān)鍵詞在所述語料庫中的詞頻,idf表示所述候選關(guān)鍵詞在所述語料庫中的逆文檔頻率??蛇x的,所述根據(jù)所述候選關(guān)鍵詞的初始權(quán)重和所述詞相似度矩陣對所述候選關(guān)鍵詞進(jìn)行排序,包括:根據(jù)所述初始權(quán)重和所述詞相似度矩陣,計算所述候選關(guān)鍵詞的初始特征向量值;根據(jù)公式:pt=mtpt-1計算所述候選關(guān)鍵詞的特征向量值,其中,在t=1時,則p1表示所述初始特征向量值,p0表示所述初始權(quán)重,pt表示所述詞相似度矩陣在第t步的特征向量值,pt-1表示所述詞相似度矩陣在第t-1步的特征向量值,m表示所述候選關(guān)鍵詞的詞相似度矩陣,mt表示所述詞相似度矩陣的轉(zhuǎn)置,t表示計算的步數(shù),t的取值大于或等于1;當(dāng)所述第t步的特征向量值與所述第t-1步的特征向量值的范數(shù)小于所述pagerank算法的誤差容忍度時,所述第t步的特征向量值為所述候選關(guān)鍵詞的對應(yīng)的pagerank值;根據(jù)所述pagerank值對所述候選關(guān)鍵詞進(jìn)行排序,得到所述候選關(guān)鍵詞的重要程度;根據(jù)所述重要程度,提取所述待處理文本的關(guān)鍵詞??蛇x的,所述獲取待處理文本,并對所述待處理文本進(jìn)行分詞,得到所述待處理文本對應(yīng)的候選關(guān)鍵詞,包括:獲取待處理文本,并對所述待處理文本進(jìn)行分詞,得到停用詞和指定詞性的詞,所述停用詞至少包括介詞、助詞、連詞、感嘆詞,所述指定詞性的詞至少包括名詞、動詞、形容詞;過濾掉所述停用詞,得到所述指定詞性的詞,所述指定詞性的詞為所述待處理文本對應(yīng)的候選關(guān)鍵詞??蛇x的,所述詞向量是通過word2vec訓(xùn)練得到的。本發(fā)明實(shí)施例還公開了一種基于圖模型的關(guān)鍵詞提取裝置,所述裝置包括:獲取模塊,用于獲取待處理文本,并對所述待處理文本進(jìn)行分詞,得到所述待處理文本對應(yīng)的候選關(guān)鍵詞;查找模塊,用于在詞向量模型中查找所述候選關(guān)鍵詞對應(yīng)的詞向量,所述詞向量模型包括所述候選關(guān)鍵詞的詞向量;處理模塊,用于根據(jù)所述詞向量構(gòu)建所述候選關(guān)鍵詞的詞相似度矩陣;計算模塊,用于獲取所述待處理文本對應(yīng)的語料庫,計算所述候選關(guān)鍵詞在所述語料庫中的全局信息,得到所述候選關(guān)鍵詞的全局權(quán)重,并將所述全局權(quán)重作為所述候選關(guān)鍵詞的初始權(quán)重,所述全局信息表征所述候選關(guān)鍵詞在所述語料庫的重要度,所述語料庫至少包括搜索日志和網(wǎng)絡(luò)文檔;提取模塊,用于根據(jù)所述候選關(guān)鍵詞的初始權(quán)重和所述詞相似度矩陣對所述候選關(guān)鍵詞進(jìn)行排序,提取所述待處理文本的關(guān)鍵詞。可選的,所述處理模塊,包括:第一計算單元,用于根據(jù)公式:計算所述候選關(guān)鍵詞之間對應(yīng)的詞向量夾角的余弦值,其中,θ表示所述候選關(guān)鍵詞之間的向量的夾角,x1k表示其中一個候選關(guān)鍵詞n維空間中對應(yīng)的向量的特征值,x2k表示其中另一個候選關(guān)鍵詞n維空間中對應(yīng)的向量的特征值,n表示向量空間的維度;構(gòu)建單元,用于根據(jù)所述詞向量夾角的余弦值,構(gòu)建所述候選關(guān)鍵詞相似度矩陣??蛇x的,所述計算模塊,包括:第二計算單元,用于計算所述候選關(guān)鍵詞在所述語料庫中的詞頻和逆文檔頻率,得到所述候選關(guān)鍵詞的全局權(quán)重,并將所述全局權(quán)重作為所述候選關(guān)鍵詞的初始權(quán)重??蛇x的,所述第二計算單元,包括:第一計算子單元,用于計算所述候選關(guān)鍵詞在所述搜索日志或所述網(wǎng)絡(luò)文檔中的頻率,得到所述候選關(guān)鍵詞在所述語料庫中的詞頻;第二計算子單元,用于根據(jù)公式:idf=log(d/dt)計算所述候選關(guān)鍵詞在所述語料庫中的逆文檔頻率,其中,idf表示所述候選關(guān)鍵詞在所述語料庫中的逆文檔頻率,d表示包含所述語料庫的文本總數(shù),dt表示所述語料庫中包含所述候選關(guān)鍵詞的文本數(shù)量;第三計算子單元,用于根據(jù)公式:tf_idf=tf*idf計算所述候選關(guān)鍵詞的全局信息,得到所述候選關(guān)鍵詞的全局權(quán)重,其中,tf_idf表示所述候選關(guān)鍵詞的全局權(quán)重,tf表示所述候選關(guān)鍵詞在所述語料庫中的詞頻,idf表示所述候選關(guān)鍵詞在所述語料庫中的逆文檔頻率??蛇x的,所述提取模塊,包括:第三計算單元,用于根據(jù)所述初始權(quán)重和所述詞相似度矩陣,計算所述候選關(guān)鍵詞的初始特征向量值;第四計算單元,用于根據(jù)公式:pt=mtpt-1計算所述候選關(guān)鍵詞的特征向量值,其中,在t=1時,則p1表示所述初始特征向量值,p0表示所述初始權(quán)重,pt表示所述詞相似度矩陣在第t步的特征向量值,pt-1表示所述詞相似度矩陣在第t-1步的特征向量值,m表示所述候選關(guān)鍵詞的詞相似度矩陣,mt表示所述詞相似度矩陣的轉(zhuǎn)置,t表示計算的步數(shù),t的取值大于或等于1;確定單元,用于當(dāng)所述第t步的特征向量值與所述第t-1步的特征向量值的范數(shù)小于所述pagerank算法的誤差容忍度時,所述第t步的特征向量值為所述候選關(guān)鍵詞的對應(yīng)的pagerank值;排序單元,用于根據(jù)所述pagerank值對所述候選關(guān)鍵詞進(jìn)行排序,得到所述候選關(guān)鍵詞的重要程度;提取單元,用于根據(jù)所述重要程度,提取所述待處理文本的關(guān)鍵詞。可選的,所述獲取模塊,包括:獲取單元,用于獲取待處理文本,并對所述待處理文本進(jìn)行分詞,得到停用詞和指定詞性的詞,所述停用詞至少包括介詞、助詞、連詞、感嘆詞,所述指定詞性的詞至少包括名詞、動詞、形容詞;處理單元,用于過濾掉所述停用詞,得到所述指定詞性的詞,所述指定詞性的詞為所述待處理文本對應(yīng)的候選關(guān)鍵詞。可選的,所述詞向量是通過word2vec訓(xùn)練得到的。本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取方法及裝置,首先,通過詞向量計算文本中詞與詞之間的相似度,并構(gòu)建相似度矩陣,使得提取到的關(guān)鍵詞在一定程度上反映了其在當(dāng)前文本中的語義重要性;其次,計算候選關(guān)鍵詞在語料庫中的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重,全局信息表征候選關(guān)鍵詞在語料庫的重要度,通過所述重要度反映了每個候選關(guān)鍵詞的全局信息,使得關(guān)鍵詞的提取更加準(zhǔn)確;最后,根據(jù)所述初始權(quán)重和所述詞相似度矩陣對所述候選關(guān)鍵詞進(jìn)行排序,并提取所述待處理文本的關(guān)鍵詞,提高了關(guān)鍵詞提取的準(zhǔn)確率。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達(dá)到以上所述的所有優(yōu)點(diǎn)。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取方法的一種流程圖;圖2為本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取方法的另一種流程圖;圖3為本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取裝置的結(jié)構(gòu)圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍?;趫D模型的關(guān)鍵詞提取方法是提取關(guān)鍵詞的一種有效的方法,其中,圖模型是一類用圖來表示概率分布的一類技術(shù)的總稱,一篇文本可以被映射為一個以詞語為節(jié)點(diǎn)、詞語之間的關(guān)聯(lián)關(guān)系為邊的網(wǎng)絡(luò)圖。其中,基于圖模型的關(guān)鍵詞提取是重要的基礎(chǔ)性性工作,對公司推薦頭條、泡泡(標(biāo)簽)等相關(guān)業(yè)務(wù)都起著關(guān)鍵性作用。本發(fā)明就是在這種圖模型的基礎(chǔ)上來提取關(guān)鍵詞。參見圖1,圖1為本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取方法的一種流程圖,包括如下步驟:s101,獲取待處理文本,并對待處理文本進(jìn)行分詞,得到待處理文本對應(yīng)的候選關(guān)鍵詞;具體的,獲取待處理文本,先對獲取的待處理文本進(jìn)行分詞,分詞的目的是將待處理文本按一定的根據(jù)一定的規(guī)則進(jìn)行分詞處理,從而提取候選關(guān)鍵詞。中文因為自身常以詞語、短語、俗語等表現(xiàn)形式,因此中文分詞具有很大的不確定性。目前主要的分詞方法:基于字符串匹配的分詞方法,即機(jī)械分詞,算法成熟使用廣泛,其核心是通過郵件文本與詞典詞匯的匹配,實(shí)現(xiàn)分詞,關(guān)鍵在于使用詞典的完備程度;基于理解的分詞方法,即人工智能方法,分詞精度高,算法復(fù)雜;基于統(tǒng)計的分詞方法,優(yōu)勢在于識別未登錄詞和專有名詞,但訓(xùn)練文本量大。這些分詞方法都具有較高的分詞準(zhǔn)確率和快速的分詞系統(tǒng)。這里,通過現(xiàn)有的分詞方法對待處理文本進(jìn)行分詞,會自動過濾掉這些詞中介詞、助詞、連詞、感嘆詞等停用詞,保留名詞、動詞、形容詞等指定詞性的詞,并將指定詞性的詞作為候選關(guān)鍵詞。這樣,就得到了待處理文本對應(yīng)的候選關(guān)鍵詞了。s102,在詞向量模型中查找候選關(guān)鍵詞對應(yīng)的詞向量,詞向量模型包括候選關(guān)鍵詞的詞向量;通常,神經(jīng)網(wǎng)絡(luò)將詞表中的詞語作為輸入,輸出一個低維度的向量表示這個詞語,然后用反向傳播的方法不斷優(yōu)化參數(shù)。輸出的低維向量是神經(jīng)網(wǎng)絡(luò)第一層的參數(shù)。生成詞向量的神經(jīng)網(wǎng)絡(luò)模型分為兩種,一種是通過word2vec或glove(globalvectorsforwordrepresentation)等訓(xùn)練得到的詞向量模型,這類模型的目的就是生成詞向量,另一種是將詞向量作為副產(chǎn)品產(chǎn)生,兩者的區(qū)別在于計算量不同。兩種模型的另一個區(qū)別在于訓(xùn)練的目標(biāo)不同:word2vec和glove的目的是訓(xùn)練可以表示語義關(guān)系的詞向量,它們能被用于后續(xù)的任務(wù)中;如果后續(xù)任務(wù)不需要用到語義關(guān)系,則按照此方式生成的詞向量并沒有什么用。另一種模型則根據(jù)特定任務(wù)需要訓(xùn)練詞向量。當(dāng)然,若特定的任務(wù)就是對語言建模,那么兩種模型生成的詞向量非常相似了。具體的,將自然語言理解的問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問題,那么就先要找一種方法把這些符號數(shù)學(xué)化。而詞向量具有良好的語義特性,是表示詞語特征的常用方式。詞向量是多維實(shí)數(shù)向量,向量中包含了自然語言中的語義和語法關(guān)系。詞向量的每一維的值代表一個具有一定的語義和語法上解釋的特征。故可以將詞向量的每一維稱為一個詞語特征。詞向量用distributedrepresentation(分布式表示)來表示,一種低維實(shí)數(shù)向量。詞向量計算是通過訓(xùn)練的方法,將語言詞表中的詞映射成一個長度固定的向量。distributedrepresentation是一個稠密、低維的實(shí)數(shù)限量,它的每一維表示詞語的一個潛在特征,該特征捕獲了有用的句法和語義特征,其特點(diǎn)是將詞語的不同句法和語義特征分布到它的每一個維度上去表示。這里,采用低維空間表示法,不但解決了維數(shù)災(zāi)難問題,并且挖掘了詞之間的關(guān)聯(lián)屬性,通過計算詞向量之間的距離,便能得到兩個詞之間的相似度,從而提高了向量語義上的準(zhǔn)確度。詞向量模型中包括候選關(guān)鍵詞所對應(yīng)的詞向量,在詞向量模型中找出候選關(guān)鍵詞所對應(yīng)的詞向量,主要是為了計算候選關(guān)鍵詞之間的距離的大小,從而得到候選關(guān)鍵詞之間的相似度。本發(fā)明在現(xiàn)有的基于圖模型的關(guān)鍵詞提取方法中引入詞向量,通過詞向量計算候選關(guān)鍵詞之間的相似度,從而避免了現(xiàn)有方法中采用加窗的方式構(gòu)建詞與詞之間的相似度,且需要人為設(shè)定窗口大小,導(dǎo)致候選關(guān)鍵詞提取準(zhǔn)確率不高的問題。s103,根據(jù)詞向量構(gòu)建候選關(guān)鍵詞的詞相似度矩陣;具體的,詞向量之間的余弦距離的大小代表了詞之間關(guān)系的遠(yuǎn)近,即通過計算詞向量之間的余弦距離,得到候選關(guān)鍵詞之間的相似度。這里,得到的候選關(guān)鍵詞之間的相似度是用數(shù)值表示的,將這些數(shù)值構(gòu)成詞相似度矩陣中的元素。其中,矩陣為n階行列式。如表1所示,表中的a、b、c、d、e、f、g、h代表各候選關(guān)鍵詞所對應(yīng)的詞向量,表中的數(shù)值為詞向量之間的余弦距離,也就是候選關(guān)鍵詞之間的相似度的大小。表1abcdefgha10.4900.020.0400.010.05b0.4910.0300.180.030.020.29c00.0310.320.0400.010d0.0200.3210.08000.01e0.040.180.040.0810.310.070.21f00.03000.3110.070.09g0.010.020.0100.070.0710.2h0.050.2900.010.210.090.21則根據(jù)這些候選關(guān)鍵詞之間的相似度的大小,構(gòu)建候選關(guān)鍵詞的相似度矩陣,用m表示,即s104,獲取待處理文本對應(yīng)的語料庫,計算候選關(guān)鍵詞在語料庫中的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重,全局信息表征候選關(guān)鍵詞在語料庫的重要度,語料庫至少包括搜索日志和網(wǎng)絡(luò)文檔。具體的,每個候選關(guān)鍵詞的全局信息是指待處理文本在所對應(yīng)的語料庫中,每個候選關(guān)鍵詞的語義的重要程度,這里,語義的重要程度主要基于候選關(guān)鍵詞的全局信息計算得到的。由于不同的候選關(guān)鍵詞的重要度不同,因此計算每個候選關(guān)鍵詞在語料庫中的重要度,這樣,考慮每個候選關(guān)鍵詞的全局信息,通過計算候選關(guān)鍵詞的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重,本發(fā)明通過關(guān)鍵詞排序算法對候選關(guān)鍵詞進(jìn)行排序,而關(guān)鍵詞排序算法需要設(shè)定每個候選關(guān)鍵詞的初始權(quán)重,所以,將每個候選關(guān)鍵詞在語料庫中的全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重,有利于提高關(guān)鍵詞提取的準(zhǔn)確率。這里,語料庫是指通過非當(dāng)前文本的外部資源統(tǒng)計得到的,因此語料庫至少包括搜索日志和網(wǎng)絡(luò)文檔,搜索日志和網(wǎng)絡(luò)文檔包括所有候選關(guān)鍵詞,以及非待處理文本之外的其他候選關(guān)鍵詞可能出現(xiàn)的語料庫。凡是可以統(tǒng)計候選關(guān)鍵詞的全局信息的所有方法都屬于本發(fā)明保護(hù)的范圍。s105,根據(jù)候選關(guān)鍵詞的初始權(quán)重和詞相似度矩陣對候選關(guān)鍵詞進(jìn)行排序,提取待處理文本的關(guān)鍵詞。具體的,通過基于圖模型的關(guān)鍵詞提取方法中的關(guān)鍵詞排序算法,計算候選關(guān)鍵詞的詞相似度矩陣,根據(jù)候選關(guān)鍵詞的詞相似度矩陣,和候選關(guān)鍵詞的初始權(quán)重,得到候選關(guān)鍵詞對應(yīng)的排序算法值。然后根據(jù)排序算法值對候選關(guān)鍵詞進(jìn)行排序。最后,選取排序靠前的候選關(guān)鍵詞作為待處理文本的關(guān)鍵詞。這里,根據(jù)實(shí)際需要選取排序靠前的候選關(guān)鍵詞的個數(shù)。這里,關(guān)鍵詞排序算法是一個迭代回歸的算法,需要設(shè)定算法中所對應(yīng)的初始值。由此可見,本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取方法,首先,通過詞向量計算文本中詞與詞之間的相似度,并構(gòu)建相似度矩陣,使得提取到的關(guān)鍵詞在一定程度上反映了其在當(dāng)前文本中的語義重要性;其次,計算候選關(guān)鍵詞在語料庫中的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重,通過重要度反映了每個候選關(guān)鍵詞的全局信息,使得關(guān)鍵詞的提取更加準(zhǔn)確;最后,根據(jù)初始權(quán)重和詞相似度矩陣對候選關(guān)鍵詞進(jìn)行排序,并提取待處理文本的關(guān)鍵詞,提高了關(guān)鍵詞提取的準(zhǔn)確率。在本發(fā)明一個可選的實(shí)施例中,根據(jù)詞向量構(gòu)建候選關(guān)鍵詞的詞相似度矩陣,包括:根據(jù)公式:計算候選關(guān)鍵詞之間對應(yīng)的詞向量夾角的余弦值,其中,θ表示候選關(guān)鍵詞之間的向量的夾角,x1k表示其中一個候選關(guān)鍵詞n維空間中對應(yīng)的向量的特征值,x2k表示其中另一個候選關(guān)鍵詞n維空間中對應(yīng)的向量的特征值,n表示向量空間的維度;根據(jù)詞向量夾角的余弦值,構(gòu)建候選關(guān)鍵詞相似度矩陣。具體的,通過計算詞向量之間的距離,來得到詞與詞之間的相似度。而詞向量之間的距離是通過詞向量之間的夾角的余弦值來計算的,因此,本發(fā)明通過計算候選關(guān)鍵詞之間對應(yīng)的詞向量夾角的余弦值,然后根據(jù)詞向量夾角的余弦值,構(gòu)建候選關(guān)鍵詞相似度矩陣。候選關(guān)鍵詞之間對應(yīng)的詞向量夾角的余弦值是通過n維空間向量夾角余弦值計算公式得到的,在n維空間中,例如有兩個向量分別是向量a(x11,x12…x1n)與向量b(x21,x22…x2n),那么向量a和向量b的夾角的余弦值的計算公式為:其中,θ表示向量a和向量b的夾角,x1k表示向量a對應(yīng)的特征值,x2k表示向量b對應(yīng)的特征值,n表示向量空間的維度這里,在二維空間中,例如有兩個向量分別是向量a(x11,x12)與向量b(x21,x22),那么向量a和向量b的夾角的余弦值的計算公式為:其中,θ表示向量a和向量b的夾角,x11和x12表示向量a對應(yīng)的特征值,x21和x22表示向量b對應(yīng)的特征值。在三維空間中,例如有兩個向量分別是向量a(x11,x12,x13)、向量b(x21,x22,x23),那么向量a和向量b的夾角的余弦值的計算公式為:其中,θ表示向量a和向量b的夾角,x11、x12和x13表示向量a對應(yīng)的特征值,x21、x22和x23表示向量b對應(yīng)的特征值。對于更高維空間中的兩個向量之間的夾角的余弦值,在此不一一列舉,凡是符合n維空間向量夾角余弦值計算公式的,都屬于本發(fā)明保護(hù)的范圍。在本發(fā)明實(shí)施例中,計算候選關(guān)鍵詞在語料庫中的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,包括:計算候選關(guān)鍵詞在語料庫中的詞頻和逆文檔頻率,得到候選關(guān)鍵詞的全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重。具體的,每個候選關(guān)鍵詞的全局信息是指每個候選關(guān)鍵詞在語料庫中語義的重要程度,這里,語義的重要程度主要基于候選關(guān)鍵詞的全局信息計算得到的,其中,候選關(guān)鍵詞的全局信息包括詞性、詞頻、詞的逆文檔頻率以及在整個搜索日志、網(wǎng)絡(luò)文檔中的信息等。詞性是通過過濾停用詞,保留指定性詞體現(xiàn)的,在計算每個候選關(guān)鍵詞的詞頻和逆文檔頻率中參考了語料庫,得到每個候選關(guān)鍵詞的重要度,即全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重。其中,計算候選關(guān)鍵詞在語料庫中的詞頻和逆文檔頻率,包括:計算候選關(guān)鍵詞在搜索日志或網(wǎng)絡(luò)文檔中的頻率,得到候選關(guān)鍵詞在語料庫中的詞頻;這里,在一份給定的文檔中,詞頻(termfrequency,tf)指的是某一個給定的詞語在非該文件的外部資源(即語料庫)中出現(xiàn)的次數(shù)。由于現(xiàn)有的計算詞頻的方法是基于當(dāng)前文本,沒有考慮關(guān)鍵詞的全局信息,對于短文本來說,每個詞在當(dāng)前文本中出現(xiàn)的次數(shù)可能都為一次,使得關(guān)鍵詞提取的準(zhǔn)確率不高,而通過本發(fā)明提出的方法,考慮了關(guān)鍵詞的全局信息來計算詞頻,使得計算結(jié)果更加準(zhǔn)確。另外,需要說明的是,本文中所說的當(dāng)前文本指的是待處理文本。根據(jù)公式:idf=log(d/dt)計算候選關(guān)鍵詞在語料庫中的逆文檔頻率,其中,idf表示候選關(guān)鍵詞在語料庫中的逆文檔頻率,d表示包含語料庫的文本總數(shù),dt表示語料庫中包含候選關(guān)鍵詞的文本數(shù)量。這里,idf(inversedocumentfrequency,逆文檔頻率)指的是同一個單詞在文檔集合范圍的出現(xiàn)次數(shù),這個是一種全局因子,逆文檔頻率考慮的不是文檔本身的特征,而是特征單詞之間的相對重要性,特征詞出現(xiàn)在其中的文檔數(shù)目越多,idf值越低,這個詞區(qū)分不同文檔的能力就越差。根據(jù)公式:tf_idf=tf*idf計算候選關(guān)鍵詞的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,其中,tf_idf表示候選關(guān)鍵詞的全局權(quán)重,tf表示候選關(guān)鍵詞在語料庫中的詞頻,idf表示候選關(guān)鍵詞在語料庫中的逆文檔頻率。這里,tf_idf(termfrequency–inversedocumentfrequency,詞頻–逆文檔頻率)是一種用于情報檢索與文本挖掘的常用加權(quán)技術(shù),用以評估一個詞對于一個文件或者一個語料庫中的一個領(lǐng)域文件集的重要程度。同時,tf_idf在本發(fā)明中指每個候選關(guān)鍵詞所對應(yīng)的全局信息。本發(fā)明通過計算每個候選關(guān)鍵詞在語料庫中的全局權(quán)重,即每個候選關(guān)鍵詞的tf_idf,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重。通過計算每個候選關(guān)鍵詞的詞頻和逆文檔頻率來反映候選關(guān)鍵詞的全局信息,并將候選關(guān)鍵詞的全局信息作為pagerank算法的初始權(quán)重,使得pagerank算法計算關(guān)鍵詞的排序更加準(zhǔn)確,這是因為每個候選關(guān)鍵詞的在所有關(guān)鍵詞中的權(quán)重是不同的,如果認(rèn)為每個關(guān)鍵詞的初始權(quán)重的是相同的,則計算的關(guān)鍵詞的排序不準(zhǔn)確,因此本發(fā)明考慮了每個候選關(guān)鍵詞的全局信息,使得關(guān)鍵詞的提取更加精確。在本發(fā)明實(shí)施例中,根據(jù)候選關(guān)鍵詞的初始權(quán)重和詞相似度矩陣對候選關(guān)鍵詞進(jìn)行排序,包括:根據(jù)初始權(quán)重和詞相似度矩陣,計算候選關(guān)鍵詞的初始特征向量值;具體的,根據(jù)公式p1=mtp0計算候選關(guān)鍵詞的初始特征向量值,其中,p1表示pagerank算法的初始特征向量值,p0表示pagerank算法的初始權(quán)重,m表示候選關(guān)鍵詞的詞相似度矩陣,mt表示詞相似度矩陣的轉(zhuǎn)置。根據(jù)公式:pt=mtpt-1計算候選關(guān)鍵詞的特征向量值,其中,在t=1時,則p0表示初始權(quán)重,p1表示初始特征向量值,pt表示詞相似度矩陣在第t步的特征向量值,pt-1表示詞相似度矩陣在第t-1步的特征向量值,m表示候選關(guān)鍵詞的詞相似度矩陣,mt表示詞相似度矩陣的轉(zhuǎn)置,t表示計算的步數(shù),t的取值大于或等于1;具體的,pagerank算法是一種迭代回歸的算法,通過將候選關(guān)鍵詞的詞相似度矩陣反復(fù)迭代計算,得到最終的候選關(guān)鍵詞的對應(yīng)的pagerank值,這樣,使得提取到的關(guān)鍵的準(zhǔn)確率更加精確。當(dāng)?shù)趖步的特征向量值與第t-1步的特征向量值的范數(shù)小于pagerank算法的誤差容忍度時,第t步的特征向量值為候選關(guān)鍵詞的對應(yīng)的pagerank值。這里,由于向量的計算過程存在誤差,所以pagerank算法會預(yù)設(shè)一個誤差寬容度∈,當(dāng)?shù)趖步的特征向量值與第t-1步的特征向量值的范數(shù)小于pagerank算法的誤差容忍度時,此時得到的候選關(guān)鍵詞所對應(yīng)的pagerank值是更加準(zhǔn)確的,有利于提高關(guān)鍵詞的提取準(zhǔn)確率。根據(jù)pagerank值對候選關(guān)鍵詞進(jìn)行排序,得到候選關(guān)鍵詞的重要程度;這里,候選關(guān)鍵詞的pagerank值最大,表明用戶搜索關(guān)鍵詞時,該關(guān)鍵詞為用戶最感興趣的關(guān)鍵詞,其他關(guān)鍵詞依次遞減,同時,候選關(guān)鍵詞的pagerank值最大,也說明候選關(guān)鍵詞越重要。根據(jù)重要程度,提取待處理文本的關(guān)鍵詞。這里,根據(jù)實(shí)際所需,提取排序靠前(topn)的候選關(guān)鍵詞作為待處理文本的關(guān)鍵詞。在本發(fā)明中,利用pagerank算法計算候選關(guān)鍵詞的pagerank值,根據(jù)pagerank值對候選關(guān)鍵詞進(jìn)行排序,根據(jù)排序提取關(guān)鍵詞。具體的算法如下:具體的過程:首先,pagerank算法通過輸入一個隨機(jī)的、不可約的、非周期的矩陣m,矩陣的大小n,誤差寬容度∈。這里,矩陣m是通過詞向量構(gòu)建的,即本發(fā)明中的詞相似度矩陣,矩陣的大小n即矩陣的階數(shù)。另外,由于向量的計算過程存在誤差,所以pagerank算法會預(yù)設(shè)一個誤差寬容度∈。然后,pagerank算法通過以下步驟來計算候選關(guān)鍵詞的特征向量值:第1步,根據(jù)候選關(guān)鍵詞的全局信息確定pagerank算法的初始權(quán)重,即p0=pglobal_weight,p0表示pagerank算法的初始權(quán)重。這里,通過計算每個候選關(guān)鍵詞的詞頻和逆文檔頻率來反映候選關(guān)鍵詞的全局信息,并將候選關(guān)鍵詞的全局信息作為pagerank算法的初始權(quán)重,使得pagerank算法計算關(guān)鍵詞的排序更加準(zhǔn)確,這是因為每個候選關(guān)鍵詞的在所有關(guān)鍵詞中的權(quán)重是不同的,如果認(rèn)為每個關(guān)鍵詞的初始權(quán)重的是相同的,則計算的關(guān)鍵詞的排序不準(zhǔn)確,因此本發(fā)明考慮了每個候選關(guān)鍵詞的全局信息,使得關(guān)鍵詞的提取更加精確。例如,待處理文本為:abcdefg,通過本發(fā)明得到的候選關(guān)鍵詞的初始權(quán)重為:0.75、0.75、0.42、0.39、0.43、0.39、0.53,而現(xiàn)有技術(shù)中通過矩陣的大小來確定的初始權(quán)重為:顯而易見,通過本發(fā)明提供的方法,使得關(guān)鍵詞的提取算法更加準(zhǔn)確。第2步,t=0,這里,t表示pagerank算法計算的步數(shù),那么t=0表示還沒有對相似度矩陣m進(jìn)行計算。第3步和第4步,根據(jù)t=t+1,開始重復(fù)不斷計算。第5步,根據(jù)公式pt=mtpt-1計算詞相似度矩陣特征向量值,其中,pt表示詞相似度矩陣在第t步的特征向量值,pt-1表示詞相似度矩陣在第t-1步的特征向量值,m表示候選關(guān)鍵詞的詞相似度矩陣,t表示計算的步數(shù)。這里,由于pagerank算法是一個迭代回歸的算法,所以需要不斷對詞相似度矩陣m進(jìn)行迭代計算,才能更加準(zhǔn)確的得到詞相似度矩陣的特征向量值。第6步,δ=||pt-pt-1||第7步,untilδ<∈,這里直到詞相似度矩陣在第t步的特征向量值,與詞相似度矩陣在第t-1步的特征向量值的范數(shù)小于誤差寬容度∈,才停止計算。第8步,returnpt,得到最終的詞相似度矩陣特征向量值。最后,輸出特征向量p,即最終的詞相似度矩陣特征向量值pt。在本發(fā)明實(shí)施例中,獲取待處理文本,并對待處理文本進(jìn)行分詞,得到待處理文本對應(yīng)的候選關(guān)鍵詞,包括:獲取待處理文本,并對待處理文本進(jìn)行分詞,得到停用詞和指定詞性的詞,停用詞至少包括介詞、助詞、連詞、感嘆詞,指定詞性的詞至少包括名詞、動詞、形容詞;過濾掉停用詞,得到指定詞性的詞,指定詞性的詞為待處理文本對應(yīng)的候選關(guān)鍵詞。具體的,獲取待處理文本進(jìn)行分詞后的詞可以分為兩類:停用詞和指定詞性的詞。在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為停用詞。過濾掉停用詞,得到指定詞性的詞,指定詞性的詞為待處理文本對應(yīng)的候選關(guān)鍵詞。其中,停用詞是指在文本中大量出現(xiàn),但對表征文本特征幾乎無用的詞,例如文本中的“我、的、然后、是、那么、另外”等這些虛詞對文本特征沒有任何作用。要過濾停用詞,首先要構(gòu)造停用詞表,主要是上下文提到的副詞、連詞、介詞、語氣助詞等。所以在中文分詞后,一定要過濾掉停用詞,這樣不僅能有效提高關(guān)鍵詞的密度,同時也會大大降低文本的維度,避免了“維度災(zāi)難”的出現(xiàn)。在本發(fā)明實(shí)施例中,詞向量是通過word2vec訓(xùn)練得到的。具體的,word2vec是google在2013年年中開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對文本內(nèi)容的處理簡化為k維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度。word2vec使用的是distributedrepresentation的詞向量表示方式。distributedrepresentation最早由hinton在1986年提出。其基本思想是通過訓(xùn)練將每個詞映射成k維實(shí)數(shù)向量(k一般為模型中的超參數(shù)),通過詞之間的距離(比如cosine相似度、歐氏距離等)來判斷它們之間的語義相似度。其采用一個三層的神經(jīng)網(wǎng)絡(luò),輸入層-隱層-輸出層。有個核心的技術(shù)是根據(jù)詞頻用huffman編碼,使得所有詞頻相似的詞隱藏層激活的內(nèi)容基本一致,出現(xiàn)頻率越高的詞語,他們激活的隱藏層數(shù)目越少,這樣有效的降低了計算的復(fù)雜度。word2vec算法基于深度學(xué)習(xí),通過模型訓(xùn)練,把對文本內(nèi)容的處理簡化為k維向量空間中的向量運(yùn)算。通過向量空間上的相似度可以用來表示文本語義上的相似度,能夠?qū)⒃~向量轉(zhuǎn)化為向量,可以尋找同義詞。參見圖2,圖2為本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取方法的另一種流程圖,包括如下步驟:s201,獲取輸入文本。這里,獲取的輸入文本即本發(fā)明提到的待處理文本。s202,對輸入文本分詞。這里,對輸入文本進(jìn)行分詞,得到停用詞和指定詞性的詞。其中,停用詞至少包括介詞、助詞、連詞、感嘆詞,指定詞性的詞至少包括名詞、動詞、形容詞。過濾掉停用詞,得到指定詞性的詞,指定詞性的詞為待處理文本對應(yīng)的候選關(guān)鍵詞。s203,構(gòu)建詞網(wǎng)。這里,構(gòu)建詞網(wǎng)指的是構(gòu)建候選關(guān)鍵詞相似度矩陣,具體的,通過計算候選關(guān)鍵詞之間對應(yīng)的詞向量夾角的余弦值,然后根據(jù)詞向量夾角的余弦值,構(gòu)建候選關(guān)鍵詞相似度矩陣。s204,計算基于全局特征的詞權(quán)重。這里,通過計算每個候選關(guān)鍵詞的詞頻和逆文檔頻率來反映候選關(guān)鍵詞的全局信息。需要說明的是,這個步驟可以在s202之后進(jìn)行,也可以在s203之后進(jìn)行。s205,初始化詞權(quán)重。將候選關(guān)鍵詞的全局信息作為pagerank算法的初始權(quán)重,使得pagerank算法計算關(guān)鍵詞的排序更加準(zhǔn)確。s206,pagerank。具體的,pagerank算法是一種迭代回歸的算法,通過將候選關(guān)鍵詞的詞相似度矩陣反復(fù)迭代計算,得到最終的候選關(guān)鍵詞的對應(yīng)的pagerank值,這樣,使得提取到的關(guān)鍵的準(zhǔn)確率更加精確。s207,選取排序靠前的詞作為關(guān)鍵詞。這里,根據(jù)實(shí)際所需,提取排序靠前(topn)的候選關(guān)鍵詞作為待處理文本的關(guān)鍵詞。通過本發(fā)明提出的一種基于圖模型的關(guān)鍵詞提取方法,與現(xiàn)有的關(guān)鍵詞的提取方法相比,取得了較好的效果。表2示出了本發(fā)明所提出的關(guān)鍵詞的提取方法得到的關(guān)鍵詞的排序,和現(xiàn)有的關(guān)鍵詞的提取方法所得到的關(guān)鍵詞的排序的對比。表2由表2可以得出,第1個和第2個文本屬于短文本,由于該文本中的每個候選關(guān)鍵詞只出現(xiàn)一次,因此每個候選關(guān)鍵詞成為關(guān)鍵詞被提取的概率是相同的,可見,通過現(xiàn)有的關(guān)鍵詞的提取方法,文本1和文本2無法準(zhǔn)確的提取關(guān)鍵詞,而通過本發(fā)明提供的關(guān)鍵詞的提取方法可以得到各候選關(guān)鍵詞的排序,從而提取關(guān)鍵詞。第3個文本屬于長文本,文本中出現(xiàn)的各候選關(guān)鍵詞也重復(fù)出現(xiàn)在文本中,從結(jié)果可以看出,通過現(xiàn)有的關(guān)鍵詞的提取方法所得到的關(guān)鍵詞的排序中的“人氣,記者,留給,頗受”作為關(guān)鍵詞并沒有實(shí)際的意義,只是這些詞由于在文中重復(fù)出現(xiàn)的次數(shù)較多,而被作為候選關(guān)鍵詞;通過本發(fā)明所提出的關(guān)鍵詞的提取方法得到的關(guān)鍵詞的排序,考慮了每個候選關(guān)鍵詞所對應(yīng)的全局信息,使得關(guān)鍵詞的提取準(zhǔn)確率更高。參見圖3,圖3為本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取裝置的結(jié)構(gòu)圖,該裝置包括如下模塊:獲取模塊301,用于獲取待處理文本,并對待處理文本進(jìn)行分詞,得到待處理文本對應(yīng)的候選關(guān)鍵詞;查找模塊302,用于在詞向量模型中查找候選關(guān)鍵詞對應(yīng)的詞向量,詞向量模型包括候選關(guān)鍵詞的詞向量;處理模塊303,用于根據(jù)詞向量構(gòu)建候選關(guān)鍵詞的詞相似度矩陣;計算模塊304,用于獲取待處理文本對應(yīng)的語料庫,計算候選關(guān)鍵詞在語料庫中的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重,全局信息表征候選關(guān)鍵詞在語料庫的重要度,語料庫至少包括搜索日志和網(wǎng)絡(luò)文檔;提取模塊305,用于根據(jù)候選關(guān)鍵詞的初始權(quán)重和詞相似度矩陣對候選關(guān)鍵詞進(jìn)行排序,提取待處理文本的關(guān)鍵詞。進(jìn)一步的,處理模塊303,包括:第一計算單元,用于根據(jù)公式:計算候選關(guān)鍵詞之間對應(yīng)的詞向量夾角的余弦值,其中,θ表示候選關(guān)鍵詞之間的向量的夾角,x1k表示其中一個候選關(guān)鍵詞n維空間中對應(yīng)的向量的特征值,x2k表示其中另一個候選關(guān)鍵詞n維空間中對應(yīng)的向量的特征值,n表示向量空間的維度;構(gòu)建單元,用于根據(jù)詞向量夾角的余弦值,構(gòu)建候選關(guān)鍵詞相似度矩陣。進(jìn)一步的,計算模塊304,包括:第二計算單元,用于計算候選關(guān)鍵詞在語料庫中的詞頻和逆文檔頻率,得到候選關(guān)鍵詞的全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重。進(jìn)一步的,第二計算單元,包括:第一計算子單元,用于計算候選關(guān)鍵詞在搜索日志或網(wǎng)絡(luò)文檔中的頻率,得到候選關(guān)鍵詞在語料庫中的詞頻;第二計算子單元,用于根據(jù)公式:idf=log(d/dt)計算候選關(guān)鍵詞在語料庫中的逆文檔頻率,其中,idf表示候選關(guān)鍵詞在語料庫中的逆文檔頻率,d表示包含語料庫的文本總數(shù),dt表示語料庫中包含候選關(guān)鍵詞的文本數(shù)量;第三計算子單元,用于根據(jù)公式:tf_idf=tf*idf計算候選關(guān)鍵詞的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,其中,tf_idf表示候選關(guān)鍵詞的全局權(quán)重,tf表示候選關(guān)鍵詞在語料庫中的詞頻,idf表示候選關(guān)鍵詞在語料庫中的逆文檔頻率。進(jìn)一步的,提取模塊305,包括:第三計算單元,用于根據(jù)初始權(quán)重和詞相似度矩陣,計算候選關(guān)鍵詞的初始特征向量值;第四計算單元,用于根據(jù)公式:pt=mtpt-1計算候選關(guān)鍵詞的特征向量值,其中,在t=1時,則p1表示初始特征向量值,p0表示初始權(quán)重,pt表示詞相似度矩陣在第t步的特征向量值,pt-1表示詞相似度矩陣在第t-1步的特征向量值,m表示候選關(guān)鍵詞的詞相似度矩陣,mt表示詞相似度矩陣的轉(zhuǎn)置,t表示計算的步數(shù),t的取值大于或等于1;確定單元,用于當(dāng)?shù)趖步的特征向量值與第t-1步的特征向量值的范數(shù)小于pagerank算法的誤差容忍度時,第t步的特征向量值為候選關(guān)鍵詞的對應(yīng)的pagerank值;排序單元,用于根據(jù)pagerank值對候選關(guān)鍵詞進(jìn)行排序,得到候選關(guān)鍵詞的重要程度;提取單元,用于根據(jù)重要程度,提取待處理文本的關(guān)鍵詞。進(jìn)一步的,獲取模塊301,包括:獲取單元,用于獲取待處理文本,并對待處理文本進(jìn)行分詞,得到停用詞和指定詞性的詞,停用詞至少包括介詞、助詞、連詞、感嘆詞,指定詞性的詞至少包括名詞、動詞、形容詞;處理單元,用于過濾掉停用詞,得到指定詞性的詞,指定詞性的詞為待處理文本對應(yīng)的候選關(guān)鍵詞。進(jìn)一步的,詞向量是通過word2vec訓(xùn)練得到的。由此可見,本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取裝置,首先,通過處理模塊的詞向量計算文本中詞與詞之間的相似度,并構(gòu)建相似度矩陣,使得提取到的關(guān)鍵詞在一定程度上反映了其在當(dāng)前文本中的語義重要性;其次,通過計算模塊,計算候選關(guān)鍵詞在語料庫中的全局信息,得到候選關(guān)鍵詞的全局權(quán)重,并將全局權(quán)重作為候選關(guān)鍵詞的初始權(quán)重,全局信息表征候選關(guān)鍵詞在語料庫的重要度,通過重要度反映了每個候選關(guān)鍵詞的全局信息,使得關(guān)鍵詞的提取更加準(zhǔn)確;最后,排序模塊中根據(jù)初始權(quán)重和詞相似度矩陣對候選關(guān)鍵詞進(jìn)行排序,并提取待處理文本的關(guān)鍵詞,提高了關(guān)鍵詞提取的準(zhǔn)確率。總的來說,本發(fā)明實(shí)施例提供的一種基于圖模型的關(guān)鍵詞提取方法及裝置,在提高了關(guān)鍵詞提取的準(zhǔn)確率的同時,也有利于提高需要對生產(chǎn)內(nèi)容進(jìn)行標(biāo)簽標(biāo)記業(yè)務(wù)的公司(如傳統(tǒng)的新聞網(wǎng)站、視頻網(wǎng)站等),和有關(guān)鍵詞抽取相關(guān)的業(yè)務(wù)需求的公司(如論文檢索、搜索引擎公司等)的業(yè)務(wù)效率。因此,凡是通過本發(fā)明提出的關(guān)鍵詞提取的方法及裝置,來提高公司業(yè)務(wù)效率的,都屬于本發(fā)明的保護(hù)范圍。需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。本說明書中的各個實(shí)施例均采用相關(guān)的方式描述,各個實(shí)施例之間相同相似的部分互相參見即可,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。當(dāng)前第1頁12