專利名稱:關(guān)鍵詞的確定方法及系統(tǒng)、權(quán)值向量的學(xué)習(xí)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理領(lǐng)域,尤其涉及一種關(guān)鍵詞的確定方法及系統(tǒng) 和一種權(quán)值向量的學(xué)習(xí)方法及系統(tǒng)。
背景技術(shù):
關(guān)鍵詞用于表達(dá)文本資料的主題內(nèi)容,可以輔助信息的分類和檢索。關(guān) 鍵詞提取是自然語言處理領(lǐng)域內(nèi)的傳統(tǒng)話題,已經(jīng)被廣泛研究。在應(yīng)用中, 關(guān)鍵詞是從文本資料的標(biāo)題、摘要或全文中抽選出來的,具有實(shí)際意義的自 然語言詞匯,作為信息存貯和檢索依據(jù)的一種檢索語言。例如,各大搜索引 擎和網(wǎng)絡(luò)數(shù)據(jù)庫除了提供分類檢索外,幾乎都提供關(guān)鍵詞檢索法。
現(xiàn)有技術(shù)主要集中使用 一些經(jīng)典的機(jī)器學(xué)習(xí)思想,例如貝葉斯分類器,
支持向量機(jī)(SVM),決策樹等等。這些方法雖然有效,但是由于算法的 復(fù)雜度較高,導(dǎo)致其時(shí)間效率并不突出,在一些針對大規(guī)模數(shù)據(jù)的應(yīng)用中, 可行性并不高。
因此有必要提供針對大規(guī)模數(shù)據(jù)應(yīng)用的關(guān)鍵詞提取技術(shù),以解決當(dāng)前使 用經(jīng)典的機(jī)器學(xué)習(xí)思想提取關(guān)鍵詞時(shí)針對大規(guī)模應(yīng)用可行性不高的問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是在于需要提供一種關(guān)鍵詞的確定方法及 系統(tǒng),以及4又值向量的學(xué)習(xí)方法及系統(tǒng),可以應(yīng)用于大規(guī)才莫數(shù)據(jù)應(yīng)用的關(guān)4建 詞提取。
為了解決上述技術(shù)問題,本發(fā)明提供了一種關(guān)鍵詞的確定方法,該方法 包括
確定一目標(biāo)領(lǐng)域;通過整理所述目標(biāo)領(lǐng)域中的若千文本資料,獲得一目標(biāo)語料庫,所述目
標(biāo)語料庫為所述目標(biāo)領(lǐng)域內(nèi)的候選關(guān)鍵詞的集合;
通過整理多個(gè)領(lǐng)域中的若干文本資料,獲得一通用語料庫;
結(jié)合所述通用語料庫,為所述目標(biāo)語料庫中每個(gè)候選關(guān)鍵詞設(shè)置并計(jì)算
特征向量;
設(shè)置一與所述特征向量同維的權(quán)值向量;
利用所述目標(biāo)語料庫及特征向量,對所述;K值向量進(jìn)行學(xué)習(xí);
對所述目標(biāo)領(lǐng)域中一欲要確定關(guān)鍵詞的目標(biāo)文本進(jìn)行停用詞過濾,獲得 的實(shí)意詞為所述目標(biāo)文本的候選關(guān)鍵詞;及
獲得所述目標(biāo)文本各候選關(guān)鍵詞的特征向量,結(jié)合學(xué)習(xí)后的權(quán)值向量, 確定所述目標(biāo)文本的關(guān)鍵詞。
如上所述的方法中,獲得所述目標(biāo)語料庫的步驟,可以包括
人工標(biāo)注所述若千文本資料的關(guān)鍵詞,并對所述若干文本資料進(jìn)行停用 詞過濾;人工標(biāo)注的關(guān)鍵詞及停用詞過濾后的實(shí)意詞,合為所述目標(biāo)語料庫。
進(jìn)一步地,對所述權(quán)值向量進(jìn)行學(xué)習(xí)的步驟,可以包括
把所述目標(biāo)語料庫中人工標(biāo)注的關(guān)鍵詞作為正樣例,其余候選關(guān)鍵詞作 為負(fù)樣例,對于所述特征向量中的每個(gè)特征,通過該特征區(qū)分所述正樣例與 負(fù)樣例的區(qū)分度來調(diào)整權(quán)值,完成對所述4又值向量的學(xué)習(xí)。
如上所述的方法中,確定所述目標(biāo)文本的關(guān)鍵詞的步驟,可以包括
將所述目標(biāo)文本各候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi) 積,得到各候選關(guān)鍵詞的內(nèi)積結(jié)果;
將內(nèi)積結(jié)果作為對應(yīng)候選關(guān)鍵詞的得分,根據(jù)所述得分對所述個(gè)候選關(guān) 鍵詞進(jìn)行排序;及
根據(jù)所述排序確定所述目標(biāo)文本的關(guān)鍵詞。
如上所述的方法中,所述特征向量中的特征,可以包括詞頻-逆文檔頻 率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
為了解決上述技術(shù)問題,本發(fā)明還提供了一種關(guān)鍵詞的確定系統(tǒng),該系統(tǒng)包括
領(lǐng)域確定模塊,用于確定一 目標(biāo)領(lǐng)域;
語料設(shè)置模塊,與所述領(lǐng)域確定模塊相連,用于獲取該目標(biāo)領(lǐng)域中的若 干文本資料,以及多個(gè)領(lǐng)域中的若干文本資料;還用于將該目標(biāo)領(lǐng)域中的若 干文本資料及該多個(gè)領(lǐng)域中的若干文本資料分別整理成一 目標(biāo)語料庫及一 通用語料庫;其中所述目標(biāo)語料庫為所述目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合;
特征向量設(shè)置及計(jì)算模塊,與所述語料設(shè)置模塊相連,用于結(jié)合所述通 用語料庫,為所述目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量;
權(quán)值向量設(shè)置模塊,與所述特征向量設(shè)置及計(jì)算模塊相連,用于設(shè)置一 與所述特征向量同維的斥又值向量;
權(quán)值向量學(xué)習(xí)模塊,與所述語料設(shè)置模塊、特征向量設(shè)置及計(jì)算模塊及 權(quán)值向量設(shè)置模塊相連,用于利用所述目標(biāo)語料庫及特征向量,對所述權(quán)值 向量進(jìn)行學(xué)習(xí);
預(yù)處理模塊,與所述特征向量設(shè)置及計(jì)算模塊相連,用于接收所述目標(biāo) 領(lǐng)域中一欲要確定關(guān)4建詞的目標(biāo)文本,對所述目標(biāo)文本進(jìn)行停用詞過濾,獲 得的實(shí)意詞為所述目標(biāo)文本的候選關(guān)鍵詞,獲得所述目標(biāo)文本各候選關(guān)鍵詞 的特征向量;及
關(guān)鍵詞確定模塊,與所述預(yù)處理模塊及權(quán)值向量學(xué)習(xí)模塊相連,用于利 用所述目標(biāo)文本各候選關(guān)鍵詞的特征向量及學(xué)習(xí)后的權(quán)值向量,確定所述目 標(biāo)文本的關(guān)鍵詞。
如上所述的系統(tǒng)中,所述語料設(shè)置模塊,可以包括
獲取單元,與所述領(lǐng)域確定模塊相連,用于獲取所述目標(biāo)領(lǐng)域中的若干 文本資料,以及所述多個(gè)領(lǐng)域中的若干文本資料;
記錄單元,與所述獲取單元及權(quán)值向量學(xué)習(xí)模塊相連,用于記錄人工對 所述目標(biāo)領(lǐng)域中的若干文本資料所標(biāo)注的關(guān)鍵詞;
整理單元,與所述獲取單元相連,用于對所述目標(biāo)領(lǐng)域中的若干文本資 料及所述多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾,分別獲得所述目標(biāo)領(lǐng) 域中的文本資料的實(shí)意詞及所述多個(gè)領(lǐng)域中的若千文本資料的實(shí)意詞;及合成單元,與所述記錄單元、整理單元、特征向量設(shè)置及計(jì)算模塊及權(quán) 值向量學(xué)習(xí)模塊相連,用于將人工標(biāo)注的關(guān)鍵詞以及所述目標(biāo)領(lǐng)域中的文本
資料的實(shí)意詞,合為所述目標(biāo)語料庫;還用于將所述多個(gè)領(lǐng)域中的文本資料 的實(shí)意詞,合為所述通用語料庫。
進(jìn)一步地,所述權(quán)值向量學(xué)習(xí)模塊,可以包括
樣例選擇單元,與所述記錄單元及合成單元相連,用于將人工標(biāo)注的關(guān) 鍵詞作為正樣例,其余的候選關(guān)鍵詞作為負(fù)樣例;
比較單元,與所述樣例選擇單元及特征向量設(shè)置及計(jì)算模塊相連,用于 比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值,通過該些平 均值獲得所述特征向量中每個(gè)特征區(qū)分正樣例與負(fù)樣例的區(qū)分度;及
調(diào)整單元,與所述比較單元、權(quán)值向量設(shè)置模塊及關(guān)鍵詞確定模塊相連, 用于通過所述區(qū)分度來調(diào)整所述權(quán)值向量中的權(quán)值,完成對所述權(quán)值向量的 學(xué)習(xí)。
如上所述的系統(tǒng)中,所述關(guān)鍵詞確定模塊,可以包括
內(nèi)積單元,與所述權(quán)值向量學(xué)習(xí)模塊及預(yù)處理模塊相連,用于將所述目
標(biāo)文本各候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積, 一候選關(guān)鍵
詞獲得一內(nèi)積結(jié)杲;
排序單元,與所述內(nèi)積單元相連,用于將內(nèi)積結(jié)果作為對應(yīng)的候選關(guān)鍵 詞的得分,根據(jù)所述得分對所述個(gè)候選關(guān)鍵詞進(jìn)行排序;及
確定單元,與所述排序單元相連,用于才艮據(jù)所述排序確定所述目標(biāo)文本 的關(guān)4建詞。
如上所述的系統(tǒng)中,所述特征向量設(shè)置及計(jì)算模塊,所設(shè)置的特征向量 中的特征可以包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng) 計(jì)量。
為了解決上述技術(shù)問題,本發(fā)明還提供了一種權(quán)值向量的學(xué)習(xí)方法,應(yīng) 用于確定文本資料的關(guān)鍵詞,包括
確定一目標(biāo)領(lǐng)^l;
通過整理所述目標(biāo)領(lǐng)域中的若干文本資料,獲得一目標(biāo)語料庫,所述目標(biāo)語料庫為所述目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合;
通過整理多個(gè)領(lǐng)域中的若干文本資料,獲得一通用語料庫;
結(jié)合所述通用語料庫,為所述目標(biāo)語料庫中每個(gè)候選關(guān)鍵詞設(shè)置并計(jì)算
凈爭4正向量;
設(shè)置 一 與所述特征向量同維的權(quán)值向量;
利用所述目標(biāo)語料庫及特征向量,對所述權(quán)值向量進(jìn)行學(xué)習(xí)。
如上所述的方法中,獲得所述目標(biāo)語料庫的步驟,可以包括
對所述若干文本資料進(jìn)行人工標(biāo)注關(guān)鍵詞,并對所述若干文本資料進(jìn)行 停用詞過濾;人工標(biāo)注的關(guān)^:詞及停用詞過濾后的實(shí)意詞,合為所述目標(biāo)語 料庫。
進(jìn)一步地,對所述權(quán)值向量進(jìn)行學(xué)習(xí)的步驟,可以包括
把所述目標(biāo)語料庫中人工標(biāo)注的關(guān)鍵詞作為正樣例,其余候選關(guān)鍵詞作 為負(fù)樣例,對于所述特征向量中的每個(gè)特征,通過該特征區(qū)分所述正樣例與 負(fù)樣例的區(qū)分度來調(diào)整權(quán)值,完成對所述權(quán)值向量的學(xué)習(xí)。
如上所述的方法中,所述特征向量中的特征,可以包括詞頻-逆文檔頻 率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
為了解決上述技術(shù)問題,本發(fā)明還提供了一種權(quán)值向量的學(xué)習(xí)系統(tǒng),應(yīng) 用于確定文本資料的關(guān)4定詞,該系統(tǒng)包括
領(lǐng)域確定模塊,用于確定一目標(biāo)領(lǐng)域;
語料設(shè)置模塊,與所述領(lǐng)域確定模塊相連,用于獲取該目標(biāo)領(lǐng)域中的若 干文本資料,以及多個(gè)領(lǐng)域中的若干文本資料;還用于將該目標(biāo)領(lǐng)域中的若 干文本資料及該多個(gè)領(lǐng)域中的若干文本資料分別整理成一 目標(biāo)語料庫及一 通用語料庫;其中所述目標(biāo)語料庫為所述文本的候選關(guān)鍵詞的集合;
特征向量設(shè)置及計(jì)算模塊,與所述語料設(shè)置模塊相連,用于結(jié)合所述通 用語料庫,為所述目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量;
權(quán)值向量設(shè)置模塊,與所述特征向量設(shè)置及計(jì)算模塊相連,用于設(shè)置一 與所述特征向量同維的權(quán)值向量;及權(quán)值向量學(xué)習(xí)模塊,與所述語料設(shè)置模塊、特征向量設(shè)置及計(jì)算模塊及 4又值向量設(shè)置模塊相連,用于利用所述目標(biāo)語料庫及特征向量,對所述權(quán)值 向量進(jìn)行學(xué)習(xí)。
如上所述的系統(tǒng)中,所述語料設(shè)置模塊,可以包括
獲取單元,與所述領(lǐng)域確定模塊相連,用于獲取所述目標(biāo)領(lǐng)域中的若干 文本資料,以及所述多個(gè)領(lǐng)域中的若干文本資料;
記錄單元,與所述獲取單元及權(quán)值向量學(xué)習(xí)模塊相連,用于記錄人工對 所述目標(biāo)領(lǐng)域中的若干文本資料所標(biāo)注的關(guān)鍵詞;
整理單元,與所述獲取單元相連,用于對所述目標(biāo)領(lǐng)域中的若干文本資 料及所述多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾,分別獲得所述目標(biāo)領(lǐng) 域中的文本資料的實(shí)意詞及所述多個(gè)領(lǐng)域中的若干文本資料的實(shí)意詞;及
合成單元,與所述記錄單元、整理單元、特征向量設(shè)置及計(jì)算模塊及權(quán) 值向量學(xué)習(xí)模塊相連,用于將人工標(biāo)注的關(guān)鍵詞以及所述目標(biāo)領(lǐng)域中的文本 資料的實(shí)意詞,合為所述目標(biāo)語料庫;還用于將所述多個(gè)領(lǐng)域中的文本資料 的實(shí)意詞,合為所述通用語料庫。
進(jìn)一步地,所述權(quán)值向量學(xué)習(xí)模塊,可以包括
樣例選擇單元,與所述記錄單元及合成單元相連,用于將人工標(biāo)注的關(guān) 鍵詞作為正樣例,其余的候選關(guān)鍵詞作為負(fù)樣例;
比較單元,與所述樣例選擇單元及特征向量設(shè)置及計(jì)算模塊相連,用于 比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值,通過該些平 均值獲得所述特征向量中每個(gè)特征區(qū)分正樣例與負(fù)樣例的區(qū)分度;及
調(diào)整單元,與所述比較單元、權(quán)值向量設(shè)置模塊及關(guān)鍵詞確定模塊相連, 用于通過所述區(qū)分度來調(diào)整所述權(quán)值向量中的權(quán)值,完成對所述斥又值向量的 學(xué)習(xí)。
如上所述的系統(tǒng)中,所述特征向量設(shè)置及計(jì)算模塊,所設(shè)置的特征向量 中的特^正可以包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案,在不損失性能的前提下,提高了處理效率。本發(fā)明所提供的技術(shù)方案,利用線性加權(quán)求和方式(即對所有特 征值與其特征的權(quán)重的積求和)給關(guān)鍵詞打分的方法,可以高效地提取關(guān)鍵 詞,滿足像互聯(lián)網(wǎng)等海量文本分析的應(yīng)用。
圖1是本發(fā)明中關(guān)鍵詞確定方法實(shí)施例的流程示意圖。
圖2是本發(fā)明中關(guān)鍵詞確定裝置實(shí)施例的組成示意圖。 圖3是圖2所示實(shí)施例中的語料設(shè)置模塊的組成示意圖。 圖4是圖2所示實(shí)施例中的權(quán)值向量學(xué)習(xí)模塊的組成示意圖。 圖5是圖2所示實(shí)施例中的關(guān)鍵詞確定模塊的組成示意圖。
具體實(shí)施例方式
以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式,借此對本發(fā)明 如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程能充分理解 并據(jù)以實(shí)施。
圖1示出了本發(fā)明中關(guān)鍵詞的確定方法一實(shí)施例的流程示意圖。如圖1 所示,該實(shí)施例主要包括如下步驟
步驟S105,首先確定一欲要為該領(lǐng)域中的文本資料確定關(guān)鍵詞的目標(biāo) 領(lǐng)域;比如運(yùn)動領(lǐng)域、教育領(lǐng)域或者信息技術(shù)(IT)領(lǐng)域等等;
步驟SllO,獲取該目標(biāo)領(lǐng)域中的若千文本資料,通過整理該目標(biāo)領(lǐng)域 中的若干文本資料,獲得一目標(biāo)語料庫,該目標(biāo)語料庫實(shí)際為該目標(biāo)領(lǐng)域的 候選關(guān)鍵詞的集合;
其中該目標(biāo)領(lǐng)域中的若干文本資料,對于運(yùn)動領(lǐng)域,可以是若干描述體 育訓(xùn)練、體育比賽等等的文本;對于教育領(lǐng)域,可以使若干描述教育方法、 學(xué)校生活等等的文本;對于IT領(lǐng)域,可以使若干描述計(jì)算機(jī)性能、數(shù)碼相 機(jī)使用方法等等的文本;
該目標(biāo)語料庫包含若干語料,這些語料均是根據(jù)該目標(biāo)領(lǐng)域中的文本資 料整理而來, 一文本資料整理后獲得一語料;該整理過程是對目標(biāo)領(lǐng)域中的文本資料人工標(biāo)注關(guān)鍵詞,并采用通用的停用詞表對該文本資料進(jìn)行停用詞 過濾,獲得該目標(biāo)領(lǐng)域中該些文本資料的實(shí)意詞,也即目標(biāo)語料庫中的每個(gè)
語料,包含若干人工標(biāo)注的關(guān)鍵詞以及經(jīng)停用詞過濾后的實(shí)意詞; 一般而言, 人工標(biāo)注的關(guān)鍵詞為停用詞過濾后實(shí)意詞的 一部分;
目標(biāo)語料庫中的各語料經(jīng)停用詞過濾后獲得的實(shí)意詞,除開已經(jīng)人工標(biāo) 注的關(guān)鍵詞以外,都有可能是該領(lǐng)域內(nèi)某文本的關(guān)鍵詞,因此,目標(biāo)語料庫 實(shí)際是該目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合;
步驟S115,獲取各種各樣的多個(gè)領(lǐng)域中的若干文本資料,通過整理多 個(gè)領(lǐng)域中的若干文本資料,獲得一通用語料庫;
其中多個(gè)領(lǐng)域比如同時(shí)包括運(yùn)動領(lǐng)域、教育領(lǐng)域、IT領(lǐng)域、經(jīng)濟(jì)金融 領(lǐng)域等等;該通用語料庫也包含若干語料,這些語料均是根據(jù)各種各樣的多 個(gè)領(lǐng)域中的文本資料整理而來, 一文本資料整理后獲得一語料;該整理過程 是采用通用的停用詞表對該多個(gè)領(lǐng)域中的文本資料進(jìn)行停用詞過濾,獲得該 多個(gè)領(lǐng)域中該些文本資料的實(shí)意詞,也即通用語料庫中的每個(gè)語料,由若干 停用詞過濾后剩下的實(shí)意詞構(gòu)成;
步驟S120,結(jié)合該通用語料庫中的語料,為目標(biāo)語料庫中的各候選關(guān) 鍵詞設(shè)置并計(jì)算特征向量,在本實(shí)施例中,特征向量中的特征分別為詞頻-逆文檔頻率(TFIDF)、詞性、首次出現(xiàn)的相對位置和卡方(CHI)統(tǒng)計(jì)量;
步驟S130,設(shè)置一與特征向量同維的權(quán)值向量;在本實(shí)施例中,特征 向量的維數(shù)為四維,因此所設(shè)置的該權(quán)值向量也為四維;
步驟S140,把目標(biāo)語料庫中各語料的人工標(biāo)注的關(guān)鍵詞作為正樣例, 其余的候選關(guān)鍵詞作為負(fù)樣例,采用該些正樣例及負(fù)樣例,對該權(quán)值向量進(jìn) 行學(xué)習(xí);該學(xué)習(xí)的具體過程是,對于特征向量中的每個(gè)特征,通過比較正樣 例與負(fù)樣例在該特征上的平均值,來衡量該特征能在多大程度上區(qū)分正樣例 與負(fù)樣例的區(qū)分度,根據(jù)該區(qū)分度來調(diào)整權(quán)值,完成對權(quán)值向量的學(xué)習(xí);
步驟S150,對該目標(biāo)領(lǐng)域內(nèi)的一欲要確定關(guān)鍵詞的目標(biāo)文本進(jìn)行停用 詞過濾,獲得該目標(biāo)文本停用詞過濾后剩下的實(shí)意詞,這些實(shí)意詞均為該目 標(biāo)文本的候選關(guān)鍵詞;
步驟S160,獲得該目標(biāo)文本的該些候選關(guān)鍵詞的特征向量,并利用這 些特征向量,以及上述學(xué)習(xí)后的權(quán)值向量,確定該目標(biāo)領(lǐng)域中的該目標(biāo)文本的關(guān)鍵詞;
將該目標(biāo)文本的每個(gè)候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行 內(nèi)積, 一個(gè)候選關(guān)鍵詞得到一個(gè)內(nèi)積結(jié)果,將該內(nèi)積結(jié)果作為該候選關(guān)鍵詞 的得分;然后根據(jù)該得分的高低,對每個(gè)候選關(guān)鍵詞進(jìn)行排序(本實(shí)施例中 為從高到底進(jìn)行排序),得分較高的部分候選關(guān)鍵詞為該目標(biāo)文本的關(guān)鍵詞; 按照該排序確定關(guān)鍵詞,因?yàn)榈梅衷礁咴接锌赡苁钦嬲年P(guān)鍵詞。
上述步驟S140中,對權(quán)值向量的學(xué)習(xí),還包括對人工標(biāo)注的關(guān)鍵詞設(shè) 置較高的權(quán)值,以保證這些人工標(biāo)注的關(guān)鍵詞獲得較高的得分,以在排序中 獲得靠前的位置。
圖2示出了本發(fā)明中關(guān)鍵詞的確定裝置一實(shí)施例的組成示意圖,該裝置 用以提取文本中的關(guān)鍵詞。結(jié)合圖l所示的方法實(shí)施例,如圖2所示,該裝 置實(shí)施例主要包括領(lǐng)域確定模塊210、語料設(shè)置模塊220、特征向量設(shè)置及 計(jì)算模塊230、權(quán)值向量設(shè)置模塊240、權(quán)值向量學(xué)習(xí)模塊250及關(guān)鍵詞確 定模塊270,其中
領(lǐng)域確定模塊210,用于確定一目標(biāo)領(lǐng)域;比如運(yùn)動領(lǐng)域、教育領(lǐng)域或 者IT領(lǐng)域等等;
語料設(shè)置模塊220,與該領(lǐng)域確定模塊210相連,用于獲取該目標(biāo)領(lǐng)域 中的若干文本資料,以及多個(gè)領(lǐng)域中的若千文本資料;記錄人工對該目標(biāo)領(lǐng) 域中若干文本資料所標(biāo)注的關(guān)鍵詞,并采用通用的停用詞表,對該目標(biāo)領(lǐng)域 中的該些若干文本資料,以及多個(gè)領(lǐng)域中的若干文本資料,分別進(jìn)行停用詞 過濾;將所記錄的人工標(biāo)注的關(guān)鍵詞,和對該目標(biāo)領(lǐng)域中的若干文本資料進(jìn) 行停用詞過濾后獲得的實(shí)意詞,合為一目標(biāo)語料庫;將對該多個(gè)領(lǐng)域中的若 干文本資料進(jìn)行停用詞過濾后獲得的實(shí)意詞,合為一通用語料庫;其中多個(gè) 領(lǐng)域比如同時(shí)包括運(yùn)動領(lǐng)域、教育領(lǐng)域、IT領(lǐng)域、經(jīng)濟(jì)金融領(lǐng)域等等;
一般而言,人工標(biāo)注的關(guān)鍵詞為停用詞過濾后的實(shí)意詞的一部分;而且 該目標(biāo)語料庫中所包含的內(nèi)容即為該目標(biāo)領(lǐng)域的候選關(guān)鍵詞;目標(biāo)語料庫中 的各語料經(jīng)停用詞過濾后獲得的實(shí)意詞,除開已經(jīng)人工標(biāo)注的關(guān)鍵詞以外, 都有可能是該領(lǐng)域內(nèi)某文本的關(guān)鍵詞,因此,目標(biāo)語料庫實(shí)際是該目標(biāo)領(lǐng)域 的候選關(guān)鍵詞的集合;特征向量設(shè)置及計(jì)算模塊230,與該語料設(shè)置模塊220相連,用于結(jié)合 該通用語料庫中的語料,為目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向 量;權(quán)值向量設(shè)置模塊240,與特征向量設(shè)置及計(jì)算模塊230相連,用于設(shè) 置一與特征向量同維的權(quán)值向量;在本實(shí)施例中,特征向量的維數(shù)為四維, 因此所設(shè)置的該;f又值向量也為四維;權(quán)值向量學(xué)習(xí)模塊250,與該語料設(shè)置模塊220、特征向量設(shè)置及計(jì)算 模塊230及權(quán)值向量設(shè)置模塊240相連,用于把目標(biāo)語料庫中各語料的人工 標(biāo)注的關(guān)鍵詞作為正才羊例,其余的候選關(guān)鍵詞作為負(fù)樣例,采用該些正樣例 及負(fù)樣例,對該權(quán)值向量進(jìn)行學(xué)習(xí);進(jìn)行學(xué)習(xí)的具體過程是,對于特征向量 中的每個(gè)特征,通過比較正樣例與負(fù)樣例在該特征上的平均值,來衡量該特 征能在多大程度上區(qū)分正樣例與負(fù)樣例的區(qū)分度,根據(jù)該區(qū)分度來調(diào)整權(quán) 值,完成對權(quán)值向量的學(xué)習(xí);預(yù)處理模塊260,與特征向量設(shè)置及計(jì)算模塊230相連,用于接收目標(biāo) 領(lǐng)域中欲要確定關(guān)鍵詞的一 目標(biāo)文本,對目標(biāo)領(lǐng)域中欲要確定關(guān)鍵詞的該目 標(biāo)文本進(jìn)行停用詞過濾,獲得的該目標(biāo)文本的實(shí)意詞即該目標(biāo)文本的候選關(guān) 鍵詞,根據(jù)特征向量設(shè)置及計(jì)算模塊230為該目標(biāo)領(lǐng)域所設(shè)置的特征向量, 獲得該目標(biāo)文本各候選關(guān)鍵詞的特征向量;及關(guān)鍵詞確定^t塊270,與權(quán)值向量學(xué)習(xí)模塊250及預(yù)處理模塊260相連, 用于利用預(yù)處理模塊260獲得的該目標(biāo)文本各候選關(guān)鍵詞的特征向量,和權(quán) 值向量學(xué)習(xí)模塊250學(xué)習(xí)后的權(quán)值向量,從預(yù)處理模塊260所獲得的候選關(guān) 鍵詞中,確定該目標(biāo)文本最終的關(guān)鍵詞;將每個(gè)候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積,將每個(gè)候 選關(guān)鍵詞的內(nèi)積結(jié)果作為該候選關(guān)鍵詞的得分;根據(jù)該得分高低,對每個(gè)候 選關(guān)鍵詞進(jìn)行排序(本實(shí)施例中是從高到低進(jìn)行排序),根據(jù)該排序確定關(guān) 鍵詞,因?yàn)榈梅衷礁咴接锌赡苁钦嬲年P(guān)鍵詞。圖3為上述語料設(shè)置模塊220的組成示意圖。如圖3所示,該語料設(shè)置 模塊220包括獲取單元224、記錄單元225、整理單元226及合成單元227, 其中獲取單元224,與該領(lǐng)域確定4莫塊210相連,用于獲取領(lǐng)域確定才莫塊210所確定的目標(biāo)領(lǐng)域中的若干文本資料,以及各種各樣的多個(gè)領(lǐng)域中的若干文本資料;記錄單元225,與該獲取單元224及權(quán)值向量學(xué)習(xí)才莫塊250相連,用于 記錄人工對該目標(biāo)領(lǐng)域中若干文本資料所標(biāo)注的關(guān)4建詞;整理單元226,與該獲取單元224相連,用于采用通用的停用詞表,對 該目標(biāo)領(lǐng)域中的該些若干文本資料進(jìn)行停用詞過濾,獲得該目標(biāo)領(lǐng)域中該些 文本資料的實(shí)意詞;還用于采用該通用的停用詞表對多個(gè)領(lǐng)域中的若干文本 資料進(jìn)行停用詞過濾,獲得該多個(gè)領(lǐng)域中該些若干文本資料的實(shí)意詞;及合成單元227,與記錄單元225、整理單元226、特征向量設(shè)置及計(jì)算 -漢塊230及權(quán)值向量學(xué)習(xí)4莫塊250相連,用于將記錄單元225所記錄的人工 標(biāo)注的關(guān)鍵詞,以及整理單元226所獲得的該目標(biāo)領(lǐng)域中該些文本資料的實(shí) 意詞,合為該目標(biāo)語料庫;還用于將該多個(gè)領(lǐng)域中該些文本資料的實(shí)意詞, 合為該通用語料庫。圖4為上述權(quán)值向量學(xué)習(xí)模塊250的組成示意圖。如圖4所示,結(jié)合圖 3所示的語料設(shè)置模塊220的組成示意圖,該權(quán)值向量學(xué)習(xí)模塊250包括樣 例選擇單元254、比4交單元255及調(diào)整單元256,其中樣例選擇單元254,與該記錄單元225及合成單元227相連,用于將該 目標(biāo)語料庫中各語料的人工標(biāo)注的關(guān)鍵詞作為正樣例,其余的候選關(guān)鍵詞作為負(fù)樣例;比較單元255,與該樣例選擇單元254及特征向量設(shè)置及計(jì)算模塊230 相連,用于比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值,調(diào)整單元256,與比較單元255、權(quán)值向量設(shè)置模塊240及關(guān)鍵詞確定 模塊270相連,用于通過該區(qū)分度來調(diào)整權(quán)值向量設(shè)置模塊240所設(shè)置的權(quán) 值向量中的權(quán)值,完成對權(quán)值向量的學(xué)習(xí);為了保證人工標(biāo)注的關(guān)鍵詞在最后的排序中能獲得靠前的位置,通過調(diào) 整單元256還可以為人工標(biāo)注的關(guān)鍵詞設(shè)置較高的權(quán)值,以保證這些人工標(biāo) 注的關(guān)鍵詞能獲得較高的得分。圖5為上述關(guān)鍵詞確定模塊270的組成示意圖。如圖5所示,該關(guān)鍵詞 確定模塊270包括內(nèi)積單元274、排序單元275及確定單元276,其中內(nèi)積單元274,與權(quán)值向量學(xué)習(xí)模塊250及預(yù)處理模塊260相連,用于 將預(yù)處理模塊260獲得的該目標(biāo)文本各候選關(guān)鍵詞的特征向量,與權(quán)值向量 學(xué)習(xí)模塊250學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積, 一個(gè)候選關(guān)鍵詞得到一個(gè)內(nèi)積結(jié) 果,最終獲得該文目標(biāo)本各候選關(guān)鍵詞的內(nèi)積結(jié)果;排序單元275,與該內(nèi)積單元274相連,用于將各內(nèi)積結(jié)果作為各自對 應(yīng)的候選關(guān)鍵詞的得分,根據(jù)每個(gè)候選關(guān)鍵詞的得分高低進(jìn)行排序(比如從 高到低進(jìn)行排序);及確定單元276,與該排序單元275相連,用于根據(jù)該排序確定該目標(biāo)文 本的關(guān)4建詞。以下詳細(xì)說明本發(fā)明上述方法實(shí)施例和系統(tǒng)實(shí)施例的具體實(shí)現(xiàn)過程。語料庫(包括目標(biāo)語料庫和通用語料庫)獲得的方法為先從目標(biāo)領(lǐng)域和 多個(gè)領(lǐng)域中各找出一定數(shù)量的文本資料,對這些文本資料分別進(jìn)行整理,得 到目標(biāo)語料庫和通用語料庫。其中的整理過程,對于目標(biāo)語料庫而言,首先對目標(biāo)領(lǐng)域中的文本資料 進(jìn)行人工標(biāo)注關(guān)鍵詞的處理,也即通過人工標(biāo)注出目標(biāo)領(lǐng)域中文本資料的關(guān) 鍵詞, 一般來說,這些人工標(biāo)注的關(guān)鍵詞,肯定是本領(lǐng)域中大多數(shù)文本的關(guān) 鍵詞;然后對文本資料進(jìn)行切詞以及標(biāo)注詞性處理,最后根據(jù)通用的停用詞 表,過濾掉文本資料中的停用詞,得到停用詞過濾后所剩下的實(shí)意詞。 一般 地,對于一片文本資料而言,人工標(biāo)注的關(guān)鍵詞是實(shí)意詞中的一部分。對于 通用語料庫而言,對通用領(lǐng)域中的文本資料進(jìn)行停用詞過濾處理,過濾掉文 本資料中的停用詞,得到通用領(lǐng)域文本資料的實(shí)意詞。本實(shí)施例中,目標(biāo)語 料庫中的語料來自網(wǎng)站,人工標(biāo)注的關(guān)4建詞由人工標(biāo)注在網(wǎng)頁關(guān)鍵字(meta keyword)標(biāo)簽中。經(jīng)過上述整理之后,對于目標(biāo)領(lǐng)域中的文本資料而言,就變成一個(gè)由若 干候選關(guān)鍵詞組成的集合,將該集合稱之為一語料,若干個(gè)語料構(gòu)成目標(biāo)語 料庫。對于通用領(lǐng)域中的文本資料而言,變成一個(gè)由若干實(shí)意詞組成的集合, 將該集合也即為一語料,若干個(gè)這樣的語料構(gòu)成通用語料庫。經(jīng)過整理后的文本資料,其關(guān)鍵的不是詞本身,而是詞的特征。詞的特征的選取根據(jù)應(yīng)用的不同而有所差別。此處列舉4個(gè)特征,分別是詞頻-逆文檔頻率(TFIDF)、詞性、首次出現(xiàn)的相對位置和卡方(CHI)統(tǒng)計(jì)量, 這樣確定的每個(gè)候選關(guān)鍵詞,均由一個(gè)四維的特征向量表示,各維分別對應(yīng) 這4個(gè)特征的取值。以下分別說明TFIDF、詞性、首次出現(xiàn)的相對位置和CHI統(tǒng)計(jì)量的獲 取過程。(1 ) TFIDFTFIDF綜合了詞頻(TF)和逆文檔頻率(IDF),是用來衡量目標(biāo)詞T 對于當(dāng)前文本資料D的相關(guān)性,計(jì)算公式如下(P表示事件發(fā)生的概率)TFIDF (T, D) =TFx (-logDF)。 其中TF-目標(biāo)詞T出現(xiàn)的次數(shù)+文本資料D的總詞數(shù),表示目標(biāo)詞T在文本 資料D中的出現(xiàn)頻率;DF二出現(xiàn)目標(biāo)詞1的文本資料數(shù)+當(dāng)前領(lǐng)域的語料庫的總文本資料數(shù), 表示語料庫中含有目標(biāo)詞T的文本資料比例。(2) 詞性關(guān)鍵詞在詞性上有一定的分布特征,不同領(lǐng)域之間這個(gè)特征是不同的, 比如教育類的文本資料中,名詞作為關(guān)鍵詞比較多,但是體育類的文本資料 中,可能動詞比較多。這個(gè)特征就是用來衡量當(dāng)前領(lǐng)域關(guān)4建詞的詞性特征的, 即衡量某種詞性的目標(biāo)詞有多少可能在這個(gè)領(lǐng)域成為關(guān)4定詞的特征值F (詞 性),其中的詞性可以是名詞、動詞等等,例如當(dāng)考慮名詞時(shí),計(jì)算公式如 下F (名詞)=當(dāng)前研究領(lǐng)域被人工標(biāo)注為關(guān)鍵詞中名詞的數(shù)量+當(dāng)前研究 領(lǐng)域人工標(biāo)注的關(guān)鍵詞總數(shù)。(3) 首次出現(xiàn)的相對位置通常關(guān)鍵詞都傾向于在文本資料的開頭,甚至是標(biāo)題中出現(xiàn),因此可以 認(rèn)為越早出現(xiàn)的詞越有可能成為關(guān)鍵詞。該特征的取值即是目標(biāo)詞首次出現(xiàn) 的位置除以文本資料長度。(4 ) CHI統(tǒng)計(jì)量CHI統(tǒng)計(jì)量用來衡量一個(gè)目標(biāo)詞T與某個(gè)領(lǐng)域F的相關(guān)程度,定義如下:0//(r,F) = ("llX"22-"12X"21)X -("u+",2+"2,+"22)- (式i)V (" +"12)(W21十"22)("u +"21)("12 +"22)其中," 指目標(biāo)詞T出現(xiàn)在領(lǐng)域F中的次數(shù),"21指不是目標(biāo)詞T的詞 出現(xiàn)在領(lǐng)域F中的次數(shù),"22指不是目標(biāo)詞T的詞出現(xiàn)在不是領(lǐng)域F的領(lǐng)域 中的次數(shù),"12指目標(biāo)詞T出現(xiàn)在不是領(lǐng)域F的領(lǐng)域中的次數(shù)??梢钥闯?, C歷(r,F)值越大,目標(biāo)詞T與領(lǐng)域F的相關(guān)性就越高。當(dāng) 目標(biāo)詞T與領(lǐng)域F正相關(guān),即與通用語料庫相比,目標(biāo)詞T與領(lǐng)域F的相 關(guān)性更高,當(dāng)《 ><"22-"12x"21<0,目標(biāo)詞T與領(lǐng)域F負(fù)相關(guān),即與通用語料 庫相比,目標(biāo)詞T與領(lǐng)域F的相關(guān)性4交^f氐。設(shè)置一個(gè)特征向量同維的權(quán)值向量,然后利用目標(biāo)語料庫,該該權(quán)值向 量進(jìn)4亍學(xué)習(xí)。權(quán)值向量在最開始可以:沒為(0, 0, 0, 0)。對權(quán)值向量進(jìn)行學(xué)習(xí)時(shí),把每個(gè)語料中人工標(biāo)注的關(guān)鍵詞作為正樣例, 其余的候選關(guān)鍵詞作為負(fù)樣例。之后,對于每一個(gè)特征,通過比較正樣例與 負(fù)樣例在該特征上的平均值,來衡量該特征能在多大程度上區(qū)分關(guān)4建詞與非 關(guān)鍵詞的區(qū)分度,根據(jù)區(qū)分度來調(diào)整權(quán)值。例如對于TFIDF這個(gè)特征,其 區(qū)分度采用如下的數(shù)學(xué)描述々trdf =^Cpo^"ve_TFIDF) — £(wegw//ve —TFIDF) (式2 )其中£(戸涵_ TFIDF) = (-^-Z TFIDF)五(",/ve _ TFIDF) = (-^-Z TFIDF) (式4 )iVw附6e;-Q/Ter附"其中五(pow加e —TFIDF),表示正樣例在TFIDF這一特征上的平均值; 五("eg油Ve — TFIDF),表示負(fù)樣例在TFIDF這一特征上的平均值;ZTFIDF,表示對TFIDF求和;7Vw附6erQ/Ke戸oW ,表示人工才示注的關(guān)鍵詞的數(shù)量;A^w6erO/T^7M ,表示所有其它4吳選關(guān)4建詞的凄t量。
通過對其他三個(gè)特征(即詞性、首次出現(xiàn)的相對位置和Cffl統(tǒng)計(jì)量) 的計(jì)算,得到用于更新權(quán)值的向量",即(/ ,F(xiàn), A。s, lstDccurenee, / ch,),其中〃TFIDF 表示TFIDF特征所對應(yīng)的向量,/^表示詞性特征所對應(yīng)的向量,/^tOccu^e表 示首次出現(xiàn)的相對位置特征所對應(yīng)的向量,Ahi表示CHI統(tǒng)計(jì)量特征所對應(yīng)
的向量。設(shè)定學(xué)習(xí)速度常量/i,則權(quán)值向量"在第n篇文本資料后的更新使
用下式<formula>formula see original document page 22</formula>
(式5)
通過如上學(xué)習(xí),得到權(quán)值向量w后,就可以提取目標(biāo)文本的關(guān)鍵詞了, 即將目標(biāo)文本中的候選關(guān)鍵詞的特征向量與權(quán)值向量內(nèi)積的結(jié)果作為目標(biāo) 文本候選關(guān)鍵詞的最后得分,通過對該得分進(jìn)行排序,獲得最后的關(guān)4定詞, 得分越高越有可能是關(guān)鍵詞,關(guān)鍵詞個(gè)數(shù)根據(jù)應(yīng)用不同而具體設(shè)定。
以下通過在某網(wǎng)站抓取一 IT領(lǐng)域的文章,作為本發(fā)明一實(shí)施例來詳細(xì) 說明本發(fā)明的技術(shù)方案。對于網(wǎng)頁而言,文章所有的關(guān)鍵詞都標(biāo)注在meta keyword標(biāo)簽內(nèi),可以用來學(xué)習(xí)。權(quán)值向量的初始值設(shè)為(0, 0, 0, 0)。
例如,學(xué)習(xí)中遇到的一篇文章如下
"易用性是富士 A800的核心理念,簡潔的按鍵布局將使用戶從繁瑣的操 作中解放出來,更多的享受拍攝的樂趣。富士 A800擁有一個(gè)全新設(shè)計(jì)的模 式轉(zhuǎn)盤,用戶能夠方便快捷的對場景模式進(jìn)行選擇。富士 A800設(shè)置了 14 種的場景模式,使用戶能夠根據(jù)實(shí)際情況選擇最佳的場景模式來進(jìn)行拍攝。 例如,"嬰兒,,模式將再現(xiàn)嬰兒柔嫩的皮膚色調(diào),而"雙重防抖"模式則可以同 時(shí)防止手抖及被拍攝物體移動所造成的模糊。富士A800配置富士A800 釆用 一塊1/1.6英寸的800萬像素Super CCD,最大分辨率為3296 x 2472。 使用焦距等效于傳統(tǒng)35mm相機(jī)的36-108mm、最大光圈F2.8-F5.1的3倍光 學(xué)變焦鏡頭。ISO為100/200/400/800??扉T為4- 1/1600秒,并且擁有一個(gè) 2.5英寸的液晶顯示屏,象素為11.5萬。使用XD/SD卡作為存儲卡,內(nèi)置 了 10MB內(nèi)存可以存儲照片。電池系統(tǒng)使用2節(jié)5號AA電池。富士A800 機(jī)身重量約151克,外型尺寸是97.5 x 61.9 x31.0mm。"這篇文本資料的meta keyword標(biāo)簽內(nèi)的關(guān)鍵詞為"A800"和"富士"。在切 詞、去除停用詞、特征提取和特征值計(jì)算后,候選關(guān)鍵詞的特征向量表示如 下
A800 0.4370 0.1307 0.9767 0.0732 富士 0.3380 0.1307 0.9533 0.1644
1 0.0859 0.0020 0.5097 0.0598
2 0.0863 0.0020 0.9611 -0.1374 5 0扁1 0.0020 0.2724 0.1443 800 0.0628 0.0020 0.3307 0.2883 X 0層2 0.1307 0.4553 0.3008 場景模式0.1479 0.2382 0.7743 0.0909 電池0.0567 0.2865 0.1634 0.3746 進(jìn)行0.0567 0.1368 0.7704-0.0855 模式0.0896 0.2865 0.8093 -0.3433 能夠0.0644 0.1368 0.7938 0.4074 拍攝0.0854 0.2382 0.8482 -0.3223 使用0.0796 0.1368 0.4436-0.0346 選擇0,0681 0.1368 0.7665 0.3843 一個(gè)0.0529 0.0020 0.8249 0.2274 英寸0.0512 0.0036 0.4942-0.2252 嬰兒0.1093 0.2865 0.6654 0.0579 擁有0.0537 0.1368 0.8288-0.1684
用戶0.0836 0.2865 0.8988 -0.2368
通過計(jì)算,可得
E (positive—tfidf) =0.3875
E (negative一tfidf) =0.0794E (positive_pos ) =0.1307
E ( negative_pos ) =0.1311
E (positive_first—occurence) =0.965
E (negative—first—occurence ) =0.6153
E (positive一chi) =0.1188
E (negative一chi) =0.0432
取"l,則
/ - (0.3081 ,-0.0004,0.3497,0.0756)
q-cyo+Z^-CO'O.O'O) + (0.3081 ,-0.0004 ,0.3497 ,0.0756) =(0.3081 ,-0.0004,0.3497,0.0756)
得到第 一次更新后的權(quán)值向量q 。
本發(fā)明所提供的技術(shù)方案,通過做充足的預(yù)處理來減少目標(biāo)文本實(shí)際提 取關(guān)鍵詞時(shí)的工作量,可以高效地提取關(guān)鍵詞,在不損失性能的前提下,能 夠滿足像互聯(lián)網(wǎng)等海量文本分析的應(yīng)用。本發(fā)明所提供的技術(shù)方案,利用線 性加權(quán)求和方式(即對所有特征值與其特征的權(quán)重的積求和)給關(guān)鍵詞打分 的方法,并且還給出了確定公式中各系數(shù)的方法。
雖然本發(fā)明所揭露的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本 發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi) 的技術(shù)人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實(shí)施的 形式上及細(xì)節(jié)上作任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所 附的權(quán)利要求書所界定的范圍為準(zhǔn)。
權(quán)利要求
1、一種關(guān)鍵詞的確定方法,其特征在于,包括確定一目標(biāo)領(lǐng)域;通過整理所述目標(biāo)領(lǐng)域中的若干文本資料,獲得一目標(biāo)語料庫,所述目標(biāo)語料庫為所述目標(biāo)領(lǐng)域內(nèi)的候選關(guān)鍵詞的集合;通過整理多個(gè)領(lǐng)域中的若干文本資料,獲得一通用語料庫;結(jié)合所述通用語料庫,為所述目標(biāo)語料庫中每個(gè)候選關(guān)鍵詞設(shè)置并計(jì)算特征向量;設(shè)置一與所述特征向量同維的權(quán)值向量;利用所述目標(biāo)語料庫及特征向量,對所述權(quán)值向量進(jìn)行學(xué)習(xí);對所述目標(biāo)領(lǐng)域中一欲要確定關(guān)鍵詞的目標(biāo)文本進(jìn)行停用詞過濾,獲得的實(shí)意詞為所述目標(biāo)文本的候選關(guān)鍵詞;及獲得所述目標(biāo)文本各候選關(guān)鍵詞的特征向量,結(jié)合學(xué)習(xí)后的權(quán)值向量,確定所述目標(biāo)文本的關(guān)鍵詞。
2、 如權(quán)利要求l所述的方法,其特征在于,獲得所述目標(biāo)語料庫的步 驟,包括人工標(biāo)注所述若干文本資料的關(guān)鍵詞,并對所述若干文本資料進(jìn)行停用 詞過濾;人工標(biāo)注的關(guān)鍵詞及停用詞過濾后的實(shí)意詞,合為所述目標(biāo)語料庫。
3、 如權(quán)利要求2所述的方法,其特征在于,對所述權(quán)值向量進(jìn)行學(xué)習(xí) 的步驟,包括把所述目標(biāo)語料庫中人工標(biāo)注的關(guān)鍵詞作為正樣例,其余候選關(guān)鍵詞作 為負(fù)樣例,對于所述特征向量中的每個(gè)特征,通過該特征區(qū)分所述正樣例與 負(fù)樣例的區(qū)分度來調(diào)整權(quán)值,完成對所述權(quán)值向量的學(xué)習(xí)。
4、 如權(quán)利要求1所述的方法,其特征在于,確定所述目標(biāo)文本的關(guān)鍵 詞的步驟,包括將所述目標(biāo)文本各候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積,得到各候選關(guān)鍵詞的內(nèi)積結(jié)果;將內(nèi)積結(jié)果作為對應(yīng)候選關(guān)鍵詞的得分,4艮據(jù)所述得分對所述個(gè)候選關(guān) 4建詞進(jìn)行排序;及根據(jù)所述排序確定所述目標(biāo)文本的關(guān)鍵詞。
5、 如權(quán)利要求l所述的方法,其特征在于所述特征向量中的特征,包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相 對位置和卡方統(tǒng)計(jì)量。
6、 一種關(guān)鍵詞的確定系統(tǒng),其特征在于,包括 領(lǐng)域確定模塊,用于確定一目標(biāo)領(lǐng)域;語料設(shè)置模塊,與所述領(lǐng)域確定模塊相連,用于獲取該目標(biāo)領(lǐng)域中的若 干文本資料,以及多個(gè)領(lǐng)域中的若干文本資料;還用于將該目標(biāo)領(lǐng)域中的若 干文本資料及該多個(gè)領(lǐng)域中的若干文本資料分別整理成一 目標(biāo)語料庫及一 通用語料庫;其中所述目標(biāo)語料庫為所述目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合;特征向量設(shè)置及計(jì)算模塊,與所述語料設(shè)置模塊相連,用于結(jié)合所述通 用語料庫,為所述目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量;權(quán)值向量設(shè)置模塊,與所述特征向量設(shè)置及計(jì)算模塊相連,用于設(shè)置一 與所述特征向量同維的權(quán)值向量;權(quán)值向量學(xué)習(xí)模塊,與所述語料設(shè)置模塊、特征向量設(shè)置及計(jì)算模塊及 權(quán)值向量設(shè)置模塊相連,用于利用所述目標(biāo)語料庫及特征向量,對所述權(quán)值 向量進(jìn)行學(xué)習(xí);預(yù)處理模塊,與所述特征向量設(shè)置及計(jì)算模塊相連,用于接收所述目標(biāo) 領(lǐng)域中一欲要確定關(guān)4建詞的目標(biāo)文本,對所述目標(biāo)文本進(jìn)行停用詞過濾,獲 得的實(shí)意詞為所述目標(biāo)文本的候選關(guān)4定詞,獲得所述目標(biāo)文本各候選關(guān)鍵詞 的特征向量;及關(guān)鍵詞確定模塊,與所述預(yù)處理模塊及權(quán)值向量學(xué)習(xí)模塊相連,用于利 用所述目標(biāo)文本各候選關(guān)^:詞的特征向量及學(xué)習(xí)后的權(quán)值向量,確定所述目 標(biāo)文本的關(guān)鍵詞。
7、 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述語料設(shè)置模塊,包括獲取單元,與所述領(lǐng)域確定模塊相連,用于獲取所述目標(biāo)領(lǐng)域中的若千 文本資料,以及所述多個(gè)領(lǐng)域中的若干文本資料;記錄單元,與所述獲取單元及權(quán)值向量學(xué)習(xí)模塊相連,用于記錄人工對 所述目標(biāo)領(lǐng)域中的若干文本資料所標(biāo)注的關(guān)鍵詞;整理單元,與所述獲取單元相連,用于對所述目標(biāo)領(lǐng)域中的若千文本資 料及所述多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾,分別獲得所述目標(biāo)領(lǐng) 域中的文本資料的實(shí)意詞及所述多個(gè)領(lǐng)域中的若干文本資料的實(shí)意詞;及合成單元,與所述記錄單元、整理單元、特征向量設(shè)置及計(jì)算模塊及權(quán) 值向量學(xué)習(xí)模塊相連,用于將人工標(biāo)注的關(guān)鍵詞以及所述目標(biāo)領(lǐng)域中的文本 資料的實(shí)意詞,合為所述目標(biāo)語料庫;還用于將所述多個(gè)領(lǐng)域中的文本資料 的實(shí)意詞,合為所述通用語料庫。
8、 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述權(quán)值向量學(xué)習(xí)模塊, 包括樣例選擇單元,與所述記錄單元及合成單元相連,用于將人工標(biāo)注的關(guān) 鍵詞作為正樣例,其余的候選關(guān)鍵詞作為負(fù)樣例;比較單元,與所述樣例選擇單元及特征向量設(shè)置及計(jì)算模塊相連,用于 比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值,通過該些平 均值獲得所述特征向量中每個(gè)特征區(qū)分正樣例與負(fù)樣例的區(qū)分度;及調(diào)整單元,與所述比較單元、權(quán)值向量設(shè)置模塊及關(guān)鍵詞確定模塊相連, 用于通過所述區(qū)分度來調(diào)整所述權(quán)值向量中的權(quán)值,完成對所述權(quán)值向量的 學(xué)習(xí)。
9、 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述關(guān)鍵詞確定才莫塊,包括內(nèi)積單元,與所述權(quán)值向量學(xué)習(xí)模塊及預(yù)處理模塊相連,用于將所述目 標(biāo)文本各候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積, 一候選關(guān)鍵 詞獲得一內(nèi)積結(jié)果;排序單元,與所述內(nèi)積單元相連,用于將內(nèi)積結(jié)果作為對應(yīng)的候選關(guān)鍵詞的得分,根據(jù)所述得分對所述個(gè)候選關(guān)鍵詞進(jìn)行排序;及確定單元,與所述排序單元相連,用于根據(jù)所述排序確定所述目標(biāo)文本 的關(guān)鍵詞。
10、 如權(quán)利要求6所述的系統(tǒng),其特征在于所述特征向量設(shè)置及計(jì)算模塊,所設(shè)置的特征向量中的特征包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
11、 一種權(quán)值向量的學(xué)習(xí)方法,應(yīng)用于確定文本資料的關(guān)鍵詞,其特征 在于,包括確定一目標(biāo)領(lǐng)域;通過整理所述目標(biāo)領(lǐng)域中的若干文本資料,獲得一目標(biāo)語料庫,所述目 標(biāo)語料庫為所迷目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合;通過整理多個(gè)領(lǐng)域中的若干文本資料,獲得一通用語料庫;結(jié)合所述通用語料庫,為所述目標(biāo)語料庫中每個(gè)候選關(guān)鍵詞設(shè)置并計(jì)算 特4正向量;設(shè)置一與所述特征向量同維的權(quán)值向量;利用所述目標(biāo)語料庫及特征向量,對所述權(quán)值向量進(jìn)行學(xué)習(xí)。
12、 如權(quán)利要求11所述的方法,其特征在于,獲得所述目標(biāo)語料庫的 步驟,包括對所述若干文本資料進(jìn)行人工標(biāo)注關(guān)鍵詞,并對所述若干文本資料進(jìn)行 停用詞過濾;人工標(biāo)注的關(guān)鍵詞及停用詞過濾后的實(shí)意詞,合為所述目標(biāo)語 料庫。
13、 如權(quán)利要求12所述的方法,其特征在于,對所述權(quán)值向量進(jìn)行學(xué) 習(xí)的步驟,包括把所述目標(biāo)語料庫中人工標(biāo)注的關(guān)鍵詞作為正樣例,其余候選關(guān)鍵詞作 為負(fù)樣例,對于所述特征向量中的每個(gè)特征,通過該特征區(qū)分所述正樣例與負(fù)樣例的區(qū)分度來調(diào)整權(quán)值,完成對所述權(quán)值向量的學(xué)習(xí)。
14、 如權(quán)利要求11所述的方法,其特征在于所述特征向量中的特征,包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相 對位置和卡方統(tǒng)計(jì)量。
15、 一種權(quán)值向量的學(xué)習(xí)系統(tǒng),應(yīng)用于確定文本資料的關(guān)鍵詞,其特征 在于,包括領(lǐng)域確定模塊,用于確定一目標(biāo)領(lǐng)域;語料設(shè)置模塊,與所述領(lǐng)域確定模塊相連,用于獲取該目標(biāo)領(lǐng)域中的若 干文本資料,以及多個(gè)領(lǐng)域中的若干文本資料;還用于將該目標(biāo)領(lǐng)域中的若 干文本資料及該多個(gè)領(lǐng)域中的若干文本資料分別整理成一 目標(biāo)語料庫及一 通用語料庫;其中所述目標(biāo)語料庫為所述文本的候選關(guān)鍵詞的集合;特征向量設(shè)置及計(jì)算模塊,與所述語料設(shè)置模塊相連,用于結(jié)合所述通 用語料庫,為所述目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量;權(quán)值向量設(shè)置模塊,與所述特征向量設(shè)置及計(jì)算模塊相連,用于設(shè)置一 與所述特征向量同維的權(quán)值向量;及權(quán)值向量學(xué)習(xí)模塊,與所述語料設(shè)置模塊、特征向量設(shè)置及計(jì)算模塊及 權(quán)值向量設(shè)置模塊相連,用于利用所述目標(biāo)語料庫及特征向量,對所述權(quán)值 向量進(jìn)行學(xué)習(xí)。
16、 如權(quán)利要求15所述的系統(tǒng),其特征在于,所述語料設(shè)置模塊,包括獲取單元,與所述領(lǐng)域確定模塊相連,用于獲取所述目標(biāo)領(lǐng)域中的若干 文本資料,以及所述多個(gè)領(lǐng)域中的若干文本資料;記錄單元,與所述獲取單元及權(quán)值向量學(xué)習(xí)模塊相連,用于記錄人工對 所述目標(biāo)領(lǐng)域中的若干文本資料所標(biāo)注的關(guān)鍵詞;整理單元,與所述獲取單元相連,用于對所述目標(biāo)領(lǐng)域中的若干文本資 料及所述多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾,分別獲得所述目標(biāo)領(lǐng) 域中的文本資料的實(shí)意詞及所述多個(gè)領(lǐng)域中的若干文本資料的實(shí)意詞;及合成單元,與所述記錄單元、整理單元、特征向量設(shè)置及計(jì)算模塊及權(quán) 值向量學(xué)習(xí)模塊相連,用于將人工標(biāo)注的關(guān)鍵詞以及所述目標(biāo)領(lǐng)域中的文本資料的實(shí)意詞,合為所述目標(biāo)語料庫;還用于將所述多個(gè)領(lǐng)域中的文本資料 的實(shí)意詞,合為所述通用語料庫。
17、 如權(quán)利要求16所述的系統(tǒng),其特征在于,所述權(quán)值向量學(xué)習(xí)模塊, 包括樣例選擇單元,與所述記錄單元及合成單元相連,用于將人工標(biāo)注的關(guān) 4建詞作為正樣例,其余的候選關(guān)^t建詞作為負(fù)樣例;比較單元,與所述樣例選擇單元及特征向量設(shè)置及計(jì)算模塊相連,用于 比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值,通過該些平 均值獲得所述特征向量中每個(gè)特征區(qū)分正樣例與負(fù)樣例的區(qū)分度;及調(diào)整單元,與所述比較單元、權(quán)值向量設(shè)置模塊及關(guān)鍵詞確定模塊相連, 用于通過所述區(qū)分度來調(diào)整所述權(quán)值向量中的權(quán)值,完成對所述權(quán)值向量的 學(xué)習(xí)。
18、 如權(quán)利要求15所述的系統(tǒng),其特征在于所述特征向量設(shè)置及計(jì)算模塊,所設(shè)置的特征向量中的特征包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
全文摘要
本發(fā)明公開了一種關(guān)鍵詞的確定方法及系統(tǒng),以及權(quán)值向量的學(xué)習(xí)方法及系統(tǒng),可以應(yīng)用于大規(guī)模數(shù)據(jù)應(yīng)用的關(guān)鍵詞提取。該關(guān)鍵詞確定方法,首先根據(jù)一目標(biāo)領(lǐng)域及一通用領(lǐng)域?qū)σ粰?quán)值向量進(jìn)行學(xué)習(xí),該目標(biāo)領(lǐng)域內(nèi)的一文字資料設(shè)置特征向量,并根據(jù)所學(xué)習(xí)的該目標(biāo)領(lǐng)域權(quán)值向量,確定該文字資料的關(guān)鍵詞。本發(fā)明的技術(shù)方案,在不損失性能的前提下,提高了處理效率,滿足像互聯(lián)網(wǎng)等海量文本分析的應(yīng)用。
文檔編號G06F17/30GK101504667SQ20091008061
公開日2009年8月12日 申請日期2009年3月20日 優(yōu)先權(quán)日2009年3月20日
發(fā)明者劉文碩 申請人:北京學(xué)之途網(wǎng)絡(luò)科技有限公司