關(guān)鍵詞的確定方法及系統(tǒng)、權(quán)值向量的學(xué)習(xí)方法及系統(tǒng)的制作方法

文檔序號：6484099閱讀：157來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：關(guān)鍵詞的確定方法及系統(tǒng)、權(quán)值向量的學(xué)習(xí)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自然語言處理領(lǐng)域，尤其涉及一種關(guān)鍵詞的確定方法及系統(tǒng) 和一種權(quán)值向量的學(xué)習(xí)方法及系統(tǒng)。
背景技術(shù)：
關(guān)鍵詞用于表達(dá)文本資料的主題內(nèi)容，可以輔助信息的分類和檢索。關(guān) 鍵詞提取是自然語言處理領(lǐng)域內(nèi)的傳統(tǒng)話題，已經(jīng)被廣泛研究。在應(yīng)用中，關(guān)鍵詞是從文本資料的標(biāo)題、摘要或全文中抽選出來的，具有實(shí)際意義的自然語言詞匯，作為信息存貯和檢索依據(jù)的一種檢索語言。例如，各大搜索引擎和網(wǎng)絡(luò)數(shù)據(jù)庫除了提供分類檢索外，幾乎都提供關(guān)鍵詞檢索法。
現(xiàn)有技術(shù)主要集中使用一些經(jīng)典的機(jī)器學(xué)習(xí)思想，例如貝葉斯分類器，
支持向量機(jī)(SVM),決策樹等等。這些方法雖然有效，但是由于算法的復(fù)雜度較高，導(dǎo)致其時(shí)間效率并不突出，在一些針對大規(guī)模數(shù)據(jù)的應(yīng)用中，可行性并不高。
因此有必要提供針對大規(guī)模數(shù)據(jù)應(yīng)用的關(guān)鍵詞提取技術(shù)，以解決當(dāng)前使用經(jīng)典的機(jī)器學(xué)習(xí)思想提取關(guān)鍵詞時(shí)針對大規(guī)模應(yīng)用可行性不高的問題。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是在于需要提供一種關(guān)鍵詞的確定方法及系統(tǒng)，以及4又值向量的學(xué)習(xí)方法及系統(tǒng)，可以應(yīng)用于大規(guī)才莫數(shù)據(jù)應(yīng)用的關(guān)4建詞提取。
為了解決上述技術(shù)問題，本發(fā)明提供了一種關(guān)鍵詞的確定方法，該方法包括
確定一目標(biāo)領(lǐng)域；通過整理所述目標(biāo)領(lǐng)域中的若千文本資料，獲得一目標(biāo)語料庫，所述目
標(biāo)語料庫為所述目標(biāo)領(lǐng)域內(nèi)的候選關(guān)鍵詞的集合；
通過整理多個(gè)領(lǐng)域中的若干文本資料，獲得一通用語料庫；
結(jié)合所述通用語料庫，為所述目標(biāo)語料庫中每個(gè)候選關(guān)鍵詞設(shè)置并計(jì)算
特征向量；
設(shè)置一與所述特征向量同維的權(quán)值向量；
利用所述目標(biāo)語料庫及特征向量，對所述;K值向量進(jìn)行學(xué)習(xí)；
對所述目標(biāo)領(lǐng)域中一欲要確定關(guān)鍵詞的目標(biāo)文本進(jìn)行停用詞過濾，獲得的實(shí)意詞為所述目標(biāo)文本的候選關(guān)鍵詞；及
獲得所述目標(biāo)文本各候選關(guān)鍵詞的特征向量，結(jié)合學(xué)習(xí)后的權(quán)值向量，確定所述目標(biāo)文本的關(guān)鍵詞。
如上所述的方法中，獲得所述目標(biāo)語料庫的步驟，可以包括
人工標(biāo)注所述若千文本資料的關(guān)鍵詞，并對所述若干文本資料進(jìn)行停用詞過濾；人工標(biāo)注的關(guān)鍵詞及停用詞過濾后的實(shí)意詞，合為所述目標(biāo)語料庫。
進(jìn)一步地，對所述權(quán)值向量進(jìn)行學(xué)習(xí)的步驟，可以包括
把所述目標(biāo)語料庫中人工標(biāo)注的關(guān)鍵詞作為正樣例，其余候選關(guān)鍵詞作為負(fù)樣例，對于所述特征向量中的每個(gè)特征，通過該特征區(qū)分所述正樣例與負(fù)樣例的區(qū)分度來調(diào)整權(quán)值，完成對所述4又值向量的學(xué)習(xí)。
如上所述的方法中，確定所述目標(biāo)文本的關(guān)鍵詞的步驟，可以包括
將所述目標(biāo)文本各候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi) 積，得到各候選關(guān)鍵詞的內(nèi)積結(jié)果；
將內(nèi)積結(jié)果作為對應(yīng)候選關(guān)鍵詞的得分，根據(jù)所述得分對所述個(gè)候選關(guān) 鍵詞進(jìn)行排序；及
根據(jù)所述排序確定所述目標(biāo)文本的關(guān)鍵詞。
如上所述的方法中，所述特征向量中的特征，可以包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
為了解決上述技術(shù)問題，本發(fā)明還提供了一種關(guān)鍵詞的確定系統(tǒng)，該系統(tǒng)包括
領(lǐng)域確定模塊，用于確定一目標(biāo)領(lǐng)域；
語料設(shè)置模塊，與所述領(lǐng)域確定模塊相連，用于獲取該目標(biāo)領(lǐng)域中的若干文本資料，以及多個(gè)領(lǐng)域中的若干文本資料；還用于將該目標(biāo)領(lǐng)域中的若干文本資料及該多個(gè)領(lǐng)域中的若干文本資料分別整理成一目標(biāo)語料庫及一通用語料庫；其中所述目標(biāo)語料庫為所述目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合；
特征向量設(shè)置及計(jì)算模塊，與所述語料設(shè)置模塊相連，用于結(jié)合所述通用語料庫，為所述目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量；
權(quán)值向量設(shè)置模塊，與所述特征向量設(shè)置及計(jì)算模塊相連，用于設(shè)置一與所述特征向量同維的斥又值向量；
權(quán)值向量學(xué)習(xí)模塊，與所述語料設(shè)置模塊、特征向量設(shè)置及計(jì)算模塊及權(quán)值向量設(shè)置模塊相連，用于利用所述目標(biāo)語料庫及特征向量，對所述權(quán)值向量進(jìn)行學(xué)習(xí)；
預(yù)處理模塊，與所述特征向量設(shè)置及計(jì)算模塊相連，用于接收所述目標(biāo) 領(lǐng)域中一欲要確定關(guān)4建詞的目標(biāo)文本，對所述目標(biāo)文本進(jìn)行停用詞過濾，獲得的實(shí)意詞為所述目標(biāo)文本的候選關(guān)鍵詞，獲得所述目標(biāo)文本各候選關(guān)鍵詞的特征向量；及
關(guān)鍵詞確定模塊，與所述預(yù)處理模塊及權(quán)值向量學(xué)習(xí)模塊相連，用于利用所述目標(biāo)文本各候選關(guān)鍵詞的特征向量及學(xué)習(xí)后的權(quán)值向量，確定所述目標(biāo)文本的關(guān)鍵詞。
如上所述的系統(tǒng)中，所述語料設(shè)置模塊，可以包括
獲取單元，與所述領(lǐng)域確定模塊相連，用于獲取所述目標(biāo)領(lǐng)域中的若干文本資料，以及所述多個(gè)領(lǐng)域中的若干文本資料；
記錄單元，與所述獲取單元及權(quán)值向量學(xué)習(xí)模塊相連，用于記錄人工對所述目標(biāo)領(lǐng)域中的若干文本資料所標(biāo)注的關(guān)鍵詞；
整理單元，與所述獲取單元相連，用于對所述目標(biāo)領(lǐng)域中的若干文本資料及所述多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾，分別獲得所述目標(biāo)領(lǐng) 域中的文本資料的實(shí)意詞及所述多個(gè)領(lǐng)域中的若千文本資料的實(shí)意詞；及合成單元，與所述記錄單元、整理單元、特征向量設(shè)置及計(jì)算模塊及權(quán) 值向量學(xué)習(xí)模塊相連，用于將人工標(biāo)注的關(guān)鍵詞以及所述目標(biāo)領(lǐng)域中的文本
資料的實(shí)意詞，合為所述目標(biāo)語料庫；還用于將所述多個(gè)領(lǐng)域中的文本資料的實(shí)意詞，合為所述通用語料庫。
進(jìn)一步地，所述權(quán)值向量學(xué)習(xí)模塊，可以包括
樣例選擇單元，與所述記錄單元及合成單元相連，用于將人工標(biāo)注的關(guān) 鍵詞作為正樣例，其余的候選關(guān)鍵詞作為負(fù)樣例；
比較單元，與所述樣例選擇單元及特征向量設(shè)置及計(jì)算模塊相連，用于比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值，通過該些平均值獲得所述特征向量中每個(gè)特征區(qū)分正樣例與負(fù)樣例的區(qū)分度；及
調(diào)整單元，與所述比較單元、權(quán)值向量設(shè)置模塊及關(guān)鍵詞確定模塊相連，用于通過所述區(qū)分度來調(diào)整所述權(quán)值向量中的權(quán)值，完成對所述權(quán)值向量的學(xué)習(xí)。
如上所述的系統(tǒng)中，所述關(guān)鍵詞確定模塊，可以包括
內(nèi)積單元，與所述權(quán)值向量學(xué)習(xí)模塊及預(yù)處理模塊相連，用于將所述目
標(biāo)文本各候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積，一候選關(guān)鍵
詞獲得一內(nèi)積結(jié)杲；
排序單元，與所述內(nèi)積單元相連，用于將內(nèi)積結(jié)果作為對應(yīng)的候選關(guān)鍵詞的得分，根據(jù)所述得分對所述個(gè)候選關(guān)鍵詞進(jìn)行排序；及
確定單元，與所述排序單元相連，用于才艮據(jù)所述排序確定所述目標(biāo)文本的關(guān)4建詞。
如上所述的系統(tǒng)中，所述特征向量設(shè)置及計(jì)算模塊，所設(shè)置的特征向量中的特征可以包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng) 計(jì)量。
為了解決上述技術(shù)問題，本發(fā)明還提供了一種權(quán)值向量的學(xué)習(xí)方法，應(yīng) 用于確定文本資料的關(guān)鍵詞，包括
確定一目標(biāo)領(lǐng)^l;
通過整理所述目標(biāo)領(lǐng)域中的若干文本資料，獲得一目標(biāo)語料庫，所述目標(biāo)語料庫為所述目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合；
通過整理多個(gè)領(lǐng)域中的若干文本資料，獲得一通用語料庫；
結(jié)合所述通用語料庫，為所述目標(biāo)語料庫中每個(gè)候選關(guān)鍵詞設(shè)置并計(jì)算
凈爭4正向量；
設(shè)置一與所述特征向量同維的權(quán)值向量；
利用所述目標(biāo)語料庫及特征向量，對所述權(quán)值向量進(jìn)行學(xué)習(xí)。
如上所述的方法中，獲得所述目標(biāo)語料庫的步驟，可以包括
對所述若干文本資料進(jìn)行人工標(biāo)注關(guān)鍵詞，并對所述若干文本資料進(jìn)行停用詞過濾；人工標(biāo)注的關(guān)^:詞及停用詞過濾后的實(shí)意詞，合為所述目標(biāo)語料庫。
進(jìn)一步地，對所述權(quán)值向量進(jìn)行學(xué)習(xí)的步驟，可以包括
把所述目標(biāo)語料庫中人工標(biāo)注的關(guān)鍵詞作為正樣例，其余候選關(guān)鍵詞作為負(fù)樣例，對于所述特征向量中的每個(gè)特征，通過該特征區(qū)分所述正樣例與負(fù)樣例的區(qū)分度來調(diào)整權(quán)值，完成對所述權(quán)值向量的學(xué)習(xí)。
如上所述的方法中，所述特征向量中的特征，可以包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
為了解決上述技術(shù)問題，本發(fā)明還提供了一種權(quán)值向量的學(xué)習(xí)系統(tǒng)，應(yīng) 用于確定文本資料的關(guān)4定詞，該系統(tǒng)包括
領(lǐng)域確定模塊，用于確定一目標(biāo)領(lǐng)域；
語料設(shè)置模塊，與所述領(lǐng)域確定模塊相連，用于獲取該目標(biāo)領(lǐng)域中的若干文本資料，以及多個(gè)領(lǐng)域中的若干文本資料；還用于將該目標(biāo)領(lǐng)域中的若干文本資料及該多個(gè)領(lǐng)域中的若干文本資料分別整理成一目標(biāo)語料庫及一通用語料庫；其中所述目標(biāo)語料庫為所述文本的候選關(guān)鍵詞的集合；
特征向量設(shè)置及計(jì)算模塊，與所述語料設(shè)置模塊相連，用于結(jié)合所述通用語料庫，為所述目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量；
權(quán)值向量設(shè)置模塊，與所述特征向量設(shè)置及計(jì)算模塊相連，用于設(shè)置一與所述特征向量同維的權(quán)值向量；及權(quán)值向量學(xué)習(xí)模塊，與所述語料設(shè)置模塊、特征向量設(shè)置及計(jì)算模塊及 4又值向量設(shè)置模塊相連，用于利用所述目標(biāo)語料庫及特征向量，對所述權(quán)值向量進(jìn)行學(xué)習(xí)。
如上所述的系統(tǒng)中，所述語料設(shè)置模塊，可以包括
獲取單元，與所述領(lǐng)域確定模塊相連，用于獲取所述目標(biāo)領(lǐng)域中的若干文本資料，以及所述多個(gè)領(lǐng)域中的若干文本資料；
記錄單元，與所述獲取單元及權(quán)值向量學(xué)習(xí)模塊相連，用于記錄人工對所述目標(biāo)領(lǐng)域中的若干文本資料所標(biāo)注的關(guān)鍵詞；
整理單元，與所述獲取單元相連，用于對所述目標(biāo)領(lǐng)域中的若干文本資料及所述多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾，分別獲得所述目標(biāo)領(lǐng) 域中的文本資料的實(shí)意詞及所述多個(gè)領(lǐng)域中的若干文本資料的實(shí)意詞；及
合成單元，與所述記錄單元、整理單元、特征向量設(shè)置及計(jì)算模塊及權(quán) 值向量學(xué)習(xí)模塊相連，用于將人工標(biāo)注的關(guān)鍵詞以及所述目標(biāo)領(lǐng)域中的文本資料的實(shí)意詞，合為所述目標(biāo)語料庫；還用于將所述多個(gè)領(lǐng)域中的文本資料的實(shí)意詞，合為所述通用語料庫。
進(jìn)一步地，所述權(quán)值向量學(xué)習(xí)模塊，可以包括
樣例選擇單元，與所述記錄單元及合成單元相連，用于將人工標(biāo)注的關(guān) 鍵詞作為正樣例，其余的候選關(guān)鍵詞作為負(fù)樣例；
比較單元，與所述樣例選擇單元及特征向量設(shè)置及計(jì)算模塊相連，用于比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值，通過該些平均值獲得所述特征向量中每個(gè)特征區(qū)分正樣例與負(fù)樣例的區(qū)分度；及
調(diào)整單元，與所述比較單元、權(quán)值向量設(shè)置模塊及關(guān)鍵詞確定模塊相連，用于通過所述區(qū)分度來調(diào)整所述權(quán)值向量中的權(quán)值，完成對所述斥又值向量的學(xué)習(xí)。
如上所述的系統(tǒng)中，所述特征向量設(shè)置及計(jì)算模塊，所設(shè)置的特征向量中的特^正可以包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
與現(xiàn)有技術(shù)相比，本發(fā)明的技術(shù)方案，在不損失性能的前提下，提高了處理效率。本發(fā)明所提供的技術(shù)方案，利用線性加權(quán)求和方式(即對所有特征值與其特征的權(quán)重的積求和)給關(guān)鍵詞打分的方法，可以高效地提取關(guān)鍵詞，滿足像互聯(lián)網(wǎng)等海量文本分析的應(yīng)用。

圖1是本發(fā)明中關(guān)鍵詞確定方法實(shí)施例的流程示意圖。
圖2是本發(fā)明中關(guān)鍵詞確定裝置實(shí)施例的組成示意圖。圖3是圖2所示實(shí)施例中的語料設(shè)置模塊的組成示意圖。圖4是圖2所示實(shí)施例中的權(quán)值向量學(xué)習(xí)模塊的組成示意圖。圖5是圖2所示實(shí)施例中的關(guān)鍵詞確定模塊的組成示意圖。
具體實(shí)施例方式
以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式，借此對本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題，并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。
圖1示出了本發(fā)明中關(guān)鍵詞的確定方法一實(shí)施例的流程示意圖。如圖1 所示，該實(shí)施例主要包括如下步驟
步驟S105，首先確定一欲要為該領(lǐng)域中的文本資料確定關(guān)鍵詞的目標(biāo) 領(lǐng)域；比如運(yùn)動領(lǐng)域、教育領(lǐng)域或者信息技術(shù)(IT)領(lǐng)域等等；
步驟SllO，獲取該目標(biāo)領(lǐng)域中的若千文本資料，通過整理該目標(biāo)領(lǐng)域中的若干文本資料，獲得一目標(biāo)語料庫，該目標(biāo)語料庫實(shí)際為該目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合；
其中該目標(biāo)領(lǐng)域中的若干文本資料，對于運(yùn)動領(lǐng)域，可以是若干描述體育訓(xùn)練、體育比賽等等的文本；對于教育領(lǐng)域，可以使若干描述教育方法、學(xué)校生活等等的文本；對于IT領(lǐng)域，可以使若干描述計(jì)算機(jī)性能、數(shù)碼相機(jī)使用方法等等的文本；
該目標(biāo)語料庫包含若干語料，這些語料均是根據(jù)該目標(biāo)領(lǐng)域中的文本資料整理而來，一文本資料整理后獲得一語料；該整理過程是對目標(biāo)領(lǐng)域中的文本資料人工標(biāo)注關(guān)鍵詞，并采用通用的停用詞表對該文本資料進(jìn)行停用詞過濾，獲得該目標(biāo)領(lǐng)域中該些文本資料的實(shí)意詞，也即目標(biāo)語料庫中的每個(gè)
語料，包含若干人工標(biāo)注的關(guān)鍵詞以及經(jīng)停用詞過濾后的實(shí)意詞；一般而言，人工標(biāo)注的關(guān)鍵詞為停用詞過濾后實(shí)意詞的一部分；
目標(biāo)語料庫中的各語料經(jīng)停用詞過濾后獲得的實(shí)意詞，除開已經(jīng)人工標(biāo) 注的關(guān)鍵詞以外，都有可能是該領(lǐng)域內(nèi)某文本的關(guān)鍵詞，因此，目標(biāo)語料庫實(shí)際是該目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合；
步驟S115,獲取各種各樣的多個(gè)領(lǐng)域中的若干文本資料，通過整理多個(gè)領(lǐng)域中的若干文本資料，獲得一通用語料庫；
其中多個(gè)領(lǐng)域比如同時(shí)包括運(yùn)動領(lǐng)域、教育領(lǐng)域、IT領(lǐng)域、經(jīng)濟(jì)金融領(lǐng)域等等；該通用語料庫也包含若干語料，這些語料均是根據(jù)各種各樣的多個(gè)領(lǐng)域中的文本資料整理而來，一文本資料整理后獲得一語料；該整理過程是采用通用的停用詞表對該多個(gè)領(lǐng)域中的文本資料進(jìn)行停用詞過濾，獲得該多個(gè)領(lǐng)域中該些文本資料的實(shí)意詞，也即通用語料庫中的每個(gè)語料，由若干停用詞過濾后剩下的實(shí)意詞構(gòu)成；
步驟S120,結(jié)合該通用語料庫中的語料，為目標(biāo)語料庫中的各候選關(guān) 鍵詞設(shè)置并計(jì)算特征向量，在本實(shí)施例中，特征向量中的特征分別為詞頻-逆文檔頻率(TFIDF)、詞性、首次出現(xiàn)的相對位置和卡方(CHI)統(tǒng)計(jì)量；
步驟S130,設(shè)置一與特征向量同維的權(quán)值向量；在本實(shí)施例中，特征向量的維數(shù)為四維，因此所設(shè)置的該權(quán)值向量也為四維；
步驟S140，把目標(biāo)語料庫中各語料的人工標(biāo)注的關(guān)鍵詞作為正樣例，其余的候選關(guān)鍵詞作為負(fù)樣例，采用該些正樣例及負(fù)樣例，對該權(quán)值向量進(jìn) 行學(xué)習(xí)；該學(xué)習(xí)的具體過程是，對于特征向量中的每個(gè)特征，通過比較正樣例與負(fù)樣例在該特征上的平均值，來衡量該特征能在多大程度上區(qū)分正樣例與負(fù)樣例的區(qū)分度，根據(jù)該區(qū)分度來調(diào)整權(quán)值，完成對權(quán)值向量的學(xué)習(xí)；
步驟S150，對該目標(biāo)領(lǐng)域內(nèi)的一欲要確定關(guān)鍵詞的目標(biāo)文本進(jìn)行停用詞過濾，獲得該目標(biāo)文本停用詞過濾后剩下的實(shí)意詞，這些實(shí)意詞均為該目標(biāo)文本的候選關(guān)鍵詞；
步驟S160，獲得該目標(biāo)文本的該些候選關(guān)鍵詞的特征向量，并利用這些特征向量，以及上述學(xué)習(xí)后的權(quán)值向量，確定該目標(biāo)領(lǐng)域中的該目標(biāo)文本的關(guān)鍵詞；
將該目標(biāo)文本的每個(gè)候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積，一個(gè)候選關(guān)鍵詞得到一個(gè)內(nèi)積結(jié)果，將該內(nèi)積結(jié)果作為該候選關(guān)鍵詞的得分；然后根據(jù)該得分的高低，對每個(gè)候選關(guān)鍵詞進(jìn)行排序(本實(shí)施例中為從高到底進(jìn)行排序)，得分較高的部分候選關(guān)鍵詞為該目標(biāo)文本的關(guān)鍵詞；按照該排序確定關(guān)鍵詞，因?yàn)榈梅衷礁咴接锌赡苁钦嬲年P(guān)鍵詞。
上述步驟S140中，對權(quán)值向量的學(xué)習(xí)，還包括對人工標(biāo)注的關(guān)鍵詞設(shè) 置較高的權(quán)值，以保證這些人工標(biāo)注的關(guān)鍵詞獲得較高的得分，以在排序中獲得靠前的位置。
圖2示出了本發(fā)明中關(guān)鍵詞的確定裝置一實(shí)施例的組成示意圖，該裝置用以提取文本中的關(guān)鍵詞。結(jié)合圖l所示的方法實(shí)施例，如圖2所示，該裝置實(shí)施例主要包括領(lǐng)域確定模塊210、語料設(shè)置模塊220、特征向量設(shè)置及計(jì)算模塊230、權(quán)值向量設(shè)置模塊240、權(quán)值向量學(xué)習(xí)模塊250及關(guān)鍵詞確定模塊270,其中
領(lǐng)域確定模塊210，用于確定一目標(biāo)領(lǐng)域；比如運(yùn)動領(lǐng)域、教育領(lǐng)域或者IT領(lǐng)域等等；
語料設(shè)置模塊220,與該領(lǐng)域確定模塊210相連，用于獲取該目標(biāo)領(lǐng)域中的若干文本資料，以及多個(gè)領(lǐng)域中的若千文本資料；記錄人工對該目標(biāo)領(lǐng) 域中若干文本資料所標(biāo)注的關(guān)鍵詞，并采用通用的停用詞表，對該目標(biāo)領(lǐng)域中的該些若干文本資料，以及多個(gè)領(lǐng)域中的若干文本資料，分別進(jìn)行停用詞過濾；將所記錄的人工標(biāo)注的關(guān)鍵詞，和對該目標(biāo)領(lǐng)域中的若干文本資料進(jìn) 行停用詞過濾后獲得的實(shí)意詞，合為一目標(biāo)語料庫；將對該多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾后獲得的實(shí)意詞，合為一通用語料庫；其中多個(gè) 領(lǐng)域比如同時(shí)包括運(yùn)動領(lǐng)域、教育領(lǐng)域、IT領(lǐng)域、經(jīng)濟(jì)金融領(lǐng)域等等；
一般而言，人工標(biāo)注的關(guān)鍵詞為停用詞過濾后的實(shí)意詞的一部分；而且該目標(biāo)語料庫中所包含的內(nèi)容即為該目標(biāo)領(lǐng)域的候選關(guān)鍵詞；目標(biāo)語料庫中的各語料經(jīng)停用詞過濾后獲得的實(shí)意詞，除開已經(jīng)人工標(biāo)注的關(guān)鍵詞以外，都有可能是該領(lǐng)域內(nèi)某文本的關(guān)鍵詞，因此，目標(biāo)語料庫實(shí)際是該目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合；特征向量設(shè)置及計(jì)算模塊230,與該語料設(shè)置模塊220相連，用于結(jié)合該通用語料庫中的語料，為目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量；權(quán)值向量設(shè)置模塊240，與特征向量設(shè)置及計(jì)算模塊230相連，用于設(shè) 置一與特征向量同維的權(quán)值向量；在本實(shí)施例中，特征向量的維數(shù)為四維，因此所設(shè)置的該;f又值向量也為四維；權(quán)值向量學(xué)習(xí)模塊250,與該語料設(shè)置模塊220、特征向量設(shè)置及計(jì)算模塊230及權(quán)值向量設(shè)置模塊240相連，用于把目標(biāo)語料庫中各語料的人工標(biāo)注的關(guān)鍵詞作為正才羊例，其余的候選關(guān)鍵詞作為負(fù)樣例，采用該些正樣例及負(fù)樣例，對該權(quán)值向量進(jìn)行學(xué)習(xí)；進(jìn)行學(xué)習(xí)的具體過程是，對于特征向量中的每個(gè)特征，通過比較正樣例與負(fù)樣例在該特征上的平均值，來衡量該特征能在多大程度上區(qū)分正樣例與負(fù)樣例的區(qū)分度，根據(jù)該區(qū)分度來調(diào)整權(quán) 值，完成對權(quán)值向量的學(xué)習(xí)；預(yù)處理模塊260，與特征向量設(shè)置及計(jì)算模塊230相連，用于接收目標(biāo) 領(lǐng)域中欲要確定關(guān)鍵詞的一目標(biāo)文本，對目標(biāo)領(lǐng)域中欲要確定關(guān)鍵詞的該目標(biāo)文本進(jìn)行停用詞過濾，獲得的該目標(biāo)文本的實(shí)意詞即該目標(biāo)文本的候選關(guān) 鍵詞，根據(jù)特征向量設(shè)置及計(jì)算模塊230為該目標(biāo)領(lǐng)域所設(shè)置的特征向量，獲得該目標(biāo)文本各候選關(guān)鍵詞的特征向量；及關(guān)鍵詞確定^t塊270,與權(quán)值向量學(xué)習(xí)模塊250及預(yù)處理模塊260相連，用于利用預(yù)處理模塊260獲得的該目標(biāo)文本各候選關(guān)鍵詞的特征向量，和權(quán) 值向量學(xué)習(xí)模塊250學(xué)習(xí)后的權(quán)值向量，從預(yù)處理模塊260所獲得的候選關(guān) 鍵詞中，確定該目標(biāo)文本最終的關(guān)鍵詞；將每個(gè)候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積，將每個(gè)候選關(guān)鍵詞的內(nèi)積結(jié)果作為該候選關(guān)鍵詞的得分；根據(jù)該得分高低，對每個(gè)候選關(guān)鍵詞進(jìn)行排序(本實(shí)施例中是從高到低進(jìn)行排序)，根據(jù)該排序確定關(guān) 鍵詞，因?yàn)榈梅衷礁咴接锌赡苁钦嬲年P(guān)鍵詞。圖3為上述語料設(shè)置模塊220的組成示意圖。如圖3所示，該語料設(shè)置模塊220包括獲取單元224、記錄單元225、整理單元226及合成單元227, 其中獲取單元224,與該領(lǐng)域確定4莫塊210相連，用于獲取領(lǐng)域確定才莫塊210所確定的目標(biāo)領(lǐng)域中的若干文本資料，以及各種各樣的多個(gè)領(lǐng)域中的若干文本資料；記錄單元225,與該獲取單元224及權(quán)值向量學(xué)習(xí)才莫塊250相連，用于記錄人工對該目標(biāo)領(lǐng)域中若干文本資料所標(biāo)注的關(guān)4建詞；整理單元226,與該獲取單元224相連，用于采用通用的停用詞表，對該目標(biāo)領(lǐng)域中的該些若干文本資料進(jìn)行停用詞過濾，獲得該目標(biāo)領(lǐng)域中該些文本資料的實(shí)意詞；還用于采用該通用的停用詞表對多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾，獲得該多個(gè)領(lǐng)域中該些若干文本資料的實(shí)意詞；及合成單元227，與記錄單元225、整理單元226、特征向量設(shè)置及計(jì)算 -漢塊230及權(quán)值向量學(xué)習(xí)4莫塊250相連，用于將記錄單元225所記錄的人工標(biāo)注的關(guān)鍵詞，以及整理單元226所獲得的該目標(biāo)領(lǐng)域中該些文本資料的實(shí) 意詞，合為該目標(biāo)語料庫；還用于將該多個(gè)領(lǐng)域中該些文本資料的實(shí)意詞，合為該通用語料庫。圖4為上述權(quán)值向量學(xué)習(xí)模塊250的組成示意圖。如圖4所示，結(jié)合圖 3所示的語料設(shè)置模塊220的組成示意圖，該權(quán)值向量學(xué)習(xí)模塊250包括樣例選擇單元254、比4交單元255及調(diào)整單元256，其中樣例選擇單元254,與該記錄單元225及合成單元227相連，用于將該目標(biāo)語料庫中各語料的人工標(biāo)注的關(guān)鍵詞作為正樣例，其余的候選關(guān)鍵詞作為負(fù)樣例；比較單元255,與該樣例選擇單元254及特征向量設(shè)置及計(jì)算模塊230 相連，用于比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值，調(diào)整單元256,與比較單元255、權(quán)值向量設(shè)置模塊240及關(guān)鍵詞確定模塊270相連，用于通過該區(qū)分度來調(diào)整權(quán)值向量設(shè)置模塊240所設(shè)置的權(quán) 值向量中的權(quán)值，完成對權(quán)值向量的學(xué)習(xí)；為了保證人工標(biāo)注的關(guān)鍵詞在最后的排序中能獲得靠前的位置，通過調(diào) 整單元256還可以為人工標(biāo)注的關(guān)鍵詞設(shè)置較高的權(quán)值，以保證這些人工標(biāo) 注的關(guān)鍵詞能獲得較高的得分。圖5為上述關(guān)鍵詞確定模塊270的組成示意圖。如圖5所示，該關(guān)鍵詞確定模塊270包括內(nèi)積單元274、排序單元275及確定單元276,其中內(nèi)積單元274,與權(quán)值向量學(xué)習(xí)模塊250及預(yù)處理模塊260相連，用于將預(yù)處理模塊260獲得的該目標(biāo)文本各候選關(guān)鍵詞的特征向量，與權(quán)值向量學(xué)習(xí)模塊250學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積，一個(gè)候選關(guān)鍵詞得到一個(gè)內(nèi)積結(jié) 果，最終獲得該文目標(biāo)本各候選關(guān)鍵詞的內(nèi)積結(jié)果；排序單元275,與該內(nèi)積單元274相連，用于將各內(nèi)積結(jié)果作為各自對應(yīng)的候選關(guān)鍵詞的得分，根據(jù)每個(gè)候選關(guān)鍵詞的得分高低進(jìn)行排序(比如從高到低進(jìn)行排序)；及確定單元276,與該排序單元275相連，用于根據(jù)該排序確定該目標(biāo)文本的關(guān)4建詞。以下詳細(xì)說明本發(fā)明上述方法實(shí)施例和系統(tǒng)實(shí)施例的具體實(shí)現(xiàn)過程。語料庫(包括目標(biāo)語料庫和通用語料庫)獲得的方法為先從目標(biāo)領(lǐng)域和多個(gè)領(lǐng)域中各找出一定數(shù)量的文本資料，對這些文本資料分別進(jìn)行整理，得到目標(biāo)語料庫和通用語料庫。其中的整理過程，對于目標(biāo)語料庫而言，首先對目標(biāo)領(lǐng)域中的文本資料進(jìn)行人工標(biāo)注關(guān)鍵詞的處理，也即通過人工標(biāo)注出目標(biāo)領(lǐng)域中文本資料的關(guān) 鍵詞，一般來說，這些人工標(biāo)注的關(guān)鍵詞，肯定是本領(lǐng)域中大多數(shù)文本的關(guān) 鍵詞；然后對文本資料進(jìn)行切詞以及標(biāo)注詞性處理，最后根據(jù)通用的停用詞表，過濾掉文本資料中的停用詞，得到停用詞過濾后所剩下的實(shí)意詞。一般地，對于一片文本資料而言，人工標(biāo)注的關(guān)鍵詞是實(shí)意詞中的一部分。對于通用語料庫而言，對通用領(lǐng)域中的文本資料進(jìn)行停用詞過濾處理，過濾掉文本資料中的停用詞，得到通用領(lǐng)域文本資料的實(shí)意詞。本實(shí)施例中，目標(biāo)語料庫中的語料來自網(wǎng)站，人工標(biāo)注的關(guān)4建詞由人工標(biāo)注在網(wǎng)頁關(guān)鍵字(meta keyword)標(biāo)簽中。經(jīng)過上述整理之后，對于目標(biāo)領(lǐng)域中的文本資料而言，就變成一個(gè)由若干候選關(guān)鍵詞組成的集合，將該集合稱之為一語料，若干個(gè)語料構(gòu)成目標(biāo)語料庫。對于通用領(lǐng)域中的文本資料而言，變成一個(gè)由若干實(shí)意詞組成的集合，將該集合也即為一語料，若干個(gè)這樣的語料構(gòu)成通用語料庫。經(jīng)過整理后的文本資料，其關(guān)鍵的不是詞本身，而是詞的特征。詞的特征的選取根據(jù)應(yīng)用的不同而有所差別。此處列舉4個(gè)特征，分別是詞頻-逆文檔頻率(TFIDF)、詞性、首次出現(xiàn)的相對位置和卡方(CHI)統(tǒng)計(jì)量，這樣確定的每個(gè)候選關(guān)鍵詞，均由一個(gè)四維的特征向量表示，各維分別對應(yīng) 這4個(gè)特征的取值。以下分別說明TFIDF、詞性、首次出現(xiàn)的相對位置和CHI統(tǒng)計(jì)量的獲取過程。(1 ) TFIDFTFIDF綜合了詞頻(TF)和逆文檔頻率(IDF)，是用來衡量目標(biāo)詞T 對于當(dāng)前文本資料D的相關(guān)性，計(jì)算公式如下(P表示事件發(fā)生的概率)TFIDF (T， D) =TFx (-logDF)。其中TF-目標(biāo)詞T出現(xiàn)的次數(shù)+文本資料D的總詞數(shù)，表示目標(biāo)詞T在文本資料D中的出現(xiàn)頻率；DF二出現(xiàn)目標(biāo)詞1的文本資料數(shù)+當(dāng)前領(lǐng)域的語料庫的總文本資料數(shù)，表示語料庫中含有目標(biāo)詞T的文本資料比例。(2) 詞性關(guān)鍵詞在詞性上有一定的分布特征，不同領(lǐng)域之間這個(gè)特征是不同的，比如教育類的文本資料中，名詞作為關(guān)鍵詞比較多，但是體育類的文本資料中，可能動詞比較多。這個(gè)特征就是用來衡量當(dāng)前領(lǐng)域關(guān)4建詞的詞性特征的，即衡量某種詞性的目標(biāo)詞有多少可能在這個(gè)領(lǐng)域成為關(guān)4定詞的特征值F (詞性)，其中的詞性可以是名詞、動詞等等，例如當(dāng)考慮名詞時(shí)，計(jì)算公式如下F (名詞)=當(dāng)前研究領(lǐng)域被人工標(biāo)注為關(guān)鍵詞中名詞的數(shù)量+當(dāng)前研究領(lǐng)域人工標(biāo)注的關(guān)鍵詞總數(shù)。(3) 首次出現(xiàn)的相對位置通常關(guān)鍵詞都傾向于在文本資料的開頭，甚至是標(biāo)題中出現(xiàn)，因此可以認(rèn)為越早出現(xiàn)的詞越有可能成為關(guān)鍵詞。該特征的取值即是目標(biāo)詞首次出現(xiàn) 的位置除以文本資料長度。(4 ) CHI統(tǒng)計(jì)量CHI統(tǒng)計(jì)量用來衡量一個(gè)目標(biāo)詞T與某個(gè)領(lǐng)域F的相關(guān)程度，定義如下:0//(r,F) = ("llX"22-"12X"21)X -("u+",2+"2,+"22)- (式i)V (" +"12)(W21十"22)("u +"21)("12 +"22)其中，" 指目標(biāo)詞T出現(xiàn)在領(lǐng)域F中的次數(shù)，"21指不是目標(biāo)詞T的詞出現(xiàn)在領(lǐng)域F中的次數(shù)，"22指不是目標(biāo)詞T的詞出現(xiàn)在不是領(lǐng)域F的領(lǐng)域中的次數(shù)，"12指目標(biāo)詞T出現(xiàn)在不是領(lǐng)域F的領(lǐng)域中的次數(shù)?？梢钥闯?， C歷(r,F)值越大，目標(biāo)詞T與領(lǐng)域F的相關(guān)性就越高。當(dāng) 目標(biāo)詞T與領(lǐng)域F正相關(guān)，即與通用語料庫相比，目標(biāo)詞T與領(lǐng)域F的相關(guān)性更高，當(dāng)《 ><"22-"12x"21<0,目標(biāo)詞T與領(lǐng)域F負(fù)相關(guān)，即與通用語料庫相比，目標(biāo)詞T與領(lǐng)域F的相關(guān)性4交^f氐。設(shè)置一個(gè)特征向量同維的權(quán)值向量，然后利用目標(biāo)語料庫，該該權(quán)值向量進(jìn)4亍學(xué)習(xí)。權(quán)值向量在最開始可以:沒為(0, 0， 0, 0)。對權(quán)值向量進(jìn)行學(xué)習(xí)時(shí)，把每個(gè)語料中人工標(biāo)注的關(guān)鍵詞作為正樣例，其余的候選關(guān)鍵詞作為負(fù)樣例。之后，對于每一個(gè)特征，通過比較正樣例與負(fù)樣例在該特征上的平均值，來衡量該特征能在多大程度上區(qū)分關(guān)4建詞與非關(guān)鍵詞的區(qū)分度，根據(jù)區(qū)分度來調(diào)整權(quán)值。例如對于TFIDF這個(gè)特征，其區(qū)分度采用如下的數(shù)學(xué)描述々trdf =^Cpo^"ve_TFIDF) — ￡(wegw//ve —TFIDF) (式2 )其中￡(戸涵_ TFIDF) = (-^-Z TFIDF)五("，/ve _ TFIDF) = (-^-Z TFIDF) (式4 )iVw附6e;-Q/Ter附"其中五(pow加e —TFIDF),表示正樣例在TFIDF這一特征上的平均值；五("eg油Ve — TFIDF)，表示負(fù)樣例在TFIDF這一特征上的平均值；ZTFIDF,表示對TFIDF求和；7Vw附6erQ/Ke戸oW ,表示人工才示注的關(guān)鍵詞的數(shù)量；A^w6erO/T^7M ，表示所有其它4吳選關(guān)4建詞的凄t量。
通過對其他三個(gè)特征(即詞性、首次出現(xiàn)的相對位置和Cffl統(tǒng)計(jì)量) 的計(jì)算，得到用于更新權(quán)值的向量"，即(/ ，F(xiàn)， A。s， lstDccurenee， / ch,),其中〃TFIDF 表示TFIDF特征所對應(yīng)的向量，/^表示詞性特征所對應(yīng)的向量，/^tOccu^e表示首次出現(xiàn)的相對位置特征所對應(yīng)的向量，Ahi表示CHI統(tǒng)計(jì)量特征所對應(yīng)
的向量。設(shè)定學(xué)習(xí)速度常量/i，則權(quán)值向量"在第n篇文本資料后的更新使
用下式<formula>formula see original document page 22</formula>
(式5)
通過如上學(xué)習(xí)，得到權(quán)值向量w后，就可以提取目標(biāo)文本的關(guān)鍵詞了，即將目標(biāo)文本中的候選關(guān)鍵詞的特征向量與權(quán)值向量內(nèi)積的結(jié)果作為目標(biāo) 文本候選關(guān)鍵詞的最后得分，通過對該得分進(jìn)行排序，獲得最后的關(guān)4定詞，得分越高越有可能是關(guān)鍵詞，關(guān)鍵詞個(gè)數(shù)根據(jù)應(yīng)用不同而具體設(shè)定。
以下通過在某網(wǎng)站抓取一 IT領(lǐng)域的文章，作為本發(fā)明一實(shí)施例來詳細(xì) 說明本發(fā)明的技術(shù)方案。對于網(wǎng)頁而言，文章所有的關(guān)鍵詞都標(biāo)注在meta keyword標(biāo)簽內(nèi)，可以用來學(xué)習(xí)。權(quán)值向量的初始值設(shè)為(0， 0, 0, 0)。
例如，學(xué)習(xí)中遇到的一篇文章如下
"易用性是富士 A800的核心理念，簡潔的按鍵布局將使用戶從繁瑣的操作中解放出來，更多的享受拍攝的樂趣。富士 A800擁有一個(gè)全新設(shè)計(jì)的模式轉(zhuǎn)盤，用戶能夠方便快捷的對場景模式進(jìn)行選擇。富士 A800設(shè)置了 14 種的場景模式，使用戶能夠根據(jù)實(shí)際情況選擇最佳的場景模式來進(jìn)行拍攝。例如，"嬰兒，，模式將再現(xiàn)嬰兒柔嫩的皮膚色調(diào)，而"雙重防抖"模式則可以同時(shí)防止手抖及被拍攝物體移動所造成的模糊。富士A800配置富士A800 釆用一塊1/1.6英寸的800萬像素Super CCD,最大分辨率為3296 x 2472。使用焦距等效于傳統(tǒng)35mm相機(jī)的36-108mm、最大光圈F2.8-F5.1的3倍光學(xué)變焦鏡頭。ISO為100/200/400/800?？扉T為4- 1/1600秒，并且擁有一個(gè) 2.5英寸的液晶顯示屏，象素為11.5萬。使用XD/SD卡作為存儲卡，內(nèi)置了 10MB內(nèi)存可以存儲照片。電池系統(tǒng)使用2節(jié)5號AA電池。富士A800 機(jī)身重量約151克，外型尺寸是97.5 x 61.9 x31.0mm。"這篇文本資料的meta keyword標(biāo)簽內(nèi)的關(guān)鍵詞為"A800"和"富士"。在切詞、去除停用詞、特征提取和特征值計(jì)算后，候選關(guān)鍵詞的特征向量表示如下
A800 0.4370 0.1307 0.9767 0.0732 富士 0.3380 0.1307 0.9533 0.1644
1 0.0859 0.0020 0.5097 0.0598
2 0.0863 0.0020 0.9611 -0.1374 5 0扁1 0.0020 0.2724 0.1443 800 0.0628 0.0020 0.3307 0.2883 X 0層2 0.1307 0.4553 0.3008 場景模式0.1479 0.2382 0.7743 0.0909 電池0.0567 0.2865 0.1634 0.3746 進(jìn)行0.0567 0.1368 0.7704-0.0855 模式0.0896 0.2865 0.8093 -0.3433 能夠0.0644 0.1368 0.7938 0.4074 拍攝0.0854 0.2382 0.8482 -0.3223 使用0.0796 0.1368 0.4436-0.0346 選擇0,0681 0.1368 0.7665 0.3843 一個(gè)0.0529 0.0020 0.8249 0.2274 英寸0.0512 0.0036 0.4942-0.2252 嬰兒0.1093 0.2865 0.6654 0.0579 擁有0.0537 0.1368 0.8288-0.1684
用戶0.0836 0.2865 0.8988 -0.2368
通過計(jì)算，可得
E (positive—tfidf) =0.3875
E (negative一tfidf) =0.0794E (positive_pos ) =0.1307
E ( negative_pos ) =0.1311
E (positive_first—occurence) =0.965
E (negative—first—occurence ) =0.6153
E (positive一chi) =0.1188
E (negative一chi) =0.0432
取"l，則
/ - (0.3081 ，-0.0004，0.3497，0.0756)
q-cyo+Z^-CO'O.O'O) + (0.3081 ，-0.0004 ，0.3497 ，0.0756) =(0.3081 ，-0.0004，0.3497，0.0756)
得到第一次更新后的權(quán)值向量q 。
本發(fā)明所提供的技術(shù)方案，通過做充足的預(yù)處理來減少目標(biāo)文本實(shí)際提取關(guān)鍵詞時(shí)的工作量，可以高效地提取關(guān)鍵詞，在不損失性能的前提下，能夠滿足像互聯(lián)網(wǎng)等海量文本分析的應(yīng)用。本發(fā)明所提供的技術(shù)方案，利用線性加權(quán)求和方式(即對所有特征值與其特征的權(quán)重的積求和)給關(guān)鍵詞打分的方法，并且還給出了確定公式中各系數(shù)的方法。
雖然本發(fā)明所揭露的實(shí)施方式如上，但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式，并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi) 的技術(shù)人員，在不脫離本發(fā)明所揭露的精神和范圍的前提下，可以在實(shí)施的形式上及細(xì)節(jié)上作任何的修改與變化，但本發(fā)明的專利保護(hù)范圍，仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
權(quán)利要求
1、一種關(guān)鍵詞的確定方法，其特征在于，包括確定一目標(biāo)領(lǐng)域；通過整理所述目標(biāo)領(lǐng)域中的若干文本資料，獲得一目標(biāo)語料庫，所述目標(biāo)語料庫為所述目標(biāo)領(lǐng)域內(nèi)的候選關(guān)鍵詞的集合；通過整理多個(gè)領(lǐng)域中的若干文本資料，獲得一通用語料庫；結(jié)合所述通用語料庫，為所述目標(biāo)語料庫中每個(gè)候選關(guān)鍵詞設(shè)置并計(jì)算特征向量；設(shè)置一與所述特征向量同維的權(quán)值向量；利用所述目標(biāo)語料庫及特征向量，對所述權(quán)值向量進(jìn)行學(xué)習(xí)；對所述目標(biāo)領(lǐng)域中一欲要確定關(guān)鍵詞的目標(biāo)文本進(jìn)行停用詞過濾，獲得的實(shí)意詞為所述目標(biāo)文本的候選關(guān)鍵詞；及獲得所述目標(biāo)文本各候選關(guān)鍵詞的特征向量，結(jié)合學(xué)習(xí)后的權(quán)值向量，確定所述目標(biāo)文本的關(guān)鍵詞。
2、如權(quán)利要求l所述的方法，其特征在于，獲得所述目標(biāo)語料庫的步驟，包括人工標(biāo)注所述若干文本資料的關(guān)鍵詞，并對所述若干文本資料進(jìn)行停用詞過濾；人工標(biāo)注的關(guān)鍵詞及停用詞過濾后的實(shí)意詞，合為所述目標(biāo)語料庫。
3、如權(quán)利要求2所述的方法，其特征在于，對所述權(quán)值向量進(jìn)行學(xué)習(xí) 的步驟，包括把所述目標(biāo)語料庫中人工標(biāo)注的關(guān)鍵詞作為正樣例，其余候選關(guān)鍵詞作為負(fù)樣例，對于所述特征向量中的每個(gè)特征，通過該特征區(qū)分所述正樣例與負(fù)樣例的區(qū)分度來調(diào)整權(quán)值，完成對所述權(quán)值向量的學(xué)習(xí)。
4、如權(quán)利要求1所述的方法，其特征在于，確定所述目標(biāo)文本的關(guān)鍵詞的步驟，包括將所述目標(biāo)文本各候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積，得到各候選關(guān)鍵詞的內(nèi)積結(jié)果；將內(nèi)積結(jié)果作為對應(yīng)候選關(guān)鍵詞的得分，4艮據(jù)所述得分對所述個(gè)候選關(guān) 4建詞進(jìn)行排序；及根據(jù)所述排序確定所述目標(biāo)文本的關(guān)鍵詞。
5、如權(quán)利要求l所述的方法，其特征在于所述特征向量中的特征，包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
6、一種關(guān)鍵詞的確定系統(tǒng)，其特征在于，包括領(lǐng)域確定模塊，用于確定一目標(biāo)領(lǐng)域；語料設(shè)置模塊，與所述領(lǐng)域確定模塊相連，用于獲取該目標(biāo)領(lǐng)域中的若干文本資料，以及多個(gè)領(lǐng)域中的若干文本資料；還用于將該目標(biāo)領(lǐng)域中的若干文本資料及該多個(gè)領(lǐng)域中的若干文本資料分別整理成一目標(biāo)語料庫及一通用語料庫；其中所述目標(biāo)語料庫為所述目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合；特征向量設(shè)置及計(jì)算模塊，與所述語料設(shè)置模塊相連，用于結(jié)合所述通用語料庫，為所述目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量；權(quán)值向量設(shè)置模塊，與所述特征向量設(shè)置及計(jì)算模塊相連，用于設(shè)置一與所述特征向量同維的權(quán)值向量；權(quán)值向量學(xué)習(xí)模塊，與所述語料設(shè)置模塊、特征向量設(shè)置及計(jì)算模塊及權(quán)值向量設(shè)置模塊相連，用于利用所述目標(biāo)語料庫及特征向量，對所述權(quán)值向量進(jìn)行學(xué)習(xí)；預(yù)處理模塊，與所述特征向量設(shè)置及計(jì)算模塊相連，用于接收所述目標(biāo) 領(lǐng)域中一欲要確定關(guān)4建詞的目標(biāo)文本，對所述目標(biāo)文本進(jìn)行停用詞過濾，獲得的實(shí)意詞為所述目標(biāo)文本的候選關(guān)4定詞，獲得所述目標(biāo)文本各候選關(guān)鍵詞的特征向量；及關(guān)鍵詞確定模塊，與所述預(yù)處理模塊及權(quán)值向量學(xué)習(xí)模塊相連，用于利用所述目標(biāo)文本各候選關(guān)^:詞的特征向量及學(xué)習(xí)后的權(quán)值向量，確定所述目標(biāo)文本的關(guān)鍵詞。
7、如權(quán)利要求6所述的系統(tǒng)，其特征在于，所述語料設(shè)置模塊，包括獲取單元，與所述領(lǐng)域確定模塊相連，用于獲取所述目標(biāo)領(lǐng)域中的若千文本資料，以及所述多個(gè)領(lǐng)域中的若干文本資料；記錄單元，與所述獲取單元及權(quán)值向量學(xué)習(xí)模塊相連，用于記錄人工對所述目標(biāo)領(lǐng)域中的若干文本資料所標(biāo)注的關(guān)鍵詞；整理單元，與所述獲取單元相連，用于對所述目標(biāo)領(lǐng)域中的若千文本資料及所述多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾，分別獲得所述目標(biāo)領(lǐng) 域中的文本資料的實(shí)意詞及所述多個(gè)領(lǐng)域中的若干文本資料的實(shí)意詞；及合成單元，與所述記錄單元、整理單元、特征向量設(shè)置及計(jì)算模塊及權(quán) 值向量學(xué)習(xí)模塊相連，用于將人工標(biāo)注的關(guān)鍵詞以及所述目標(biāo)領(lǐng)域中的文本資料的實(shí)意詞，合為所述目標(biāo)語料庫；還用于將所述多個(gè)領(lǐng)域中的文本資料的實(shí)意詞，合為所述通用語料庫。
8、如權(quán)利要求7所述的系統(tǒng)，其特征在于，所述權(quán)值向量學(xué)習(xí)模塊，包括樣例選擇單元，與所述記錄單元及合成單元相連，用于將人工標(biāo)注的關(guān) 鍵詞作為正樣例，其余的候選關(guān)鍵詞作為負(fù)樣例；比較單元，與所述樣例選擇單元及特征向量設(shè)置及計(jì)算模塊相連，用于比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值，通過該些平均值獲得所述特征向量中每個(gè)特征區(qū)分正樣例與負(fù)樣例的區(qū)分度；及調(diào)整單元，與所述比較單元、權(quán)值向量設(shè)置模塊及關(guān)鍵詞確定模塊相連，用于通過所述區(qū)分度來調(diào)整所述權(quán)值向量中的權(quán)值，完成對所述權(quán)值向量的學(xué)習(xí)。
9、如權(quán)利要求6所述的系統(tǒng)，其特征在于，所述關(guān)鍵詞確定才莫塊，包括內(nèi)積單元，與所述權(quán)值向量學(xué)習(xí)模塊及預(yù)處理模塊相連，用于將所述目標(biāo)文本各候選關(guān)鍵詞的特征向量與學(xué)習(xí)后的權(quán)值向量進(jìn)行內(nèi)積，一候選關(guān)鍵詞獲得一內(nèi)積結(jié)果；排序單元，與所述內(nèi)積單元相連，用于將內(nèi)積結(jié)果作為對應(yīng)的候選關(guān)鍵詞的得分，根據(jù)所述得分對所述個(gè)候選關(guān)鍵詞進(jìn)行排序；及確定單元，與所述排序單元相連，用于根據(jù)所述排序確定所述目標(biāo)文本的關(guān)鍵詞。
10、如權(quán)利要求6所述的系統(tǒng)，其特征在于所述特征向量設(shè)置及計(jì)算模塊，所設(shè)置的特征向量中的特征包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
11、一種權(quán)值向量的學(xué)習(xí)方法，應(yīng)用于確定文本資料的關(guān)鍵詞，其特征在于，包括確定一目標(biāo)領(lǐng)域；通過整理所述目標(biāo)領(lǐng)域中的若干文本資料，獲得一目標(biāo)語料庫，所述目標(biāo)語料庫為所迷目標(biāo)領(lǐng)域的候選關(guān)鍵詞的集合；通過整理多個(gè)領(lǐng)域中的若干文本資料，獲得一通用語料庫；結(jié)合所述通用語料庫，為所述目標(biāo)語料庫中每個(gè)候選關(guān)鍵詞設(shè)置并計(jì)算特4正向量；設(shè)置一與所述特征向量同維的權(quán)值向量；利用所述目標(biāo)語料庫及特征向量，對所述權(quán)值向量進(jìn)行學(xué)習(xí)。
12、如權(quán)利要求11所述的方法，其特征在于，獲得所述目標(biāo)語料庫的步驟，包括對所述若干文本資料進(jìn)行人工標(biāo)注關(guān)鍵詞，并對所述若干文本資料進(jìn)行停用詞過濾；人工標(biāo)注的關(guān)鍵詞及停用詞過濾后的實(shí)意詞，合為所述目標(biāo)語料庫。
13、如權(quán)利要求12所述的方法，其特征在于，對所述權(quán)值向量進(jìn)行學(xué) 習(xí)的步驟，包括把所述目標(biāo)語料庫中人工標(biāo)注的關(guān)鍵詞作為正樣例，其余候選關(guān)鍵詞作為負(fù)樣例，對于所述特征向量中的每個(gè)特征，通過該特征區(qū)分所述正樣例與負(fù)樣例的區(qū)分度來調(diào)整權(quán)值，完成對所述權(quán)值向量的學(xué)習(xí)。
14、如權(quán)利要求11所述的方法，其特征在于所述特征向量中的特征，包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
15、一種權(quán)值向量的學(xué)習(xí)系統(tǒng)，應(yīng)用于確定文本資料的關(guān)鍵詞，其特征在于，包括領(lǐng)域確定模塊，用于確定一目標(biāo)領(lǐng)域；語料設(shè)置模塊，與所述領(lǐng)域確定模塊相連，用于獲取該目標(biāo)領(lǐng)域中的若干文本資料，以及多個(gè)領(lǐng)域中的若干文本資料；還用于將該目標(biāo)領(lǐng)域中的若干文本資料及該多個(gè)領(lǐng)域中的若干文本資料分別整理成一目標(biāo)語料庫及一通用語料庫；其中所述目標(biāo)語料庫為所述文本的候選關(guān)鍵詞的集合；特征向量設(shè)置及計(jì)算模塊，與所述語料設(shè)置模塊相連，用于結(jié)合所述通用語料庫，為所述目標(biāo)語料庫中的各候選關(guān)鍵詞設(shè)置并計(jì)算特征向量；權(quán)值向量設(shè)置模塊，與所述特征向量設(shè)置及計(jì)算模塊相連，用于設(shè)置一與所述特征向量同維的權(quán)值向量；及權(quán)值向量學(xué)習(xí)模塊，與所述語料設(shè)置模塊、特征向量設(shè)置及計(jì)算模塊及權(quán)值向量設(shè)置模塊相連，用于利用所述目標(biāo)語料庫及特征向量，對所述權(quán)值向量進(jìn)行學(xué)習(xí)。
16、如權(quán)利要求15所述的系統(tǒng)，其特征在于，所述語料設(shè)置模塊，包括獲取單元，與所述領(lǐng)域確定模塊相連，用于獲取所述目標(biāo)領(lǐng)域中的若干文本資料，以及所述多個(gè)領(lǐng)域中的若干文本資料；記錄單元，與所述獲取單元及權(quán)值向量學(xué)習(xí)模塊相連，用于記錄人工對所述目標(biāo)領(lǐng)域中的若干文本資料所標(biāo)注的關(guān)鍵詞；整理單元，與所述獲取單元相連，用于對所述目標(biāo)領(lǐng)域中的若干文本資料及所述多個(gè)領(lǐng)域中的若干文本資料進(jìn)行停用詞過濾，分別獲得所述目標(biāo)領(lǐng) 域中的文本資料的實(shí)意詞及所述多個(gè)領(lǐng)域中的若干文本資料的實(shí)意詞；及合成單元，與所述記錄單元、整理單元、特征向量設(shè)置及計(jì)算模塊及權(quán) 值向量學(xué)習(xí)模塊相連，用于將人工標(biāo)注的關(guān)鍵詞以及所述目標(biāo)領(lǐng)域中的文本資料的實(shí)意詞，合為所述目標(biāo)語料庫；還用于將所述多個(gè)領(lǐng)域中的文本資料的實(shí)意詞，合為所述通用語料庫。
17、如權(quán)利要求16所述的系統(tǒng)，其特征在于，所述權(quán)值向量學(xué)習(xí)模塊，包括樣例選擇單元，與所述記錄單元及合成單元相連，用于將人工標(biāo)注的關(guān) 4建詞作為正樣例，其余的候選關(guān)^t建詞作為負(fù)樣例；比較單元，與所述樣例選擇單元及特征向量設(shè)置及計(jì)算模塊相連，用于比較該些正樣例及負(fù)樣例在該特征向量中每個(gè)特征上的平均值，通過該些平均值獲得所述特征向量中每個(gè)特征區(qū)分正樣例與負(fù)樣例的區(qū)分度；及調(diào)整單元，與所述比較單元、權(quán)值向量設(shè)置模塊及關(guān)鍵詞確定模塊相連，用于通過所述區(qū)分度來調(diào)整所述權(quán)值向量中的權(quán)值，完成對所述權(quán)值向量的學(xué)習(xí)。
18、如權(quán)利要求15所述的系統(tǒng)，其特征在于所述特征向量設(shè)置及計(jì)算模塊，所設(shè)置的特征向量中的特征包括詞頻-逆文檔頻率、詞性、首次出現(xiàn)的相對位置和卡方統(tǒng)計(jì)量。
全文摘要
本發(fā)明公開了一種關(guān)鍵詞的確定方法及系統(tǒng)，以及權(quán)值向量的學(xué)習(xí)方法及系統(tǒng)，可以應(yīng)用于大規(guī)模數(shù)據(jù)應(yīng)用的關(guān)鍵詞提取。該關(guān)鍵詞確定方法，首先根據(jù)一目標(biāo)領(lǐng)域及一通用領(lǐng)域?qū)σ粰?quán)值向量進(jìn)行學(xué)習(xí)，該目標(biāo)領(lǐng)域內(nèi)的一文字資料設(shè)置特征向量，并根據(jù)所學(xué)習(xí)的該目標(biāo)領(lǐng)域權(quán)值向量，確定該文字資料的關(guān)鍵詞。本發(fā)明的技術(shù)方案，在不損失性能的前提下，提高了處理效率，滿足像互聯(lián)網(wǎng)等海量文本分析的應(yīng)用。
文檔編號G06F17/30GK101504667SQ20091008061
公開日2009年8月12日申請日期2009年3月20日優(yōu)先權(quán)日2009年3月20日
發(fā)明者劉文碩申請人:北京學(xué)之途網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉文碩
技術(shù)所有人：北京學(xué)之途網(wǎng)絡(luò)科技有限公司
我是此專利的發(fā)明人

上一篇：用于在終端的觸摸屏上輸入漢字的裝置和方法
上一篇：獨(dú)立磁盤冗余陣列構(gòu)建方法及裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

關(guān)鍵詞的確定方法及系統(tǒng)、權(quán)值向量的學(xué)習(xí)方法及系統(tǒng)的制作方法

關(guān)鍵詞的確定方法及系統(tǒng)、權(quán)值向量的學(xué)習(xí)方法及系統(tǒng)的制作方法