得到字符串,得到的字符串構(gòu)成原始權(quán)重池;其形式可表示為(“A,1”,“C,I”)或類似的形式,其中“I”表示該字符串出現(xiàn)的次數(shù);
[0040]權(quán)重投票模塊400,用于按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值(例如:所述候選詞的權(quán)重值加1,但不限于此,權(quán)重值可以增加其他數(shù)量);其中,所述按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序包括:按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)由多至少的順序(例如:字符串“ABC”的排列順序為“ABC”、“AB”、“BC”、“A”、“B”和“C”),當所述字符串中較長的字符串向所述候選詞投票成功時,其包含的各個較短字符串則不再進行投票,也就是說,如果字符串“ABC”匹配成功,則其包含的各個較短字符串(“AB”、“BC”、
和“C”)則不再進行投票。從而避免了較短字符串的重復(fù)投票,提高了較長字符串的匹配率和權(quán)重值的準確性。
[0041]關(guān)鍵詞提取模塊500,用于按照所述候選字的權(quán)重值從大到小進行排序,(但不限于按照從大到小的排序順序,也可以按照其他方式進行排序,例如權(quán)重值從小到大的順序等),則根據(jù)所述排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目(例如:第一位或前N位)的所述候選詞提取為關(guān)鍵詞,其中預(yù)定數(shù)目的選擇可根據(jù)實際需要自行設(shè)定。
[0042]圖4不出了圖3所不的候選詞查找表構(gòu)建模塊100的框圖;參見圖4,所述候選詞查找表構(gòu)建模塊100包括:
[0043]字符串分析單元110,用于通過NGram(N元法)的方法進行所述字符串分析,將標題內(nèi)容拆解為多個字符串,每個所述字符串作為一個候選詞;例如:通過NGram的方法可將標題內(nèi)容“ABC”進行分析,并拆解為以下多個字符串組合:“ABC”、“AB”、“BC”、“A”、“B”和“C,,;
[0044]查找表構(gòu)成單元120,用于將得到的所述候選詞構(gòu)成所述候選詞查找表。
[0045]圖5示出了圖3所示的短串集合模塊200的框圖;參見圖5,所述短串集合模塊200包括:
[0046]頁面分析單元210,用于分析所述頁面中的文字內(nèi)容(包括頁面鏈接和標題內(nèi)容等);
[0047]短串集合構(gòu)成單元220,用于將所述文字內(nèi)容與所述候選詞關(guān)聯(lián)的文字組合(例如國家主席習近平出席XX會議”或“習近平訪美”等)構(gòu)成短串集合(例如國家主席”、“習近平”、“XX會議”和“訪美”等)。
[0048]通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件結(jié)合硬件平臺的方式來實現(xiàn),當然也可以全部通過硬件來實施?;谶@樣的理解,本發(fā)明的技術(shù)方案對【背景技術(shù)】做出貢獻的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,智能手機或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。
[0049]本發(fā)明說明書中使用的術(shù)語和措辭僅僅為了舉例說明,并不意味構(gòu)成限定。本領(lǐng)域技術(shù)人員應(yīng)當理解,在不脫離所公開的實施方式的基本原理的前提下,對上述實施方式中的各細節(jié)可進行各種變化。因此,本發(fā)明的范圍只由權(quán)利要求確定,在權(quán)利要求中,除非另有說明,所有的術(shù)語應(yīng)按最寬泛合理的意思進行理解。
【主權(quán)項】
1.一種提取頁面中關(guān)鍵詞的方法,其特征在于,所述方法包括: 對頁面的標題內(nèi)容進行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表; 對所述頁面進行頁面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合; 對所述短串集合進行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池; 按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值; 按照所述候選字的權(quán)重值從大到小進行排序,則根據(jù)所述排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目的所述候選詞提取為關(guān)鍵詞。
2.如權(quán)利要求1所述的方法,其特征在于,所述對頁面的標題內(nèi)容進行字符串分析得到候選詞: 通過NGram的方法進行所述字符串分析,將標題內(nèi)容拆解為多個字符串,每個所述字符串作為一個候選詞。
3.如權(quán)利要求1所述的方法,其特征在于,所述對所述頁面進行頁面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合包括: 分析所述頁面中的文字內(nèi)容,將所述文字內(nèi)容與所述候選詞關(guān)聯(lián)的文字組合構(gòu)成短串 口 O
4.如權(quán)利要求1所述的方法,其特征在于,所述按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序包括: 按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)由多至少的順序,當所述字符串中較長的字符串向所述候選詞投票成功時,其包含的各個較短字符串則不再進行投票。
5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目的所述候選詞提取為關(guān)鍵詞包括: 將所述排序第一位的所述候選詞提取為所述關(guān)鍵詞。
6.一種提取頁面中關(guān)鍵詞的裝置,其特征在于,所述裝置包括: 候選詞查找表構(gòu)建模塊,用于對頁面的標題內(nèi)容進行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表; 短串集合模塊,用于對所述頁面進行頁面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合; 原始權(quán)重池模塊,用于對所述短串集合進行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池; 權(quán)重投票模塊,用于按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值; 關(guān)鍵詞提取模塊,用于按照所述候選字的權(quán)重值從大到小進行排序,則根據(jù)所述排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目的所述候選詞提取為關(guān)鍵詞。
7.如權(quán)利要求6所述的裝置,其特征在于,所述候選詞查找表構(gòu)建模塊包括: 字符串分析單元,用于通過NGram的方法進行所述字符串分析,將標題內(nèi)容拆解為多個字符串,每個所述字符串作為一個候選詞; 查找表構(gòu)成單元,用于將得到的所述候選詞構(gòu)成所述候選詞查找表。
8.如權(quán)利要求6所述的裝置,其特征在于,所述短串集合模塊包括: 頁面分析單元,用于分析所述頁面中的文字內(nèi)容; 短串集合構(gòu)成單元,用于將所述文字內(nèi)容與所述候選詞關(guān)聯(lián)的文字組合構(gòu)成短串集入口 ο
9.如權(quán)利要求6所述的裝置,其特征在于,所述按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)的順序包括: 按照所述原始權(quán)重池中每個所述字符串包含單詞個數(shù)由多至少的順序,當所述字符串中較長的字符串向所述候選詞投票成功時,其包含的各個較短字符串則不再進行投票。
10.如權(quán)利要求6所述的裝置,其特征在于,所述根據(jù)所述排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目的所述候選詞提取為關(guān)鍵詞包括: 將所述排序第一位的所述候選詞提取為所述關(guān)鍵詞。
【專利摘要】本發(fā)明公開了一種提取頁面中關(guān)鍵詞的方法及裝置,所述方法包括:對頁面的標題內(nèi)容進行字符串分析得到候選詞,得到的候選詞構(gòu)成候選詞查找表;對頁面進行頁面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;對短串集合進行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池;按照原始權(quán)重池中每個字符串包含單詞個數(shù)的順序,由字符串向候選詞查找表中的候選詞進行權(quán)重投票,如果字符串與候選詞查找表中的候選詞匹配一致,則增加候選詞的權(quán)重值;按照候選字的權(quán)重值從大到小進行排序,則根據(jù)排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目的候選詞提取為關(guān)鍵詞。通過采用本發(fā)明可提高關(guān)鍵詞提取技術(shù)的通用性,使提取關(guān)鍵詞的方式更加智能和高效。
【IPC分類】G06F17-27
【公開號】CN104679731
【申請?zhí)枴緾N201510109354
【發(fā)明人】范斌
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開日】2015年6月3日
【申請日】2015年3月12日