提取頁(yè)面中關(guān)鍵詞的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域,更為具體而言,涉及一種提取頁(yè)面中關(guān)鍵詞的方法及裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)的發(fā)展,人們可以通過(guò)網(wǎng)絡(luò)處理越來(lái)越多的事情,然而,用戶在面對(duì)查詢各類信息的時(shí)候,需要以關(guān)鍵詞作為搜索內(nèi)容,如果可以對(duì)頁(yè)面中的關(guān)鍵詞進(jìn)行科學(xué)的提取和應(yīng)用,將使查詢效果得到事半功倍的改善。
[0003]現(xiàn)有技術(shù)中分析提取關(guān)鍵詞需要依賴先驗(yàn)知識(shí),比如需要切詞,需要詞性標(biāo)注,需要停用詞詞典,這些自然語(yǔ)言類的處理邏輯需要積累詞庫(kù)才能開(kāi)展。常用的有基于統(tǒng)計(jì)的TF-1DF(term frequency-1nverse document frequency,S卩一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù))統(tǒng)計(jì)方法,有基于機(jī)器學(xué)習(xí)的,有基于語(yǔ)義的。傳統(tǒng)的關(guān)鍵詞統(tǒng)計(jì)方法一般利用網(wǎng)頁(yè)內(nèi)容特征和詞語(yǔ)詞性特征,通過(guò)TF-1DF公式來(lái)計(jì)算出核心的關(guān)鍵詞,這種方法在推廣到國(guó)際語(yǔ)言的時(shí)的問(wèn)題是要有先驗(yàn)知識(shí)庫(kù),這構(gòu)成了比較大的障礙,從而導(dǎo)致現(xiàn)有技術(shù)的關(guān)鍵詞提取方法通用性低、不夠智能和處理效率低的問(wèn)題。
[0004]因此,為了解決現(xiàn)有技術(shù)中通用關(guān)鍵詞提取在國(guó)際化語(yǔ)言上無(wú)法工作的問(wèn)題,亟需一種通用性更強(qiáng)且智能高效的提取頁(yè)面中關(guān)鍵詞的方法及裝置。
【發(fā)明內(nèi)容】
[0005]為了解決現(xiàn)有技術(shù)中通用關(guān)鍵詞提取在國(guó)際化語(yǔ)言上無(wú)法工作,從而導(dǎo)致現(xiàn)有技術(shù)中關(guān)鍵詞提取技術(shù)的通用性低、不夠智能和處理效率低的問(wèn)題,本發(fā)明的實(shí)施方式提供了一種提取頁(yè)面中關(guān)鍵詞的方法及裝置。
[0006]一方面,本發(fā)明實(shí)施方式提供了一種提取頁(yè)面中關(guān)鍵詞的方法,所述方法包括:
[0007]對(duì)頁(yè)面的標(biāo)題內(nèi)容進(jìn)行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表;
[0008]對(duì)所述頁(yè)面進(jìn)行頁(yè)面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;
[0009]對(duì)所述短串集合進(jìn)行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池;
[0010]按照所述原始權(quán)重池中每個(gè)所述字符串包含單詞個(gè)數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進(jìn)行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值;
[0011]按照所述候選字的權(quán)重值從大到小進(jìn)行排序,則根據(jù)所述排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目的所述候選詞提取為關(guān)鍵詞。
[0012]另一方面,本發(fā)明實(shí)施方式還提供了一種提取頁(yè)面中關(guān)鍵詞的裝置,所述裝置包括:
[0013]候選詞查找表構(gòu)建模塊,用于對(duì)頁(yè)面的標(biāo)題內(nèi)容進(jìn)行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表;
[0014]短串集合模塊,用于對(duì)所述頁(yè)面進(jìn)行頁(yè)面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;
[0015]原始權(quán)重池模塊,用于對(duì)所述短串集合進(jìn)行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池;
[0016]權(quán)重投票模塊,用于按照所述原始權(quán)重池中每個(gè)所述字符串包含單詞個(gè)數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進(jìn)行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值;
[0017]關(guān)鍵詞提取模塊,用于按照所述候選字的權(quán)重值從大到小進(jìn)行排序,則根據(jù)所述排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目的所述候選詞提取為關(guān)鍵詞。
[0018]實(shí)施本發(fā)明的各種實(shí)施方式具有以下有益效果:可解決現(xiàn)有技術(shù)中關(guān)鍵詞提取在國(guó)際化語(yǔ)言上無(wú)法工作的問(wèn)題,提高關(guān)鍵詞提取技術(shù)的通用性,使提取關(guān)鍵詞的方式更加智能和高效。
【附圖說(shuō)明】
[0019]圖1是根據(jù)本發(fā)明實(shí)施方式的提取頁(yè)面中關(guān)鍵詞的方法的流程圖;
[0020]圖2示出了圖1所示方法的步驟S4的具體流程圖;
[0021]圖3是根據(jù)本發(fā)明實(shí)施方式的提取頁(yè)面中關(guān)鍵詞的裝置I的架構(gòu)圖;
[0022]圖4示出了圖3所示的候選詞查找表構(gòu)建模塊100的框圖;
[0023]圖5示出了圖3所示的短串集合模塊200的框圖。
【具體實(shí)施方式】
[0024]以下結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明的各個(gè)方面進(jìn)行詳細(xì)闡述。其中,眾所周知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒(méi)有示出或未作詳細(xì)說(shuō)明。并且,所描述的特征、架構(gòu)或功能可在一個(gè)或一個(gè)以上實(shí)施方式中以任何方式組合。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,下述的各種實(shí)施方式只用于舉例說(shuō)明,而非用于限制本發(fā)明的保護(hù)范圍。還可以容易理解,本文所述和附圖所示的各實(shí)施方式中的模塊或單元或處理方式可以按各種不同配置進(jìn)行組合和設(shè)計(jì)。
[0025]圖1是根據(jù)本發(fā)明實(shí)施方式的提取頁(yè)面中關(guān)鍵詞的方法的流程圖;參見(jiàn)圖1,所述方法包括:
[0026]SI,對(duì)頁(yè)面的標(biāo)題內(nèi)容進(jìn)行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表;其中,通過(guò)NGram(N元法)的方法進(jìn)行所述字符串分析,將標(biāo)題內(nèi)容拆解為多個(gè)字符串,每個(gè)所述字符串作為一個(gè)候選詞。例如:通過(guò)NGram的方法可將標(biāo)題內(nèi)容“ABC”進(jìn)行分析,并拆解為以下多個(gè)字符串組合:“ABC”、“AB ”、“BC”、“A,,、“B ”和“ C” ;
[0027]S2,對(duì)所述頁(yè)面進(jìn)行頁(yè)面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;具體而言,分析所述頁(yè)面中的文字內(nèi)容(包括頁(yè)面鏈接和標(biāo)題內(nèi)容等),將所述文字內(nèi)容與所述候選詞關(guān)聯(lián)的文字組合(例如國(guó)家主席習(xí)近平出席XX會(huì)議”或“習(xí)近平訪美”等)構(gòu)成短串集合(例如國(guó)家主席”、“習(xí)近平”、“XX會(huì)議”和“訪美”等);
[0028]S3,對(duì)所述短串集合進(jìn)行字符串分析得到字符串,得到的字符串構(gòu)成原始權(quán)重池,其形式可表示為(“A,1”,“C,I”)或類似的形式,其中“I”表示該字符串出現(xiàn)的次數(shù);
[0029]S4,按照所述原始權(quán)重池中每個(gè)所述字符串包含單詞個(gè)數(shù)的順序,由所述字符串向所述候選詞查找表中的候選詞進(jìn)行權(quán)重投票,如果所述字符串與候選詞查找表中的候選詞匹配一致,則增加所述候選詞的權(quán)重值(例如:所述候選詞的權(quán)重值加1,但不限于此,權(quán)重值可以增加其他數(shù)量);
[0030]S5,按照所述候選字的權(quán)重值從大到小進(jìn)行排序(但不限于按照從大到小的排序順序,也可以按照其他方式進(jìn)行排序,例如權(quán)重值從小到大的順序等),則根據(jù)所述排序?qū)?quán)重值排序靠前的預(yù)定數(shù)目(例如:第一位或前N位)的所述候選詞提取為關(guān)鍵詞,其中預(yù)定數(shù)目的選擇可根據(jù)實(shí)際需要自行設(shè)定。
[0031]通過(guò)采用本發(fā)明實(shí)施方式所述的方法可解決現(xiàn)有技術(shù)中關(guān)鍵詞提取在國(guó)際化語(yǔ)言上無(wú)法工作的問(wèn)題,提高關(guān)鍵詞提取技術(shù)的通用性,使提取關(guān)鍵詞的方式更加智能和高效。
[0032]圖2示出了圖1所示方法的步驟S4的具體流程圖;參見(jiàn)圖2,所述步驟S4包括:
[0033]S41,按照原始權(quán)重池中每個(gè)所述字符串包含單詞個(gè)數(shù)由多至少的順序排列所述字符串,例如:字符串“ABC”的排列順序?yàn)椤癆BC”、“AB”、“BC”、“A”、“B”和“C,,;
[0034]S42,由所述字符串向所述候選詞查找表中的候選詞進(jìn)行權(quán)重投票,如果所述字符串“ABC”與候選詞查找表中的候選詞“ABC”匹配一致,則所述候選詞“ABC”的權(quán)重值加I ;
[0035]S43,當(dāng)所述字符串中較長(zhǎng)的字符串向所述候選詞投票成功時(shí),其包含的各個(gè)較短字符串則不再進(jìn)行投票,也就是說(shuō),如果字符串“ABC”匹配成功,則其包含的各個(gè)較短字符串(“AB”、“BC”、“A”、“B”和“C”)則不再進(jìn)行投票。從而避免了較短字符串的重復(fù)投票,提高了較長(zhǎng)字符串的匹配率和權(quán)重值的準(zhǔn)確性。
[0036]圖3是根據(jù)本發(fā)明實(shí)施方式的提取頁(yè)面中關(guān)鍵詞的裝置I的架構(gòu)圖;參見(jiàn)圖3,所述裝置I包括:
[0037]候選詞查找表構(gòu)建模塊100,用于對(duì)頁(yè)面的標(biāo)題內(nèi)容進(jìn)行字符串分析得到候選詞,得到的所述候選詞構(gòu)成候選詞查找表;
[0038]短串集合模塊200,用于對(duì)所述頁(yè)面進(jìn)行頁(yè)面分析得到文字組合,得到的所述文字組合構(gòu)成短串集合;
[0039]原始權(quán)重池模塊300,用于對(duì)所述短串集合進(jìn)行字符串分析