一種關(guān)鍵詞的擴(kuò)充方法及裝置制造方法
【專(zhuān)利摘要】本申請(qǐng)?zhí)峁┝艘环N關(guān)鍵詞的擴(kuò)充方法及裝置,其中的方法具體包括:獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞;依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別;對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益;選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。本申請(qǐng)能夠針對(duì)某一特定范疇進(jìn)行關(guān)鍵詞的擴(kuò)充,得到具有確定性的擴(kuò)充結(jié)果。
【專(zhuān)利說(shuō)明】—種關(guān)鍵詞的擴(kuò)充方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別是涉及一種關(guān)鍵詞的擴(kuò)充方法及裝置。
【背景技術(shù)】
[0002]目前,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,關(guān)鍵詞技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用也變得愈加廣泛,例如其可以應(yīng)用于互聯(lián)網(wǎng)營(yíng)銷(xiāo)、搜索引擎的優(yōu)化排名等各種互聯(lián)網(wǎng)領(lǐng)域。
[0003]以應(yīng)用于互聯(lián)網(wǎng)營(yíng)銷(xiāo)領(lǐng)域?yàn)槔?,如果能找到某一范疇?nèi)的關(guān)鍵詞,就能在互聯(lián)網(wǎng)上鎖定對(duì)該范疇感興趣的用戶(hù),從而可以針對(duì)鎖定的用戶(hù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)。而關(guān)鍵詞的擴(kuò)充就是用于找到某一范疇內(nèi)的關(guān)鍵詞。例如,廣告公司需要將某皮膚病的廣告投放給互聯(lián)網(wǎng)上特定的用戶(hù),為了鎖定欲投放的特定用戶(hù),需要針對(duì)“皮膚病”這一范疇進(jìn)行關(guān)鍵詞的擴(kuò)充,例如,擴(kuò)充結(jié)果具體可以包括:“溢脂性皮炎、疥瘡、腳氣、手足癬”等關(guān)鍵詞,當(dāng)有用戶(hù)在搜索引擎上搜索這些關(guān)鍵詞時(shí),可以認(rèn)定該用戶(hù)對(duì)“皮膚病”感興趣,于是可以針對(duì)該用戶(hù)投放上述皮膚病的廣告。
[0004]現(xiàn)有關(guān)鍵詞的擴(kuò)充方法主要包括主題模型算法、simrank算法等。其中,主題模型的本質(zhì)是一種基于文本概率建立的模型,給該模型一堆文檔,并指定一個(gè)參數(shù)K,該模型會(huì)輸出K組詞,其中每組內(nèi)的詞為相似的、用于描述相同事物的詞語(yǔ),K越大,每一組詞的數(shù)量就越大;Simrank算法輸出的結(jié)果包括一個(gè)詞和一組跟該詞相關(guān)的詞。然而,主題模型算法、simrank算法均是無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法,其無(wú)法給出某組詞所屬的類(lèi)別,因此不能針對(duì)某一特定范疇進(jìn)行關(guān)鍵詞的擴(kuò)充,也即其擴(kuò)充結(jié)果具有不確定性。
【發(fā)明內(nèi)容】
[0005]本申請(qǐng)所要解決的技術(shù)問(wèn)題是提供一種關(guān)鍵詞的擴(kuò)充方法及裝置,能夠針對(duì)某一特定范疇進(jìn)行關(guān)鍵詞的擴(kuò)充,得到具有確定性的擴(kuò)充結(jié)果。
[0006]為了解決上述問(wèn)題,本申請(qǐng)公開(kāi)了一種關(guān)鍵詞的擴(kuò)充方法,包括:
[0007]獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞;
[0008]依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別;
[0009]對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益;
[0010]選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
[0011]優(yōu)選的,所述對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益的步驟,包括:
[0012]分別統(tǒng)計(jì)所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目;
[0013]依據(jù)所述所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目,分別計(jì)算每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵;
[0014]以每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵的差值作為所述每個(gè)關(guān)鍵詞的信息增益。[0015]優(yōu)選的,所述選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞的步驟,包括:
[0016]依據(jù)信息增益對(duì)所有關(guān)鍵詞進(jìn)行排序,并依據(jù)排序結(jié)果選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
[0017]優(yōu)選的,所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別的步驟,包括:
[0018]針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達(dá)到預(yù)設(shè)次數(shù),若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別;或者
[0019]針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對(duì)于該網(wǎng)頁(yè)樣本所有關(guān)鍵詞的數(shù)目的比例是否達(dá)到預(yù)設(shè)比例,若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別。
[0020]優(yōu)選的,所述獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞的步驟,包括:
[0021]通過(guò)網(wǎng)頁(yè)爬蟲(chóng)在互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)和網(wǎng)頁(yè)內(nèi)容,對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析并依據(jù)分析結(jié)果提取相應(yīng)的關(guān)鍵詞;和/或
[0022]從運(yùn)營(yíng)商的流量中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵詞;和/或
[0023]從搜索引擎服務(wù)器記錄的搜索行為數(shù)據(jù)中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵 詞。
[0024]優(yōu)選的,所述方法還包括:返回執(zhí)行所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別的步驟;
[0025]所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別的步驟為,依據(jù)本次擴(kuò)充前的范疇內(nèi)已知關(guān)鍵詞和本次擴(kuò)充得到的范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別。
[0026]另一方面,本申請(qǐng)還公開(kāi)了一種關(guān)鍵詞的擴(kuò)充裝置,包括:
[0027]獲取模塊,用于獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞;
[0028]分類(lèi)模塊,用于依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別;
[0029]統(tǒng)計(jì)模塊,用于對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益 '及
[0030]選取模塊,用于選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
[0031]優(yōu)選的,所述統(tǒng)計(jì)模塊包括:
[0032]數(shù)目統(tǒng)計(jì)子模塊,用于分別統(tǒng)計(jì)所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目;
[0033]信息熵計(jì)算子模塊,用于依據(jù)所述所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目,分別計(jì)算每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵;及
[0034]差值計(jì)算子模塊,用于以每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵的差值作為所述每個(gè)關(guān)鍵詞的信息增益。[0035]優(yōu)選的,所述選取模塊,具體用于依據(jù)信息增益對(duì)所有關(guān)鍵詞進(jìn)行排序,并依據(jù)排序結(jié)果選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
[0036]優(yōu)選的,所述分類(lèi)模塊包括:
[0037]第一分類(lèi)子模塊,用于針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達(dá)到預(yù)設(shè)次數(shù),若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別;或者
[0038]第二分類(lèi)子模塊,用于針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對(duì)于該網(wǎng)頁(yè)樣本所有關(guān)鍵詞的數(shù)目的比例是否達(dá)到預(yù)設(shè)比例,若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別。
[0039]與現(xiàn)有技術(shù)相比,本申請(qǐng)具有以下優(yōu)點(diǎn):
[0040]本申請(qǐng)依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別,對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益,并選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞;
[0041]一方面,由于依據(jù)范疇內(nèi)已知關(guān)鍵詞進(jìn)行關(guān)鍵詞的擴(kuò)充,相當(dāng)于引導(dǎo)計(jì)算機(jī)針對(duì)該范疇進(jìn)行擴(kuò)詞,故能夠得到具有確定性的擴(kuò)充結(jié)果;
[0042]另一方面,關(guān)鍵詞的信息增益可用于衡量關(guān)鍵詞分類(lèi)能力的強(qiáng)弱,本申請(qǐng)選取的信息增益最大的若干關(guān)鍵詞為網(wǎng)頁(yè)中分類(lèi)能力最強(qiáng)的關(guān)鍵詞,而本申請(qǐng)實(shí)施例中,網(wǎng)頁(yè)分類(lèi)的目的是將網(wǎng)頁(yè)分類(lèi)為范疇類(lèi)別或非范疇類(lèi)別,因此,網(wǎng)頁(yè)中分類(lèi)能力最強(qiáng)的關(guān)鍵詞也即為與范疇相關(guān)度最聞的關(guān)鍵詞;
[0043]總之,本申請(qǐng)能夠針對(duì)特定范疇,從眾多網(wǎng)頁(yè)樣本中選取出與該特定范疇相關(guān)度最高的關(guān)鍵詞,相對(duì)于現(xiàn)有技術(shù),能夠針對(duì)某一特定范疇進(jìn)行關(guān)鍵詞的擴(kuò)充,得到更具有確定性的擴(kuò)充結(jié)果。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0044]圖1是本申請(qǐng)一種關(guān)鍵詞的擴(kuò)充方法實(shí)施例1的流程圖;
[0045]圖2是本申請(qǐng)實(shí)施例一種對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì)的流程示例;
[0046]圖3是本申請(qǐng)一種關(guān)鍵詞的擴(kuò)充方法實(shí)施例2的流程圖;
[0047]圖4是本申請(qǐng)一種關(guān)鍵詞的擴(kuò)充裝置實(shí)施例的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0048]為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本申請(qǐng)作進(jìn)一步詳細(xì)的說(shuō)明。
[0049]參照?qǐng)D1,示出了本申請(qǐng)一種關(guān)鍵詞的擴(kuò)充方法實(shí)施例1的流程圖,具體可以包括:
[0050]步驟101、獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞;
[0051]本申請(qǐng)實(shí)施例可以針對(duì)各種特定范疇進(jìn)行關(guān)鍵詞的擴(kuò)充,以將擴(kuò)充得到關(guān)鍵詞應(yīng)用于互聯(lián)網(wǎng)營(yíng)銷(xiāo)、搜索引擎的優(yōu)化排名等各種互聯(lián)網(wǎng)領(lǐng)域。
[0052]以應(yīng)用于互聯(lián)網(wǎng)營(yíng)銷(xiāo)領(lǐng)域?yàn)槔?,如果廣告公司需要將某皮膚病的廣告投放給互聯(lián)網(wǎng)上特定的用戶(hù),為了鎖定欲投放的特定用戶(hù),那么需要針對(duì)“皮膚病”這一范疇進(jìn)行關(guān)鍵詞的擴(kuò)充;如果廣告公司需要將銀行理財(cái)廣告投放給互聯(lián)網(wǎng)上特定的用戶(hù),那么需要針對(duì)“金融理財(cái)”這一范疇進(jìn)行關(guān)鍵詞的擴(kuò)充。
[0053]本申請(qǐng)可以提供如下獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞的技術(shù)方案:
[0054]技術(shù)方案Al
[0055]技術(shù)方案Al可以通過(guò)網(wǎng)頁(yè)爬蟲(chóng)在互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)和網(wǎng)頁(yè)內(nèi)容,對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析并依據(jù)分析結(jié)果提取相應(yīng)的關(guān)鍵詞。
[0056]在實(shí)際應(yīng)用中,可以選擇與特定范疇相關(guān)的網(wǎng)站進(jìn)行抓取,并且,可以首先對(duì)所抓取網(wǎng)頁(yè)對(duì)應(yīng)的網(wǎng)頁(yè)正文進(jìn)行分析,這里的網(wǎng)頁(yè)正文具體可以包括去掉廣告等多余信息的網(wǎng)頁(yè)內(nèi)容;然后依據(jù)網(wǎng)頁(yè)正文對(duì)應(yīng)的分析結(jié)果,提取所述網(wǎng)頁(yè)正文中的特征內(nèi)容;所述特征內(nèi)容具體可以包括:標(biāo)題、子標(biāo)題、表格、摘要和加粗文字中的一項(xiàng)或多項(xiàng);最后從所提取的特征內(nèi)容中提取相應(yīng)的關(guān)鍵詞。
[0057]技術(shù)方案A2
[0058]技術(shù)方案A2可以從運(yùn)營(yíng)商的流量中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵詞。
[0059]通常情況下用戶(hù)在搜索引擎下搜索某個(gè)關(guān)鍵詞并點(diǎn)擊相應(yīng)搜索結(jié)果以訪問(wèn)對(duì)應(yīng)跳轉(zhuǎn)網(wǎng)頁(yè)的時(shí)候,會(huì)產(chǎn)生相關(guān)的網(wǎng)絡(luò)報(bào)文,而這些網(wǎng)絡(luò)報(bào)文會(huì)被攜帶在電信、聯(lián)通等運(yùn)營(yíng)商的流量中;故技術(shù)方案A2可以通過(guò)分析這些網(wǎng)絡(luò)報(bào)文以提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵詞。
[0060]技術(shù)方案A3
[0061]技術(shù)方案A3可以從搜索引擎服務(wù)器記錄的搜索行為數(shù)據(jù)中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵詞。
[0062]搜索引擎服務(wù)器記錄的搜索行為數(shù)據(jù)中通常會(huì)包括用戶(hù)在搜索引擎下搜索某個(gè)關(guān)鍵詞并點(diǎn)擊相應(yīng)搜索結(jié)果以訪問(wèn)對(duì)應(yīng)跳轉(zhuǎn)網(wǎng)頁(yè)的相應(yīng)數(shù)據(jù),故技術(shù)方案A3可以通過(guò)分析這些搜索行為數(shù)據(jù)以提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵詞。
[0063]在具體實(shí)施中,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要,采用所述技術(shù)方案A1-A3中的一種或多種,或者,可以根據(jù)實(shí)際需求采用其它技術(shù)方案以獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞,如人工收集等等,本申請(qǐng)實(shí)施例對(duì)具體的獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞的方案不加以限制。
[0064]在實(shí)際應(yīng)用中,可以方便維護(hù)和運(yùn)算,可以依據(jù)所獲取的網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞建立語(yǔ)料庫(kù),該語(yǔ)料庫(kù)可以理解為所獲取的網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞的集合。
[0065]在此提供一種語(yǔ)料庫(kù)中每個(gè)網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞的存儲(chǔ)格式示例:url (大分隔符)queryl (小分隔符)frequentl (中分隔符)query2 (小分隔符)frequent2 (中分隔
符)query3 (小分隔符)frequent3 (中分隔符)......,其中,url用于表示網(wǎng)頁(yè)樣本的統(tǒng)一
資源定位符(Uniform Resource Locator), query I > query 2 > query 3分別表不該網(wǎng)頁(yè)樣本對(duì)應(yīng)的關(guān)鍵詞,frequently frequent2、frequent3 分別表不 queryl、query2、query3 在該網(wǎng)頁(yè)樣本中出現(xiàn)的次數(shù)。
[0066]在此提供一種采用上述存儲(chǔ)格式存儲(chǔ)的某網(wǎng)頁(yè)樣本的信息的示例:http://www.haodf.com/jibing/pifubing/daifu.htm (\x01)濕疫(\x03) 23 (\x02)銀屑病(\x03) 32(\x02)痤瘡(\x03) 11 ;在實(shí)際中,可以在語(yǔ)料庫(kù)對(duì)應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)中存放上千萬(wàn)行這樣的信肩、O
[0067]步驟102、依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別;
[0068]本申請(qǐng)實(shí)施例針對(duì)特定范疇進(jìn)行關(guān)鍵詞的擴(kuò)充,故需要給出一些范疇內(nèi)已知關(guān)鍵詞,在實(shí)際中可以通過(guò)各種方式獲取所述范疇內(nèi)已知關(guān)鍵詞,在此給出一些獲取所述范疇內(nèi)已知關(guān)鍵詞的示例:
[0069]方式一:人工獲??;
[0070]方式二:首先采用現(xiàn)有的主題模型、simrank等算法收集一些相似的關(guān)鍵詞,然后通過(guò)人工方式從所收集的關(guān)鍵詞中篩選出所述范疇內(nèi)已知關(guān)鍵詞。
[0071]在具體實(shí)現(xiàn)中,所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別的步驟,具體可以包括:
[0072]子步驟B1、針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達(dá)到預(yù)設(shè)次數(shù),若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別;或者
[0073]子步驟B2、針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對(duì)于該網(wǎng)頁(yè)樣本所有關(guān)鍵詞的數(shù)目的比例是否達(dá)到預(yù)設(shè)比例,若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別。
[0074]其中,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需求采用所述子步驟BI和子步驟B2中的任一;所述子步驟BI中的預(yù)設(shè)次數(shù)可以為一次、兩次、三次、四次等;所述子步驟B2中的預(yù)設(shè)比例可以為1/4等數(shù)值,例如,某個(gè)url后面有8個(gè)關(guān)鍵詞,那么所述范疇內(nèi)已知關(guān)鍵詞在該url對(duì)應(yīng)網(wǎng)頁(yè)中出現(xiàn)兩次及兩次以上就可以將該網(wǎng)頁(yè)分類(lèi)為范疇類(lèi)別??傊?,本領(lǐng)域技術(shù)人員可以靈活地利用范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率對(duì)所述網(wǎng)頁(yè)樣本進(jìn)行分類(lèi)。
[0075]在本申請(qǐng)的一種應(yīng)用示例中,可以對(duì)分類(lèi)結(jié)果進(jìn)行機(jī)器標(biāo)注,例如,可以將范疇類(lèi)別的網(wǎng)頁(yè)樣本標(biāo)注為Y,同時(shí)將非范疇類(lèi)別的網(wǎng)頁(yè)樣本標(biāo)注為N等等。
[0076]由于較長(zhǎng)的關(guān)鍵詞在語(yǔ)料庫(kù)中出現(xiàn)的頻率過(guò)低,而且包含的語(yǔ)義過(guò)于豐富,不利于語(yǔ)料庫(kù)中網(wǎng)頁(yè)樣本的分類(lèi),故在本申請(qǐng)的一種優(yōu)選實(shí)施例中,在依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別的步驟之前,還可以首先對(duì)所有網(wǎng)頁(yè)樣本的關(guān)鍵詞進(jìn)行分詞的步驟。
[0077]步驟103、對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益;
[0078]步驟104、選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
[0079]本申請(qǐng)實(shí)施例在基于信息論知識(shí)進(jìn)行關(guān)鍵詞的擴(kuò)充的過(guò)程中,可以將每個(gè)網(wǎng)頁(yè)樣本看作一個(gè)對(duì)象,將每個(gè)網(wǎng)頁(yè)樣本對(duì)應(yīng)的每個(gè)關(guān)鍵詞看作對(duì)象的屬性。
[0080]由于步驟101獲取了眾多網(wǎng)頁(yè)樣本對(duì)象的集合,有的網(wǎng)頁(yè)樣本對(duì)象屬于范疇類(lèi)別,有的網(wǎng)頁(yè)樣本對(duì)象不屬于范疇類(lèi)別,也即,網(wǎng)頁(yè)樣本對(duì)象的集合在分類(lèi)前是混亂的故需要較多的信息熵去描述,故需要依據(jù)網(wǎng)頁(yè)樣本的關(guān)鍵詞屬性進(jìn)行分類(lèi)。
[0081]而每個(gè)網(wǎng)頁(yè)樣本具有對(duì)應(yīng)的至少一個(gè)關(guān)鍵詞,這導(dǎo)致網(wǎng)頁(yè)樣本對(duì)象的集合中包括多個(gè)關(guān)鍵詞,依據(jù)其中哪個(gè)關(guān)鍵詞分類(lèi)后導(dǎo)致對(duì)象的混亂度變得最小需要最少的信息熵去描述,則說(shuō)明該關(guān)鍵詞的分類(lèi)能力最強(qiáng)。
[0082]在信息增益中,衡量標(biāo)準(zhǔn)是看屬性能夠?yàn)榉诸?lèi)系統(tǒng)帶來(lái)多少信息,帶來(lái)的信息越多,該屬性越重要,則該屬性的分類(lèi)能力越強(qiáng);因此,本申請(qǐng)選取的信息增益最大的若干關(guān)鍵詞為網(wǎng)頁(yè)中分類(lèi)能力最強(qiáng)的關(guān)鍵詞。而本申請(qǐng)實(shí)施例中,網(wǎng)頁(yè)分類(lèi)的目的是將網(wǎng)頁(yè)分類(lèi)為范疇類(lèi)別或非范疇類(lèi)別,因此,網(wǎng)頁(yè)中分類(lèi)能力最強(qiáng)的關(guān)鍵詞也即為與范疇相關(guān)度最高的關(guān)鍵詞??傊?,本申請(qǐng)能夠針對(duì)特定范疇,從眾多網(wǎng)頁(yè)樣本中選取出與該特定范疇相關(guān)度最高的關(guān)鍵詞,相對(duì)于現(xiàn)有技術(shù),能夠針對(duì)某一特定范疇進(jìn)行關(guān)鍵詞的擴(kuò)充,得到更具有確定性的擴(kuò)充結(jié)果。
[0083]需要說(shuō)明的是,已有技術(shù)中也存在計(jì)算信息增益的方案,然而已有技術(shù)中計(jì)算信息增益需要對(duì)對(duì)象集合進(jìn)行人工分類(lèi),而本申請(qǐng)實(shí)施例中創(chuàng)造性地依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本自動(dòng)分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別,而所述網(wǎng)頁(yè)樣本和對(duì)應(yīng)的關(guān)鍵詞可以反映廣大網(wǎng)民的上網(wǎng)行為,例如,用戶(hù)在存在“如何治療感冒”的信息需求時(shí),會(huì)在搜索引擎的搜索框中輸入“感冒”關(guān)鍵詞進(jìn)行搜索,搜索引擎會(huì)提供眾多網(wǎng)頁(yè)對(duì)應(yīng)的搜索結(jié)果,如果用戶(hù)點(diǎn)擊了其中某網(wǎng)頁(yè),那么該網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵詞都會(huì)被收集到步驟101中,例如可以形成一條“url+query (query是關(guān)鍵詞“感冒”,url是點(diǎn)擊的網(wǎng)頁(yè),中間是分隔符)”的數(shù)據(jù)記錄,該數(shù)據(jù)記錄可以相當(dāng)于搜索引擎和網(wǎng)民共同標(biāo)記了該網(wǎng)頁(yè)就是“感冒”有關(guān)的網(wǎng)頁(yè),本申請(qǐng)實(shí)施例正是利用眾多的上述數(shù)據(jù)記錄中的范疇內(nèi)已知關(guān)鍵詞對(duì)網(wǎng)頁(yè)樣本集合進(jìn)行自動(dòng)分類(lèi)的。
[0084]在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到每個(gè)關(guān)鍵詞的信息增益的步驟,具體可以包括:
[0085]子步驟Cl、分別統(tǒng)計(jì)所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目;
[0086]參照?qǐng)D2,給出了本申請(qǐng)實(shí)施例一種對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì)的流程示例,該示例涉及語(yǔ)料庫(kù)中存放有T個(gè)網(wǎng)頁(yè)樣本,其中每個(gè)網(wǎng)頁(yè)樣本的信息具體可以包括:url+query,其中,query可用于表示該url對(duì)應(yīng)的至少一個(gè)關(guān)鍵詞,其中,不同網(wǎng)頁(yè)樣本對(duì)應(yīng)關(guān)鍵詞的數(shù)目可以相同可以不同,且不同網(wǎng)頁(yè)樣本對(duì)應(yīng)關(guān)鍵詞可以相同可以不同,在實(shí)際中可針對(duì)所有網(wǎng)頁(yè)樣本中關(guān)鍵詞進(jìn)行統(tǒng)計(jì),為方便起見(jiàn),本文采用queryi表示所有網(wǎng)頁(yè)樣本中的第i個(gè)關(guān)鍵詞;
[0087]圖2所述示例中還依據(jù)分類(lèi)結(jié)果對(duì)語(yǔ)料庫(kù)中的T個(gè)網(wǎng)頁(yè)樣本進(jìn)行了機(jī)器標(biāo)注,其中,將范疇類(lèi)別的網(wǎng)頁(yè)樣本標(biāo)注為Y,將非范疇類(lèi)別的網(wǎng)頁(yè)樣本標(biāo)注為N,經(jīng)統(tǒng)計(jì)可知,標(biāo)注為Y的網(wǎng)頁(yè)樣本的數(shù)目為M,標(biāo)注為N的網(wǎng)頁(yè)樣本的數(shù)目為T(mén)-M ;
[0088]進(jìn)一步,圖2所述示例中還統(tǒng)計(jì)了 queryi對(duì)應(yīng)所有網(wǎng)頁(yè)樣本的數(shù)目Ni,也即T個(gè)網(wǎng)頁(yè)樣本中有Ni個(gè)網(wǎng)頁(yè)樣本包括有queryi;圖2所述示例中還統(tǒng)計(jì)了 Queryi對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目叫,也即,M個(gè)網(wǎng)頁(yè)樣本中有Iii個(gè)網(wǎng)頁(yè)樣本包括有query1.。
[0089]子步驟C2、依據(jù)所述所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目,分別計(jì)算每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵;
[0090]子步驟C3、以每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵的差值作為所述每個(gè)關(guān)鍵詞的信息增益。[0091]在具體實(shí)現(xiàn)中,本領(lǐng)域技術(shù)人員可以采用信息熵、基尼系數(shù)或者卡方檢驗(yàn)等信息度量方法計(jì)算得到上述信息增益。
[0092]其中,信息熵是信息論中量度信息多少的一個(gè)物理量,它從量上反映具有確定概率的事件發(fā)生時(shí)所傳遞的信息,具體到本申請(qǐng)實(shí)施例,每個(gè)關(guān)鍵詞的信息熵則用于表示屬性能夠?yàn)榫W(wǎng)頁(yè)樣本這個(gè)對(duì)象帶來(lái)的信息。
[0093]換個(gè)說(shuō)法,信息熵可用于表示對(duì)象集合所攜帶的信息量,也可以認(rèn)為是對(duì)象集合的混亂度。網(wǎng)頁(yè)樣本對(duì)象的集合中包括多個(gè)關(guān)鍵詞,依據(jù)其中哪個(gè)關(guān)鍵詞分類(lèi)后導(dǎo)致對(duì)象的混亂度變得最小則說(shuō)明該關(guān)鍵詞具有最強(qiáng)的分類(lèi)能力,故在實(shí)際應(yīng)用中,可以每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵的差值作為所述每個(gè)關(guān)鍵詞的信息增益。
[0094]由于本申請(qǐng)涉及網(wǎng)頁(yè)樣本對(duì)象的兩類(lèi)分類(lèi),兩類(lèi)分類(lèi)的信息熵公式可以為:
[0095]InfoQ (p)=_plog2 (P)-(1-p) log2(l-p) (I)
[0096]其中,p表示網(wǎng)頁(yè)樣本對(duì)象屬于范疇類(lèi)別的概率;
[0097]在使用公式(I)計(jì)算關(guān)鍵詞query在分類(lèi)前的信息熵時(shí),P可以表示為M/T,故公式(I)可以表示為:
【權(quán)利要求】
1.一種關(guān)鍵詞的擴(kuò)充方法,其特征在于,包括: 獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞; 依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別; 對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益; 選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
2.如權(quán)利要求1所述的方法,其特征在于,所述對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益的步驟,包括: 分別統(tǒng)計(jì)所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目; 依據(jù)所述所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目,分別計(jì)算每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵; 以每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵的差值作為所述每個(gè)關(guān)鍵詞的信息增益。
3.如權(quán)利要求1所述的方法,其特征在于,所述選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞的步驟,包括: 依據(jù)信息增益對(duì)所有關(guān)鍵詞進(jìn)行排序,并依據(jù)排序結(jié)果選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
4.如權(quán)利要求1或2或3所述的方法,其特征在于,所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將`所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別的步驟,包括: 針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達(dá)到預(yù)設(shè)次數(shù),若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別;或者 針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對(duì)于該網(wǎng)頁(yè)樣本所有關(guān)鍵詞的數(shù)目的比例是否達(dá)到預(yù)設(shè)比例,若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別。
5.如權(quán)利要求1或2或3所述的方法,其特征在于,所述獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞的步驟,包括: 通過(guò)網(wǎng)頁(yè)爬蟲(chóng)在互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)和網(wǎng)頁(yè)內(nèi)容,對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析并依據(jù)分析結(jié)果提取相應(yīng)的關(guān)鍵詞;和/或 從運(yùn)營(yíng)商的流量中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵詞;和/或 從搜索引擎服務(wù)器記錄的搜索行為數(shù)據(jù)中提取搜索結(jié)果跳轉(zhuǎn)網(wǎng)頁(yè)及對(duì)應(yīng)的關(guān)鍵詞。
6.如權(quán)利要求1或2或3所述的方法,其特征在于,還包括:返回執(zhí)行所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別的步驟; 所述依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別的步驟為,依據(jù)本次擴(kuò)充前的范疇內(nèi)已知關(guān)鍵詞和本次擴(kuò)充得到的范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別。
7.—種關(guān)鍵詞的擴(kuò)充裝置,其特征在于,包括: 獲取模塊,用于獲取網(wǎng)頁(yè)樣本及對(duì)應(yīng)的關(guān)鍵詞; 分類(lèi)模塊,用于依據(jù)范疇內(nèi)已知關(guān)鍵詞在所述網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)頻率,將所述網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別或者非范疇類(lèi)別; 統(tǒng)計(jì)模塊,用于對(duì)分類(lèi)前后的網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),得到所有網(wǎng)頁(yè)樣本中每個(gè)關(guān)鍵詞的信息增益 '及 選取模塊,用于選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
8.如權(quán)利要求7所述的裝置,其特征在于,所述統(tǒng)計(jì)模塊包括: 數(shù)目統(tǒng)計(jì)子模塊,用于分別統(tǒng)計(jì)所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目; 信息熵計(jì)算子模塊,用于依據(jù)所述所有網(wǎng)頁(yè)樣本、范疇類(lèi)別網(wǎng)頁(yè)樣本、每個(gè)關(guān)鍵詞對(duì)應(yīng)所有網(wǎng)頁(yè)樣本和每個(gè)關(guān)鍵詞對(duì)應(yīng)范疇類(lèi)別網(wǎng)頁(yè)樣本的數(shù)目,分別計(jì)算每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵;及 差值計(jì)算子模塊,用于以每個(gè)關(guān)鍵詞在分類(lèi)前后的信息熵的差值作為所述每個(gè)關(guān)鍵詞的信息增益。
9.如權(quán)利要求8所述的裝置,其特征在于,所述選取模塊,具體用于依據(jù)信息增益對(duì)所有關(guān)鍵詞進(jìn)行排序,并依據(jù)排序結(jié)果選取信息增益最大的若干關(guān)鍵詞作為擴(kuò)充得到的范疇內(nèi)關(guān)鍵詞。
10.如權(quán)利要求·7或8或9所述的裝置,其特征在于,所述分類(lèi)模塊包括: 第一分類(lèi)子模塊,用于針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)是否達(dá)到預(yù)設(shè)次數(shù),若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別;或者 第二分類(lèi)子模塊,用于針對(duì)某網(wǎng)頁(yè)樣本,判斷所述范疇內(nèi)已知關(guān)鍵詞在該網(wǎng)頁(yè)樣本的關(guān)鍵詞中的出現(xiàn)次數(shù)相對(duì)于該網(wǎng)頁(yè)樣本所有關(guān)鍵詞的數(shù)目的比例是否達(dá)到預(yù)設(shè)比例,若是則將該網(wǎng)頁(yè)樣本分類(lèi)為范疇類(lèi)別,否則將該網(wǎng)頁(yè)樣本分類(lèi)為非范疇類(lèi)別。
【文檔編號(hào)】G06F17/30GK103823847SQ201410042385
【公開(kāi)日】2014年5月28日 申請(qǐng)日期:2014年1月28日 優(yōu)先權(quán)日:2014年1月28日
【發(fā)明者】李鵬, 羅峰, 黃蘇支, 李娜 申請(qǐng)人:億贊普(北京)科技有限公司