一種對頁面標(biāo)注標(biāo)簽的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種對頁面標(biāo)注標(biāo)簽的方法及裝置,在該方案中,確定待標(biāo)注標(biāo)簽的頁面的類別與關(guān)鍵詞組;從分類標(biāo)簽庫中選擇與所述頁面的類別對應(yīng)的子標(biāo)簽庫,所述分類標(biāo)簽庫中的任意一子標(biāo)簽庫包括用于表示該子標(biāo)簽庫屬性的各個元素,及每一個元素分別對應(yīng)的元素信息;針對所述關(guān)鍵詞組中的任意一關(guān)鍵詞,查看所述選擇出的子標(biāo)簽庫所包括的所有元素信息中是否存在與所述任意一關(guān)鍵詞相同的元素信息;將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注,不需要依靠人工去操作,因此,降低了人工的消耗,提高了標(biāo)注標(biāo)簽的效率,及準(zhǔn)確性。
【專利說明】一種對頁面標(biāo)注標(biāo)簽的方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別涉及一種對頁面標(biāo)注標(biāo)簽的方法及裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)全球化的發(fā)展和個人計算機的普及,互聯(lián)網(wǎng)已經(jīng)成為獲取資訊,進行網(wǎng) 絡(luò)通信的主要途徑。互聯(lián)網(wǎng)中,越來越多的信息以網(wǎng)頁的形式呈現(xiàn),而網(wǎng)頁的設(shè)計也越來越 復(fù)雜,多元化,因此,在互聯(lián)網(wǎng)上尋找目標(biāo)信息所耗費的時間也較長。
[0003] 為了更方便的從豐富的網(wǎng)頁中找到目標(biāo)網(wǎng)頁,提高搜索效率,可以對網(wǎng)頁標(biāo)注標(biāo) 簽,在對網(wǎng)頁標(biāo)注標(biāo)簽之后,即可以對網(wǎng)頁進行分類,以及在對網(wǎng)頁進行搜索時,可以基于 標(biāo)簽進行搜索,以提高搜索效率和準(zhǔn)確性。
[0004] 現(xiàn)有的在對頁面標(biāo)注標(biāo)簽時采用人工標(biāo)注的方式,例如,網(wǎng)頁的后臺管理人員,根 據(jù)網(wǎng)頁的內(nèi)容對網(wǎng)頁標(biāo)注標(biāo)簽,由于該種方式主要依靠人工來操作,因此,需要大量的人 力、處理效率較低,且準(zhǔn)確性較低。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實施例提供一種對頁面標(biāo)注標(biāo)簽的方法及裝置,用以解決現(xiàn)有技術(shù)中依靠 人工來對網(wǎng)頁標(biāo)注標(biāo)簽的方式,存在的人力消耗較大、處理效率較低和準(zhǔn)確性較低的缺陷。
[0006] 第一方面,提供一種對頁面標(biāo)注標(biāo)簽的方法,包括:
[0007] 確定待標(biāo)注標(biāo)簽的頁面的第一關(guān)鍵詞組與類別;
[0008] 從分類標(biāo)簽庫中選擇與所述頁面的類別對應(yīng)的子標(biāo)簽庫,所述分類標(biāo)簽庫中的任 意一子標(biāo)簽庫包括用于從不同元素表示該子標(biāo)簽庫屬性的各個元素,及與每一個元素分別 分別對應(yīng)的元素信息;
[0009] 查看選擇出的子標(biāo)簽庫所包括的元素信息中是否存在與所述關(guān)鍵詞組中的任意 一關(guān)鍵詞相同的兀素信息;
[0010] 將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
[0011] 結(jié)合第一方面,在第一種可能的實現(xiàn)方式中,確定待標(biāo)注標(biāo)簽的頁面的第一關(guān)鍵 詞組與類別之前,還包括:
[0012] 采集訓(xùn)練頁面,并對訓(xùn)練頁面分類得到頁面類別;
[0013] 對每一種頁面類別下的各個類訓(xùn)練頁面抓取關(guān)鍵詞,獲得每一種頁面類別分別對 應(yīng)的第二關(guān)鍵詞組;
[0014] 確定待標(biāo)注標(biāo)簽的頁面的類別,具體包括:
[0015] 查找所述第一關(guān)鍵詞組所屬的第二關(guān)鍵詞組所對應(yīng)的頁面類別;
[0016] 將查找到的頁面類別作為所述待標(biāo)注標(biāo)簽的頁面的類別。
[0017] 結(jié)合第一方面,以及第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方 式中,從分類標(biāo)簽庫中選擇與所述頁面的類別對應(yīng)的子標(biāo)簽庫之前,還包括:
[0018] 采用網(wǎng)絡(luò)爬蟲方式抓取各種頁面類別分別對應(yīng)的按照預(yù)設(shè)規(guī)則組織頁面架構(gòu)的 訓(xùn)練頁面;
[0019] 針對任意一種頁面類別對應(yīng)的訓(xùn)練頁面,采集所述任意一種頁面類型對應(yīng)的訓(xùn)練 頁面包括的各個元素,及所述各個元素分別對應(yīng)的元素信息;
[0020] 根據(jù)所述各個元素及所述元素信息組成所述頁面類別對應(yīng)的子標(biāo)簽庫。
[0021] 結(jié)合第一方面,以及第一方面的第一種至第二種可能的實現(xiàn)方式,在第三種可能 的實現(xiàn)方式中,所述任意一子標(biāo)簽庫還包括所述每一個元素分別對應(yīng)的元素信息所對應(yīng)的 概率值,其中,任意一元素對應(yīng)的元素信息所對應(yīng)的概率值為,所述元素信息出現(xiàn)在所述元 素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取到的所有訓(xùn)練頁面的比值;
[0022] 將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注,具體包 括:
[0023] 確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對應(yīng)的概 率值;
[0024] 將概率值大于預(yù)設(shè)概率門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注
[0025] 結(jié)合第一方面,以及第一方面的第一種至第二種可能的實現(xiàn)方式,在第四種可能 的實現(xiàn)方式中,所述任意一子標(biāo)簽庫還包括所述每一個元素分別對應(yīng)的元素信息所對應(yīng)的 信息熵,其中,任意一元素對應(yīng)的元素信息所對應(yīng)的信息熵,與所述元素信息出現(xiàn)在所述元 素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取到的所有訓(xùn)練頁面的比值呈負相關(guān);
[0026] 將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注,具體包 括:
[0027] 確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對應(yīng)的信 息摘;
[0028] 將信息熵大于預(yù)設(shè)信息熵門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
[0029] 結(jié)合第一方面的第三種至第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中, 所述任意一元素信息對應(yīng)的概率值是采用元素-元素信息的模式匹配方式計算得到的。
[0030] 第二方面,提供一種對頁面標(biāo)注標(biāo)簽的裝置,包括:
[0031] 確定單元,用于確定待標(biāo)注標(biāo)簽的頁面的第一關(guān)鍵詞組與類別;
[0032] 選擇單元,用于從分類標(biāo)簽庫中選擇與所述頁面的類別對應(yīng)的子標(biāo)簽庫,所述分 類標(biāo)簽庫中的任意一子標(biāo)簽庫包括用于從不同元素表示該子標(biāo)簽庫屬性的各個元素,及與 每一個元素分別分別對應(yīng)的元素信息;
[0033] 查看單元,用于查看選擇出的子標(biāo)簽庫所包括的元素信息中是否存在與所述關(guān)鍵 詞組中的任意一關(guān)鍵詞相同的元素信息;
[0034] 標(biāo)注單元,用于將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行 標(biāo)注。
[0035] 結(jié)合第二方面,在第一種可能的實現(xiàn)方式中,還包括獲取單元,所述獲取單元用 于,采集訓(xùn)練頁面,并對訓(xùn)練頁面分類得到頁面類別;對每一種頁面類別下的各個類訓(xùn)練頁 面抓取關(guān)鍵詞,獲得每一種頁面類別分別對應(yīng)的第二關(guān)鍵詞組;
[0036] 所述確定單元具體用于:
[0037] 查找所述第一關(guān)鍵詞組所屬的第二關(guān)鍵詞組所對應(yīng)的頁面類別;將查找到的頁面 類別作為所述待標(biāo)注標(biāo)簽的頁面的類別。
[0038] 結(jié)合第二方面,以及第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方 式中,還包括生成單元,所述生成單元還用于,采用網(wǎng)絡(luò)爬蟲方式抓取各種頁面類別分別對 應(yīng)的按照預(yù)設(shè)規(guī)則組織頁面架構(gòu)的訓(xùn)練頁面;
[0039] 針對任意一種頁面類別對應(yīng)的訓(xùn)練頁面,采集所述任意一種頁面類型對應(yīng)的訓(xùn)練 頁面包括的各個元素,及所述各個元素分別對應(yīng)的元素信息;
[0040] 根據(jù)所述各個元素及所述元素信息組成所述頁面類別對應(yīng)的子標(biāo)簽庫。
[0041] 結(jié)合第二方面,以及第二方面的第一種至第二種可能的實現(xiàn)方式,在第三種可能 的實現(xiàn)方式中,所述任意一子標(biāo)簽庫還包括所述每一個元素分別對應(yīng)的元素信息所對應(yīng)的 概率值,其中,任意一元素對應(yīng)的元素信息所對應(yīng)的概率值為,所述元素信息出現(xiàn)在所述元 素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取到的所有訓(xùn)練頁面的比值;
[0042] 所述標(biāo)注單元具體用于:
[0043] 確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對應(yīng)的概 率值;將概率值大于預(yù)設(shè)概率門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
[0044] 結(jié)合第二方面,以及第二方面的第一種至第二種可能的實現(xiàn)方式,在第四種可能 的實現(xiàn)方式中,所述任意一子標(biāo)簽庫還包括所述每一個元素分別對應(yīng)的元素信息所對應(yīng)的 信息熵,其中,任意一元素對應(yīng)的元素信息所對應(yīng)的信息熵,與所述元素信息出現(xiàn)在所述元 素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取到的所有訓(xùn)練頁面的比值呈負相關(guān);所述標(biāo) 注單元具體用于,確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對 應(yīng)的信息熵;
[0045] 將信息熵大于預(yù)設(shè)信息熵門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
[0046] 結(jié)合第二方面的第三種至第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中, 所述任意一元素信息對應(yīng)的概率值是采用元素-元素信息的模式匹配方式計算得到的。
[0047] 現(xiàn)有技術(shù)中,人工對頁面進行標(biāo)簽標(biāo)注,而本發(fā)明實施例中,確定待標(biāo)注標(biāo)簽的頁 面的第一關(guān)鍵詞組與類別,從分類標(biāo)簽庫中選擇與所述頁面的類別對應(yīng)的子標(biāo)簽庫,所述 分類標(biāo)簽庫中的任意一子標(biāo)簽庫包括用于從不同元素表示該子標(biāo)簽庫屬性的各個元素,及 與每一個元素分別分別對應(yīng)的元素信息;查看選擇出的子標(biāo)簽庫所包括的元素信息中是否 存在與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的元素信息;將與所述任意一關(guān)鍵詞相同的元 素信息作為所述頁面的標(biāo)簽進行標(biāo)注,不需要依靠人工去操作,因此,降低了人工的消耗, 提1? 了標(biāo)注標(biāo)簽的效率及準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0048] 圖1為本發(fā)明實施例中標(biāo)注標(biāo)簽的流程圖;
[0049] 圖2為本發(fā)明實施例中標(biāo)注標(biāo)簽的實施例;
[0050] 圖3為本發(fā)明實施例中標(biāo)注標(biāo)簽的裝置的一種結(jié)構(gòu)示意圖;
[0051] 圖4為本發(fā)明實施例中標(biāo)注標(biāo)簽的裝置的另一種結(jié)構(gòu)示意圖。
【具體實施方式】
[0052] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0053] 另外,本文中術(shù)語"系統(tǒng)"和"網(wǎng)絡(luò)"在本文中常被可互換使用。本文中術(shù)語"和/ 或",僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以 表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字母"/",一般表 示前后關(guān)聯(lián)對象是一種"或"的關(guān)系。
[0054] 下面結(jié)合說明書附圖對本發(fā)明優(yōu)選的實施方式進行詳細說明,應(yīng)當(dāng)理解,此處所 描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明,并且在不沖突的情況 下,本申請中的實施例及實施例中的特征可以相互組合。
[0055] 下面結(jié)合附圖對本發(fā)明優(yōu)選的實施方式進行詳細說明。
[0056] 實施例一
[0057] 參閱圖1所示,本發(fā)明實施例中,一種對頁面標(biāo)注標(biāo)簽的流程如下:
[0058] 步驟100 :確定待標(biāo)注標(biāo)簽的頁面的第一關(guān)鍵詞組與類別;
[0059] 步驟110 :從分類標(biāo)簽庫中選擇與頁面的類別對應(yīng)的子標(biāo)簽庫,分類標(biāo)簽庫中的 任意一子標(biāo)簽庫包括用于從不同元素表示該子標(biāo)簽庫屬性的各個元素,及與每一個元素分 別分別對應(yīng)的元素信息;
[0060] 步驟120 :查看選擇出的子標(biāo)簽庫所包括的元素信息中是否存在與關(guān)鍵詞組中的 任意一關(guān)鍵詞相同的兀素信息;
[0061] 步驟130 :將與任意一關(guān)鍵詞相同的元素信息作為頁面的標(biāo)簽進行標(biāo)注。
[0062] 針對不同類別領(lǐng)域的網(wǎng)頁文本,對應(yīng)的標(biāo)簽庫也存在差異,例如,介紹電影的網(wǎng)頁 的標(biāo)簽庫經(jīng)常包括演員、導(dǎo)演、影片類型等標(biāo)簽;而介紹手機、電子產(chǎn)品的網(wǎng)頁的標(biāo)簽庫則 經(jīng)常包括生產(chǎn)廠商、規(guī)格、型號等標(biāo)簽。因此,不同類別的頁面對應(yīng)的標(biāo)簽庫是不一樣的。 [0063] 本發(fā)明實施例中,確定待標(biāo)注標(biāo)簽的頁面的類別的方式有三種:詞匹配法、基于工 程知識的方法和統(tǒng)計學(xué)習(xí)法,其中:
[0064] 詞匹配法又可以分為簡單詞匹配法和基于同義詞的詞匹配法兩種,簡單詞匹配法 是最簡單、最直觀的文檔分類算法,它根據(jù)文檔和類名中共同出現(xiàn)的詞決定文檔屬于哪些 類。很顯然,這種算法的分類規(guī)則過于簡單,分類效果也很差?;谕x詞的詞匹配法是對 簡單詞匹配法的改進,它先定義一張同義詞表,然后根據(jù)文檔和類名以及類的描述中共同 出現(xiàn)的詞(含同義詞)決定文檔屬于哪些類,這種分類算法擴大了詞的匹配范圍,在性能上 要優(yōu)于簡單詞匹配法。不過,這種算法的分類規(guī)則仍然很機械,而且同義詞表的構(gòu)成是靜態(tài) 的,對文檔的上下文不敏感,無法正確處理文檔中其具體含義依賴于上下文的詞,分類的準(zhǔn) 確度也很低。
[0065] 基于知識工程的方法,需要人工編制大量的推理規(guī)則,這些規(guī)則通常面向具體的 領(lǐng)域,當(dāng)處理不同領(lǐng)域的分類問題時,需要不同領(lǐng)域的專家制定不同的推理規(guī)則,而分類質(zhì) 量嚴(yán)重依賴于推理規(guī)則的質(zhì)量。因此在實際的分類系統(tǒng)中較少使用。
[0066] 統(tǒng)計學(xué)習(xí)法的基本思路是先搜集一些與待分類文檔同處一個領(lǐng)域的文檔作為訓(xùn) 練集,并由專家進行人工分類,保證分類的準(zhǔn)確性,然后分析這些已經(jīng)分好類的文檔,從中 挖掘關(guān)鍵詞和類之間的聯(lián)系,最后再利用這些學(xué)到的知識對文檔分類,而不是機械地按詞 進行匹配。
[0067] 如,頁面是關(guān)于電影、音樂、新聞、旅游等頁面。
[0068] 本發(fā)明實施例中,確定待標(biāo)注標(biāo)簽的頁面的第一關(guān)鍵詞組與類別之前,還包括如 下操作:
[0069] 采集訓(xùn)練頁面,并對訓(xùn)練頁面分類得到頁面類別;
[0070] 對每一種頁面類別下的各個類訓(xùn)練頁面抓取關(guān)鍵詞,獲得每一種頁面類別分別對 應(yīng)的第二關(guān)鍵詞組;
[0071] 可選的,確定待標(biāo)注標(biāo)簽的頁面的類別時,具體為:
[0072] 查找所述第一關(guān)鍵詞組所屬的第二關(guān)鍵詞組所對應(yīng)的頁面類別;
[0073] 將查找到的頁面類別作為所述待標(biāo)注標(biāo)簽的頁面的類別。
[0074] 本發(fā)明實施例中,從分類標(biāo)簽庫中選擇與所述頁面的類別對應(yīng)的子標(biāo)簽庫之前, 還包括如下操作:
[0075] 采用網(wǎng)絡(luò)爬蟲方式抓取各種頁面類別分別對應(yīng)的按照預(yù)設(shè)規(guī)則組織頁面架構(gòu)的 訓(xùn)練頁面;
[0076] 針對任意一種頁面類別對應(yīng)的訓(xùn)練頁面,采集所述任意一種頁面類型對應(yīng)的訓(xùn)練 頁面包括的各個元素,及所述各個元素分別對應(yīng)的元素信息;
[0077] 根據(jù)所述各個元素及所述元素信息組成所述頁面類別對應(yīng)的子標(biāo)簽庫
[0078] 本發(fā)明實施例中,網(wǎng)絡(luò)爬蟲(又稱網(wǎng)頁蜘蛛、Robot)技術(shù)是一種按照一定的規(guī)則, 自動抓取頁面的程序或者腳本的技術(shù)。
[0079] 網(wǎng)絡(luò)爬蟲技術(shù)的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種,其中:
[0080] 廣度優(yōu)先策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進行下一層次的 搜索,該策略的設(shè)計和實現(xiàn)相對簡單。
[0081] 深度優(yōu)先搜索策略是指從起始網(wǎng)頁開始,選擇一個URL進入,分析這個網(wǎng)頁中的 URL,選擇一個再進入。如此一個鏈接一個鏈接地抓取下去,直到處理完一條路線之后再處 理下一條路線。
[0082] 最佳優(yōu)先搜索策略是按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似 度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進行抓取。它只訪問經(jīng)過網(wǎng)頁分 析算法預(yù)測為"有用"的網(wǎng)頁。
[0083] 網(wǎng)絡(luò)爬蟲技術(shù)是搜索引擎的重要構(gòu)成,同時也是構(gòu)建語料庫和知識庫的重要工具 之一。
[0084] 例如,電影的元素包括導(dǎo)演元素、編劇元素、主演元素、類型元素、國別元素、語言 元素等。
[0085] 元素信息是指該元素下的取值。例如,《圍城》屬于圖書類別,《圍城》包括"作者" 元素、"版本"元素,其中,"作者"元素對應(yīng)的元素信息為"錢XX"。
[0086] 互聯(lián)網(wǎng)上有許多比較規(guī)整的頁面,例如:豆瓣電影、新浪新聞、QQ音樂等,這類網(wǎng) 頁的按統(tǒng)一的結(jié)構(gòu)組織內(nèi)容,先用網(wǎng)絡(luò)爬蟲抓取各個分類下典型的網(wǎng)站,并按預(yù)定義的模 板提取其中的結(jié)構(gòu)化信息,生成分類標(biāo)簽庫。
[0087] 例如:豆瓣電影頁面會按一定的結(jié)構(gòu)組織內(nèi)容,《讓子彈飛》是按下面順序來組織 電影信息的:
[0088] 讓子彈飛(2010)
[0089] 導(dǎo)演:姜X
[0090] 編?。褐焯K進/述平/姜文/郭俊立/危笑/李不空/馬識途
[0091] 主演:姜X/葛X/周XX/劉XX/陳X類型:劇情/喜劇/動作/西部
[0092] 制片國家/地區(qū):中國大陸/香港
[0093] 語言:漢語普通話/四川話/山西話
[0094] 上映日期:2010-12-16(中國大陸)
[0095] 片長:132分鐘
[0096] 又名:讓子彈飛一會兒/火燒云/Let The Bullets Fly
[0097] 官方小站:讓子彈飛
[0098] 從上面可以看出,電影的元素包括導(dǎo)演元素、編劇元素、主演元素、類型元素、制片 國家/地區(qū)元素、語言元素、上映日期元素、片長元素等。其中,姜文為導(dǎo)演元素對應(yīng)的元素 信息,朱XX、蘇X、姜X、郭XX、危X、李XX、馬XX均為編劇元素下的元素信息。
[0099] 本發(fā)明實施例中,所述任意一子標(biāo)簽庫還包括所述每一個元素分別對應(yīng)的元素信 息所對應(yīng)的概率值,其中,任意一元素對應(yīng)的元素信息所對應(yīng)的概率值為,所述元素信息出 現(xiàn)在所述元素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取到的所有訓(xùn)練頁面的比值;
[0100] 如,共有1000部電影,"主演"元素下對應(yīng)的元素信息為"葛優(yōu)"的電影有20部,那 么元素信息為"葛優(yōu)"的概率值就是2%。
[0101] 此時,將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注的方 式有多種,可選的,可以采用如下方式:
[0102] 確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對應(yīng)的概 率值;
[0103] 將概率值大于預(yù)設(shè)概率門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
[0104] 本發(fā)明實施例中,任意一子標(biāo)簽庫還包括所述每一個元素分別對應(yīng)的元素信息所 對應(yīng)的信息熵,其中,任意一元素對應(yīng)的元素信息所對應(yīng)的信息熵,與所述元素信息出現(xiàn)在 所述元素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取到的所有訓(xùn)練頁面的比值呈負相關(guān)。
[0105] 信息是個很抽象的概念,信息量多少很難直觀度量,1948年,香農(nóng)提出了信息熵的 概念,才解決了對信息的量化度量問題。他借鑒了熱力學(xué)的概念,把信息中排除了冗余后的 平均信息量稱為"信息熵",信息熵越大,對事物的不確定性越大,也即對事物所知越少;反 之,信息熵越小,對事物的不確定性越小,對事物所知越多。降低信息熵的過程,也是對事物 了解深入的過程。
[0106] 例如,8支隊伍采用單淘汰賽方式爭奪冠軍,經(jīng)過3輪比賽產(chǎn)生冠軍隊伍,如果不 知道任何信息,假設(shè)每支隊伍奪冠概率都是相等的1/8,信息熵為:
[0107] H(x) = - E l/8*log(2, 1/8)) = 3
[0108] 如果已知一支隊伍實力較強,奪冠概率是0. 3,剩下7支隊伍奪冠概率則變?yōu)?. 1, 信息熵為:H(x) = -0? 3*log(2, 0? 3)-7*0. l*log(2, 0? 1)) = 2. 3253。
[0109] 本發(fā)明實施例中,將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進 行標(biāo)注時,也可以采用如下方式:
[0110] 確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對應(yīng)的信 息摘;
[0111] 將信息熵大于預(yù)設(shè)信息熵門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
[0112] 本發(fā)明實施例中,任意一元素信息的信息熵是根據(jù)任意一元素信息對應(yīng)的概率值 計算得到的。
[0113] 例如:以"電影"為例,下面有"導(dǎo)演"元素、"主演"元素、"國別"元素三個元素,每 一個元素下有對應(yīng)的元素信息:
[0114] 導(dǎo)演:希區(qū)XX、卡XX、斯皮爾XX、李X、張XX、姜X......
[0115] 主演:白XX、赫X、陳XX、鞏X......
[0116] 國別:英國、美國、印度、中國、日本……
[0117] 假設(shè)找到100萬個"電影"類別的網(wǎng)頁,在這100萬個網(wǎng)頁里去找包括"主演:陳 XX"的頁面,找到完整包含上述內(nèi)容的網(wǎng)頁為2000個,那么主演元素下對應(yīng)的元素信息為 陳XX的取值概率為2000/1000000,同理,可以得到如下概率值:
[0118] 主演白 XX :0. 0001、主演陳 XX :0. 0036、主演鞏 XX :0. 0041、主演赫 X :0. 0020、然 后,根據(jù)計算得到概率值用信息熵公式算出每個元素信息的信息熵:
[0119] 11(主演白蘭度)=0.0001、11(主演陳道明)=5.1700、11(主演鞏俐)=5.3755、 H (主演赫本)=4. 3219。
[0120] 本發(fā)明實施例中,為了提高計算得到出的概率值的準(zhǔn)確度,任意一元素信息對應(yīng) 的概率值是采用元素-元素信息的模式匹配方式計算得到的。
[0121] 如,要查看"主演:姜X"對應(yīng)的概率值時,查看頁面中是否包括"主演:姜X"這個 完整的內(nèi)容,如果包括時,才能說明這個頁面中包括姜X作為主演下面的元素信息,如果頁 面中出現(xiàn)了姜X,但是,是出現(xiàn)"導(dǎo)演:姜X"這種模式的話,說明這個頁面中不包括姜X作為 導(dǎo)演下面的元素信息。
[0122] 元素-元素信息的匹配方式如下:
【權(quán)利要求】
1. 一種對頁面標(biāo)注標(biāo)簽的方法,其特征在于,包括: 確定待標(biāo)注標(biāo)簽的頁面的第一關(guān)鍵詞組與類別; 從分類標(biāo)簽庫中選擇與所述頁面的類別對應(yīng)的子標(biāo)簽庫,所述分類標(biāo)簽庫中的任意一 子標(biāo)簽庫包括用于從不同元素表示該子標(biāo)簽庫屬性的各個元素,及與每一個元素分別分別 對應(yīng)的元素信息; 查看選擇出的子標(biāo)簽庫所包括的元素信息中是否存在與所述關(guān)鍵詞組中的任意一關(guān) 鍵詞相同的元素信息; 將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
2. 如權(quán)利要求1所述的方法,其特征在于,確定待標(biāo)注標(biāo)簽的頁面的第一關(guān)鍵詞組與 類別之前,還包括: 采集訓(xùn)練頁面,并對訓(xùn)練頁面分類得到頁面類別; 對每一種頁面類別下的各個類訓(xùn)練頁面抓取關(guān)鍵詞,獲得每一種頁面類別分別對應(yīng)的 第二關(guān)鍵詞組; 確定待標(biāo)注標(biāo)簽的頁面的類別,具體包括: 查找所述第一關(guān)鍵詞組所屬的第二關(guān)鍵詞組所對應(yīng)的頁面類別; 將查找到的頁面類別作為所述待標(biāo)注標(biāo)簽的頁面的類別。
3. 如權(quán)利要求1或2所述的方法,其特征在于,從分類標(biāo)簽庫中選擇與所述頁面的類別 對應(yīng)的子標(biāo)簽庫之前,還包括: 采用網(wǎng)絡(luò)爬蟲方式抓取各種頁面類別分別對應(yīng)的按照預(yù)設(shè)規(guī)則組織頁面架構(gòu)的訓(xùn)練 頁面; 針對任意一種頁面類別對應(yīng)的訓(xùn)練頁面,采集所述任意一種頁面類型對應(yīng)的訓(xùn)練頁面 包括的各個元素,及所述各個元素分別對應(yīng)的元素信息; 根據(jù)所述各個元素及所述元素信息組成所述頁面類別對應(yīng)的子標(biāo)簽庫。
4. 如權(quán)利要求1-3任一項所述的方法,其特征在于,所述任意一子標(biāo)簽庫還包括所述 每一個元素分別對應(yīng)的元素信息所對應(yīng)的概率值,其中,任意一元素對應(yīng)的元素信息所對 應(yīng)的概率值為,所述元素信息出現(xiàn)在所述元素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取 到的所有訓(xùn)練頁面的比值; 將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注,具體包括: 確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對應(yīng)的概率 值; 將概率值大于預(yù)設(shè)概率門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
5. 如權(quán)利要求1-3任一項所述的方法,其特征在于,所述任意一子標(biāo)簽庫還包括所述 每一個元素分別對應(yīng)的元素信息所對應(yīng)的信息熵,其中,任意一元素對應(yīng)的元素信息所對 應(yīng)的信息熵,與所述元素信息出現(xiàn)在所述元素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取 到的所有訓(xùn)練頁面的比值呈負相關(guān); 將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注,具體包括: 確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對應(yīng)的信息 熵; 將信息熵大于預(yù)設(shè)信息熵門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
6. 如權(quán)利要求4或5所述的方法,其特征在于,所述任意一元素信息對應(yīng)的概率值是采 用元素-元素信息的模式匹配方式計算得到的。
7. -種對頁面標(biāo)注標(biāo)簽的裝置,其特征在于,包括: 確定單元,用于確定待標(biāo)注標(biāo)簽的頁面的第一關(guān)鍵詞組與類別; 選擇單元,用于從分類標(biāo)簽庫中選擇與所述頁面的類別對應(yīng)的子標(biāo)簽庫,所述分類標(biāo) 簽庫中的任意一子標(biāo)簽庫包括用于從不同元素表示該子標(biāo)簽庫屬性的各個元素,及與每一 個元素分別分別對應(yīng)的元素信息; 查看單元,用于查看選擇出的子標(biāo)簽庫所包括的元素信息中是否存在與所述關(guān)鍵詞組 中的任意一關(guān)鍵詞相同的兀素信息; 標(biāo)注單元,用于將與所述任意一關(guān)鍵詞相同的元素信息作為所述頁面的標(biāo)簽進行標(biāo) 注。
8. 如權(quán)利要求7所述的裝置,其特征在于,還包括獲取單元,所述獲取單元用于,采集 訓(xùn)練頁面,并對訓(xùn)練頁面分類得到頁面類別;對每一種頁面類別下的各個類訓(xùn)練頁面抓取 關(guān)鍵詞,獲得每一種頁面類別分別對應(yīng)的第二關(guān)鍵詞組; 所述確定單元具體用于:查找所述第一關(guān)鍵詞組所屬的第二關(guān)鍵詞組所對應(yīng)的頁面類 另IJ ;將查找到的頁面類別作為所述待標(biāo)注標(biāo)簽的頁面的類別。
9. 如權(quán)利要求7或8所述的裝置,其特征在于,還包括生成單元,所述生成單元還用 于,采用網(wǎng)絡(luò)爬蟲方式抓取各種頁面類別分別對應(yīng)的按照預(yù)設(shè)規(guī)則組織頁面架構(gòu)的訓(xùn)練頁 面; 針對任意一種頁面類別對應(yīng)的訓(xùn)練頁面,采集所述任意一種頁面類型對應(yīng)的訓(xùn)練頁面 包括的各個元素,及所述各個元素分別對應(yīng)的元素信息; 根據(jù)所述各個元素及所述元素信息組成所述頁面類別對應(yīng)的子標(biāo)簽庫。
10. 如權(quán)利要求7-9任一項所述的裝置,其特征在于,所述任意一子標(biāo)簽庫還包括所述 每一個元素分別對應(yīng)的元素信息所對應(yīng)的概率值,其中,任意一元素對應(yīng)的元素信息所對 應(yīng)的概率值為,所述元素信息出現(xiàn)在所述元素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓取 到的所有訓(xùn)練頁面的比值; 所述標(biāo)注單元具體用于: 確定與所述關(guān)鍵詞組中的任意一關(guān)鍵詞相同的至少一個元素信息分別對應(yīng)的概率值; 將概率值大于預(yù)設(shè)概率門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
11. 如權(quán)利要求7-10任一項所述的裝置,其特征在于,所述任意一子標(biāo)簽庫還包括所 述每一個元素分別對應(yīng)的元素信息所對應(yīng)的信息熵,其中,任意一元素對應(yīng)的元素信息所 對應(yīng)的信息熵,與所述元素信息出現(xiàn)在所述元素下的所有訓(xùn)練頁面與采用網(wǎng)絡(luò)爬蟲方式抓 取到的所有訓(xùn)練頁面的比值呈負相關(guān);所述標(biāo)注單元具體用于,確定與所述關(guān)鍵詞組中的 任意一關(guān)鍵詞相同的至少一個兀素信息分別對應(yīng)的信息熵; 將信息熵大于預(yù)設(shè)信息熵門限值的元素信息作為所述頁面的標(biāo)簽進行標(biāo)注。
12. 如權(quán)利要求10或11所述的裝置,其特征在于,所述任意一元素信息對應(yīng)的概率值 是采用元素-元素信息的模式匹配方式計算得到的。
【文檔編號】G06F17/30GK104317891SQ201410572809
【公開日】2015年1月28日 申請日期:2014年10月23日 優(yōu)先權(quán)日:2014年10月23日
【發(fā)明者】盧漢 申請人:華為軟件技術(shù)有限公司