專(zhuān)利名稱(chēng):網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)的制作方法
網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng),特別涉及一種基于機(jī)器訓(xùn)練的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)。
背景技術(shù):
目前,互聯(lián)網(wǎng)不斷發(fā)展,信息量劇增,對(duì)信息進(jìn)行篩選時(shí)耗時(shí)費(fèi)力,搜索引擎對(duì)于主題網(wǎng)頁(yè)分類(lèi)的要求也日趨迫切。一般而言,各個(gè)網(wǎng)頁(yè)總是包含豐富而復(fù)雜的信息,例如導(dǎo)航、標(biāo)題、翻頁(yè)、廣告、版權(quán)等等。當(dāng)用戶(hù)為了獲取所需信息而通過(guò)搜索引擎抓取網(wǎng)頁(yè)或建立索引時(shí),需要對(duì)網(wǎng)頁(yè)進(jìn)行較為精細(xì)的分析。通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注的方法,可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)分類(lèi)。傳統(tǒng)地,對(duì)網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注的方法是采用人工設(shè)定規(guī)則,即將網(wǎng)頁(yè)中滿(mǎn)足特定規(guī)則的信息內(nèi)容進(jìn)行分塊標(biāo)注。主要的人工分塊標(biāo)注方法有基于網(wǎng)頁(yè)信息的位置與基于文檔對(duì)象模型(Document Object Model ;D0M)分塊標(biāo)注的方法?;诰W(wǎng)頁(yè)信息的位置對(duì)網(wǎng)頁(yè)進(jìn)行分塊,僅適用于比較簡(jiǎn)單的網(wǎng)頁(yè),而不能適用于實(shí)際結(jié)構(gòu)復(fù)雜的網(wǎng)頁(yè);且由于其網(wǎng)頁(yè)切分粒度較粗,難以充分包括整個(gè)網(wǎng)頁(yè)的語(yǔ)義特征?;贒OM的分塊標(biāo)注方法需要找出網(wǎng)頁(yè)HTML文檔里的特定標(biāo)簽,利用標(biāo)簽項(xiàng)將HTML文檔表示成一個(gè)DOM樹(shù)的結(jié)構(gòu)。由于在相當(dāng)多的情形下,DOM不是用來(lái)表示網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)的,所以不能準(zhǔn)確地對(duì)網(wǎng)頁(yè)中各分塊的語(yǔ)義信息進(jìn)行辨別。由此,在當(dāng)前的信息爆炸時(shí)代,人工設(shè)定規(guī)則的方法無(wú)法提供復(fù)雜且大量的訓(xùn)練樣本,已經(jīng)很難滿(mǎn)足對(duì)各種復(fù)雜多變的網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注所需。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種網(wǎng)頁(yè)分塊標(biāo)注方法及系統(tǒng),以能提供網(wǎng)頁(yè)分塊標(biāo)注所需的訓(xùn)練數(shù)據(jù)與訓(xùn)練樣本,滿(mǎn)足對(duì)各種復(fù)雜多變的網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注所需。本發(fā)明為解決技術(shù)問(wèn)題而采用的技術(shù)方案一是提供一種網(wǎng)頁(yè)分塊標(biāo)注方法,所述網(wǎng)頁(yè)分塊標(biāo)注方法包括以下步驟提供樣本集;設(shè)定種子規(guī)則,所述種子規(guī)則用于對(duì)樣本集進(jìn)行分塊標(biāo)注;根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注,以建立第一訓(xùn)練樣本集;對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法進(jìn)行計(jì)算,選出所述第一訓(xùn)練樣本集的重要特征;根據(jù)所述第一訓(xùn)練樣本集的所述重要特征,對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算,以產(chǎn)生第一分類(lèi)規(guī)則;及根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集。根據(jù)本發(fā)明之一實(shí)施例,還包括將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟。根據(jù)本發(fā)明之一實(shí)施例,將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟循環(huán)運(yùn)行。根據(jù)本發(fā)明之一實(shí)施例,所述種子規(guī)包括需要識(shí)別的目標(biāo)類(lèi)別。 根據(jù)本發(fā)明之一實(shí)施例,根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注,以建立第一訓(xùn)練樣本集還包括將所述 樣本集中屬于所述目標(biāo)類(lèi)別的樣本標(biāo)注為正樣本。根據(jù)本發(fā)明之一實(shí)施例,所述特征選擇算法是對(duì)離散特征使用卡方檢驗(yàn)。根據(jù)本發(fā)明之一實(shí)施例,所述機(jī)器學(xué)習(xí)算法包括預(yù)設(shè)一概率閾值。根據(jù)本發(fā)明之一實(shí)施例,對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算,以產(chǎn)生第一分類(lèi)規(guī)則還包括所述機(jī)器學(xué)習(xí)算法還用于計(jì)算所述第一訓(xùn)練樣本集中的一個(gè)樣本屬于所述目標(biāo)類(lèi)別的概率,并當(dāng)所述樣本屬于所述目標(biāo)類(lèi)別的概率大于所述概率閾值時(shí),將所述樣本定義為屬于所述目標(biāo)類(lèi)別的樣本。根據(jù)本發(fā)明之一實(shí)施例,根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,還包括將所述樣本集中屬于所述目標(biāo)類(lèi)別的樣本標(biāo)注為正樣本。根據(jù)本發(fā)明之一實(shí)施例,所述網(wǎng)頁(yè)分塊標(biāo)注方法應(yīng)用于網(wǎng)頁(yè)鏈接分析、網(wǎng)頁(yè)內(nèi)容分析或網(wǎng)頁(yè)分類(lèi)。本發(fā)明為解決技術(shù)問(wèn)題而采用的技術(shù)方案二是提供一種網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)包括樣本集模塊,用于提供一樣本集;種子規(guī)則模塊,所述種子規(guī)則模塊中設(shè)定一種子規(guī)則,用于對(duì)所述樣本集進(jìn)行標(biāo)注,以在所述樣本集模塊中建立第一訓(xùn)練樣本集;特征選擇模塊,用于對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法,以選出所述第一訓(xùn)練樣本集的重要特征;及機(jī)器學(xué)習(xí)模塊,用于根據(jù)所述第一訓(xùn)練樣本集的重要特征,對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法,以產(chǎn)生第一分類(lèi)規(guī)則。根據(jù)本發(fā)明之又一實(shí)施例,所述機(jī)器學(xué)習(xí)模塊還根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集。根據(jù)本發(fā)明之又一實(shí)施例,還包括迭代模塊,用于將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。根據(jù)本發(fā)明之又一實(shí)施例,所述迭代模塊更用于循環(huán)地將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。根據(jù)本發(fā)明之又一實(shí)施例,所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)用于網(wǎng)頁(yè)鏈接分析、網(wǎng)頁(yè)內(nèi)容分析或網(wǎng)頁(yè)分類(lèi)。通過(guò)上述實(shí)施例,本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)能夠自動(dòng)產(chǎn)生網(wǎng)頁(yè)分塊標(biāo)注的訓(xùn)練樣本,并結(jié)合種子規(guī)則,總結(jié)出分類(lèi)規(guī)則,建立分類(lèi)模型,以實(shí)現(xiàn)網(wǎng)頁(yè)分塊標(biāo)注。
圖I是本發(fā)明一實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法流程圖;圖2是圖I所示流程圖中步驟5 6的詳細(xì)流程圖;圖3是本發(fā)明另一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注方法的迭代流程示意圖;圖4是圖3所示的網(wǎng)頁(yè)分塊標(biāo)注方法的迭代流程示意圖中第n次迭代示意圖;圖5是圖3所示的網(wǎng)頁(yè)分塊標(biāo)注方法的迭代效果示意圖;圖6是本發(fā)明又一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)示意圖;圖7是本發(fā)明再一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)示意圖;及圖8是本發(fā)明又一實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)的應(yīng)用示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。如無(wú)特別說(shuō)明,本發(fā)明所示的附圖中,相同的標(biāo)號(hào)表示同樣的裝置或元件。盡管本發(fā)明所示的具體實(shí)施例提供了最佳實(shí)施方式,但本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)了解,本文所列出的具體實(shí)施例僅為闡明本發(fā)明的精神與要旨,而不應(yīng)理解為對(duì)本發(fā)明的任何限制。
請(qǐng)配合參閱圖1,所示為本發(fā)明一個(gè)實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法流程圖。在本實(shí)施例中,所述的網(wǎng)頁(yè)分塊標(biāo)注方法采用機(jī)器學(xué)習(xí)算法,并結(jié)合人工規(guī)則,提供對(duì)網(wǎng)頁(yè)分塊標(biāo)注所需的訓(xùn)練樣本,以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的分塊標(biāo)注。通常,當(dāng)通過(guò)搜索引擎抓取網(wǎng)頁(yè)或建立索引時(shí),如果僅對(duì)一個(gè)網(wǎng)頁(yè)進(jìn)行籠統(tǒng)的分析,常常無(wú)法得到足夠好的效果。因而需要針對(duì)一個(gè)網(wǎng)頁(yè)的各個(gè)組成部分進(jìn)行更精確的分析。在本發(fā)明中,將網(wǎng)頁(yè)中的不同部分,如導(dǎo)航欄、標(biāo)題、翻頁(yè)欄等視為網(wǎng)頁(yè)的更小的基本分析單元,并對(duì)網(wǎng)頁(yè)中分塊的功能進(jìn)行識(shí)別和標(biāo)注的過(guò)程定義為網(wǎng)頁(yè)分塊標(biāo)注。目前互聯(lián)網(wǎng)網(wǎng)頁(yè)信息量巨大,傳統(tǒng)的人工規(guī)則對(duì)網(wǎng)頁(yè)中的分塊功能進(jìn)行識(shí)別的方法,是直接把人工規(guī)則作為分類(lèi)器使用,但是由于互聯(lián)網(wǎng)中的網(wǎng)頁(yè)復(fù)雜多變,依靠人工制定的規(guī)則很難對(duì)其進(jìn)行可靠有效的處理。因此,本發(fā)明提出一種網(wǎng)頁(yè)分塊標(biāo)注方法,其不將人工規(guī)則直接作為分類(lèi)器使用,而只用于提供最初的訓(xùn)練樣本,然后通過(guò)機(jī)器學(xué)習(xí)算法來(lái)自動(dòng)產(chǎn)生網(wǎng)頁(yè)分塊標(biāo)注的訓(xùn)練樣本及分類(lèi)規(guī)則,從而對(duì)樣本集進(jìn)行標(biāo)注。這樣既解決了人工規(guī)則可靠性低的問(wèn)題,又解決了訓(xùn)練樣本難以獲取的問(wèn)題。在網(wǎng)頁(yè)分類(lèi)所需提供的訓(xùn)練樣本(訓(xùn)練數(shù)據(jù))中,只需對(duì)每個(gè)網(wǎng)頁(yè)標(biāo)注一個(gè)類(lèi)別;而在對(duì)網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注時(shí),所需的訓(xùn)練樣本(訓(xùn)練數(shù)據(jù))是對(duì)網(wǎng)頁(yè)內(nèi)部的某些分塊進(jìn)行標(biāo)注類(lèi)別。由于每個(gè)網(wǎng)頁(yè)均可表示成一個(gè)文檔對(duì)象模型(Document Object Model ;D0M)樹(shù)的結(jié)構(gòu),分塊標(biāo)注就是對(duì)所述DOM樹(shù)的各個(gè)子樹(shù)分別標(biāo)注類(lèi)別,此時(shí)對(duì)子樹(shù)標(biāo)注的范圍偏大或偏小,都認(rèn)為是準(zhǔn)確的;此外,每個(gè)分塊的功能無(wú)法脫離所述分塊所在的網(wǎng)頁(yè)整體而單獨(dú)存在,由此導(dǎo)致標(biāo)注所需的訓(xùn)練樣本(訓(xùn)練數(shù)據(jù))很難通過(guò)人工方式提供。在本發(fā)明中,采用機(jī)器學(xué)習(xí)方法要求提供足夠多的訓(xùn)練樣本。當(dāng)訓(xùn)練樣本越多,最終通過(guò)機(jī)器學(xué)習(xí)而訓(xùn)練處的分類(lèi)規(guī)則(分類(lèi)器)的精確度就越好。請(qǐng)參閱圖1,在步驟1,提供一個(gè)樣本集。在本實(shí)施例中,所述樣本集是指網(wǎng)頁(yè)所包含的內(nèi)容樣本的集合。其中所述網(wǎng)頁(yè)內(nèi)容樣本的類(lèi)型和數(shù)量可依據(jù)實(shí)際需求設(shè)置。目前,大多數(shù)網(wǎng)頁(yè)根據(jù)內(nèi)容可以分為三類(lèi)主題網(wǎng)頁(yè)、目錄型網(wǎng)頁(yè)和圖片網(wǎng)頁(yè)。主題網(wǎng)頁(yè)通過(guò)文字描述一個(gè)或多個(gè)主題,其中包括的圖片和超鏈接并不構(gòu)成所述主題網(wǎng)頁(yè)的主體。目錄型網(wǎng)頁(yè)通常不會(huì)描述一件事物,而僅提供指向相關(guān)網(wǎng)頁(yè)的超鏈接。圖片型網(wǎng)頁(yè)中的內(nèi)容則主要通過(guò)圖片展示,并不具備大量文字。此外,每個(gè)網(wǎng)頁(yè)中還包含諸多素材,例如廣告、導(dǎo)航、分欄等信息,該等信息位于網(wǎng)頁(yè)的不同位置,具有不同的重要度,既可能屬于網(wǎng)頁(yè)的主題內(nèi)容,也可能屬于“噪聲”內(nèi)容。通常,樣本集包括但不限于上述各種網(wǎng)頁(yè)內(nèi)容信息,為簡(jiǎn)化說(shuō)明起見(jiàn),將本實(shí)施例中的樣本集定義為包括至少一個(gè)網(wǎng)頁(yè)主題內(nèi)容與噪聲內(nèi)容的目標(biāo)信息。在其他實(shí)施例中,所述樣本集可以為基于文檔對(duì)象模型(DOM)的特定標(biāo)簽,利用標(biāo)簽項(xiàng)將網(wǎng)頁(yè)中的HTML文檔表示成DOM樹(shù)的結(jié)構(gòu),所述DOM樹(shù)的結(jié)構(gòu)則并不用于表示網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)。在本發(fā)明其他實(shí)施例中,所述樣本集還可以包括基于特定網(wǎng)頁(yè)的不同信息,在此不一一贅述。
在步驟2,設(shè)定一種子規(guī)則,所述種子規(guī)則用于對(duì)所述樣本集進(jìn)行分塊標(biāo)注。在本實(shí)施例中,所述種子規(guī)則用于從大量的樣本中篩選出目標(biāo)樣本(正樣本)。其中所篩選出來(lái)的目標(biāo)樣本(正樣本),更用做為機(jī)器學(xué)習(xí)算法的樣本之一。在本實(shí)施例中,所述種子規(guī)則也稱(chēng)人工規(guī)則,是指人工制定的規(guī)則,所述種子規(guī)則并不要求從樣本集中篩選出全部的目標(biāo)樣本(正樣本),只要求篩選出一部分目標(biāo)樣本(正樣本)即可。但是,所篩選出的目標(biāo)樣本(正樣本)應(yīng)該具有較高的準(zhǔn)確率。在本實(shí)施例中,以網(wǎng)頁(yè)分塊中的導(dǎo)航欄為例對(duì)所述種子規(guī)則予以說(shuō)明。在所述種子規(guī)則中,先定義一目標(biāo)類(lèi)別,也就是所述種子規(guī)則需要識(shí)別的類(lèi)別,其中,屬于目標(biāo)類(lèi)別的為正樣本;不屬于目標(biāo)類(lèi)別的為負(fù)樣本。在導(dǎo)航欄識(shí)別中,“導(dǎo)航欄”就是目標(biāo)類(lèi)別,屬于“導(dǎo)航欄”類(lèi)別的為正樣本,不屬于“導(dǎo)航欄”類(lèi)別的為負(fù)樣本。當(dāng)要從大量網(wǎng)頁(yè)的大量分塊中篩選出導(dǎo)航欄分塊時(shí),所述種子規(guī)則可以制定如 下所述導(dǎo)航欄分塊處于頁(yè)面上部;所述導(dǎo)航欄分塊中的鏈接都比較短小且長(zhǎng)度一樣;所述導(dǎo)航欄分塊中的鏈接指向都與當(dāng)前頁(yè)面在同一個(gè)站點(diǎn);所述導(dǎo)航欄分塊中的鏈接都處于同樣的水平坐標(biāo)。當(dāng)一個(gè)分塊滿(mǎn)足這樣的規(guī)則,那么就作為目標(biāo)樣本(或正樣本)被篩選出來(lái)。當(dāng)所述種子規(guī)則可以把10%的導(dǎo)航欄篩選出來(lái),且篩選出來(lái)的分塊有95%都的確是導(dǎo)航欄,那么所述種子規(guī)則就適用于本實(shí)施例的導(dǎo)航欄分塊標(biāo)注中。此外,所述目標(biāo)樣本(正樣本)是通過(guò)所述種子規(guī)則篩選出來(lái)的,因此可以獲得任意大的目標(biāo)樣本集(正樣本集),如所述種子規(guī)則可以篩選出10%的正樣本,那么當(dāng)樣本全集是1000個(gè)時(shí),就可以得到100個(gè)正樣本;10000個(gè)時(shí),就可以得到1000個(gè)正樣本。舉例而言,當(dāng)所述樣本集中有n(n = 1,2,. . . N,N為正整數(shù))個(gè)樣本,有m(n > m=1,2, ...M,M為正整數(shù))個(gè)樣本屬于目標(biāo)類(lèi)別“導(dǎo)航欄”,有n-m個(gè)樣本不屬于目標(biāo)類(lèi)別“導(dǎo)航欄”。當(dāng)通過(guò)所述種子規(guī)則識(shí)別出來(lái)的目標(biāo)類(lèi)別樣本有x(x<m)個(gè),其中有y(y<x)個(gè)的確屬于目標(biāo)類(lèi)別“導(dǎo)航欄”。此時(shí),所述召回率就是屬于目標(biāo)類(lèi)別的樣本中,被識(shí)別為目標(biāo)類(lèi)別的比例。即召回率=y/m。準(zhǔn)確率就是被分類(lèi)器識(shí)別為目標(biāo)類(lèi)別的樣本中,的確屬于目標(biāo)類(lèi)別的比例。即準(zhǔn)
確率=y/xo在本實(shí)施例中,所述種子規(guī)則可以設(shè)為按較高的準(zhǔn)確率/識(shí)別率識(shí)別所述樣本集,并對(duì)所述樣本集進(jìn)行分塊標(biāo)注。在本實(shí)施例中,對(duì)所述種子規(guī)則的召回率不作要求,也即在本實(shí)施例中,人工提供的所述種子規(guī)則是一個(gè)高準(zhǔn)確率/識(shí)別率,低召回率的訓(xùn)練規(guī)則。在本發(fā)明的其他實(shí)施方式中,為了滿(mǎn)足不同網(wǎng)頁(yè)分塊標(biāo)注的需求,所述種子規(guī)則的準(zhǔn)確率/識(shí)別率與召回率的高低可分別依具體情形予以設(shè)定。在步驟3,根據(jù)種子規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以建立第一訓(xùn)練樣本集。在本實(shí)施例中,所述種子規(guī)則識(shí)別所述樣本集,以便識(shí)別出所述樣本集中的正樣本與負(fù)樣本,并根據(jù)所述正樣本與所述負(fù)樣本對(duì)所述樣本集進(jìn)行標(biāo)注。為簡(jiǎn)化說(shuō)明起見(jiàn),將所述種子規(guī)則識(shí)別出的正樣本,也即按照正樣本標(biāo)注的網(wǎng)頁(yè)分塊定義為典型正樣本。在本實(shí)施例中,所述第一訓(xùn)練樣本集,為經(jīng)正樣本與負(fù)樣本標(biāo)注的樣本集,即所述正樣本與所述負(fù)樣本的集合。在步驟4,對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法進(jìn)行計(jì)算,選出所述第一訓(xùn)練樣本集的重要特征。所述重要特征中的“重要”,可以是指這個(gè)特征的加入可以提高分類(lèi)算法的效果,通常按照某一準(zhǔn)則選擇出一組具有良好區(qū)分特性的特征子集。所述特征選擇算法利用一定的規(guī)則對(duì)所述第一訓(xùn)練樣本集進(jìn)行評(píng)估,以選出所述第一訓(xùn)練樣本集的最佳特征子集。所述特征選擇算法可采用搜索性算法,例如神經(jīng)網(wǎng)絡(luò)算法(NN)、模擬煙火算法(SN)、遺傳算法(GA)以及傳統(tǒng)算法等。在本發(fā)明其他實(shí)施例中,所述特征選擇算法可采用非搜索性算法,以滿(mǎn)足其他高維特征選擇,或時(shí)間復(fù)雜度相對(duì)較低的選擇要求。特征選擇算法可以采用過(guò)濾器模型和封裝器模型,通常,過(guò)濾器模型將特征選擇作為一個(gè)預(yù)處理過(guò)程,獨(dú)立于其他機(jī)器學(xué)習(xí)算法。一般的過(guò)濾器模型時(shí)間復(fù)雜度低,準(zhǔn)確性不高。封裝器模型則采用將其他機(jī)器學(xué)習(xí)算法的結(jié)果作為特征子集選擇的一部分,其時(shí)間復(fù)雜度較高,但準(zhǔn)確性也較高。在本實(shí)施例中,所述的特征選擇算法采用過(guò)濾器模型;在本發(fā)明的其他實(shí)施例中,所述特征選擇算法也可采用封裝器模型或其他模型。
在本實(shí)施例中,優(yōu)選的特征選擇算法是對(duì)離散特征(即只有0和I兩種取值的特征)使用卡方檢驗(yàn),對(duì)連續(xù)特征(即其取值范圍是連續(xù)的)使用基于信息增益的辦法。以下以卡方檢驗(yàn)為例予以說(shuō)明卡方檢驗(yàn)是比較具有一個(gè)特征的樣本,和不具有該特征的樣本歸屬于正樣本的概率,這個(gè)概率相差越大,說(shuō)明該特征的區(qū)分意義越顯著。在訓(xùn)練導(dǎo)航欄時(shí),設(shè)定特征一是“分塊中的鏈接都在同一行”,并得到如下表一的統(tǒng)計(jì)結(jié)果表一
是導(dǎo)航欄不是導(dǎo)航欄總計(jì)
分塊中的鏈接都在同一行^ 12030150
分塊中的鏈接不在同一行— 20130150
總計(jì)140160300設(shè)定特征二是“分塊中有圖片”,并得到如下表二的統(tǒng)計(jì)結(jié)果表二
是導(dǎo)航欄不是導(dǎo)航欄總計(jì)
分塊中有圖片80I90I170
分塊中沒(méi)有圖片60~ 70130
140160300從表一看出,具有特征一“分塊中的鏈接都在同一行”的分塊,是導(dǎo)航欄的概率為0.8 ;而不具有特征一“分塊中的鏈接都在同一行”的分塊,是導(dǎo)航欄的概率只有0. 13。特征一“分塊中的鏈接都在同一行”的區(qū)分意義明顯。從表二看出,具有特征二“分塊中有圖片”的分塊,是導(dǎo)航欄的概率為0. 47 ;而不具有特征二“分塊中有圖片”的分塊,是導(dǎo)航欄的概率為0. 46。特征二“分塊中有圖片”的區(qū)分意義則不明顯。從表一和表二可以看出,特征一“分塊中的鏈接都在同一行”比特征二“分塊中有圖片”為更具有區(qū)分意義的特征。對(duì)特征一與特征二分別計(jì)算卡方值特征一“分塊中的鏈接都在同一行”的卡方值=300*(120*130-20*30)2/(140*160*150*150) = 133.9 ;特征二“分塊中有圖片”的卡方值=300* (80*70-90*60 ) 2/(140*160*170*130) = 0. 024。因此,特征一比特征二的卡方值大,則特征一是一個(gè)更好的特征。當(dāng)特征選擇的閾值是100,特征選擇算法則選擇特征一“分塊中的鏈接都在同一行”這個(gè)特征,而不會(huì)選擇特征二“分塊中是否有圖片”。由此,在本實(shí)施例中,所述的重要特征為特征一“分塊中的鏈接都在同一行”。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)了解,此處所列舉的特征選擇算法的不同模型僅為了闡明本發(fā)明的最佳實(shí)施例,而并不應(yīng)理解為對(duì)本發(fā)明的限制。在本發(fā)明的其他可效仿的實(shí)施例中,無(wú)論采取何種特征選擇算法模型,均不脫離本發(fā)明的精神和范圍。在步驟5,根據(jù)所述第一訓(xùn)練樣本集的所述重要特征,對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算,以產(chǎn)生第一分類(lèi)規(guī)則。在本實(shí)施例中,所述第一訓(xùn)練樣本集,為經(jīng)根據(jù)種子規(guī)則進(jìn)行正樣本與負(fù)樣本標(biāo)注的樣本集,即所述正樣本與所述負(fù)樣本的集合。所述機(jī)器學(xué)習(xí)算法根據(jù)所述重要特征以及所述第一訓(xùn)練樣本集進(jìn)行計(jì)算,并自動(dòng)總結(jié)產(chǎn)生出新的分類(lèi)規(guī)則,在本實(shí)施例中,所述新的分類(lèi)規(guī)則為第一分類(lèi)規(guī)則。在本實(shí)施例中,在所述機(jī)器學(xué)習(xí)算法過(guò)程中還預(yù)設(shè)一個(gè)概率閾值t。通過(guò)所述機(jī)器學(xué)習(xí)所得到的第一分類(lèi)規(guī)則,會(huì)對(duì)所述樣本集中的某個(gè)樣本,計(jì)算其屬于目標(biāo)類(lèi)別的概率。所述概率閾值就是利用屬于目標(biāo)類(lèi)別的概率,來(lái)進(jìn)行最終分類(lèi)的界線(xiàn),即,對(duì)某一樣本,如果計(jì)算出來(lái)的屬于目標(biāo)類(lèi)別的概率值大于或等于概率閾值t,則將其劃分為正樣本,否則劃分為負(fù)樣本。當(dāng)通過(guò)特征選擇算法篩選出多個(gè)特征,每個(gè)特征均可在一定范圍內(nèi)取值。以導(dǎo)航欄分塊為例,通過(guò)特征選擇算法篩選出多個(gè)特征X1,X2,. . . Xm, (m為正整數(shù))每個(gè)特征均可在一定范圍內(nèi)取值。由此,在本實(shí)施例中,則根據(jù)所述機(jī)器學(xué)習(xí)算法對(duì)通過(guò)所述特征選擇算法篩選出的多個(gè)特征以及所述第一訓(xùn)練樣本集進(jìn)行計(jì)算。在本實(shí)施例中,所述函數(shù)計(jì)算結(jié)果可以表示為函數(shù)f(xl,x2,…,xm),用來(lái)計(jì)算某個(gè)分塊屬于目標(biāo)類(lèi)別的概率。在進(jìn)行分塊標(biāo)注時(shí),對(duì)于某個(gè)分塊來(lái)說(shuō),如果這個(gè)函數(shù)計(jì)算出來(lái)的結(jié)果大于或等于所述預(yù)設(shè)的概率閾值t,那么就可以認(rèn)為這個(gè)分塊屬于目標(biāo)類(lèi)別;反之,則不屬于目標(biāo)類(lèi)別。在本實(shí)施例中,同樣以導(dǎo)航欄分塊標(biāo)注為例,當(dāng)通過(guò)特征選擇算法對(duì)于導(dǎo)航欄選擇出的m(m為正整數(shù))個(gè)特征,并且總結(jié)了出一個(gè)函數(shù)f,其中所述機(jī)器學(xué)習(xí)算法中所述預(yù)設(shè)的概率閾值t設(shè)為0. 9。在使用所述規(guī)則用于分類(lèi)時(shí),對(duì)于某個(gè)分塊來(lái)說(shuō),這m個(gè)特征的取值分別為xl = vl, x2 = v2,. . . , xm = vm,當(dāng) f (vl, v2,, vm) = 0. 95 > t = 0. 9 時(shí),那么就會(huì)將這個(gè)分塊劃分在目標(biāo)類(lèi)別中。在步驟6,依據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集。在本實(shí)施例中,所述第一分類(lèi)規(guī)則經(jīng)由所述機(jī)器學(xué)習(xí)算法根據(jù)所述第一訓(xùn)練樣本集的重要特征計(jì)算而得。依據(jù)所述特征選擇算法及所述機(jī)器學(xué)習(xí)算法所得的第一分類(lèi)規(guī)則的準(zhǔn)確率及召回率高于所述人工設(shè)定的種子規(guī)則。
在本實(shí)施例中,還依據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,所述第一分類(lèi)規(guī)則控制其召回率的概率閾值,也即其召回正樣本的概率閾值,從而使得根據(jù)所述第一分類(lèi)規(guī)則的正樣本召回具有更高的準(zhǔn)確率。基于所述第一分類(lèi)規(guī)則對(duì)所述樣本集的標(biāo)注,從而自動(dòng)產(chǎn)生第二訓(xùn)練樣本集。相應(yīng)的,所述第二訓(xùn)練樣本集比所述第一訓(xùn)練樣本集具有更高的分塊標(biāo)注的準(zhǔn)確度。請(qǐng)進(jìn)一步參閱圖2,所示為圖I中步驟5 6的詳細(xì)流程圖。在步驟502,根據(jù)第一分類(lèi)規(guī)則計(jì)算所述樣本集中屬于目標(biāo)類(lèi)別的概率值。在本實(shí)施例中,通過(guò)所述機(jī)器學(xué)習(xí)所得到的第一分類(lèi)規(guī)則,會(huì)對(duì)所述樣本集中的某個(gè)樣本,計(jì)算其屬于目標(biāo)類(lèi)別的概率。所述概率閾值就是利用屬于目標(biāo)類(lèi)別的概率,來(lái)進(jìn)行最終分類(lèi)的界線(xiàn),即,對(duì)某一樣本,如果計(jì)算出來(lái)的屬于目標(biāo)類(lèi)別的概率值大于或等于概率閾值t,則將其劃分為正樣本,否則劃分為負(fù)樣本。在步驟502,計(jì)算樣本集中屬于目標(biāo)類(lèi)別的概率值。當(dāng)通過(guò)特征選擇算法篩選出多個(gè)特征,每個(gè)特征均可在一定范圍內(nèi)取值。以導(dǎo)航欄分塊為例,通過(guò)特征選擇算法篩選出多個(gè)特征X1,X2,. . . Xm,每個(gè)特征均可在一定范圍內(nèi)取值。由此,在本實(shí)施例中,則根據(jù)所述機(jī)器學(xué)習(xí)算法對(duì)通過(guò)所述特征選擇算法篩選出的多個(gè)特征以及所述第一訓(xùn)練樣本集進(jìn)行計(jì)算。在本實(shí)施例中,所述函數(shù)計(jì)算結(jié)果可以表示為函數(shù)f (xl,x2, xm),用來(lái)計(jì)算某個(gè)分塊屬于目標(biāo)類(lèi)別的概率。在步驟504,判斷屬于目標(biāo)類(lèi)別的概率值是否大于所述預(yù)設(shè)概率閾值。在本實(shí)施例中,在進(jìn)行分塊標(biāo)注時(shí),對(duì)于某個(gè)分塊來(lái)說(shuō),如果這個(gè)函數(shù)計(jì)算出來(lái)的結(jié)果大于或等于所述預(yù)設(shè)的概率閾值t,那么就可以認(rèn)為這個(gè)分塊屬于目標(biāo)類(lèi)別;反之,則不屬于目標(biāo)類(lèi)別。在本實(shí)施例中,同樣以導(dǎo)航欄分塊標(biāo)注為例,當(dāng)通過(guò)特征選擇算法對(duì)于導(dǎo)航欄選擇出的m(m為正整數(shù))個(gè)特征,并且總結(jié)了出一個(gè)函數(shù)f,其中所述機(jī)器學(xué)習(xí)算法中所述預(yù)設(shè)的概率閾值t設(shè)為0.9。在使用所述規(guī)則用于分類(lèi)時(shí),對(duì)于某個(gè)分塊來(lái)說(shuō),這m個(gè)特征的取值分別為xl = vl, x2 = v2, . . . , xm = vm,當(dāng) f (vl, v2, , vm) = 0. 95 > t = 0. 9 時(shí),那么就會(huì)將這個(gè)分塊劃分在目標(biāo)類(lèi)別中。在本實(shí)施例中,更根據(jù)步驟504的判斷結(jié)果進(jìn)入步驟600。在步驟600,根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集。其中,當(dāng)所述屬于目標(biāo)類(lèi)別的概率值大于所述預(yù)設(shè)概率閾值時(shí),則進(jìn)入步驟602,根據(jù)所述第一分類(lèi)規(guī)則在所述樣本集中標(biāo)注出正樣本。所述屬于目標(biāo)類(lèi)別的概率值大于所述預(yù)設(shè)概率閾值時(shí),則進(jìn)入步驟604,根據(jù)所述第一分類(lèi)規(guī)則在所述樣本集中標(biāo)注出負(fù)樣本。由此,所述第二訓(xùn)練樣本集則包括由正樣本組成的正樣本集,以及由負(fù)樣本組成的負(fù)樣本集。通過(guò)本實(shí)施例的網(wǎng)頁(yè)分塊標(biāo)注方法,可以解決人工無(wú)法提供分塊標(biāo)注所需訓(xùn)練樣本的技術(shù)難題,并可通過(guò)上述特征選擇算法與機(jī)器學(xué)習(xí)算法建立穩(wěn)定的分塊標(biāo)注模型,以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的準(zhǔn)確高效的分塊標(biāo)注。請(qǐng)參閱圖3,所示為本發(fā)明另一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注方法的迭代流程示意圖。由于本實(shí)施例中,步驟I 6與圖I所示實(shí)施例中的步驟I 6相同,在此不再重復(fù)闡述。其與圖I所示之流程不同之處在于,本實(shí)施例中,還包括將所述第二訓(xùn)練樣本集迭代至所述 第一訓(xùn)練樣本集的步驟。并對(duì)所述第二訓(xùn)練樣本集再次根據(jù)特征選擇算法與所述機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算,且進(jìn)一步可通過(guò)重復(fù)循環(huán)執(zhí)行步驟3 6,從而不斷產(chǎn)生新的分類(lèi)規(guī)則與新的訓(xùn)練樣本集,直至所述分類(lèi)規(guī)則趨于穩(wěn)定為止。由此,可建立一個(gè)穩(wěn)定的,對(duì)網(wǎng)頁(yè)分塊的進(jìn)行識(shí)別和標(biāo)注的分塊模型。
請(qǐng)進(jìn)一步參閱圖4,所示是圖3所示的網(wǎng)頁(yè)分塊標(biāo)注方法的迭代流程示意圖中第n(n為正整數(shù))次迭代示意圖。在本實(shí)施例中,在步驟3n,建立第n訓(xùn)練樣本集。在本實(shí)施例中,所述第n訓(xùn)練樣本集是根據(jù)第n-1分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,并迭代至第n-1訓(xùn)練樣本集。其中所述第n訓(xùn)練樣本集包括第n正樣本集與第n負(fù)樣本集。在步驟4n,對(duì)第n訓(xùn)練樣本集采用特征選擇算法,選出重要特征。在本實(shí)施例中,所述特征選擇算法利用一定的規(guī)則對(duì)所述第n訓(xùn)練樣本集進(jìn)行評(píng)估,以選出所述第n訓(xùn)練樣本集的最佳特征子集。在本實(shí)施例中,優(yōu)選的特征選擇算法是對(duì)離散特征(即只有0和I兩種取值的特征)使用卡方檢驗(yàn),對(duì)連續(xù)特征(即其取值范圍是連續(xù)的)使用基于信息增益的辦法??ǚ綑z驗(yàn)是比較具有一個(gè)特征的樣本,和不具有該特征的樣本歸屬于正樣本的概率,這個(gè)概率相差越大,說(shuō)明該特征的區(qū)分意義越顯著。在步驟5n,根據(jù)重要特征,對(duì)第n訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法,以產(chǎn)生第n+1分類(lèi)規(guī)則。在本實(shí)施例中,在所述機(jī)器學(xué)習(xí)算法過(guò)程中還預(yù)設(shè)一個(gè)概率閾值t。通過(guò)所述機(jī)器學(xué)習(xí)所得到的第一分類(lèi)規(guī)則,會(huì)對(duì)所述樣本集中的某個(gè)樣本,計(jì)算其屬于目標(biāo)類(lèi)別的概率。所述概率閾值就是利用屬于目標(biāo)類(lèi)別的概率,來(lái)進(jìn)行最終分類(lèi)的界線(xiàn),即,對(duì)某一樣本,如果計(jì)算出來(lái)的屬于目標(biāo)類(lèi)別的概率值大于或等于概率閾值t,則將其劃分為正樣本,否則劃分為負(fù)樣本。當(dāng)通過(guò)特征選擇算法篩選出多個(gè)特征,每個(gè)特征均可在一定范圍內(nèi)取值。以導(dǎo)航欄分塊為例,通過(guò)特征選擇算法篩選出多個(gè)特征X1,X2, ... Xm,每個(gè)特征均可在一定范圍內(nèi)取值。由此,在本實(shí)施例中,則根據(jù)所述機(jī)器學(xué)習(xí)算法對(duì)通過(guò)所述特征選擇算法篩選出的多個(gè)特征以及所述第一訓(xùn)練樣本集進(jìn)行計(jì)算。在本實(shí)施例中,所述函數(shù)計(jì)算結(jié)果可以表示為函數(shù)f(xl,x2, xm),用來(lái)計(jì)算某個(gè)分塊屬于目標(biāo)類(lèi)別的概率。在進(jìn)行分塊標(biāo)注時(shí),對(duì)于某個(gè)分塊來(lái)說(shuō),如果這個(gè)函數(shù)計(jì)算出來(lái)的結(jié)果大于或等于所述預(yù)設(shè)的概率閾值t,那么就可以認(rèn)為這個(gè)分塊屬于目標(biāo)類(lèi)別;反之,則不屬于目標(biāo)類(lèi)別。請(qǐng)參閱圖5,所示為本發(fā)明另一實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法的迭代效果示意圖。在本實(shí)施例中,采用人工設(shè)定的種子規(guī)則,所召回的正樣本數(shù)量不到50個(gè)。經(jīng)過(guò)一次訓(xùn)練樣本集的迭代之后,產(chǎn)生新的分類(lèi)規(guī)則與訓(xùn)練樣本集,則在第一次迭代時(shí),所召回的正樣本數(shù)量為200個(gè)。從圖5所示的曲線(xiàn)圖可見(jiàn),隨著迭代次數(shù)的增加,本實(shí)施例中正樣本的召回不斷升高,在第9次迭代時(shí),正樣本的召回達(dá)到420多個(gè),并趨于穩(wěn)定,由此建立了一個(gè)穩(wěn)定的網(wǎng)頁(yè)分塊標(biāo)注模型。請(qǐng)配合參閱圖3至圖5,當(dāng)采用如圖3中步驟I所示的種子規(guī)則,對(duì)所述樣本集進(jìn)行識(shí)別標(biāo)注時(shí),正樣本的召回個(gè)數(shù)不到50個(gè)。經(jīng)過(guò)如圖3所示的第一次迭代之后,依據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行識(shí)別標(biāo)注時(shí),正樣本的召回?cái)?shù)可達(dá)到200個(gè)。經(jīng)過(guò)多次循環(huán)迭代,不斷產(chǎn)生新的分類(lèi)規(guī)則,該些新的分類(lèi)規(guī)則的準(zhǔn)確率增大,正樣本的召回率增高。從而在對(duì)所述樣本集的識(shí)別標(biāo)注時(shí),正樣本的召回個(gè)數(shù)不斷增多,如圖5所示,至第9次迭代之后,正樣本的召回達(dá)到420多個(gè),并趨于穩(wěn)定,由此建立了一個(gè)穩(wěn)定的網(wǎng)頁(yè)分塊標(biāo)注模型。在本實(shí)施例中,所述的機(jī)器學(xué)習(xí)方法根據(jù)典型正樣本進(jìn)行學(xué)習(xí),比較適用于待學(xué)習(xí)的概念本身較為明確、邊界清晰的情形。通過(guò)本實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法,可以解決人工無(wú)法提供分塊標(biāo)注所需訓(xùn)練樣本的技術(shù)難題,并可通過(guò)上述特征選擇算法與機(jī)器學(xué)習(xí)算法的循環(huán)運(yùn)行,依據(jù)需求建立穩(wěn)定的分塊標(biāo)注模型,以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的準(zhǔn)確高效的分塊標(biāo)注。請(qǐng)進(jìn)一步參閱圖6,所示為本發(fā)明再一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)示意圖。在本實(shí)施例中,所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)6000包括樣本集模塊1000、種子規(guī)則模塊2000、特征選擇模塊3000以及機(jī)器學(xué)習(xí)模塊4000。其中,樣本集模塊1000用于提供一樣本集;在本實(shí)施例中,所述樣本集是指網(wǎng)頁(yè)所包含的內(nèi)容樣本的集合。其中所述網(wǎng)頁(yè)內(nèi)容樣本的類(lèi)型和數(shù)量可依據(jù)實(shí)際需求設(shè)置。目前,大多數(shù)網(wǎng)頁(yè)根據(jù)內(nèi)容可以分為三類(lèi)主題網(wǎng)頁(yè)、目錄型網(wǎng)頁(yè)和圖片網(wǎng)頁(yè)。主題網(wǎng)頁(yè)通過(guò)文字描述一個(gè)或多個(gè)主題,其中包括的圖片和超鏈接并不構(gòu)成所述主題網(wǎng)頁(yè)的主體。目錄型網(wǎng)頁(yè)通常不會(huì)描述一件事物,而僅提供指向相關(guān)網(wǎng)頁(yè)的超鏈接。圖片型網(wǎng)頁(yè)中的內(nèi)容則主要通過(guò)圖片展示,并不具備大量文字。此外,每個(gè)網(wǎng)頁(yè)中還包含諸多素材,例如廣告、導(dǎo)航、分欄等信息,該等信息位于網(wǎng)頁(yè)的不同位置,具有不同的重要度,既可能屬于網(wǎng)頁(yè)的主題內(nèi)容,也可能屬于“噪聲”內(nèi)容。通常,樣本集包括但不限于上述各種網(wǎng)頁(yè)內(nèi)容信息,為簡(jiǎn)化說(shuō)明起見(jiàn),將本實(shí)施例 中的樣本集定義為包括至少一個(gè)網(wǎng)頁(yè)主題內(nèi)容與噪聲內(nèi)容的目標(biāo)信息。在其他實(shí)施例中,所述樣本集可以為基于文檔對(duì)象模型(DOM)的特定標(biāo)簽,利用標(biāo)簽項(xiàng)將網(wǎng)頁(yè)中的HTML文檔表示成DOM樹(shù)的結(jié)構(gòu),所述DOM樹(shù)的結(jié)構(gòu)則并不用于表示網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)。在本發(fā)明其他實(shí)施例中,所述樣本集還可以包括基于特定網(wǎng)頁(yè)的不同信息,在此不一一贅述。種子規(guī)則模塊2000連接所述樣本集模塊1000,所述種子規(guī)則模塊2000中設(shè)定一種子規(guī)則,所述種子規(guī)則用于對(duì)所述樣本集進(jìn)行標(biāo)注,以在所述樣本集模塊1000中建立第一訓(xùn)練樣本集。在本實(shí)施例中,所述種子規(guī)則用于從大量的樣本中篩選出目標(biāo)樣本(正樣本)。其中所篩選出來(lái)的目標(biāo)樣本(正樣本),更用做為機(jī)器學(xué)習(xí)算法的樣本之一。在本實(shí)施例中,所述種子規(guī)則也稱(chēng)人工規(guī)則,是指人工制定的規(guī)則,所述種子規(guī)則并不一定要求從樣本集中篩選出全部的目標(biāo)樣本(正樣本),只要求篩選出一部分目標(biāo)樣本(正樣本)即可。但是,所篩選出的目標(biāo)樣本(正樣本)應(yīng)該具有較高的準(zhǔn)確率。特征選擇模塊3000連接所述樣本集模塊1000與所述種子規(guī)則模塊2000,用于對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法,以選出所述第一訓(xùn)練樣本集的重要特征。在本實(shí)施例中,優(yōu)選的特征選擇算法是對(duì)離散特征(即只有0和I兩種取值的特征)使用卡方檢驗(yàn),對(duì)連續(xù)特征(即其取值范圍是連續(xù)的)使用基于信息增益的辦法。機(jī)器學(xué)習(xí)模塊4000連接所述特征選擇模塊3000與所述樣本集模塊1000,用于根據(jù)所述第一訓(xùn)練樣本集的重要特征,對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)(MachineLearning)算法,以產(chǎn)生第一分類(lèi)規(guī)則。在本實(shí)施例中,所述機(jī)器學(xué)習(xí)模塊4000還根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集。本實(shí)施例的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),可根據(jù)機(jī)器學(xué)習(xí)算法自動(dòng)產(chǎn)生分塊標(biāo)注的訓(xùn)練樣本,從而結(jié)合人工設(shè)定的訓(xùn)練樣本與規(guī)則,提供網(wǎng)頁(yè)分塊標(biāo)注所需的訓(xùn)練數(shù)據(jù)與訓(xùn)練樣本。請(qǐng)參閱圖7,所示為本發(fā)明又一實(shí)施例的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)7000,包括樣本集模塊1000、種子規(guī)則模塊2000、特征選擇模塊3000、機(jī)器學(xué)習(xí)模塊4000以及迭代模塊5000。樣本集模塊1000,用于提供一樣本集;種子規(guī)則模塊2000,連接所述樣本集模塊1000,其中設(shè)定一種子規(guī)則,所述種子規(guī)則用于對(duì)所述樣本集進(jìn)行標(biāo)注,以在所述樣本集模塊1000中建立第一訓(xùn)練樣本集;特征選擇模塊3000,連接所述樣本集模塊1000與所述種子規(guī)則模塊2000,用于對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法,以選出所述第一訓(xùn)練樣本集的重要特征;以及機(jī)器學(xué)習(xí)模塊4000,連接所述特征選擇模塊3000與所述樣本集模塊1000,用于根據(jù)所述第一訓(xùn)練樣本集的重要特征,對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)(MachineLearning)算法,以產(chǎn)生第一分類(lèi)規(guī)則;并根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集;以及迭代模塊5000,連接所述樣本集模塊1000與所述機(jī)器學(xué)習(xí)模塊4000,用于將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。在本實(shí)施例中,所述樣本集模塊1000、種子規(guī)則模塊2000、特征選擇模塊3000與機(jī)器學(xué)習(xí)模塊4000與圖6所示之實(shí)施例的樣本集模塊1000、種子規(guī)則模塊2000、特征選擇模塊3000與機(jī)器學(xué)習(xí)模塊4000相同,故在此不再重復(fù)闡述。其不同之處在于,本實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)還進(jìn)一步包括迭代模塊5000,連接所述樣本集模塊1000與所述機(jī)器學(xué)習(xí)模塊4000,用于將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。其中所述迭代模 塊5000還用于循環(huán)地將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。由此,本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),可根據(jù)機(jī)器學(xué)習(xí)算法自動(dòng)產(chǎn)生分塊標(biāo)注的訓(xùn)練樣本,并自動(dòng)循環(huán)迭代,從而結(jié)合人工設(shè)定訓(xùn)練樣本,總結(jié)出分類(lèi)規(guī)則,建立分類(lèi)模型,以實(shí)現(xiàn)網(wǎng)頁(yè)分塊標(biāo)注。請(qǐng)參閱圖8,所示為本發(fā)明又一實(shí)施例中,所述網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)的應(yīng)用示意圖。如圖8所示,未經(jīng)分塊標(biāo)注的網(wǎng)頁(yè)10可由一個(gè)網(wǎng)頁(yè)DOM樹(shù)表示。所述網(wǎng)頁(yè)10的DOM樹(shù)經(jīng)過(guò)本發(fā)明所示的網(wǎng)頁(yè)分塊標(biāo)注方法之后可建立分類(lèi)模型20。在本實(shí)施例中,所述分類(lèi)模型可包括多個(gè)分類(lèi)模型如分類(lèi)模型一、分類(lèi)模型二以及分類(lèi)模型三。在本實(shí)施例中,所述分類(lèi)模型20系通過(guò)如圖I與圖3所示的網(wǎng)頁(yè)分塊標(biāo)注方法以及圖6 7所示的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),采用特征選擇算法與機(jī)器學(xué)習(xí)算法對(duì)樣本集進(jìn)行計(jì)算而建立。在本實(shí)施例中,所述分類(lèi)模型一、二、三更可進(jìn)一步用于分別標(biāo)識(shí)網(wǎng)頁(yè)中的導(dǎo)航欄、翻頁(yè)欄、標(biāo)題欄或正文欄,在實(shí)際應(yīng)用中,更可通過(guò)本發(fā)明所述的網(wǎng)頁(yè)分塊標(biāo)注方法建立更多數(shù)量的分類(lèi)模型,以根據(jù)實(shí)際需求對(duì)網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注。當(dāng)通過(guò)所述分塊模型20對(duì)所述網(wǎng)頁(yè)10進(jìn)行標(biāo)注之后,可獲得一個(gè)含有標(biāo)注信息的DOM樹(shù)結(jié)構(gòu)的網(wǎng)頁(yè)30。所述含有標(biāo)注信息的DOM樹(shù)結(jié)構(gòu)的網(wǎng)頁(yè)30則可用于如應(yīng)用示意40所示的如鏈接分析、內(nèi)容分析以及網(wǎng)頁(yè)分類(lèi)等應(yīng)用。在本實(shí)施例中,當(dāng)分塊模型20隨所述網(wǎng)頁(yè)10進(jìn)行標(biāo)注,從而獲得有標(biāo)注信息的DOM樹(shù)結(jié)構(gòu)的網(wǎng)頁(yè)30,也即將所述網(wǎng)頁(yè)10的復(fù)雜的DOM樹(shù)結(jié)構(gòu)拆分為更為簡(jiǎn)單的子單元,可適用搜索引擎的諸多應(yīng)用。舉例而言,本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)可應(yīng)用于應(yīng)用示意40所示的鏈接分析。由于網(wǎng)頁(yè)中的鏈接,有的位于導(dǎo)航條、有的位于文章正文中,有的位于相關(guān)鏈接。同樣一個(gè)網(wǎng)頁(yè)中處于不同分塊的鏈接,其重要程度是不一樣的,對(duì)網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注后,就可以更為準(zhǔn)確地預(yù)測(cè)鏈接的重要程度,從而按不同的優(yōu)先級(jí)對(duì)網(wǎng)頁(yè)中的鏈接進(jìn)行抓取。舉例而言,本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)還可應(yīng)用于應(yīng)用示意40所示的網(wǎng)頁(yè)內(nèi)容分析。同樣的一個(gè)網(wǎng)頁(yè),處于不同分塊中的內(nèi)容,具有不同的重要程度,比如位于標(biāo)題欄的文字就比廣告塊中的文字更重要。搜索引擎為了減少搜索結(jié)果中的不相關(guān)結(jié)果,會(huì)根據(jù)網(wǎng)頁(yè)的分塊標(biāo)注結(jié)果,對(duì)不同分塊中的內(nèi)容賦予不同的權(quán)重。舉例而言,本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)還可應(yīng)用于應(yīng)用示意40所示的網(wǎng)頁(yè)分類(lèi)。如果將一個(gè)網(wǎng)頁(yè)整體籠統(tǒng)地看待,網(wǎng)頁(yè)分類(lèi)常常不能抽取到有效的特征,從而不能取得很好的效果。而將網(wǎng)頁(yè)拆分為更小的功能塊后,對(duì)各個(gè)功能塊進(jìn)行分析,可以使網(wǎng)頁(yè)分類(lèi)更加簡(jiǎn)單,也能得到更好的效果。比如對(duì)于新聞頁(yè)識(shí)別來(lái)說(shuō),文章標(biāo)題下方的文章來(lái)源信息,例如“2010-10-1511:00:57來(lái)源浙江在線(xiàn)編輯張三”是一個(gè)很重要的特征,而文章來(lái)源塊也是一種分塊標(biāo)注類(lèi)型。由此,本發(fā)明的網(wǎng) 頁(yè)分塊標(biāo)注方法與系統(tǒng),可根據(jù)機(jī)器學(xué)習(xí)算法自動(dòng)產(chǎn)生分塊標(biāo)注的訓(xùn)練樣本,并自動(dòng)循環(huán)迭代,從而結(jié)合人工設(shè)定訓(xùn)練樣本,總結(jié)出分類(lèi)規(guī)則,建立分類(lèi)模型,以實(shí)現(xiàn)網(wǎng)頁(yè)分塊標(biāo)注。在上述實(shí)施例中,僅對(duì)本發(fā)明進(jìn)行了示范性描述,但是本領(lǐng)域技術(shù)人員在閱讀本專(zhuān)利申請(qǐng)后可以在不脫離本發(fā)明的精神和范圍的情況下對(duì)本發(fā)明進(jìn)行各種修改。雖然本發(fā)明已通過(guò)實(shí)施方式揭示如上,但并非用來(lái)限定本發(fā)明,任何本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),可對(duì)本發(fā)明做出各種變更與修飾,因此本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)所界定的范圍為準(zhǔn)。
權(quán)利要求
1.一種網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,包括以下步驟 提供樣本集; 設(shè)定種子規(guī)則,所述種子規(guī)則用于對(duì)樣本集進(jìn)行分塊標(biāo)注; 根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注,以建立第一訓(xùn)練樣本集; 對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法進(jìn)行計(jì)算,選出所述第一訓(xùn)練樣本集的重要特征; 根據(jù)所述第一訓(xùn)練樣本集的所述重要特征,對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算,以產(chǎn)生第一分類(lèi)規(guī)則;及 根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集。
2.如權(quán)利要求I所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,還包括將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟。
3.如權(quán)利要求2所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟循環(huán)運(yùn)行。
4.如權(quán)利要求2所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,所述種子規(guī)包括需要識(shí)別的目標(biāo)類(lèi)別。
5.如權(quán)利要求4所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注,以建立第一訓(xùn)練樣本集還包括將所述樣本集中屬于所述目標(biāo)類(lèi)別的樣本標(biāo)注為正樣本。
6.如權(quán)利要求I所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,所述特征選擇算法是對(duì)離散特征使用卡方檢驗(yàn)。
7.如權(quán)利要求I所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,所述機(jī)器學(xué)習(xí)算法包括預(yù)設(shè)一概率閾值。
8.如權(quán)利要求7所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算,以產(chǎn)生第一分類(lèi)規(guī)則還包括所述機(jī)器學(xué)習(xí)算法還用于計(jì)算所述第一訓(xùn)練樣本集中的一個(gè)樣本屬于所述目標(biāo)類(lèi)別的概率,并當(dāng)所述樣本屬于所述目標(biāo)類(lèi)別的概率大于所述概率閾值時(shí),將所述樣本定義為屬于所述目標(biāo)類(lèi)別的樣本。
9.如權(quán)利要求8所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,還包括將所述樣本集中屬于所述目標(biāo)類(lèi)別的樣本標(biāo)注為正樣本。
10.如權(quán)利要求I所述的網(wǎng)頁(yè)分塊標(biāo)注方法,其特征在于,所述網(wǎng)頁(yè)分塊標(biāo)注方法應(yīng)用于網(wǎng)頁(yè)鏈接分析、網(wǎng)頁(yè)內(nèi)容分析或網(wǎng)頁(yè)分類(lèi)。
11.一種網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),其特征在于,所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)包括 樣本集模塊,用于提供一樣本集; 種子規(guī)則模塊,所述種子規(guī)則模塊中設(shè)定一種子規(guī)則,用于對(duì)所述樣本集進(jìn)行標(biāo)注,以在所述樣本集模塊中建立第一訓(xùn)練樣本集; 特征選擇模塊,用于對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法,以選出所述第一訓(xùn)練樣本集的重要特征;及 機(jī)器學(xué)習(xí)模塊,用于根據(jù)所述第一訓(xùn)練樣本集的重要特征,對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法,以產(chǎn)生第一分類(lèi)規(guī)則。
12.如權(quán)利要求11所述的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),其特征在于,所述機(jī)器學(xué)習(xí)模塊還根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集。
13.如權(quán)利要求12所述的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),其特征在于,還包括迭代模塊,用于將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。
14.如權(quán)利要求13所述的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),其特征在于,所述迭代模塊更用于循環(huán)地將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。
15.如權(quán)利要求11所述的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),其特征在于,所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)用于網(wǎng)頁(yè)鏈接分析、網(wǎng)頁(yè)內(nèi)容分析或網(wǎng)頁(yè)分類(lèi)。
全文摘要
本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng),所述方法包括以下步驟提供一樣本集;設(shè)定種子規(guī)則;根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注,以建立第一訓(xùn)練樣本集;對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法,以選出所述第一訓(xùn)練樣本集的重要特征;根據(jù)所述重要特征,對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法,以產(chǎn)生第一分類(lèi)規(guī)則;及根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注,以產(chǎn)生第二訓(xùn)練樣本集。本發(fā)明還公開(kāi)了一種網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng),用于提供網(wǎng)頁(yè)分塊標(biāo)注所需的訓(xùn)練樣本。本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng),可解決人工標(biāo)注訓(xùn)練樣本無(wú)法提供準(zhǔn)確而大量的訓(xùn)練樣本的問(wèn)題。
文檔編號(hào)G06F17/30GK102637172SQ201110035729
公開(kāi)日2012年8月15日 申請(qǐng)日期2011年2月10日 優(yōu)先權(quán)日2011年2月10日
發(fā)明者江嶺 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司