網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)的制作方法

文檔序號(hào)：6354330閱讀：433來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)的制作方法
網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)
技術(shù)領(lǐng)域：
本發(fā)明涉及一種網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)，特別涉及一種基于機(jī)器訓(xùn)練的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)。
背景技術(shù)：
目前，互聯(lián)網(wǎng)不斷發(fā)展，信息量劇增，對(duì)信息進(jìn)行篩選時(shí)耗時(shí)費(fèi)力，搜索引擎對(duì)于主題網(wǎng)頁(yè)分類(lèi)的要求也日趨迫切。一般而言，各個(gè)網(wǎng)頁(yè)總是包含豐富而復(fù)雜的信息，例如導(dǎo)航、標(biāo)題、翻頁(yè)、廣告、版權(quán)等等。當(dāng)用戶(hù)為了獲取所需信息而通過(guò)搜索引擎抓取網(wǎng)頁(yè)或建立索引時(shí)，需要對(duì)網(wǎng)頁(yè)進(jìn)行較為精細(xì)的分析。通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注的方法，可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)分類(lèi)。傳統(tǒng)地，對(duì)網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注的方法是采用人工設(shè)定規(guī)則，即將網(wǎng)頁(yè)中滿(mǎn)足特定規(guī)則的信息內(nèi)容進(jìn)行分塊標(biāo)注。主要的人工分塊標(biāo)注方法有基于網(wǎng)頁(yè)信息的位置與基于文檔對(duì)象模型(Document Object Model ；D0M)分塊標(biāo)注的方法?；诰W(wǎng)頁(yè)信息的位置對(duì)網(wǎng)頁(yè)進(jìn)行分塊，僅適用于比較簡(jiǎn)單的網(wǎng)頁(yè)，而不能適用于實(shí)際結(jié)構(gòu)復(fù)雜的網(wǎng)頁(yè)；且由于其網(wǎng)頁(yè)切分粒度較粗，難以充分包括整個(gè)網(wǎng)頁(yè)的語(yǔ)義特征?；贒OM的分塊標(biāo)注方法需要找出網(wǎng)頁(yè)HTML文檔里的特定標(biāo)簽，利用標(biāo)簽項(xiàng)將HTML文檔表示成一個(gè)DOM樹(shù)的結(jié)構(gòu)。由于在相當(dāng)多的情形下，DOM不是用來(lái)表示網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)的，所以不能準(zhǔn)確地對(duì)網(wǎng)頁(yè)中各分塊的語(yǔ)義信息進(jìn)行辨別。由此，在當(dāng)前的信息爆炸時(shí)代，人工設(shè)定規(guī)則的方法無(wú)法提供復(fù)雜且大量的訓(xùn)練樣本，已經(jīng)很難滿(mǎn)足對(duì)各種復(fù)雜多變的網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注所需。

發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種網(wǎng)頁(yè)分塊標(biāo)注方法及系統(tǒng)，以能提供網(wǎng)頁(yè)分塊標(biāo)注所需的訓(xùn)練數(shù)據(jù)與訓(xùn)練樣本，滿(mǎn)足對(duì)各種復(fù)雜多變的網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注所需。本發(fā)明為解決技術(shù)問(wèn)題而采用的技術(shù)方案一是提供一種網(wǎng)頁(yè)分塊標(biāo)注方法，所述網(wǎng)頁(yè)分塊標(biāo)注方法包括以下步驟提供樣本集；設(shè)定種子規(guī)則，所述種子規(guī)則用于對(duì)樣本集進(jìn)行分塊標(biāo)注；根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注，以建立第一訓(xùn)練樣本集；對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法進(jìn)行計(jì)算，選出所述第一訓(xùn)練樣本集的重要特征；根據(jù)所述第一訓(xùn)練樣本集的所述重要特征，對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算，以產(chǎn)生第一分類(lèi)規(guī)則；及根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集。根據(jù)本發(fā)明之一實(shí)施例，還包括將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟。根據(jù)本發(fā)明之一實(shí)施例，將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟循環(huán)運(yùn)行。根據(jù)本發(fā)明之一實(shí)施例，所述種子規(guī)包括需要識(shí)別的目標(biāo)類(lèi)別。根據(jù)本發(fā)明之一實(shí)施例，根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注，以建立第一訓(xùn)練樣本集還包括將所述樣本集中屬于所述目標(biāo)類(lèi)別的樣本標(biāo)注為正樣本。根據(jù)本發(fā)明之一實(shí)施例，所述特征選擇算法是對(duì)離散特征使用卡方檢驗(yàn)。根據(jù)本發(fā)明之一實(shí)施例，所述機(jī)器學(xué)習(xí)算法包括預(yù)設(shè)一概率閾值。根據(jù)本發(fā)明之一實(shí)施例，對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算，以產(chǎn)生第一分類(lèi)規(guī)則還包括所述機(jī)器學(xué)習(xí)算法還用于計(jì)算所述第一訓(xùn)練樣本集中的一個(gè)樣本屬于所述目標(biāo)類(lèi)別的概率，并當(dāng)所述樣本屬于所述目標(biāo)類(lèi)別的概率大于所述概率閾值時(shí)，將所述樣本定義為屬于所述目標(biāo)類(lèi)別的樣本。根據(jù)本發(fā)明之一實(shí)施例，根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，還包括將所述樣本集中屬于所述目標(biāo)類(lèi)別的樣本標(biāo)注為正樣本。根據(jù)本發(fā)明之一實(shí)施例，所述網(wǎng)頁(yè)分塊標(biāo)注方法應(yīng)用于網(wǎng)頁(yè)鏈接分析、網(wǎng)頁(yè)內(nèi)容分析或網(wǎng)頁(yè)分類(lèi)。本發(fā)明為解決技術(shù)問(wèn)題而采用的技術(shù)方案二是提供一種網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)包括樣本集模塊，用于提供一樣本集；種子規(guī)則模塊，所述種子規(guī)則模塊中設(shè)定一種子規(guī)則，用于對(duì)所述樣本集進(jìn)行標(biāo)注，以在所述樣本集模塊中建立第一訓(xùn)練樣本集；特征選擇模塊，用于對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法，以選出所述第一訓(xùn)練樣本集的重要特征；及機(jī)器學(xué)習(xí)模塊，用于根據(jù)所述第一訓(xùn)練樣本集的重要特征，對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法，以產(chǎn)生第一分類(lèi)規(guī)則。根據(jù)本發(fā)明之又一實(shí)施例，所述機(jī)器學(xué)習(xí)模塊還根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集。根據(jù)本發(fā)明之又一實(shí)施例，還包括迭代模塊，用于將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。根據(jù)本發(fā)明之又一實(shí)施例，所述迭代模塊更用于循環(huán)地將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。根據(jù)本發(fā)明之又一實(shí)施例，所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)用于網(wǎng)頁(yè)鏈接分析、網(wǎng)頁(yè)內(nèi)容分析或網(wǎng)頁(yè)分類(lèi)。通過(guò)上述實(shí)施例，本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)能夠自動(dòng)產(chǎn)生網(wǎng)頁(yè)分塊標(biāo)注的訓(xùn)練樣本，并結(jié)合種子規(guī)則，總結(jié)出分類(lèi)規(guī)則，建立分類(lèi)模型，以實(shí)現(xiàn)網(wǎng)頁(yè)分塊標(biāo)注。

圖I是本發(fā)明一實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法流程圖；圖2是圖I所示流程圖中步驟5 6的詳細(xì)流程圖；圖3是本發(fā)明另一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注方法的迭代流程示意圖；圖4是圖3所示的網(wǎng)頁(yè)分塊標(biāo)注方法的迭代流程示意圖中第n次迭代示意圖；圖5是圖3所示的網(wǎng)頁(yè)分塊標(biāo)注方法的迭代效果示意圖；圖6是本發(fā)明又一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)示意圖；圖7是本發(fā)明再一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)示意圖；及圖8是本發(fā)明又一實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)的應(yīng)用示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。如無(wú)特別說(shuō)明，本發(fā)明所示的附圖中，相同的標(biāo)號(hào)表示同樣的裝置或元件。盡管本發(fā)明所示的具體實(shí)施例提供了最佳實(shí)施方式，但本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)了解，本文所列出的具體實(shí)施例僅為闡明本發(fā)明的精神與要旨，而不應(yīng)理解為對(duì)本發(fā)明的任何限制。
請(qǐng)配合參閱圖1，所示為本發(fā)明一個(gè)實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法流程圖。在本實(shí)施例中，所述的網(wǎng)頁(yè)分塊標(biāo)注方法采用機(jī)器學(xué)習(xí)算法，并結(jié)合人工規(guī)則，提供對(duì)網(wǎng)頁(yè)分塊標(biāo)注所需的訓(xùn)練樣本，以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的分塊標(biāo)注。通常，當(dāng)通過(guò)搜索引擎抓取網(wǎng)頁(yè)或建立索引時(shí)，如果僅對(duì)一個(gè)網(wǎng)頁(yè)進(jìn)行籠統(tǒng)的分析，常常無(wú)法得到足夠好的效果。因而需要針對(duì)一個(gè)網(wǎng)頁(yè)的各個(gè)組成部分進(jìn)行更精確的分析。在本發(fā)明中，將網(wǎng)頁(yè)中的不同部分，如導(dǎo)航欄、標(biāo)題、翻頁(yè)欄等視為網(wǎng)頁(yè)的更小的基本分析單元，并對(duì)網(wǎng)頁(yè)中分塊的功能進(jìn)行識(shí)別和標(biāo)注的過(guò)程定義為網(wǎng)頁(yè)分塊標(biāo)注。目前互聯(lián)網(wǎng)網(wǎng)頁(yè)信息量巨大，傳統(tǒng)的人工規(guī)則對(duì)網(wǎng)頁(yè)中的分塊功能進(jìn)行識(shí)別的方法，是直接把人工規(guī)則作為分類(lèi)器使用，但是由于互聯(lián)網(wǎng)中的網(wǎng)頁(yè)復(fù)雜多變，依靠人工制定的規(guī)則很難對(duì)其進(jìn)行可靠有效的處理。因此，本發(fā)明提出一種網(wǎng)頁(yè)分塊標(biāo)注方法，其不將人工規(guī)則直接作為分類(lèi)器使用，而只用于提供最初的訓(xùn)練樣本，然后通過(guò)機(jī)器學(xué)習(xí)算法來(lái)自動(dòng)產(chǎn)生網(wǎng)頁(yè)分塊標(biāo)注的訓(xùn)練樣本及分類(lèi)規(guī)則，從而對(duì)樣本集進(jìn)行標(biāo)注。這樣既解決了人工規(guī)則可靠性低的問(wèn)題，又解決了訓(xùn)練樣本難以獲取的問(wèn)題。在網(wǎng)頁(yè)分類(lèi)所需提供的訓(xùn)練樣本(訓(xùn)練數(shù)據(jù))中，只需對(duì)每個(gè)網(wǎng)頁(yè)標(biāo)注一個(gè)類(lèi)別；而在對(duì)網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注時(shí)，所需的訓(xùn)練樣本(訓(xùn)練數(shù)據(jù))是對(duì)網(wǎng)頁(yè)內(nèi)部的某些分塊進(jìn)行標(biāo)注類(lèi)別。由于每個(gè)網(wǎng)頁(yè)均可表示成一個(gè)文檔對(duì)象模型(Document Object Model ；D0M)樹(shù)的結(jié)構(gòu)，分塊標(biāo)注就是對(duì)所述DOM樹(shù)的各個(gè)子樹(shù)分別標(biāo)注類(lèi)別，此時(shí)對(duì)子樹(shù)標(biāo)注的范圍偏大或偏小，都認(rèn)為是準(zhǔn)確的；此外，每個(gè)分塊的功能無(wú)法脫離所述分塊所在的網(wǎng)頁(yè)整體而單獨(dú)存在，由此導(dǎo)致標(biāo)注所需的訓(xùn)練樣本(訓(xùn)練數(shù)據(jù))很難通過(guò)人工方式提供。在本發(fā)明中，采用機(jī)器學(xué)習(xí)方法要求提供足夠多的訓(xùn)練樣本。當(dāng)訓(xùn)練樣本越多，最終通過(guò)機(jī)器學(xué)習(xí)而訓(xùn)練處的分類(lèi)規(guī)則(分類(lèi)器)的精確度就越好。請(qǐng)參閱圖1，在步驟1，提供一個(gè)樣本集。在本實(shí)施例中，所述樣本集是指網(wǎng)頁(yè)所包含的內(nèi)容樣本的集合。其中所述網(wǎng)頁(yè)內(nèi)容樣本的類(lèi)型和數(shù)量可依據(jù)實(shí)際需求設(shè)置。目前，大多數(shù)網(wǎng)頁(yè)根據(jù)內(nèi)容可以分為三類(lèi)主題網(wǎng)頁(yè)、目錄型網(wǎng)頁(yè)和圖片網(wǎng)頁(yè)。主題網(wǎng)頁(yè)通過(guò)文字描述一個(gè)或多個(gè)主題，其中包括的圖片和超鏈接并不構(gòu)成所述主題網(wǎng)頁(yè)的主體。目錄型網(wǎng)頁(yè)通常不會(huì)描述一件事物，而僅提供指向相關(guān)網(wǎng)頁(yè)的超鏈接。圖片型網(wǎng)頁(yè)中的內(nèi)容則主要通過(guò)圖片展示，并不具備大量文字。此外，每個(gè)網(wǎng)頁(yè)中還包含諸多素材，例如廣告、導(dǎo)航、分欄等信息，該等信息位于網(wǎng)頁(yè)的不同位置，具有不同的重要度，既可能屬于網(wǎng)頁(yè)的主題內(nèi)容，也可能屬于“噪聲”內(nèi)容。通常，樣本集包括但不限于上述各種網(wǎng)頁(yè)內(nèi)容信息，為簡(jiǎn)化說(shuō)明起見(jiàn)，將本實(shí)施例中的樣本集定義為包括至少一個(gè)網(wǎng)頁(yè)主題內(nèi)容與噪聲內(nèi)容的目標(biāo)信息。在其他實(shí)施例中，所述樣本集可以為基于文檔對(duì)象模型(DOM)的特定標(biāo)簽，利用標(biāo)簽項(xiàng)將網(wǎng)頁(yè)中的HTML文檔表示成DOM樹(shù)的結(jié)構(gòu)，所述DOM樹(shù)的結(jié)構(gòu)則并不用于表示網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)。在本發(fā)明其他實(shí)施例中，所述樣本集還可以包括基于特定網(wǎng)頁(yè)的不同信息，在此不一一贅述。
在步驟2，設(shè)定一種子規(guī)則，所述種子規(guī)則用于對(duì)所述樣本集進(jìn)行分塊標(biāo)注。在本實(shí)施例中，所述種子規(guī)則用于從大量的樣本中篩選出目標(biāo)樣本(正樣本)。其中所篩選出來(lái)的目標(biāo)樣本(正樣本)，更用做為機(jī)器學(xué)習(xí)算法的樣本之一。在本實(shí)施例中，所述種子規(guī)則也稱(chēng)人工規(guī)則，是指人工制定的規(guī)則，所述種子規(guī)則并不要求從樣本集中篩選出全部的目標(biāo)樣本(正樣本)，只要求篩選出一部分目標(biāo)樣本(正樣本)即可。但是，所篩選出的目標(biāo)樣本(正樣本)應(yīng)該具有較高的準(zhǔn)確率。在本實(shí)施例中，以網(wǎng)頁(yè)分塊中的導(dǎo)航欄為例對(duì)所述種子規(guī)則予以說(shuō)明。在所述種子規(guī)則中，先定義一目標(biāo)類(lèi)別，也就是所述種子規(guī)則需要識(shí)別的類(lèi)別，其中，屬于目標(biāo)類(lèi)別的為正樣本；不屬于目標(biāo)類(lèi)別的為負(fù)樣本。在導(dǎo)航欄識(shí)別中，“導(dǎo)航欄”就是目標(biāo)類(lèi)別，屬于“導(dǎo)航欄”類(lèi)別的為正樣本，不屬于“導(dǎo)航欄”類(lèi)別的為負(fù)樣本。當(dāng)要從大量網(wǎng)頁(yè)的大量分塊中篩選出導(dǎo)航欄分塊時(shí)，所述種子規(guī)則可以制定如下所述導(dǎo)航欄分塊處于頁(yè)面上部；所述導(dǎo)航欄分塊中的鏈接都比較短小且長(zhǎng)度一樣；所述導(dǎo)航欄分塊中的鏈接指向都與當(dāng)前頁(yè)面在同一個(gè)站點(diǎn)；所述導(dǎo)航欄分塊中的鏈接都處于同樣的水平坐標(biāo)。當(dāng)一個(gè)分塊滿(mǎn)足這樣的規(guī)則，那么就作為目標(biāo)樣本(或正樣本)被篩選出來(lái)。當(dāng)所述種子規(guī)則可以把10%的導(dǎo)航欄篩選出來(lái)，且篩選出來(lái)的分塊有95%都的確是導(dǎo)航欄，那么所述種子規(guī)則就適用于本實(shí)施例的導(dǎo)航欄分塊標(biāo)注中。此外，所述目標(biāo)樣本(正樣本)是通過(guò)所述種子規(guī)則篩選出來(lái)的，因此可以獲得任意大的目標(biāo)樣本集(正樣本集)，如所述種子規(guī)則可以篩選出10%的正樣本，那么當(dāng)樣本全集是1000個(gè)時(shí)，就可以得到100個(gè)正樣本；10000個(gè)時(shí)，就可以得到1000個(gè)正樣本。舉例而言，當(dāng)所述樣本集中有n(n = 1，2，. . . N，N為正整數(shù))個(gè)樣本，有m(n > m=1,2, ...M，M為正整數(shù))個(gè)樣本屬于目標(biāo)類(lèi)別“導(dǎo)航欄”，有n-m個(gè)樣本不屬于目標(biāo)類(lèi)別“導(dǎo)航欄”。當(dāng)通過(guò)所述種子規(guī)則識(shí)別出來(lái)的目標(biāo)類(lèi)別樣本有x(x<m)個(gè)，其中有y(y<x)個(gè)的確屬于目標(biāo)類(lèi)別“導(dǎo)航欄”。此時(shí)，所述召回率就是屬于目標(biāo)類(lèi)別的樣本中，被識(shí)別為目標(biāo)類(lèi)別的比例。即召回率=y/m。準(zhǔn)確率就是被分類(lèi)器識(shí)別為目標(biāo)類(lèi)別的樣本中，的確屬于目標(biāo)類(lèi)別的比例。即準(zhǔn)
確率=y/xo在本實(shí)施例中，所述種子規(guī)則可以設(shè)為按較高的準(zhǔn)確率/識(shí)別率識(shí)別所述樣本集，并對(duì)所述樣本集進(jìn)行分塊標(biāo)注。在本實(shí)施例中，對(duì)所述種子規(guī)則的召回率不作要求，也即在本實(shí)施例中，人工提供的所述種子規(guī)則是一個(gè)高準(zhǔn)確率/識(shí)別率，低召回率的訓(xùn)練規(guī)則。在本發(fā)明的其他實(shí)施方式中，為了滿(mǎn)足不同網(wǎng)頁(yè)分塊標(biāo)注的需求，所述種子規(guī)則的準(zhǔn)確率/識(shí)別率與召回率的高低可分別依具體情形予以設(shè)定。在步驟3，根據(jù)種子規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以建立第一訓(xùn)練樣本集。在本實(shí)施例中，所述種子規(guī)則識(shí)別所述樣本集，以便識(shí)別出所述樣本集中的正樣本與負(fù)樣本，并根據(jù)所述正樣本與所述負(fù)樣本對(duì)所述樣本集進(jìn)行標(biāo)注。為簡(jiǎn)化說(shuō)明起見(jiàn)，將所述種子規(guī)則識(shí)別出的正樣本，也即按照正樣本標(biāo)注的網(wǎng)頁(yè)分塊定義為典型正樣本。在本實(shí)施例中，所述第一訓(xùn)練樣本集，為經(jīng)正樣本與負(fù)樣本標(biāo)注的樣本集，即所述正樣本與所述負(fù)樣本的集合。在步驟4，對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法進(jìn)行計(jì)算，選出所述第一訓(xùn)練樣本集的重要特征。所述重要特征中的“重要”，可以是指這個(gè)特征的加入可以提高分類(lèi)算法的效果，通常按照某一準(zhǔn)則選擇出一組具有良好區(qū)分特性的特征子集。所述特征選擇算法利用一定的規(guī)則對(duì)所述第一訓(xùn)練樣本集進(jìn)行評(píng)估，以選出所述第一訓(xùn)練樣本集的最佳特征子集。所述特征選擇算法可采用搜索性算法，例如神經(jīng)網(wǎng)絡(luò)算法(NN)、模擬煙火算法(SN)、遺傳算法(GA)以及傳統(tǒng)算法等。在本發(fā)明其他實(shí)施例中，所述特征選擇算法可采用非搜索性算法，以滿(mǎn)足其他高維特征選擇，或時(shí)間復(fù)雜度相對(duì)較低的選擇要求。特征選擇算法可以采用過(guò)濾器模型和封裝器模型，通常，過(guò)濾器模型將特征選擇作為一個(gè)預(yù)處理過(guò)程，獨(dú)立于其他機(jī)器學(xué)習(xí)算法。一般的過(guò)濾器模型時(shí)間復(fù)雜度低，準(zhǔn)確性不高。封裝器模型則采用將其他機(jī)器學(xué)習(xí)算法的結(jié)果作為特征子集選擇的一部分，其時(shí)間復(fù)雜度較高，但準(zhǔn)確性也較高。在本實(shí)施例中，所述的特征選擇算法采用過(guò)濾器模型；在本發(fā)明的其他實(shí)施例中，所述特征選擇算法也可采用封裝器模型或其他模型。
在本實(shí)施例中，優(yōu)選的特征選擇算法是對(duì)離散特征(即只有0和I兩種取值的特征)使用卡方檢驗(yàn)，對(duì)連續(xù)特征(即其取值范圍是連續(xù)的)使用基于信息增益的辦法。以下以卡方檢驗(yàn)為例予以說(shuō)明卡方檢驗(yàn)是比較具有一個(gè)特征的樣本，和不具有該特征的樣本歸屬于正樣本的概率，這個(gè)概率相差越大，說(shuō)明該特征的區(qū)分意義越顯著。在訓(xùn)練導(dǎo)航欄時(shí)，設(shè)定特征一是“分塊中的鏈接都在同一行”，并得到如下表一的統(tǒng)計(jì)結(jié)果表一
是導(dǎo)航欄不是導(dǎo)航欄總計(jì)
分塊中的鏈接都在同一行^ 12030150
分塊中的鏈接不在同一行— 20130150
總計(jì)140160300設(shè)定特征二是“分塊中有圖片”，并得到如下表二的統(tǒng)計(jì)結(jié)果表二
是導(dǎo)航欄不是導(dǎo)航欄總計(jì)
分塊中有圖片80I90I170
分塊中沒(méi)有圖片60~ 70130
140160300從表一看出，具有特征一“分塊中的鏈接都在同一行”的分塊，是導(dǎo)航欄的概率為0.8 ;而不具有特征一“分塊中的鏈接都在同一行”的分塊，是導(dǎo)航欄的概率只有0. 13。特征一“分塊中的鏈接都在同一行”的區(qū)分意義明顯。從表二看出，具有特征二“分塊中有圖片”的分塊，是導(dǎo)航欄的概率為0. 47 ;而不具有特征二“分塊中有圖片”的分塊，是導(dǎo)航欄的概率為0. 46。特征二“分塊中有圖片”的區(qū)分意義則不明顯。從表一和表二可以看出，特征一“分塊中的鏈接都在同一行”比特征二“分塊中有圖片”為更具有區(qū)分意義的特征。對(duì)特征一與特征二分別計(jì)算卡方值特征一“分塊中的鏈接都在同一行”的卡方值=300*(120*130-20*30)2/(140*160*150*150) = 133.9 ;特征二“分塊中有圖片”的卡方值=300* (80*70-90*60 ) 2/(140*160*170*130) = 0. 024。因此，特征一比特征二的卡方值大，則特征一是一個(gè)更好的特征。當(dāng)特征選擇的閾值是100，特征選擇算法則選擇特征一“分塊中的鏈接都在同一行”這個(gè)特征，而不會(huì)選擇特征二“分塊中是否有圖片”。由此，在本實(shí)施例中，所述的重要特征為特征一“分塊中的鏈接都在同一行”。然而，本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)了解，此處所列舉的特征選擇算法的不同模型僅為了闡明本發(fā)明的最佳實(shí)施例，而并不應(yīng)理解為對(duì)本發(fā)明的限制。在本發(fā)明的其他可效仿的實(shí)施例中，無(wú)論采取何種特征選擇算法模型，均不脫離本發(fā)明的精神和范圍。在步驟5，根據(jù)所述第一訓(xùn)練樣本集的所述重要特征，對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算，以產(chǎn)生第一分類(lèi)規(guī)則。在本實(shí)施例中，所述第一訓(xùn)練樣本集，為經(jīng)根據(jù)種子規(guī)則進(jìn)行正樣本與負(fù)樣本標(biāo)注的樣本集，即所述正樣本與所述負(fù)樣本的集合。所述機(jī)器學(xué)習(xí)算法根據(jù)所述重要特征以及所述第一訓(xùn)練樣本集進(jìn)行計(jì)算，并自動(dòng)總結(jié)產(chǎn)生出新的分類(lèi)規(guī)則，在本實(shí)施例中，所述新的分類(lèi)規(guī)則為第一分類(lèi)規(guī)則。在本實(shí)施例中，在所述機(jī)器學(xué)習(xí)算法過(guò)程中還預(yù)設(shè)一個(gè)概率閾值t。通過(guò)所述機(jī)器學(xué)習(xí)所得到的第一分類(lèi)規(guī)則，會(huì)對(duì)所述樣本集中的某個(gè)樣本，計(jì)算其屬于目標(biāo)類(lèi)別的概率。所述概率閾值就是利用屬于目標(biāo)類(lèi)別的概率，來(lái)進(jìn)行最終分類(lèi)的界線(xiàn)，即，對(duì)某一樣本，如果計(jì)算出來(lái)的屬于目標(biāo)類(lèi)別的概率值大于或等于概率閾值t，則將其劃分為正樣本，否則劃分為負(fù)樣本。當(dāng)通過(guò)特征選擇算法篩選出多個(gè)特征，每個(gè)特征均可在一定范圍內(nèi)取值。以導(dǎo)航欄分塊為例，通過(guò)特征選擇算法篩選出多個(gè)特征X1，X2，. . . Xm, (m為正整數(shù))每個(gè)特征均可在一定范圍內(nèi)取值。由此，在本實(shí)施例中，則根據(jù)所述機(jī)器學(xué)習(xí)算法對(duì)通過(guò)所述特征選擇算法篩選出的多個(gè)特征以及所述第一訓(xùn)練樣本集進(jìn)行計(jì)算。在本實(shí)施例中，所述函數(shù)計(jì)算結(jié)果可以表示為函數(shù)f(xl，x2，…，xm)，用來(lái)計(jì)算某個(gè)分塊屬于目標(biāo)類(lèi)別的概率。在進(jìn)行分塊標(biāo)注時(shí)，對(duì)于某個(gè)分塊來(lái)說(shuō)，如果這個(gè)函數(shù)計(jì)算出來(lái)的結(jié)果大于或等于所述預(yù)設(shè)的概率閾值t，那么就可以認(rèn)為這個(gè)分塊屬于目標(biāo)類(lèi)別；反之，則不屬于目標(biāo)類(lèi)別。在本實(shí)施例中，同樣以導(dǎo)航欄分塊標(biāo)注為例，當(dāng)通過(guò)特征選擇算法對(duì)于導(dǎo)航欄選擇出的m(m為正整數(shù))個(gè)特征，并且總結(jié)了出一個(gè)函數(shù)f，其中所述機(jī)器學(xué)習(xí)算法中所述預(yù)設(shè)的概率閾值t設(shè)為0. 9。在使用所述規(guī)則用于分類(lèi)時(shí)，對(duì)于某個(gè)分塊來(lái)說(shuō)，這m個(gè)特征的取值分別為xl = vl, x2 = v2,. . . , xm = vm,當(dāng) f (vl, v2,, vm) = 0. 95 > t = 0. 9 時(shí)，那么就會(huì)將這個(gè)分塊劃分在目標(biāo)類(lèi)別中。在步驟6，依據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集。在本實(shí)施例中，所述第一分類(lèi)規(guī)則經(jīng)由所述機(jī)器學(xué)習(xí)算法根據(jù)所述第一訓(xùn)練樣本集的重要特征計(jì)算而得。依據(jù)所述特征選擇算法及所述機(jī)器學(xué)習(xí)算法所得的第一分類(lèi)規(guī)則的準(zhǔn)確率及召回率高于所述人工設(shè)定的種子規(guī)則。
在本實(shí)施例中，還依據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，所述第一分類(lèi)規(guī)則控制其召回率的概率閾值，也即其召回正樣本的概率閾值，從而使得根據(jù)所述第一分類(lèi)規(guī)則的正樣本召回具有更高的準(zhǔn)確率。基于所述第一分類(lèi)規(guī)則對(duì)所述樣本集的標(biāo)注，從而自動(dòng)產(chǎn)生第二訓(xùn)練樣本集。相應(yīng)的，所述第二訓(xùn)練樣本集比所述第一訓(xùn)練樣本集具有更高的分塊標(biāo)注的準(zhǔn)確度。請(qǐng)進(jìn)一步參閱圖2，所示為圖I中步驟5 6的詳細(xì)流程圖。在步驟502，根據(jù)第一分類(lèi)規(guī)則計(jì)算所述樣本集中屬于目標(biāo)類(lèi)別的概率值。在本實(shí)施例中，通過(guò)所述機(jī)器學(xué)習(xí)所得到的第一分類(lèi)規(guī)則，會(huì)對(duì)所述樣本集中的某個(gè)樣本，計(jì)算其屬于目標(biāo)類(lèi)別的概率。所述概率閾值就是利用屬于目標(biāo)類(lèi)別的概率，來(lái)進(jìn)行最終分類(lèi)的界線(xiàn)，即，對(duì)某一樣本，如果計(jì)算出來(lái)的屬于目標(biāo)類(lèi)別的概率值大于或等于概率閾值t，則將其劃分為正樣本，否則劃分為負(fù)樣本。在步驟502，計(jì)算樣本集中屬于目標(biāo)類(lèi)別的概率值。當(dāng)通過(guò)特征選擇算法篩選出多個(gè)特征，每個(gè)特征均可在一定范圍內(nèi)取值。以導(dǎo)航欄分塊為例，通過(guò)特征選擇算法篩選出多個(gè)特征X1，X2，. . . Xm,每個(gè)特征均可在一定范圍內(nèi)取值。由此，在本實(shí)施例中，則根據(jù)所述機(jī)器學(xué)習(xí)算法對(duì)通過(guò)所述特征選擇算法篩選出的多個(gè)特征以及所述第一訓(xùn)練樣本集進(jìn)行計(jì)算。在本實(shí)施例中，所述函數(shù)計(jì)算結(jié)果可以表示為函數(shù)f (xl，x2, xm)，用來(lái)計(jì)算某個(gè)分塊屬于目標(biāo)類(lèi)別的概率。在步驟504，判斷屬于目標(biāo)類(lèi)別的概率值是否大于所述預(yù)設(shè)概率閾值。在本實(shí)施例中，在進(jìn)行分塊標(biāo)注時(shí)，對(duì)于某個(gè)分塊來(lái)說(shuō)，如果這個(gè)函數(shù)計(jì)算出來(lái)的結(jié)果大于或等于所述預(yù)設(shè)的概率閾值t，那么就可以認(rèn)為這個(gè)分塊屬于目標(biāo)類(lèi)別；反之，則不屬于目標(biāo)類(lèi)別。在本實(shí)施例中，同樣以導(dǎo)航欄分塊標(biāo)注為例，當(dāng)通過(guò)特征選擇算法對(duì)于導(dǎo)航欄選擇出的m(m為正整數(shù))個(gè)特征，并且總結(jié)了出一個(gè)函數(shù)f，其中所述機(jī)器學(xué)習(xí)算法中所述預(yù)設(shè)的概率閾值t設(shè)為0.9。在使用所述規(guī)則用于分類(lèi)時(shí)，對(duì)于某個(gè)分塊來(lái)說(shuō)，這m個(gè)特征的取值分別為xl = vl, x2 = v2, . . . , xm = vm,當(dāng) f (vl, v2, , vm) = 0. 95 > t = 0. 9 時(shí)，那么就會(huì)將這個(gè)分塊劃分在目標(biāo)類(lèi)別中。在本實(shí)施例中，更根據(jù)步驟504的判斷結(jié)果進(jìn)入步驟600。在步驟600，根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集。其中，當(dāng)所述屬于目標(biāo)類(lèi)別的概率值大于所述預(yù)設(shè)概率閾值時(shí)，則進(jìn)入步驟602，根據(jù)所述第一分類(lèi)規(guī)則在所述樣本集中標(biāo)注出正樣本。所述屬于目標(biāo)類(lèi)別的概率值大于所述預(yù)設(shè)概率閾值時(shí)，則進(jìn)入步驟604，根據(jù)所述第一分類(lèi)規(guī)則在所述樣本集中標(biāo)注出負(fù)樣本。由此，所述第二訓(xùn)練樣本集則包括由正樣本組成的正樣本集，以及由負(fù)樣本組成的負(fù)樣本集。通過(guò)本實(shí)施例的網(wǎng)頁(yè)分塊標(biāo)注方法，可以解決人工無(wú)法提供分塊標(biāo)注所需訓(xùn)練樣本的技術(shù)難題，并可通過(guò)上述特征選擇算法與機(jī)器學(xué)習(xí)算法建立穩(wěn)定的分塊標(biāo)注模型，以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的準(zhǔn)確高效的分塊標(biāo)注。請(qǐng)參閱圖3，所示為本發(fā)明另一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注方法的迭代流程示意圖。由于本實(shí)施例中，步驟I 6與圖I所示實(shí)施例中的步驟I 6相同,在此不再重復(fù)闡述。其與圖I所示之流程不同之處在于，本實(shí)施例中，還包括將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟。并對(duì)所述第二訓(xùn)練樣本集再次根據(jù)特征選擇算法與所述機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算，且進(jìn)一步可通過(guò)重復(fù)循環(huán)執(zhí)行步驟3 6，從而不斷產(chǎn)生新的分類(lèi)規(guī)則與新的訓(xùn)練樣本集，直至所述分類(lèi)規(guī)則趨于穩(wěn)定為止。由此，可建立一個(gè)穩(wěn)定的，對(duì)網(wǎng)頁(yè)分塊的進(jìn)行識(shí)別和標(biāo)注的分塊模型。
請(qǐng)進(jìn)一步參閱圖4，所示是圖3所示的網(wǎng)頁(yè)分塊標(biāo)注方法的迭代流程示意圖中第n(n為正整數(shù))次迭代示意圖。在本實(shí)施例中，在步驟3n，建立第n訓(xùn)練樣本集。在本實(shí)施例中，所述第n訓(xùn)練樣本集是根據(jù)第n-1分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，并迭代至第n-1訓(xùn)練樣本集。其中所述第n訓(xùn)練樣本集包括第n正樣本集與第n負(fù)樣本集。在步驟4n，對(duì)第n訓(xùn)練樣本集采用特征選擇算法，選出重要特征。在本實(shí)施例中，所述特征選擇算法利用一定的規(guī)則對(duì)所述第n訓(xùn)練樣本集進(jìn)行評(píng)估，以選出所述第n訓(xùn)練樣本集的最佳特征子集。在本實(shí)施例中，優(yōu)選的特征選擇算法是對(duì)離散特征(即只有0和I兩種取值的特征)使用卡方檢驗(yàn)，對(duì)連續(xù)特征(即其取值范圍是連續(xù)的)使用基于信息增益的辦法?？ǚ綑z驗(yàn)是比較具有一個(gè)特征的樣本，和不具有該特征的樣本歸屬于正樣本的概率，這個(gè)概率相差越大，說(shuō)明該特征的區(qū)分意義越顯著。在步驟5n，根據(jù)重要特征，對(duì)第n訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法，以產(chǎn)生第n+1分類(lèi)規(guī)則。在本實(shí)施例中，在所述機(jī)器學(xué)習(xí)算法過(guò)程中還預(yù)設(shè)一個(gè)概率閾值t。通過(guò)所述機(jī)器學(xué)習(xí)所得到的第一分類(lèi)規(guī)則，會(huì)對(duì)所述樣本集中的某個(gè)樣本，計(jì)算其屬于目標(biāo)類(lèi)別的概率。所述概率閾值就是利用屬于目標(biāo)類(lèi)別的概率，來(lái)進(jìn)行最終分類(lèi)的界線(xiàn)，即，對(duì)某一樣本，如果計(jì)算出來(lái)的屬于目標(biāo)類(lèi)別的概率值大于或等于概率閾值t，則將其劃分為正樣本，否則劃分為負(fù)樣本。當(dāng)通過(guò)特征選擇算法篩選出多個(gè)特征，每個(gè)特征均可在一定范圍內(nèi)取值。以導(dǎo)航欄分塊為例，通過(guò)特征選擇算法篩選出多個(gè)特征X1，X2, ... Xm，每個(gè)特征均可在一定范圍內(nèi)取值。由此，在本實(shí)施例中，則根據(jù)所述機(jī)器學(xué)習(xí)算法對(duì)通過(guò)所述特征選擇算法篩選出的多個(gè)特征以及所述第一訓(xùn)練樣本集進(jìn)行計(jì)算。在本實(shí)施例中，所述函數(shù)計(jì)算結(jié)果可以表示為函數(shù)f(xl，x2, xm)，用來(lái)計(jì)算某個(gè)分塊屬于目標(biāo)類(lèi)別的概率。在進(jìn)行分塊標(biāo)注時(shí)，對(duì)于某個(gè)分塊來(lái)說(shuō)，如果這個(gè)函數(shù)計(jì)算出來(lái)的結(jié)果大于或等于所述預(yù)設(shè)的概率閾值t，那么就可以認(rèn)為這個(gè)分塊屬于目標(biāo)類(lèi)別；反之，則不屬于目標(biāo)類(lèi)別。請(qǐng)參閱圖5，所示為本發(fā)明另一實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法的迭代效果示意圖。在本實(shí)施例中，采用人工設(shè)定的種子規(guī)則，所召回的正樣本數(shù)量不到50個(gè)。經(jīng)過(guò)一次訓(xùn)練樣本集的迭代之后，產(chǎn)生新的分類(lèi)規(guī)則與訓(xùn)練樣本集，則在第一次迭代時(shí)，所召回的正樣本數(shù)量為200個(gè)。從圖5所示的曲線(xiàn)圖可見(jiàn)，隨著迭代次數(shù)的增加，本實(shí)施例中正樣本的召回不斷升高，在第9次迭代時(shí)，正樣本的召回達(dá)到420多個(gè)，并趨于穩(wěn)定，由此建立了一個(gè)穩(wěn)定的網(wǎng)頁(yè)分塊標(biāo)注模型。請(qǐng)配合參閱圖3至圖5，當(dāng)采用如圖3中步驟I所示的種子規(guī)則，對(duì)所述樣本集進(jìn)行識(shí)別標(biāo)注時(shí)，正樣本的召回個(gè)數(shù)不到50個(gè)。經(jīng)過(guò)如圖3所示的第一次迭代之后，依據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行識(shí)別標(biāo)注時(shí)，正樣本的召回?cái)?shù)可達(dá)到200個(gè)。經(jīng)過(guò)多次循環(huán)迭代，不斷產(chǎn)生新的分類(lèi)規(guī)則，該些新的分類(lèi)規(guī)則的準(zhǔn)確率增大，正樣本的召回率增高。從而在對(duì)所述樣本集的識(shí)別標(biāo)注時(shí)，正樣本的召回個(gè)數(shù)不斷增多，如圖5所示，至第9次迭代之后，正樣本的召回達(dá)到420多個(gè)，并趨于穩(wěn)定，由此建立了一個(gè)穩(wěn)定的網(wǎng)頁(yè)分塊標(biāo)注模型。在本實(shí)施例中，所述的機(jī)器學(xué)習(xí)方法根據(jù)典型正樣本進(jìn)行學(xué)習(xí)，比較適用于待學(xué)習(xí)的概念本身較為明確、邊界清晰的情形。通過(guò)本實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注方法，可以解決人工無(wú)法提供分塊標(biāo)注所需訓(xùn)練樣本的技術(shù)難題，并可通過(guò)上述特征選擇算法與機(jī)器學(xué)習(xí)算法的循環(huán)運(yùn)行，依據(jù)需求建立穩(wěn)定的分塊標(biāo)注模型，以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的準(zhǔn)確高效的分塊標(biāo)注。請(qǐng)進(jìn)一步參閱圖6,所示為本發(fā)明再一實(shí)施例中網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)示意圖。在本實(shí)施例中，所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)6000包括樣本集模塊1000、種子規(guī)則模塊2000、特征選擇模塊3000以及機(jī)器學(xué)習(xí)模塊4000。其中，樣本集模塊1000用于提供一樣本集；在本實(shí)施例中，所述樣本集是指網(wǎng)頁(yè)所包含的內(nèi)容樣本的集合。其中所述網(wǎng)頁(yè)內(nèi)容樣本的類(lèi)型和數(shù)量可依據(jù)實(shí)際需求設(shè)置。目前，大多數(shù)網(wǎng)頁(yè)根據(jù)內(nèi)容可以分為三類(lèi)主題網(wǎng)頁(yè)、目錄型網(wǎng)頁(yè)和圖片網(wǎng)頁(yè)。主題網(wǎng)頁(yè)通過(guò)文字描述一個(gè)或多個(gè)主題，其中包括的圖片和超鏈接并不構(gòu)成所述主題網(wǎng)頁(yè)的主體。目錄型網(wǎng)頁(yè)通常不會(huì)描述一件事物，而僅提供指向相關(guān)網(wǎng)頁(yè)的超鏈接。圖片型網(wǎng)頁(yè)中的內(nèi)容則主要通過(guò)圖片展示，并不具備大量文字。此外，每個(gè)網(wǎng)頁(yè)中還包含諸多素材，例如廣告、導(dǎo)航、分欄等信息，該等信息位于網(wǎng)頁(yè)的不同位置，具有不同的重要度，既可能屬于網(wǎng)頁(yè)的主題內(nèi)容，也可能屬于“噪聲”內(nèi)容。通常，樣本集包括但不限于上述各種網(wǎng)頁(yè)內(nèi)容信息，為簡(jiǎn)化說(shuō)明起見(jiàn)，將本實(shí)施例中的樣本集定義為包括至少一個(gè)網(wǎng)頁(yè)主題內(nèi)容與噪聲內(nèi)容的目標(biāo)信息。在其他實(shí)施例中，所述樣本集可以為基于文檔對(duì)象模型(DOM)的特定標(biāo)簽，利用標(biāo)簽項(xiàng)將網(wǎng)頁(yè)中的HTML文檔表示成DOM樹(shù)的結(jié)構(gòu)，所述DOM樹(shù)的結(jié)構(gòu)則并不用于表示網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)。在本發(fā)明其他實(shí)施例中，所述樣本集還可以包括基于特定網(wǎng)頁(yè)的不同信息，在此不一一贅述。種子規(guī)則模塊2000連接所述樣本集模塊1000，所述種子規(guī)則模塊2000中設(shè)定一種子規(guī)則，所述種子規(guī)則用于對(duì)所述樣本集進(jìn)行標(biāo)注，以在所述樣本集模塊1000中建立第一訓(xùn)練樣本集。在本實(shí)施例中，所述種子規(guī)則用于從大量的樣本中篩選出目標(biāo)樣本(正樣本)。其中所篩選出來(lái)的目標(biāo)樣本(正樣本)，更用做為機(jī)器學(xué)習(xí)算法的樣本之一。在本實(shí)施例中，所述種子規(guī)則也稱(chēng)人工規(guī)則，是指人工制定的規(guī)則，所述種子規(guī)則并不一定要求從樣本集中篩選出全部的目標(biāo)樣本(正樣本)，只要求篩選出一部分目標(biāo)樣本(正樣本)即可。但是，所篩選出的目標(biāo)樣本(正樣本)應(yīng)該具有較高的準(zhǔn)確率。特征選擇模塊3000連接所述樣本集模塊1000與所述種子規(guī)則模塊2000，用于對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法，以選出所述第一訓(xùn)練樣本集的重要特征。在本實(shí)施例中，優(yōu)選的特征選擇算法是對(duì)離散特征(即只有0和I兩種取值的特征)使用卡方檢驗(yàn)，對(duì)連續(xù)特征(即其取值范圍是連續(xù)的)使用基于信息增益的辦法。機(jī)器學(xué)習(xí)模塊4000連接所述特征選擇模塊3000與所述樣本集模塊1000，用于根據(jù)所述第一訓(xùn)練樣本集的重要特征，對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)(MachineLearning)算法，以產(chǎn)生第一分類(lèi)規(guī)則。在本實(shí)施例中，所述機(jī)器學(xué)習(xí)模塊4000還根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集。本實(shí)施例的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，可根據(jù)機(jī)器學(xué)習(xí)算法自動(dòng)產(chǎn)生分塊標(biāo)注的訓(xùn)練樣本，從而結(jié)合人工設(shè)定的訓(xùn)練樣本與規(guī)則，提供網(wǎng)頁(yè)分塊標(biāo)注所需的訓(xùn)練數(shù)據(jù)與訓(xùn)練樣本。請(qǐng)參閱圖7，所示為本發(fā)明又一實(shí)施例的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)7000，包括樣本集模塊1000、種子規(guī)則模塊2000、特征選擇模塊3000、機(jī)器學(xué)習(xí)模塊4000以及迭代模塊5000。樣本集模塊1000，用于提供一樣本集；種子規(guī)則模塊2000，連接所述樣本集模塊1000，其中設(shè)定一種子規(guī)則，所述種子規(guī)則用于對(duì)所述樣本集進(jìn)行標(biāo)注，以在所述樣本集模塊1000中建立第一訓(xùn)練樣本集；特征選擇模塊3000，連接所述樣本集模塊1000與所述種子規(guī)則模塊2000，用于對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法，以選出所述第一訓(xùn)練樣本集的重要特征；以及機(jī)器學(xué)習(xí)模塊4000，連接所述特征選擇模塊3000與所述樣本集模塊1000，用于根據(jù)所述第一訓(xùn)練樣本集的重要特征，對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)(MachineLearning)算法，以產(chǎn)生第一分類(lèi)規(guī)則；并根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集；以及迭代模塊5000，連接所述樣本集模塊1000與所述機(jī)器學(xué)習(xí)模塊4000，用于將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。在本實(shí)施例中，所述樣本集模塊1000、種子規(guī)則模塊2000、特征選擇模塊3000與機(jī)器學(xué)習(xí)模塊4000與圖6所示之實(shí)施例的樣本集模塊1000、種子規(guī)則模塊2000、特征選擇模塊3000與機(jī)器學(xué)習(xí)模塊4000相同，故在此不再重復(fù)闡述。其不同之處在于，本實(shí)施例中的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)還進(jìn)一步包括迭代模塊5000，連接所述樣本集模塊1000與所述機(jī)器學(xué)習(xí)模塊4000，用于將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。其中所述迭代模塊5000還用于循環(huán)地將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。由此，本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，可根據(jù)機(jī)器學(xué)習(xí)算法自動(dòng)產(chǎn)生分塊標(biāo)注的訓(xùn)練樣本，并自動(dòng)循環(huán)迭代，從而結(jié)合人工設(shè)定訓(xùn)練樣本，總結(jié)出分類(lèi)規(guī)則，建立分類(lèi)模型，以實(shí)現(xiàn)網(wǎng)頁(yè)分塊標(biāo)注。請(qǐng)參閱圖8，所示為本發(fā)明又一實(shí)施例中，所述網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)的應(yīng)用示意圖。如圖8所示，未經(jīng)分塊標(biāo)注的網(wǎng)頁(yè)10可由一個(gè)網(wǎng)頁(yè)DOM樹(shù)表示。所述網(wǎng)頁(yè)10的DOM樹(shù)經(jīng)過(guò)本發(fā)明所示的網(wǎng)頁(yè)分塊標(biāo)注方法之后可建立分類(lèi)模型20。在本實(shí)施例中，所述分類(lèi)模型可包括多個(gè)分類(lèi)模型如分類(lèi)模型一、分類(lèi)模型二以及分類(lèi)模型三。在本實(shí)施例中，所述分類(lèi)模型20系通過(guò)如圖I與圖3所示的網(wǎng)頁(yè)分塊標(biāo)注方法以及圖6 7所示的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，采用特征選擇算法與機(jī)器學(xué)習(xí)算法對(duì)樣本集進(jìn)行計(jì)算而建立。在本實(shí)施例中，所述分類(lèi)模型一、二、三更可進(jìn)一步用于分別標(biāo)識(shí)網(wǎng)頁(yè)中的導(dǎo)航欄、翻頁(yè)欄、標(biāo)題欄或正文欄，在實(shí)際應(yīng)用中，更可通過(guò)本發(fā)明所述的網(wǎng)頁(yè)分塊標(biāo)注方法建立更多數(shù)量的分類(lèi)模型，以根據(jù)實(shí)際需求對(duì)網(wǎng)頁(yè)分塊進(jìn)行標(biāo)注。當(dāng)通過(guò)所述分塊模型20對(duì)所述網(wǎng)頁(yè)10進(jìn)行標(biāo)注之后，可獲得一個(gè)含有標(biāo)注信息的DOM樹(shù)結(jié)構(gòu)的網(wǎng)頁(yè)30。所述含有標(biāo)注信息的DOM樹(shù)結(jié)構(gòu)的網(wǎng)頁(yè)30則可用于如應(yīng)用示意40所示的如鏈接分析、內(nèi)容分析以及網(wǎng)頁(yè)分類(lèi)等應(yīng)用。在本實(shí)施例中，當(dāng)分塊模型20隨所述網(wǎng)頁(yè)10進(jìn)行標(biāo)注，從而獲得有標(biāo)注信息的DOM樹(shù)結(jié)構(gòu)的網(wǎng)頁(yè)30，也即將所述網(wǎng)頁(yè)10的復(fù)雜的DOM樹(shù)結(jié)構(gòu)拆分為更為簡(jiǎn)單的子單元，可適用搜索引擎的諸多應(yīng)用。舉例而言，本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)可應(yīng)用于應(yīng)用示意40所示的鏈接分析。由于網(wǎng)頁(yè)中的鏈接，有的位于導(dǎo)航條、有的位于文章正文中，有的位于相關(guān)鏈接。同樣一個(gè)網(wǎng)頁(yè)中處于不同分塊的鏈接，其重要程度是不一樣的，對(duì)網(wǎng)頁(yè)進(jìn)行分塊標(biāo)注后，就可以更為準(zhǔn)確地預(yù)測(cè)鏈接的重要程度，從而按不同的優(yōu)先級(jí)對(duì)網(wǎng)頁(yè)中的鏈接進(jìn)行抓取。舉例而言，本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)還可應(yīng)用于應(yīng)用示意40所示的網(wǎng)頁(yè)內(nèi)容分析。同樣的一個(gè)網(wǎng)頁(yè)，處于不同分塊中的內(nèi)容，具有不同的重要程度，比如位于標(biāo)題欄的文字就比廣告塊中的文字更重要。搜索引擎為了減少搜索結(jié)果中的不相關(guān)結(jié)果，會(huì)根據(jù)網(wǎng)頁(yè)的分塊標(biāo)注結(jié)果，對(duì)不同分塊中的內(nèi)容賦予不同的權(quán)重。舉例而言，本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)還可應(yīng)用于應(yīng)用示意40所示的網(wǎng)頁(yè)分類(lèi)。如果將一個(gè)網(wǎng)頁(yè)整體籠統(tǒng)地看待，網(wǎng)頁(yè)分類(lèi)常常不能抽取到有效的特征，從而不能取得很好的效果。而將網(wǎng)頁(yè)拆分為更小的功能塊后，對(duì)各個(gè)功能塊進(jìn)行分析，可以使網(wǎng)頁(yè)分類(lèi)更加簡(jiǎn)單，也能得到更好的效果。比如對(duì)于新聞頁(yè)識(shí)別來(lái)說(shuō)，文章標(biāo)題下方的文章來(lái)源信息，例如“2010-10-1511:00:57來(lái)源浙江在線(xiàn)編輯張三”是一個(gè)很重要的特征，而文章來(lái)源塊也是一種分塊標(biāo)注類(lèi)型。由此，本發(fā)明的網(wǎng) 頁(yè)分塊標(biāo)注方法與系統(tǒng)，可根據(jù)機(jī)器學(xué)習(xí)算法自動(dòng)產(chǎn)生分塊標(biāo)注的訓(xùn)練樣本，并自動(dòng)循環(huán)迭代，從而結(jié)合人工設(shè)定訓(xùn)練樣本，總結(jié)出分類(lèi)規(guī)則，建立分類(lèi)模型，以實(shí)現(xiàn)網(wǎng)頁(yè)分塊標(biāo)注。在上述實(shí)施例中，僅對(duì)本發(fā)明進(jìn)行了示范性描述，但是本領(lǐng)域技術(shù)人員在閱讀本專(zhuān)利申請(qǐng)后可以在不脫離本發(fā)明的精神和范圍的情況下對(duì)本發(fā)明進(jìn)行各種修改。雖然本發(fā)明已通過(guò)實(shí)施方式揭示如上，但并非用來(lái)限定本發(fā)明，任何本領(lǐng)域的技術(shù)人員，在不脫離本發(fā)明的精神和范圍內(nèi)，可對(duì)本發(fā)明做出各種變更與修飾，因此本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)所界定的范圍為準(zhǔn)。
權(quán)利要求
1.一種網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，包括以下步驟提供樣本集；設(shè)定種子規(guī)則，所述種子規(guī)則用于對(duì)樣本集進(jìn)行分塊標(biāo)注；根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注，以建立第一訓(xùn)練樣本集；對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法進(jìn)行計(jì)算，選出所述第一訓(xùn)練樣本集的重要特征；根據(jù)所述第一訓(xùn)練樣本集的所述重要特征，對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算，以產(chǎn)生第一分類(lèi)規(guī)則；及根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集。
2.如權(quán)利要求I所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，還包括將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟。
3.如權(quán)利要求2所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集的步驟循環(huán)運(yùn)行。
4.如權(quán)利要求2所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，所述種子規(guī)包括需要識(shí)別的目標(biāo)類(lèi)別。
5.如權(quán)利要求4所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注，以建立第一訓(xùn)練樣本集還包括將所述樣本集中屬于所述目標(biāo)類(lèi)別的樣本標(biāo)注為正樣本。
6.如權(quán)利要求I所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，所述特征選擇算法是對(duì)離散特征使用卡方檢驗(yàn)。
7.如權(quán)利要求I所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，所述機(jī)器學(xué)習(xí)算法包括預(yù)設(shè)一概率閾值。
8.如權(quán)利要求7所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，對(duì)第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法進(jìn)行計(jì)算，以產(chǎn)生第一分類(lèi)規(guī)則還包括所述機(jī)器學(xué)習(xí)算法還用于計(jì)算所述第一訓(xùn)練樣本集中的一個(gè)樣本屬于所述目標(biāo)類(lèi)別的概率，并當(dāng)所述樣本屬于所述目標(biāo)類(lèi)別的概率大于所述概率閾值時(shí)，將所述樣本定義為屬于所述目標(biāo)類(lèi)別的樣本。
9.如權(quán)利要求8所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，還包括將所述樣本集中屬于所述目標(biāo)類(lèi)別的樣本標(biāo)注為正樣本。
10.如權(quán)利要求I所述的網(wǎng)頁(yè)分塊標(biāo)注方法，其特征在于，所述網(wǎng)頁(yè)分塊標(biāo)注方法應(yīng)用于網(wǎng)頁(yè)鏈接分析、網(wǎng)頁(yè)內(nèi)容分析或網(wǎng)頁(yè)分類(lèi)。
11.一種網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，其特征在于，所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)包括樣本集模塊，用于提供一樣本集；種子規(guī)則模塊，所述種子規(guī)則模塊中設(shè)定一種子規(guī)則，用于對(duì)所述樣本集進(jìn)行標(biāo)注，以在所述樣本集模塊中建立第一訓(xùn)練樣本集；特征選擇模塊，用于對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法，以選出所述第一訓(xùn)練樣本集的重要特征；及機(jī)器學(xué)習(xí)模塊，用于根據(jù)所述第一訓(xùn)練樣本集的重要特征，對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法，以產(chǎn)生第一分類(lèi)規(guī)則。
12.如權(quán)利要求11所述的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，其特征在于，所述機(jī)器學(xué)習(xí)模塊還根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集。
13.如權(quán)利要求12所述的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，其特征在于，還包括迭代模塊，用于將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。
14.如權(quán)利要求13所述的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，其特征在于，所述迭代模塊更用于循環(huán)地將所述第二訓(xùn)練樣本集迭代至所述第一訓(xùn)練樣本集。
15.如權(quán)利要求11所述的網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，其特征在于，所述網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)用于網(wǎng)頁(yè)鏈接分析、網(wǎng)頁(yè)內(nèi)容分析或網(wǎng)頁(yè)分類(lèi)。
全文摘要
本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)，所述方法包括以下步驟提供一樣本集；設(shè)定種子規(guī)則；根據(jù)所述種子規(guī)則對(duì)樣本集進(jìn)行標(biāo)注，以建立第一訓(xùn)練樣本集；對(duì)所述第一訓(xùn)練樣本集采用特征選擇算法，以選出所述第一訓(xùn)練樣本集的重要特征；根據(jù)所述重要特征，對(duì)所述第一訓(xùn)練樣本集采用機(jī)器學(xué)習(xí)算法，以產(chǎn)生第一分類(lèi)規(guī)則；及根據(jù)所述第一分類(lèi)規(guī)則對(duì)所述樣本集進(jìn)行標(biāo)注，以產(chǎn)生第二訓(xùn)練樣本集。本發(fā)明還公開(kāi)了一種網(wǎng)頁(yè)分塊標(biāo)注系統(tǒng)，用于提供網(wǎng)頁(yè)分塊標(biāo)注所需的訓(xùn)練樣本。本發(fā)明的網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)，可解決人工標(biāo)注訓(xùn)練樣本無(wú)法提供準(zhǔn)確而大量的訓(xùn)練樣本的問(wèn)題。
文檔編號(hào)G06F17/30GK102637172SQ201110035729
公開(kāi)日2012年8月15日申請(qǐng)日期2011年2月10日優(yōu)先權(quán)日2011年2月10日
發(fā)明者江嶺申請(qǐng)人:北京百度網(wǎng)訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：江嶺
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)頁(yè)制作方法相關(guān)技術(shù)

網(wǎng)頁(yè)的制作方法相關(guān)技術(shù)

u盤(pán)系統(tǒng)盤(pán)制作方法相關(guān)技術(shù)

系統(tǒng)門(mén)窗制作方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁(yè)分塊標(biāo)注方法與系統(tǒng)的制作方法