專利名稱:一種抽取網(wǎng)頁信息塊的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機領(lǐng)域,特別涉及一種抽取網(wǎng)頁信息塊的方法及裝置。
背景技術(shù):
對于新聞網(wǎng)頁、小說網(wǎng)頁和博客網(wǎng)頁,這些網(wǎng)頁中包括對用戶有價值的關(guān)鍵信息,如新聞?wù)?、小說正文和博客正文,還包括對用戶無用的信息,如廣告等無用信息;如果在返給用戶的網(wǎng)頁中只包括關(guān)鍵信息,不僅方便用戶瀏覽,還減少網(wǎng)絡(luò)資源的占用。目前可以從網(wǎng)頁中抽取包括關(guān)鍵信息的信息塊,將抽取的信息塊封裝成新網(wǎng)頁;接下來以新聞網(wǎng)頁為例對該方案進(jìn)行說明:一個新聞網(wǎng)頁一般包括頁頂導(dǎo)航、二級導(dǎo)航、正文標(biāo)題、正文信息、正文、交互塊和鏈接信息塊等信息塊,對用戶有價值的信息塊包括二級導(dǎo)航、正文標(biāo)題、正文信息和正文;對于一個新聞網(wǎng)頁,首先將該新聞網(wǎng)頁包括的信息劃分為多個信息塊,確定該新聞網(wǎng)頁的D0M(Document Object Model,文檔對象模型)樹結(jié)構(gòu),根據(jù)技術(shù)人員事先制作該DOM樹結(jié)構(gòu)包括的信息模板確定劃分的每個信息塊的名稱,然后抽取名稱為二級導(dǎo)航、正文標(biāo)題、正文信息和正文分別對應(yīng)的信息塊,并將抽取的四個信息塊封裝成新的新聞網(wǎng)頁。其中,需要說明的是:技術(shù)人員事先對大量的網(wǎng)頁進(jìn)行歸類,將屬于同一 DOM樹結(jié)構(gòu)的網(wǎng)頁歸為一類,然后對屬于同一 DOM樹結(jié)構(gòu)的網(wǎng)頁進(jìn)行分析并制作出該DOM樹結(jié)構(gòu)包括的一個或多個信息塊模板。在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:不同網(wǎng)站的網(wǎng)頁的DOM樹結(jié)構(gòu)都有所不同使得DOM樹種類繁多,如此對屬于每個DOM樹結(jié)構(gòu)的網(wǎng)頁進(jìn)行歸類,根據(jù)屬于每個DOM樹結(jié)構(gòu)的網(wǎng)頁制作出每個DOM樹結(jié)構(gòu)包括的信息塊模板,需要投入大量的人力;網(wǎng)站有可能進(jìn)行網(wǎng)頁改版,一旦網(wǎng)頁改版,網(wǎng)頁采用的DOM樹結(jié)構(gòu)也隨之改變,如此就需要再制作改變之后的DOM樹包括的信息塊模板,維護(hù)量巨大。
發(fā)明內(nèi)容
為了減少人力投入和維護(hù)量,本發(fā)明提供了抽取網(wǎng)頁信息塊的方法及裝置。所述技術(shù)方案如下:一種抽取網(wǎng)頁信息塊的方法,所述方法包括:獲取網(wǎng)頁所包括的多個特征的特征值,所述網(wǎng)頁包括多個信息塊;根據(jù)獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應(yīng),所述多個類別包括頁頂導(dǎo)航、二級導(dǎo)航、正文標(biāo)題、正文信息、正文、小說標(biāo)題、小說正文信息、小說正文、小說導(dǎo)航、博客導(dǎo)航、博客標(biāo)題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者;從所述網(wǎng)頁中選定至少一個信息塊以進(jìn)行顯示。獲取網(wǎng)頁所包括的多個特征的特征值,包括:
將所述網(wǎng)頁具有的特征的特征值設(shè)置為第一特征值,將所述網(wǎng)頁不具有的特征的特征值設(shè)置為第二特征值。所述根據(jù)獲取的所述多個特征值確定所述每個信息塊的類別包括:計算每個信息塊屬于每個類別的概率,并將對應(yīng)概率最大的類別定義為該信息塊的類別。所述計算每個信息塊屬于每個類別的概率包括:針對任一個類別C,根據(jù)所述類別C包括的樣本總數(shù)Ctotal和每個類別包括的樣本總數(shù)Total計算出所述類別C的類別概率
權(quán)利要求
1.一種抽取網(wǎng)頁信息塊的方法,其特征在于,所述方法包括: 獲取網(wǎng)頁所包括的多個特征的特征值,所述網(wǎng)頁包括多個信息塊; 根據(jù)獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應(yīng),所述多個類別包括頁頂導(dǎo)航、二級導(dǎo)航、正文標(biāo)題、正文信息、正文、小說標(biāo)題、小說正文信息、小說正文、小說導(dǎo)航、博客導(dǎo)航、博客標(biāo)題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者; 從所述網(wǎng)頁中選定至少一個信息塊以進(jìn)行顯示。
2.如權(quán)利要求1所述的方法,其特征在于,獲取網(wǎng)頁所包括的多個特征的特征值,包括: 將所述網(wǎng)頁具有的特征的特征值設(shè)置為第一特征值,將所述網(wǎng)頁不具有的特征的特征值設(shè)置為第二特征值。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)獲取的所述多個特征值確定所述每個信息塊的類別包括:計算每個信息塊屬于每個類別的概率,并將對應(yīng)概率最大的類別定義為該信息塊的類別。
4.如權(quán)利要求3所述的方法,其特征在于,所述計算每個信息塊屬于每個類別的概率包括: 針對任一個類別C,根據(jù)所述類別C包括的樣本總數(shù)Ctotal和每個類別包括的樣本總數(shù)Total計算出所述類別C的類別概率P
5.一種抽取網(wǎng)頁信息塊的裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取網(wǎng)頁所包括的多個特征的特征值,所述網(wǎng)頁包括多個信息塊;確定模塊,用于根據(jù)獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應(yīng),所述多個類別包括頁頂導(dǎo)航、二級導(dǎo)航、正文標(biāo)題、正文信息、正文、小說標(biāo)題、小說正文信息、小說正文、小說導(dǎo)航、博客導(dǎo)航、博客標(biāo)題、博客信息、博客正文、鏈接信息塊和交互塊; 選定模塊,用于從所述網(wǎng)頁中選定至少一個信息塊以進(jìn)行顯示。
6.如權(quán)利要求5所述的裝置,其特征在于, 所述獲取模塊,具體用于將所述網(wǎng)頁具有的特征的特征值設(shè)置為第一特征值,將所述網(wǎng)頁不具有的特征的特征值設(shè)置為第二特征值。
7.如權(quán)利要求6所述的裝置,其特征在于,所述確定模塊包括: 計算單元,用于計算所述信息塊屬于每個類別的概率; 定義單元,用于將對應(yīng)概率最大的類別定義為該信息塊的類別。
8.如權(quán)利要求7所述的裝置,其特征在于,所述計算單元, 第一計算子單元,用于針對任一個類別C,根據(jù)所述類別C包括的樣本總數(shù)Ctotal和每個類別包括的樣本總數(shù)Total計算出所述類別的類別概率
全文摘要
本發(fā)明公開了一種抽取網(wǎng)頁信息塊的方法及裝置,屬于計算機領(lǐng)域。所述方法包括獲取網(wǎng)頁所包括的多個特征的特征值,所述網(wǎng)頁包括多個信息塊;根據(jù)獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應(yīng),所述多個類別包括頁頂導(dǎo)航、二級導(dǎo)航、正文標(biāo)題、正文信息、正文、小說標(biāo)題、小說正文信息、小說正文、小說導(dǎo)航、博客導(dǎo)航、博客標(biāo)題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者;從所述網(wǎng)頁中選定至少一個信息塊以進(jìn)行顯示。所述裝置包括獲取模塊、確定模塊和選定模塊。本發(fā)明能夠減少人力投入和維護(hù)量。
文檔編號G06F17/30GK103198075SQ20121000465
公開日2013年7月10日 申請日期2012年1月9日 優(yōu)先權(quán)日2012年1月9日
發(fā)明者徐羽, 彭默, 蔡兵 申請人:騰訊科技(深圳)有限公司