網(wǎng)絡(luò)小說介紹頁的提取方法及裝置制造方法
【專利摘要】本發(fā)明公開一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,其方法包括:對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;基于識別出的二級導(dǎo)航塊以及小說介紹信息塊從小說介紹頁中提取小說介紹性字段。本發(fā)明將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,從而精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,為小說描述及用戶瀏覽提供了便利,尤其實現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽。
【專利說明】網(wǎng)絡(luò)小說介紹頁的提取方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置。
【背景技術(shù)】
[0002]目前,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)小說的Wffff頁面呈井噴式增長;而隨著移動互聯(lián)網(wǎng)的快速發(fā)展,使用手機(jī)上網(wǎng)閱讀小說的用戶也越來越多。但是,由于WWW頁面主要用于PC端瀏覽,其頁面復(fù)雜且包含較多無關(guān)信息,無法直接展示于手機(jī)側(cè)。因此如何將WWW網(wǎng)頁結(jié)構(gòu)化,并為移動閱讀用戶提供優(yōu)質(zhì)清爽的閱讀體驗是目前急需解決的一大難題。
[0003]此外,為了方便用戶閱讀,各小說網(wǎng)站設(shè)置有相應(yīng)的小說介紹頁,提供給用戶進(jìn)行選擇閱讀,小說介紹頁是一種描述網(wǎng)絡(luò)小說主要信息的頁面。如:http://www.qidian.com/Book/2342810, aspx。
[0004]由于小說介紹頁面比較復(fù)雜,且各網(wǎng)頁風(fēng)格不一,因此目前主要采用類似XPATH的模板技術(shù)進(jìn)行網(wǎng)站適配,并提取相應(yīng)字段。
[0005]但是,這種模板技術(shù)的缺陷在于一次只能適配一個網(wǎng)站,想要覆蓋所有小說網(wǎng)站,則人工成本太高;另外一般較大網(wǎng)站都會經(jīng)常更新,而網(wǎng)站更新會導(dǎo)致模板技術(shù)失效,由此增加了人工維護(hù)成本。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的主要目的在于提供一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,旨在精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,實現(xiàn)網(wǎng)絡(luò)小說在移動終端上的有效瀏覽,降低成本。
[0007]為了達(dá)到上述目的,本發(fā)明提出一種網(wǎng)絡(luò)小說介紹頁的提取方法,包括:
[0008]對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;
[0009]基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。
[0010]本發(fā)明還提出一種網(wǎng)絡(luò)小說介紹頁的提取裝置,包括:
[0011]識別模塊,用于對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;
[0012]提取模塊,用于基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。
[0013]本發(fā)明提出的一種網(wǎng)絡(luò)小說介紹頁的提取方法及裝置,將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,從而精簡網(wǎng)絡(luò)小說介紹頁的內(nèi)容,為小說描述及用戶瀏覽提供了便利,尤其實現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽。
【專利附圖】
【附圖說明】[0014]圖1是本發(fā)明網(wǎng)絡(luò)小說介紹頁的提取方法較佳實施例的流程示意圖;
[0015]圖2是本發(fā)明網(wǎng)絡(luò)小說介紹頁的提取方法較佳實施例中一種網(wǎng)絡(luò)小說介紹頁分塊后的效果不意圖。
[0016]圖3是圖2中的小說介紹頁根據(jù)提取的介紹性字段重新排版后效果示意圖;
[0017]圖4是本發(fā)明網(wǎng)絡(luò)小說介紹頁的提取裝置第一實施例的結(jié)構(gòu)示意圖;
[0018]圖5是本發(fā)明網(wǎng)絡(luò)小說介紹頁的提取裝置第二實施例的結(jié)構(gòu)示意圖。
[0019]本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進(jìn)一步說明。
【具體實施方式】
[0020]以下將結(jié)合附圖及實施例,對實現(xiàn)發(fā)明目的的技術(shù)方案作詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0021]本發(fā)明實施例的主要解決技術(shù)方案是:對小說介紹頁進(jìn)行網(wǎng)頁分塊,將復(fù)雜的網(wǎng)絡(luò)小說介紹頁進(jìn)行結(jié)構(gòu)化,提取其中核心的介紹性字段,為小說描述及用戶瀏覽提供便利。
[0022]如圖1所示,本發(fā)明較佳實施例提出的一種網(wǎng)絡(luò)小說介紹頁的提取方法,包括:
[0023]步驟S101,對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;
[0024]為了實現(xiàn)對網(wǎng)絡(luò)小說介紹頁的智能提取,首先對小說介紹頁進(jìn)行網(wǎng)頁分塊,網(wǎng)頁分塊技術(shù)在現(xiàn)有技術(shù)中已有成熟方案,在此不再贅述。
[0025]通過網(wǎng)頁分塊技術(shù)識別出小說介紹頁中的二級導(dǎo)航塊以及小說介紹信息塊,以便根據(jù)識別出的小說介紹頁中的二級導(dǎo)航塊以及小說介紹信息塊提取小說介紹頁中的核心介紹性字段。
[0026]如圖2所示,圖2是本實施例中一種網(wǎng)絡(luò)小說介紹頁分塊后的效果示意圖。
[0027]圖2中每一個線條框表示一個獨立的塊,針對每個獨立塊,需要識別其中的二級導(dǎo)航塊和小說介紹信息塊。其中:
[0028]二級導(dǎo)航塊,單獨成行,且含有諸如”〉”、”> ”、〃 一 〃、”您的位置”等導(dǎo)航性符號。圖2中框A即為二級導(dǎo)航塊。
[0029]小說介紹信息塊,包含一些小說的介紹性信息,比如類別、字?jǐn)?shù)、更新時間等。識別此小說介紹信息塊主要利用其中的兩種特征:一種是小說介紹信息塊的面積和位置特征,介紹信息塊屬于小說介紹頁的核心內(nèi)容塊,因此一般具有較大面積,且位于頁面的焦點區(qū)域;另一種是小說介紹信息塊中的介紹性關(guān)鍵詞。圖2中框B即為小說介紹信息塊。
[0030]步驟S102,基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。
[0031]根據(jù)獲取到的小說介紹頁中二級導(dǎo)航塊以及小說介紹信息塊的面積、位置特征以及介紹性關(guān)鍵詞,從所述小說介紹頁中提取小說介紹性字段。
[0032]其中,提取的小說介紹性字段主要包括:小說名稱、小說作者、小說類別、更新時間、小說字?jǐn)?shù)、小說書號、小說封面圖片、小說出版社以及小說目錄URL等,這些小說介紹性字段基本覆蓋了所有小說網(wǎng)頁的常用字段。
[0033]下面分別描述各字段及識別方法:
[0034]小說名稱:字體最大,一般出現(xiàn)在二級導(dǎo)航塊及頁面標(biāo)題里。[0035]小說作者:一般出現(xiàn)在小說名稱后的有限范圍內(nèi),且有“作者:XXX”或“文/XXX”等模式。
[0036]小說類別:事先收集一個小說類別表,包含諸如武俠、言情、玄幻等20多種類別,然后在二級導(dǎo)航塊及小說介紹信息塊中查找。
[0037]更新時間:來自于小說介紹信息塊,一般有“更新時間”、“最后更新”等相關(guān)字眼。
[0038]小說字?jǐn)?shù):來自于小說介紹信息塊,一般有“字?jǐn)?shù)”、“小說長度”等相關(guān)字眼。
[0039]小說書號:來自于二級導(dǎo)航塊或小說介紹信息塊,一般有“書號”等相關(guān)字眼。
[0040]小說封面圖片:主要利用利用其位置信息進(jìn)行提取,小說封面圖片通常位于頁面上半部分;小說封面圖片高度大于寬度,且寬高在一定范圍之內(nèi);對于小說封面圖片的屬性,該圖片的描述文字一般含有小說名及“封面”/ “圖片”這樣的字眼。
[0041]小說出版社,來自于小說介紹信息塊,一般有“出版社”等相關(guān)字眼。
[0042]小說目錄URL,一般有“點擊閱讀”、“章節(jié)列表”等鏈接文字字眼。
[0043]從小說介紹頁中提取出小說介紹性字段后,即可簡化小說介紹頁的描述,同時還可以根據(jù)提取的小說介紹性字段重新排版小說介紹頁并顯示。
[0044]如圖3所示,圖3是利用本實施例方案對圖2所示的小說介紹頁進(jìn)行介紹性字段提取,以從中獲得的部分字段重新排版出來的效果示意圖。
[0045]本實施例通過上述方案,將復(fù)雜的小說介紹頁進(jìn)行了結(jié)構(gòu)化,提取了核心的介紹字段,為小說描述及用戶瀏覽提供了便利,尤其可以實現(xiàn)網(wǎng)絡(luò)小說在移動終端上的有效瀏覽,避免了現(xiàn)有技術(shù)中小說介紹頁無法直接展示于手機(jī)側(cè)的弊端,并且極大降低人工維護(hù)成本。
[0046]如圖4所示,本發(fā)明第一實施例提出一種網(wǎng)絡(luò)小說介紹頁的提取裝置,包括:識別模塊201以及提取模塊202,其中:
[0047]識別模塊201,用于對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊;
[0048]提取模塊202,用于基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。
[0049]為了實現(xiàn)對網(wǎng)絡(luò)小說介紹頁的智能提取,首先通過識別模塊201對小說介紹頁進(jìn)行網(wǎng)頁分塊,網(wǎng)頁分塊技術(shù)在現(xiàn)有技術(shù)中已有成熟方案,在此不再贅述。
[0050]通過網(wǎng)頁分塊技術(shù)識別出小說介紹頁中的二級導(dǎo)航塊以及小說介紹信息塊,以便識別模塊201根據(jù)識別出的小說介紹頁中的二級導(dǎo)航塊以及小說介紹信息塊提取小說介紹頁中的核心介紹性字段。
[0051]如圖2所示,圖2是本實施例中一種網(wǎng)絡(luò)小說介紹頁分塊后的效果示意圖。
[0052]圖2中每一個線條框表示一個獨立的塊,針對每個獨立塊,需要識別其中的二級導(dǎo)航塊和小說介紹信息塊。其中:
[0053]二級導(dǎo)航塊,單獨成行,且含有諸如”〉”、”> ”、〃 一 〃、”您的位置”等導(dǎo)航性符號。圖2中框A即為二級導(dǎo)航塊。
[0054]小說介紹信息塊,包含一些小說的介紹性信息,比如類別、字?jǐn)?shù)、更新時間等。識別此小說介紹信息塊主要利用其中的兩種特征:一種是小說介紹信息塊的面積和位置特征,介紹信息塊屬于小說介紹頁的核心內(nèi)容塊,因此一般具有較大面積,且位于頁面的焦點區(qū)域;另一種是小說介紹信息塊中的介紹性關(guān)鍵詞。圖2中框B即為小說介紹信息塊。
[0055]提取模塊202根據(jù)獲取到的小說介紹頁中二級導(dǎo)航塊以及小說介紹信息塊的面積、位置特征以及介紹性關(guān)鍵詞,從所述小說介紹頁中提取小說介紹性字段。
[0056]其中,提取模塊202提取的小說介紹性字段主要包括:小說名稱、小說作者、小說類別、更新時間、小說字?jǐn)?shù)、小說書號、小說封面圖片、小說出版社以及小說目錄URL等,這些小說介紹性字段基本覆蓋了所有小說網(wǎng)頁的常用字段。
[0057]下面分別描述各字段及識別方法:
[0058]小說名稱:字體最大,一般出現(xiàn)在二級導(dǎo)航塊及頁面標(biāo)題里。
[0059]小說作者:一般出現(xiàn)在小說名稱后的有限范圍內(nèi),且有“作者:XXX”或“文/XXX”等模式。
[0060]小說類別:事先收集一個小說類別表,包含諸如武俠、言情、玄幻等20多種類別,然后在二級導(dǎo)航塊及小說介紹信息塊中查找。
[0061]更新時間:來自于小說介紹信息塊,一般有“更新時間”、“最后更新”等相關(guān)字眼。
[0062]小說字?jǐn)?shù):來自于小說介紹信息塊,一般有“字?jǐn)?shù)”、“小說長度”等相關(guān)字眼。
[0063]小說書號:來自于二級導(dǎo)航塊或小說介紹信息塊,一般有“書號”等相關(guān)字眼。
[0064]小說封面圖片:主要利用利用其位置信息進(jìn)行提取,小說封面圖片通常位于頁面上半部分;小說封面圖片高度大于寬度,且寬高在一定范圍之內(nèi);對于小說封面圖片的屬性,該圖片的描述文字一般含有小說名及“封面”/ “圖片”這樣的字眼。
[0065]小說出版社,來自于小說介紹信息塊,一般有“出版社”等相關(guān)字眼。
[0066]小說目錄URL,一般有“點擊閱讀”、“章節(jié)列表”等鏈接文字字眼。
[0067]從小說介紹頁中提取出小說介紹性字段后,即可簡化小說介紹頁的描述,同時還可以根據(jù)提取的小說介紹性字段重新排版小說介紹頁并顯示,實現(xiàn)了網(wǎng)絡(luò)小說在移動終端上的有效瀏覽,避免了現(xiàn)有技術(shù)中小說介紹頁無法直接展示于手機(jī)側(cè)的弊端,并且極大降低了人工維護(hù)成本。
[0068]如圖5所示,本發(fā)明第二實施例提出一種網(wǎng)絡(luò)小說介紹頁的提取裝置,在上述實施例的基礎(chǔ)上,還包括:
[0069]排版顯示模塊203,用于根據(jù)提取的所述小說介紹性字段重新排版所述小說介紹
頁并顯示。
[0070]本實施例與上述實施例的區(qū)別在于,本實施例還可以根據(jù)提取的小說介紹性字段重新排版小說介紹頁并顯示。
[0071]如圖3所示,圖3是利用本實施例方案對圖2所示的小說介紹頁進(jìn)行介紹性字段提取,并以從中獲得的部分字段重新排版出來的效果示意圖。
[0072]本實施例通過上述方案,將復(fù)雜的小說介紹頁進(jìn)行了結(jié)構(gòu)化,提取了核心的介紹字段,為小說描述及用戶瀏覽提供了便利,尤其可以實現(xiàn)網(wǎng)絡(luò)小說在移動終端上的有效瀏覽,避免了現(xiàn)有技術(shù)中小說介紹頁無法直接展示于手機(jī)側(cè)的弊端,并且極大降低人工維護(hù)成本。
[0073]需要說明的是,本發(fā)明技術(shù)方案不限于網(wǎng)絡(luò)小說介紹頁的提取,對于類似于網(wǎng)絡(luò)小說的其他網(wǎng)絡(luò)文本也適用本發(fā)明技術(shù)方案。
[0074]以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或流程變換,或直接或間接運用在其他相關(guān)的【技術(shù)領(lǐng)域】,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)小說介紹頁的提取方法,其特征在于,包括: 對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊; 基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 根據(jù)提取的所述小說介紹性字段重新排版所述小說介紹頁并顯示。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述二級導(dǎo)航塊至少包括導(dǎo)航性符號信肩、O
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段的步驟包括: 基于識別出的所述二級導(dǎo)航塊以及所述小說介紹信息塊的面積、位置特征以及介紹性關(guān)鍵詞,從所述小說介紹頁中提取小說介紹性字段。
5.根據(jù)權(quán)利要求1-4中任一項所述的方法,其特征在于,所述小說介紹性字段至少包括:小說名稱、小說作者、小說類別、小說封面圖片、小說目錄URL。
6.一種網(wǎng)絡(luò)小說介紹頁的提取裝置,其特征在于,包括: 識別模塊,用于對小說介紹頁進(jìn)行網(wǎng)頁分塊,根據(jù)網(wǎng)頁分塊結(jié)果識別出二級導(dǎo)航塊以及小說介紹信息塊; 提取模塊,用于基于識別出的所述二級導(dǎo)航塊以及小說介紹信息塊從所述小說介紹頁中提取小說介紹性字段。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 排版顯示模塊,用于根據(jù)提取的所述小說介紹性字段重新排版所述小說介紹頁并顯/Jn ο
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述二級導(dǎo)航塊至少包括導(dǎo)航性符號信肩、O
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述提取模塊還用于基于識別出的所述二級導(dǎo)航塊以及所述小說介紹信息塊的面積、位置特征以及介紹性關(guān)鍵詞,從所述小說介紹頁中提取小說介紹性字段。
10.根據(jù)權(quán)利要求6-9中任一項所述的裝置,其特征在于,所述小說介紹性字段至少包括:小說名稱、小說作者、小說類別、小說封面圖片、小說目錄URL。
【文檔編號】G06F17/30GK103729370SQ201210389911
【公開日】2014年4月16日 申請日期:2012年10月15日 優(yōu)先權(quán)日:2012年10月15日
【發(fā)明者】蔡兵, 朱章厚, 徐羽 申請人:騰訊科技(深圳)有限公司