亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種小說目錄項(xiàng)的識(shí)別方法、裝置和系統(tǒng)的制作方法

文檔序號(hào):6499419閱讀:224來源:國知局
一種小說目錄項(xiàng)的識(shí)別方法、裝置和系統(tǒng)的制作方法
【專利摘要】本發(fā)明實(shí)施例公開了一種小說目錄項(xiàng)的識(shí)別方法、裝置和系統(tǒng)。本發(fā)明實(shí)施例通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項(xiàng)特征,來從萬維網(wǎng)網(wǎng)頁中初步識(shí)別出小說目錄頁,而對(duì)于不存在小說目錄項(xiàng)特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一DOM樹,并利用第一DOM樹獲取疑似目錄塊的特征,然后根據(jù)疑似目錄塊的特征來確定是否是小說目錄頁,從而實(shí)現(xiàn)了對(duì)小說目錄項(xiàng)的識(shí)別,從而便于后續(xù)在移動(dòng)終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
【專利說明】一種小說目錄項(xiàng)的識(shí)別方法、裝置和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信【技術(shù)領(lǐng)域】,具體涉及一種小說目錄項(xiàng)的識(shí)別方法、裝置和系統(tǒng)。
【背景技術(shù)】
[0002]隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)以及移動(dòng)終端的發(fā)展,人們?cè)絹碓絻A向于通過移動(dòng)終端來閱讀互聯(lián)網(wǎng)上的信息,其中,包括閱讀互聯(lián)網(wǎng)上各種各樣的小說作品,但是,目前互聯(lián)網(wǎng)上的小說作品有很大一部分都是以萬維網(wǎng)(WWW, world wide web)網(wǎng)頁的形式存在,所謂萬維網(wǎng)網(wǎng)頁,一般指的是在基于個(gè)人計(jì)算機(jī)(PC, Personal Computer)的網(wǎng)頁,其區(qū)別于無線應(yīng)用協(xié)議(WAP, Wireless Application Protocol)網(wǎng)頁,WAP網(wǎng)頁,一般指的是基于移動(dòng)終端的網(wǎng)頁。
[0003]在對(duì)現(xiàn)有技術(shù)的研究和實(shí)踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),由于萬維網(wǎng)網(wǎng)頁上的小說的結(jié)構(gòu)和內(nèi)容都比較復(fù)雜,在移動(dòng)終端上顯示存在局限性,所以往往顯示效果不佳,甚至?xí)绊懹脩魹g覽質(zhì)量。

【發(fā)明內(nèi)容】

[0004]本發(fā)明實(shí)施例提供一種小說目錄項(xiàng)的識(shí)別方法、裝置和系統(tǒng),可以對(duì)小說目錄項(xiàng)進(jìn)行識(shí)別,從而便于后續(xù)在移動(dòng)終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0005]一種小說目錄項(xiàng)的識(shí)別方法,包括:
[0006]確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征;
[0007]若是,則確定所述萬維網(wǎng)網(wǎng)頁為小說目錄頁;
[0008]若否,則對(duì)所述萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁,根據(jù)分塊后網(wǎng)頁建立第一文檔對(duì)象模型(DOM, Document Object Model)樹,根據(jù)所述第一 DOM樹獲取疑似目錄塊的特征,根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁。
[0009]可選的,其中,所述確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征可以包括:
[0010]根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征;例如,具體可以如下:
[0011]根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定所述萬維網(wǎng)網(wǎng)頁是否為首頁或二級(jí)首頁;
[0012]若是,則確定不存在小說目錄項(xiàng)特征;
[0013]若否,則根據(jù)所述萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用所述第二 DOM樹獲取所述萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定所述標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定所述全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時(shí),確定存在小說目錄項(xiàng)特征,否則,確定不存在小說目錄項(xiàng)特征。
[0014]一種小說目錄項(xiàng)的識(shí)別裝置,包括:[0015]第一確定單元,用于確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征,若是,則確定所述萬維網(wǎng)網(wǎng)頁為小說目錄頁;
[0016]分塊單元,用于在第一確定單元確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項(xiàng)特征時(shí),對(duì)所述萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁;
[0017]模型建立單元,用于根據(jù)分塊后網(wǎng)頁建立第一 DOM樹;
[0018]獲取單元,用于根據(jù)所述第一 DOM樹獲取疑似目錄塊的特征;
[0019]第二確定單元,用于根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁。
[0020]可選的,所述第一確定單元,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征。例如,具體可以如下:
[0021]所述第一確定單元,具體用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定所述萬維網(wǎng)網(wǎng)頁是否為首頁或二級(jí)首頁;若是,則確定不存在小說目錄項(xiàng)特征;若否,則根據(jù)所述萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用所述第二 DOM樹獲取所述萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定所述標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定所述全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時(shí),確定存在小說目錄項(xiàng)特征,否則,確定不存在小說目錄項(xiàng)特征。
[0022]一種通信系統(tǒng),包括本發(fā)明實(shí)施例提供的任一中小說目錄項(xiàng)的識(shí)別裝置。
[0023]本發(fā)明實(shí)施例通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項(xiàng)特征,來從萬維網(wǎng)網(wǎng)頁中初步識(shí)別出小說目錄頁,而對(duì)于不存在小說目錄項(xiàng)特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一 DOM樹,并利用第一 DOM樹獲取疑似目錄塊的特征,然后根據(jù)疑似目錄塊的特征來確定是否是小說目錄頁,從而實(shí)現(xiàn)了對(duì)小說目錄項(xiàng)的識(shí)別,從而便于后續(xù)在移動(dòng)終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
【專利附圖】

【附圖說明】
[0024]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0025]圖1是本發(fā)明實(shí)施例提供的小說目錄項(xiàng)的識(shí)別方法的流程示意圖;
[0026]圖2是本發(fā)明實(shí)施例提供的小說目錄項(xiàng)的識(shí)別方法的另一流程示意圖;
[0027]圖3是本發(fā)明實(shí)施例提供的小說目錄項(xiàng)的識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0028]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0029]本發(fā)明實(shí)施例提供一種小說目錄項(xiàng)的識(shí)別方法、裝置和系統(tǒng)。以下分別進(jìn)行詳細(xì)說明。
[0030]實(shí)施例一、
[0031]本發(fā)明實(shí)施例將從小說目錄項(xiàng)的識(shí)別裝置的角度進(jìn)行描述,該小說目錄項(xiàng)的識(shí)別裝置具體可以集成在移動(dòng)終端中,比如手機(jī)或平板電腦等。
[0032]一種小說目錄項(xiàng)的識(shí)別方法,包括:確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征,若存在小說目錄項(xiàng)特征,則確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁;若不存在小說目錄項(xiàng)特征,則對(duì)該萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁,根據(jù)分塊后網(wǎng)頁建立第一 DOM樹,根據(jù)該第一 DOM樹獲取疑似目錄塊的特征,根據(jù)該疑似目錄塊的特征確定存在小說目錄頁時(shí),確定該分塊后網(wǎng)頁為小說目錄頁。
[0033]如圖1所示,具體流程可以如下:
[0034]101、確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征,若是,則執(zhí)行步驟102,若否,則執(zhí)行步驟103 ;
[0035]例如,具體可以根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征;比如,具體可以包括:
[0036]根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定該萬維網(wǎng)網(wǎng)頁是否為首頁或二級(jí)首頁;若為首頁或二級(jí)首頁,則確定不存在小說目錄項(xiàng)特征;若即不是首頁也不是二級(jí)首頁,則根據(jù)該萬維網(wǎng)網(wǎng)頁建立DOM樹,為了描述方便,將該DOM樹稱為第二 DOM樹,利用該第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定該標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定該全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時(shí),確定存在小說目錄項(xiàng)特征,否則,確定不存在小說目錄項(xiàng)特征。
[0037]其中,本發(fā)明實(shí)施例的相似文本鏈接,指的是指向同一正文頁的不同的文本鏈接,即具有相同正文頁鏈接的不同的文本鏈接,比如同一“第”下的不同“章”的鏈接,或者,同一 “章”下的不同“節(jié)”的文本鏈接,或者,同一 “節(jié)”下的不同“回”的文本鏈接,等等。
[0038]其中,萬維網(wǎng)網(wǎng)頁的鏈接具體可以為統(tǒng)一資源定位符(URL, Universal ResourceLocator),則具體可以檢測(cè)萬維網(wǎng)網(wǎng)頁的URL的路徑長度,以及檢測(cè)是否含有類似“index”+ “.html/jsp/asp/php/shtml,,或“default,,+ “.html/jsp/asp/php/shtml,,等關(guān)鍵詞,從而判斷該萬維網(wǎng)網(wǎng)頁是否屬于首頁或者二級(jí)首頁。
[0039]此外,小說標(biāo)題特性關(guān)鍵詞可以包括目錄和/或標(biāo)題等詞語;小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷等詞語,而第一閾值和第二閾值則可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
[0040]102、確定萬維網(wǎng)網(wǎng)頁存在小說目錄項(xiàng)特征時(shí),確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁。
[0041]103、確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項(xiàng)特征時(shí),對(duì)萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁。
[0042]104、根據(jù)分塊后網(wǎng)頁建立DOM樹,為了描述方便,在本發(fā)明實(shí)施例中,將該DOM樹稱為第一 DOM樹。
[0043]105、根據(jù)該第一 DOM樹獲取疑似目錄塊的特征,根據(jù)該疑似目錄塊的特征確定存在小說目錄頁時(shí),確定該分塊后網(wǎng)頁為小說目錄頁。[0044]其中,根據(jù)該第一 DOM樹獲取疑似目錄塊的特征,具體可以包括:
[0045]根據(jù)該第一 DOM樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接;
[0046]則此時(shí),步驟“根據(jù)該疑似目錄塊的特征確定存在小說目錄頁時(shí),確定該分塊后網(wǎng)頁為小說目錄頁”具體可以為:根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁,具體可以如下:
[0047]根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時(shí),確定存在小說目錄頁;
[0048](一)第一條件包括:
[0049]疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值;
[0050](二)第二條件包括:
[0051]在根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:
[0052](I)代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第五閾值;
[0053](2)代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;
[0054](3)分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值。
[0055]其中,可以采用如下方法來得到代表目錄塊,如下:
[0056]統(tǒng)計(jì)疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計(jì)疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量;確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
[0057]其中,步驟“根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊”具體可以包括:
[0058]確定疑似目錄塊位置滿足預(yù)置條件(可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置),且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,以及確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時(shí),確定該分塊后網(wǎng)頁存在目錄塊。
[0059]其中,第三閾值、第四閾值、第五閾值、第六閾值、第七閾值、第八閾值和第九閾值可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置。
[0060]需說明的是,在本發(fā)明實(shí)施例中,將符合預(yù)置條件的分塊后網(wǎng)頁中的塊稱為疑似目錄塊,該預(yù)置條件可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置。
[0061]此外,若根據(jù)該疑似目錄塊的特征確定不存在小說目錄頁,則可以確定該分塊后網(wǎng)頁不是小說目錄頁。
[0062]由上可知,本實(shí)施例通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項(xiàng)特征,來從萬維網(wǎng)網(wǎng)頁中初步識(shí)別出小說目錄頁,而對(duì)于不存在小說目錄項(xiàng)特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一 DOM樹,并利用第一 DOM樹獲取疑似目錄塊的特征,然后根據(jù)疑似目錄塊的特征來確定是否是小說目錄頁,從而實(shí)現(xiàn)了對(duì)小說目錄項(xiàng)的識(shí)別,從而便于后續(xù)在移動(dòng)終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0063]實(shí)施例二、
[0064]根據(jù)實(shí)施例一所描述的方法,以下將舉例作進(jìn)一步詳細(xì)說明。
[0065]在本發(fā)明實(shí)施例中,將以該小說目錄項(xiàng)的識(shí)別裝置具體集成在移動(dòng)終端,且萬維網(wǎng)網(wǎng)頁的鏈接具體為URL為例進(jìn)行說明。
[0066]—種小說目錄項(xiàng)的識(shí)別方法,如圖2所示,具體流程可以如下:
[0067]201、移動(dòng)終端獲取萬維網(wǎng)網(wǎng)頁。
[0068]202、移動(dòng)終端根據(jù)萬維網(wǎng)網(wǎng)頁的URL確定該萬維網(wǎng)網(wǎng)頁是否為首頁或二級(jí)首頁,若為首頁或二級(jí)首頁,則可以直接確定不存在小說目錄項(xiàng)特征,于是執(zhí)行步驟204 ;若即不是首頁也不是二級(jí)首頁,則執(zhí)行步驟203。
[0069]例如,具體可以檢測(cè)萬維網(wǎng)網(wǎng)頁的URL的路徑長度,以及檢測(cè)是否含有類似“index”+ “.html/jsp/asp/php/shtml,,或“default,,+ “.html/jsp/asp/php/shtml,,等關(guān)鍵詞,從而判斷該萬維網(wǎng)網(wǎng)頁是否屬于首頁或者二級(jí)首頁。
[0070]203、根據(jù)該萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用該第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,并根據(jù)該萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征,具體如下:
[0071]確定該標(biāo)題中是否存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,以及確定該全文具有正文特征的文本鏈接中是否存在預(yù)置的小說正文特性關(guān)鍵詞,并統(tǒng)計(jì)這些存在小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量,此外,還可以確定全文中相似文本鏈接的占比,即全文中相似文本鏈接占全文所有文本鏈接的比例。
[0072]若確定該標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且該全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時(shí),則可以確定存在小說目錄項(xiàng)特征,于是確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁,流程結(jié)束;
[0073]否則,若確定該標(biāo)題不存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,或確定該全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞文本鏈接的數(shù)量小于預(yù)置的第一閾值,或確定全文中相似文本鏈接占全文所有文本鏈接的比例小于預(yù)置的第二閾值,則確定不存在小說目錄項(xiàng)特征,于是執(zhí)行步驟204。
[0074]其中,小說標(biāo)題特性關(guān)鍵詞可以包括目錄和/或標(biāo)題等詞語;小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷等詞語,而第一閾值和第二閾值則可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,例如,具體可以如下:
[0075]根據(jù)該萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用該第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁〈title〉標(biāo)簽下的標(biāo)題,確定該標(biāo)題中是否存在“目錄”和/或“標(biāo)題”等關(guān)鍵詞;
[0076]遍歷第二 DOM樹,確定全文具有正文特征的文本鏈接中是否含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)關(guān)鍵詞,若含有,則統(tǒng)計(jì)這些含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)關(guān)鍵詞的文本鏈接的數(shù)量,此外,還可以計(jì)算全文中相似文本鏈接占全文所有文本鏈接的比例;
[0077]若標(biāo)題中存在“目錄”和/或“標(biāo)題”等關(guān)鍵詞,且這些含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)關(guān)鍵詞的文本鏈接的數(shù)量大于等于第一閾值,且這些相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值,則可以確定該萬維網(wǎng)網(wǎng)頁存在小說目錄項(xiàng)特征,于是確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁,流程結(jié)束。
[0078]若標(biāo)題中不存在“目錄”和/或“標(biāo)題”等關(guān)鍵詞,或這些含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)關(guān)鍵詞的文本鏈接的數(shù)量小于第一閾值,或這些相似文本鏈接占全文所有文本鏈接的比例小于預(yù)置的第二閾值,則可以確定該萬維網(wǎng)網(wǎng)頁不存在小說目錄項(xiàng)特征,于是可以執(zhí)行步驟204。
[0079]204、移動(dòng)終端確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項(xiàng)特征時(shí),對(duì)萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁。
[0080]205、移動(dòng)終端根據(jù)分塊后網(wǎng)頁建立第一 DOM樹,并根據(jù)該第一 DOM樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接。
[0081]其中,疑似目錄塊位置可以從塊的位置坐標(biāo)、寬度、高度等來體現(xiàn),例如,若以萬維網(wǎng)網(wǎng)頁的頁面從左到右代表X軸,從上到下代表I軸的坐標(biāo)系來看,則可以用X代表塊的X坐標(biāo),I代表塊的I坐標(biāo),width代表分塊的寬度,height代表分塊的高度,等等。
[0082]206、移動(dòng)終端根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定是否存在小說目錄頁,若是,則確定該分塊后網(wǎng)頁為小說目錄頁,若否,則可以確定該分塊后網(wǎng)頁不是小說目錄頁(即非小說目錄頁)。
[0083]例如,移動(dòng)終端具體可以根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定是否符合第一條件和第二條件,若可以同時(shí)符合第一條件和第二條件,則確定該分塊后網(wǎng)頁存在小說目錄頁,否則,若不能同時(shí)符合第一條件和第二條件,則確定該分塊后網(wǎng)頁不存在小說目錄頁。
[0084]其中,第一條件和第二條件具體可以如下:
[0085](一)第一條件包括:
[0086]疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值。
[0087]例如,小說正文特性關(guān)鍵詞具體可以為“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,而第三閾值具體可以設(shè)置為“15”,第四閾值具體可以設(shè)置為“0.8”,則具體可以如下:
[0088]疑似目錄塊中具有正文特征的鏈接文本中含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,且這類鏈接文本數(shù)量大于等于15個(gè),且該疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于0.8。
[0089](二)第二條件包括:
[0090]在根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:
[0091](I)代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的數(shù)量大于等于預(yù)置的第五閾值;[0092]例如,小說正文特性關(guān)鍵詞具體可以為“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,而第五閾值可以設(shè)置為“10”,則具體可以如下:
[0093]代表目錄塊中具有正文特征的鏈接文本中含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,且這類鏈接文本數(shù)量大于等于10個(gè)。
[0094](2)代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;
[0095]例如,第六閾值具體可以設(shè)置為“20”,第七閾值具體可以設(shè)置為“0.9”,則具體可以如下:
[0096]代表目錄塊中的相似文本鏈接的數(shù)量大于等于20個(gè),且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于0.9。
[0097](3)分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值。
[0098]例如,第八閾值具體可以設(shè)置為“100”,第九閾值具體可以設(shè)置為“0.8”,則具體可以如下:
[0099]分塊后網(wǎng)頁中的所有疑似目錄塊的相似文本鏈接的數(shù)量大于等于100個(gè),且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于0.8。
[0100]其中,可以采用如下方法來得到代表目錄塊,如下:
[0101]統(tǒng)計(jì)疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計(jì)疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量,確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
[0102]其中,步驟“根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊”具體可以包括:
[0103]確定疑似目錄塊位置滿足預(yù)置條件,比如,滿足“y>=100 ;width>300 ;height>100”,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,且確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時(shí),可以確定該分塊后網(wǎng)頁存在目錄塊。
[0104]需說明的是,以上各個(gè)閾值的值僅僅為范例,應(yīng)當(dāng)理解的是,以上各個(gè)閾值,即第一閾值、第二閾值、第三閾值、第四閾值、第五閾值、第六閾值、第七閾值、第八閾值和第九閾值的具體取值可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置。
[0105]由上可知,本實(shí)施例通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項(xiàng)特征,來從萬維網(wǎng)網(wǎng)頁中初步識(shí)別出小說目錄頁,而對(duì)于不存在小說目錄項(xiàng)特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一 DOM樹,并利用第一 DOM樹獲取疑似目錄塊的特征,比如獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接等,然后根據(jù)這些疑似目錄塊的特征來確定是否是小說目錄頁,從而實(shí)現(xiàn)了對(duì)小說目錄項(xiàng)的識(shí)別,在進(jìn)行小說目錄頁的相關(guān)抽取時(shí)將能更有針對(duì)性,取得更好的抽取效果,從而便于后續(xù)在移動(dòng)終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0106]實(shí)施例三、[0107]為了更好地實(shí)施以上方法,本發(fā)明實(shí)施例還提供一種小說目錄項(xiàng)的識(shí)別裝置,如圖3所示,該小說目錄項(xiàng)的識(shí)別裝置包括第一確定單元301、分塊單元302、模型建立單元303、獲取單元304和第二確定單元305 ;
[0108]第一確定單元301,用于確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征,若是,則確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁;
[0109]分塊單元302,用于在第一確定單元301確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項(xiàng)特征時(shí),對(duì)該萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁;
[0110]模型建立單元303,用于根據(jù)分塊單元302得到的分塊后網(wǎng)頁建立第一 DOM樹;
[0111]獲取單元304,用于根據(jù)模型建立單元303建立的第一 DOM樹獲取疑似目錄塊的特征;
[0112]第二確定單元305,用于根據(jù)疑似目錄塊的特征確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁。
[0113]其中,第一確定單元301,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征。例如,具體可以如下:
[0114]第一確定單元301,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定該萬維網(wǎng)網(wǎng)頁是否為首頁或二級(jí)首頁;若是,則確定不存在小說目錄項(xiàng)特征;若否,則根據(jù)該萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定該標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定該“全文具有正文特征的文本鏈接”中存在“預(yù)置的小說正文特性關(guān)鍵詞”的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時(shí),確定存在小說目錄項(xiàng)特征,否則,確定不存在小說目錄項(xiàng)特征。
[0115]其中,本發(fā)明實(shí)施例的相似文本鏈接,指的是指向同一正文頁的不同的文本鏈接,即具有相同正文頁鏈接的不同的文本鏈接,比如同一“第”下的不同“章”的鏈接,或者,同一 “章”下的不同“節(jié)”的文本鏈接,或者,同一 “節(jié)”下的不同“回”的文本鏈接,等等。
[0116]其中,萬維網(wǎng)網(wǎng)頁的鏈接具體可以為URL,則具體可以檢測(cè)萬維網(wǎng)網(wǎng)頁的URL的路徑長度,以及檢測(cè)是否含有類似“index”+ “.html/jsp/asp/php/shtml”或“default”+ “.html/j sp/asp/php/shtml ”等關(guān)鍵詞,從而判斷該萬維網(wǎng)網(wǎng)頁是否屬于首頁或者二級(jí)首頁。
[0117]此外,小說標(biāo)題特性關(guān)鍵詞可以包括目錄和/或標(biāo)題等詞語;小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷等詞語,而第一閾值和第二閾值則可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
[0118]其中,疑似目錄塊的特征可以包括疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接等,即:
[0119]獲取單元304,具體可以用于根據(jù)第一 DOM樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接;
[0120]則此時(shí),第二確定單元305,具體可以用于根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時(shí),確定該分塊后網(wǎng)頁為小說目錄頁。例如,具體可以如下:
[0121]第二確定單元305,具體可以用于根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時(shí),確定存在小說目錄頁;[0122]其中,第一條件和第二條件具體可以如下:
[0123](一)第一條件包括:
[0124]疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值。
[0125]例如,小說正文特性關(guān)鍵詞具體可以為“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,而第三閾值具體可以設(shè)置為“15”,第四閾值具體可以設(shè)置為“0.8”,則具體可以如下:
[0126]疑似目錄塊中具有正文特征的鏈接文本中含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,且這類鏈接文本數(shù)量大于等于15個(gè),且該疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于0.8。
[0127](二)第二條件包括:
[0128]在根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:
[0129](I)代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的數(shù)量大于等于預(yù)置的第五閾值;
[0130]例如,小說正文特性關(guān)鍵詞具體可以為“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,而第五閾值可以設(shè)置為“10”,則具體可以如下:
[0131]代表目錄塊中具有正文特征的鏈接文本中含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,且這類鏈接文本數(shù)量大于等于10個(gè)。
[0132](2)代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;
[0133]例如,第六閾值具體可以設(shè)置為“20”,第七閾值具體可以設(shè)置為“0.9”,則具體可以如下:
[0134]代表目錄塊中的相似文本鏈接的數(shù)量大于等于20個(gè),且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于0.9。
[0135](3)分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值。
[0136]例如,第八閾值具體可以設(shè)置為“100”,第九閾值具體可以設(shè)置為“0.8”,則具體可以如下:
[0137]分塊后網(wǎng)頁中的所有疑似目錄塊的相似文本鏈接的數(shù)量大于等于100個(gè),且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于0.8。
[0138]其中,可以采用如下方法來得到代表目錄塊,如下:
[0139]統(tǒng)計(jì)疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計(jì)疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量,確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。即:[0140]第二確定單元305,具體可以用于統(tǒng)計(jì)疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計(jì)疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量,確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
[0141]此外,具體可以采用如下方法來確定分塊后網(wǎng)頁是否存在目錄塊,如下:
[0142]確定疑似目錄塊位置滿足預(yù)置條件,比如,滿足“y>=100 ;width>300 ;height>100”,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,且確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時(shí),可以確定該分塊后網(wǎng)頁存在目錄塊,否則,確定該分塊后網(wǎng)頁存在目錄塊。即:
[0143]第二確定單元305,具體可以用于確定疑似目錄塊位置滿足預(yù)置條件,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,以及確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時(shí),確定分塊后網(wǎng)頁存在目錄塊。
[0144]需說明的是,以上各個(gè)閾值的值僅僅為范例,應(yīng)當(dāng)理解的是,以上各個(gè)閾值,即第一閾值、第二閾值、第三閾值、第四閾值、第五閾值、第六閾值、第七閾值、第八閾值和第九閾值的具體取值可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置。
[0145]此外,如果移動(dòng)終端根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁不存在小說目錄頁,則第二確定單元305可以確定該分塊后網(wǎng)頁不是小說目錄頁。
[0146]該小說目錄項(xiàng)的識(shí)別裝置具體可以集成在移動(dòng)終端中,比如手機(jī)或平板電腦等。
[0147]具體實(shí)施時(shí),以上各個(gè)單元可以作為獨(dú)立的實(shí)體來實(shí)現(xiàn),也可以進(jìn)行任意組合,作為同一或若干個(gè)實(shí)體來實(shí)現(xiàn),以上各個(gè)單元的具體實(shí)施可參見前面的方法實(shí)施例,在此不再贅述。
[0148]由上可知,本實(shí)施例的小說目錄項(xiàng)的識(shí)別裝置可以通過第一確定單元301確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項(xiàng)特征,來從萬維網(wǎng)網(wǎng)頁中初步識(shí)別出小說目錄頁,而對(duì)于不存在小說目錄項(xiàng)特征的萬維網(wǎng)網(wǎng)頁,則由分塊單元302作進(jìn)一步視覺分塊以及由模型建立單元303建立第一 DOM樹,并由獲取單元304利用第一 DOM樹獲取疑似目錄塊的特征,然后再由第二確定單元305根據(jù)這些疑似目錄塊的特征來確定是否是小說目錄頁,從而實(shí)現(xiàn)了對(duì)小說目錄項(xiàng)的識(shí)別,在進(jìn)行小說目錄頁的相關(guān)抽取時(shí)將能更有針對(duì)性,取得更好的抽取效果,從而便于后續(xù)在移動(dòng)終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0149]實(shí)施例四、
[0150]相應(yīng)的,本發(fā)明實(shí)施例還提供一種通信系統(tǒng),包括本發(fā)明實(shí)施例提供的任一種小說目錄項(xiàng)的識(shí)別裝置。例如,具體可以如下:
[0151]小說目錄項(xiàng)的識(shí)別裝置,用于確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征,若存在小說目錄項(xiàng)特征,則確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁;若不存在小說目錄項(xiàng)特征,則對(duì)該萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁,根據(jù)分塊后網(wǎng)頁建立第一 DOM樹,根據(jù)該第一DOM樹獲取疑似目錄塊的特征,根據(jù)該疑似目錄塊的特征確定存在小說目錄頁時(shí),確定該分塊后網(wǎng)頁為小說目錄頁。
[0152]可選的,其中,小說目錄項(xiàng)的識(shí)別裝置,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征。[0153]例如,小說目錄項(xiàng)的識(shí)別裝置,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定該萬維網(wǎng)網(wǎng)頁是否為首頁或二級(jí)首頁;若為首頁或二級(jí)首頁,則確定不存在小說目錄項(xiàng)特征;若即不是首頁也不是二級(jí)首頁,則根據(jù)該萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用該第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定該標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定該全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時(shí),確定存在小說目錄項(xiàng)特征,否則,確定不存在小說目錄項(xiàng)特征。
[0154]其中,相似文本鏈接,指的是指向同一正文頁的不同的文本鏈接,即具有相同正文頁鏈接的不同的文本鏈接,比如同一“第”下的不同“章”的鏈接,或者,同一“章”下的不同“節(jié)”的文本鏈接,或者,同一 “節(jié)”下的不同“回”的文本鏈接,等等。
[0155]其中,萬維網(wǎng)網(wǎng)頁的鏈接具體可以為URL,則具體可以檢測(cè)萬維網(wǎng)網(wǎng)頁的URL的路徑長度,以及檢測(cè)是否含有類似“index”+ “.html/jsp/asp/php/shtml”或“default”+ “.html/j sp/asp/php/shtml ”等關(guān)鍵詞,從而判斷該萬維網(wǎng)網(wǎng)頁是否屬于首頁或者二級(jí)首頁。
[0156]此外,小說標(biāo)題特性關(guān)鍵詞可以包括目錄和/或標(biāo)題等詞語;小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷等詞語,而第一閾值和第二閾值則可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
[0157]其中,小說目錄項(xiàng)的識(shí)別裝置,具體可以用于根據(jù)該第一 DOM樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接;然后根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時(shí),確定該分塊后網(wǎng)頁為小說目錄頁,比如,具體可以如下:
[0158]根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時(shí),確定存在小說目錄頁;其中,第一條件和第二條件具體可以如下:
[0159](一)第一條件包括:
[0160]疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值;
[0161](二)第二條件包括:
[0162]在根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:
[0163](I)代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第五閾值;
[0164](2)代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;
[0165](3)分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值。
[0166]其中,可以采用如下方法來得到代表目錄塊,如下:[0167]統(tǒng)計(jì)疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計(jì)疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量;確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
[0168]其中,步驟“根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊”具體可以包括:
[0169]確定疑似目錄塊位置滿足預(yù)置條件(可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置),且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,以及確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時(shí),確定該分塊后網(wǎng)頁存在目錄塊。
[0170]其中,第三閾值、第四閾值、第五閾值、第六閾值、第七閾值、第八閾值和第九閾值可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置。
[0171]其中,該小說目錄項(xiàng)的識(shí)別裝置具體可以集成在移動(dòng)終端中,比如手機(jī)或平板電腦等。
[0172]此外,該通信系統(tǒng)還可以包括網(wǎng)絡(luò)側(cè)設(shè)備,用于提供萬維網(wǎng)網(wǎng)頁給該小說目錄項(xiàng)的識(shí)別裝置。
[0173]該網(wǎng)絡(luò)側(cè)設(shè)備具體可以為服務(wù)器等設(shè)備,在此不再贅述。
[0174]由上可知,本實(shí)施例的通信系統(tǒng)中的小說目錄項(xiàng)的識(shí)別裝置可以通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項(xiàng)特征,來從萬維網(wǎng)網(wǎng)頁中初步識(shí)別出小說目錄頁,而對(duì)于不存在小說目錄項(xiàng)特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一 DOM樹,并利用第一 DOM樹獲取疑似目錄塊的特征,然后根據(jù)這些疑似目錄塊的特征來確定是否是小說目錄頁,從而實(shí)現(xiàn)了對(duì)小說目錄項(xiàng)的識(shí)別,在進(jìn)行小說目錄頁的相關(guān)抽取時(shí)將能更有針對(duì)性,取得更好的抽取效果,從而便于后續(xù)在移動(dòng)終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0175]本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:只讀存儲(chǔ)器(ROM, Read Only Memory)、隨機(jī)存取記憶體(RAM, RandomAccess Memory)、磁盤或光盤等。
[0176]以上對(duì)本發(fā)明實(shí)施例所提供的一種小說目錄項(xiàng)的識(shí)別方法、裝置和系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種小說目錄項(xiàng)的識(shí)別方法,其特征在于,包括: 確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征; 若是,則確定所述萬維網(wǎng)網(wǎng)頁為小說目錄頁; 若否,則對(duì)所述萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁,根據(jù)分塊后網(wǎng)頁建立第一文檔對(duì)象模型樹,根據(jù)所述第一文檔對(duì)象模型樹獲取疑似目錄塊的特征,根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征,包括: 根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征,包括: 根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定所述萬維網(wǎng)網(wǎng)頁是否為首頁或二級(jí)首頁; 若是,則確定不存在小說目錄項(xiàng)特征; 若否,則根據(jù)所述萬維網(wǎng)網(wǎng)頁建立第二文檔對(duì)象模型樹,利用所述第二文檔對(duì)象模型樹獲取所述萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定所述標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定所述全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時(shí),確定存在小說目錄項(xiàng)特征,否則,確定不存在小說目錄項(xiàng)特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述第一文檔對(duì)象模型樹獲取疑似目錄塊的特征,包括: 根據(jù)所述第一文檔對(duì)象模型樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接; 則根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁具體為:根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁,包括: 根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時(shí),確定存在小說目錄頁; 所述第一條件包括:疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值; 所述第二條件包括:在根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定所述分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第五閾值;或,代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;或,所述分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且所述分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值; 所述代表目錄塊為:統(tǒng)計(jì)疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計(jì)疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量;確定所述鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定所述分塊后網(wǎng)頁存在目錄塊,包括: 確定疑似目錄塊位置滿足預(yù)置條件,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,且確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時(shí),確定所述分塊后網(wǎng)頁存在目錄塊。
7.根據(jù)權(quán)利要求3至6任一項(xiàng)所述的方法,其特征在于, 所述小說標(biāo)題特性關(guān)鍵詞包括:目錄和/或標(biāo)題; 所述小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷。
8.—種小說目錄項(xiàng)的識(shí)別裝置,其特征在于,包括: 第一確定單元,用于確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項(xiàng)特征,若是,則確定所述萬維網(wǎng)網(wǎng)頁為小說目錄頁; 分塊單元,用于在第一確定單元確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項(xiàng)特征時(shí),對(duì)所述萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁; 模型建立單元,用于根據(jù)分塊后網(wǎng)頁建立第一文檔對(duì)象模型樹; 獲取單元,用于根據(jù)所述第一文檔對(duì)象模型樹獲取疑似目錄塊的特征; 第二確定單元,用于根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁。
9.根據(jù)權(quán)利要求8所述的小說目錄項(xiàng)的識(shí)別裝置,其特征在于, 所述第一確定單元,具體用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項(xiàng)特征。
10.根據(jù)權(quán)利要求9所述的小說目錄項(xiàng)的識(shí)別裝置,其特征在于, 所述第一確定單元,具體用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定所述萬維網(wǎng)網(wǎng)頁是否為首頁或二級(jí)首頁;若是,則確定不存在小說目錄項(xiàng)特征;若否,則根據(jù)所述萬維網(wǎng)網(wǎng)頁建立第二文檔對(duì)象模型樹,利用所述第二文檔對(duì)象模型樹獲取所述萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定所述標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定所述全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時(shí),確定存在小說目錄項(xiàng)特征,否則,確定不存在小說目錄項(xiàng)特征。
11.根據(jù)權(quán)利要求10所述的小說目錄項(xiàng)的識(shí)別裝置,其特征在于,獲取單元,具體用于根據(jù)所述第一文檔對(duì)象模型樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接; 則第二確定單元,具體用于根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時(shí),確定所述分塊后網(wǎng)頁為小說目錄頁。
12.根據(jù)權(quán)利要求11所述的小說目錄項(xiàng)的識(shí)別裝置,其特征在于, 第二確定單元,具體用于根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時(shí),確定存在小說目錄頁; 所述第一條件包括:疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值; 所述第二條件包括:在根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定所述分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第五閾值;或,代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;或,所述分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且所述分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值; 所述代表目錄塊為:統(tǒng)計(jì)疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計(jì)疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量;確定所述鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
13.根據(jù)權(quán)利要求12所述的小說目錄項(xiàng)的識(shí)別裝置,其特征在于, 第二確定單元,具體用于確定疑似目錄塊位置滿足預(yù)置條件,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,且確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時(shí),確定所述分塊后網(wǎng)頁存在目錄塊。
14.根據(jù)權(quán)利要求10至13任一項(xiàng)所述的小說目錄項(xiàng)的識(shí)別裝置,其特征在于, 所述小說標(biāo)題特性關(guān)鍵詞包括:目錄和/或標(biāo)題; 所述小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷。
15.一種通信系統(tǒng), 其特征在于,包括權(quán)利要求8至14中所述的任一種小說目錄項(xiàng)的識(shí)別裝置。
【文檔編號(hào)】G06F17/30GK103970755SQ201310031915
【公開日】2014年8月6日 申請(qǐng)日期:2013年1月28日 優(yōu)先權(quán)日:2013年1月28日
【發(fā)明者】黃鈺 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1