網(wǎng)頁(yè)主圖提取方法及裝置制造方法

文檔序號(hào)：6620772閱讀：190來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

網(wǎng)頁(yè)主圖提取方法及裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)主圖提取方法及裝置。該方法包括：獲取網(wǎng)頁(yè)的HTML文本，對(duì)HTML文本進(jìn)行模擬排版展示，并獲取網(wǎng)頁(yè)中每個(gè)HTML元素的視覺(jué)信息；將HTML文本以塊信息為單位進(jìn)行切割；獲取塊信息中的文本信息，并根據(jù)視覺(jué)信息從塊信息中獲取圖片信息；根據(jù)圖片信息獲取符合預(yù)定視覺(jué)要求的圖片，并根據(jù)文本信息和圖片信息，從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片，并將該圖片作為網(wǎng)頁(yè)的主圖。借助于本發(fā)明的技術(shù)方案，能夠使主圖選取達(dá)到非常高的準(zhǔn)確率和效率。
【專利說(shuō)明】網(wǎng)頁(yè)主圖提取方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】，特別是涉及一種網(wǎng)頁(yè)主圖提取方法及裝置。

【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，超文本標(biāo)記語(yǔ)言（Hypertext Markup Language,簡(jiǎn)稱為 HTML)網(wǎng)頁(yè)的表現(xiàn)形式越來(lái)越多樣化，其中的趨勢(shì)之一就是網(wǎng)頁(yè)中圖片的大量出現(xiàn)。和傳統(tǒng) 的文字相比，圖片在吸引人注意力和表意方面具有自己獨(dú)特的優(yōu)勢(shì)。因此目前很多搜索引擎在搜索結(jié)果中除了提供標(biāo)題和摘要之外，還提供了從網(wǎng)頁(yè)中抽取的主圖。
[0003] 如圖1所示，在現(xiàn)有技術(shù)中，搜索引擎的結(jié)果中包含了越來(lái)越多的圖片，這對(duì)于用戶識(shí)別自己所要找到的信息，提高點(diǎn)擊率很有幫助。同時(shí)在互聯(lián)網(wǎng)廣告方面，相比純粹投放文字鏈接的廣告，圖片廣告具有更大的優(yōu)勢(shì)，可以讓用戶一目了然看到產(chǎn)品信息。因此，從網(wǎng)頁(yè)中提取主圖技術(shù)在提高用戶搜索體驗(yàn)，提高點(diǎn)擊率方面顯得非常重要。從而目前急需一種網(wǎng)頁(yè)主圖提取方法。

【發(fā)明內(nèi)容】

[0004] 鑒于上述問(wèn)題，提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的網(wǎng)頁(yè)主圖提取方法及裝置。
[0005] 本發(fā)明提供一種網(wǎng)頁(yè)主圖提取方法，包括：獲取網(wǎng)頁(yè)的HTML文本，對(duì)HTML文本進(jìn) 行模擬排版展示，并獲取網(wǎng)頁(yè)中每個(gè)HTML元素的視覺(jué)信息；將HTML文本以塊信息為單位進(jìn) 行切割；獲取塊信息中的文本信息，并根據(jù)視覺(jué)信息從塊信息中獲取圖片信息；根據(jù)圖片信息獲取符合預(yù)定視覺(jué)要求的圖片，并根據(jù)文本信息和圖片信息，從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片，并將該圖片作為網(wǎng)頁(yè)的主圖。
[0006] 優(yōu)選地，獲取網(wǎng)頁(yè)的HTML文本具體包括：根據(jù)網(wǎng)頁(yè)的統(tǒng)一資源定位符URL獲取網(wǎng) 頁(yè)的HTML文本。
[0007] 優(yōu)選地，視覺(jué)信息包括：網(wǎng)頁(yè)中每個(gè)HTML元素在模擬排版展示中的位置信息和大小信息。
[0008] 優(yōu)選地，文本信息包括：非超鏈接文本長(zhǎng)度、超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接數(shù)組、以及圖片數(shù)組。
[0009] 優(yōu)選地，圖片信息包括：圖片鏈接的URL、圖片的說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0010] 優(yōu)選地，獲取圖片信息具體包括：從塊信息中提取圖片鏈接的URL以及圖片的說(shuō) 明文本；按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度；根據(jù)視覺(jué)信息獲取圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0011] 優(yōu)選地，按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度具體包括以下至少一個(gè)：最高優(yōu)先級(jí)的算法為：通過(guò)圖標(biāo)標(biāo)記中的HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的寬度；第二優(yōu)先級(jí)的算法為：抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬度；第三優(yōu)先級(jí)的算法為：通過(guò)瀏覽器顯示引擎中的文件對(duì)象模型DOM信息獲取圖片的長(zhǎng)度和圖片的寬度。
[0012] 優(yōu)選地，預(yù)定視覺(jué)要求包括：圖片的位置位于預(yù)先確定的區(qū)域內(nèi)，并且圖片的長(zhǎng)寬大小和長(zhǎng)寬比例滿足預(yù)定要求。
[0013] 優(yōu)選地，篩選規(guī)則具體包括以下至少一個(gè)：將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之間的圖片作為主圖；在大小相同的一組圖片中，選擇第一張圖片作為主圖；對(duì)搜索結(jié)果頁(yè) 類型的網(wǎng)頁(yè)，選取第一張圖片作為主圖；將可視區(qū)域內(nèi)最大的一張圖片作為主圖；計(jì)算圖片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性，將相關(guān)性最高的圖片作為主圖；在網(wǎng)頁(yè)為網(wǎng)站首頁(yè)或者專題頁(yè)時(shí)，選取選取網(wǎng)站標(biāo)識(shí)作為主圖。
[0014] 本發(fā)明還提供了一種網(wǎng)頁(yè)主圖提取裝置，包括：網(wǎng)頁(yè)抓取模塊，用于獲取網(wǎng)頁(yè)的 HTML文本，對(duì)HTML文本進(jìn)行模擬排版展示，并獲取網(wǎng)頁(yè)中每個(gè)HTML元素的視覺(jué)信息；HTML 解析模塊，用于將HTML文本以塊信息為單位進(jìn)行切割；信息獲取模塊，用于獲取塊信息中的文本信息，并根據(jù)視覺(jué)信息從塊信息中獲取圖片信息；篩選模塊，用于根據(jù)圖片信息獲取符合預(yù)定視覺(jué)要求的圖片，并根據(jù)文本信息和圖片信息，從符合預(yù)定視覺(jué)要求的圖片中進(jìn) 一步選擇滿足篩選規(guī)則的圖片，并將該圖片作為網(wǎng)頁(yè)的主圖。
[0015] 優(yōu)選地，網(wǎng)頁(yè)抓取模塊具體用于：根據(jù)網(wǎng)頁(yè)的統(tǒng)一資源定位符URL獲取網(wǎng)頁(yè)的 HTML文本。
[0016] 優(yōu)選地，視覺(jué)信息包括：網(wǎng)頁(yè)中每個(gè)HTML元素在模擬排版展示中的位置信息和大小信息。
[0017] 優(yōu)選地，文本信息包括：非超鏈接文本長(zhǎng)度、超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接數(shù)組、以及圖片數(shù)組。
[0018] 優(yōu)選地，圖片信息包括：圖片鏈接的URL、圖片的說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0019] 優(yōu)選地，信息獲取模塊具體用于：從塊信息中提取圖片鏈接的URL以及圖片的說(shuō) 明文本；按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度；根據(jù)視覺(jué)信息獲取圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0020] 優(yōu)選地，最高優(yōu)先級(jí)的算法為：通過(guò)圖標(biāo)標(biāo)記中的HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的寬度；第二優(yōu)先級(jí)的算法為：抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬度；第三優(yōu)先級(jí)的算法為：通過(guò)瀏覽器顯示引擎中的文件對(duì)象模型D0M信息獲取圖片的長(zhǎng) 度和圖片的寬度。
[0021] 優(yōu)選地，預(yù)定視覺(jué)要求包括：圖片的位置位于預(yù)先確定的區(qū)域內(nèi)，并且圖片的長(zhǎng)寬大小和長(zhǎng)寬比例滿足預(yù)定要求。
[0022] 優(yōu)選地，篩選規(guī)則具體包括以下至少一個(gè)：將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之間的圖片作為主圖；在大小相同的一組圖片中，選擇第一張圖片作為主圖；對(duì)搜索結(jié)果頁(yè) 類型的網(wǎng)頁(yè)，選取第一張圖片作為主圖；將可視區(qū)域內(nèi)最大的一張圖片作為主圖；計(jì)算圖片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性，將相關(guān)性最高的圖片作為主圖；在網(wǎng)頁(yè)為網(wǎng)站首頁(yè)或者專題頁(yè)時(shí)，選取選取網(wǎng)站標(biāo)識(shí)作為主圖。
[0023] 本發(fā)明有益效果如下：
[0024] 通過(guò)圖片信息對(duì)網(wǎng)頁(yè)的主圖進(jìn)行候選，并根據(jù)篩選規(guī)則對(duì)候選集中的主圖進(jìn)行精選，能夠使主圖選取達(dá)到非常高的準(zhǔn)確率，此外，本發(fā)明實(shí)施例的技術(shù)方案由于采用視覺(jué)區(qū) 域進(jìn)行定位，使得候選需要計(jì)算的圖片大大減少，極大提高了主圖的抽取速度。
[0025] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉本發(fā)明的【具體實(shí)施方式】。

【專利附圖】

【附圖說(shuō)明】
[0026] 通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述，各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的，而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中，用相同的參考符號(hào)表示相同的部件。在附圖中：
[0027] 圖1是現(xiàn)有技術(shù)中搜素引擎結(jié)果頁(yè)顯示網(wǎng)頁(yè)主圖的示意圖；
[0028] 圖2是本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取方法的流程圖；
[0029] 圖3是本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取方法的處理示意圖；
[0030] 圖4是本發(fā)明實(shí)施例的主圖篩選示例1的示意圖；
[0031] 圖5是本發(fā)明實(shí)施例的主圖篩選示例2的示意圖；
[0032] 圖6是本發(fā)明實(shí)施例的主圖篩選示例3的示意圖；
[0033] 圖7是本發(fā)明實(shí)施例的主圖篩選示例4的示意圖；
[0034] 圖8是本發(fā)明實(shí)施例的主圖篩選示例5的示意圖；
[0035] 圖9是本發(fā)明實(shí)施例的主圖篩選示例6的示意圖；
[0036] 圖10是本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取裝置的結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0037] 下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi) 的示例性實(shí)施例，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反，提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi)，并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0038] 抽取網(wǎng)頁(yè)主圖的方法可以包括以下兩種方式：
[0039] 方式一：基于用戶行為的統(tǒng)計(jì)，該方法基于一種假設(shè)，即網(wǎng)頁(yè)中的圖片用戶點(diǎn)擊越多越重要。具體技術(shù)方案如下：首先統(tǒng)計(jì)每張網(wǎng)頁(yè)上所有圖片的用戶點(diǎn)擊數(shù)，隨后，選擇用戶點(diǎn)擊最高的圖片作為網(wǎng)頁(yè)主圖。但是上述技術(shù)方案存在以下問(wèn)題：1、召回率不高：并不是所有圖片都有用戶點(diǎn)擊行為的，有的圖片就沒(méi)有鏈接。2、實(shí)效性欠缺：對(duì)于新出現(xiàn)的網(wǎng) 頁(yè)，由于沒(méi)有用戶行為信息，所以無(wú)法提取圖片。3、置信度問(wèn)題：在圖片點(diǎn)擊次數(shù)較少的情況下，容易出現(xiàn)偏差，而且對(duì)很多小公司來(lái)說(shuō)，無(wú)法獲得像大公司那樣豐富的用戶行為數(shù) 據(jù)。4、用戶行為偏差：例如在網(wǎng)頁(yè)中如果有的圖片是一些性感的女性圖片，會(huì)更吸引眼球，因此獲得更多的點(diǎn)擊。
[0040] 方式二：基于機(jī)器學(xué)習(xí)分類方法，具體技術(shù)方案如下：步驟1，提取網(wǎng)頁(yè)中圖片的特征，例如，圖片大小，在HTML中的位置，圖片的描述信息等；步驟2,準(zhǔn)備標(biāo)注集，選取一定數(shù)量的網(wǎng)頁(yè)，對(duì)其中的圖片進(jìn)行標(biāo)注，標(biāo)注是否主圖；步驟3,采用分類模型進(jìn)行訓(xùn)練（例如，邏輯回歸、SVM、決策森林、GBDT等），得到模型；步驟4,利用訓(xùn)練完畢的模型對(duì)網(wǎng)頁(yè)中圖片進(jìn)行預(yù)測(cè)是否為主圖。但是上述技術(shù)方案存在以下問(wèn)題：1、標(biāo)注需要大量的人力，要覆蓋不同類型的網(wǎng)頁(yè)，每個(gè)網(wǎng)頁(yè)中的圖片數(shù)量很多。2、需要選擇大量的特征，對(duì)于badcase不能夠立刻解決。3、需要對(duì)所有圖片進(jìn)行計(jì)算，計(jì)算量較大。
[0041] 為了解決現(xiàn)有技術(shù)中的上述問(wèn)題，本發(fā)明提供了一種網(wǎng)頁(yè)主圖提取方法及裝置，支持在線和離線兩種方式抽取主圖；在線時(shí)只需要傳入網(wǎng)頁(yè)URL，抓取HTML文本，并通過(guò)瀏覽器顯示引擎進(jìn)行排版展示，經(jīng)過(guò)對(duì)HTML文本的解析組織成后續(xù)處理所需要的數(shù)據(jù)結(jié)構(gòu) 和組織形式，最后進(jìn)行視覺(jué)信息與篩選規(guī)則的分析得到網(wǎng)頁(yè)主圖。以下結(jié)合附圖以及實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā) 明，并不限定本發(fā)明。
[0042] 方法實(shí)施例
[0043] 根據(jù)本發(fā)明的實(shí)施例，提供了一種網(wǎng)頁(yè)主圖提取方法，圖2是本發(fā)明實(shí)施例的網(wǎng) 頁(yè)主圖提取方法的流程圖，如圖2所示，根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取方法包括如下處理：
[0044] S210,獲取網(wǎng)頁(yè)的HTML文本，對(duì)HTML文本進(jìn)行模擬排版展示，并獲取網(wǎng)頁(yè)中每個(gè) HTML元素的視覺(jué)信息；其中，在本發(fā)明實(shí)施例中，視覺(jué)信息包括：網(wǎng)頁(yè)中每個(gè)HTML元素在模擬排版展示中的位置信息和大小信息。
[0045] 本發(fā)明實(shí)施例支持在線和離線兩種方式抽取主圖；離線時(shí)需要獲取到網(wǎng)頁(yè)的 HTML文本，而在線時(shí)可以根據(jù)網(wǎng)頁(yè)的URL，進(jìn)行抓取，在線獲取網(wǎng)頁(yè)的HTML文本。
[0046] S220,將HTML文本以塊信息為單位進(jìn)行切割；需要說(shuō)明的是，上述塊信息是指以 <DIV>，〈TABLE〉這類標(biāo)簽組成的HTML片段。
[0047] S230,獲取塊信息中的文本信息，并根據(jù)視覺(jué)信息從塊信息中獲取圖片信息；其中，上述文本信息可以包括：非超鏈接文本長(zhǎng)度、超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接數(shù) 組、以及圖片數(shù)組。圖片信息包括：圖片鏈接的URL、圖片的說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0048] 也就是說(shuō)，在S230中，根據(jù)視覺(jué)信息從塊信息中獲取的圖片信息可以看做是經(jīng)過(guò) 處理的更加詳細(xì)的一種視覺(jué)信息。
[0049] 在S230中，獲取圖片信息具體包括：
[0050] 步驟1，從塊信息中提取圖片鏈接的URL以及圖片的說(shuō)明文本；
[0051] 步驟2,按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度；具體地：按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度具體包括以下至少一個(gè)：最高優(yōu)先級(jí) 的算法為：通過(guò)圖標(biāo)標(biāo)記中的HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的寬度；第二優(yōu)先級(jí)的算法為：抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬度；第三優(yōu)先級(jí)的算法為：通過(guò)瀏覽器顯示引擎中的文件對(duì)象模型D0M信息獲取圖片的長(zhǎng)度和圖片的寬度。
[0052] 步驟3,根據(jù)視覺(jué)信息獲取圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0053] S240,根據(jù)圖片信息獲取符合預(yù)定視覺(jué)要求的圖片（例如，圖片大小滿足：長(zhǎng) (60?760)，寬（60?760)，長(zhǎng)寬比例滿足（0. 5?2. 5)之間的圖片），并根據(jù)文本信息和圖片信息，從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片，并將該圖片作為網(wǎng)頁(yè)的主圖。
[0054] 在S240中，預(yù)定視覺(jué)要求包括：圖片的位置位于預(yù)先確定的區(qū)域內(nèi)，并且圖片的長(zhǎng)寬大小和長(zhǎng)寬比例滿足預(yù)定要求。
[0055] 篩選規(guī)則具體包括以下至少一個(gè)：將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之間的圖片作為主圖；在大小相同的一組圖片中，選擇第一張圖片作為主圖；對(duì)搜索結(jié)果頁(yè)類型的網(wǎng) 頁(yè)，選取第一張圖片作為主圖；將可視區(qū)域內(nèi)最大的一張圖片作為主圖；計(jì)算圖片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性，將相關(guān)性最高的圖片作為主圖；在網(wǎng)頁(yè)為網(wǎng)站首頁(yè)或者專題頁(yè)時(shí)，選取網(wǎng)站標(biāo)識(shí)作為主圖。
[0056] 以下結(jié)合實(shí)例和附圖，對(duì)本發(fā)明實(shí)施例的上述技術(shù)方案繼續(xù)詳細(xì)說(shuō)明。
[0057] 圖3是本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取方法的處理示意圖，如圖3所示，在線時(shí)只需要傳入網(wǎng)頁(yè)URL，網(wǎng)頁(yè)抓取模塊進(jìn)行抓取，并通過(guò)瀏覽器顯示引擎進(jìn)行排版展示，然后經(jīng)過(guò) HTML解析模塊進(jìn)行解析組織成下游模塊所需要的數(shù)據(jù)結(jié)構(gòu)和組織形式，最后由視覺(jué)信息與規(guī)則庫(kù)分析模塊進(jìn)行分析得到網(wǎng)頁(yè)主圖。下面對(duì)網(wǎng)頁(yè)主圖提取方法涉及的各個(gè)處理過(guò)程進(jìn) 行詳細(xì)說(shuō)明：
[0058] 網(wǎng)頁(yè)抓取模塊：與傳統(tǒng)的基于⑶RL、WGET、HTTP協(xié)議的抓取模塊不同，該模塊不是簡(jiǎn)單的獲取HTML文本，需要獲得兩方面信息：一是HTML文本；二是對(duì)HTML文本進(jìn)行排版展示，模擬瀏覽器的行為，同時(shí)支持JavaScript，以獲得每個(gè)HTML元素在瀏覽器中的展示位置和大?。ㄒ簿褪且曈X(jué)信息）。
[0059] 在本發(fā)明實(shí)施例中，網(wǎng)頁(yè)抓取模塊的排版展示可以通過(guò)Phantomjs實(shí)現(xiàn)， Phantomjs為一種瀏覽器顯示引擎，基于webkit內(nèi)核的，擁有完善的Javascript解析、頁(yè)面渲染功能，可以用來(lái)模擬一個(gè)現(xiàn)代瀏覽器在加載網(wǎng)頁(yè)時(shí)所做的各種事件。
[0060] 此外，在本發(fā)明實(shí)施例中，網(wǎng)頁(yè)抓取模塊獲取的視覺(jué)信息可以通過(guò)JavaScript訪問(wèn)HTML的D0M結(jié)構(gòu)來(lái)獲?。?br> [0061] var actualLeft = images[i]. offsetLeft ；
[0062] var actualTop = images[i]. offsetTop ；
[0063] var current = images[i]. offsetParent ；
[0064] while (current ! == null) {
[0065] actualLeft+ = current. offsetLeft ；
[0066] actualTop+ = current. offsetTop ；
[0067] current = current. offsetParent ；}
[0068] HTML解析模塊：對(duì)HTML進(jìn)行解析，用一個(gè)有限狀態(tài)機(jī)，將HTML文本按照塊信息進(jìn) 行切割，這樣做的主要目地是對(duì)網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化組織，是后續(xù)處理的基石。
[0069] 例如，對(duì)以下HTML片段
[0070] <HTML> <HEAD> <TITLE>2014 巴西世界杯</TITLE> </HEAD> <BODY> <DIV> 荷蘭隊(duì)4:0大勝衛(wèi)冕冠軍西班牙隊(duì)<八HREF="a.litml">羅本進(jìn)2球視頻 </A>，范佩西進(jìn)2球

【權(quán)利要求】
1. 一種網(wǎng)頁(yè)主圖提取方法，其特征在于，包括：獲取網(wǎng)頁(yè)的HTML文本，對(duì)所述HTML文本進(jìn)行模擬排版展示，并獲取所述網(wǎng)頁(yè)中每個(gè) HTML元素的視覺(jué)信息；將所述HTML文本以塊信息為單位進(jìn)行切割；獲取所述塊信息中的文本信息，并根據(jù)所述視覺(jué)信息從所述塊信息中獲取圖片信息；根據(jù)所述圖片信息獲取符合預(yù)定視覺(jué)要求的圖片，并根據(jù)所述文本信息和所述圖片信息，從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片，并將該圖片作為所述網(wǎng)頁(yè)的主圖。
2. 如權(quán)利要求1所述的方法，其特征在于，獲取網(wǎng)頁(yè)的HTML文本具體包括：根據(jù)網(wǎng)頁(yè) 的統(tǒng)一資源定位符URL獲取網(wǎng)頁(yè)的HTML文本。
3. 如權(quán)利要求1所述的方法，其特征在于，所述視覺(jué)信息包括：所述網(wǎng)頁(yè)中每個(gè)HTML 元素在模擬排版展示中的位置信息和大小信息。
4. 如權(quán)利要求1所述的方法，其特征在于，所述文本信息包括：非超鏈接文本長(zhǎng)度、超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接數(shù)組、以及圖片數(shù)組。
5. 如權(quán)利要求1所述的方法，其特征在于，所述圖片信息包括：圖片鏈接的URL、圖片的說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
6. 如權(quán)利要求5所述的方法，其特征在于，獲取圖片信息具體包括：從所述塊信息中提取圖片鏈接的URL以及圖片的說(shuō)明文本；按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度；根據(jù)所述視覺(jué)信息獲取所述圖片在模擬排版展示中的縱坐標(biāo)、以及所述圖片在模擬排版展示中的橫坐標(biāo)。
7. 如權(quán)利要求6所述的方法，其特征在于，按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng) 度和圖片的寬度具體包括以下至少一個(gè)：最高優(yōu)先級(jí)的算法為：通過(guò)圖標(biāo)標(biāo)記中的HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的寬度；第二優(yōu)先級(jí)的算法為：抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬度；第三優(yōu)先級(jí)的算法為：通過(guò)瀏覽器顯示引擎中的文件對(duì)象模型DOM信息獲取圖片的長(zhǎng) 度和圖片的寬度。
8. 如權(quán)利要求1所述的方法，其特征在于，所述預(yù)定視覺(jué)要求包括：所述圖片的位置位于預(yù)先確定的區(qū)域內(nèi)，并且所述圖片的長(zhǎng)寬大小和長(zhǎng)寬比例滿足預(yù)定要求。
9. 如權(quán)利要求1所述的方法，其特征在于，所述篩選規(guī)則具體包括以下至少一個(gè)：將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之間的圖片作為主圖；在大小相同的一組圖片中，選擇第一張圖片作為主圖；對(duì)搜索結(jié)果頁(yè)類型的網(wǎng)頁(yè)，選取第一張圖片作為主圖；將可視區(qū)域內(nèi)最大的一張圖片作為主圖；計(jì)算圖片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性，將相關(guān)性最高的圖片作為主圖；在所述網(wǎng)頁(yè)為網(wǎng)站首頁(yè)或者專題頁(yè)時(shí)，選取選取網(wǎng)站標(biāo)識(shí)作為主圖。
10. -種網(wǎng)頁(yè)主圖提取裝置，其特征在于，包括：網(wǎng)頁(yè)抓取模塊，用于獲取網(wǎng)頁(yè)的HTML文本，對(duì)所述HTML文本進(jìn)行模擬排版展示，并獲取所述網(wǎng)頁(yè)中每個(gè)HTML元素的視覺(jué)信息； HTML解析模塊，用于將所述HTML文本以塊信息為單位進(jìn)行切割；信息獲取模塊，用于獲取所述塊信息中的文本信息，并根據(jù)所述視覺(jué)信息從所述塊信息中獲取圖片信息；篩選模塊，用于根據(jù)所述圖片信息獲取符合預(yù)定視覺(jué)要求的圖片，并根據(jù)所述文本信息和所述圖片信息，從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片，并將該圖片作為所述網(wǎng)頁(yè)的主圖。
11. 如權(quán)利要求10所述的裝置，其特征在于，網(wǎng)頁(yè)抓取模塊具體用于：根據(jù)網(wǎng)頁(yè)的統(tǒng)一資源定位符URL獲取網(wǎng)頁(yè)的HTML文本。
12. 如權(quán)利要求10所述的裝置，其特征在于，所述視覺(jué)信息包括：所述網(wǎng)頁(yè)中每個(gè)HTML 元素在模擬排版展示中的位置信息和大小信息。
13. 如權(quán)利要求10所述的裝置，其特征在于，所述文本信息包括：非超鏈接文本長(zhǎng)度、超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接數(shù)組、以及圖片數(shù)組。
14. 如權(quán)利要求10所述的裝置，其特征在于，所述圖片信息包括：圖片鏈接的URL、圖片的說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
15. 如權(quán)利要求14所述的裝置，其特征在于，所述信息獲取模塊具體用于：從所述塊信息中提取圖片鏈接的URL以及圖片的說(shuō)明文本；按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度；根據(jù)所述視覺(jué)信息獲取所述圖片在模擬排版展示中的縱坐標(biāo)、以及所述圖片在模擬排版展示中的橫坐標(biāo)。
16. 如權(quán)利要求15所述的裝置，其特征在于，最高優(yōu)先級(jí)的算法為：通過(guò)圖標(biāo)標(biāo)記中的 HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的寬度；第二優(yōu)先級(jí)的算法為：抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬度；第三優(yōu)先級(jí)的算法為：通過(guò)瀏覽器顯示引擎中的文件對(duì) 象模型DOM信息獲取圖片的長(zhǎng)度和圖片的寬度。
17. 如權(quán)利要求10所述的裝置，其特征在于，所述預(yù)定視覺(jué)要求包括：所述圖片的位置位于預(yù)先確定的區(qū)域內(nèi)，并且所述圖片的長(zhǎng)寬大小和長(zhǎng)寬比例滿足預(yù)定要求。
18. 如權(quán)利要求10所述的裝置，其特征在于，所述篩選規(guī)則具體包括以下至少一個(gè)：將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之間的圖片作為主圖；在大小相同的一組圖片中，選擇第一張圖片作為主圖；對(duì)搜索結(jié)果頁(yè)類型的網(wǎng)頁(yè)，選取第一張圖片作為主圖；將可視區(qū)域內(nèi)最大的一張圖片作為主圖；計(jì)算圖片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性，將相關(guān)性最高的圖片作為主圖；在所述網(wǎng)頁(yè)為網(wǎng)站首頁(yè)或者專題頁(yè)時(shí)，選取選取網(wǎng)站標(biāo)識(shí)作為主圖。
【文檔編號(hào)】G06F17/30GK104123363SQ201410346226
【公開(kāi)日】2014年10月29日申請(qǐng)日期:2014年7月21日優(yōu)先權(quán)日:2014年7月21日
【發(fā)明者】陳華清, 許晟申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳華清;許晟
技術(shù)所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司
我是此專利的發(fā)明人

上一篇：知識(shí)處理裝置以及方法
上一篇：一種應(yīng)用軟件新版本信息獲得方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

索氏提取裝置相關(guān)技術(shù)

索氏提取器裝置圖相關(guān)技術(shù)

回流提取裝置圖相關(guān)技術(shù)

揮發(fā)油提取裝置圖相關(guān)技術(shù)

索氏提取裝置圖相關(guān)技術(shù)

揮發(fā)油提取裝置相關(guān)技術(shù)

索氏提取簡(jiǎn)易裝置相關(guān)技術(shù)

溜冰過(guò)濾水提取裝置圖相關(guān)技術(shù)

回流提取裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁(yè)主圖提取方法及裝置制造方法