網(wǎng)頁(yè)主圖提取方法及裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)主圖提取方法及裝置。該方法包括:獲取網(wǎng)頁(yè)的HTML文本,對(duì)HTML文本進(jìn)行模擬排版展示,并獲取網(wǎng)頁(yè)中每個(gè)HTML元素的視覺(jué)信息;將HTML文本以塊信息為單位進(jìn)行切割;獲取塊信息中的文本信息,并根據(jù)視覺(jué)信息從塊信息中獲取圖片信息;根據(jù)圖片信息獲取符合預(yù)定視覺(jué)要求的圖片,并根據(jù)文本信息和圖片信息,從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片,并將該圖片作為網(wǎng)頁(yè)的主圖。借助于本發(fā)明的技術(shù)方案,能夠使主圖選取達(dá)到非常高的準(zhǔn)確率和效率。
【專利說(shuō)明】網(wǎng)頁(yè)主圖提取方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,特別是涉及一種網(wǎng)頁(yè)主圖提取方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,超文本標(biāo)記語(yǔ)言(Hypertext Markup Language,簡(jiǎn)稱為 HTML)網(wǎng)頁(yè)的表現(xiàn)形式越來(lái)越多樣化,其中的趨勢(shì)之一就是網(wǎng)頁(yè)中圖片的大量出現(xiàn)。和傳統(tǒng) 的文字相比,圖片在吸引人注意力和表意方面具有自己獨(dú)特的優(yōu)勢(shì)。因此目前很多搜索引 擎在搜索結(jié)果中除了提供標(biāo)題和摘要之外,還提供了從網(wǎng)頁(yè)中抽取的主圖。
[0003] 如圖1所示,在現(xiàn)有技術(shù)中,搜索引擎的結(jié)果中包含了越來(lái)越多的圖片,這對(duì)于用 戶識(shí)別自己所要找到的信息,提高點(diǎn)擊率很有幫助。同時(shí)在互聯(lián)網(wǎng)廣告方面,相比純粹投放 文字鏈接的廣告,圖片廣告具有更大的優(yōu)勢(shì),可以讓用戶一目了然看到產(chǎn)品信息。因此,從 網(wǎng)頁(yè)中提取主圖技術(shù)在提高用戶搜索體驗(yàn),提高點(diǎn)擊率方面顯得非常重要。從而目前急需 一種網(wǎng)頁(yè)主圖提取方法。
【發(fā)明內(nèi)容】
[0004] 鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上 述問(wèn)題的網(wǎng)頁(yè)主圖提取方法及裝置。
[0005] 本發(fā)明提供一種網(wǎng)頁(yè)主圖提取方法,包括:獲取網(wǎng)頁(yè)的HTML文本,對(duì)HTML文本進(jìn) 行模擬排版展示,并獲取網(wǎng)頁(yè)中每個(gè)HTML元素的視覺(jué)信息;將HTML文本以塊信息為單位進(jìn) 行切割;獲取塊信息中的文本信息,并根據(jù)視覺(jué)信息從塊信息中獲取圖片信息;根據(jù)圖片 信息獲取符合預(yù)定視覺(jué)要求的圖片,并根據(jù)文本信息和圖片信息,從符合預(yù)定視覺(jué)要求的 圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片,并將該圖片作為網(wǎng)頁(yè)的主圖。
[0006] 優(yōu)選地,獲取網(wǎng)頁(yè)的HTML文本具體包括:根據(jù)網(wǎng)頁(yè)的統(tǒng)一資源定位符URL獲取網(wǎng) 頁(yè)的HTML文本。
[0007] 優(yōu)選地,視覺(jué)信息包括:網(wǎng)頁(yè)中每個(gè)HTML元素在模擬排版展示中的位置信息和大 小信息。
[0008] 優(yōu)選地,文本信息包括:非超鏈接文本長(zhǎng)度、超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接 數(shù)組、以及圖片數(shù)組。
[0009] 優(yōu)選地,圖片信息包括:圖片鏈接的URL、圖片的說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬 度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0010] 優(yōu)選地,獲取圖片信息具體包括:從塊信息中提取圖片鏈接的URL以及圖片的說(shuō) 明文本;按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度;根據(jù)視覺(jué)信息獲取圖 片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0011] 優(yōu)選地,按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度具體包括以下 至少一個(gè):最高優(yōu)先級(jí)的算法為:通過(guò)圖標(biāo)標(biāo)記中的HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的 寬度;第二優(yōu)先級(jí)的算法為:抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬度;第 三優(yōu)先級(jí)的算法為:通過(guò)瀏覽器顯示引擎中的文件對(duì)象模型DOM信息獲取圖片的長(zhǎng)度和圖 片的寬度。
[0012] 優(yōu)選地,預(yù)定視覺(jué)要求包括:圖片的位置位于預(yù)先確定的區(qū)域內(nèi),并且圖片的長(zhǎng)寬 大小和長(zhǎng)寬比例滿足預(yù)定要求。
[0013] 優(yōu)選地,篩選規(guī)則具體包括以下至少一個(gè):將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之 間的圖片作為主圖;在大小相同的一組圖片中,選擇第一張圖片作為主圖;對(duì)搜索結(jié)果頁(yè) 類型的網(wǎng)頁(yè),選取第一張圖片作為主圖;將可視區(qū)域內(nèi)最大的一張圖片作為主圖;計(jì)算圖 片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性,將相關(guān)性最高的圖片作為主圖;在網(wǎng)頁(yè)為網(wǎng)站首 頁(yè)或者專題頁(yè)時(shí),選取選取網(wǎng)站標(biāo)識(shí)作為主圖。
[0014] 本發(fā)明還提供了一種網(wǎng)頁(yè)主圖提取裝置,包括:網(wǎng)頁(yè)抓取模塊,用于獲取網(wǎng)頁(yè)的 HTML文本,對(duì)HTML文本進(jìn)行模擬排版展示,并獲取網(wǎng)頁(yè)中每個(gè)HTML元素的視覺(jué)信息;HTML 解析模塊,用于將HTML文本以塊信息為單位進(jìn)行切割;信息獲取模塊,用于獲取塊信息中 的文本信息,并根據(jù)視覺(jué)信息從塊信息中獲取圖片信息;篩選模塊,用于根據(jù)圖片信息獲取 符合預(yù)定視覺(jué)要求的圖片,并根據(jù)文本信息和圖片信息,從符合預(yù)定視覺(jué)要求的圖片中進(jìn) 一步選擇滿足篩選規(guī)則的圖片,并將該圖片作為網(wǎng)頁(yè)的主圖。
[0015] 優(yōu)選地,網(wǎng)頁(yè)抓取模塊具體用于:根據(jù)網(wǎng)頁(yè)的統(tǒng)一資源定位符URL獲取網(wǎng)頁(yè)的 HTML文本。
[0016] 優(yōu)選地,視覺(jué)信息包括:網(wǎng)頁(yè)中每個(gè)HTML元素在模擬排版展示中的位置信息和大 小信息。
[0017] 優(yōu)選地,文本信息包括:非超鏈接文本長(zhǎng)度、超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接 數(shù)組、以及圖片數(shù)組。
[0018] 優(yōu)選地,圖片信息包括:圖片鏈接的URL、圖片的說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬 度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0019] 優(yōu)選地,信息獲取模塊具體用于:從塊信息中提取圖片鏈接的URL以及圖片的說(shuō) 明文本;按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度;根據(jù)視覺(jué)信息獲取圖 片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0020] 優(yōu)選地,最高優(yōu)先級(jí)的算法為:通過(guò)圖標(biāo)標(biāo)記中的HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和 圖片的寬度;第二優(yōu)先級(jí)的算法為:抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬 度;第三優(yōu)先級(jí)的算法為:通過(guò)瀏覽器顯示引擎中的文件對(duì)象模型D0M信息獲取圖片的長(zhǎng) 度和圖片的寬度。
[0021] 優(yōu)選地,預(yù)定視覺(jué)要求包括:圖片的位置位于預(yù)先確定的區(qū)域內(nèi),并且圖片的長(zhǎng)寬 大小和長(zhǎng)寬比例滿足預(yù)定要求。
[0022] 優(yōu)選地,篩選規(guī)則具體包括以下至少一個(gè):將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之 間的圖片作為主圖;在大小相同的一組圖片中,選擇第一張圖片作為主圖;對(duì)搜索結(jié)果頁(yè) 類型的網(wǎng)頁(yè),選取第一張圖片作為主圖;將可視區(qū)域內(nèi)最大的一張圖片作為主圖;計(jì)算圖 片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性,將相關(guān)性最高的圖片作為主圖;在網(wǎng)頁(yè)為網(wǎng)站首 頁(yè)或者專題頁(yè)時(shí),選取選取網(wǎng)站標(biāo)識(shí)作為主圖。
[0023] 本發(fā)明有益效果如下:
[0024] 通過(guò)圖片信息對(duì)網(wǎng)頁(yè)的主圖進(jìn)行候選,并根據(jù)篩選規(guī)則對(duì)候選集中的主圖進(jìn)行精 選,能夠使主圖選取達(dá)到非常高的準(zhǔn)確率,此外,本發(fā)明實(shí)施例的技術(shù)方案由于采用視覺(jué)區(qū) 域進(jìn)行定位,使得候選需要計(jì)算的圖片大大減少,極大提高了主圖的抽取速度。
[0025] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說(shuō)明】
[0026] 通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0027] 圖1是現(xiàn)有技術(shù)中搜素引擎結(jié)果頁(yè)顯示網(wǎng)頁(yè)主圖的示意圖;
[0028] 圖2是本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取方法的流程圖;
[0029] 圖3是本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取方法的處理示意圖;
[0030] 圖4是本發(fā)明實(shí)施例的主圖篩選示例1的示意圖;
[0031] 圖5是本發(fā)明實(shí)施例的主圖篩選示例2的示意圖;
[0032] 圖6是本發(fā)明實(shí)施例的主圖篩選示例3的示意圖;
[0033] 圖7是本發(fā)明實(shí)施例的主圖篩選示例4的示意圖;
[0034] 圖8是本發(fā)明實(shí)施例的主圖篩選示例5的示意圖;
[0035] 圖9是本發(fā)明實(shí)施例的主圖篩選示例6的示意圖;
[0036] 圖10是本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0037] 下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi) 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0038] 抽取網(wǎng)頁(yè)主圖的方法可以包括以下兩種方式:
[0039] 方式一:基于用戶行為的統(tǒng)計(jì),該方法基于一種假設(shè),即網(wǎng)頁(yè)中的圖片用戶點(diǎn)擊越 多越重要。具體技術(shù)方案如下:首先統(tǒng)計(jì)每張網(wǎng)頁(yè)上所有圖片的用戶點(diǎn)擊數(shù),隨后,選擇用 戶點(diǎn)擊最高的圖片作為網(wǎng)頁(yè)主圖。但是上述技術(shù)方案存在以下問(wèn)題:1、召回率不高:并不 是所有圖片都有用戶點(diǎn)擊行為的,有的圖片就沒(méi)有鏈接。2、實(shí)效性欠缺:對(duì)于新出現(xiàn)的網(wǎng) 頁(yè),由于沒(méi)有用戶行為信息,所以無(wú)法提取圖片。3、置信度問(wèn)題:在圖片點(diǎn)擊次數(shù)較少的 情況下,容易出現(xiàn)偏差,而且對(duì)很多小公司來(lái)說(shuō),無(wú)法獲得像大公司那樣豐富的用戶行為數(shù) 據(jù)。4、用戶行為偏差:例如在網(wǎng)頁(yè)中如果有的圖片是一些性感的女性圖片,會(huì)更吸引眼球, 因此獲得更多的點(diǎn)擊。
[0040] 方式二:基于機(jī)器學(xué)習(xí)分類方法,具體技術(shù)方案如下:步驟1,提取網(wǎng)頁(yè)中圖片的 特征,例如,圖片大小,在HTML中的位置,圖片的描述信息等;步驟2,準(zhǔn)備標(biāo)注集,選取一定 數(shù)量的網(wǎng)頁(yè),對(duì)其中的圖片進(jìn)行標(biāo)注,標(biāo)注是否主圖;步驟3,采用分類模型進(jìn)行訓(xùn)練(例 如,邏輯回歸、SVM、決策森林、GBDT等),得到模型;步驟4,利用訓(xùn)練完畢的模型對(duì)網(wǎng)頁(yè)中圖 片進(jìn)行預(yù)測(cè)是否為主圖。但是上述技術(shù)方案存在以下問(wèn)題:1、標(biāo)注需要大量的人力,要覆蓋 不同類型的網(wǎng)頁(yè),每個(gè)網(wǎng)頁(yè)中的圖片數(shù)量很多。2、需要選擇大量的特征,對(duì)于badcase不能 夠立刻解決。3、需要對(duì)所有圖片進(jìn)行計(jì)算,計(jì)算量較大。
[0041] 為了解決現(xiàn)有技術(shù)中的上述問(wèn)題,本發(fā)明提供了一種網(wǎng)頁(yè)主圖提取方法及裝置, 支持在線和離線兩種方式抽取主圖;在線時(shí)只需要傳入網(wǎng)頁(yè)URL,抓取HTML文本,并通過(guò)瀏 覽器顯示引擎進(jìn)行排版展示,經(jīng)過(guò)對(duì)HTML文本的解析組織成后續(xù)處理所需要的數(shù)據(jù)結(jié)構(gòu) 和組織形式,最后進(jìn)行視覺(jué)信息與篩選規(guī)則的分析得到網(wǎng)頁(yè)主圖。以下結(jié)合附圖以及實(shí)施 例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā) 明,并不限定本發(fā)明。
[0042] 方法實(shí)施例
[0043] 根據(jù)本發(fā)明的實(shí)施例,提供了一種網(wǎng)頁(yè)主圖提取方法,圖2是本發(fā)明實(shí)施例的網(wǎng) 頁(yè)主圖提取方法的流程圖,如圖2所示,根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取方法包括如下 處理:
[0044] S210,獲取網(wǎng)頁(yè)的HTML文本,對(duì)HTML文本進(jìn)行模擬排版展示,并獲取網(wǎng)頁(yè)中每個(gè) HTML元素的視覺(jué)信息;其中,在本發(fā)明實(shí)施例中,視覺(jué)信息包括:網(wǎng)頁(yè)中每個(gè)HTML元素在模 擬排版展示中的位置信息和大小信息。
[0045] 本發(fā)明實(shí)施例支持在線和離線兩種方式抽取主圖;離線時(shí)需要獲取到網(wǎng)頁(yè)的 HTML文本,而在線時(shí)可以根據(jù)網(wǎng)頁(yè)的URL,進(jìn)行抓取,在線獲取網(wǎng)頁(yè)的HTML文本。
[0046] S220,將HTML文本以塊信息為單位進(jìn)行切割;需要說(shuō)明的是,上述塊信息是指以 <DIV>,〈TABLE〉這類標(biāo)簽組成的HTML片段。
[0047] S230,獲取塊信息中的文本信息,并根據(jù)視覺(jué)信息從塊信息中獲取圖片信息;其 中,上述文本信息可以包括:非超鏈接文本長(zhǎng)度、超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接數(shù) 組、以及圖片數(shù)組。圖片信息包括:圖片鏈接的URL、圖片的說(shuō)明文本、圖片的長(zhǎng)度、圖片的 寬度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版展示中的橫坐標(biāo)。
[0048] 也就是說(shuō),在S230中,根據(jù)視覺(jué)信息從塊信息中獲取的圖片信息可以看做是經(jīng)過(guò) 處理的更加詳細(xì)的一種視覺(jué)信息。
[0049] 在S230中,獲取圖片信息具體包括:
[0050] 步驟1,從塊信息中提取圖片鏈接的URL以及圖片的說(shuō)明文本;
[0051] 步驟2,按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度;具體地:按照 預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度具體包括以下至少一個(gè):最高優(yōu)先級(jí) 的算法為:通過(guò)圖標(biāo)標(biāo)記中的HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的寬度;第二優(yōu)先級(jí)的算 法為:抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬度;第三優(yōu)先級(jí)的算法為:通 過(guò)瀏覽器顯示引擎中的文件對(duì)象模型D0M信息獲取圖片的長(zhǎng)度和圖片的寬度。
[0052] 步驟3,根據(jù)視覺(jué)信息獲取圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排版 展示中的橫坐標(biāo)。
[0053] S240,根據(jù)圖片信息獲取符合預(yù)定視覺(jué)要求的圖片(例如,圖片大小滿足:長(zhǎng) (60?760),寬(60?760),長(zhǎng)寬比例滿足(0. 5?2. 5)之間的圖片),并根據(jù)文本信息和 圖片信息,從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片,并將該圖片作 為網(wǎng)頁(yè)的主圖。
[0054] 在S240中,預(yù)定視覺(jué)要求包括:圖片的位置位于預(yù)先確定的區(qū)域內(nèi),并且圖片的 長(zhǎng)寬大小和長(zhǎng)寬比例滿足預(yù)定要求。
[0055] 篩選規(guī)則具體包括以下至少一個(gè):將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之間的圖片 作為主圖;在大小相同的一組圖片中,選擇第一張圖片作為主圖;對(duì)搜索結(jié)果頁(yè)類型的網(wǎng) 頁(yè),選取第一張圖片作為主圖;將可視區(qū)域內(nèi)最大的一張圖片作為主圖;計(jì)算圖片的說(shuō)明 文本與網(wǎng)頁(yè)主題之間的相關(guān)性,將相關(guān)性最高的圖片作為主圖;在網(wǎng)頁(yè)為網(wǎng)站首頁(yè)或者專 題頁(yè)時(shí),選取網(wǎng)站標(biāo)識(shí)作為主圖。
[0056] 以下結(jié)合實(shí)例和附圖,對(duì)本發(fā)明實(shí)施例的上述技術(shù)方案繼續(xù)詳細(xì)說(shuō)明。
[0057] 圖3是本發(fā)明實(shí)施例的網(wǎng)頁(yè)主圖提取方法的處理示意圖,如圖3所示,在線時(shí)只需 要傳入網(wǎng)頁(yè)URL,網(wǎng)頁(yè)抓取模塊進(jìn)行抓取,并通過(guò)瀏覽器顯示引擎進(jìn)行排版展示,然后經(jīng)過(guò) HTML解析模塊進(jìn)行解析組織成下游模塊所需要的數(shù)據(jù)結(jié)構(gòu)和組織形式,最后由視覺(jué)信息與 規(guī)則庫(kù)分析模塊進(jìn)行分析得到網(wǎng)頁(yè)主圖。下面對(duì)網(wǎng)頁(yè)主圖提取方法涉及的各個(gè)處理過(guò)程進(jìn) 行詳細(xì)說(shuō)明:
[0058] 網(wǎng)頁(yè)抓取模塊:與傳統(tǒng)的基于⑶RL、WGET、HTTP協(xié)議的抓取模塊不同,該模塊不是 簡(jiǎn)單的獲取HTML文本,需要獲得兩方面信息:一是HTML文本;二是對(duì)HTML文本進(jìn)行排版展 示,模擬瀏覽器的行為,同時(shí)支持JavaScript,以獲得每個(gè)HTML元素在瀏覽器中的展示位 置和大?。ㄒ簿褪且曈X(jué)信息)。
[0059] 在本發(fā)明實(shí)施例中,網(wǎng)頁(yè)抓取模塊的排版展示可以通過(guò)Phantomjs實(shí)現(xiàn), Phantomjs為一種瀏覽器顯示引擎,基于webkit內(nèi)核的,擁有完善的Javascript解析、頁(yè)面 渲染功能,可以用來(lái)模擬一個(gè)現(xiàn)代瀏覽器在加載網(wǎng)頁(yè)時(shí)所做的各種事件。
[0060] 此外,在本發(fā)明實(shí)施例中,網(wǎng)頁(yè)抓取模塊獲取的視覺(jué)信息可以通過(guò)JavaScript訪 問(wèn)HTML的D0M結(jié)構(gòu)來(lái)獲?。?br>
[0061] var actualLeft = images[i]. offsetLeft ;
[0062] var actualTop = images[i]. offsetTop ;
[0063] var current = images[i]. offsetParent ;
[0064] while (current ! == null) {
[0065] actualLeft+ = current. offsetLeft ;
[0066] actualTop+ = current. offsetTop ;
[0067] current = current. offsetParent ;}
[0068] HTML解析模塊:對(duì)HTML進(jìn)行解析,用一個(gè)有限狀態(tài)機(jī),將HTML文本按照塊信息進(jìn) 行切割,這樣做的主要目地是對(duì)網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化組織,是后續(xù)處理的基石。
[0069] 例如,對(duì)以下HTML片段
[0070] <HTML> <HEAD> <TITLE>2014 巴西世界杯</TITLE> </HEAD> <BODY> <DIV> 荷蘭隊(duì)4:0大勝衛(wèi)冕冠軍西班牙隊(duì)<八HREF="a.litml">羅本進(jìn)2球視頻 </A>,范佩西進(jìn)2球
【權(quán)利要求】
1. 一種網(wǎng)頁(yè)主圖提取方法,其特征在于,包括: 獲取網(wǎng)頁(yè)的HTML文本,對(duì)所述HTML文本進(jìn)行模擬排版展示,并獲取所述網(wǎng)頁(yè)中每個(gè) HTML元素的視覺(jué)信息; 將所述HTML文本以塊信息為單位進(jìn)行切割; 獲取所述塊信息中的文本信息,并根據(jù)所述視覺(jué)信息從所述塊信息中獲取圖片信息; 根據(jù)所述圖片信息獲取符合預(yù)定視覺(jué)要求的圖片,并根據(jù)所述文本信息和所述圖片信 息,從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片,并將該圖片作為所述 網(wǎng)頁(yè)的主圖。
2. 如權(quán)利要求1所述的方法,其特征在于,獲取網(wǎng)頁(yè)的HTML文本具體包括:根據(jù)網(wǎng)頁(yè) 的統(tǒng)一資源定位符URL獲取網(wǎng)頁(yè)的HTML文本。
3. 如權(quán)利要求1所述的方法,其特征在于,所述視覺(jué)信息包括:所述網(wǎng)頁(yè)中每個(gè)HTML 元素在模擬排版展示中的位置信息和大小信息。
4. 如權(quán)利要求1所述的方法,其特征在于,所述文本信息包括:非超鏈接文本長(zhǎng)度、超 鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接數(shù)組、以及圖片數(shù)組。
5. 如權(quán)利要求1所述的方法,其特征在于,所述圖片信息包括:圖片鏈接的URL、圖片的 說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬排 版展示中的橫坐標(biāo)。
6. 如權(quán)利要求5所述的方法,其特征在于,獲取圖片信息具體包括: 從所述塊信息中提取圖片鏈接的URL以及圖片的說(shuō)明文本; 按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度; 根據(jù)所述視覺(jué)信息獲取所述圖片在模擬排版展示中的縱坐標(biāo)、以及所述圖片在模擬排 版展示中的橫坐標(biāo)。
7. 如權(quán)利要求6所述的方法,其特征在于,按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng) 度和圖片的寬度具體包括以下至少一個(gè): 最高優(yōu)先級(jí)的算法為:通過(guò)圖標(biāo)標(biāo)記中的HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的寬度; 第二優(yōu)先級(jí)的算法為:抓取圖片并通過(guò)繪圖軟件獲取圖片的長(zhǎng)度和圖片的寬度; 第三優(yōu)先級(jí)的算法為:通過(guò)瀏覽器顯示引擎中的文件對(duì)象模型DOM信息獲取圖片的長(zhǎng) 度和圖片的寬度。
8. 如權(quán)利要求1所述的方法,其特征在于,所述預(yù)定視覺(jué)要求包括:所述圖片的位置位 于預(yù)先確定的區(qū)域內(nèi),并且所述圖片的長(zhǎng)寬大小和長(zhǎng)寬比例滿足預(yù)定要求。
9. 如權(quán)利要求1所述的方法,其特征在于,所述篩選規(guī)則具體包括以下至少一個(gè): 將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之間的圖片作為主圖; 在大小相同的一組圖片中,選擇第一張圖片作為主圖; 對(duì)搜索結(jié)果頁(yè)類型的網(wǎng)頁(yè),選取第一張圖片作為主圖; 將可視區(qū)域內(nèi)最大的一張圖片作為主圖; 計(jì)算圖片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性,將相關(guān)性最高的圖片作為主圖; 在所述網(wǎng)頁(yè)為網(wǎng)站首頁(yè)或者專題頁(yè)時(shí),選取選取網(wǎng)站標(biāo)識(shí)作為主圖。
10. -種網(wǎng)頁(yè)主圖提取裝置,其特征在于,包括: 網(wǎng)頁(yè)抓取模塊,用于獲取網(wǎng)頁(yè)的HTML文本,對(duì)所述HTML文本進(jìn)行模擬排版展示,并獲 取所述網(wǎng)頁(yè)中每個(gè)HTML元素的視覺(jué)信息; HTML解析模塊,用于將所述HTML文本以塊信息為單位進(jìn)行切割; 信息獲取模塊,用于獲取所述塊信息中的文本信息,并根據(jù)所述視覺(jué)信息從所述塊信 息中獲取圖片信息; 篩選模塊,用于根據(jù)所述圖片信息獲取符合預(yù)定視覺(jué)要求的圖片,并根據(jù)所述文本信 息和所述圖片信息,從符合預(yù)定視覺(jué)要求的圖片中進(jìn)一步選擇滿足篩選規(guī)則的圖片,并將 該圖片作為所述網(wǎng)頁(yè)的主圖。
11. 如權(quán)利要求10所述的裝置,其特征在于,網(wǎng)頁(yè)抓取模塊具體用于:根據(jù)網(wǎng)頁(yè)的統(tǒng)一 資源定位符URL獲取網(wǎng)頁(yè)的HTML文本。
12. 如權(quán)利要求10所述的裝置,其特征在于,所述視覺(jué)信息包括:所述網(wǎng)頁(yè)中每個(gè)HTML 元素在模擬排版展示中的位置信息和大小信息。
13. 如權(quán)利要求10所述的裝置,其特征在于,所述文本信息包括:非超鏈接文本長(zhǎng)度、 超鏈接文本長(zhǎng)度、超鏈接個(gè)數(shù)、超鏈接數(shù)組、以及圖片數(shù)組。
14. 如權(quán)利要求10所述的裝置,其特征在于,所述圖片信息包括:圖片鏈接的URL、圖片 的說(shuō)明文本、圖片的長(zhǎng)度、圖片的寬度、圖片在模擬排版展示中的縱坐標(biāo)、以及圖片在模擬 排版展示中的橫坐標(biāo)。
15. 如權(quán)利要求14所述的裝置,其特征在于,所述信息獲取模塊具體用于: 從所述塊信息中提取圖片鏈接的URL以及圖片的說(shuō)明文本; 按照預(yù)先設(shè)置的算法優(yōu)先級(jí)計(jì)算圖片的長(zhǎng)度和圖片的寬度; 根據(jù)所述視覺(jué)信息獲取所述圖片在模擬排版展示中的縱坐標(biāo)、以及所述圖片在模擬排 版展示中的橫坐標(biāo)。
16. 如權(quán)利要求15所述的裝置,其特征在于,最高優(yōu)先級(jí)的算法為:通過(guò)圖標(biāo)標(biāo)記中的 HTML標(biāo)記來(lái)獲取圖片的長(zhǎng)度和圖片的寬度;第二優(yōu)先級(jí)的算法為:抓取圖片并通過(guò)繪圖軟 件獲取圖片的長(zhǎng)度和圖片的寬度;第三優(yōu)先級(jí)的算法為:通過(guò)瀏覽器顯示引擎中的文件對(duì) 象模型DOM信息獲取圖片的長(zhǎng)度和圖片的寬度。
17. 如權(quán)利要求10所述的裝置,其特征在于,所述預(yù)定視覺(jué)要求包括:所述圖片的位置 位于預(yù)先確定的區(qū)域內(nèi),并且所述圖片的長(zhǎng)寬大小和長(zhǎng)寬比例滿足預(yù)定要求。
18. 如權(quán)利要求10所述的裝置,其特征在于,所述篩選規(guī)則具體包括以下至少一個(gè): 將位于網(wǎng)頁(yè)導(dǎo)航條或菜單與長(zhǎng)文本之間的圖片作為主圖; 在大小相同的一組圖片中,選擇第一張圖片作為主圖; 對(duì)搜索結(jié)果頁(yè)類型的網(wǎng)頁(yè),選取第一張圖片作為主圖; 將可視區(qū)域內(nèi)最大的一張圖片作為主圖; 計(jì)算圖片的說(shuō)明文本與網(wǎng)頁(yè)主題之間的相關(guān)性,將相關(guān)性最高的圖片作為主圖; 在所述網(wǎng)頁(yè)為網(wǎng)站首頁(yè)或者專題頁(yè)時(shí),選取選取網(wǎng)站標(biāo)識(shí)作為主圖。
【文檔編號(hào)】G06F17/30GK104123363SQ201410346226
【公開(kāi)日】2014年10月29日 申請(qǐng)日期:2014年7月21日 優(yōu)先權(quán)日:2014年7月21日
【發(fā)明者】陳華清, 許晟 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司