算,得到圖片鏈接哈希值;
[0065]存儲單元,用于生成所述目標(biāo)圖片和對應(yīng)圖片鏈接哈希值的對應(yīng)關(guān)系,并將生成的目標(biāo)圖片和對應(yīng)圖片鏈接哈希值的對應(yīng)關(guān)系存儲到過濾圖片列表中。
[0066]結(jié)合第二方面和第二方面的第六種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第二方面的第七種可能的實(shí)現(xiàn)方式,其中,所述裝置還包括:
[0067]圖片哈希值獲取模塊,用于獲取預(yù)設(shè)清理圖片時(shí)長內(nèi)被訪問過的圖片鏈接哈希值;
[0068]對比模塊,用于將獲取到的圖片鏈接哈希值與所述過濾圖片列表中記錄的圖片鏈接哈希值進(jìn)行對比,得到預(yù)設(shè)清理圖片時(shí)長內(nèi)未被訪問過的圖片鏈接哈希值;
[0069]未訪問圖片刪除模塊,用于通過所述目標(biāo)圖片和對應(yīng)圖片鏈接哈希值的對應(yīng)關(guān)系和所述未被訪問過的圖片鏈接哈希值,查找出預(yù)設(shè)清理圖片時(shí)長內(nèi)未被訪問過的圖片鏈接哈希值對應(yīng)的圖片進(jìn)行刪除。
[0070]第三方面,本發(fā)明實(shí)施例提供一種服務(wù)器,所述服務(wù)器包括:處理器和接收器;
[0071]所述接收器,用于接收搜索結(jié)果的頁面數(shù)據(jù),所述搜索結(jié)果的頁面數(shù)據(jù)是根據(jù)用戶在特定應(yīng)用發(fā)出的搜索請求所獲取的;
[0072]所述處理器,用于根據(jù)預(yù)設(shè)的抓取規(guī)則,從所述搜索結(jié)果的頁面數(shù)據(jù)中確定與所述特定應(yīng)用對應(yīng)的目標(biāo)圖片,并獲取所述目標(biāo)圖片的鏈接信息;根據(jù)所述目標(biāo)圖片的鏈接信息,抓取所述目標(biāo)圖片;根據(jù)所述目標(biāo)圖片的鏈接信息中記錄的所述目標(biāo)圖片的縮略尺寸和圖片剪裁方式,對所述目標(biāo)圖片進(jìn)行縮略剪裁操作,得到與所述特定應(yīng)用的頁面顯示相適應(yīng)的縮略圖。
[0073]本發(fā)明實(shí)施例提供的搜索結(jié)果頁面的圖片適應(yīng)性處理的方法、裝置和服務(wù)器,從接收到的搜索結(jié)果的頁面數(shù)據(jù)中確定與特定應(yīng)用對應(yīng)的目標(biāo)圖片,并在抓取到目標(biāo)圖片后,根據(jù)目標(biāo)圖片的鏈接信息中記錄的目標(biāo)圖片的縮略尺寸和圖片剪裁方式對目標(biāo)圖片進(jìn)行縮略剪裁操作,得到與特定應(yīng)用的頁面顯示相適應(yīng)的縮略圖,與現(xiàn)有技術(shù)中只能抓取預(yù)設(shè)尺寸的圖片的過程相比,可以抓取不同尺寸的圖片,提高了圖片的抓取效率;而且,可以在抓取到圖片后根據(jù)不同應(yīng)用的圖片展示尺寸對圖片進(jìn)行處理得到圖片的縮略圖,提高了圖片在不同應(yīng)用上的展示效果。
[0074]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
【附圖說明】
[0075]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
[0076]圖1示出了本發(fā)明實(shí)施例1所提供的一種搜索結(jié)果頁面的圖片適應(yīng)性處理的方法的流程圖;
[0077]圖2示出了本發(fā)明實(shí)施例2所提供的一種搜索結(jié)果頁面的圖片適應(yīng)性處理的裝置的結(jié)構(gòu)示意圖;
[0078]圖3示出了本發(fā)明實(shí)施例3所提供的一種服務(wù)器的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0079]發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0080]考慮到相關(guān)技術(shù)中在通過網(wǎng)頁爬蟲抓取圖片時(shí),圖片的抓取策略比較單一,只能對預(yù)設(shè)尺寸的圖片進(jìn)行抓取,降低了圖片的抓取效率,并在不同應(yīng)用上展示搜索結(jié)果和相應(yīng)圖片時(shí),只能以相同的圖片尺寸進(jìn)行圖片展示,不能抓取適應(yīng)不同應(yīng)用的圖片展示尺寸的圖片并進(jìn)行展示,降低了圖片在不同應(yīng)用上的展示效果?;诖?,本發(fā)明實(shí)施例提供了一種搜索結(jié)果頁面的圖片適應(yīng)性處理的方法、裝置和服務(wù)器,下面通過實(shí)施例進(jìn)行描述。
[0081 ] 實(shí)施例1
[0082]本實(shí)施例提供了一種搜索結(jié)果頁面的圖片適應(yīng)性處理的方法。本實(shí)施例的執(zhí)行主體是后臺服務(wù)器,特定應(yīng)用安裝在前端服務(wù)器上,當(dāng)用戶通過特定應(yīng)用的搜索界面發(fā)起搜索請求后,前端服務(wù)器在得到搜索結(jié)果后,會將搜索結(jié)果的頁面數(shù)據(jù)發(fā)送到后臺服務(wù)器,由后臺服務(wù)器根據(jù)搜索結(jié)果的頁面數(shù)據(jù)進(jìn)行圖片抓取,并對抓取到的圖片進(jìn)行剪裁,得到與特定應(yīng)用相適應(yīng)的縮略圖。
[0083]參見圖1,本實(shí)施例提供了一種搜索結(jié)果頁面的圖片適應(yīng)性處理的方法,包括以下步驟:
[0084]步驟100、獲取搜索結(jié)果的頁面數(shù)據(jù),所述搜索結(jié)果的頁面數(shù)據(jù)是根據(jù)用戶在特定應(yīng)用發(fā)出的搜索請求所獲取的。
[0085]其中,特定應(yīng)用,是指新聞、視頻或者百科等設(shè)置有搜索引擎的應(yīng)用,使得用戶在使用這些特定應(yīng)用時(shí),可以通過這些特定應(yīng)用設(shè)置的搜索引擎搜索用戶自身比較感興趣的內(nèi)容。
[0086]搜索結(jié)果是前端服務(wù)器獲取到用戶通過特定應(yīng)用的搜索引擎發(fā)出的搜索請求后,根據(jù)搜索請求查詢到的搜索內(nèi)容;通常情況下,搜索結(jié)果會以網(wǎng)頁的形式表現(xiàn)出來。
[0087]此外,后臺服務(wù)器除了通過相應(yīng)的前端服務(wù)器獲取搜索結(jié)果之外,還可以接收其他第三方服務(wù)器發(fā)送的搜索結(jié)果,或者由后臺服務(wù)器自身直接搜索以獲取搜索結(jié)果,這幾種方式都可以使后臺服務(wù)器得到根據(jù)用戶在特定應(yīng)用發(fā)出的搜索請求所獲取的相應(yīng)搜索結(jié)果的頁面數(shù)據(jù)。
[0088]搜索結(jié)果的頁面數(shù)據(jù),包括但不限于:搜索結(jié)果的頁面中所顯示出來的文字、引用的網(wǎng)頁的地址信息和引用的圖片的地址信息、尺寸信息以及圖片在搜索結(jié)果頁面的位置信息。
[0089]后臺服務(wù)器通過預(yù)設(shè)的接口接收不同特定應(yīng)用的前端服務(wù)器發(fā)送的搜索結(jié)果的頁面數(shù)據(jù)。
[0090]步驟102、根據(jù)預(yù)設(shè)的抓取規(guī)則,從搜索結(jié)果的頁面數(shù)據(jù)中確定與特定應(yīng)用對應(yīng)的目標(biāo)圖片,并獲取目標(biāo)圖片的鏈接信息。
[0091]其中,目標(biāo)圖片,就是對搜索結(jié)果的頁面數(shù)據(jù)中顯示的多張圖片中通過設(shè)定的抓取規(guī)則篩選后,得到的可以直接表達(dá)出搜索結(jié)果內(nèi)容的圖片。目標(biāo)圖片的鏈接信息,至少包括目標(biāo)圖片的地址信息。
[0092]步驟104、根據(jù)目標(biāo)圖片的鏈接信息,抓取目標(biāo)圖片。
[0093]步驟106、根據(jù)目標(biāo)圖片的鏈接信息中記錄的目標(biāo)圖片的縮略尺寸和圖片剪裁方式,對目標(biāo)圖片進(jìn)行縮略剪裁操作,得到與特定應(yīng)用的頁面顯示相適應(yīng)的縮略圖。
[0094]在步驟106中,對目標(biāo)圖片的縮略裁剪操作,包括:對圖片進(jìn)行縮略操作和剪裁操作??s略操作是按照目標(biāo)圖片的鏈接信息中記錄的目標(biāo)圖片的縮略尺寸將尺寸較大的目標(biāo)圖片縮略到指定的尺寸的操作,支持按長高比例縮略目標(biāo)圖片、按指定長度縮略目標(biāo)圖片、按指定高度縮略目標(biāo)圖片、按指定長度和高度等縮略方式;裁剪操作是按照目標(biāo)圖片的鏈接信息中記錄的圖片剪裁策略,對目標(biāo)圖片進(jìn)行剪裁得到縮略圖的操作,支持從左上角到右下角對目標(biāo)圖片進(jìn)行剪裁的操作、從左下角到右上角對目標(biāo)圖片進(jìn)行剪裁的操作、對目標(biāo)圖片進(jìn)行中間裁剪等方案。
[0095]縮略和裁剪的操作根據(jù)用戶所使用的該特定應(yīng)用而確定,可以包括由不同的縮略操作和裁剪的操作組合形成,后臺服務(wù)器根據(jù)特定應(yīng)用指定的縮略和裁剪方式,對目標(biāo)圖片進(jìn)行縮略和剪裁操作,得到與特定應(yīng)用的頁面顯示相適應(yīng)的縮略圖。
[0096]綜上所述,本實(shí)施例提供的搜索結(jié)果頁面的圖片適應(yīng)性處理的方法,從接收到的搜索結(jié)果的頁面數(shù)據(jù)中確定與特定應(yīng)用對應(yīng)的目標(biāo)圖片,并在抓取到目標(biāo)圖片后,根據(jù)目標(biāo)圖片的鏈接信息中記錄的目標(biāo)圖片的縮略尺寸和圖片剪裁方式對目標(biāo)圖片進(jìn)行縮略剪裁操作,得到與特定應(yīng)用的頁面顯示相適應(yīng)的縮略圖,與現(xiàn)有技術(shù)中只能抓取預(yù)設(shè)尺寸的圖片的過程相比,可以抓取不同尺寸的圖片,提高了圖片的抓取效率;而且,可以在抓取到圖片后根據(jù)不同應(yīng)用的圖片展示尺寸對圖片進(jìn)行處理得到圖片的縮略圖,提高了圖片在不同應(yīng)用上的展示效果。
[0097]相關(guān)技術(shù)中,不論圖片是否與用戶的搜索行為相關(guān),網(wǎng)絡(luò)爬蟲均會直接根據(jù)設(shè)定的圖片尺寸在網(wǎng)絡(luò)上抓取符合圖片尺寸的圖片并存儲到服務(wù)器中,這大大浪費(fèi)了服務(wù)器的存儲資源。為了節(jié)省服務(wù)器的存儲資源,本發(fā)明實(shí)施例根據(jù)預(yù)設(shè)的抓取規(guī)則,從搜索結(jié)果的頁面數(shù)據(jù)中確定與搜索結(jié)果對應(yīng)的目標(biāo)圖片,其包括以下步驟I至步驟3:
[0098](I)從搜索結(jié)果的頁面數(shù)據(jù)中提取各個(gè)圖片的尺寸信息和圖片在搜索結(jié)果頁面的位置信息。
[0099](2)確定圖片尺寸信息符合預(yù)設(shè)尺寸范圍且圖片在搜索結(jié)果頁面的位置信息在預(yù)設(shè)網(wǎng)頁位置的圖片為待抓取圖片。
[0100](3)將預(yù)設(shè)的過濾圖片列表中未記錄的待抓取圖片確定為目標(biāo)圖片。
[0101]預(yù)設(shè)網(wǎng)頁位置,是指搜索結(jié)果的頁面上的預(yù)設(shè)網(wǎng)頁區(qū)域,是網(wǎng)頁中顯示正文部分的區(qū)域,在該預(yù)設(shè)網(wǎng)頁區(qū)域內(nèi)出現(xiàn)的圖片說明是處于網(wǎng)頁的正文部分的圖片,而大部分網(wǎng)頁中出現(xiàn)的廣告圖片、推廣圖片一般只會出現(xiàn)在搜索結(jié)果的頁面兩側(cè)的非正文區(qū)域,所以通過選取處于網(wǎng)頁的正文部分的圖片作為待抓取圖片,可以將搜索結(jié)果的頁面中的廣告圖片、推廣圖片過濾掉,提高所選取的圖片對搜索結(jié)果表達(dá)的準(zhǔn)確性。
[0102]過濾圖片列表預(yù)先設(shè)定在后臺服務(wù)器中,存儲有后臺服務(wù)器獲取到的所有目標(biāo)圖片與圖片鏈接哈希值的對應(yīng)關(guān)系。其中,圖片鏈接哈希值是由目標(biāo)圖片的地址信息經(jīng)過哈希計(jì)算后得到的,用于唯一標(biāo)識被后臺服務(wù)器處理過的圖片。
[0103]在步驟I中,為了把搜索結(jié)果的頁面數(shù)據(jù)中的一些明顯代表不了搜索結(jié)果內(nèi)容的圖片過濾掉,比如包括標(biāo)題圖標(biāo)、網(wǎng)站圖標(biāo)、按鈕圖標(biāo)等圖片。由于標(biāo)題圖標(biāo)、網(wǎng)站圖標(biāo)、按鈕圖標(biāo)等圖片的尺寸只能在預(yù)定的尺寸內(nèi),而且也都會設(shè)定在網(wǎng)頁的特定位置上,所以后臺服務(wù)器從搜索結(jié)果的頁面數(shù)據(jù)的文本信息中提取各個(gè)圖片的尺寸信息和圖片在搜索結(jié)果頁面的位置信息,來對搜索結(jié)果的頁面數(shù)據(jù)中標(biāo)題圖標(biāo)、網(wǎng)站圖標(biāo)、按鈕圖標(biāo)等圖片進(jìn)行過濾。
[0104]在步驟2中,根據(jù)提取的各個(gè)圖片的尺寸信息和圖片在搜索結(jié)果頁面的位置信息,在過濾掉標(biāo)題圖標(biāo)、網(wǎng)站圖標(biāo)、按鈕圖標(biāo)等的圖片中選取處于網(wǎng)頁的正文部分、大小適合常規(guī)顯示以及長寬比率協(xié)調(diào)的圖片,作為待抓取圖片。
[0105]通過獲取到的圖片尺寸信息與設(shè)定的大小適合常規(guī)顯示以及長寬比率協(xié)調(diào)的圖片尺寸進(jìn)行對比,確定獲取到的圖片尺寸是否符合要求,從而對獲取到的圖片進(jìn)行過濾。
[0106]由于一個(gè)圖片鏈接僅能代表一個(gè)搜索結(jié)果,使