搜索結(jié)果頁(yè)面的圖片適應(yīng)性處理的方法、裝置和服務(wù)器的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種搜索結(jié)果頁(yè)面的圖片適應(yīng)性處理的方法、裝置和服務(wù)器。
【背景技術(shù)】
[0002]目前,在用戶通過(guò)搜索引擎搜索信息時(shí),為了提升用戶的搜索體驗(yàn),增加用戶點(diǎn)擊率,搜索引擎在向用戶返回搜索結(jié)果的同時(shí)會(huì)將與搜索結(jié)果相關(guān)的圖片一并展示出來(lái),這樣可以讓用戶通過(guò)圖片直接、快速地確定最想得到的搜索結(jié)果。
[0003]相關(guān)技術(shù)中,為了將搜索結(jié)果和相應(yīng)圖片一并展示出來(lái),會(huì)通過(guò)人工預(yù)先根據(jù)需要展示給用戶的網(wǎng)頁(yè)中的圖片尺寸設(shè)置網(wǎng)頁(yè)爬蟲可以抓取的圖片尺寸,使得網(wǎng)頁(yè)爬蟲抓取對(duì)應(yīng)圖片尺寸的圖片,并在抓取到圖片后,使得搜索引擎根據(jù)得到的各搜索結(jié)果權(quán)重和規(guī)則進(jìn)行各搜索結(jié)果和相應(yīng)圖片的展示。
[0004]在通過(guò)網(wǎng)頁(yè)爬蟲抓取圖片時(shí),圖片的抓取策略比較單一,只能對(duì)預(yù)設(shè)尺寸的圖片進(jìn)行抓取,降低了圖片的抓取效率,并在不同應(yīng)用上展示搜索結(jié)果和相應(yīng)圖片時(shí),只能以相同的圖片尺寸進(jìn)行圖片展示,不能抓取適應(yīng)不同應(yīng)用的圖片展示尺寸的圖片并進(jìn)行展示,降低了圖片在不同應(yīng)用上的展示效果。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種搜索結(jié)果頁(yè)面的圖片適應(yīng)性處理的方法、裝置和服務(wù)器,可以抓取適應(yīng)不同應(yīng)用的圖片展示尺寸的圖片并進(jìn)行展示,提高了圖片在在不同應(yīng)用上的展示效果。
[0006]第一方面,本發(fā)明實(shí)施例提供了一種搜索結(jié)果頁(yè)面的圖片適應(yīng)性處理的方法,包括:
[0007]獲取搜索結(jié)果的頁(yè)面數(shù)據(jù),所述搜索結(jié)果的頁(yè)面數(shù)據(jù)是根據(jù)用戶在特定應(yīng)用發(fā)出的搜索請(qǐng)求所獲取的;
[0008]根據(jù)預(yù)設(shè)的抓取規(guī)則,從所述搜索結(jié)果的頁(yè)面數(shù)據(jù)中確定與所述特定應(yīng)用對(duì)應(yīng)的目標(biāo)圖片,并獲取所述目標(biāo)圖片的鏈接信息;
[0009]根據(jù)所述目標(biāo)圖片的鏈接信息,抓取所述目標(biāo)圖片;
[0010]根據(jù)所述目標(biāo)圖片的鏈接信息中記錄的所述目標(biāo)圖片的縮略尺寸和圖片剪裁方式,對(duì)所述目標(biāo)圖片進(jìn)行縮略剪裁操作,得到與所述特定應(yīng)用的頁(yè)面顯示相適應(yīng)的縮略圖。
[0011]結(jié)合第一方面,本發(fā)明實(shí)施例提供了上述第一方面的第一種可能的實(shí)現(xiàn)方式,其中,根據(jù)預(yù)設(shè)的抓取規(guī)則,從所述搜索結(jié)果的頁(yè)面數(shù)據(jù)中確定與所述搜索結(jié)果對(duì)應(yīng)的目標(biāo)圖片,包括:
[0012]從所述搜索結(jié)果的頁(yè)面數(shù)據(jù)中提取各個(gè)圖片的尺寸信息和所述圖片在搜索結(jié)果頁(yè)面的位置信息;
[0013]確定所述圖片尺寸信息符合預(yù)設(shè)尺寸范圍且所述圖片在搜索結(jié)果頁(yè)面的位置信息在預(yù)設(shè)網(wǎng)頁(yè)位置的圖片為待抓取圖片;
[0014]將預(yù)設(shè)的過(guò)濾圖片列表中未記錄的所述待抓取圖片確定為目標(biāo)圖片。
[0015]結(jié)合第一方面和第一方面的第一種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第一方面的第二種可能的實(shí)現(xiàn)方式,其中,在根據(jù)預(yù)設(shè)的抓取規(guī)則,從所述搜索結(jié)果的頁(yè)面數(shù)據(jù)中確定與所述特定應(yīng)用對(duì)應(yīng)的目標(biāo)圖片,并獲取所述目標(biāo)圖片的鏈接信息之后,所述方法還包括:
[0016]根據(jù)所述鏈接信息中攜帶的公鑰,確定與所述公鑰對(duì)應(yīng)的私鑰;
[0017]通過(guò)確定的所述私鑰對(duì)所述鏈接信息中攜帶的所述目標(biāo)圖片的地址信息進(jìn)行加密操作,生成簽名驗(yàn)證信息;
[0018]當(dāng)生成的所述簽名驗(yàn)證信息與所述目標(biāo)圖片攜帶的數(shù)字簽名相一致時(shí),執(zhí)行抓取所述目標(biāo)圖片步驟。
[0019]結(jié)合第一方面,本發(fā)明實(shí)施例提供了上述第一方面的第三種可能的實(shí)現(xiàn)方式,其中,根據(jù)目標(biāo)圖片的鏈接信息,抓取所述目標(biāo)圖片,包括:
[0020]根據(jù)目標(biāo)圖片的鏈接信息中攜帶的地址信息,判斷在預(yù)設(shè)抓取時(shí)間長(zhǎng)度內(nèi)是否有相同的所述目標(biāo)圖片已經(jīng)進(jìn)行了抓取操作;
[0021 ] 如果否,則通過(guò)網(wǎng)絡(luò)爬蟲抓取所述目標(biāo)圖片。
[0022]結(jié)合第一方面和第一方面的第三種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第一方面的第四種可能的實(shí)現(xiàn)方式,其中,根據(jù)目標(biāo)圖片的鏈接信息,抓取所述目標(biāo)圖片,包括:
[0023]當(dāng)所述目標(biāo)圖片抓取失敗時(shí),判斷距離最近一次抓取所述目標(biāo)圖片的時(shí)長(zhǎng)是否達(dá)到預(yù)設(shè)時(shí)間長(zhǎng)度;
[0024]如果是,則當(dāng)抓取失敗的所述目標(biāo)圖片的重復(fù)抓取次數(shù)未達(dá)到預(yù)設(shè)閾值時(shí),從預(yù)設(shè)的代理標(biāo)識(shí)列表中獲取代理標(biāo)識(shí),代理標(biāo)識(shí)用于指示代理服務(wù)器或者代理進(jìn)程;
[0025]利用網(wǎng)絡(luò)爬蟲,通過(guò)獲取到的代理標(biāo)識(shí)對(duì)應(yīng)的代理服務(wù)器或者代理進(jìn)程,對(duì)抓取失敗的所述目標(biāo)圖片進(jìn)行重新抓取。
[0026]結(jié)合第一方面,本發(fā)明實(shí)施例提供了上述第一方面的第五種可能的實(shí)現(xiàn)方式,其中,在根據(jù)目標(biāo)圖片的鏈接信息,抓取所述目標(biāo)圖片之后,所述方法還包括:
[0027]當(dāng)通過(guò)網(wǎng)絡(luò)爬蟲抓取到所述目標(biāo)圖片時(shí),獲取當(dāng)前各個(gè)存儲(chǔ)服務(wù)器的負(fù)載信息;
[0028]根據(jù)所述各個(gè)存儲(chǔ)服務(wù)器的負(fù)載信息,從所述各個(gè)存儲(chǔ)服務(wù)器中確定出負(fù)載最小的存儲(chǔ)服務(wù)器;
[0029]將抓取到的所述目標(biāo)圖片發(fā)送到所述負(fù)載最小的存儲(chǔ)服務(wù)器進(jìn)行存儲(chǔ)。
[0030]結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第一方面的第六種可能的實(shí)現(xiàn)方式,其中,當(dāng)通過(guò)網(wǎng)絡(luò)爬蟲抓取到目標(biāo)圖片時(shí),獲取當(dāng)前存儲(chǔ)服務(wù)器集群中各個(gè)存儲(chǔ)服務(wù)器的負(fù)載信息,包括:
[0031 ]獲取所述網(wǎng)絡(luò)爬蟲抓取到的所述目標(biāo)圖片;
[0032]對(duì)抓取到的所述目標(biāo)圖片的圖片地址進(jìn)行哈希計(jì)算,得到圖片鏈接哈希值;
[0033]生成所述目標(biāo)圖片和對(duì)應(yīng)圖片鏈接哈希值的對(duì)應(yīng)關(guān)系,并將生成的目標(biāo)圖片和對(duì)應(yīng)圖片鏈接哈希值的對(duì)應(yīng)關(guān)系存儲(chǔ)到過(guò)濾圖片列表中。
[0034]結(jié)合第一方面和第一方面的第六種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第一方面的第七種可能的實(shí)現(xiàn)方式,其中,所述方法還包括:
[0035]獲取預(yù)設(shè)清理圖片時(shí)長(zhǎng)內(nèi)被訪問(wèn)過(guò)的圖片鏈接哈希值;
[0036]將獲取到的圖片鏈接哈希值與所述過(guò)濾圖片列表中記錄的圖片鏈接哈希值進(jìn)行對(duì)比,得到預(yù)設(shè)清理圖片時(shí)長(zhǎng)內(nèi)未被訪問(wèn)過(guò)的圖片鏈接哈希值;
[0037]通過(guò)所述目標(biāo)圖片和對(duì)應(yīng)圖片鏈接哈希值的對(duì)應(yīng)關(guān)系和所述未被訪問(wèn)過(guò)的圖片鏈接哈希值,查找出預(yù)設(shè)清理圖片時(shí)長(zhǎng)內(nèi)未被訪問(wèn)過(guò)的圖片鏈接哈希值對(duì)應(yīng)的圖片進(jìn)行刪除。
[0038]第二方面,本發(fā)明實(shí)施例提供了一種搜索結(jié)果頁(yè)面的圖片適應(yīng)性處理的裝置,包括:
[0039]數(shù)據(jù)獲取模塊,用于獲取搜索結(jié)果的頁(yè)面數(shù)據(jù),所述搜索結(jié)果的頁(yè)面數(shù)據(jù)是根據(jù)用戶在特定應(yīng)用發(fā)出的搜索請(qǐng)求所獲取的;
[0040]目標(biāo)圖片確定模塊,用于根據(jù)預(yù)設(shè)的抓取規(guī)則,從搜索結(jié)果的頁(yè)面數(shù)據(jù)中確定與特定應(yīng)用對(duì)應(yīng)的目標(biāo)圖片,并獲取目標(biāo)圖片的鏈接信息;
[0041 ]抓取模塊,用于根據(jù)目標(biāo)圖片的鏈接信息,抓取所述目標(biāo)圖片;
[0042]縮略裁剪模塊,用于根據(jù)所述目標(biāo)圖片的鏈接信息中記錄的所述目標(biāo)圖片的縮略尺寸和圖片剪裁方式,對(duì)所述目標(biāo)圖片進(jìn)行縮略剪裁操作,得到與所述特定應(yīng)用的頁(yè)面顯示相適應(yīng)的縮略圖。
[0043]結(jié)合第二方面,本發(fā)明實(shí)施例提供了上述第二方面的第一種可能的實(shí)現(xiàn)方式,其中,所述目標(biāo)圖片確定模塊,包括:
[0044]圖片信息提取單元,用于從所述搜索結(jié)果的頁(yè)面數(shù)據(jù)中提取各個(gè)圖片的尺寸信息和所述圖片在搜索結(jié)果頁(yè)面的位置信息;
[0045]確定單元,用于確定所述圖片尺寸信息符合預(yù)設(shè)尺寸范圍且所述圖片在搜索結(jié)果頁(yè)面的位置信息在預(yù)設(shè)網(wǎng)頁(yè)位置的圖片為待抓取圖片;
[0046]圖片過(guò)濾單元,用于將預(yù)設(shè)的過(guò)濾圖片列表中未記錄的所述待抓取圖片確定為目標(biāo)圖片。
[0047]結(jié)合第二方面和第二方面的第一種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第二方面的第二種可能的實(shí)現(xiàn)方式,其中,所述裝置還包括:
[0048]私鑰確定單元,用于根據(jù)所述鏈接信息中攜帶的公鑰,確定與所述公鑰對(duì)應(yīng)的私鑰;
[0049]加密單元,用于通過(guò)確定的所述私鑰對(duì)所述鏈接信息中攜帶的所述目標(biāo)圖片的地址信息進(jìn)行加密操作,生成簽名驗(yàn)證信息;
[0050]執(zhí)行單元,用于當(dāng)生成的所述簽名驗(yàn)證信息與所述目標(biāo)圖片攜帶的數(shù)字簽名相一致時(shí),觸發(fā)抓取模塊抓取所述目標(biāo)圖片。
[0051]結(jié)合第二方面,本發(fā)明實(shí)施例提供了上述第二方面的第三種可能的實(shí)現(xiàn)方式,其中,所述抓取模塊,包括:
[0052]第一判斷單元,用于根據(jù)目標(biāo)圖片的鏈接信息中攜帶的地址信息,判斷在預(yù)設(shè)抓取時(shí)間長(zhǎng)度內(nèi)是否有相同的所述目標(biāo)圖片已經(jīng)進(jìn)行了抓取操作;
[0053]抓取單元,用于當(dāng)?shù)谝慌袛鄦卧玫降呐袛嘟Y(jié)果為否時(shí),則通過(guò)網(wǎng)絡(luò)爬蟲抓取所述目標(biāo)圖片。
[0054]結(jié)合第二方面和第二方面的第三種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第二方面的第四種可能的實(shí)現(xiàn)方式,其中,所述抓取模塊,還包括:
[0055]第二判斷單元,用于當(dāng)所述目標(biāo)圖片抓取失敗時(shí),判斷距離最近一次抓取所述目標(biāo)圖片的時(shí)長(zhǎng)是否達(dá)到預(yù)設(shè)時(shí)間長(zhǎng)度;
[0056]代理獲取單元,用于當(dāng)?shù)诙袛鄦卧玫降呐袛嘟Y(jié)果為是時(shí),當(dāng)抓取失敗的所述目標(biāo)圖片的重復(fù)抓取次數(shù)未達(dá)到預(yù)設(shè)閾值時(shí),從預(yù)設(shè)的代理標(biāo)識(shí)列表中獲取代理標(biāo)識(shí),代理標(biāo)識(shí)用于指示代理服務(wù)器或者代理進(jìn)程;
[0057]重抓單元,用于利用所述網(wǎng)絡(luò)爬蟲,通過(guò)獲取到的代理標(biāo)識(shí)對(duì)應(yīng)的代理服務(wù)器或者代理進(jìn)程,對(duì)抓取失敗的所述目標(biāo)圖片進(jìn)行重新抓取。
[0058]結(jié)合第二方面和第二方面,本發(fā)明實(shí)施例提供了上述第二方面的第五種可能的實(shí)現(xiàn)方式,其中,所述裝置還包括:
[0059]負(fù)載信息獲取模塊,用于當(dāng)通過(guò)網(wǎng)絡(luò)爬蟲抓取到所述目標(biāo)圖片時(shí),獲取當(dāng)前各個(gè)存儲(chǔ)服務(wù)器的負(fù)載信息;
[0060]存儲(chǔ)服務(wù)器確定模塊,用于根據(jù)所述各個(gè)存儲(chǔ)服務(wù)器的負(fù)載信息,從所述各個(gè)存儲(chǔ)服務(wù)器中確定出負(fù)載最小的存儲(chǔ)服務(wù)器;
[0061 ]存儲(chǔ)模塊,用于將抓取到的所述目標(biāo)圖片發(fā)送到所述負(fù)載最小的存儲(chǔ)服務(wù)器進(jìn)行存儲(chǔ)。
[0062]結(jié)合第二方面的第五種可能的實(shí)現(xiàn)方式,本發(fā)明實(shí)施例提供了上述第二方面的第六種可能的實(shí)現(xiàn)方式,其中,所述負(fù)載信息獲取模塊,包括:
[0063]圖片獲取單元,用于獲取所述網(wǎng)絡(luò)爬蟲抓取到的所述目標(biāo)圖片;
[0064]計(jì)算單元,用于對(duì)抓取到的所述目標(biāo)圖片的圖片地址進(jìn)行哈希計(jì)