從網頁中提取圖片的方法、裝置及客戶端設備的制作方法
【專利摘要】本發(fā)明提供一種從網頁中提取圖片的方法、裝置及客戶端設備,屬于互聯(lián)網應用【技術領域】。其中,從網頁中提取圖片的方法,包括:步驟a:獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容;步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片;步驟d:獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。本發(fā)明的技術方案可以從網頁中提取與網頁內容具有較高相關度的圖片。
【專利說明】從網頁中提取圖片的方法、裝置及客戶端設備
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網應用【技術領域】,特別是指一種從網頁中提取圖片的方法、裝置及客戶端設備。
【背景技術】
[0002]一般情況下,網頁頁面中除了有文字信息之外,還放置有一些圖片,以更加形象直觀地體現(xiàn)網頁內容。在很多情況下,用戶瀏覽網頁時并不會瀏覽網頁頁面的全部內容,而只關注網頁頁面中的圖片信息,從圖片信息中大致了解網頁的內容。這樣為了方便用戶,可以在用戶沒有打開網頁時,從用戶將要打開的網頁中提取代表網頁內容的某張圖片展示給用戶,以提供預覽欄、在預覽欄中展示圖片的形式,使用戶通過提取的圖片提前了解網頁的內容。
[0003]但是,如果只是簡單地從一個網頁中隨機提取一張圖片展示給用戶,并不能保證提取的圖片與網頁內容具有很高的相關度,也就不能保證用戶從提取的圖片中較為準確的了解網頁的大致內容。
【發(fā)明內容】
[0004]本發(fā)明要解決的技術問題是提供一種從網頁中提取圖片的方法、裝置及客戶端設備,可以從網頁中提取與網頁內容具有較高相關度的圖片。
[0005]為解決上述技術問題,本發(fā)明的實施例提供技術方案如下:
[0006]一方面,提供一種從網頁中提取圖片的方法,包括:
[0007]步驟a:獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容;
[0008]步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片;
[0009]步驟d:獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。
[0010]進一步地,上述方案中,所述步驟a之后,所述步驟c之前,所述方法還包括:
[0011]步驟b:根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度,根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理,所述合并處理后,所述網頁的實質內容中的段落包括合并段落和未合并段落;
[0012]所述步驟c中確定所述實質內容中的段落的重要程度包括:
[0013]確定所述合并段落和未合并段落的重要程度;或者
[0014]確定所述合并段落和未合并段落中包含有圖片的段落的重要程度。
[0015]進一步地,上述方案中,所述步驟b中根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度包括:
[0016]根據所述獲取的所述網頁的實質內容,將所述網頁的實質內容中每個段落的文字拆分為多個詞語,并對拆分后的詞語進行過濾,去除其中的干擾詞,并統(tǒng)計剩余的非干擾詞的詞頻,所述詞頻為所述非干擾詞在所述段落中出現(xiàn)的次數(shù);
[0017]根據每個所述段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度。
[0018]進一步地,上述方案中,所述根據每個段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度包括:
[0019]按照相鄰段落中第一個段落的非干擾詞的詞頻建立第一向量,按照相鄰段落中第二個段落的非干擾詞的詞頻建立第二向量,所述第一個段落和第二個段落相同的非干擾詞分別位于所述第一向量和第二向量的相同位置;
[0020]計算所述第一向量和第二向量的夾角的余弦值,并將該余弦值作為所述相鄰段落的相關度;
[0021]所述步驟b中根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理包括:
[0022]當所述相鄰段落的相關度大于設定的第二閾值時,將所述第一個段落和所述第二個段落合并,得到一個合并段落。
[0023]進一步地,上述方案中,所述步驟a包括:
[0024]獲取網頁的源代碼,根據源代碼獲取所述網頁的整個內容,所述整個內容包括html標簽、屬性、注釋、腳本、級聯(lián)樣式表樣式、文字和圖片中的至少一種;
[0025]對整個所述網頁內容進行分析,刪除不相干的內容,得到網頁的實質內容,所述不相干的內容包括html標簽、屬性、注釋、腳本和級聯(lián)樣式表樣式。
[0026]進一步地,上述方案中,所述步驟c中確定所述實質內容中的段落的重要程度包括:
[0027]獲取每個所述段落的重要程度計算參數(shù),所述重要程度計算參數(shù)包括以下參數(shù)的至少一種:
[0028]所述段落與網頁的吻合度、所述段落的關鍵詞密度、所述段落的字數(shù)、所述段落的字數(shù)與所述網頁的實質內容的字數(shù)的比率;
[0029]根據每個所述段落的重要程度計算參數(shù)和所述重要程度計算參數(shù)對應的權重,將每個重要程度計算參數(shù)與其相應的權重相乘后再求和,得到每個所述段落的重要程度。
[0030]進一步地,上述方案中,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度、所述段落的關鍵詞密度和所述段落的字數(shù);
[0031]所述段落與網頁的吻合度的權重、所述段落的關鍵詞密度的權重和所述段落的字數(shù)的權重的比值為3:1:0.2至5:2:0.5。
[0032]進一步地,上述方案中,所述重要程度計算參數(shù)包括所述段落的關鍵詞密度;
[0033]所述獲取每個所述段落的重要程度計算參數(shù)包括:
[0034]獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;
[0035]統(tǒng)計所述段落的段落關鍵詞與全文關鍵詞中重合的詞在所述段落中出現(xiàn)的次數(shù),將所述重合的詞在所述段落中出現(xiàn)的次數(shù)求和得到所述段落的關鍵詞密度。
[0036]進一步地,上述方案中,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度;
[0037]所述獲取每個所述段落的重要程度計算參數(shù)包括:
[0038]獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;
[0039]確定每個所述段落的段落關鍵詞與所述全文關鍵詞中重合的詞的個數(shù)、或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率,以將所述重合的詞的個數(shù)或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率作為每個所述段落與網頁的吻合度。
[0040]進一步地,上述方案中,所述獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞包括:
[0041]對所述網頁的實質內容中的非干擾詞按照在所述網頁的實質內容中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前M個非干擾詞作為所述網頁的實質內容的全文關鍵詞,其中M為不小于I的整數(shù),;
[0042]對于每個所述段落中的非干擾詞按照在所述段落中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前N個非干擾詞作為所述段落的段落關鍵詞,其中N為不小于I的整數(shù)。
[0043]進一步地,上述方案中,所述步驟d之前,所述方法還包括:
[0044]判斷所述目標圖片的長度和寬度是否均小于預設的第三閾值;
[0045]在所述目標圖片的長度和寬度均小于預設的第三閾值時,放棄獲取所述目標圖片。
[0046]進一步地,上述方案中,所述步驟d包括:
[0047]通過超文本預處理語言PHP的curl庫向服務器發(fā)送http請求,所述http請求中,referer字段中包含的鏈接地址為所述目標圖片所在的原始頁面的鏈接地址。
[0048]進一步地,上述方案中,所述根據所述源代碼獲取網頁的實質內容之前還包括:
[0049]根據所述源代碼,確定所述網頁是否為站點主頁;
[0050]如果確定所述網頁為站點主頁,從所述源代碼中查找所述網頁的主標題,并將所述查找到的主標題后的圖片確定為待抓取的目標圖片;
[0051]如果沒有查找到主標題或者所述查找到的主標題后沒有圖片,從所述源代碼中查找第一張圖片,將所述第一張圖片確定為待抓取的目標圖片。
[0052]本發(fā)明實施例還提供了一種網頁展示方法,包括:
[0053]提供第一界面,所述第一界面中包括頁面地址欄以及預覽欄,所述頁面地址欄中顯示有用戶預先存儲的網頁列表,所述列表中包括所述網頁的標識信息,所述標識信息包括所述網頁的標題和/或所述下載頁面的地址;
[0054]接收用戶對顯示在所述頁面地址欄的第一網頁的標識信息的第一操作指令;
[0055]根據所述第一操作指令,獲取所述第一網頁的圖片;
[0056]在所述預覽欄中向用戶展示所述獲取的圖片,以使所述用戶能夠在未打開所述第一網頁時通過查看所述圖片了解所述第一網頁的內容。
[0057]進一步地,上述方案中,所述根據所述第一操作指令,獲取所述第一網頁的圖片包括:
[0058]步驟a:獲取所述第一網頁的源代碼,根據所述源代碼獲取所述第一網頁的實質內容;
[0059]步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待獲取的目標圖片;
[0060]步驟d:獲取所述目標圖片;
[0061]或者,
[0062]從服務器接收所述第一網頁的圖片,所述服務器通過所述步驟a、C、d獲取所述第一網頁的圖片。
[0063]本發(fā)明實施例還提供了一種從網頁中提取圖片的裝置,包括:
[0064]獲取模塊,用于獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容;
[0065]計算模塊,用于確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片;
[0066]下載模塊,用于獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。
[0067]進一步地,上述方案中,所述裝置還包括:
[0068]合并模塊,用于根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度,根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理,所述合并處理后,所述網頁的實質內容中的段落包括合并段落和未合并段落;
[0069]所述計算模塊用于確定所述合并段落和未合并段落的重要程度;或者
[0070]確定所述合并段落和未合并段落中包含有圖片的段落的重要程度。
[0071]進一步地,上述方案中,所述合并模塊包括:
[0072]拆分子模塊,用于根據所述獲取的所述網頁的實質內容,將所述網頁的實質內容中每個段落的文字拆分為多個詞語,并對拆分后的詞語進行過濾,去除其中的干擾詞,并統(tǒng)計剩余的非干擾詞的詞頻,所述詞頻為所述非干擾詞在所述段落中出現(xiàn)的次數(shù);
[0073]合并子模塊,用于根據每個所述段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度。
[0074]進一步地,上述方案中,所述根據每個段落中的非干擾詞及非干擾詞的詞頻,
[0075]所述合并子模塊具體用于按照相鄰段落中第一個段落的非干擾詞的詞頻建立第一向量,按照相鄰段落中第二個段落的非干擾詞的詞頻建立第二向量,所述第一個段落和第二個段落相同的非干擾詞分別位于所述第一向量和第二向量的相同位置,計算所述第一向量和第二向量的夾角的余弦值,并將該余弦值作為所述相鄰段落的相關度;
[0076]所述合并模塊具體用于當所述相鄰段落的相關度大于設定的第二閾值時,將所述第一個段落和所述第二個段落合并,得到一個合并段落。
[0077]進一步地,上述方案中,所述獲取模塊包括:
[0078]抓取子模塊,用于獲取網頁的源代碼,根據源代碼獲取所述網頁的整個內容,所述整個內容包括html標簽、屬性、注釋、腳本、級聯(lián)樣式表樣式、文字和圖片中的至少一種;
[0079]篩選子模塊,用于對整個所述網頁內容進行分析,刪除不相干的內容,得到網頁的實質內容,所述不相干的內容包括html標簽、屬性、注釋、腳本和級聯(lián)樣式表樣式。
[0080]進一步地,上述方案中,所述計算模塊包括:
[0081]計算子模塊,用于獲取每個所述段落的重要程度計算參數(shù),所述重要程度計算參數(shù)包括以下參數(shù)的至少一種:
[0082]所述段落與網頁的吻合度、所述段落的關鍵詞密度、所述段落的字數(shù)、所述段落的字數(shù)與所述網頁的實質內容的字數(shù)的比率;
[0083]求權子模塊,用于根據每個所述段落的重要程度計算參數(shù)和所述重要程度計算參數(shù)對應的權重,將每個重要程度計算參數(shù)與其相應的權重相乘后再求和,得到每個所述段落的重要程度。
[0084]進一步地,上述方案中,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度、所述段落的關鍵詞密度和所述段落的字數(shù);
[0085]所述段落與網頁的吻合度的權重、所述段落的關鍵詞密度的權重和所述段落的字數(shù)的權重的比值為3:1:0.2至5:2:0.5。
[0086]進一步地,上述方案中,所述重要程度計算參數(shù)包括所述段落的關鍵詞密度;
[0087]所述計算子模塊具體用于獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;統(tǒng)計所述段落的段落關鍵詞與全文關鍵詞中重合的詞在所述段落中出現(xiàn)的次數(shù),將所述重合的詞在所述段落中出現(xiàn)的次數(shù)求和得到所述段落的關鍵詞密度。
[0088]進一步地,上述方案中,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度;
[0089]所述計算子模塊具體用于獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;
[0090]確定每個所述段落的段落關鍵詞與所述全文關鍵詞中重合的詞的個數(shù)、或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率,以將所述重合的詞的個數(shù)或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率作為每個所述段落與網頁的吻合度。
[0091]進一步地,上述方案中,所述計算子模塊包括:
[0092]關鍵詞獲取單元,用于對所述網頁的實質內容中的非干擾詞按照在所述網頁的實質內容中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前M個非干擾詞作為所述網頁的實質內容的全文關鍵詞,其中M為不小于I的整數(shù),;
[0093]對于每個所述段落中的非干擾詞按照在所述段落中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前N個非干擾詞作為所述段落的段落關鍵詞,其中N為不小于I的整數(shù)。
[0094]進一步地,上述方案中,所述裝置還包括:
[0095]判斷模塊,用于判斷所述目標圖片的長度和寬度是否均小于預設的第三閾值,并在所述目標圖片的長度和寬度均小于預設的第三閾值時,放棄獲取所述目標圖片。
[0096]進一步地,上述方案中,所述下載模塊具體用于通過超文本預處理語言PHP的curl庫向服務器發(fā)送http請求,所述http請求中,referer字段中包含的鏈接地址為所述目標圖片所在的原始頁面的鏈接地址。
[0097]進一步地,上述方案中,所述裝置還包括:
[0098]確定模塊,用于根據所述源代碼,確定所述網頁是否為站點主頁;如果確定所述網頁為站點主頁,從所述源代碼中查找所述網頁的主標題,并將所述查找到的主標題后的圖片確定為待抓取的目標圖片;如果沒有查找到主標題或者所述查找到的主標題后沒有圖片,從所述源代碼中查找第一張圖片,將所述第一張圖片確定為待抓取的目標圖片。
[0099]本發(fā)明實施例還提供了一種客戶端設備,包括如上所述的從網頁中提取圖片的裝置。
[0100]本發(fā)明實施例還提供了一種網頁展示裝置,包括:
[0101]顯示模塊,用于提供第一界面,所述第一界面中包括頁面地址欄以及預覽欄,所述頁面地址欄中顯示有用戶預先存儲的網頁列表,所述列表中包括所述網頁的標識信息,所述標識信息包括所述網頁的標題和/或所述下載頁面的地址;
[0102]接收模塊,用于接收用戶對顯示在所述頁面地址欄的第一網頁的標識信息的第一操作指令;
[0103]獲取模塊,用于根據所述第一操作指令,獲取所述第一網頁的圖片;
[0104]展示模塊,用于在所述預覽欄中向用戶展示所述獲取的圖片,以使所述用戶能夠在未打開所述第一網頁時通過查看所述圖片了解所述第一網頁的內容。
[0105]進一步地,上述方案中,所述獲取模塊具體用于通過以下步驟獲取所述第一網頁的圖片:
[0106]步驟a:獲取所述第一網頁的源代碼,根據所述源代碼獲取所述第一網頁的實質內容;
[0107]步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待獲取的目標圖片;
[0108]步驟d:獲取所述目標圖片;
[0109]或者,
[0110]從服務器接收所述第一網頁的圖片,所述服務器通過所述步驟a、C、d獲取所述第一網頁的圖片。
[0111]本發(fā)明的實施例具有以下有益效果:
[0112]上述方案中,通過獲取網頁的實質內容,并對網頁的實質內容進行分析處理,能夠提取出一張與網頁內容最相關的圖片來展示網頁的內容,用戶只需要預覽提取出的圖片,即可大致了解網頁的主要內容。
【專利附圖】
【附圖說明】
[0113]圖1為本發(fā)明實施例的從網頁中提取圖片的方法的流程示意圖;
[0114]圖2為本發(fā)明實施例的從網頁中提取圖片的裝置的結構框圖;
[0115]圖3為本發(fā)明實施例求取相鄰兩個段落的相關度的示意圖;
[0116]圖4為本發(fā)明具體實施例中新聞頁面的示意圖;
[0117]圖5為本發(fā)明實施例應用于收藏夾時的示意圖。
【具體實施方式】
[0118]為使本發(fā)明的實施例要解決的技術問題、技術方案和優(yōu)點更加清楚,下面將結合附圖及具體實施例進行詳細描述。
[0119]本發(fā)明的實施例提供一種從網頁中提取圖片的方法、裝置及客戶端設備,可以從網頁中提取與網頁內容具有較高相關度的圖片。
[0120]圖1為本發(fā)明實施例的從網頁中提取圖片的方法的流程示意圖,如圖1所示,本實施例包括:
[0121]步驟a:獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容;
[0122]步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片;
[0123]步驟d:獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。
[0124]本發(fā)明的從網頁中提取圖片的方法,通過獲取網頁的實質內容,并對網頁的實質內容進行分析處理,能夠提取出一張與網頁內容最相關的圖片來展示網頁的內容,用戶不需要打開網頁,只需要預覽提取出的圖片,即可大致了解網頁的主要內容。
[0125]進一步地,本發(fā)明的另一實施例中,所述步驟a之后,所述步驟c之前,所述方法還包括:
[0126]步驟b:根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度,根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理,所述合并處理后,所述網頁的實質內容中的段落包括合并段落和未合并段落;
[0127]所述步驟c中確定所述實質內容中的段落的重要程度包括:
[0128]確定所述合并段落和未合并段落的重要程度;或者
[0129]確定所述合并段落和未合并段落中包含有圖片的段落的重要程度。
[0130]進一步地,本發(fā)明的另一實施例中,所述步驟b中根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度包括:
[0131]根據所述獲取的所述網頁的實質內容,將所述網頁的實質內容中每個段落的文字拆分為多個詞語,并對拆分后的詞語進行過濾,去除其中的干擾詞,并統(tǒng)計剩余的非干擾詞的詞頻,所述詞頻為所述非干擾詞在所述段落中出現(xiàn)的次數(shù);
[0132]根據每個所述段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度。
[0133]進一步地,本發(fā)明的另一實施例中,所述根據每個段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度包括:
[0134]按照相鄰段落中第一個段落的非干擾詞的詞頻建立第一向量,按照相鄰段落中第二個段落的非干擾詞的詞頻建立第二向量,所述第一個段落和第二個段落相同的非干擾詞分別位于所述第一向量和第二向量的相同位置;
[0135]計算所述第一向量和第二向量的夾角的余弦值,并將該余弦值作為所述相鄰段落的相關度;
[0136]所述步驟b中根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理包括:
[0137]當所述相鄰段落的相關度大于設定的第二閾值時,將所述第一個段落和所述第二個段落合并,得到一個合并段落。
[0138]進一步地,本發(fā)明的另一實施例中,所述步驟a包括:
[0139]獲取網頁的源代碼,根據源代碼獲取所述網頁的整個內容,所述整個內容包括html標簽、屬性、注釋、腳本、級聯(lián)樣式表樣式、文字和圖片中的至少一種;
[0140]對整個所述網頁內容進行分析,刪除不相干的內容,得到網頁的實質內容,所述不相干的內容包括html標簽、屬性、注釋、腳本和級聯(lián)樣式表樣式。
[0141]進一步地,本發(fā)明的另一實施例中,所述步驟c中確定所述實質內容中的段落的重要程度包括:
[0142]獲取每個所述段落的重要程度計算參數(shù),所述重要程度計算參數(shù)包括以下參數(shù)的至少一種:
[0143]所述段落與網頁的吻合度、所述段落的關鍵詞密度、所述段落的字數(shù)、所述段落的字數(shù)與所述網頁的實質內容的字數(shù)的比率;
[0144]根據每個所述段落的重要程度計算參數(shù)和所述重要程度計算參數(shù)對應的權重,將每個重要程度計算參數(shù)與其相應的權重相乘后再求和,得到每個所述段落的重要程度。
[0145]一般情況下,使用合并段落與網頁全文的吻合度、關鍵詞密度、及合并段落字數(shù)這三個因素計算合并段落的重要程度的準確率較高,但不限于此,也可以僅使用這三個因素中的一種或兩種計算。
[0146]進一步地,本發(fā)明的另一實施例中,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度、所述段落的關鍵詞密度和所述段落的字數(shù);
[0147]所述段落與網頁的吻合度的權重、所述段落的關鍵詞密度的權重和所述段落的字數(shù)的權重的比值為3:1:0.2至5:2:0.5。
[0148]進一步地,本發(fā)明的另一實施例中,所述重要程度計算參數(shù)包括所述段落的關鍵詞密度;
[0149]所述獲取每個所述段落的重要程度計算參數(shù)包括:
[0150]獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;
[0151]統(tǒng)計所述段落的段落關鍵詞與全文關鍵詞中重合的詞在所述段落中出現(xiàn)的次數(shù),將所述重合的詞在所述段落中出現(xiàn)的次數(shù)求和得到所述段落的關鍵詞密度。
[0152]進一步地,本發(fā)明的另一實施例中,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度;
[0153]所述獲取每個所述段落的重要程度計算參數(shù)包括:
[0154]獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;
[0155]確定每個所述段落的段落關鍵詞與所述全文關鍵詞中重合的詞的個數(shù)、或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率,以將所述重合的詞的個數(shù)或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率作為每個所述段落與網頁的吻合度。
[0156]具體地,所述獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞包括:
[0157]對所述網頁的實質內容中的非干擾詞按照在所述網頁的實質內容中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前M個非干擾詞作為所述網頁的實質內容的全文關鍵詞,其中M為不小于I的整數(shù),;
[0158]對于每個所述段落中的非干擾詞按照在所述段落中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前N個非干擾詞作為所述段落的段落關鍵詞,其中N為不小于I的整數(shù)。
[0159]進一步地,本發(fā)明的另一實施例中,包括上述步驟a_b的基礎上,所述步驟d之前,所述方法還包括:
[0160]判斷所述目標圖片的長度和寬度是否均小于預設的第三閾值;
[0161]在所述目標圖片的長度和寬度均小于預設的第三閾值時,放棄獲取所述目標圖片。
[0162]進一步地,本發(fā)明的另一實施例中,包括上述步驟a_b的基礎上,所述步驟d包括:
[0163]通過超文本預處理語言PHP的curl庫向服務器發(fā)送http請求,所述http請求中,referer字段中包含的鏈接地址為所述目標圖片所在的原始頁面的鏈接地址。
[0164]進一步地,本發(fā)明的另一實施例中,包括上述步驟a_b的基礎上,所述根據所述源代碼獲取網頁的實質內容之前還包括:
[0165]根據所述源代碼,確定所述網頁是否為站點主頁;
[0166]如果確定所述網頁為站點主頁,從所述源代碼中查找所述網頁的主標題,并將所述查找到的主標題后的圖片確定為待抓取的目標圖片;
[0167]如果沒有查找到主標題或者所述查找到的主標題后沒有圖片,從所述源代碼中查找第一張圖片,將所述第一張圖片確定為待抓取的目標圖片。
[0168]圖2為本發(fā)明實施例的從網頁中提取圖片的裝置的結構框圖,如圖2所示,本實施例包括:
[0169]獲取模塊20,用于獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容;
[0170]計算模塊22,用于確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片;
[0171]下載模塊23,用于獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。
[0172]進一步地,本發(fā)明的另一實施例中,包括上述結構的基礎上,所述裝置還包括:
[0173]合并模塊21,用于根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度,根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理,所述合并處理后,所述網頁的實質內容中的段落包括合并段落和未合并段落;
[0174]所述計算模塊22用于確定所述合并段落和未合并段落的重要程度;或者
[0175]確定所述合并段落和未合并段落中包含有圖片的段落的重要程度。
[0176]進一步地,本發(fā)明的另一實施例中,包括上述結構的基礎上,所述合并模塊包括:
[0177]拆分子模塊,用于根據所述獲取的所述網頁的實質內容,將所述網頁的實質內容中每個段落的文字拆分為多個詞語,并對拆分后的詞語進行過濾,去除其中的干擾詞,并統(tǒng)計剩余的非干擾詞的詞頻,所述詞頻為所述非干擾詞在所述段落中出現(xiàn)的次數(shù);
[0178]合并子模塊,用于根據每個所述段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度。
[0179]進一步地,所述根據每個段落中的非干擾詞及非干擾詞的詞頻,
[0180]所述合并子模塊具體用于按照相鄰段落中第一個段落的非干擾詞的詞頻建立第一向量,按照相鄰段落中第二個段落的非干擾詞的詞頻建立第二向量,所述第一個段落和第二個段落相同的非干擾詞分別位于所述第一向量和第二向量的相同位置,計算所述第一向量和第二向量的夾角的余弦值,并將該余弦值作為所述相鄰段落的相關度;
[0181]所述合并模塊具體用于當所述相鄰段落的相關度大于設定的第二閾值時,將所述第一個段落和所述第二個段落合并,得到一個合并段落。
[0182]進一步地,本發(fā)明的另一實施例中,包括上述結構的基礎上,所述獲取模塊包括:
[0183]抓取子模塊,用于獲取網頁的源代碼,根據源代碼獲取所述網頁的整個內容,所述整個內容包括html標簽、屬性、注釋、腳本、級聯(lián)樣式表樣式、文字和圖片中的至少一種;
[0184]篩選子模塊,用于對整個所述網頁內容進行分析,刪除不相干的內容,得到網頁的實質內容,所述不相干的內容包括html標簽、屬性、注釋、腳本和級聯(lián)樣式表樣式。
[0185]進一步地,本發(fā)明的另一實施例中,包括上述結構的基礎上,所述計算模塊包括:
[0186]計算子模塊,用于獲取每個所述段落的重要程度計算參數(shù),所述重要程度計算參數(shù)包括以下參數(shù)的至少一種:
[0187]所述段落與網頁的吻合度、所述段落的關鍵詞密度、所述段落的字數(shù)、所述段落的字數(shù)與所述網頁的實質內容的字數(shù)的比率;
[0188]求權子模塊,用于根據每個所述段落的重要程度計算參數(shù)和所述重要程度計算參數(shù)對應的權重,將每個重要程度計算參數(shù)與其相應的權重相乘后再求和,得到每個所述段落的重要程度。
[0189]一般情況下,使用合并段落與網頁全文的吻合度、關鍵詞密度、及合并段落字數(shù)這三個因素計算合并段落的重要程度的準確率較高,但不限于此,也可以僅使用這三個因素中的一種或兩種計算。
[0190]優(yōu)選地,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度、所述段落的關鍵詞密度和所述段落的字數(shù);
[0191]所述段落與網頁的吻合度的權重、所述段落的關鍵詞密度的權重和所述段落的字數(shù)的權重的比值為3:1:0.2至5:2:0.5。
[0192]進一步地,所述重要程度計算參數(shù)包括所述段落的關鍵詞密度;
[0193]所述計算子模塊具體用于獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;統(tǒng)計所述段落的段落關鍵詞與全文關鍵詞中重合的詞在所述段落中出現(xiàn)的次數(shù),將所述重合的詞在所述段落中出現(xiàn)的次數(shù)求和得到所述段落的關鍵詞密度。
[0194]進一步地,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度;
[0195]所述計算子模塊具體用于獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;
[0196]確定每個所述段落的段落關鍵詞與所述全文關鍵詞中重合的詞的個數(shù)、或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率,以將所述重合的詞的個數(shù)或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率作為每個所述段落與網頁的吻合度。
[0197]進一步地,所述計算子模塊包括:
[0198]關鍵詞獲取單元,用于對所述網頁的實質內容中的非干擾詞按照在所述網頁的實質內容中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前M個非干擾詞作為所述網頁的實質內容的全文關鍵詞,其中M為不小于I的整數(shù),;
[0199]對于每個所述段落中的非干擾詞按照在所述段落中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前N個非干擾詞作為所述段落的段落關鍵詞,其中N為不小于I的整數(shù)。
[0200]進一步地,本發(fā)明的另一實施例中,包括上述結構的基礎上,所述裝置還包括:
[0201]判斷模塊,用于判斷所述目標圖片的長度和寬度是否均小于預設的第三閾值,并在所述目標圖片的長度和寬度均小于預設的第三閾值時,放棄獲取所述目標圖片。
[0202]進一步地,本發(fā)明的另一實施例中,包括上述結構的基礎上,所述下載模塊具體用于通過超文本預處理語言PHP的curl庫向服務器發(fā)送http請求,所述http請求中,referer字段中包含的鏈接地址為所述目標圖片所在的原始頁面的鏈接地址。
[0203]進一步地,本發(fā)明的另一實施例中,包括上述結構的基礎上,所述裝置還包括:
[0204]確定模塊,用于根據所述源代碼,確定所述網頁是否為站點主頁;如果確定所述網頁為站點主頁,從所述源代碼中查找所述網頁的主標題,并將所述查找到的主標題后的圖片確定為待抓取的目標圖片;如果沒有查找到主標題或者所述查找到的主標題后沒有圖片,從所述源代碼中查找第一張圖片,將所述第一張圖片確定為待抓取的目標圖片。
[0205]本發(fā)明的從網頁中提取圖片的裝置,通過獲取網頁的實質內容,并對網頁的實質內容進行分析處理,能夠提取出一張與網頁內容最相關的圖片來展示網頁的內容,用戶只需要預覽提取出的圖片,即可大致了解網頁的主要內容。
[0206]本發(fā)明實施例還提供了一種客戶端設備,包括如上所述的從網頁中提取圖片的裝置。該客戶端設備可以設置在瀏覽器中,還可以設置在移動終端或PC (個人電腦)上。
[0207]本發(fā)明實施例還提供了一種網頁展示方法,包括:
[0208]提供第一界面,所述第一界面中包括頁面地址欄以及預覽欄,所述頁面地址欄中顯示有用戶預先存儲的網頁列表,所述列表中包括所述網頁的標識信息,所述標識信息包括所述網頁的標題和/或所述下載頁面的地址;
[0209]接收用戶對顯示在所述頁面地址欄的第一網頁的標識信息的第一操作指令;
[0210]根據所述第一操作指令,獲取所述第一網頁的圖片;
[0211]在所述預覽欄中向用戶展示所述獲取的圖片,以使所述用戶能夠在未打開所述第一網頁時通過查看所述圖片了解所述第一網頁的內容。
[0212]進一步地,所述根據所述第一操作指令,獲取所述第一網頁的圖片包括:
[0213]步驟a:獲取所述第一網頁的源代碼,根據所述源代碼獲取所述第一網頁的實質內容;
[0214]步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待獲取的目標圖片;
[0215]步驟d:獲取所述目標圖片;
[0216]或者,
[0217]從服務器接收所述第一網頁的圖片,所述服務器通過所述步驟a、C、d獲取所述第一網頁的圖片。
[0218]對應地,本發(fā)明實施例還提供了一種網頁展示裝置,包括:
[0219]顯示模塊,用于提供第一界面,所述第一界面中包括頁面地址欄以及預覽欄,所述頁面地址欄中顯示有用戶預先存儲的網頁列表,所述列表中包括所述網頁的標識信息,所述標識信息包括所述網頁的標題和/或所述下載頁面的地址;
[0220]接收模塊,用于接收用戶對顯示在所述頁面地址欄的第一網頁的標識信息的第一操作指令;
[0221]獲取模塊,用于根據所述第一操作指令,獲取所述第一網頁的圖片;
[0222]展示模塊,用于在所述預覽欄中向用戶展示所述獲取的圖片,以使所述用戶能夠在未打開所述第一網頁時通過查看所述圖片了解所述第一網頁的內容。
[0223]進一步地,上述方案中,所述獲取模塊具體用于通過以下步驟獲取所述第一網頁的圖片:
[0224]步驟a:獲取所述第一網頁的源代碼,根據所述源代碼獲取所述第一網頁的實質內容;
[0225]步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待獲取的目標圖片;
[0226]步驟d:獲取所述目標圖片;
[0227]或者,
[0228]從服務器接收所述第一網頁的圖片,所述服務器通過所述步驟a、C、d獲取所述第一網頁的圖片。
[0229]下面結合具體的實施例對本發(fā)明的從網頁中提取圖片的方法進行詳細介紹,本實施例的從網頁中提取圖片的方法具體包括以下步驟:
[0230]步驟I)抓取待提取圖片的網頁的源代碼,根據該源代碼獲取整個網頁內容,其中整個網頁內容包括html(Hypertext Markup Language,超文本標記語言)標簽、屬性、注釋、腳本、css (級聯(lián)樣式表)樣式、文字、圖片等信息;
[0231]步驟2)對整個網頁內容進行分析,刪除不相干的內容,如html標簽、屬性、注釋、腳本、CSS樣式等,得到網頁的實質內容;
[0232]具體地,可以根據正則表達式查找網頁對應的源代碼中不相干的內容。為了方便,本發(fā)明中將刪除不相干的內容后的剩余的網頁內容稱為網頁的實質內容。
[0233]步驟3)針對網頁的實質內容中的每個段落,這里的段落指的是網頁的實質內容中的初始段落。將初始段落中的文字拆分成多個詞語,根據拆分結果對拆分的詞語進行過濾,去除干擾詞(比如“我的”、“這個”等),將去除干擾詞后剩余的詞稱為非干擾詞,統(tǒng)計每個非干擾詞的詞頻,即每個非干擾詞在當前初始段落中出現(xiàn)的次數(shù);
[0234]具體實現(xiàn)上,可以預先在后臺維護一個詞庫,詞庫中搜集大量干擾詞,將拆分后的詞語與詞庫中的干擾詞進行對比,如果拆分后的詞語中存在與詞庫中相同的詞,則將其作為干擾詞去除。
[0235]步驟4)根據每個段落中的非干擾詞及非干擾詞的詞頻,獲取相鄰兩個段落的相關度,根據相關度對段落進行文本聚類,即進行段落的合并,本發(fā)明將合并后的段落稱為合并段落,合并段落中包括進行合并后形成的段落和合并處理后未被合并的段落;
[0236]下面以兩個相鄰的段落為例詳細說明計算兩個段落相關度的方法:
[0237]在相鄰段落中的第一個段落如果有5個非干擾詞(實際上可能不止5個):網頁、人物、技術、理解、評論,這些非干擾詞的詞頻分別為3、5、6、9、4,相鄰段落中的第二個段落中如果有4個非干擾詞(實際上可能不止4個):網頁、人物、政治、貪污,這些非干擾詞的詞頻分別為2、6、5、4,其中第一個段落和第二個段落中有2個非干擾詞是重復的,按照詞頻的值分別針對第一個段落和第二個段落建立向量模型:
[0238]X= [3,5,6,9,4,0,O]
[0239]Y=[2, 6, O, O, O, 5, 4]
[0240]其中,X為第一個段落的向量模型,Y為第二個段落的向量模型,如圖3所示,兩個段落的相關度可以通過以上兩個向量的夾角的余弦值來表示,余弦值越大,相關度越大,當相關度大于設定的第二閾值時,將相鄰兩個段落合并。
[0241]按照上述方法,針對每兩個相鄰的段落都采用同樣的方法計算相關度,根據相關度判斷是否對兩個相鄰段落進行合并。
[0242]步驟5)針對經過上述合并處理后的合并段落,獲取每個合并段落的重要程度計算參數(shù),重要程度計算參數(shù)包括以下幾種參數(shù)的至少一種:合并段落與網頁全文的吻合度、合并段落的關鍵詞密度、合并段落的字數(shù)、合并段落的字數(shù)與網頁的實質內容的字數(shù)的比率;
[0243]其中,獲取合并段落的字數(shù)以及合并段落的字數(shù)與網頁的實質內容的字數(shù)的比率的技術方案在此不再贅述,下面介紹如果獲取合并段落與網頁全文的吻合度以及合并段落的關鍵詞密度:首先獲取合并段落的段落關鍵詞及網頁的實質內容的全文關鍵詞,之后根據段落關鍵詞及全文關鍵詞獲取每個合并段落與網頁全文的吻合度、根據合并段落的段落關鍵詞獲取合并段落的關鍵詞密度;
[0244]其中,合并段落的段落關鍵詞的獲取方法為:對于每個合并段落中的非干擾詞,按照詞頻的從高到低進行排序,提取前N個非干擾詞(N為不小于I的整數(shù)),作為該合并段落的段落關鍵詞。
[0245]全文關鍵詞的獲取方法為:將網頁的實質內容中的非干擾詞按照詞頻的從高到低進行排序,提取前M個非干擾詞(M為不小于I的整數(shù),其中M與N可以相同,也可以不相同),作為全文關鍵詞。即將全文作為一個段落,按照前面針對段落的分析方法獲取全文中每個非干擾詞的詞頻,將全文的非干擾詞按照詞頻的從高到低排序,提取前M個非干擾詞,作為全文關鍵詞。
[0246]合并段落與網頁全文的吻合度的獲取方法為:可以通過每個合并段落的段落關鍵詞與全文關鍵詞重合的詞的個數(shù)或比率來體現(xiàn)。若使用個數(shù)體現(xiàn),假設合并段落的段落關鍵詞中有3個與全文關鍵詞重合,則該合并段落與網頁全文的吻合度為3。若使用比率體現(xiàn),假設合并段落的段落關鍵詞中有3個與全文關鍵詞重合,因為總共具有5個全文關鍵詞,則該合并段落與網頁全文的吻合度為3/5。
[0247]合并段落的關鍵詞密度的獲取方法為:分別統(tǒng)計段落關鍵詞與全文關鍵詞重合的詞在當前合并段落中出現(xiàn)的次數(shù),將重合的詞在當前合并段落中出現(xiàn)的次數(shù)求和即為當前合并段落的關鍵詞密度。如合并段落的段落關鍵詞中有3個與全文關鍵詞重合,在當前合并段落中分別出現(xiàn)5、4、3次,則當前合并段落的關鍵詞密度為12。
[0248]步驟6)根據預先為每個重要程度計算參數(shù)分配的相應的權重,將每個重要程度計算參數(shù)與相應的權重相乘再求和,得到每個合并段落的重要程度;
[0249]本步驟中,使用合并段落與網頁全文的吻合度、合并段落的關鍵詞密度、及合并段落的字數(shù)這三個因素進行計算的準確率較高,但不限于此,也可以僅使用這三個因素中的一種或兩種計算。
[0250]其中,在使用合并段落與網頁全文的吻合度、合并段落的關鍵詞密度、及合并段落的字數(shù)這三個因素進行計算時,分別為上述三個因素分配相應的權重,具體權重值可以根據經驗獲得,一般情況下,合并段落與網頁全文的吻合度的權重最高、合并段落的關鍵詞密度的權重次之、合并段落的字數(shù)的權重最小,一具體實例中,合并段落與網頁全文的吻合度的權重可以為3-5,合并段落的關鍵詞密度的權重可以為1-2,合并段落的字數(shù)權重可以為
0.2-0.5??梢岳斫獾模鲜鰴嘀刂悼梢猿杀壤淖?。分別將上述三個因素值與相應的權重相乘,再求和,通過計算結果獲得每個合并段落的重要程度。
[0251]進一步地,本步驟的方法中,也可以利用當前合并段落的字數(shù)在整個網頁的實質內容中的字數(shù)的比率來計算重要程度,對該比率分配合適的權重,使用該比率和該比率的權重進行計算。
[0252]步驟7)確定包含有圖片的重要程度最高的合并段落,并將該合并段落中的圖片確定為待提取的目標圖片;
[0253]如果合并段落的重要程度值越大,則該合并段落越重要,越能體現(xiàn)網頁的主要內容,最重要的合并段落的圖片即為整個網頁中相關性較高的圖片;如果該合并段落或者該合并段落上下沒有圖片,按照得到的重要程度值的從大到小對合并段落進行排序,確定包含有圖片的重要程度最高的合并段落,并將該合并段落中的圖片確定為待提取的目標圖片。如果一直沒找到圖片,則停止搜索,表示這篇網頁頁面沒有圖片。
[0254]步驟8)從服務器中獲取目標圖片。
[0255]在確定了待提取的目標圖片后,需要從圖片的原始存儲地址中提取出圖片才能在圖片所在的原始網頁之外的區(qū)域展示圖片,因此需要向服務器發(fā)送請求以提取圖片。
[0256]一般情況下,通過PHP (Hypertext Preprocessor,超文本預處理語言)的curl庫向服務器發(fā)送http (Hypertext transfer protocol,超文本傳輸協(xié)議)請求,http請求里包含兩個部分:頭信息和主要內容,其中頭信息中包含referer字段,在referer字段包含http請求的來源地址(即請求抓取或展示圖片的鏈接地址)。當服務器接收到上述請求信息時,允許將圖片提取出來。其中,http referer作為頭信息的一部分,當瀏覽器向服務器發(fā)送請求的時候,一般會帶上referer字段,告訴服務器請求是從哪個頁面鏈接過來的,月艮務器籍此可以獲得一些信息用于處理。使用PHP的curl庫可以簡單和有效地去抓網頁,只需要運行一個腳本,然后分析一下所抓取的網頁,然后就可以以程序的方式得到想要的數(shù)據了。無論是想從一個網頁上取部分數(shù)據,或是取一個XML(Extensible Markup Language,可擴展標記語言)文件并把其導入數(shù)據庫,哪怕就是簡單的獲取網頁內容,都可以使用PHP的curl庫來抓取網頁。
[0257]但是有些網站為了防止圖片被濫用,通常對圖片做了防盜鏈。所有的圖片防盜鏈原理都是判斷請求抓取圖片的http請求頭信息中的referer字段是否是圖片所在的原始網站的,如果不是,則不允許抓取該圖片。因此,當從圖片的原始存儲地址中抓取圖片時,為了避免防盜鏈的限制,本發(fā)明在通過PHP的curl庫發(fā)送http請求時,修改http請求的referer字段,將其修改成原始網頁的referer字段,即將referer字段中包含的鏈接地址修改為圖片所在的原始頁面的鏈接地址,使得請求的時候模擬用戶訪問圖片所在的原始頁面的情形,從而能夠從圖片的原始存儲地址中抓取出圖片。
[0258]例如,當需要抓取淘寶上的一張圖片時,則將http請求的referer字段修改成以下形式即可。
[0259]<?php
[0260]curl_setopt($ch, CURL0PT_REFERER, ’ http://www.taoba0.com’);
[0261]?>
[0262]提取圖片后,還需要對提取的圖片進行壓縮、保真等處理,并將其緩存在服務器中。為了方便查找,可以將圖片在服務器上的存儲地址存儲在數(shù)據庫中,當需要從服務器中提取圖片時,可以根據圖片的存儲地址到服務器中查找相應的圖片。
[0263]另外,在獲取圖片時也可以設定一個閾值,例如與圖片的長和寬對應的第三閾值,如果獲取的圖片的長和寬均小于該第三閾值,則認為該圖片與網頁內容的相關度較低,進而放棄該圖片,不將其作為相關度高的圖片。
[0264]為了進一步提高獲取與網頁內容相關度高的圖片的準確度,針對網頁中文字較少的情況,例如百度首頁,可以首先對網頁的文字數(shù)量進行判斷,在網頁中的文字數(shù)目大于設定的第一閾值時,按照上述步驟I)-8)獲取與網頁內容相關度高的目標圖片;在網頁中的文字數(shù)目不大于設定的第一閾值時,首先根據網頁源代碼查找網頁的主標題,根據網頁源代碼將位于網頁主標題附近的圖片作為與網頁內容相關度高的目標圖片;如果沒有網頁主標題,則根據網頁源代碼查找位于網頁中的第一張圖片作為與網頁內容相關度高的目標圖片。如果查找不到圖片,則表示網頁之上沒有圖片。
[0265]同理,針對網頁中先出現(xiàn)圖片后出現(xiàn)文字內容或者文字較少等情況,也可以首先根據網頁源代碼查找網頁的主標題,將位于網頁主標題下的圖片作為與網頁內容相關度高的目標圖片;如果沒有網頁主標題,則根據網頁源代碼查找位于網頁文字內容之上的第一張圖片作為與網頁內容相關度高的目標圖片。如果網頁文字內容之上沒有圖片,則按照上述步驟I) -8)獲取與網頁內容相關度高的目標圖片。
[0266]本實施例的從網頁中提取圖片的方法,能夠有效提取到與網頁內容相關度較高的圖片。該方法通過抓取整個網頁的內容,然后對整個網頁內容依次進行分析,具體包括去掉不相干的內容、對段落按照詞語拆分、過濾、合并,綜合分析合并后的段落與全文的吻合度、關鍵詞密度、段落字數(shù)等信息識別出能夠體現(xiàn)闡述網頁主要內容的段落,進而將出現(xiàn)在該段落附近的圖片提取出來,作為與網頁內容相關度較高的圖片。
[0267]比如CSDN的近期關于Hyper-V和Azure開始支持Oracle軟件的新聞頁面(聲明:該頁面引用至CSDN,引用該頁面僅為說明本發(fā)明的方案):http://www.csdn.net/article/2013-06-24/2815962-0racle (如圖4所示),在做圖片選取的時候,首先抓取整個網頁的內容,然后依次執(zhí)行上述步驟I)-8):去掉不相干的內容,對段落按照詞語拆分,過濾,合并,根據分析合并后的段落選擇目標圖片,最后得到的圖片實際就是頁面中最惹人注意的那張拉里.埃里森的頭像。
[0268]本發(fā)明的技術方案可以應用在網頁預覽中,在得到目標圖片中,記錄目標圖片與對應網頁的地址之間的對應關系,在接收到用戶選中網頁的地址的觸發(fā)指令時,根據該對應關系確定與網頁的地址對應的目標圖片,并向用戶展示目標圖片。這樣在用戶選中一個網頁地址后,就可以向用戶展示與該網頁地址對應的網頁相關度較高的圖片,用戶只需要預覽提取出的圖片,即可大致了解網頁的主要內容。
[0269]下面對幾種具體的應用場景進行介紹:
[0270]應用一:
[0271]從網頁中提取出來的目標圖片可以應用在“收藏夾”功能中,例如“web收藏夾”功能中。
[0272]當接收到用戶收藏網頁的指令時,客戶端設備向服務器端發(fā)送收藏請求,服務器接收到收藏請求時,服務器抓取收藏網頁的源代碼,客戶端設備按照步驟I)至8)的方法獲取收藏網頁中的主要圖片,并將圖片存儲在服務器上。
[0273]圖5為一種“web收藏夾”的一種界面的示意圖,該界面從左到右依次包括三個內容欄,最左邊為文件夾欄,中間為地址欄,最右邊為預覽欄。其中文件夾欄中,文件夾是用戶對收藏的網址進行分類整理后形成的;地址欄中顯示用戶在文件夾欄中選中的文件夾中包含的地址列表,地址列表中的地址通常以地址名稱的形式顯示出來,即當用戶在文件夾欄中選中一個文件夾時,該文件夾中包含的地址以列表的形式顯示在地址欄中;預覽欄中顯示用戶在地址欄中選中的地址所對應的網頁的預覽信息。當用戶點擊到地址欄中的某個名稱上時,即打開該名稱對應的網頁。當用戶在地址欄中點擊某個名稱周圍橫向空白區(qū)域時,將該名稱所對應的網頁的預覽信息將展示在預覽欄,其中展示的預覽信息包括通過本發(fā)明的技術方案提取的圖片。當然,預覽欄中除了包含圖片之外,還可以包含其他體現(xiàn)網頁內容的信息,如摘要、URL (Uniform Resource Locator,統(tǒng)一資源定位符)、二維碼等。
[0274]這樣在用戶使用“收藏夾”功能時,只需要點擊網頁地址周圍的空白區(qū)域,就可以預覽到與該網頁地址對應的網頁相關度較高的圖片,即可大致了解網頁的主要內容。
[0275]應用二:
[0276]從網頁中提取出來的目標圖片可以應用在“歷史記錄”功能中。現(xiàn)有的瀏覽器在用戶瀏覽完一些網頁后,會將這些網頁的地址保存在“歷史記錄”中。
[0277]通過本發(fā)明的技術方案可以在用戶瀏覽網頁時,抓取所瀏覽網頁的主要圖片,并將圖片存儲在服務器上。
[0278]“歷史記錄”的界面從左到右可以包括有兩個內容欄,左邊為地址欄,右邊為預覽欄。地址欄中顯示的是用戶瀏覽過的網頁的地址列表,地址列表中的地址通常以地址名稱的形式顯示出來;預覽欄中顯示用戶在地址欄中選中的地址所對應的網頁的預覽信息。當用戶在地址欄中點擊某個名稱周圍橫向空白區(qū)域時,將該名稱所對應的網頁的預覽信息將展示在預覽欄,其中展示的預覽信息包括通過本發(fā)明的技術方案提取的圖片。當然,預覽欄中除了包含圖片之外,還可以包含其他體現(xiàn)網頁內容的信息,如摘要、URL (UniformResource Locator,統(tǒng)一資源定位符)、二維碼等。
[0279]這樣在用戶使用“歷史記錄”功能時,只需要點擊網頁地址周圍的空白區(qū)域,就可以在預覽欄中看到與該網頁地址對應的網頁相關度較高的圖片,快速了解網頁的主要內容。
[0280]應用三:
[0281]本發(fā)明還可以適用于所有的對web頁面分析的應用中。比如,在進行網頁搜索時,通過瀏覽器可以搜索出一些網頁的鏈接,如果一個個點開網頁去看網頁的內容會很費時費力,而且點開之后很可能會發(fā)現(xiàn)網頁中的內容并不是自己所需要的。
[0282]通過本發(fā)明的技術方案可以當用戶選中某個鏈接時,比如用戶點擊某個鏈接周圍橫向空白區(qū)域時,提取出與用戶選中的網頁的內容相關度較高的圖片,并將圖片展示給用戶,當然同時展示給用戶的不僅僅包括圖片,還可以包含能夠其他體現(xiàn)網頁內容的信息,t匕如摘要、簡述、二維碼等,這樣可以使用戶在不打開搜索結果頁面的時候,通過所展示的內容即可了解選中網頁的大致內容。
[0283]此說明書中所描述的許多功能部件都被稱為模塊,以便更加特別地強調其實現(xiàn)方式的獨立性。
[0284]本發(fā)明實施例中,模塊可以用軟件實現(xiàn),以便由各種類型的處理器執(zhí)行。舉例來說,一個標識的可執(zhí)行代碼模塊可以包括計算機指令的一個或多個物理或者邏輯塊,舉例來說,其可以被構建為對象、過程或函數(shù)。盡管如此,所標識模塊的可執(zhí)行代碼無需物理地位于一起,而是可以包括存儲在不同物理上的不同的指令,當這些指令邏輯上結合在一起時,其構成模塊并且實現(xiàn)該模塊的規(guī)定目的。
[0285]實際上,可執(zhí)行代碼模塊可以是單條指令或者是許多條指令,并且甚至可以分布在多個不同的代碼段上,分布在不同程序當中,以及跨越多個存儲器設備分布。同樣地,操作數(shù)據可以在模塊內被識別,并且可以依照任何適當?shù)男问綄崿F(xiàn)并且被組織在任何適當類型的數(shù)據結構內。所述操作數(shù)據可以作為單個數(shù)據集被收集,或者可以分布在不同位置上(包括在不同存儲設備上),并且至少部分地可以僅作為電子信號存在于系統(tǒng)或網絡上。
[0286]在模塊可以利用軟件實現(xiàn)時,考慮到現(xiàn)有硬件工藝的水平,所以可以以軟件實現(xiàn)的模塊,在不考慮成本的情況下,本領域技術人員都可以搭建對應的硬件電路來實現(xiàn)對應的功能,所述硬件電路包括常規(guī)的超大規(guī)模集成(VLSI)電路或者門陣列以及諸如邏輯芯片、晶體管之類的現(xiàn)有半導體或者是其它分立的元件。模塊還可以用可編程硬件設備,諸如現(xiàn)場可編程門陣列、可編程陣列邏輯、可編程邏輯設備等實現(xiàn)。
[0287]在本發(fā)明各方法實施例中,所述各步驟的序號并不能用于限定各步驟的先后順序,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,對各步驟的先后變化也在本發(fā)明的保護范圍之內。
[0288]以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本【技術領域】的普通技術人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。
【權利要求】
1.一種從網頁中提取圖片的方法,其特征在于,包括: 步驟a:獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容; 步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片; 步驟d:獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。
2.根據權利要求1所述的方法,其特征在于,所述步驟a之后,所述步驟c之前,所述方法還包括: 步驟b:根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度,根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理,所述合并處理后,所述網頁的實質內容中的段落包括合并段落和未合并段落; 所述步驟c中確定所述實質內容中的段落的重要程度包括: 確定所述合并段落和未合并段落的重要程度;或者 確定所述合并段落和未合并段落中包含有圖片的段落的重要程度。
3.根據權利要求2所述的方法,其特征在于,所述步驟b中根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度包括: 根據所述獲取的所述網頁的實質內容,將所述網頁的實質內容中每個段落的文字拆分為多個詞語,并對拆分后的詞語進行過濾,去除其中的干擾詞,并統(tǒng)計剩余的非干擾詞的詞頻,所述詞頻為所述非干擾詞在所述段落中出現(xiàn)的次數(shù); 根據每個所述段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度。
4.根據權利要求3所述的從網頁中提取圖片的方法,其特征在于,所述根據每個段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度包括: 按照相鄰段落中第一個段落的非干擾詞的詞頻建立第一向量,按照相鄰段落中第二個段落的非干擾詞的詞頻建立第二向量,所述第一個段落和第二個段落相同的非干擾詞分別位于所述第一向量和第二向量的相同位置; 計算所述第一向量和第二向量的夾角的余弦值,并將該余弦值作為所述相鄰段落的相關度; 所述步驟b中根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理包括: 當所述相鄰段落的相關度大于設定的第二閾值時,將所述第一個段落和所述第二個段落合并,得到一個合并段落。
5.根據權利要求1所述的方法,其特征在于,所述步驟a包括: 獲取網頁的源代碼,根據源代碼獲取所述網頁的整個內容,所述整個內容包括html標簽、屬性、注釋、腳本、級聯(lián)樣式表樣式、文字和圖片中的至少一種; 對整個所述網頁內容進行分析,刪除不相干的內容,得到網頁的實質內容,所述不相干的內容包括html標簽、屬性、注釋、腳本和級聯(lián)樣式表樣式。
6.根據權利要求1至5任一項所述的方法,其特征在于,所述步驟c中確定所述實質內容中的段落的重要程度包括: 獲取每個所述段落的重要程度計算參數(shù),所述重要程度計算參數(shù)包括以下參數(shù)的至少一種: 所述段落與網頁的吻合度、所述段落的關鍵詞密度、所述段落的字數(shù)、所述段落的字數(shù)與所述網頁的實質內容的字數(shù)的比率; 根據每個所述段落的重要程度計算參數(shù)和所述重要程度計算參數(shù)對應的權重,將每個重要程度計算參數(shù)與其相應的權重相乘后再求和,得到每個所述段落的重要程度。
7.根據權利要求6所述的從網頁中提取圖片的方法,其特征在于, 所述重要程度計算參數(shù)包括所述段落與網頁的吻合度、所述段落的關鍵詞密度和所述段落的字數(shù); 所述段落與網頁的吻合度的權重、所述段落的關鍵詞密度的權重和所述段落的字數(shù)的權重的比值為3:1:0.2至5:2:0.5。
8.根據權利要求6所述的方法,其特征在于, 所述重要程度計算參數(shù)包括所述段落的關鍵詞密度; 所述獲取每個所述段落的重要程度計算參數(shù)包括: 獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞; 統(tǒng)計所述段落的段落關鍵詞與全文關鍵詞中重合的詞在所述段落中出現(xiàn)的次數(shù),將所述重合的詞在所述段落中出現(xiàn)的次數(shù)求和得到所述段落的關鍵詞密度。
9.根據權利要求6所述的方法,其特征在于, 所述重要程度計算參數(shù)包括所述段落與網頁的吻合度; 所述獲取每個所述段落的重要程度計算參數(shù)包括: 獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞; 確定每個所述段落的段落關鍵詞與所述全文關鍵詞中重合的詞的個數(shù)、或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率,以將所述重合的詞的個數(shù)或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率作為每個所述段落與網頁的吻合度。
10.根據權利要求8或9所述的方法,其特征在于,所述獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞包括: 對所述網頁的實質內容中的非干擾詞按照在所述網頁的實質內容中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前M個非干擾詞作為所述網頁的實質內容的全文關鍵詞,其中M為不小于I的整數(shù),; 對于每個所述段落中的非干擾詞按照在所述段落中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前N個非干擾詞作為所述段落的段落關鍵詞,其中N為不小于I的整數(shù)。
11.根據權利要求1所述的從網頁中提取圖片的方法,其特征在于,所述步驟d之前,所述方法還包括: 判斷所述目標圖片的長度和寬度是否均小于預設的第三閾值; 在所述目標圖片的長度和寬度均小于預設的第三閾值時,放棄獲取所述目標圖片。
12.根據權利要求1所述的從網頁中提取圖片的方法,其特征在于,所述步驟d包括: 通過超文本預處理語言PHP的curl庫向服務器發(fā)送http請求,所述http請求中,referer字段中包含的鏈接地址為所述目標圖片所在的原始頁面的鏈接地址。
13.根據權利要求1所述的從網頁中提取圖片的方法,其特征在于,所述根據所述源代碼獲取網頁的實質內容之前還包括: 根據所述源代碼,確定所述網頁是否為站點主頁; 如果確定所述網頁為站點主頁,從所述源代碼中查找所述網頁的主標題,并將所述查找到的王標題后的圖片確定為待抓取的目標圖片; 如果沒有查找到主標題或者所述查找到的主標題后沒有圖片,從所述源代碼中查找第一張圖片,將所述第一張圖片確定為待抓取的目標圖片。
14.一種網頁展示方法,其特征在于,包括: 提供第一界面,所述第一界面中包括頁面地址欄以及預覽欄,所述頁面地址欄中顯示有用戶預先存儲的網頁列表,所述列表中包括所述網頁的標識信息,所述標識信息包括所述網頁的標題和/或所述下載頁面的地址; 接收用戶對顯示在所述頁面地址欄的第一網頁的標識信息的第一操作指令; 根據所述第一操作指令,獲取所述第一網頁的圖片; 在所述預覽欄中向用戶展示所述獲取的圖片,以使所述用戶能夠在未打開所述第一網頁時通過查看所述圖片了解所述第一網頁的內容。
15.根據權利要求14的網頁展示方法,其特征在于,所述根據所述第一操作指令,獲取所述第一網頁的圖片包括: 步驟a:獲取所述第一網頁的源代碼,根據所述源代碼獲取所述第一網頁的實質內容;步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待獲取的目標圖片; 步驟d:獲取所述目標圖片; 或者, 從服務器接收所述第一網頁的圖片,所述服務器通過所述步驟a、C、d獲取所述第一網頁的圖片。
16.一種從網頁中提取圖片的裝置,其特征在于,包括: 獲取模塊,用于獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容; 計算模塊,用于確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片; 下載模塊,用于獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。
17.根據權利要求16所述的從網頁中提取圖片的裝置,其特征在于,所述裝置還包括: 合并模塊,用于根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度,根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理,所述合并處理后,所述網頁的實質內容中的段落包括合并段落和未合并段落; 所述計算模塊用于: 確定所述合并段落和未合并段落的重要程度;或者 確定所述合并段落和未合并段落中包含有圖片的段落的重要程度。
18.根據權利要求17所述的從網頁中提取圖片的裝置,其特征在于,所述合并模塊包 括: 拆分子模塊,用于根據所述獲取的所述網頁的實質內容,將所述網頁的實質內容中每個段落的文字拆分為多個詞語,并對拆分后的詞語進行過濾,去除其中的干擾詞,并統(tǒng)計剩余的非干擾詞的詞頻,所述詞頻為所述非干擾詞在所述段落中出現(xiàn)的次數(shù); 合并子模塊,用于根據每個所述段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度。
19.根據權利要求18所述的從網頁中提取圖片的裝置,其特征在于, 所述合并子模塊具體用于按照相鄰段落中第一個段落的非干擾詞的詞頻建立第一向量,按照相鄰段落中第二個段落的非干擾詞的詞頻建立第二向量,所述第一個段落和第二個段落相同的非干擾詞分別位于所述第一向量和第二向量的相同位置,計算所述第一向量和第二向量的夾角的余弦值,并將該余弦值作為所述相鄰段落的相關度; 所述合并模塊具體用于當所述相鄰段落的相關度大于設定的第二閾值時,將所述第一個段落和所述第二個段落合并,得到一個合并段落。
20.根據權利要求16所述的從網頁中提取圖片的裝置,其特征在于,所述獲取模塊包括: 抓取子模塊,用于獲取網頁的源代碼,根據源代碼獲取所述網頁的整個內容,所述整個內容包括html標簽、屬性、注釋、腳本、級聯(lián)樣式表樣式、文字和圖片中的至少一種; 篩選子模塊,用于對整個所述網頁內容進行分析,刪除不相干的內容,得到網頁的實質內容,所述不相干的內容包括html標簽、屬性、注釋、腳本和級聯(lián)樣式表樣式。
21.根據權利要求16至20任一項所述的從網頁中提取圖片的裝置,其特征在于,所述計算模塊包括: 計算子模塊,用于獲取每個所述段落的重要程度計算參數(shù),所述重要程度計算參數(shù)包括以下參數(shù)的至少一種: 所述段落與網頁的吻合度、所述段落的關鍵詞密度、所述段落的字數(shù)、所述段落的字數(shù)與所述網頁的實質內容的字數(shù)的比率; 求權子模塊,用于根據每個所述段落的重要程度計算參數(shù)和所述重要程度計算參數(shù)對應的權重,將每個重要程度計算參數(shù)與其相應的權重相乘后再求和,得到每個所述段落的重要程度。
22.根據權利要求21所述的從網頁中提取圖片的裝置,其特征在于,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度、所述段落的關鍵詞密度和所述段落的字數(shù); 所述段落與網頁的吻合度的權重、所述段落的關鍵詞密度的權重和所述段落的字數(shù)的權重的比值為3:1:0.2至5:2:0.5。
23.根據權利要求21所述的從網頁中提取圖片的裝置,其特征在于,所述重要程度計算參數(shù)包括所述段落的關鍵詞密度; 所述計算子模塊具體用于獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞;統(tǒng)計所述段落的段落關鍵詞與全文關鍵詞中重合的詞在所述段落中出現(xiàn)的次數(shù),將所述重合的詞在所述段落中出現(xiàn)的次數(shù)求和得到所述段落的關鍵詞密度。
24.根據權利要求21所述的從網頁中提取圖片的裝置,其特征在于,所述重要程度計算參數(shù)包括所述段落與網頁的吻合度; 所述計算子模塊具體用于獲取所述網頁的實質內容的全文關鍵詞及每個所述段落的段落關鍵詞; 確定每個所述段落的段落關鍵詞與所述全文關鍵詞中重合的詞的個數(shù)、或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率,以將所述重合的詞的個數(shù)或所述重合的詞的個數(shù)與所述全文關鍵詞的個數(shù)的比率作為每個所述段落與網頁的吻合度。
25.根據權利要求23或24所述的從網頁中提取圖片的裝置,其特征在于,所述計算子模塊包括: 關鍵詞獲取單元,用于對所述網頁的實質內容中的非干擾詞按照在所述網頁的實質內容中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前M個非干擾詞作為所述網頁的實質內容的全文關鍵詞,其中M為不小于I的整數(shù),; 對于每個所述段落中的非干擾詞按照在所述段落中出現(xiàn)的次數(shù)從高到低的順序進行排序,并提取前N個非干擾詞作為所述段落的段落關鍵詞,其中N為不小于I的整數(shù)。
26.根據權利要求16所述的從網頁中提取圖片的裝置,其特征在于,所述裝置還包括: 判斷模塊,用于判斷所述目標圖片的長度和寬度是否均小于預設的第三閾值,并在所述目標圖片的長度和寬度均小于預設的第三閾值時,放棄獲取所述目標圖片。
27.根據權利要求16所述的從網頁中提取圖片的裝置,其特征在于, 所述下載模塊具體用于通過超文本預處理語言PHP的curl庫向服務器發(fā)送http請求,所述http請求中,referer字段中包含的鏈接地址為所述目標圖片所在的原始頁面的鏈接地址。
28.根據權利要求16所述的從網頁中提取圖片的裝置,其特征在于,所述裝置還包括: 確定模塊,用于根據所述源代碼,確定所述網頁是否為站點主頁;如果確定所述網頁為站點主頁,從所述源代碼中查找所述網頁的主標題,并將所述查找到的主標題后的圖片確定為待抓取的目標圖片;如果沒有查找到主標題或者所述查找到的主標題后沒有圖片,從所述源代碼中查找第一張圖片,將所述第一張圖片確定為待抓取的目標圖片。
29.—種客戶端設備,其特征在于,包括如權利要求16-28中任一項所述的從網頁中提取圖片的裝置。
30.一種網頁展示裝置,其特征在于,包括: 顯示模塊,用于提供第一界面,所述第一界面中包括頁面地址欄以及預覽欄,所述頁面地址欄中顯示有用戶預先存儲的網頁列表,所述列表中包括所述網頁的標識信息,所述標識信息包括所述網頁的標題和/或所述下載頁面的地址; 接收模塊,用于接收用戶對顯示在所述頁面地址欄的第一網頁的標識信息的第一操作指令; 獲取模塊,用于根據所述第一操作指令,獲取所述第一網頁的圖片; 展示模塊,用于在所述預覽欄中向用戶展示所述獲取的圖片,以使所述用戶能夠在未打開所述第一網頁時通過查看所述圖片了解所述第一網頁的內容。
31.根據權利要求30的網頁展示裝置,其特征在于,所述獲取模塊具體用于通過以下步驟獲取所述第一網頁的圖片: 步驟a:獲取所述第一網頁的源代碼,根據所述源代碼獲取所述第一網頁的實質內容; 步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待獲取的目標圖片; 步驟d:獲取所述目標圖片; 或者, 從服務器接收所述第一網頁的圖片,所述服務器通過所述步驟a、C、d獲取所述第一網頁的圖片。
【文檔編號】G06F17/30GK104281629SQ201310294425
【公開日】2015年1月14日 申請日期:2013年7月12日 優(yōu)先權日:2013年7月12日
【發(fā)明者】張凱宏, 徐鳴 申請人:貝殼網際(北京)安全技術有限公司, 北京金山網絡科技有限公司, 北京金山安全軟件有限公司, 珠海市君天電子科技有限公司, 可牛網絡技術(北京)有限公司