專利名稱:一種網頁收藏方法、裝置及系統的制作方法
技術領域:
本發(fā)明涉及網絡數據處理領域,特別是涉及ー種網頁收藏方法、裝置及系統。
背景技術:
收藏網頁,是指互聯網用戶將感興趣的網頁進行保存,以便于隨時能夠重新閱讀相關信息?,F有技術中ー種網頁收藏方法是將用戶瀏覽過的網頁內容以快照的形式保存起來。具體的,該方法實現的過程中,根據用戶所提供的待收藏網頁的超鏈接,定位網頁并對網頁進行快照,將快照保存為網頁收藏信息,用戶還可以進一歩對所收藏的網頁標題、簡介和標簽等信息進行編輯。網頁收藏成功后,用戶可以隨時進行查看。 但是,現有技術中的網頁收藏方法,在快照的形式顯示網頁收藏內容時,也丟失大量的網頁原始信息,很容易導致所述顯示的收藏網頁內容失去原有的排版格式,頁面雜亂無章,可讀性差。
發(fā)明內容
本發(fā)明的目的是提供ー種網頁收藏方法、裝置及系統,能夠較為完整的保存網頁收藏頁面內容。為實現上述目的,本發(fā)明提供了如下方案ー種網頁收藏方法,包括接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;對所抓取的網頁內容進行保存。其中,還包括當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼;或者,當接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。其中,所述向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼,包括在用戶所瀏覽的網頁中添加內嵌框架;在所述內嵌框架中寫入所述腳本代碼。其中,所述抓取所述網頁的內容描述信息,包括抓取所述網頁的文檔對象模型信息。其中,所述對所抓取的網頁內容進行保存,包括根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。其中,所述根據解析結果抓取所述網頁的內容包括根據預設的規(guī)則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。
其中,所述根據解析結果抓取所述網頁的內容包括在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是,則采用異步方式下載所述網頁的圖片內容。其中,在抓取網頁的內容描述信息之后,還包括將所述內容描述信息發(fā)送至服務器端設備;所述服務器端設備對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容,并對所抓取的網頁內容進行保存。ー種網頁收藏裝置,包括描述信息抓取単元,用于接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;網頁內容抓取単元,用于對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;網頁內容保存単元,用于對所抓取的網頁內容進行保存。其中,還包括代碼注入単元,用于當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼;或者,當接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。其中,所述代碼注入単元,包括框架添加子単元,用于在用戶所瀏覽的網頁中添加內嵌框架;代碼寫入子単元,用于在所述內嵌框架中寫入所述腳本代碼。其中,所述描述信息抓取単元,具體用于在接收到用戶的收藏操作指令后,利用預先寫入的腳本代碼,抓取所述網頁的文檔對象模型信息。其中,所述網頁內容保存単元,具體用于根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。其中,所述網頁內容抓取單元,具體用于根據預設的規(guī)則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。其中,所述網頁內容抓取單元,具體用于在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是,則采用異步方式下載所述網頁的圖片內容?!N網頁收藏系統,包括客戶端設備和服務器端設備;所述客戶端設備,包括
描述信息抓取単元,用于接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;描述信息發(fā)送單元,用于將所述網頁內容描述信息發(fā)送至服務器端設備;所述服務器端設備,包括描述信息接收單元,用于接收客戶端設備發(fā)送的網頁內容描述信息;網頁內容抓取単元,用于對所述網頁內容描述信息進行解析,根據解析結果抓取網頁的內容;網頁內容保存単元,用于對所抓取的網頁內容進行保存。其中,所述客戶端設備還包括代碼注入単元,用于當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼;或者,當接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。其中,所述代碼注入単元,包括框架添加子単元,用于在用戶所瀏覽的網頁中添加內嵌框架;代碼寫入子単元,用于在所述內嵌框架中寫入所述腳本代碼。其中,所述描述信息抓取単元,具體用于在接收到用戶的收藏操作指令后,利用預先寫入的腳本代碼,抓取所述網頁的文檔對象模型信息。其中,所述網頁內容保存単元,具體用于根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。其中,所述網頁內容抓取單元,具體用于根據預設的規(guī)則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。其中,所述網頁內容抓取單元,具體用于在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是,則采用異步方式下載所述網頁的圖片內容。本發(fā)明實施例所提供的技術方案,由于通過預先寫入所述網頁的腳本代碼對網頁的描述信息進行抓取,一方面保證了抓取的網頁內容的全面性;另一方面,由于網頁的描述信息中攜帯有網頁的樣式信息,因此在保存網頁內容時,可以根據樣式信息對網頁內容進行排版,從而提高了網頁收藏結果的有序性,便于用戶進行閱讀。
為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。圖I為本發(fā)明的網頁收藏方法一種實施例的流程圖; 圖2為本發(fā)明的網頁收藏方法另ー種實施例的流程圖3為本發(fā)明的網頁收藏裝置實施例的結構示意圖;圖4為本發(fā)明的網頁收藏系統實施例的結構示意圖。
具體實施例方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員所獲得的所有其他實施例 ,都屬于本發(fā)明保護的范圍。首先對本發(fā)明實施例所提供的ー種網頁收藏方法進行說明,該方法可以包括以下步驟接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;對所抓取的網頁內容進行保存。在本發(fā)明的一種實施方式中,上述步驟可以全部在客戶端設備中實現,例如在瀏覽器本身、瀏覽器插件或者專用的網頁收藏軟件中實現。在本發(fā)明的一種實施方式中,上述步驟中寫入腳本代碼步驟以及抓取網頁內容描述信息的步驟在客戶端設備中實現,客戶端抓取到網頁內容描述信息后發(fā)送至服務器端設備,由服務器完成后續(xù)步驟。首先,如圖I所示,該網頁收藏方法包括步驟SlOl :接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;在本發(fā)明實施例中,并不是采用服務器直接抓取網頁頁面內容,這是因為對于一部分網頁,服務器無法直接抓取,比如某些頁面必須登錄后才能展現,如果客戶端沒有登錄,則服務器端也無法抓取。因此在本發(fā)明實施例中,抓取網頁頁面的內容的操作由客戶端完成,例如由瀏覽器等軟件完成。根據本發(fā)明實施例的方案,可以在用戶瀏覽網頁時,在檢測到被瀏覽的網頁加載完畢之后,向用戶所瀏覽的網頁內寫入腳本代碼。這段代碼能在網頁指定位置處(例如右偵D顯示ー個按鈕(按鈕上可以顯示“我喜歡”等文字),點“我喜歡”按鈕后即可觸發(fā)收藏操作?;蛘撸诹愆`種實時方式下,可以默認在網頁指定位置處(例如右側)顯示ー個按鈕(按鈕上可以顯示“我喜歡”等文字),用戶如果想要收藏當前瀏覽的網頁,就可以點擊該“我喜歡”按鈕,然后執(zhí)行向用戶所瀏覽的網頁內寫入腳本代碼的操作,同時相當于用戶觸發(fā)了收藏操作。其中,寫入網頁的腳本代碼具有抓取網頁頁面內容的功能,由于目前有很多網頁頁面采用JS(JavaScript)技術開發(fā),因此本發(fā)明實施例中,采向網頁中寫入JS腳本代碼的方式實現,既能夠解決用戶登錄后的頁面內容抓取問題,又可以保證信息抓取的安全性。在本發(fā)明的ー種改進實施方式中,可以先在用戶所瀏覽的網頁中中添加內嵌框架,然后在內嵌框架中寫入所述腳本代碼。其中內嵌框架可以是iframe框架,iframe框架可以隔離腳本代碼和瀏覽器接ロ。這樣實施的原因在于因為實際應用中,別有用心的用戶如果能夠獲取腳本代碼,就可以操作瀏覽器接ロ,從而帶來ー些安全問題,比如用戶可以通過利用腳本代碼在瀏覽器中發(fā)起跨域請求,可以操作瀏覽器接ロ修改瀏覽器配置文件,以及瀏覽器的其他接ロ功能。為了避免腳本代碼被惡意利用,本發(fā)明實施例中,將腳本代碼寫入內嵌框架中,通過內嵌框架將腳本代碼與瀏覽器接ロ相隔離,從而増加安全性。向網頁寫入腳本代碼后,可以待頁面加載完畢后,在頁面ー側繪制按鈕或用戶交互面板。以便用戶點擊該按鈕觸發(fā)收藏操作。當然,在本發(fā)明中,用戶發(fā)出收藏操作指令的方式并僅限于點擊按鈕。此外,用戶還可以用過交互面板進行設置按鈕皮膚、分享配置等操作,這里不再贅述。 當然,在實際應用中,本發(fā)明實施例的方案可以通過一個瀏覽器插件的方式來實現,在瀏覽器插件支持的情況下,也可以直接在用戶瀏覽的網頁中注入腳本,而不必采用上述添加內嵌框架的方式來實現。當接收用戶通過點擊收藏操作按鈕或其他方式發(fā)起收藏操作指令后,利用預先寫入的腳本代碼,抓取網頁的內容描述信息。在本發(fā)明中,主要需要抓取的網頁內容描述信息包括網頁的D0M(DocumentObjectModel,文檔對象模型)信息,在網頁的DOM樹中包含有頁面的布局結構信息,利用這些信息,后續(xù)就可以在保存網頁內容時,根據網頁原有的樣式進行排版,以結構化的形式進行保存。本領域技術人員可以理解,在抓取網頁內容描述信息的過程中,除DOM信息之外,還可以進ー步抓取網頁的頁面超鏈接、標題等信息。本發(fā)明實施例對此并不需要進行限定。S102 :對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;通過解析網頁的DOM樹,可以抽取出頁面所包含的文字、圖片等內容。其中,所解析出的圖片內容是圖片文件所在的源位置,還需要進ー步從源位置將實際的圖片文件下載下載到本地。在下在圖片文件的過程中,可以首先判斷判斷網頁中的圖片數量是否大于某個預設的閾值(例如10幅、20幅等等),如果否,則直接下載每個圖像文件。而在網頁所包含的圖片數量比較多時,抓取圖片文件的過程中將會十分費時。為了提高系統性能,可以采用異步方式實現圖片文件的多線程批量下載,所有圖片文件處理完之后在統ー歸檔,這樣可以有效降低抓取圖片所需的時間。在實際應用中,有些網站可能采用了防盜鏈技術,無法直接下載圖片文件。針對這種情況,在本發(fā)明實施例中,在下載圖片文件的請求發(fā)起時,可以在http頭的referer字段中添加上圖片資源所在的網站的源域名。圖片資源所在的網站的服務器解析該請求時,會認為這個請求是由自身發(fā)起的,從而返回圖片內容。在抓取圖片內容的過程中,還可以首先獲得網頁中圖片的尺寸,對于尺寸過小的圖片,不進行下載。這種抓取圖片的方式,可以篩選出圖片尺寸大于預設尺寸閾值的圖片。這是因為網頁中的圖片可能有很多,這其中包括大量的廣告圖片等等不存在收藏意義的內容。然而作為網頁主要內容的圖片,通常都具有較大的尺寸,因此采用圖片尺寸進行過濾的方式,可以有效減少無用圖片內容的抓取,既節(jié)約了系統資源,也提高了收藏結果的可讀性。
可以理解的是,處除了利用圖片尺寸進行圖片內容過濾之外,還可以采用其他的預置規(guī)則,例如網址關鍵字、文件名關鍵字等方式,對網頁中可能存在的不具有收藏意義的信息進行過濾,從而達到節(jié)約系統資源和提高了收藏結果的可讀性的目的,本發(fā)明實施例對此并不需要進行限定。S103 :對所抓取的網頁內容進行保存。在本步驟中,對S103中所抓取的網頁內容進行保存,特別地,根據網頁的DOM樹信息,可以對抓取的網頁內容按照網頁的原始樣式,樣式進行排版,以結構化的形式進行保存。
進ー步地,還可以根據所保存的內容信息生成網頁摘要,以便在收藏列表中展示給用戶,便于用戶進行瀏覽。在具體實施過程中,可以根據網頁標題信息可以生成摘要的標題、根據網頁的頁面文字可以生成摘要中的文字部分、根據頁面圖片信息可以生成摘要中的縮略圖,等等。保存所述摘要信息,用戶就可以在后續(xù)的上網瀏覽過程中,在網頁收藏列表中直接查看收藏過的網頁的摘要信息。此外,應用本發(fā)明方案,還允許用戶將收藏的網頁分享到其他網站,還可以通過調用其他網站的接ロ,將排版好的網頁內容信息以及摘要信息發(fā)送到目標網站,從而實現用戶信息的共享,提高用戶體驗。上述所提供的網頁收藏方法,通過預先寫入所述網頁的腳本代碼對網頁的描述信息進行抓取,一方面保證了抓取的網頁內容的全面性;另一方面,由于網頁的描述信息中攜帶有網頁的樣式信息,因此在保存網頁內容時,可以根據樣式信息對網頁內容進行排版,從而提高了網頁收藏結果的有序性,便于用戶進行閱讀。在上述實施例中,所有網頁收藏步驟都是在客戶端設備中實現,在本發(fā)明的另ー種實施方式中,可以由客戶端和服務器設備協作完成網頁收藏操作,參見圖2所示,該方法包括以下步驟S201 :客戶端設備接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;S202 :客戶端設備將所述內容描述信息發(fā)送至服務器端設備;S203:服務器端設備對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;S204 :服務器端設備對所抓取的網頁內容進行保存。與前一實施例相比S201與SlOl相同;S203_S204與S102-S103相比,區(qū)別在于執(zhí)行主體由客戶端設備變?yōu)榉掌鞫嗽O備;增加了 S202客戶端設備將內容描述信息描述信息發(fā)送至服務器端設備的步驟。由于服務端的分析能力、下載可控性、重新排版等方面要比前端JS腳本高出很多。因此可以這種方式可以有效提升網頁內容的抓取質量。而且服務端的存儲空間更為充裕,也更便于用戶之間的信息分享。此外,根據之前的描述,由于服務端無法直接抓取某些網頁,因此抓取網頁描述信息的步驟仍然由客戶端完成,從而保證抓取的成功率??梢岳斫獾氖?,客戶端設備在將內容描述信息描述信息發(fā)送至服務器端設備的過程中,可以采用數據壓縮技木,從而進一步提升傳輸效率。
相應于上面的方法實施例,本發(fā)明實施例還提供ー種網頁收藏裝置,參見圖3所示,該裝置可以包括描述信息抓取単元301,用于接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;網頁內容抓取単元302,用于對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;網頁內容保存単元303,用于對所抓取的網頁內容進行保存。具體實現時,該裝置還可以包括代碼注入単元,用于當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽 的網頁中寫入用于抓取網頁內容的腳本代碼;或者,當接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。其中,在本發(fā)明的一種實施方式中,所述代碼注入単元,可以包括框架添加子単元,用于在用戶所瀏覽的網頁中中添加內嵌框架;代碼寫入子単元,用于在所述內嵌框架中寫入所述腳本代碼。其中,所述描述信息抓取単元301,可以具體用于在接收到用戶的收藏操作指令后,利用預先寫入的腳本代碼,抓取所述網頁的文檔對象模型信息。網頁內容保存單元303,可以具體用于根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。在本發(fā)明的一種實施方式中,所述網頁內容抓取単元302,可以具體用于根據預設的規(guī)則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。在本發(fā)明的另ー種實施方式中,所述網頁內容抓取単元302,還可以具體用于在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是,則采用異步方式下載所述網頁的圖片內容。以上提供的網頁收藏裝置,可以是位于客戶端的功能模塊,該模塊可以是瀏覽器本身、瀏覽器插件或者專用的網頁收藏軟件等等。相應與上述在客戶端實現全部收藏操作的方案,本發(fā)明實施例還提供ー種網頁收藏系統,參見圖4所示,該系統包括客戶端設備401和服務器端設備402 ;所述客戶端設備401,包括描述信息抓取単元4011,用于在接收到用戶的收藏操作指令后,利用預先寫入的腳本代碼,抓取所述網頁的內容描述信息;描述信息發(fā)送單元4012,用于將所述網頁內容描述信息發(fā)送至服務器端設備;所述服務器端設備402,包括描述信息接收單元4021,用于接收客戶端設備發(fā)送的網頁內容描述信息;網頁內容抓取単元4022,用于對所述網頁內容描述信息進行解析,根據解析結果抓取網頁的內容;網頁內容保存単元4023,用于對所抓取的網頁內容進行保存。
由于服務端的分析能力、下載可控性、重新排版等方面要比前端JS腳本高出很多。因此本發(fā)明實施例所提供的網頁收藏系統可以有效提升網頁內容的抓取質量。而且服務端的存儲空間更為充裕,也更便于用戶之間的信息分享。此外,根據之前的描述,由于服務端無法直接抓取某些網頁,因此抓取網頁描述信息的步驟仍然由客戶端完成,從而保證抓取的成功率。具體實現時,客戶端設備401還可以包括
代碼注入単元,用于當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼;或者,當接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。在本發(fā)明的一種實施方式中,所述代碼注入単元可以包括框架添加子単元,用于在用戶所瀏覽的網頁中中添加內嵌框架;代碼寫入子単元,用于在所述內嵌框架中寫入所述腳本代碼。在本發(fā)明的一種實施方式中,所述描述信息抓取単元4011,可以具體用于在接收到用戶的收藏操作指令后,利用預先寫入的腳本代碼,抓取所述網頁的文檔對象模型信息。在本發(fā)明的一種實施方式中,所述網頁內容保存単元4023,可以具體用于根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。在本發(fā)明的一種實施方式中,所述網頁內容抓取單元4022,可以具體用于根據預設的規(guī)則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。在本發(fā)明的一種實施方式中,所述網頁內容抓取単元4022,還可以具體用于在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是,則采用異步方式下載所述網頁的圖片內容。通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺的方式來實現?;谶@樣的理解,本發(fā)明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品可以存儲在存儲介質中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置或系統實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的裝置及系統實施例僅僅是示意性的,其中所述作為分離部件說明的単元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理単元,即可以位于ー個地方,或者也可以分布到多個網絡単元上??梢愿鶕嶋H的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。以上對本發(fā)明所提供的ー種網頁收藏方法、裝置及系統,進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的 說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發(fā)明的思想,在具體實施方式
及應用范圍上均會有改變之處。綜上所述,本說明書內容不應理解為對本發(fā)明的限制。
權利要求
1.ー種網頁收藏方法,其特征在于,包括 接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息; 對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容; 對所抓取的網頁內容進行保存。
2.根據權利要求I所述的方法,其特征在于,還包括 當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼; 或者, 當接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。
3.根據權利要求2所述的方法,其特征在于,所述向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼,包括 在用戶所瀏覽的網頁中添加內嵌框架; 在所述內嵌框架中寫入所述腳本代碼。
4.根據權利要求I所述的方法,其特征在于,所述抓取所述網頁的內容描述信息,包括 抓取所述網頁的文檔對象模型信息。
5.根據權利要求I所述的方法,其特征在于,所述對所抓取的網頁內容進行保存,包括 根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。
6.根據權利要求I所述的方法,其特征在于,所述根據解析結果抓取所述網頁的內容包括 根據預設的規(guī)則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。
7.根據權利要求I所述的方法,其特征在于,所述根據解析結果抓取所述網頁的內容包括 在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是,則采用異步方式下載所述網頁的圖片內容。
8.根據權利要求1-7任一項所述的方法,其特征在干, 在抓取網頁的內容描述信息之后,還包括將所述內容描述信息發(fā)送至服務器端設備; 所述服務器端設備對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容,并對所抓取的網頁內容進行保存。
9.ー種網頁收藏裝置,其特征在于,包括 描述信息抓取単元,用于接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息; 網頁內容抓取単元,用于對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;網頁內容保存単元,用于對所抓取的網頁內容進行保存。
10.根據權利要求9所述的裝置,其特征在于,還包括 代碼注入単元,用于當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼;或者,當接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。
11.根據權利要求10所述的裝置,其特征在于,所述代碼注入単元,包括 框架添加子単元,用于在用戶所瀏覽的網頁中添加內嵌框架; 代碼寫入子単元,用于在所述內嵌框架中寫入所述腳本代碼。
12.根據權利要求9所述的裝置,其特征在于,所述描述信息抓取単元,具體用于 在接收到用戶的收藏操作指令后,利用預先寫入的腳本代碼,抓取所述網頁的文檔對象模型信息。
13.根據權利要求9所述的裝置,其特征在于,所述網頁內容保存単元,具體用于 根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。
14.根據權利要求9所述的裝置,其特征在于,所述網頁內容抓取単元,具體用于 根據預設的規(guī)則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。
15.根據權利要求9所述的裝置,其特征在于,所述網頁內容抓取単元,具體用于 在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是,則采用異步方式下載所述網頁的圖片內容。
16.ー種網頁收藏系統,其特征在于,包括客戶端設備和服務器端設備; 所述客戶端設備,包括 描述信息抓取単元,用于接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息; 描述信息發(fā)送單元,用于將所述網頁內容描述信息發(fā)送至服務器端設備; 所述服務器端設備,包括 描述信息接收單元,用于接收客戶端設備發(fā)送的網頁內容描述信息; 網頁內容抓取単元,用于對所述網頁內容描述信息進行解析,根據解析結果抓取網頁的內容; 網頁內容保存単元,用于對所抓取的網頁內容進行保存。
17.根據權利要求16所述的系統,其特征在于,所述客戶端設備還包括 代碼注入単元,用于當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼;或者,當接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。
18.根據權利要求17所述的系統,,其特征在于,所述代碼注入単元,包括 框架添加子単元,用于在用戶所瀏覽的網頁中添加內嵌框架; 代碼寫入子単元,用于在所述內嵌框架中寫入所述腳本代碼。
19.根據權利要求16所述的系統,,其特征在于,所述描述信息抓取単元,具體用于 在接收到用戶的收藏操作指令后,利用預先寫入的腳本代碼,抓取所述網頁的文檔對象模型信息。
20.根據權利要求16所述的系統,其特征在于,所述網頁內容保存単元,具體用于 根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。
21.根據權利要求16所述的系統,其特征在于,所述網頁內容抓取単元,具體用于 根據預設的規(guī)則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。
22.根據權利要求16所述的系統,其特征在于,所述網頁內容抓取単元,具體用于 在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是, 則采用異步方式下載所述網頁的圖片內容。
全文摘要
本發(fā)明公開一種網頁收藏方法、裝置及系統。所述方法包括接收到用戶對所瀏覽的網頁執(zhí)行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;對所抓取的網頁內容進行保存。應用本發(fā)明實施例所提供的技術方案,可以保證抓取的網頁內容的全面性,并且可以提升網頁收藏結果的有序性,便于用戶進行閱讀。
文檔編號G06F17/30GK102646135SQ20121009294
公開日2012年8月22日 申請日期2012年3月31日 優(yōu)先權日2012年3月31日
發(fā)明者張平, 曾強, 魏欽剛 申請人:奇智軟件(北京)有限公司