基于光學字符識別與垂直搜索的自定義爬蟲方法
【專利摘要】本發(fā)明涉及一種基于光學字符識別與垂直搜索的自定義爬蟲方法,其特點是:采用光學字符識別與垂直搜索的自定義爬蟲相結合,包括自動化爬蟲配置階段與程序執(zhí)行階段。這樣,可以有效減少程序的維護成本和提高數(shù)據(jù)獲取的靈活性。并且,將本發(fā)明的內容實施到搜索引擎的相關程序執(zhí)行上后,可以有效提升程序的運行工作效率,進而優(yōu)化搜索過程,為使用者和實施者均帶來了便利性。
【專利說明】基于光學字符識別與垂直搜索的自定義爬蟲方法
【技術領域】
[0001]本發(fā)明涉及一種自定義爬蟲方法,尤其涉及一種基于光學字符識別與垂直搜索的自定義爬蟲方法。
【背景技術】
[0002]對于龐大的互聯(lián)網數(shù)據(jù),不同領域關注的數(shù)據(jù)類型不同,傳統(tǒng)的搜索引擎不能準確的搜索到高質量的數(shù)據(jù),于是垂直搜索引擎被廣泛使用。
[0003]垂直搜索中數(shù)據(jù)獲取方式一般是由一定編程功底的人員,通過正則表達式對網頁上的數(shù)據(jù)進行抽取。但是,由于需求與網頁源代碼的多變性要求編程人員對程序不斷的進行更改,這樣大大增加了程序的維護成本。
[0004]另外,有些數(shù)據(jù)的獲取需要進行登錄,登錄一般需要輸入驗證碼。這樣導致程序自動獲取數(shù)據(jù)的難度增加。
【發(fā)明內容】
[0005]本發(fā)明的目的就是為了解決現(xiàn)有技術中存在的上述問題,提供一種基于光學字符識別與垂直搜索的自定義爬蟲方法。
[0006]本發(fā)明的目的通過以下技術方案來實現(xiàn):
基于光學字符識別與垂直搜索的自定義爬蟲方法,其包括自動化爬蟲配置階段與程序執(zhí)行階段,
所述自動化爬蟲配置階段包括以下步驟,步驟①,根據(jù)網頁是否需要登錄瀏覽來判斷是否需要配置登錄,需要登錄則進入步驟②,不需要登錄則進入步驟③;步驟②,配置登錄信息,并配置驗證碼圖片獲取規(guī)則;步驟③,配置起始頁URL與相關規(guī)則;步驟④,判斷標識是否終頁,若是則終頁執(zhí)行步驟⑦,若不是則進入步驟⑤;步驟⑤,配置下一頁URL獲取規(guī)則;步驟⑥,配置URL有效數(shù)據(jù)抽取規(guī)則,進入步驟④;步驟⑦,配置以上步驟中抽取的有效
數(shù)據(jù)的整合;步驟(§),配置步驟⑦
整合數(shù)據(jù)的存儲設置;步驟(D,保存自動化爬蟲配置信息。
[0007]程序執(zhí)行階段包括以下步驟:步驟①,程序讀取自動化爬蟲配置信息;步驟②,根據(jù)自動化爬蟲配置信息登錄相關配置判斷是否需要進行登錄,需要登錄則進入步驟③,不需要則進入步驟⑦;步驟③,根據(jù)自動化爬蟲配置信息中包含的驗證碼配置判斷是否需要驗證碼識別,需要驗證碼識別則進入步驟④,否則進入步驟⑥;步驟④,服務器下載驗證碼圖片;步驟⑤,圖片數(shù)據(jù)發(fā)送到光學字符識別服務器,該服務器讀取圖片信息并返回;步
驟⑥,嘗試登陸,若登陸成功則進入步驟⑦,否則進入步驟(14);步驟⑦,取出起始頁的URL ;步驟?,訪問給定的URL;步驟(D ,按照相應URL的配置信息抽取此URL網頁中的有效數(shù)據(jù),有數(shù)據(jù)既為想要的內容;步驟,判斷當前頁面是不是終頁,若是則進入步驟,若不是則進入步驟(M);步驟(11)按照相應URL的配置信息獲取下一層的URL,進入步驟@ ;步驟C?,整合以上步驟抽取的數(shù)據(jù)。
[0008]上述的基于光學字符識別與垂直搜索的自定義爬蟲方法,其中:所述的登錄信息包括cookie、用戶名、密碼。
[0009]進一步地,上述的基于光學字符識別與垂直搜索的自定義爬蟲方法,其中:所述的儲存設置是文本存儲或是數(shù)據(jù)庫存儲,文本存儲需寫明輸出路徑,數(shù)據(jù)庫則配置數(shù)據(jù)庫的地址、用戶名、密碼。
[0010]更進一步地,上述的基于光學字符識別與垂直搜索的自定義爬蟲方法,其中:所述的相應URL的配置信息是正則表達式,用于抽取頁面中的想要內容。
[0011]本發(fā)明技術方案的優(yōu)點主要體現(xiàn)在:依托于OCR (Optical CharacterRecognition\光學字符識別)技術與自定義垂直搜索爬蟲的配合,可以有效減少程序的維護成本和提高數(shù)據(jù)獲取的靈活性。并且,將本發(fā)明的內容實施到搜索引擎的相關程序執(zhí)行上后,可以有效提升程序的運行工作效率,進而優(yōu)化搜索過程,為使用者和實施者均帶來了便利性。
【專利附圖】
【附圖說明】
[0012]本發(fā)明的目的、優(yōu)點和特點,將通過下面優(yōu)選實施例的非限制性說明進行圖示和解釋。這些實施例僅是應用本發(fā)明技術方案的典型范例,凡采取等同替換或者等效變換而形成的技術方案,均落在本發(fā)明要求保護的范圍之內。這些附圖當中,
圖1是自動化爬蟲配置階段的流程示意圖;
圖2是自動化爬蟲程序執(zhí)行階段的流程示意圖。
【具體實施方式】
[0013]如圖1、2所示的基于光學字符識別與垂直搜索的自定義爬蟲方法,其特別之處在于:包括自動化爬蟲配置階段與程序執(zhí)行階段。
[0014]具體來說,采用的自動化爬蟲配置階段包括以下步驟:步驟①,根據(jù)網頁是否需要登錄瀏覽來判斷是否需要配置登錄,需要登錄則進入步驟②,不需要登錄則進入步驟③。步驟②,配置登錄信息,并配置驗證碼圖片獲取規(guī)則。為了便于程序的處理,提高整體的工作效率,采用的登錄信息包括cookie、用戶名、密碼。當然,可以追加其他的相關內容到登錄信息中,便于網站判斷是否登錄的相關信息,即模擬登錄的必要信息。在此期間,若不需要驗證碼識別,則不配置驗證碼圖片獲取規(guī)則。[0015]步驟③,配置起始頁URL與相關規(guī)則。步驟④,判斷標識是否終頁,若是則終頁執(zhí)行步驟⑦,若不是則進入步驟⑤。步驟⑤,配置下一頁URL獲取規(guī)則。步驟⑥,配置URL有
效數(shù)據(jù)抽取規(guī)則,進入步驟④。步驟⑦,配置以上步驟中抽取的有效數(shù)據(jù)的整合。步驟(|),
配置步驟⑦整合數(shù)據(jù)的存儲設置。具體來說,考慮到不同的實施方式,采用的儲存設置是文本存儲或是數(shù)據(jù)庫存儲,文本存儲需寫明輸出路徑,數(shù)據(jù)庫則配置數(shù)據(jù)庫的地址、用戶名、
密碼。步驟(f),保存自動化爬蟲配置信息。這樣,為后續(xù)的執(zhí)行進行準備。
[0016]進一步來看,本發(fā)明采用的程序執(zhí)行階段包括以下步驟:步驟①,程序讀取自動化爬蟲配置信息。步驟②,根據(jù)自動化爬蟲配置信息登錄相關配置判斷是否需要進行登錄,需要登錄則進入步驟③,不需要則進入步驟⑦。
[0017]步驟③,根據(jù)自動化爬蟲配置信息中包含的驗證碼配置判斷是否需要驗證碼識另IJ,需要驗證碼識別則進入步驟④,否則進入步驟⑥。步驟④,服務器下載驗證碼圖片。步驟⑤,圖片數(shù)據(jù)發(fā)送到光學字符識別(OCR Optical Character Recognition)服務器,該服務器讀取圖片信息并返回。步驟⑥,嘗試登陸,若登陸成功則進入步驟⑦,否則進入步驟
(M)。步驟⑦,取出起始頁的URL。步驟@,訪問給定的URL。步驟@,按照相應URL的配
置信息抽取此URL網頁中的有效數(shù)據(jù),有數(shù)據(jù)既為想要的內容。具體來說,去了便于相關內容的抽取,相應URL的配置信息是正則表達式,用于抽取頁面中的想要內容。
[0018]步驟⑩i,判斷當前頁面是不是終頁,若是則進入步驟(1),若不是則進入步驟
(11)。步驟(M)按照相應URL的配置信息獲取下一層的URL,進入步驟(g)。步驟(1?,整合以上步驟抽取的數(shù)據(jù)。
[0019]通過上述的文字表述可以看出,采用本發(fā)明后,依托于OCR (Optical CharacterRecognition\光學字符識別)技術與自定義垂直搜索爬蟲的配合,可以有效減少程序的維護成本和提高數(shù)據(jù)獲取的靈活性。并且,將本發(fā)明的內容實施到搜索引擎的相關程序執(zhí)行上后,可以有效提升程序的運行工作效率,進而優(yōu)化搜索過程,為使用者和實施者均帶來了便利性。
【權利要求】
1.基于光學字符識別與垂直搜索的自定義爬蟲方法,其特征在于:包括自動化爬蟲配置階段與程序執(zhí)行階段, 所述自動化爬蟲配置階段包括以下步驟, 步驟①,根據(jù)網頁是否需要登錄瀏覽來判斷是否需要配置登錄,需要登錄則進入步驟②,不需要登錄則進入步驟③; 步驟②,配置登錄信息,并配置驗證碼圖片獲取規(guī)則; 步驟③,配置起始頁URL與相關規(guī)則; 步驟④,判斷標識是否終頁,若是則終頁執(zhí)行步驟⑦,若不是則進入步驟⑤; 步驟⑤,配置下一頁URL獲取規(guī)則; 步驟⑥,配置URL有效數(shù)據(jù)抽取規(guī)則,進入步驟④; 步驟⑦,配置以上步驟中抽取的有效數(shù)據(jù)的整合; 步驟1.,配置步驟⑦整合數(shù)據(jù)的存儲設置; 步驟? ,保存自動化爬蟲配置信息; 程序執(zhí)行階段包括以下步驟: 步驟①,程序讀取自動化爬蟲配置信息; 步驟②,根據(jù)自動化爬蟲配置 信息登錄相關配置判斷是否需要進行登錄,需要登錄則進入步驟③,不需要則進入步驟⑦; 步驟③,根據(jù)自動化爬蟲配置信息中包含的驗證碼配置判斷是否需要驗證碼識別,需要驗證碼識別則進入步驟④,否則進入步驟⑥; 步驟④,服務器下載驗證碼圖片; 步驟⑤,圖片數(shù)據(jù)發(fā)送到光學字符識別服務器,該服務器讀取圖片信息并返回; 步驟⑥,嘗試登陸,若登陸成功則進入步驟⑦,否則進入步驟M ; 步驟⑦,取出起始頁的URL; 步驟+f ,訪問給定的URL ; 步驟:S ,按照相應URL的配置信息抽取此URL網頁中的有效數(shù)據(jù),有數(shù)據(jù)既為想要的內容; 步驟f,判斷當前頁面是不是終頁,若是則進入步驟?,若不是則進入步驟? ; 步驟按照相應URL的配置信息獲取下一層的URL,進入步驟+S ; 步驟⑩,整合以上步驟抽取的數(shù)據(jù)。
2.根據(jù)權利要求1所述的基于光學字符識別與垂直搜索的自定義爬蟲方法,其特征在于:所述的登錄信息包括cookie、用戶名、密碼。
3.根據(jù)權利要求1所述的基于光學字符識別與垂直搜索的自定義爬蟲方法,其特征在于:所述的儲存設置是文本存儲或是數(shù)據(jù)庫存儲,文本存儲需寫明輸出路徑,數(shù)據(jù)庫則配置數(shù)據(jù)庫的地址、用戶名、密碼。
4.根據(jù)權利要求1所述的基于光學字符識別與垂直搜索的自定義爬蟲方法,其特征在于:所述的相應URL的配置信息是正則表達式,用于抽取頁面中的想要內容。
【文檔編號】G06F17/30GK103514171SQ201210204733
【公開日】2014年1月15日 申請日期:2012年6月20日 優(yōu)先權日:2012年6月20日
【發(fā)明者】王專, 吳志祥, 張海龍, 馬和平, 吳劍, 郭鳳林, 王曉鐘, 龐紹進 申請人:同程網絡科技股份有限公司