本發(fā)明涉及信息爬取技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)絡(luò)站點模擬登錄方法、裝置及電子設(shè)備。
背景技術(shù):
在大數(shù)據(jù)時代,通過網(wǎng)絡(luò)爬蟲爬取信息是獲得大量的樣本數(shù)據(jù)的主要方式之一。
其中,對于網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁信息來獲得樣本數(shù)據(jù)而言,由于一些網(wǎng)絡(luò)站點希望自己形成一個閉環(huán),不愿意把數(shù)據(jù)放到站外而只希望已登錄用戶訪問數(shù)據(jù),因此,為了抓取這類網(wǎng)站網(wǎng)絡(luò)站點的網(wǎng)頁信息,網(wǎng)絡(luò)爬蟲需要模擬用戶登錄網(wǎng)絡(luò)站點。
但是,在模擬登錄網(wǎng)絡(luò)站點時,網(wǎng)絡(luò)站點通常存在輸入驗證碼信息的需求,且驗證碼信息是動態(tài)變化的,此時,由于網(wǎng)絡(luò)爬蟲無法有效辨識驗證碼,經(jīng)常會導致網(wǎng)絡(luò)爬蟲登錄失敗,嚴重影響網(wǎng)絡(luò)爬蟲的正常工作和抓取效率。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種網(wǎng)絡(luò)站點模擬登錄方法、裝置及電子設(shè)備,以提高網(wǎng)絡(luò)爬蟲模擬登錄網(wǎng)絡(luò)站點的成功率。具體技術(shù)方案如下:
第一方面,本發(fā)明實施例提供了一種網(wǎng)絡(luò)站點模擬登錄方法,應(yīng)用于信息爬取系統(tǒng)中的電子設(shè)備,其中,所述信息爬取系統(tǒng)包括:中央控制設(shè)備和至少一個內(nèi)置用于爬取信息的網(wǎng)絡(luò)爬蟲的電子設(shè)備,所述方法包括:
網(wǎng)絡(luò)爬蟲下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片,其中,所述目標圖片中包含驗證碼信息;
將所下載的目標圖片傳輸至所述中央控制設(shè)備,以使得所述中央控制設(shè)備 在接收到所述目標圖片后,展示關(guān)于人工輸入所述目標圖片所包含的驗證碼信息的提示信息,并在接收到基于所述提示信息人工輸入的驗證碼信息后,將所述驗證碼信息反饋至所述電子設(shè)備;
接收所述驗證碼信息;
基于所接收到的驗證碼信息模擬登錄所述目標網(wǎng)絡(luò)站點。
可選的,在網(wǎng)絡(luò)爬蟲下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片之前,所述方法還包括:
接收所述中央控制設(shè)備通過實時交互接口發(fā)送的關(guān)于模擬登錄目標網(wǎng)絡(luò)站點的爬取任務(wù)。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法,還包括:
在成功模擬登錄所述目標網(wǎng)絡(luò)站點后,對所述目標網(wǎng)絡(luò)站點進行信息爬取。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法,還包括:
在模擬登錄所述目標網(wǎng)絡(luò)站點失敗后,重新執(zhí)行下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片的步驟。
可選的,所述將所下載的目標圖片傳輸至所述中央控制設(shè)備,包括:
將所下載的目標圖片通過套接字socket通道傳輸至所述中央控制設(shè)備;
或者,
將所下載的目標圖片通過傳輸控制協(xié)議TCP通道傳輸至所述中央控制設(shè)備;
或者,
將所下載的目標圖片通過用戶數(shù)據(jù)包協(xié)議UDP通道傳輸至所述中央控制設(shè)備。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法,還包括:
向所述中央控制設(shè)備反饋模擬登錄結(jié)果信息,以使得所述中央控制設(shè)備在接收到模擬登錄結(jié)果信息后,輸出所述模擬登錄結(jié)果信息。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法,還包括:
在成功模擬登錄所述目標網(wǎng)絡(luò)站點后,根據(jù)登錄狀態(tài)保持策略刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息。
可選的,所述根據(jù)登錄狀態(tài)保持策略刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息,包括:
按照預設(shè)刷新周期,刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息;
或者,
獲得所述目標網(wǎng)絡(luò)站點的cookie有效時長;
基于所述cookie有效時長,確定所述目標網(wǎng)絡(luò)站點所對應(yīng)的目標刷新周期,其中,所述目標刷新周期小于所述cookie有效時長;
按照所述目標刷新周期,刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法,還包括:
在信息爬取過程中,向所述中央控制設(shè)備反饋所述網(wǎng)絡(luò)爬蟲的健康狀態(tài)信息。
第二方面,本發(fā)明實施例還提供了一種網(wǎng)絡(luò)站點模擬登錄裝置,應(yīng)用于信息爬取系統(tǒng)中的電子設(shè)備,其中,所述信息爬取系統(tǒng)包括:中央控制設(shè)備和至少一個內(nèi)置用于爬取信息的網(wǎng)絡(luò)爬蟲的電子設(shè)備,所述裝置包括:
目標圖片下載模塊,用于下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片,其中,所述目標圖片中包含驗證碼信息;
目標圖片傳輸模塊,用于將所下載的目標圖片傳輸至所述中央控制設(shè)備,以使得所述中央控制設(shè)備在接收到所述目標圖片后,展示關(guān)于人工輸入所述目標圖片所包含的驗證碼信息的提示信息,并在接收到基于所述提示信息人工輸入的驗證碼信息后,將所述驗證碼信息反饋至所述電子設(shè)備;
驗證碼信息接收模塊,用于接收所述驗證碼信息;
驗證碼信息處理模塊,用于基于所接收到的驗證碼信息模擬登錄所述目標網(wǎng)絡(luò)站點。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還包括:
爬取任務(wù)接收模塊,用于在下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片之前,接收所述中央控制設(shè)備通過實時交互接口發(fā)送的關(guān)于模擬登錄目標網(wǎng)絡(luò)站點的爬取任務(wù)。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還包括:
信息爬取模塊,用于在成功模擬登錄所述目標網(wǎng)絡(luò)站點后,對所述目標網(wǎng)絡(luò)站點進行信息爬取。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還包括:
登錄失敗處理模塊,用于在模擬登錄所述目標網(wǎng)絡(luò)站點失敗后,觸發(fā)所述目標圖片下載模塊。
可選的,所述目標圖片傳輸模塊具體用于:
將所下載的目標圖片通過套接字socket通道傳輸至所述中央控制設(shè)備;
或者,
將所下載的目標圖片通過傳輸控制協(xié)議TCP通道傳輸至所述中央控制設(shè)備;
或者,
將所下載的目標圖片通過用戶數(shù)據(jù)包協(xié)議UDP通道傳輸至所述中央控制設(shè)備。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還包括:
結(jié)果反饋模塊,用于向所述中央控制設(shè)備反饋模擬登錄結(jié)果信息,以使得所述中央控制設(shè)備在接收到模擬登錄結(jié)果信息后,輸出所述模擬登錄結(jié)果信息。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還包括:
cookie信息刷新模塊,用于在成功模擬登錄所述目標網(wǎng)絡(luò)站點后,根據(jù)登錄狀態(tài)保持策略刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息。
可選的,所述cookie信息刷新模塊,包括:第一信息刷新子模塊或第二信 息刷新子模塊;
其中,所述第一信息刷新子模塊,用于按照預設(shè)刷新周期,刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息;
所述第二信息刷新子模塊,包括:
cookie有效時長獲得單元,用于獲得所述目標網(wǎng)絡(luò)站點的cookie有效時長;
目標刷新周期確定單元,用于基于所述cookie有效時長,確定所述目標網(wǎng)絡(luò)站點所對應(yīng)的目標刷新周期,其中,所述目標刷新周期小于所述cookie有效時長;
信息刷新單元,用于按照所述目標刷新周期,刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息。
可選的,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還包括:
健康狀態(tài)反饋模塊,用于在信息爬取過程中,向所述中央控制設(shè)備反饋所述網(wǎng)絡(luò)爬蟲的健康狀態(tài)信息。
第三方面,本發(fā)明實施例還提供了一種電子設(shè)備,位于信息爬取系統(tǒng)中,其中,所述信息爬取系統(tǒng)包括:中央控制設(shè)備和至少一個內(nèi)置用于爬取信息的網(wǎng)絡(luò)爬蟲的電子設(shè)備,所述電子設(shè)備包括:殼體、處理器、存儲器、電路板和電源電路,其中,電路板安置在殼體圍成的空間內(nèi)部,處理器和存儲器設(shè)置在電路板上;電源電路,用于為電子設(shè)備的各個電路或器件供電;存儲器用于存儲可執(zhí)行程序代碼;處理器通過讀取存儲器中存儲的可執(zhí)行程序代碼來運行與可執(zhí)行程序代碼對應(yīng)的程序,以用于執(zhí)行以下步驟:
下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片,其中,所述目標圖片中包含驗證碼信息;
將所下載的目標圖片傳輸至所述中央控制設(shè)備,以使得所述中央控制設(shè)備在接收到所述目標圖片后,展示關(guān)于人工輸入所述目標圖片所包含的驗證碼信息的提示信息,并在接收到基于所述提示信息人工輸入的驗證碼信息后,將所述驗證碼信息反饋至所述電子設(shè)備;
接收所述驗證碼信息;
基于所接收到的驗證碼信息模擬登錄所述目標網(wǎng)絡(luò)站點。本實施例中,內(nèi)置于電子設(shè)備中的網(wǎng)絡(luò)爬蟲在下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片后,將所下載的目標圖片傳輸至所述中央控制設(shè)備,以使得該中央控制設(shè)備在接收到該目標圖片后,展示關(guān)于人工輸入該目標圖片所包含的驗證碼信息的提示信息,并在接收到基于該提示信息人工輸入的驗證碼信息后,將該驗證碼信息反饋至該電子設(shè)備;接收該驗證碼信息;基于所接收到的驗證碼信息模擬登錄該目標網(wǎng)絡(luò)站點??梢姡ㄟ^本方案,可以結(jié)合人工方式來完成驗證碼信息的輸入,提高了驗證碼輸入的準確度,進而提高了網(wǎng)絡(luò)爬蟲模擬登錄網(wǎng)絡(luò)站點的成功率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法的流程圖;
圖2為本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法的又一流程圖;
圖3為本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置的另一結(jié)構(gòu)示意圖;
圖5為本發(fā)明實施例所提供的一種電子設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造 性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
為了解決現(xiàn)有技術(shù)問題,本發(fā)明實施例提供了一種網(wǎng)絡(luò)站點模擬登錄方法、裝置及電子設(shè)備,以提高網(wǎng)絡(luò)爬蟲模擬登錄網(wǎng)絡(luò)站點的成功率,進而保證網(wǎng)絡(luò)爬蟲的正常工作和抓取效率。
下面首先對本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法進行介紹。
本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法應(yīng)用于信息爬取系統(tǒng)中的電子設(shè)備,其中,該信息爬取系統(tǒng)可以包括:中央控制設(shè)備和至少一個內(nèi)置用于爬取信息的網(wǎng)絡(luò)爬蟲的電子設(shè)備,并且,在實際應(yīng)用中,該中央控制設(shè)備和該電子設(shè)備可以為:臺式電腦、筆記本電腦或服務(wù)器,等等。需要說明的是,當信息爬取系統(tǒng)僅僅包括中央控制設(shè)備和一個電子設(shè)備時,該中央控制設(shè)備可以與該電子設(shè)備屬于獨立的設(shè)備或同一設(shè)備,這都是合理的。
并且,執(zhí)行本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法的功能軟件為網(wǎng)絡(luò)爬蟲。
如圖1所示,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法,可以包括如下步驟:
S101,網(wǎng)絡(luò)爬蟲下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片,其中,該目標圖片中包含驗證碼信息;
其中,網(wǎng)絡(luò)爬蟲在模擬登錄網(wǎng)絡(luò)站點時,當存在輸入驗證碼信息的需求時,由于所需輸入的驗證碼信息通常以圖片的形式提示給用戶,因此,網(wǎng)絡(luò)爬蟲可以下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的包含有驗證碼信息的目標圖片,進而執(zhí)行后續(xù)的處理。
并且,需要強調(diào)的是,網(wǎng)絡(luò)爬蟲的關(guān)于模擬登錄網(wǎng)絡(luò)站點的爬取任務(wù)可以自行觸發(fā),例如:到達預定時間點自行觸發(fā),或者,按照預先設(shè)定的網(wǎng)絡(luò)站點任務(wù)表來觸發(fā)執(zhí)行,當然,也可以由外部觸發(fā),這都是合理的。
S102,將所下載的目標圖片傳輸至該中央控制設(shè)備,以使得該中央控制設(shè)備在接收到該目標圖片后,展示關(guān)于人工輸入該目標圖片所包含的驗證碼信息的提示信息,并在接收到基于該提示信息人工輸入的驗證碼信息后,將該驗證碼信息反饋至該電子設(shè)備;
其中,網(wǎng)絡(luò)爬蟲在下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片后,為了通過人工方式輸入驗證碼信息,可以將所下載的目標圖片傳輸至該中央控制設(shè)備,以使得該中央控制設(shè)備在接收到該目標圖片后,展示關(guān)于人工輸入該目標圖片所包含的驗證碼信息的提示信息,并在接收到基于該提示信息人工輸入的驗證碼信息后,將該驗證碼信息反饋至該電子設(shè)備。
其中,該提示信息至少包括:該目標圖片以及關(guān)于驗證碼信息的輸入框,并且,該提示信息的具體形式可以為彈框形式,或是,web界面,這都是合理的。需求強調(diào)的是,通常信息爬取過程和網(wǎng)絡(luò)站點模擬登錄發(fā)生在網(wǎng)絡(luò)側(cè),而非用戶側(cè),因此,網(wǎng)絡(luò)側(cè)的管理人員可以基于該提示信息人工輸入驗證碼信息。
其中,將所下載的目標圖片傳輸至該中央控制設(shè)備的方式存在多種,為了方案布局清楚,后續(xù)將進行舉例介紹。
S103,接收該驗證碼信息;
在中央控制設(shè)備將該驗證碼信息反饋至該電子設(shè)備后,網(wǎng)絡(luò)爬蟲可以接收該驗證碼信息,進而執(zhí)行后續(xù)的處理。
S104,基于所接收到的驗證碼信息模擬登錄該目標網(wǎng)絡(luò)站點。
網(wǎng)絡(luò)爬蟲在接收到該驗證碼信息后,可以基于所接收到的驗證碼信息模擬登錄該目標網(wǎng)絡(luò)站點。當然,在模擬登錄該目標網(wǎng)絡(luò)站點時,還需利用用戶賬號和用戶密碼,關(guān)于用戶賬號和用戶密碼的確定及輸入方式可以采用現(xiàn)有技術(shù),在此不做贅述。
本實施例中,內(nèi)置于電子設(shè)備中的網(wǎng)絡(luò)爬蟲在下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片后,將所下載的目標圖片傳輸至所述中央控制設(shè)備,以使得該中央控制設(shè)備在接收到該目標圖片后,展示關(guān)于人工輸入該目標圖片所包含的驗證碼信息的提示信息,并在接收到基于該提示信息人工輸入的驗證碼信息后,將該驗證碼信息反饋至該電子設(shè)備;接收該驗證碼信息;基于所接收到的驗證碼信息模擬登錄該目標網(wǎng)絡(luò)站點??梢?,通過本方案,可以結(jié)合人工方式來完成驗證碼信息的輸入,提高了驗證碼輸入的準確度,進而提高了網(wǎng)絡(luò)爬蟲模擬登錄網(wǎng)絡(luò)站點的成功率。
更進一步的,如圖2所示,在上述包含S101-S104的實施例的基礎(chǔ)上,在網(wǎng)絡(luò)爬蟲下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片(S101)之前,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄方法,還可以包括:
S100,接收該中央控制設(shè)備通過實時交互接口發(fā)送的關(guān)于模擬登錄目標網(wǎng)絡(luò)站點的爬取任務(wù)。
其中,網(wǎng)絡(luò)爬蟲的關(guān)于模擬登錄目標網(wǎng)絡(luò)站點的爬取任務(wù)可以由中央控制設(shè)備來主動觸發(fā),提高了爬取任務(wù)的可操作性;并且,中央控制設(shè)備所發(fā)出的關(guān)于模擬登錄目標網(wǎng)絡(luò)站點的爬取任務(wù)可以由中央控制設(shè)備自身自行觸發(fā),例如:到達預定時間點自行觸發(fā),或者,按照預先設(shè)定的網(wǎng)絡(luò)站點任務(wù)表來觸發(fā)執(zhí)行,當然,也可以通過管理員進行下發(fā),這都是合理的。并且,該實時交互接口用于中央控制設(shè)備對電子設(shè)備的主動控制,其可以通過現(xiàn)有技術(shù)來確定,在此不做贅述。
更進一步的,在成功模擬登錄該目標網(wǎng)絡(luò)站點后,網(wǎng)絡(luò)爬蟲可以進一步對該目標網(wǎng)絡(luò)站點進行信息爬取。其中,模擬登錄后的信息爬取方式可以采用現(xiàn)有技術(shù),由于不是本發(fā)明實施例的設(shè)計點,在此不作詳述。
并且,為了保證網(wǎng)絡(luò)爬蟲的永久登錄,可以在成功模擬登錄該目標網(wǎng)絡(luò)站點后,可以根據(jù)登錄狀態(tài)保持策略刷新該目標網(wǎng)絡(luò)站點的頁面cookie信息,其中,需要強調(diào)的是,cookie信息中可以包括:用戶賬戶、用戶密碼、瀏覽過的網(wǎng)頁、停留的時間等信息,通過有效的cookie信息,使得網(wǎng)絡(luò)爬蟲再次來到該網(wǎng)絡(luò)站點時,網(wǎng)絡(luò)站點可以通過讀取cookies信息,得知相關(guān)登錄信息,做出相應(yīng)的動作,如無需輸入用戶賬戶和用戶密碼即可直接登錄,此時,由于無需登錄,便不存在輸入驗證碼信息的需求,提高了關(guān)于目標網(wǎng)絡(luò)站點的登錄效率。
具體的,根據(jù)登錄狀態(tài)保持策略刷新該目標網(wǎng)絡(luò)站點的頁面cookie信息的具體實現(xiàn)方式存在多種,為了方案清楚,對其中兩種具體實現(xiàn)方式進行介紹。
在第一種實現(xiàn)方式中,可以按照預設(shè)刷新周期,刷新該目標網(wǎng)絡(luò)站點的頁面cookie信息,其中,該預設(shè)刷新周期為基于所統(tǒng)計的各個常用網(wǎng)絡(luò)站點的cookie有效時長所確定,且該預設(shè)刷新周期小于所統(tǒng)計的所有常用網(wǎng)絡(luò)站點的cookie有效時長。其中,可以采用現(xiàn)有技術(shù)統(tǒng)計各個常用網(wǎng)絡(luò)站點的cookie有 效時長,在此不做贅述;在保證該預設(shè)刷新周期小于所統(tǒng)計的所有常用網(wǎng)絡(luò)站點的cookie有效時長的前提下,基于所統(tǒng)計的各個常用網(wǎng)絡(luò)站點的cookie有效時長確定預設(shè)刷新周期的具體實現(xiàn)方式在此不做限定。舉例而言:常用網(wǎng)絡(luò)站點的cookie有效時長依次為:網(wǎng)絡(luò)站點A的cookie有效時長為3小時,網(wǎng)絡(luò)站點B的cookie有效時長為10小時,網(wǎng)絡(luò)站點C的cookie有效時長為8小時,那么,該預設(shè)刷新周期可以為2小時,即每隔2個小時刷新一次頁面cookie信息,或者,該預設(shè)刷新周期可以為1小時,即每隔1個小時刷新一次頁面cookie信息,等等。在第二種實現(xiàn)方式中,可以獲得該目標網(wǎng)絡(luò)站點的cookie有效時長;基于該cookie有效時長,確定該目標網(wǎng)絡(luò)站點所對應(yīng)的目標刷新周期,其中,該目標刷新周期小于該cookie有效時長;按照該目標刷新周期,刷新該目標網(wǎng)絡(luò)站點的頁面cookie信息。其中,可以采用現(xiàn)有技術(shù)來獲得該目標網(wǎng)絡(luò)站點的cookie有效時長,在此不做贅述;另外,在保證該目標刷新周期小于該cookie有效時長的前提下,基于該cookie有效時長,確定該目標網(wǎng)絡(luò)站點所對應(yīng)的目標刷新周期的具體實現(xiàn)方式在此不做限定。舉例而言,該目標網(wǎng)絡(luò)站點的cookie有效時長為3小時,該目標刷新周期可以為1小時,即每隔1個小時刷新一次頁面頁面cookie信息,或者,該目標刷新周期可以為0.5個小時,即每隔0.5個小時刷新一次頁面頁面cookie信息,等等。
另外,為了便于中央控制設(shè)備對網(wǎng)絡(luò)爬蟲的管理,在信息爬取過程中,可以向中央控制設(shè)備反饋該網(wǎng)絡(luò)爬蟲的健康狀態(tài)信息,其中,該健康狀態(tài)信息可以包括:正?;虿徽?,當然,并不局限于此,關(guān)于網(wǎng)絡(luò)爬蟲的健康狀態(tài)可以根據(jù)實際情況進行設(shè)定,關(guān)于健康狀態(tài)的判斷依據(jù)也可以根據(jù)實際情況設(shè)定,具體的設(shè)定方式可以采用現(xiàn)有技術(shù),在此不做贅述。
更進一步的,可以理解的是,在某些情況下,管理員所輸入的驗證碼信息可能與目標圖片中的驗證碼信息不一致,例如:目標圖片的清晰度不夠,或者,目標圖片中的驗證碼信息本身易混淆,此時,網(wǎng)絡(luò)爬蟲可能無法一次性成功模擬登錄目標網(wǎng)絡(luò)站點。對于網(wǎng)絡(luò)爬蟲無法一次性成功模擬登錄目標網(wǎng)絡(luò)站點的情況而言,在模擬登錄該目標網(wǎng)絡(luò)站點失敗后,網(wǎng)絡(luò)爬蟲可以重新執(zhí)行下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片的步驟,即重新執(zhí)行本發(fā)明實施例所提供的網(wǎng)絡(luò)站點模擬登錄方法整個流程。
具體的,將所下載的目標圖片傳輸至該中央控制設(shè)備的方式存在多種,下述對具體的傳輸方式進行舉例介紹。具體的,所述將所下載的目標圖片傳輸至該中央控制設(shè)備,可以包括:
將所下載的目標圖片通過套接字socket通道傳輸至該中央控制設(shè)備;
或者,
將所下載的目標圖片通過TCP(Transmission Control Protocol,傳輸控制協(xié)議)通道傳輸至該中央控制設(shè)備;
或者,
將所下載的目標圖片通過UDP(User Datagram Protocol,用戶數(shù)據(jù)包協(xié)議)通道傳輸至該中央控制設(shè)備。
本領(lǐng)域技術(shù)人員可以理解的是,套接字socket通道、TCP通道和UDP通道可以根據(jù)情況進行選擇,舉例而言,當對數(shù)據(jù)傳輸穩(wěn)定的要求較高時,可以優(yōu)先于選擇套接字socket通道。
更進一步的,為了讓管理員了解網(wǎng)絡(luò)爬蟲的登錄結(jié)果,網(wǎng)絡(luò)爬蟲在基于所接收到的驗證碼信息模擬登錄該目標網(wǎng)絡(luò)站點后,可以向該中央控制設(shè)備反饋模擬登錄結(jié)果信息,以使得該中央控制設(shè)備在接收到模擬登錄結(jié)果信息后,輸出該模擬登錄結(jié)果信息。
相應(yīng)于上述方法實施例,本發(fā)明實施例提供了一種網(wǎng)絡(luò)站點模擬登錄裝置,應(yīng)用于信息爬取系統(tǒng)中的電子設(shè)備,其中,所述信息爬取系統(tǒng)包括:中央控制設(shè)備和至少一個內(nèi)置用于爬取信息的網(wǎng)絡(luò)爬蟲的電子設(shè)備,如圖3所示,所述裝置可以包括:
目標圖片下載模塊310,用于下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片,其中,所述目標圖片中包含驗證碼信息;
目標圖片傳輸模塊320,用于將所下載的目標圖片傳輸至所述中央控制設(shè) 備,以使得所述中央控制設(shè)備在接收到所述目標圖片后,展示關(guān)于人工輸入所述目標圖片所包含的驗證碼信息的提示信息,并在接收到基于所述提示信息人工輸入的驗證碼信息后,將所述驗證碼信息反饋至所述電子設(shè)備;
驗證碼信息接收模塊330,用于接收所述驗證碼信息;
驗證碼信息處理模塊340,用于基于所接收到的驗證碼信息模擬登錄所述目標網(wǎng)絡(luò)站點。
本實施例中,內(nèi)置于電子設(shè)備中的網(wǎng)絡(luò)爬蟲在下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片后,將所下載的目標圖片傳輸至所述中央控制設(shè)備,以使得該中央控制設(shè)備在接收到該目標圖片后,展示關(guān)于人工輸入該目標圖片所包含的驗證碼信息的提示信息,并在接收到基于該提示信息人工輸入的驗證碼信息后,將該驗證碼信息反饋至該電子設(shè)備;接收該驗證碼信息;基于所接收到的驗證碼信息模擬登錄該目標網(wǎng)絡(luò)站點。可見,通過本方案,可以結(jié)合人工方式來完成驗證碼信息的輸入,提高了驗證碼輸入的準確度,進而提高了網(wǎng)絡(luò)爬蟲模擬登錄網(wǎng)絡(luò)站點的成功率。
更進一步的,如圖4所示,在上述包含目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例的基礎(chǔ),本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還可以包括:
爬取任務(wù)接收模塊300,用于在下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片之前,接收所述中央控制設(shè)備通過實時交互接口發(fā)送的關(guān)于模擬登錄目標網(wǎng)絡(luò)站點的爬取任務(wù)。
更進一步的,在上述包含目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例或上述包含爬取任務(wù)接收模塊300、目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例的基礎(chǔ)上,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還可以包括:
信息爬取模塊,用于在成功模擬登錄所述目標網(wǎng)絡(luò)站點后,對所述目標網(wǎng) 絡(luò)站點進行信息爬取。
更進一步的,在上述包含目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例或上述包含爬取任務(wù)接收模塊300、目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例的基礎(chǔ)上,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還可以包括:
登錄失敗處理模塊,用于在模擬登錄所述目標網(wǎng)絡(luò)站點失敗后,觸發(fā)所述目標圖片下載模塊。
具體的,在上述包含目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例或上述包含爬取任務(wù)接收模塊300、目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例中,所述目標圖片傳輸模塊320具體用于:
將所下載的目標圖片通過套接字socket通道傳輸至所述中央控制設(shè)備;
或者,
將所下載的目標圖片通過傳輸控制協(xié)議TCP通道傳輸至所述中央控制設(shè)備;
或者,
將所下載的目標圖片通過用戶數(shù)據(jù)包協(xié)議UDP通道傳輸至所述中央控制設(shè)備。
更進一步的,在上述包含目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例或上述包含爬取任務(wù)接收模塊300、目標圖片下載模塊310、目標圖片傳輸模塊320、驗證碼信息接收模塊330和驗證碼信息處理模塊340的實施例的基礎(chǔ)上,本發(fā)明實施例所 提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還可以包括:
結(jié)果反饋模塊,用于向所述中央控制設(shè)備反饋模擬登錄結(jié)果信息,以使得所述中央控制設(shè)備在接收到模擬登錄結(jié)果信息后,輸出所述模擬登錄結(jié)果信息。
更進一步的,在上述包含信息爬取模塊的實施例的基礎(chǔ)上,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還可以包括:
cookie信息刷新模塊,用于在成功模擬登錄所述目標網(wǎng)絡(luò)站點后,根據(jù)登錄狀態(tài)保持策略刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息。
具體的,所述cookie信息刷新模塊,可以包括:第一信息刷新子模塊或第二信息刷新子模塊;
其中,所述第一信息刷新子模塊,用于按照預設(shè)刷新周期,刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息;
所述第二信息刷新子模塊,可以包括:
cookie有效時長獲得單元,用于獲得所述目標網(wǎng)絡(luò)站點的cookie有效時長;
目標刷新周期確定單元,用于基于所述cookie有效時長,確定所述目標網(wǎng)絡(luò)站點所對應(yīng)的目標刷新周期,其中,所述目標刷新周期小于所述cookie有效時長;
信息刷新單元,用于按照所述目標刷新周期,刷新所述目標網(wǎng)絡(luò)站點的頁面cookie信息。
更進一步的,在上述包含信息爬取模塊的實施例的基礎(chǔ)上,本發(fā)明實施例所提供的一種網(wǎng)絡(luò)站點模擬登錄裝置,還可以包括:
健康狀態(tài)反饋模塊,用于在信息爬取過程中,向所述中央控制設(shè)備反饋所述網(wǎng)絡(luò)爬蟲的健康狀態(tài)信息。
另外,本發(fā)明實施例還提供了一種電子設(shè)備,位于信息爬取系統(tǒng)中,其中,所述信息爬取系統(tǒng)包括:中央控制設(shè)備和至少一個內(nèi)置用于爬取信息的網(wǎng)絡(luò)爬蟲的電子設(shè)備,如圖5所示,所述電子設(shè)備包括:殼體501、處理器502、存儲器503、電路板504和電源電路505,其中,電路板504安置在殼體501圍成的空間內(nèi)部,處理器502和存儲器503設(shè)置在電路板504上;電源電路505,用于為電子設(shè)備的各個電路或器件供電;存儲器503用于存儲可執(zhí)行程序代碼;處理器502通過讀取存儲器503中存儲的可執(zhí)行程序代碼來運行與可執(zhí)行程序代碼對應(yīng)的程序,以用于執(zhí)行以下步驟:
下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片,其中,所述目標圖片中包含驗證碼信息;
將所下載的目標圖片傳輸至所述中央控制設(shè)備,以使得所述中央控制設(shè)備在接收到所述目標圖片后,展示關(guān)于人工輸入所述目標圖片所包含的驗證碼信息的提示信息,并在接收到基于所述提示信息人工輸入的驗證碼信息后,將所述驗證碼信息反饋至所述電子設(shè)備;
接收所述驗證碼信息;
基于所接收到的驗證碼信息模擬登錄所述目標網(wǎng)絡(luò)站點。處理器502對上述步驟的具體執(zhí)行過程以及處理器502通過運行可執(zhí)行程序代碼來進一步執(zhí)行的步驟,可以參見本發(fā)明圖1-4所示實施例的描述,在此不再贅述。
由上述可見,本發(fā)明實施例中,內(nèi)置于電子設(shè)備中的網(wǎng)絡(luò)爬蟲在下載所模擬登錄的目標網(wǎng)絡(luò)站點當前的目標圖片后,將所下載的目標圖片傳輸至該中央控制設(shè)備,以使得該中央控制設(shè)備在接收到該目標圖片后,展示關(guān)于人工輸入該目標圖片所包含的驗證碼信息的提示信息,并在接收到基于該提示信息人工輸入的驗證碼信息后,將該驗證碼信息反饋至該電子設(shè)備;接收該驗證碼信息;基于所接收到的驗證碼信息模擬登錄該目標網(wǎng)絡(luò)站點??梢?,通過本方案,可以結(jié)合人工方式來完成驗證碼信息的輸入,提高了驗證碼輸入的準確度,進而提高了網(wǎng)絡(luò)爬蟲模擬登錄網(wǎng)絡(luò)站點的成功率。
該電子設(shè)備以多種形式存在,包括但不限于:
(1)移動通信設(shè)備:這類設(shè)備的特點是具備移動通信功能,并且以提供話音、數(shù)據(jù)通信為主要目標。這類終端包括:智能手機(例如iPhone)、多媒體 手機、功能性手機,以及低端手機等。
(2)超移動個人計算機設(shè)備:這類設(shè)備屬于個人計算機的范疇,有計算和處理功能,一般也具備移動上網(wǎng)特性。這類終端包括:PDA、MID和UMPC設(shè)備等,例如iPad。
(3)便攜式娛樂設(shè)備:這類設(shè)備可以顯示和播放多媒體內(nèi)容。該類設(shè)備包括:音頻、視頻播放器(例如iPod),掌上游戲機,電子書,以及智能玩具和便攜式車載導航設(shè)備。
(4)服務(wù)器:提供計算服務(wù)的設(shè)備,服務(wù)器的構(gòu)成包括處理器、硬盤、內(nèi)存、系統(tǒng)總線等,服務(wù)器和通用的計算機架構(gòu)類似,但是由于需要提供高可靠的服務(wù),因此在處理能力、穩(wěn)定性、可靠性、安全性、可擴展性、可管理性等方面要求較高。
(5)其他具有數(shù)據(jù)交互功能的電子裝置。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。