專(zhuān)利名稱(chēng):一種提取網(wǎng)頁(yè)中驗(yàn)證碼圖片的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及驗(yàn)證碼圖片識(shí)別領(lǐng)域,尤其涉及一種提取網(wǎng)頁(yè)中驗(yàn)證碼圖片的方法。
背景技術(shù):
驗(yàn)證碼是一種區(qū)分用戶(hù)是計(jì)算機(jī)和人的公共全自動(dòng)程序??梢苑乐箰阂馄平饷艽a、刷票、論壇灌水,有效防止某個(gè)黑客對(duì)某一個(gè)特定注冊(cè)用戶(hù)用特定程序暴力破解方式進(jìn)行不斷的登陸嘗試,實(shí)際上是用驗(yàn)證碼是現(xiàn)在很多網(wǎng)站通行的方式。驗(yàn)證碼,就是將一串隨機(jī)產(chǎn)生的數(shù)字或符號(hào),生成一幅圖片,圖片里加上一些干擾,例如隨機(jī)畫(huà)數(shù)條直線,畫(huà)一些點(diǎn)(防止0£S),由用戶(hù)肉眼識(shí)別其中的驗(yàn)證碼信息,輸入表單提交網(wǎng)站驗(yàn)證,驗(yàn)證成功后才能使用某項(xiàng)功能?,F(xiàn)在很多軟件的應(yīng)用要提取網(wǎng)頁(yè)中的驗(yàn)證碼圖片,由于驗(yàn)證碼圖片在網(wǎng)頁(yè)中并沒(méi)有一個(gè)固定的網(wǎng)址鏈接,并且圖片隨機(jī)生成,對(duì)其 進(jìn)行刷新或者保存操作會(huì)改變圖片內(nèi)容,因此提取驗(yàn)證碼圖片是很多需要驗(yàn)證碼圖片的軟件應(yīng)用(盲人圖片驗(yàn)證碼服務(wù)軟件)的一個(gè)關(guān)鍵難題。
發(fā)明內(nèi)容
本發(fā)明提供了一種提取網(wǎng)頁(yè)中驗(yàn)證碼圖片的方法。利用網(wǎng)頁(yè)中驗(yàn)證碼輸入框位置、圖片位置、圖片大小、圖片視覺(jué)與內(nèi)容特征、圖片關(guān)鍵字等信息,提取網(wǎng)頁(yè)中驗(yàn)證碼圖片,本法發(fā)明可以為很多需要提取網(wǎng)頁(yè)驗(yàn)證碼圖片的軟件應(yīng)用提供便捷。本發(fā)明提供了一種提取網(wǎng)頁(yè)中驗(yàn)證碼圖片的方法,包括以下步驟I)獲取瀏覽器當(dāng)前活動(dòng)頁(yè)面所有IMG節(jié)點(diǎn)信息;2)根據(jù)預(yù)先制定的驗(yàn)證碼圖片評(píng)分策略,對(duì)MG節(jié)點(diǎn)所包含的圖片信息進(jìn)行評(píng)分,評(píng)分最高的即為包含驗(yàn)證碼圖片的MG節(jié)點(diǎn);3)如果步驟2)無(wú)法獲取所有MG節(jié)點(diǎn),則以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi);利用預(yù)先訓(xùn)練得到的分類(lèi)檢測(cè)模型獲取驗(yàn)證碼圖片的具體位置;4)將驗(yàn)證碼圖片單獨(dú)保存。2.所述的獲取瀏覽器當(dāng)前活動(dòng)頁(yè)面所有IMG節(jié)點(diǎn)信息,具體步驟為I)確定瀏覽器當(dāng)前活動(dòng)頁(yè)面;2)自頂向下,獲取活動(dòng)頁(yè)面的所有MG節(jié)點(diǎn)信息,MG節(jié)點(diǎn)信息包含了圖片位置,圖片大小,圖片長(zhǎng)寬,圖片關(guān)鍵字等信息。3.根據(jù)預(yù)先制定的驗(yàn)證碼圖片評(píng)分策略,對(duì)MG節(jié)點(diǎn)所包含的圖片信息進(jìn)行評(píng)分,評(píng)分最高的即為包含驗(yàn)證碼圖片的MG節(jié)點(diǎn),具體步驟為獲取瀏覽器當(dāng)前活動(dòng)頁(yè)面的所有MG節(jié)點(diǎn)的信息,利用預(yù)先制定的驗(yàn)證碼評(píng)分策略對(duì)所有的MG節(jié)點(diǎn)的信息進(jìn)行評(píng)分,評(píng)分最高的IMG節(jié)點(diǎn)即是驗(yàn)證碼圖片所在的IMG節(jié)點(diǎn)。4.所述的以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi);利用預(yù)先訓(xùn)練得到的分類(lèi)檢測(cè)模型獲取驗(yàn)證碼圖片的具體位置,具體步驟為I)如果不能獲取活動(dòng)頁(yè)面的所有MG節(jié)點(diǎn),則有可能獲取不到驗(yàn)證碼圖片所在的MG節(jié)點(diǎn)。這時(shí),可以以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi)。2)對(duì)局部圖片進(jìn)行處理,根據(jù)驗(yàn)證碼圖片的顏色、紋理梯度特征,利用驗(yàn)證碼分類(lèi)器模型,將其從局部圖片中識(shí)別出來(lái),并處理成單獨(dú)的驗(yàn)證碼圖片。5.所述的將驗(yàn)證碼圖片單獨(dú)保存,具體步驟為由于驗(yàn)證碼圖片的特殊性,對(duì)其進(jìn)行操作有可能會(huì)改變圖片,因此要采取特殊的保存圖片的方式。如果可以獲取到所有的MG節(jié)點(diǎn),則利用驗(yàn)證碼評(píng)分策略,選擇驗(yàn)證碼
圖片所在的MG節(jié)點(diǎn),可以根據(jù)MG節(jié)點(diǎn)中圖片的位置信息,進(jìn)行精確截屏,獲得驗(yàn)證碼圖片;否則,以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi),利用驗(yàn)證碼分類(lèi)模型將驗(yàn)證碼圖片所在的矩形區(qū)域進(jìn)行截取,獲得驗(yàn)證碼圖片。6.對(duì)局部圖片進(jìn)行處理,根據(jù)驗(yàn)證碼圖片的顏色、紋理等特征,利用驗(yàn)證碼分類(lèi)器,將其從局部圖片中識(shí)別出來(lái),并處理成單獨(dú)的驗(yàn)證碼圖片,具體步驟為I)建立驗(yàn)證碼圖片的樣本空間,提取樣本局部顏色、紋理、梯度特征,通過(guò)機(jī)器學(xué)習(xí)建立驗(yàn)證碼圖片分類(lèi)器模型;2)對(duì)于局部圖片,利用滑動(dòng)窗口模型得到備選矩形區(qū)域;3)對(duì)步驟2)生成每一個(gè)矩形區(qū)域,用步驟I)生成的驗(yàn)證碼分類(lèi)器判斷是不是驗(yàn)證碼圖片,如果是該矩形區(qū)域符合驗(yàn)證碼圖片的特征,則將其從局部圖片中截取并單獨(dú)保存生成驗(yàn)證碼圖片。
圖I是本發(fā)明一種提取網(wǎng)頁(yè)中驗(yàn)證碼圖片的方法的流程具體實(shí)施例方式下面將結(jié)合本發(fā)明中的附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行清晰、完整地描述?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,接下來(lái)將參照附圖對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)的說(shuō)明。參考圖1,本發(fā)明幫助盲人識(shí)別驗(yàn)證碼圖片的方法,包括以下步驟步驟S101,確定瀏覽器當(dāng)前活動(dòng)頁(yè)面。步驟S102,確定光標(biāo)在活動(dòng)頁(yè)面的位置。步驟S103,根據(jù)光標(biāo)位置,獲取活動(dòng)頁(yè)面的驗(yàn)證碼輸入框節(jié)點(diǎn)。步驟S104,自頂至下,獲取當(dāng)前活動(dòng)頁(yè)面的所有MG節(jié)點(diǎn)。步驟S105,判斷是否可以獲取活動(dòng)頁(yè)面所有的IMG節(jié)點(diǎn),如果是轉(zhuǎn)向步驟S107,否則轉(zhuǎn)向步驟S106。步驟S106,根據(jù)預(yù)先制定的驗(yàn)證碼評(píng)分策略,對(duì)MG節(jié)點(diǎn)所包含的圖片進(jìn)行評(píng)分,評(píng)分最高的即為驗(yàn)證碼圖片。每個(gè)頂G標(biāo)簽所包含的圖片都有幾個(gè)屬性MG標(biāo)簽關(guān)鍵字、圖片大小、圖片長(zhǎng)寬比例、圖片在頁(yè)面的位置與驗(yàn)證碼輸入框的距離、圖片內(nèi)容特征。根據(jù)這些信息,每張圖片都有一個(gè)評(píng)分。比如,可以設(shè)置初始評(píng)分為O,每個(gè)屬性的滿(mǎn)分為10分。評(píng)分越高,越有可能是驗(yàn)證碼圖片。對(duì)網(wǎng)站的驗(yàn)證碼圖片進(jìn)行學(xué)習(xí),發(fā)現(xiàn)驗(yàn)證碼圖片的標(biāo)簽有關(guān)鍵字比如“驗(yàn)證碼”,“code” ;圖片大小也在一定范圍內(nèi),比如200X200以?xún)?nèi)(可以根據(jù)需要再擴(kuò)大范圍);圖片長(zhǎng)大于寬??梢詾槊總€(gè)屬性設(shè)定標(biāo)準(zhǔn),距離標(biāo)準(zhǔn)越近,評(píng)分越高。步驟S107,截取驗(yàn)證碼輸入框周?chē)?yàn)證碼圖片的局部圖片。步驟S108,利用機(jī)器學(xué)習(xí),建立驗(yàn)證碼分類(lèi)模型,根據(jù)驗(yàn)證碼特征,從局部圖片中提取驗(yàn)證碼圖片。步驟S109,將驗(yàn)證碼圖片單獨(dú)保存。由于驗(yàn)證碼圖片的特殊性,對(duì)其進(jìn)行操作有可能會(huì)改變圖片,因此要采取特殊的保存圖片的方式。如果可以獲取到所有的IMG節(jié)點(diǎn),則利用驗(yàn)證碼評(píng)分策略,選擇驗(yàn)證碼圖片所在的MG節(jié)點(diǎn),可以根據(jù)MG節(jié)點(diǎn)中圖片的位置信 息,進(jìn)行精確截屏,獲得驗(yàn)證碼圖片;否則,以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi),利用驗(yàn)證碼分類(lèi)模型將驗(yàn)證碼圖片所在的矩形區(qū)域進(jìn)行截取,獲得驗(yàn)證碼圖片。本發(fā)明的技術(shù)方案中,利用光標(biāo)位置、驗(yàn)證碼輸入框位置、圖片位置、圖片大小、圖片視覺(jué)與內(nèi)容特征、圖片關(guān)鍵字、圖片長(zhǎng)寬比例等信息將網(wǎng)頁(yè)中的驗(yàn)證碼圖片提取出來(lái),為很多需要提取網(wǎng)頁(yè)驗(yàn)證碼圖片的應(yīng)用軟件提供了便捷。最后,應(yīng)當(dāng)指出,以上實(shí)施例僅是本發(fā)明較有代表性的例子。顯然,本發(fā)明的技術(shù)方案并不限于上述實(shí)施例。本領(lǐng)域的普通技術(shù)人員可在不脫離本發(fā)明的發(fā)明思想情況下,對(duì)于上述實(shí)施例做出種種修改或變化,因而本發(fā)明的保護(hù)范圍并不被上述實(shí)施例所限,而應(yīng)該根據(jù)權(quán)利要求書(shū)確定。
權(quán)利要求
1.一種提取網(wǎng)頁(yè)中驗(yàn)證碼圖片的方法,其特征在于,包括以下步驟 1)獲取瀏覽器當(dāng)前活動(dòng)頁(yè)面所有IMG節(jié)點(diǎn)信息; 2)根據(jù)預(yù)先制定的驗(yàn)證碼圖片評(píng)分策略,對(duì)MG節(jié)點(diǎn)所包含的圖片信息進(jìn)行評(píng)分,評(píng)分最高的即為包含驗(yàn)證碼圖片的MG節(jié)點(diǎn); 3)如果步驟2)無(wú)法獲取所有MG節(jié)點(diǎn),則以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi);利用預(yù)先訓(xùn)練得到的分類(lèi)檢測(cè)模型獲取驗(yàn)證碼圖片的具體位置; 4)將驗(yàn)證碼圖片單獨(dú)保存。
2.根據(jù)權(quán)利要求I所述的獲取瀏覽器當(dāng)前活動(dòng)頁(yè)面所有IMG節(jié)點(diǎn)信息,其特征在于,具體步驟為 1)確定瀏覽器當(dāng)前活動(dòng)頁(yè)面; 2)自頂向下,獲取活動(dòng)頁(yè)面的所有MG節(jié)點(diǎn)信息,MG節(jié)點(diǎn)信息包含了圖片位置,圖片大小,圖片長(zhǎng)寬,圖片關(guān)鍵字等信息。
3.根據(jù)權(quán)利要求I所述的根據(jù)預(yù)先制定的驗(yàn)證碼圖片評(píng)分策略,對(duì)MG節(jié)點(diǎn)所包含的圖片信息進(jìn)行評(píng)分,評(píng)分最高的即為包含驗(yàn)證碼圖片的MG節(jié)點(diǎn),其特征在于,具體步驟為 獲取瀏覽器當(dāng)前活動(dòng)頁(yè)面的所有IMG節(jié)點(diǎn)的信息,利用預(yù)先制定的驗(yàn)證碼評(píng)分策略對(duì)所有的MG節(jié)點(diǎn)的信息進(jìn)行評(píng)分,評(píng)分最高的MG節(jié)點(diǎn)即是驗(yàn)證碼圖片所在的MG節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求I所述的以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi);利用預(yù)先訓(xùn)練得到的分類(lèi)檢測(cè)模型獲取驗(yàn)證碼圖片的具體位置,其特征在于,具體步驟為 1)如果不能獲取活動(dòng)頁(yè)面的所有MG節(jié)點(diǎn),則有可能獲取不到驗(yàn)證碼圖片所在的MG節(jié)點(diǎn)。這時(shí),可以以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi)。
2)對(duì)局部圖片進(jìn)行處理,根據(jù)驗(yàn)證碼圖片的顏色、紋理梯度特征,利用驗(yàn)證碼分類(lèi)器模型,將其從局部圖片中識(shí)別出來(lái),并處理成單獨(dú)的驗(yàn)證碼圖片。
5.根據(jù)權(quán)利要求I所述的將驗(yàn)證碼圖片單獨(dú)保存,其特征在于,具體步驟為 由于驗(yàn)證碼圖片的特殊性,對(duì)其進(jìn)行操作有可能會(huì)改變圖片,因此要采取特殊的保存圖片的方式。如果可以獲取到所有的MG節(jié)點(diǎn),則利用驗(yàn)證碼評(píng)分策略,選擇驗(yàn)證碼圖片所在的MG節(jié)點(diǎn),可以根據(jù)MG節(jié)點(diǎn)中圖片的位置信息,進(jìn)行精確截屏,獲得驗(yàn)證碼圖片;否貝U,以驗(yàn)證碼輸入框?yàn)榻裹c(diǎn)截取其周?chē)木植繄D片將驗(yàn)證碼圖片包含在內(nèi),利用驗(yàn)證碼分類(lèi)模型將驗(yàn)證碼圖片所在的矩形區(qū)域進(jìn)行截取,獲得驗(yàn)證碼圖片。
6.根據(jù)權(quán)利要求4所述的對(duì)局部圖片進(jìn)行處理,根據(jù)驗(yàn)證碼圖片的顏色、紋理等特征,利用驗(yàn)證碼分類(lèi)器,將其從局部圖片中識(shí)別出來(lái),并處理成單獨(dú)的驗(yàn)證碼圖片,其特征在于,具體步驟為 1)建立驗(yàn)證碼圖片的樣本空間,提取樣本局部顏色、紋理、梯度特征,通過(guò)機(jī)器學(xué)習(xí)建立驗(yàn)證碼圖片分類(lèi)器模型; 2)對(duì)于局部圖片,利用滑動(dòng)窗口模型得到備選矩形區(qū)域; 3)對(duì)步驟2)生成每一個(gè)矩形區(qū)域,用步驟I)生成的驗(yàn)證碼分類(lèi)器判斷是不是驗(yàn)證碼圖片,如果是該矩形區(qū)域符合驗(yàn)證碼圖片的特征,則將其從局部圖片中截取并單獨(dú)保存生成驗(yàn)證碼 圖片。
全文摘要
本發(fā)明提供了一種提取網(wǎng)頁(yè)中驗(yàn)證碼圖片的方法。由于驗(yàn)證碼圖片在網(wǎng)頁(yè)中并沒(méi)有一個(gè)固定的網(wǎng)址鏈接,并且圖片隨機(jī)生成,對(duì)其進(jìn)行刷新或者保存操作會(huì)改變圖片內(nèi)容,因此提取驗(yàn)證碼圖片是很多需要驗(yàn)證碼圖片的軟件應(yīng)用的一個(gè)關(guān)鍵難題。在該方法中,利用光標(biāo)位置、驗(yàn)證碼輸入框位置、圖片位置、圖片大小、圖片視覺(jué)與內(nèi)容特征、圖片關(guān)鍵字、圖片長(zhǎng)寬比例等信息將網(wǎng)頁(yè)中的驗(yàn)證碼圖片提取出來(lái)。
文檔編號(hào)G06F21/00GK102737122SQ201210192428
公開(kāi)日2012年10月17日 申請(qǐng)日期2012年6月8日 優(yōu)先權(quán)日2012年6月8日
發(fā)明者何占盈, 卜佳俊, 宋明黎, 王燦, 王煒, 陳純, 韓沖 申請(qǐng)人:浙江大學(xué)