專利名稱:一種用于移動(dòng)通訊設(shè)備終端的網(wǎng)頁頁面光學(xué)字符識(shí)別處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于移動(dòng)通訊設(shè)備終端的網(wǎng)頁頁面瀏覽技術(shù)領(lǐng)域,特別是一種用于移 動(dòng)通訊設(shè)備終端的網(wǎng)頁頁面光學(xué)字符識(shí)別處理方法。
背景技術(shù):
對網(wǎng)頁頁面來說,圖片、flash既可以是點(diǎn)綴元素,也可以是內(nèi)容載體比如小說站的VIP章節(jié),一般是以圖片形式展現(xiàn);比如登錄的網(wǎng)頁頁面,登錄驗(yàn)證碼有圖片的方式,也有flash方式?;ヂ?lián)網(wǎng)的網(wǎng)頁頁面是以個(gè)人電腦終端網(wǎng)頁瀏覽器軟件作為參照物進(jìn)行優(yōu)化處理 的,其使用的一些內(nèi)容承載形式、一些功能對移動(dòng)通訊設(shè)備終端來說,是高不可攀的訪問門
-Im ο目前,部分基于移動(dòng)通訊設(shè)備終端的瀏覽器軟件雖然已支持主流圖片格式,但仍 然無法很好處理這些內(nèi)容,主要為下面三點(diǎn)1)圖片文件體積過大(小說站點(diǎn)VIP章節(jié),每一章節(jié)圖片的體積是數(shù)兆),已經(jīng)遠(yuǎn) 遠(yuǎn)超出一般移動(dòng)通訊設(shè)備終端的圖片處理和回放的解析能力;2)圖片解析處理效率低,解析處理需要很長的時(shí)間,嚴(yán)重影響使用;3)圖片尺寸遠(yuǎn)大于移動(dòng)通訊設(shè)備終端的屏幕尺寸,用戶瀏覽時(shí)要不斷“上下左右” 移動(dòng)網(wǎng)頁頁面才能看到內(nèi)容。4)圖片文件體積過大,數(shù)據(jù)流量消耗過高,且需要很長的數(shù)據(jù)加載等待時(shí)間。而受到技術(shù)、授權(quán)方面的制約,基于移動(dòng)終端的網(wǎng)頁flash應(yīng)用還有很長的路要走。
發(fā)明內(nèi)容
本發(fā)明提供一種用于移動(dòng)通訊設(shè)備終端的網(wǎng)頁頁面光學(xué)字符識(shí)別處理方法,以解 決現(xiàn)有技術(shù)的不足,幫助用戶獲得更好的網(wǎng)頁頁面瀏覽體驗(yàn)。本發(fā)明采用的技術(shù)方案如下一種用于移動(dòng)通訊設(shè)備終端的頁面光學(xué)字符識(shí)別處理方法,由移動(dòng)通訊設(shè)備終端 和轉(zhuǎn)發(fā)移動(dòng)通訊設(shè)備終端訪問請求的中轉(zhuǎn)服務(wù)器實(shí)現(xiàn),中轉(zhuǎn)服務(wù)器上設(shè)置有光學(xué)字符識(shí)別 引擎,所述方法包括(11)移動(dòng)通訊設(shè)備終端將訪問請求提交給中轉(zhuǎn)服務(wù)器;(12)中轉(zhuǎn)服務(wù)器根據(jù)訪問請求從目標(biāo)網(wǎng)站服務(wù)器獲取網(wǎng)頁頁面數(shù)據(jù);(13)中轉(zhuǎn)服務(wù)器對網(wǎng)頁頁面數(shù)據(jù)中的特定數(shù)據(jù)根據(jù)識(shí)別規(guī)則進(jìn)行判斷;(14)對于符合識(shí)別規(guī)則的特定數(shù)據(jù)通過光學(xué)字符識(shí)別引擎進(jìn)行光學(xué)字符識(shí)別;(15)把經(jīng)過光學(xué)字符識(shí)別后的文字與其他網(wǎng)頁頁面數(shù)據(jù)一起返回給移動(dòng)通訊設(shè) 備終端;
(16)移動(dòng)通訊設(shè)備終端顯示網(wǎng)頁頁面數(shù)據(jù)。上述的特定數(shù)據(jù)為包含文字的圖片、flash文件等非文字性數(shù)據(jù),通過采用光學(xué)字 符識(shí)別技術(shù),把原來特定數(shù)據(jù)里面的文字識(shí)別出來,然后把文字移動(dòng)通訊設(shè)備終端。通過該 技術(shù)方案,使用戶大大節(jié)省了流量。同時(shí),原來的圖片是不可編輯,不可重新排版,但經(jīng)過光 學(xué)字符識(shí)別識(shí)別轉(zhuǎn)換為文字后,則可以根據(jù)移動(dòng)通訊設(shè)備終端的屏幕進(jìn)行采用適應(yīng)屏幕技 術(shù)進(jìn)行重新排版,使用戶獲得更加好的瀏覽閱讀感受。作為進(jìn)一步的優(yōu)選方案,所述中轉(zhuǎn)服務(wù)器上還設(shè)置有用于校對常用文字的校對數(shù) 據(jù)庫,所述步驟(14)的具體步驟為(21)通過光學(xué)字符識(shí)別引擎對特定數(shù)據(jù)進(jìn)行光學(xué)字符識(shí)別后得到文字 數(shù)據(jù);(22)通過調(diào)用常用文字的校對數(shù)據(jù)庫對把經(jīng)過識(shí)別后的文字?jǐn)?shù)據(jù)進(jìn)行檢索并判 斷所識(shí)別的文字是否有誤,如果有誤,則進(jìn)行更正如果有誤,則進(jìn)行自動(dòng)適配修正,并返回 修正后數(shù)據(jù)到移動(dòng)通訊設(shè)備終端。作為一種優(yōu)選方案,所述識(shí)別規(guī)則為根據(jù)特定數(shù)據(jù)的尺寸大小進(jìn)行判斷,對超過 預(yù)先設(shè)置的尺寸大小閾值的特定數(shù)據(jù)進(jìn)行光學(xué)字符識(shí)別。作為進(jìn)一步的優(yōu)選方案,所述特定數(shù)據(jù)為圖片或者flash文件。作為再進(jìn)一步的優(yōu)選方案,所述識(shí)別規(guī)則為對于圖片的識(shí)別規(guī)則為(51)根據(jù)圖片直方圖色階值、圖片色彩灰度分布值等作為判斷依據(jù)進(jìn)行判斷,對 符合規(guī)則的圖片進(jìn)行光學(xué)字符識(shí)別進(jìn)行判斷,對符合規(guī)則的圖片進(jìn)行光學(xué)字符識(shí)別。在一般網(wǎng)頁圖片中,一般采用sRGB以及adobeRGB,前者使用更普遍。但無論是哪 一種標(biāo)準(zhǔn),其色階、灰度的分布動(dòng)態(tài)范圍都是有一定規(guī)律的,根據(jù)這些規(guī)律,設(shè)定一定的規(guī) 貝1J,則能判斷是普通的圖片,還是作為網(wǎng)頁主要文字內(nèi)容的圖片。; 對于flash文件的識(shí)別規(guī)則為(52)根據(jù)flash文件所在的頁面架構(gòu)體系判斷1)網(wǎng)頁頁面內(nèi)引用flash資源是要使用一些固定的標(biāo)簽,這可以作為判斷的依 據(jù),比如<EMBED SRC =' http://www. uc. cn/Flash/2009 1. swf' wmode =’ transparent' WIDTH = ’ 375 ' HEIGHT = ’ 63' TYPE = ’ application/ x-shockwave-flash' QUALITY =’ high, ></EMBED>可以根據(jù)這些標(biāo)簽判斷其內(nèi)容為flash文件。2)通過頁面元素探嗅,準(zhǔn)確判斷頁面flash文件。作為進(jìn)一步的優(yōu)選方案,所述步驟(11)中,移動(dòng)通訊設(shè)備終端還把其硬件顯示參 數(shù)和網(wǎng)頁頁面的訪問請求一起發(fā)送到中轉(zhuǎn)服務(wù)器。作為進(jìn)一步的優(yōu)選方案,所述識(shí)別規(guī)則為根據(jù)圖片尺寸大小結(jié)合終端屏幕尺寸 大小進(jìn)行判斷,對圖片尺寸大小與終端屏幕尺寸大小的比例超過預(yù)先設(shè)置的閾值的圖片進(jìn) 行光學(xué)字符識(shí)別。作為更進(jìn)一步的優(yōu)選方案,所述步驟(14)對于flash文件的具體步驟為(81)把flash文件轉(zhuǎn)換成圖片;(82)對轉(zhuǎn)換后的圖片進(jìn)行光學(xué)字符識(shí)別。
作為一種優(yōu)選方案,所述特定數(shù)據(jù)為網(wǎng)頁頁面上的圖片驗(yàn)證碼或者flash驗(yàn)證 碼,對于圖片驗(yàn)證碼不進(jìn)行光學(xué)字符識(shí)別直接返回給移動(dòng)通訊設(shè)備終端,對于flash驗(yàn)證 碼,把flash驗(yàn)證碼轉(zhuǎn)換為圖片驗(yàn)證碼后返回給移動(dòng)通訊設(shè)備終端。使用本發(fā)明的處理方案,能有效地解決現(xiàn)有技術(shù)的問題,在為用戶節(jié)省流量的同 時(shí),為用戶提供更好的瀏覽體驗(yàn)。
圖1為本發(fā)明的流程圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)的說明。如圖1所示,本實(shí)施例的步驟如下1)圖片既是頁面上的點(diǎn)綴元素,又可能是頁面上的內(nèi)容承載主體,因此判斷圖片 的類型是本實(shí)施例首先要解決的問題,主要通過下面兩種方式判斷a、通過圖片尺寸大小判斷;b、通過圖片尺寸大小結(jié)合終端屏幕尺寸大小判斷;C、通過圖片(直方圖)色階值判斷;2)與圖片一樣,flash資源也是有這方面的問題,本實(shí)施例通過下面方式進(jìn)行判 斷a、通過flash尺寸大小判斷;b、通過flash資源所在的頁面架構(gòu)體系判斷;3)上面的判斷處理操作,借助運(yùn)算能力強(qiáng)大的中轉(zhuǎn)服務(wù)器進(jìn)行處理;4)訪問網(wǎng)頁頁面時(shí),移動(dòng)通訊設(shè)備終端的瀏覽器軟件將網(wǎng)頁頁面的訪問請求,移 動(dòng)通訊設(shè)備終端的硬件顯示參數(shù)提交給中轉(zhuǎn)服務(wù)器,由中轉(zhuǎn)服務(wù)器根據(jù)訪問請求訪問從目 標(biāo)網(wǎng)站服務(wù)器獲取網(wǎng)頁頁面數(shù)據(jù);5)中轉(zhuǎn)服務(wù)器根據(jù)規(guī)則判斷網(wǎng)頁頁面上哪些內(nèi)容是要進(jìn)行處理的,并使用光學(xué)字 符識(shí)別技術(shù)把內(nèi)容識(shí)別并提取出來;6)為保證返回?cái)?shù)據(jù)結(jié)果的正確性,中轉(zhuǎn)服務(wù)器還通過調(diào)用常用文字的校對數(shù)據(jù)庫 對把經(jīng)過識(shí)別后的返回?cái)?shù)據(jù)結(jié)算進(jìn)行檢索并判斷,并生成新的網(wǎng)頁頁面;7)將處理過網(wǎng)頁頁面作為訪問結(jié)果返回移動(dòng)通訊設(shè)備終端的瀏覽器軟件。8)為了防止惡意登錄,不少網(wǎng)站的圖片驗(yàn)證碼都應(yīng)用了防光學(xué)字符識(shí)別技術(shù),對 于普通的圖片驗(yàn)證碼,在移動(dòng)通訊設(shè)備終端上是可以直接顯示的,但對于使用flash為承 載體的驗(yàn)證碼,將直接輸出該映射圖片。
權(quán)利要求
一種用于移動(dòng)通訊設(shè)備終端的網(wǎng)頁頁面光學(xué)字符識(shí)別處理方法,由移動(dòng)通訊設(shè)備終端和轉(zhuǎn)發(fā)移動(dòng)通訊設(shè)備終端訪問請求的中轉(zhuǎn)服務(wù)器實(shí)現(xiàn),中轉(zhuǎn)服務(wù)器上設(shè)置有光學(xué)字符識(shí)別引擎,其特征在于,所述方法包括(11)移動(dòng)通訊設(shè)備終端將訪問請求提交給中轉(zhuǎn)服務(wù)器;(12)中轉(zhuǎn)服務(wù)器根據(jù)訪問請求從目標(biāo)網(wǎng)站服務(wù)器獲取網(wǎng)頁頁面數(shù)據(jù);(13)中轉(zhuǎn)服務(wù)器對網(wǎng)頁頁面數(shù)據(jù)中的特定數(shù)據(jù)根據(jù)識(shí)別規(guī)則進(jìn)行判斷;(14)對于符合識(shí)別規(guī)則的特定數(shù)據(jù)通過光學(xué)字符識(shí)別引擎進(jìn)行光學(xué)字符識(shí)別處理;(15)中轉(zhuǎn)服務(wù)器把經(jīng)過光學(xué)字符識(shí)別處理得到的文字與原網(wǎng)頁頁面的其它數(shù)據(jù)重新排版組成新的網(wǎng)頁頁面,作為為訪問結(jié)果返回移動(dòng)通訊設(shè)備終端;(16)移動(dòng)通訊設(shè)備終端顯示網(wǎng)頁頁面數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的頁面光學(xué)字符識(shí)別處理方法,其特征在于,所述中轉(zhuǎn)服務(wù)器 上還設(shè)置有用于校對常用文字的校對數(shù)據(jù)庫,所述步驟(14)的具體步驟為(21)通過光學(xué)字符識(shí)別引擎對特定數(shù)據(jù)進(jìn)行光學(xué)字符識(shí)別后得到文字?jǐn)?shù)據(jù);(22)通過調(diào)用常用文字的校對數(shù)據(jù)庫對把經(jīng)過識(shí)別后的文字?jǐn)?shù)據(jù)進(jìn)行檢索并判斷所 識(shí)別的文字是否有誤,如果有誤,則進(jìn)行更正,修正的后文字內(nèi)容為最終的結(jié)果。
3.根據(jù)權(quán)利要求1所述的頁面光學(xué)字符識(shí)別處理方法,其特征在于,所述識(shí)別規(guī)則為 根據(jù)特定數(shù)據(jù)的尺寸大小進(jìn)行判斷,對超過預(yù)先設(shè)置的尺寸大小閾值的特定數(shù)據(jù)進(jìn)行光學(xué) 字符識(shí)別。
4.根據(jù)權(quán)利要求1或2或3所述的頁面光學(xué)字符識(shí)別處理方法,其特征在于,所述特定 數(shù)據(jù)為圖片或者flash文件。
5.根據(jù)權(quán)利要求4所述的頁面光學(xué)字符識(shí)別處理方法,其特征在于,所述識(shí)別規(guī)則為對于圖片的識(shí)別規(guī)則為(51)根據(jù)圖片的直方圖色階值、圖片色彩灰度分布值等作為判斷依據(jù)進(jìn)行判斷,對符 合規(guī)則的圖片進(jìn)行光學(xué)字符識(shí)別;對于flash文件的識(shí)別規(guī)則為(52)根據(jù)flash文件所在的頁面架構(gòu)體系判斷,對符合規(guī)則的flash文件進(jìn)行光學(xué)字 符識(shí)別。
6.根據(jù)權(quán)利要求4所述的頁面光學(xué)字符識(shí)別處理方法,其特征在于,所述步驟(11)中, 移動(dòng)通訊設(shè)備終端還把其硬件顯示參數(shù)和網(wǎng)頁頁面的訪問請求一起發(fā)送到中轉(zhuǎn)服務(wù)器。
7.根據(jù)權(quán)利要求6所述的頁面光學(xué)字符識(shí)別處理方法,其特征在于,所述識(shí)別規(guī)則為 根據(jù)圖片尺寸大小結(jié)合終端屏幕尺寸大小進(jìn)行判斷,對圖片尺寸大小與終端屏幕尺寸大小 的比例超過預(yù)先設(shè)置的閾值的圖片進(jìn)行光學(xué)字符識(shí)別。
8.根據(jù)權(quán)利要求4所述的頁面光學(xué)字符識(shí)別處理方法,其特征在于,所述步驟(14)對 于flash文件的具體步驟為(81)把flash文件轉(zhuǎn)換成圖片;(82)對轉(zhuǎn)換后的圖片進(jìn)行光學(xué)字符識(shí)別。
9.根據(jù)權(quán)利要求3所述的網(wǎng)頁頁面光學(xué)字符識(shí)別處理方法,其特征在于,所述特定數(shù) 據(jù)為網(wǎng)頁頁面上的圖片驗(yàn)證碼或者flash驗(yàn)證碼,對于該圖片驗(yàn)證碼不進(jìn)行光學(xué)字符識(shí)別 直接返回給移動(dòng)通訊設(shè)備終端,對于flash驗(yàn)證碼,把flash驗(yàn)證碼轉(zhuǎn)換為圖片驗(yàn)證碼后返回給移動(dòng)通訊設(shè)備終端 。
全文摘要
本發(fā)明涉及用于移動(dòng)通訊設(shè)備終端的網(wǎng)頁頁面瀏覽技術(shù)領(lǐng)域,特別是一種用于移動(dòng)通訊設(shè)備終端的頁面光學(xué)字符識(shí)別處理方法。方法包括(11)移動(dòng)通訊設(shè)備終端將訪問請求提交給中轉(zhuǎn)服務(wù)器;(12)中轉(zhuǎn)服務(wù)器獲取網(wǎng)頁頁面數(shù)據(jù);(13)中轉(zhuǎn)服務(wù)器對網(wǎng)頁頁面數(shù)據(jù)中的特定數(shù)據(jù)根據(jù)識(shí)別規(guī)則進(jìn)行判斷;(14)對于符合識(shí)別規(guī)則的特定數(shù)據(jù)進(jìn)行光學(xué)字符識(shí)別;(15)把經(jīng)過光學(xué)字符識(shí)別后的文字與其他網(wǎng)頁頁面數(shù)據(jù)一起返回給移動(dòng)通訊設(shè)備終端;(16)移動(dòng)通訊設(shè)備終端顯示網(wǎng)頁頁面數(shù)據(jù)。使用本發(fā)明的處理方案,能有效地解決現(xiàn)有技術(shù)的問題,在為用戶節(jié)省流量的同時(shí),為用戶提供更好的瀏覽體驗(yàn)。
文檔編號(hào)G06F17/30GK101807192SQ200910313010
公開日2010年8月18日 申請日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者梁捷 申請人:優(yōu)視科技有限公司