專利名稱:檢測文字筆畫的方法和裝置、定位文字行的方法和裝置、判斷字幕重復(fù)的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對圖像中的文字進行處理的技術(shù),尤其涉及一種檢測圖像中的文字筆畫的方法和裝置,一種定位圖像中的文字行的方法和裝置,以及一種判斷字幕重復(fù)的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)視頻內(nèi)容的不斷增加,以及數(shù)字圖書館、視頻點播、遠程教學(xué)等大量的多媒體應(yīng)用,如何在海量視頻中檢索出所需要的資料顯得至關(guān)重要。傳統(tǒng)的基于關(guān)鍵詞描述的視頻檢索因為描述能力有限、主觀性強、手工標注等原因,已經(jīng)不能滿足海量視頻檢索的需求。因此從20實際90年代開始,基于內(nèi)容的視頻檢索技術(shù)成為研究的熱點問題,而視頻字幕的識別技術(shù)正是實現(xiàn)視頻檢索的關(guān)鍵技術(shù)。目前提出的視頻字幕檢測方法,根據(jù)所使用的特征,大體可以分為基于區(qū)域、基于邊緣、基于紋理三種。很多算法實際上綜合利用了以上的某兩種或全部三種特征。
目前,提出了一種基于筆畫的字幕檢測方案?;诠P畫進行字幕檢測的技術(shù)方案,需要設(shè)計一種筆畫濾波器,這種濾波器和傳統(tǒng)的邊緣紋理濾波器不同,它可以檢測到圖像中不同尺度的形條結(jié)構(gòu),對不具有條形結(jié)構(gòu)的邊緣和紋理不敏感,這樣就會對一些非文字的背景干擾有更好的魯棒性。
基于筆畫檢測進行字幕檢測的技術(shù)方案很有意義,但目前設(shè)計的筆畫濾波器的應(yīng)用非常簡單,并沒有充分考慮到筆畫線條亮度一致性、筆畫角點和交叉點的影響,降低了筆畫檢測的效果。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明所要解決的技術(shù)問題是提供一種檢測圖像中文字筆畫的方法,以提高筆畫檢測的效果。在一些可選的實施例中,所述檢測圖像中文字筆畫的方法包括接收圖像;計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值;對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫圖;將所述亮筆畫圖和暗筆畫圖合并,獲得聯(lián)合筆畫圖以及筆畫的分布。
采用上述實施例檢測圖像中的文字筆畫時,充分考慮到筆畫線條亮度一致性、筆畫角點和交叉點的影響,從而大大提高了筆畫檢測的效果。
本發(fā)明所要解決的另一個技術(shù)問題是提供一種定位圖像中的文字行的方法。在一些可選的實施例中,所述定位圖像中的文字行的方法包括接收圖像;計算獲得所述圖像的亮筆畫圖和暗筆畫圖;利用所述亮筆畫圖和暗筆畫圖,計算獲得筆畫密度圖和文字分布區(qū)域;在所述亮筆畫圖中,利用兩種方式對每個文字分布區(qū)域投影;將每個文字分布區(qū)域分割成至少一個文字行;確定每個文字行的上下邊界。
采用上述實施例定位圖像中的文字行時,結(jié)合了筆畫密度和雙重投影的優(yōu)點,可以更加精確地定位文字行,對噪聲也有較好的抗干擾性。雙重投影定位法在區(qū)域聚合的基礎(chǔ)上,利用筆畫分布特點,優(yōu)化了文字行定位的結(jié)果,使得文字行的邊界更加精確。
本發(fā)明所要解決的另一個技術(shù)問題是提供一種判斷字幕重復(fù)的方法。在一些可選的實施例中,該方法包括在前一圖像文字行定位之后,保存前一圖像的文字行位置、圖像內(nèi)容,以及筆畫分布圖;在定位當(dāng)前圖像的文字行之前,利用保存的信息判斷當(dāng)前圖像和前一圖像的文字行距離是否大于第五閾值;如果大于,則對當(dāng)前圖像的文字行進行定位;否則,沿用前一圖像的文字行定位結(jié)果。
本發(fā)明所要解決的另一個技術(shù)問題是提供一種檢測圖像中文字筆畫的裝置。在一些可選的實施例中,所述檢測圖像中文字筆畫的裝置包括接收圖像的接收單元,還包括計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值的第一單元;對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫圖的第二單元;和,將所述亮筆畫圖和暗筆畫圖合并,獲得聯(lián)合筆畫圖以及筆畫的分布的第三單元。
本發(fā)明所要解決的另一個技術(shù)問題是提供一種定位圖像中的文字行的裝置。在一些可選的實施例中,所述定位圖像中的文字行的裝置包括接收圖像的接收單元,還包括計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值的第一單元;對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫圖的第二單元;利用所述亮筆畫圖和暗筆畫圖,計算獲得筆畫密度圖和文字分布區(qū)域的第四單元;在所述亮筆畫圖中,利用兩種方式對每個文字分布區(qū)域投影的第五單元;將每個文字分布區(qū)域分割成至少一個文字行的第六單元;和,用于確定每個文字行的上下邊界的第七單元。
在定位文字行的時候,使用區(qū)域聚合算法形成筆畫密度圖,對文字區(qū)域的粗定位有很好的效果。利用亮筆畫圖的筆畫信息進行雙重投影,可以精確地定位出每一個文字行的上下邊界。
本發(fā)明所要解決的另一個技術(shù)問題是提供一種判斷字幕重復(fù)的裝置。在一些可選的實施例中,該裝置包括接收圖像的接收單元,存儲單元,和對圖像的文字行進行定位的定位單元,還包括第八單元,用于在前一圖像文字行定位之后,將前一圖像的文字行位置、圖像內(nèi)容,以及筆畫分布圖保存到存儲單元;在定位當(dāng)前圖像的文字行之前,利用存儲單元保存的信息判斷當(dāng)前圖像和前一圖像的文字行距離是否大于第五閾值;如果大于,則啟動定位單元對當(dāng)前圖像的文字行進行定位;否則,沿用存儲單元保存的前一圖像的文字行定位結(jié)果。
可以看出,通過保留當(dāng)前圖像的筆畫信息,在下一圖像文字檢測之前,利用相鄰幀筆畫差異,比較相鄰幀檢測到的字幕是否相同,可以排除大量重復(fù)字幕,減少重復(fù)檢測,進而提高文字檢測的效率。
說明書附圖
圖1是本發(fā)明提供的檢測圖像中文字筆畫的一個方法流程圖; 圖2是筆畫濾波器的一個示意圖; 圖3是本發(fā)明提供的定位圖像中的文字行的一個方法流程圖; 圖4是本發(fā)明提供的檢測圖像中文字筆畫的一個裝置示意圖; 圖5是本發(fā)明提供的定位圖像中的文字行的一個裝置示意圖; 圖6是本發(fā)明提供的判斷字幕重復(fù)的裝置示意圖。
具體實施例方式 圖1示出了一種可選的檢測文字筆畫的方法。
步驟11,接收圖像。
步驟12,計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值。
步驟13,對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫圖。
步驟14,將亮筆畫圖和暗筆畫圖合并,獲得聯(lián)合筆畫圖以及筆畫的分布。
文字是由筆畫組成的,一個文字行由很多筆畫按照一定規(guī)律組成。筆畫的表現(xiàn)是一種線條結(jié)構(gòu),它有一定的方向、寬度和長度,筆畫上像素的顏色和它鄰域內(nèi)非筆畫像素的顏色有較大的對比度。可以根據(jù)筆畫的特點,設(shè)計筆畫線條濾波器。筆畫線條濾波器一般有多個方向和檢測尺度,具體定義如圖2所示。圖2中的黑點表示濾波器中心的像素點,也就是被處理的像素點。三個條狀區(qū)域(1)、(2)、(3)平行排列,它們的長度、寬度和方向都相同。其中,條狀區(qū)域的橫向夾角α可以取多個值,筆畫線條濾波器的檢測尺度由條狀區(qū)域的間距d決定,條狀區(qū)域的長度l決定了筆畫的最小長度。不同檢測尺度的筆畫濾波器可以檢測不同寬度的文字筆畫。
這里定義亮度高于背景的筆畫為亮筆畫,亮度低于背景的筆畫為暗筆畫。在設(shè)定的檢測尺度s下,一種可選的方式是根據(jù)式(1.1)計算整個灰度圖像中每一個像素點的亮筆畫響應(yīng)值
根據(jù)式(1.2)計算整個灰度圖像中每一個像素點的暗筆畫響應(yīng)值
在式(1.1)、式(1.2)中,u1、u2、u3分別表示條狀區(qū)域(1)、(2)、(3)的亮度均值,
分別表示條狀區(qū)域(1)、(2)、(3)的亮度方差。
條狀區(qū)域的橫向夾角α的一種可選的取值方式是0、
和
這4個方向。在這種情況下,每個像素點的亮筆畫響應(yīng)值有4個,分別為
和
每個像素點的暗筆畫響應(yīng)值也有4個,分別為
和
獲得每個像素點的所有亮筆畫響應(yīng)值和暗筆畫響應(yīng)值后 首先,取每個像素點最大的亮筆畫響應(yīng)值
和最大的暗筆畫響應(yīng)值
然后,取每個像素點的垂直于最大的亮筆畫響應(yīng)值
所在方向的亮筆畫響應(yīng)值
和垂直于最大的暗筆畫響應(yīng)值
所在方向的暗筆畫響應(yīng)值
對于某一像素點,如果
為
則
為
反之亦然;如果
為
則
為
反之亦然。
對于某一像素點,如果
為
則
為
反之亦然;如果
為
則
為
反之亦然。
最后,分別根據(jù)式(1.3)、式(1.4)計算每個像素點的亮筆畫值
和暗筆畫值
并得到亮筆畫圖(BSM)和暗筆畫圖(DSM)。
由所有像素點的亮筆畫值
構(gòu)成的圖像為亮筆畫圖BSM,由所有像素點的暗筆畫值
構(gòu)成的圖像為暗筆畫圖DSM。
在亮筆畫圖BSM上,亮筆畫被檢測突出,同時,暗筆畫間的背景像素也有一部分被檢測突出;在暗筆畫圖DSM上,暗筆畫被檢測突出,同時,亮筆畫間的背景像素也有一部分被檢測突出。
獲得亮筆畫圖BSM和暗筆畫圖DSM后,根據(jù)式(1.5)計算每個像素點的聯(lián)合筆畫值,并得到聯(lián)合筆畫圖(USM)。
由所有像素點的聯(lián)合筆畫值
構(gòu)成的圖像為聯(lián)合筆畫圖USM。聯(lián)合筆畫圖USM綜合了亮筆畫BSM和暗筆畫圖DSM的結(jié)果,在聯(lián)合筆畫圖USM上,筆畫像素及其鄰域內(nèi)的部分背景像素被檢測突出,這樣從整體上突出了文字出現(xiàn)的區(qū)域的像素,從而檢測出筆畫的分布。
采用上述實施例檢測圖像中的文字筆畫時,充分考慮到筆畫線條亮度一致性、筆畫角點和交叉點的影響,從而大大提高了筆畫檢測的效果。
基于上述的檢測文字筆畫的方法,本發(fā)明還提出了一種定位圖像中的文字行的方法。圖3示出了定位圖像中的文字行的一個可選實施例。
步驟31,接收圖像。
步驟32,計算獲得亮筆畫圖和暗筆畫圖。
步驟33,利用亮筆畫圖和暗筆畫圖計算獲得筆畫密度圖和文字分布區(qū)域。
步驟34,在亮筆畫圖中,利用兩種方式對每個文字分布區(qū)域投影。
步驟35,將每個文字分布區(qū)域分割成至少一個文字行。
步驟36,確定各文字行的上下邊界。
采用前述實施例所述的方法,計算獲得亮筆畫圖BSM、暗筆畫圖DSM和聯(lián)合筆畫圖USM后,通過計算獲得筆畫密度圖(USM)。
在筆畫密度計算這一步中,可以根據(jù)聯(lián)合筆畫圖USM計算得到筆畫密度圖SDM。相關(guān)的算法很多,一種可選用的方式是,采用現(xiàn)有的基于形態(tài)學(xué)的區(qū)域聚合算法。另一種可選用的方式是,將現(xiàn)有的基于密度的區(qū)域聚合算法。
推薦其中一種基于密度的區(qū)域聚合算法的原理如式(1.6)所示。
其中,Dens(x,y)表示以像素點(x,y)為中心的鄰域區(qū)域內(nèi)的筆畫密度,鄰域區(qū)域的面積為(2w+1)×(2h+1),
表示聯(lián)合筆畫圖USM上的像素點(x,y)的值。
基于密度的區(qū)域聚合算法對每一個像素點都進行密度計算,不僅可以有比較精確的區(qū)域聚合效果,對低密度的噪聲干擾也有很好的魯棒性。
獲得筆畫密度圖SDM后,需要確定文字分布的候選區(qū)域。具體的處理流程包括 使用設(shè)定的閾值將亮筆畫圖BSM進行二值化處理。
將二值化后的亮筆畫圖和筆畫密度圖SDM進行“或運算”,得到一個新的筆畫密度圖。
在新的筆畫密度圖上,白色的像素連接成很多區(qū)域,這些連接區(qū)域即為文字分布的候選區(qū)域。
所謂將二值化后的亮筆畫圖和筆畫密度圖SDM進行“或運算”是指,將二值化后的亮筆畫圖和筆畫密度圖SDM中的對應(yīng)像素點進行“或運算”。
獲得文字分布的候選區(qū)域后,在原始的沒有二值化的亮筆畫圖BSM中,在每個候選區(qū)域內(nèi)進行二重投影 首先,對每個候選區(qū)域內(nèi)像素點的亮度值進行投影,得到一個亮度直方圖; 然后,對每個候選區(qū)域內(nèi)每一行像素點從零變到非零的次數(shù)進行累加,得到一個交點直方圖。之所以稱為交點直方圖,是因為它相當(dāng)于用一條水平直線穿過候選區(qū)域,統(tǒng)計這條直線和文字筆畫的相交次數(shù)。
獲得亮度直方圖和交點直方圖后,在兩個直方圖上統(tǒng)計分割點。如果某一點在亮度直方圖上的值小于第一經(jīng)驗閾值,且在交點直方圖上的值小于第二經(jīng)驗閾值,則標記該點為分割點。沿著分割點將候選區(qū)域水平分割開,即形成多個候選文字行。
對于每一候選文字行,找到水平亮度直方圖的最大值,從最大值分別向上下兩個方向?qū)ふ疫吔琰c,尋找停止的條件是該點在亮度直方圖上的值小于第三閾值,或者在交點直方圖上的值小于第四經(jīng)驗閾值。沿著邊界點水平分割開,即可形成文字行的上下邊界。
定位各文字行后,由于檢測到的文字行可能會有誤檢,可以采用基于形狀和基于筆畫的兩重驗證。其中基于形狀的判斷規(guī)則有文字區(qū)域的大小、高度、寬度,文字區(qū)域的長寬比,文字區(qū)域出現(xiàn)的位置?;诠P畫的判斷規(guī)則有筆畫像素的密度,筆畫像素的各個方向的比例,筆畫的長度等。由于采取的規(guī)則基本都是自己定義的啟發(fā)式規(guī)則,這里不詳細描述。
采用上述實施例定位圖像中的文字行時,結(jié)合了筆畫密度和雙重投影的優(yōu)點,可以更加精確地定位文字行,對噪聲也有較好的抗干擾性。雙重投影定位法在區(qū)域聚合的基礎(chǔ)上,利用筆畫分布特點,優(yōu)化了文字行定位的結(jié)果,使得文字行的邊界更加精確。
另外,視頻中的文字一般會停留幾秒鐘,同樣的文字行會在連續(xù)多幀的圖像中被檢測到。如果對具有相同文字行的多幀圖像都進行筆畫檢測、文字行定位,會無謂地消耗資源和處理時間。為此,可以在筆畫檢測和文字行定位之前進行驗證,判斷當(dāng)前幀圖像的文字行是否和前一幀圖像的文字行相同,如果相同,就跳過對當(dāng)前幀圖像的處理,不進行重復(fù)的筆畫檢測和文字行定位。具體的驗證步驟包括 1)對于第i幀圖像,檢測其中的文字筆畫,定位其中的文字行后,將i幀的相關(guān)信息保存下來,包括彩色圖像(圖像上像素點的RGB值為
)、筆畫分布圖(一種可選的方式是采用亮筆畫圖作為筆畫分布圖,圖像上像素點值為
)和文字分布的候選區(qū)域的位置(共M個候選區(qū)域RECT1至RECTm)。
其中,筆畫分布圖上的每一個像素的值表示該像素是文字筆畫的概率。筆畫分布圖的計算方法可以根據(jù)實際情況決定。本例子中假設(shè)文字筆畫亮度大于背景,采用亮筆畫圖作為筆畫分布圖,并且省略了將概率值歸一化到0-1范圍內(nèi)的過程。
2)對于第i+1幀圖像,根據(jù)式(1.7)計算相鄰幀圖像對應(yīng)的像素點間的顏色距離;根據(jù)式(1.8)計算候選區(qū)域RECTm在相鄰幀間的距離;根據(jù)式(1.9)計算相鄰幀的總體文字行距離,其中size(RECTm)表示候選區(qū)域RECTm的面積。
式(1.7)是顏色距離的計算方法,也可以采用其他距離替代顏色距離,這里只是以RGB顏色距離為例,以便于說明。
3)使用一個經(jīng)驗閾值w對文字行距離FrameDisti+1進行判斷,如果FrameDisti+1小于該經(jīng)驗閾值w,說明第i+1幀圖像和第i幀圖像的文字行差異很小,是同一個文字行,則不需要重復(fù)檢測,可以直接跳過該幀;如果FrameDisti+1大于該閾值,說明第i+1幀和第i幀的文字行差異較大,第i+1幀的文字行和第i幀不同,需要重新進行筆畫檢測和文字行定位。
驗證過后,使用第i+1幀的彩色圖像、筆畫分布圖和文字分布的候選區(qū)域位置更新第i幀的相應(yīng)信息。
在文字檢測之前,先比較相鄰幀的筆畫分布,判斷是否與前一幀文字行重復(fù),然后決定是否重新檢測文字。這種方法在檢測之前比較判斷,避免了重復(fù)文字行的檢測過程,對于視頻文字行文字來說,節(jié)省了很多檢測時間;算法充分考慮到了筆畫像素的作用,對背景像素有很好的抗干擾性,對于文字行是否重復(fù)有更好的判斷效果。
可以看出,對文字行進行定位之前判斷是否重復(fù),這一方法不局限于本發(fā)明提供的各個實施例,該方法完全可以適用于其它的定位文字行的方法。無論使用何種方法定位圖像中的文字行,都可以在對當(dāng)前圖像進行文字行定位操作前,利用文字筆畫信息,判斷當(dāng)前圖像和前一圖像的文字行距離是否大于經(jīng)驗閾值w;如果大于,則對當(dāng)前圖像的文字行進行定位;否則,沿用前一圖像的文字行定位結(jié)果。
圖4示出了一種檢測圖像中文字筆畫的裝置400,裝置400包括接收單元S40、第一單元S41、第二單元S42和第三單元S43 接收單元S40用于接收圖像。
第一單元S41用于計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值;第二單元S42用于對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫圖;第三單元S43用于將所述亮筆畫圖和暗筆畫圖合并,獲得聯(lián)合筆畫圖以及筆畫的分布。
第一單元S41、第二單元S42和第三單元S43的處理過程在前文已有說明,此不贅述。
圖5示出了一種定位圖像中的文字行的裝置500,裝置500包括接收單元S40、第一單元S41、第二單元S42、第四單元S54、第五單元S55、第六單元S56和第七單元S57。
第四單元S54利用所述亮筆畫圖和暗筆畫圖,計算獲得筆畫密度圖和文字分布區(qū)域;第五單元S55在所述亮筆畫圖中,利用兩種方式對每個文字分布區(qū)域投影;第六單元S56將每個文字分布區(qū)域分割成至少一個文字行;第七單元S57用于確定每個文字行的上下邊界。
第四單元S54、第五單元S55、第六單元S56和第七單元S57的處理過程在前文已有說明,此不贅述。
可以在筆畫檢測和文字行定位之前進行驗證,判斷當(dāng)前幀圖像的文字行是否和前一幀圖像的文字行相同,如果相同,就跳過對當(dāng)前幀圖像的處理,不進行重復(fù)的筆畫檢測和文字行定位。在這種情況下,在裝置400或裝置500中還可以增加一個第八單元。
第八單元用于判斷當(dāng)前圖像和前一圖像的文字行距離是否大于第五閾值;如果大于,則啟動第一單元S41,定位當(dāng)前圖像的文字行。否則,啟動第七單元S57,輸出前一圖像的文字行定位結(jié)果;或者,啟動第三單元S43,輸出前一圖像的筆畫檢測結(jié)果。
第八單元的處理過程在前文已有說明,此不贅述。
圖6示出了一種判斷字幕重復(fù)的裝置600,該裝置600包括接收單元S40,定位單元S61、存儲單元S63和第八單元S62。
定位單元S61用于對圖像的文字行進行定位。第八單元,用于在前一圖像文字行定位之后,將前一圖像的文字行位置、圖像內(nèi)容,以及筆畫分布圖保存到存儲單元S63;在定位當(dāng)前圖像的文字行之前,利用存儲單元S63保存的信息判斷當(dāng)前圖像和前一圖像的文字行距離是否大于第五閾值;如果大于,則啟動定位單元S61對當(dāng)前圖像的文字行進行定位;否則,沿用存儲單元S63保存的前一圖像的文字行定位結(jié)果。
本領(lǐng)域技術(shù)人員可以明白,這里結(jié)合所公開的實施例描述的各種示例性的方法步驟和裝置單元均可以電子硬件、軟件或二者的結(jié)合來實現(xiàn)。為了清楚地示出硬件和軟件之間的可交換性,以上對各種示例性的步驟和單元均以其功能性的形式進行總體上的描述。這種功能性是以硬件實現(xiàn)還是以軟件實現(xiàn)依賴于特定的應(yīng)用和整個系統(tǒng)所實現(xiàn)的設(shè)計約束。本領(lǐng)域技術(shù)人員能夠針對每個特定的應(yīng)用,以多種方式來實現(xiàn)所描述的功能性,但是這種實現(xiàn)的結(jié)果不應(yīng)解釋為背離本發(fā)明的范圍。
利用通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或者其它可編程的邏輯器件、分立門或者晶體管邏輯、分立硬件組件或者他們之中的任意組合,可以實現(xiàn)或執(zhí)行結(jié)合這里公開的實施例描述的各種示例性的單元。通用處理器可能是微處理器,但是在另一種情況中,該處理器可能是任何常規(guī)的處理器、控制器、微控制器或者狀態(tài)機。處理器也可能被實現(xiàn)為計算設(shè)備的組合,例如,DSP和微處理器的組合、多個微處理器、一個或者更多結(jié)合DSP核心的微處理器或者任何其他此種結(jié)構(gòu)。
結(jié)合上述公開的實施例所描述的方法的步驟可直接體現(xiàn)為硬件、由處理器執(zhí)行的軟件模塊或者這二者的組合。軟件模塊可能存在于RAM存儲器、閃存、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、移動磁盤、CD-ROM或者本領(lǐng)域熟知的任何其他形式的存儲媒質(zhì)中。一種典型存儲媒質(zhì)與處理器耦合,從而使得處理器能夠從該存儲媒質(zhì)中讀信息,且可向該存儲媒質(zhì)寫信息。在替換實例中,存儲媒質(zhì)是處理器的組成部分。處理器和存儲媒質(zhì)可能存在于一個ASIC中。該ASIC可能存在于一個用戶站中。在一個替換實例中,處理器和存儲媒質(zhì)可以作為用戶站中的分立組件存在。
根據(jù)所述公開的實施例,可以使得本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或者使用本發(fā)明。對于本領(lǐng)域技術(shù)人員來說,這些實施例的各種修改是顯而易見的,并且這里定義的總體原理也可以在不脫離本發(fā)明的范圍和主旨的基礎(chǔ)上應(yīng)用于其他實施例。以上所述的實施例僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種檢測圖像中文字筆畫的方法,其特征在于,包括
接收圖像;
計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值;
對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫將所述亮筆畫圖和暗筆畫圖合并,獲得聯(lián)合筆畫圖以及筆畫的分布。
2.如權(quán)利要求1所述的方法,其特征在于,對于每個像素點
以該像素點為中心,在多個方向上分別設(shè)置3個平行且等長、等寬的條狀區(qū)域;
在每個方向上,分別計算各條狀區(qū)域的亮度均值和亮度方差;
利用每個方向上的各條狀區(qū)域的亮度均值和亮度方差,計算該像素點在每個方向上的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值。
3.如權(quán)利要求2所述的方法,其特征在于,對每個像素點,取其各方向中最大的亮筆畫響應(yīng)值
以及垂直于所述最大的亮筆畫響應(yīng)值
所在的方向的亮筆畫響應(yīng)值
進行計算,獲得每個像素點的亮筆畫值
由所有像素點的亮筆畫值
構(gòu)成的圖像為亮筆畫圖。
4.如權(quán)利要求3所述的方法,其特征在于,對每個像素點,取其各方向中最大的暗筆畫響應(yīng)值
以及垂直于所述最大的暗筆畫響應(yīng)值
所在的方向的暗筆畫響應(yīng)值
進行計算,獲得每個像素點的暗筆畫值
由所有像素點的暗筆畫值
構(gòu)成的圖像為暗筆畫圖。
5.如權(quán)利要求4所述的方法,其特征在于,對所述亮筆畫圖和暗筆畫圖中的同一像素點(x,y),取其亮筆畫值
和暗筆畫值
中的較大者,作為該像素點的聯(lián)合筆畫值
由所有像素點的聯(lián)合筆畫值
構(gòu)成的圖像為聯(lián)合筆畫圖;筆畫的分布通過聯(lián)合筆畫圖中突出的文字像素表征。
6.如權(quán)利要求2所述的方法,其特征在于,以該像素點為中心,在橫向夾角為0、
和
這4個方向上,分別設(shè)置3個平行且等長、等寬的條狀區(qū)域。
7.如權(quán)利要求6所述的方法,其特征在于,按下述公式計算坐標為(x,y)的像素點在橫向夾角為α的方向上的亮筆畫響應(yīng)值
和暗筆畫響應(yīng)值
s為配置的檢測尺度,d為各條狀區(qū)域之間的間隔;
u1、u2、u3分別表示在橫向夾角為α的方向上的3個條狀區(qū)域的亮度均值,
表示在橫向夾角為α的方向上的各條狀區(qū)域的亮度方差,其中u1為像素點(x,y)所在的條狀區(qū)域的亮度均值。
8.如權(quán)利要求3所述的方法,其特征在于,計算所述
和
的均值,獲得所述
9.如權(quán)利要求4所述的方法,其特征在于,計算所述
和
的均值,獲得所述
10.一種定位圖像中的文字行的方法,其特征在于,包括
接收圖像;
計算獲得所述圖像的亮筆畫圖和暗筆畫利用所述亮筆畫圖和暗筆畫圖,計算獲得筆畫密度圖和文字分布區(qū)域;
在所述亮筆畫圖中,利用兩種方式對每個文字分布區(qū)域投影;
將每個文字分布區(qū)域分割成至少一個文字行;
確定每個文字行的上下邊界。
11.如權(quán)利要求10所述的方法,其特征在于,對所述亮筆畫圖做二值化處理,將二值化處理后的亮筆畫圖和所述筆畫密度圖進行或運算;
以新的筆畫密度圖中的白色像素點連接成的區(qū)域作為文字分布區(qū)域。
12.如權(quán)利要求10所述的方法,其特征在于,在每個文字分布區(qū)域?qū)ο袼卦诹凉P畫圖上的亮度值進行水平方向上的投影,獲得每個文字分布區(qū)域的亮度直方在每個文字分布區(qū)域?qū)⒚恳恍邢袼卦诹凉P畫圖上從零變到非零的次數(shù)進行累加,獲得每個文字分布區(qū)域的交點直方圖。
13.如權(quán)利要求12所述的方法,其特征在于,在每個文字分布區(qū)域沿著查找到的分割點將文字分布區(qū)域水平分割開,形成多個文字行;
其中,分割點滿足下述條件
該點在亮度直方圖上的值小于第一閾值,且在交點直方圖上的值小于第二閾值。
14.如權(quán)利要求13所述的方法,其特征在于,對于每個文字行,從所述亮度直方圖的最大值分別向上下兩個方向查找該文字行的邊界點,沿著邊界點水平分割開,形成文字行的上下邊界;
其中,邊界點滿足下述條件
該點在亮度直方圖上的值小于第三閾值,或在交點直方圖上的值小于第四閾值。
15.一種判斷字幕重復(fù)的方法,其特征在于,包括
在前一圖像文字行定位之后,保存前一圖像的文字行位置、圖像內(nèi)容,以及筆畫分布在定位當(dāng)前圖像的文字行之前,利用保存的信息判斷當(dāng)前圖像和前一圖像的文字行距離是否大于第五閾值;如果大于,則對當(dāng)前圖像的文字行進行定位;否則,沿用前一圖像的文字行定位結(jié)果。
16.如權(quán)利要求15所述的方法,其特征在于,通過計算
獲得當(dāng)前圖像和前一圖像的文字行距離FrameDisti+1;
其中,size(RECTm)表示文字區(qū)域RECTM的面積,RectDisti+1(m)表示當(dāng)前圖像和前一圖像的文字分布區(qū)域距離,M表示文字分布區(qū)域的總數(shù)。
17.如權(quán)利要求16所述的方法,其特征在于,通過計算
獲得當(dāng)前圖像和前一圖像的文字分布區(qū)域距離;
其中,
表示像素點(x,y)在前一圖像的筆畫分布圖上的值,CortDisti+1(x,y)表示當(dāng)前圖像和前一圖像對應(yīng)像素點間的顏色距離。
18.如權(quán)利要求17所述的方法,其特征在于,
其中,
和
分別表示當(dāng)前圖像和前一圖像的對應(yīng)像素點的RGB顏色值。
19.一種檢測圖像中文字筆畫的裝置,包括接收圖像的接收單元,其特征在于,還包括
計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值的第一單元;
對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫圖的第二單元;和,
將所述亮筆畫圖和暗筆畫圖合并,獲得聯(lián)合筆畫圖以及筆畫的分布的第三單元。
20.如權(quán)利要求19所述的裝置,其特征在于,對于每個像素點
第一單元以該像素點為中心,在多個方向上分別設(shè)置3個平行且等長、等寬的條狀區(qū)域;在每個方向上,分別計算各條狀區(qū)域的亮度均值和亮度方差;利用每個方向上的各條狀區(qū)域的亮度均值和亮度方差,計算該像素點在每個方向上的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值。
21.如權(quán)利要求20所述的裝置,其特征在于,對每個像素點,第二單元取其各方向中最大的亮筆畫響應(yīng)值
以及垂直于所述最大的亮筆畫響應(yīng)值
所在的方向的亮筆畫響應(yīng)值
進行計算,獲得每個像素點的亮筆畫值
由所有像素點的亮筆畫值
構(gòu)成的圖像為亮筆畫圖。
22.如權(quán)利要求21所述的裝置,其特征在于,對每個像素點,第二單元取其各方向中最大的暗筆畫響應(yīng)值
以及垂直于所述最大的暗筆畫響應(yīng)值
所在的方向的暗筆畫響應(yīng)值
進行計算,獲得每個像素點的暗筆畫值
由所有像素點的暗筆畫值
構(gòu)成的圖像為暗筆畫圖。
23.如權(quán)利要求22所述的裝置,其特征在于,第三單元對所述亮筆畫圖和暗筆畫圖中的同一像素點(x,y),取其亮筆畫值
和暗筆畫值
中的較大者,作為該像素點的聯(lián)合筆畫值
由所有像素點的聯(lián)合筆畫值
構(gòu)成的圖像為聯(lián)合筆畫筆畫的分布通過聯(lián)合筆畫圖中突出的文字像素表征。
24.如權(quán)利要求20所述的裝置,其特征在于,以該像素點為中心,在橫向夾角為0、
和
這4個方向上,分別設(shè)置3個平行且等長、等寬的條狀區(qū)域。
25.如權(quán)利要求24所述的裝置,其特征在于,按下述公式計算坐標為(x,y)的像素點在橫向夾角為α的方向上的亮筆畫響應(yīng)值
和暗筆畫響應(yīng)值
s為配置的檢測尺度,d為各條狀區(qū)域之間的間隔;
u1、u2、u3分別表示在橫向夾角為α的方向上的3個條狀區(qū)域的亮度均值,
表示在橫向夾角為α的方向上的各條狀區(qū)域的亮度方差,其中u1為像素點(x,y)所在的條狀區(qū)域的亮度均值。
26.如權(quán)利要求21所述的裝置,其特征在于,計算所述
和
的均值,獲得所述
27.如權(quán)利要求22所述的裝置,其特征在于,計算所述
和
的均值,獲得所述
28.一種定位圖像中的文字行的裝置,包括接收圖像的接收單元,其特征在于,還包括
計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值的第一單元;
對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫圖的第二單元;
利用所述亮筆畫圖和暗筆畫圖,計算獲得筆畫密度圖和文字分布區(qū)域的第四單元;
在所述亮筆畫圖中,利用兩種方式對每個文字分布區(qū)域投影的第五單元;
將每個文字分布區(qū)域分割成至少一個文字行的第六單元;和,
用于確定每個文字行的上下邊界的第七單元。
29.如權(quán)利要求28所述的裝置,其特征在于,第四單元對所述亮筆畫圖做二值化處理,將二值化處理后的亮筆畫圖和所述筆畫密度圖進行或運算;
以新的筆畫密度圖中的白色像素點連接成的區(qū)域作為文字分布區(qū)域。
30.如權(quán)利要求28所述的裝置,其特征在于,第五單元在每個文字分布區(qū)域?qū)ο袼卦诹凉P畫圖上的亮度值進行水平方向上的投影,獲得每個文字分布區(qū)域的亮度直方圖;在每個文字分布區(qū)域?qū)⒚恳恍邢袼卦诹凉P畫圖上從零變到非零的次數(shù)進行累加,獲得每個文字分布區(qū)域的交點直方圖。
31.如權(quán)利要求30所述的裝置,其特征在于,第六單元在每個文字分布區(qū)域沿著查找到的分割點將文字分布區(qū)域水平分割開,形成多個文字行;其中,分割點滿足下述條件
該點在亮度直方圖上的值小于第一閾值,且在交點直方圖上的值小于第二閾值。
32.如權(quán)利要求31所述的裝置,其特征在于,對于每個文字行,第七單元從所述亮度直方圖的最大值分別向上下兩個方向查找該文字行的邊界點,沿著邊界點水平分割開,形成文字行的上下邊界;其中,邊界點滿足下述條件
該點在亮度直方圖上的值小于第三閾值,或在交點直方圖上的值小于第四閾值。
33.一種判斷字幕重復(fù)的裝置,包括接收圖像的接收單元,存儲單元,和對圖像的文字行進行定位的定位單元,其特征在于,還包括
第八單元,用于在前一圖像文字行定位之后,將前一圖像的文字行位置、圖像內(nèi)容,以及筆畫分布圖保存到存儲單元;在定位當(dāng)前圖像的文字行之前,利用存儲單元保存的信息判斷當(dāng)前圖像和前一圖像的文字行距離是否大于第五閾值;如果大于,則啟動定位單元對當(dāng)前圖像的文字行進行定位;否則,沿用存儲單元保存的前一圖像的文字行定位結(jié)果。
34.如權(quán)利要求33所述的裝置,其特征在于,第八單元通過計算
獲得當(dāng)前圖像和前一圖像的文字行距離FrameDisti+1;
其中,size(RECTm)表示文字區(qū)域RECTm的面積,RectDisti+1(m)表示當(dāng)前圖像和前一圖像的文字分布區(qū)域距離,M表示文字分布區(qū)域的總數(shù)。
35.如權(quán)利要求34所述的裝置,其特征在于,通過計算
獲得當(dāng)前圖像和前一圖像的文字分布區(qū)域距離;
其中,
表示像素點(x,y)在前一圖像筆畫分布圖上的值,CortDisti+1(x,y)表示當(dāng)前圖像和前一圖像對應(yīng)像素點間的顏色距離。
36.如權(quán)利要求35所述的裝置,其特征在于,
其中,
和
分別表示當(dāng)前圖像和前一圖像的對應(yīng)像素點的RGB顏色值。
全文摘要
一種檢測圖像中文字筆畫的方法,包括接收圖像;計算圖像中每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值;對每個像素點的亮筆畫響應(yīng)值和暗筆畫響應(yīng)值分別進行處理,獲得亮筆畫圖和暗筆畫圖;將所述亮筆畫圖和暗筆畫圖合并,獲得聯(lián)合筆畫圖以及筆畫的分布。本發(fā)明還公開一種檢測圖像中文字筆畫的裝置,一種定位圖像中的文字行的方法和裝置,一種判斷字幕重復(fù)的方法和裝置。
文檔編號G06T7/00GK101799922SQ20091007800
公開日2010年8月11日 申請日期2009年2月9日 優(yōu)先權(quán)日2009年2月9日
發(fā)明者苗廣藝, 徐成華, 周景超, 鮑東山 申請人:北京新岸線網(wǎng)絡(luò)技術(shù)有限公司