專(zhuān)利名稱(chēng):在視頻信號(hào)中檢測(cè)字幕的制作方法
技術(shù)領(lǐng)域:
本發(fā)明與在視頻信號(hào)中檢測(cè)字幕的方法和裝置有關(guān)。
背景技術(shù):
在國(guó)際專(zhuān)利申請(qǐng)WO-A95/01051中公開(kāi)了一種已知的在視頻信號(hào)中檢測(cè)字幕的方法。在這個(gè)現(xiàn)有技術(shù)方法中,對(duì)每電視線(xiàn)中信號(hào)電平轉(zhuǎn)換的次數(shù)進(jìn)行計(jì)數(shù)。檢測(cè)是基于這樣的認(rèn)識(shí),即字幕通常是在暗背景上的亮字符。
發(fā)明概述本發(fā)明的目的是提供另外一種檢測(cè)字幕的方法和裝置。
為此,根據(jù)本發(fā)明的方法將每幀分成字幕可能重現(xiàn)的第一圖象區(qū)和至少一個(gè)與該區(qū)域不一致的第二圖象區(qū),并計(jì)算第一和第二兩個(gè)圖象區(qū)的復(fù)雜度。如果第一個(gè)圖象區(qū)的復(fù)雜度與第二圖象區(qū)的復(fù)雜度相比,超出了事先設(shè)定的比例,就產(chǎn)生一個(gè)輸出信號(hào)。
本方法和裝置的實(shí)施例的優(yōu)點(diǎn)在于可以使用現(xiàn)有運(yùn)動(dòng)圖象專(zhuān)家組(MPEG)的編碼器和/或解碼器的電路。實(shí)際上由于大部分計(jì)算已經(jīng)由視頻信號(hào)編碼器或解碼器完成,檢測(cè)字幕對(duì)處理能力要求不高。
一個(gè)實(shí)施例是基于將MPEG幀分解為多個(gè)幀,每個(gè)幀被編碼為很多位和一個(gè)量化比例。第一圖象區(qū)域和第二圖象區(qū)域的復(fù)雜度可以通過(guò)對(duì)組成相應(yīng)圖象區(qū)域的幀的位的數(shù)目和量化比例的乘積求和來(lái)計(jì)算。
另一個(gè)實(shí)施例是基于將圖象信號(hào)變換成頻譜的直流和交流系數(shù)。第一和第二圖象區(qū)域的復(fù)雜度通過(guò)頻譜系數(shù)的重心來(lái)表示。
另外一個(gè)實(shí)施例是基于將MPEG幀分解為多個(gè)塊,每一塊都帶有運(yùn)動(dòng)向量。第一圖象區(qū)域的復(fù)雜度是由運(yùn)動(dòng)向量小于預(yù)先設(shè)定的第一門(mén)檻值的塊數(shù)表示,第二個(gè)圖象區(qū)域的復(fù)雜度是由運(yùn)動(dòng)向量大于預(yù)先設(shè)定的第二門(mén)檻值的塊數(shù)表示。
在另一個(gè)實(shí)施例中,搜索相似預(yù)報(bào)塊的MPEG解碼器的運(yùn)動(dòng)估計(jì)電路被用于檢測(cè)場(chǎng)景的改變。此處第一和第二圖象區(qū)域的復(fù)雜度由相應(yīng)圖象區(qū)域是否出現(xiàn)場(chǎng)景改變來(lái)表示,如果在第一圖象區(qū)域檢測(cè)到場(chǎng)景的改變,而第二圖象區(qū)域沒(méi)有檢測(cè)到屏幕的改變,就產(chǎn)生一個(gè)輸出信號(hào)。注意,在本實(shí)施例中,輸出信號(hào)表示字幕的出現(xiàn)和消失而不是字幕的存在。
檢測(cè)字幕在多種視頻信號(hào)處理中都是有用的。
可以對(duì)字幕運(yùn)用OCR算法,以提供一個(gè)電子版的文本。電子文本可以單獨(dú)存儲(chǔ)并隨后用于例如索引存在一個(gè)數(shù)據(jù)庫(kù)中的視頻場(chǎng)景。其典型應(yīng)用是在視頻記錄器中基于口語(yǔ)關(guān)鍵詞檢索視頻場(chǎng)景。
另一個(gè)應(yīng)用是生成密鑰幀,用于視頻資料的檢索或編輯。密鑰幀是屏幕變化后的多個(gè)幀中的第一幀。本發(fā)明使得可以選擇字幕幀作為密鑰幀。
字幕檢測(cè)還有助于在電視節(jié)目中檢測(cè)商業(yè)廣告插播。因?yàn)樯虡I(yè)廣告很少有字幕,在有字幕影片放映過(guò)程中,如果字幕消失了一定的時(shí)間,就表示中間插入了商業(yè)廣告。
附圖簡(jiǎn)述
圖1簡(jiǎn)單示出包括依據(jù)本發(fā)明的字幕檢測(cè)器的MPEG編碼器。
圖2簡(jiǎn)單示出包括依據(jù)本發(fā)明的字幕檢測(cè)器的MPEG解碼器。
圖4是由圖1和圖2所示字幕檢測(cè)器的第一實(shí)施例執(zhí)行的操作步驟流程圖。
圖5是由圖1和圖2所示字幕檢測(cè)器的第二實(shí)施例執(zhí)行的操作步驟流程圖。
圖6示出用于說(shuō)明圖5所示實(shí)施例的時(shí)序圖。
圖7是由圖1和圖2所示字幕檢測(cè)器的第三實(shí)施例執(zhí)行的操作步驟流程圖。
圖8A和8B表示了說(shuō)明圖7所示實(shí)施例操作的曲線(xiàn)圖。
圖9是由圖1和圖2所示字幕檢測(cè)器的第四實(shí)施例執(zhí)行的操作步驟流程圖。
實(shí)施例描述圖1簡(jiǎn)單示出包括依據(jù)本發(fā)明的字幕檢測(cè)裝置的MPEG編碼器。MPEG編碼器本身是已知的,包括用于將每個(gè)輸入圖象分解為多個(gè)塊的電路101,從每個(gè)圖象塊中減去預(yù)定塊的減法器102,將每塊8×8圖象象素變換為8×8頻譜系數(shù)的離散余弦變換電路103,量化器104,可變長(zhǎng)度編碼器105,緩沖器106,比特率控制電路107,逆向量化器108,逆向離散余弦變換電路109,加法器110,幀存儲(chǔ)器111,運(yùn)動(dòng)估計(jì)電路112,和運(yùn)動(dòng)補(bǔ)償器113。MPEG編碼器的操作對(duì)于視頻壓縮領(lǐng)域的技術(shù)人員而言是熟知的,所以這里不做詳細(xì)介紹。在J.L.Mitchel等人的著作《MPEG Video Compression Standard》(MPEG視頻壓縮標(biāo)準(zhǔn))中能夠找到對(duì)MPEG的詳盡的描述,該書(shū)由KluwerAcademic Publishers出版,書(shū)號(hào)為ISBN 0-412-08771-5。
圖1中參考數(shù)字300表示字幕檢測(cè)器。下面描述其各種實(shí)施例。字幕檢測(cè)器接收由MPEG編碼器產(chǎn)生的輸入信號(hào)。根據(jù)該實(shí)施例,實(shí)際信號(hào)(或信號(hào)集)被送給字幕探測(cè)器。圖1中用圓圈內(nèi)的信號(hào)名字示出了5個(gè)輸入信號(hào)b表示用于編碼不包括附加位的圖象片段的位數(shù),qs表示一個(gè)圖象片段的量化比例,c表示一個(gè)宏塊的變換系數(shù)(直流和交流),mv表示一個(gè)宏塊的運(yùn)動(dòng)向量,mad表示輸入圖象塊和由運(yùn)動(dòng)估計(jì)形成的預(yù)測(cè)塊之間的平均絕對(duì)差異圖2示出了一個(gè)MPEG解碼器,包括可變長(zhǎng)度解碼器201,片段處理器202,宏塊處理器203,逆向量化器204,逆向離散余弦變換器205,加法器206,幀存貯器207,和運(yùn)動(dòng)補(bǔ)償器208。與編碼器一樣,這里對(duì)MPEG解碼器不做詳細(xì)的描述。參考數(shù)300還是表示字幕檢測(cè)器,字幕檢測(cè)器從MPEG解碼器的各個(gè)部分接收輸入信號(hào)。圖2中信號(hào)b、mv、qs和c與圖1中的含義相同。
下面對(duì)字幕檢測(cè)器300的操作進(jìn)行描述。如圖3所示,字幕檢測(cè)器將顯示屏幕分割成通常有字幕顯示的第一圖象區(qū)域31,和另一個(gè)第二圖象區(qū)域32。下面分別稱(chēng)第一圖象區(qū)域31和圖象區(qū)域32為字幕區(qū)域和非字幕區(qū)。字幕檢測(cè)算法是基于無(wú)字幕出現(xiàn)的第二圖象區(qū)域的復(fù)雜度和有字幕顯示的第一圖象區(qū)域復(fù)雜度之間的顯著差異。
圖4是字幕檢測(cè)器300的第一實(shí)施例執(zhí)行的操作步驟流程圖。在該實(shí)施例中,復(fù)雜度是通過(guò)用于對(duì)相應(yīng)圖象區(qū)域進(jìn)行編碼的位的數(shù)目b和量化比例qs的乘積來(lái)表示。對(duì)于字幕區(qū)域,復(fù)雜度C1為C1=Σs1bxqs]]>式中S1表示形成字幕區(qū)域的片段集合。對(duì)于無(wú)字幕區(qū)域,復(fù)雜度C2為C2=Σs2bxqs]]>式中S2表示形成無(wú)字幕區(qū)域的片段集合。為了考慮兩個(gè)區(qū)域的差異,通過(guò)用區(qū)域覆蓋的宏塊的數(shù)目來(lái)除復(fù)雜度C1和C2來(lái)對(duì)它們歸一化。在4 1步計(jì)算復(fù)雜度C1和C2。
在42步計(jì)算當(dāng)前幀m的比例Rm=C2/C1。當(dāng)字幕出現(xiàn)在幀中時(shí),Rm低。如果無(wú)字幕出現(xiàn),兩個(gè)區(qū)域的復(fù)雜度是可比較和匹配的。字幕的結(jié)構(gòu)(通常是被細(xì)黑線(xiàn)包圍的白字),和其在原來(lái)幀中是被覆蓋的另外的事實(shí),導(dǎo)致了字幕區(qū)復(fù)雜度數(shù)值的顯著上升。因此,比率Rm將下降。比率越低,字幕越大越復(fù)雜。
通過(guò)對(duì)已有字幕材料的兩個(gè)小時(shí)的檢驗(yàn),表明一條字幕在影片中存在的最短周期是兩秒。檢測(cè)器將在上述時(shí)間內(nèi)部為每I幀計(jì)算比率Rm。
在接下來(lái)的步驟43中,比率Rm被加在一起求和。在步驟44中,∑Rm與門(mén)檻值Thr比較。如果∑Rm低于門(mén)檻值Thr,就說(shuō)明字幕存在,在步驟45中產(chǎn)生合適的輸出信號(hào)。門(mén)檻值Thr是通過(guò)檢驗(yàn)帶字幕的影片而憑經(jīng)驗(yàn)選定的。
圖5是字幕檢測(cè)器300的第二個(gè)實(shí)施例執(zhí)行的操作步驟流程圖。在該實(shí)施例中,復(fù)雜度是由相應(yīng)圖象區(qū)域31和32中屏幕改變的發(fā)生表示的。為此,字符檢測(cè)器從MPEG編碼器接收當(dāng)前宏塊的絕對(duì)失真平均值(mad)。絕對(duì)失真平均值MAD是編碼器用于在幀存貯器111(見(jiàn)圖1)中進(jìn)行定位與當(dāng)前輸入塊最相似的圖象塊的判據(jù),并選擇所述塊作為預(yù)測(cè)編碼的預(yù)測(cè)塊。在第一步51中,字幕檢測(cè)器300計(jì)算實(shí)際幀字幕區(qū)域的絕對(duì)失真平均值之和∑MAD1以及非字幕區(qū)域的絕對(duì)失真平均值之和∑MAD2。在步驟52中,字幕檢測(cè)器為在第一給定時(shí)間窗t1內(nèi)的所有幀(I,P和B)計(jì)算平均值A(chǔ)vMAD1和AvMAD2,不包括較小的時(shí)間窗t2內(nèi)的幀(見(jiàn)圖6)。在步驟53中,對(duì)實(shí)際幀的和∑MAD1與時(shí)間窗內(nèi)幀的平均值A(chǔ)vMAD1相比較。如果∑MAD1比平均值A(chǔ)vMAD1大得多,和∑MAD1就是一個(gè)局部峰值。在這種情況下,就檢測(cè)到字幕區(qū)域的場(chǎng)景改變。與此類(lèi)似,在步驟54中,和∑MAD1與平均值A(chǔ)vMAD2相比較。如果∑MAD2比平均值A(chǔ)vMAD2大得多,和∑MAD2就是一個(gè)局部峰值。在這種情況下,就檢測(cè)到非字幕區(qū)域的場(chǎng)景改變。如果在字幕區(qū)域而不是在非字幕區(qū)域檢測(cè)到屏幕得改變,實(shí)際幀就會(huì)作為字幕出現(xiàn)或消失而被索引。然后在步驟55中產(chǎn)生一個(gè)輸出信號(hào)。
圖7是字幕檢測(cè)器300的第三個(gè)實(shí)施例執(zhí)行的操作步驟流程圖。在該實(shí)施例中,復(fù)雜度由編碼器產(chǎn)生的或解碼器接收的離散余弦變換DCT系數(shù)c的重心表示。在步驟71中,計(jì)算組成字幕區(qū)域的各個(gè)塊的離散余弦變換DCT系數(shù)c1(0)...c1(63)的棒狀圖。由于這種計(jì)算只對(duì)I幀做,很方便。在步驟72中,計(jì)算組成非字幕區(qū)域的各個(gè)塊的離散余弦變換DCT系數(shù)c2(0)...c2(63)的同樣的棒狀圖。在步驟73中,計(jì)算相應(yīng)重心n1和n2。重心是離散余弦變換DCT系數(shù)的索引n,因此Σi=0nC(i)=Σi=n+163C(i]]>這在圖8A和8B中說(shuō)明,其中,圖8A是典型的無(wú)字幕圖象區(qū)域的棒圖。圖8B是典型的有字幕圖象區(qū)域的棒圖。上述情況是由于字幕通常是白色帶小黑框,所以包含字幕的塊含有大量的高交流系數(shù)。
在步驟74中,比較重心n1和n2。如果重心n1比重心n2對(duì)應(yīng)于高得多的空間頻率,則實(shí)際的I幀就被檢測(cè)為一個(gè)帶字幕的幀。在這種情況下,在步驟75中產(chǎn)生輸出信號(hào)。
圖9是字幕檢測(cè)器300的第三個(gè)實(shí)施例執(zhí)行的操作步驟流程圖。在該實(shí)施例中,復(fù)雜度從編碼器產(chǎn)生或解碼器接收的運(yùn)動(dòng)向量mv中獲得。在步驟91中,檢測(cè)形成字幕區(qū)域的宏塊間運(yùn)動(dòng)向量mv1是否小于給定值M1。如果小于,在步驟92中計(jì)數(shù)器n1增加。在步驟93中,檢測(cè)形成非字幕區(qū)域的宏塊間的運(yùn)動(dòng)向量mv2是否大于給定值M2。如果大于,在步驟94中計(jì)數(shù)器n2增加。
在步驟95中,檢測(cè)器檢測(cè)字幕區(qū)域小運(yùn)動(dòng)向量的平均值n1/N1是否超過(guò)了非字幕區(qū)域的大運(yùn)動(dòng)向量的平均值n2/N2。這里N1和N2分別是字幕區(qū)域和非字幕區(qū)域宏塊的總數(shù)。如果上述檢測(cè)肯定,則字幕存在,在步驟96中會(huì)產(chǎn)生適當(dāng)?shù)妮敵鲂盘?hào)。本實(shí)施例利用了這樣一個(gè)觀點(diǎn),即字幕是靜態(tài)的所以字幕區(qū)域的運(yùn)動(dòng)向量一般較小。這一點(diǎn)在圖10中說(shuō)明,圖中98和99分別表示帶大運(yùn)動(dòng)向量的宏塊和帶小運(yùn)動(dòng)向量(近似為0)的宏塊。
字幕也可以通過(guò)這樣來(lái)檢測(cè),判斷圖象的每個(gè)(8×8)塊是否象一個(gè)文本塊,然后將字幕作為一個(gè)包含大量毗鄰的文本塊的區(qū)域來(lái)識(shí)別出來(lái)。一個(gè)可能的文本塊檢測(cè)算法包括計(jì)算一個(gè)給定交流系數(shù)的絕對(duì)值的和,將所說(shuō)的絕對(duì)值的和與設(shè)定值Thr比較判斷。 其中,x,y表示塊在一個(gè)圖象中的位置,i,j表示交流系數(shù)在塊中的位置,I,J表示考慮了文本檢測(cè)的系數(shù)的位置(例如,一個(gè)Z字形掃描的前9個(gè)交流系數(shù))。
這樣獲得的文本塊檢測(cè)值TB(x,y)一起形成包含1的矩陣,用于可能的文本塊,和包含0的矩陣,用于不是文本塊。文本塊矩陣一般在字幕區(qū)域包括了大量的1。該矩陣也包括由于明顯的亮度邊緣而在圖象中其它位置形成的隔離文本塊和由于錯(cuò)誤檢測(cè)或在字幕的單詞之間的空格形成的字幕區(qū)域隔離非文本塊。于是對(duì)于文本塊檢測(cè)結(jié)果進(jìn)行濾波。第一濾波器用于去除隔離文本塊。第二濾波器用于關(guān)閉文本塊之間的間隙。去除-關(guān)閉-去除-關(guān)閉(兩個(gè)反復(fù)操作)序列操作就足夠了。更多的反復(fù)不會(huì)對(duì)結(jié)果產(chǎn)生明顯的改善。濾波器的大小可能根據(jù)圖象提供者的字體進(jìn)行調(diào)整,也可以根據(jù)不同國(guó)家或不同的廣播電臺(tái)進(jìn)行調(diào)整。
考慮已知的幾何特性如縱橫比(字幕通常水平延伸)和位置(屏幕的1/3以下),可以進(jìn)一步改善使用文本塊矩陣定位字幕的效果。使用這種后處理算法,時(shí)間特性(在一定時(shí)間段內(nèi),字幕是靜止的)也可以考慮進(jìn)來(lái)。
以上公開(kāi)了用于在視頻信號(hào)中檢測(cè)字幕存在、出現(xiàn)或消失的一種方法和裝置(300)。由于大多數(shù)計(jì)算已經(jīng)由MPEG編碼器或解碼器(101-113)中的電路完成,因此可以獲得很高的可靠性和需要很少的處理能力。如果字幕顯示的圖象區(qū)域的復(fù)雜度大大超過(guò)了至少一個(gè)其它圖象區(qū)域的復(fù)雜度,字幕就檢測(cè)到了。表示復(fù)雜度的屬性的例子是(i)MPEG片段中位費(fèi)用(b)與量化器比例的乘積,(ii)頻譜離散余弦變換系數(shù)的重心位置,(iii)字幕圖象區(qū)域有小運(yùn)動(dòng)向量(mv)的宏塊的數(shù)目,與之對(duì)比,非字幕區(qū)域有大運(yùn)動(dòng)向量的數(shù)目,或(iv)在不同圖象區(qū)域中,場(chǎng)景改變不是同時(shí)檢測(cè)到的這樣一個(gè)事實(shí)。
該裝置能夠用于商業(yè)廣告中斷檢測(cè)或密鑰幀的生成。
權(quán)利要求
1.一種在視頻信號(hào)中檢測(cè)字幕的方法,該方法包括如下步驟將每幀分解為字幕可能重現(xiàn)的第一圖象區(qū)域和與第一圖象區(qū)域不一致的至少一個(gè)第二圖形區(qū)域;計(jì)算第一和第二圖象區(qū)域的復(fù)雜度;如果第一圖象區(qū)域的復(fù)雜度與第二圖象區(qū)域的復(fù)雜度相比較超出了預(yù)先設(shè)定的比例,就產(chǎn)生一個(gè)輸出信號(hào)。
2.如權(quán)利要求1所描述的方法,其中將第一和第二圖象區(qū)域分解為片段,每個(gè)片段被編碼為多個(gè)位和一個(gè)量化比例,通過(guò)對(duì)構(gòu)成相關(guān)圖象區(qū)域的片段的位數(shù)和量化比例乘積求和來(lái)計(jì)算第一和第二圖象區(qū)域的復(fù)雜度。
3.如權(quán)利要求1描述的方法,其中每個(gè)圖象區(qū)域中的圖象數(shù)據(jù)被變換為頻譜系數(shù),該方法還包括計(jì)算相應(yīng)圖象區(qū)域的頻譜系數(shù)重心的步驟,第一和第二圖象區(qū)域的復(fù)雜度由相應(yīng)的重心光譜位置表示。
4.如權(quán)利要求1描述的方法,其中第一和第二圖象區(qū)域被分解為帶運(yùn)動(dòng)向量的塊,第一圖象區(qū)域的復(fù)雜度可以由具有小于預(yù)定第一門(mén)檻值的運(yùn)動(dòng)向量的數(shù)目來(lái)表示,第二圖象區(qū)域的復(fù)雜度可以由具有大于預(yù)定第二門(mén)檻值的運(yùn)動(dòng)向量的數(shù)目來(lái)表示。
5.如權(quán)利要求1描述的方法,還包括在第一和第二圖像區(qū)域檢測(cè)場(chǎng)景改變的步驟,其中,第一和第二圖象區(qū)域的復(fù)雜度由相應(yīng)圖象區(qū)域的場(chǎng)景改變的發(fā)生來(lái)表示,如果在所述第一圖象區(qū)域而非第二圖象區(qū)域檢測(cè)到場(chǎng)景改變,就產(chǎn)生輸出信號(hào)。
6.一種在視頻信號(hào)中檢測(cè)字幕的裝置,該裝置包括將每幀分解為可能重現(xiàn)字幕的第一圖象區(qū)域以及與所述第一區(qū)域不一致的至少一個(gè)第二圖象區(qū)域的裝置;計(jì)算第一和第二圖象區(qū)域的裝置;如果第一圖象區(qū)域的復(fù)雜度與第二圖象區(qū)域的復(fù)雜度相比較,超出了預(yù)先設(shè)定的比例,就產(chǎn)生輸出信號(hào)的裝置。
全文摘要
披露了用于在視頻信號(hào)中檢測(cè)字幕存在、出現(xiàn)或消失的方法和裝置(300)。使用這些方法和裝置能夠獲得很高的可靠性,由于大多數(shù)計(jì)算都由MPEG的編碼器(101-113)或解碼器電路完成,所以使用這些方法和裝置對(duì)處理能力要求很低。如果存在字幕顯示的圖象區(qū)域的復(fù)雜度明顯超出至少一個(gè)其它圖象區(qū)域的復(fù)雜度,就檢測(cè)到了字幕。代表復(fù)雜度特性的例子是(i)在MPEG片段中位費(fèi)用(b)和量化比例(qs)的乘積,(ii)頻譜離散余弦變換DCT系數(shù)(c)的重心的位置,(iii)字幕圖象區(qū)域的有小運(yùn)動(dòng)向量(mv)的宏塊的數(shù)目,以及非字幕圖象區(qū)域的有大運(yùn)動(dòng)向量的宏塊的數(shù)目,或(iv)在不同圖形區(qū)域中場(chǎng)景改變不是同時(shí)檢測(cè)的。該裝置能夠用于檢測(cè)商業(yè)廣告中斷或密鑰幀的生成。
文檔編號(hào)H04N5/445GK1462546SQ02801652
公開(kāi)日2003年12月17日 申請(qǐng)日期2002年5月8日 優(yōu)先權(quán)日2001年5月15日
發(fā)明者J·A·D·內(nèi)斯瓦巴, W·H·A·布魯爾斯, G·J·M·維爾沃特, B·H·彭茲 申請(qǐng)人:皇家菲利浦電子有限公司