專利名稱:視頻字幕信息獲取方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及應(yīng)用電子技術(shù)領(lǐng)域,尤其涉及一種視頻字幕信息獲取方法及裝置。
背景技術(shù):
視頻字幕給人以直觀的形式展現(xiàn)視頻節(jié)目內(nèi)容,能夠有效地輔助人們?cè)谝曨l欣賞 中很好地把握節(jié)目的主題思想,進(jìn)而理解視頻的內(nèi)容。另外視頻字幕信息的檢測(cè)和識(shí)別可 以豐富基于文本的視頻內(nèi)容查詢。因此對(duì)視頻字幕信息進(jìn)行有效的獲取是一個(gè)必要的環(huán) 節(jié)。發(fā)明人在實(shí)現(xiàn)本發(fā)明過程中發(fā)現(xiàn),現(xiàn)有獲取字幕信息的技術(shù)中,對(duì)字幕信息出現(xiàn) 在視頻畫面中的位置信息比較敏感,且通常情況下,假設(shè)字幕區(qū)域是靜止的,而且字幕位置 也是固定在圖像的中下部分,如果字幕信息不在所指定的檢測(cè)范圍內(nèi),那么字幕信息不能 被很好地獲取以及應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種視頻字幕信息獲取方法及裝置,從而在不限制字幕位置區(qū) 域的情況下,準(zhǔn)確獲取視頻數(shù)據(jù)中的字幕信息。本發(fā)明實(shí)施例提供了一種視頻字幕信息獲取方法,包括對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè);獲取檢測(cè)出的字幕的屬性信息;根據(jù)所述屬性信息,提取檢測(cè)出的字幕。本發(fā)明實(shí)施例還提供了 一種視頻字幕信息獲取裝置,包括檢測(cè)模塊,用于對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè);第一獲取模塊,用于獲取所述檢測(cè)模塊檢測(cè)出的字幕的屬性信息;提取模塊,用于根據(jù)所述第一獲取模塊獲取的字幕屬信息,提取所述檢測(cè)模塊檢 測(cè)出的字幕。由上述本發(fā)明實(shí)施例提供的技術(shù)方案可以看出,本發(fā)明實(shí)施例中,通過對(duì)視頻流 中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè),并獲取檢測(cè)出的字幕的屬性信息,根 據(jù)所述屬性信息,提取檢測(cè)出的字幕。從而準(zhǔn)確獲取數(shù)據(jù)幀中的字幕信息。由于基于小波 的字幕檢測(cè),無需對(duì)字幕所在的區(qū)域進(jìn)行限制,因此,本發(fā)明實(shí)施例可以在不限制字幕位置 區(qū)域的情況下,準(zhǔn)確獲取視頻數(shù)據(jù)中的字幕信息。
圖1為本發(fā)明實(shí)施例提供的所述方法流程示意圖一;圖2為本發(fā)明實(shí)施例提供的所述方法流程示意圖二 ;圖3為本發(fā)明實(shí)施例提供的所述方法流程示意圖三;圖4為本發(fā)明實(shí)施例提供的所述裝置結(jié)構(gòu)示意圖一;
圖5為本發(fā)明實(shí)施例提供的所述裝置結(jié)構(gòu)示意圖二 ;圖6為本發(fā)明實(shí)施例提供的所述檢測(cè)模塊結(jié)構(gòu)示意圖一;圖7為本發(fā)明實(shí)施例提供的所述檢測(cè)模塊結(jié)構(gòu)示意圖二 ;圖8為本發(fā)明實(shí)施例提供的所述第一獲取模塊結(jié)構(gòu)示意圖;圖9為本發(fā)明實(shí)施例提供的所述提取模塊結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明實(shí)施例提供了一種視頻字幕信息獲取方法,如附圖1所示,該方法通過對(duì) 數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè),并獲取檢測(cè)出的字幕的屬性信息,根據(jù) 所述屬性信息,提取檢測(cè)出的字幕。從而準(zhǔn)確獲取數(shù)據(jù)幀中的字幕信息。由于基于小波的 字幕檢測(cè),無需對(duì)字幕所在的區(qū)域進(jìn)行限制,因此,本發(fā)明實(shí)施例可以在不限制字幕位置區(qū) 域的情況下,準(zhǔn)確獲取視頻數(shù)據(jù)中的字幕信息。本發(fā)明實(shí)施例提供了的視頻字幕信息獲取方法的一個(gè)具體實(shí)施例,可以如附圖2 所示,該實(shí)施例具體可以包括步驟21,從視頻數(shù)據(jù)流中獲取指定數(shù)據(jù)幀的亮度分量圖像。為了加快獲取字幕信息的速度,本發(fā)明實(shí)施例具體可以從視頻數(shù)據(jù)流中解碼指定 的數(shù)據(jù)幀,并獲取指定數(shù)據(jù)幀的亮度分量圖像。比如,僅解碼幀號(hào)為奇數(shù)(或偶數(shù))的幀內(nèi)編碼,即I幀(也可以是其他形式的視 頻幀,如預(yù)測(cè)編碼幀,即P幀)的碼流,獲取I幀的亮度分量圖像,而對(duì)I幀的色度分量,以 及其它幀則快速跳過,從而加快了獲取字幕信息的速度。需要說明的是,本發(fā)明實(shí)施例并不限制視頻數(shù)據(jù)流的壓縮格式。步驟22,對(duì)選取的數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)。具體的,該步驟中對(duì)于已經(jīng)選取的數(shù)據(jù)幀的亮度分量圖像,采用基于小波的字幕 檢測(cè)。在一個(gè)具體的實(shí)施例中,該步驟的具體執(zhí)行過程可如附圖3中所示,包括步驟221,對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換,獲得水平高頻子帶紋理圖、垂 直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖。本發(fā)明實(shí)施例中所涉及的小波變換,具體可以為HAAR(哈爾)小波變換,墨西哥草 帽小波變換,9-7小波變換,5-3小波變換,等等。此步驟中,對(duì)已經(jīng)選取的數(shù)據(jù)幀的亮度分量圖像,進(jìn)行小波變換,以獲取一個(gè)低頻 子帶,和水平、垂直、對(duì)角線三個(gè)方向的高頻子帶,其中,水平子高頻帶可以記為H、垂直高頻 子帶可以記為V、對(duì)角線高頻子帶可以記為D。將小波變換后生成的H、V、D三個(gè)高頻子帶的系數(shù)分別求絕對(duì)值,獲取水平高頻子 帶紋理圖(CH)、垂直高頻子帶紋理圖(CV)和對(duì)角線高頻子帶紋理圖(⑶)。此步驟中還可以結(jié)合三個(gè)高頻子帶紋理圖(CH、CV、⑶),獲取綜合高頻子帶紋理圖 (CS)。綜合高頻子帶紋理圖像中每個(gè)點(diǎn)的值可以通過如下公式獲得CS (i,j) = CH (i,j) +CV (i,j) +CD (i,j)步驟222,根據(jù)水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖,獲取數(shù)據(jù)幀的字幕點(diǎn)圖像(TextPnt)。在一個(gè)具體的實(shí)施例中,此步驟中,具體可以包括以下環(huán)節(jié)首先,根據(jù)高頻子帶紋理圖,生成初始字幕點(diǎn)圖像。以水平高頻子帶紋理圖為例,對(duì)水平高頻子帶紋理圖進(jìn)行字幕點(diǎn)檢測(cè),以得到該 水平高頻子帶初始字幕點(diǎn)圖像(MAPH_0RG)。其中,該水平高頻子帶初始字幕點(diǎn)圖像在坐標(biāo)(i,j)處的取值是按照如下公式進(jìn) 行計(jì)算得到 需要說明的是,取值為“0”表示背景,取值為“1”表示初始的字幕點(diǎn),式中閾值 (TH)的計(jì)算方法可如下 公式中的MH是水平高頻子帶紋理圖像中紋理強(qiáng)度均值。然后,對(duì)水平高頻子帶初始字幕點(diǎn)圖像進(jìn)行除噪聲處理,以得到的水平方向最終 字幕點(diǎn)圖像(MAPH)。本發(fā)明實(shí)施例中所涉及的除噪聲處理,具體可以采用如交疊滑動(dòng)的方塊濾波等成 熟的技術(shù)處理方案,本發(fā)明實(shí)施例對(duì)此并不限制。接著,對(duì)垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖進(jìn)行類似的處理步驟以 得到垂直子帶初始字幕點(diǎn)圖像(MAPV_0RG)和對(duì)角線子帶初始字幕點(diǎn)圖像(MAPD_0RG),并 對(duì)垂直子帶初始字幕點(diǎn)圖像和對(duì)角線子帶初始字幕點(diǎn)圖像分別進(jìn)行除噪聲處理,以得到垂 直方向最終字幕點(diǎn)圖像(MAPV)和對(duì)角線方向最終字幕點(diǎn)圖像(MAPD)。最后,將三個(gè)方向的最終字幕點(diǎn)圖像(MAPH、MAPV、MAPD)求交集得到數(shù)據(jù)幀的字 幕點(diǎn)圖像(TextPnt)。需要說明的是,本發(fā)明實(shí)施例中,對(duì)初始的字幕點(diǎn)圖像(MAP_0RG)進(jìn)行去除字幕 噪聲點(diǎn),得到字幕區(qū)域的具體實(shí)現(xiàn)方法流程可采用以下程序?qū)崿F(xiàn)//h, w分別表示子帶圖像的高度和寬度block = 4 ;// 方塊的大小dis = 3 ;//每一次方塊偏移的距離h_num = (h/dis) ;//方塊在垂直方向偏移的次數(shù)w_num = (w/dis) ;//方塊在水平方向偏移的次數(shù)MAP = MAPH_0RG ;for (k = 1: h_num)for (I = 1: w_num)if(((k-1) * dis+l+block > h)||((1-1) * dis+l+block > w))continue ;//如果子塊移出了圖像了邊界,跳出循環(huán)elsenum = TextPntNumO ;//統(tǒng)計(jì)方塊內(nèi)部含有字幕點(diǎn)
1, CH(i,j) > TH 0, CH{i,j)<TH
50,MH*5>50 TH = \MH*5, 50>搬*5>18 18,MH*5<\S
的個(gè)數(shù)if (num < (block * block/2))StartH = (k_l) * dis ;EndH = StartH+block ;Startff = (1-1) * dis ;Endff = Startff+block ;MAP(StartH:End H, Startff:Endff) = 0 ;II如果個(gè)數(shù)小于(block block/2),此方塊區(qū)域所有像素點(diǎn)為內(nèi)設(shè)為 0,II即此方塊中的字幕點(diǎn)為噪聲點(diǎn)else//如果個(gè)數(shù)大于(block block/2),此方塊區(qū)域?yàn)檎鎸?shí)的字幕點(diǎn)MAP (StartH EndH, Startff Endff) = MAP_0RG (StartH: EndH,Startff: Endff)endend可以理解的是,以上實(shí)例僅為舉例說明,對(duì)本發(fā)明實(shí)施例的保護(hù)范圍不起到任何
限制的作用。步驟223,由數(shù)據(jù)幀的字幕點(diǎn)圖像生成字幕區(qū)域圖像(TextArea)。在一個(gè)具體的實(shí)施例中,該步驟中具體可以包括以下環(huán)節(jié)首先,對(duì)已經(jīng)獲取的字幕點(diǎn)圖像分別進(jìn)行水平方向的閉運(yùn)算和開運(yùn)算得到水平圖 像(Verlmg)。其中,閉運(yùn)算的結(jié)構(gòu)元素可以為20女1的全“1”矩陣,開運(yùn)算的結(jié)構(gòu)元素可以為 1女2的全“1”矩陣,當(dāng)然,閉運(yùn)算和開運(yùn)算所采用的結(jié)構(gòu)元素可以根據(jù)實(shí)際需要進(jìn)行靈活 安排。接著,對(duì)字幕點(diǎn)圖像進(jìn)行垂直方向的閉運(yùn)算和開運(yùn)算得到垂直圖像(Horlmg)。同樣,閉運(yùn)算的結(jié)構(gòu)元素可以為1女20的全“1”矩陣,開運(yùn)算的結(jié)構(gòu)元素可以為 2 * 1的全“1”矩陣;然后,對(duì)獲取的水平圖像和垂直圖像進(jìn)行求并集操作,以得到包含所有字幕區(qū)域 的最大點(diǎn)集圖像(Img),其具體的獲得方法如下
其他接下來,對(duì)最大點(diǎn)集圖像進(jìn)行閉運(yùn)算以得到字幕區(qū)域圖像。閉運(yùn)算的結(jié)構(gòu)元素可以采用6女6的全“1”矩陣,或者其它矩陣。步驟224,確定字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息。在一個(gè)具體的實(shí)施例中,該步驟中具體可以包括以下環(huán)節(jié)首先,對(duì)字幕區(qū)域圖像中每一個(gè)字幕區(qū)域進(jìn)行字幕為水平排列或垂直排列的區(qū) 分。區(qū)分的方法是根據(jù)字幕區(qū)域高與寬的相對(duì)大小。具體的,如果字幕區(qū)域的寬大于
8高,則此字幕區(qū)域內(nèi)的字幕為水平排列,如果字幕區(qū)域的寬小于高,則該字幕區(qū)域內(nèi)的字幕 為垂直排列。需要說明的是,字幕區(qū)域圖像中的字幕區(qū)域的確認(rèn)方法可以采用形態(tài)學(xué)中的貼標(biāo) 簽方法,或者其它成熟的方法進(jìn)行確認(rèn),本發(fā)明實(shí)施例對(duì)此并不限制。對(duì)于字幕為水平排列的字幕區(qū)域,確定此字幕區(qū)域在水平圖像中相對(duì)應(yīng)的區(qū)域, 并且,通過此字幕區(qū)域在水平圖像中的最上、下、左、右像素點(diǎn)的坐標(biāo)位置,確定此字幕區(qū)域 在水平圖像中上邊框、下邊框、左邊框、右邊框的位置。對(duì)于字幕為垂直排列的字幕區(qū)域,確定此字幕區(qū)域在垂直圖像中相對(duì)應(yīng)的區(qū)域, 并采用與上述字幕為水平排列的字幕區(qū)域同樣的方法,得到此字幕區(qū)域在垂直圖像中上邊 框、下邊框、左邊框、右邊框的位置。然后,在字幕區(qū)域定位框內(nèi)相應(yīng)的綜合子帶紋理圖(CS)所對(duì)應(yīng)的區(qū)域進(jìn)行水平 投影,并從綜合子帶紋理圖投影曲線的峰谷信息,確定綜合子帶紋理圖中字幕條數(shù)以及每 條水平字幕的上邊框和下邊框位置。具體的,可以通過投影曲線中波谷的數(shù)量確定字幕區(qū)域內(nèi)字幕的條數(shù),該過程具 體可以包括將綜合子帶紋理圖中的紋理均值除以一個(gè)參數(shù)(alfa)得到閾值。如果投影曲線 的值小于此閾值即為波谷。由于波谷的位置就是兩條字幕之間的中間位置,從而通過確定 波谷的數(shù)量,確定此字幕區(qū)域中字幕的條數(shù),即波谷數(shù)加1。需要說明的是,在本發(fā)明實(shí)施例 中,參數(shù)(alfa)的取值范圍可以為[2,3],經(jīng)過實(shí)際操作檢驗(yàn)后,推薦參數(shù)alfa = 2. 6。另外,由于波谷所分離開的字幕的上、下邊框位置分別對(duì)應(yīng)波谷的頂端和末端的 坐標(biāo)位置,因此,通過確定波谷所在的位置,可以確定此字幕區(qū)域中,每條水平字幕的上邊 框和下邊框的位置。對(duì)于垂直排列的字幕,在字幕區(qū)域定位框內(nèi)相應(yīng)的綜合子帶紋理圖區(qū)域進(jìn)行垂直 投影,并從投影曲線的峰谷關(guān)系確定其中字幕條數(shù)以及每條垂直字幕的左邊框和右邊框位 置,其具體的實(shí)現(xiàn)方法與水平排列的字幕相同。通過上述操作,即可確定字幕在視頻流中出現(xiàn)的位置等信息??蛇x的,在一個(gè)實(shí)施例中,為了提高檢測(cè)的準(zhǔn)確度,還可以進(jìn)一步包括步驟225,對(duì)字幕區(qū)域進(jìn)行是否為真實(shí)的字幕區(qū)域的檢測(cè)。由于在字幕檢測(cè)中,可能存在錯(cuò)誤檢測(cè),將不是字幕的區(qū)域檢測(cè)為字幕區(qū)域,因 此,需要對(duì)確認(rèn)的字幕區(qū)域進(jìn)行真實(shí)性驗(yàn)證,這樣能夠有效提升字幕檢測(cè)的性能。具體的,可以根據(jù)字幕紋理分布、灰度分布以及邊緣點(diǎn)數(shù)目的分布情況確定檢測(cè) 區(qū)域是否為真實(shí)的字幕區(qū)域。當(dāng)一個(gè)字幕區(qū)域?yàn)檎鎸?shí)字幕區(qū)域時(shí),相應(yīng)綜合子帶紋理圖上的投影中波谷,以及 小波變換后的低頻分量圖像投影的波谷的分布均勻。其中波谷的檢測(cè)方法同步驟224中所 記載的,均勻的度量方法是波谷的長度大小不超過波峰,并且波谷的方差較小。步驟23,獲取檢測(cè)出的字幕的屬性信息具體的,該步驟中,可以對(duì)檢測(cè)出的字幕進(jìn)行匹配及跟蹤操作,確定字幕屬性信 肩、O字幕匹配操作是根據(jù)前一 I幀和當(dāng)前I幀的字幕檢測(cè)情況來判斷檢測(cè)出的字幕是否匹配,如果匹配則表明相匹配的字幕屬于同一字幕,否則屬于不同字幕。相鄰兩個(gè)需要執(zhí)行字幕檢測(cè)的I幀是否需要進(jìn)行字幕匹配跟蹤,是按照這兩幀中 所檢測(cè)出的字幕條數(shù)目并按如下可能出現(xiàn)的情況進(jìn)行判斷1)如果前一 I幀和當(dāng)前I幀的字幕條數(shù)均為0,則無需進(jìn)行匹配和跟蹤操作;2)如果前一 I幀的字幕條數(shù)量為0,而當(dāng)前I幀的字幕條數(shù)量不為0,則可以確定 當(dāng)前I幀的字幕條數(shù)全部為新出現(xiàn)的字幕,那么需要進(jìn)行匹配和跟蹤操作,以確定當(dāng)前I幀 中字幕的起始幀。作起始幀判斷時(shí),首先需要根據(jù)當(dāng)前I幀和下一 I幀中的字幕匹配情況以及所確 定的字幕屬性來進(jìn)行處理。如果下一 I幀中沒有字幕、或者有字幕但是和當(dāng)前I幀中檢測(cè) 的字幕不匹配,則將當(dāng)前I幀中檢測(cè)的字幕當(dāng)成錯(cuò)檢并予以剔除,否則對(duì)當(dāng)前I幀中所檢測(cè) 的新出現(xiàn)字幕條進(jìn)行字幕跟蹤。3)如果前一 I幀的字幕條數(shù)量不為0,而當(dāng)前I幀的字幕條數(shù)量為0,則當(dāng)前I幀 的字幕條為消失字幕條,那么需要進(jìn)行匹配和跟蹤操作,以確定當(dāng)前I幀中字幕的終止幀。4)如果前一 I幀和當(dāng)前I幀的字幕條數(shù)均不為0,則需要對(duì)前一 I幀和當(dāng)前幀I中 的字幕進(jìn)行匹配和跟蹤操作,以確定前一 I幀中哪些字幕是匹配的,哪些是消失的,以及當(dāng) 前I幀中哪些字幕是匹配,哪些是新出現(xiàn)的。對(duì)于在前一 I幀中,哪些在前一 I幀到當(dāng)前I 幀之間消失的I幀需要確定該字幕的終止幀,對(duì)于當(dāng)前I幀中新出現(xiàn)的字幕條需要從前一 I幀到當(dāng)前I幀之間確定該字幕的出現(xiàn)幀。那么可以看出,只要前一 I幀或當(dāng)前I幀中有一個(gè)幀的字幕條數(shù)不為零,即需要進(jìn) 行匹配和跟蹤操作。本發(fā)明實(shí)施例中,可以通過抽樣匹配的方式,來實(shí)現(xiàn)字幕的匹配操作,即計(jì)算當(dāng)前 I幀中待匹配字幕P與下一 I幀中任意一條未匹配過的字幕q(l ^q^n)在滑動(dòng)匹配中的 最小平均絕對(duì)誤差(MAD :Mean AbsoluteDifference),然后從n條字幕匹配中選取MAD值 最小的,作為最佳匹配字幕,并進(jìn)一步判斷此最小MAD是否滿足最小約束閾值。具體的,對(duì)于當(dāng)前I幀的字幕q以及下一 I幀字幕P,字幕所在的上下左右邊框的 位置分別為C4,砹,迄,砹以及恥戽,恥。若兩個(gè)I幀都為水平排列,則抽取當(dāng)前I幀的字幕q以及下一 I幀字幕P, 在水平方向上的公共區(qū)域中,左邊邊框的最大值^^ = 111雙{&,4},以及右邊邊框的最 小值_ = min{^,砹},如果Rpq-Lpq小于等于閾值,則認(rèn)為不匹配(此處的閾值具 體可為10);如果大于閾值,則抽取水平方向上的公共區(qū)域中,下一 I幀字幕p的中心 Cy ( qy = roUnd[({^p + ZYP)/2],其中 round[ ]表示取整)處的像素 IP(cy,Lpq:Rpq),通過
滑動(dòng)匹配等方法確定其和當(dāng)前I幀的字幕q,在高度為y處IC(y,Lpq:Rpq)的像素條的匹
配誤差MAD(y,q),以及最佳匹配位置4。具體可通過如下公式計(jì)算獲取
如果在最佳匹配位置圪下的MAD (qtl)≤MADth,則認(rèn)為是匹配字幕。本發(fā)明實(shí)施例中,閾值
的較佳取值可以為 若為都為垂直排列,則抽取當(dāng)前I幀的字幕q以及下一 I幀的字幕P,在垂 直方向上的公共區(qū)域中,上邊邊框的最大值吵《zmax^^^Mt},以下邊邊框的最小值 咖=min{A^Ac),如果
則認(rèn)為不匹配;如果大于閾值,則抽取在垂直方向上 公共區(qū)域中,下一 I幀字幕P的中心CX(ex = round[(^p+^p)/2])處的中心像素IP (Upq:Dpq,
cx),通過滑動(dòng)匹配等方法確定其和當(dāng)I前幀字幕q,在寬度為x處IC(Upq:Dpq,x)的像素 條的匹配誤差為MAD (x,q),以及最佳匹配位置xO,具體的方法和上述水平字幕類似,然后 從中選擇最小MAD值所對(duì)應(yīng)的字幕作為最佳匹配,如果最佳匹配位置\。的MAD (q0) ( MADth 則認(rèn)為是匹配字幕。對(duì)于匹配上的字幕,可以對(duì)其進(jìn)行跟蹤操作,從而確定字幕中起始幀和終止幀的 位置。具體的,可以根據(jù)從字幕匹配的相對(duì)位置差異所計(jì)算出的匹配速度,將其分成靜 態(tài)字幕和滾動(dòng)字幕兩種類型。如果匹配的字幕在兩個(gè)執(zhí)行字幕檢測(cè)的幀中的位置不變則判 斷為靜態(tài)字幕,否則判斷為滾動(dòng)字幕。若為滾動(dòng)字幕,則根據(jù)匹配速度以及當(dāng)前幀中滾動(dòng)字幕所在的位置,來確定該字 幕邊框在當(dāng)前幀之前的某一幀恰好進(jìn)入圖像畫面,以及在當(dāng)前幀之后的某一幀剛好超出圖 像畫面范圍所對(duì)應(yīng)的幀號(hào)的數(shù)據(jù)幀,作為出現(xiàn)幀及終止幀。若為靜態(tài)字幕,則訪問前一幀所在的圖像組(GOP :group of pictures 圖像組) 的視頻流,并對(duì)其中每幀的亮度分量圖像進(jìn)行解碼操作,同時(shí)獲取其字幕區(qū)域直流(DC)圖 像,計(jì)算在此G0P內(nèi),字幕區(qū)域DC圖像的平均絕對(duì)誤差MAD值,根據(jù)MAD值來確定靜態(tài)字幕 的出現(xiàn)幀和終止幀。在上述步驟中的靜態(tài)字幕條跟蹤中一個(gè)G0P內(nèi)字幕區(qū)域DC圖像的平均絕對(duì)誤差 是通過抽取該區(qū)域中的DC線條進(jìn)行匹配予以實(shí)現(xiàn)的。具體如下首先,實(shí)現(xiàn)對(duì)前一幀和當(dāng)前幀之間的幀進(jìn)行部分解碼并獲取DC圖像。然后,根據(jù)當(dāng)前幀中的所得出的字幕邊框位置得出其在DC圖像中的相對(duì)應(yīng)的坐 標(biāo)位置,并抽取其間DC圖像中字幕所在區(qū)域的中心塊處DC線條。接下來,計(jì)算給定的幀i和當(dāng)前幀的DC線條差異值。在抽取DC線條時(shí)要考慮字幕的排列方向。對(duì)于水平排列的字幕,其中的第i幀和 當(dāng)前幀的DC線條差異值MADDC (i),具體可按如下公式獲取 其中DC(y,x, i)表示第i幀所對(duì)應(yīng)的DC圖像,dcy表示DC圖像中字幕區(qū)域在垂 直方向上的中心位置。對(duì)于垂直排列字幕的計(jì)算方法與上面方法類似。對(duì)于出現(xiàn)幀或者終止幀的判斷方法,可以通過在MADDC曲線上尋找突變點(diǎn)來確
定。具體方法如下公式所示 其中thl和th2是判斷突變點(diǎn)的約束閾值,本發(fā)明實(shí)施例中選用的較佳約束閾值 是 thl = 3. 5,th2 = 9。如果在以當(dāng)前幀為中心,搜索半徑為2個(gè)GOP長度范圍內(nèi)沒有找到突變點(diǎn),則將該 字幕條作為錯(cuò)檢測(cè)的字幕予以剔除;否則找出離當(dāng)前幀前或后距離最近的數(shù)據(jù)幀,作為出 現(xiàn)幀或者終止幀。上式是對(duì)水平排列字幕計(jì)算差異值,對(duì)于垂直排列字幕的計(jì)算方法與上面類似的 方法得到。步驟24,根據(jù)字幕的屬性信息,提取檢測(cè)出的字幕。需要說明的是,本發(fā)明實(shí)施例提供的視頻字幕信息獲取方法中,可以實(shí)時(shí)的記錄 已經(jīng)獲取的字幕屬性信息。字幕屬性信息具體可以包括字幕的基本信息、場(chǎng)景信息、以及匹配信息等?;拘畔⒕唧w可以包括該字幕的基本屬性信息,以及檢測(cè)信息等;場(chǎng)景信息具體可以包括該字幕的起始幀和終止幀,以及字幕是否跨越鏡頭標(biāo)志 等;匹配信息具體可以包括是否匹配的標(biāo)志,以及匹配的位置信息等。其中,本發(fā)明實(shí)施例對(duì)于是否跨越鏡頭的判斷方法,可以采用在所記錄的起始幀 之前的數(shù)據(jù)幀和終止幀之后的數(shù)據(jù)幀所在的區(qū)間內(nèi)進(jìn)行場(chǎng)景變化檢測(cè)等成熟方法。本發(fā)明 實(shí)施例對(duì)此并不限制。本發(fā)明實(shí)施例所涉及的字幕屬性信息具體可如表1所示表1 另外,本發(fā)明實(shí)施例還可以以文本記錄的形式,對(duì)實(shí)時(shí)獲取的字幕屬性信息進(jìn)行 保存。記錄保存的文本具體可如表2所示表2 那么,在此步驟中,具體根據(jù)已經(jīng)記錄的字幕屬性信息,包括字幕的起始幀、終止 幀以及出現(xiàn)位置等信息,抽取用于分割的字幕幀,然后執(zhí)行融合多幀的字幕分割,并對(duì)分割 的結(jié)果進(jìn)行識(shí)別,具體可以包括從記錄的字幕屬性信息中,判斷字幕屬于靜止還是滾動(dòng)。對(duì)于靜止字幕,直接抽取起始和終止幀之間所有的I幀和P幀,相同位置的字幕區(qū) 域圖像;對(duì)于滾動(dòng)字幕,則根據(jù)滾動(dòng)速度,抽取該字幕所有的I幀和P幀相應(yīng)圖像區(qū)域。在區(qū)域確定的基礎(chǔ)上,將字幕持續(xù)幀中所有的I幀的字幕區(qū)域部分,先進(jìn)行自適 應(yīng)閾值二值化分割,得到像素值只有0和255的二值圖像;再將分割的所有I幀字幕區(qū)域 圖像,針對(duì)相同位置的像素值進(jìn)行“與操作”,得到“I幀與圖像”;然后將字幕持續(xù)幀中所有 的I幀和P幀的字幕區(qū)域圖像,針對(duì)相同位置的像素值求平均像素值,即求這些圖像的一個(gè) 平均圖像,將此平均圖像進(jìn)行二值化分割,得到“I-P幀平均圖像”;最后將得到的“I幀與圖 像”和“I-P幀平均圖像”兩幅圖像進(jìn)行“與操作”所得出效果圖作為最終的分割結(jié)果。對(duì)于分割結(jié)果,可以在字幕識(shí)別過程中,采用文字識(shí)別(OCR :OpticalCharacter Recognition)軟件,將分割出來的二值圖像用進(jìn)行識(shí)別。上述描述可以看出,本發(fā)明實(shí)施例提供字幕信息獲取方法,通過對(duì)視頻流中數(shù)據(jù) 幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè),獲取檢測(cè)出的字幕的屬性信息,根據(jù)所述屬 性信息,提取檢測(cè)出的字幕提取,從而準(zhǔn)確獲取數(shù)據(jù)幀中字幕信息。由于基于小波的字幕檢 測(cè),無需對(duì)字幕所在的區(qū)域進(jìn)行限制,因此,本發(fā)明實(shí)施例提供的字幕信息獲取方法,可以 在不限定字幕位置區(qū)域的情況下,獲取視頻數(shù)據(jù)中的字幕信息。并且,由于只獲取指定數(shù)據(jù) 幀的亮度分量圖像,因此,本發(fā)明實(shí)施例提供的字幕信息獲取方法能夠更快捷的獲取字幕 信息。而且,本發(fā)明實(shí)施例提供的字幕信息獲取方法,還可以對(duì)獲取的字幕進(jìn)行字幕區(qū)域真 實(shí)性的驗(yàn)證,以及匹配和跟蹤操作,從而使本發(fā)明實(shí)施例提供的字幕信息獲取方法可以更 準(zhǔn)確的獲取字幕信息,有效提升字幕檢測(cè)的性能。另外,本發(fā)明實(shí)施例提供的字幕信息獲取 方法,還可以對(duì)獲取的字幕進(jìn)行分割操作,從而更加方便了用戶的使用。本發(fā)明實(shí)施例還提供了一種字幕信息獲取裝置,如附圖4所示,該裝置包括檢測(cè) 模塊410,第一獲取模塊420以及提取模塊430。其中
檢測(cè)模塊410,用于對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)。第一獲取模塊420,用于獲取檢測(cè)模塊410檢測(cè)出的字幕的屬性信息。第一獲取模塊420獲取的字幕屬性信息具體可以包括字幕的基本信息、場(chǎng)景信 息、以及匹配信息等?;拘畔⒕唧w可以包括該字幕的基本屬性信息,以及檢測(cè)信息等;場(chǎng)景信息具體可以包括該字幕的起始幀和終止幀,以及字幕是否跨越鏡頭標(biāo)志 等;匹配信息具體可以包括是否匹配的標(biāo)志,以及匹配的位置信息等。其中,本發(fā)明實(shí)施例對(duì)于是否跨越鏡頭的判斷方法,可以采用在所記錄的起始幀 之前的數(shù)據(jù)幀和終止幀之后的數(shù)據(jù)幀所在的區(qū)間內(nèi)進(jìn)行場(chǎng)景變化檢測(cè)等成熟方法。本發(fā)明 實(shí)施例對(duì)此并不限制。本發(fā)明實(shí)施例所涉及的字幕屬性信息具體可如表1所示。另外,本發(fā)明實(shí)施例還可以以文本記錄的形式,對(duì)實(shí)時(shí)獲取的字幕屬性信息進(jìn)行 保存。記錄保存的文本具體可如表2所示。提取模塊430,用于根據(jù)第一獲取模塊420獲取的字幕屬信息,提取檢測(cè)模塊430 檢測(cè)出的字幕。在本發(fā)明實(shí)施例提供的字幕信息獲取裝置的一個(gè)具體實(shí)施例中,如附圖5所示, 該裝置具體還可以包括第二獲取模塊440,用于獲取指定數(shù)據(jù)幀的亮度分量圖像。為了加快獲取字幕信息的速度,本發(fā)明實(shí)施例具體可以從視頻數(shù)據(jù)流中解碼指定 的數(shù)據(jù)幀,并獲取指定數(shù)據(jù)幀的亮度分量圖像。比如,僅解碼幀號(hào)為奇數(shù)(或偶數(shù))的幀內(nèi)編碼,即I幀(也可以是其他形式的視 頻幀,如預(yù)測(cè)編碼幀,即P幀)的碼流,獲取I幀的亮度分量圖像,而對(duì)I幀的色度分量,以 及其它幀則快速跳過,從而加快了獲取字幕信息的速度。需要說明的是,本發(fā)明實(shí)施例并不限制視頻數(shù)據(jù)流的壓縮格式。本發(fā)明實(shí)施例所涉及的檢測(cè)模塊410,具體可如附圖6所示,包括第一獲取單元 411,第二獲取單元412,生成單元413,確定單元414。其中第一獲取單元411,用于對(duì)第二獲取模塊430獲取的亮度分量圖像進(jìn)行小波變換, 獲取水平、垂直以及對(duì)角線三個(gè)方向的高頻子帶紋理圖。本發(fā)明實(shí)施例中所涉及的小波變換,具體可以為HAAR(哈爾)小波變換,墨西哥草 帽小波變換,9-7小波變換,5-3小波變換,等等。具體的,第一獲取單元411對(duì)已經(jīng)選取的數(shù)據(jù)幀的亮度分量圖像,進(jìn)行小波變換, 以獲取一個(gè)低頻子帶,和水平、垂直、對(duì)角線三個(gè)方向的高頻子帶,其中,水平高頻子帶記為 H、垂直高頻子帶記為V、對(duì)角線高頻子帶記為D。然后,將獲取的水平、垂直以及對(duì)角線三個(gè)方向的高頻子帶的系數(shù)分別求絕對(duì)值, 以獲取水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖。第一獲取單元411還可以結(jié)合以獲取的三個(gè)高頻子帶紋理圖,獲取綜合高頻子帶 紋理圖(CS)。綜合高頻子帶紋理圖像中每個(gè)點(diǎn)的值可以通過如下公式獲得CS (i,j) = CH (i,j) +CV (i,j) +CD (i,j)
第二獲取單元412,用于對(duì)第一獲取單元411獲取的水平、垂直以及對(duì)角線三個(gè)方 向的高頻子帶紋理圖,獲取數(shù)據(jù)幀字幕點(diǎn)圖像(TextPnt)。第二獲取單元412具體通過以下操作,獲取數(shù)據(jù)幀的字幕點(diǎn)圖像首先,根據(jù)高頻子帶紋理圖,生成初始字幕點(diǎn)圖像。以水平高頻子帶紋理圖為例,對(duì)水平高頻子帶紋理圖進(jìn)行字幕點(diǎn)檢測(cè),以得到該 水平高頻子帶初始字幕點(diǎn)圖像(MAPH_0RG)。其中,該水平高頻子帶初始字幕點(diǎn)圖像在坐標(biāo)(i,j)處的取值是按照如下公式進(jìn) 行計(jì)算得到 需要說明的是,取值為“0”表示背景,取值為“1”表示初始的字幕點(diǎn),式中閾值 (TH)的計(jì)算方法可如下公式中的MH是水平高頻子帶紋理圖像中紋理強(qiáng)度均值。然后,對(duì)水平高頻子帶初始字幕點(diǎn)圖像進(jìn)行除噪聲處理,以得到的水平方向最終 字幕點(diǎn)圖像(MAPH)。本發(fā)明實(shí)施例中所涉及的除噪聲處理,具體可以采用如交疊滑動(dòng)的方塊濾波等成 熟的技術(shù)處理方案,本發(fā)明實(shí)施例對(duì)此并不限制。接著,對(duì)垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖進(jìn)行類似的處理步驟以 得到垂直子帶初始字幕點(diǎn)圖像(MAPV_0RG)和對(duì)角線子帶初始字幕點(diǎn)圖像(MAPD_0RG),并 對(duì)垂直子帶初始字幕點(diǎn)圖像和對(duì)角線子帶初始字幕點(diǎn)圖像分別進(jìn)行除噪聲處理,以得到垂 直方向最終字幕點(diǎn)圖像(MAPV)和對(duì)角線方向最終字幕點(diǎn)圖像(MAPD)。最后,將三個(gè)方向的最終字幕點(diǎn)圖像(MAPH、MAPV、MAPD)求交集得到數(shù)據(jù)幀的字 幕點(diǎn)圖像(TextPnt)。生成單元413,用于根據(jù)第二獲取單元412獲取的字幕點(diǎn)圖像,生成字幕區(qū)域圖像。生成單元413具體可以通過以下操作生成字幕區(qū)域圖像首先,對(duì)已經(jīng)生成的字幕點(diǎn)圖像分別進(jìn)行水平方向的閉運(yùn)算和開運(yùn)算得到水平圖 像(Verlmg)。其中,閉運(yùn)算的結(jié)構(gòu)元素可以為20女1的全“1”矩陣,開運(yùn)算的結(jié)構(gòu)元素可以為 1女2的全“1”矩陣,當(dāng)然,閉運(yùn)算和開運(yùn)算所采用的結(jié)構(gòu)元素可以根據(jù)實(shí)際需要進(jìn)行靈活 安排;接著,對(duì)字幕點(diǎn)圖像進(jìn)行垂直方向的閉運(yùn)算和開運(yùn)算得到垂直圖像(Horlmg)。同樣,閉運(yùn)算的結(jié)構(gòu)元素可以為1女20的全“1”矩陣,開運(yùn)算的結(jié)構(gòu)元素可以為 2 * 1的全“1”矩陣;然后,對(duì)獲取的水平圖像和垂直圖像進(jìn)行求并集操作,以得到包含所有字幕區(qū)域 的最大點(diǎn)集圖像(Img),其具體的獲得方法如下
其他接下來,對(duì)最大點(diǎn)集圖像進(jìn)行閉運(yùn)算以得到字幕區(qū)域圖像。閉運(yùn)算的結(jié)構(gòu)元素可以采用6女6的全“1”矩陣,或者其它矩陣。確定單元414,用于確定生成單元413生成的字幕區(qū)域圖像中字幕的條數(shù)以及字 幕區(qū)域位置信息。確定單元414具體可以通過以下操作確定字幕區(qū)域圖像中字幕的條數(shù)以及字幕 區(qū)域位置信息首先,對(duì)字幕區(qū)域圖像中每一個(gè)字幕區(qū)域進(jìn)行字幕為水平排列或垂直排列的區(qū) 分。區(qū)分的方法是根據(jù)字幕區(qū)域高與寬的相對(duì)大小。具體的,如果字幕區(qū)域的寬大于 高,則此字幕區(qū)域內(nèi)的字幕為水平排列,如果字幕區(qū)域的寬小于高,則該字幕區(qū)域內(nèi)的字幕 為垂直排列。需要說明的是,字幕區(qū)域圖像中的字幕區(qū)域的確認(rèn)方法可以采用形態(tài)學(xué)中的貼標(biāo) 簽方法,或者其它成熟的方法進(jìn)行確認(rèn),本發(fā)明實(shí)施例對(duì)此并不限制。對(duì)于字幕為水平排列的字幕區(qū)域,確定此字幕區(qū)域在水平圖像中相對(duì)應(yīng)的區(qū)域, 并且,通過此字幕區(qū)域在水平圖像中的最上、下、左、右像素點(diǎn)的坐標(biāo)位置,確定此字幕區(qū)域 在水平圖像中上邊框、下邊框、左邊框、右邊框的位置。對(duì)于字幕為垂直排列的字幕區(qū)域,確定此字幕區(qū)域在垂直圖像中相對(duì)應(yīng)的區(qū)域, 并采用與上述字幕為水平排列的字幕區(qū)域同樣的方法,得到此字幕區(qū)域在垂直圖像中上邊 框、下邊框、左邊框、右邊框的位置。然后,在字幕區(qū)域定位框內(nèi)相應(yīng)的綜合子帶紋理圖(CS)所對(duì)應(yīng)的區(qū)域進(jìn)行水平 投影,并從綜合子帶紋理圖投影曲線的峰谷信息,確定綜合子帶紋理圖中字幕條數(shù)以及每 條水平字幕的上邊框和下邊框位置。具體的,可以通過投影曲線中波谷的數(shù)量確定字幕區(qū)域內(nèi)字幕的條數(shù),該過程具 體可以包括將綜合子帶紋理圖中的紋理均值除以一個(gè)參數(shù)(alfa)得到閾值。如果投影曲線 的值小于此閾值即為波谷。由于波谷的位置就是兩條字幕之間的中間位置,從而通過確定 波谷的數(shù)量,確定此字幕區(qū)域中字幕的條數(shù),即波谷數(shù)加1。需要說明的是,在本發(fā)明實(shí)施例 中,參數(shù)(alfa)的取值范圍可以為[2,3],經(jīng)過實(shí)際操作檢驗(yàn)后,推薦參數(shù)alfa = 2. 6。另外,由于波谷所分離開的字幕的上、下邊框位置分別對(duì)應(yīng)波谷的頂端和末端的 坐標(biāo)位置,因此,通過確定波谷所在的位置,可以確定此字幕區(qū)域中,每條水平字幕的上邊 框和下邊框的位置。對(duì)于垂直排列的字幕,在字幕區(qū)域定位框內(nèi)相應(yīng)的綜合子帶紋理圖區(qū)域進(jìn)行垂直 投影,并從投影曲線的峰谷關(guān)系確定其中字幕條數(shù)以及每條垂直字幕的左邊框和右邊框位 置,其具體的實(shí)現(xiàn)方法與水平排列的字幕相同。通過上述操作,即可確定字幕在視頻流中出現(xiàn)的位置等信息。在本發(fā)明實(shí)施例提供的檢測(cè)模塊410的另一個(gè)具體實(shí)施例中,檢測(cè)模塊410進(jìn)一步可如附圖7所示,還可以包括檢測(cè)單元415,用于對(duì)確定單元414確定的字幕區(qū)域進(jìn)行是 否屬為真實(shí)的字幕區(qū)域的檢測(cè)。由于在字幕檢測(cè)中,可能存在錯(cuò)誤檢測(cè),將不是字幕的區(qū)域檢測(cè)為字幕區(qū)域,因 此,需要對(duì)確認(rèn)的字幕區(qū)域進(jìn)行真實(shí)性驗(yàn)證,這樣能夠有效提升字幕檢測(cè)的性能。具體的,可以根據(jù)字幕紋理分布、灰度分布以及邊緣點(diǎn)數(shù)目的分布情況確定檢測(cè) 區(qū)域是否為真實(shí)的字幕區(qū)域。當(dāng)一個(gè)字幕區(qū)域?yàn)檎鎸?shí)字幕區(qū)域時(shí),相應(yīng)綜合子帶紋理圖上的投影中波谷,以及 小波變換后的低頻分量圖像投影的波谷的分布均勻。均勻的度量方法是波谷的長度大小不 超過波峰,并且波谷的方差較小。本發(fā)明實(shí)施例提供的第一獲取模塊420,具體可如附圖8所示,包括判斷單元421, 第一確定單元422以及第二確定單元423。其中判斷單元421,用于判斷檢測(cè)模塊410檢測(cè)出的字幕所在的當(dāng)前I幀,與當(dāng)前I幀 的上一 I幀是否匹配。判斷單元421執(zhí)行判斷的條件具體可以包括前一 I幀和當(dāng)前I幀中的字幕條數(shù) 是否均為零。如果前一 I幀和當(dāng)前I幀中,有一個(gè)I幀的字幕條數(shù)不為零,則判斷單元421需要 執(zhí)行是否匹配的判斷操作。需要說明的是,判斷單元421的判斷條件并不僅限于上述條件,可根據(jù)實(shí)際應(yīng)用 的需要,進(jìn)行補(bǔ)充和調(diào)整。判斷單元421可以通過抽樣匹配方法,判斷檢測(cè)模塊410檢測(cè)出的字幕所在的當(dāng) 前I幀,與當(dāng)前I幀的上一 I幀是否匹配。即計(jì)算當(dāng)前I幀中待匹配字幕p與下一 I幀中任意一條未匹配過的字幕 q(l彡q彡n)在滑動(dòng)匹配中的最小平均絕對(duì)誤差(MAD :Mean AbsoluteDifference),然后 從n條字幕匹配中選取MAD值最小的,作為最佳匹配字幕,并進(jìn)一步判斷此最小MAD是否滿 足最小約束閾值。具體的,對(duì)于當(dāng)前I幀的字幕q以及下一 I幀字幕P,字幕所在的上下左右邊框的 位置分別為冗,AH砹以及冗,^,巧,私。若兩個(gè)I幀都為水平排列,則抽取當(dāng)前I幀的字幕q以及下一 I幀字幕P, 在水平方向上的公共區(qū)域中,左邊邊框的最大值b^-maxa。1^},以及右邊邊框的最 小值= min{i Kc},如果Rpq-Lpq小于等于閾值,則認(rèn)為不匹配(此處的閾值具 體可為10);如果大于閾值,則抽取水平方向上的公共區(qū)域中,下一 I幀字幕p的中心
其中 round[ ]表示取整)處的像素 IP(cy,Lpq:Rpq),通過
滑動(dòng)匹配等方法確定其和當(dāng)前I幀的字幕q,在高度為y處IC(y,Lpq:Rpq)的像素條的匹 配誤差MAD(y,q),以及最佳匹配位置4。具體可通過如下公式計(jì)算獲取 如果在最佳匹配位置&。下的MAD (qtl)彡MADth,則認(rèn)為是匹配字幕。本發(fā)明實(shí)施例 中,閾值MADth的較佳取值可以為MADth = 20。若為都為垂直排列,則抽取當(dāng)前I幀的字幕q以及下一 I幀的字幕P,在垂 直方向上的公共區(qū)域中,上邊邊框的最大值
,以下邊邊框的最小值
如果Dpq-Upq彡10則認(rèn)為不匹配;如果大于閾值,則抽取在垂直方向上 公共區(qū)域中,下一 I幀字幕P的中心
處的中心像素IP(Upq:Dpq,
cx),通過滑動(dòng)匹配等方法確定其和當(dāng)I前幀字幕q,在寬度為x處IC(Upq:Dpq,x)的像素 條的匹配誤差為MAD (x,q),以及最佳匹配位置xO,具體的方法和上述水平字幕類似,然后 從中選擇最小MAD值所對(duì)應(yīng)的字幕作為最佳匹配,如果最佳匹配位置夂的MAD (q0) ( MADth 則認(rèn)為是匹配字幕。判斷單元在確定匹配后,觸發(fā)第一確定單元422。第一確定單元422,用于在判斷單元421的判斷結(jié)果為匹配時(shí),根據(jù)字幕匹配的相 對(duì)位置差異所計(jì)算出的匹配速度,確定檢測(cè)出的字幕為動(dòng)態(tài)字幕或靜態(tài)字幕。具體的,第一確定單元422可以根據(jù)從字幕匹配的相對(duì)位置差異所計(jì)算出的匹配 速度,將其分成靜態(tài)字幕和滾動(dòng)字幕兩種類型。如果匹配的字幕在兩個(gè)執(zhí)行字幕檢測(cè)的數(shù)據(jù)幀中的位置不變則判斷為靜態(tài)字幕, 否則判斷為滾動(dòng)字幕。第二確定單元423,用于當(dāng)?shù)谝淮_定單元422確定字幕為動(dòng)態(tài)字幕時(shí),根據(jù)動(dòng)態(tài)字 幕的匹配速度,以及當(dāng)前幀在動(dòng)態(tài)字幕中的位置,確定動(dòng)態(tài)字幕的起始幀和終止幀;當(dāng)?shù)谝?確定單元422確定字幕為靜態(tài)字幕時(shí),抽取靜態(tài)字幕中的直流線條,并對(duì)直流線條進(jìn)行匹 配操作,確定靜態(tài)字幕的起始幀和終止幀。若為滾動(dòng)字幕,第二確定單元423則根據(jù)匹配速度以及當(dāng)前幀中滾動(dòng)字幕所在的 位置,來確定該字幕邊框在當(dāng)前幀之前的某一幀恰好進(jìn)入圖像畫面,以及在當(dāng)前幀之后的 某一幀剛好超出圖像畫面范圍所對(duì)應(yīng)的幀號(hào)的數(shù)據(jù)幀,作為出現(xiàn)幀及終止幀。若為靜態(tài)字幕,第二確定單元423則訪問前一幀所在的圖像組(G0P:grOUp of pictures 圖像組)的視頻流,并對(duì)其中每幀的亮度分量圖像進(jìn)行解碼操作,同時(shí)獲取其字 幕區(qū)域直流(DC)圖像,計(jì)算在此G0P內(nèi),字幕區(qū)域DC圖像的平均絕對(duì)誤差MAD值,根據(jù)MAD 值來確定靜態(tài)字幕的出現(xiàn)幀和終止幀。在上述步驟中的靜態(tài)字幕條跟蹤中一個(gè)G0P內(nèi)字幕區(qū)域DC圖像的平均絕對(duì)誤差 是通過抽取該區(qū)域中的DC線條進(jìn)行匹配予以實(shí)現(xiàn)的。具體如下首先,實(shí)現(xiàn)對(duì)前一幀和當(dāng)前幀之間的幀進(jìn)行部分解碼并獲取DC圖像。然后,根據(jù)當(dāng)前幀中的所得出的字幕邊框位置得出其在DC圖像中的相對(duì)應(yīng)的坐 標(biāo)位置,并抽取其間DC圖像中字幕所在區(qū)域的中心塊處DC線條。接下來,計(jì)算給定的幀i和當(dāng)前幀的DC線條差異值。在抽取DC線條時(shí)要考慮字幕的排列方向。對(duì)于水平排列的字幕,其中的第i幀和 當(dāng)前幀的DC線條差異值MADDC (i),具體可按如下公式獲取 其中DC(y,x, i)表示第i幀所對(duì)應(yīng)的DC圖像,dcy表示DC圖像中字幕區(qū)域在垂直方向上的中心位置。對(duì)于垂直排列字幕的計(jì)算方法與上面方法類似。對(duì)于出現(xiàn)幀或者終止幀的判斷方法,可以通過在MADDC曲線上尋找突變點(diǎn)來確
定。具體方法如下公式所示 其中thl和th2是判斷突變點(diǎn)的約束閾值,本發(fā)明實(shí)施例中選用的較佳約束閾值 是 thl = 3. 5,th2 = 9。如果在以當(dāng)前幀為中心,搜索半徑為2個(gè)GOP長度范圍內(nèi)沒有找到突變點(diǎn),則將該 字幕條作為錯(cuò)檢測(cè)的字幕予以剔除;否則找出離當(dāng)前幀前或后距離最近的數(shù)據(jù)幀,作為出 現(xiàn)幀或者終止幀。上式是對(duì)水平排列字幕計(jì)算差異值,對(duì)于垂直排列字幕的計(jì)算方法與上面類似的 方法得到。本發(fā)明實(shí)時(shí)例提供的提取模塊430,具體可如附圖9所示,包括抽取單元431,分割 單元432以及識(shí)別單元433。其中抽取單元431,用于根據(jù)字幕的起始幀、終止幀以及出現(xiàn)位置信息,抽取字幕中用 于分割的字幕幀。分割單元432,用于確定抽取單元431抽取的字幕幀對(duì)應(yīng)的字幕區(qū)域,對(duì)所述字幕 區(qū)域進(jìn)行二值化分割,得到二值圖像。具體的,分割單元432具體根據(jù)已經(jīng)記錄的字幕屬性信息,包括字幕的起始幀、終 止幀以及出現(xiàn)位置等信息,抽取用于分割的字幕幀,然后執(zhí)行融合多幀的字幕分割,并對(duì)分 割的結(jié)果進(jìn)行識(shí)別,具體可以包括從記錄的字幕屬性信息中,判斷字幕屬于靜止還是滾動(dòng)。對(duì)于靜止字幕,直接抽取起始和終止幀之間所有的I幀和P幀,相同位置的字幕區(qū) 域圖像;對(duì)于滾動(dòng)字幕,則根據(jù)滾動(dòng)速度,抽取該字幕所有的I幀和P幀相應(yīng)圖像區(qū)域。在區(qū)域確定的基礎(chǔ)上,將字幕持續(xù)幀中所有的I幀的字幕區(qū)域部分,先進(jìn)行自適 應(yīng)閾值二值化分割,得到像素值只有0和255的二值圖像;再將分割的所有I幀字幕區(qū)域 圖像,針對(duì)相同位置的像素值進(jìn)行“與操作”,得到“I幀與圖像”;然后將字幕持續(xù)幀中所有 的I幀和P幀的字幕區(qū)域圖像,針對(duì)相同位置的像素值求平均像素值,即求這些圖像的一個(gè) 平均圖像,將此平均圖像進(jìn)行二值化分割,得到“I-P幀平均圖像”;最后將得到的“I幀與圖 像”和“I-P幀平均圖像”兩幅圖像進(jìn)行“與操作”所得出效果圖作為最終的分割結(jié)果。識(shí)別單元433,用于識(shí)別分割單元432得到的二值圖像,提取字幕。具體的,識(shí)別單元433可以采用文字識(shí)別(0CR:0ptical CharacterRecognition) 軟件,對(duì)分割出來的二值圖像用進(jìn)行識(shí)別,提取其中的字幕。上述描述可以看出,本發(fā)明實(shí)施例提供字幕信息獲取裝置,通過對(duì)視頻流中數(shù)據(jù) 幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè),并對(duì)檢測(cè)出的字幕進(jìn)行匹配和跟蹤操作,從 而準(zhǔn)確地確定該數(shù)據(jù)幀的字幕信息。由于基于小波的字幕檢測(cè),無需對(duì)字幕所在的區(qū)域進(jìn)行限制,因此,本發(fā)明實(shí)施例提供的字幕信息獲取裝置,可以在不限定字幕位置區(qū)域的情況 下,獲取視頻數(shù)據(jù)中的字幕信息。并且,由于只獲取部分指定數(shù)據(jù)幀的亮度分量圖像,并對(duì) 獲取的字幕進(jìn)行字幕區(qū)域真實(shí)性的驗(yàn)證,以及匹配和跟蹤操作,從而使本發(fā)明實(shí)施例提供 的字幕信息獲取裝置可以更快捷、準(zhǔn)確的獲取字幕信息,有效提升字幕檢測(cè)的性能。另外, 本發(fā)明實(shí)施例提供的字幕信息獲取裝置,還可以對(duì)獲取的字幕進(jìn)行分割操作,從而更加方 便了用戶的使用。需要說明的是,上述本發(fā)明實(shí)施例中所涉及的公式或者數(shù)值,對(duì)于本發(fā)明實(shí)施例 的保護(hù)范圍不起任何限制影響,當(dāng)采用其他小波變換、匹配跟蹤技術(shù)手段時(shí),完全可以進(jìn)行 相應(yīng)的變換。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借 助軟件加必需的硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以全部通過硬件來實(shí)施,但很多情況下 前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案對(duì)背景技術(shù)做出貢獻(xiàn)的全部 或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如 ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù) 器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍 為準(zhǔn)。
權(quán)利要求
一種視頻字幕信息獲取方法,其特征在于,包括對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè);獲取檢測(cè)出的字幕的屬性信息;根據(jù)所述屬性信息,提取檢測(cè)出的字幕。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法在對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn) 行基于小波的字幕檢測(cè)之前還包括獲取指定數(shù)據(jù)幀的亮度分量圖像。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于 小波的字幕檢測(cè)包括對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換,獲取水平高頻子帶紋理圖、垂直高頻子帶紋 理圖以及對(duì)角線高頻子帶紋理圖;根據(jù)所述水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖,獲 取數(shù)據(jù)幀的字幕點(diǎn)圖像;由所述數(shù)據(jù)幀的字幕點(diǎn)圖像生成字幕區(qū)域圖像;確定所述字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波 變換,獲得水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖包括對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換,生成水平子帶、垂直子帶以及對(duì)角線子帶; 將所述水平子帶、垂直子帶以及對(duì)角線子帶的系數(shù)分別求絕對(duì)值,獲得水平高頻子帶 紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述水平高頻子帶紋理圖、垂直 高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖,獲取數(shù)據(jù)幀的字幕點(diǎn)圖像包括對(duì)所述水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖分別進(jìn) 行字幕點(diǎn)檢測(cè),生成水平、垂直以及對(duì)角線三個(gè)方向的初始字幕點(diǎn)圖像;對(duì)所述三個(gè)方向的初始字幕點(diǎn)圖像分別進(jìn)行除噪聲處理,得到三個(gè)方向的最終字幕點(diǎn) 圖像;將所述三個(gè)方向的最終字幕點(diǎn)圖像求交集,得到所述數(shù)據(jù)幀的字幕點(diǎn)圖像。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述由所述數(shù)據(jù)幀的字幕點(diǎn)圖像生成字 幕區(qū)域圖像包括對(duì)所述字幕點(diǎn)圖像分別進(jìn)行水平方向的閉運(yùn)算和開運(yùn)算得到水平圖像,以及對(duì)所述字 幕點(diǎn)圖像分別進(jìn)行垂直方向的閉運(yùn)算和開運(yùn)算得到垂直圖像;將獲取的水平圖像和垂直圖像進(jìn)行求并集操作,得到包含所有字幕區(qū)域的最大點(diǎn)集圖像;對(duì)所述最大點(diǎn)集圖像進(jìn)行閉運(yùn)算,得到字幕區(qū)域圖像。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述確定所述字幕區(qū)域圖像中字幕的條 數(shù)以及字幕區(qū)域位置信息包括區(qū)分所述字幕區(qū)域圖像中水平字幕區(qū)域和垂直字幕區(qū)域;通過水平字幕區(qū)域在所述水平圖像中的最上、下、左、右像素點(diǎn)的坐標(biāo)位置,確定所述 水平字幕區(qū)域在水平圖像中定位框的上邊框、下邊框、左邊框、右邊框的位置;通過垂直字 幕區(qū)域在所述垂直圖像中的最上、下、左、右像素點(diǎn)的坐標(biāo)位置,確定所述垂直字幕區(qū)域在垂直圖像中定位框的上邊框、下邊框、左邊框、右邊框的位置;在所述水平字幕區(qū)域定位框內(nèi)相應(yīng)的綜合高頻子帶紋理圖所對(duì)應(yīng)的區(qū)域和所述垂直 字幕區(qū)域定位框內(nèi)相應(yīng)的綜合高頻子帶紋理圖所對(duì)應(yīng)的區(qū)域分別進(jìn)行水平投影和垂直投 影,確定投影曲線的峰谷信息,并根據(jù)所述峰谷信息,確定所述字幕區(qū)域中字幕條數(shù)以及字 幕的上邊框和下邊框位置。
8.根據(jù)權(quán)利要求1至7任一項(xiàng)所述的方法,其特征在于,所述字幕的屬性信息包括所述 字幕的起始幀和終止幀,以及出現(xiàn)位置信息。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述獲取檢測(cè)出的字幕的起始幀和終止 幀包括判斷檢測(cè)出的字幕所在的當(dāng)前I幀,與所述當(dāng)前I幀的上一 I幀是否匹配; 若匹配,則根據(jù)字幕匹配的相對(duì)位置差異所計(jì)算出的匹配速度,確定所述字幕為動(dòng)態(tài) 字幕或靜態(tài)字幕;若所述字幕為動(dòng)態(tài)字幕,則根據(jù)所述動(dòng)態(tài)字幕的匹配速度,以及當(dāng)前幀在動(dòng)態(tài)字幕中 的位置,確定所述動(dòng)態(tài)字幕的起始幀和終止幀;若所述字幕為靜態(tài)字幕,則抽取所述靜態(tài)字幕中的直流線條,并對(duì)所述直流線條進(jìn)行 匹配操作,確定所述靜態(tài)字幕的起始幀和終止幀。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述屬性信息,提取檢測(cè)出的 字幕包括根據(jù)所述字幕的起始幀、終止幀以及出現(xiàn)位置信息,抽取所述字幕中用于分割的字幕幀;確定所述抽取的字幕幀對(duì)應(yīng)的字幕區(qū)域,對(duì)所述字幕區(qū)域進(jìn)行二值化分割,得到二值 圖像;識(shí)別所述二值圖像,得到所述字幕。
11.一種視頻字幕信息獲取裝置,其特征在于,包括檢測(cè)模塊,用于對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè); 第一獲取模塊,用于獲取所述檢測(cè)模塊檢測(cè)出的字幕的屬性信息; 提取模塊,用于根據(jù)所述第一獲取模塊獲取的字幕屬信息,提取所述檢測(cè)模塊檢測(cè)出的字幕。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括 第二獲取模塊,用于獲取指定數(shù)據(jù)幀的亮度分量圖像。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述檢測(cè)模塊包括第一獲取單元,對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換,獲取水平高頻子帶紋理圖、垂 直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖;第二獲取單元,用于根據(jù)所述第一獲取單元獲取的所述水平、垂直以及對(duì)角線高頻子 帶紋理圖,獲取數(shù)據(jù)幀的字幕點(diǎn)圖像;生成單元,用于根據(jù)所述第二獲取單元獲取的所述數(shù)據(jù)幀的字幕點(diǎn)圖像,生成字幕區(qū) 域圖像;確定單元,用于確定所述生成單元生成的字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述檢測(cè)模塊還包括檢測(cè)單元,用于對(duì)所述確定單元確定的字幕區(qū)域進(jìn)行是否為真實(shí)字幕區(qū)域的檢測(cè)。
15.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一獲取模塊包括判斷單元,用于判斷所述檢測(cè)模塊檢測(cè)出的字幕所在的當(dāng)前I幀,與所述當(dāng)前I幀的上 一I幀是否匹配;第一確定單元,用于在所述判斷單元的判斷結(jié)果為匹配時(shí),根據(jù)字幕匹配的相對(duì)位置 差異所計(jì)算出的匹配速度,確定所述字幕為動(dòng)態(tài)字幕或靜態(tài)字幕;第二確定單元,用于當(dāng)所述字幕為動(dòng)態(tài)字幕時(shí),根據(jù)所述動(dòng)態(tài)字幕的匹配速度,以及當(dāng) 前幀在動(dòng)態(tài)字幕中的位置,確定所述動(dòng)態(tài)字幕的起始幀和終止幀;當(dāng)所述字幕為靜態(tài)字幕 時(shí),抽取所述靜態(tài)字幕中的直流線條,并對(duì)所述直流線條進(jìn)行匹配操作,確定所述靜態(tài)字幕 的起始幀和終止幀。
16.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述提取模塊包括抽取單元,用于根據(jù)所述字幕的起始幀、終止幀以及出現(xiàn)位置信息,抽取所述字幕中用 于分割的字幕幀;分割單元,用于確定所述抽取單元抽取的字幕幀對(duì)應(yīng)的字幕區(qū)域,對(duì)所述字幕區(qū)域進(jìn) 行二值化分割,得到二值圖像;識(shí)別單元,用于識(shí)別所述分割單元得到的二值圖像,提取所述字幕。
全文摘要
本發(fā)明涉及一種字幕信息獲取方法及裝置,通過對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè),并獲取檢測(cè)出的字幕的屬性信息,根據(jù)所述屬性信息,提取檢測(cè)出的字幕。從而準(zhǔn)確獲取數(shù)據(jù)幀中的字幕信息。由于基于小波的字幕檢測(cè),無需對(duì)字幕所在的區(qū)域進(jìn)行限制,因此,本發(fā)明實(shí)施例可以在不限制字幕位置區(qū)域的情況下,準(zhǔn)確獲取視頻數(shù)據(jù)中的字幕信息。
文檔編號(hào)G06K9/32GK101853381SQ20091008105
公開日2010年10月6日 申請(qǐng)日期2009年3月31日 優(yōu)先權(quán)日2009年3月31日
發(fā)明者劉貴忠, 南楠, 姜海俠, 孫力, 李智, 楊錦春, 王琛, 郭旦萍, 錢學(xué)明 申請(qǐng)人:華為技術(shù)有限公司;西安交通大學(xué)