視頻字幕信息獲取方法及裝置的制作方法

文檔序號(hào)：6484191閱讀：197來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：視頻字幕信息獲取方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及應(yīng)用電子技術(shù)領(lǐng)域，尤其涉及一種視頻字幕信息獲取方法及裝置。
背景技術(shù)：
視頻字幕給人以直觀的形式展現(xiàn)視頻節(jié)目內(nèi)容，能夠有效地輔助人們?cè)谝曨l欣賞中很好地把握節(jié)目的主題思想，進(jìn)而理解視頻的內(nèi)容。另外視頻字幕信息的檢測(cè)和識(shí)別可以豐富基于文本的視頻內(nèi)容查詢。因此對(duì)視頻字幕信息進(jìn)行有效的獲取是一個(gè)必要的環(huán) 節(jié)。發(fā)明人在實(shí)現(xiàn)本發(fā)明過程中發(fā)現(xiàn)，現(xiàn)有獲取字幕信息的技術(shù)中，對(duì)字幕信息出現(xiàn) 在視頻畫面中的位置信息比較敏感，且通常情況下，假設(shè)字幕區(qū)域是靜止的，而且字幕位置也是固定在圖像的中下部分，如果字幕信息不在所指定的檢測(cè)范圍內(nèi)，那么字幕信息不能被很好地獲取以及應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種視頻字幕信息獲取方法及裝置，從而在不限制字幕位置區(qū) 域的情況下，準(zhǔn)確獲取視頻數(shù)據(jù)中的字幕信息。本發(fā)明實(shí)施例提供了一種視頻字幕信息獲取方法，包括對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)；獲取檢測(cè)出的字幕的屬性信息；根據(jù)所述屬性信息，提取檢測(cè)出的字幕。本發(fā)明實(shí)施例還提供了一種視頻字幕信息獲取裝置，包括檢測(cè)模塊，用于對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)；第一獲取模塊，用于獲取所述檢測(cè)模塊檢測(cè)出的字幕的屬性信息；提取模塊，用于根據(jù)所述第一獲取模塊獲取的字幕屬信息，提取所述檢測(cè)模塊檢測(cè)出的字幕。由上述本發(fā)明實(shí)施例提供的技術(shù)方案可以看出，本發(fā)明實(shí)施例中，通過對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)，并獲取檢測(cè)出的字幕的屬性信息，根據(jù)所述屬性信息，提取檢測(cè)出的字幕。從而準(zhǔn)確獲取數(shù)據(jù)幀中的字幕信息。由于基于小波的字幕檢測(cè)，無需對(duì)字幕所在的區(qū)域進(jìn)行限制，因此，本發(fā)明實(shí)施例可以在不限制字幕位置區(qū)域的情況下，準(zhǔn)確獲取視頻數(shù)據(jù)中的字幕信息。

圖1為本發(fā)明實(shí)施例提供的所述方法流程示意圖一；圖2為本發(fā)明實(shí)施例提供的所述方法流程示意圖二；圖3為本發(fā)明實(shí)施例提供的所述方法流程示意圖三；圖4為本發(fā)明實(shí)施例提供的所述裝置結(jié)構(gòu)示意圖一；
圖5為本發(fā)明實(shí)施例提供的所述裝置結(jié)構(gòu)示意圖二；圖6為本發(fā)明實(shí)施例提供的所述檢測(cè)模塊結(jié)構(gòu)示意圖一；圖7為本發(fā)明實(shí)施例提供的所述檢測(cè)模塊結(jié)構(gòu)示意圖二；圖8為本發(fā)明實(shí)施例提供的所述第一獲取模塊結(jié)構(gòu)示意圖；圖9為本發(fā)明實(shí)施例提供的所述提取模塊結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明實(shí)施例提供了一種視頻字幕信息獲取方法，如附圖1所示，該方法通過對(duì) 數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)，并獲取檢測(cè)出的字幕的屬性信息，根據(jù) 所述屬性信息，提取檢測(cè)出的字幕。從而準(zhǔn)確獲取數(shù)據(jù)幀中的字幕信息。由于基于小波的字幕檢測(cè)，無需對(duì)字幕所在的區(qū)域進(jìn)行限制，因此，本發(fā)明實(shí)施例可以在不限制字幕位置區(qū) 域的情況下，準(zhǔn)確獲取視頻數(shù)據(jù)中的字幕信息。本發(fā)明實(shí)施例提供了的視頻字幕信息獲取方法的一個(gè)具體實(shí)施例，可以如附圖2 所示，該實(shí)施例具體可以包括步驟21，從視頻數(shù)據(jù)流中獲取指定數(shù)據(jù)幀的亮度分量圖像。為了加快獲取字幕信息的速度，本發(fā)明實(shí)施例具體可以從視頻數(shù)據(jù)流中解碼指定的數(shù)據(jù)幀，并獲取指定數(shù)據(jù)幀的亮度分量圖像。比如，僅解碼幀號(hào)為奇數(shù)(或偶數(shù))的幀內(nèi)編碼，即I幀(也可以是其他形式的視頻幀，如預(yù)測(cè)編碼幀，即P幀)的碼流，獲取I幀的亮度分量圖像，而對(duì)I幀的色度分量，以及其它幀則快速跳過，從而加快了獲取字幕信息的速度。需要說明的是，本發(fā)明實(shí)施例并不限制視頻數(shù)據(jù)流的壓縮格式。步驟22，對(duì)選取的數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)。具體的，該步驟中對(duì)于已經(jīng)選取的數(shù)據(jù)幀的亮度分量圖像，采用基于小波的字幕檢測(cè)。在一個(gè)具體的實(shí)施例中，該步驟的具體執(zhí)行過程可如附圖3中所示，包括步驟221，對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換，獲得水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖。本發(fā)明實(shí)施例中所涉及的小波變換，具體可以為HAAR(哈爾)小波變換，墨西哥草帽小波變換，9-7小波變換，5-3小波變換，等等。此步驟中，對(duì)已經(jīng)選取的數(shù)據(jù)幀的亮度分量圖像，進(jìn)行小波變換，以獲取一個(gè)低頻子帶，和水平、垂直、對(duì)角線三個(gè)方向的高頻子帶，其中，水平子高頻帶可以記為H、垂直高頻子帶可以記為V、對(duì)角線高頻子帶可以記為D。將小波變換后生成的H、V、D三個(gè)高頻子帶的系數(shù)分別求絕對(duì)值，獲取水平高頻子帶紋理圖(CH)、垂直高頻子帶紋理圖(CV)和對(duì)角線高頻子帶紋理圖(⑶)。此步驟中還可以結(jié)合三個(gè)高頻子帶紋理圖(CH、CV、⑶)，獲取綜合高頻子帶紋理圖 (CS)。綜合高頻子帶紋理圖像中每個(gè)點(diǎn)的值可以通過如下公式獲得CS (i，j) = CH (i，j) +CV (i，j) +CD (i，j)步驟222，根據(jù)水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖，獲取數(shù)據(jù)幀的字幕點(diǎn)圖像(TextPnt)。在一個(gè)具體的實(shí)施例中，此步驟中，具體可以包括以下環(huán)節(jié)首先，根據(jù)高頻子帶紋理圖，生成初始字幕點(diǎn)圖像。以水平高頻子帶紋理圖為例，對(duì)水平高頻子帶紋理圖進(jìn)行字幕點(diǎn)檢測(cè)，以得到該水平高頻子帶初始字幕點(diǎn)圖像(MAPH_0RG)。其中，該水平高頻子帶初始字幕點(diǎn)圖像在坐標(biāo)(i，j)處的取值是按照如下公式進(jìn) 行計(jì)算得到需要說明的是，取值為“0”表示背景，取值為“1”表示初始的字幕點(diǎn)，式中閾值 (TH)的計(jì)算方法可如下公式中的MH是水平高頻子帶紋理圖像中紋理強(qiáng)度均值。然后，對(duì)水平高頻子帶初始字幕點(diǎn)圖像進(jìn)行除噪聲處理，以得到的水平方向最終字幕點(diǎn)圖像(MAPH)。本發(fā)明實(shí)施例中所涉及的除噪聲處理，具體可以采用如交疊滑動(dòng)的方塊濾波等成熟的技術(shù)處理方案，本發(fā)明實(shí)施例對(duì)此并不限制。接著，對(duì)垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖進(jìn)行類似的處理步驟以得到垂直子帶初始字幕點(diǎn)圖像(MAPV_0RG)和對(duì)角線子帶初始字幕點(diǎn)圖像(MAPD_0RG)，并對(duì)垂直子帶初始字幕點(diǎn)圖像和對(duì)角線子帶初始字幕點(diǎn)圖像分別進(jìn)行除噪聲處理，以得到垂直方向最終字幕點(diǎn)圖像(MAPV)和對(duì)角線方向最終字幕點(diǎn)圖像(MAPD)。最后，將三個(gè)方向的最終字幕點(diǎn)圖像(MAPH、MAPV、MAPD)求交集得到數(shù)據(jù)幀的字幕點(diǎn)圖像(TextPnt)。需要說明的是，本發(fā)明實(shí)施例中，對(duì)初始的字幕點(diǎn)圖像(MAP_0RG)進(jìn)行去除字幕噪聲點(diǎn)，得到字幕區(qū)域的具體實(shí)現(xiàn)方法流程可采用以下程序?qū)崿F(xiàn)//h, w分別表示子帶圖像的高度和寬度block = 4 ；// 方塊的大小dis = 3 ；//每一次方塊偏移的距離h_num = (h/dis) ；//方塊在垂直方向偏移的次數(shù)w_num = (w/dis) ；//方塊在水平方向偏移的次數(shù)MAP = MAPH_0RG ；for (k = 1: h_num)for (I = 1: w_num)if(((k-1) * dis+l+block > h)||((1-1) * dis+l+block > w))continue ；//如果子塊移出了圖像了邊界，跳出循環(huán)elsenum = TextPntNumO ；//統(tǒng)計(jì)方塊內(nèi)部含有字幕點(diǎn)
1, CH(i,j) > TH 0, CH{i,j)<TH
50，MH*5>50 TH = \MH*5, 50>搬*5>18 18,MH*5<\S
的個(gè)數(shù)if (num < (block * block/2))StartH = (k_l) * dis ；EndH = StartH+block ；Startff = (1-1) * dis ；Endff = Startff+block ；MAP(StartH:End H, Startff:Endff) = 0 ；II如果個(gè)數(shù)小于(block block/2)，此方塊區(qū)域所有像素點(diǎn)為內(nèi)設(shè)為 0，II即此方塊中的字幕點(diǎn)為噪聲點(diǎn)else//如果個(gè)數(shù)大于(block block/2)，此方塊區(qū)域?yàn)檎鎸?shí)的字幕點(diǎn)MAP (StartH EndH, Startff Endff) = MAP_0RG (StartH: EndH,Startff: Endff)endend可以理解的是，以上實(shí)例僅為舉例說明，對(duì)本發(fā)明實(shí)施例的保護(hù)范圍不起到任何
限制的作用。步驟223，由數(shù)據(jù)幀的字幕點(diǎn)圖像生成字幕區(qū)域圖像(TextArea)。在一個(gè)具體的實(shí)施例中，該步驟中具體可以包括以下環(huán)節(jié)首先，對(duì)已經(jīng)獲取的字幕點(diǎn)圖像分別進(jìn)行水平方向的閉運(yùn)算和開運(yùn)算得到水平圖像(Verlmg)。其中，閉運(yùn)算的結(jié)構(gòu)元素可以為20女1的全“1”矩陣，開運(yùn)算的結(jié)構(gòu)元素可以為 1女2的全“1”矩陣，當(dāng)然，閉運(yùn)算和開運(yùn)算所采用的結(jié)構(gòu)元素可以根據(jù)實(shí)際需要進(jìn)行靈活安排。接著，對(duì)字幕點(diǎn)圖像進(jìn)行垂直方向的閉運(yùn)算和開運(yùn)算得到垂直圖像(Horlmg)。同樣，閉運(yùn)算的結(jié)構(gòu)元素可以為1女20的全“1”矩陣，開運(yùn)算的結(jié)構(gòu)元素可以為 2 * 1的全“1”矩陣；然后，對(duì)獲取的水平圖像和垂直圖像進(jìn)行求并集操作，以得到包含所有字幕區(qū)域的最大點(diǎn)集圖像(Img)，其具體的獲得方法如下
其他接下來，對(duì)最大點(diǎn)集圖像進(jìn)行閉運(yùn)算以得到字幕區(qū)域圖像。閉運(yùn)算的結(jié)構(gòu)元素可以采用6女6的全“1”矩陣，或者其它矩陣。步驟224，確定字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息。在一個(gè)具體的實(shí)施例中，該步驟中具體可以包括以下環(huán)節(jié)首先，對(duì)字幕區(qū)域圖像中每一個(gè)字幕區(qū)域進(jìn)行字幕為水平排列或垂直排列的區(qū) 分。區(qū)分的方法是根據(jù)字幕區(qū)域高與寬的相對(duì)大小。具體的，如果字幕區(qū)域的寬大于
8高，則此字幕區(qū)域內(nèi)的字幕為水平排列，如果字幕區(qū)域的寬小于高，則該字幕區(qū)域內(nèi)的字幕為垂直排列。需要說明的是，字幕區(qū)域圖像中的字幕區(qū)域的確認(rèn)方法可以采用形態(tài)學(xué)中的貼標(biāo) 簽方法，或者其它成熟的方法進(jìn)行確認(rèn)，本發(fā)明實(shí)施例對(duì)此并不限制。對(duì)于字幕為水平排列的字幕區(qū)域，確定此字幕區(qū)域在水平圖像中相對(duì)應(yīng)的區(qū)域，并且，通過此字幕區(qū)域在水平圖像中的最上、下、左、右像素點(diǎn)的坐標(biāo)位置，確定此字幕區(qū)域在水平圖像中上邊框、下邊框、左邊框、右邊框的位置。對(duì)于字幕為垂直排列的字幕區(qū)域，確定此字幕區(qū)域在垂直圖像中相對(duì)應(yīng)的區(qū)域，并采用與上述字幕為水平排列的字幕區(qū)域同樣的方法，得到此字幕區(qū)域在垂直圖像中上邊框、下邊框、左邊框、右邊框的位置。然后，在字幕區(qū)域定位框內(nèi)相應(yīng)的綜合子帶紋理圖(CS)所對(duì)應(yīng)的區(qū)域進(jìn)行水平投影，并從綜合子帶紋理圖投影曲線的峰谷信息，確定綜合子帶紋理圖中字幕條數(shù)以及每條水平字幕的上邊框和下邊框位置。具體的，可以通過投影曲線中波谷的數(shù)量確定字幕區(qū)域內(nèi)字幕的條數(shù)，該過程具體可以包括將綜合子帶紋理圖中的紋理均值除以一個(gè)參數(shù)(alfa)得到閾值。如果投影曲線的值小于此閾值即為波谷。由于波谷的位置就是兩條字幕之間的中間位置，從而通過確定波谷的數(shù)量，確定此字幕區(qū)域中字幕的條數(shù)，即波谷數(shù)加1。需要說明的是，在本發(fā)明實(shí)施例中，參數(shù)(alfa)的取值范圍可以為[2，3]，經(jīng)過實(shí)際操作檢驗(yàn)后，推薦參數(shù)alfa = 2. 6。另外，由于波谷所分離開的字幕的上、下邊框位置分別對(duì)應(yīng)波谷的頂端和末端的坐標(biāo)位置，因此，通過確定波谷所在的位置，可以確定此字幕區(qū)域中，每條水平字幕的上邊框和下邊框的位置。對(duì)于垂直排列的字幕，在字幕區(qū)域定位框內(nèi)相應(yīng)的綜合子帶紋理圖區(qū)域進(jìn)行垂直投影，并從投影曲線的峰谷關(guān)系確定其中字幕條數(shù)以及每條垂直字幕的左邊框和右邊框位置，其具體的實(shí)現(xiàn)方法與水平排列的字幕相同。通過上述操作，即可確定字幕在視頻流中出現(xiàn)的位置等信息?？蛇x的，在一個(gè)實(shí)施例中，為了提高檢測(cè)的準(zhǔn)確度，還可以進(jìn)一步包括步驟225，對(duì)字幕區(qū)域進(jìn)行是否為真實(shí)的字幕區(qū)域的檢測(cè)。由于在字幕檢測(cè)中，可能存在錯(cuò)誤檢測(cè)，將不是字幕的區(qū)域檢測(cè)為字幕區(qū)域，因此，需要對(duì)確認(rèn)的字幕區(qū)域進(jìn)行真實(shí)性驗(yàn)證，這樣能夠有效提升字幕檢測(cè)的性能。具體的，可以根據(jù)字幕紋理分布、灰度分布以及邊緣點(diǎn)數(shù)目的分布情況確定檢測(cè) 區(qū)域是否為真實(shí)的字幕區(qū)域。當(dāng)一個(gè)字幕區(qū)域?yàn)檎鎸?shí)字幕區(qū)域時(shí)，相應(yīng)綜合子帶紋理圖上的投影中波谷，以及小波變換后的低頻分量圖像投影的波谷的分布均勻。其中波谷的檢測(cè)方法同步驟224中所記載的，均勻的度量方法是波谷的長度大小不超過波峰，并且波谷的方差較小。步驟23，獲取檢測(cè)出的字幕的屬性信息具體的，該步驟中，可以對(duì)檢測(cè)出的字幕進(jìn)行匹配及跟蹤操作，確定字幕屬性信肩、O字幕匹配操作是根據(jù)前一 I幀和當(dāng)前I幀的字幕檢測(cè)情況來判斷檢測(cè)出的字幕是否匹配，如果匹配則表明相匹配的字幕屬于同一字幕，否則屬于不同字幕。相鄰兩個(gè)需要執(zhí)行字幕檢測(cè)的I幀是否需要進(jìn)行字幕匹配跟蹤，是按照這兩幀中所檢測(cè)出的字幕條數(shù)目并按如下可能出現(xiàn)的情況進(jìn)行判斷1)如果前一 I幀和當(dāng)前I幀的字幕條數(shù)均為0，則無需進(jìn)行匹配和跟蹤操作；2)如果前一 I幀的字幕條數(shù)量為0，而當(dāng)前I幀的字幕條數(shù)量不為0，則可以確定當(dāng)前I幀的字幕條數(shù)全部為新出現(xiàn)的字幕，那么需要進(jìn)行匹配和跟蹤操作，以確定當(dāng)前I幀中字幕的起始幀。作起始幀判斷時(shí)，首先需要根據(jù)當(dāng)前I幀和下一 I幀中的字幕匹配情況以及所確定的字幕屬性來進(jìn)行處理。如果下一 I幀中沒有字幕、或者有字幕但是和當(dāng)前I幀中檢測(cè) 的字幕不匹配，則將當(dāng)前I幀中檢測(cè)的字幕當(dāng)成錯(cuò)檢并予以剔除，否則對(duì)當(dāng)前I幀中所檢測(cè) 的新出現(xiàn)字幕條進(jìn)行字幕跟蹤。3)如果前一 I幀的字幕條數(shù)量不為0，而當(dāng)前I幀的字幕條數(shù)量為0，則當(dāng)前I幀的字幕條為消失字幕條，那么需要進(jìn)行匹配和跟蹤操作，以確定當(dāng)前I幀中字幕的終止幀。4)如果前一 I幀和當(dāng)前I幀的字幕條數(shù)均不為0，則需要對(duì)前一 I幀和當(dāng)前幀I中的字幕進(jìn)行匹配和跟蹤操作，以確定前一 I幀中哪些字幕是匹配的，哪些是消失的，以及當(dāng) 前I幀中哪些字幕是匹配，哪些是新出現(xiàn)的。對(duì)于在前一 I幀中，哪些在前一 I幀到當(dāng)前I 幀之間消失的I幀需要確定該字幕的終止幀，對(duì)于當(dāng)前I幀中新出現(xiàn)的字幕條需要從前一 I幀到當(dāng)前I幀之間確定該字幕的出現(xiàn)幀。那么可以看出，只要前一 I幀或當(dāng)前I幀中有一個(gè)幀的字幕條數(shù)不為零，即需要進(jìn) 行匹配和跟蹤操作。本發(fā)明實(shí)施例中，可以通過抽樣匹配的方式，來實(shí)現(xiàn)字幕的匹配操作，即計(jì)算當(dāng)前 I幀中待匹配字幕P與下一 I幀中任意一條未匹配過的字幕q(l ^q^n)在滑動(dòng)匹配中的最小平均絕對(duì)誤差(MAD :Mean AbsoluteDifference)，然后從n條字幕匹配中選取MAD值最小的，作為最佳匹配字幕，并進(jìn)一步判斷此最小MAD是否滿足最小約束閾值。具體的，對(duì)于當(dāng)前I幀的字幕q以及下一 I幀字幕P，字幕所在的上下左右邊框的位置分別為C4,砹，迄，砹以及恥戽，恥。若兩個(gè)I幀都為水平排列，則抽取當(dāng)前I幀的字幕q以及下一 I幀字幕P，在水平方向上的公共區(qū)域中，左邊邊框的最大值^^ = 111雙{&，4}，以及右邊邊框的最小值_ = min{^，砹},如果Rpq-Lpq小于等于閾值，則認(rèn)為不匹配(此處的閾值具體可為10)；如果大于閾值，則抽取水平方向上的公共區(qū)域中，下一 I幀字幕p的中心 Cy ( qy = roUnd[({^p + ZYP)/2],其中 round[ ]表示取整)處的像素 IP(cy，Lpq:Rpq)，通過
滑動(dòng)匹配等方法確定其和當(dāng)前I幀的字幕q，在高度為y處IC(y，Lpq:Rpq)的像素條的匹
配誤差MAD(y，q)，以及最佳匹配位置4。具體可通過如下公式計(jì)算獲取

如果在最佳匹配位置圪下的MAD (qtl)≤MADth，則認(rèn)為是匹配字幕。本發(fā)明實(shí)施例中，閾值
的較佳取值可以為若為都為垂直排列，則抽取當(dāng)前I幀的字幕q以及下一 I幀的字幕P，在垂直方向上的公共區(qū)域中，上邊邊框的最大值吵《zmax^^^Mt},以下邊邊框的最小值咖=min{A^Ac),如果
則認(rèn)為不匹配；如果大于閾值，則抽取在垂直方向上公共區(qū)域中，下一 I幀字幕P的中心CX(ex = round[(^p+^p)/2])處的中心像素IP (Upq:Dpq,
cx)，通過滑動(dòng)匹配等方法確定其和當(dāng)I前幀字幕q，在寬度為x處IC(Upq:Dpq，x)的像素條的匹配誤差為MAD (x，q)，以及最佳匹配位置xO，具體的方法和上述水平字幕類似，然后從中選擇最小MAD值所對(duì)應(yīng)的字幕作為最佳匹配，如果最佳匹配位置\。的MAD (q0) ( MADth 則認(rèn)為是匹配字幕。對(duì)于匹配上的字幕，可以對(duì)其進(jìn)行跟蹤操作，從而確定字幕中起始幀和終止幀的位置。具體的，可以根據(jù)從字幕匹配的相對(duì)位置差異所計(jì)算出的匹配速度，將其分成靜態(tài)字幕和滾動(dòng)字幕兩種類型。如果匹配的字幕在兩個(gè)執(zhí)行字幕檢測(cè)的幀中的位置不變則判斷為靜態(tài)字幕，否則判斷為滾動(dòng)字幕。若為滾動(dòng)字幕，則根據(jù)匹配速度以及當(dāng)前幀中滾動(dòng)字幕所在的位置，來確定該字幕邊框在當(dāng)前幀之前的某一幀恰好進(jìn)入圖像畫面，以及在當(dāng)前幀之后的某一幀剛好超出圖像畫面范圍所對(duì)應(yīng)的幀號(hào)的數(shù)據(jù)幀，作為出現(xiàn)幀及終止幀。若為靜態(tài)字幕，則訪問前一幀所在的圖像組(GOP :group of pictures 圖像組) 的視頻流，并對(duì)其中每幀的亮度分量圖像進(jìn)行解碼操作，同時(shí)獲取其字幕區(qū)域直流(DC)圖像，計(jì)算在此G0P內(nèi)，字幕區(qū)域DC圖像的平均絕對(duì)誤差MAD值，根據(jù)MAD值來確定靜態(tài)字幕的出現(xiàn)幀和終止幀。在上述步驟中的靜態(tài)字幕條跟蹤中一個(gè)G0P內(nèi)字幕區(qū)域DC圖像的平均絕對(duì)誤差是通過抽取該區(qū)域中的DC線條進(jìn)行匹配予以實(shí)現(xiàn)的。具體如下首先，實(shí)現(xiàn)對(duì)前一幀和當(dāng)前幀之間的幀進(jìn)行部分解碼并獲取DC圖像。然后，根據(jù)當(dāng)前幀中的所得出的字幕邊框位置得出其在DC圖像中的相對(duì)應(yīng)的坐標(biāo)位置，并抽取其間DC圖像中字幕所在區(qū)域的中心塊處DC線條。接下來，計(jì)算給定的幀i和當(dāng)前幀的DC線條差異值。在抽取DC線條時(shí)要考慮字幕的排列方向。對(duì)于水平排列的字幕，其中的第i幀和當(dāng)前幀的DC線條差異值MADDC (i)，具體可按如下公式獲取其中DC(y，x, i)表示第i幀所對(duì)應(yīng)的DC圖像，dcy表示DC圖像中字幕區(qū)域在垂直方向上的中心位置。對(duì)于垂直排列字幕的計(jì)算方法與上面方法類似。對(duì)于出現(xiàn)幀或者終止幀的判斷方法，可以通過在MADDC曲線上尋找突變點(diǎn)來確
定。具體方法如下公式所示其中thl和th2是判斷突變點(diǎn)的約束閾值，本發(fā)明實(shí)施例中選用的較佳約束閾值是 thl = 3. 5，th2 = 9。如果在以當(dāng)前幀為中心，搜索半徑為2個(gè)GOP長度范圍內(nèi)沒有找到突變點(diǎn)，則將該字幕條作為錯(cuò)檢測(cè)的字幕予以剔除；否則找出離當(dāng)前幀前或后距離最近的數(shù)據(jù)幀，作為出現(xiàn)幀或者終止幀。上式是對(duì)水平排列字幕計(jì)算差異值，對(duì)于垂直排列字幕的計(jì)算方法與上面類似的方法得到。步驟24，根據(jù)字幕的屬性信息，提取檢測(cè)出的字幕。需要說明的是，本發(fā)明實(shí)施例提供的視頻字幕信息獲取方法中，可以實(shí)時(shí)的記錄已經(jīng)獲取的字幕屬性信息。字幕屬性信息具體可以包括字幕的基本信息、場(chǎng)景信息、以及匹配信息等?；拘畔⒕唧w可以包括該字幕的基本屬性信息，以及檢測(cè)信息等；場(chǎng)景信息具體可以包括該字幕的起始幀和終止幀，以及字幕是否跨越鏡頭標(biāo)志等；匹配信息具體可以包括是否匹配的標(biāo)志，以及匹配的位置信息等。其中，本發(fā)明實(shí)施例對(duì)于是否跨越鏡頭的判斷方法，可以采用在所記錄的起始幀之前的數(shù)據(jù)幀和終止幀之后的數(shù)據(jù)幀所在的區(qū)間內(nèi)進(jìn)行場(chǎng)景變化檢測(cè)等成熟方法。本發(fā)明實(shí)施例對(duì)此并不限制。本發(fā)明實(shí)施例所涉及的字幕屬性信息具體可如表1所示表1 另外，本發(fā)明實(shí)施例還可以以文本記錄的形式，對(duì)實(shí)時(shí)獲取的字幕屬性信息進(jìn)行保存。記錄保存的文本具體可如表2所示表2 那么，在此步驟中，具體根據(jù)已經(jīng)記錄的字幕屬性信息，包括字幕的起始幀、終止幀以及出現(xiàn)位置等信息，抽取用于分割的字幕幀，然后執(zhí)行融合多幀的字幕分割，并對(duì)分割的結(jié)果進(jìn)行識(shí)別，具體可以包括從記錄的字幕屬性信息中，判斷字幕屬于靜止還是滾動(dòng)。對(duì)于靜止字幕，直接抽取起始和終止幀之間所有的I幀和P幀，相同位置的字幕區(qū) 域圖像；對(duì)于滾動(dòng)字幕，則根據(jù)滾動(dòng)速度，抽取該字幕所有的I幀和P幀相應(yīng)圖像區(qū)域。在區(qū)域確定的基礎(chǔ)上，將字幕持續(xù)幀中所有的I幀的字幕區(qū)域部分，先進(jìn)行自適應(yīng)閾值二值化分割，得到像素值只有0和255的二值圖像；再將分割的所有I幀字幕區(qū)域圖像，針對(duì)相同位置的像素值進(jìn)行“與操作”，得到“I幀與圖像”；然后將字幕持續(xù)幀中所有的I幀和P幀的字幕區(qū)域圖像，針對(duì)相同位置的像素值求平均像素值，即求這些圖像的一個(gè) 平均圖像，將此平均圖像進(jìn)行二值化分割，得到“I-P幀平均圖像”;最后將得到的“I幀與圖像”和“I-P幀平均圖像”兩幅圖像進(jìn)行“與操作”所得出效果圖作為最終的分割結(jié)果。對(duì)于分割結(jié)果，可以在字幕識(shí)別過程中，采用文字識(shí)別(OCR :OpticalCharacter Recognition)軟件，將分割出來的二值圖像用進(jìn)行識(shí)別。上述描述可以看出，本發(fā)明實(shí)施例提供字幕信息獲取方法，通過對(duì)視頻流中數(shù)據(jù) 幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)，獲取檢測(cè)出的字幕的屬性信息，根據(jù)所述屬性信息，提取檢測(cè)出的字幕提取，從而準(zhǔn)確獲取數(shù)據(jù)幀中字幕信息。由于基于小波的字幕檢測(cè)，無需對(duì)字幕所在的區(qū)域進(jìn)行限制，因此，本發(fā)明實(shí)施例提供的字幕信息獲取方法，可以在不限定字幕位置區(qū)域的情況下，獲取視頻數(shù)據(jù)中的字幕信息。并且，由于只獲取指定數(shù)據(jù) 幀的亮度分量圖像，因此，本發(fā)明實(shí)施例提供的字幕信息獲取方法能夠更快捷的獲取字幕信息。而且，本發(fā)明實(shí)施例提供的字幕信息獲取方法，還可以對(duì)獲取的字幕進(jìn)行字幕區(qū)域真實(shí)性的驗(yàn)證，以及匹配和跟蹤操作，從而使本發(fā)明實(shí)施例提供的字幕信息獲取方法可以更準(zhǔn)確的獲取字幕信息，有效提升字幕檢測(cè)的性能。另外，本發(fā)明實(shí)施例提供的字幕信息獲取方法，還可以對(duì)獲取的字幕進(jìn)行分割操作，從而更加方便了用戶的使用。本發(fā)明實(shí)施例還提供了一種字幕信息獲取裝置，如附圖4所示，該裝置包括檢測(cè) 模塊410，第一獲取模塊420以及提取模塊430。其中
檢測(cè)模塊410，用于對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)。第一獲取模塊420，用于獲取檢測(cè)模塊410檢測(cè)出的字幕的屬性信息。第一獲取模塊420獲取的字幕屬性信息具體可以包括字幕的基本信息、場(chǎng)景信息、以及匹配信息等?；拘畔⒕唧w可以包括該字幕的基本屬性信息，以及檢測(cè)信息等；場(chǎng)景信息具體可以包括該字幕的起始幀和終止幀，以及字幕是否跨越鏡頭標(biāo)志等；匹配信息具體可以包括是否匹配的標(biāo)志，以及匹配的位置信息等。其中，本發(fā)明實(shí)施例對(duì)于是否跨越鏡頭的判斷方法，可以采用在所記錄的起始幀之前的數(shù)據(jù)幀和終止幀之后的數(shù)據(jù)幀所在的區(qū)間內(nèi)進(jìn)行場(chǎng)景變化檢測(cè)等成熟方法。本發(fā)明實(shí)施例對(duì)此并不限制。本發(fā)明實(shí)施例所涉及的字幕屬性信息具體可如表1所示。另外，本發(fā)明實(shí)施例還可以以文本記錄的形式，對(duì)實(shí)時(shí)獲取的字幕屬性信息進(jìn)行保存。記錄保存的文本具體可如表2所示。提取模塊430，用于根據(jù)第一獲取模塊420獲取的字幕屬信息，提取檢測(cè)模塊430 檢測(cè)出的字幕。在本發(fā)明實(shí)施例提供的字幕信息獲取裝置的一個(gè)具體實(shí)施例中，如附圖5所示，該裝置具體還可以包括第二獲取模塊440，用于獲取指定數(shù)據(jù)幀的亮度分量圖像。為了加快獲取字幕信息的速度，本發(fā)明實(shí)施例具體可以從視頻數(shù)據(jù)流中解碼指定的數(shù)據(jù)幀，并獲取指定數(shù)據(jù)幀的亮度分量圖像。比如，僅解碼幀號(hào)為奇數(shù)(或偶數(shù))的幀內(nèi)編碼，即I幀(也可以是其他形式的視頻幀，如預(yù)測(cè)編碼幀，即P幀)的碼流，獲取I幀的亮度分量圖像，而對(duì)I幀的色度分量，以及其它幀則快速跳過，從而加快了獲取字幕信息的速度。需要說明的是，本發(fā)明實(shí)施例并不限制視頻數(shù)據(jù)流的壓縮格式。本發(fā)明實(shí)施例所涉及的檢測(cè)模塊410，具體可如附圖6所示，包括第一獲取單元 411，第二獲取單元412，生成單元413，確定單元414。其中第一獲取單元411，用于對(duì)第二獲取模塊430獲取的亮度分量圖像進(jìn)行小波變換，獲取水平、垂直以及對(duì)角線三個(gè)方向的高頻子帶紋理圖。本發(fā)明實(shí)施例中所涉及的小波變換，具體可以為HAAR(哈爾)小波變換，墨西哥草帽小波變換，9-7小波變換，5-3小波變換，等等。具體的，第一獲取單元411對(duì)已經(jīng)選取的數(shù)據(jù)幀的亮度分量圖像，進(jìn)行小波變換，以獲取一個(gè)低頻子帶，和水平、垂直、對(duì)角線三個(gè)方向的高頻子帶，其中，水平高頻子帶記為 H、垂直高頻子帶記為V、對(duì)角線高頻子帶記為D。然后，將獲取的水平、垂直以及對(duì)角線三個(gè)方向的高頻子帶的系數(shù)分別求絕對(duì)值，以獲取水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖。第一獲取單元411還可以結(jié)合以獲取的三個(gè)高頻子帶紋理圖，獲取綜合高頻子帶紋理圖(CS)。綜合高頻子帶紋理圖像中每個(gè)點(diǎn)的值可以通過如下公式獲得CS (i，j) = CH (i，j) +CV (i，j) +CD (i，j)
第二獲取單元412，用于對(duì)第一獲取單元411獲取的水平、垂直以及對(duì)角線三個(gè)方向的高頻子帶紋理圖，獲取數(shù)據(jù)幀字幕點(diǎn)圖像(TextPnt)。第二獲取單元412具體通過以下操作，獲取數(shù)據(jù)幀的字幕點(diǎn)圖像首先，根據(jù)高頻子帶紋理圖，生成初始字幕點(diǎn)圖像。以水平高頻子帶紋理圖為例，對(duì)水平高頻子帶紋理圖進(jìn)行字幕點(diǎn)檢測(cè)，以得到該水平高頻子帶初始字幕點(diǎn)圖像(MAPH_0RG)。其中，該水平高頻子帶初始字幕點(diǎn)圖像在坐標(biāo)(i，j)處的取值是按照如下公式進(jìn) 行計(jì)算得到需要說明的是，取值為“0”表示背景，取值為“1”表示初始的字幕點(diǎn)，式中閾值 (TH)的計(jì)算方法可如下公式中的MH是水平高頻子帶紋理圖像中紋理強(qiáng)度均值。然后，對(duì)水平高頻子帶初始字幕點(diǎn)圖像進(jìn)行除噪聲處理，以得到的水平方向最終字幕點(diǎn)圖像(MAPH)。本發(fā)明實(shí)施例中所涉及的除噪聲處理，具體可以采用如交疊滑動(dòng)的方塊濾波等成熟的技術(shù)處理方案，本發(fā)明實(shí)施例對(duì)此并不限制。接著，對(duì)垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖進(jìn)行類似的處理步驟以得到垂直子帶初始字幕點(diǎn)圖像(MAPV_0RG)和對(duì)角線子帶初始字幕點(diǎn)圖像(MAPD_0RG)，并對(duì)垂直子帶初始字幕點(diǎn)圖像和對(duì)角線子帶初始字幕點(diǎn)圖像分別進(jìn)行除噪聲處理，以得到垂直方向最終字幕點(diǎn)圖像(MAPV)和對(duì)角線方向最終字幕點(diǎn)圖像(MAPD)。最后，將三個(gè)方向的最終字幕點(diǎn)圖像(MAPH、MAPV、MAPD)求交集得到數(shù)據(jù)幀的字幕點(diǎn)圖像(TextPnt)。生成單元413，用于根據(jù)第二獲取單元412獲取的字幕點(diǎn)圖像，生成字幕區(qū)域圖像。生成單元413具體可以通過以下操作生成字幕區(qū)域圖像首先，對(duì)已經(jīng)生成的字幕點(diǎn)圖像分別進(jìn)行水平方向的閉運(yùn)算和開運(yùn)算得到水平圖像(Verlmg)。其中，閉運(yùn)算的結(jié)構(gòu)元素可以為20女1的全“1”矩陣，開運(yùn)算的結(jié)構(gòu)元素可以為 1女2的全“1”矩陣，當(dāng)然，閉運(yùn)算和開運(yùn)算所采用的結(jié)構(gòu)元素可以根據(jù)實(shí)際需要進(jìn)行靈活安排；接著，對(duì)字幕點(diǎn)圖像進(jìn)行垂直方向的閉運(yùn)算和開運(yùn)算得到垂直圖像(Horlmg)。同樣，閉運(yùn)算的結(jié)構(gòu)元素可以為1女20的全“1”矩陣，開運(yùn)算的結(jié)構(gòu)元素可以為 2 * 1的全“1”矩陣；然后，對(duì)獲取的水平圖像和垂直圖像進(jìn)行求并集操作，以得到包含所有字幕區(qū)域的最大點(diǎn)集圖像(Img)，其具體的獲得方法如下
其他接下來，對(duì)最大點(diǎn)集圖像進(jìn)行閉運(yùn)算以得到字幕區(qū)域圖像。閉運(yùn)算的結(jié)構(gòu)元素可以采用6女6的全“1”矩陣，或者其它矩陣。確定單元414，用于確定生成單元413生成的字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息。確定單元414具體可以通過以下操作確定字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息首先，對(duì)字幕區(qū)域圖像中每一個(gè)字幕區(qū)域進(jìn)行字幕為水平排列或垂直排列的區(qū) 分。區(qū)分的方法是根據(jù)字幕區(qū)域高與寬的相對(duì)大小。具體的，如果字幕區(qū)域的寬大于高，則此字幕區(qū)域內(nèi)的字幕為水平排列，如果字幕區(qū)域的寬小于高，則該字幕區(qū)域內(nèi)的字幕為垂直排列。需要說明的是，字幕區(qū)域圖像中的字幕區(qū)域的確認(rèn)方法可以采用形態(tài)學(xué)中的貼標(biāo) 簽方法，或者其它成熟的方法進(jìn)行確認(rèn)，本發(fā)明實(shí)施例對(duì)此并不限制。對(duì)于字幕為水平排列的字幕區(qū)域，確定此字幕區(qū)域在水平圖像中相對(duì)應(yīng)的區(qū)域，并且，通過此字幕區(qū)域在水平圖像中的最上、下、左、右像素點(diǎn)的坐標(biāo)位置，確定此字幕區(qū)域在水平圖像中上邊框、下邊框、左邊框、右邊框的位置。對(duì)于字幕為垂直排列的字幕區(qū)域，確定此字幕區(qū)域在垂直圖像中相對(duì)應(yīng)的區(qū)域，并采用與上述字幕為水平排列的字幕區(qū)域同樣的方法，得到此字幕區(qū)域在垂直圖像中上邊框、下邊框、左邊框、右邊框的位置。然后，在字幕區(qū)域定位框內(nèi)相應(yīng)的綜合子帶紋理圖(CS)所對(duì)應(yīng)的區(qū)域進(jìn)行水平投影，并從綜合子帶紋理圖投影曲線的峰谷信息，確定綜合子帶紋理圖中字幕條數(shù)以及每條水平字幕的上邊框和下邊框位置。具體的，可以通過投影曲線中波谷的數(shù)量確定字幕區(qū)域內(nèi)字幕的條數(shù)，該過程具體可以包括將綜合子帶紋理圖中的紋理均值除以一個(gè)參數(shù)(alfa)得到閾值。如果投影曲線的值小于此閾值即為波谷。由于波谷的位置就是兩條字幕之間的中間位置，從而通過確定波谷的數(shù)量，確定此字幕區(qū)域中字幕的條數(shù)，即波谷數(shù)加1。需要說明的是，在本發(fā)明實(shí)施例中，參數(shù)(alfa)的取值范圍可以為[2，3]，經(jīng)過實(shí)際操作檢驗(yàn)后，推薦參數(shù)alfa = 2. 6。另外，由于波谷所分離開的字幕的上、下邊框位置分別對(duì)應(yīng)波谷的頂端和末端的坐標(biāo)位置，因此，通過確定波谷所在的位置，可以確定此字幕區(qū)域中，每條水平字幕的上邊框和下邊框的位置。對(duì)于垂直排列的字幕，在字幕區(qū)域定位框內(nèi)相應(yīng)的綜合子帶紋理圖區(qū)域進(jìn)行垂直投影，并從投影曲線的峰谷關(guān)系確定其中字幕條數(shù)以及每條垂直字幕的左邊框和右邊框位置，其具體的實(shí)現(xiàn)方法與水平排列的字幕相同。通過上述操作，即可確定字幕在視頻流中出現(xiàn)的位置等信息。在本發(fā)明實(shí)施例提供的檢測(cè)模塊410的另一個(gè)具體實(shí)施例中，檢測(cè)模塊410進(jìn)一步可如附圖7所示，還可以包括檢測(cè)單元415，用于對(duì)確定單元414確定的字幕區(qū)域進(jìn)行是否屬為真實(shí)的字幕區(qū)域的檢測(cè)。由于在字幕檢測(cè)中，可能存在錯(cuò)誤檢測(cè)，將不是字幕的區(qū)域檢測(cè)為字幕區(qū)域，因此，需要對(duì)確認(rèn)的字幕區(qū)域進(jìn)行真實(shí)性驗(yàn)證，這樣能夠有效提升字幕檢測(cè)的性能。具體的，可以根據(jù)字幕紋理分布、灰度分布以及邊緣點(diǎn)數(shù)目的分布情況確定檢測(cè) 區(qū)域是否為真實(shí)的字幕區(qū)域。當(dāng)一個(gè)字幕區(qū)域?yàn)檎鎸?shí)字幕區(qū)域時(shí)，相應(yīng)綜合子帶紋理圖上的投影中波谷，以及小波變換后的低頻分量圖像投影的波谷的分布均勻。均勻的度量方法是波谷的長度大小不超過波峰，并且波谷的方差較小。本發(fā)明實(shí)施例提供的第一獲取模塊420，具體可如附圖8所示，包括判斷單元421，第一確定單元422以及第二確定單元423。其中判斷單元421，用于判斷檢測(cè)模塊410檢測(cè)出的字幕所在的當(dāng)前I幀，與當(dāng)前I幀的上一 I幀是否匹配。判斷單元421執(zhí)行判斷的條件具體可以包括前一 I幀和當(dāng)前I幀中的字幕條數(shù) 是否均為零。如果前一 I幀和當(dāng)前I幀中，有一個(gè)I幀的字幕條數(shù)不為零，則判斷單元421需要執(zhí)行是否匹配的判斷操作。需要說明的是，判斷單元421的判斷條件并不僅限于上述條件，可根據(jù)實(shí)際應(yīng)用的需要，進(jìn)行補(bǔ)充和調(diào)整。判斷單元421可以通過抽樣匹配方法，判斷檢測(cè)模塊410檢測(cè)出的字幕所在的當(dāng) 前I幀，與當(dāng)前I幀的上一 I幀是否匹配。即計(jì)算當(dāng)前I幀中待匹配字幕p與下一 I幀中任意一條未匹配過的字幕 q(l彡q彡n)在滑動(dòng)匹配中的最小平均絕對(duì)誤差(MAD :Mean AbsoluteDifference)，然后從n條字幕匹配中選取MAD值最小的，作為最佳匹配字幕，并進(jìn)一步判斷此最小MAD是否滿足最小約束閾值。具體的，對(duì)于當(dāng)前I幀的字幕q以及下一 I幀字幕P，字幕所在的上下左右邊框的位置分別為冗,AH砹以及冗，^，巧，私。若兩個(gè)I幀都為水平排列，則抽取當(dāng)前I幀的字幕q以及下一 I幀字幕P，在水平方向上的公共區(qū)域中，左邊邊框的最大值b^-maxa。1^}，以及右邊邊框的最小值= min{i Kc}，如果Rpq-Lpq小于等于閾值，則認(rèn)為不匹配(此處的閾值具體可為10)；如果大于閾值，則抽取水平方向上的公共區(qū)域中，下一 I幀字幕p的中心
其中 round[ ]表示取整)處的像素 IP(cy，Lpq:Rpq)，通過
滑動(dòng)匹配等方法確定其和當(dāng)前I幀的字幕q，在高度為y處IC(y，Lpq:Rpq)的像素條的匹配誤差MAD(y，q)，以及最佳匹配位置4。具體可通過如下公式計(jì)算獲取如果在最佳匹配位置&。下的MAD (qtl)彡MADth，則認(rèn)為是匹配字幕。本發(fā)明實(shí)施例中，閾值MADth的較佳取值可以為MADth = 20。若為都為垂直排列，則抽取當(dāng)前I幀的字幕q以及下一 I幀的字幕P，在垂直方向上的公共區(qū)域中，上邊邊框的最大值
,以下邊邊框的最小值
如果Dpq-Upq彡10則認(rèn)為不匹配；如果大于閾值，則抽取在垂直方向上公共區(qū)域中，下一 I幀字幕P的中心
處的中心像素IP(Upq:Dpq，
cx)，通過滑動(dòng)匹配等方法確定其和當(dāng)I前幀字幕q，在寬度為x處IC(Upq:Dpq，x)的像素條的匹配誤差為MAD (x，q)，以及最佳匹配位置xO，具體的方法和上述水平字幕類似，然后從中選擇最小MAD值所對(duì)應(yīng)的字幕作為最佳匹配，如果最佳匹配位置夂的MAD (q0) ( MADth 則認(rèn)為是匹配字幕。判斷單元在確定匹配后，觸發(fā)第一確定單元422。第一確定單元422，用于在判斷單元421的判斷結(jié)果為匹配時(shí)，根據(jù)字幕匹配的相對(duì)位置差異所計(jì)算出的匹配速度，確定檢測(cè)出的字幕為動(dòng)態(tài)字幕或靜態(tài)字幕。具體的，第一確定單元422可以根據(jù)從字幕匹配的相對(duì)位置差異所計(jì)算出的匹配速度，將其分成靜態(tài)字幕和滾動(dòng)字幕兩種類型。如果匹配的字幕在兩個(gè)執(zhí)行字幕檢測(cè)的數(shù)據(jù)幀中的位置不變則判斷為靜態(tài)字幕，否則判斷為滾動(dòng)字幕。第二確定單元423，用于當(dāng)?shù)谝淮_定單元422確定字幕為動(dòng)態(tài)字幕時(shí)，根據(jù)動(dòng)態(tài)字幕的匹配速度，以及當(dāng)前幀在動(dòng)態(tài)字幕中的位置，確定動(dòng)態(tài)字幕的起始幀和終止幀；當(dāng)?shù)谝?確定單元422確定字幕為靜態(tài)字幕時(shí)，抽取靜態(tài)字幕中的直流線條，并對(duì)直流線條進(jìn)行匹配操作，確定靜態(tài)字幕的起始幀和終止幀。若為滾動(dòng)字幕，第二確定單元423則根據(jù)匹配速度以及當(dāng)前幀中滾動(dòng)字幕所在的位置，來確定該字幕邊框在當(dāng)前幀之前的某一幀恰好進(jìn)入圖像畫面，以及在當(dāng)前幀之后的某一幀剛好超出圖像畫面范圍所對(duì)應(yīng)的幀號(hào)的數(shù)據(jù)幀，作為出現(xiàn)幀及終止幀。若為靜態(tài)字幕，第二確定單元423則訪問前一幀所在的圖像組(G0P:grOUp of pictures 圖像組)的視頻流，并對(duì)其中每幀的亮度分量圖像進(jìn)行解碼操作，同時(shí)獲取其字幕區(qū)域直流(DC)圖像，計(jì)算在此G0P內(nèi)，字幕區(qū)域DC圖像的平均絕對(duì)誤差MAD值，根據(jù)MAD 值來確定靜態(tài)字幕的出現(xiàn)幀和終止幀。在上述步驟中的靜態(tài)字幕條跟蹤中一個(gè)G0P內(nèi)字幕區(qū)域DC圖像的平均絕對(duì)誤差是通過抽取該區(qū)域中的DC線條進(jìn)行匹配予以實(shí)現(xiàn)的。具體如下首先，實(shí)現(xiàn)對(duì)前一幀和當(dāng)前幀之間的幀進(jìn)行部分解碼并獲取DC圖像。然后，根據(jù)當(dāng)前幀中的所得出的字幕邊框位置得出其在DC圖像中的相對(duì)應(yīng)的坐標(biāo)位置，并抽取其間DC圖像中字幕所在區(qū)域的中心塊處DC線條。接下來，計(jì)算給定的幀i和當(dāng)前幀的DC線條差異值。在抽取DC線條時(shí)要考慮字幕的排列方向。對(duì)于水平排列的字幕，其中的第i幀和當(dāng)前幀的DC線條差異值MADDC (i)，具體可按如下公式獲取其中DC(y，x, i)表示第i幀所對(duì)應(yīng)的DC圖像，dcy表示DC圖像中字幕區(qū)域在垂直方向上的中心位置。對(duì)于垂直排列字幕的計(jì)算方法與上面方法類似。對(duì)于出現(xiàn)幀或者終止幀的判斷方法，可以通過在MADDC曲線上尋找突變點(diǎn)來確
定。具體方法如下公式所示其中thl和th2是判斷突變點(diǎn)的約束閾值，本發(fā)明實(shí)施例中選用的較佳約束閾值是 thl = 3. 5，th2 = 9。如果在以當(dāng)前幀為中心，搜索半徑為2個(gè)GOP長度范圍內(nèi)沒有找到突變點(diǎn)，則將該字幕條作為錯(cuò)檢測(cè)的字幕予以剔除；否則找出離當(dāng)前幀前或后距離最近的數(shù)據(jù)幀，作為出現(xiàn)幀或者終止幀。上式是對(duì)水平排列字幕計(jì)算差異值，對(duì)于垂直排列字幕的計(jì)算方法與上面類似的方法得到。本發(fā)明實(shí)時(shí)例提供的提取模塊430，具體可如附圖9所示，包括抽取單元431，分割單元432以及識(shí)別單元433。其中抽取單元431，用于根據(jù)字幕的起始幀、終止幀以及出現(xiàn)位置信息，抽取字幕中用于分割的字幕幀。分割單元432，用于確定抽取單元431抽取的字幕幀對(duì)應(yīng)的字幕區(qū)域，對(duì)所述字幕區(qū)域進(jìn)行二值化分割，得到二值圖像。具體的，分割單元432具體根據(jù)已經(jīng)記錄的字幕屬性信息，包括字幕的起始幀、終止幀以及出現(xiàn)位置等信息，抽取用于分割的字幕幀，然后執(zhí)行融合多幀的字幕分割，并對(duì)分割的結(jié)果進(jìn)行識(shí)別，具體可以包括從記錄的字幕屬性信息中，判斷字幕屬于靜止還是滾動(dòng)。對(duì)于靜止字幕，直接抽取起始和終止幀之間所有的I幀和P幀，相同位置的字幕區(qū) 域圖像；對(duì)于滾動(dòng)字幕，則根據(jù)滾動(dòng)速度，抽取該字幕所有的I幀和P幀相應(yīng)圖像區(qū)域。在區(qū)域確定的基礎(chǔ)上，將字幕持續(xù)幀中所有的I幀的字幕區(qū)域部分，先進(jìn)行自適應(yīng)閾值二值化分割，得到像素值只有0和255的二值圖像；再將分割的所有I幀字幕區(qū)域圖像，針對(duì)相同位置的像素值進(jìn)行“與操作”，得到“I幀與圖像”；然后將字幕持續(xù)幀中所有的I幀和P幀的字幕區(qū)域圖像，針對(duì)相同位置的像素值求平均像素值，即求這些圖像的一個(gè) 平均圖像，將此平均圖像進(jìn)行二值化分割，得到“I-P幀平均圖像”;最后將得到的“I幀與圖像”和“I-P幀平均圖像”兩幅圖像進(jìn)行“與操作”所得出效果圖作為最終的分割結(jié)果。識(shí)別單元433，用于識(shí)別分割單元432得到的二值圖像，提取字幕。具體的，識(shí)別單元433可以采用文字識(shí)別(0CR:0ptical CharacterRecognition) 軟件，對(duì)分割出來的二值圖像用進(jìn)行識(shí)別，提取其中的字幕。上述描述可以看出，本發(fā)明實(shí)施例提供字幕信息獲取裝置，通過對(duì)視頻流中數(shù)據(jù) 幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)，并對(duì)檢測(cè)出的字幕進(jìn)行匹配和跟蹤操作，從而準(zhǔn)確地確定該數(shù)據(jù)幀的字幕信息。由于基于小波的字幕檢測(cè)，無需對(duì)字幕所在的區(qū)域進(jìn)行限制，因此，本發(fā)明實(shí)施例提供的字幕信息獲取裝置，可以在不限定字幕位置區(qū)域的情況下，獲取視頻數(shù)據(jù)中的字幕信息。并且，由于只獲取部分指定數(shù)據(jù)幀的亮度分量圖像，并對(duì) 獲取的字幕進(jìn)行字幕區(qū)域真實(shí)性的驗(yàn)證，以及匹配和跟蹤操作，從而使本發(fā)明實(shí)施例提供的字幕信息獲取裝置可以更快捷、準(zhǔn)確的獲取字幕信息，有效提升字幕檢測(cè)的性能。另外，本發(fā)明實(shí)施例提供的字幕信息獲取裝置，還可以對(duì)獲取的字幕進(jìn)行分割操作，從而更加方便了用戶的使用。需要說明的是，上述本發(fā)明實(shí)施例中所涉及的公式或者數(shù)值，對(duì)于本發(fā)明實(shí)施例的保護(hù)范圍不起任何限制影響，當(dāng)采用其他小波變換、匹配跟蹤技術(shù)手段時(shí)，完全可以進(jìn)行相應(yīng)的變換。通過以上的實(shí)施方式的描述，本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的硬件平臺(tái)的方式來實(shí)現(xiàn)，當(dāng)然也可以全部通過硬件來實(shí)施，但很多情況下前者是更佳的實(shí)施方式?；谶@樣的理解，本發(fā)明的技術(shù)方案對(duì)背景技術(shù)做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中，如 ROM/RAM、磁碟、光盤等，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù) 器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。以上所述，僅為本發(fā)明較佳的具體實(shí)施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
一種視頻字幕信息獲取方法，其特征在于，包括對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)；獲取檢測(cè)出的字幕的屬性信息；根據(jù)所述屬性信息，提取檢測(cè)出的字幕。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法在對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn) 行基于小波的字幕檢測(cè)之前還包括獲取指定數(shù)據(jù)幀的亮度分量圖像。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)包括對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換，獲取水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖；根據(jù)所述水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖，獲取數(shù)據(jù)幀的字幕點(diǎn)圖像；由所述數(shù)據(jù)幀的字幕點(diǎn)圖像生成字幕區(qū)域圖像；確定所述字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換，獲得水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖包括對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換，生成水平子帶、垂直子帶以及對(duì)角線子帶；將所述水平子帶、垂直子帶以及對(duì)角線子帶的系數(shù)分別求絕對(duì)值，獲得水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖。
5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述根據(jù)所述水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖，獲取數(shù)據(jù)幀的字幕點(diǎn)圖像包括對(duì)所述水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖分別進(jìn) 行字幕點(diǎn)檢測(cè)，生成水平、垂直以及對(duì)角線三個(gè)方向的初始字幕點(diǎn)圖像；對(duì)所述三個(gè)方向的初始字幕點(diǎn)圖像分別進(jìn)行除噪聲處理，得到三個(gè)方向的最終字幕點(diǎn) 圖像；將所述三個(gè)方向的最終字幕點(diǎn)圖像求交集，得到所述數(shù)據(jù)幀的字幕點(diǎn)圖像。
6.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述由所述數(shù)據(jù)幀的字幕點(diǎn)圖像生成字幕區(qū)域圖像包括對(duì)所述字幕點(diǎn)圖像分別進(jìn)行水平方向的閉運(yùn)算和開運(yùn)算得到水平圖像，以及對(duì)所述字幕點(diǎn)圖像分別進(jìn)行垂直方向的閉運(yùn)算和開運(yùn)算得到垂直圖像；將獲取的水平圖像和垂直圖像進(jìn)行求并集操作，得到包含所有字幕區(qū)域的最大點(diǎn)集圖像；對(duì)所述最大點(diǎn)集圖像進(jìn)行閉運(yùn)算，得到字幕區(qū)域圖像。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述確定所述字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息包括區(qū)分所述字幕區(qū)域圖像中水平字幕區(qū)域和垂直字幕區(qū)域；通過水平字幕區(qū)域在所述水平圖像中的最上、下、左、右像素點(diǎn)的坐標(biāo)位置，確定所述水平字幕區(qū)域在水平圖像中定位框的上邊框、下邊框、左邊框、右邊框的位置；通過垂直字幕區(qū)域在所述垂直圖像中的最上、下、左、右像素點(diǎn)的坐標(biāo)位置，確定所述垂直字幕區(qū)域在垂直圖像中定位框的上邊框、下邊框、左邊框、右邊框的位置；在所述水平字幕區(qū)域定位框內(nèi)相應(yīng)的綜合高頻子帶紋理圖所對(duì)應(yīng)的區(qū)域和所述垂直字幕區(qū)域定位框內(nèi)相應(yīng)的綜合高頻子帶紋理圖所對(duì)應(yīng)的區(qū)域分別進(jìn)行水平投影和垂直投影，確定投影曲線的峰谷信息，并根據(jù)所述峰谷信息，確定所述字幕區(qū)域中字幕條數(shù)以及字幕的上邊框和下邊框位置。
8.根據(jù)權(quán)利要求1至7任一項(xiàng)所述的方法，其特征在于，所述字幕的屬性信息包括所述字幕的起始幀和終止幀，以及出現(xiàn)位置信息。
9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述獲取檢測(cè)出的字幕的起始幀和終止幀包括判斷檢測(cè)出的字幕所在的當(dāng)前I幀，與所述當(dāng)前I幀的上一 I幀是否匹配；若匹配，則根據(jù)字幕匹配的相對(duì)位置差異所計(jì)算出的匹配速度，確定所述字幕為動(dòng)態(tài) 字幕或靜態(tài)字幕；若所述字幕為動(dòng)態(tài)字幕，則根據(jù)所述動(dòng)態(tài)字幕的匹配速度，以及當(dāng)前幀在動(dòng)態(tài)字幕中的位置，確定所述動(dòng)態(tài)字幕的起始幀和終止幀；若所述字幕為靜態(tài)字幕，則抽取所述靜態(tài)字幕中的直流線條，并對(duì)所述直流線條進(jìn)行匹配操作，確定所述靜態(tài)字幕的起始幀和終止幀。
10.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述屬性信息，提取檢測(cè)出的字幕包括根據(jù)所述字幕的起始幀、終止幀以及出現(xiàn)位置信息，抽取所述字幕中用于分割的字幕幀；確定所述抽取的字幕幀對(duì)應(yīng)的字幕區(qū)域，對(duì)所述字幕區(qū)域進(jìn)行二值化分割，得到二值圖像；識(shí)別所述二值圖像，得到所述字幕。
11.一種視頻字幕信息獲取裝置，其特征在于，包括檢測(cè)模塊，用于對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)；第一獲取模塊，用于獲取所述檢測(cè)模塊檢測(cè)出的字幕的屬性信息；提取模塊，用于根據(jù)所述第一獲取模塊獲取的字幕屬信息，提取所述檢測(cè)模塊檢測(cè)出的字幕。
12.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述裝置還包括第二獲取模塊，用于獲取指定數(shù)據(jù)幀的亮度分量圖像。
13.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述檢測(cè)模塊包括第一獲取單元，對(duì)數(shù)據(jù)幀的亮度分量圖像進(jìn)行小波變換，獲取水平高頻子帶紋理圖、垂直高頻子帶紋理圖以及對(duì)角線高頻子帶紋理圖；第二獲取單元，用于根據(jù)所述第一獲取單元獲取的所述水平、垂直以及對(duì)角線高頻子帶紋理圖，獲取數(shù)據(jù)幀的字幕點(diǎn)圖像；生成單元，用于根據(jù)所述第二獲取單元獲取的所述數(shù)據(jù)幀的字幕點(diǎn)圖像，生成字幕區(qū) 域圖像；確定單元，用于確定所述生成單元生成的字幕區(qū)域圖像中字幕的條數(shù)以及字幕區(qū)域位置信息。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述檢測(cè)模塊還包括檢測(cè)單元，用于對(duì)所述確定單元確定的字幕區(qū)域進(jìn)行是否為真實(shí)字幕區(qū)域的檢測(cè)。
15.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述第一獲取模塊包括判斷單元，用于判斷所述檢測(cè)模塊檢測(cè)出的字幕所在的當(dāng)前I幀，與所述當(dāng)前I幀的上一I幀是否匹配；第一確定單元，用于在所述判斷單元的判斷結(jié)果為匹配時(shí)，根據(jù)字幕匹配的相對(duì)位置差異所計(jì)算出的匹配速度，確定所述字幕為動(dòng)態(tài)字幕或靜態(tài)字幕；第二確定單元，用于當(dāng)所述字幕為動(dòng)態(tài)字幕時(shí)，根據(jù)所述動(dòng)態(tài)字幕的匹配速度，以及當(dāng) 前幀在動(dòng)態(tài)字幕中的位置，確定所述動(dòng)態(tài)字幕的起始幀和終止幀；當(dāng)所述字幕為靜態(tài)字幕時(shí)，抽取所述靜態(tài)字幕中的直流線條，并對(duì)所述直流線條進(jìn)行匹配操作，確定所述靜態(tài)字幕的起始幀和終止幀。
16.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述提取模塊包括抽取單元，用于根據(jù)所述字幕的起始幀、終止幀以及出現(xiàn)位置信息，抽取所述字幕中用于分割的字幕幀；分割單元，用于確定所述抽取單元抽取的字幕幀對(duì)應(yīng)的字幕區(qū)域，對(duì)所述字幕區(qū)域進(jìn) 行二值化分割，得到二值圖像；識(shí)別單元，用于識(shí)別所述分割單元得到的二值圖像，提取所述字幕。
全文摘要
本發(fā)明涉及一種字幕信息獲取方法及裝置，通過對(duì)視頻流中數(shù)據(jù)幀的亮度分量圖像進(jìn)行基于小波的字幕檢測(cè)，并獲取檢測(cè)出的字幕的屬性信息，根據(jù)所述屬性信息，提取檢測(cè)出的字幕。從而準(zhǔn)確獲取數(shù)據(jù)幀中的字幕信息。由于基于小波的字幕檢測(cè)，無需對(duì)字幕所在的區(qū)域進(jìn)行限制，因此，本發(fā)明實(shí)施例可以在不限制字幕位置區(qū)域的情況下，準(zhǔn)確獲取視頻數(shù)據(jù)中的字幕信息。
文檔編號(hào)G06K9/32GK101853381SQ20091008105
公開日2010年10月6日申請(qǐng)日期2009年3月31日優(yōu)先權(quán)日2009年3月31日
發(fā)明者劉貴忠, 南楠, 姜海俠, 孫力, 李智, 楊錦春, 王琛, 郭旦萍, 錢學(xué)明申請(qǐng)人:華為技術(shù)有限公司;西安交通大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊錦春;劉貴忠;錢學(xué)明;李智;郭旦萍;姜海俠;南楠;孫力;王琛
技術(shù)所有人：華為技術(shù)有限公司;西安交通大學(xué)
我是此專利的發(fā)明人

上一篇：基于操作系統(tǒng)層的虛擬方法及虛擬裝置的制作方法
上一篇：虛擬信息交互方法、系統(tǒng)及客戶端的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

視頻字幕信息獲取方法及裝置的制作方法