基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法

文檔序號：6521021閱讀：245來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法
【專利摘要】本發(fā)明公開了一種基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法，包括步驟：S1、模擬廣播電視字幕數(shù)據(jù)，構(gòu)建海量視頻字符訓(xùn)練集；S2、在所述海量視頻字符訓(xùn)練集中提取統(tǒng)計(jì)量字符特征，量化所述模擬字幕數(shù)據(jù)；S3、使用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練字幕識別模型，捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu)；S4、根據(jù)訓(xùn)練得到的所述字幕識別模型實(shí)現(xiàn)對廣播視頻中字幕文本的單字識別輸出。根據(jù)本發(fā)明，通過自動構(gòu)建海量模擬訓(xùn)練數(shù)據(jù)，有效解決海量標(biāo)注數(shù)據(jù)難以獲取的難題；通過結(jié)合新的深度學(xué)習(xí)方法與傳統(tǒng)字符識別技術(shù)，準(zhǔn)確捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu)，從而解決現(xiàn)有字符識別技術(shù)不適用于廣播電視字幕文本的識別問題。
【專利說明】基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及面向三網(wǎng)融合的廣播電視新媒體內(nèi)容管理與分發(fā)【技術(shù)領(lǐng)域】，特別涉及一種基于廣播電視字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法。
【背景技術(shù)】
[0002]伴隨信息技術(shù)和通訊技術(shù)的不斷發(fā)展，大量廣播視頻信息(各類新聞、電視節(jié)目、網(wǎng)絡(luò)電視等)不斷涌現(xiàn)，廣播視頻逐漸成為人們獲取日常信息的一種重要媒介。根據(jù)2011年國家統(tǒng)計(jì)局發(fā)布的數(shù)據(jù)顯示，截至2011年，我國廣播電視節(jié)目綜合人口覆蓋率已達(dá)到97.6%，從中可以看到，在面向三網(wǎng)融合的廣播電視新媒體內(nèi)容管理與分發(fā)領(lǐng)域具有非常巨大的社會效益和商業(yè)價值。
[0003]廣播視頻中的字幕文字是一種高級語義信息，能夠?yàn)槊襟w內(nèi)容管理與分發(fā)提供重要的輔助信息。如果能將其視頻中的字幕文字準(zhǔn)確識別出來，識別內(nèi)容可廣泛用于基于內(nèi)容的視頻存儲、標(biāo)記與檢索等應(yīng)用。
[0004]時至今日，光學(xué)字符識別技術(shù)已經(jīng)取得長足進(jìn)步并孵化出非常成功的應(yīng)用。例如，在印刷文檔和手寫文檔識別領(lǐng)域，目前技術(shù)已經(jīng)可以高精度地將大量印刷、手寫文檔轉(zhuǎn)化為數(shù)字文檔，極大地提升了以數(shù)字圖書館為案例的文化產(chǎn)業(yè)數(shù)字化建設(shè)速度。然而，在廣播電視事業(yè)不斷發(fā)展的大背景下，面對廣播視頻資源中字幕識別的需求，傳統(tǒng)的字符識別技術(shù)面臨著新的困難和挑戰(zhàn)，主要存在問題如下:
[0005]1、廣播視頻中的字幕文本分辨率低。傳統(tǒng)掃描文檔中文本字符的分辨率一般不低于300dpi，且背景極其簡單；而廣播視頻中字幕文本的高度往往只有十幾到三十幾個象素，且背景異常復(fù)雜，導(dǎo)致傳統(tǒng)的字符識別技術(shù)性能直線下降，效果無法接受。
[0006]2、廣播視頻中字幕文本的背景復(fù)雜、字幕效果多樣。圖像二值化是傳統(tǒng)字符識別技術(shù)中最為關(guān)鍵的一步，即將字符文本從其背景中分離出來，獲取像素級的文本區(qū)域，為后續(xù)的識別處理提供輸入，該步驟的性能也將直接影響最終的識別結(jié)果。然而因海量復(fù)雜多樣的視頻資源和先進(jìn)非線編工具軟件的存在，大量廣播視頻中的字幕文本往往背景極其復(fù)雜，且字幕文本的藝術(shù)效果豐富多彩，這直接導(dǎo)致圖像二值化性能退化，進(jìn)而限制字符識別的最終效果。
[0007]為解決上述問題，有必要融合新的深度學(xué)習(xí)方法與傳統(tǒng)字符識別技術(shù)，并針對海量帶標(biāo)注真實(shí)數(shù)據(jù)難以獲取的難題，提出模擬數(shù)據(jù)的自動構(gòu)建方法，從而輔助提高廣播視頻中字幕文本的識別精度。

【發(fā)明內(nèi)容】

[0008](一)要解決的技術(shù)問題
[0009]本發(fā)明所要解決的技術(shù)問題是:如何提供一種基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法，將新的深度學(xué)習(xí)方法與傳統(tǒng)字符識別技術(shù)相結(jié)合，并構(gòu)建海量模擬訓(xùn)練數(shù)據(jù)，滿足深層神經(jīng)網(wǎng)絡(luò)對大數(shù)據(jù)的需求，進(jìn)而實(shí)現(xiàn)對廣播視頻中字幕文本的有效識別，為海量廣播電視內(nèi)容的深入開發(fā)利用、全面管理分發(fā)提供有效技術(shù)方案。
[0010](二)技術(shù)方案
[0011]為解決上述問題，本發(fā)明提供一種基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法，包括步驟:s1、模擬廣播電視字幕數(shù)據(jù)，構(gòu)建海量視頻字符訓(xùn)練集；S2、在所述海量視頻字符訓(xùn)練集中提取統(tǒng)計(jì)量字符特征，量化所述模擬字幕數(shù)據(jù)；S3、使用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練字幕識別模型，捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu)；S4、根據(jù)訓(xùn)練得到的所述字幕識別模型實(shí)現(xiàn)對廣播視頻中字幕文本的單字識別輸出。
[0012]優(yōu)選地，所述廣播電視模擬字幕數(shù)據(jù)是從國標(biāo)一級字庫和二級常用字庫中獲取標(biāo)準(zhǔn)字符集，從真實(shí)廣播視頻中提取海量復(fù)雜背景圖像，之后采用疊加策略加噪處理后生成。
[0013]優(yōu)選地，所述統(tǒng)計(jì)量字符特征是將構(gòu)建的海量字符訓(xùn)練集中的各字幕文本圖像進(jìn)行歸一化和特征量化，得到八方向梯度直方圖的向量描述。
[0014]優(yōu)選地，所述八方向梯度直方圖的字符特征通過以下步驟提取:a、將字幕文本圖像分成8X8個互不相交的矩形區(qū)域，為每個區(qū)域建立一個梯度直方圖；b、利用Sobel算子求解字幕圖像中每個象素的8標(biāo)準(zhǔn)方向和梯度大??；c、計(jì)算各象素對與其鄰近的梯度直方圖的貢獻(xiàn)；d、將所有區(qū)域的梯度直方圖組成字幕文本圖像的梯度直方圖特征。
[0015]優(yōu)選地，所述字幕識別模型是將所述統(tǒng)計(jì)量字符特征輸入深層神經(jīng)網(wǎng)絡(luò)，并通過后向傳播方法逐層修正神經(jīng)網(wǎng)絡(luò)中各結(jié)點(diǎn)的權(quán)值來迭代優(yōu)化字幕識別模型。
[0016]優(yōu)選地，所述對各類廣播視頻中字幕文本的單字識別輸出是將上述經(jīng)海量模擬構(gòu)造數(shù)據(jù)訓(xùn)練得到的字幕識別模型用于多種廣播視頻欄目的字幕識別應(yīng)用，并輸出單字識別結(jié)果。
[0017](三)有益效果
[0018]根據(jù)本發(fā)明，提出了一種全新的、面向各類廣播視頻節(jié)目中字幕文本的識別方法。通過自動構(gòu)建海量模擬訓(xùn)練數(shù)據(jù)，有效解決海量標(biāo)注數(shù)據(jù)難以獲取的難題；通過結(jié)合新的深度學(xué)習(xí)方法與傳統(tǒng)字符識別技術(shù)，準(zhǔn)確捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu)，從而解決現(xiàn)有字符識別技術(shù)不適用于廣播電視字幕文本的識別問題，使得廣播視頻中字幕識別過程較現(xiàn)有方法結(jié)果更為理想。
【專利附圖】

【附圖說明】
[0019]圖1為依照本發(fā)明實(shí)施例的基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法的流程圖；
[0020]圖2為依照本發(fā)明實(shí)施例的字符/背景疊加處理策略示意圖；
[0021]圖3為依照本發(fā)明實(shí)施例的統(tǒng)計(jì)量字符特征提取示意圖。
【具體實(shí)施方式】
[0022]下面結(jié)合附圖和實(shí)施例，對本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明，但不用來限制本發(fā)明的范圍。
[0023]根據(jù)本發(fā)明的優(yōu)選實(shí)施例，結(jié)合新的深度學(xué)習(xí)方法和傳統(tǒng)字符識別技術(shù)，提出了模擬字幕數(shù)據(jù)的海量訓(xùn)練集自動構(gòu)建方法，解決了深層神經(jīng)網(wǎng)絡(luò)模型對大數(shù)據(jù)的需求；之后提取海量訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)量字符特征，并訓(xùn)練基于深層神經(jīng)網(wǎng)絡(luò)的字幕識別模型，用于檢測各類廣播視頻中的字幕文本，輸出字幕識別結(jié)果。下面根據(jù)本發(fā)明的優(yōu)選實(shí)施樣例詳細(xì)描述具體計(jì)算方法。
[0024]本發(fā)明提供了一種基于廣播電視字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法。圖1示出了本發(fā)明優(yōu)選實(shí)施例中提供的方法流程。如圖1所示，該方法包含以下步驟:
[0025]步驟1、模擬廣播電視字幕數(shù)據(jù)，構(gòu)建海量廣播視頻字符訓(xùn)練集；
[0026]步驟2、在海量廣播視頻字符訓(xùn)練集中提取統(tǒng)計(jì)量字符特征，量化所述模擬字幕數(shù)據(jù)；
[0027]步驟3、使用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練字幕識別模型，捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu)；
[0028]步驟4、根據(jù)訓(xùn)練得到的字幕識別模型實(shí)現(xiàn)對各類廣播視頻中字幕文本的單字識別輸出。
[0029]上述方法中，所述模擬廣播電視字幕數(shù)據(jù)，構(gòu)建海量廣播視頻字符訓(xùn)練集，包含字符集合構(gòu)建，背景集合構(gòu)建，以及字符/背景疊加處理。
[0030]根據(jù)本發(fā)明的優(yōu)選實(shí)施例，字符集合構(gòu)建的具體過程如下:
[0031]步驟101、根據(jù)國標(biāo)提取一級字庫和二級常用字庫，得到4026個標(biāo)準(zhǔn)字符集合；
[0032]步驟102、以上述標(biāo)準(zhǔn)字符集合作為基準(zhǔn)集，分別作如下擴(kuò)展:22種字體(〃宋體〃，〃黑體〃，〃幼圓〃，〃隸書〃，〃楷書_GB2312"，〃宋體_PUA〃，〃宋體_方正超大字符集〃，〃新宋體〃，〃仿宋_GB2312〃，〃方正舒體〃，〃方正姚體〃，〃微軟雅黑〃，〃華文宋體〃，〃華文仿宋〃，〃華文楷體〃，〃華文行楷〃，〃華文隸書〃，〃華文細(xì)黑〃，〃華文新魏〃，〃華文中宋〃，〃華文彩云〃，〃華文琥珀〃)、5種字尺寸(16，20，24，28，32)、3種字粗細(xì)(〃1'!1爪〃，〃SEMIB0LD〃，"HEAVY〃)、7 種字偏移(〃00〃，〃U2〃，〃D2〃，〃L2〃，〃R2〃，〃L4〃，〃R4〃)、共計(jì)擴(kuò)展得到 9300060個字符，作為字符集合使用。該字符集合共包含4026類字符，每類字符包含2310個樣例。
[0033]根據(jù)本發(fā)明的優(yōu)選實(shí)施例，背景集合構(gòu)建的具體過程如下:
[0034]步驟111、從25個欄目92個廣播視頻中均勻抽取共32000幀關(guān)鍵幀圖像(640X480像素)，作為標(biāo)準(zhǔn)背景集合；
[0035]步驟112、將上述標(biāo)準(zhǔn)背景集合逐幀切分成32X32像素的背景圖像，共計(jì)9600000
幅，作為背景集合使用。
[0036]根據(jù)本發(fā)明的優(yōu)選實(shí)施例，字符/背景疊加處理的基本思想為:如圖2所示，盡量保證同一個字符類內(nèi)的不同樣本具有均值和方差不同的背景；不同字符類之間的樣本也盡量具有不一致的背景?；诖耍址?背景疊加處理的具體過程如下:
[0037]步驟121、將背景集合根據(jù)各背景圖像的像素均值和方差分成IOX 10共100個子類；
[0038]步驟122、將字符集合中逐字符類內(nèi)的樣本均勻分散到100個背景子類中，并保證選擇各背景子類中未被匹配過的背景圖像作為配對；
[0039]步驟123、將成功配對的字符圖像和背景圖像進(jìn)行邊緣平滑疊加，得到人工模擬訓(xùn)練數(shù)據(jù)；
[0040]步驟124、累加上述人工模擬訓(xùn)練數(shù)據(jù)，得到共計(jì)9300060的海量廣播視頻字符訓(xùn)
練集?！?br> [0041]綜合上述步驟的結(jié)果即可得到海量廣播視頻字符訓(xùn)練集，用于后續(xù)深層神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)。本領(lǐng)域普通技術(shù)人員可以理解，該操作優(yōu)選離線操作。
[0042]步驟2中，提取統(tǒng)計(jì)量字符特征，量化上述模擬字幕數(shù)據(jù)。首先采用非線性坐標(biāo)映射函數(shù)對訓(xùn)練集圖像做歸一化處理，得到尺寸一致的訓(xùn)練集圖像集合；其次對訓(xùn)練集圖像提取八方向梯度直方圖特征，量化人工模擬的字幕數(shù)據(jù)。此步驟為離線執(zhí)行操作，具體包含下述步驟201-203:
[0043]步驟201、訓(xùn)練集圖像歸一化處理。對訓(xùn)練集中各圖像樣本逐一進(jìn)行基于非線性坐標(biāo)映射函數(shù)的歸一化處理，統(tǒng)一圖像樣本尺寸到32X32。其中，非線性坐標(biāo)映射基于字符筆畫密度，其坐標(biāo)映射函數(shù)如公式(I)所示:
【權(quán)利要求】
1.一種基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法，其特征在于，包括步驟: 51、模擬廣播電視字幕數(shù)據(jù)，構(gòu)建海量視頻字符訓(xùn)練集； 52、在所述海量視頻字符訓(xùn)練集中提取統(tǒng)計(jì)量字符特征，量化所述模擬字幕數(shù)據(jù)； 53、使用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練字幕識別模型，捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu)； 54、根據(jù)訓(xùn)練得到的所述字幕識別模型實(shí)現(xiàn)對廣播視頻中字幕文本的單字識別輸出。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述模擬廣播電視字幕數(shù)據(jù)是從國標(biāo)一級字庫和二級常用字庫中獲取標(biāo)準(zhǔn)字符集，從真實(shí)廣播視頻中提取海量復(fù)雜背景圖像，之后采用疊加策略加噪處理后生成。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述統(tǒng)計(jì)量字符特征是將構(gòu)建的海量字符訓(xùn)練集中的各字幕文本圖像進(jìn)行歸一化和特征量化，得到八方向梯度直方圖的向量描述。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述八方向梯度直方圖的字符特征通過以下步驟提取: a、將字幕文本圖像分成8X8個互不相交的矩形區(qū)域，為每個區(qū)域建立一個梯度直方圖； b、利用Sobel算子求解字幕圖像中每個象素的8標(biāo)準(zhǔn)方向和梯度大小； C、計(jì)算各象素對與其鄰近的梯度直方圖的貢獻(xiàn)； d、將所有區(qū)域的梯度直方圖組成字幕文本圖像的梯度直方圖特征。
5.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述字幕識別模型是將所述統(tǒng)計(jì)量字符特征輸入深層神經(jīng)網(wǎng)絡(luò)，并通過后向傳播方法逐層修正神經(jīng)網(wǎng)絡(luò)中各結(jié)點(diǎn)的權(quán)值來迭代優(yōu)化字幕識別模型。
6.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述對各類廣播視頻中字幕文本的單字識別輸出是將上述經(jīng)海量模擬構(gòu)造數(shù)據(jù)訓(xùn)練得到的字幕識別模型用于多種廣播視頻欄目的字幕識別應(yīng)用，并輸出單字識別結(jié)果。
【文檔編號】G06K9/66GK103679208SQ201310616909
【公開日】2014年3月26日申請日期:2013年11月27日優(yōu)先權(quán)日:2013年11月27日
【發(fā)明者】馮柏嵐, 徐波申請人:北京中科模識科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮柏嵐;徐波
技術(shù)所有人：北京中科模識科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法