基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法
【專利摘要】本發(fā)明公開了一種基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法,包括步驟:S1、模擬廣播電視字幕數(shù)據(jù),構(gòu)建海量視頻字符訓(xùn)練集;S2、在所述海量視頻字符訓(xùn)練集中提取統(tǒng)計(jì)量字符特征,量化所述模擬字幕數(shù)據(jù);S3、使用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練字幕識別模型,捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu);S4、根據(jù)訓(xùn)練得到的所述字幕識別模型實(shí)現(xiàn)對廣播視頻中字幕文本的單字識別輸出。根據(jù)本發(fā)明,通過自動構(gòu)建海量模擬訓(xùn)練數(shù)據(jù),有效解決海量標(biāo)注數(shù)據(jù)難以獲取的難題;通過結(jié)合新的深度學(xué)習(xí)方法與傳統(tǒng)字符識別技術(shù),準(zhǔn)確捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu),從而解決現(xiàn)有字符識別技術(shù)不適用于廣播電視字幕文本的識別問題。
【專利說明】基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及面向三網(wǎng)融合的廣播電視新媒體內(nèi)容管理與分發(fā)【技術(shù)領(lǐng)域】,特別涉及一種基于廣播電視字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法。
【背景技術(shù)】
[0002]伴隨信息技術(shù)和通訊技術(shù)的不斷發(fā)展,大量廣播視頻信息(各類新聞、電視節(jié)目、網(wǎng)絡(luò)電視等)不斷涌現(xiàn),廣播視頻逐漸成為人們獲取日常信息的一種重要媒介。根據(jù)2011年國家統(tǒng)計(jì)局發(fā)布的數(shù)據(jù)顯示,截至2011年,我國廣播電視節(jié)目綜合人口覆蓋率已達(dá)到97.6%,從中可以看到,在面向三網(wǎng)融合的廣播電視新媒體內(nèi)容管理與分發(fā)領(lǐng)域具有非常巨大的社會效益和商業(yè)價值。
[0003]廣播視頻中的字幕文字是一種高級語義信息,能夠?yàn)槊襟w內(nèi)容管理與分發(fā)提供重要的輔助信息。如果能將其視頻中的字幕文字準(zhǔn)確識別出來,識別內(nèi)容可廣泛用于基于內(nèi)容的視頻存儲、標(biāo)記與檢索等應(yīng)用。
[0004]時至今日,光學(xué)字符識別技術(shù)已經(jīng)取得長足進(jìn)步并孵化出非常成功的應(yīng)用。例如,在印刷文檔和手寫文檔識別領(lǐng)域,目前技術(shù)已經(jīng)可以高精度地將大量印刷、手寫文檔轉(zhuǎn)化為數(shù)字文檔,極大地提升了以數(shù)字圖書館為案例的文化產(chǎn)業(yè)數(shù)字化建設(shè)速度。然而,在廣播電視事業(yè)不斷發(fā)展的大背景下,面對廣播視頻資源中字幕識別的需求,傳統(tǒng)的字符識別技術(shù)面臨著新的困難和挑戰(zhàn),主要存在問題如下:
[0005]1、廣播視頻中的字幕文本分辨率低。傳統(tǒng)掃描文檔中文本字符的分辨率一般不低于300dpi,且背景極其簡單;而廣播視頻中字幕文本的高度往往只有十幾到三十幾個象素,且背景異常復(fù)雜,導(dǎo)致傳統(tǒng)的字符識別技術(shù)性能直線下降,效果無法接受。
[0006]2、廣播視頻中字幕文本的背景復(fù)雜、字幕效果多樣。圖像二值化是傳統(tǒng)字符識別技術(shù)中最為關(guān)鍵的一步,即將字符文本從其背景中分離出來,獲取像素級的文本區(qū)域,為后續(xù)的識別處理提供輸入,該步驟的性能也將直接影響最終的識別結(jié)果。然而因海量復(fù)雜多樣的視頻資源和先進(jìn)非線編工具軟件的存在,大量廣播視頻中的字幕文本往往背景極其復(fù)雜,且字幕文本的藝術(shù)效果豐富多彩,這直接導(dǎo)致圖像二值化性能退化,進(jìn)而限制字符識別的最終效果。
[0007]為解決上述問題,有必要融合新的深度學(xué)習(xí)方法與傳統(tǒng)字符識別技術(shù),并針對海量帶標(biāo)注真實(shí)數(shù)據(jù)難以獲取的難題,提出模擬數(shù)據(jù)的自動構(gòu)建方法,從而輔助提高廣播視頻中字幕文本的識別精度。
【發(fā)明內(nèi)容】
[0008](一)要解決的技術(shù)問題
[0009]本發(fā)明所要解決的技術(shù)問題是:如何提供一種基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法,將新的深度學(xué)習(xí)方法與傳統(tǒng)字符識別技術(shù)相結(jié)合,并構(gòu)建海量模擬訓(xùn)練數(shù)據(jù),滿足深層神經(jīng)網(wǎng)絡(luò)對大數(shù)據(jù)的需求,進(jìn)而實(shí)現(xiàn)對廣播視頻中字幕文本的有效識別,為海量廣播電視內(nèi)容的深入開發(fā)利用、全面管理分發(fā)提供有效技術(shù)方案。
[0010](二)技術(shù)方案
[0011]為解決上述問題,本發(fā)明提供一種基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法,包括步驟:s1、模擬廣播電視字幕數(shù)據(jù),構(gòu)建海量視頻字符訓(xùn)練集;S2、在所述海量視頻字符訓(xùn)練集中提取統(tǒng)計(jì)量字符特征,量化所述模擬字幕數(shù)據(jù);S3、使用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練字幕識別模型,捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu);S4、根據(jù)訓(xùn)練得到的所述字幕識別模型實(shí)現(xiàn)對廣播視頻中字幕文本的單字識別輸出。
[0012]優(yōu)選地,所述廣播電視模擬字幕數(shù)據(jù)是從國標(biāo)一級字庫和二級常用字庫中獲取標(biāo)準(zhǔn)字符集,從真實(shí)廣播視頻中提取海量復(fù)雜背景圖像,之后采用疊加策略加噪處理后生成。
[0013]優(yōu)選地,所述統(tǒng)計(jì)量字符特征是將構(gòu)建的海量字符訓(xùn)練集中的各字幕文本圖像進(jìn)行歸一化和特征量化,得到八方向梯度直方圖的向量描述。
[0014]優(yōu)選地,所述八方向梯度直方圖的字符特征通過以下步驟提取:a、將字幕文本圖像分成8X8個互不相交的矩形區(qū)域,為每個區(qū)域建立一個梯度直方圖;b、利用Sobel算子求解字幕圖像中每個象素的8標(biāo)準(zhǔn)方向和梯度大??;c、計(jì)算各象素對與其鄰近的梯度直方圖的貢獻(xiàn);d、將所有區(qū)域的梯度直方圖組成字幕文本圖像的梯度直方圖特征。
[0015]優(yōu)選地,所述字幕識別模型是將所述統(tǒng)計(jì)量字符特征輸入深層神經(jīng)網(wǎng)絡(luò),并通過后向傳播方法逐層修正神經(jīng)網(wǎng)絡(luò)中各結(jié)點(diǎn)的權(quán)值來迭代優(yōu)化字幕識別模型。
[0016]優(yōu)選地,所述對各類廣播視頻中字幕文本的單字識別輸出是將上述經(jīng)海量模擬構(gòu)造數(shù)據(jù)訓(xùn)練得到的字幕識別模型用于多種廣播視頻欄目的字幕識別應(yīng)用,并輸出單字識別結(jié)果。
[0017](三)有益效果
[0018]根據(jù)本發(fā)明,提出了一種全新的、面向各類廣播視頻節(jié)目中字幕文本的識別方法。通過自動構(gòu)建海量模擬訓(xùn)練數(shù)據(jù),有效解決海量標(biāo)注數(shù)據(jù)難以獲取的難題;通過結(jié)合新的深度學(xué)習(xí)方法與傳統(tǒng)字符識別技術(shù),準(zhǔn)確捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu),從而解決現(xiàn)有字符識別技術(shù)不適用于廣播電視字幕文本的識別問題,使得廣播視頻中字幕識別過程較現(xiàn)有方法結(jié)果更為理想。
【專利附圖】
【附圖說明】
[0019]圖1為依照本發(fā)明實(shí)施例的基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法的流程圖;
[0020]圖2為依照本發(fā)明實(shí)施例的字符/背景疊加處理策略示意圖;
[0021]圖3為依照本發(fā)明實(shí)施例的統(tǒng)計(jì)量字符特征提取示意圖。
【具體實(shí)施方式】
[0022]下面結(jié)合附圖和實(shí)施例,對本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0023]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,結(jié)合新的深度學(xué)習(xí)方法和傳統(tǒng)字符識別技術(shù),提出了模擬字幕數(shù)據(jù)的海量訓(xùn)練集自動構(gòu)建方法,解決了深層神經(jīng)網(wǎng)絡(luò)模型對大數(shù)據(jù)的需求;之后提取海量訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)量字符特征,并訓(xùn)練基于深層神經(jīng)網(wǎng)絡(luò)的字幕識別模型,用于檢測各類廣播視頻中的字幕文本,輸出字幕識別結(jié)果。下面根據(jù)本發(fā)明的優(yōu)選實(shí)施樣例詳細(xì)描述具體計(jì)算方法。
[0024]本發(fā)明提供了一種基于廣播電視字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法。圖1示出了本發(fā)明優(yōu)選實(shí)施例中提供的方法流程。如圖1所示,該方法包含以下步驟:
[0025]步驟1、模擬廣播電視字幕數(shù)據(jù),構(gòu)建海量廣播視頻字符訓(xùn)練集;
[0026]步驟2、在海量廣播視頻字符訓(xùn)練集中提取統(tǒng)計(jì)量字符特征,量化所述模擬字幕數(shù)據(jù);
[0027]步驟3、使用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練字幕識別模型,捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu);
[0028]步驟4、根據(jù)訓(xùn)練得到的字幕識別模型實(shí)現(xiàn)對各類廣播視頻中字幕文本的單字識別輸出。
[0029]上述方法中,所述模擬廣播電視字幕數(shù)據(jù),構(gòu)建海量廣播視頻字符訓(xùn)練集,包含字符集合構(gòu)建,背景集合構(gòu)建,以及字符/背景疊加處理。
[0030]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,字符集合構(gòu)建的具體過程如下:
[0031]步驟101、根據(jù)國標(biāo)提取一級字庫和二級常用字庫,得到4026個標(biāo)準(zhǔn)字符集合;
[0032]步驟102、以上述標(biāo)準(zhǔn)字符集合作為基準(zhǔn)集,分別作如下擴(kuò)展:22種字體(〃宋體〃,〃黑體〃,〃幼圓〃,〃隸書〃,〃楷書_GB2312",〃宋體_PUA〃,〃宋體_方正超大字符集〃,〃新宋體〃,〃仿宋_GB2312〃,〃方正舒體〃,〃方正姚體〃,〃微軟雅黑〃,〃華文宋體〃,〃華文仿宋〃,〃華文楷體〃,〃華文行楷〃,〃華文隸書〃,〃華文細(xì)黑〃,〃華文新魏〃,〃華文中宋〃,〃華文彩云〃,〃華文琥珀〃)、5種字尺寸(16,20,24,28,32)、3種字粗細(xì)(〃1'!1爪〃,〃SEMIB0LD〃,"HEAVY〃)、7 種字偏移(〃00〃,〃U2〃,〃D2〃,〃L2〃,〃R2〃,〃L4〃,〃R4〃)、共計(jì)擴(kuò)展得到 9300060個字符,作為字符集合使用。該字符集合共包含4026類字符,每類字符包含2310個樣例。
[0033]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,背景集合構(gòu)建的具體過程如下:
[0034]步驟111、從25個欄目92個廣播視頻中均勻抽取共32000幀關(guān)鍵幀圖像(640X480像素),作為標(biāo)準(zhǔn)背景集合;
[0035]步驟112、將上述標(biāo)準(zhǔn)背景集合逐幀切分成32X32像素的背景圖像,共計(jì)9600000
幅,作為背景集合使用。
[0036]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,字符/背景疊加處理的基本思想為:如圖2所示,盡量保證同一個字符類內(nèi)的不同樣本具有均值和方差不同的背景;不同字符類之間的樣本也盡量具有不一致的背景?;诖耍址?背景疊加處理的具體過程如下:
[0037]步驟121、將背景集合根據(jù)各背景圖像的像素均值和方差分成IOX 10共100個子類;
[0038]步驟122、將字符集合中逐字符類內(nèi)的樣本均勻分散到100個背景子類中,并保證選擇各背景子類中未被匹配過的背景圖像作為配對;
[0039]步驟123、將成功配對的字符圖像和背景圖像進(jìn)行邊緣平滑疊加,得到人工模擬訓(xùn)練數(shù)據(jù);
[0040]步驟124、累加上述人工模擬訓(xùn)練數(shù)據(jù),得到共計(jì)9300060的海量廣播視頻字符訓(xùn)
練集?!?br>
[0041]綜合上述步驟的結(jié)果即可得到海量廣播視頻字符訓(xùn)練集,用于后續(xù)深層神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)。本領(lǐng)域普通技術(shù)人員可以理解,該操作優(yōu)選離線操作。
[0042]步驟2中,提取統(tǒng)計(jì)量字符特征,量化上述模擬字幕數(shù)據(jù)。首先采用非線性坐標(biāo)映射函數(shù)對訓(xùn)練集圖像做歸一化處理,得到尺寸一致的訓(xùn)練集圖像集合;其次對訓(xùn)練集圖像提取八方向梯度直方圖特征,量化人工模擬的字幕數(shù)據(jù)。此步驟為離線執(zhí)行操作,具體包含下述步驟201-203:
[0043]步驟201、訓(xùn)練集圖像歸一化處理。對訓(xùn)練集中各圖像樣本逐一進(jìn)行基于非線性坐標(biāo)映射函數(shù)的歸一化處理,統(tǒng)一圖像樣本尺寸到32X32。其中,非線性坐標(biāo)映射基于字符筆畫密度,其坐標(biāo)映射函數(shù)如公式(I)所示:
【權(quán)利要求】
1.一種基于廣電字幕識別的訓(xùn)練數(shù)據(jù)自動生成和深度學(xué)習(xí)方法,其特征在于,包括步驟: 51、模擬廣播電視字幕數(shù)據(jù),構(gòu)建海量視頻字符訓(xùn)練集; 52、在所述海量視頻字符訓(xùn)練集中提取統(tǒng)計(jì)量字符特征,量化所述模擬字幕數(shù)據(jù); 53、使用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練字幕識別模型,捕捉廣播視頻中字幕文本的拓?fù)浣Y(jié)構(gòu); 54、根據(jù)訓(xùn)練得到的所述字幕識別模型實(shí)現(xiàn)對廣播視頻中字幕文本的單字識別輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述模擬廣播電視字幕數(shù)據(jù)是從國標(biāo)一級字庫和二級常用字庫中獲取標(biāo)準(zhǔn)字符集,從真實(shí)廣播視頻中提取海量復(fù)雜背景圖像,之后采用疊加策略加噪處理后生成。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述統(tǒng)計(jì)量字符特征是將構(gòu)建的海量字符訓(xùn)練集中的各字幕文本圖像進(jìn)行歸一化和特征量化,得到八方向梯度直方圖的向量描述。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述八方向梯度直方圖的字符特征通過以下步驟提取: a、將字幕文本圖像分成8X8個互不相交的矩形區(qū)域,為每個區(qū)域建立一個梯度直方圖; b、利用Sobel算子求解字幕圖像中每個象素的8標(biāo)準(zhǔn)方向和梯度大小; C、計(jì)算各象素對與其鄰近的梯度直方圖的貢獻(xiàn); d、將所有區(qū)域的梯度直方圖組成字幕文本圖像的梯度直方圖特征。
5.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述字幕識別模型是將所述統(tǒng)計(jì)量字符特征輸入深層神經(jīng)網(wǎng)絡(luò),并通過后向傳播方法逐層修正神經(jīng)網(wǎng)絡(luò)中各結(jié)點(diǎn)的權(quán)值來迭代優(yōu)化字幕識別模型。
6.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對各類廣播視頻中字幕文本的單字識別輸出是將上述經(jīng)海量模擬構(gòu)造數(shù)據(jù)訓(xùn)練得到的字幕識別模型用于多種廣播視頻欄目的字幕識別應(yīng)用,并輸出單字識別結(jié)果。
【文檔編號】G06K9/66GK103679208SQ201310616909
【公開日】2014年3月26日 申請日期:2013年11月27日 優(yōu)先權(quán)日:2013年11月27日
【發(fā)明者】馮柏嵐, 徐波 申請人:北京中科模識科技有限公司