一種英語有聲影像資料自動(dòng)加注英語字幕的方法
【專利摘要】本發(fā)明公開了一種英語有聲影像資料自動(dòng)加注英語字幕的方法,包括如下步驟:步驟一、獲取有聲影像中語音信號(hào)x(n)及該語音在有聲影像中所對應(yīng)的時(shí)間;步驟二、對原始信號(hào)x(n)進(jìn)行預(yù)加重和加漢明窗;步驟三、進(jìn)行離散傅里葉變換得到頻譜;步驟四、將頻譜系數(shù)用三角濾波器進(jìn)行濾波處理,得到每個(gè)濾波器輸出的對數(shù)能量;步驟五、進(jìn)行離散余弦變換,得到MFCC參數(shù);步驟六、提取MFCC特征向量;步驟七、將MFCC特征向量與數(shù)據(jù)庫中存儲(chǔ)的單詞的特征向量進(jìn)行匹配,以得到相匹配的單詞文字;步驟八、將相匹配的單詞文字在所對應(yīng)的時(shí)間上顯示到聲影像資料中。
【專利說明】
一種英語有聲影像資料自動(dòng)加注英語字幕的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,特別涉及一種英語有聲影像資料自動(dòng)加注英語字 幕的方法。
【背景技術(shù)】
[0002] 目前市面上的英語有聲影像資料的英語字幕疊加 ,一般通過人工方式將英語有聲 影像資料中的英語轉(zhuǎn)換成英語文字,再交給視頻畫面或影像畫面字幕疊加機(jī)將表達(dá)英語意 思的英語文字字幕疊加在視頻畫面或影像畫面上,由于存在大量的沒有英語字幕的英語有 聲影像資料,因此,采用人工轉(zhuǎn)換英語字幕的方式費(fèi)工費(fèi)時(shí),而且隨著數(shù)字有聲影像技術(shù)的 出現(xiàn),特別是計(jì)算機(jī)系統(tǒng)用于處理視頻影像資料的技術(shù)出現(xiàn),越來越需要有一種能自動(dòng)根 據(jù)英語語音轉(zhuǎn)換成英語字幕的技術(shù)出現(xiàn),而且這種能自動(dòng)根據(jù)英語語音轉(zhuǎn)換成英語字幕的 技術(shù)不但能在帶英語系統(tǒng)的計(jì)算機(jī)系統(tǒng)中運(yùn)行,還能在不帶英語系統(tǒng)而只帶128個(gè)字符的 ASCII碼系統(tǒng)的以美國為代表的西方國家的計(jì)算機(jī)系統(tǒng)中運(yùn)行,以滿足世界互聯(lián)網(wǎng)的日益 廣泛的運(yùn)用和云計(jì)算、物聯(lián)網(wǎng)以及世界各地英語熱出現(xiàn)的新形勢的需要。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的是提供一種英語有聲影像資料自動(dòng)加注英語字幕的方法,通過對有 聲影像中英語語音進(jìn)行識(shí)別轉(zhuǎn)換為英文文字添加到影像中,克服了人工添加費(fèi)工費(fèi)時(shí)的缺 陷。
[0004] 本發(fā)明提供的技術(shù)方案為:
[0005] -種英語有聲影像資料自動(dòng)加注英語字幕的方法,包括如下步驟:
[0006] 步驟一、獲取有聲影像中語音信號(hào)x(n)及該語音在有聲影像中所對應(yīng)的時(shí)間,其 中η為米樣點(diǎn)標(biāo)號(hào);
[0007] 步驟二、對原始信號(hào)χ(η)進(jìn)行預(yù)加重,得到加重后信號(hào)
[0008] y(n) =χ(η)-〇 · 95χ(η_1),
[0009] 加漢明窗
[0010] sw(n) =y(n)*w(n)
[0011] 其中,¥(1〇 = 〇.54-〇.46。〇8(21131/^-1),11 = 0,1,1(,^1,8?(11)為加窗后的信號(hào)』為 最后一個(gè)米樣點(diǎn)的標(biāo)號(hào);
[0012] 步驟三、對sw(n)進(jìn)行離散傅里葉變換得到頻譜:
[0013]
[0014] 其中,j為虛數(shù)單位;
[0015] 步驟四、將頻譜系數(shù)用三角濾波器進(jìn)行濾波處理,得到每個(gè)濾波器輸出的對數(shù)能 量:
[0016]
[0017] 其中,M為濾波器的個(gè)數(shù);
[0018] 步驟五、進(jìn)行離散余弦變換,得到MFCC參數(shù):
[0019]
[0020] 步驟六、將能量和C^C2,K,C12組成一個(gè)13維特征向量C,并將C連續(xù)進(jìn)行兩次差分, 得到Δ C和Δ Δ C,將C、Δ C、Δ Δ C組成的39維特征向量作為MFCC特征向量;
[0021] 步驟七、將MFCC特征向量與數(shù)據(jù)庫中存儲(chǔ)的單詞的特征向量進(jìn)行匹配,以得到相 匹配的單詞文字;
[0022] 步驟八、將相匹配的單詞文字在所對應(yīng)的時(shí)間上顯示到聲影像資料中。
[0023]優(yōu)選的是,步驟一中,還包括將獲取的模擬語音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),轉(zhuǎn)換時(shí)的采 樣頻率為8KHz。
[0024] 優(yōu)選的是,步驟八中,將識(shí)別出的相鄰兩個(gè)單詞文字用空格隔開。本發(fā)明的有益效 果是:本發(fā)明提供的英語有聲影像資料自動(dòng)加注英語字幕的方法,對有聲影像資料中語音 信息進(jìn)行分析處理,轉(zhuǎn)化為英語文字添加到影像中,轉(zhuǎn)換正確率高,克服了人工添加費(fèi)工費(fèi) 時(shí)的缺陷。
【附圖說明】
[0025] 圖1為本發(fā)明所述的英語有聲影像資料自動(dòng)加注英語字幕的方法流程圖。
【具體實(shí)施方式】
[0026] 下面結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文 字能夠據(jù)以實(shí)施。
[0027] 如圖1所示,本發(fā)明提供了一種英語口語朗讀考試評(píng)分方法,包括如下步驟:
[0028] 步驟一 S110、獲取有聲影像中語音信號(hào)及該語音在有聲影像中所對應(yīng)的時(shí)間。
[0029] 將有聲影像資料中的語音信息進(jìn)行分離并獲取該語音信息。由于該語音信號(hào)為模 擬信號(hào),需要進(jìn)行數(shù)字化采樣處理。由于一般人的語音頻率在4KHz以下,只有當(dāng)采樣頻率大 于信號(hào)中最大頻率的2倍時(shí),采樣之后的數(shù)字信號(hào)才能夠較為完整的表達(dá)原始語音信號(hào)中 的有效信息。因此,本發(fā)明中采樣頻率為8KHz。
[0030] 步驟二S120、對所述獲取的語音信號(hào)進(jìn)行預(yù)處理,得到經(jīng)預(yù)處理的語音信號(hào)。
[0031]在對語音信號(hào)進(jìn)行分析和處理之前,必須對其進(jìn)行加重、加窗等預(yù)處理操作。這些 操作的目的是消除由于人類發(fā)生氣管本身和語音信號(hào)采集設(shè)備的高次諧波失真、高頻、混 疊等因素對語音信號(hào)質(zhì)量的影響。語音預(yù)處理影響著語音特征提取的結(jié)果,更平滑均勻的 語音信號(hào)可為語音特征提取提供更優(yōu)質(zhì)的參數(shù),從而提高語音處理質(zhì)量。
[0032]預(yù)加重:
[0033]受口鼻輻射和聲門激勵(lì)的影響,語音信號(hào)的平均功率譜高頻端大約在800Hz以上 按6dB/oct(倍頻程)衰減。因此,在對語音信號(hào)進(jìn)行分析之前,一般采用一個(gè)6dB/oct的高頻 提升預(yù)加重?cái)?shù)字濾波器來提升語音信號(hào)的高頻部分,使得語音信號(hào)的頻譜變得平坦,能用 同樣的信噪比求低頻到高頻整個(gè)頻帶的頻譜。濾波響應(yīng)函數(shù)為:
[0034] H(z) = 1-0.95Z-1
[0035]則預(yù)加重處理后的結(jié)果y(n)可以由輸入的語音信號(hào)x(n)表示為:
[0036] y(n)=x(n)-〇. 95x(n-l) 〇
[0037] 加窗:
[0038] 為加強(qiáng)語音信號(hào)中抽樣η附近的語音波形、減弱波形的其余部分,在分幀處理之后 還要對其進(jìn)行加窗處理。對語音信號(hào)的各個(gè)短段進(jìn)行加窗處理,相當(dāng)于對各個(gè)短段進(jìn)行某 種運(yùn)算或者變換,具體計(jì)算公式如下:
[0039]
[0040]其中T□表示某種變換,線性的或者非線性的都可以,s(n)為輸入語音信號(hào)序列, Qn是所有各段經(jīng)過處理后得到的一個(gè)時(shí)間序列。
[0041 ]最常用的窗函數(shù)包括漢明窗(Hamming)、矩形窗和漢寧窗(Hanning),其定義分別 為:
[0042] (1)漢明窗
[0043]
[0044]
[0045]
[0046]
[0047]
[0048] 矩形窗的主瓣較窄,具有較高的頻率分辨率,但也由于其具有較高的旁瓣容易導(dǎo) 致相鄰諧波之間的干擾比較嚴(yán)重,相鄰諧波間隔內(nèi)有時(shí)疊加有時(shí)抵消而產(chǎn)生嚴(yán)重泄露。漢 明窗是最為普遍使用的,可以得到比矩形窗平滑得多的頻譜。本發(fā)明采用漢明窗對語音信
號(hào)進(jìn);[亍jjn奮/rhi田七n、、A7R曰奮efth/當(dāng)具。
[0049]
[0050]
[005? ] η為米樣點(diǎn)標(biāo)號(hào),N為最后一個(gè)米樣點(diǎn)標(biāo)號(hào)。
[0052]步驟三S130、對Sw(n)進(jìn)行離散傅里葉變換得到頻譜:
[0053]
[0054]步驟四S140、將頻譜系數(shù)用三角濾波器進(jìn)行濾波處理,得到每個(gè)濾波器輸出的對 數(shù)能量:
[0055]
[0056] 其中,Hi(k)為第i個(gè)濾波器的頻率響應(yīng),M為濾波器的個(gè)數(shù)。
[0057]步驟五Sl 50、進(jìn)行離散余弦變換,得到MFCC參數(shù):
[0058]
[0059] 步驟六S160、將對數(shù)能量和ChC2J, C12組成一個(gè)13維特征向量 將C進(jìn)行一次差分,得到 Δ C= {C1-Co,C2-C1,K,Co-C12} = { Δ Co,Δ C1,K,Δ C12},再進(jìn)行一次差 分,得到 A AC={ AC1-ACo, AC2-AC1J, AC『AC12}。將C、AC、Δ AC組成的39維特征向 量作為MFCC特征向量。
[0060] 語音信號(hào)特征參數(shù)提取就是去除與語音處理無關(guān)緊要的冗余信息,對語音信號(hào)進(jìn) 行分析處理。原始語音信號(hào)不僅數(shù)據(jù)量十分大,而且由于發(fā)聲人的不同、發(fā)聲響度、長度等 原因而存在太多干擾語義的信息,因此不適合直接用于語音處理。特征參數(shù)的好壞會(huì)直接 影響到語音處理性能,合適的特征提取方法會(huì)帶來更佳的結(jié)果。所以需要對原始語音信號(hào) 進(jìn)行特征參數(shù)提取,最理想的語音特征只描述語義信息,語音數(shù)據(jù)總量也小。
[0061] 語音的時(shí)域特征主要有語音的基音周期、短時(shí)(平均)過零率和短時(shí)(平均)能量。 語音的頻率特征主要有快速傅立葉變換(Fast Fourier Transformat ion,F(xiàn)FT)頻譜系數(shù)、 線性預(yù)測系數(shù)(Linear Prediction Coeff icient,LPC)、線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)和梅爾頻率倒譜系數(shù)(MelFrequency Cepstrum Coeff icient,MFCC)等。實(shí)驗(yàn)表明,基于聲道的LPCC特征參數(shù)與基于聽覺特性的MFCC特征參 數(shù)都是將語音從時(shí)域變換到倒譜域上,都能較好地表征語音特征。其不同點(diǎn)在于:LPCC基于 發(fā)聲模型,利用線性預(yù)測編碼技術(shù)求倒譜系數(shù);MFCC基于聽覺模型,以語音通過該模型(濾 波器組)的輸出為聲學(xué)特征,直接通過離散傅立葉變換(DTF)進(jìn)行變換。
[0062]步驟七S170、將MFCC特征向量與數(shù)據(jù)庫中存儲(chǔ)的單詞的特征向量進(jìn)行匹配,以得 到相匹配的單詞文字;
[0063]步驟八S180、將相匹配的單詞文字在所對應(yīng)的時(shí)間上顯示到聲影像資料中。
[0064] 在獲取原始語音信息同時(shí)也獲取了該語音信息在有聲資料中的時(shí)間信息,而在得 到了語音信息所對應(yīng)的文字時(shí),就可以按照時(shí)間將該文字信息顯示到有聲資料相應(yīng)的時(shí)間 上,從而完成了字幕的添加。
[0065] 盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列 運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對于熟悉本領(lǐng)域的人員而言,可容易地 實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限 于特定的細(xì)節(jié)和這里示出與描述的圖例。
【主權(quán)項(xiàng)】
1. 一種英語有聲影像資料自動(dòng)加注英語字幕的方法,其特征在于,包括如下步驟: 步驟一、獲取有聲影像中語音信號(hào)x(n)及該語音在有聲影像中所對應(yīng)的時(shí)間,其中η為 采樣點(diǎn)標(biāo)號(hào); 步驟二、對原始信號(hào)χ(η)進(jìn)行預(yù)加重,得到加重后信號(hào) y(n)=x(n)-〇.95x(n-l), 加漢明窗 s^n)=y(n)*w(n) 其中,w(n)=0.54-0.46cos(化VN-l),n = 0,l,K,N-I,sw(n)為加窗后的信號(hào),N為最后 一個(gè)采樣點(diǎn)的標(biāo)號(hào); 步驟Ξ、對sw(n)進(jìn)行離散傅里葉變換得到頻譜:其中,j為虛數(shù)單位; 步驟四、將頻譜系數(shù)用Ξ角濾波器進(jìn)行濾波處理,得到每個(gè)濾波器輸出的對數(shù)能量: 其中,Μ為濾波器的個(gè)數(shù);步驟五、進(jìn)行離散余弦變換,得到MFCC參數(shù):步驟六、將對數(shù)能量和Cl,C2, Κ,Ci2組成一個(gè)13維特征向量C,并將C連續(xù)進(jìn)行兩次差分, 得到Δ C和Δ Δ C,將C、Δ C、Δ Δ C組成的39維特征向量作為MFCC特征向量; 步驟屯、將MFCC特征向量與數(shù)據(jù)庫中存儲(chǔ)的單詞的特征向量進(jìn)行匹配,W得到相匹配 的單詞文字; 步驟八、將相匹配的單詞文字在所對應(yīng)的時(shí)間上顯示到聲影像資料中。2. 根據(jù)權(quán)利要求1所述的英語有聲影像資料自動(dòng)加注英語字幕的方法,其特征在于,步 驟一中,還包括將獲取的模擬語音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),轉(zhuǎn)換時(shí)的采樣頻率為SIfflz。3. 根據(jù)權(quán)利要求2所述的英語有聲影像資料自動(dòng)加注英語字幕的方法,其特征在于,步 驟八中,將識(shí)別出的相鄰兩個(gè)單詞文字用空格隔開。
【文檔編號(hào)】G10L15/00GK105845126SQ201610345908
【公開日】2016年8月10日
【申請日】2016年5月23日
【發(fā)明人】姜華, 顧艷, 胡帥, 叢巖, 周健敏, 杜連艷, 李飛, 李一飛, 姚大偉
【申請人】渤海大學(xué)