一種英語有聲影像資料自動(dòng)加注英語字幕的方法

文檔序號(hào)：10490221閱讀：406來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種英語有聲影像資料自動(dòng)加注英語字幕的方法
【專利摘要】本發(fā)明公開了一種英語有聲影像資料自動(dòng)加注英語字幕的方法，包括如下步驟：步驟一、獲取有聲影像中語音信號(hào)x(n)及該語音在有聲影像中所對應(yīng)的時(shí)間；步驟二、對原始信號(hào)x(n)進(jìn)行預(yù)加重和加漢明窗；步驟三、進(jìn)行離散傅里葉變換得到頻譜；步驟四、將頻譜系數(shù)用三角濾波器進(jìn)行濾波處理，得到每個(gè)濾波器輸出的對數(shù)能量；步驟五、進(jìn)行離散余弦變換，得到MFCC參數(shù)；步驟六、提取MFCC特征向量；步驟七、將MFCC特征向量與數(shù)據(jù)庫中存儲(chǔ)的單詞的特征向量進(jìn)行匹配，以得到相匹配的單詞文字；步驟八、將相匹配的單詞文字在所對應(yīng)的時(shí)間上顯示到聲影像資料中。
【專利說明】
一種英語有聲影像資料自動(dòng)加注英語字幕的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域，特別涉及一種英語有聲影像資料自動(dòng)加注英語字幕的方法。
【背景技術(shù)】
[0002] 目前市面上的英語有聲影像資料的英語字幕疊加，一般通過人工方式將英語有聲影像資料中的英語轉(zhuǎn)換成英語文字，再交給視頻畫面或影像畫面字幕疊加機(jī)將表達(dá)英語意思的英語文字字幕疊加在視頻畫面或影像畫面上，由于存在大量的沒有英語字幕的英語有聲影像資料，因此，采用人工轉(zhuǎn)換英語字幕的方式費(fèi)工費(fèi)時(shí)，而且隨著數(shù)字有聲影像技術(shù)的出現(xiàn)，特別是計(jì)算機(jī)系統(tǒng)用于處理視頻影像資料的技術(shù)出現(xiàn)，越來越需要有一種能自動(dòng)根據(jù)英語語音轉(zhuǎn)換成英語字幕的技術(shù)出現(xiàn)，而且這種能自動(dòng)根據(jù)英語語音轉(zhuǎn)換成英語字幕的技術(shù)不但能在帶英語系統(tǒng)的計(jì)算機(jī)系統(tǒng)中運(yùn)行，還能在不帶英語系統(tǒng)而只帶128個(gè)字符的 ASCII碼系統(tǒng)的以美國為代表的西方國家的計(jì)算機(jī)系統(tǒng)中運(yùn)行，以滿足世界互聯(lián)網(wǎng)的日益廣泛的運(yùn)用和云計(jì)算、物聯(lián)網(wǎng)以及世界各地英語熱出現(xiàn)的新形勢的需要。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的是提供一種英語有聲影像資料自動(dòng)加注英語字幕的方法，通過對有聲影像中英語語音進(jìn)行識(shí)別轉(zhuǎn)換為英文文字添加到影像中，克服了人工添加費(fèi)工費(fèi)時(shí)的缺陷。
[0004] 本發(fā)明提供的技術(shù)方案為：
[0005] -種英語有聲影像資料自動(dòng)加注英語字幕的方法，包括如下步驟：
[0006] 步驟一、獲取有聲影像中語音信號(hào)x(n)及該語音在有聲影像中所對應(yīng)的時(shí)間，其中η為米樣點(diǎn)標(biāo)號(hào)；
[0007] 步驟二、對原始信號(hào)χ(η)進(jìn)行預(yù)加重，得到加重后信號(hào)
[0008] y(n) =χ(η)-〇 · 95χ(η_1)，
[0009] 加漢明窗
[0010] sw(n) =y(n)*w(n)
[0011] 其中，￥(1〇 = 〇.54-〇.46。〇8(21131/^-1)，11 = 0，1，1(，^1，8?(11)為加窗后的信號(hào)』為最后一個(gè)米樣點(diǎn)的標(biāo)號(hào)；
[0012] 步驟三、對sw(n)進(jìn)行離散傅里葉變換得到頻譜：
[0013]
[0014] 其中，j為虛數(shù)單位；
[0015] 步驟四、將頻譜系數(shù)用三角濾波器進(jìn)行濾波處理，得到每個(gè)濾波器輸出的對數(shù)能量：
[0016]
[0017] 其中，M為濾波器的個(gè)數(shù)；
[0018] 步驟五、進(jìn)行離散余弦變換，得到MFCC參數(shù)：
[0019]
[0020] 步驟六、將能量和C^C2，K，C12組成一個(gè)13維特征向量C，并將C連續(xù)進(jìn)行兩次差分，得到Δ C和Δ Δ C，將C、Δ C、Δ Δ C組成的39維特征向量作為MFCC特征向量；
[0021] 步驟七、將MFCC特征向量與數(shù)據(jù)庫中存儲(chǔ)的單詞的特征向量進(jìn)行匹配，以得到相匹配的單詞文字；
[0022] 步驟八、將相匹配的單詞文字在所對應(yīng)的時(shí)間上顯示到聲影像資料中。
[0023]優(yōu)選的是，步驟一中，還包括將獲取的模擬語音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)，轉(zhuǎn)換時(shí)的采樣頻率為8KHz。
[0024] 優(yōu)選的是，步驟八中，將識(shí)別出的相鄰兩個(gè)單詞文字用空格隔開。本發(fā)明的有益效果是:本發(fā)明提供的英語有聲影像資料自動(dòng)加注英語字幕的方法，對有聲影像資料中語音信息進(jìn)行分析處理，轉(zhuǎn)化為英語文字添加到影像中，轉(zhuǎn)換正確率高，克服了人工添加費(fèi)工費(fèi) 時(shí)的缺陷。
【附圖說明】
[0025] 圖1為本發(fā)明所述的英語有聲影像資料自動(dòng)加注英語字幕的方法流程圖。
【具體實(shí)施方式】
[0026] 下面結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)說明，以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。
[0027] 如圖1所示，本發(fā)明提供了一種英語口語朗讀考試評(píng)分方法，包括如下步驟：
[0028] 步驟一 S110、獲取有聲影像中語音信號(hào)及該語音在有聲影像中所對應(yīng)的時(shí)間。
[0029] 將有聲影像資料中的語音信息進(jìn)行分離并獲取該語音信息。由于該語音信號(hào)為模擬信號(hào)，需要進(jìn)行數(shù)字化采樣處理。由于一般人的語音頻率在4KHz以下，只有當(dāng)采樣頻率大于信號(hào)中最大頻率的2倍時(shí)，采樣之后的數(shù)字信號(hào)才能夠較為完整的表達(dá)原始語音信號(hào)中的有效信息。因此，本發(fā)明中采樣頻率為8KHz。
[0030] 步驟二S120、對所述獲取的語音信號(hào)進(jìn)行預(yù)處理，得到經(jīng)預(yù)處理的語音信號(hào)。
[0031]在對語音信號(hào)進(jìn)行分析和處理之前，必須對其進(jìn)行加重、加窗等預(yù)處理操作。這些操作的目的是消除由于人類發(fā)生氣管本身和語音信號(hào)采集設(shè)備的高次諧波失真、高頻、混疊等因素對語音信號(hào)質(zhì)量的影響。語音預(yù)處理影響著語音特征提取的結(jié)果，更平滑均勻的語音信號(hào)可為語音特征提取提供更優(yōu)質(zhì)的參數(shù)，從而提高語音處理質(zhì)量。
[0032]預(yù)加重：
[0033]受口鼻輻射和聲門激勵(lì)的影響，語音信號(hào)的平均功率譜高頻端大約在800Hz以上按6dB/oct(倍頻程)衰減。因此，在對語音信號(hào)進(jìn)行分析之前，一般采用一個(gè)6dB/oct的高頻提升預(yù)加重?cái)?shù)字濾波器來提升語音信號(hào)的高頻部分，使得語音信號(hào)的頻譜變得平坦，能用同樣的信噪比求低頻到高頻整個(gè)頻帶的頻譜。濾波響應(yīng)函數(shù)為：
[0034] H(z) = 1-0.95Z-1
[0035]則預(yù)加重處理后的結(jié)果y(n)可以由輸入的語音信號(hào)x(n)表示為：
[0036] y(n)=x(n)-〇. 95x(n-l) 〇
[0037] 加窗：
[0038] 為加強(qiáng)語音信號(hào)中抽樣η附近的語音波形、減弱波形的其余部分，在分幀處理之后還要對其進(jìn)行加窗處理。對語音信號(hào)的各個(gè)短段進(jìn)行加窗處理，相當(dāng)于對各個(gè)短段進(jìn)行某種運(yùn)算或者變換，具體計(jì)算公式如下：
[0039]
[0040]其中T□表示某種變換，線性的或者非線性的都可以，s(n)為輸入語音信號(hào)序列， Qn是所有各段經(jīng)過處理后得到的一個(gè)時(shí)間序列。
[0041 ]最常用的窗函數(shù)包括漢明窗(Hamming)、矩形窗和漢寧窗(Hanning)，其定義分別為：
[0042] (1)漢明窗
[0043]
[0044]
[0045]
[0046]
[0047]
[0048] 矩形窗的主瓣較窄，具有較高的頻率分辨率，但也由于其具有較高的旁瓣容易導(dǎo) 致相鄰諧波之間的干擾比較嚴(yán)重，相鄰諧波間隔內(nèi)有時(shí)疊加有時(shí)抵消而產(chǎn)生嚴(yán)重泄露。漢明窗是最為普遍使用的，可以得到比矩形窗平滑得多的頻譜。本發(fā)明采用漢明窗對語音信
號(hào)進(jìn)；[亍jjn奮/rhi田七n、、A7R曰奮efth/當(dāng)具。
[0049]
[0050]
[005? ] η為米樣點(diǎn)標(biāo)號(hào)，N為最后一個(gè)米樣點(diǎn)標(biāo)號(hào)。
[0052]步驟三S130、對Sw(n)進(jìn)行離散傅里葉變換得到頻譜：
[0053]
[0054]步驟四S140、將頻譜系數(shù)用三角濾波器進(jìn)行濾波處理，得到每個(gè)濾波器輸出的對數(shù)能量：
[0055]
[0056] 其中，Hi(k)為第i個(gè)濾波器的頻率響應(yīng)，M為濾波器的個(gè)數(shù)。
[0057]步驟五Sl 50、進(jìn)行離散余弦變換，得到MFCC參數(shù)：
[0058]
[0059] 步驟六S160、將對數(shù)能量和ChC2J, C12組成一個(gè)13維特征向量將C進(jìn)行一次差分，得到 Δ C= {C1-Co，C2-C1，K，Co-C12} = { Δ Co，Δ C1，K，Δ C12}，再進(jìn)行一次差分，得到 A AC={ AC1-ACo, AC2-AC1J, AC『AC12}。將C、AC、Δ AC組成的39維特征向量作為MFCC特征向量。
[0060] 語音信號(hào)特征參數(shù)提取就是去除與語音處理無關(guān)緊要的冗余信息，對語音信號(hào)進(jìn) 行分析處理。原始語音信號(hào)不僅數(shù)據(jù)量十分大，而且由于發(fā)聲人的不同、發(fā)聲響度、長度等原因而存在太多干擾語義的信息，因此不適合直接用于語音處理。特征參數(shù)的好壞會(huì)直接影響到語音處理性能，合適的特征提取方法會(huì)帶來更佳的結(jié)果。所以需要對原始語音信號(hào) 進(jìn)行特征參數(shù)提取，最理想的語音特征只描述語義信息，語音數(shù)據(jù)總量也小。
[0061] 語音的時(shí)域特征主要有語音的基音周期、短時(shí)(平均)過零率和短時(shí)(平均）能量。語音的頻率特征主要有快速傅立葉變換(Fast Fourier Transformat ion，F(xiàn)FT)頻譜系數(shù)、線性預(yù)測系數(shù)（Linear Prediction Coeff icient，LPC)、線性預(yù)測倒譜系數(shù)（Linear Prediction Cepstrum Coefficient，LPCC)和梅爾頻率倒譜系數(shù)（MelFrequency Cepstrum Coeff icient，MFCC)等。實(shí)驗(yàn)表明，基于聲道的LPCC特征參數(shù)與基于聽覺特性的MFCC特征參數(shù)都是將語音從時(shí)域變換到倒譜域上，都能較好地表征語音特征。其不同點(diǎn)在于:LPCC基于發(fā)聲模型，利用線性預(yù)測編碼技術(shù)求倒譜系數(shù);MFCC基于聽覺模型，以語音通過該模型(濾波器組)的輸出為聲學(xué)特征，直接通過離散傅立葉變換(DTF)進(jìn)行變換。
[0062]步驟七S170、將MFCC特征向量與數(shù)據(jù)庫中存儲(chǔ)的單詞的特征向量進(jìn)行匹配，以得到相匹配的單詞文字；
[0063]步驟八S180、將相匹配的單詞文字在所對應(yīng)的時(shí)間上顯示到聲影像資料中。
[0064] 在獲取原始語音信息同時(shí)也獲取了該語音信息在有聲資料中的時(shí)間信息，而在得到了語音信息所對應(yīng)的文字時(shí)，就可以按照時(shí)間將該文字信息顯示到有聲資料相應(yīng)的時(shí)間上，從而完成了字幕的添加。
[0065] 盡管本發(fā)明的實(shí)施方案已公開如上，但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用，它完全可以被適用于各種適合本發(fā)明的領(lǐng)域，對于熟悉本領(lǐng)域的人員而言，可容易地實(shí)現(xiàn)另外的修改，因此在不背離權(quán)利要求及等同范圍所限定的一般概念下，本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。
【主權(quán)項(xiàng)】
1. 一種英語有聲影像資料自動(dòng)加注英語字幕的方法，其特征在于，包括如下步驟：步驟一、獲取有聲影像中語音信號(hào)x(n)及該語音在有聲影像中所對應(yīng)的時(shí)間，其中η為采樣點(diǎn)標(biāo)號(hào)；步驟二、對原始信號(hào)χ(η)進(jìn)行預(yù)加重，得到加重后信號(hào) y(n)=x(n)-〇.95x(n-l)，加漢明窗 s^n)=y(n)*w(n) 其中，w(n)=0.54-0.46cos(化VN-l)，n = 0，l，K，N-I，sw(n)為加窗后的信號(hào)，N為最后一個(gè)采樣點(diǎn)的標(biāo)號(hào)；步驟Ξ、對sw(n)進(jìn)行離散傅里葉變換得到頻譜：其中，j為虛數(shù)單位；步驟四、將頻譜系數(shù)用Ξ角濾波器進(jìn)行濾波處理，得到每個(gè)濾波器輸出的對數(shù)能量：其中，Μ為濾波器的個(gè)數(shù)；步驟五、進(jìn)行離散余弦變換，得到MFCC參數(shù)：步驟六、將對數(shù)能量和Cl，C2, Κ，Ci2組成一個(gè)13維特征向量C，并將C連續(xù)進(jìn)行兩次差分，得到Δ C和Δ Δ C，將C、Δ C、Δ Δ C組成的39維特征向量作為MFCC特征向量；步驟屯、將MFCC特征向量與數(shù)據(jù)庫中存儲(chǔ)的單詞的特征向量進(jìn)行匹配，W得到相匹配的單詞文字；步驟八、將相匹配的單詞文字在所對應(yīng)的時(shí)間上顯示到聲影像資料中。2. 根據(jù)權(quán)利要求1所述的英語有聲影像資料自動(dòng)加注英語字幕的方法，其特征在于，步驟一中，還包括將獲取的模擬語音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)，轉(zhuǎn)換時(shí)的采樣頻率為SIfflz。3. 根據(jù)權(quán)利要求2所述的英語有聲影像資料自動(dòng)加注英語字幕的方法，其特征在于，步驟八中，將識(shí)別出的相鄰兩個(gè)單詞文字用空格隔開。
【文檔編號(hào)】G10L15/00GK105845126SQ201610345908
【公開日】2016年8月10日
【申請日】2016年5月23日
【發(fā)明人】姜華, 顧艷, 胡帥, 叢巖, 周健敏, 杜連艷, 李飛, 李一飛, 姚大偉
【申請人】渤海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姜華;顧艷;胡帥;叢巖;周健敏;杜連艷;李一飛;姚大偉;
技術(shù)所有人：渤海大學(xué);
我是此專利的發(fā)明人

上一篇：語音識(shí)別方法及其系統(tǒng)的制作方法
上一篇：語音合成方法和語音合成裝置的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種英語有聲影像資料自動(dòng)加注英語字幕的方法