專利名稱:一種用于語音可視化的語譜圖彩色增強(qiáng)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于語音可視化的語譜圖彩色增強(qiáng)方法,屬于語音可視化領(lǐng)域。
背景技術(shù):
語音是人說話時(shí)發(fā)出的聲音,在人們的日常生活中是不可或缺的。但對(duì)于聽力障 礙者而言,無法通過聽覺感知語音,造成正常人難以體會(huì)的痛苦。研究表明,在人們對(duì)外界 的感知過程中,獲取信息最多的是視覺,其次才是聽覺,而且視覺和聽覺的結(jié)合比任何單一 感官所感知的信息都要多。另外,經(jīng)驗(yàn)告訴我們,圖表是人們表達(dá)思想、理解事物最方便、最 直觀的方法,所以人們也試圖從視覺上來感知語音,或者利用視覺和聽覺的結(jié)合來傳遞更 多的有用信息。本發(fā)明的目的就是探索和尋找一種語音的可視化方法,即利用視覺元素來 表現(xiàn)語音,達(dá)到“通過視覺感知語音”的目的,為聽力障礙者理解語音、練習(xí)正確發(fā)音提供實(shí) 際幫助。本發(fā)明之前,很多語音可視化方法很多都是基于人臉模型。這種方法對(duì)發(fā)音口型 進(jìn)行定性或定量的描述。定性描述如圓唇、扁唇、開口的大小,舌位的高低等等?,F(xiàn)在許多 應(yīng)用領(lǐng)域需要對(duì)視覺語音進(jìn)行客觀上的定量度量,如虛擬人臉合成、機(jī)器自動(dòng)唇讀等等。 MPEG-4更是定義了人臉動(dòng)畫參數(shù)FAP(facialanimation parameter)。FAP參數(shù)的優(yōu)點(diǎn)使它 已經(jīng)成為人臉動(dòng)畫的國際標(biāo)準(zhǔn)?;诎l(fā)音器官的運(yùn)動(dòng)變化、人臉的表情來實(shí)現(xiàn)語音可視化的方法較為人性化,有 效剖析了人體的發(fā)音過程,有助于聽力受損人群練習(xí)發(fā)音。然而,就其語音可懂度而言,還 難以達(dá)到理想效果,除極少數(shù)專家以外,人們很難直接通過觀察發(fā)音器官的運(yùn)動(dòng)而準(zhǔn)確、有 效的感知語音。此外,視覺效果比較單一,表現(xiàn)力不強(qiáng)。
發(fā)明內(nèi)容
本發(fā)明為了克服上述缺點(diǎn),提供一種用于語音可視化的語譜圖彩色增強(qiáng)方法,能 夠利用不同色彩表示語音信號(hào)的頻譜結(jié)構(gòu),以圖像的方式在視覺上表示語音,無論聽力受 損人群還是普通人,在一個(gè)相對(duì)較短的訓(xùn)練之后,都可以分辨出不同發(fā)音。本發(fā)明的技術(shù)方案是—種用于語音可視化的語譜圖彩色增強(qiáng)方法,包括以下步驟第一步對(duì)原始語音信號(hào)分幀、加窗,提取每幀信號(hào)在各個(gè)特征頻帶內(nèi)的短時(shí)能量 值;第二步將語音信號(hào)的有效頻帶平均分為N個(gè)特征頻帶,分別計(jì)算每幀語音信號(hào) 在N個(gè)特征頻帶內(nèi)的能量值;m+N-lEm= sJ (η)(1)n=m其中,m是窗的起點(diǎn),N是窗長(點(diǎn)數(shù));第三步以各個(gè)特征頻帶內(nèi)的能量值為參數(shù)對(duì)相應(yīng)特征頻帶預(yù)先設(shè)定的色彩飽和度進(jìn)行修正;對(duì)N個(gè)頻帶內(nèi)的能量值進(jìn)行歸一化處理;第四步利用歸一化后的能量值對(duì)N特征頻帶既定色彩的飽和度進(jìn)行修正;第五步將語音信號(hào)N個(gè)特征頻帶的修正后的色相、飽和度、亮度利用色彩學(xué)轉(zhuǎn)換 公式轉(zhuǎn)化為RGB三原色值;第六步繪制直方圖,橫軸為時(shí)間軸,以幀為單位,縱軸為1-N,表示相應(yīng)的N個(gè)特 征頻帶,對(duì)每幀的N個(gè)特征頻帶進(jìn)行著色,其色彩為修正飽和度之后所對(duì)應(yīng)的RGB配色。上述第三步中歸一化處理時(shí)利用的最大值為第2-第12個(gè)頻帶的能量最大值&。 如果第1個(gè)能帶的能量大于&,則直接將其歸一化后的數(shù)值直接置1,即Em = max (E2: E12) (2)E E <E盡’二‘‘ 1 m(3) .1,Ex>EmEi'=與,i = 2-l2(4)Em上述第四步中修正的方法為將色彩飽和度的最大乘以相應(yīng)頻帶歸一化后的能量 值Ei',其中i = I-N ;修正后,能量越小的頻帶色彩飽和度越低。本發(fā)明的有益效果為1.提取參數(shù)簡單,易于實(shí)現(xiàn);2.語音信號(hào)色彩生成模塊,通過不同色彩反映語音信號(hào)頻譜的能量集中區(qū)域,易3.動(dòng)態(tài)反映出發(fā)音的幀間變化,符合發(fā)音規(guī)律;4.引入軟判決,對(duì)于每個(gè)發(fā)音不做硬性判決,而是采用不同色彩表示,不同發(fā)音人
圖1為用于語音可視化的語譜圖彩色增強(qiáng)系統(tǒng)框圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明所述的技術(shù)方案作進(jìn)一步的闡述。如圖1所示,是一種用于語音可視化的語譜圖彩色增強(qiáng)方法系統(tǒng)框圖,主要分為 三大塊特征參數(shù)提取模塊,色彩生成模塊和可視化效果圖形生成模塊。一、特征參數(shù)提取模塊首先對(duì)原始語音信號(hào)分幀、加窗之后,提取每幀信號(hào)在各個(gè)特征頻帶內(nèi)的短時(shí)能量值。(1).將語音信號(hào)的有效頻帶平均分為12個(gè)特征頻帶。例如,采樣率為 16KHz,有效頻帶為 0-8KHz,則 12 個(gè)特征頻帶依次為0-666. 67Hz、666. 67-1333. 33Hz、 1333. 33-2000Ηζ、2000Ηζ-2666·67Ηζ、2666·67-3333. 33Ηζ、3333· 33_4000Ηζ、 4000Ηζ-4666.67Ηζ、4666·67-5333.33Ηζ、5333·33_6000Ηζ、6000Ηζ_6666·67Ηζ、 6666. 67Ηζ-7333. 33Ηζ、7333. 33_8000Ηζ。分別計(jì)算每幀語音信號(hào)在這12個(gè)特征頻帶內(nèi)的能量值。(2).語音信號(hào)的短時(shí)能量wj·//·Em= Yj sJ (η)其中,m是窗的起點(diǎn),N是窗長(點(diǎn)數(shù))。二、色彩生成模塊 (1).對(duì)12個(gè)頻帶內(nèi)的能量值進(jìn)行歸一化處理。由于第1個(gè)頻帶(低頻)內(nèi)的能 量通常遠(yuǎn)大于其它能帶,為了達(dá)到較好視覺效果,在此,歸一化時(shí)利用的最大值為第2-第 12個(gè)頻帶的能量最大值&。如果第1個(gè)能帶的能量大于^11,則直接將其歸一化后的數(shù)值直 接置1。即Em = max (E2: E12) (2)= E]<Em(3)I Ε) EmΕ.’丄,“2 — 12(4)Em(2).設(shè)定12個(gè)特征頻帶的初始色彩。顏色空間是由顏色的三個(gè)參數(shù)組成的顏色三維空間。三個(gè)參數(shù)在對(duì)應(yīng)的三維空間 用色量的均勻變化互相交織起來,構(gòu)成一個(gè)理想的顏色空間。同一種顏色在不同坐標(biāo)系下 具有不同的表達(dá)方法。如RGB,HSB。RGB顏色立方體是利用色光三原色來描述物體顏色特征的。在計(jì)算機(jī)圖像處理軟 件和圖像處理軟件的色彩管理系統(tǒng)中,RGB顏色模式是掃描儀、顯示器所使用的顏色系統(tǒng), 是一個(gè)與設(shè)備相關(guān)的顏色空間。HSB是基于人對(duì)顏色的感覺,而不是RGB的計(jì)算機(jī)值。HSB系統(tǒng)里將顏色看做由色 相(hue)、飽和度(saturation)、亮度(brightness)組成的。橫軸表示不同的色相,縱軸表 示飽和度,由上至下色彩飽和度由240逐漸降至0。不論色相、飽和度為何值,亮度為最大值 240時(shí)均表現(xiàn)為白色,亮度為0時(shí)表現(xiàn)為黑色。首先用RGB數(shù)值繪制12個(gè)特征頻帶的初始色彩,并計(jì)算出對(duì)應(yīng)的HSB數(shù)值,分別 如表1、表2所示。表 1頻帶RGB12550127. 5225502553127. 50255CN 102044254 A說明書3/5頁) 1Γν權(quán)利要求
1.一種用于語音可視化的語譜圖彩色增強(qiáng)方法,其特征在于包括以下步驟 第一步對(duì)原始語音信號(hào)分幀、加窗,提取每幀信號(hào)在各個(gè)特征頻帶內(nèi)的短時(shí)能量值; 第二步將語音信號(hào)的有效頻帶平均分為N個(gè)特征頻帶,分別計(jì)算每幀語音信號(hào)在N個(gè)特征頻帶內(nèi)的能量值;
2.根據(jù)權(quán)利要求1所述的一種用于語音可視化的語譜圖彩色增強(qiáng)方法,其特征在于 上述第三步中歸一化處理時(shí)利用的最大值為第2-第N個(gè)頻帶的能量最大值&,如果第1個(gè) 能帶的能量大于&,則直接將其歸一化后的數(shù)值直接置1,即
3.根據(jù)權(quán)利要求1或2所述的一種用于語音可視化的語譜圖彩色增強(qiáng)方法,其特征 在于上述第四步中修正的方法為將色彩飽和度的最大乘以相應(yīng)頻帶歸一化后的能量值 Ei',其中i = I-N ;修正后,能量越小的頻帶色彩飽和度越低。
全文摘要
本發(fā)明為一種用于語音可視化的語譜圖彩色增強(qiáng)方法,包括對(duì)原始語音信號(hào)分幀、加窗,提取每幀信號(hào)在各個(gè)特征頻帶內(nèi)的短時(shí)能量值;將語音信號(hào)的有效頻帶平均分為N個(gè)特征頻帶,分別計(jì)算每幀語音信號(hào)在N個(gè)特征頻帶內(nèi)的能量值;以各個(gè)特征頻帶內(nèi)的能量值為參數(shù)對(duì)相應(yīng)特征頻帶預(yù)先設(shè)定的色彩飽和度進(jìn)行修正;對(duì)N個(gè)頻帶內(nèi)的能量值進(jìn)行歸一化處理;利用歸一化后的能量值對(duì)N特征頻帶既定色彩的飽和度進(jìn)行修正;將語音信號(hào)N個(gè)特征頻帶的修正后的色相、飽和度、亮度利用色彩學(xué)轉(zhuǎn)換公式轉(zhuǎn)化為RGB三原色值;繪制直方圖。本發(fā)明語音信號(hào)色彩生成模塊,通過不同色彩反映語音信號(hào)頻譜的能量集中區(qū)域,易于辨識(shí);動(dòng)態(tài)反映出發(fā)音的幀間變化,符合發(fā)音規(guī)律。
文檔編號(hào)G10L21/06GK102044254SQ20091023564
公開日2011年5月4日 申請(qǐng)日期2009年10月10日 優(yōu)先權(quán)日2009年10月10日
發(fā)明者匡鏡明, 王晶, 董欣瑋, 趙勝輝 申請(qǐng)人:北京理工大學(xué)