一種用于語音可視化的語譜圖彩色增強(qiáng)方法

文檔序號(hào)：2822468閱讀：612來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種用于語音可視化的語譜圖彩色增強(qiáng)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于語音可視化的語譜圖彩色增強(qiáng)方法，屬于語音可視化領(lǐng)域。
背景技術(shù)：
語音是人說話時(shí)發(fā)出的聲音，在人們的日常生活中是不可或缺的。但對(duì)于聽力障礙者而言，無法通過聽覺感知語音，造成正常人難以體會(huì)的痛苦。研究表明，在人們對(duì)外界的感知過程中，獲取信息最多的是視覺，其次才是聽覺，而且視覺和聽覺的結(jié)合比任何單一感官所感知的信息都要多。另外，經(jīng)驗(yàn)告訴我們，圖表是人們表達(dá)思想、理解事物最方便、最直觀的方法，所以人們也試圖從視覺上來感知語音，或者利用視覺和聽覺的結(jié)合來傳遞更多的有用信息。本發(fā)明的目的就是探索和尋找一種語音的可視化方法，即利用視覺元素來表現(xiàn)語音，達(dá)到“通過視覺感知語音”的目的，為聽力障礙者理解語音、練習(xí)正確發(fā)音提供實(shí) 際幫助。本發(fā)明之前，很多語音可視化方法很多都是基于人臉模型。這種方法對(duì)發(fā)音口型進(jìn)行定性或定量的描述。定性描述如圓唇、扁唇、開口的大小，舌位的高低等等?，F(xiàn)在許多應(yīng)用領(lǐng)域需要對(duì)視覺語音進(jìn)行客觀上的定量度量，如虛擬人臉合成、機(jī)器自動(dòng)唇讀等等。 MPEG-4更是定義了人臉動(dòng)畫參數(shù)FAP(facialanimation parameter)。FAP參數(shù)的優(yōu)點(diǎn)使它已經(jīng)成為人臉動(dòng)畫的國際標(biāo)準(zhǔn)?；诎l(fā)音器官的運(yùn)動(dòng)變化、人臉的表情來實(shí)現(xiàn)語音可視化的方法較為人性化，有效剖析了人體的發(fā)音過程，有助于聽力受損人群練習(xí)發(fā)音。然而，就其語音可懂度而言，還難以達(dá)到理想效果，除極少數(shù)專家以外，人們很難直接通過觀察發(fā)音器官的運(yùn)動(dòng)而準(zhǔn)確、有效的感知語音。此外，視覺效果比較單一，表現(xiàn)力不強(qiáng)。

發(fā)明內(nèi)容
本發(fā)明為了克服上述缺點(diǎn)，提供一種用于語音可視化的語譜圖彩色增強(qiáng)方法，能夠利用不同色彩表示語音信號(hào)的頻譜結(jié)構(gòu)，以圖像的方式在視覺上表示語音，無論聽力受損人群還是普通人，在一個(gè)相對(duì)較短的訓(xùn)練之后，都可以分辨出不同發(fā)音。本發(fā)明的技術(shù)方案是—種用于語音可視化的語譜圖彩色增強(qiáng)方法，包括以下步驟第一步對(duì)原始語音信號(hào)分幀、加窗，提取每幀信號(hào)在各個(gè)特征頻帶內(nèi)的短時(shí)能量值；第二步將語音信號(hào)的有效頻帶平均分為N個(gè)特征頻帶，分別計(jì)算每幀語音信號(hào) 在N個(gè)特征頻帶內(nèi)的能量值；m+N-lEm= sJ (η)(1)n=m其中，m是窗的起點(diǎn)，N是窗長(點(diǎn)數(shù))；第三步以各個(gè)特征頻帶內(nèi)的能量值為參數(shù)對(duì)相應(yīng)特征頻帶預(yù)先設(shè)定的色彩飽和度進(jìn)行修正；對(duì)N個(gè)頻帶內(nèi)的能量值進(jìn)行歸一化處理；第四步利用歸一化后的能量值對(duì)N特征頻帶既定色彩的飽和度進(jìn)行修正；第五步將語音信號(hào)N個(gè)特征頻帶的修正后的色相、飽和度、亮度利用色彩學(xué)轉(zhuǎn)換公式轉(zhuǎn)化為RGB三原色值；第六步繪制直方圖，橫軸為時(shí)間軸，以幀為單位，縱軸為1-N，表示相應(yīng)的N個(gè)特征頻帶，對(duì)每幀的N個(gè)特征頻帶進(jìn)行著色，其色彩為修正飽和度之后所對(duì)應(yīng)的RGB配色。上述第三步中歸一化處理時(shí)利用的最大值為第2-第12個(gè)頻帶的能量最大值&。如果第1個(gè)能帶的能量大于&，則直接將其歸一化后的數(shù)值直接置1，即Em = max (E2: E12) (2)E E <E盡’二‘‘ 1 m(3) .1，Ex>EmEi'=與,i = 2-l2(4)Em上述第四步中修正的方法為將色彩飽和度的最大乘以相應(yīng)頻帶歸一化后的能量值Ei'，其中i = I-N ；修正后，能量越小的頻帶色彩飽和度越低。本發(fā)明的有益效果為1.提取參數(shù)簡單，易于實(shí)現(xiàn)；2.語音信號(hào)色彩生成模塊，通過不同色彩反映語音信號(hào)頻譜的能量集中區(qū)域，易3.動(dòng)態(tài)反映出發(fā)音的幀間變化，符合發(fā)音規(guī)律；4.引入軟判決，對(duì)于每個(gè)發(fā)音不做硬性判決，而是采用不同色彩表示，不同發(fā)音人

圖1為用于語音可視化的語譜圖彩色增強(qiáng)系統(tǒng)框圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例，對(duì)本發(fā)明所述的技術(shù)方案作進(jìn)一步的闡述。如圖1所示，是一種用于語音可視化的語譜圖彩色增強(qiáng)方法系統(tǒng)框圖，主要分為三大塊特征參數(shù)提取模塊，色彩生成模塊和可視化效果圖形生成模塊。一、特征參數(shù)提取模塊首先對(duì)原始語音信號(hào)分幀、加窗之后，提取每幀信號(hào)在各個(gè)特征頻帶內(nèi)的短時(shí)能量值。(1).將語音信號(hào)的有效頻帶平均分為12個(gè)特征頻帶。例如，采樣率為 16KHz，有效頻帶為 0-8KHz,則 12 個(gè)特征頻帶依次為0-666. 67Hz、666. 67-1333. 33Hz、 1333. 33-2000Ηζ、2000Ηζ-2666·67Ηζ、2666·67-3333. 33Ηζ、3333· 33_4000Ηζ、 4000Ηζ-4666.67Ηζ、4666·67-5333.33Ηζ、5333·33_6000Ηζ、6000Ηζ_6666·67Ηζ、 6666. 67Ηζ-7333. 33Ηζ、7333. 33_8000Ηζ。分別計(jì)算每幀語音信號(hào)在這12個(gè)特征頻帶內(nèi)的能量值。(2).語音信號(hào)的短時(shí)能量wj·//·Em= Yj sJ (η)其中，m是窗的起點(diǎn)，N是窗長(點(diǎn)數(shù))。二、色彩生成模塊 (1).對(duì)12個(gè)頻帶內(nèi)的能量值進(jìn)行歸一化處理。由于第1個(gè)頻帶(低頻)內(nèi)的能量通常遠(yuǎn)大于其它能帶，為了達(dá)到較好視覺效果，在此，歸一化時(shí)利用的最大值為第2-第 12個(gè)頻帶的能量最大值&。如果第1個(gè)能帶的能量大于^11，則直接將其歸一化后的數(shù)值直接置1。即Em = max (E2: E12) (2)= E]<Em(3)I Ε) EmΕ.’丄,“2 — 12(4)Em(2).設(shè)定12個(gè)特征頻帶的初始色彩。顏色空間是由顏色的三個(gè)參數(shù)組成的顏色三維空間。三個(gè)參數(shù)在對(duì)應(yīng)的三維空間用色量的均勻變化互相交織起來，構(gòu)成一個(gè)理想的顏色空間。同一種顏色在不同坐標(biāo)系下具有不同的表達(dá)方法。如RGB，HSB。RGB顏色立方體是利用色光三原色來描述物體顏色特征的。在計(jì)算機(jī)圖像處理軟件和圖像處理軟件的色彩管理系統(tǒng)中，RGB顏色模式是掃描儀、顯示器所使用的顏色系統(tǒng)，是一個(gè)與設(shè)備相關(guān)的顏色空間。HSB是基于人對(duì)顏色的感覺，而不是RGB的計(jì)算機(jī)值。HSB系統(tǒng)里將顏色看做由色相(hue)、飽和度(saturation)、亮度(brightness)組成的。橫軸表示不同的色相，縱軸表示飽和度，由上至下色彩飽和度由240逐漸降至0。不論色相、飽和度為何值，亮度為最大值 240時(shí)均表現(xiàn)為白色，亮度為0時(shí)表現(xiàn)為黑色。首先用RGB數(shù)值繪制12個(gè)特征頻帶的初始色彩，并計(jì)算出對(duì)應(yīng)的HSB數(shù)值，分別如表1、表2所示。表 1頻帶RGB12550127. 5225502553127. 50255CN 102044254 A說明書3/5頁) 1Γν權(quán)利要求
1.一種用于語音可視化的語譜圖彩色增強(qiáng)方法，其特征在于包括以下步驟第一步對(duì)原始語音信號(hào)分幀、加窗，提取每幀信號(hào)在各個(gè)特征頻帶內(nèi)的短時(shí)能量值；第二步將語音信號(hào)的有效頻帶平均分為N個(gè)特征頻帶，分別計(jì)算每幀語音信號(hào)在N個(gè)特征頻帶內(nèi)的能量值；
2.根據(jù)權(quán)利要求1所述的一種用于語音可視化的語譜圖彩色增強(qiáng)方法，其特征在于上述第三步中歸一化處理時(shí)利用的最大值為第2-第N個(gè)頻帶的能量最大值&，如果第1個(gè) 能帶的能量大于&，則直接將其歸一化后的數(shù)值直接置1，即
3.根據(jù)權(quán)利要求1或2所述的一種用于語音可視化的語譜圖彩色增強(qiáng)方法，其特征在于上述第四步中修正的方法為將色彩飽和度的最大乘以相應(yīng)頻帶歸一化后的能量值 Ei'，其中i = I-N ；修正后，能量越小的頻帶色彩飽和度越低。
全文摘要
本發(fā)明為一種用于語音可視化的語譜圖彩色增強(qiáng)方法，包括對(duì)原始語音信號(hào)分幀、加窗，提取每幀信號(hào)在各個(gè)特征頻帶內(nèi)的短時(shí)能量值；將語音信號(hào)的有效頻帶平均分為N個(gè)特征頻帶，分別計(jì)算每幀語音信號(hào)在N個(gè)特征頻帶內(nèi)的能量值；以各個(gè)特征頻帶內(nèi)的能量值為參數(shù)對(duì)相應(yīng)特征頻帶預(yù)先設(shè)定的色彩飽和度進(jìn)行修正；對(duì)N個(gè)頻帶內(nèi)的能量值進(jìn)行歸一化處理；利用歸一化后的能量值對(duì)N特征頻帶既定色彩的飽和度進(jìn)行修正；將語音信號(hào)N個(gè)特征頻帶的修正后的色相、飽和度、亮度利用色彩學(xué)轉(zhuǎn)換公式轉(zhuǎn)化為RGB三原色值；繪制直方圖。本發(fā)明語音信號(hào)色彩生成模塊，通過不同色彩反映語音信號(hào)頻譜的能量集中區(qū)域，易于辨識(shí)；動(dòng)態(tài)反映出發(fā)音的幀間變化，符合發(fā)音規(guī)律。
文檔編號(hào)G10L21/06GK102044254SQ20091023564
公開日2011年5月4日申請(qǐng)日期2009年10月10日優(yōu)先權(quán)日2009年10月10日
發(fā)明者匡鏡明, 王晶, 董欣瑋, 趙勝輝申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙勝輝;董欣瑋;王晶;匡鏡明
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

上一篇：一種針對(duì)VoIP語音的客觀評(píng)測方法
上一篇：基于語種對(duì)的鑒別式語種識(shí)別模型建立方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音增強(qiáng)相關(guān)技術(shù)

語音增強(qiáng)算法相關(guān)技術(shù)

麥克風(fēng)陣列語音增強(qiáng)相關(guān)技術(shù)

語音震顫增強(qiáng)相關(guān)技術(shù)

qq語音麥克風(fēng)自動(dòng)增強(qiáng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于語音可視化的語譜圖彩色增強(qiáng)方法