專利名稱:基于共振峰頻率的漢語(yǔ)普通話單韻母語(yǔ)音可視化方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢語(yǔ)普通話單韻母語(yǔ)音可視化方法,特別是一種基于共振峰頻率的漢語(yǔ)普通話單韻母語(yǔ)音可視化方法,屬于語(yǔ)音可視化領(lǐng)域。
背景技術(shù):
語(yǔ)音是人說(shuō)話時(shí)發(fā)出的聲音,在人們的日常生活中是不可或缺的。但對(duì)于聽(tīng)力障礙者而言,無(wú)法通過(guò)聽(tīng)覺(jué)感知語(yǔ)音,造成正常人難以體會(huì)的痛苦。研究表明,在人們對(duì)外界的感知過(guò)程中,獲取信息最多的是視覺(jué),其次才是聽(tīng)覺(jué),而且視覺(jué)和聽(tīng)覺(jué)的結(jié)合比任何單一感官所感知的信息都要多。另外,經(jīng)驗(yàn)告訴我們,圖表是人們表達(dá)思想、理解事物最方便、最直觀的方法,所以人們也試圖從視覺(jué)上來(lái)感知語(yǔ)音,或者利用視覺(jué)和聽(tīng)覺(jué)的結(jié)合來(lái)傳遞更多的有用信息。本發(fā)明的目的就是探索和尋找一種語(yǔ)音的可視化方法,即利用視覺(jué)元素來(lái)表現(xiàn)語(yǔ)音,達(dá)到“通過(guò)視覺(jué)感知語(yǔ)音”的目的,為聽(tīng)力障礙者理解語(yǔ)音、練習(xí)正確發(fā)音提供實(shí)際幫助。本發(fā)明之前,發(fā)明語(yǔ)音可視化方法很多都是基于人臉模型。這種方法對(duì)發(fā)音口型進(jìn)行定性或定量的描述。定性描述如圓唇、扁唇、開(kāi)口的大小,舌位的高低等等?,F(xiàn)在許多應(yīng)用領(lǐng)域需要對(duì)視覺(jué)語(yǔ)音進(jìn)行客觀上的定量度量,如虛擬人臉合成、機(jī)器自動(dòng)唇讀等等。 MPEG-4更是定義了人臉動(dòng)畫(huà)參數(shù)FAP(facialanimation parameter)。FAP參數(shù)的優(yōu)點(diǎn)使它已經(jīng)成為人臉動(dòng)畫(huà)的國(guó)際標(biāo)準(zhǔn)?;诎l(fā)音器官的運(yùn)動(dòng)變化、人臉的表情來(lái)實(shí)現(xiàn)語(yǔ)音可視化的方法較為人性化,有效剖析了人體的發(fā)音過(guò)程,有助于聽(tīng)力受損人群練習(xí)發(fā)音。然而,就其語(yǔ)音可懂度而言,還難以達(dá)到理想效果,除極少數(shù)專家以外,人們很難直接通過(guò)觀察發(fā)音器官的運(yùn)動(dòng)而準(zhǔn)確、有效的感知語(yǔ)音。此外,視覺(jué)效果比較單一,表現(xiàn)力不強(qiáng)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于共振峰頻率的漢語(yǔ)普通話單韻母語(yǔ)音可視化方法,能夠?qū)⒉煌Z(yǔ)音特征整合為單一圖像,使圖像具有可讀性,直觀地讀出連續(xù)講話的語(yǔ)音序列。本發(fā)明的技術(shù)方案是一種基于共振峰頻率的漢語(yǔ)普通話單韻母語(yǔ)音可視化方法,包括以下步驟第一步對(duì)原始語(yǔ)音信號(hào)分幀、加窗,提取每幀信號(hào)的短時(shí)能量、共振峰頻率、基音頻率;第二步采用中值平滑方法糾正共振峰頻率、基音頻率個(gè)別數(shù)值的錯(cuò)誤;第三步利用共振峰頻率將不同發(fā)音映射為不同色彩方面,采用以下公式i = 0.9* (0.0006* 3 +0.002* 5^)
F3F3-F1Q = Q 02*+ 0.0003*80^0"(6)
權(quán)利要求
1.基于共振峰頻率的漢語(yǔ)普通話單韻母語(yǔ)音可視化方法,其特征在于包括以下步驟第一步對(duì)原始語(yǔ)音信號(hào)分幀、加窗,提取每幀信號(hào)的短時(shí)能量、共振峰頻率、基音頻第二步采用中值平滑方法糾正共振峰頻率、基音頻率個(gè)別數(shù)值的錯(cuò)誤; 第三步利用共振峰頻率將不同發(fā)音映射為不同色彩方面,采用以下公式
2.根據(jù)權(quán)利要求1所述的基于共振峰頻率的漢語(yǔ)普通話單韻母語(yǔ)音可視化方法,其特征在于上述第二步中的的采用中值平滑方法糾正共振峰頻率、基音頻率個(gè)別數(shù)值的錯(cuò)誤包括以下步驟第一步根據(jù)窗起點(diǎn)和窗長(zhǎng)得到語(yǔ)音信號(hào)的短時(shí)能量
3.根據(jù)權(quán)利要求1或2所述的基于共振峰頻率的漢語(yǔ)普通話單韻母語(yǔ)音可視化方法, 其特征在于上述第五步反應(yīng)發(fā)音時(shí)間、能量、音調(diào)基音頻率的變化趨勢(shì)的方法為橫軸為時(shí)間軸,以幀為單位,左縱軸為能量,繪制矩形直方圖,在每個(gè)直方圖中填充該幀對(duì)應(yīng)的RGB 色彩,右縱軸以Hz為單位,疊加上反映基音頻率的曲線。
全文摘要
本發(fā)明為一種基于共振峰頻率的漢語(yǔ)普通話單韻母語(yǔ)音可視化方法,包括對(duì)原始語(yǔ)音信號(hào)分幀、加窗,提取每幀信號(hào)的短時(shí)能量、共振峰頻率、基音頻率,采用中值平滑方法糾正共振峰頻率、基音頻率個(gè)別數(shù)值的錯(cuò)誤;利用共振峰頻率將不同發(fā)音映射為不同色彩方面并修正在圖像上反應(yīng)發(fā)音時(shí)間、能量、音調(diào)基音頻率的變化趨勢(shì),利用色彩來(lái)區(qū)分不同漢語(yǔ)普通話單韻母發(fā)音。本發(fā)明只提取語(yǔ)音信號(hào)的短時(shí)能量、共振峰頻率、基音頻率幾個(gè)簡(jiǎn)單的語(yǔ)音聲學(xué)參數(shù),易于實(shí)現(xiàn);引入軟判決,對(duì)于每個(gè)發(fā)音不做硬性判決,而是采用不同色彩表示,不同發(fā)音人同一個(gè)音的可視化效果求大同而存小異,這使得對(duì)于發(fā)音的判決更符合人的主觀感知。
文檔編號(hào)G10L21/06GK102176313SQ20091023564
公開(kāi)日2011年9月7日 申請(qǐng)日期2009年10月10日 優(yōu)先權(quán)日2009年10月10日
發(fā)明者匡鏡明, 王晶, 董欣瑋, 趙勝輝 申請(qǐng)人:北京理工大學(xué)