一種將語音轉(zhuǎn)換成口型圖像的方法和裝置的制作方法

文檔序號：2823743閱讀：1035來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種將語音轉(zhuǎn)換成口型圖像的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及通信領(lǐng)域中的語音和口型之間的轉(zhuǎn)換技術(shù)，特別是一種將語音轉(zhuǎn)換成口型圖像的方法和裝置。背景介紹現(xiàn)有的口型和語言的轉(zhuǎn)換方案，首先是同步采集語言的聲音和口型的視頻，然后對視頻通過特定的識別算法，在語音中找出某些音節(jié)及其對應(yīng)的圖像序列；在應(yīng)用時，再根據(jù)識別出的圖像或語音片段來相互轉(zhuǎn)換。針對公開號為CN101510256A的中國專利文獻(xiàn)，發(fā)明名稱為一種口型語言的轉(zhuǎn) 換方法及裝置，公開的方法為將采集的嘴唇運(yùn)動視頻分割成口型圖像序列組；對所述口型圖像序列組進(jìn)行識別，得到所述口型圖像序列組對應(yīng)的語音音節(jié)；所述裝置包括采集模塊、分割模塊和識別模塊。該發(fā)明通過將采集的嘴唇運(yùn)動視頻分割成口型圖像序列，并識別口型圖像序列所對應(yīng)的語音音節(jié)，實(shí)現(xiàn)口型語言到語音音節(jié)的轉(zhuǎn)換，解決了語音障礙人士的通話問題，從而滿足語音障礙人士的通話需求，具有為語音障礙人士提供方便的效果。該文獻(xiàn)所涉及將語音轉(zhuǎn)化為圖像的方法是識別的語音中的音節(jié)(所謂漢語中的音節(jié)是聽覺感覺可以區(qū)分清楚的語音的基本單位，漢語中一個漢字就是一個音節(jié)，每個音節(jié)由聲母、韻母和聲調(diào)三個部分組成)，也就是說識別的是聲母、韻母和聲調(diào)三個部分其中的一個或者幾個內(nèi)容，但是該文獻(xiàn)的技術(shù)方案里面并沒有說明如何去識別音節(jié)的方法，也沒有說明具體識別之后如何得到對應(yīng)的口型圖像，因為這樣的技術(shù)方案有不能實(shí)施的嫌疑，而且即使有方法識別音節(jié)和轉(zhuǎn)換口型圖像，也存在識別的錯誤率和轉(zhuǎn)換的錯誤率，這樣的技術(shù)方案不能為使用者提供真正的需求和使用方便。

發(fā)明內(nèi)容
本發(fā)明為克服上述技術(shù)問題，提供了一種將語音轉(zhuǎn)換成口型圖像的方法和裝置，可以識別出語音中的音位，通過音位確定口型模型的參數(shù)，然后配合共振峰和音量大小修正得到正確的口型模型，能將所得到的口型模型形成連續(xù)的口型圖像供使用者使用。本發(fā)明的技術(shù)方案如下一種將語音轉(zhuǎn)換成口型圖像的方法，其特征在于步驟如下采集語音，并對采集到的語音通過頻譜分析進(jìn)行識別；識別得到的音位形成音位序列；將音位序列逐一轉(zhuǎn)換為對應(yīng)的口型模型；根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù)，得到按照音位序列連續(xù)播放形成口型圖像。音位(phoneme):把一種語言中的言語聲，按其生理及物理的性質(zhì)分為數(shù)目有限的最小語音單位。音位分為元音和輔音。在頻譜包絡(luò)圖中有一些較寬的峰值，稱為共振峰。用時間、頻率和強(qiáng)度可以表示言語信號的變化，共振峰可以表示為在一定頻率范圍內(nèi)具有一定強(qiáng)度能量，并持續(xù)一定時間的信號。通常言語信號具有3個共振峰，根據(jù)第一、二共振峰的變化規(guī)律可以識別出元音和輔音，此外，共振峰頻率以及音量還跟口唇張開的大小有關(guān)系。如口張開得越大，聲音就越響?？谛湍Ｐ涂梢杂蒙舷麓綐?gòu)成的唇形和張口大小來描述，唇形如圓形、半圓形等。共振峰是在聲音的頻譜中能量相對集中的一些區(qū)域，不但是音質(zhì)的決定因素，而且反映了聲道(共振腔)的物理特征。聲音在經(jīng)過共振腔時，受到腔體的濾波作用，使得頻域中不同頻率的能量重新分配，一部分因為共振腔的共振作用得到強(qiáng)化，另一部分則受到衰減，得到強(qiáng)化的那些頻率在時頻分析的語圖上表現(xiàn)為濃重的黑色條紋。由于能量分布不均勻，強(qiáng)的部分猶如山峰一般，故稱之為共振峰。在人聲和大多數(shù)樂器的很寬的頻譜分布中都存在一些固定的頻率峰值(Formant Synthesis)，這種頻率峰值在聲音頻譜中就叫做共振峰(Formants)。在語音聲學(xué)中，共振峰決定著元音的音質(zhì)，而在計算機(jī)音樂中，它們是決定音色和音質(zhì)的重要參數(shù)。通過對語音進(jìn)行頻譜分析可以得到共振峰和音量大小，并且可以識別出語音中音位的元音和輔音。根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù)，是因為對語音進(jìn)行時域分析時，有時時域參數(shù)是相同的，但并不能說明轉(zhuǎn)換得到口型模型救和實(shí)際的語音完全相同。因為語音信號不僅隨時間變化，還與頻率、相位等信息有關(guān)，這就需要進(jìn)一步分析信號的頻率結(jié)構(gòu)，并在頻率域中對信號進(jìn)行描述。一種將語音轉(zhuǎn)換成口型圖像的裝置，包括用于采集語音的采集單元，用于將語音進(jìn)行頻譜分析得到音位的識別單元，用于將音位轉(zhuǎn)換口型模型的轉(zhuǎn)換單元，和用于將口型模型連續(xù)動態(tài)播放的顯示單元。采集單元采集到語音時，同時通過識別單元對語音進(jìn)行同步的頻譜分析得到共振峰和音量大小，并識別得到音位序列，然后轉(zhuǎn)換單元將按照音位序列轉(zhuǎn)換得到口型模型并根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù)，最后通過顯示單元連續(xù)動態(tài)播放口型模型得到口型圖像。所述采集單元為麥克風(fēng)，麥克風(fēng)將采集到的語音信號轉(zhuǎn)換為電平信號并輸入給數(shù) 字信號處理器，由數(shù)字信號處理器將電平信號轉(zhuǎn)換為頻譜分析用的頻域信號，然后通過語音識別單元對頻域信號識別得到共振峰頻率、音量大小和音位。數(shù)字信號處理器還將電平信號轉(zhuǎn)換為數(shù)字信號，數(shù)字信號通過與數(shù)字信號處理器連接的揚(yáng)聲器傳出。通過顯示單元得到的口型圖像包括基本口型和口唇張開大小的參數(shù)。本發(fā)明的有益效果如下本發(fā)明通過頻譜分析得到?jīng)Q定著元音音質(zhì)的共振峰和音量大小，并識別出語音的音位，通過音位確定口型模型的參數(shù)，然后配合共振峰和音量大小修正得到正確的口型模型，修正后的口型模型可以得到準(zhǔn)確度很高的口型圖像，這樣更便于語音障礙人士更方便地與其他人溝通交流。

圖1為本發(fā)明裝置的結(jié)構(gòu)示意2為本發(fā)明裝置的一種實(shí)施方式結(jié)構(gòu)示意圖
具體實(shí)施例方式—種將語音轉(zhuǎn)換成口型圖像的方法，其轉(zhuǎn)換步驟如下采集語音，并對采集到的語音通過頻譜分析進(jìn)行識別；識別得到的音位形成音位序列；將音位序列逐一轉(zhuǎn)換為對應(yīng)的口型模型；根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù)，得到按照音位序列連續(xù)播放形成口型圖像。通過對語音進(jìn)行頻譜分析可以得到共振峰和音量大小，并且可以識別出語音音位的元音和輔音。然后利用共振峰頻率和音量大小來糾正口型模型，則可以得到準(zhǔn)確度很到的口型圖像?？谛湍Ｐ陀蒙舷麓綐?gòu)成的唇形和張口大小來描述，唇形如圓形、半圓形等?？谛蛨D像包括基本口型(如半圓形，圓形)和口唇張開大小的參數(shù)(如音量越大，口唇張開得也越大)。如圖1-2所示，這種將語音轉(zhuǎn)換成口型圖像的裝置，包括用于采集語音的采集單元，用于將語音進(jìn)行頻譜分析得到音位的識別單元，用于將音位轉(zhuǎn)換口型模型的轉(zhuǎn)換單元，和用于將口型模型連續(xù)動態(tài)播放的顯示單元。采集單元采集到語音時，同時通過識別單元對語音進(jìn)行同步的頻譜分析得到共振峰和音量大小，并識別得到音位序列，然后轉(zhuǎn)換單元將按照音位序列轉(zhuǎn)換得到口型模型并根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù)，最后通過顯示單元連續(xù)動態(tài)播放口型模型得到口型圖像。所述采集單元為麥克風(fēng)，麥克風(fēng)將采集到的語音信號轉(zhuǎn)換為電平信號并輸入給數(shù) 字信號處理器，由數(shù)字信號處理器先將電平信號轉(zhuǎn)換為時域數(shù)字信號，再將時域數(shù)字信號轉(zhuǎn)換成頻譜分析用的頻域信號，然后語音識別單元識別得到共振峰頻率、音量大小和音位的元音、輔音，由逐一識別得到的音位形成音位序列，根據(jù)因為序列轉(zhuǎn)換成口型模型，由于這時得到的口型模型還不夠準(zhǔn)確，所以需要由共振峰頻率、音量大小來糾正，糾正后的口型模型通過吸納是單元根據(jù)音位的持續(xù)時間來調(diào)整每張口型圖像的持續(xù)時間，就構(gòu)成了連續(xù) 的口型圖像。所述頻域信號通過濾波器可以提取共振峰，通過選擇合適的濾波器帶寬，可以得到第一、二、三共振峰的頻率，稱為F1、F2、F3，再結(jié)合共振峰持續(xù)的時長，就可以識別出元音 (如Fl在300-400Hz，F(xiàn)2在IOOOHz左右，時長小于200ms就可以識別為元音u)和輔音(如 Fl = 200，F(xiàn)2 = 720，F(xiàn)3 = 2100 識別為輔音 /b, ρ/)。通過這套方法和裝置得到的口型圖像，因為準(zhǔn)確度很高，所以可以很好地幫助語音障礙人士和其他人溝通。
權(quán)利要求
一種將語音轉(zhuǎn)換成口型圖像的方法，其特征在于步驟如下采集語音，并對采集到的語音通過頻譜分析進(jìn)行識別；識別得到的音位形成音位序列；將音位序列逐一轉(zhuǎn)換為對應(yīng)的口型模型；根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù)，得到按照音位序列連續(xù)播放形成口型圖像。
2.根據(jù)權(quán)利要求1所述的一種將語音轉(zhuǎn)換成口型圖像的方法，其特征在于頻譜分析得到的是共振峰和音量大小，識別得到的是語音中的音位，即元音和輔音。
3.根據(jù)權(quán)利要求1或2所述的一種將語音轉(zhuǎn)換成口型圖像的方法的實(shí)施裝置，其特征在于包括用于采集語音的采集單元，用于將語音進(jìn)行頻譜分析得到音位的識別單元，用于將音位轉(zhuǎn)換為口型模型的轉(zhuǎn)換單元，和用于將口型模型連續(xù)動態(tài)播放的顯示單元。
4.根據(jù)權(quán)利要求3所述的一種將語音轉(zhuǎn)換成口型圖像的裝置，其特征在于采集單元采集到語音時，同時通過識別單元對語音進(jìn)行同步的頻譜分析得到共振峰和音量大小，并識別得到音位序列，然后轉(zhuǎn)換單元將按照音位序列轉(zhuǎn)換得到口型模型并根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù)，最后通過顯示單元連續(xù)動態(tài)播放口型模型得到口型圖像。
5.根據(jù)權(quán)利要求3所述的一種將語音轉(zhuǎn)換成口型圖像的裝置，其特征在于所述采集單元為麥克風(fēng)，麥克風(fēng)將采集到的語音信號轉(zhuǎn)換為電平信號并輸入給數(shù)字信號處理器，由數(shù)字信號處理器將電平信號轉(zhuǎn)換為頻譜分析用的頻域信號，然后通過語音識別單元對頻域信號識別得到共振峰頻率、音量大小和音位。
6.根據(jù)權(quán)利要求3所述的一種將語音轉(zhuǎn)換成口型圖像的裝置，其特征在于通過顯示單元得到的口型圖像包括基本口型和口唇張開大小的參數(shù)。
全文摘要
本發(fā)明公開了一種將語音轉(zhuǎn)換成口型圖像的方法和裝置，首先通過采集單元采集語音，識別單元對采集到的語音做頻譜分析，然后根據(jù)頻譜分析得到的共振峰和音量大小參數(shù)來識別出語音中的音位，識別得到的音位形成序列后逐一被轉(zhuǎn)換單元轉(zhuǎn)換為對應(yīng)的口型模型，再根據(jù)共振峰和音量大小參數(shù)修正口型模型的張口大小參數(shù)，最后將糾正得到的口型模型按照音位序列，由顯示單元連續(xù)播放形成口型圖像；本發(fā)明可以識別出語音中的音位，通過音位確定口型模型的參數(shù)，然后配合共振峰和音量大小修正得到正確的口型模型。
文檔編號G10L21/06GK101930747SQ20101024088
公開日2010年12月29日申請日期2010年7月30日優(yōu)先權(quán)日2010年7月30日
發(fā)明者付曉毅, 張成, 蔣一寧, 蔣濤, 藺君剛, 趙旭申請人:四川微迪數(shù)字技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣一寧;付曉毅;蔣濤;張成;藺君剛;趙旭
技術(shù)所有人：四川微迪數(shù)字技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種具有調(diào)節(jié)松緊功能的樂器位準(zhǔn)的制作方法
上一篇：一種心音信號分類識別方法及裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語音識別和圖像識別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種將語音轉(zhuǎn)換成口型圖像的方法和裝置的制作方法