亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種將語音轉(zhuǎn)換成口型圖像的方法和裝置的制作方法

文檔序號:2823743閱讀:1035來源:國知局
專利名稱:一種將語音轉(zhuǎn)換成口型圖像的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及通信領(lǐng)域中的語音和口型之間的轉(zhuǎn)換技術(shù),特別是一種將語音轉(zhuǎn)換成 口型圖像的方法和裝置。背景介紹現(xiàn)有的口型和語言的轉(zhuǎn)換方案,首先是同步采集語言的聲音和口型的視頻,然后 對視頻通過特定的識別算法,在語音中找出某些音節(jié)及其對應(yīng)的圖像序列;在應(yīng)用時,再根 據(jù)識別出的圖像或語音片段來相互轉(zhuǎn)換。針對公開號為CN101510256A的中國專利文獻(xiàn),發(fā)明名稱為一種口型語言的轉(zhuǎn) 換方法及裝置,公開的方法為將采集的嘴唇運(yùn)動視頻分割成口型圖像序列組;對所述口 型圖像序列組進(jìn)行識別,得到所述口型圖像序列組對應(yīng)的語音音節(jié);所述裝置包括采集 模塊、分割模塊和識別模塊。該發(fā)明通過將采集的嘴唇運(yùn)動視頻分割成口型圖像序列,并識 別口型圖像序列所對應(yīng)的語音音節(jié),實(shí)現(xiàn)口型語言到語音音節(jié)的轉(zhuǎn)換,解決了語音障礙人 士的通話問題,從而滿足語音障礙人士的通話需求,具有為語音障礙人士提供方便的效果。該文獻(xiàn)所涉及將語音轉(zhuǎn)化為圖像的方法是識別的語音中的音節(jié)(所謂漢語中的 音節(jié)是聽覺感覺可以區(qū)分清楚的語音的基本單位,漢語中一個漢字就是一個音節(jié),每個音 節(jié)由聲母、韻母和聲調(diào)三個部分組成),也就是說識別的是聲母、韻母和聲調(diào)三個部分其中 的一個或者幾個內(nèi)容,但是該文獻(xiàn)的技術(shù)方案里面并沒有說明如何去識別音節(jié)的方法,也 沒有說明具體識別之后如何得到對應(yīng)的口型圖像,因為這樣的技術(shù)方案有不能實(shí)施的嫌 疑,而且即使有方法識別音節(jié)和轉(zhuǎn)換口型圖像,也存在識別的錯誤率和轉(zhuǎn)換的錯誤率,這樣 的技術(shù)方案不能為使用者提供真正的需求和使用方便。

發(fā)明內(nèi)容
本發(fā)明為克服上述技術(shù)問題,提供了一種將語音轉(zhuǎn)換成口型圖像的方法和裝置, 可以識別出語音中的音位,通過音位確定口型模型的參數(shù),然后配合共振峰和音量大小修 正得到正確的口型模型,能將所得到的口型模型形成連續(xù)的口型圖像供使用者使用。本發(fā)明的技術(shù)方案如下一種將語音轉(zhuǎn)換成口型圖像的方法,其特征在于步驟如下采集語音,并對采集到的語音通過頻譜分析進(jìn)行識別;識別得到的音位形成音位序列;將音位序列逐一轉(zhuǎn)換為對應(yīng)的口型模型;根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù),得到按照音位序列連續(xù)播放形 成口型圖像。音位(phoneme):把一種語言中的言語聲,按其生理及物理的性質(zhì)分為數(shù)目有限 的最小語音單位。音位分為元音和輔音。在頻譜包絡(luò)圖中有一些較寬的峰值,稱為共振峰。 用時間、頻率和強(qiáng)度可以表示言語信號的變化,共振峰可以表示為在一定頻率范圍內(nèi)具有 一定強(qiáng)度能量,并持續(xù)一定時間的信號。通常言語信號具有3個共振峰,根據(jù)第一、二共振峰的變化規(guī)律可以識別出元音和輔音,此外,共振峰頻率以及音量還跟口唇張開的大小有 關(guān)系。如口張開得越大,聲音就越響??谛湍P涂梢杂蒙舷麓綐?gòu)成的唇形和張口大小來描述,唇形如圓形、半圓形等。共振峰是在聲音的頻譜中能量相對集中的一些區(qū)域,不但是音質(zhì)的決定因素,而 且反映了聲道(共振腔)的物理特征。聲音在經(jīng)過共振腔時,受到腔體的濾波作用,使得頻 域中不同頻率的能量重新分配,一部分因為共振腔的共振作用得到強(qiáng)化,另一部分則受到 衰減,得到強(qiáng)化的那些頻率在時頻分析的語圖上表現(xiàn)為濃重的黑色條紋。由于能量分布不 均勻,強(qiáng)的部分猶如山峰一般,故稱之為共振峰。在人聲和大多數(shù)樂器的很寬的頻譜分布中 都存在一些固定的頻率峰值(Formant Synthesis),這種頻率峰值在聲音頻譜中就叫做共 振峰(Formants)。在語音聲學(xué)中,共振峰決定著元音的音質(zhì),而在計算機(jī)音樂中,它們是決 定音色和音質(zhì)的重要參數(shù)。通過對語音進(jìn)行頻譜分析可以得到共振峰和音量大小,并且可以識別出語音中音 位的元音和輔音。根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù),是因為對語音進(jìn)行時域分析 時,有時時域參數(shù)是相同的,但并不能說明轉(zhuǎn)換得到口型模型救和實(shí)際的語音完全相同。因 為語音信號不僅隨時間變化,還與頻率、相位等信息有關(guān),這就需要進(jìn)一步分析信號的頻率 結(jié)構(gòu),并在頻率域中對信號進(jìn)行描述。一種將語音轉(zhuǎn)換成口型圖像的裝置,包括用于采集語音的采集單元,用于將語音 進(jìn)行頻譜分析得到音位的識別單元,用于將音位轉(zhuǎn)換口型模型的轉(zhuǎn)換單元,和用于將口型 模型連續(xù)動態(tài)播放的顯示單元。采集單元采集到語音時,同時通過識別單元對語音進(jìn)行同步的頻譜分析得到共振 峰和音量大小,并識別得到音位序列,然后轉(zhuǎn)換單元將按照音位序列轉(zhuǎn)換得到口型模型并 根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù),最后通過顯示單元連續(xù)動態(tài)播放口型模 型得到口型圖像。所述采集單元為麥克風(fēng),麥克風(fēng)將采集到的語音信號轉(zhuǎn)換為電平信號并輸入給數(shù) 字信號處理器,由數(shù)字信號處理器將電平信號轉(zhuǎn)換為頻譜分析用的頻域信號,然后通過語 音識別單元對頻域信號識別得到共振峰頻率、音量大小和音位。 數(shù)字信號處理器還將電平信號轉(zhuǎn)換為數(shù)字信號,數(shù)字信號通過與數(shù)字信號處理器 連接的揚(yáng)聲器傳出。通過顯示單元得到的口型圖像包括基本口型和口唇張開大小的參數(shù)。本發(fā)明的有益效果如下本發(fā)明通過頻譜分析得到?jīng)Q定著元音音質(zhì)的共振峰和音量大小,并識別出語音的 音位,通過音位確定口型模型的參數(shù),然后配合共振峰和音量大小修正得到正確的口型模 型,修正后的口型模型可以得到準(zhǔn)確度很高的口型圖像,這樣更便于語音障礙人士更方便 地與其他人溝通交流。


圖1為本發(fā)明裝置的結(jié)構(gòu)示意2為本發(fā)明裝置的一種實(shí)施方式結(jié)構(gòu)示意圖
具體實(shí)施例方式—種將語音轉(zhuǎn)換成口型圖像的方法,其轉(zhuǎn)換步驟如下采集語音,并對采集到的語音通過頻譜分析進(jìn)行識別;識別得到的音位形成音位序列;將音位序列逐一轉(zhuǎn)換為對應(yīng)的口型模型;根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù),得到按照音位序列連續(xù)播放形 成口型圖像。通過對語音進(jìn)行頻譜分析可以得到共振峰和音量大小,并且可以識別出語音音位 的元音和輔音。然后利用共振峰頻率和音量大小來糾正口型模型,則可以得到準(zhǔn)確度很到 的口型圖像??谛湍P陀蒙舷麓綐?gòu)成的唇形和張口大小來描述,唇形如圓形、半圓形等??谛蛨D像包括基本口型(如半圓形,圓形)和口唇張開大小的參數(shù)(如音量越大, 口唇張開得也越大)。如圖1-2所示,這種將語音轉(zhuǎn)換成口型圖像的裝置,包括用于采集語音的采集單 元,用于將語音進(jìn)行頻譜分析得到音位的識別單元,用于將音位轉(zhuǎn)換口型模型的轉(zhuǎn)換單元, 和用于將口型模型連續(xù)動態(tài)播放的顯示單元。采集單元采集到語音時,同時通過識別單元對語音進(jìn)行同步的頻譜分析得到共振 峰和音量大小,并識別得到音位序列,然后轉(zhuǎn)換單元將按照音位序列轉(zhuǎn)換得到口型模型并 根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù),最后通過顯示單元連續(xù)動態(tài)播放口型模 型得到口型圖像。所述采集單元為麥克風(fēng),麥克風(fēng)將采集到的語音信號轉(zhuǎn)換為電平信號并輸入給數(shù) 字信號處理器,由數(shù)字信號處理器先將電平信號轉(zhuǎn)換為時域數(shù)字信號,再將時域數(shù)字信號 轉(zhuǎn)換成頻譜分析用的頻域信號,然后語音識別單元識別得到共振峰頻率、音量大小和音位 的元音、輔音,由逐一識別得到的音位形成音位序列,根據(jù)因為序列轉(zhuǎn)換成口型模型,由于 這時得到的口型模型還不夠準(zhǔn)確,所以需要由共振峰頻率、音量大小來糾正,糾正后的口型 模型通過吸納是單元根據(jù)音位的持續(xù)時間來調(diào)整每張口型圖像的持續(xù)時間,就構(gòu)成了連續(xù) 的口型圖像。所述頻域信號通過濾波器可以提取共振峰,通過選擇合適的濾波器帶寬,可以得 到第一、二、三共振峰的頻率,稱為F1、F2、F3,再結(jié)合共振峰持續(xù)的時長,就可以識別出元音 (如Fl在300-400Hz,F(xiàn)2在IOOOHz左右,時長小于200ms就可以識別為元音u)和輔音(如 Fl = 200,F(xiàn)2 = 720,F(xiàn)3 = 2100 識別為輔音 /b, ρ/)。通過這套方法和裝置得到的口型圖像,因為準(zhǔn)確度很高,所以可以很好地幫助語 音障礙人士和其他人溝通。
權(quán)利要求
一種將語音轉(zhuǎn)換成口型圖像的方法,其特征在于步驟如下采集語音,并對采集到的語音通過頻譜分析進(jìn)行識別;識別得到的音位形成音位序列;將音位序列逐一轉(zhuǎn)換為對應(yīng)的口型模型;根據(jù)共振峰頻率和音量大小修正口型模型的參數(shù),得到按照音位序列連續(xù)播放形成口型圖像。
2.根據(jù)權(quán)利要求1所述的一種將語音轉(zhuǎn)換成口型圖像的方法,其特征在于頻譜分析 得到的是共振峰和音量大小,識別得到的是語音中的音位,即元音和輔音。
3.根據(jù)權(quán)利要求1或2所述的一種將語音轉(zhuǎn)換成口型圖像的方法的實(shí)施裝置,其特征 在于包括用于采集語音的采集單元,用于將語音進(jìn)行頻譜分析得到音位的識別單元,用于 將音位轉(zhuǎn)換為口型模型的轉(zhuǎn)換單元,和用于將口型模型連續(xù)動態(tài)播放的顯示單元。
4.根據(jù)權(quán)利要求3所述的一種將語音轉(zhuǎn)換成口型圖像的裝置,其特征在于采集單元 采集到語音時,同時通過識別單元對語音進(jìn)行同步的頻譜分析得到共振峰和音量大小,并 識別得到音位序列,然后轉(zhuǎn)換單元將按照音位序列轉(zhuǎn)換得到口型模型并根據(jù)共振峰頻率和 音量大小修正口型模型的參數(shù),最后通過顯示單元連續(xù)動態(tài)播放口型模型得到口型圖像。
5.根據(jù)權(quán)利要求3所述的一種將語音轉(zhuǎn)換成口型圖像的裝置,其特征在于所述采集 單元為麥克風(fēng),麥克風(fēng)將采集到的語音信號轉(zhuǎn)換為電平信號并輸入給數(shù)字信號處理器,由 數(shù)字信號處理器將電平信號轉(zhuǎn)換為頻譜分析用的頻域信號,然后通過語音識別單元對頻域 信號識別得到共振峰頻率、音量大小和音位。
6.根據(jù)權(quán)利要求3所述的一種將語音轉(zhuǎn)換成口型圖像的裝置,其特征在于通過顯示 單元得到的口型圖像包括基本口型和口唇張開大小的參數(shù)。
全文摘要
本發(fā)明公開了一種將語音轉(zhuǎn)換成口型圖像的方法和裝置,首先通過采集單元采集語音,識別單元對采集到的語音做頻譜分析,然后根據(jù)頻譜分析得到的共振峰和音量大小參數(shù)來識別出語音中的音位,識別得到的音位形成序列后逐一被轉(zhuǎn)換單元轉(zhuǎn)換為對應(yīng)的口型模型,再根據(jù)共振峰和音量大小參數(shù)修正口型模型的張口大小參數(shù),最后將糾正得到的口型模型按照音位序列,由顯示單元連續(xù)播放形成口型圖像;本發(fā)明可以識別出語音中的音位,通過音位確定口型模型的參數(shù),然后配合共振峰和音量大小修正得到正確的口型模型。
文檔編號G10L21/06GK101930747SQ20101024088
公開日2010年12月29日 申請日期2010年7月30日 優(yōu)先權(quán)日2010年7月30日
發(fā)明者付曉毅, 張 成, 蔣一寧, 蔣濤, 藺君剛, 趙旭 申請人:四川微迪數(shù)字技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1