語音可視化系統及語音可視化方法

文檔序號：2832169閱讀：593來源：國知局

專利名稱：語音可視化系統及語音可視化方法
技術領域：
本發(fā)明涉及一種語音可視化系統及語音可視化方法。
背景技術：
目前，生物模擬技術主要是對生物的外觀行為特征的模擬，對生物體內部
器官的模擬僅限于再現其靜態(tài)狀態(tài)。其不足之處在于不能模擬說話人內部發(fā) 音器官的真實動作。

發(fā)明內容
有鑒于此，有必要針對生物模擬技術不能模擬說話人內部發(fā)音器官的真實動作的問題，提供一種能模擬說話人內部發(fā)音器官的真實動作的語音可視化系統。
一種語音可視化系統，包括說話人運動數據采集模塊、至少一語音數據采集模塊、至少一語音識別模塊、發(fā)音器官運動數據采集模塊、三維說話人頭像靜態(tài)建模模塊、運動控制參數變換模塊、單音素發(fā)音器官運動模擬模塊、連續(xù) 發(fā)音運動模擬模塊和顯示模塊；所述說話人運動數據采集模塊用于采集說話人的說話人運動數據；所述至少一語音數據采集模塊用于同步采集說話人的語音數據；所述至少一語音識別模塊用于從語音數據中提取音素序列文本、音素時間長度信息、連續(xù)協同發(fā)音信息和連續(xù)音素音頻數據；所述發(fā)音器官運動數據采集模塊用于根據各音素的時間長度對說話人運動數據進行處理，建立與音素對應的發(fā)音器官運動數據庫；所述三維說話人頭像靜態(tài)建模模塊用于根據生理解剖學結構數據建立可觀測發(fā)音器官的各個軟組織和硬組織的三維說話人頭像靜態(tài)三維模型，提供可觀測發(fā)音器官所有三維說話人頭像靜態(tài)三維模型數據，以及所定義運動控制特征點的靜態(tài)三維數據；所述運動控制參數變換模塊將發(fā) 音器官運動數據庫與三維說話人頭像靜態(tài)三維模型進行配準，獲得校準后的發(fā)音器官運動數據庫；所述單音素發(fā)音器官運動^t擬^^莫塊利用三維動態(tài)變形^^莫擬算法，加載從校準后的發(fā)音器官運動數據庫中得到的運動控制參數，實現各個單音素的所有發(fā)音器官協同變形模擬；所述連續(xù)發(fā)音運動模擬模塊用于接收音素時間長度信息和連續(xù)音素音頻數據，采用發(fā)音器官協同運動與音素音頻同步算法實現三維說話人頭像發(fā)音同步，結合說話人表情模擬三維說話人頭像發(fā)音運動；所述顯示模塊用于顯示三維說話人頭像發(fā)音運動的三維可視化信息。
優(yōu)選的，所述至少一語音數據采集模塊的個數為一個，所述至少一語音識別模塊的個數為一個，該語音數據采集模塊與該語音識別模塊連接，該語音識別模塊與發(fā)音器官運動數據釆集模塊連接。
優(yōu)選的，所述至少一語音數據采集模塊包括第一語音數據采集模塊和第二語音數據采集模塊，所述至少一語音識別模塊包括第一語音識別模塊和第二語音識別模塊；該第一語音數據采集模塊與該第一語音識別模塊連接，該第一語音識別模塊與發(fā)音器官運動數據采集模塊連接；該第二語音數據采集模塊與該第二語音識別模塊連接，該第二語音識別模塊與連續(xù)發(fā)音運動模擬模塊連接。
優(yōu)選的，所述語音識別模塊包括聲學特征參數提取模塊、聲學模型數據庫存儲模塊、語言模型數據庫存儲模塊和解碼模塊；所述聲學模型數據庫存儲模塊用于存儲聲學模型數據庫；所述語言模型數據庫存儲模塊用于存儲語言模型數據庫；所述聲學特征參數提取模塊用于從語音數據中提取語音信號特征參數；所述解碼模塊根據聲學模型數據庫和語言模型數據庫，運用廣度優(yōu)先的搜索算法對語音信號特征參數進行解碼識別，輸出音素序列文本、音素時間長度信息、連續(xù)協同發(fā)音信息和連續(xù)音素音頻數據。
此外，還提供一種語音可視化方法。
一種語音可視化方法，包括同步采集說話人的說話人運動數據和語音數據；對語音數據進行處理；建立發(fā)音器官運動數據庫；建立三維說話人頭像靜態(tài)三維模型；建立校準后的發(fā)音器官運動數據庫；實現各個單音素的所有發(fā)音器官協同變形模擬；接收說話人的語音信息；模擬三維說話人頭像發(fā)音運動；顯示三維說話人頭像發(fā)音運動的三維可視化信息。
優(yōu)選的，所述建立發(fā)音器官運動數據庫包括定義控制各發(fā)音器官變形運動的特征點；提取面部特征點二維參數；提取口腔內部特征點二維參數；建立發(fā)音器官運動數據庫。
優(yōu)選的，所述建立校準后的發(fā)音器官運動數據庫包括獲取各特征點的靜態(tài)數據；獲得特征參數變換矩陣；獲得校準后的發(fā)音器官運動數據庫。
優(yōu)選的，所述實現各個單音素的所有發(fā)音器官協同變形模擬包括對發(fā)音器官進行分類；對各類發(fā)音器官分別進行運動^t擬；實現發(fā)音器官協同變形模擬。
優(yōu)選的，所述對發(fā)音器官進行分類包括根據三維說話人頭像模型和發(fā)音器官的生理物理屬性將發(fā)音器官分為軟組織類發(fā)音器官、開合類發(fā)音器官和固定類發(fā)音器官。
優(yōu)選的，所述對各類發(fā)音器官分別進行運動模擬包括對軟組織類發(fā)音器官采用基于位移的算法進行運動模擬或者采用基于物理的算法進行運動模擬；對開合類發(fā)音器官建立局部旋轉坐標系，根據校準后的發(fā)音器官運動數據庫進行轉開合運動模擬；對固定類發(fā)音器官，保持運動不變。
上述語音可視化系統利用語音可視化技術，采用計算機圖形學的變形運動模擬方法和高識別準確率的自動語音識別技術，能模擬說話人內部發(fā)音器官的真實動作。通過視覺和聽覺兩類信息的有機融合，全面模擬人類語言發(fā)音的過程，可以真實地反映發(fā)音器官的運動情況，有效地提升語言感知的程度。

圖l是語音可視化系統的示意圖。
圖2是第一語音識別模塊的示意圖。
圖3是發(fā)音器官運動數據采集模塊的工作流程圖。
圖4是運動控制參數變換模塊的工作流程圖。
圖5是單音素發(fā)音器官運動模擬模塊的工作流程圖。
具體實施例方式
圖1是語音可視化系統的示意圖。語音可視化系統100包括說話人運動數據采集模塊101、第一語音數據采集模塊102、第一語音識別模塊103、發(fā)音器官運動數據采集模塊104、三維說話人頭像靜態(tài)建模模塊105、運動控制參數變換模塊106、單音素發(fā)音器官運動模擬模塊107、第二語音識別模塊109、連續(xù) 發(fā)音運動模擬模塊110和顯示模塊111。
說話人運動數據采集模塊101用于采集說話人運動數據。說話人運動凄t據可以是二維數據或三維數據。說話人運動數據可以通過對i兌話人的正面和正交側面進行錄像，以及對說話人進行X光透像(或者進行核》茲共振成像)的方法獲得?；蛘呃眠\動捕捉技術對說話人面部和唇部的特征點進行運動跟蹤，直接獲取說話人運動數據。或者利用三維電磁發(fā)音記錄儀(Electromagnetic Articulography)對說話人進行采樣，直接獲取說話人運動數據。
第一語音數據采集模塊102用于采集說話人的語音數據(自然連續(xù)語音)。說話人的語音數據可以通過對說話人的語音進行錄音的方法獲得。
上述說話人運動數據采集和語音數據采集是同步進行的。
第一語音識別模塊103用于從語音數據中提取音素序列文本、音素時間長度信息、連續(xù)協同發(fā)音信息和連續(xù)音素音頻數據。
發(fā)音器官運動數據采集模塊104用于根據各音素的時間長度對說話人運動數據進行處理，建立與音素對應的發(fā)音器官運動數據庫。
三維說話人頭像靜態(tài)建模模塊105用于根據生理解剖學結構數據建立可觀測發(fā)音器官的各個軟組織和硬組織的三維說話人頭像靜態(tài)三維模型，提供可觀測發(fā)音器官所有三維說話人頭像靜態(tài)三維模型數據，以及所定義運動控制特征點的靜態(tài)三維數據。發(fā)音器官包括上下唇、上下齒、齒齦、下顎、軟顎、小舌、舌尖、舌面和舌根。其中上齒、齒齦、軟顎和舌根為發(fā)音動作中不變形的器官，而上下唇、下齒、下顎、舌尖、舌面和小舌為運動變形器官。
運動控制參數變換模塊106將發(fā)音器官運動數據庫與三維說話人頭像靜態(tài) 三維模型進行配準，獲得校準后的發(fā)音器官運動數據庫。
單音素發(fā)音器官運動模擬模塊107利用三維動態(tài)變形模擬算法，加載從校準后的發(fā)音器官運動數據庫中得到的運動控制參數，實現各個單音素的所有發(fā) 音器官協同變形模擬。
8第二語音數據采集^:莫塊108用于采集說話人的語音數據(自然連續(xù)語音)。說話人的語音數據可以通過對說話人的語音進行錄音的方法獲得。第二語音數
據采集模塊108和第一語音數據采集模塊102完全相同，因此，第二語音數據采集模塊108也可由笫一語音數據采集模塊102代替。
第二語音識別模塊109用于接收第二語音數據采集模塊108采集的語音數據，從語音數據中提取音素序列文本、音素時間長度信息、連續(xù)協同發(fā)音信息和連續(xù)音素音頻數據。第二語音識別模塊109和第一語音識別模塊103完全相同，因此，第二語音識別模塊109也可由第一語音識別模塊103代替。
連續(xù)發(fā)音運動模擬模塊110用于接收從第二語音識別模塊109中提取的音素時間長度信息和連續(xù)音素音頻數據，采用發(fā)音器官協同運動與音素音頻同步算法實現三維說話人頭像發(fā)音同步，結合說話人表情模擬三維說話人頭像發(fā)音運動。
顯示模塊111用于顯示三維說話人頭像發(fā)音運動的三維可視化信息。顯示模塊lll可以是顯示器、電視機等顯示設備。
圖2是第一語音識別模塊103的示意圖。第一語音識別模塊103包括聲學特征參數提取模塊302、聲學模型數據庫存儲模塊304、語言模型數據庫存儲模塊306和解碼模塊308。聲學模型數據庫存儲模塊304所存儲的聲學模型數據庫是從大規(guī)模新聞類和訪談類語音數據中提取的聲學特征參數建立基于隱馬爾科夫模型(HMM )的上下文相關的三音素^f莫型，利用最大似然估計算法(Maximum Likelihood)和區(qū)別性訓練算法(Discriminative Training)對聚類的三音素模型進行參數估計和更新。語言模型數據庫存儲模塊306所存儲的語言模型數據庫是根據大規(guī)模新聞類數據以及網絡上收集的大量語音數據標注文本進行統計訓練得到。聲學特征參數提取模塊302用于從語音數據中提取語音信號特征參數。解碼模塊308根據聲學模型數據庫和語言模型數據庫，運用廣度優(yōu)先的搜索算法對語音信號特征參數進行解碼識別，并可同時采用設置適當的寬度值來提升解碼的效率。語音信號特征參數經解碼識別后可得到音素序列文本、音素時間長度信息、連續(xù)協同發(fā)音信息和連續(xù)音素音頻數據。測試表明，語音識別模塊針對朗讀方式的大詞匯量非特定人連續(xù)語音識別的音素識別準確率能夠達到卯。/o以上。
語音識別的具體方法詳細說明如下首先對自然連續(xù)語音進行語音信號特征提取，例如采用感知線性預測(PLP)特征參數，包括能量以及差分特征等。聲學模型采用基于HMM的統計模型。每個HMM可以表征語音信號的基本音素單元，多個音素的HMM串行起來構成一個詞的HMM。采用詞典(Lexicon) 來表征每個單詞對應的發(fā)音和音素序列。在大量語音數據的基礎上訓練聲學模型各個三音素模型的均值、方差、權值、轉移概率等參數。利用大量文本信息建立語言模型，通過估計相連詞匯的出現概率提供語言模型分數，并結合聲學
模型分數在識別網絡中搜索最優(yōu)音素序列，最終識別出語音所對應的文本信旮
第一語音識別;f莫塊103除了可以識別中文和英文的語音之外，同時也為增加其他語種的聲學模型和語言模型提供了接口，可根據需要增加或更新相應的聲學模型數據庫和語言模型數據庫。
圖3是發(fā)音器官運動數據采集模塊104的工作流程圖。發(fā)音器官運動數據采集模塊104的具體工作過程如下
S401:定義控制各發(fā)音器官變形運動的特征點。
根據生理解剖學結構數據對正面視頻圖像、正交側面視頻圖像和X-光透一見圖像進行分析，定義出控制各個發(fā)音器官變形運動的特征點。其中，面部的特征點有唇部6個特征點、鼻尖、下顎等，口腔內部的特征點有舌部6個特征點等。
S402:提取面部特征點二維參數。
根據音素序列文本與音素時間長度信息確定所有音素對應的正面視頻圖像和正交側面視頻圖像，提取面部特征點二維參數，然后利用立體視覺恢復三維坐標。
S403:提取口腔內部特征點二維參數。
根據音素序列文本與音素時間長度信息確定所有音素對應的口腔X光透視圖像，并提取口腔內部二維參數。 S404:建立發(fā)音器官運動凝:據庫。根據說話人實際頭部數據對面部特征點二維參數和口腔內部特征點二維參數進行配準，建立發(fā)音器官運動數據庫。
圖4是運動控制參數變換模塊106的工作流程圖。運動控制參數變換模塊 106的具體工作過程如下
S501:獲取各特征點的靜態(tài)數據。
根據外部和內部發(fā)音器官不發(fā)音時的靜態(tài)圖像獲取各特征點的靜態(tài)數據。各特征點的靜態(tài)數據包括口腔內部靜態(tài)二維數據和面部三維重建后特征點靜態(tài)數據。
S502:獲得特征參數變換矩陣。
根據口腔內部靜態(tài)二維數據、面部三維重建后特征點靜態(tài)數據和三維說話人頭像模型特征點靜態(tài)數據，對說話人實際頭部數據進行配準，獲得特征參數變換矩陣。
S503:獲得校準后的發(fā)音器官運動數據庫。
根據特征參數變換矩陣對發(fā)音器官運動數據庫進行變換，得到校準后的發(fā) 音器官運動數據庫。該數據庫為單音素發(fā)音器官運動模擬模塊107提供所有音素的發(fā)音器官運動控制特征點的動態(tài)變形運動控制參數，在該參數的控制下可以模擬出所有單個和多個連續(xù)中文和英文音素的發(fā)音變形，并為新語言音素發(fā) 音變形模擬提供加載參數的接口，可根據需要增加或更新相應音素的發(fā)聲變形模擬。
圖5是單音素發(fā)音器官運動模擬模塊107的工作流程圖。單音素發(fā)音器官運動模擬模塊107的具體工作流程包括如下步驟 S601:對發(fā)音器官進行分類。
根據三維說話人頭像模型和發(fā)音器官的生理物理屬性將發(fā)音器官分為軟組織類發(fā)音器官(唇部和舌部)、開合類發(fā)音器官(下齒和下顎)和固定類發(fā)音器官(上齒和口腔上部)。
S602:對各類發(fā)音器官分別進行運動模擬。
對軟組織類發(fā)音器官采用基于位移的算法(Displacement-based )模擬變形，根據軟組織類發(fā)音器官特征點進行廣度優(yōu)先搜索得到各特征點的鄰域，在該鄰域內構造以特征點為中心的橢球面，設置橢球面上的點的位移為零，以特征點的位移和鄰域內各點與橢球面的距離為參數，構造正弦或余弦函數對影響范圍內的點進行變形，實現發(fā)音器官特征點變形的真實擴散?；蛘卟捎没谖锢淼?br> 算法(Physics-based)模擬舌部和面部的變形，構造彈簧質點模型或有限元模型，同時標注口輪匝肌和舌部肌肉群(包括頦舌肌、舌骨舌肌、莖突舌肌、舌上縱肌、舌下縱肌、舌直肌和舌橫肌)的走向，根據發(fā)音器官特征點的運動控制參數設計相應的邊界條件，并且沿肌肉纖維走向設置收縮系數模擬肌肉收縮，模擬軟組織的生理物理變形。
對開合類發(fā)音器官建立局部旋轉坐標系，根據校準后的發(fā)音器官運動數據庫進行轉開合運動模擬。
對固定類發(fā)音器官，保持運動不變。
S603:實現發(fā)音器官協同變形模擬。
對每一音素建立發(fā)音時的各發(fā)音器官運動的邏輯關系，根據聯合時序邏輯控制算法，共同實現各個單音素的所有發(fā)音器官協同變形模擬。
上述語音可視化系統可將外部模型設置為透視狀態(tài)或線框模式，從而可以觀察到口腔內部發(fā)音器官發(fā)音變形的位置和狀態(tài)。并且上述語音可視化系統中所有內部和外部模型可實現在三維空間的任意角度旋轉和任意大小縮放。
上述語音可視化系統是根據生理解剖學構建三維發(fā)音器官靜態(tài)建模的基礎之上，應用生物力學原理模擬發(fā)音器官運動變形狀態(tài)和速度，同時利用高識別準確率的自動語音識別技術，對實時、自然連續(xù)語音進行音素識別和協同發(fā)音音素時間長度信息獲取，構建并實現了三維說話人頭像發(fā)音器官協同運動模擬和說話人表情系統。上述語音可視化系統模擬出的發(fā)音器官運動不僅具有高真實感和高準確度，而且能夠自動模擬出連續(xù)發(fā)音時對應多個發(fā)音器官運動的形狀、速度和力度。
上述語音可視化系統100利用語音可視化技術，采用計算機圖形學的變形運動模擬方法和高識別準確率的自動語音識別技術，構建三維說話人頭像連續(xù) 發(fā)音運動模擬系統。該發(fā)明通過視覺和聽覺兩類信息的有機融合，全面模擬人類語言發(fā)音的過程，可以真實地反映發(fā)音器官的運動情況，有效地提升語言感知的程度。上述語音可視化系統可以推廣到三維動漫的人物運動設計中，從而大幅度提高設計三維動漫人物對話的效率和真實感。
此外，當外界輸入的是語音數據中已包含音素時間長度信息和連續(xù)音素音
頻數據時，上述語音可視化系統100可以沒有第二語音識別模塊109，此時，外界語音數據直接輸入至連續(xù)發(fā)音運動模擬模塊110。
以上所述實施例僅表達了本發(fā)明的幾種實施方式，其描述較為具體和詳細，但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是，對于本領域的普通技術人員來說，在不脫離本發(fā)明構思的前提下，還可以做出若干變形和改進，這些都屬于本發(fā)明的保護范圍。因此，本發(fā)明專利的保護范圍應以所附權利要求為準。
權利要求
1、一種語音可視化系統，其特征在于包括說話人運動數據采集模塊、至少一語音數據采集模塊、至少一語音識別模塊、發(fā)音器官運動數據采集模塊、三維說話人頭像靜態(tài)建模模塊、運動控制參數變換模塊、單音素發(fā)音器官運動模擬模塊、連續(xù)發(fā)音運動模擬模塊和顯示模塊；所述說話人運動數據采集模塊用于采集說話人的說話人運動數據；所述至少一語音數據采集模塊用于同步采集說話人的語音數據；所述至少一語音識別模塊用于從語音數據中提取音素序列文本、音素時間長度信息、連續(xù)協同發(fā)音信息和連續(xù)音素音頻數據；所述發(fā)音器官運動數據采集模塊用于根據各音素的時間長度對說話人運動數據進行處理，建立與音素對應的發(fā)音器官運動數據庫；所述三維說話人頭像靜態(tài)建模模塊用于根據生理解剖學結構數據建立可觀測發(fā)音器官的各個軟組織和硬組織的三維說話人頭像靜態(tài)三維模型，提供可觀測發(fā)音器官所有三維說話人頭像靜態(tài)三維模型數據，以及所定義運動控制特征點的靜態(tài)三維數據；所述運動控制參數變換模塊將發(fā)音器官運動數據庫與三維說話人頭像靜態(tài)三維模型進行配準，獲得校準后的發(fā)音器官運動數據庫；所述單音素發(fā)音器官運動模擬模塊利用三維動態(tài)變形模擬算法，加載從校準后的發(fā)音器官運動數據庫中得到的運動控制參數，實現各個單音素的所有發(fā)音器官協同變形模擬；所述連續(xù)發(fā)音運動模擬模塊用于接收音素時間長度信息和連續(xù)音素音頻數據，采用發(fā)音器官協同運動與音素音頻同步算法實現三維說話人頭像發(fā)音同步，結合說話人表情模擬三維說話人頭像發(fā)音運動；所述顯示模塊用于顯示三維說話人頭像發(fā)音運動的三維可視化信息。
2、根據權利要求l所述的語音可視化系統，其特征在于所述至少一語音數據采集模塊的個數為一個，所述至少一語音識別模塊的個數為一個，該語音數據采集模塊與該語音識別模塊連接，該語音識別模塊與發(fā)音器官運動數據采集模塊連接。
3、根據權利要求l所述的語音可視化系統，其特征在于所述至少一語音數據采集模塊包括第一語音數據采集模塊和第二語音數據采集模塊，所述至少一語音識別模塊包括第一語音識別模塊和第二語音識別模塊；該第一語音數據采集模塊與該第一語音識別模塊連接，該第一語音識別模塊與發(fā)音器官運動數據釆集模塊連接；該第二語音數據采集模塊與該第二語音識別模塊連接，該第二語音識別模塊與連續(xù)發(fā)音運動模擬模塊連接。
4、根據權利要求l所述的語音可視化系統，其特征在于所述語音識別模塊包括聲學特征參數提取模塊、聲學模型數據庫存儲模塊、語言模型數據庫存儲模塊和解碼模塊；所述聲學模型數據庫存儲模塊用于存儲聲學模型數據庫；所述語言模型數據庫存儲模塊用于存儲語言模型數據庫；所述聲學特征參數提取模塊用于從語音數據中提取語音信號特征參數；所述解碼模塊根據聲學模型數據庫和語言模型數據庫，運用廣度優(yōu)先的搜索算法對語音信號特征參數進行解碼識別，輸出音素序列文本、音素時間長度信息、連續(xù)協同發(fā)音信息和連續(xù)音素音頻數據。
5、一種語音可一見化方法，包括同步采集說話人的說話人運動數據和語音數據；對語音數據進行處理；建立發(fā)音器官運動數據庫；建立三維說話人頭像靜態(tài)三維模型；建立校準后的發(fā)音器官運動數據庫；實現各個單音素的所有發(fā)音器官協同變形^t擬；接收說話人的語音信息；模擬三維說話人頭像發(fā)音運動；顯示三維說話人頭像發(fā)音運動的三維可視化信息。
6、根據權利要求5所述的語音可視化方法，其特征在于所述建立發(fā)音器官運動數據庫包括定義控制各發(fā)音器官變形運動的特征點；提取面部特征點二維參數；提取口腔內部特征點二維參數；建立發(fā)音器官運動數據庫。
7、根據權利要求5所述的語音可視化方法，其特征在于所述建立校準后的發(fā)音器官運動數據庫包括獲取各特征點的靜態(tài)數據；獲得特征參數變換矩陣；獲得校準后的發(fā)音器官運動數據庫。
8、根據權利要求5所述的語音可視化方法，其特征在于所述實現各個單音素的所有發(fā)音器官協同變形模擬包括對發(fā)音器官進行分類；對各類發(fā)音器官分別進行運動模擬；實現發(fā)音器官協同變形模擬。
9、根據權利要求8所述的語音可視化方法，其特征在于所述對發(fā)音器官進行分類包括根據三維說話人頭像模型和發(fā)音器官的生理物理屬性將發(fā)音器官分為軟組織類發(fā)音器官、開合類發(fā)音器官和固定類發(fā)音器官。
10、根據權利要求9所述的語音可視化方法，其特征在于所述對各類發(fā)音器官分別進行運動^f莫擬包括對軟組織類發(fā)音器官采用基于位移的算法進行運動模擬或者采用基于物理的算法進行運動模擬；對開合類發(fā)音器官建立局部旋轉坐標系，根據校準后的發(fā)音器官運動數據庫進行轉開合運動模擬；對固定類發(fā)音器官，保持運動不變。
全文摘要
本發(fā)明涉及一種語音可視化系統及語音可視化方法，該語音可視化系統包括說話人運動數據采集模塊、至少一語音數據采集模塊、至少一語音識別模塊、發(fā)音器官運動數據采集模塊、三維說話人頭像靜態(tài)建模模塊、運動控制參數變換模塊、單音素發(fā)音器官運動模擬模塊、連續(xù)發(fā)音運動模擬模塊和顯示模塊。該語音可視化方法包括同步采集說話人的說話人運動數據和語音數據；對語音數據進行處理；建立發(fā)音器官運動數據庫；建立三維說話人頭像靜態(tài)三維模型；建立校準后的發(fā)音器官運動數據庫；實現各個單音素的所有發(fā)音器官協同變形模擬；接收說話人的語音信息；模擬三維說話人頭像發(fā)音運動；顯示三維說話人頭像發(fā)音運動的三維可視化信息。
文檔編號G10L21/06GK101488346SQ200910105558
公開日2009年7月22日申請日期2009年2月24日優(yōu)先權日2009年2月24日
發(fā)明者歐陽建軍, 嵐王, 輝陳申請人:深圳先進技術研究院

完整全部詳細技術資料下載