一種手語語音雙向翻譯系統(tǒng)的制作方法

文檔序號：6600157閱讀：737來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種手語語音雙向翻譯系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及基于傳感技術(shù)和模式識別技術(shù)的肢體動作識別技術(shù)以及語音識別技
術(shù)，尤指一種以微慣導(dǎo)傳感器網(wǎng)絡(luò)和手語動作分類器為核心的手語語音雙向翻譯系統(tǒng)，能對手語動作進行語音表達(dá)，也能將語音信息翻譯成手語動作加以顯示，屬于傳感技術(shù)和微慣導(dǎo)信號處理、語音處理技術(shù)領(lǐng)域。
背景技術(shù)：
手語動作的模式識別是手語翻譯系統(tǒng)中的重要環(huán)節(jié)，現(xiàn)在用得較多的手語翻譯系統(tǒng)的模式識別都是基于視覺識別的。這種識別方式主要是用多個相機同時從各個視角拍下手語動作，然后進行圖像幀的底層特征提取，接著進行幀間的特征聯(lián)系，最終識別出手語動作。但這種基于視覺的手語動作的模式識別是有缺陷的，其比較明顯的有兩點l，對于復(fù)雜的手語動作，用圖像進行處理和識別難以精確；2，用圖像進行處理和識別很容易受環(huán)境的影響，比如在光線很暗的情況下就很受影響。隨著現(xiàn)代技術(shù)的不斷發(fā)展，微機電系統(tǒng)以其體積小、重量輕、功耗低、成本低、可靠性高等優(yōu)點，在軍用市場和民用市場均得到了廣泛的應(yīng)用。特別是慣性傳感器，已經(jīng)在航空航天、汽車、電子設(shè)備保護、娛樂等領(lǐng)域取得了非常引人注目的應(yīng)用，開創(chuàng)了微型汽車安全氣囊傳感器等新的產(chǎn)業(yè)。隨著技術(shù)的發(fā)展和深入，繼承多種慣性微機電系統(tǒng)傳感器是目前的研究熱點，在生物醫(yī)學(xué)、環(huán)境監(jiān)控、消費電子等領(lǐng)域有著十分廣闊的應(yīng)用前景。特別值得一提的是現(xiàn)在微機電系統(tǒng)研究和發(fā)展的一個重要方向，也即微型慣性測量組合(uIMU)，它在生物醫(yī)學(xué)、工業(yè)自動化、智能建筑、航空航天、環(huán)境監(jiān)控、消費電子等領(lǐng)域前景巨大。
微慣導(dǎo)是微慣導(dǎo)測量組合的簡稱，它由一定數(shù)量的三維加速度計和三維陀螺儀組成，它的測量原理是經(jīng)典力學(xué)中的牛頓運動定律，它通過三維加速度計和三維陀螺儀測量車輛、飛機、導(dǎo)彈、艦艇、人造衛(wèi)星等物體的質(zhì)心運動和姿態(tài)運動，從而對物體進行控制和導(dǎo) 航?；贛EMS三維加速度計和三維陀螺儀的微慣性測量系統(tǒng)具有體積小、重量輕、可靠性高、易集成、能大批量生產(chǎn)、價格低廉等優(yōu)點，從而在軍用、民用領(lǐng)域有廣闊的應(yīng)用前景。
基于微慣導(dǎo)技術(shù)的這些卓越的特性，能否將其結(jié)合到圖像識別技術(shù)用于對人體動作的翻譯，以及如何結(jié)合，為本領(lǐng)域技術(shù)人員開拓了一條嶄新的思路。同時，為了解決聾鵬人與正常人交流的障礙，僅僅能夠?qū)⒚@鵬人的手語翻譯出來是不夠的，為了使聾鵬人能夠明白正常人的意圖，還需要能夠?qū)⒄Ｈ说恼Z音信息翻譯成對應(yīng)的手語動作并顯示給聾鵬人的裝置。

發(fā)明內(nèi)容
本發(fā)明旨在公開一種手語語音雙向翻譯系統(tǒng)，既可將手語翻譯成對應(yīng)的語音信息，又可將語音翻譯成對應(yīng)的手語并顯示，該系統(tǒng)包括基于微慣導(dǎo)傳感的手語動作捕捉系統(tǒng)、微慣導(dǎo)信號處理與分析系統(tǒng)、一訓(xùn)練完成的手語動作特征分類器、用來訓(xùn)練手語動作分類器的手語動作特征數(shù)據(jù)庫、語音文字?jǐn)?shù)據(jù)庫、視頻/動畫數(shù)據(jù)庫、語音信號采集系統(tǒng)、語音分析系統(tǒng)、發(fā)聲系統(tǒng)和顯示系統(tǒng)；其中所述手語動作捕捉系統(tǒng)與所述微慣導(dǎo)信號處理與分析系統(tǒng)通信連接，所述手語動作分類器分別與所述手語動作特征數(shù)據(jù)庫、微慣導(dǎo)信號處理與分析系統(tǒng)、語音文字?jǐn)?shù)據(jù)庫、視頻/動畫數(shù)據(jù)庫、顯示系統(tǒng)通信連接，所述語音文字數(shù)據(jù)庫還與所述語音分析系統(tǒng)和視頻/動畫數(shù)據(jù)庫通信連接，所述語音信號采集系統(tǒng)和發(fā) 聲系統(tǒng)分別與所述語音分析系統(tǒng)通信連接；優(yōu)選地，所述手語動作捕捉系統(tǒng)包括主控單元、信號濾波和放大單元、AD轉(zhuǎn)換單元以及發(fā)送單元，還包括若干個微慣導(dǎo)傳感節(jié)點，每一個傳感節(jié)點包含三維加速度傳感器和三維陀螺儀；優(yōu)選地，所述手語動作捕捉系統(tǒng)還需要進行以下操作步驟
1)建立微慣導(dǎo)器件失配誤差模擬模型；
2)高性能6維自由度的uIMU手語動作傳感子系統(tǒng)設(shè)計；
3)建立手語動作誤差模型；優(yōu)選地，所述微慣導(dǎo)信號處理與分析系統(tǒng)接收手語動作捕捉系統(tǒng)傳送來的微慣導(dǎo) 數(shù)字信號，采用特定的濾波算法對這些信號進行運算和分析，并采用特定的特征提取方法和最優(yōu)搜索法、次優(yōu)搜索法、模擬退火法、遺傳算法，根據(jù)可分離性判據(jù)來選擇可分性最大的特征組；優(yōu)選地，所述特定的濾波算法為基于矢量的Kalman濾波法，所述特定的特征提取方法基于主成分分析法(PCA)或者頻域分析方法快速傅里葉變換(FFT)和離散余弦變換 (DCT); 優(yōu)選地，所述手語動作特征數(shù)據(jù)庫包含多個常用的手語動作，每條手語動作包含多個不同樣本的手語動作特征信息，且信息量可擴充；采集不同身高，不同體型，不同年齡，
不同性別，不同動作習(xí)慣的多組同一手語動作樣本，使用BP神經(jīng)網(wǎng)絡(luò)算法或SVM算法或隱式馬爾科夫模型(HMM)訓(xùn)練生成手語動作特征分類器，使經(jīng)這些樣本訓(xùn)練而成的分類器擁有較高的動作識別率；優(yōu)選地，所述手語動作分類器采用"一對一"或者"一對多"的分類策略；
優(yōu)選地，所述發(fā)聲系統(tǒng)由立體聲或者單聲道揚聲器及其配套的驅(qū)動系統(tǒng)組成；所述顯示系統(tǒng)由獨立顯示系統(tǒng)或由基于WIFI、 ZIGBEE、 BLUETOOTH技術(shù)實現(xiàn)與翻譯系統(tǒng)通信的手機來實現(xiàn)；本發(fā)明還公開了一種采用上述手語語音雙向翻譯系統(tǒng)將手語翻譯成語音的方法，具體包括以下步驟 (1)微慣導(dǎo)傳感器節(jié)點，負(fù)責(zé)采集手語動作中人體相應(yīng)點位的三維加速度和三維角速度信息，其具有基本的信號處理功能和無線/有線發(fā)送功能； (2)由多個節(jié)點組成的微慣導(dǎo)傳感器網(wǎng)絡(luò)構(gòu)成的基于微慣導(dǎo)的手語動作捕捉系統(tǒng)，負(fù)責(zé)實時同步采集各個節(jié)點的數(shù)據(jù)，并將其發(fā)送到微慣導(dǎo)信號處理和分析系統(tǒng)；
(3)微慣導(dǎo)信號處理和分析系統(tǒng)通過有線或無線的方式實時接收來自"手語動作捕捉系統(tǒng)"產(chǎn)生的多通道同步數(shù)據(jù)，并把接收到的數(shù)據(jù)進行平滑和濾波處理，去掉影響判斷的噪聲和干擾信號，然后以特定的算法進行特征提取，得到實時的手語動作特征信息；
(4)手語動作特征數(shù)據(jù)庫包括500個或以上手語動作的500個不同樣本的特征信息，即每個手語動作所對應(yīng)的三維加速度和三維角速度，動作持續(xù)時間等信息；采用手語動
5作特征數(shù)據(jù)庫結(jié)合特定算法訓(xùn)練出用于動作識別的手語動作分類器； (5)手語動作分類器接收來自微慣導(dǎo)信號處理和分析系統(tǒng)提供的實時手語動作特征信息，并對其進行動作識別，得到手語動作相應(yīng)的含義，將從手語動作翻譯得來的分離詞語整合成類自然語言，并能通過查詢語音數(shù)據(jù)庫實時輸出語音信號，驅(qū)動發(fā)聲系統(tǒng)發(fā)聲，完成手語向語音的翻譯。本發(fā)明還公開了一種采用上述手語語音雙向翻譯系統(tǒng)將手語翻譯成語音的方法，具體包括以下步驟 (1)由麥克風(fēng)或麥克風(fēng)陣列組成的語音信號采集系統(tǒng)，將把說話者的聲音實時記錄下來，并進行一系列處理后傳遞給基于模式識別的語音分析系統(tǒng)； (2)該語音分析系統(tǒng)通過模式識別的方法和相關(guān)聯(lián)的語音文字?jǐn)?shù)據(jù)庫來進行語義的準(zhǔn)確分析，并形成可供轉(zhuǎn)換成手語動作的分離詞語； (3)手語動作分類器與視頻/動畫數(shù)據(jù)庫，語音和文字?jǐn)?shù)據(jù)庫相關(guān)聯(lián)，根據(jù)分離出的詞語實時查詢包含對應(yīng)手語動作的視頻/動畫，并將資料實時提供給顯示系統(tǒng)，完成語音向手語的翻譯。

圖1 :本發(fā)明的手語語音雙向翻譯系統(tǒng)架構(gòu)圖；圖2 :動作識別流程圖；圖3 :分類器訓(xùn)練流程圖；符號說明 0手語動作特征數(shù)據(jù)庫 1手語動作捕捉系統(tǒng) 2微慣導(dǎo)信號處理與分析系統(tǒng) 3手語動作分類器 4語音信號采集系統(tǒng) 5語音分析系統(tǒng) 6語音文字?jǐn)?shù)據(jù)庫 7發(fā)聲系統(tǒng) 8顯示系統(tǒng) 9動畫/視頻庫
具體實施例方式
下面，結(jié)合附圖，詳細(xì)說明本發(fā)明的手語語音雙向翻譯系統(tǒng)的系統(tǒng)組成，以及系統(tǒng) 構(gòu)建方法。本發(fā)明的手語語音雙向翻譯系統(tǒng)，包括一套基于微慣導(dǎo)傳感的手語動作捕捉系統(tǒng) 1、一套微慣導(dǎo)信號處理與分析系統(tǒng)2、一個訓(xùn)練完成的手語動作特征分類器3和一套用來訓(xùn)練手語動作分類器3的手語動作特征數(shù)據(jù)庫0，同時整合了語音文字?jǐn)?shù)據(jù)庫6、視頻/動畫數(shù)據(jù)庫9、語音信號采集系統(tǒng)4和語音分析系統(tǒng)5，還整合了發(fā)聲系統(tǒng)7和顯示系統(tǒng)8，共同組成完整的手語語音雙向翻譯系統(tǒng)。
其具體連接關(guān)系如圖1所示手語動作捕捉系統(tǒng)1與微慣導(dǎo)信號處理與分析系統(tǒng) 2通信連接，手語動作分類器3分別與手語動作特征數(shù)據(jù)庫0、微慣導(dǎo)信號處理與分析系統(tǒng) 2、語音文字?jǐn)?shù)據(jù)庫6、視頻/動畫數(shù)據(jù)庫9、顯示系統(tǒng)8通信連接，語音文字?jǐn)?shù)據(jù)庫6還與語音分析系統(tǒng)5和視頻/動畫數(shù)據(jù)庫9通信連接，語音信號采集系統(tǒng)4和發(fā)聲系統(tǒng)7分別與語音分析系統(tǒng)5通信連接。本文所述的通信連接是指，通信主體之間可以采用有線或者無線的方式進行數(shù)據(jù) 傳輸。
下面對其中的幾個主要部分作詳細(xì)描述
— .手語動作捕捉系統(tǒng) 基于微慣導(dǎo)傳感的手語動作捕捉系統(tǒng)1主要包括主控單元(例如微處理器DSP)、信號濾波和放大單元、AD轉(zhuǎn)換單元以及發(fā)送單元，還包括若干個微慣導(dǎo)傳感節(jié)點，每一個傳感節(jié)點包含三維加速度傳感器和三維陀螺儀，節(jié)點覆蓋范圍包含雙手，雙臂和頭部，節(jié)點數(shù) 目任意可調(diào)，以能夠準(zhǔn)確探測出每個手語動作為宜，優(yōu)選在10 30之間；各微慣導(dǎo)傳感器測量范圍是，加速度范圍-5G—5G，角速度范圍-300度/s—300度/s ;節(jié)點與系統(tǒng)間的實時通信采用無線或有線方式進行；傳感器信息采集速率在100Hz以上，可滿足對手語動作狀態(tài)的實時捕捉。在使用該系統(tǒng)時，還需要進行以下操作步驟
(1)建立微慣導(dǎo)器件失配誤差模擬模型深入分析微慣導(dǎo)傳感器漂移和原始誤差，失配誤差的產(chǎn)生機制，以及它們對微慣導(dǎo)系統(tǒng)性能的影響，進行仿真模擬，建立其失配誤差模型，對各種誤差進行精確補償。
(2)高性能6維自由度的uMU手語動作傳感子系統(tǒng)設(shè)計在有限體積內(nèi)集成三維加速度與三維角速度傳感單元，并集成多傳感器數(shù)據(jù)的采集和模數(shù)轉(zhuǎn)換電路、具有準(zhǔn)確時鐘系統(tǒng)的微控制器時序電路、微系統(tǒng)數(shù)據(jù)存儲電路、微系統(tǒng) 電源系統(tǒng)電路、無線傳輸電路和DSP控制單元。通過完善的電路板級電磁兼容設(shè)計，信號完整性設(shè)計等消除高頻噪聲、熱噪聲、串?dāng)_、時鐘抖動等誤差，提高微型慣性測量單元性能。
(3)建立手語動作誤差模型結(jié)合手語動作的規(guī)律和時頻特性，消除由于人體協(xié)同運動(血壓、心跳、肌肉和皮膚抖動等)造成的測量誤差，完成微慣導(dǎo)傳感系統(tǒng)的初始對準(zhǔn)和標(biāo)定；實現(xiàn)魯棒自適應(yīng)卡爾曼濾波器的手語動作姿態(tài)的準(zhǔn)確測量；并利用先進數(shù)字信號處理算法的魯棒自適應(yīng)實時測量誤差補償、干擾信號抑制技術(shù)，以提高整個系統(tǒng)的性能。
二 .微慣導(dǎo)信號處理與分析系統(tǒng) 微慣導(dǎo)信號處理與分析系統(tǒng)2接收手語動作捕捉系統(tǒng)傳送來的多路采集的6維 8bit微慣導(dǎo)數(shù)字信號，采用基于矢量的Kalman濾波器對這些信號進行運算和分析；采用基于主成分分析法(PCA)或者基于頻域分析方法(FFT/DCT)的特征提取方法；采用最優(yōu)搜索法、次優(yōu)搜索法、模擬退火法和遺傳算法，根據(jù)可分離性判據(jù)來選擇可分性最大的特征組。
(1)建立高維多節(jié)點運動狀態(tài)特征矢量并構(gòu)造相應(yīng)的運動狀態(tài)空間。通過對高維空間位姿點運動軌跡的行為分析和運動狀態(tài)中各參量的約束關(guān)系，實現(xiàn)手語動作的特征提取。離散系統(tǒng)的Kalman濾波最早由Rudolph E. Kalman提出，并將其用于處理非平穩(wěn)時變信號以便在信號處理過程中實現(xiàn)時變估計。工程技術(shù)人員通過使用狀態(tài)空間方法提供的一套實現(xiàn)最小均方誤差的Kalman濾波方法，較好的解決了某些維納濾波無法解決的工程問題。Kalman濾波解決問題的主要特點是由于采用了遞歸技術(shù)，因此無需考慮多個過去的輸入信號，而在每次遞歸運算時，
只考慮前一個輸入信號就可以了。因此，便于用計算機實時處理信號。在考慮某些問題時，可以用矢量形式表示隨機過程多個有關(guān)參量。隨機線性離散系統(tǒng)的Kalman濾波基本方程設(shè)隨機線性離散系統(tǒng)的方程(不考慮控制作用)為 <formula>formula see original document page 8</formula> <formula>formula see original document page 8</formula> 式中Xk是系統(tǒng)的n維狀態(tài)向量，Zk是系統(tǒng)的m維觀測序列，Wk是p維系統(tǒng)過程噪聲序列，Vk是m維觀測噪聲序列，Ok,k—工是系統(tǒng)的nXn維狀態(tài)轉(zhuǎn)移矩陣，rkk—工是nXp維噪聲輸入矩陣，Hk是mXn維觀測矩陣。關(guān)于系統(tǒng)過程噪聲和觀測噪聲的統(tǒng)計特性，我們假定如下
E [Wk] = 0 ， E [Vk] = 0 ，五[WC ] = 0 ,[]=込《]= 其中Qk是系統(tǒng)過程噪聲Wk的p Xp維對稱非負(fù)定方差矩陣，Rk是系統(tǒng)觀測噪聲Vk 的mXm維對稱正定方差陣，而S kj是Kronecker-S函數(shù)。
下面直接給出隨機線性離散系統(tǒng)基本Kalman濾波方程。
狀態(tài)一步預(yù)測 <formula>formula see original document page 8</formula> 狀態(tài)估計<formula>formula see original document page 8</formula> 濾波增益矩陣 <formula>formula see original document page 8</formula> —步預(yù)測誤差方差陣 <formula>formula see original document page 8</formula> 估計誤差方差陣 <formula>formula see original document page 8</formula>
或^= [I-KkHk]Pk.k—"或g—、尸丄,+《《A 上述式即為隨機線性離散系統(tǒng)Kalman濾波基本方差。只要給定初值i。和P。，根據(jù) k時刻的觀測值Zk，就可以遞推計算得k時刻的狀態(tài)估計i^ (A: = l,2,-0 。
(2)以PCA法說明本發(fā)明的手語動作特征提取過程，該法是一種典型的代數(shù)特征提取方法，它是對K-L變換后的特征空間進行選擇，將K-L變換后的特征值從大到小排列，挑選出相對大的特征值所對應(yīng)的特征向量，構(gòu)成一個K-L變換特征空間的子空間，來進行特征提取。K-L變換是信息特征壓縮的一種最優(yōu)正交變換，其實質(zhì)是建立一個新的特征空間，將數(shù)據(jù)沿其特征矢量用對齊的方式來旋轉(zhuǎn)變換，這個變換接觸了原有數(shù)據(jù)向量的各個分量之間的相關(guān)性，從而有可能去掉那些帶有較少信息的坐標(biāo)系以達(dá)到降低特征空間維度的目的。經(jīng)過以上K-L變換的得到的特征是原手語動作特征向量的正交分解，不損失任何信息。在這個互相正交，可測量的特征空間中進行手語動作的特征提取，可以有效的利用動作之間的差異，提取有效信息。 (3)采用快速傅里葉變換FFT和離散余弦變換DCT進行頻域特征提取，其算法公式為統(tǒng)一標(biāo)準(zhǔn)，此處不予敖述。因為人體動作為低頻動作，提取特征一般為低頻域內(nèi)特征，一般取前10階到前15階作為特征輸入。
三.手語動作特征數(shù)據(jù)庫該數(shù)據(jù)庫0包含多個(例如500條或以上)常用的手語動作，每條手語動作包含多
個(例如500個)不同樣本的手語動作特征信息，并且信息量可擴充；采集不同身高，不同
體型，不同年齡，不同性別，不同動作習(xí)慣的多組(例如500組)同一手語動作樣本，使用BP
神經(jīng)網(wǎng)絡(luò)算法或SVM算法訓(xùn)練生成"手語動作分類器"，使經(jīng)這些樣本訓(xùn)練而成的分類器擁
有較高的動作識別率；可以生成基于BP神經(jīng)網(wǎng)絡(luò)的分類器，基于支持向量機的SVM分類器
等；數(shù)據(jù)庫的訓(xùn)練過程是采用MATLAB軟件在計算機平臺上實現(xiàn)，并且采用離線訓(xùn)練模式。使用SVM算法訓(xùn)練分類器的基本思想是對于一定數(shù)目的手語動作特征信息樣本
矢量，將其通過非線性變換映射到另一個高維空間Z中，在變換后的空間里，尋找一個最優(yōu)
的分界面(超平面)，使其推廣能力最好。具體來說，給定訓(xùn)練樣本(&，Y》，(X2，Y2) ，. . . (&，
YJ，其中YG {_1，1}，找到一個非線性變換2= 9 (X)，使X成為線性可分，則可以找到權(quán)
向量W和參數(shù)B，滿足 WTZi+B >= 1， Yi = 1 ; 和WTZi+B < = -1 ， Yi = -1 ; 艮P :Yi(WTZi+B) >= 0， i = 1，2，， L 設(shè)最優(yōu)分界面H的方程，則兩類中靠近H的點之間距離P可求出，求導(dǎo)使P值最小化。那么得到一個Z空間的二次規(guī)劃問題，求解該問題，得到分界面H的參數(shù)WT。和B。，即分界面H為已知，對該分界面求反變換，得到一個X空間的分類函數(shù)F，這就是分類器。其中分類器的參數(shù)可以隨著訓(xùn)練樣本的增加，而逐漸調(diào)整到理想值。
四.可訓(xùn)練的手語動作分類器 (1)采用支持向量機的方法完成對手語數(shù)據(jù)庫的訓(xùn)練手語動作分類器3對微慣導(dǎo)信號處理與分析系統(tǒng)2輸出的手語動作特征信息進行分類和識別，分類策略采用"一對一"或者"一對多"。若X為特征信息變量，A， B， C分別指某個動作分類，則"一對一"是指若X不屬于A，則X屬于B。"一對多"是指若X不屬于A，則X屬于B或者C，或者其他類別。采用后一種策略，更容易得到好的識別效果。
假設(shè)識別樣本有C類，記為Sn S2， . . . ， Sc.設(shè)計C個SVM分類器Ft (i = 1， 2，...， C)，每一個&用其中的一類樣本Si作為正樣本訓(xùn)練，而其他樣本Sj (j不等于i)作為負(fù)樣本訓(xùn)練。對于正負(fù)樣本，系統(tǒng)輸出為+i，-i.測試階段，將每個測試樣本輸入到C個分類器里，如果只有一個Fi輸出是+l，則該樣本判別為第i類。若有P(P〉 1)個分類器輸出是+l，則再利用最近鄰分類技術(shù)，即計算測試樣本和這P個分類器所代表的訓(xùn)練樣本之間的距離，將測試樣本判別為最小值對應(yīng)的那個類別。如果所有分類器輸出為-l，則將測試樣本判定為新樣本。 (2)采用隱式馬爾科夫模型對數(shù)據(jù)庫進行訓(xùn)練
隱式馬爾可夫模型(HMM)是一種用參數(shù)表示的用于描述隨機過程統(tǒng)計特性的概率模型[l]。它由兩部分組成一部分是隱含的馬爾可夫鏈稱為隱含層；另一部分是實際的觀測量稱為觀測層。HMM是一個統(tǒng)計模型，它用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。其難點是從可觀察的參數(shù)中確定該過程的隱含參數(shù)。然后利用這些參數(shù)來作進一步的分析，例如模式識別。在正常的馬爾可夫模型中，狀態(tài)對于觀察者來說是直接可見的。這樣狀態(tài)變遷概
率便是全部的參數(shù)。而在隱馬爾可夫模型中，狀態(tài)并不是直接可見的，但受狀態(tài)影響的某些
變量則是可見的。每一個狀態(tài)在可能輸出的符號上都有一概率分布。因此輸出符號的序列
能夠透露出狀態(tài)序列的一些信息。隱馬爾可夫模型可以有以下描述 l.N，模型狀態(tài)數(shù)碼，一般情況下，狀態(tài)具有遍歷性，即一個狀態(tài)可由其他任何一個狀態(tài)到達(dá)。模型的狀態(tài)記為S = {Sn S2，......， SN}。 2.M個狀態(tài)可觀察的離散符號數(shù)，對過程的物理輸出進行矢量量化編碼，符號數(shù)就是碼數(shù)大小。符號記為V = {Vp V2，......， VM}。 3.A,XN，狀態(tài)轉(zhuǎn)移概率矩陣。描述了HMM模型中各個狀態(tài)之間的轉(zhuǎn)移概率。其中
A". = P(at+1 = Sj I qt = S》，1《i， j《N. (1) 式(1)表示在t時刻、狀態(tài)為Si的條件下，在t+1時刻狀態(tài)是Sj的概率。 4.BwXN，觀測符號概率分布矩陣。其中 Bj(k) = P[Vk(t) |qt = Sj] ;1《j《N， 1《k《M. 表示在t時刻、狀態(tài)是Sj條件下，觀察符號為Vk(t)的概率。
5. Ji j = P[ql = Sj] ;1《j《N. 表示在出示t = 1時刻狀態(tài)為Sj的概率。該分類器識別過程在便攜式系統(tǒng)的DSP單元中進行，能夠?qū)崟r的對傳來的特征信息進行分類識別，系統(tǒng)時延在O. l秒以下，動作識別正確率在80%以上；由于系統(tǒng)需要對識別出的動作信息進行翻譯，轉(zhuǎn)化成語音，通過發(fā)聲系統(tǒng)輸出，所以分類器還需要與語音庫相關(guān)聯(lián)，以便實時查詢。
五.其它部分語音信號采集系統(tǒng)和語音分析系統(tǒng)用于采集語音信息并進行初步分析，這在現(xiàn)有技術(shù)中十分常見，如麥克風(fēng)等，在此不再贅述。發(fā)聲系統(tǒng)由立體聲或者單聲道揚聲器及其配套的驅(qū)動系統(tǒng)組成，負(fù)責(zé)把語音系統(tǒng) 傳入的語音信號實時轉(zhuǎn)換為人耳可以聽到的聲音信號。顯示系統(tǒng)可由獨立LCD或OLED顯示系統(tǒng)，也可由基于WIFI， ZIGBEE或BLUETOOTH 技術(shù)實現(xiàn)與翻譯系統(tǒng)通信的手機(PDA, UMPC)來顯示。該系統(tǒng)負(fù)責(zé)把查詢到的手語動作三維動畫或者真人視頻實時顯示出來。語音文字?jǐn)?shù)據(jù)庫和動畫/視頻庫是建立語音、圖像以及文字之間聯(lián)系的數(shù)據(jù)庫。
下面示例說明本發(fā)明的硬件構(gòu)成
微慣導(dǎo)傳感器節(jié)點三維加速度傳感器，三維陀螺儀(北京大學(xué)微電子學(xué)院研制)，信號濾波和放大模塊，ADC，無線(藍(lán)牙)或有線(串口或并口 )傳送模塊；
信息處理中心 TI 6000 DSP， SUMSUNG 256M bit SDRAM， SUMSUNG 8G FLASH,無線或有線接收模塊，ADC 輸入輸出設(shè)備 SUMSUNG 4. 3英寸背光LED屏顯示器，0. 7W揚聲器，YAMAHA揚聲器驅(qū)動IC，微型麥克風(fēng)。采用本發(fā)明的手語語音雙向翻譯系統(tǒng)工作流程如下
A手語翻譯成語音 (1)微慣導(dǎo)傳感器節(jié)點，負(fù)責(zé)采集手語動作中人體相應(yīng)點位的三維加速度和三維角速度信息，其具有基本的信號處理功能和無線/有線發(fā)送功能； (2)由多個節(jié)點組成的微慣導(dǎo)傳感器網(wǎng)絡(luò)構(gòu)成的基于微慣導(dǎo)的手語動作捕捉系統(tǒng)，負(fù)責(zé)實時同步采集各個節(jié)點的數(shù)據(jù)，并將其發(fā)送到微慣導(dǎo)信號處理和分析系統(tǒng)；
(3)微慣導(dǎo)信號處理和分析系統(tǒng)通過有線或無線的方式實時接收來自"手語動作捕捉系統(tǒng)"產(chǎn)生的多通道同步數(shù)據(jù)，并把接收到的數(shù)據(jù)進行平滑和濾波處理，去掉影響判斷的噪聲和干擾信號，然后以特定的算法進行特征提取，得到實時的手語動作特征信息；
(4)手語動作特征數(shù)據(jù)庫包括500個或以上手語動作的500個不同樣本的特征信息，即每個手語動作所對應(yīng)的三維加速度和三維角速度，動作持續(xù)時間等信息；采用手語動作特征數(shù)據(jù)庫結(jié)合特定算法訓(xùn)練出用于動作識別的手語動作分類器； (5)手語動作分類器接收來自微慣導(dǎo)信號處理和分析系統(tǒng)提供的實時手語動作特征信息，并對其進行動作識別，得到手語動作相應(yīng)的含義，將從手語動作翻譯得來的分離詞語整合成類自然語言，并能通過查詢語音數(shù)據(jù)庫實時輸出語音信號，驅(qū)動發(fā)聲系統(tǒng)發(fā)聲，完成手語向語音的翻譯； B語音翻譯成手語 (1)由麥克風(fēng)或麥克風(fēng)陣列組成的語音信號采集系統(tǒng)，將把說話者的聲音實時記錄下來，并進行一系列處理后傳遞給基于模式識別的語音分析系統(tǒng)； (2)該語音分析系統(tǒng)通過模式識別的方法和相關(guān)聯(lián)的語音文字?jǐn)?shù)據(jù)庫來進行語義的準(zhǔn)確分析，并形成可供轉(zhuǎn)換成手語動作的分離詞語； (3)手語動作分類器與視頻/動畫數(shù)據(jù)庫，語音和文字?jǐn)?shù)據(jù)庫相關(guān)聯(lián)，根據(jù)分離出的詞語實時查詢包含對應(yīng)手語動作的視頻/動畫，并將資料實時提供給顯示系統(tǒng)，完成語音向手語的翻譯。與現(xiàn)有技術(shù)相比，本系統(tǒng)具有如下優(yōu)點
1)成本低由于采用uMU作為傳感器和普通的DSP芯片作為信息處理中心，預(yù)計整套系統(tǒng)的成本將比使用光學(xué)運動捕捉的手語翻譯系統(tǒng)低60%以上。
2)低功耗微慣導(dǎo)傳感器節(jié)點的功耗小于20mW，DSP信息處理中心的功耗小于100mW，揚聲器和顯示屏的功耗稍大，可達(dá)到0. 7W和0. 3W，以20個節(jié)點算，整個系統(tǒng)功耗小于等于1. 5W。
3)簡單便攜，適用性強本發(fā)明可做成一副傳感器手套或者一件內(nèi)嵌傳感器上衣，使用者只需帶上特定手套或者穿上特定上衣就可以使用本系統(tǒng)，且該系統(tǒng)不受使用環(huán)境限制。
4)功能強大能夠?qū)崿F(xiàn)手語與語音的雙向翻譯，使聾啞人與正常人的日常交流成為可能。
本實施案例并不限制本發(fā)明，對于本技術(shù)領(lǐng)域的普通技術(shù)人員，在不脫離本發(fā)明原理的前提下，還可以作出若干改進和變化，這些改進和變化也應(yīng)視為本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
一種手語語音雙向翻譯系統(tǒng)，其特征在于，所述系統(tǒng)包括基于微慣導(dǎo)傳感的手語動作捕捉系統(tǒng)(1)、微慣導(dǎo)信號處理與分析系統(tǒng)(2)、一訓(xùn)練完整的手語動作特征分類器(3)、用來訓(xùn)練手語動作分類器(3)的手語動作特征數(shù)據(jù)庫(0)、語音文字?jǐn)?shù)據(jù)庫(6)、視頻/動畫數(shù)據(jù)庫(9)、語音信號采集系統(tǒng)(4)、語音分析系統(tǒng)(5)、發(fā)聲系統(tǒng)(7)和顯示系統(tǒng)(8)；其中所述手語動作捕捉系統(tǒng)(1)與所述微慣導(dǎo)信號處理與分析系統(tǒng)(2)通信連接，所述手語動作分類器(3)分別與所述手語動作特征數(shù)據(jù)庫(0)、微慣導(dǎo)信號處理與分析系統(tǒng)(2)、語音文字?jǐn)?shù)據(jù)庫(6)、視頻/動畫數(shù)據(jù)庫(9)、顯示系統(tǒng)(8)通信連接，所述語音文字?jǐn)?shù)據(jù)庫(6)還與所述語音分析系統(tǒng)(5)和視頻/動畫數(shù)據(jù)庫(9)通信連接，所述語音信號采集系統(tǒng)(4)和發(fā)聲系統(tǒng)(7)分別與所述語音分析系統(tǒng)(5)通信連接。
2. 如權(quán)利要求1所述的手語語音雙向翻譯系統(tǒng)，其特征在于，所述手語動作捕捉系統(tǒng)(1)包括主控單元、信號濾波和放大單元、AD轉(zhuǎn)換單元以及發(fā)送單元，還包括若干個微慣導(dǎo)傳感節(jié)點，每一個傳感節(jié)點包含三維加速度傳感器和三維陀螺儀。
3. 如權(quán)利要求1所述的手語語音雙向翻譯系統(tǒng)，其特征在于，所述手語動作捕捉系統(tǒng)(1)還需要進行以下操作步驟1) 建立微慣導(dǎo)器件失配誤差模擬模型；2) 高性能6維自由度的uIMU手語動作傳感子系統(tǒng)設(shè)計；3) 建立手語動作誤差模型。
4. 如權(quán)利要求1所述的手語語音雙向翻譯系統(tǒng)，其特征在于，所述微慣導(dǎo)信號處理與分析系統(tǒng)(2)接收手語動作捕捉系統(tǒng)(1)傳送來的微慣導(dǎo)數(shù)字信號，采用特定的濾波算法對這些信號進行運算和分析，并采用特定的特征提取方法和最優(yōu)搜索法、次優(yōu)搜索法、模擬退火法、遺傳算法，根據(jù)可分離性判據(jù)來選擇可分性最大的特征組。
5. 如權(quán)利要求4所述的手語語音雙向翻譯系統(tǒng)，其特征在于，所述特定的濾波算法為基于矢量的Kalman濾波法，所述特定的特征提取方法基于主成分分析法(PCA)或者特征頻率描述方法包括快速傅里葉變換(FFT)或離散余弦變換(DCT)。
6. 如權(quán)利要求1所述的手語語音雙向翻譯系統(tǒng)，其特征在于，所述手語動作特征數(shù)據(jù)庫(0)包含多個常用的手語動作，每條手語動作包含多個不同樣本的手語動作特征信息，且信息量可擴充；采集不同身高，不同體型，不同年齡，不同性別，不同動作習(xí)慣的多組同一手語動作樣本，使用BP神經(jīng)網(wǎng)絡(luò)算法或SVM算法或基于隱馬爾可夫模型(HMM)訓(xùn)練生成手語動作特征分類器，使經(jīng)這些樣本訓(xùn)練而成的分類器擁有較高的動作識別率。
7. 如權(quán)利要求l所述的手語語音雙向翻譯系統(tǒng)，其特征在于，所述手語動作分類器(3)采用"一對一"或者"一對多"的分類策略。
8. 如權(quán)利要求l所述的手語語音雙向翻譯系統(tǒng)，其特征在于，所述發(fā)聲系統(tǒng)由立體聲或者單聲道揚聲器及其配套的驅(qū)動系統(tǒng)組成；所述顯示系統(tǒng)由獨立顯示系統(tǒng)或由基于WIFI、 ZIGBEE、 BLUETOOTH技術(shù)實現(xiàn)與翻譯系統(tǒng)通信的手機來實現(xiàn)。
9. 采用如權(quán)利要求l-8所述的手語語音雙向翻譯系統(tǒng)將手語翻譯成語音的方法，具體包括以下步驟(1) 微慣導(dǎo)傳感器節(jié)點，負(fù)責(zé)采集手語動作中人體相應(yīng)點位的三維加速度和三維角速度信息，其具有基本的信號處理功能和無線/有線發(fā)送功能；(2) 由多個節(jié)點組成的微慣導(dǎo)傳感器網(wǎng)絡(luò)構(gòu)成的基于微慣導(dǎo)的手語動作捕捉系統(tǒng)，負(fù)責(zé)實時同步采集各個節(jié)點的數(shù)據(jù)，并將其發(fā)送到微慣導(dǎo)信號處理和分析系統(tǒng)；(3) 微慣導(dǎo)信號處理和分析系統(tǒng)通過有線或無線的方式實時接收來自"手語動作捕捉系統(tǒng)"產(chǎn)生的多通道同步數(shù)據(jù)，并把接收到的數(shù)據(jù)進行平滑和濾波處理，去掉影響判斷的噪聲和干擾信號，然后以特定的算法進行特征提取，得到實時的手語動作特征信息；(4) 手語動作特征數(shù)據(jù)庫包括500個或以上手語動作的500個不同樣本的特征信息，即每個手語動作所對應(yīng)的三維加速度和三維角速度，動作持續(xù)時間等信息；采用手語動作特征數(shù)據(jù)庫結(jié)合特定算法訓(xùn)練出用于動作識別的手語動作分類器；(5) 手語動作分類器接收來自微慣導(dǎo)信號處理和分析系統(tǒng)提供的實時手語動作特征信息，并對其進行動作識別，得到手語動作相應(yīng)的含義，將從手語動作翻譯得來的分離詞語整合成類自然語言，并能通過查詢語音數(shù)據(jù)庫實時輸出語音信號，驅(qū)動發(fā)聲系統(tǒng)發(fā)聲，完成手語向語音的翻譯。
10.采用如權(quán)利要求1-8所述的手語語音雙向翻譯系統(tǒng)將語音翻譯成手語的方法，具體包括以下步驟(1) 由麥克風(fēng)或麥克風(fēng)陣列組成的語音信號采集系統(tǒng)，將把說話者的聲音實時記錄下來，并進行一系列處理后傳遞給基于模式識別的語音分析系統(tǒng)；(2) 該語音分析系統(tǒng)通過模式識別的方法和相關(guān)聯(lián)的語音文字?jǐn)?shù)據(jù)庫來進行語義的準(zhǔn) 確分析，并形成可供轉(zhuǎn)換成手語動作的分離詞語；(3) 手語動作分類器與視頻/動畫數(shù)據(jù)庫，語音和文字?jǐn)?shù)據(jù)庫相關(guān)聯(lián)，根據(jù)分離出的詞語實時查詢包含對應(yīng)手語動作的視頻/動畫，并將資料實時提供給顯示系統(tǒng)，完成語音向手語的翻譯。
全文摘要
本發(fā)明涉及基于傳感技術(shù)和模式識別技術(shù)的肢體動作識別技術(shù)以及語音識別技術(shù)，屬于傳感技術(shù)和慣性信號處理、語音處理技術(shù)領(lǐng)域，特指一種手語語音雙向翻譯系統(tǒng)，其以微慣導(dǎo)傳感器網(wǎng)絡(luò)和手語動作分類器為核心，通過安裝在聾啞人手指、手臂以及頭部的傳感器，檢測聾啞人做出的手語動作，并正確識別，然后將其代表的含義通過語音和發(fā)聲系統(tǒng)連貫的表達(dá)出來，以達(dá)到讓正常人“看懂”手語的效果；同時，正常人的語言可以被翻譯成特定的連貫的手語動作，并以動畫或視頻的形式顯示出來，以達(dá)到聾啞人間接“聽到”正常人說話的效果。該系統(tǒng)有效解決了聾啞人與正常人雙向交流的障礙，且廉價便攜，有著巨大的社會效益和經(jīng)濟效益。
文檔編號G06K9/62GK101794528SQ20101013901
公開日2010年8月4日申請日期2010年4月2日優(yōu)先權(quán)日2010年4月2日
發(fā)明者時廣軼, 舒長青, 賈松濤, 鄒月嫻, 金玉豐申請人:北京大學(xué)軟件與微電子學(xué)院無錫產(chǎn)學(xué)研合作教育基地

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：時廣軼;舒長青;金玉豐;鄒月嫻;賈松濤
技術(shù)所有人：北京大學(xué)軟件與微電子學(xué)院無錫產(chǎn)學(xué)研合作教育基地
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

手語翻譯系統(tǒng)相關(guān)技術(shù)

手機手語智能翻譯系統(tǒng)相關(guān)技術(shù)

雙向語音對講系統(tǒng)相關(guān)技術(shù)

海康雙向語音監(jiān)控系統(tǒng)相關(guān)技術(shù)

手語識別系統(tǒng)相關(guān)技術(shù)

手語翻譯相關(guān)技術(shù)

手語在線翻譯相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種手語語音雙向翻譯系統(tǒng)的制作方法