專利名稱:一種手語語音雙向翻譯系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基于傳感技術(shù)和模式識別技術(shù)的肢體動作識別技術(shù)以及語音識別技
術(shù),尤指一種以微慣導(dǎo)傳感器網(wǎng)絡(luò)和手語動作分類器為核心的手語語音雙向翻譯系統(tǒng),能 對手語動作進行語音表達(dá),也能將語音信息翻譯成手語動作加以顯示,屬于傳感技術(shù)和微 慣導(dǎo)信號處理、語音處理技術(shù)領(lǐng)域。
背景技術(shù):
手語動作的模式識別是手語翻譯系統(tǒng)中的重要環(huán)節(jié),現(xiàn)在用得較多的手語翻譯系 統(tǒng)的模式識別都是基于視覺識別的。這種識別方式主要是用多個相機同時從各個視角拍下 手語動作,然后進行圖像幀的底層特征提取,接著進行幀間的特征聯(lián)系,最終識別出手語動 作。但這種基于視覺的手語動作的模式識別是有缺陷的,其比較明顯的有兩點l,對于復(fù)雜 的手語動作,用圖像進行處理和識別難以精確;2,用圖像進行處理和識別很容易受環(huán)境的 影響,比如在光線很暗的情況下就很受影響。 隨著現(xiàn)代技術(shù)的不斷發(fā)展,微機電系統(tǒng)以其體積小、重量輕、功耗低、成本低、可靠 性高等優(yōu)點,在軍用市場和民用市場均得到了廣泛的應(yīng)用。特別是慣性傳感器,已經(jīng)在航空 航天、汽車、電子設(shè)備保護、娛樂等領(lǐng)域取得了非常引人注目的應(yīng)用,開創(chuàng)了微型汽車安全 氣囊傳感器等新的產(chǎn)業(yè)。隨著技術(shù)的發(fā)展和深入,繼承多種慣性微機電系統(tǒng)傳感器是目前 的研究熱點,在生物醫(yī)學(xué)、環(huán)境監(jiān)控、消費電子等領(lǐng)域有著十分廣闊的應(yīng)用前景。特別值得 一提的是現(xiàn)在微機電系統(tǒng)研究和發(fā)展的一個重要方向,也即微型慣性測量組合(uIMU),它 在生物醫(yī)學(xué)、工業(yè)自動化、智能建筑、航空航天、環(huán)境監(jiān)控、消費電子等領(lǐng)域前景巨大。
微慣導(dǎo)是微慣導(dǎo)測量組合的簡稱,它由一定數(shù)量的三維加速度計和三維陀螺儀組 成,它的測量原理是經(jīng)典力學(xué)中的牛頓運動定律,它通過三維加速度計和三維陀螺儀測量 車輛、飛機、導(dǎo)彈、艦艇、人造衛(wèi)星等物體的質(zhì)心運動和姿態(tài)運動,從而對物體進行控制和導(dǎo) 航?;贛EMS三維加速度計和三維陀螺儀的微慣性測量系統(tǒng)具有體積小、重量輕、可靠性 高、易集成、能大批量生產(chǎn)、價格低廉等優(yōu)點,從而在軍用、民用領(lǐng)域有廣闊的應(yīng)用前景。
基于微慣導(dǎo)技術(shù)的這些卓越的特性,能否將其結(jié)合到圖像識別技術(shù)用于對人體動 作的翻譯,以及如何結(jié)合,為本領(lǐng)域技術(shù)人員開拓了一條嶄新的思路。 同時,為了解決聾鵬人與正常人交流的障礙,僅僅能夠?qū)⒚@鵬人的手語翻譯出來 是不夠的,為了使聾鵬人能夠明白正常人的意圖,還需要能夠?qū)⒄H说恼Z音信息翻譯成 對應(yīng)的手語動作并顯示給聾鵬人的裝置。
發(fā)明內(nèi)容
本發(fā)明旨在公開一種手語語音雙向翻譯系統(tǒng),既可將手語翻譯成對應(yīng)的語音信 息,又可將語音翻譯成對應(yīng)的手語并顯示,該系統(tǒng)包括基于微慣導(dǎo)傳感的手語動作捕捉系 統(tǒng)、微慣導(dǎo)信號處理與分析系統(tǒng)、一訓(xùn)練完成的手語動作特征分類器、用來訓(xùn)練手語動作分 類器的手語動作特征數(shù)據(jù)庫、語音文字?jǐn)?shù)據(jù)庫、視頻/動畫數(shù)據(jù)庫、語音信號采集系統(tǒng)、語音分析系統(tǒng)、發(fā)聲系統(tǒng)和顯示系統(tǒng);其中所述手語動作捕捉系統(tǒng)與所述微慣導(dǎo)信號處理 與分析系統(tǒng)通信連接,所述手語動作分類器分別與所述手語動作特征數(shù)據(jù)庫、微慣導(dǎo)信號 處理與分析系統(tǒng)、語音文字?jǐn)?shù)據(jù)庫、視頻/動畫數(shù)據(jù)庫、顯示系統(tǒng)通信連接,所述語音文字 數(shù)據(jù)庫還與所述語音分析系統(tǒng)和視頻/動畫數(shù)據(jù)庫通信連接,所述語音信號采集系統(tǒng)和發(fā) 聲系統(tǒng)分別與所述語音分析系統(tǒng)通信連接; 優(yōu)選地,所述手語動作捕捉系統(tǒng)包括主控單元、信號濾波和放大單元、AD轉(zhuǎn)換單元 以及發(fā)送單元,還包括若干個微慣導(dǎo)傳感節(jié)點,每一個傳感節(jié)點包含三維加速度傳感器和 三維陀螺儀; 優(yōu)選地,所述手語動作捕捉系統(tǒng)還需要進行以下操作步驟
1)建立微慣導(dǎo)器件失配誤差模擬模型;
2)高性能6維自由度的uIMU手語動作傳感子系統(tǒng)設(shè)計;
3)建立手語動作誤差模型; 優(yōu)選地,所述微慣導(dǎo)信號處理與分析系統(tǒng)接收手語動作捕捉系統(tǒng)傳送來的微慣導(dǎo) 數(shù)字信號,采用特定的濾波算法對這些信號進行運算和分析,并采用特定的特征提取方法 和最優(yōu)搜索法、次優(yōu)搜索法、模擬退火法、遺傳算法,根據(jù)可分離性判據(jù)來選擇可分性最大 的特征組; 優(yōu)選地,所述特定的濾波算法為基于矢量的Kalman濾波法,所述特定的特征提取 方法基于主成分分析法(PCA)或者頻域分析方法快速傅里葉變換(FFT)和離散余弦變換 (DCT); 優(yōu)選地,所述手語動作特征數(shù)據(jù)庫包含多個常用的手語動作,每條手語動作包含 多個不同樣本的手語動作特征信息,且信息量可擴充;采集不同身高,不同體型,不同年齡,
不同性別,不同動作習(xí)慣的多組同一手語動作樣本,使用BP神經(jīng)網(wǎng)絡(luò)算法或SVM算法或隱 式馬爾科夫模型(HMM)訓(xùn)練生成手語動作特征分類器,使經(jīng)這些樣本訓(xùn)練而成的分類器擁 有較高的動作識別率; 優(yōu)選地,所述手語動作分類器采用"一對一"或者"一對多"的分類策略;
優(yōu)選地,所述發(fā)聲系統(tǒng)由立體聲或者單聲道揚聲器及其配套的驅(qū)動系統(tǒng)組成;所 述顯示系統(tǒng)由獨立顯示系統(tǒng)或由基于WIFI、 ZIGBEE、 BLUETOOTH技術(shù)實現(xiàn)與翻譯系統(tǒng)通信 的手機來實現(xiàn); 本發(fā)明還公開了一種采用上述手語語音雙向翻譯系統(tǒng)將手語翻譯成語音的方法, 具體包括以下步驟 (1)微慣導(dǎo)傳感器節(jié)點,負(fù)責(zé)采集手語動作中人體相應(yīng)點位的三維加速度和三維 角速度信息,其具有基本的信號處理功能和無線/有線發(fā)送功能; (2)由多個節(jié)點組成的微慣導(dǎo)傳感器網(wǎng)絡(luò)構(gòu)成的基于微慣導(dǎo)的手語動作捕捉系 統(tǒng),負(fù)責(zé)實時同步采集各個節(jié)點的數(shù)據(jù),并將其發(fā)送到微慣導(dǎo)信號處理和分析系統(tǒng);
(3)微慣導(dǎo)信號處理和分析系統(tǒng)通過有線或無線的方式實時接收來自"手語動作 捕捉系統(tǒng)"產(chǎn)生的多通道同步數(shù)據(jù),并把接收到的數(shù)據(jù)進行平滑和濾波處理,去掉影響判斷 的噪聲和干擾信號,然后以特定的算法進行特征提取,得到實時的手語動作特征信息;
(4)手語動作特征數(shù)據(jù)庫包括500個或以上手語動作的500個不同樣本的特征信 息,即每個手語動作所對應(yīng)的三維加速度和三維角速度,動作持續(xù)時間等信息;采用手語動
5作特征數(shù)據(jù)庫結(jié)合特定算法訓(xùn)練出用于動作識別的手語動作分類器; (5)手語動作分類器接收來自微慣導(dǎo)信號處理和分析系統(tǒng)提供的實時手語動作特 征信息,并對其進行動作識別,得到手語動作相應(yīng)的含義,將從手語動作翻譯得來的分離詞 語整合成類自然語言,并能通過查詢語音數(shù)據(jù)庫實時輸出語音信號,驅(qū)動發(fā)聲系統(tǒng)發(fā)聲,完 成手語向語音的翻譯。 本發(fā)明還公開了一種采用上述手語語音雙向翻譯系統(tǒng)將手語翻譯成語音的方法, 具體包括以下步驟 (1)由麥克風(fēng)或麥克風(fēng)陣列組成的語音信號采集系統(tǒng),將把說話者的聲音實時記 錄下來,并進行一系列處理后傳遞給基于模式識別的語音分析系統(tǒng); (2)該語音分析系統(tǒng)通過模式識別的方法和相關(guān)聯(lián)的語音文字?jǐn)?shù)據(jù)庫來進行語義 的準(zhǔn)確分析,并形成可供轉(zhuǎn)換成手語動作的分離詞語; (3)手語動作分類器與視頻/動畫數(shù)據(jù)庫,語音和文字?jǐn)?shù)據(jù)庫相關(guān)聯(lián),根據(jù)分離出 的詞語實時查詢包含對應(yīng)手語動作的視頻/動畫,并將資料實時提供給顯示系統(tǒng),完成語 音向手語的翻譯。
圖1 :本發(fā)明的手語語音雙向翻譯系統(tǒng)架構(gòu)圖; 圖2 :動作識別流程圖; 圖3 :分類器訓(xùn)練流程圖; 符號說明 0手語動作特征數(shù)據(jù)庫 1手語動作捕捉系統(tǒng) 2微慣導(dǎo)信號處理與分析系統(tǒng) 3手語動作分類器 4語音信號采集系統(tǒng) 5語音分析系統(tǒng) 6語音文字?jǐn)?shù)據(jù)庫 7發(fā)聲系統(tǒng) 8顯示系統(tǒng) 9動畫/視頻庫
具體實施例方式
下面,結(jié)合附圖,詳細(xì)說明本發(fā)明的手語語音雙向翻譯系統(tǒng)的系統(tǒng)組成,以及系統(tǒng) 構(gòu)建方法。 本發(fā)明的手語語音雙向翻譯系統(tǒng),包括一套基于微慣導(dǎo)傳感的手語動作捕捉系統(tǒng) 1、一套微慣導(dǎo)信號處理與分析系統(tǒng)2、一個訓(xùn)練完成的手語動作特征分類器3和一套用來 訓(xùn)練手語動作分類器3的手語動作特征數(shù)據(jù)庫0,同時整合了語音文字?jǐn)?shù)據(jù)庫6、視頻/動 畫數(shù)據(jù)庫9、語音信號采集系統(tǒng)4和語音分析系統(tǒng)5,還整合了發(fā)聲系統(tǒng)7和顯示系統(tǒng)8,共 同組成完整的手語語音雙向翻譯系統(tǒng)。
其具體連接關(guān)系如圖1所示手語動作捕捉系統(tǒng)1與微慣導(dǎo)信號處理與分析系統(tǒng) 2通信連接,手語動作分類器3分別與手語動作特征數(shù)據(jù)庫0、微慣導(dǎo)信號處理與分析系統(tǒng) 2、語音文字?jǐn)?shù)據(jù)庫6、視頻/動畫數(shù)據(jù)庫9、顯示系統(tǒng)8通信連接,語音文字?jǐn)?shù)據(jù)庫6還與語 音分析系統(tǒng)5和視頻/動畫數(shù)據(jù)庫9通信連接,語音信號采集系統(tǒng)4和發(fā)聲系統(tǒng)7分別與 語音分析系統(tǒng)5通信連接。 本文所述的通信連接是指,通信主體之間可以采用有線或者無線的方式進行數(shù)據(jù) 傳輸。
下面對其中的幾個主要部分作詳細(xì)描述
— .手語動作捕捉系統(tǒng) 基于微慣導(dǎo)傳感的手語動作捕捉系統(tǒng)1主要包括主控單元(例如微處理器DSP)、 信號濾波和放大單元、AD轉(zhuǎn)換單元以及發(fā)送單元,還包括若干個微慣導(dǎo)傳感節(jié)點,每一個傳 感節(jié)點包含三維加速度傳感器和三維陀螺儀,節(jié)點覆蓋范圍包含雙手,雙臂和頭部,節(jié)點數(shù) 目任意可調(diào),以能夠準(zhǔn)確探測出每個手語動作為宜,優(yōu)選在10 30之間;各微慣導(dǎo)傳感器 測量范圍是,加速度范圍-5G—5G,角速度范圍-300度/s—300度/s ;節(jié)點與系統(tǒng)間的實 時通信采用無線或有線方式進行;傳感器信息采集速率在100Hz以上,可滿足對手語動作 狀態(tài)的實時捕捉。 在使用該系統(tǒng)時,還需要進行以下操作步驟
(1)建立微慣導(dǎo)器件失配誤差模擬模型 深入分析微慣導(dǎo)傳感器漂移和原始誤差,失配誤差的產(chǎn)生機制,以及它們對微慣 導(dǎo)系統(tǒng)性能的影響,進行仿真模擬,建立其失配誤差模型,對各種誤差進行精確補償。
(2)高性能6維自由度的uMU手語動作傳感子系統(tǒng)設(shè)計 在有限體積內(nèi)集成三維加速度與三維角速度傳感單元,并集成多傳感器數(shù)據(jù)的采 集和模數(shù)轉(zhuǎn)換電路、具有準(zhǔn)確時鐘系統(tǒng)的微控制器時序電路、微系統(tǒng)數(shù)據(jù)存儲電路、微系統(tǒng) 電源系統(tǒng)電路、無線傳輸電路和DSP控制單元。通過完善的電路板級電磁兼容設(shè)計,信號完 整性設(shè)計等消除高頻噪聲、熱噪聲、串?dāng)_、時鐘抖動等誤差,提高微型慣性測量單元性能。
(3)建立手語動作誤差模型 結(jié)合手語動作的規(guī)律和時頻特性,消除由于人體協(xié)同運動(血壓、心跳、肌肉和皮 膚抖動等)造成的測量誤差,完成微慣導(dǎo)傳感系統(tǒng)的初始對準(zhǔn)和標(biāo)定;實現(xiàn)魯棒自適應(yīng)卡 爾曼濾波器的手語動作姿態(tài)的準(zhǔn)確測量;并利用先進數(shù)字信號處理算法的魯棒自適應(yīng)實時 測量誤差補償、干擾信號抑制技術(shù),以提高整個系統(tǒng)的性能。
二 .微慣導(dǎo)信號處理與分析系統(tǒng) 微慣導(dǎo)信號處理與分析系統(tǒng)2接收手語動作捕捉系統(tǒng)傳送來的多路采集的6維 8bit微慣導(dǎo)數(shù)字信號,采用基于矢量的Kalman濾波器對這些信號進行運算和分析;采用基 于主成分分析法(PCA)或者基于頻域分析方法(FFT/DCT)的特征提取方法;采用最優(yōu)搜索 法、次優(yōu)搜索法、模擬退火法和遺傳算法,根據(jù)可分離性判據(jù)來選擇可分性最大的特征組。
(1)建立高維多節(jié)點運動狀態(tài)特征矢量并構(gòu)造相應(yīng)的運動狀態(tài)空間。通過對高維 空間位姿點運動軌跡的行為分析和運動狀態(tài)中各參量的約束關(guān)系,實現(xiàn)手語動作的特征提 取。 離散系統(tǒng)的Kalman濾波最早由Rudolph E. Kalman提出,并將其用于處理非平穩(wěn)時變信號以便在信號處理過程中實現(xiàn)時變估計。工程技術(shù)人員通過使用狀態(tài)空間方法提供 的一套實現(xiàn)最小均方誤差的Kalman濾波方法,較好的解決了某些維納濾波無法解決的工 程問題。Kalman濾波解決問題的主要特點是 由于采用了遞歸技術(shù),因此無需考慮多個過去的輸入信號,而在每次遞歸運算時,
只考慮前一個輸入信號就可以了。因此,便于用計算機實時處理信號。 在考慮某些問題時,可以用矢量形式表示隨機過程多個有關(guān)參量。 隨機線性離散系統(tǒng)的Kalman濾波基本方程 設(shè)隨機線性離散系統(tǒng)的方程(不考慮控制作用)為 <formula>formula see original document page 8</formula> <formula>formula see original document page 8</formula> 式中Xk是系統(tǒng)的n維狀態(tài)向量,Zk是系統(tǒng)的m維觀測序列,Wk是p維系統(tǒng)過程噪 聲序列,Vk是m維觀測噪聲序列,Ok,k—工是系統(tǒng)的nXn維狀態(tài)轉(zhuǎn)移矩陣,rkk—工是nXp維 噪聲輸入矩陣,Hk是mXn維觀測矩陣。 關(guān)于系統(tǒng)過程噪聲和觀測噪聲的統(tǒng)計特性,我們假定如下
E [Wk] = 0 , E [Vk] = 0 ,五[WC ] = 0 ,[]=込《]= 其中Qk是系統(tǒng)過程噪聲Wk的p Xp維對稱非負(fù)定方差矩陣,Rk是系統(tǒng)觀測噪聲Vk 的mXm維對稱正定方差陣,而S kj是Kronecker-S函數(shù)。
下面直接給出隨機線性離散系統(tǒng)基本Kalman濾波方程。
狀態(tài)一步預(yù)測 <formula>formula see original document page 8</formula> 狀態(tài)估計<formula>formula see original document page 8</formula> 濾波增益矩陣 <formula>formula see original document page 8</formula> —步預(yù)測誤差方差陣 <formula>formula see original document page 8</formula> 估計誤差方差陣 <formula>formula see original document page 8</formula>
或^= [I-KkHk]Pk.k—"或g—、尸丄,+《《A 上述式即為隨機線性離散系統(tǒng)Kalman濾波基本方差。只要給定初值i。和P。,根據(jù) k時刻的觀測值Zk,就可以遞推計算得k時刻的狀態(tài)估計i^ (A: = l,2,-0 。
(2)以PCA法說明本發(fā)明的手語動作特征提取過程,該法是一種典型的代數(shù)特征 提取方法,它是對K-L變換后的特征空間進行選擇,將K-L變換后的特征值從大到小排列, 挑選出相對大的特征值所對應(yīng)的特征向量,構(gòu)成一個K-L變換特征空間的子空間,來進行 特征提取。K-L變換是信息特征壓縮的一種最優(yōu)正交變換,其實質(zhì)是建立一個新的特征空 間,將數(shù)據(jù)沿其特征矢量用對齊的方式來旋轉(zhuǎn)變換,這個變換接觸了原有數(shù)據(jù)向量的各個 分量之間的相關(guān)性,從而有可能去掉那些帶有較少信息的坐標(biāo)系以達(dá)到降低特征空間維度的目的。經(jīng)過以上K-L變換的得到的特征是原手語動作特征向量的正交分解,不損失任何 信息。在這個互相正交,可測量的特征空間中進行手語動作的特征提取,可以有效的利用動 作之間的差異,提取有效信息。 (3)采用快速傅里葉變換FFT和離散余弦變換DCT進行頻域特征提取,其算法公式 為統(tǒng)一標(biāo)準(zhǔn),此處不予敖述。因為人體動作為低頻動作,提取特征一般為低頻域內(nèi)特征,一 般取前10階到前15階作為特征輸入。
三.手語動作特征數(shù)據(jù)庫 該數(shù)據(jù)庫0包含多個(例如500條或以上)常用的手語動作,每條手語動作包含多
個(例如500個)不同樣本的手語動作特征信息,并且信息量可擴充;采集不同身高,不同
體型,不同年齡,不同性別,不同動作習(xí)慣的多組(例如500組)同一手語動作樣本,使用BP
神經(jīng)網(wǎng)絡(luò)算法或SVM算法訓(xùn)練生成"手語動作分類器",使經(jīng)這些樣本訓(xùn)練而成的分類器擁
有較高的動作識別率;可以生成基于BP神經(jīng)網(wǎng)絡(luò)的分類器,基于支持向量機的SVM分類器
等;數(shù)據(jù)庫的訓(xùn)練過程是采用MATLAB軟件在計算機平臺上實現(xiàn),并且采用離線訓(xùn)練模式。 使用SVM算法訓(xùn)練分類器的基本思想是對于一定數(shù)目的手語動作特征信息樣本
矢量,將其通過非線性變換映射到另一個高維空間Z中,在變換后的空間里,尋找一個最優(yōu)
的分界面(超平面),使其推廣能力最好。具體來說,給定訓(xùn)練樣本(&,Y》,(X2,Y2) ,. . . (&,
YJ,其中YG {_1,1},找到一個非線性變換2= 9 (X),使X成為線性可分,則可以找到權(quán)
向量W和參數(shù)B,滿足 WTZi+B >= 1, Yi = 1 ; 和WTZi+B < = -1 , Yi = -1 ; 艮P :Yi(WTZi+B) >= 0, i = 1,2, , L 設(shè)最優(yōu)分界面H的方程,則兩類中靠近H的點之間距離P可求出,求導(dǎo)使P值最小 化。那么得到一個Z空間的二次規(guī)劃問題,求解該問題,得到分界面H的參數(shù)WT。和B。,即分 界面H為已知,對該分界面求反變換,得到一個X空間的分類函數(shù)F,這就是分類器。其中分 類器的參數(shù)可以隨著訓(xùn)練樣本的增加,而逐漸調(diào)整到理想值。
四.可訓(xùn)練的手語動作分類器 (1)采用支持向量機的方法完成對手語數(shù)據(jù)庫的訓(xùn)練 手語動作分類器3對微慣導(dǎo)信號處理與分析系統(tǒng)2輸出的手語動作特征信息進行 分類和識別,分類策略采用"一對一"或者"一對多"。若X為特征信息變量,A, B, C分別指 某個動作分類,則"一對一"是指若X不屬于A,則X屬于B。"一對多"是指若X不屬于A, 則X屬于B或者C,或者其他類別。采用后一種策略,更容易得到好的識別效果。
假設(shè)識別樣本有C類,記為Sn S2, . . . , Sc.設(shè)計C個SVM分類器Ft (i = 1, 2,..., C),每一個&用其中的一類樣本Si作為正樣本訓(xùn)練,而其他樣本Sj (j不等于i)作為負(fù)樣本 訓(xùn)練。對于正負(fù)樣本,系統(tǒng)輸出為+i,-i.測試階段,將每個測試樣本輸入到C個分類器里, 如果只有一個Fi輸出是+l,則該樣本判別為第i類。若有P(P〉 1)個分類器輸出是+l,則 再利用最近鄰分類技術(shù),即計算測試樣本和這P個分類器所代表的訓(xùn)練樣本之間的距離, 將測試樣本判別為最小值對應(yīng)的那個類別。如果所有分類器輸出為-l,則將測試樣本判定 為新樣本。 (2)采用隱式馬爾科夫模型對數(shù)據(jù)庫進行訓(xùn)練
隱式馬爾可夫模型(HMM)是一種用參數(shù)表示的用于描述隨機過程統(tǒng)計特性的概 率模型[l]。它由兩部分組成一部分是隱含的馬爾可夫鏈稱為隱含層;另一部分是實際的 觀測量稱為觀測層。HMM是一個統(tǒng)計模型,它用來描述一個含有隱含未知參數(shù)的馬爾可夫過 程。其難點是從可觀察的參數(shù)中確定該過程的隱含參數(shù)。然后利用這些參數(shù)來作進一步的 分析,例如模式識別。 在正常的馬爾可夫模型中,狀態(tài)對于觀察者來說是直接可見的。這樣狀態(tài)變遷概
率便是全部的參數(shù)。而在隱馬爾可夫模型中,狀態(tài)并不是直接可見的,但受狀態(tài)影響的某些
變量則是可見的。每一個狀態(tài)在可能輸出的符號上都有一概率分布。因此輸出符號的序列
能夠透露出狀態(tài)序列的一些信息。 隱馬爾可夫模型可以有以下描述 l.N,模型狀態(tài)數(shù)碼,一般情況下,狀態(tài)具有遍歷性,即一個狀態(tài)可由其他任何一個 狀態(tài)到達(dá)。模型的狀態(tài)記為S = {Sn S2,......, SN}。 2.M個狀態(tài)可觀察的離散符號數(shù),對過程的物理輸出進行矢量量化編碼,符號數(shù)就 是碼數(shù)大小。符號記為V = {Vp V2,......, VM}。 3.A,XN,狀態(tài)轉(zhuǎn)移概率矩陣。描述了HMM模型中各個狀態(tài)之間的轉(zhuǎn)移概率。其中
A". = P(at+1 = Sj I qt = S》,1《i, j《N. (1) 式(1)表示在t時刻、狀態(tài)為Si的條件下,在t+1時刻狀態(tài)是Sj的概率。 4.BwXN,觀測符號概率分布矩陣。其中 Bj(k) = P[Vk(t) |qt = Sj] ;1《j《N, 1《k《M. 表示在t時刻、狀態(tài)是Sj條件下,觀察符號為Vk(t)的概率。
5. Ji j = P[ql = Sj] ;1《j《N. 表示在出示t = 1時刻狀態(tài)為Sj的概率。 該分類器識別過程在便攜式系統(tǒng)的DSP單元中進行,能夠?qū)崟r的對傳來的特征信 息進行分類識別,系統(tǒng)時延在O. l秒以下,動作識別正確率在80%以上;由于系統(tǒng)需要對識 別出的動作信息進行翻譯,轉(zhuǎn)化成語音,通過發(fā)聲系統(tǒng)輸出,所以分類器還需要與語音庫相 關(guān)聯(lián),以便實時查詢。
五.其它部分 語音信號采集系統(tǒng)和語音分析系統(tǒng)用于采集語音信息并進行初步分析,這在現(xiàn)有 技術(shù)中十分常見,如麥克風(fēng)等,在此不再贅述。 發(fā)聲系統(tǒng)由立體聲或者單聲道揚聲器及其配套的驅(qū)動系統(tǒng)組成,負(fù)責(zé)把語音系統(tǒng) 傳入的語音信號實時轉(zhuǎn)換為人耳可以聽到的聲音信號。 顯示系統(tǒng)可由獨立LCD或OLED顯示系統(tǒng),也可由基于WIFI, ZIGBEE或BLUETOOTH 技術(shù)實現(xiàn)與翻譯系統(tǒng)通信的手機(PDA, UMPC)來顯示。該系統(tǒng)負(fù)責(zé)把查詢到的手語動作三 維動畫或者真人視頻實時顯示出來。 語音文字?jǐn)?shù)據(jù)庫和動畫/視頻庫是建立語音、圖像以及文字之間聯(lián)系的數(shù)據(jù)庫。
下面示例說明本發(fā)明的硬件構(gòu)成
微慣導(dǎo)傳感器節(jié)點 三維加速度傳感器,三維陀螺儀(北京大學(xué)微電子學(xué)院研制),信號濾波和放大模 塊,ADC,無線(藍(lán)牙)或有線(串口或并口 )傳送模塊;
信息處理中心 TI 6000 DSP, SUMSUNG 256M bit SDRAM, SUMSUNG 8G FLASH,無線或有線接收模 塊,ADC 輸入輸出設(shè)備 SUMSUNG 4. 3英寸背光LED屏顯示器,0. 7W揚聲器,YAMAHA揚聲器驅(qū)動IC,微型麥 克風(fēng)。 采用本發(fā)明的手語語音雙向翻譯系統(tǒng)工作流程如下
A手語翻譯成語音 (1)微慣導(dǎo)傳感器節(jié)點,負(fù)責(zé)采集手語動作中人體相應(yīng)點位的三維加速度和三維 角速度信息,其具有基本的信號處理功能和無線/有線發(fā)送功能; (2)由多個節(jié)點組成的微慣導(dǎo)傳感器網(wǎng)絡(luò)構(gòu)成的基于微慣導(dǎo)的手語動作捕捉系 統(tǒng),負(fù)責(zé)實時同步采集各個節(jié)點的數(shù)據(jù),并將其發(fā)送到微慣導(dǎo)信號處理和分析系統(tǒng);
(3)微慣導(dǎo)信號處理和分析系統(tǒng)通過有線或無線的方式實時接收來自"手語動作 捕捉系統(tǒng)"產(chǎn)生的多通道同步數(shù)據(jù),并把接收到的數(shù)據(jù)進行平滑和濾波處理,去掉影響判斷 的噪聲和干擾信號,然后以特定的算法進行特征提取,得到實時的手語動作特征信息;
(4)手語動作特征數(shù)據(jù)庫包括500個或以上手語動作的500個不同樣本的特征信 息,即每個手語動作所對應(yīng)的三維加速度和三維角速度,動作持續(xù)時間等信息;采用手語動 作特征數(shù)據(jù)庫結(jié)合特定算法訓(xùn)練出用于動作識別的手語動作分類器; (5)手語動作分類器接收來自微慣導(dǎo)信號處理和分析系統(tǒng)提供的實時手語動作特 征信息,并對其進行動作識別,得到手語動作相應(yīng)的含義,將從手語動作翻譯得來的分離詞 語整合成類自然語言,并能通過查詢語音數(shù)據(jù)庫實時輸出語音信號,驅(qū)動發(fā)聲系統(tǒng)發(fā)聲,完 成手語向語音的翻譯; B語音翻譯成手語 (1)由麥克風(fēng)或麥克風(fēng)陣列組成的語音信號采集系統(tǒng),將把說話者的聲音實時記 錄下來,并進行一系列處理后傳遞給基于模式識別的語音分析系統(tǒng); (2)該語音分析系統(tǒng)通過模式識別的方法和相關(guān)聯(lián)的語音文字?jǐn)?shù)據(jù)庫來進行語義 的準(zhǔn)確分析,并形成可供轉(zhuǎn)換成手語動作的分離詞語; (3)手語動作分類器與視頻/動畫數(shù)據(jù)庫,語音和文字?jǐn)?shù)據(jù)庫相關(guān)聯(lián),根據(jù)分離出 的詞語實時查詢包含對應(yīng)手語動作的視頻/動畫,并將資料實時提供給顯示系統(tǒng),完成語 音向手語的翻譯。 與現(xiàn)有技術(shù)相比,本系統(tǒng)具有如下優(yōu)點
1)成本低 由于采用uMU作為傳感器和普通的DSP芯片作為信息處理中心,預(yù)計整套系統(tǒng)的 成本將比使用光學(xué)運動捕捉的手語翻譯系統(tǒng)低60%以上。
2)低功耗 微慣導(dǎo)傳感器節(jié)點的功耗小于20mW,DSP信息處理中心的功耗小于100mW,揚聲器 和顯示屏的功耗稍大,可達(dá)到0. 7W和0. 3W,以20個節(jié)點算,整個系統(tǒng)功耗小于等于1. 5W。
3)簡單便攜,適用性強 本發(fā)明可做成一副傳感器手套或者一件內(nèi)嵌傳感器上衣,使用者只需帶上特定手套或者穿上特定上衣就可以使用本系統(tǒng),且該系統(tǒng)不受使用環(huán)境限制。
4)功能強大 能夠?qū)崿F(xiàn)手語與語音的雙向翻譯,使聾啞人與正常人的日常交流成為可能。
本實施案例并不限制本發(fā)明,對于本技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明 原理的前提下,還可以作出若干改進和變化,這些改進和變化也應(yīng)視為本發(fā)明的保護范圍 之內(nèi)。
權(quán)利要求
一種手語語音雙向翻譯系統(tǒng),其特征在于,所述系統(tǒng)包括基于微慣導(dǎo)傳感的手語動作捕捉系統(tǒng)(1)、微慣導(dǎo)信號處理與分析系統(tǒng)(2)、一訓(xùn)練完整的手語動作特征分類器(3)、用來訓(xùn)練手語動作分類器(3)的手語動作特征數(shù)據(jù)庫(0)、語音文字?jǐn)?shù)據(jù)庫(6)、視頻/動畫數(shù)據(jù)庫(9)、語音信號采集系統(tǒng)(4)、語音分析系統(tǒng)(5)、發(fā)聲系統(tǒng)(7)和顯示系統(tǒng)(8);其中所述手語動作捕捉系統(tǒng)(1)與所述微慣導(dǎo)信號處理與分析系統(tǒng)(2)通信連接,所述手語動作分類器(3)分別與所述手語動作特征數(shù)據(jù)庫(0)、微慣導(dǎo)信號處理與分析系統(tǒng)(2)、語音文字?jǐn)?shù)據(jù)庫(6)、視頻/動畫數(shù)據(jù)庫(9)、顯示系統(tǒng)(8)通信連接,所述語音文字?jǐn)?shù)據(jù)庫(6)還與所述語音分析系統(tǒng)(5)和視頻/動畫數(shù)據(jù)庫(9)通信連接,所述語音信號采集系統(tǒng)(4)和發(fā)聲系統(tǒng)(7)分別與所述語音分析系統(tǒng)(5)通信連接。
2. 如權(quán)利要求1所述的手語語音雙向翻譯系統(tǒng),其特征在于,所述手語動作捕捉系統(tǒng)(1)包括主控單元、信號濾波和放大單元、AD轉(zhuǎn)換單元以及發(fā)送單元,還包括若干個微慣導(dǎo)傳感節(jié)點,每一個傳感節(jié)點包含三維加速度傳感器和三維陀螺儀。
3. 如權(quán)利要求1所述的手語語音雙向翻譯系統(tǒng),其特征在于,所述手語動作捕捉系統(tǒng)(1)還需要進行以下操作步驟1) 建立微慣導(dǎo)器件失配誤差模擬模型;2) 高性能6維自由度的uIMU手語動作傳感子系統(tǒng)設(shè)計;3) 建立手語動作誤差模型。
4. 如權(quán)利要求1所述的手語語音雙向翻譯系統(tǒng),其特征在于,所述微慣導(dǎo)信號處理與分析系統(tǒng)(2)接收手語動作捕捉系統(tǒng)(1)傳送來的微慣導(dǎo)數(shù)字信號,采用特定的濾波算法對這些信號進行運算和分析,并采用特定的特征提取方法和最優(yōu)搜索法、次優(yōu)搜索法、模擬退火法、遺傳算法,根據(jù)可分離性判據(jù)來選擇可分性最大的特征組。
5. 如權(quán)利要求4所述的手語語音雙向翻譯系統(tǒng),其特征在于,所述特定的濾波算法為基于矢量的Kalman濾波法,所述特定的特征提取方法基于主成分分析法(PCA)或者特征頻率描述方法包括快速傅里葉變換(FFT)或離散余弦變換(DCT)。
6. 如權(quán)利要求1所述的手語語音雙向翻譯系統(tǒng),其特征在于,所述手語動作特征數(shù)據(jù)庫(0)包含多個常用的手語動作,每條手語動作包含多個不同樣本的手語動作特征信息,且信息量可擴充;采集不同身高,不同體型,不同年齡,不同性別,不同動作習(xí)慣的多組同一手語動作樣本,使用BP神經(jīng)網(wǎng)絡(luò)算法或SVM算法或基于隱馬爾可夫模型(HMM)訓(xùn)練生成手語動作特征分類器,使經(jīng)這些樣本訓(xùn)練而成的分類器擁有較高的動作識別率。
7. 如權(quán)利要求l所述的手語語音雙向翻譯系統(tǒng),其特征在于,所述手語動作分類器(3)采用"一對一"或者"一對多"的分類策略。
8. 如權(quán)利要求l所述的手語語音雙向翻譯系統(tǒng),其特征在于,所述發(fā)聲系統(tǒng)由立體聲或者單聲道揚聲器及其配套的驅(qū)動系統(tǒng)組成;所述顯示系統(tǒng)由獨立顯示系統(tǒng)或由基于WIFI、 ZIGBEE、 BLUETOOTH技術(shù)實現(xiàn)與翻譯系統(tǒng)通信的手機來實現(xiàn)。
9. 采用如權(quán)利要求l-8所述的手語語音雙向翻譯系統(tǒng)將手語翻譯成語音的方法,具體包括以下步驟(1) 微慣導(dǎo)傳感器節(jié)點,負(fù)責(zé)采集手語動作中人體相應(yīng)點位的三維加速度和三維角速度信息,其具有基本的信號處理功能和無線/有線發(fā)送功能;(2) 由多個節(jié)點組成的微慣導(dǎo)傳感器網(wǎng)絡(luò)構(gòu)成的基于微慣導(dǎo)的手語動作捕捉系統(tǒng),負(fù)責(zé)實時同步采集各個節(jié)點的數(shù)據(jù),并將其發(fā)送到微慣導(dǎo)信號處理和分析系統(tǒng);(3) 微慣導(dǎo)信號處理和分析系統(tǒng)通過有線或無線的方式實時接收來自"手語動作捕捉 系統(tǒng)"產(chǎn)生的多通道同步數(shù)據(jù),并把接收到的數(shù)據(jù)進行平滑和濾波處理,去掉影響判斷的噪 聲和干擾信號,然后以特定的算法進行特征提取,得到實時的手語動作特征信息;(4) 手語動作特征數(shù)據(jù)庫包括500個或以上手語動作的500個不同樣本的特征信息,即 每個手語動作所對應(yīng)的三維加速度和三維角速度,動作持續(xù)時間等信息;采用手語動作特 征數(shù)據(jù)庫結(jié)合特定算法訓(xùn)練出用于動作識別的手語動作分類器;(5) 手語動作分類器接收來自微慣導(dǎo)信號處理和分析系統(tǒng)提供的實時手語動作特征信 息,并對其進行動作識別,得到手語動作相應(yīng)的含義,將從手語動作翻譯得來的分離詞語整 合成類自然語言,并能通過查詢語音數(shù)據(jù)庫實時輸出語音信號,驅(qū)動發(fā)聲系統(tǒng)發(fā)聲,完成手 語向語音的翻譯。
10.采用如權(quán)利要求1-8所述的手語語音雙向翻譯系統(tǒng)將語音翻譯成手語的方法,具 體包括以下步驟(1) 由麥克風(fēng)或麥克風(fēng)陣列組成的語音信號采集系統(tǒng),將把說話者的聲音實時記錄下 來,并進行一系列處理后傳遞給基于模式識別的語音分析系統(tǒng);(2) 該語音分析系統(tǒng)通過模式識別的方法和相關(guān)聯(lián)的語音文字?jǐn)?shù)據(jù)庫來進行語義的準(zhǔn) 確分析,并形成可供轉(zhuǎn)換成手語動作的分離詞語;(3) 手語動作分類器與視頻/動畫數(shù)據(jù)庫,語音和文字?jǐn)?shù)據(jù)庫相關(guān)聯(lián),根據(jù)分離出的詞 語實時查詢包含對應(yīng)手語動作的視頻/動畫,并將資料實時提供給顯示系統(tǒng),完成語音向 手語的翻譯。
全文摘要
本發(fā)明涉及基于傳感技術(shù)和模式識別技術(shù)的肢體動作識別技術(shù)以及語音識別技術(shù),屬于傳感技術(shù)和慣性信號處理、語音處理技術(shù)領(lǐng)域,特指一種手語語音雙向翻譯系統(tǒng),其以微慣導(dǎo)傳感器網(wǎng)絡(luò)和手語動作分類器為核心,通過安裝在聾啞人手指、手臂以及頭部的傳感器,檢測聾啞人做出的手語動作,并正確識別,然后將其代表的含義通過語音和發(fā)聲系統(tǒng)連貫的表達(dá)出來,以達(dá)到讓正常人“看懂”手語的效果;同時,正常人的語言可以被翻譯成特定的連貫的手語動作,并以動畫或視頻的形式顯示出來,以達(dá)到聾啞人間接“聽到”正常人說話的效果。該系統(tǒng)有效解決了聾啞人與正常人雙向交流的障礙,且廉價便攜,有著巨大的社會效益和經(jīng)濟效益。
文檔編號G06K9/62GK101794528SQ20101013901
公開日2010年8月4日 申請日期2010年4月2日 優(yōu)先權(quán)日2010年4月2日
發(fā)明者時廣軼, 舒長青, 賈松濤, 鄒月嫻, 金玉豐 申請人:北京大學(xué)軟件與微電子學(xué)院無錫產(chǎn)學(xué)研合作教育基地