專利名稱:一種口型語言的轉(zhuǎn)換方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,特別涉及一種口型語言的轉(zhuǎn)換方法及裝置。
背景技術(shù):
通信技術(shù)快速發(fā)展的現(xiàn)代社會,手機產(chǎn)品在通信方面帶給了人們極大的便 利,從藍牙技術(shù)到無線上網(wǎng)都顯示出了手機產(chǎn)品的強大功能。利用手機產(chǎn)品進 行通話,成為了人們聯(lián)系的主要方式。如今,攝像頭也已經(jīng)成為了手機的標準 配置,隨著手機功能的多樣化,手機產(chǎn)品漸漸成為了人們?nèi)粘I钪械谋匦杵贰?br>
現(xiàn)有的手機產(chǎn)品在通話時,都是利用語音通話技術(shù),通過將人的語音信號 轉(zhuǎn)換為相應(yīng)的電信號,再通過無限射頻技術(shù)發(fā)送,接受方接收到信號,還原出 原來的語音信號。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)存在以下缺點 現(xiàn)有的手機產(chǎn)品,主要是對通話方的語音信號進行接受處理,沒有考慮到 具有語音障礙的人士基本無法使用語音通話技術(shù),因此,現(xiàn)有的手機產(chǎn)品還不
能夠為具有語音障礙的人士提供真正的方便。
發(fā)明內(nèi)容
為了滿足具有語音障礙人士的通話需求,為具有語音障礙的人士提供方便, 本發(fā)明實施例提供了一種口型語言的轉(zhuǎn)換方法及裝置,技術(shù)方案如下 一方面,提供了一種口型語言的轉(zhuǎn)換方法,所述方法包括 將采集的嘴唇運動視頻分割成口型圖像序列組;
對所述口型圖像序列組進行識別,得到所述口型圖像序列組對應(yīng)的語音音
節(jié)
另一方面,提供了一種口型語言的轉(zhuǎn)換裝置,所述裝置包括 分割模塊,用于將采集的嘴唇運動視頻分割成口型圖像序列組;
識別模塊,用于對所述口型圖像序列組進行識別,得到所述口型圖像序列組對應(yīng)的語音音節(jié)。
還提供了一種口型語言的轉(zhuǎn)換方法,所述方法包括
識別語音音節(jié)對應(yīng)的口型圖像序列,獲得所述語音音節(jié)對應(yīng)的口型圖4象序
列;
將所述口型圖像序列連續(xù)播放,產(chǎn)生對應(yīng)的口型語言。
還提供了一種口型語言的轉(zhuǎn)換裝置,所述轉(zhuǎn)換裝置包括
識別模塊,用于識別語音音節(jié)對應(yīng)的口型圖像序列,獲得所述語音音節(jié)對
應(yīng)的口型圖像序列;
播放模塊,用于將所述識別模塊識別出的口型圖像序列連續(xù)播放,產(chǎn)生對
應(yīng)的口型語言。
本發(fā)明實施例提供的技術(shù)方案的有益效果是
通過將采集的嘴唇運動視頻分割成口型圖像序列,并識別口型圖像序列所 對應(yīng)的語音音節(jié),實現(xiàn)口型語言到語音音節(jié)妁轉(zhuǎn)換,還可以通過識別出語音音 節(jié)對應(yīng)的口型圖像序列,實現(xiàn)語音音節(jié)到口型語言的轉(zhuǎn)換,解決了語音障礙人 士的通話問題,從而滿足語音障礙人士的通話需求,為語音障礙人士提供方便。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施 例或現(xiàn)有技術(shù)描述中所需要使用的附圖作筒單地介紹,顯而易見地,下面描述 中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付 出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。 圖1是本發(fā)明實施例1提供的口型語言的轉(zhuǎn)換方法流程圖; 圖2是本發(fā)明實施例l提供的另一種口型語言的轉(zhuǎn)換方法流程圖; 圖3是本發(fā)明實施例2提供的口型語言的轉(zhuǎn)換方法流程圖; 圖4是本發(fā)明實施例2提供的口型圖像示意圖; 圖5是本發(fā)明實施例2提供的另一種口型語言的轉(zhuǎn)換方法流程圖; 圖6是本發(fā)明實施例3提供的口型語言的轉(zhuǎn)換裝置結(jié)構(gòu)示意圖; 圖7是本發(fā)明實施例3提供的另一種口型語言的轉(zhuǎn)換裝置結(jié)構(gòu)示意圖; 圖8是本發(fā)明實施例3提供的又一種口型語言的轉(zhuǎn)換裝置結(jié)構(gòu)示意圖; 圖9是本發(fā)明實施例4提供的口型語言的轉(zhuǎn)換裝置結(jié)構(gòu)示意5圖IO是本發(fā)明實施例4提供的另一種口型語言的轉(zhuǎn)換裝置結(jié)構(gòu)示意圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明
實施方式作進一步地詳細描述。 實施例1
參見圖1,本實施例提供了一種口型語言的轉(zhuǎn)換方法,所述方法包括 101:將釆集的嘴唇運動視頻分割成口型圖像序列組;
102:對所述口型圖像序列組進行識別,得到所述口型圖像序列組對應(yīng)的語 音音節(jié)。
上述方法通過對表現(xiàn)口型語言的嘴唇運動視頻進行分割和識別,實現(xiàn)了 口 型語言到語音音節(jié)的轉(zhuǎn)換,參見圖2,本實施例還提供了一種口型語言的轉(zhuǎn)換方 法,能夠?qū)崿F(xiàn)語音音節(jié)到口型語言的轉(zhuǎn)換,方法流程如下
201:識別語音音節(jié)對應(yīng)的口型圖像序列,獲得所述語音音節(jié)對應(yīng)的口型圖 像序列;
202:將所述口型圖像序列連續(xù)播放,產(chǎn)生對應(yīng)的口型語言。 本實施例通過對采集的嘴唇運動視頻進行分割和識別,實現(xiàn)口型語言到語 音音節(jié)的轉(zhuǎn)換,并通過識別出語音音節(jié)對應(yīng)的口型圖像序列,實現(xiàn)語音音節(jié)到 口型語言的轉(zhuǎn)換,解決了語音障礙人士的通話問題,從而滿足語音障礙人士的 通話需求,為語音障礙人士提供方便。
實施例2
本實施例提供了一種口型語言的轉(zhuǎn)換方法,為了便于說明,以手機產(chǎn)品在 通話時應(yīng)用本實施例提供的口型語言的轉(zhuǎn)換方法為例,且該手機產(chǎn)品具有攝像 頭的配置,參見圖3,該口型語言的轉(zhuǎn)換方法流程如下所示
301:用手機攝像頭錄制人在說話時的嘴唇運動視頻,該嘴唇運動視頻由連 續(xù)口型圖像序列組成,對手機攝像頭釆集的嘴唇運動視頻進行視頻分割,即將 連續(xù)的口型圖像序列分割成口型圖 <象序列組。
對于該步驟,因為人在發(fā)音時,字與字之間會有停頓,停頓時采集的口型 圖像序列的特征變化很小,利用這一特性,可以很容易將連續(xù)的口型圖像序列
6分割出多組口型圖像序列,得到口型圖像序列組,每組口型圖像序列對應(yīng)一個 文字。
302:對分割出的每組口型圖像序列中的每個口型圖像進行圖像增強,提取 每個口型圖像的圖像特征。
303:根據(jù)每組口型圖像序列的所有口型圖像的圖像特征,分辨出每組口型 圖像序列對應(yīng)的語音音節(jié)。
具體地,分辨每組口型圖像序列對應(yīng)的語音音節(jié)時,可以采用常用于模式 識別的H醒(Hidden Markov Model,隱馬爾可夫才莫型)來識別語音音節(jié)。
對于現(xiàn)代漢語來講, 一個文字可能表示不同的語音音節(jié), 一個語音音節(jié)也 可以用不同的文字來表示,如jian (四聲)這個語音音節(jié),可以用"見、件、 間、鍵、賤、建、箭"等文字表示,以圖4所示的口型圖像為例,對該步驟做 舉例說明,由圖可以看出,口型圖像A為嘴唇未運動時的口型圖像,設(shè)識別出 的口型圖像B的語音音節(jié)為"a (啊)",識別出口型圖^象C的語音音節(jié)為"e (呃)"。
304:將分辨出的每組口型圖像序列對應(yīng)的語音音節(jié)結(jié)合,得到嘴唇運動時 所對應(yīng)的漢語纟并音。
進一步地,得到嘴唇運動時所對應(yīng)的漢語拼音后,還可以將漢語拼音轉(zhuǎn)換 成文字,再轉(zhuǎn)換成語音。實際應(yīng)用方面,如果在某些特殊場合,如開會時,通 話雙方中的一方不方便發(fā)出聲音,那么,采用本實施例提供的方法,利用口型 語言的轉(zhuǎn)換,通話雙方仍然能夠進行正常通話。本實施例提供的口型語言的轉(zhuǎn) 換方法,同樣能夠滿足有發(fā)聲障礙人士的通話需求。
本實施例提供的口型語言的轉(zhuǎn)換方法,不僅能夠?qū)崿F(xiàn)將口型語言轉(zhuǎn)換成語 音音節(jié)、文字或語音,同理,還能夠?qū)崿F(xiàn)將語音音節(jié)、文字或語音轉(zhuǎn)換成口型 語言。為了便于說明,仍以手機產(chǎn)品在通話時應(yīng)用本實施例提供的口型語言的 轉(zhuǎn)換方法為例,運用該方法之前,預(yù)先在手機中存放標準的三維口型圖像庫及 拼音庫,口型圖像庫中存儲了標準的三維口型圖像,每個語音音節(jié)都有對應(yīng)的 一組標準的三維口型圖像序列,實現(xiàn)當手機接收到人的語音時,將語音轉(zhuǎn)換成 口型語言,參見圖5,方法的具體流程如下
501:手機接收到語音,從已存放的拼音庫中檢索到語音相對應(yīng)的漢語拼音。
502:將漢語拼音分解為對應(yīng)的語音音節(jié),每個語音音節(jié)對應(yīng)一組標準的三 維口型圖像序列;503:將所有語音音節(jié)對應(yīng)的所有口型圖像序列連續(xù)播放,得到對應(yīng)的嘴唇 運動視頻,即顯示出對應(yīng)的口型語言。
實際應(yīng)用方面,對于聽障人士,具有語音障礙,無法聽到通話方的語音, 釆用本實施例提供的方法,實現(xiàn)將語音轉(zhuǎn)換成對應(yīng)的口型語言,通話雙方仍然 能夠進行正常通話。
本實施例通過用手機攝像頭采集嘴唇運動視頻,并對采集的嘴唇運動視頻 進行有效的切割、圖像增強、圖像特征提取,并分辨口型語言所對應(yīng)語音音節(jié), 并通過識別出語音音節(jié)對應(yīng)的口型圖^象序列,實現(xiàn)語音音節(jié)到口型語言的轉(zhuǎn)換, 解決了語音障礙人士的通話問題從而滿足語音障礙人士的通話需求,為語音障 礙人士提供方便。
實施例3
參見圖6,本實施例提供了一種口型語言的轉(zhuǎn)換裝置,該裝置包括 采集模塊601,用于釆集嘴唇運動視頻;
分割模塊602,用于將采集的嘴唇運動視頻分割成口型圖像序列組; 識別模塊603,用于對多組口型圖像序列進行識別,得到口型圖像序列組對 應(yīng)的語音音節(jié)。
進一步地,參見圖7,識別模塊603,具體包括
圖像增強單元603a,用于對每組口型圖像序列中的每個口型圖像進行圖像 增強;
提取單元603b,用于提取圖像增強后的每個口型圖像的圖像特征,獲得每 組口型圖像序列的圖像特征;
識別單元603c,用于根據(jù)每組口型圖像序列的圖像特征,對每組口型圖像 序列進行模式識別,分辨出每組口型圖像序列對應(yīng)的語音音節(jié)。
參見圖8,該裝置還包括
轉(zhuǎn)換模塊604,用于將識別出的語音音節(jié)轉(zhuǎn)換成漢語拼音、文字和語音中的 至少一種。
本實施例提供的口型語言的轉(zhuǎn)換裝置可以設(shè)置于通信終端中,通過將采集 的嘴唇運動視頻進行有效的切割、圖像增強、圖像特征提取,并分辨口型語言 所對應(yīng)的口型圖像的語音音節(jié),實現(xiàn)語音、文字與口型語言之間的轉(zhuǎn)換,從而解決語音障礙人士的通話問題,滿足語音障礙人士的通話需求,為具有語音障 礙的人士提供方便。
實施例4
參見圖9,本實施例提供了一種口型語言的轉(zhuǎn)換裝置,該裝置包括 識別模塊901,用于識別語音音節(jié)對應(yīng)的口型圖像序列,獲得語音音節(jié)對應(yīng) 的口型圖像序列;
播放模塊902,用于將識別模塊901識別出的口型圖像序列連續(xù)播放,產(chǎn)生 對應(yīng)的口型i吾言。
優(yōu)選地,參見圖10,該裝置還包括
轉(zhuǎn)換模塊903,用于將語音、文字、漢語拼音中的至少一種轉(zhuǎn)換成語音音節(jié)。 本實施例提供的口型語言的轉(zhuǎn)換裝置,通過識別出語音音節(jié)對應(yīng)的口型圖
像序列,實現(xiàn)語音音節(jié)到口型語言的轉(zhuǎn)換,解決了語音障礙人士的通話問題,
從而滿足語音障礙人士的通話需求,為語音障礙人士提供方便。 上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。 本發(fā)明實施例中的部分步驟,可以利用軟件實現(xiàn),相應(yīng)的軟件程序可以存
儲在可讀取的存儲介質(zhì)中,如光盤或硬盤等。
以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的
精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的
保護范圍之內(nèi)。
權(quán)利要求
1、一種口型語言的轉(zhuǎn)換方法,其特征在于,所述方法包括將采集的嘴唇運動視頻分割成口型圖像序列組;對所述口型圖像序列組進行識別,得到所述口型圖像序列組對應(yīng)的語音音節(jié)。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述口型圖像序列組進行識別包括對每組口型圖像序列中的每個口型圖像進行圖像增強,提取圖像增強后的每個口型圖像的圖像特征,獲得每組口型圖像序列的圖像特征;根據(jù)每組口型圖像序列的圖像特征,對每組口型圖像序列進行模式識別,分辨出每組口型圖像序列對應(yīng)的語音音節(jié)。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述得到所述口型圖像序列組對應(yīng)的語音音節(jié)之后,還包括將識別出的語音音節(jié)轉(zhuǎn)換成漢語拼音、文字和語音中的至少一種。
4、 一種口型語言的轉(zhuǎn)換方法,其特征在于,所述方法包括識別語音音節(jié)對應(yīng)的口型圖像序列,獲得所述語音音節(jié)對應(yīng)的口型圖像序列;將所述口型圖像序列連續(xù)播放,產(chǎn)生對應(yīng)的口型語言。
5、 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述識別語音音節(jié)對應(yīng)的口型圖像序列之前,還包括將語音、文字、漢語拼音中的至少一種轉(zhuǎn)換成語音音節(jié)。
6、 一種口型語言的轉(zhuǎn)換裝置,其特征在于,所述裝置包括采集模塊,用于采集嘴唇運動視頻;分割4莫塊,用于將采集的嘴唇運動視頻分割成口型圖像序列組;識別模塊,用于對所述口型圖像序列組進行識別,得到所述口型圖像序列 組對應(yīng)的語音音節(jié)。
7、根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述識別模塊,具體包括 圖像增強單元,用于對每組口型圖像序列中的每個口型圖像進行圖像增強; 提取單元,用于提取圖像增強后的每個口型圖像的圖像特征,獲得每組口型圖像序列的圖像特征;識別單元,用于根據(jù)每組口型圖像序列的圖像特征,對每組口型圖像序列進行模式識別,分辨出每組口型圖像序列對應(yīng)的語音音節(jié)。
8、根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置,還包括 轉(zhuǎn)換模塊,用于將識別出的語音音節(jié)轉(zhuǎn)換成漢語拼音、文字和語音中的至 少一種。
9、 一種口型語言的轉(zhuǎn)換裝置,其特征在于,所述裝置包括識別模塊,用于識別語音音節(jié)對應(yīng)的口型圖像序列,獲得所述語音音節(jié)對應(yīng)的口型圖像序列;播放模塊,用于將所述識別模塊識別出的口型圖像序列連續(xù)播放,產(chǎn)生對應(yīng)的口型語言。
10、根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置,還包括 轉(zhuǎn)換模塊,用于將語音、文字和漢語拼音中的至少一種轉(zhuǎn)換成語音音節(jié)。
全文摘要
本發(fā)明公開了一種口型語言的轉(zhuǎn)換方法及裝置,屬于通信技術(shù)領(lǐng)域。所述方法包括將采集的嘴唇運動視頻分割成口型圖像序列組;對所述口型圖像序列組進行識別,得到所述口型圖像序列組對應(yīng)的語音音節(jié)。所述裝置包括采集模塊、分割模塊和識別模塊。本發(fā)明通過將采集的嘴唇運動視頻分割成口型圖像序列,并識別口型圖像序列所對應(yīng)的語音音節(jié),實現(xiàn)口型語言到語音音節(jié)的轉(zhuǎn)換,解決了語音障礙人士的通話問題,從而滿足語音障礙人士的通話需求,具有為語音障礙人士提供方便的效果。
文檔編號G06K9/00GK101510256SQ200910129508
公開日2009年8月19日 申請日期2009年3月20日 優(yōu)先權(quán)日2009年3月20日
發(fā)明者孔令賀 申請人:深圳華為通信技術(shù)有限公司