克風可以從基于微處理器的裝置拆卸。
[0025] 單詞數(shù)據(jù)庫111將第一語言的多個單詞和從第一語言翻譯成第二語言的多個單 詞存儲成彼此分別相對應。
[0026] 例如,當?shù)谝徽Z言是韓語并且第二語言是英語時,單詞數(shù)據(jù)庫111可以存儲韓語 的多個單詞以及通過將韓語的多個單詞中的每一個翻譯成英語所獲得的多個單詞,使得韓 語的多個單詞分別地與英語的多個單詞相對應,如下表1中圖示的那樣。
[0027]表 1
【主權(quán)項】
1. 一種用于基于自動的單詞翻譯改變嘴唇形狀的裝置,包括: 單詞數(shù)據(jù)庫,在所述單詞數(shù)據(jù)庫中第一語言的多個單詞以及針對所述第一語言的多個 單詞翻譯成第二語言的多個單詞兩者被存儲成彼此分別相對應; 視頻數(shù)據(jù)庫,在所述視頻數(shù)據(jù)庫中多個預定嘴唇形狀的視頻數(shù)據(jù)被存儲成分別與被翻 譯成所述第二語言的多個單詞的發(fā)音相對應; 區(qū)域檢測單元,用于使用攝像機捕獲用戶的面部并且用于從所述攝像機拍攝的視頻中 檢測所述用戶的面部區(qū)域; 區(qū)域分離單元,用于從檢測到的面部區(qū)域中分離所述用戶的嘴唇所在的區(qū)域; 單詞檢測單元,用于通過麥克風接收所述用戶的語音,用于識別所述用戶的輸入語音, 并且用于從所述單詞數(shù)據(jù)庫中檢測與所述用戶的語音相對應的單詞; 翻譯單詞提取單元,用于在檢測到的單詞是所述第一語言的單詞時,從所述單詞數(shù)據(jù) 庫中提取與檢測到的所述第一語言的單詞相對應的被翻譯成所述第二語言的單詞; 視頻數(shù)據(jù)提取單元,用于從所述視頻數(shù)據(jù)庫中提取與提取出的所述第二語言的單詞的 發(fā)音相對應的嘴唇形狀的視頻數(shù)據(jù);以及 視頻插入單元,用于針對在所述攝像機拍攝的視頻中的、所述用戶的嘴唇所在的分離 出的區(qū)域插入與提取出的所述嘴唇形狀的視頻數(shù)據(jù)相對應的局部視頻。
2. 根據(jù)權(quán)利要求1所述的裝置,還包括: 視頻輸出單元,用于當完成所述攝像機拍攝的視頻中的所述局部視頻的插入時,輸出 已被插入所述局部視頻的最終視頻。
3. 根據(jù)權(quán)利要求1所述的裝置,還包括: 數(shù)據(jù)傳輸單元,用于當完成所述攝像機拍攝的視頻中的所述局部視頻的插入時,向接 收者的終端裝置傳輸已被插入所述局部視頻的最終視頻的視頻數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的裝置,其中所述區(qū)域檢測單元基于形成所述攝像機拍攝的視 頻的多個像素的顏色,從所述攝像機拍攝的視頻中檢測所述用戶的面部區(qū)域,以及 所述區(qū)域分離單元基于形成與檢測到的面部區(qū)域相對應的視頻的多個像素的顏色分 離所述用戶的嘴唇所在的區(qū)域。
5. 根據(jù)權(quán)利要求4所述的裝置,其中所述區(qū)域檢測單元通過從形成所述攝像機拍攝的 視頻的所述多個像素中分離具有第一顏色范圍中包括的顏色的像素來檢測所述用戶的面 部區(qū)域,所述第一顏色范圍通過使顏色與面部的皮膚顏色相關(guān)聯(lián)而被預先確定,以及 所述區(qū)域分離單元通過從形成與檢測到的面部區(qū)域相對應的視頻的多個像素中分離 具有第二顏色范圍中包括的顏色的像素來分離所述用戶的嘴唇所在的區(qū)域,所述第二顏色 范圍通過使顏色與嘴唇顏色相關(guān)聯(lián)而被預先確定。
6. 根據(jù)權(quán)利要求1所述的裝置,還包括: 時間戳記錄單元,用于針對組成由所述攝像機拍攝的視頻的視頻數(shù)據(jù)以及針對組成通 過所述麥克風輸入的語音的語音數(shù)據(jù),以預定的間隔記錄與所述攝像機捕獲所述用戶的面 部的時間和通過所述麥克風輸入所述用戶的語音的時間之間的時間同步相關(guān)的至少一個 時間戳,以及 其中,參考所述至少一個時間戳,所述視頻插入單元針對在組成由所述攝像機拍攝的 視頻的視頻數(shù)據(jù)中的、與輸入識別出的語音的時間相對應的視頻數(shù)據(jù)插入所述局部視頻。
7. -種用于基于自動的單詞翻譯改變嘴唇形狀的方法,包括: 維持單詞數(shù)據(jù)庫,在所述單詞數(shù)據(jù)庫中第一語言的多個單詞以及針對所述第一語言的 多個單詞翻譯成第二語言的多個單詞兩者被存儲成彼此分別相對應; 維持視頻數(shù)據(jù)庫,在所述視頻數(shù)據(jù)庫中多個預定嘴唇形狀的視頻數(shù)據(jù)被存儲成分別與 被翻譯成所述第二語言的多個單詞的發(fā)音相對應; 通過使用攝像機捕獲用戶的面部來從所述攝像機拍攝的視頻中檢測所述用戶的面部 區(qū)域; 從檢測到的面部區(qū)域中分離所述用戶的嘴唇所在的區(qū)域; 通過由麥克風接收所述用戶的語音并且通過識別所述用戶的輸入語音來從所述單詞 數(shù)據(jù)庫中檢測與所述用戶的語音相對應的單詞; 當檢測到的單詞是所述第一語言的單詞時,從所述單詞數(shù)據(jù)庫中提取與檢測到的所述 第一語言的單詞相對應的被翻譯成所述第二語言的單詞; 從所述視頻數(shù)據(jù)庫中提取與提取出的所述第二語言的單詞的發(fā)音相對應的嘴唇形狀 的視頻數(shù)據(jù);以及 針對在所述攝像機拍攝的視頻中的、所述用戶的嘴唇所在的分離出的區(qū)域插入與提取 出的所述嘴唇形狀的視頻數(shù)據(jù)相對應的局部視頻。
8. 根據(jù)權(quán)利要求7所述的方法,還包括:當完成所述攝像機拍攝的視頻中的所述局部 視頻的插入時,輸出已被插入所述局部視頻的最終視頻。
9. 根據(jù)權(quán)利要求7所述的方法,還包括:當完成所述攝像機拍攝的視頻中的所述局部 視頻的插入時,向接收者的終端裝置傳輸已被插入所述局部視頻的最終視頻的視頻數(shù)據(jù)。
10. 根據(jù)權(quán)利要求7所述的方法,其中檢測所述用戶的面部區(qū)域的步驟基于形成所述 攝像機拍攝的視頻的多個像素的顏色,從所述攝像機拍攝的視頻中檢測所述用戶的面部區(qū) 域,以及 分離所述用戶的嘴唇所在的區(qū)域的步驟基于形成與檢測到的面部區(qū)域相對應的視頻 的多個像素的顏色分離所述用戶的嘴唇所在的區(qū)域。
11. 根據(jù)權(quán)利要求10所述的方法,其中檢測所述用戶的面部區(qū)域的步驟通過從形成 所述攝像機拍攝的視頻的多個像素中分離具有第一顏色范圍中包括的顏色的像素來檢測 所述用戶的面部區(qū)域,所述第一顏色范圍通過使顏色與面部的皮膚顏色相關(guān)聯(lián)而被預先確 定,以及 分離所述用戶的嘴唇所在的區(qū)域的步驟通過從形成與檢測到的面部區(qū)域相對應的視 頻的多個像素中分離具有第二顏色范圍中包括的顏色的像素來分離所述用戶的嘴唇所在 的區(qū)域,所述第二顏色范圍通過使顏色與嘴唇顏色相關(guān)聯(lián)而被預先確定。
12. 根據(jù)權(quán)利要求7所述的方法,還包括: 針對組成由所述攝像機拍攝的視頻的視頻數(shù)據(jù)以及針對組成通過所述麥克風輸入的 語音的語音數(shù)據(jù),以預定的間隔記錄與所述攝像機捕獲所述用戶的面部的時間和通過所述 麥克風輸入所述用戶的語音的時間之間的時間同步相關(guān)的至少一個時間戳,以及 其中插入所述局部視頻的步驟參考所述至少一個時間戳,針對在組成由所述攝像機拍 攝的視頻的視頻數(shù)據(jù)中的、與輸入識別出的語音的時間相對應的視頻數(shù)據(jù)插入所述局部視 頻。
13. -種計算機可讀存儲介質(zhì),執(zhí)行根據(jù)權(quán)利要求7至12中的任一項所述的方法的程 序被記錄在所述計算機可讀存儲介質(zhì)中。
【專利摘要】公開了一種基于自動的單詞翻譯改變嘴唇形狀的裝置及方法。根據(jù)本發(fā)明的實施方式,本發(fā)明實現(xiàn)了:當用戶通過麥克風輸入語音時通過使用攝像機拍攝用戶的面部,使用戶的嘴唇所在的區(qū)域與通過攝像機拍攝的圖像區(qū)分;并且識別用戶的語音,并且相對于與所識別的語音相對應的單詞被翻譯為其他語言時的情況,表示嘴唇形狀的局部圖像被插入到所區(qū)分的嘴唇所在的區(qū)域中,使得當用戶通過語音輸入的單詞被翻譯為其他語言時,能夠自動地改變與單詞相對應的嘴唇形狀。
【IPC分類】G10L21-10
【公開號】CN104756188
【申請?zhí)枴緾N201380054426
【發(fā)明人】金詳哲
【申請人】金詳哲
【公開日】2015年7月1日
【申請日】2013年9月5日
【公告號】EP2899718A1, US20150242394, WO2014046401A1