基于自動的單詞翻譯改變嘴唇形狀的裝置及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實施方式涉及如下技術(shù):在拍攝用戶的面部視頻并且識別用戶的語音之 后,當(dāng)與用戶的語音相對應(yīng)的單詞被翻譯成不同的語言時,根據(jù)不同的語言的單詞將在面 部視頻中的用戶的嘴唇的形狀改變成其他嘴唇形狀。
【背景技術(shù)】
[0002] 現(xiàn)今,隨著與諸如視頻電話、視頻聊天等基于視頻的通信有關(guān)的技術(shù)的出現(xiàn),越來 越關(guān)注基于視頻的通信。
[0003] 與現(xiàn)有的基于語音的通信相比,基于視頻的通信可以支持在說話者和接收者之間 準確的通信,因為不僅從接收者的終端裝置輸出了說話者的語音還在接收者的終端裝置上 顯示了說話者的面部圖像。
[0004] 另外,近來,隨著互聯(lián)網(wǎng)的發(fā)展,國際間的通信越來越多。在這種情況下,當(dāng)通信雙 方之間的語言互不相同時,雙方之間的通信可能進展的并不順利。
[0005] 為了解決上述問題,已經(jīng)出現(xiàn)了用于識別說話者的語音并且自動地將識別出的語 音翻譯成另一種語言的技術(shù)。
[0006] 然而,如果基于視頻的通信簡單地將說話者的語音翻譯成不同的語言而不將說話 者的嘴唇形狀改變成與翻譯出的語言一致,則接收者可能感到難于完全地理解說話者的意 圖。
[0007] 因此,需要進行更多的研宄以在說話者的語音被翻譯成不同的語言時將說話者的 嘴唇形狀改變成與翻譯出的語言一致。
【發(fā)明內(nèi)容】
[0008] 技術(shù)問題
[0009] 當(dāng)用戶使用攝像機拍攝他或她自己的面部的視頻并且通過麥克風(fēng)輸入他或她的 語音時,本發(fā)明的實施方式從攝像機拍攝的視頻中分離用戶的嘴唇所在的區(qū)域;識別用戶 的語音;針對用戶的嘴唇所在的區(qū)域插入局部視頻,該局部視頻表示當(dāng)與識別出的語音相 對應(yīng)的特定的單詞被翻譯成不同的語言時獲得的單詞的嘴唇形狀。因此,當(dāng)通過用戶的語 音輸入的單詞被翻譯成不同的語言時,本發(fā)明的實施方式可以自動地將用戶的嘴唇的形狀 改變成與上述語言一致。
[0010] 技術(shù)方案
[0011] 根據(jù)本發(fā)明的實施方式的一種基于自動的單詞翻譯改變嘴唇形狀的裝置,包含: 單詞數(shù)據(jù)庫,在單詞數(shù)據(jù)庫中第一語言的多個單詞以及針對第一語言的多個單詞翻譯成第 二語言的多個單詞兩者被存儲成彼此分別相對應(yīng);視頻數(shù)據(jù)庫,在視頻數(shù)據(jù)庫中多個預(yù)定 嘴唇形狀的視頻數(shù)據(jù)被存儲成分別與被翻譯成第二語言的多個單詞的發(fā)音相對應(yīng);區(qū)域檢 測單元,用于使用攝像機捕獲用戶的面部并且用于從攝像機拍攝的視頻中檢測用戶的面部 區(qū)域;區(qū)域分離單元,用于從檢測到的面部區(qū)域中分離用戶的嘴唇所在的區(qū)域;單詞檢測 單元,用于通過麥克風(fēng)接收用戶的語音,用于識別用戶的輸入語音,并且用于從單詞數(shù)據(jù)庫 中檢測與用戶的語音相對應(yīng)的單詞;翻譯單詞提取單元,用于在檢測到的單詞是第一語言 的單詞時,從單詞數(shù)據(jù)庫中提取與檢測到的第一語言的單詞相對應(yīng)的被翻譯成第二語言的 單詞;視頻數(shù)據(jù)提取單元,用于從視頻數(shù)據(jù)庫中提取與提取出的第二語言的單詞的發(fā)音相 對應(yīng)的嘴唇形狀的視頻數(shù)據(jù);以及視頻插入單元,用于針對在攝像機拍攝的視頻中的、用戶 的嘴唇所在的分離出的區(qū)域插入與提取出的嘴唇形狀的視頻數(shù)據(jù)相對應(yīng)的局部視頻。
[0012] 再者,根據(jù)本發(fā)明的實施方式的一種基于自動的單詞翻譯改變嘴唇形狀的方法, 包含:維持單詞數(shù)據(jù)庫,在單詞數(shù)據(jù)庫中第一語言的多個單詞以及針對第一語言的多個單 詞翻譯成第二語言的多個單詞兩者被存儲成彼此分別相對應(yīng);維持視頻數(shù)據(jù)庫,在視頻數(shù) 據(jù)庫中多個預(yù)定嘴唇形狀的視頻數(shù)據(jù)被存儲成分別與被翻譯成第二語言的多個單詞的發(fā) 音相對應(yīng);通過使用攝像機捕獲用戶的面部來從攝像機拍攝的視頻中檢測用戶的面部區(qū) 域;從檢測到的面部區(qū)域中分離用戶的嘴唇所在的區(qū)域;通過麥克風(fēng)接收用戶的語音并且 通過識別用戶的輸入語音來從單詞數(shù)據(jù)庫中檢測與用戶的語音相對應(yīng)的單詞;當(dāng)檢測到的 單詞是第一語言的單詞時,從單詞數(shù)據(jù)庫中提取與檢測到的第一語言的單詞相對應(yīng)的被翻 譯成第二語言的單詞;從視頻數(shù)據(jù)庫中提取與提取出的第二語言的單詞的發(fā)音相對應(yīng)的嘴 唇形狀的視頻數(shù)據(jù);以及針對在攝像機拍攝的視頻中的、用戶的嘴唇所在的分離出的區(qū)域 插入與提取出的嘴唇形狀的視頻數(shù)據(jù)相對應(yīng)的局部視頻。
[0013] 有益效果
[0014] 當(dāng)用戶使用攝像機拍攝他或她自己的面部的視頻并通過麥克風(fēng)輸入他或她的語 音時,本發(fā)明的實施方式從攝像機拍攝的視頻中分離用戶的嘴唇所在的區(qū)域;識別用戶的 語音;針對用戶的嘴唇所在的區(qū)域插入局部視頻,該局部視頻表示當(dāng)與識別出的語音相對 應(yīng)的特定的單詞被翻譯成不同的語言時獲得的單詞的嘴唇形狀。因此,當(dāng)通過用戶的語音 輸入的單詞被翻譯成不同的語言時,本發(fā)明的實施方式可以自動地將用戶的嘴唇的形狀改 變成與上述語言一致。
【附圖說明】
[0015] 圖1是圖示了根據(jù)本發(fā)明的實施方式的基于自動的單詞翻譯改變嘴唇形狀的裝 置的結(jié)構(gòu)的視圖;以及
[0016] 圖2是圖示了根據(jù)本發(fā)明的實施方式的基于自動的單詞翻譯改變嘴唇形狀的方 法的流程圖。
【具體實施方式】
[0017] 現(xiàn)在將基于各方面或各實施方式詳細地描述本發(fā)明。然而,本發(fā)明可以以許多不 同的形式實施并且不應(yīng)被解釋為僅限于本文闡明的實施方式,而應(yīng)被解釋為覆蓋落入本發(fā) 明的構(gòu)思和技術(shù)范圍之內(nèi)的修改方案、等效方案或替選方案。
[0018] 應(yīng)理解當(dāng)元件被稱為與另外的元件"連接"或"耦接"時,其可以直接地與其他元 件連接或耦接或者可以存在介于中間的元件。相反,當(dāng)元件被稱為與另外的元件"直接地連 接"或"直接地耦接"時,不存在介于中間的元件。用于描述元件之間的關(guān)系的其他術(shù)語應(yīng) 以類似的方式被解釋(例如,"在…之間"相對"直接地在…之間","相鄰"相對于"直接地 相鄰"等)。
[0019] 本文中使用的術(shù)語僅是為了描述特定的方面或?qū)嵤┓绞侥康亩灰庠趯Ρ景l(fā) 明進行限制。如在本文使用的,單數(shù)形式同樣旨在包含復(fù)數(shù)形式,除非上下文明確地另 有所指。還應(yīng)理解,術(shù)語包括("comprise"、"comprising"),包含("include"和/或 "including"),當(dāng)在本文中使用時,指定所陳述的特征、整體、步驟、操作、元件和/或組件 的存在,但并不排除一個或更多個其他特征、步驟、操作、部件、組件和/或其組合的存在或 增加。
[0020] 除非另有定義,否則在本文中使用的包含技術(shù)術(shù)語和科學(xué)術(shù)語的所有術(shù)語具有如 本發(fā)明所屬領(lǐng)域的普通技術(shù)人員通常理解的相同的含義。還應(yīng)理解,在本文中使用的術(shù)語 應(yīng)被解釋為具有與它們在本說明書的上下文以及相關(guān)領(lǐng)域中的含義一致的含義并且不會 用理想化地或過于正式的含義來解釋,除非本文中明確地這樣定義。
[0021] 在下文中,將參考附圖詳細地描述本發(fā)明的實施方式。
[0022] 圖1是圖示了根據(jù)本發(fā)明的實施方式的基于自動的單詞翻譯改變嘴唇形狀的裝 置的結(jié)構(gòu)的視圖。
[0023] 參考圖1,根據(jù)本發(fā)明的實施方式的基于自動的單詞翻譯改變嘴唇形狀的裝置 110包含單詞數(shù)據(jù)庫111,視頻數(shù)據(jù)庫112,區(qū)域檢測單元113,區(qū)域分離單元114,單詞檢測 單元115,視頻數(shù)據(jù)提取單元117,以及視頻插入單元118。
[0024] 這里,可以基于諸如桌面?zhèn)€人計算機(PC)、移動終端、個人數(shù)字助理(PDA)、膝上 型電腦、平板PC等的基于微處理器的裝置實現(xiàn)基于自動的單詞翻譯改變嘴唇形狀的裝置 110,在上述基于微處理器的裝置中嵌入了用于拍攝用戶的視頻的攝像機和用于接收用戶 的語音的麥克風(fēng)兩者,或者攝像機和麥