專利名稱:一種基于移動(dòng)終端的音頻處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于通信領(lǐng)域,尤其涉及一種基于移動(dòng)終端的音頻處理方法及裝置。
背景技術(shù):
目前,移動(dòng)終端已成為炙手可熱的通訊工具,方便了人們實(shí)時(shí)進(jìn)行移動(dòng)通訊;第三方應(yīng)用程序的引入,豐富了移動(dòng)終端的功能,擴(kuò)大了移動(dòng)終端的應(yīng)用領(lǐng)域。當(dāng)移動(dòng)終端安裝相應(yīng)的播放器時(shí),可以下載音樂(lè)、視頻,然后收聽、觀看,或在線收聽音樂(lè),或在線觀看視頻;隨著網(wǎng)絡(luò)的普及,促進(jìn)了各國(guó)、各地方的文化傳播;若音樂(lè)、視頻采用的陌生的語(yǔ)音,用戶很難聽懂或看懂,極大地限制了網(wǎng)絡(luò)、音樂(lè)、視頻的適用范圍。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種基于移動(dòng)終端的音頻處理方法,以解決通過(guò)移動(dòng)終端視聽陌生語(yǔ)言的音樂(lè)、視頻,用戶無(wú)法聽懂或看懂的問(wèn)題。本發(fā)明實(shí)施例提供了一種基于移動(dòng)終端的音頻處理方法,所述方法包括:通過(guò)移動(dòng)終端,從音頻流中 提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù);利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,所述翻譯語(yǔ)言格式的文字內(nèi)容為采用翻譯語(yǔ)言描述的文字內(nèi)容;將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換所述待翻譯的音頻數(shù)據(jù)。本發(fā)明另一目的在于提供一種基于移動(dòng)終端的音頻處理裝置,所述裝置包括:提取單元,用于通過(guò)移動(dòng)終端,從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù);識(shí)別單元,用于利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容;翻譯單元,用于將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,所述翻譯語(yǔ)言格式的文字內(nèi)容為采用翻譯語(yǔ)言描述的文字內(nèi)容;替換單元,用于將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換所述待翻譯的音頻數(shù)據(jù)。本發(fā)明實(shí)施例的另一目的在于提供一種移動(dòng)終端,所述移動(dòng)終端包括上述的基于移動(dòng)終端的音頻處理裝置。本發(fā)明提供一種方法、裝置及移動(dòng)終端,用戶通過(guò)移動(dòng)終端收聽節(jié)目時(shí),從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù),利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,然后,將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,再轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù)以替換原待翻譯的音頻數(shù)據(jù);從而,實(shí)現(xiàn)將陌生語(yǔ)言的音頻流轉(zhuǎn)換為偏好語(yǔ)言格式的音頻流,以偏好語(yǔ)言呈現(xiàn)內(nèi)容給用戶,更具人性化,也更具通用性。
圖1是本發(fā)明實(shí)施例一提供的基于移動(dòng)終端的音頻處理方法的實(shí)現(xiàn)流程圖;圖2是本發(fā)明實(shí)施例二提供的基于移動(dòng)終端的音頻處理裝置的組成結(jié)構(gòu)圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。為了說(shuō)明本發(fā)明所述的技術(shù)方案,下面通過(guò)具體實(shí)施例來(lái)進(jìn)行說(shuō)明。實(shí)施例一:圖1示出了本發(fā)明實(shí)施例提供的基于移動(dòng)終端的音頻處理方法的實(shí)現(xiàn)流程,具體步驟詳述如下:步驟S101,通過(guò)移動(dòng)終端,從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)。播放軟件播放音頻流,所述音頻流中包含著音頻數(shù)據(jù),該音頻數(shù)據(jù)記載著背景音樂(lè)以及錄制的內(nèi)容。若需要, 可以從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)。例如:當(dāng)用戶通過(guò)移動(dòng)終端收聽音樂(lè)時(shí),為了實(shí)現(xiàn)將音樂(lè)以用戶指定的語(yǔ)言播放,首先,從音樂(lè)播放文件中提取出音頻流,在濾除背景音樂(lè)后,從音頻流中提取出與語(yǔ)音相關(guān)的音頻數(shù)據(jù),例如:濾除背景音樂(lè)后,提取出歌曲。作為本發(fā)明另一實(shí)施例,述通過(guò)移動(dòng)終端,從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)的步驟之前,所述方法還包括:獲取用戶的偏好語(yǔ)言,以作為翻譯語(yǔ)言。所述偏好語(yǔ)言包括全球各地方言、全球各國(guó)母語(yǔ)。首先,在獲取到用戶設(shè)置翻譯語(yǔ)言的指令后,移動(dòng)終端彈出語(yǔ)言選擇對(duì)話框,在該對(duì)話框的語(yǔ)音欄中,列出了本地和/或服務(wù)器包括的所有語(yǔ)言種類;用戶可以根據(jù)偏好,選取至少一種偏好語(yǔ)言,將所選的偏好語(yǔ)言設(shè)置為翻譯語(yǔ)言,并根據(jù)用戶的優(yōu)選選擇設(shè)置優(yōu)選順序,例如:將中文設(shè)置為第一翻譯語(yǔ)言,將四川方言設(shè)置為第二翻譯語(yǔ)言,將英語(yǔ)設(shè)置為第三翻譯語(yǔ)言;當(dāng)確認(rèn)翻譯語(yǔ)言設(shè)置完成后,將音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容翻譯成第一翻譯語(yǔ)言的文字內(nèi)容時(shí),若在本地和服務(wù)器中均未查找到第一翻譯語(yǔ)言對(duì)應(yīng)的文字庫(kù),根據(jù)翻譯語(yǔ)言的優(yōu)選順序,查找第二翻譯語(yǔ)言對(duì)應(yīng)的文字庫(kù),若查找成功,則根據(jù)第二翻譯語(yǔ)音的文字庫(kù),將音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容翻譯成第二翻譯語(yǔ)言的文字內(nèi)容,所述文字庫(kù)包括待翻譯的文字與翻譯文字的映射關(guān)系;以此類推,若未查找成功,根據(jù)翻譯語(yǔ)言的優(yōu)選順序依次查找,當(dāng)針對(duì)所有的翻譯語(yǔ)言,都未查找到對(duì)應(yīng)的文字庫(kù),則保留原音頻流以播放。優(yōu)選的是,在播放視頻和/或音頻時(shí),用戶可以根據(jù)自己的偏好,更改翻譯語(yǔ)言。具體地,當(dāng)獲取到更改指令后,調(diào)用語(yǔ)言選擇對(duì)話框以實(shí)現(xiàn)翻譯語(yǔ)言的更改。優(yōu)選的是,可以通過(guò)移動(dòng)終端自帶的麥克風(fēng),獲取用戶錄入的語(yǔ)音,根據(jù)語(yǔ)言庫(kù),識(shí)別出該錄入的語(yǔ)音的語(yǔ)言種類。將識(shí)別出的語(yǔ)言作為翻譯語(yǔ)言,當(dāng)然,也可以多次錄入不同的語(yǔ)言,然后對(duì)獲取到的所有翻譯語(yǔ)言排列優(yōu)選順序。步驟S102,利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容。將二進(jìn)制的音頻數(shù)據(jù)錄入語(yǔ)音識(shí)別裝置,該語(yǔ)音識(shí)別裝置采用語(yǔ)音識(shí)別技術(shù),識(shí)別出該音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容。
步驟S103,將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,所述翻譯語(yǔ)言格式的文字內(nèi)容為采用翻譯語(yǔ)言描述的文字內(nèi)容。采用現(xiàn)有的語(yǔ)言翻譯軟件,將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容。步驟S104,將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換所述待翻譯的音頻數(shù)據(jù)。所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)為采用翻譯語(yǔ)言錄制、形成的音頻數(shù)據(jù)。根據(jù)音頻流中記載的攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)對(duì)應(yīng)的時(shí)間戳、翻譯語(yǔ)言格式的文字內(nèi)容,重新錄制翻譯語(yǔ)言的音頻數(shù)據(jù);將翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換所述攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)。具體地,在保持?jǐn)y帶待翻譯內(nèi)容的音頻數(shù)據(jù)的同步時(shí)間戳不變的情況下,將翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換攜帶待翻譯內(nèi)容的音頻數(shù)據(jù),保持了音頻流同步播放,實(shí)現(xiàn)音頻語(yǔ)音的轉(zhuǎn)變。作為本發(fā)明另一實(shí)施例,所述方法還包括:通過(guò)移動(dòng)終端,從視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù);根據(jù)字幕相關(guān)的視頻數(shù)據(jù),識(shí)別出字幕內(nèi)容;
將所述字幕內(nèi)容,翻譯成翻譯語(yǔ)言格式的字幕內(nèi)容,所述翻譯語(yǔ)言格式的字幕內(nèi)容為采用翻譯語(yǔ)言描述的字幕內(nèi)容;將所述翻譯語(yǔ)言格式的字幕內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的視頻數(shù)據(jù),以替換所述與字幕相關(guān)的視頻數(shù)據(jù)。移動(dòng)終端通過(guò)視頻軟件播放視頻文件,所述視頻文件包括視頻流和/或音頻流;待獲取到視頻流后,從所述視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù),具體地,與字幕相關(guān)的視頻數(shù)據(jù)為攜帶字幕包括的文字內(nèi)容的視頻數(shù)據(jù),同時(shí),提取該字幕的時(shí)間戳;待識(shí)別出字幕內(nèi)容后,將所述字幕內(nèi)容,翻譯成翻譯語(yǔ)言格式的字幕內(nèi)容;將所述翻譯語(yǔ)言格式的字幕內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的視頻數(shù)據(jù);然后,根據(jù)字幕的時(shí)間戳,控制將翻譯語(yǔ)言格式的視頻數(shù)據(jù)替換所述與字幕相關(guān)的視頻數(shù)據(jù)。重新播放翻譯后的視頻文件時(shí),字幕將以翻譯語(yǔ)言格式顯示字幕內(nèi)容。作為本發(fā)明另一實(shí)施例,所述方法還包括:預(yù)先獲取所述音頻數(shù)據(jù)與所述視頻數(shù)據(jù)的同步時(shí)間戳;通過(guò)所述同步時(shí)間戳,控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步。在觀看視頻時(shí),為了更好地翻譯及顯示,保持視頻流和音頻流同步,預(yù)先獲取音頻數(shù)據(jù)與視頻數(shù)據(jù)的同步時(shí)間戳,所述音頻數(shù)據(jù)與視頻數(shù)據(jù)的同步時(shí)間戳包括:音頻數(shù)據(jù)的時(shí)間戳、字幕的時(shí)間戳、翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和翻譯語(yǔ)言格式的視頻數(shù)據(jù)的同步時(shí)間戳;通過(guò)上述三個(gè)時(shí)間戳,同時(shí)實(shí)現(xiàn)以下同步控制:通過(guò)音頻數(shù)據(jù)的時(shí)間戳,控制翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換攜帶待翻譯內(nèi)容的音頻數(shù)據(jù);通過(guò)字幕的時(shí)間戳,控制翻譯語(yǔ)言格式的視頻數(shù)據(jù)替換原與字幕相關(guān)的視頻數(shù)據(jù);通過(guò)翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和翻譯語(yǔ)言格式的視頻數(shù)據(jù)的同步時(shí)間戳,控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步。
本實(shí)施例提供了一種基于移動(dòng)終端的音頻處理方法,用戶使用移動(dòng)終端收聽時(shí),預(yù)先獲取用戶的偏好語(yǔ)言,以作為翻譯語(yǔ)言,當(dāng)需要翻譯時(shí),從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)和攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)的時(shí)間戳,利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容以翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換所述待翻譯的音頻數(shù)據(jù);更優(yōu)的是,若播放媒體為視頻時(shí),在翻譯語(yǔ)音內(nèi)容的同時(shí),從視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù)和同步時(shí)間戳,將翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換所述待翻譯的音頻數(shù)據(jù),將翻譯語(yǔ)言格式的視頻數(shù)據(jù)替換所述與字幕相關(guān)的視頻數(shù)據(jù),更優(yōu)的是,通過(guò)所述同步時(shí)間戳,控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步;從而,實(shí)現(xiàn)將陌生語(yǔ)言的音頻和/或視頻轉(zhuǎn)換為偏好語(yǔ)言格式呈現(xiàn)給用戶,更具人性化,更具通用性。實(shí)施例二:圖2示出了本發(fā)明實(shí)施例提供的基于移動(dòng)終端的音頻處理裝置的組成結(jié)構(gòu),為了便于描述,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分;所述基于移動(dòng)終端的音頻處理裝置可以是運(yùn)行于移動(dòng)終端設(shè)備內(nèi)的軟件單元、硬件單元或者軟硬件相結(jié)合的單元, 也可以作為獨(dú)立的掛件集成到所述終端設(shè)備中或者運(yùn)行于所述終端設(shè)備的應(yīng)用系統(tǒng)中。一種基于移動(dòng)終端的音頻處理裝置,所述基于移動(dòng)終端的音頻處理裝置可以包括提取單元21、識(shí)別單元22、翻譯單元23以及替換單元24,各功能單元的具體功能描述如下:提取單元21,用于通過(guò)移動(dòng)終端,從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)。播放軟件播放音頻流,所述音頻流中包含著音頻數(shù)據(jù),該音頻數(shù)據(jù)記載著背景音樂(lè)以及錄制的內(nèi)容。若需要,可以通過(guò)提取單元21從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)。例如:當(dāng)用戶通過(guò)移動(dòng)終端收聽音樂(lè)時(shí),為了實(shí)現(xiàn)將音樂(lè)以用戶指定的語(yǔ)言播放,首先,從音樂(lè)播放文件中提取出音頻流,在濾除背景音樂(lè)后,提取單元21從音頻流中提取出與語(yǔ)音相關(guān)的音頻數(shù)據(jù),例如:濾除背景音樂(lè)后,提取出歌曲。作為本發(fā)明另一實(shí)施例,所述裝置還包括:獲取單元25,用于獲取用戶的偏好語(yǔ)言,以作為翻譯語(yǔ)言。所述偏好語(yǔ)言包括全球各地方言、全球各國(guó)母語(yǔ)。首先,在獲取到用戶設(shè)置翻譯語(yǔ)言的指令后,獲取單元25彈出語(yǔ)言選擇對(duì)話框,在該對(duì)話框的語(yǔ)音欄中,列出了本地和/或服務(wù)器包括的所有語(yǔ)言種類;用戶可以根據(jù)偏好,選取至少一種偏好語(yǔ)言,獲取單元25將所選的偏好語(yǔ)言設(shè)置為翻譯語(yǔ)言,并根據(jù)用戶的優(yōu)選選擇設(shè)置優(yōu)選順序,例如:獲取單元25將中文設(shè)置為第一翻譯語(yǔ)言,將四川方言設(shè)置為第二翻譯語(yǔ)言,將英語(yǔ)設(shè)置為第三翻譯語(yǔ)言;當(dāng)確認(rèn)翻譯語(yǔ)言設(shè)置完成后,將音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容翻譯成第一翻譯語(yǔ)言的文字內(nèi)容時(shí),若在本地和服務(wù)器中均未查找到第一翻譯語(yǔ)言對(duì)應(yīng)的文字庫(kù),根據(jù)翻譯語(yǔ)言的優(yōu)選順序,查找第二翻譯語(yǔ)言對(duì)應(yīng)的文字庫(kù),若查找成功,則根據(jù)第二翻譯語(yǔ)音的文字庫(kù),將音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容翻譯成第二翻譯語(yǔ)言的文字內(nèi)容,所述文字庫(kù)包括待翻譯的文字與翻譯文字的映射關(guān)系;以此類推,若未查找成功,根據(jù)翻譯語(yǔ)言的優(yōu)選順序依次查找,當(dāng)針對(duì)所有的翻譯語(yǔ)言,都未查找到對(duì)應(yīng)的文字庫(kù),則保留原音頻流以播放。
優(yōu)選的是,在播放視頻和/或音頻時(shí),用戶可以根據(jù)自己的偏好,更改翻譯語(yǔ)言。具體地,當(dāng)獲取到更改指令后,獲取單元25調(diào)用語(yǔ)言選擇對(duì)話框以實(shí)現(xiàn)翻譯語(yǔ)言的更改。優(yōu)選的是,可以通過(guò)移動(dòng)終端自帶的麥克風(fēng),獲取用戶錄入的語(yǔ)音,根據(jù)語(yǔ)言庫(kù),識(shí)別出該錄入的語(yǔ)音的語(yǔ)言種類。將識(shí)別出的語(yǔ)言作為翻譯語(yǔ)言,當(dāng)然,也可以多次錄入不同的語(yǔ)言,然后對(duì)獲取到的所有翻譯語(yǔ)言排列優(yōu)選順序。識(shí)別單元22,用于利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容。識(shí)別單元22將二進(jìn)制的音頻數(shù)據(jù)錄入語(yǔ)音識(shí)別裝置,該語(yǔ)音識(shí)別裝置采用語(yǔ)音識(shí)別技術(shù),識(shí)別出該音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容。翻譯單元23,用于將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,所述翻譯語(yǔ)言格式的文字內(nèi)容為采用翻譯語(yǔ)言描述的文字內(nèi)容。翻譯單元23采用現(xiàn)有的語(yǔ)言翻譯軟件,將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容。替換單元24,用于將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換所述待翻譯的 音頻數(shù)據(jù)。所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)為采用翻譯語(yǔ)言錄制、形成的音頻數(shù)據(jù)。替換單元24根據(jù)音頻流中記載的攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)對(duì)應(yīng)的時(shí)間戳、翻譯語(yǔ)言格式的文字內(nèi)容,重新錄制翻譯語(yǔ)言的音頻數(shù)據(jù);替換單元24將翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換所述攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)。具體地,在保持?jǐn)y帶待翻譯內(nèi)容的音頻數(shù)據(jù)的同步時(shí)間戳不變的情況下,替換單元24將翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換攜帶待翻譯內(nèi)容的音頻數(shù)據(jù),保持了音頻流同步播放,實(shí)現(xiàn)音頻語(yǔ)音的轉(zhuǎn)變。作為本發(fā)明另一實(shí)施例,所述裝置還包括:視頻提取單元26,用于通過(guò)移動(dòng)終端,從視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù);視頻識(shí)別單元27,用于根據(jù)字幕相關(guān)的視頻數(shù)據(jù),識(shí)別出字幕內(nèi)容;視頻翻譯單元28,用于將所述字幕內(nèi)容,翻譯成翻譯語(yǔ)言格式的字幕內(nèi)容,所述翻譯語(yǔ)言格式的字幕內(nèi)容為采用翻譯語(yǔ)言描述的字幕內(nèi)容;視頻替換單元29,用于將所述翻譯語(yǔ)言格式的字幕內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的視頻數(shù)據(jù),以替換所述與字幕相關(guān)的視頻數(shù)據(jù)。移動(dòng)終端通過(guò)視頻軟件播放視頻文件,所述視頻文件包括視頻流和/或音頻流;待獲取到視頻流后,視頻提取單元26從所述視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù),具體地,與字幕相關(guān)的視頻數(shù)據(jù)為攜帶字幕包括的文字內(nèi)容的視頻數(shù)據(jù),同時(shí),提取該字幕的時(shí)間戳;待視頻識(shí)別單元27識(shí)別出字幕內(nèi)容后,視頻翻譯單元28將所述字幕內(nèi)容,翻譯成翻譯語(yǔ)言格式的字幕內(nèi)容;視頻替換單元29將所述翻譯語(yǔ)言格式的字幕內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的視頻數(shù)據(jù);然后,根據(jù)字幕的時(shí)間戳,視頻替換單元29控制將翻譯語(yǔ)言格式的視頻數(shù)據(jù)替換所述與字幕相關(guān)的視頻數(shù)據(jù)。重新播放翻譯后的視頻文件時(shí),字幕將以翻譯語(yǔ)言格式顯示字幕內(nèi)容。作為本發(fā)明另一實(shí)施例,所述裝置還包括:時(shí)間戳單元30,用于預(yù)先獲取所述音頻數(shù)據(jù)與所述視頻數(shù)據(jù)的同步時(shí)間戳;同步單元31,用于通過(guò)所述同步時(shí)間戳,控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步。
在觀看視頻時(shí),為了更好地翻譯及顯示,保持視頻流和音頻流同步,時(shí)間戳單元30預(yù)先獲取音頻數(shù)據(jù)與視頻數(shù)據(jù)的同步時(shí)間戳,所述音頻數(shù)據(jù)與視頻數(shù)據(jù)的同步時(shí)間戳包括:音頻數(shù)據(jù)的時(shí)間戳、字幕的時(shí)間戳、翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和翻譯語(yǔ)言格式的視頻數(shù)據(jù)的同步時(shí)間戳;通過(guò)上述三個(gè)時(shí)間戳,同時(shí)實(shí)現(xiàn)以下同步控制:通過(guò)音頻數(shù)據(jù)的時(shí)間戳,替換單元24控制翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換攜帶待翻譯內(nèi)容的音頻數(shù)據(jù);通過(guò)字幕的時(shí)間戳,視頻替換單元29控制翻譯語(yǔ)言格式的視頻數(shù)據(jù)替換原與字幕相關(guān)的視頻數(shù)據(jù);通過(guò)翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和翻譯語(yǔ)言格式的視頻數(shù)據(jù)的同步時(shí)間戳,同步單元31控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步。從而,保持了語(yǔ)音或視頻在語(yǔ)言翻譯前后的播放時(shí)間正確。本實(shí)施例提供了一種基于移動(dòng)終端的音頻處理裝置,用戶使用移動(dòng)終端收聽時(shí),獲取單元預(yù)先獲取用戶的偏好語(yǔ)言,以作為翻譯語(yǔ)言,當(dāng)需要翻譯時(shí),提取單元從音頻流中提取攜帶待翻譯內(nèi)容的 音頻數(shù)據(jù)和攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)的時(shí)間戳,識(shí)別單元利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容以翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,翻譯單元將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換單元替換所述待翻譯的音頻數(shù)據(jù);更優(yōu)的是,若播放媒體為視頻時(shí),在翻譯語(yǔ)音內(nèi)容的同時(shí),時(shí)間戳單元從視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù)和同步時(shí)間戳,將翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換所述待翻譯的音頻數(shù)據(jù),將翻譯語(yǔ)言格式的視頻數(shù)據(jù)替換所述與字幕相關(guān)的視頻數(shù)據(jù),更優(yōu)的是,通過(guò)所述同步時(shí)間戳,同步單元控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步;從而,實(shí)現(xiàn)將陌生語(yǔ)言的音頻和/或視頻轉(zhuǎn)換為偏好語(yǔ)言格式呈現(xiàn)給用戶,更具人性化,更具通用性。作為本發(fā)明一實(shí)施例,本發(fā)明提供了一種移動(dòng)終端,所述移動(dòng)終端上述的基于移動(dòng)終端的音頻處理裝置。所述移動(dòng)終端可以為但不局限于智能手機(jī)和IPAD等。本發(fā)明實(shí)施例提供一種基于移動(dòng)終端的音頻處理方法及裝置,用戶使用移動(dòng)終端收聽時(shí),預(yù)先獲取用戶的偏好語(yǔ)言,以作為翻譯語(yǔ)言,當(dāng)需要翻譯時(shí),從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)和攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)的時(shí)間戳,利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容以翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換所述待翻譯的音頻數(shù)據(jù);更優(yōu)的是,若播放媒體為視頻時(shí),在翻譯語(yǔ)音內(nèi)容的同時(shí),從視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù)和同步時(shí)間戳,將翻譯語(yǔ)言格式的音頻數(shù)據(jù)替換所述待翻譯的音頻數(shù)據(jù),將翻譯語(yǔ)言格式的視頻數(shù)據(jù)替換所述與字幕相關(guān)的視頻數(shù)據(jù),更優(yōu)的是,通過(guò)所述同步時(shí)間戳,控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步;從而,實(shí)現(xiàn)將陌生語(yǔ)言的音頻和/或視頻轉(zhuǎn)換為偏好語(yǔ)言格式呈現(xiàn)給用戶,更具人性化,更具通用性。本領(lǐng)域技術(shù)人員可以理解為上述實(shí)施例二包括的各個(gè)單元只是按照功能邏輯進(jìn)行劃分的,但并不局限于上述的劃分,只要能夠?qū)崿F(xiàn)相應(yīng)的功能即可;另外,各功能單元的具體名稱也只是為了便于相互區(qū)分,并不用于限制本發(fā)明的保護(hù)范圍。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以在存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,所述的存儲(chǔ)介質(zhì),如ROM/RAM、磁盤、光盤等。 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和 改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于移動(dòng)終端的音頻處理方法,其特征在于,所述方法包括: 通過(guò)移動(dòng)終端,從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù); 利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容; 將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,所述翻譯語(yǔ)言格式的文字內(nèi)容為采用翻譯語(yǔ)言描述的文字內(nèi)容; 將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換所述待翻譯的音頻數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述通過(guò)移動(dòng)終端,從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù)的步驟之前,所述方法還包括: 獲取用戶的偏好語(yǔ)言,以作為翻譯語(yǔ)言。
3.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 通過(guò)移動(dòng)終端,從視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù); 根據(jù)字幕相關(guān)的視頻數(shù)據(jù),識(shí)別出字幕內(nèi)容; 將所述字幕內(nèi)容,翻譯成翻譯語(yǔ)言格式的字幕內(nèi)容,所述翻譯語(yǔ)言格式的字幕內(nèi)容為采用翻譯語(yǔ)言描述的字幕內(nèi)容; 將所述翻譯語(yǔ)言格式的字幕內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的視頻數(shù)據(jù),以替換所述與字幕相關(guān)的視頻數(shù)據(jù)。
4.如權(quán)利要求3所述的方法,其特征在于,所述方法還包括: 預(yù)先獲取所述音頻數(shù)據(jù)與所述視頻數(shù)據(jù)的同步時(shí)間戳; 通過(guò)所述同步時(shí)間戳,控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步。
5.一種基于移動(dòng)終端的音頻處理裝置,其特征在于,所述裝置包括: 提取單元,用于通過(guò)移動(dòng)終端,從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù); 識(shí)別單元,用于利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容; 翻譯單元,用于將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,所述翻譯語(yǔ)言格式的文字內(nèi)容為采用翻譯語(yǔ)言描述的文字內(nèi)容; 替換單元,用于將所述翻譯語(yǔ)言格式的文字內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù),以替換所述待翻譯的音頻數(shù)據(jù)。
6.如權(quán)利要求 5所述的裝置,其特征在于,所述裝置還包括: 獲取單元,用于獲取用戶的偏好語(yǔ)言,以作為翻譯語(yǔ)言。
7.如權(quán)利要求5所述的裝置,其特征在于,所述裝置還包括: 視頻提取單元,用于通過(guò)移動(dòng)終端,從視頻流中提取與字幕相關(guān)的視頻數(shù)據(jù); 視頻識(shí)別單元,用于根據(jù)字幕相關(guān)的視頻數(shù)據(jù),識(shí)別出字幕內(nèi)容; 視頻翻譯單元,用于將所述字幕內(nèi)容,翻譯成翻譯語(yǔ)言格式的字幕內(nèi)容,所述翻譯語(yǔ)言格式的字幕內(nèi)容為采用翻譯語(yǔ)言描述的字幕內(nèi)容; 視頻替換單元,用于將所述翻譯語(yǔ)言格式的字幕內(nèi)容,轉(zhuǎn)換為翻譯語(yǔ)言格式的視頻數(shù)據(jù),以替換所述與字幕相關(guān)的視頻數(shù)據(jù)。
8.如權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 時(shí)間戳單元,用于預(yù)先獲取所述音頻數(shù)據(jù)與所述視頻數(shù)據(jù)的同步時(shí)間戳;同步單元,用于通過(guò)所述同步時(shí)間戳,控制所述翻譯語(yǔ)言格式的音頻數(shù)據(jù)與和所述翻譯語(yǔ)言格式的視頻數(shù)據(jù)同步。
9.一種移動(dòng) 終端,其特征在于,所述移動(dòng)終端包括權(quán)利要求5至權(quán)利要求8任一所述的基于移動(dòng)終端的音頻處理裝置。
全文摘要
本發(fā)明適用于通信領(lǐng)域,提供了一種基于移動(dòng)終端的音頻處理方法及裝置,用戶通過(guò)移動(dòng)終端收聽節(jié)目時(shí),從音頻流中提取攜帶待翻譯內(nèi)容的音頻數(shù)據(jù),利用語(yǔ)音識(shí)別技術(shù),識(shí)別出所述音頻數(shù)據(jù)對(duì)應(yīng)的文字內(nèi)容,然后,將所述文字內(nèi)容翻譯成翻譯語(yǔ)言格式的文字內(nèi)容,再轉(zhuǎn)換為翻譯語(yǔ)言格式的音頻數(shù)據(jù)以替換原待翻譯的音頻數(shù)據(jù);從而,實(shí)現(xiàn)將陌生語(yǔ)言的音頻流轉(zhuǎn)換為偏好語(yǔ)言格式的音頻流,以偏好語(yǔ)言呈現(xiàn)內(nèi)容給用戶,更具人性化,也更具通用性。
文檔編號(hào)G10L13/08GK103226947SQ20131010211
公開日2013年7月31日 申請(qǐng)日期2013年3月27日 優(yōu)先權(quán)日2013年3月27日
發(fā)明者張培凱 申請(qǐng)人:廣東歐珀移動(dòng)通信有限公司