本發(fā)明涉及多媒體信息處理領(lǐng)域,具體涉及一種字幕生成方法及裝置。
背景技術(shù):
隨著信息技術(shù)的快速發(fā)展,人們?nèi)粘I钪锌梢越佑|到越來越多的音視頻信息。但是,由于不同的國家或地區(qū)有不同的語言,因此音視頻信息在共享時存在的一個問題就是本地化語言處理的問題,為了便于其他語言使用者觀看該視頻,一般通過在視頻上加載其他語言的字幕的方式來便于視頻觀看者理解。例如,針對國外的電影等視頻資源,在國內(nèi)播放時為了保持原聲的音頻效果,并不對聲音進(jìn)行翻譯處理,而是在屏幕的下方將影視中的英文對話翻譯為中文后顯示出來,便于觀眾更好的理解。
發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),目前針對視頻中的語言生成字幕一般采用的方式是先將原語言人工翻譯成所需的語言,然后在相應(yīng)的位置再把翻譯后的語言文本加入到視頻中。首先,人工翻譯需要花費(fèi)較多的時間。其次,由于世界上的語言種類眾多,如果針對每種語言都進(jìn)行一次系統(tǒng)化的翻譯來形成字幕,必然使得該視頻的制作成本大大增加,如果不進(jìn)行翻譯的話,則對于未翻譯的語言使用者來說,則無法使用這些視頻資源。因此,如何快速簡單的對視頻中的語言進(jìn)行翻譯并形成字幕成為提高視頻利用率的一項(xiàng)關(guān)鍵技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
因此,本發(fā)明實(shí)施例提供了一種字幕生成方法及裝置,以解決現(xiàn)有技術(shù)中的字幕生成時需要人工翻譯、花費(fèi)較多時間和精力、生成速度慢的問題。
根據(jù)本發(fā)明實(shí)施例的一個方面,提供了一種字幕生成方法,該方法包括:抽取音頻信息;識別所述音頻信息中的第一語言,生成第一語言文本信息;將所述第一語言文本信息轉(zhuǎn)化為第二語言文本信息;將所述第二語言文本信息加載到對應(yīng)音頻信息的相應(yīng)位置。
進(jìn)一步地,所述將所述第一語言文本信息轉(zhuǎn)化為第二語言文本信息,包括:獲取多個翻譯工具;使用每個翻譯工具將所述第一語言文本信息翻譯為待定的第二語言文本信息;對所述待定的第二語言文本信息進(jìn)行統(tǒng)計(jì),將出現(xiàn)頻率最高的待定的第二語言文本信息作為翻譯后的第二語言文本信息。
進(jìn)一步地,識別所述音頻信息中的第一語言,生成第一語言文本信息包括:提取所述音頻信息中的語音信息;截取所述語音信息中各個語音段;識別所述各個語音段中的語音信息,獲得第一語言文本信息。
進(jìn)一步地,還包括獲取多個用戶對第二語言文本信息的部分內(nèi)容的修改文本;;將出現(xiàn)頻率最高的修改文本替換所述第二語言文本信息中相應(yīng)內(nèi)容。
進(jìn)一步地,所述第二語言為一種或多種語言。
根據(jù)本發(fā)明實(shí)施例的另一個方面,提供了一種字幕生成裝置,該裝置包括:音頻抽取單元,用于抽取音頻信息;第一語言識別單元,用于識別所述音頻信息中的第一語言,生成第一語言文本信息;第二語言轉(zhuǎn)化單元,用于將所述第一語言文本信息轉(zhuǎn)化為第二語言文本信息;字幕生成單元,用于將所述第二語言文本信息加載到對應(yīng)音頻信息的相應(yīng)位置。
進(jìn)一步地,所述第二語言轉(zhuǎn)化單元包括:翻譯工具選擇子單元,用于獲取多個翻譯工具;翻譯子單元,用于使用每個翻譯工具將所述第一語言文本信息翻譯為待定的第二語言文本信息;翻譯確認(rèn)子單元,用于對所述待定的第二語言文本信息進(jìn)行統(tǒng)計(jì),將出現(xiàn)頻率最高的待定的第二語言文本信息作為翻譯后的第二語言文本信息。
進(jìn)一步地,所述第一語言識別單元包括:語音信息提取子單元,用于提取所述音頻信息中的語音信息;語音段獲取子單元,用于截取所述語音信息中各個語音段;語音識別子單元,用于通識別所述各個語音段中的語音信息,獲得第一語言文本信息。
進(jìn)一步地,還包括修改文本獲取子單元,用于獲取多個用戶對第二語言文本信息的部分內(nèi)容的修改文本;優(yōu)化單元,用于將出現(xiàn)頻率最高的修改文本替換所述第二語言文本信息中相應(yīng)內(nèi)容。
進(jìn)一步地,所述第二語言為一種或多種語言。
本發(fā)明實(shí)施例的技術(shù)方案,具有如下優(yōu)點(diǎn):
1.本發(fā)明實(shí)施例提供一種字幕生成方法及裝置,該方法包括先抽取音頻信息,然后識別出音頻信息中的第一語言,再將第一語言轉(zhuǎn)化為第二語言獲得第二語言文本信息,最后將第二語言文本信息加載到對應(yīng)音頻信息的相應(yīng)位置,從而生成了視頻的字幕。該方法能夠在視頻中自動生成其他語言的字幕,對于沒有所需語言字幕的視頻文件,可以通過該方式生成所需語言的字幕,從而用戶能夠更好的觀看該視頻文件。該方法可自動生成多語言字幕,可以作為手機(jī)等智能設(shè)備播放器的一個附加功能,解決了現(xiàn)有技術(shù)中字幕生成時需要人工翻譯、花費(fèi)較多時間和精力、生成速度慢的缺陷,同時簡化了字幕制作的流程,能夠快速便捷的生成字幕。
2.本發(fā)明實(shí)施例所述的字幕生成方法及裝置,在翻譯第二語言時,使用多種翻譯工具共同進(jìn)行翻譯,然后選擇其中絕大多數(shù)翻譯相同的翻譯結(jié)果作為第二語言的翻譯方式,從而提高了翻譯精度。
3.本發(fā)明實(shí)施例所述的字幕生成方法及裝置,還包括對第二語言文本信息進(jìn)行優(yōu)化的步驟,首先獲取多個用戶對第二語言文本信息的部分內(nèi)容的修改文本,然后將出現(xiàn)頻率最高的修改文本替換所述第二語言文本信息中相應(yīng)內(nèi)容。這樣,用戶可以針對翻譯后的字幕提出修改建議,當(dāng)修改建議的數(shù)量達(dá)到一定程度,通過統(tǒng)計(jì)的方式將大多數(shù)推薦的翻譯方式替換原來的翻譯文本,從而進(jìn)一步優(yōu)化翻譯結(jié)果,通過眾籌的方式使得翻譯結(jié)果更加準(zhǔn)確。
附圖說明
為了更清楚地說明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例1中字幕生成方法的一個具體示例的流程圖;
圖2為本發(fā)明實(shí)施例2中字幕生成裝置的一個具體示例的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
術(shù)語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。
實(shí)施例1
本實(shí)施例中提供一種字幕生成方法,用于視頻文件中,針對視頻中的語言生成其他語言的字幕,便于用戶欣賞視頻,該方法可用于手機(jī)、電腦等設(shè)備的播放器中。該方法流程圖如圖1所示,包括以下步驟:
S1、抽取音頻信息。
首先,從視頻中提取其中的音頻信息,音頻信息可以從視頻信號中直接提取,也可以通過其他錄音軟件來錄取,形成單獨(dú)的音頻文件。該音頻文件中,包括了一些背景音樂、噪聲以及對話的語音信息,本方案中是針對語音信息進(jìn)行處理。
S2、識別所述音頻信息中的第一語言,生成第一語言文本信息。
該步驟中是獲取音頻信息中的語言信息并識別該語言信息??蛇x地,該步驟可以包括:
首先,提取所述音頻信息中的語音信息,由于人類的語言信息有其自身的特點(diǎn),很容易與音樂背景、噪聲等區(qū)分開,因此通過語音提取的方式,就可以獲得音頻信息中的語音信息。
然后,截取所述語音信息中各個語音段。該步驟中首先獲取所述語音信息的起始位置,根據(jù)該起始位置來截取語音段。由于在視頻文件中的語音信息有多段,每段是一系列聯(lián)系的詞語或語句,因此,首先要獲得各個語音段,然后對這些語音段分別處理。
之后,識別各個語音段中的語音信息,獲得第一語言文本信息。此處采用語音識別的方法來識別各個語音段中的語音信息,可以采用現(xiàn)有技術(shù)中語音識別技術(shù),語音識別技術(shù)也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列等,采用的方式有神經(jīng)網(wǎng)絡(luò)、自適應(yīng)等方法。通過語音識別,可以將語音段中的詞匯信息識別出來,并將其轉(zhuǎn)化為文本的方式,得到第一語言文本信息。
S3、將所述第一語言文本信息轉(zhuǎn)化為第二語言文本信息。
該步驟中,是將視頻中原始使用的第一語言翻譯為第二語言,使用從音頻中識別出的第一語言文本信息作為輸入來進(jìn)行翻譯。將所述第一語言文本信息轉(zhuǎn)化為第二語言文本信息的步驟,包括:
首先,獲取多個翻譯工具。此處的翻譯工具可以是多個版本的翻譯軟件,如有道翻譯軟件、金山詞霸翻譯軟件等,也可以還包括一些網(wǎng)頁翻譯,如谷歌翻譯、百度翻譯等翻譯工具。
然后,使用每個翻譯工具將所述第一語言文本信息翻譯為待定的第二語言文本信息。針對每一段第二語言文本采用每一個翻譯工具翻譯,從而可以得到多個翻譯文本,將這些翻譯文本作為待定的第二語言文本信息。
最后,對所述待定的第二語言文本信息進(jìn)行統(tǒng)計(jì),將出現(xiàn)頻率最高的待定的第二語言文本信息作為翻譯后的第二語言文本信息。
該步驟中統(tǒng)計(jì)所有翻譯后得到的翻譯文本,可以將出現(xiàn)頻率最高的翻譯文本作為第二語言文本信息,或者在統(tǒng)計(jì)時可以通過相似度匹配找到相似度最高的翻譯方式,作為第二語言文本信息;也可以通過聚類的方式,將聚類到一起最多的翻譯文本作為第二語言文本信息。通過在多個翻譯工具的翻譯結(jié)果上尋找最優(yōu)的方式,可以得到優(yōu)選的翻譯結(jié)果。
本實(shí)施例在翻譯得到第二語言過程中,使用多種翻譯工具共同進(jìn)行翻譯,然后選擇其中絕大多數(shù)翻譯相同的翻譯結(jié)果作為第二語言的翻譯方式,從而提高了翻譯精度。
S4、將所述第二語言文本信息加載到對應(yīng)音頻信息的相應(yīng)位置。
該步驟中,結(jié)合原音頻信息對應(yīng)的視頻位置,然后將翻譯后的第二語言文本信息加載到合適的位置,這樣就可以將原音頻信息和其對應(yīng)的翻譯后的文本信息對應(yīng)起來,方便用戶觀看視頻。
本實(shí)施例的上述方法能夠在視頻中自動生成其他語言的字幕,對于沒有所需語言字幕的視頻文件,可以通過該方式生成所需語言的字幕,從而用戶能夠更好的觀看該視頻文件。該方法可自動生成多語言字幕,可以作為手機(jī)等智能設(shè)備播放器的一個附加功能,解決了現(xiàn)有技術(shù)中字幕生成時需要人工翻譯、花費(fèi)較多時間和精力、生成速度慢的缺陷,同時簡化了字幕制作的流程,能夠快速便捷的生成字幕。
作為一種優(yōu)選的實(shí)現(xiàn)方式,在用戶觀看視頻時,用戶還可以對視頻上的字幕標(biāo)注修改建議,本實(shí)施例可以根據(jù)用戶標(biāo)注的修改建議對翻譯后的字幕進(jìn)行優(yōu)化,即對第二語言文本信息進(jìn)行優(yōu)化,步驟具體為:
首先,獲取多個用戶對第二語言文本信息的部分內(nèi)容的修改文本。由于用戶可以標(biāo)注修改文本,因此越多的用戶觀看視頻,提出意見時,便有了更多的參考信息。
然后,將出現(xiàn)頻率最高的修改文本替換所述第二語言文本信息中相應(yīng)內(nèi)容。該過程中,對用戶給出的修改文本進(jìn)行統(tǒng)計(jì)分析,如果針對同一處翻譯后的字幕位置,有多個用戶提出修改文本,且存在多個修改文本相同,則將該出現(xiàn)頻率最高的修改文本認(rèn)為是更加準(zhǔn)確的翻譯,來替換原來的翻譯文本。
該優(yōu)選的實(shí)施方案中,用戶可以針對翻譯后的字幕提出修改建議,當(dāng)修改建議的數(shù)量達(dá)到一定程度,通過統(tǒng)計(jì)的方式將大多數(shù)推薦的翻譯方式替換原來的翻譯文本,從而進(jìn)一步優(yōu)化翻譯結(jié)果,通過眾籌的方式使得翻譯結(jié)果更加準(zhǔn)確。
可選地,本實(shí)施例的第二語言可以是一種語言,也可以是多種語言,因此該方案可以將視頻中的語音信息翻譯成一種或多種語言,通過字幕的方式展示出來。用戶可以自行設(shè)置翻譯語言的數(shù)量以及翻譯成具體哪一種語言,生成針對該語言的翻譯字幕。
實(shí)施例2:
本實(shí)施例中提供一種字幕生成裝置,結(jié)構(gòu)框圖如圖2所示,該裝置可用于手機(jī)、電腦等設(shè)備的播放器中,針對視頻中的語言生成其他語言的字幕,便于用戶欣賞視頻,包括:
音頻抽取單元01,用于抽取音頻信息;
第一語言識別單元02,用于識別所述音頻信息中的第一語言,生成第一語言文本信息;
第二語言轉(zhuǎn)化單元03,用于將所述第一語言文本信息轉(zhuǎn)化為第二語言文本信息;
字幕生成單元04,用于將所述第二語言文本信息加載到對應(yīng)音頻信息的相應(yīng)位置。
該實(shí)施方案中的字幕生成裝置,通過音頻抽取單元01來獲取音頻信息,并通過第一語言識別單元02來生成第一語言文本信息,然后通過第二語言轉(zhuǎn)化單元03來將第一語言文本信息轉(zhuǎn)化為第二語言文本信息,最后通過字幕生成單元04來生成字幕,從而實(shí)現(xiàn)了對字幕的實(shí)時翻譯,用戶能夠更好的觀看該視頻文件。該裝置可自動生成多語言字幕,解決了現(xiàn)有技術(shù)中字幕生成時需要人工翻譯、花費(fèi)較多時間和精力、生成速度慢的缺陷,同時簡化了字幕制作的流程,能夠快速便捷的生成字幕。
作為一種具體的實(shí)施方式,所述第二語言轉(zhuǎn)化單元03包括:翻譯工具選擇子單元,用于獲取多個翻譯工具;翻譯子單元,用于使用每個翻譯工具將所述第一語言文本信息翻譯為待定的第二語言文本信息;翻譯確認(rèn)子單元,用于對所述待定的第二語言文本信息進(jìn)行統(tǒng)計(jì),將出現(xiàn)頻率最高的待定的第二語言文本信息作為翻譯后的第二語言文本信息。該實(shí)施方式中,使用多種翻譯工具共同進(jìn)行翻譯,然后選擇其中絕大多數(shù)翻譯相同的翻譯結(jié)果作為第二語言的翻譯方式,從而提高了翻譯精度。
作為一種具體的實(shí)現(xiàn)方式,所述第一語言識別單元02包括:語音信息提取子單元,用于提取所述音頻信息中的語音信息;語音段獲取子單元,用于截取所述語音信息中各個語音段;語音識別子單元,用于通識別所述各個語音段中的語音信息,獲得第一語言文本信息。通過語音識別,可以將語音段中的詞匯信息識別出來,并將其轉(zhuǎn)化為文本的方式,得到第一語言文本信息。
作為一種優(yōu)選的實(shí)施方案,為了對翻譯的字幕進(jìn)行優(yōu)化,該字幕生成裝置還包括:修改文本獲取子單元,用于獲取多個用戶對第二語言文本信息的部分內(nèi)容的修改建議;優(yōu)化單元,用于將出現(xiàn)頻率最高的修改文本替換所述第二語言文本信息中相應(yīng)內(nèi)容。該優(yōu)化的實(shí)施方案,能夠通過統(tǒng)計(jì)的方式使用大多數(shù)人推薦的翻譯方式替換原來的翻譯文本,從而進(jìn)一步優(yōu)化翻譯結(jié)果,通過眾籌的方式使得翻譯結(jié)果更加準(zhǔn)確。
作為其他的實(shí)施方案,所述第二語言為一種或多種語言,可以將第一語言文本信息翻譯為多種第二語言文本信息,并作為字幕加載上,便于滿足不同用戶的需求。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,上述實(shí)施例僅僅是為清楚地說明所作的舉例,而并非對實(shí)施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。