亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法

文檔序號(hào):7552419閱讀:300來(lái)源:國(guó)知局
專利名稱:實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法。
背景技術(shù)
視頻碎片化是一個(gè)近年來(lái)才逐漸發(fā)展的技術(shù)。國(guó)內(nèi)各大以視頻播放、視頻分享為主的網(wǎng)站推出了視頻碎片化分享的功能,即用戶可以使用網(wǎng)站提供的工具從一個(gè)視頻文件中截取想要分享的視頻片段并將其分享,但也僅限于此。例如文獻(xiàn)CN102185880A公開(kāi)了一種視頻直播負(fù)載均衡方法和系統(tǒng),終端向根服務(wù)器發(fā)出播放視頻碎片文件的請(qǐng)求;根服務(wù)器接收終端發(fā)出的播放視頻碎片文件的請(qǐng)求,查找與終端最近的邊際服務(wù)器地址,重定向終端的連接地址為邊際服務(wù)器地址;終端向邊際服務(wù)器請(qǐng)求視頻碎片文件;如果邊際服務(wù)器存有視頻碎片文件,則邊際服務(wù)器將視頻碎片文件返回給終端;如果邊際服務(wù)器沒(méi)有視頻碎片文件,則向邊際服務(wù)器登記的直播源服務(wù)器請(qǐng)求視頻碎片文件,直播源服務(wù)器將視頻碎片文件返回給終端。而國(guó)外的viki等網(wǎng)站雖已有字幕在線翻譯功能,但其翻譯過(guò)程中,音視頻文件并未進(jìn)行碎片化,翻譯人員在線翻譯時(shí)便捷性不夠好。對(duì)于翻譯領(lǐng)域來(lái)說(shuō),一個(gè)較長(zhǎng)的音視頻文件需要多名不同語(yǔ)種的翻譯人員專心致志耗費(fèi)較長(zhǎng)的時(shí)間,視頻碎片化可以更加有效利用翻譯人員的碎片化時(shí)間,加快音視頻文件字幕翻譯的進(jìn)度,且同一個(gè)視頻片段可以汲取多名翻譯人員的翻譯建議,提升翻譯質(zhì)量。此時(shí),如何實(shí)現(xiàn)系統(tǒng)自動(dòng)合理地將音視頻文件碎片化成為了一個(gè)技術(shù)瓶頸。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是現(xiàn)有技術(shù)存在字幕翻譯只能由字幕組獨(dú)立完成,無(wú)法實(shí)現(xiàn)多人協(xié)同翻譯,且翻譯成本大,翻譯速度慢,而且存在翻譯完成人與發(fā)包人間著作權(quán)的問(wèn)題,提供一種新的實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法。該方法能夠自動(dòng)合理地將音視頻文件碎片化并生成相應(yīng)的音視頻碎片文件,實(shí)現(xiàn)在最短時(shí)間內(nèi),以最低的成本,完成最佳的多語(yǔ)種字幕翻譯。為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案如下:一種實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,包括以下步驟:I)根據(jù)音視頻文件的原始字幕或語(yǔ)音屬性將其按時(shí)間維度分解成多個(gè)音視頻碎片文件;2)音視頻碎片文件分發(fā)至SNS社區(qū);所述SNS為社會(huì)性網(wǎng)絡(luò)服務(wù);3) SNS社區(qū)用戶針對(duì)一個(gè)或多個(gè)音視頻碎片文件進(jìn)行多語(yǔ)翻譯;4)選取各音視頻碎片文件各語(yǔ)種最佳的翻譯內(nèi)容,并整合成為該語(yǔ)種相應(yīng)的翻譯字幕。上述技術(shù)方案中,優(yōu)選地,所述步驟I)具體包括以下過(guò)程:11)按音視頻文件的原始字幕進(jìn)行解析,或按音視頻文件的語(yǔ)音屬性進(jìn)行解析;12)對(duì)解析完成的音視頻文件進(jìn)行分解碎片化并生成音視頻碎片文件。
上述技術(shù)方案中,優(yōu)選地,所述步驟2)至步驟4)的碎片化文件發(fā)布及生成翻譯視頻具體包括以下過(guò)程:22)將已碎片化的音視頻碎片文件發(fā)布至SNS社區(qū);33) SNS社區(qū)用戶對(duì)自己感興趣的片段進(jìn)行翻譯;44)后臺(tái)人員收集每段音視頻片段的各語(yǔ)種的最佳翻譯,并將同一語(yǔ)種的各碎片最佳翻譯整合生成該語(yǔ)種字幕文件。上述技術(shù)方案中,優(yōu)選地,所述按時(shí)間維度分解包括以進(jìn)入連續(xù)語(yǔ)音段之前的靜音段或非語(yǔ)音段的時(shí)間點(diǎn)作為句子的開(kāi)始時(shí)間,以結(jié)束連續(xù)語(yǔ)音段時(shí)的最后一個(gè)語(yǔ)音段的時(shí)間點(diǎn)作為句子的結(jié)束時(shí)間。上述技術(shù)方案中,優(yōu)選地,所述按時(shí)間維度分解包括將包含2個(gè)靜音段或非語(yǔ)音段的音頻段設(shè)為停頓最小長(zhǎng)度。上述技術(shù)方案中,優(yōu)選地,所述按時(shí)間維度分解包括將包含5個(gè)語(yǔ)音段的音頻段設(shè)為句子最小長(zhǎng)度。上述技術(shù)方案中,優(yōu)選地,所述按時(shí)間維度分解包括將包含30個(gè)語(yǔ)音段的音頻段設(shè)為句子最大長(zhǎng)度。上述技術(shù)方案中,優(yōu)選地,所述按音視頻文件的原始字幕進(jìn)行解析包括:判斷原始字幕文件是否為文本字幕格式,如果是,則解析字幕文件;否則,將字幕文件轉(zhuǎn)化為文本字格式后再解析字幕文件。上述技術(shù)方案中,優(yōu)選地,所述按音視頻文件的語(yǔ)音屬性進(jìn)行解析包括:判斷視頻文件不含原始字幕后將視頻文件中的音頻部分進(jìn)行剝離生成音頻文件,然后解析音頻文件。上述技術(shù)方案中,優(yōu)選地,所述按音視頻文件的語(yǔ)音屬性進(jìn)行解析包括根據(jù)音頻文件中的不同場(chǎng)景,區(qū)分開(kāi)對(duì)話聲音和其他聲音的語(yǔ)音識(shí)別過(guò)程。本發(fā)明將碎片化技術(shù)應(yīng)用于多語(yǔ)字幕的翻譯中,采用原始字幕解析方法與語(yǔ)音分析方法相結(jié)合的方式對(duì)音視頻文件進(jìn)行解析和碎片化。具體來(lái)說(shuō),針對(duì)有原始字幕的音視頻文件,剝離字幕文件并對(duì)其進(jìn)行解析,根據(jù)字幕文件解析結(jié)果對(duì)音視頻文件進(jìn)行碎片化分割;針對(duì)無(wú)原始字幕的音視頻文件,需要?jiǎng)冸x視頻文件中聲音部分生成音頻文件進(jìn)行分析(音頻文件則直接進(jìn)行分析),分析音頻文件后,系統(tǒng)得出音視頻文件中的各片段時(shí)間點(diǎn),并據(jù)此對(duì)其進(jìn)行碎片化分割生成碎片文件。采用本發(fā)明方法,能夠自動(dòng)合理地將音視頻文件碎片化并生成相應(yīng)的音視頻碎片文件,實(shí)現(xiàn)在最短時(shí)間內(nèi),以最低的成本,完成最佳的多語(yǔ)種字幕翻譯,取得了較好的技術(shù)效果。


圖1為本發(fā)明的基于音視頻碎片化技術(shù)的多語(yǔ)字幕翻譯實(shí)現(xiàn)方法流程示意圖。圖2為本發(fā)明的音視頻文件碎片化示意圖。為使本發(fā)明的目的、技術(shù)方案及效果更加清楚、明確,以下對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。應(yīng)該理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。圖1為本發(fā)明的一種基于音視頻碎片化技術(shù)的多語(yǔ)字幕翻譯實(shí)現(xiàn)方法流程示意圖,如圖所示,所述方法采用以下步驟:
I)用戶上傳音視頻文件;2)按音視頻文件的原始字幕或按音視頻文件的語(yǔ)音屬性進(jìn)行解析,并對(duì)解析完成的音視頻文件進(jìn)行分解碎片化并生成音視頻碎片文件;3)音視頻碎片文件分發(fā)至SNS社區(qū);4) SNS社區(qū)用戶參與音視頻碎片文件的翻譯,即針對(duì)一個(gè)或多個(gè)音視頻碎片文件進(jìn)行多語(yǔ)翻譯;5)選取各碎片文件各語(yǔ)種最佳的翻譯內(nèi)容;6)整合碎片化翻譯內(nèi)容,生成各語(yǔ)種的字幕。其中,上述對(duì)音視頻字幕文件解析及碎片化過(guò)程包括:將絕大多數(shù)已知的字幕文件轉(zhuǎn)換成srt字幕文件,對(duì)其進(jìn)行解析;另外,對(duì)不含字幕的音視頻文件根據(jù)從視頻文件中提取的音頻文件中的不同場(chǎng)景,區(qū)分開(kāi)對(duì)話聲音和其他聲音,進(jìn)行基于特定的語(yǔ)音分析,并據(jù)此得出音視頻文件碎片化分割方案。比如可以根據(jù)不同的說(shuō)話人各自獨(dú)有的發(fā)音特點(diǎn)進(jìn)行基于特定人的語(yǔ)音識(shí)別,并據(jù)此得出音視頻文件碎片化分割方案。上述方法中按時(shí)間維度將音視頻文件分解成多個(gè)音視頻碎片文件過(guò)程中,為有效實(shí)現(xiàn)對(duì)句子長(zhǎng)短和數(shù)目的有效控制,避免會(huì)造成很多極短的句子或出現(xiàn)若干長(zhǎng)句情況,在采用時(shí)間維度進(jìn)行分解的同時(shí)分別對(duì)停頓最小長(zhǎng)度、句子最小長(zhǎng)度和句子最大長(zhǎng)度加以限制。限制停頓最小長(zhǎng)度的作用是忽略較短的伴音信息,比如說(shuō)話人的瞬時(shí)換氣等,以保證一句話的完整性。在實(shí)際應(yīng)用中,設(shè)定2個(gè)音頻段為最小停頓長(zhǎng)度,即連續(xù)語(yǔ)音單元中的單個(gè)非語(yǔ)音單元不會(huì)被視為一個(gè)停頓。句子最小長(zhǎng)度限制的作用是濾除掉音頻的短時(shí)無(wú)效消息,比如說(shuō)話人的咳嗽等,在實(shí)際應(yīng)用中,設(shè)定5個(gè)音頻段為句子最小長(zhǎng)度。句子最大長(zhǎng)度限制的作用是避免句子單元過(guò)長(zhǎng),采用該方法盡快使句子結(jié)束,在實(shí)際應(yīng)用中,設(shè)定30個(gè)音頻段為句子最大長(zhǎng)度。上述方法中生成各語(yǔ)種的字幕在顯示時(shí),為方便觀眾觀看字幕,可將結(jié)果中較長(zhǎng)的句子分為多行顯示。圖2為本發(fā)明的音視頻文件碎片化示意圖,如圖所示,包括以下過(guò)程:I)用戶上傳音視頻文件;2)對(duì)音視頻文件進(jìn)行分析;3)判斷音視頻文件是否含有原始字幕;4)如果音視頻文件含有原始字幕,則進(jìn)一步判斷音視頻文件是否為srt格式;否貝U,將視頻文件中的音頻部分進(jìn)行剝離,生成音頻文件;5)如果含有原始字幕的音視頻文件為srt格式,則按音視頻文件的原始字幕進(jìn)行解析;否則將含有原始字幕的音視頻文件轉(zhuǎn)換為srt格式,然后再按音視頻文件的原始字幕進(jìn)行解析;6)對(duì)將視頻文件中的音頻部分進(jìn)行剝離所得的音頻文件按音視頻文件的語(yǔ)音屬性進(jìn)行解析;7)根據(jù)解析完成的音視頻文件屬性選擇合適的生成音視頻文件碎片化分割方案;8)根據(jù)音視頻文件碎片化分割方案生成音視頻文件碎片文件。上述對(duì)音視頻文件進(jìn)行碎片化的過(guò)程包括對(duì)視頻文件中提取的音頻流通過(guò)音頻分類區(qū)分出音頻中語(yǔ)音部分和非語(yǔ)音部分,將不含說(shuō)話內(nèi)容的飛語(yǔ)音部分分離出去,并將語(yǔ)音部分切分成若干“類句子”單元。對(duì)于音頻分類系統(tǒng)可在高斯混合模型(GaussianMixtureModel, GMM)、K-近鄰(K-Nearest Neighbor, KNN)或支持矢量機(jī)(Support VectorMachine, SVM)之間進(jìn)行分類器選擇,可以設(shè)置諸如幀長(zhǎng)、段長(zhǎng)等配置參數(shù)。下面通過(guò)實(shí)施例對(duì)本發(fā)明作進(jìn)一步的闡述。
具體實(shí)施例方式實(shí)施例1參照?qǐng)D1和圖2所述的方法,采用如下的部分核心代碼:
權(quán)利要求
1.一種實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,包括以下步驟: 1)根據(jù)音視頻文件的原始字幕或語(yǔ)音屬性將其按時(shí)間維度分解成多個(gè)音視頻碎片文件; 2)音視頻碎片文件分發(fā)至SNS社區(qū);所述SNS為社會(huì)性網(wǎng)絡(luò)服務(wù); 3)SNS社區(qū)用戶針對(duì)一個(gè)或多個(gè)音視頻碎片文件進(jìn)行多語(yǔ)翻譯; 4)選取各音視頻碎片文件各語(yǔ)種最佳的翻譯內(nèi)容,并整合成為該語(yǔ)種相應(yīng)的翻譯字眷。
2.根據(jù)權(quán)利要求1所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述步驟I)具體包括以下過(guò)程: 11)按音視頻文件的原始字幕進(jìn)行解析,或按音視頻文件的語(yǔ)音屬性進(jìn)行解析; 12)對(duì)解析完成的音視頻文件進(jìn)行分解碎片化并生成音視頻碎片文件。
3.根據(jù)權(quán)利要求1所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述步驟2)至步驟4)的碎片化文件發(fā)布及生成翻譯視頻具體包括以下過(guò)程: 22)將已碎片化的音視頻碎片文件發(fā)布至SNS社區(qū); 33) SNS社區(qū)用戶對(duì)自己感興趣的片段進(jìn)行翻譯; 44)后臺(tái)人員收集每段音視頻片段的各語(yǔ)種的最佳翻譯,并將同一語(yǔ)種的各碎片最佳翻譯整合生成該語(yǔ)種字幕文件。
4.根據(jù)權(quán)利要求1所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述按時(shí)間維度分解包括以進(jìn)入連續(xù)語(yǔ)音段之前的靜音段或非語(yǔ)音段的時(shí)間點(diǎn)作為句子的開(kāi)始時(shí)間,以結(jié)束連續(xù)語(yǔ)音段時(shí)的最后一個(gè)語(yǔ)音段的時(shí)間點(diǎn)作為句子的結(jié)束時(shí)間。
5.根據(jù)權(quán)利要求1所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述按時(shí)間維度分解包括將包含2個(gè)靜音段或非語(yǔ)音段的音頻段設(shè)為停頓最小長(zhǎng)度。
6.根據(jù)權(quán)利要求1所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述按時(shí)間維度分解包括將包含5個(gè)語(yǔ)音段的音頻段設(shè)為句子最小長(zhǎng)度。
7.根據(jù)權(quán)利要求1所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述按時(shí)間維度分解包括將包含30個(gè)語(yǔ)音段的音頻段設(shè)為句子最大長(zhǎng)度。
8.根據(jù)權(quán)利要求2所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述按音視頻文件的原始字幕進(jìn)行解析包括:判斷原始字幕文件是否為文本字幕格式,如果是,則解析字幕文件;否則,將字幕文件轉(zhuǎn)化為文本字格式后再解析字幕文件。
9.根據(jù)權(quán)利要求2所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述按音視頻文件的語(yǔ)音屬性進(jìn)行解析包括:判斷視頻文件不含原始字幕后將視頻文件中的音頻部分進(jìn)行剝離生成音頻文件,然后解析音頻文件。
10.根據(jù)權(quán)利要求2所述實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,其特征在于所述按音視頻文件的語(yǔ)音屬性進(jìn)行解析包括根據(jù)音頻文件中的不同場(chǎng)景,區(qū)分開(kāi)對(duì)話聲音和其他聲音的語(yǔ)音識(shí)別過(guò)程。
全文摘要
本發(fā)明涉及一種實(shí)現(xiàn)多語(yǔ)字幕翻譯的方法,主要解決現(xiàn)有技術(shù)存在字幕翻譯只能由字幕組獨(dú)立完成,無(wú)法實(shí)現(xiàn)多人協(xié)同翻譯,且翻譯成本大,翻譯速度慢,而且存在翻譯完成人與發(fā)包人間著作權(quán)的問(wèn)題。本發(fā)明通過(guò)采用包括以下步驟1)根據(jù)音視頻文件的原始字幕或語(yǔ)音屬性將其按時(shí)間維度分解成多個(gè)音視頻碎片文件;2)音視頻碎片文件分發(fā)至SNS社區(qū);3)SNS社區(qū)用戶針對(duì)一個(gè)或多個(gè)音視頻碎片文件進(jìn)行多語(yǔ)翻譯;4)選取各音視頻碎片文件各語(yǔ)種最佳的翻譯內(nèi)容,并整合成為該語(yǔ)種相應(yīng)的翻譯字幕的技術(shù)方案較好地解決了該問(wèn)題,可用于實(shí)現(xiàn)多語(yǔ)字幕翻譯。
文檔編號(hào)H04N21/845GK103167360SQ20131005580
公開(kāi)日2013年6月19日 申請(qǐng)日期2013年2月21日 優(yōu)先權(quán)日2013年2月21日
發(fā)明者于洋, 林國(guó)夫, 張偉 申請(qǐng)人:中國(guó)對(duì)外翻譯出版有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1