亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

臺(tái)詞同步字幕的制作方法

文檔序號(hào):8283491閱讀:436來源:國知局
臺(tái)詞同步字幕的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種臺(tái)詞同步字幕的制作方法。
【背景技術(shù)】
[0002] 臺(tái)詞同步字幕的制作過程中,主要存在兩種情況:一是只有音視頻文件,沒有既定 的臺(tái)詞劇本,需要通過人工聽記音視頻中的人物對(duì)話或背景臺(tái)詞得到臺(tái)詞劇本;二是有音 視頻文件和臺(tái)詞劇本。在這兩種情況下,都需要在制作同步字幕。制作同步字幕的關(guān)鍵環(huán)節(jié) 是為臺(tái)詞劇本中的每句臺(tái)詞字幕播放確定準(zhǔn)確的開始和結(jié)束時(shí)間。目前,確定字幕播放的 開始和結(jié)束時(shí)間需要通過人工逐一標(biāo)記的方式,處理效率低,特別是浪費(fèi)時(shí)間和人力資源。 因此,希望能夠設(shè)計(jì)一種自動(dòng)的方法和環(huán)境,產(chǎn)生比較準(zhǔn)確的字幕文件,以盡可能的減少人 工干預(yù)和審校的工作量。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明所要解決的技術(shù)問題是提供一種臺(tái)詞同步字幕的制作方法,快速地生成臺(tái) 詞同步字幕文件,克服現(xiàn)有技術(shù)的效率低缺陷。
[0004] 為解決上述技術(shù)問題,本發(fā)明提供一種臺(tái)詞同步字幕的制作方法,包括如下步 驟:
[0005] I、截取臺(tái)詞的音頻信息,通過自動(dòng)語音識(shí)別產(chǎn)生初始字幕文件,所述初始字幕文 件包括若干字幕段,以及字幕段的開始和結(jié)束時(shí)間;所述字幕段對(duì)應(yīng)一句臺(tái)詞音頻,所述字 幕段的開始和結(jié)束時(shí)間即為對(duì)應(yīng)臺(tái)詞句音頻的起始和結(jié)束時(shí)間;
[0006] II、將臺(tái)詞劇本與所述初始字幕文件進(jìn)行對(duì)照,建立臺(tái)詞劇本中每句臺(tái)詞與初始 字幕文件中字幕段的對(duì)應(yīng)關(guān)系;
[0007] III、根據(jù)臺(tái)詞劇本中的臺(tái)詞句與初始字幕文件中字幕段的對(duì)應(yīng)關(guān)系,用臺(tái)詞劇本 中的臺(tái)詞句生成新的字幕段,并在所述新字幕段上添加該字幕段的開始和結(jié)束時(shí)間,生成 中間字幕文件。
[0008] 更進(jìn)一步的,對(duì)中間字幕文件中不準(zhǔn)確或沒有的對(duì)應(yīng)關(guān)系的臺(tái)詞,進(jìn)行標(biāo)記。以便 后續(xù)有針對(duì)性的進(jìn)行人工處理和審校,得到最終字幕文件。
[0009] 更優(yōu)化的方案是,在所述步驟i之前,包括以下步驟:
[0010] 將臺(tái)詞劇本中的詞進(jìn)行規(guī)范化表示,規(guī)則包括如下:
[0011] 對(duì)數(shù)字用發(fā)音詞替換原詞;
[0012] 對(duì)復(fù)數(shù)詞增加原詞作為候選;
[0013] 具有形態(tài)的詞增加原詞作為候選;
[0014] 具有連接關(guān)系的詞增加各種合并或分離詞作為候選;
[0015] 得到規(guī)范化臺(tái)詞劇本。
[0016] 用規(guī)范化臺(tái)詞劇本替代步驟i中的臺(tái)詞劇本與所述初始字幕文件進(jìn)行對(duì)照。
[0017] 對(duì)于大多數(shù)音視頻來說,語音識(shí)別的結(jié)果錯(cuò)誤率相對(duì)而言比較高,因此很難有相 同的句子出現(xiàn)。句子之間的對(duì)應(yīng)關(guān)系,主要根據(jù)兩個(gè)句子中包含的相同詞和連續(xù)相同詞來 確定。所述將臺(tái)詞劇本與所述初始字幕文件進(jìn)行對(duì)照,建立臺(tái)詞劇本中每句臺(tái)詞與初始字 幕文件中字幕段的對(duì)應(yīng)關(guān)系;包括以下步驟:
[0018] i、逐句讀取臺(tái)詞劇本中的臺(tái)詞句,在所述初始字幕文件中查找與該臺(tái)詞句包含 詞匯相同的相同詞,每個(gè)所述相同詞標(biāo)記有字幕段的序號(hào);建立每個(gè)臺(tái)詞句與所述相同詞 及其字幕段序號(hào)的映射表;
[0019] ii、根據(jù)連續(xù)相同詞的數(shù)量大小進(jìn)行第一次排序;得到具有先后順序的相同詞與 臺(tái)詞句的對(duì)應(yīng)關(guān)系表;
[0020] iii、設(shè)置所述相同詞與臺(tái)詞句的初始的對(duì)應(yīng)關(guān)系集合為空,即:Q,從對(duì)應(yīng)關(guān)系表的 第一個(gè)對(duì)應(yīng)關(guān)系開始,取第一個(gè)對(duì)應(yīng)關(guān)系放入對(duì)應(yīng)關(guān)系集合中,然后,循環(huán)進(jìn)行下列操作:
[0021] ①順序取一個(gè)對(duì)應(yīng)關(guān)系,判斷該對(duì)應(yīng)關(guān)系是否與對(duì)應(yīng)關(guān)系集合中的已有的確認(rèn)對(duì) 應(yīng)關(guān)系沖突,判斷方法為:
[0022] 對(duì)應(yīng)關(guān)系(a)與已有的確認(rèn)對(duì)應(yīng)關(guān)系沖突,是指、滿足如下條件:
【主權(quán)項(xiàng)】
1. 一種臺(tái)詞同步字幕的制作方法,其特征在于,包括如下步驟:
1. 截取臺(tái)詞的音頻信息,通過自動(dòng)語音識(shí)別產(chǎn)生初始字幕文件,所述初始字幕文件包 括若干字幕段,W及字幕段的開始和結(jié)束時(shí)間;所述字幕段對(duì)應(yīng)一句臺(tái)詞音頻,所述字幕段 的開始和結(jié)束時(shí)間即為對(duì)應(yīng)臺(tái)詞句音頻的起始和結(jié)束時(shí)間; II、 將臺(tái)詞劇本與所述初始字幕文件進(jìn)行對(duì)照,建立臺(tái)詞劇本中每句臺(tái)詞與初始字幕 文件中字幕段的對(duì)應(yīng)關(guān)系; III、 根據(jù)臺(tái)詞劇本中的臺(tái)詞句與初始字幕文件中字幕段的對(duì)應(yīng)關(guān)系,用臺(tái)詞劇本中的 臺(tái)詞句生成新的字幕段,并在所述新字幕段上添加該字幕段的開始和結(jié)束時(shí)間,生成中間 字幕文件。
2. 根據(jù)權(quán)利要求1所述的臺(tái)詞同步字幕的制作方法,其特征在于,所述將臺(tái)詞劇本與 所述初始字幕文件進(jìn)行對(duì)照,建立臺(tái)詞劇本中每句臺(tái)詞與初始字幕文件中字幕段的對(duì)應(yīng)關(guān) 系,包括W下步驟: i、 逐句讀取臺(tái)詞劇本中的臺(tái)詞句,在所述初始字幕文件中查找與該臺(tái)詞句包含詞匯 相同的相同詞,每個(gè)所述相同詞標(biāo)記有字幕段的序號(hào);建立每個(gè)臺(tái)詞句與所述相同詞及其 字幕段序號(hào)的映射表; ii、 根據(jù)連續(xù)相同詞的數(shù)量大小進(jìn)行第一次排序,得到具有先后順序的相同詞與臺(tái)詞 句的對(duì)應(yīng)關(guān)系表; iii、 設(shè)置所述相同詞與臺(tái)詞句的初始的對(duì)應(yīng)關(guān)系集合為空,即;Q,從對(duì)應(yīng)關(guān)系表的第一 個(gè)對(duì)應(yīng)關(guān)系開始,取第一個(gè)對(duì)應(yīng)關(guān)系放入對(duì)應(yīng)關(guān)系集合中,然后,循環(huán)進(jìn)行下列操作: ① 順序取一個(gè)對(duì)應(yīng)關(guān)系,判斷該對(duì)應(yīng)關(guān)系是否與對(duì)應(yīng)關(guān)系集合中的已有的確認(rèn)對(duì)應(yīng)關(guān) 系沖突,判斷方法為: 對(duì)應(yīng)關(guān)系(a)與已有的確認(rèn)對(duì)應(yīng)關(guān)系沖突,是指、滿足如下條件:
其中表不臺(tái)詞劇本的臺(tái)詞句序號(hào),表不初始字幕文件的字幕段序號(hào); ② 如果不存在沖突,則確認(rèn)該對(duì)應(yīng)關(guān)系,將該對(duì)應(yīng)關(guān)系加入對(duì)應(yīng)關(guān)系集合中;并在所述 對(duì)應(yīng)關(guān)系表中刪除包含該臺(tái)詞句序號(hào)的其它對(duì)應(yīng)關(guān)系; ⑨如果存在沖突,則直接刪除該對(duì)應(yīng)關(guān)系。
3. 根據(jù)權(quán)利要求2所述的臺(tái)詞同步字幕的制作方法,其特征在于,在所述步驟i之前, 包括W下步驟: 將臺(tái)詞劇本中的詞匯進(jìn)行規(guī)范化表示,規(guī)則包括如下: 對(duì)數(shù)字用發(fā)音詞替換原詞; 對(duì)復(fù)數(shù)詞增加原詞作為候選; 具有形態(tài)的詞增加原詞作為候選; 具有連接關(guān)系的詞增加各種合并或分離詞作為候選; 得到規(guī)范化臺(tái)詞劇本; 用規(guī)范化臺(tái)詞劇本替代步驟i中的臺(tái)詞劇本。
4. 根據(jù)權(quán)利要求2所述的臺(tái)詞同步字幕的制作方法,其特征在于,在步驟ii中,如果連 續(xù)相同部分單詞數(shù)量相同,則按長度進(jìn)行二次排序。
5. 根據(jù)權(quán)利要求2所述的臺(tái)詞同步字幕的制作方法,其特征在于,所述生成中間字幕 文件,包括W下步驟: 根據(jù)得到的對(duì)應(yīng)關(guān)系集合,檢查臺(tái)詞劇本中的相鄰序號(hào)的臺(tái)詞句是否對(duì)應(yīng)到同一個(gè)初 始字幕段序號(hào),如果相同,則將該相鄰序號(hào)的臺(tái)詞句合并,然后將該初始字幕段的起止時(shí)間 設(shè)置合并后的字幕段的起止時(shí)間;否則,直接取該初始字幕段序號(hào)的開始和結(jié)束時(shí)間作為 新字幕段的開始和結(jié)束時(shí)間; 對(duì)每個(gè)設(shè)置開始和結(jié)束時(shí)間的新字幕段進(jìn)行序號(hào)設(shè)置,得到中間字幕文件。
6. 根據(jù)權(quán)利要求1至5之一所述的臺(tái)詞同步字幕的制作方法,其特征在于,所述對(duì)中間 字幕文件中不準(zhǔn)確或沒有的對(duì)應(yīng)關(guān)系的臺(tái)詞,進(jìn)行標(biāo)記;經(jīng)后續(xù)有針對(duì)性的人工處理和審 校,得到最終字幕文件。
【專利摘要】本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,公開了一種臺(tái)詞同步字幕的制作方法,包括步驟:I、截取臺(tái)詞的音頻信息,通過自動(dòng)語音識(shí)別產(chǎn)生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的開始和結(jié)束時(shí)間;Ⅱ、將臺(tái)詞劇本與所述初始字幕文件進(jìn)行對(duì)照,建立臺(tái)詞劇本中每句臺(tái)詞與初始字幕文件中字幕段的對(duì)應(yīng)關(guān)系;Ⅲ、用臺(tái)詞劇本中的臺(tái)詞句生成新的字幕段,并在所述新字幕段上添加該字幕段的開始和結(jié)束時(shí)間,生成中間字幕文件。本發(fā)明能自動(dòng)確定絕大部分臺(tái)詞字幕段的開始和結(jié)束時(shí)間,減少了人力資源代價(jià),臺(tái)詞字母的準(zhǔn)確度高,極大提高了視頻字幕制作的效率。
【IPC分類】G11B27-10
【公開號(hào)】CN104599693
【申請(qǐng)?zhí)枴緾N201510046064
【發(fā)明人】杜南山, 江潮
【申請(qǐng)人】語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司
【公開日】2015年5月6日
【申請(qǐng)日】2015年1月29日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1