本發(fā)明屬于計算機技術(shù)領(lǐng)域,尤其涉及一種字幕對準方法及裝置。
背景技術(shù):
多媒體中使用的媒體包括文字、圖片、音頻(包含音樂、語音旁白、特殊音效)、視頻(動畫和影片等),在多媒體制作過程中,可在如圖片、音頻、視頻等播放界面添加字幕,使得在多媒體播放時顯示字幕。傳統(tǒng)方式使用手拍字幕,通過手動方式確定字幕在時間軸上的起止位置,時間軸上標識句的起止位置,如100句則需要手動輸入200次,效率低下,無法適應高精度要求的字幕顯示。現(xiàn)有技術(shù)中使用軟件確定字幕在時間軸上起止位置,但是以句切分,且在出現(xiàn)有多人語音時,無法進一步精確對準字幕,出現(xiàn)將多人語音按噪音處理的現(xiàn)象,字幕校準的精準度低。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種字幕校準方法及裝置,旨在解決由于現(xiàn)有技術(shù)中使用軟件校準以句切分,無法進一步精確對準字幕,導致字幕校準精度低的問題。
一方面,本發(fā)明提供了一種字幕校準方法,所述方法包括下述步驟:
獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù);
對所述音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間,根據(jù)所述語音區(qū)間生成帶時間軸的第一字幕,并對所述音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息;
依據(jù)所述初始字幕數(shù)據(jù)和/或所述轉(zhuǎn)換文本信息對所述帶時間軸的第一字幕進行校準,依據(jù)所述校準結(jié)果生成帶時間軸的第二字幕。
另一方面,本發(fā)明提供了一種字幕校準裝置,所述裝置包括:
獲取模塊,用于獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù);
識別模塊,用于對所述獲取模塊獲取的音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間,根據(jù)所述語音區(qū)間生成帶時間軸的第一字幕,并對所述音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息;
校準模塊,用于依據(jù)所述獲取模塊獲取的初始字幕數(shù)據(jù)和/或所述識別模塊得到的轉(zhuǎn)換文本信息對所述帶時間軸的第一字幕進行校準,依據(jù)所述校準結(jié)果生成帶時間軸的第二字幕。
在本發(fā)明實施例中,可獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù),對音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間,根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息,依據(jù)初始字幕數(shù)據(jù)和/或轉(zhuǎn)換文本信息對帶時間軸的第一字幕進行校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。通過本發(fā)明實施例,對音視頻數(shù)據(jù),可字幕自動對位生成時間軸,并根據(jù)語音識別進行再次校準,可對不同音色的語音進行校準,大大提高了字幕校準的精準度。
附圖說明
圖1是本發(fā)明實施例一提供的字幕對準方法的實現(xiàn)流程圖;
圖2是本發(fā)明實施例二提供的字幕對準方法的實現(xiàn)流程圖;
圖3是本發(fā)明實施例三提供的字幕對準方法的實現(xiàn)流程圖;
圖4是本發(fā)明實施例四提供的字幕對準方法的示意圖;
圖5是本發(fā)明實施例五提供的字幕對準裝置的結(jié)構(gòu)圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明實施例中的字幕校準方法可應用于計算機領(lǐng)域中的多媒體字幕制作,在多媒體制作過程中,如可在圖片、音頻、視頻的播放界面添加字幕,使得在多媒體播放時顯示字幕。本發(fā)明實施例實現(xiàn)對音視頻數(shù)據(jù),字幕自動對位生成時間軸,并根據(jù)語音識別進行再次校準,可對不同音色的語音進行校準,大大提高了字幕校準的精準度。本發(fā)明實施例中的裝置可運行于計算機終端設(shè)備中,如用于制作字幕的電腦、服務器等,本發(fā)明實施例中的字幕校準例如電子書制作中的字幕校準、視頻制作中的字幕校準、電子教輔制作中的字幕校準等,還可以包括語音制作中的字幕校準等,具體不受本發(fā)明實施例的限制。
以下結(jié)合具體實施例對本發(fā)明的具體實現(xiàn)進行詳細描述:
實施例一:
圖1示出了本發(fā)明實施例一提供的字幕校準方法的實現(xiàn)流程,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分,詳述如下:
S101,獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù)。
作為一種可選的實施方式,獲取音視頻數(shù)據(jù)和該音視頻數(shù)據(jù)對應的初始字幕數(shù)據(jù),其中,音視頻數(shù)據(jù)可以包括音頻數(shù)據(jù),視頻數(shù)據(jù),初始字幕數(shù)據(jù)可以為原始的字幕底稿,包含字幕文字,進一步的,可包含文字和標點等。
S102,對音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間,根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息。
作為一種可選的實施方式,對音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間。具體實現(xiàn)中可計算音視頻數(shù)據(jù)的能量和過零率,由計算結(jié)果確定所述語音區(qū)間;其中,語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。進一步的,短時過零率為單位時間內(nèi)過零發(fā)生的次數(shù),設(shè)為Zn,為避免虛假的過零,提高過零率計算的魯棒性,引入門限|T|,則Zn為:
短時能量:
獲取到預設(shè)的能量閾值和過零率閾值,其中,能量閾值包括最低能量閾值和最高能量閾值,計算音視頻數(shù)據(jù)的短時能量和短時過零率,并判斷計算結(jié)果是否大于最低能量閾值或大于過零率閾值,若是,則確認是語音信號的起始點,若計算結(jié)果大于最高能量閾值,則確認為正常的語音信號,若該語音信號持續(xù)一段時間,則確認落入有聲區(qū)間。
進一步的,還可識別音色,進而確定不同音色的語音區(qū)間。具體實現(xiàn)中,識別音視頻數(shù)據(jù)中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕,帶時間軸的第一字幕包括音色標識對應的字幕。
進一步可選的,對包含多重字幕的情況,通過本發(fā)明實施例中對音色進行識別,可將不同音色對應不同字幕,生成多個帶時間軸的字幕。
進一步實現(xiàn)中,可根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息。確定不同音色對應的語音區(qū)間后,由語音區(qū)間生成帶時間軸的第一字幕。進一步的,對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換,與語音庫中的文本進行匹配,將音視頻數(shù)據(jù)中的語音轉(zhuǎn)換為文本信息。
S103,依據(jù)初始字幕數(shù)據(jù)和/或轉(zhuǎn)換文本信息對帶時間軸的第一字幕進行校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。
作為一種可選的實施方式,依據(jù)初始字幕數(shù)據(jù)和/或轉(zhuǎn)換文本信息對帶時間軸的第一字幕進行校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。具體實現(xiàn)中,包括:
將初始字幕數(shù)據(jù)與帶時間軸的第一字幕進行語音區(qū)間的校準;和/或
將初始字幕數(shù)據(jù)與轉(zhuǎn)換文本信息比對,依據(jù)比對結(jié)果與帶時間軸的第一字幕進行字與字的校準。
具體實現(xiàn)中,可實現(xiàn)對音色的語音區(qū)間的校準,還可實現(xiàn)對語音區(qū)間的字與字的校準,還可實現(xiàn)音色的語音區(qū)間以及語音區(qū)間的字與字的校準,具體不受本發(fā)明實施例的限制。
進一步的,將初始字幕數(shù)據(jù)與步驟S102中得到的帶時間軸的第一字幕進行比較,主要是語音區(qū)間的校準。具體實現(xiàn)中,播放帶時間軸的第一字幕,對第一字幕進行復讀,依據(jù)復讀的語音波形進行第一字幕與初始字幕數(shù)據(jù)的校對。
更進一步的,還可以將初始字幕數(shù)據(jù)與轉(zhuǎn)換文本信息進行比對,依據(jù)比對結(jié)果對帶時間軸的第一字幕進行字與字的校準,具體實現(xiàn)中,可先模糊匹配語音區(qū)間的字數(shù)、關(guān)鍵字、相近字、相似詞等,在匹配出現(xiàn)不一致時再次對該語音區(qū)間的進行語音識別,然后再一次進行字與字的匹配和校準。進一步,可預設(shè)模糊搜索范圍,設(shè)為局部搜索,如可設(shè)為在當前一句話的前后某個停頓或時間值。
在匹配準確率低于預設(shè)準確率時,則對再次進行語音識別和校準,直到滿足預設(shè)準確率時,輸出帶時間軸的第二字幕,最為該音視頻數(shù)據(jù)的最終匹配字幕。其中,預設(shè)準確率如可設(shè)為90%、95%等。
進一步可選的,在步驟S103之后,本發(fā)明實施例提供的字幕校準方法還可以包括步驟:
在接收到對帶時間軸的第二字幕的修改反饋信息時,標識修改反饋對應的語音區(qū)間,并進行自修正。
具體實現(xiàn)中,生成的帶時間軸的第二字幕在使用過程中,在檢測到不準確的字幕校準時,可點擊該不準確之處,并觸發(fā)修改反饋,系統(tǒng)接收到對帶時間軸的第二字幕的修改反饋信息后,標識該修改反饋對應的語音區(qū)間,并進行自修正,具體的,再次對該區(qū)間的語音進行語音識別,進行字與字的校準,修正后更新帶時間軸的第二字幕。使得本發(fā)明實施例的字幕校準方法具備自學習功能。
本發(fā)明實施例提供一種字幕校準方法,可獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù),對音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間,根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息,依據(jù)初始字幕數(shù)據(jù)和/或轉(zhuǎn)換文本信息對帶時間軸的第一字幕進行校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。通過本發(fā)明實施例,對音視頻數(shù)據(jù),字幕自動對位生成時間軸,并根據(jù)語音識別進行再次校準,可對不同音色的語音進行校準,適用于至少一種音色的語音的字幕校準,適用于至少一重字幕的校準,還可對字幕校準進行自修正,大大提高了字幕校準的精準度和適用范圍。
實施例二:
圖2示出了本發(fā)明實施例二提供的字幕校準方法的實現(xiàn)流程圖,為根據(jù)音色進行語音區(qū)間的校準的流程示意圖,包括步驟S201~S205,詳述如下:
S201,輸入音視頻數(shù)據(jù)和初始字幕數(shù)據(jù)。
作為一種可選的實施方式,輸入音視頻數(shù)據(jù)和該音視頻數(shù)據(jù)對應的初始字幕數(shù)據(jù),其中,音視頻數(shù)據(jù)可以包括音頻數(shù)據(jù),視頻數(shù)據(jù),初始字幕數(shù)據(jù)可以為原始的字幕底稿,包含字幕文字,進一步的,可包含文字和標點等。
S202,計算音視頻數(shù)據(jù)的能量和過零率,由計算結(jié)果確定語音區(qū)間。
作為一種可選的實施方式,可計算音視頻數(shù)據(jù)的能量和過零率,由計算結(jié)果確定所述語音區(qū)間;其中,語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。獲取到預設(shè)的能量閾值和過零率閾值,其中,能量閾值包括最低能量閾值和最高能量閾值,計算音視頻數(shù)據(jù)的短時能量和短時過零率,并判斷計算結(jié)果是否大于最低能量閾值或大于過零率閾值,若是,則確認是語音信號的起始點,若計算結(jié)果大于最高能量閾值,則確認為正常的語音信號,若該語音信號持續(xù)一段時間,則確認落入有聲區(qū)間。
S203,識別音視頻數(shù)據(jù)中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕。
作為一種可選的實施方式,對音視頻數(shù)據(jù)進行語音識別,識別不同的音色,并對不同音色進行標識,進而識別音視頻數(shù)據(jù)中包含的音色標識,并識別該音色標識對應的語音區(qū)間,生成該音色標識對應的字幕,生成的字幕帶時間軸。
S204,將初始字幕數(shù)據(jù)與音色標識對應的字幕進行語音區(qū)間的校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。
作為一種可選的實施方式,將初始字幕數(shù)據(jù)與步驟S203中生成的音色標識對應的字幕進行比較,主要是語音區(qū)間的校準。具體實現(xiàn)中,播放帶時間軸的音色標識對應的字幕,對字幕進行復讀,依據(jù)復讀的語音波形進行字幕與初始字幕數(shù)據(jù)的校對。進一步的,對應包含多個音色標識的字幕,則初始字幕數(shù)據(jù)中對應多個字幕,在進行校準時,依據(jù)語音區(qū)間每個音色出現(xiàn)的先后順序匹配音色標識對應初始字幕數(shù)據(jù)中具體的字幕。進一步的,依據(jù)校準結(jié)果生成帶時間軸的第二字幕,第二字幕為已進行音色標識和語音區(qū)間校準的帶時間軸的字幕。
S205,對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息,依據(jù)轉(zhuǎn)換文本信息對帶時間軸的第二字幕校準,依據(jù)校準結(jié)果更新第二字幕的時間軸。
作為一種可選的實施方式,在步驟S204中已生成完成音色標識對應的語音區(qū)間的校準的第二字幕,本步驟中,繼續(xù)對第二字幕進行校準,具體的,對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息,可先模糊匹配語音區(qū)間的字數(shù)、關(guān)鍵字、相近字、相似詞等,在匹配出現(xiàn)不一致時再次對該語音區(qū)間的進行語音識別,然后再一次進行字與字的匹配和校準。進一步,可預設(shè)模糊搜索范圍,設(shè)為局部搜索,如可設(shè)為在當前一句話的前后某個停頓或時間值。
在匹配準確率低于預設(shè)準確率時,則對再次進行語音識別和校準,直到滿足預設(shè)準確率時,依據(jù)校準結(jié)果更新帶時間軸的第二字幕,得到該音視頻數(shù)據(jù)的最終匹配字幕。其中,預設(shè)準確率如可設(shè)為90%、95%等。
本發(fā)明實施例提供一種字幕校準方法,輸入音視頻數(shù)據(jù)和初始字幕數(shù)據(jù),計算音視頻數(shù)據(jù)的能量和過零率,由計算結(jié)果確定語音區(qū)間,識別音視頻數(shù)據(jù)中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕,將初始字幕數(shù)據(jù)與音色標識對應的字幕進行語音區(qū)間的校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕,對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息,依據(jù)轉(zhuǎn)換文本信息對帶時間軸的第二字幕校準,依據(jù)校準結(jié)果更新第二字幕的時間軸。通過本發(fā)明實施例,對音視頻數(shù)據(jù),可字幕自動對位生成時間軸,并根據(jù)語音識別進行再次校準,可對不同音色的語音進行校準,適用于至少一種音色的語音的字幕校準,適用于至少一重字幕的校準,還可對字幕校準結(jié)果再次進行語音識別模糊匹配,進一步進行自修正,大大提高了字幕校準的精準度和適用范圍。
實施例三:
圖3示出了本發(fā)明實施例三提供的字幕校準方法的實現(xiàn)流程圖,為根據(jù)語音識別對音視頻的字幕進行字與字的校準的流程示意圖,包括步驟S301~S304,詳述如下:
S301,輸入音視頻數(shù)據(jù)和初始字幕數(shù)據(jù)。
作為一種可選的實施方式,輸入音視頻數(shù)據(jù)和該音視頻數(shù)據(jù)對應的初始字幕數(shù)據(jù),其中,音視頻數(shù)據(jù)可以包括音頻數(shù)據(jù),視頻數(shù)據(jù),初始字幕數(shù)據(jù)可以為原始的字幕底稿,包含字幕文字,進一步的,可包含文字和標點等。
S302,計算音視頻數(shù)據(jù)的能量和過零率,由計算結(jié)果確定語音區(qū)間。
作為一種可選的實施方式,可計算音視頻數(shù)據(jù)的能量和過零率,由計算結(jié)果確定語音區(qū)間;其中,語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。獲取到預設(shè)的能量閾值和過零率閾值,其中,能量閾值包括最低能量閾值和最高能量閾值,計算音視頻數(shù)據(jù)的短時能量和短時過零率,并判斷計算結(jié)果是否大于最低能量閾值或大于過零率閾值,若是,則確認是語音信號的起始點,若計算結(jié)果大于最高能量閾值,則確認為正常的語音信號,若該語音信號持續(xù)一段時間,則確認落入有聲區(qū)間。
S303,確定音色對應的語音區(qū)間,根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息。
作為一種可選的實施方式,對音視頻數(shù)據(jù)進行語音識別,識別不同的音色,并對不同音色進行標識,進而識別音視頻數(shù)據(jù)中包含的音色標識,并識別該音色標識對應的語音區(qū)間,生成該音色標識對應的字幕,確定音色對應的語音區(qū)間,根據(jù)語音區(qū)間生成帶時間軸的第一字幕。
進一步實現(xiàn)中,可對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息。對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換,與語音庫中的文本進行匹配,將音視頻數(shù)據(jù)中的語音轉(zhuǎn)換為文本信息,得到該音視頻數(shù)據(jù)對應的轉(zhuǎn)換文本信息。
S304,將初始字幕數(shù)據(jù)與轉(zhuǎn)換文本信息比對,依據(jù)比對結(jié)果與帶時間軸的第一字幕進行字與字的校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。
作為一種可選的實施方式,可將初始字幕數(shù)據(jù)與轉(zhuǎn)換文本信息進行比對,依據(jù)比對結(jié)果對帶時間軸的第一字幕進行字與字的校準,具體實現(xiàn)中,可先模糊匹配語音區(qū)間的字數(shù)、關(guān)鍵字、相近字、相似詞等,再匹配出現(xiàn)不一致時再次對該語音區(qū)間的進行語音識別,然后再一次進行字與字的匹配和校準。進一步,可預設(shè)模糊搜索范圍,設(shè)為局部搜索,如可設(shè)為在當前一句話的前后某個停頓或時間值。
在匹配準確率低于預設(shè)準確率時,則對再次進行語音識別和校準,直到滿足預設(shè)準確率時,輸出帶時間軸的第二字幕,最為該音視頻數(shù)據(jù)的最終匹配字幕。其中,預設(shè)準確率如可設(shè)為90%、95%等。
本發(fā)明實施例提供一種字幕校準方法,輸入音視頻數(shù)據(jù)和初始字幕數(shù)據(jù),計算音視頻數(shù)據(jù)的能量和過零率,由計算結(jié)果確定語音區(qū)間,確定音色對應的語音區(qū)間,根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息,將初始字幕數(shù)據(jù)與轉(zhuǎn)換文本信息比對,依據(jù)比對結(jié)果與帶時間軸的第一字幕進行字與字的校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。通過本發(fā)明實施例,對音視頻數(shù)據(jù),可字幕自動對位生成時間軸,可對不同音色的語音進行校準,并根據(jù)語音識別進行再次校準,實現(xiàn)字與字的校準,大大提高了字幕校準的精準度和適用范圍。
實施例四:
圖4示出了本發(fā)明實施例四提供的字幕校準方法的示意流程圖,包括步驟S401~S410,如下:
S401,導入音視頻文件。
S402,導入字幕文稿。
S403,對音視頻文件進行語音識別。
S404,判斷是否使用字幕文稿斷句模式。
S405,解析語音間隔長度。
S406,生成帶時間軸的字幕文件。
S407,根據(jù)文檔斷句生成帶時間軸的字幕文件。
S408,將字幕文件與字幕文稿進行內(nèi)容比對合并。
S409,再次校準。
S410,生成最終字幕。
具體實現(xiàn)中,可導入音視頻文件和字幕文稿,并對音視頻文件進行語音識別。判斷是否使用文稿斷句模式,若判斷結(jié)果為是,則根據(jù)文檔斷句生成帶時間軸的字幕文件,具體的,即依據(jù)語音識別解析到語音區(qū)間以及根據(jù)文稿斷句生成帶時間軸的字幕文件,具體語音識別實現(xiàn)方式參見實施例一,在此不重復。若判斷結(jié)果為否,則解析語音間隔長度,生成帶時間軸的字幕文件,即識別音色對應的語音區(qū)間,并生成音色對應的帶時間軸的第一字幕。進一步的,將兩種方式得到的字幕文稿進行比對合并,再進行校準,此時校準可人工進行,或再次語音識別進行自修正,或根據(jù)意見反饋進行自修正,進而生成最終字幕,最終字幕帶時間軸。具體實施細節(jié)可參見實施例一,在此不重復。
本發(fā)明實施例提供一種字幕校準方法,可根據(jù)是否使用字幕文稿斷句模式進行字幕校準,同時可結(jié)合使用字幕文稿和不使用字幕文稿兩種情況生成的字幕文件進行比對合并,并再次進行校準,最后輸出帶時間軸的最終字幕,可大大提高字幕校準的準確率。
實施例五:
圖5示出了本發(fā)明實施例五提供的字幕校準裝置的結(jié)構(gòu)圖,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分,其中,本發(fā)明實施例提供的裝置可包括:獲取模塊51,識別模塊52以及校準模塊53。
獲取模塊51,用于獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù)。
作為一種可選的實施方式,獲取模塊51獲取音視頻數(shù)據(jù)和該音視頻數(shù)據(jù)對應的初始字幕數(shù)據(jù),其中,音視頻數(shù)據(jù)可以包括音頻數(shù)據(jù),視頻數(shù)據(jù),初始字幕數(shù)據(jù)可以為原始的字幕底稿,包含字幕文字,進一步的,可包含文字和標點等。
識別模塊52,用于對獲取模塊51獲取的音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間,根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息。
作為一種可選的實施方式,對音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間。進一步可選的,識別模塊52還可以包括:區(qū)間計算單元521。
區(qū)間計算單元521,用于計算音視頻數(shù)據(jù)的能量和過零率,由計算結(jié)果確定語音區(qū)間;其中,語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。
進一步的,短時過零率為單位時間內(nèi)過零發(fā)生的次數(shù),為避免虛假的過零,提高過零率計算的魯棒性,引入門限。區(qū)間計算單元521獲取到預設(shè)的能量閾值和過零率閾值,其中,能量閾值包括最低能量閾值和最高能量閾值,區(qū)間計算單元521計算音視頻數(shù)據(jù)的短時能量和短時過零率,并判斷計算結(jié)果是否大于最低能量閾值或大于過零率閾值,若是,則確認是語音信號的起始點,若計算結(jié)果大于最高能量閾值,則確認為正常的語音信號,若該語音信號持續(xù)一段時間,則確認落入有聲區(qū)間。
進一步可選的,識別模塊52還可以包括:音色識別單元522。
音色識別單元522,用于識別音視頻數(shù)據(jù)中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕,帶時間軸的第一字幕包括音色標識對應的字幕。
具體實現(xiàn)中,音色識別單元522可識別音色,進而確定不同音色的語音區(qū)間。具體的,識別音視頻數(shù)據(jù)中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕,帶時間軸的第一字幕包括音色標識對應的字幕。
對包含多重字幕的情況,通過本發(fā)明實施例中對音色進行識別,可將不同音色對應不同字幕,生成多個帶時間軸的字幕。
進一步實現(xiàn)中,識別模塊52可根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息。確定不同音色對應的語音區(qū)間后,由語音區(qū)間生成帶時間軸的第一字幕。進一步的,對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換,與語音庫中的文本進行匹配,將音視頻數(shù)據(jù)中的語音轉(zhuǎn)換為文本信息。
校準模塊53,用于依據(jù)獲取模塊51獲取的初始字幕數(shù)據(jù)和/或識別模塊52得到的轉(zhuǎn)換文本信息對帶時間軸的第一字幕進行校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。
作為一種可選的實施方式,校準模塊53可以包括:區(qū)間校準單元531和/或字字校準單元532;
區(qū)間校準單元531,用于將初始字幕數(shù)據(jù)與帶時間軸的第一字幕進行語音區(qū)間的校準;
字字校準單元532,用于將初始字幕數(shù)據(jù)與轉(zhuǎn)換文本信息比對,比對結(jié)果與帶時間軸的第一字幕進行字與字的校準。
具體實現(xiàn)中,校準模塊53可實現(xiàn)對音色的語音區(qū)間的校準,還可實現(xiàn)對語音區(qū)間的字與字的校準,還可實現(xiàn)音色的語音區(qū)間以及語音區(qū)間的字與字的校準,具體不受本發(fā)明實施例的限制。
進一步的,區(qū)間校準單元531將初始字幕數(shù)據(jù)與帶時間軸的第一字幕進行比較,主要是語音區(qū)間的校準。具體實現(xiàn)中,播放帶時間軸的第一字幕,對第一字幕進行復讀,依據(jù)復讀的語音波形進行第一字幕與初始字幕數(shù)據(jù)的校對。
更進一步的,字字校準單元532將初始字幕數(shù)據(jù)與轉(zhuǎn)換文本信息進行比對,依據(jù)比對結(jié)果對帶時間軸的第一字幕進行字與字的校準,具體實現(xiàn)中,可先模糊匹配語音區(qū)間的字數(shù)、關(guān)鍵字、相近字、相似詞等,在匹配出現(xiàn)不一致時再次對該語音區(qū)間的進行語音識別,然后再一次進行字與字的匹配和校準。進一步,可預設(shè)模糊搜索范圍,設(shè)為局部搜索,如可設(shè)為在當前一句話的前后某個停頓或時間值。
在匹配準確率低于預設(shè)準確率時,則對再次進行語音識別和校準,直到滿足預設(shè)準確率時,輸出帶時間軸的第二字幕,得到該音視頻數(shù)據(jù)的最終匹配字幕。其中,預設(shè)準確率如可設(shè)為90%、95%等。
進一步可選的,本發(fā)明實施例提供的字幕校準裝置還可以包括:自修正模塊54。
自修正模塊54,用于在接收到對帶時間軸的第二字幕的修改反饋信息時,標識修改反饋對應的語音區(qū)間,并進行自修正。
具體實現(xiàn)中,生成的帶時間軸的第二字幕在使用過程中,在檢測到不準確的字幕校準時,可選中字幕中的不準確之處,并觸發(fā)修改反饋,系統(tǒng)接收到對帶時間軸的第二字幕的修改反饋信息后,標識該修改反饋對應的語音區(qū)間,并進行自修正,具體的,再次對該區(qū)間的語音進行語音識別,進行字與字的校準,修正后更新帶時間軸的第二字幕。使得本發(fā)明實施例的字幕校準方法具備自學習功能。
本發(fā)明實施例提供一種字幕校準裝置,獲取模塊可獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù),識別模塊可對音視頻數(shù)據(jù)進行語音識別,確定音色對應的語音區(qū)間,根據(jù)語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數(shù)據(jù)進行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息,校準模塊可依據(jù)初始字幕數(shù)據(jù)和/或轉(zhuǎn)換文本信息對帶時間軸的第一字幕進行校準,依據(jù)校準結(jié)果生成帶時間軸的第二字幕。通過本發(fā)明實施例,對音視頻數(shù)據(jù),字幕自動對位生成時間軸,并根據(jù)語音識別進行再次校準,可對不同音色的語音進行校準,適用于至少一種音色的語音的字幕校準,適用于至少一重字幕的校準,還可對字幕校準進行自修正,大大提高了字幕校準的精準度和適用范圍。
本發(fā)明實施例還公開了一種終端設(shè)備,用于運行圖5所示的裝置,該裝置的結(jié)構(gòu)和功能可參見圖5所示實施例的相關(guān)描述,在此不再贅述。在終端設(shè)備本端進行初始字幕數(shù)據(jù)、音視頻數(shù)據(jù)的輸入、音視頻數(shù)據(jù)的處理和存儲、字幕校準的處理。需要說明的是,本實施例提供的終端設(shè)備與圖1~圖4所示的字幕校準方法相對應,為基于圖1~圖4所示的字幕校準方法的執(zhí)行主體。本發(fā)明實施例中終端設(shè)備具體如用于制作字幕的電腦、服務器等。
在本發(fā)明實施例中,字幕校準裝置的各模塊、單元可由相應的硬件或軟件單元實現(xiàn),可以為獨立的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本發(fā)明。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。