專(zhuān)利名稱(chēng):實(shí)現(xiàn)影音文件中聲音與字幕同步的方法、設(shè)備和計(jì)算機(jī)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及影音技術(shù),特別是指一種實(shí)現(xiàn)影音文件中聲音與字幕同步的方法、設(shè)備和計(jì)算機(jī)。
背景技術(shù):
人們對(duì)娛樂(lè)的消費(fèi)在消費(fèi)支出中所占的比重越來(lái)越大,其中,影視娛樂(lè)是一種主要方式;目前影視播放中存在字幕與畫(huà)面聲音不能同步的問(wèn)題,很大程度影響了用戶感受, 在播放非母語(yǔ)的影視過(guò)程中,字幕與畫(huà)面聲音的不同步就顯得難以接受。目前對(duì)于字幕和畫(huà)面聲音不同步的解決方法中,最普遍的是采用用戶手工操作的 方式,由用戶根據(jù)所看到的畫(huà)面,手動(dòng)提前或延遲字幕的出現(xiàn)時(shí)間。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問(wèn)題需要用戶自 主判斷畫(huà)面內(nèi)容選擇校正時(shí)間段,同時(shí)用戶可能需要多次調(diào)整后才能完成同步,影響了用 戶的體驗(yàn)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種實(shí)現(xiàn)影音文件中聲音與字幕同步的方法、設(shè)備和計(jì)算 機(jī),用于解決現(xiàn)有技術(shù)中,需要用戶自主判斷畫(huà)面內(nèi)容并進(jìn)行校正,需要多次調(diào)整后才能完 成同步,影響了用戶的體驗(yàn)的缺陷。為了解決上市問(wèn)題,一方面本發(fā)明提供了一種實(shí)現(xiàn)影音文件中聲音與字幕同步的 方法,包括獲取到當(dāng)前播放的所述影音文件的第一聲音和第一字幕,其中,所述第一聲音 與所述第一字幕不匹配,所述第一聲音在所述影音文件中對(duì)應(yīng)第一時(shí)間戳,所述第一字幕 在所述影音文件中對(duì)應(yīng)第二時(shí)間戳;計(jì)算所述第一聲音與所述第一字幕的相似度,得到一 結(jié)果;當(dāng)所述結(jié)果表明所述相似度大于一閾值時(shí),比較所述第一時(shí)間戳與所述第二時(shí)間戳, 得到一時(shí)間差值;根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與所述第二時(shí)間戳進(jìn)行調(diào)整,使當(dāng) 前所述影音文件的第一聲音與第一字幕實(shí)現(xiàn)同步輸出。優(yōu)選的,計(jì)算所述第一聲音與所述第一字幕的相似度,得到一結(jié)果,之前還包括將所述影音文件的時(shí)間長(zhǎng)度分為至少一個(gè)校準(zhǔn)時(shí)間段;在每一個(gè)所述校準(zhǔn)時(shí)間段中,計(jì)算出一所述時(shí)間差值;求所有的所述時(shí)間差值的平均值,得到一時(shí)間平均差值;根據(jù)所述時(shí)間平均差值進(jìn)行調(diào)整。優(yōu)選的,獲取到當(dāng)前播放的所述影音文件的第一聲音和第一字幕,之前還包括識(shí)別所述第一聲音的語(yǔ)言類(lèi)型,當(dāng)所述影音文件所在的系統(tǒng)不支持所述語(yǔ)言類(lèi)型 時(shí),直接播放所述影音文件;以及,尋找所述第一字幕所在的文件,當(dāng)不存在所述文件時(shí),直接播放所述影音文件。優(yōu)選的,根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與所述第二時(shí)間戳進(jìn)行調(diào)整,進(jìn)一 步包括
以所述第一時(shí)間戳為基準(zhǔn),調(diào)整所述第二時(shí)間戳使輸出字幕與播放聲音實(shí)現(xiàn)同步。優(yōu)選的,獲取到當(dāng)前播放的所述影音文件的第一聲音,進(jìn)一步包括將所述第一聲音轉(zhuǎn)換為文字形式的一文件。另一方面,本發(fā)明還提供了一種實(shí)現(xiàn)影音文件中聲音與字幕同步的設(shè)備,包括語(yǔ)音識(shí)別單元,用于從一影音文件中獲取一第一聲音,所述第一聲音在所述影音文件中對(duì)應(yīng) 第一時(shí)間戳;字幕解析單元,用于從所述影音文件中獲取一第一字幕,所述第一字幕在所述 影音文件中對(duì)應(yīng)第二時(shí)間戳,其中,所述第一時(shí)間戳的時(shí)間點(diǎn)與所述第二時(shí)間戳的時(shí)間點(diǎn) 不同;自動(dòng)校對(duì)單元,用于計(jì)算所述第一聲音與所述第一字幕之間的相似度,得到一結(jié)果; 當(dāng)所述結(jié)果表明所述相似度大于一閾值時(shí),比較所述第一時(shí)間戳與所述第二時(shí)間戳,得到 一時(shí)間差值;同步單元,用于根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與所述第二時(shí)間戳進(jìn)行 調(diào)整,使當(dāng)前所述影音文件的第一聲音與第一字幕實(shí)現(xiàn)同步輸出。優(yōu)選的,所述設(shè)備還包括時(shí)間差值均值模塊,用于將所述影音文件的時(shí)間長(zhǎng)度分為至少一個(gè)校準(zhǔn)時(shí)間段; 在每一個(gè)所述校準(zhǔn)時(shí)間段中,通知所述自動(dòng)校對(duì)單元計(jì)算出一所述時(shí)間差值;求所有的所述時(shí)間差值的平均值,得到一時(shí)間平均差值;將所述時(shí)間平均差值輸 出給所述同步單元。優(yōu)選的,所述設(shè)備還包括校對(duì)執(zhí)行模塊,用于以所述第一時(shí)間戳為基準(zhǔn),根據(jù)所述時(shí)間差值或者所述時(shí)間 平均差值調(diào)整所述第二時(shí)間戳使輸出字幕與播放聲音實(shí)現(xiàn)同步。優(yōu)選的,所述設(shè)備還包括校準(zhǔn)語(yǔ)音轉(zhuǎn)換模塊,用于將所述第一聲音轉(zhuǎn)換為文字形式的一文件。此外,本發(fā)明還提供了一種實(shí)現(xiàn)影音文件中聲音與字幕同步的計(jì)算機(jī),包括一顯 示接口單元,還包括一種實(shí)現(xiàn)影音文件中聲音與字幕同步的設(shè)備,所述設(shè)備的輸出端與所 述顯示接口單元連接。本發(fā)明的實(shí)施例,通過(guò)采用預(yù)設(shè)的業(yè)務(wù)邏輯方法或者設(shè)備單元,對(duì)于一影音文件 中的聲音與字幕,計(jì)算出現(xiàn)同一內(nèi)容時(shí),其分別對(duì)應(yīng)的時(shí)間戳之間的時(shí)間差值,并根據(jù)時(shí)間 差值對(duì)時(shí)間戳進(jìn)行調(diào)整,從而達(dá)到當(dāng)字幕與聲音不同步的時(shí)候,不需要用戶采用手動(dòng)的方 式對(duì)字幕進(jìn)行校正,就能自動(dòng)實(shí)現(xiàn)字幕與聲音的同步,極大的改善用戶體驗(yàn)。
圖1為本發(fā)明實(shí)施例方法流程示意圖一;圖2為本發(fā)明實(shí)施例方法流程示意圖二 ;圖3為本發(fā)明實(shí)施例設(shè)備結(jié)構(gòu)示意圖一;圖4為本發(fā)明實(shí)施例設(shè)備結(jié)構(gòu)示意圖二 ;圖5為本發(fā)明實(shí)施例計(jì)算機(jī)結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)特征和實(shí)施效果更加清楚,下面將結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)描述。典型的影音文件包含有一個(gè)視頻流,一個(gè)或多個(gè)音頻流,此外會(huì)有獨(dú)立的一個(gè)或多個(gè)字幕文件。傳統(tǒng)的播放器在播放影音文件時(shí),首先需要把影音文件分割為視頻流和音 頻流之后獨(dú)立播放,而對(duì)于字幕文件,則單獨(dú)調(diào)用顯示。本發(fā)明提供的實(shí)施例中,提供一種 實(shí)現(xiàn)影音文件中聲音與字幕同步的方法,如圖1所示,包括步驟101.獲取到當(dāng)前播放的所述影音文件的第一聲音和第一字幕,其中,所述第 一聲音與所述第一字幕不匹配,所述第一聲音在所述影音文件中對(duì)應(yīng)第一時(shí)間戳,所述第 一字幕在所述影音文件中對(duì)應(yīng)第二時(shí)間戳;步驟102.計(jì)算所述第一聲音與所述第一字幕的相似度,得到一結(jié)果;步驟103.當(dāng)所述結(jié)果表明所述相似度大于一閾值時(shí),比較所述第一時(shí)間戳與所 述第二時(shí)間戳,得到一時(shí)間差值;步驟104.根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與所述第二時(shí)間戳進(jìn)行調(diào)整,使 當(dāng)前所述影音文件的第一聲音與第一字幕實(shí)現(xiàn)同步輸出。實(shí)現(xiàn)本實(shí)施例記載的技術(shù)方案,不需要用戶參與,就能自動(dòng)實(shí)現(xiàn)字幕與聲音的同 步,極大的改善用戶體驗(yàn)。本發(fā)明實(shí)施例不僅可以對(duì)字幕與聲音的同步進(jìn)行校準(zhǔn),而且可以進(jìn)一步優(yōu)化,在 計(jì)算所述第一聲音與所述第一字幕的相似度,得到一結(jié)果之前還可以將所述影音文件的 時(shí)間長(zhǎng)度分為至少一個(gè)校準(zhǔn)時(shí)間段;在每一個(gè)所述校準(zhǔn)時(shí)間段中,均計(jì)算出一所述時(shí)間差 值;求所有的所述時(shí)間差值的平均值,得到一時(shí)間平均差值;根據(jù)所述時(shí)間平均差值進(jìn)行 調(diào)整。如圖2所示,包括步驟201.讀取一待播放的影音文件。步驟202.判斷當(dāng)前設(shè)備系統(tǒng)是否支持該影音文件中包含的語(yǔ)言類(lèi)型;如果是,轉(zhuǎn) 步驟203,否則轉(zhuǎn)步驟207。步驟203.字幕文件是否存在;如果是,轉(zhuǎn)步驟204,否則轉(zhuǎn)步驟207。步驟204.識(shí)別語(yǔ)音,讀取對(duì)應(yīng)的字幕文件。步驟205.對(duì)語(yǔ)音輸出與字幕顯示的時(shí)間匹配進(jìn)行校正;包括確定語(yǔ)音的一個(gè)校準(zhǔn)時(shí)間段,識(shí)別該校準(zhǔn)時(shí)間段內(nèi)的聲音,稱(chēng)為第一聲音,解析字 幕文件在所述校準(zhǔn)時(shí)間段內(nèi)的字幕,稱(chēng)為第一字幕;計(jì)算第一聲音與所述第一字幕之間的相似度,例如通過(guò)現(xiàn)有的聲音識(shí)別技術(shù)計(jì)算 所述相似度將所述相似度與預(yù)先設(shè)定的閾值相比較,如果相似度大于該閾值,則將該校準(zhǔn)時(shí) 間段的時(shí)間戳與字幕時(shí)間戳對(duì)比,記錄差異,這一差異稱(chēng)為該校準(zhǔn)時(shí)間段的時(shí)間差值。如果相似度小于閾值,則不對(duì)字幕對(duì)應(yīng)的第二時(shí)間戳進(jìn)行調(diào)整。由于整個(gè)影音文件的時(shí)間包含若干個(gè)所述校準(zhǔn)時(shí)間段,計(jì)算每一個(gè)校準(zhǔn)時(shí)間段的 時(shí)間差值;所有的時(shí)間差值形成一個(gè)時(shí)間差值的隊(duì)列;對(duì)該時(shí)間差值的隊(duì)列求平均值,可以得到一時(shí)間平均差值,該時(shí)間平均差值將成 為對(duì)字幕時(shí)間改動(dòng)的輸出值。步驟206.根據(jù)所述時(shí)間平均差值對(duì)實(shí)際輸出的字幕進(jìn)行調(diào)整。在調(diào)整的過(guò)程中,以第一時(shí)間戳為基準(zhǔn),調(diào)整第二時(shí)間戳使輸出字幕與播放聲音實(shí)現(xiàn)同步。步驟207.在播放所述影音文件時(shí)顯示調(diào)整之后的字幕,或者直接播放影音文件。如果用戶正在使用播放器放映一個(gè)影片,該影片的視頻和聲音集成在一 AVI格式 的文件中;由于AVI電影影片和字幕是分開(kāi)的,對(duì)應(yīng)有srt格式的字幕文件,或者同時(shí)存 在Idx和sub格式的文件作為字幕文件。S卩,如果存在一文件Test.avi,對(duì)應(yīng)存在Test. srt或者Test. Idx和Test, sub ;并且以上各個(gè)文件應(yīng)當(dāng)存放在同一路徑下的同一個(gè)文件夾 File中。當(dāng)聲音和字幕不一致時(shí),應(yīng)用本申請(qǐng)?zhí)峁┑募夹g(shù),包括播放器讀取一待播放的影音文件對(duì)應(yīng)的文件夾;文件夾中有文件Test, avi和字 幕文件Test, srt ;其中,Test, avi既是視頻文件,也是語(yǔ)音文件,Test, srt中則是文字。判定當(dāng)前設(shè)備系統(tǒng),例如裝有Windows操作系統(tǒng)的計(jì)算機(jī),支持所述播放器該影音文件中包含的語(yǔ)言類(lèi)型,即支持Test, srt中的標(biāo)準(zhǔn)漢字。判定字幕文件Test, srt存在。識(shí)別Test, avi中的語(yǔ)音,讀取對(duì)應(yīng)的字幕文件Test, srt。當(dāng)發(fā)現(xiàn)正在播放的語(yǔ)音和輸出的字幕不同步的時(shí)候,此時(shí),對(duì)輸出Test.avi中的 語(yǔ)音,以及輸出Test, srt中的字幕的時(shí)間匹配進(jìn)行校正,包括確定語(yǔ)音的一個(gè)校準(zhǔn)時(shí)間段,例如60秒,識(shí)別該校準(zhǔn)時(shí)間段內(nèi)的聲音,稱(chēng)為第一 聲音,解析字幕文件Test, srt在所述校準(zhǔn)時(shí)間段內(nèi)的字幕,稱(chēng)為第一字幕;計(jì)算第一聲 音與所述第一字幕中的標(biāo)準(zhǔn)漢字之間的相似度將所述相似度與預(yù)先設(shè)定的閾值,例如 0. 95,相比較,如果相似度大于該閾值0. 95,則將該校準(zhǔn)時(shí)間段的時(shí)間戳與字幕時(shí)間戳對(duì) 比,記錄差異,這一差異稱(chēng)為該校準(zhǔn)時(shí)間段的時(shí)間差值。如果相似度小于閾值0. 95,則不對(duì) 字幕對(duì)應(yīng)的第二時(shí)間戳進(jìn)行調(diào)整。由于整個(gè)影音文件的時(shí)間包含若干個(gè)所述校準(zhǔn)時(shí)間段,計(jì)算每一個(gè)校準(zhǔn)時(shí)間段的 時(shí)間差值;所有的時(shí)間差值形成一個(gè)時(shí)間差值的隊(duì)列;對(duì)該時(shí)間差值的隊(duì)列求平均值,可 以得到一時(shí)間平均差值,例如3. 5秒,該時(shí)間平均差值3. 5秒將成為對(duì)字幕時(shí)間改動(dòng)的輸出值。根據(jù)所述時(shí)間平均差值3. 5秒對(duì)實(shí)際輸出的字幕進(jìn)行調(diào)整。在調(diào)整的過(guò)程中,以 第一時(shí)間戳為基準(zhǔn),調(diào)整第二時(shí)間戳,這包括將輸出字幕文件Test, srt中該60秒內(nèi)所有 的對(duì)應(yīng)的標(biāo)準(zhǔn)漢字的時(shí)間調(diào)整3. 5秒;所述調(diào)整具體為提前還是延后應(yīng)根據(jù)具體情形對(duì) 待;使輸出字幕與播放聲音實(shí)現(xiàn)同步。在播放所述影音文件時(shí)顯示調(diào)整之后的字幕,或者直接播放影音文件。應(yīng)用本實(shí)施例提供的技術(shù),不必頻繁對(duì)聲音輸出與字幕之間的同步進(jìn)行調(diào)整,減 少了計(jì)算量。由于傳統(tǒng)的播放器在播放影音文件時(shí),首先需要把影音文件分割為視頻流和音頻 流,獨(dú)立播放,而對(duì)于字幕文件,則單獨(dú)調(diào)用顯示。因而,本實(shí)施例提供了一種實(shí)現(xiàn)影音文件 中聲音與字幕同步的設(shè)備,如圖3所示,包括語(yǔ)音識(shí)別單元301,用于從一影音文件中獲取一第一聲音,所述第一聲音在所述影 音文件中對(duì)應(yīng)第一時(shí)間戳;字幕解析單元302,用于從所述影音文件中獲取一第一字幕,所述第一字幕在所述 影音文件中對(duì)應(yīng)第二時(shí)間戳,其中,所述第一時(shí)間戳的時(shí)間點(diǎn)與所述第二時(shí)間戳的時(shí)間點(diǎn)不同;自動(dòng)校對(duì)單元303,用于計(jì)算所述第一聲音與所述第一字幕之間的相似度,得到一結(jié)果;當(dāng)所述結(jié)果表明所述相似度大于一閾值時(shí),比較所述第一時(shí)間戳與所述第二時(shí)間戳, 得到一時(shí)間差值;同步單元304,用于根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與所述第二時(shí)間戳進(jìn)行 調(diào)整,使當(dāng)前所述影音文件的第一聲音與第一字幕實(shí)現(xiàn)同步輸出。應(yīng)用本實(shí)施例提供的技術(shù),不需要用戶參與,就能自動(dòng)實(shí)現(xiàn)字幕與聲音的同步,極 大的改善了用戶體驗(yàn)。為完善設(shè)備的功能,如圖4所示,還可以包括校準(zhǔn)語(yǔ)音轉(zhuǎn)換模塊401,用于將所述第一聲音轉(zhuǎn)換為文字形式的一文件。判斷模塊402,用于識(shí)別所述第一聲音的語(yǔ)言類(lèi)型,當(dāng)系統(tǒng)不支持所述語(yǔ)言類(lèi)型 時(shí),直接播放所述影音文件;以及,尋找所述第一字幕所在的文件,當(dāng)不存在所述文件時(shí),直 接播放所述影音文件。時(shí)間差值均值模塊403,用于獲取至少一個(gè)所述校準(zhǔn)時(shí)間段的所述時(shí)間差值之后, 求所有的所述時(shí)間差值的平均值,得到一時(shí)間平均差值;根據(jù)所述時(shí)間平均差值進(jìn)行調(diào)整。校對(duì)執(zhí)行模塊404,用于以第一時(shí)間戳為基準(zhǔn),根據(jù)時(shí)間差值或者時(shí)間平均差值調(diào) 整根據(jù)所述第二時(shí)間戳上輸出字幕的時(shí)刻和速度。本發(fā)明的實(shí)施例具有以下有益效果,不需要用戶參與,就能自動(dòng)實(shí)現(xiàn)字幕與聲音 的同步,極大的改善用戶體驗(yàn)。與所描述的設(shè)備對(duì)應(yīng),本發(fā)明還提供了一種實(shí)現(xiàn)影音文件中聲音與字幕同步的計(jì) 算機(jī),包括一顯示接口單元501,還包括所描述的一種智能實(shí)現(xiàn)影音文件中聲音與字幕同步 的設(shè)備,如圖5所示,所述設(shè)備的輸出端與所述顯示接口單元連接。其中,顯示接口單元501,用于接收來(lái)自同步單元304或者校對(duì)執(zhí)行模塊404的輸 出;其中,設(shè)備中的的同步單元304或者校對(duì)執(zhí)行模塊404均可以看作輸出端。本發(fā)明的實(shí)施例具有以下有益效果,采用預(yù)設(shè)的業(yè)務(wù)邏輯方法或者設(shè)備單元,對(duì) 于一影音文件中的聲音與字幕,計(jì)算出現(xiàn)同一內(nèi)容時(shí),其分別對(duì)應(yīng)的時(shí)間戳之間的時(shí)間差 值,并根據(jù)時(shí)間差值對(duì)時(shí)間戳進(jìn)行調(diào)整,不需要用戶參與,就能自動(dòng)實(shí)現(xiàn)字幕與聲音的同 步,極大的改善用戶體驗(yàn)。應(yīng)當(dāng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制,所有的參數(shù) 取值可以根據(jù)實(shí)際情況調(diào)整,且在該權(quán)利保護(hù)范圍內(nèi)。本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可 以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神范圍,其 均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
一種實(shí)現(xiàn)影音文件中聲音與字幕同步的方法,其特征在于,包括獲取到當(dāng)前播放的所述影音文件的第一聲音和第一字幕,其中,所述第一聲音與所述第一字幕不匹配,所述第一聲音在所述影音文件中對(duì)應(yīng)第一時(shí)間戳,所述第一字幕在所述影音文件中對(duì)應(yīng)第二時(shí)間戳;計(jì)算所述第一聲音與所述第一字幕的相似度,得到一結(jié)果;當(dāng)所述結(jié)果表明所述相似度大于一閾值時(shí),比較所述第一時(shí)間戳與所述第二時(shí)間戳,得到一時(shí)間差值;根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與所述第二時(shí)間戳進(jìn)行調(diào)整,使當(dāng)前所述影音文件的第一聲音與第一字幕實(shí)現(xiàn)同步輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,計(jì)算所述第一聲音與所述第一字幕的相 似度,得到一結(jié)果,之前還包括將所述影音文件的時(shí)間長(zhǎng)度分為至少一個(gè)校準(zhǔn)時(shí)間段;在每一個(gè)所述校準(zhǔn)時(shí)間段中,計(jì)算出一所述時(shí)間差值;求所有的所述時(shí)間差值的平均值,得到一時(shí)間平均差值;根據(jù)所述時(shí)間平均差值進(jìn)行調(diào)整。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取到當(dāng)前播放的所述影音文件的第一 聲音和第一字幕,之前還包括識(shí)別所述第一聲音的語(yǔ)言類(lèi)型,當(dāng)所述影音文件所在的系統(tǒng)不支持所述語(yǔ)言類(lèi)型時(shí), 直接播放所述影音文件;以及,尋找所述第一字幕所在的文件,當(dāng)不存在所述文件時(shí),直接播放所述影音文件。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與 所述第二時(shí)間戳進(jìn)行調(diào)整,進(jìn)一步包括以所述第一時(shí)間戳為基準(zhǔn),調(diào)整所述第二時(shí)間戳使輸出字幕與播放聲音實(shí)現(xiàn)同步。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取到當(dāng)前播放的所述影音文件的第一 聲音,進(jìn)一步包括將所述第一聲音轉(zhuǎn)換為文字形式的一文件。
6.一種實(shí)現(xiàn)影音文件中聲音與字幕同步的設(shè)備,其特征在于,包括語(yǔ)音識(shí)別單元,用于從一影音文件中獲取一第一聲音,所述第一聲音在所述影音文件 中對(duì)應(yīng)第一時(shí)間戳;字幕解析單元,用于從所述影音文件中獲取一第一字幕,所述第一字幕在所述影音文 件中對(duì)應(yīng)第二時(shí)間戳,其中,所述第一時(shí)間戳的時(shí)間點(diǎn)與所述第二時(shí)間戳的時(shí)間點(diǎn)不同;自動(dòng)校對(duì)單元,用于計(jì)算所述第一聲音與所述第一字幕之間的相似度,得到一結(jié)果;當(dāng) 所述結(jié)果表明所述相似度大于一閾值時(shí),比較所述第一時(shí)間戳與所述第二時(shí)間戳,得到一 時(shí)間差值;同步單元,用于根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與所述第二時(shí)間戳進(jìn)行調(diào)整,使 當(dāng)前所述影音文件的第一聲音與第一字幕實(shí)現(xiàn)同步輸出。
7.根據(jù)權(quán)利要求6所述的設(shè)備,其特征在于,還包括時(shí)間差值均值模塊,用于將所述影音文件的時(shí)間長(zhǎng)度分為至少一個(gè)校準(zhǔn)時(shí)間段;在每 一個(gè)所述校準(zhǔn)時(shí)間段中,通知所述自動(dòng)校對(duì)單元計(jì)算出一所述時(shí)間差值;求所有的所述時(shí)間差值的平均值,得到一時(shí)間平均差值;將所述時(shí)間平均差值輸出給 所述同步單元。
8.根據(jù)權(quán)利要求7所述的設(shè)備,其特征在于,還包括校對(duì)執(zhí)行模塊,用于以所述第一時(shí)間戳為基準(zhǔn),根據(jù)所述時(shí)間差值或者所述時(shí)間平均 差值調(diào)整所述第二時(shí)間戳使輸出字幕與播放聲音實(shí)現(xiàn)同步。
9.根據(jù)權(quán)利要求6所述的設(shè)備,其特征在于,還包括校準(zhǔn)語(yǔ)音轉(zhuǎn)換模塊,用于將所述第一聲音轉(zhuǎn)換為文字形式的一文件。
10.一種實(shí)現(xiàn)影音文件中聲音與字幕同步的計(jì)算機(jī),包括一顯示接口單元,其特征在 于,還包括如權(quán)利要求6至權(quán)利要求9中任一項(xiàng)所述的設(shè)備,所述設(shè)備的輸出端與所述顯示 接口單元連接。
全文摘要
本發(fā)明提供一實(shí)現(xiàn)影音文件中聲音與字幕同步的方法、設(shè)備和計(jì)算機(jī),方法包括獲取到當(dāng)前播放的所述影音文件的第一聲音和第一字幕,其中,所述第一聲音與所述第一字幕不匹配,所述第一聲音在所述影音文件中對(duì)應(yīng)第一時(shí)間戳,所述第一字幕在所述影音文件中對(duì)應(yīng)第二時(shí)間戳;計(jì)算所述第一聲音與所述第一字幕的相似度,得到一結(jié)果;當(dāng)所述結(jié)果表明所述相似度大于一閾值時(shí),比較所述第一時(shí)間戳與所述第二時(shí)間戳,得到一時(shí)間差值;根據(jù)所述時(shí)間差值對(duì)所述第一時(shí)間戳與所述第二時(shí)間戳進(jìn)行調(diào)整,使當(dāng)前所述影音文件的第一聲音與第一字幕實(shí)現(xiàn)同步輸出。當(dāng)播放的聲音和當(dāng)前字幕不同步的時(shí)候,使用本發(fā)明可以實(shí)現(xiàn)自動(dòng)實(shí)現(xiàn)字幕與聲音的同步,極大的改善用戶體驗(yàn)。
文檔編號(hào)H04N5/278GK101808202SQ20091007814
公開(kāi)日2010年8月18日 申請(qǐng)日期2009年2月18日 優(yōu)先權(quán)日2009年2月18日
發(fā)明者張建忠, 於朝暉, 武亞強(qiáng), 王興楠, 王哲鵬, 王巍, 蔡明祥 申請(qǐng)人:聯(lián)想(北京)有限公司