專利名稱:一種視聽(tīng)字幕制作系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及外語(yǔ)電化教學(xué)領(lǐng)域,尤其涉及一種視聽(tīng)字幕制作系統(tǒng)及方法。
背景技術(shù):
語(yǔ)言學(xué)習(xí)主要通過(guò)獲得大量的可理解輸入來(lái)實(shí)現(xiàn),而“聽(tīng)”是獲得可理解語(yǔ)言輸入的最重要的渠道。中國(guó)的外語(yǔ)學(xué)習(xí)者面臨著一個(gè)“讀得懂卻聽(tīng)不懂”的尷尬狀態(tài)?;诙嗝襟w技術(shù)的視聽(tīng)輸入教學(xué)法,能再現(xiàn)人們真實(shí)交際場(chǎng)景,對(duì)改進(jìn)外語(yǔ)教學(xué)起到了積極的推動(dòng)作用。在視聽(tīng)輸入教學(xué)法基礎(chǔ)上,將話語(yǔ)信息以文字的形式(即視聽(tīng)字幕)同時(shí)呈現(xiàn)給受眾,對(duì)外語(yǔ)視聽(tīng)教學(xué)更具有顯著的積極意義。目前,有字幕加配的視聽(tīng)教學(xué)內(nèi)容少之又少,其主要原因是當(dāng)前字幕的加配主要是手工完成。專業(yè)技術(shù)人員需花費(fèi)大量的時(shí)間和精力才能制作完成長(zhǎng)度有限的字幕,成本太高而不能大規(guī)模應(yīng)用?,F(xiàn)代語(yǔ)音識(shí)別技術(shù)領(lǐng)域中,在給定單句文本及其聲音后,可以用基于隱含馬爾科夫模型的核心模塊將音節(jié)起止信息在音軸上顯示出來(lái)。此方法主要應(yīng)用于建立音節(jié)切分語(yǔ)音語(yǔ)料庫(kù),它要求文本與聲音高度一致,否則就會(huì)切分失敗或效果很差。而視聽(tīng)字幕的制作要求切分的單位是句子或短語(yǔ),制作中要求方法有很高的容錯(cuò)性,要能處理文本中含未知發(fā)音的未登錄詞、多音詞、含有錯(cuò)誤文本段落等情況,要能發(fā)現(xiàn)指出切分錯(cuò)誤之處,這些要求在傳統(tǒng)方法中均無(wú)法滿足。
發(fā)明內(nèi)容
針對(duì)上述的缺陷,本發(fā)明的目的在于提供一種視聽(tīng)字幕制作系統(tǒng)及方法,其能夠在無(wú)人工干預(yù)或很少人工干預(yù)的情況下直接得到高質(zhì)量的用于外語(yǔ)電化教學(xué)的視聽(tīng)字幕文件。為了實(shí)現(xiàn)上述目的,本發(fā)明提供視聽(tīng)字幕制作系統(tǒng),所述系統(tǒng)包括
原始文本處理模塊,用于將輸入的原始文本分詞后按指定規(guī)則分割為合適長(zhǎng)度的句子或短語(yǔ),并將所述句子或短語(yǔ)發(fā)送到注音模塊;
注音模塊,用于處理所述句子或短語(yǔ)中的非登錄詞,然后通過(guò)查注音詞典生成注音網(wǎng)絡(luò),并將所述注音網(wǎng)絡(luò)發(fā)送到強(qiáng)制切分模塊;
原始聲音處理模塊,用于將輸入的原始聲音處理成預(yù)定要求的聲音流,并將所述聲音流發(fā)送到強(qiáng)制切分模塊;
強(qiáng)制切分模塊,用于將所述注音網(wǎng)絡(luò)切分為隱含馬爾科夫識(shí)別語(yǔ)音的對(duì)齊網(wǎng)絡(luò),然后將所述聲音流提取為特征流并在所述對(duì)齊網(wǎng)絡(luò)對(duì)齊,并將切分結(jié)果輸入到切分可信度評(píng)估模塊;
切分可信度評(píng)估模塊,用于通過(guò)語(yǔ)音識(shí)別對(duì)所述切分結(jié)果中每個(gè)切分段進(jìn)行可信度評(píng)估得到切分可信度評(píng)估結(jié)果,若所述切分可信度評(píng)估結(jié)果達(dá)到預(yù)定值,則將所述切分結(jié)果直接發(fā)送到字幕生成模塊,否則將所述切分可信度評(píng)估結(jié)果發(fā)送到錯(cuò)誤處理模塊;錯(cuò)誤處理模塊,用于顯示所述切分可信度評(píng)估結(jié)果,判斷是所述原始文本有誤還是所述切分結(jié)果需要人工微調(diào),若所述切分結(jié)果需要人工微調(diào)則人工微調(diào)所述切分結(jié)果并發(fā)送到字幕生成模塊,若是所述原始文本有誤則人工修改原始文本后重新交由所述原始文本處理模塊切分;
字幕生成模塊,用于結(jié)合預(yù)定的字幕文件格式,將所述切分結(jié)果輸出字幕文件。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述原始文本處理模塊還包括
分詞子模塊,用于將所述原始文本用雙數(shù)組Trie樹(shù)分詞算法分成含有若干個(gè)詞的詞語(yǔ)流;
文本切分子模塊,用于將所述詞語(yǔ)流自動(dòng)切分成長(zhǎng)度合適的句子或短語(yǔ),具體切分方法為從前向后遍歷所述詞語(yǔ)流,依據(jù)句子邊界符號(hào)將所述詞語(yǔ)流切分成句子流;從前向后遍歷每個(gè)句子,若所述句子的長(zhǎng)度大于預(yù)定值,則依次嘗試從逗號(hào)、從句、連接詞或任意詞處分開(kāi)所述句子,直到所述句子的長(zhǎng)度小于或等于所述預(yù)定值。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述注音模塊還包括
非登錄詞處理子模塊,用于將切分好的所述句子或短語(yǔ)中含有的不在所述注音詞典中的詞,通過(guò)形近詞替換、直接刪除或人工注音方法轉(zhuǎn)換為已知的讀音的詞;
注音網(wǎng)絡(luò)生成子模塊,首先將切分處理非登錄詞后的詞語(yǔ)流中每個(gè)詞語(yǔ)首尾相連,建立詞語(yǔ)網(wǎng)絡(luò),再查得每個(gè)詞語(yǔ)所有可能的發(fā)音展開(kāi)為注音網(wǎng)絡(luò)。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述形近詞替換,用于自動(dòng)選中詞庫(kù)中一個(gè)最相近的詞w*替換原詞;其中替換詞w*通過(guò)以下方法得到
w* = arg min c e c D (w, c),
公式中w為原詞,w*為替換詞,C為注音詞典集合,D為兩詞間的編輯距離函數(shù)。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述原始聲音處理模塊,用于根據(jù)所述原始聲音的格式,采用對(duì)應(yīng)的算法進(jìn)行解碼,根據(jù)聲學(xué)模型的要求重新采樣為指定的采樣頻率,再經(jīng)過(guò)去噪聲處理轉(zhuǎn)換為預(yù)定要求的聲音流。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述強(qiáng)制切分模塊還包括
聲學(xué)網(wǎng)絡(luò)生成子模塊,用于將所述注音網(wǎng)絡(luò)展開(kāi),并在詞語(yǔ)間加入啞音,擴(kuò)充為隱馬爾科夫聲學(xué)模型的聲學(xué)網(wǎng)絡(luò),發(fā)送到隱藏狀態(tài)序列搜索模塊中;
特征提取子模塊,用于將從所述聲音流中逐幀提取音頻,經(jīng)過(guò)加窗處理后提取符合隱馬爾科夫聲學(xué)模型的聲學(xué)參數(shù),生成逐幀的所述特征流,發(fā)送到隱藏狀態(tài)序列搜索模塊中;
隱藏狀態(tài)序列搜索子模塊,用于將所述特征流與所述聲學(xué)網(wǎng)絡(luò)通過(guò)維特比算法進(jìn)行對(duì)齊,并選取所述特征流所經(jīng)過(guò)的聲學(xué)網(wǎng)絡(luò)節(jié)點(diǎn)為所搜索的隱藏狀態(tài)序列,將隱藏狀態(tài)序列搜索結(jié)果發(fā)送到切分結(jié)果生成模塊;
切分結(jié)果生成子模塊,用于從所述隱藏狀態(tài)序列搜索結(jié)果中求出每個(gè)切分好的句子的起止位置Sn和En。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述句子的起止位置S1^P En通過(guò)以下公式得到
Sn= (A^1)/2* FD, En= (Bn+An+1) /2*FD ;
其中,所述3 和En的計(jì)算公式中An、Bn為分別表示第η個(gè)切分后的句子的一個(gè)隱藏狀態(tài)序列的序號(hào)和最后一個(gè)隱藏狀態(tài)序列的序號(hào),并令Btl =Ai、AN+1=BN (N為切分后的句子個(gè)數(shù)),F(xiàn)D為特征提取子模塊所用音頻幀的時(shí)長(zhǎng)。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述切分可信度評(píng)估模塊還包括
特征段切分子模塊,用于將每個(gè)所述句子依據(jù)得到的起止位置S1^P EnW所述特征流中
獨(dú)立提取出來(lái);
音節(jié)識(shí)別子模塊,用于將所述特征流識(shí)別為音節(jié)流,所述音節(jié)識(shí)別子模塊包括識(shí)別網(wǎng)絡(luò)建立單元和對(duì)齊解碼單元;
所述識(shí)別網(wǎng)絡(luò)建立單元,用于將語(yǔ)料中計(jì)算得到的一元二元音節(jié)語(yǔ)法模型,建立音節(jié)轉(zhuǎn)移概率網(wǎng)絡(luò),再將每個(gè)音節(jié)擴(kuò)充為隱馬爾科夫聲學(xué)模型中的狀態(tài)序列,組成最后的語(yǔ)音識(shí)別網(wǎng)絡(luò);
所述對(duì)齊解碼單元,用于通過(guò)維特比算法,根據(jù)所述特征流和所述語(yǔ)音識(shí)別網(wǎng)絡(luò)求出具有最大概率的路徑,并將其對(duì)應(yīng)的音節(jié)序列,即語(yǔ)音識(shí)別出的音節(jié)序列發(fā)送到可信度分?jǐn)?shù)計(jì)算子模塊;
可信度分?jǐn)?shù)計(jì)算子模塊,用于計(jì)算得到識(shí)別出的所述音節(jié)序列和文本中的音節(jié)序列的相似度分?jǐn)?shù)F,將F作為切分可信度評(píng)估結(jié)果。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述相似度分?jǐn)?shù)F使用以下公式計(jì)算得到
F= ( Le- LD (Ss, Se) ) / Ls *100 ;
其中,所述LK、Ls分別為識(shí)別出的所述音節(jié)序列、文本中的音節(jié)序列音節(jié)個(gè)數(shù),Ss, Se分別為識(shí)別出的音節(jié)序列、文本中的音節(jié)序列,LD為計(jì)算兩序列最小編輯距離的函數(shù)。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作系統(tǒng),所述錯(cuò)誤處理模塊還包括
切分結(jié)果與可信度展示子模塊,用于顯示所述切分結(jié)果與所述切分可信度評(píng)估結(jié)果;人工輔助切分子模塊,用于所述切分結(jié)果需要人工微調(diào)時(shí),將手動(dòng)矯正所述切分結(jié)果,并將矯正后的所述切分結(jié)果發(fā)送到所述字幕生成模塊,以及用于在所述原始文本有誤時(shí),則人工修改原始文本后交由所述原始文本處理模塊重新切分。本發(fā)明還提供一種視聽(tīng)字幕制作方法,包括步驟如下
原始文本處理步驟,將輸入的原始文本分詞后按指定規(guī)則分割為合適長(zhǎng)度的句子或短
語(yǔ);
注音步驟,處理所述句子或短語(yǔ)中的非登錄詞,然后通過(guò)查注音詞典生成注音網(wǎng)絡(luò);原始聲音處理步驟,將輸入的原始聲音處理成預(yù)定要求的聲音流;
強(qiáng)制切分步驟,將所述注音網(wǎng)絡(luò)切分為隱含馬爾科夫識(shí)別語(yǔ)音的對(duì)齊網(wǎng)絡(luò),然后將所述聲音流提取為特征流并在所述對(duì)齊網(wǎng)絡(luò)對(duì)齊;
切分可信度評(píng)估步驟,通過(guò)語(yǔ)音識(shí)別對(duì)所述切分結(jié)果中每個(gè)切分段進(jìn)行可信度評(píng)估得到切分可信度評(píng)估結(jié)果,若所述切分可信度評(píng)估結(jié)果達(dá)到預(yù)定值,則將所述切分結(jié)果直接發(fā)送到字幕生成步驟處理,否則將所述切分可信度評(píng)估結(jié)果發(fā)送到錯(cuò)誤處理步驟處理;
錯(cuò)誤處理步驟,顯示所述切分可信度評(píng)估結(jié)果,判斷是所述原始文本有誤還是所述切分結(jié)果需要人工微調(diào),若所述切分結(jié)果需要人工微調(diào)則人工微調(diào)所述切分結(jié)果,若是所述原始文本有誤則人工修改原始文本后交由所述原始文本處理步驟重新切分;
字幕生成步驟,結(jié)合預(yù)定的字幕文件格式,將所述切分結(jié)果輸出字幕文件。
根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述原始文本處理步驟還包括
分詞子步驟,將所述原始文本用雙數(shù)組Trie樹(shù)分詞算法分成含有若干個(gè)詞的詞語(yǔ)流;文本切分子步驟,將所述詞語(yǔ)流自動(dòng)切分成長(zhǎng)度合適的句子或短語(yǔ),具體切分方法為從前向后遍歷所述詞語(yǔ)流,依據(jù)句子邊界符號(hào)將所述詞語(yǔ)流切分成句子流;從前向后遍歷每個(gè)句子,若所述句子的長(zhǎng)度大于預(yù)定值,則依次嘗試從逗號(hào)、從句、連接詞或任意詞處分開(kāi)所述句子,直到所述句子的長(zhǎng)度小于或等于所述預(yù)定值。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述注音步驟還包括
非登錄詞處理子步驟,將切分好的所述句子或短語(yǔ)中含有的不在所述注音詞典中的詞,通過(guò)形近詞替換、直接刪除或人工注音方法轉(zhuǎn)換為已知的讀音的詞;
注音網(wǎng)絡(luò)生成子步驟,首先將切分處理非登錄詞后的詞語(yǔ)流中每個(gè)詞語(yǔ)首尾相連,建立詞語(yǔ)網(wǎng)絡(luò),再查得每個(gè)詞語(yǔ)所有可能的發(fā)音展開(kāi)為注音網(wǎng)絡(luò)。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述形近詞替換,自動(dòng)選中詞庫(kù)中一個(gè)最相近的詞w*替換原詞;其中替換詞w*通過(guò)以下方法得到
w* = arg min c e c D (w, c),
公式中w為原詞,w*為替換詞,C為注音詞典集合,D為兩詞間的編輯距離函數(shù)。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述原始聲音處理步驟,根據(jù)所述原始聲音的格式,采用對(duì)應(yīng)的算法進(jìn)行解碼,根據(jù)聲學(xué)模型的要求重新采樣為指定的采樣頻率,再經(jīng)過(guò)去噪聲處理轉(zhuǎn)換為預(yù)定要求的聲音流。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述強(qiáng)制切分步驟還包括
聲學(xué)網(wǎng)絡(luò)生成子步驟,將所述注音網(wǎng)絡(luò)展開(kāi),并在詞語(yǔ)間加入啞音,擴(kuò)充為隱馬爾科夫聲學(xué)模型的聲學(xué)網(wǎng)絡(luò);
特征提取子步驟,將從所述聲音流中逐幀提取音頻,經(jīng)過(guò)加窗處理后提取符合隱馬爾科夫聲學(xué)模型的聲學(xué)參數(shù),生成逐幀的所述特征流;
隱藏狀態(tài)序列搜索子步驟,將所述特征流與所述聲學(xué)網(wǎng)絡(luò)通過(guò)維特比算法進(jìn)行對(duì)齊,并選取所述特征流所經(jīng)過(guò)的聲學(xué)網(wǎng)絡(luò)節(jié)點(diǎn)為所搜索的隱藏狀態(tài)序列搜索結(jié)果;
切分結(jié)果生成子步驟,從所述隱藏狀態(tài)序列搜索結(jié)果中求出每個(gè)切分好的句子的起止位置Sn和En。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述句子的起止位置S1^P En通過(guò)以下公式得到
Sn= (A^1)/2* FD, En= (Bn+An+1) /2*FD ;
其中,所述3 和En的計(jì)算公式中An、Bn為分別表示第η個(gè)切分后的句子的一個(gè)隱藏狀態(tài)序列的序號(hào)和最后一個(gè)隱藏狀態(tài)序列的序號(hào),并令Btl =Ai、AN+1=BN (N為切分后的句子個(gè)數(shù)),F(xiàn)D為特征提取子步驟所用音頻幀的時(shí)長(zhǎng)。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述切分可信度評(píng)估步驟還包括
特征段切分子步驟,將每個(gè)所述句子依據(jù)得到的起止位置S1^PEn從所述特征流中獨(dú)立提取出來(lái);
音節(jié)識(shí)別子步驟,將所述特征流識(shí)別為音節(jié)流,所述音節(jié)識(shí)別子步驟包括識(shí)別網(wǎng)絡(luò)建立單元和對(duì)齊解碼單元;
所述識(shí)別網(wǎng)絡(luò)建立單元,將語(yǔ)料中計(jì)算得到的一元二元音節(jié)語(yǔ)法模型,建立音節(jié)轉(zhuǎn)移概率網(wǎng)絡(luò),再將每個(gè)音節(jié)擴(kuò)充為隱馬爾科夫聲學(xué)模型中的狀態(tài)序列,組成最后的語(yǔ)音識(shí)別網(wǎng)絡(luò);
所述對(duì)齊解碼單元,通過(guò)維特比算法,根據(jù)所述特征流和所述語(yǔ)音識(shí)別網(wǎng)絡(luò)求出具有最大概率的路徑,并將其對(duì)應(yīng)的音節(jié)序列,即語(yǔ)音識(shí)別出的音節(jié)序列發(fā)送到可信度分?jǐn)?shù)計(jì)算子步驟處理;
可信度分?jǐn)?shù)計(jì)算子步驟,計(jì)算得到識(shí)別出的所述音節(jié)序列和文本中的音節(jié)序列的相似度分?jǐn)?shù)F,將F作為切分可信度評(píng)估結(jié)果。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述相似度分?jǐn)?shù)F使用以下公式計(jì)算得到
F= ( Le- LD (Ss, Se) ) / Ls *100 ;
其中,所述LK、Ls分別為識(shí)別出的所述音節(jié)序列、文本中的音節(jié)序列音節(jié)個(gè)數(shù),Ss, Se分別為識(shí)別出的音節(jié)序列、文本中的音節(jié)序列,LD為計(jì)算兩序列最小編輯距離的函數(shù)。根據(jù)本發(fā)明所述的視聽(tīng)字幕制作方法,所述錯(cuò)誤處理步驟還包括
切分結(jié)果與可信度展示子步驟,顯示所述切分結(jié)果與所述切分可信度評(píng)估結(jié)果;人工輔助切分子步驟,所述切分結(jié)果需要人工微調(diào)時(shí),將手動(dòng)矯正所述切分結(jié)果,并將矯正后的所述切分結(jié)果發(fā)送到所述字幕生成步驟,以及在所述原始文本有誤時(shí),則人工修改原始文本后交由所述原始文本處理步驟重新切分。本發(fā)明能自動(dòng)處理原始文本,分割為限定長(zhǎng)度的句子或短語(yǔ);采用形近詞替代等方法自動(dòng)處理非登錄詞,建立多發(fā)音注音網(wǎng)絡(luò);將注音網(wǎng)絡(luò)展開(kāi)為隱含馬爾科夫識(shí)別語(yǔ)音對(duì)齊網(wǎng)絡(luò),使用強(qiáng)容錯(cuò)隱含馬爾科夫聲學(xué)模型對(duì)文本自動(dòng)對(duì)齊強(qiáng)制切分;通過(guò)語(yǔ)音識(shí)別技術(shù)對(duì)每個(gè)切分段的切分結(jié)果進(jìn)行可信度評(píng)估,可很容易發(fā)現(xiàn)切分錯(cuò)誤之處便于進(jìn)一步處理;直接根據(jù)切分結(jié)果生成各種格式適用于各種設(shè)備的視聽(tīng)字幕文件。借此,本發(fā)明可以在無(wú)人工干預(yù)或很少人工干預(yù)的情況下直接得到高質(zhì)量的視聽(tīng)字幕文件,從而大大提供視聽(tīng)教學(xué)字幕加配的工作效率。
圖I是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的結(jié)構(gòu)示意圖2是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的原始文本處理模塊的優(yōu)選結(jié)構(gòu)圖3是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的注音模塊的優(yōu)選結(jié)構(gòu)圖4是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的強(qiáng)制切分模塊的優(yōu)選結(jié)構(gòu)圖5是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的切分可信度評(píng)估模塊的優(yōu)選結(jié)構(gòu)圖6是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的錯(cuò)誤處理模塊的優(yōu)選結(jié)構(gòu)圖7是本發(fā)明視聽(tīng)字幕制作方法的流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。圖I是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的結(jié)構(gòu)示意圖,所述視聽(tīng)字幕制作系統(tǒng)100可以是軟件單元,硬件單元或軟硬件結(jié)合單元,并且所述視聽(tīng)字幕制作系統(tǒng)100包括原始文本處理模塊10、注音模塊20、原始聲音處理模塊30、強(qiáng)制切分模塊40、切分可信度評(píng)估模塊50、錯(cuò)誤處理模塊60以及字幕生成模塊70,其中
所述原始文本處理模塊10,用于將輸入的原始文本分詞后按指定規(guī)則分割為合適長(zhǎng)度的句子或短語(yǔ),并將所述句子或短語(yǔ)發(fā)送到注音模塊20。所述注音模塊20,用于處理所述句子或短語(yǔ)中的非登錄詞,然后通過(guò)查注音詞典生成注音網(wǎng)絡(luò),并將所述注音網(wǎng)絡(luò)發(fā)送到強(qiáng)制切分模塊40。所述原始聲音處理模塊30,用于將輸入的原始聲音處理成預(yù)定要求的聲音流,并將所述聲音流發(fā)送到強(qiáng)制切分模塊40。所述原始聲音處理模塊30用于規(guī)范化聲音文件,即經(jīng)過(guò)重采樣、去噪聲等操作轉(zhuǎn)換為符合要求的格式,而后將規(guī)范化后的聲音流送入強(qiáng)制切分模塊40。優(yōu)選的是,所述原始聲音處理模塊30用于根據(jù)所述原始聲音的格式,采用對(duì)應(yīng)的算法進(jìn)行解碼,根據(jù)聲學(xué)模型的要求重新采樣為指定的采樣頻率,再經(jīng)過(guò)去噪聲處理轉(zhuǎn)換為預(yù)定要求的聲音流。所述強(qiáng)制切分模塊40,用于將所述注音網(wǎng)絡(luò)切分為隱含馬爾科夫識(shí)別語(yǔ)音的對(duì)齊網(wǎng)絡(luò),然后將所述聲音流提取為特征流并在所述對(duì)齊網(wǎng)絡(luò)對(duì)齊,并將切分結(jié)果輸入到切分可信度評(píng)估模塊50。所述切分可信度評(píng)估模塊50,用于通過(guò)語(yǔ)音識(shí)別對(duì)所述切分結(jié)果中每個(gè)切分段進(jìn)行可信度評(píng)估得到切分可信度評(píng)估結(jié)果,若所述切分可信度評(píng)估結(jié)果達(dá)到預(yù)定值,則將所述切分結(jié)果直接發(fā)送到字幕生成模塊70,否則將所述切分可信度評(píng)估結(jié)果發(fā)送到錯(cuò)誤處理模塊60。所述錯(cuò)誤處理模塊60,用于顯示所述切分可信度評(píng)估結(jié)果,判斷是所述原始文本有誤還是所述切分結(jié)果需要人工微調(diào),若所述切分結(jié)果需要人工微調(diào)則人工微調(diào)所述切分結(jié)果并發(fā)送到字幕生成模塊70,若是所述原始文本有誤則人工修改原始文本后重新交由所述原始文本處理模塊切分。錯(cuò)誤處理模塊60用于顯示切分可信度評(píng)估結(jié)果,重點(diǎn)是把切分可信度得分低的地方標(biāo)記出來(lái),便于人工判斷是原始文本有誤還是需要人工微調(diào)切分結(jié)果,若需要人工微調(diào)切分結(jié)果則微調(diào)后把結(jié)果送入字幕生成模塊,若發(fā)現(xiàn)是原始文本有誤則人工修改原始文本后重新切分。所述字幕生成模塊70,用于結(jié)合預(yù)定的字幕文件格式,將所述切分結(jié)果輸出字幕文件。優(yōu)選的是,字幕生成模塊70用于將切分結(jié)果結(jié)合輸入的作者、版權(quán)、備注、字幕格式的信息輸出包括LRC、SRT、SSA等格式的字幕文件。圖2是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的原始文本處理模塊的優(yōu)選結(jié)構(gòu)圖,所述原始文本處理模塊10還包括
分詞子模塊11,用于將所述原始文本用雙數(shù)組Trie樹(shù)分詞算法分成含有若干個(gè)詞的詞語(yǔ)流。文本切分子模塊12,用于將所述詞語(yǔ)流自動(dòng)切分成長(zhǎng)度合適的句子或短語(yǔ),具體切分方法為從前向后遍歷所述詞語(yǔ)流,依據(jù)句子邊界符號(hào)將所述詞語(yǔ)流切分成句子流。從前向后遍歷每個(gè)句子,若所述句子的長(zhǎng)度大于預(yù)定值,則依次嘗試從逗號(hào)、從句、連接詞或任意詞處分開(kāi)所述句子,直到所述句子的長(zhǎng)度小于或等于所述預(yù)定值。圖3是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的注音模塊的優(yōu)選結(jié)構(gòu)圖,所述注音模塊20還包括
非登錄詞處理子模塊21,用于將切分好的所述句子或短語(yǔ)中含有的不在所述注音詞典中的詞,通過(guò)形近詞替換、直接刪除或人工注音方法轉(zhuǎn)換為已知的讀音的詞。注音網(wǎng)絡(luò)生成子模塊22,首先將切分處理非登錄詞后的詞語(yǔ)流中每個(gè)詞語(yǔ)首尾相連,建立詞語(yǔ)網(wǎng)絡(luò),再查得每個(gè)詞語(yǔ)所有可能的發(fā)音展開(kāi)為注音網(wǎng)絡(luò)。所述形近詞替換,用于自動(dòng)選中詞庫(kù)中一個(gè)最相近的詞w*替換原詞。其中替換詞w*通過(guò)以下方法得到
w* = arg min c e C D(w, c),
公式中w為原詞,w*為替換詞,C為注音詞典集合,D為兩詞間的編輯距離函數(shù)。圖4是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的強(qiáng)制切分模塊的優(yōu)選結(jié)構(gòu)圖,所述強(qiáng)制切分模塊40還包括
聲學(xué)網(wǎng)絡(luò)生成子模塊41,用于將所述注音網(wǎng)絡(luò)展開(kāi),并在詞語(yǔ)間加入啞音(SP音),擴(kuò)充為隱馬爾科夫聲學(xué)模型的聲學(xué)網(wǎng)絡(luò),發(fā)送到隱藏狀態(tài)序列搜索模塊中。特征提取子模塊42,用于將從所述聲音流中逐幀提取音頻,經(jīng)過(guò)加窗處理后提取符合隱馬爾科夫聲學(xué)模型的聲學(xué)參數(shù),生成逐幀的所述特征流,發(fā)送到隱藏狀態(tài)序列搜索模塊中。隱藏狀態(tài)序列搜索子模塊43,用于將所述特征流與所述聲學(xué)網(wǎng)絡(luò)通過(guò)維特比算法進(jìn)行對(duì)齊,并選取所述特征流所經(jīng)過(guò)的聲學(xué)網(wǎng)絡(luò)節(jié)點(diǎn)為所搜索的隱藏狀態(tài)序列,將隱藏狀態(tài)序列搜索結(jié)果發(fā)送到切分結(jié)果生成模塊。切分結(jié)果生成子模塊44,用于從所述隱藏狀態(tài)序列搜索結(jié)果中求出每個(gè)切分好的句子的起止位置Sn和En。所述句子的起止位置Sn和En通過(guò)以下公式得到
Sn = (An+Bn-l)/2* FD, En = (Bn+An+1) /2*FD。其中,所述Sn和En的計(jì)算公式中An、Bn為分別表示第η個(gè)切分后的句子的一個(gè)隱藏狀態(tài)序列的序號(hào)和最后一個(gè)隱藏狀態(tài)序列的序號(hào),并令BO =AU ΑΝ+1=ΒΝ (N為切分后的句子個(gè)數(shù)),F(xiàn)D為特征提取子模塊所用音頻幀的時(shí)長(zhǎng)。圖5是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的切分可信度評(píng)估模塊的優(yōu)選結(jié)構(gòu)圖,所述切分可信度評(píng)估模塊50還包括
特征段切分子模塊51,用于將每個(gè)所述句子依據(jù)得到的起止位置Sn和En從所述特征流中獨(dú)立提取出來(lái)。音節(jié)識(shí)別子模塊52,用于將所述特征流識(shí)別為音節(jié)流,所述音節(jié)識(shí)別子模塊包括識(shí)別網(wǎng)絡(luò)建立單元和對(duì)齊解碼單元。所述識(shí)別網(wǎng)絡(luò)建立單元53,用于將語(yǔ)料中計(jì)算得到的一元二元音節(jié)語(yǔ)法模型,建立音節(jié)轉(zhuǎn)移概率網(wǎng)絡(luò),再將每個(gè)音節(jié)擴(kuò)充為隱馬爾科夫聲學(xué)模型中的狀態(tài)序列,組成最后的語(yǔ)音識(shí)別網(wǎng)絡(luò)。所述對(duì)齊解碼單元54,用于通過(guò)維特比算法,根據(jù)所述特征流和所述語(yǔ)音識(shí)別網(wǎng)絡(luò)求出具有最大概率的路徑,并將其對(duì)應(yīng)的音節(jié)序列,即語(yǔ)音識(shí)別出的音節(jié)序列發(fā)送到可信度分?jǐn)?shù)計(jì)算子模塊??尚哦确?jǐn)?shù)計(jì)算子模塊55,用于計(jì)算得到識(shí)別出的所述音節(jié)序列和文本中的音節(jié)序列的相似度分?jǐn)?shù)F,將F作為切分可信度評(píng)估結(jié)果。所述相似度分?jǐn)?shù)F使用以下公式計(jì)算得到
F= (LR - LD(SS, SR) ) / LS *100。其中,所述LR、LS分別為識(shí)別出的所述音節(jié)序列、文本中的音節(jié)序列音節(jié)個(gè)數(shù),SS, SR分別為識(shí)別出的音節(jié)序列、文本中的音節(jié)序列,LD為計(jì)算兩序列最小編輯距離的函數(shù)。圖6是本發(fā)明視聽(tīng)字幕制作系統(tǒng)的錯(cuò)誤處理模塊的優(yōu)選結(jié)構(gòu)圖,所述錯(cuò)誤處理模塊60還包括
切分結(jié)果與可信度展示子模塊61,用于顯示所述切分結(jié)果與所述切分可信度評(píng)估結(jié)果。優(yōu)選的是,所述切分結(jié)果與可信度展示子模塊61用于將同步展示規(guī)范化后聲音聲波波形、切分的文本和其切分可信度得分,并可從任意選中的位置回放規(guī)范化后的聲音。同步展示通過(guò)如下方法將規(guī)范化后聲音的數(shù)字采樣值作縱坐標(biāo)、時(shí)間作橫坐標(biāo)做波形圖,再將切分后的文本按切分結(jié)果顯示在相應(yīng)區(qū)域,最后對(duì)波形圖分段著色,紅色表示此段可信度得分低,黃色表示此段可信度得分較低,綠色表示此段可信度得分高??尚哦鹊梅指叩偷呐袛嗍峭ㄟ^(guò)比較可信度得分和預(yù)先設(shè)定的閾值來(lái)確定的。人工輔助切分子模塊62,用于所述切分結(jié)果需要人工微調(diào)時(shí),將手動(dòng)矯正所述切分結(jié)果,并將矯正后的所述切分結(jié)果發(fā)送到所述字幕生成模塊,以及用于在所述原始文本有誤時(shí),則人工修改原始文本后交由所述原始文本處理模塊重新切分。圖7是本發(fā)明視聽(tīng)字幕制作方法的流程圖,所述方法包括步驟如下
步驟S701,原始文本處理步驟將輸入的原始文本分詞后按指定規(guī)則分割為合適長(zhǎng)度的句子或短語(yǔ)。優(yōu)選的是,根據(jù)原始文本的實(shí)際格式和字幕應(yīng)用場(chǎng)合的其它要求,使用原始文本處理模塊10將輸入的原始文本分詞后按指定規(guī)則分割為適當(dāng)長(zhǎng)度合適的句子或短語(yǔ)。優(yōu)選的是,所述原始文本處理步驟還包括
分詞子步驟,將所述原始文本用雙數(shù)組Trie樹(shù)分詞算法分成含有若干個(gè)詞的詞語(yǔ)流。文本切分子步驟,將所述詞語(yǔ)流自動(dòng)切分成長(zhǎng)度合適的句子或短語(yǔ),具體切分方法為從前向后遍歷所述詞語(yǔ)流,依據(jù)句子邊界符號(hào)將所述詞語(yǔ)流切分成句子流。從前向后遍歷每個(gè)句子,若所述句子的長(zhǎng)度大于預(yù)定值,則依次嘗試從逗號(hào)、從句、連接詞或任意詞處分開(kāi)所述句子,直到所述句子的長(zhǎng)度小于或等于所述預(yù)定值。所述形近詞替換,自動(dòng)選中詞庫(kù)中一個(gè)最相近的詞w*替換原詞。其中替換詞w*通過(guò)以下方法得到
w* = arg min c e C D(w, c),
公式中w為原詞,w*為替換詞,C為注音詞典集合,D為兩詞間的編輯距離函數(shù)。例如,為MP3播放設(shè)備制作的字幕,最大切分長(zhǎng)度可設(shè)為12個(gè)單詞。根據(jù)詞典和預(yù)先定義的分詞規(guī)則,生成雙數(shù)組Trie樹(shù),然后將原始文本流送入雙數(shù)組Trie樹(shù)進(jìn)行分詞。從前向后遍歷每個(gè)詞,從句子邊界符將詞語(yǔ)切分成句子,比如英語(yǔ)中的句子邊界符號(hào)集為
?。俊钡?。再一次變量每個(gè)句子,如果句子長(zhǎng)度大于所設(shè)定的最大切分長(zhǎng)度,就先嘗試從逗號(hào)分開(kāi)再依次嘗試從從句、連接詞、任意詞等處分開(kāi)直到長(zhǎng)度達(dá)到要求。比如英語(yǔ)中如果存在“,”就先從“,”分開(kāi),如果分開(kāi)后的長(zhǎng)度達(dá)到要求就繼續(xù)下一個(gè)句子,否則嘗試從what、that等從句引導(dǎo)詞前面分開(kāi),還沒(méi)達(dá)到要求可從and、or等連詞中分開(kāi)。最后如果還沒(méi)達(dá)到要求就從中間的一個(gè)任意單詞分開(kāi)直到到達(dá)切分要求為止。步驟S702,注音步驟處理所述句子或短語(yǔ)中的非登錄詞,優(yōu)選將非登錄詞替換為形近的登錄詞或直接去掉非登錄詞,然后通過(guò)查注音詞典生成注音網(wǎng)絡(luò)。優(yōu)選的是,所述注音步驟還包括
非登錄詞處理子步驟,將切分好的所述句子或短語(yǔ)中含有的不在所述注音詞典中的詞,通過(guò)形近詞替換、直接刪除或人工注音方法轉(zhuǎn)換為已知的讀音的詞。注音網(wǎng)絡(luò)生成子步驟,首先將切分處理非登錄詞后的詞語(yǔ)流中每個(gè)詞語(yǔ)首尾相連,建立詞語(yǔ)網(wǎng)絡(luò),再查得每個(gè)詞語(yǔ)所有可能的發(fā)音展開(kāi)為注音網(wǎng)絡(luò)。對(duì)切分好的句子標(biāo)注發(fā)音,生成發(fā)音網(wǎng)絡(luò)。在生成網(wǎng)絡(luò)之前,需要掃描每個(gè)句子的所有詞,找出其中所有不在一個(gè)預(yù)先制作的發(fā)音詞典之中的詞,即非登錄詞。由于對(duì)齊模塊的強(qiáng)容錯(cuò)性,如果非登錄詞在句子的中間可以假設(shè)它不發(fā)音(相對(duì)于生成注音網(wǎng)絡(luò)時(shí)把這個(gè)詞從直接刪除了),對(duì)切分結(jié)果影響不大。如果非登錄詞在句子的開(kāi)頭或末尾,可以人工進(jìn)行注音,也可以選擇一個(gè)詞典中形近的詞替換它。通過(guò)以上處理后,再將處理后的所有詞首尾相連,建立詞語(yǔ)網(wǎng)絡(luò),查得每個(gè)詞語(yǔ)所有可能的發(fā)音展開(kāi)為注音網(wǎng)絡(luò)。步驟S703,原始聲音處理步驟將輸入的原始聲音處理成預(yù)定要求的聲音流。優(yōu)選的是,所述原始聲音處理步驟中根據(jù)所述原始聲音的格式,采用對(duì)應(yīng)的算法進(jìn)行解碼,根據(jù)聲學(xué)模型的要求重新采樣為指定的采樣頻率,再經(jīng)過(guò)去噪聲處理轉(zhuǎn)換為預(yù)定要求的聲音流。例如,原始聲音為采樣頻率44100赫茲、雙聲道的MP3格式,聲學(xué)模型適用采樣頻率16000赫茲、單聲道的PCM格式的聲音,就需要進(jìn)行轉(zhuǎn)換。先調(diào)用MP3解碼器解碼MP3數(shù)據(jù)流為PCM格式,再重采樣把采樣頻率44100赫茲、雙聲道轉(zhuǎn)換為16000赫茲、單聲道。如果原始聲音噪音較大,可以進(jìn)行去噪聲處理。例如如果聲音文件的首尾只有噪聲成分,那么可以截取首尾各O. 3秒進(jìn)行學(xué)習(xí)得到噪聲成分參數(shù),再根據(jù)此噪聲成分參數(shù)去噪聲。步驟S704,強(qiáng)制切分步驟將所述注音網(wǎng)絡(luò)切分為隱含馬爾科夫識(shí)別語(yǔ)音的對(duì)齊網(wǎng)絡(luò),然后將所述聲音流提取為特征流并在所述對(duì)齊網(wǎng)絡(luò)對(duì)齊,將切分結(jié)果保存并輸出。優(yōu)選的是,所述強(qiáng)制切分步驟還包括
聲學(xué)網(wǎng)絡(luò)生成子步驟,將所述注音網(wǎng)絡(luò)展開(kāi),并在詞語(yǔ)間加入啞音,擴(kuò)充為隱馬爾科夫聲學(xué)模型的聲學(xué)網(wǎng)絡(luò)。例如,英語(yǔ)中單詞is在注首網(wǎng)絡(luò)里為一ih一z一, ih首在聲學(xué)模型中有4個(gè)狀態(tài),z音在聲學(xué)模型中有5個(gè)狀態(tài),那么可以一 ihl—· . ih4—zl—. . . 一 z5—sp—。特征提取子步驟,將從所述聲音流中逐幀提取音頻,經(jīng)過(guò)加窗處理后提取符合隱馬爾科夫聲學(xué)模型的聲學(xué)參數(shù),生成逐幀的所述特征流。例如每25ms為一幀進(jìn)行分幀處理,窗偏移量為10ms,采用漢明窗進(jìn)行加窗處理,再提取出MFCC特征。隱藏狀態(tài)序列搜索子步驟,將所述特征流與所述聲學(xué)網(wǎng)絡(luò)通過(guò)維特比算法進(jìn)行對(duì)齊,并選取所述特征流所經(jīng)過(guò)的聲學(xué)網(wǎng)絡(luò)節(jié)點(diǎn)為所搜索的隱藏狀態(tài)序列搜索結(jié)果。切分結(jié)果生成子步驟,從所述隱藏狀態(tài)序列搜索結(jié)果中求出每個(gè)切分好的句子的起止位置Sn和En。所述句子的起止位置Sn和En通過(guò)以下公式得到
Sn = (An+Bn-l)/2* FD, En = (Bn+An+1) /2*FD。
其中,所述Sn和En的計(jì)算公式中An、Bn為分別表示第η個(gè)切分后的句子的一個(gè)隱藏狀態(tài)序列的序號(hào)和最后一個(gè)隱藏狀態(tài)序列的序號(hào),并令BO =AU ΑΝ+1=ΒΝ (N為切分后的句子個(gè)數(shù)),F(xiàn)D為特征提取子步驟所用音頻幀的時(shí)長(zhǎng)。步驟S705,切分可信度評(píng)估步驟通過(guò)語(yǔ)音識(shí)別對(duì)所述切分結(jié)果中每個(gè)切分段進(jìn)行可信度評(píng)估得到切分可信度評(píng)估結(jié)果,若所述切分可信度評(píng)估結(jié)果達(dá)到預(yù)定值,則將所述切分結(jié)果直接發(fā)送到字幕生成步驟處理,否則將所述切分可信度評(píng)估結(jié)果發(fā)送到錯(cuò)誤處理步驟處理。優(yōu)選的是,對(duì)每個(gè)切分段,提取相應(yīng)的特征流段,調(diào)用切分可信度評(píng)估模塊,通過(guò)語(yǔ)音識(shí)別得到一串音節(jié)序列,和原始比較得出此切分段切分效果的可信度評(píng)估分?jǐn)?shù)。如果評(píng)估分?jǐn)?shù)高于預(yù)設(shè)的值則轉(zhuǎn)到步驟S707,否則轉(zhuǎn)到步驟S706。優(yōu)選的是,所述切分可信度評(píng)估步驟還包括
特征段切分子步驟,將每個(gè)所述句子依據(jù)得到的起止位置Sn和En從所述特征流中獨(dú)立提取出來(lái)。音節(jié)識(shí)別子步驟,將所述特征流識(shí)別為音節(jié)流,所述音節(jié)識(shí)別子步驟包括識(shí)別網(wǎng)絡(luò)建立步驟和對(duì)齊解碼步驟。所述識(shí)別網(wǎng)絡(luò)建立步驟,將語(yǔ)料中計(jì)算得到的一元二元音節(jié)語(yǔ)法模型,建立音節(jié)轉(zhuǎn)移概率網(wǎng)絡(luò),再將每個(gè)音節(jié)擴(kuò)充為隱馬爾科夫聲學(xué)模型中的狀態(tài)序列,組成最后的語(yǔ)音識(shí)別網(wǎng)絡(luò)。所述對(duì)齊解碼步驟,通過(guò)維特比算法,根據(jù)所述特征流和所述語(yǔ)音識(shí)別網(wǎng)絡(luò)求出具有最大概率的路徑,并將其對(duì)應(yīng)的音節(jié)序列,即語(yǔ)音識(shí)別出的音節(jié)序列發(fā)送到可信度分?jǐn)?shù)計(jì)算子步驟處理。可信度分?jǐn)?shù)計(jì)算子步驟,計(jì)算得到識(shí)別出的所述音節(jié)序列和文本中的音節(jié)序列的相似度分?jǐn)?shù)F,將F作為切分可信度評(píng)估結(jié)果。所述相似度分?jǐn)?shù)F使用以下公式計(jì)算得到
F= (LR - LD(SS, SR) ) / LS *100。其中,所述LR、LS分別為識(shí)別出的所述音節(jié)序列、文本中的音節(jié)序列音節(jié)個(gè)數(shù),SS, SR分別為識(shí)別出的音節(jié)序列、文本中的音節(jié)序列,LD為計(jì)算兩序列最小編輯距離的函數(shù)。步驟S706,錯(cuò)誤處理步驟顯示所述切分可信度評(píng)估結(jié)果,判斷是所述原始文本有誤還是所述切分結(jié)果需要人工微調(diào),若所述切分結(jié)果需要人工微調(diào)則人工微調(diào)所述切分結(jié)果,若是所述原始文本有誤則人工修改原始文本后交由所述原始文本處理步驟重新切分。優(yōu)選的是,所述錯(cuò)誤處理步驟還包括
切分結(jié)果與可信度展示子步驟,顯示所述切分結(jié)果與所述切分可信度評(píng)估結(jié)果。重點(diǎn)是把切分可信度評(píng)估結(jié)果的得分低的地方標(biāo)記出來(lái),便于人工判斷是原始文本有誤還是需要人工微調(diào)切分結(jié)果。人工輔助切分子步驟,所述切分結(jié)果需要人工微調(diào)時(shí),將手動(dòng)矯正所述切分結(jié)果,并將矯正后的所述切分結(jié)果發(fā)送到所述字幕生成步驟,以及在所述原始文本有誤時(shí),則人工修改原始文本后交由所述原始文本處理步驟重新切分。例如,將規(guī)范化后聲音的數(shù)字采樣值作縱坐標(biāo)、時(shí)間作橫坐標(biāo)做波形圖,再將切分后的文本按切分結(jié)果顯示在相應(yīng)區(qū)域,最后對(duì)波形圖分段著色,紅色表示此段評(píng)估得分低,黃色表示此段評(píng)估得分較低,綠色表示此段評(píng)估得分高。其中得分高低的判斷是通過(guò)比較評(píng)估得分和預(yù)先設(shè)定的閾值來(lái)確定的,例如本實(shí)施例中得分大于80分為綠色,得分6(Γ80間為黃色,60分以下為紅色。操作員重點(diǎn)觀察紅色部分,確認(rèn)是原始文本中有錯(cuò)誤還是切分錯(cuò)誤。如果是原始文本有錯(cuò)誤,修改后轉(zhuǎn)到步驟S701。如果是切分錯(cuò)誤,可以手動(dòng)矯正切分結(jié)果,保存矯正后的結(jié)果,轉(zhuǎn)到步驟S707。步驟S707,字幕生成步驟結(jié)合預(yù)定的字幕文件格式,將所述切分結(jié)果輸出字幕文件。優(yōu)選的是,調(diào)用字幕生成模塊70用于將切分結(jié)果結(jié)合輸入的作者、版權(quán)、備注、字幕格式的信息輸出包括LRC、SRT、SSA等格式的字幕文件,其中,其中LRC格式主要用于音頻文件的字幕,SRT主要應(yīng)用于簡(jiǎn)單的視頻字幕,SSA格式用于復(fù)雜的字幕顯示如像類似卡拉OK
字幕的展示。其中,所述步驟S701、步驟S702兩個(gè)步驟和步驟S703是獨(dú)立的,沒(méi)有先后順序,可以互換。綜上所述,本發(fā)明能自動(dòng)處理原始文本,分割為限定長(zhǎng)度的句子或短語(yǔ);采用形近詞替代等方法自動(dòng)處理非登錄詞,建立多發(fā)音注音網(wǎng)絡(luò);將注音網(wǎng)絡(luò)展開(kāi)為隱含馬爾科夫識(shí)別語(yǔ)音對(duì)齊網(wǎng)絡(luò),使用強(qiáng)容錯(cuò)隱含馬爾科夫聲學(xué)模型對(duì)文本自動(dòng)對(duì)齊強(qiáng)制切分;通過(guò)語(yǔ)音識(shí)別技術(shù)對(duì)每個(gè)切分段的切分結(jié)果進(jìn)行可信度評(píng)估,可很容易發(fā)現(xiàn)切分錯(cuò)誤之處便于進(jìn)一步處理;直接根據(jù)切分結(jié)果生成各種格式適用于各種設(shè)備的視聽(tīng)字幕文件。借此,本發(fā)明可以在無(wú)人工干預(yù)或很少人工干預(yù)的情況下直接得到高質(zhì)量的視聽(tīng)字幕文件,從而大大提供視聽(tīng)教學(xué)字幕加配的工作效率。當(dāng)然,本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種視聽(tīng)字幕制作系統(tǒng),其特征在于,所述系統(tǒng)包括原始文本處理模塊,用于將輸入的原始文本分詞后按指定規(guī)則分割為合適長(zhǎng)度的句子或短語(yǔ),并將所述句子或短語(yǔ)發(fā)送到注音模塊;注音模塊,用于處理所述句子或短語(yǔ)中的非登錄詞,然后通過(guò)查注音詞典生成注音網(wǎng)絡(luò),并將所述注音網(wǎng)絡(luò)發(fā)送到強(qiáng)制切分模塊;原始聲音處理模塊,用于將輸入的原始聲音處理成預(yù)定要求的聲音流,并將所述聲音流發(fā)送到強(qiáng)制切分模塊;強(qiáng)制切分模塊,用于將所述注音網(wǎng)絡(luò)切分為隱含馬爾科夫識(shí)別語(yǔ)音的對(duì)齊網(wǎng)絡(luò),然后將所述聲音流提取為特征流并在所述對(duì)齊網(wǎng)絡(luò)對(duì)齊,并將切分結(jié)果輸入到切分可信度評(píng)估模塊;切分可信度評(píng)估模塊,用于通過(guò)語(yǔ)音識(shí)別對(duì)所述切分結(jié)果中每個(gè)切分段進(jìn)行可信度評(píng)估得到切分可信度評(píng)估結(jié)果,若所述切分可信度評(píng)估結(jié)果達(dá)到預(yù)定值,則將所述切分結(jié)果直接發(fā)送到字幕生成模塊,否則將所述切分可信度評(píng)估結(jié)果發(fā)送到錯(cuò)誤處理模塊;錯(cuò)誤處理模塊,用于顯示所述切分可信度評(píng)估結(jié)果,判斷是所述原始文本有誤還是所述切分結(jié)果需要人工微調(diào),若所述切分結(jié)果需要人工微調(diào)則人工微調(diào)所述切分結(jié)果并發(fā)送到字幕生成模塊,若是所述原始文本有誤則人工修改原始文本后重新交由所述原始文本處理模塊切分;字幕生成模塊,用于結(jié)合預(yù)定的字幕文件格式,將所述切分結(jié)果輸出字幕文件。
2.根據(jù)權(quán)利要求I所述的視聽(tīng)字幕制作系統(tǒng),其特征在于,所述原始文本處理模塊還包括分詞子模塊,用于將所述原始文本用雙數(shù)組Trie樹(shù)分詞算法分成含有若干個(gè)詞的詞語(yǔ)流;文本切分子模塊,用于將所述詞語(yǔ)流自動(dòng)切分成長(zhǎng)度合適的句子或短語(yǔ),具體切分方法為從前向后遍歷所述詞語(yǔ)流,依據(jù)句子邊界符號(hào)將所述詞語(yǔ)流切分成句子流;從前向后遍歷每個(gè)句子,若所述句子的長(zhǎng)度大于預(yù)定值,則依次嘗試從逗號(hào)、從句、連接詞或任意詞處分開(kāi)所述句子,直到所述句子的長(zhǎng)度小于或等于所述預(yù)定值。
3.根據(jù)權(quán)利要求I所述的視聽(tīng)字幕制作系統(tǒng),其特征在于,所述強(qiáng)制切分模塊還包括聲學(xué)網(wǎng)絡(luò)生成子模塊,用于將所述注音網(wǎng)絡(luò)展開(kāi),并在詞語(yǔ)間加入啞音,擴(kuò)充為隱馬爾科夫聲學(xué)模型的聲學(xué)網(wǎng)絡(luò),發(fā)送到隱藏狀態(tài)序列搜索模塊中;特征提取子模塊,用于將從所述聲音流中逐幀提取音頻,經(jīng)過(guò)加窗處理后提取符合隱馬爾科夫聲學(xué)模型的聲學(xué)參數(shù),生成逐幀的所述特征流,發(fā)送到隱藏狀態(tài)序列搜索模塊中;隱藏狀態(tài)序列搜索子模塊,用于將所述特征流與所述聲學(xué)網(wǎng)絡(luò)通過(guò)維特比算法進(jìn)行對(duì)齊,并選取所述特征流所經(jīng)過(guò)的聲學(xué)網(wǎng)絡(luò)節(jié)點(diǎn)為所搜索的隱藏狀態(tài)序列,將隱藏狀態(tài)序列搜索結(jié)果發(fā)送到切分結(jié)果生成模塊;切分結(jié)果生成子模塊,用于從所述隱藏狀態(tài)序列搜索結(jié)果中求出每個(gè)切分好的句子的起止位置Sn和En。
4.根據(jù)權(quán)利要求3所述的視聽(tīng)字幕制作系統(tǒng),其特征在于,所述句子的起止位置Sn和En通過(guò)以下公式得到Sn= (A^1)/2* FD, En= (Bn+An+1) /2*FD ;其中,所述3 和En的計(jì)算公式中An、Bn為分別表示第η個(gè)切分后的句子的一個(gè)隱藏狀態(tài)序列的序號(hào)和最后一個(gè)隱藏狀態(tài)序列的序號(hào),并令Btl =Ai、AN+1=BN (N為切分后的句子個(gè)數(shù)),F(xiàn)D為特征提取子模塊所用音頻幀的時(shí)長(zhǎng)。
5.根據(jù)權(quán)利要求4所述的視聽(tīng)字幕制作系統(tǒng),其特征在于,所述切分可信度評(píng)估模塊還包括特征段切分子模塊,用于將每個(gè)所述句子依據(jù)得到的起止位置S1^P EnW所述特征流中獨(dú)立提取出來(lái);音節(jié)識(shí)別子模塊,用于將所述特征流識(shí)別為音節(jié)流,所述音節(jié)識(shí)別子模塊包括識(shí)別網(wǎng)絡(luò)建立單元和對(duì)齊解碼單元;所述識(shí)別網(wǎng)絡(luò)建立單元,用于將語(yǔ)料中計(jì)算得到的一元二元音節(jié)語(yǔ)法模型,建立音節(jié)轉(zhuǎn)移概率網(wǎng)絡(luò),再將每個(gè)音節(jié)擴(kuò)充為隱馬爾科夫聲學(xué)模型中的狀態(tài)序列,組成最后的語(yǔ)音識(shí)別網(wǎng)絡(luò);所述對(duì)齊解碼單元,用于通過(guò)維特比算法,根據(jù)所述特征流和所述語(yǔ)音識(shí)別網(wǎng)絡(luò)求出具有最大概率的路徑,并將其對(duì)應(yīng)的音節(jié)序列,即語(yǔ)音識(shí)別出的音節(jié)序列發(fā)送到可信度分?jǐn)?shù)計(jì)算子模塊;可信度分?jǐn)?shù)計(jì)算子模塊,用于計(jì)算得到識(shí)別出的所述音節(jié)序列和文本中的音節(jié)序列的相似度分?jǐn)?shù)F,將F作為切分可信度評(píng)估結(jié)果。
6.根據(jù)權(quán)利要求5所述的視聽(tīng)字幕制作系統(tǒng),其特征在于,所述相似度分?jǐn)?shù)F使用以下公式計(jì)算得到F = ( Le- LD(Ss, Se) ) / Ls *100 ;其中,所述LK、Ls分別為識(shí)別出的所述音節(jié)序列、文本中的音節(jié)序列音節(jié)個(gè)數(shù),Ss, Se分別為識(shí)別出的音節(jié)序列、文本中的音節(jié)序列,LD為計(jì)算兩序列最小編輯距離的函數(shù)。
7.根據(jù)權(quán)利要求I所述的視聽(tīng)字幕制作系統(tǒng),其特征在于,所述錯(cuò)誤處理模塊還包括切分結(jié)果與可信度展示子模塊,用于顯示所述切分結(jié)果與所述切分可信度評(píng)估結(jié)果;人工輔助切分子模塊,用于所述切分結(jié)果需要人工微調(diào)時(shí),將手動(dòng)矯正所述切分結(jié)果,并將矯正后的所述切分結(jié)果發(fā)送到所述字幕生成模塊,以及用于在所述原始文本有誤時(shí),則人工修改原始文本后交由所述原始文本處理模塊重新切分。
8.—種視聽(tīng)字幕制作方法,其特征在于,包括步驟如下原始文本處理步驟,將輸入的原始文本分詞后按指定規(guī)則分割為合適長(zhǎng)度的句子或短語(yǔ);注音步驟,處理所述句子或短語(yǔ)中的非登錄詞,然后通過(guò)查注音詞典生成注音網(wǎng)絡(luò);原始聲音處理步驟,將輸入的原始聲音處理成預(yù)定要求的聲音流;強(qiáng)制切分步驟,將所述注音網(wǎng)絡(luò)切分為隱含馬爾科夫識(shí)別語(yǔ)音的對(duì)齊網(wǎng)絡(luò),然后將所述聲音流提取為特征流并在所述對(duì)齊網(wǎng)絡(luò)對(duì)齊;切分可信度評(píng)估步驟,通過(guò)語(yǔ)音識(shí)別對(duì)所述切分結(jié)果中每個(gè)切分段進(jìn)行可信度評(píng)估得到切分可信度評(píng)估結(jié)果,若所述切分可信度評(píng)估結(jié)果達(dá)到預(yù)定值,則將所述切分結(jié)果直接發(fā)送到字幕生成步驟處理,否則將所述切分可信度評(píng)估結(jié)果發(fā)送到錯(cuò)誤處理步驟處理;錯(cuò)誤處理步驟,顯示所述切分可信度評(píng)估結(jié)果,判斷是所述原始文本有誤還是所述切分結(jié)果需要人工微調(diào),若所述切分結(jié)果需要人工微調(diào)則人工微調(diào)所述切分結(jié)果,若是所述原始文本有誤則人工修改原始文本后交由所述原始文本處理步驟重新切分;字幕生成步驟,結(jié)合預(yù)定的字幕文件格式,將所述切分結(jié)果輸出字幕文件。
9.根據(jù)權(quán)利要求8所述的視聽(tīng)字幕制作方法,其特征在于,所述原始文本處理步驟還包括分詞子步驟,將所述原始文本用雙數(shù)組Trie樹(shù)分詞算法分成含有若干個(gè)詞的詞語(yǔ)流;文本切分子步驟,將所述詞語(yǔ)流自動(dòng)切分成長(zhǎng)度合適的句子或短語(yǔ),具體切分方法為從前向后遍歷所述詞語(yǔ)流,依據(jù)句子邊界符號(hào)將所述詞語(yǔ)流切分成句子流;從前向后遍歷每個(gè)句子,若所述句子的長(zhǎng)度大于預(yù)定值,則依次嘗試從逗號(hào)、從句、連接詞或任意詞處分開(kāi)所述句子,直到所述句子的長(zhǎng)度小于或等于所述預(yù)定值。
10.根據(jù)權(quán)利要求8所述的視聽(tīng)字幕制作方法,其特征在于,所述強(qiáng)制切分步驟還包括聲學(xué)網(wǎng)絡(luò)生成子步驟,將所述注音網(wǎng)絡(luò)展開(kāi),并在詞語(yǔ)間加入啞音,擴(kuò)充為隱馬爾科夫聲學(xué)模型的聲學(xué)網(wǎng)絡(luò);特征提取子步驟,將從所述聲音流中逐幀提取音頻,經(jīng)過(guò)加窗處理后提取符合隱馬爾科夫聲學(xué)模型的聲學(xué)參數(shù),生成逐幀的所述特征流;隱藏狀態(tài)序列搜索子步驟,將所述特征流與所述聲學(xué)網(wǎng)絡(luò)通過(guò)維特比算法進(jìn)行對(duì)齊,并選取所述特征流所經(jīng)過(guò)的聲學(xué)網(wǎng)絡(luò)節(jié)點(diǎn)為所搜索的隱藏狀態(tài)序列搜索結(jié)果;切分結(jié)果生成子步驟,從所述隱藏狀態(tài)序列搜索結(jié)果中求出每個(gè)切分好的句子的起止位置Sn和En。
11.根據(jù)權(quán)利要求10所述的視聽(tīng)字幕制作方法,其特征在于,所述句子的起止位置Sn和En通過(guò)以下公式得到Sn= (A^1)/2* FD, En= (Bn+An+1) /2*FD ;其中,所述3 和En的計(jì)算公式中An、Bn為分別表示第η個(gè)切分后的句子的一個(gè)隱藏狀態(tài)序列的序號(hào)和最后一個(gè)隱藏狀態(tài)序列的序號(hào),并令Btl =Ai、AN+1=BN (N為切分后的句子個(gè)數(shù)),F(xiàn)D為特征提取子步驟所用音頻幀的時(shí)長(zhǎng)。
12.根據(jù)權(quán)利要求11所述的視聽(tīng)字幕制作方法,其特征在于,所述切分可信度評(píng)估步驟還包括特征段切分子步驟,將每個(gè)所述句子依據(jù)得到的起止位置S1^PEn從所述特征流中獨(dú)立提取出來(lái);音節(jié)識(shí)別子步驟,將所述特征流識(shí)別為音節(jié)流,所述音節(jié)識(shí)別子步驟包括識(shí)別網(wǎng)絡(luò)建立單元和對(duì)齊解碼單元;所述識(shí)別網(wǎng)絡(luò)建立單元,將語(yǔ)料中計(jì)算得到的一元二元音節(jié)語(yǔ)法模型,建立音節(jié)轉(zhuǎn)移概率網(wǎng)絡(luò),再將每個(gè)音節(jié)擴(kuò)充為隱馬爾科夫聲學(xué)模型中的狀態(tài)序列,組成最后的語(yǔ)音識(shí)別網(wǎng)絡(luò);所述對(duì)齊解碼單元,通過(guò)維特比算法,根據(jù)所述特征流和所述語(yǔ)音識(shí)別網(wǎng)絡(luò)求出具有最大概率的路徑,并將其對(duì)應(yīng)的音節(jié)序列,即語(yǔ)音識(shí)別出的音節(jié)序列發(fā)送到可信度分?jǐn)?shù)計(jì)算子步驟處理;可信度分?jǐn)?shù)計(jì)算子步驟,計(jì)算得到識(shí)別出的所述音節(jié)序列和文本中的音節(jié)序列的相似度分?jǐn)?shù)F,將F作為切分可信度評(píng)估結(jié)果。
13.根據(jù)權(quán)利要求12所述的視聽(tīng)字幕制作方法,其特征在于,所述相似度分?jǐn)?shù)F使用以下公式計(jì)算得到F= ( Le- LD (Ss, Se) ) / Ls *100 ;其中,所述LK、Ls分別為識(shí)別出的所述音節(jié)序列、文本中的音節(jié)序列音節(jié)個(gè)數(shù),Ss, Se分別為識(shí)別出的音節(jié)序列、文本中的音節(jié)序列,LD為計(jì)算兩序列最小編輯距離的函數(shù)。
14.根據(jù)權(quán)利要求8所述的視聽(tīng)字幕制作方法,其特征在于,所述錯(cuò)誤處理步驟還包括切分結(jié)果與可信度展示子步驟,顯示所述切分結(jié)果與所述切分可信度評(píng)估結(jié)果;人工輔助切分子步驟,所述切分結(jié)果需要人工微調(diào)時(shí),將手動(dòng)矯正所述切分結(jié)果,并將矯正后的所述切分結(jié)果發(fā)送到所述字幕生成步驟,以及在所述原始文本有誤時(shí),則人工修改原始文本后交由所述原始文本處理步驟重新切分。
全文摘要
本發(fā)明提供了一種視聽(tīng)字幕制作系統(tǒng)及方法,所述系統(tǒng)包括原始文本處理模塊、注音模塊、原始聲音處理模塊、強(qiáng)制切分模塊、切分可信度評(píng)估模塊、錯(cuò)誤處理模塊、字幕生成模塊。本發(fā)明能自動(dòng)處理原始文本,分割為限定長(zhǎng)度的句子或短語(yǔ);采用形近詞替代等方法自動(dòng)處理非登錄詞,建立多發(fā)音注音網(wǎng)絡(luò);將注音網(wǎng)絡(luò)展開(kāi)為隱含馬爾科夫識(shí)別語(yǔ)音對(duì)齊網(wǎng)絡(luò),使用強(qiáng)容錯(cuò)隱含馬爾科夫聲學(xué)模型對(duì)文本自動(dòng)對(duì)齊強(qiáng)制切分;通過(guò)語(yǔ)音識(shí)別技術(shù)對(duì)每個(gè)切分段的切分結(jié)果進(jìn)行可信度評(píng)估,可很容易發(fā)現(xiàn)切分錯(cuò)誤以便進(jìn)一步處理;直接根據(jù)切分結(jié)果生成各種格式適用于各種設(shè)備的視聽(tīng)字幕文件。借此,本發(fā)明可在無(wú)人工干預(yù)或很少人工干預(yù)的情況下直接得到高質(zhì)量的視聽(tīng)字幕文件。
文檔編號(hào)G10L15/14GK102937972SQ201210389708
公開(kāi)日2013年2月20日 申請(qǐng)日期2012年10月15日 優(yōu)先權(quán)日2012年10月15日
發(fā)明者張?jiān)铺? 莊智象, 黃衛(wèi), 黃河, 張中良 申請(qǐng)人:上海外教社信息技術(shù)有限公司