一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng)及方法
【專利摘要】一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng)及方法,包括:預(yù)處理模塊、模型修改模塊、音頻識(shí)別模塊、識(shí)別結(jié)果反饋模塊和字幕生成模塊;預(yù)處理模塊包括對(duì)視頻的預(yù)處理,文本的預(yù)處理以及關(guān)鍵詞的預(yù)處理;模型修改模塊包含的內(nèi)容為利用預(yù)處理過程中得到的文本資料對(duì)識(shí)別過程中的語(yǔ)言模型進(jìn)行修改;音頻識(shí)別模塊對(duì)上傳視頻的識(shí)別;識(shí)別結(jié)果反饋模塊對(duì)識(shí)別的結(jié)果進(jìn)行關(guān)鍵詞提取,提取到的關(guān)鍵詞又可以調(diào)用預(yù)處理過程中對(duì)于用戶輸入的關(guān)鍵詞的處理辦法進(jìn)行處理;字幕生成模塊:字幕生成過程中對(duì)最終的識(shí)別結(jié)果進(jìn)行規(guī)范化,加上時(shí)間軸等信息,得到真正的字幕。本發(fā)明解決了公開課字幕生產(chǎn)的難題,通過自動(dòng)化的處理,減輕了人工生產(chǎn)字幕的人力負(fù)擔(dān),為大家學(xué)習(xí)英文公開課提供了極大的便利。
【專利說明】一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng)及方法,屬于多媒體和語(yǔ)音識(shí)別【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著信息化的普及,各種開放的資源越來(lái)越多。以高校的課程資源為例,一些世界一流的學(xué)校相繼推出了各個(gè)領(lǐng)域的視頻公開課,為學(xué)習(xí)相關(guān)知識(shí)提供了更加便捷的機(jī)會(huì)。但是美中不足的是各種視頻往往沒有字幕,由于語(yǔ)言的障礙,這給學(xué)習(xí)帶來(lái)了很大的困難?,F(xiàn)有的常見的解決辦法就是利用專門的字幕生成團(tuán)隊(duì),專門為相關(guān)的視頻添加字幕,這一過程往往耗時(shí)耗力;同時(shí)由于公開課等視頻往往屬于某些專門的領(lǐng)域,比如計(jì)算機(jī)、法律、文學(xué)等,因此字幕生成過程中需要領(lǐng)域相關(guān)的專家,這也加大了字幕生成的難度。
[0003]語(yǔ)音識(shí)別技術(shù)從上世紀(jì)50年代起步,經(jīng)過半個(gè)多世紀(jì)的發(fā)展,取得了顯著的成就,特別是最近十年以來(lái),逐步走出實(shí)驗(yàn)室實(shí)現(xiàn)商業(yè)化,國(guó)內(nèi)外都有大量成熟的系統(tǒng)面市,當(dāng)然利用這些已經(jīng)成熟的系統(tǒng),可以從公開課的視頻中獲取字幕信息,但是由于公開課設(shè)計(jì)的知識(shí)面廣泛,而且有很多的專業(yè)性的詞匯,導(dǎo)致最后的識(shí)別精度不夠理想。
【發(fā)明內(nèi)容】
[0004]本發(fā)明技術(shù)解決問題:克服現(xiàn)有技術(shù)的不足,提供一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng)及方法,以當(dāng)下的公開課資源出發(fā),通過利用語(yǔ)音識(shí)別的相關(guān)技術(shù),結(jié)合自然語(yǔ)言處理的方法,解決了公開課字幕生產(chǎn)的難題,通過自動(dòng)化的處理,減輕了人工生產(chǎn)字幕的人力負(fù)擔(dān),為大家學(xué)習(xí)英文公開課提供了極大的便利。
[0005]本發(fā)明技術(shù)解決方案:一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng),包括:預(yù)處理模塊、模型修改模塊、音頻識(shí)別模塊、識(shí)別結(jié)果反饋模塊和字幕生成模塊;其中:
[0006]預(yù)處理模塊包括對(duì)視頻的預(yù)處理、文本的預(yù)處理及關(guān)鍵詞的處理;對(duì)視頻的預(yù)處理是對(duì)用戶提供的公開課視頻進(jìn)行音頻的提取與轉(zhuǎn)換,即用戶提供的視頻格式可以是多種多樣的,將最后得到的音頻格式進(jìn)行統(tǒng)一;文本的預(yù)處理是對(duì)需要進(jìn)行提取與轉(zhuǎn)換,根據(jù)用戶提供的各種格式的文本信息,對(duì)其中的文本信息進(jìn)行檢索和過濾,將所有的不同格式的文本資料進(jìn)行統(tǒng)一的格式轉(zhuǎn)換,即統(tǒng)一放到一個(gè)文本文件中,以供后續(xù)的使用,并對(duì)統(tǒng)一后的文本進(jìn)行信息檢索和過濾,獲取到有用的純文本資料,即完全的英文文本且不含圖表及其他符號(hào);文本預(yù)處理模塊中還包括關(guān)鍵詞預(yù)處理,即利用用戶輸入的關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索和信息提取,獲取到相應(yīng)的純文本資料,并和由用戶提供的文本文件提取到的有用純文本資料一起用于修改識(shí)別模型;
[0007]模型修改模塊,利用預(yù)處理模塊得到的純文本資料對(duì)識(shí)別過程中的語(yǔ)言模型進(jìn)行修改,得到修改后的語(yǔ)言模型;
[0008]所述在利用用戶提供的文本資料生成新的語(yǔ)言模型之后,將這個(gè)新生成的模型與原來(lái)的通過模型進(jìn)行合并,采用帶權(quán)線性插值的方法,得到一個(gè)新的識(shí)別模型,以提高相關(guān)詞的概率,從而達(dá)到優(yōu)化模型的目的;
[0009]音頻識(shí)別模塊,對(duì)在預(yù)處理模塊后得到的音頻文件進(jìn)行語(yǔ)音識(shí)別,識(shí)別的過程中,首先要將音頻文件轉(zhuǎn)化成特征值序列,然后對(duì)照語(yǔ)音模型和語(yǔ)言模型對(duì)各個(gè)可能的識(shí)別結(jié)果進(jìn)行解析和打分,這其中主要利用的就是HMM模型中的三個(gè)問題,即根據(jù)語(yǔ)音識(shí)別中的特征值序列計(jì)算最優(yōu)的狀態(tài)序列即對(duì)應(yīng)于識(shí)別結(jié)果,針對(duì)打分結(jié)果輸出識(shí)別結(jié)果;
[0010]識(shí)別結(jié)果反饋模塊,針對(duì)上一次的識(shí)別結(jié)果,即對(duì)單個(gè)文本進(jìn)行關(guān)鍵詞的提取,所以不能直接采用在網(wǎng)絡(luò)檢索中采用廣泛的TF-1DF基于詞頻統(tǒng)計(jì)的方法進(jìn)行提取,本系統(tǒng)采取了基于詞組間關(guān)系的關(guān)鍵詞提取算法進(jìn)行提取。
[0011]字幕生成模塊,對(duì)最終的識(shí)別結(jié)果進(jìn)行整理,最后輸出的文件格式是標(biāo)準(zhǔn)的srt(SubRip Text)格式字幕文件,然后對(duì)最終結(jié)果加入時(shí)間軸信息。
[0012]所述模型修改模塊中的語(yǔ)言模型的修改包括模型生成和模型插值,所述模型生成就是利用預(yù)處理模塊得到的純文本資料構(gòu)建語(yǔ)言模型,模型插值則是將新構(gòu)建的語(yǔ)言模型與原來(lái)的通用語(yǔ)言模型進(jìn)行插值;具體來(lái)說語(yǔ)言模型的構(gòu)建就是通過對(duì)純文本資料中的詞組進(jìn)行統(tǒng)計(jì),分別計(jì)算出詞組在純文本資料中出現(xiàn)的概率以及期望;語(yǔ)言模型的插值則是將計(jì)算結(jié)果與原來(lái)的通用語(yǔ)言模型中的概率進(jìn)行插值,得到詞組對(duì)應(yīng)的新概率,如下面的公式所示:
[0013]Ρ(ω h) = λ Pc(G) h) + (l-A)Pa (ω h) (O ≤ λ ≤ I)
[0014]其中Ρε(ω |h)為通用模型中的概率,Pa (ω | h)為利用純文本資料新計(jì)算出的概率,Ρ(ω |h)為最終得到的概率,λ為插值系數(shù)。
[0015]所述音頻識(shí)別模塊的具體識(shí)別的過程為:首先要將音頻文件轉(zhuǎn)化成特征值序列,再利用語(yǔ)音模型對(duì)特征值序列進(jìn)行解析,獲得可能的識(shí)別結(jié)果,然后對(duì)照語(yǔ)言模型對(duì)各個(gè)可能的識(shí)別結(jié)果進(jìn)行打分,其中主要涉及到了 HMM模型中的第三個(gè)問題,即根據(jù)語(yǔ)音識(shí)別中的特征值序列計(jì)算最優(yōu)的狀態(tài)序列即對(duì)應(yīng)于識(shí)別結(jié)果,針對(duì)打分結(jié)果輸出識(shí)別結(jié)果。
[0016]所述識(shí)別結(jié)果反饋模塊的具體過程為:首先對(duì)識(shí)別結(jié)果進(jìn)行關(guān)鍵詞的提取,即從識(shí)別結(jié)果中提取出與視頻的主題和內(nèi)容相關(guān)的關(guān)鍵詞,然后利用提取到的關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索和信息提取,獲取相關(guān)的純文本資料,這一過程與預(yù)處理中對(duì)關(guān)鍵詞的處理相同,然后利用這些純文本資料再次修正語(yǔ)言模型。
[0017]一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成方法,實(shí)現(xiàn)步驟如下:
[0018](I)用戶添加視頻、文本或輸入關(guān)鍵詞,對(duì)于用戶添加的視頻,進(jìn)行音頻提取和格式轉(zhuǎn)換,從而得到統(tǒng)一格式的音頻文件;對(duì)于用戶添加的文本進(jìn)行檢索和過濾,將所有的不同格式的文本進(jìn)行統(tǒng)一的格式轉(zhuǎn)換,即統(tǒng)一放到一個(gè)文本文件中,并對(duì)得到的文本進(jìn)行信息的檢索和過濾,獲取到有用的純文本資料,以供后續(xù)的使用;對(duì)于用戶輸入的關(guān)鍵詞,利用關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索和信息提取,獲取相關(guān)的純文本資料,和從用戶提供的文本中獲取的純文本資料一起用于修改識(shí)別模型;
[0019](2)利用修改后的模型進(jìn)行音頻的識(shí)別,得到識(shí)別結(jié)果,識(shí)別結(jié)果進(jìn)一步反饋,通過關(guān)鍵詞提取后再次回到網(wǎng)絡(luò)檢索,識(shí)別過程以此方式不斷迭代,最終得到字幕。
[0020]本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:
[0021](I)本發(fā)明以目前的公開課資源出發(fā),通過利用語(yǔ)音識(shí)別的相關(guān)技術(shù),結(jié)合自然語(yǔ)言處理的方法,解決了公開課字幕生產(chǎn)的難題,通過自動(dòng)化的處理,減輕了人工生產(chǎn)字幕的人力負(fù)擔(dān),為大家學(xué)習(xí)英文公開課提供了極大的便利。
[0022](2)本發(fā)明利用語(yǔ)音識(shí)別技術(shù),為公開課視頻自動(dòng)生成字幕,考慮到公開課自身領(lǐng)域性的特點(diǎn),系統(tǒng)重點(diǎn)研究如何實(shí)現(xiàn)語(yǔ)音識(shí)別過程中的領(lǐng)域自適應(yīng),以提高字幕生成的質(zhì)量。整個(gè)系統(tǒng)的意義在于利用語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)公開課字幕生成的自動(dòng)化和智能化,節(jié)省大量的人力和物力,同時(shí)為想要學(xué)習(xí)的人提供更好的資源。
【專利附圖】
【附圖說明】
[0023]圖1為本發(fā)明系統(tǒng)的組成框圖;
[0024]圖2為本發(fā)明方法的實(shí)現(xiàn)流程圖;
[0025]圖3為本發(fā)明中預(yù)處理模塊的實(shí)現(xiàn)流程圖;
[0026]圖4為標(biāo)準(zhǔn)語(yǔ)音識(shí)別流程圖;
[0027]圖5為語(yǔ)言模型構(gòu)建流程圖。
【具體實(shí)施方式】
[0028]如圖1、2所示,本發(fā)明包括:預(yù)處理模塊、模型修改模塊、音頻識(shí)別模塊、識(shí)別結(jié)果反饋模塊和字幕生成模塊;預(yù)處理模塊:包括對(duì)視頻的預(yù)處理,文本的預(yù)處理以及關(guān)鍵詞的預(yù)處理;模型修改模塊:模型的修改包含的內(nèi)容為利用預(yù)處理過程中得到的文本資料對(duì)識(shí)別過程中的語(yǔ)言模型進(jìn)行修改;音頻識(shí)別模塊:對(duì)上傳視頻的識(shí)別;關(guān)鍵詞提取模塊--關(guān)鍵詞提取的對(duì)象是識(shí)別得到的字幕,提取到的關(guān)鍵詞又可以調(diào)用預(yù)處理過程中對(duì)于用戶輸入的關(guān)鍵詞的處理辦法進(jìn)行處理,此過程構(gòu)成迭代;字幕生成模塊:字幕生成過程中對(duì)最終的識(shí)別結(jié)果進(jìn)行規(guī)范化,加上時(shí)間軸等信息,得到真正的字幕。
[0029]下面分別對(duì)各模塊進(jìn)行詳細(xì)說明。
[0030]1.預(yù)處理模塊
[0031]整個(gè)預(yù)處理模塊中包括了視頻的預(yù)處理、文本的預(yù)處理以及關(guān)鍵詞的預(yù)處理三個(gè)部分,下面逐一介紹。
[0032]如圖3所示,整個(gè)預(yù)處理模塊過程的流程如下:
[0033]( I)視頻預(yù)處理
[0034]對(duì)視頻的預(yù)處理主要是對(duì)用戶提供的公開課視頻進(jìn)行音頻的提取與轉(zhuǎn)換,用戶提供的視頻格式可以是多種多樣的,需要將最后得到的音頻格式進(jìn)行統(tǒng)一,在這個(gè)過程中,調(diào)用了 FFmpeg接口,將音頻的格式統(tǒng)一到wav格式,并且統(tǒng)一音頻文件的聲道以及采樣率等等。對(duì)于識(shí)別系統(tǒng),將所有提取出來(lái)的音頻統(tǒng)一到聲道為單聲道,采樣率為44100,比特率為705kb。
[0035](2)文本預(yù)處理
[0036]與視頻的預(yù)處理一樣,文本的預(yù)處理也需要進(jìn)行提取與轉(zhuǎn)換,根據(jù)用戶提供的各種格式的文本信息,對(duì)其中的文本信息進(jìn)行檢索和過濾。由于用戶提供的文本資料的格式可能是多種多樣的,比如word、ppt、pdf等等,所以第一步的處理就是將所有的不同格式的文本資料進(jìn)行統(tǒng) 一的格式轉(zhuǎn)換,即統(tǒng)一放到一個(gè)文本文件(txt格式)中,以供后續(xù)的使用。
[0037]對(duì)于得到的文本文件,進(jìn)行信息的檢索和過濾。由于整個(gè)系統(tǒng)為英文的語(yǔ)音識(shí)別系統(tǒng),所以首先要做的就是去掉文本中的非英文部分,其次,為了方便后續(xù)模型的建立,還需要將句子進(jìn)行整理,包括標(biāo)點(diǎn)符號(hào)的去掉,句子的合并與分割。整個(gè)處理過程都是利用正則表達(dá)式的方法進(jìn)行,最終得到純文本資料。
[0038](3)關(guān)鍵詞處理
[0039]關(guān)鍵詞的處理主要是利用關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索,獲取到相應(yīng)的文本資料。對(duì)于用戶輸入的關(guān)鍵詞,系統(tǒng)根據(jù)關(guān)鍵詞進(jìn)行搜索,主要的搜索入口包括wik1、google學(xué)術(shù)、freebase等。與一般的網(wǎng)絡(luò)爬蟲不同,F(xiàn)ASAS系統(tǒng)在此處的處理方式是根據(jù)頁(yè)面或者文件與關(guān)鍵詞的關(guān)系進(jìn)行篩選,對(duì)于得到的文本資料(以文件為單位),調(diào)用文本預(yù)處理的方法處理即可得到純文本資料。
[0040]2.模型修改模塊
[0041]模型修改部分包括的內(nèi)容有兩個(gè)部分:模型的生成和模型的插值。關(guān)于模型的生成就是利用預(yù)處理得到的純文本資料構(gòu)建模型;模型的插值則是將新構(gòu)建的模型與原來(lái)的模型進(jìn)行插值。
[0042](I)模型生成
[0043]在介紹模型生成之前,先對(duì)語(yǔ)音識(shí)別的基本原理進(jìn)行一個(gè)粗略的介紹,如圖4所 示,語(yǔ)音識(shí)別的基本過程大致可以分為三步:特征提取、模型庫(kù)建立以及最后的模式匹配。
[0044]特征提取的主要工作就是對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行處理,獲得相應(yīng)的特征值,從而將語(yǔ)音信號(hào)轉(zhuǎn)化為對(duì)應(yīng)的特征值序列以供識(shí)別;模型庫(kù)的建立又包括語(yǔ)音模型的建立和語(yǔ)言模型的建立;模式匹配則是根據(jù)前兩部所得到的結(jié)果進(jìn)行打分,選擇得分最高的結(jié)果,即匹配程度最大的結(jié)果進(jìn)行輸出。
[0045]語(yǔ)言模型(Language Model, LM)是通過大量文本訓(xùn)練出來(lái)的表征每個(gè)詞以及詞組在整個(gè)說話過程中出現(xiàn)的概率的一個(gè)記錄表?,F(xiàn)在的比較主流的語(yǔ)言模型都包括:一元模型(Unigram), 二元模型(Bigram),三元模型(Trigram)。LM廣泛運(yùn)用與自然語(yǔ)言處理中。在語(yǔ)音識(shí)別的過程中,通過語(yǔ)音模型和語(yǔ)言模型進(jìn)行各種可能結(jié)果出現(xiàn)概率的計(jì)算,從而選擇出現(xiàn)概率最大的結(jié)果進(jìn)行輸出。
[0046]由于LM描述給定詞序列在語(yǔ)言中的出現(xiàn)的概率的分布,所以改變模型從某種程度上來(lái)講就是改變?cè)~序列的分布概率。前面已經(jīng)提到對(duì)于任何的公開課視頻都是有其特定的領(lǐng)域和知識(shí)背景的,甚至能夠得到與視頻相關(guān)的文本資料的,所以可以利用這些文本資料對(duì)識(shí)別的過程進(jìn)行改進(jìn):通過這些文本資料對(duì)識(shí)別過程中的語(yǔ)言模型進(jìn)行修改。
[0047](2)模型生成
[0048]根據(jù)對(duì)語(yǔ)言模型建立方法的比較,系統(tǒng)選定了以Good-Turing算法為基礎(chǔ)的語(yǔ)言模型構(gòu)建方法。
[0049]在此說明一下語(yǔ)言模型的內(nèi)容以及主要功能,在Good-Turing算法下,為降低模型的復(fù)雜度,只對(duì)一元、二元和三元語(yǔ)法進(jìn)行統(tǒng)計(jì)與計(jì)算,即首先統(tǒng)計(jì)訓(xùn)練集中各種語(yǔ)法出現(xiàn)的概率,然后利用Good-Turing算法進(jìn)行概率計(jì)算和打折。此外,考慮到訓(xùn)練文本的局限性,還需要對(duì)一元和二元詞的回退概率進(jìn)行計(jì)算。
[0050]對(duì)于Good-Turing算法,如圖5所示流程,利用公式I計(jì)算^:[0051]
【權(quán)利要求】
1.一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng),其特征在于包括:預(yù)處理模塊、模型修改模塊、音頻識(shí)別模塊、識(shí)別結(jié)果反饋模塊和字幕生成模塊;其中: 預(yù)處理模塊,包括對(duì)視頻預(yù)處理、文本預(yù)處理及關(guān)鍵詞預(yù)處理;對(duì)視頻預(yù)處理是對(duì)于用戶添加的視頻進(jìn)行音頻提取和格式轉(zhuǎn)換,從而得到統(tǒng)一格式的音頻文件;文本預(yù)處理是對(duì)于用戶添加的文本進(jìn)行檢索和過濾,將所有不同格式的文本進(jìn)行統(tǒng)一的格式轉(zhuǎn)換,即統(tǒng)一到一個(gè)文本中,以供后續(xù)的使用,并對(duì)統(tǒng)一后的文本進(jìn)行信息檢索和過濾,獲取到有用的純文本資料,即完全的英文文本且不含圖表及其他符號(hào);文本預(yù)處理模塊中還包括關(guān)鍵詞預(yù)處理,即利用用戶輸入的關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索和信息提取,獲取到相應(yīng)的純文本資料,并和由用戶提供的文本文件提取到的有用純文本資料一起用于修改識(shí)別模型; 模型修改模塊,利用預(yù)處理模塊得到的純文本資料對(duì)識(shí)別過程中的語(yǔ)言模型進(jìn)行修改,得到修改后的語(yǔ)言模型; 音頻識(shí)別模塊,利用修改后的語(yǔ)言模型對(duì)預(yù)處理中提出到的音頻文件進(jìn)行識(shí)別,得到識(shí)別結(jié)果; 識(shí)別結(jié)果反饋模塊,對(duì)識(shí)別得到結(jié)果進(jìn)行關(guān)鍵詞提取,提取到的關(guān)鍵詞又調(diào)用預(yù)處理模塊中對(duì)于用戶輸入關(guān)鍵詞的處理辦法進(jìn)行處理,此過程構(gòu)成迭代,得到最終的識(shí)別結(jié)果; 字幕生成模塊,字幕生成過程完成對(duì)最終的識(shí)別結(jié)果進(jìn)行規(guī)范化,加上時(shí)間軸等附加信息,得到真正的字幕文件。
2.根據(jù)權(quán)利要求1所述的領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng),其特征在于:所述模型修改模塊中的語(yǔ)言模型的修改包括模型生成和模型插值,所述模型生成就是利用預(yù)處理模塊得到的純文本資料構(gòu) 建語(yǔ)言模型,模型插值則是將新構(gòu)建的語(yǔ)言模型與原來(lái)的通用語(yǔ)言模型進(jìn)行插值;具體來(lái)說語(yǔ) 言模型的構(gòu)建就是通過對(duì)純文本資料中的詞組進(jìn)行統(tǒng)計(jì),分別計(jì)算出詞組在純文本資料中出現(xiàn)的概率以及期望;語(yǔ)言模型的插值則是將計(jì)算結(jié)果與原來(lái)的通用語(yǔ)言模型中的概率進(jìn)行插值,得到詞組對(duì)應(yīng)的新概率,如下面的公式所示:
P (ω I h) = λΡε(ω |h) + (l-A)Pa (ω |h) (O ≤ λ ( I) 其中PJcoIh)為通用模型中的概率,Pa(?|h)為利用純文本資料新計(jì)算出的概率,Ρ(ω |h)為最終得到的概率,λ為插值系數(shù)。
3.根據(jù)權(quán)利要求1所述的領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng),其特征在于:所述音頻識(shí)別模塊的具體識(shí)別的過程為:首先要將音頻文件轉(zhuǎn)化成特征值序列,再利用語(yǔ)音模型對(duì)特征值序列進(jìn)行解析,獲得可能的識(shí)別結(jié)果,然后對(duì)照語(yǔ)言模型對(duì)各個(gè)可能的識(shí)別結(jié)果進(jìn)行打分,其中主要涉及到了 HMM模型中的第三個(gè)問題,即根據(jù)語(yǔ)音識(shí)別中的特征值序列計(jì)算最優(yōu)的狀態(tài)序列即對(duì)應(yīng)于識(shí)別結(jié)果,針對(duì)打分結(jié)果輸出識(shí)別結(jié)果。
4.根據(jù)權(quán)利要求1所述的領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成系統(tǒng),其特征在于:所述識(shí)別結(jié)果反饋模塊的具體過程為:首先對(duì)識(shí)別結(jié)果進(jìn)行關(guān)鍵詞的提取,即從識(shí)別結(jié)果中提取出與視頻的主題和內(nèi)容相關(guān)的關(guān)鍵詞,然后利用提取到的關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索和信息提取,獲取相關(guān)的純文本資料,這一過程與預(yù)處理中對(duì)關(guān)鍵詞的處理相同,然后利用這些純文本資料再次修正語(yǔ)言模型。
5.一種領(lǐng)域自適應(yīng)的公開課字幕自動(dòng)生成方法,其特征在于實(shí)現(xiàn)步驟如下: (I)用戶添加視頻、文本或輸入關(guān)鍵詞,對(duì)于用戶添加的視頻,進(jìn)行音頻提取和格式轉(zhuǎn)換,從而得到統(tǒng)一格式的音頻文件;對(duì)于用戶添加的文本進(jìn)行檢索和過濾,將所有的不同格式的文本進(jìn)行統(tǒng)一的格式轉(zhuǎn)換,即統(tǒng)一放到一個(gè)文本文件中,并對(duì)得到的文本進(jìn)行信息的檢索和過濾,獲取到有用的純文本資料,以供后續(xù)的使用;對(duì)于用戶輸入的關(guān)鍵詞,利用關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)搜索和信息提取,獲取相關(guān)的純文本資料,和從用戶提供的文本中獲取的純文本資料一起用于修改識(shí)別模型; (2)利用修改后的模型進(jìn)行音頻的識(shí)別,得到識(shí)別結(jié)果,識(shí)別結(jié)果進(jìn)一步反饋,通過關(guān)鍵詞提取后再次回到 網(wǎng)絡(luò)檢索,識(shí)別過程以此方式不斷迭代,最終得到字幕。
【文檔編號(hào)】G10L15/18GK103885924SQ201310596791
【公開日】2014年6月25日 申請(qǐng)日期:2013年11月21日 優(yōu)先權(quán)日:2013年11月21日
【發(fā)明者】巢文涵, 馬國(guó)慶, 蘇一鳴, 李水華, 孫承根 申請(qǐng)人:北京航空航天大學(xué)