一種廣播電視語音識別系統(tǒng)方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種廣播電視語音識別方法及系統(tǒng),其中方法包括:根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);對音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù);將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;對數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。該方法對現(xiàn)有語音識別方法進行改進,融合各種廣播電視數(shù)據(jù)預(yù)處理技術(shù)以及廣播電視語音識別方法,對語音數(shù)據(jù)針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對各識別結(jié)果進行融合并生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為后續(xù)廣播電視節(jié)目的其他業(yè)務(wù)的智能化處理提供基礎(chǔ)數(shù)據(jù),且處理速度加快并提高準(zhǔn)確度。
【專利說明】—種廣播電視語音識別系統(tǒng)方法及系統(tǒng)【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音視頻處理【技術(shù)領(lǐng)域】,特別涉及一種廣播電視語音識別方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前在廣播電視領(lǐng)域,對廣播電視語音識別主要利用適用于各行業(yè)的傳統(tǒng)語音識別方法,而傳統(tǒng)的語音識別主要采用模式匹配法,分為訓(xùn)練和識別兩個階段,其中在訓(xùn)練階段,用戶將詞匯表中的每一詞依次讀或者說一遍,并且將其特征矢量作為模板存入模板庫;在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結(jié)果輸出。
[0003]但是該語音識別應(yīng)用在廣播電視領(lǐng)域的語音識別存在以下問題:
[0004]I)廣播電視行業(yè)對語音識別往往有特別的、不同于其他行業(yè)的處理和操作,但是由于上述傳統(tǒng)語音識別是應(yīng)用于各行業(yè)的,對于廣播電視行業(yè)沒有針對性,不能根據(jù)廣播電視行業(yè)的特點對廣播電視數(shù)據(jù)中的非語音內(nèi)容進行過濾。因為在廣播電視行業(yè)內(nèi)非語音內(nèi)容對于語音識別是不在處理范圍之內(nèi)的,所以如果不對非語音內(nèi)容進行過濾,就還需要對其進行傳輸和處理,不僅導(dǎo)致傳輸資源和計算資源的浪費,而且還會由于非語音內(nèi)容的存在導(dǎo)致出現(xiàn)較多的誤識別操作,并且影響處理速度。
[0005]2)由于傳統(tǒng)語音識別技術(shù)不具備針對廣播電視行業(yè)的語音識別功能,導(dǎo)致識別結(jié)果不夠完整,例如,對于一段廣播電視數(shù)據(jù)無法判斷出說話發(fā)生的場景以及說話人的身份等重要信息,無法對語音內(nèi)容根據(jù)不同的說話人進行分段,無法標(biāo)識每個語音詞的時間戳,對后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理無法提供任何有價值的參考信息。
[0006]綜上,傳統(tǒng)的語音識別方法應(yīng)用在廣播電視行業(yè)中存在耗費資源、處理速度慢、準(zhǔn)確度不高、提供信息量不足等問題。
【發(fā)明內(nèi)容】
[0007](一)要解決的技術(shù)問題
[0008]本發(fā)明要解決的技術(shù)問題是如何針對廣播電視行業(yè)特點進行語音識別,避免傳統(tǒng)語音識別方法在廣播電視行業(yè)應(yīng)用中存在的缺點,為后續(xù)其它廣播電視行業(yè)業(yè)務(wù)的智能化、自動化處理提供充足可用的基礎(chǔ)數(shù)據(jù)。
[0009](二)技術(shù)方案
[0010]為解決上述技術(shù)問題,本發(fā)明提供了一種廣播電視語音識別方法,包括:
[0011]S1、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);
[0012]S2、對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù);
[0013]S3、將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;
[0014]S4、對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識, 生成結(jié)構(gòu)化的語音識別結(jié)果。[0015]進一步地,步驟S2對所述音頻數(shù)據(jù)進行預(yù)處理具體包括:
[0016]S21、對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件;
[0017]S22、對所述句子文件進行非語音過濾,留下語音句子文件;
[0018]S23、對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識,判別為窄帶信號的語音句子文件添加窄帶標(biāo)識;
[0019]S24、對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
[0020]進一步地,步驟S3將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標(biāo)點符號識別,生成含有標(biāo)識的語音識別結(jié)果。
[0021]進一步地,步驟S4對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識具體包括:
[0022]S41、對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序;
[0023]S42、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記,包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
[0024]進一步地,步驟S3進行識別處理的過程是根據(jù)語言模型庫進行識別的,且所述語音模型庫通過網(wǎng)絡(luò)文本采集和網(wǎng)絡(luò)文本學(xué)習(xí)不斷進行更新。
[0025]為解決上述技術(shù)問題,本發(fā)明還提供了一種廣播電視語音識別系統(tǒng),該系統(tǒng)包括:
[0026]提取單元,根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);
[0027]預(yù)處理終端,對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù),并發(fā)送給云服務(wù)器;
[0028]云服務(wù)器,對所述特征文本數(shù)據(jù)進行識別處理,得到語音識別結(jié)果,并對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。
[0029]進一步地,所述預(yù)處理終端包括:
[0030]切分模塊,對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件;
[0031]非語音過濾模塊,對所述句子文件進行非語音過濾,留下語音句子文件;
[0032]寬窄帶判別模塊,對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識,判別為窄帶信號的語音句子文件添加窄帶標(biāo)識;
[0033]音頻特征提取模塊,對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
[0034]進一步地,所述云服務(wù)器包括:
[0035]男女聲識別模塊,用于對所述特征文本數(shù)據(jù)進行男女聲識別;
[0036]說話人識別模塊,用于對所述特征文本進行說話人識別;
[0037]語音內(nèi)容與標(biāo)點符號識別模塊,用于對所述特征文本進行語音內(nèi)容識別以及標(biāo)點符號識別,生成含有標(biāo)點符號標(biāo)識的語音識別結(jié)果;
[0038]識別結(jié)果處理模塊,對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。[0039]進一步地,所述識別結(jié)果處理模塊進一步包括:
[0040]匯總排序模塊,用于對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序;
[0041]加標(biāo)識模塊,用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記,包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
[0042]進一步地,所述云服務(wù)器中還包括:語言模型智能學(xué)習(xí)模塊,用于定期搜集網(wǎng)絡(luò)文本,通過對網(wǎng)絡(luò)文本的學(xué)習(xí)定期更新語言模型庫,在識別處理過程中根據(jù)定期更新的語言模型庫進行識別。
[0043](三)有益效果
[0044]本發(fā)明實施例提供了一種廣播電視語音識別方法及系統(tǒng),其中方法包括:根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù);將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。。該方法基于云計算對現(xiàn)有語音識別方法進行改進,融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法,對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為廣播電視節(jié)目的語音檢索、字幕識別、主持人識別等后期智能化處理功能提供基礎(chǔ)數(shù)據(jù),能夠使得廣播電視語音識別處理速度加快并提高準(zhǔn)確度。
[0045]為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù)具體包括以下幾 占-
^ \\\.[0046]I)對語音的識別結(jié)果以及對語音詞時間戳的標(biāo)識結(jié)果可以為廣播電視語音內(nèi)容的檢索業(yè)務(wù)提供基礎(chǔ)數(shù)據(jù);
[0047]2)對語音句子的切分時間點標(biāo)識結(jié)果,以及寬窄帶的判別結(jié)果,可以為廣播電視節(jié)目的拆分提供邊界時間點的參考;
[0048]3 )對廣播電視中語音內(nèi)容的識別以及標(biāo)點符號的識別,可以為廣播電視節(jié)目中的字幕識別提供內(nèi)容參考;
[0049]4)對語音句子的說話人識別以及寬窄帶的判別結(jié)果,可以為廣播電視節(jié)目中的主持人識別、嘉賓識別、說話場景識別(室內(nèi)場景、室外場景)等提供依據(jù)。
【專利附圖】
【附圖說明】
[0050]圖1為本發(fā)明實施例一提供的一種廣播電視語音識別方法的步驟流程圖;
[0051]圖2為本發(fā)明實施例一提供的預(yù)處理操作的步驟流程圖;
[0052]圖3為本發(fā)明實施例一提供的語音/非語音判別過程中音頻分類方法的技術(shù)框架示意圖;
[0053]圖4為本發(fā)明實施例一提供的對廣播電視數(shù)據(jù)進行語音識別的具體流程圖;
[0054]圖5為本發(fā)明實施例二提供的一種廣播電視語音識別系統(tǒng)的組成示意圖;
[0055]圖6為本發(fā)明實施例二提供的預(yù)處理終端的組成示意圖;[0056]圖7為本發(fā)明實施例二提供的云服務(wù)器的組成示意圖;
[0057]圖8為本發(fā)明實施例二提供的語音內(nèi)容與標(biāo)點符號識別模塊的工作流程圖;
[0058]圖9為本發(fā)明實施例二提供的云服務(wù)平臺架構(gòu)示意圖。
【具體實施方式】
[0059]下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】作進一步詳細(xì)描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0060]實施例一
[0061]本發(fā)明實施例一提供了一種廣播電視語音識別方法,步驟流程如圖1所示,具體包括以下步驟:
[0062]步驟S1、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)。
[0063]步驟S2、對音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù)。
[0064]步驟S3、將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;
[0065]步驟S4、對數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。
[0066]上述方法首先從用戶提供的待識別廣播電視數(shù)據(jù)(即音視頻數(shù)據(jù))中抽取出音頻數(shù)據(jù),并經(jīng)過預(yù)處理后得到特征文本數(shù)據(jù),再由云服務(wù)器對其進行識別處理,最后對得到的數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,最終生成結(jié)構(gòu)化的語音識別結(jié)果,并將其以可擴展標(biāo)記語言XML返回給用戶。對語音識別結(jié)果添加語音詞的時間戳、句子的時間戳、男女聲、說話人等標(biāo)識,能夠為廣播電視語音內(nèi)容的檢索、字幕識別以及主持人識別等提供依據(jù),更加方便后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理,為各種操作和處理提供基礎(chǔ)數(shù)據(jù)。
[0067]優(yōu)選地,本實施例步驟SI之前還包括:接收用戶發(fā)送的廣播電視數(shù)據(jù),其中該廣播電視數(shù)據(jù)中包括音視頻數(shù)據(jù),可以理解為音頻數(shù)據(jù)和視頻數(shù)據(jù)。接收到廣播電視數(shù)據(jù)之后,要首先判斷該廣播電視數(shù)據(jù)是否為語音識別系統(tǒng)支持的音視頻數(shù)據(jù)類型,如果不是支持的或者說可識別的音視頻數(shù)據(jù),則拒絕處理。
[0068]本實施例中的音視頻解碼采用G.711的編解碼標(biāo)準(zhǔn),利用ffmpeg軟件解碼工具實現(xiàn)音視頻的解碼,抽取音頻部分保存為Pcm格式,可兼容當(dāng)前各種主流的廣播電視音視頻數(shù)據(jù)格式,例如wmv,wma, wav, mp3, asf, rm, mp4、av1、flv等格式。如果判斷出是可識別的音視頻數(shù)據(jù),則對該音視頻數(shù)據(jù)進行解碼,并進一步從中提取出屬于音頻部分的數(shù)據(jù),并將得到的音頻數(shù)據(jù)作為步驟S2的待處理數(shù)據(jù)。
[0069]優(yōu)選地,本實施例中的步驟S2對音頻數(shù)據(jù)進行預(yù)處理,預(yù)處理內(nèi)容主要包括按照適合語音識別的標(biāo)準(zhǔn)進行切分以及碎片化,對碎片化后的句子文件進行語音/非語音、寬帶/窄帶的判別并標(biāo)識,最后提取包含有語音特征的特征文本數(shù)據(jù),預(yù)處理操作的步驟流程如圖2所示,具體包括以下步驟:
[0070]步驟S21、對音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件。
[0071]由于接收到的音頻數(shù)據(jù)是比較完整的數(shù)據(jù)塊,需要對其切分和碎片化處理,生成若干個小的、適合語音識別系統(tǒng)處理的句子文件。具體的切分過程如下:[0072]首先對該音頻數(shù)據(jù)進行解析,分析各音頻采樣點的能量信號值,找到靜音位置,在本實施例中以50幀,一幀200個采樣點作為靜音點閥值,超過該靜音點閥值時,說明該點為靜音位置;找到靜音位置之后,按照靜音位置對音頻數(shù)據(jù)進行切分,即碎片化生成離散的句子文件,并對每個句子文件打上時間標(biāo)識,最終得到的句子文件以Pcm格式保存。
[0073]步驟S22、對句子文件進行非語音過濾,留下語音句子文件。
[0074]由于步驟S21只是根據(jù)靜音位置對音頻數(shù)據(jù)進行切分,其中還包括大量的非語音內(nèi)容,而這些內(nèi)容對于后續(xù)的音頻識別沒有任何幫助,也起不到任何積極的作用,相反的,由于非語音內(nèi)容的存在還會加重語音識別系統(tǒng)對音頻數(shù)據(jù)的傳輸和計算的處理負(fù)擔(dān),還會導(dǎo)致誤識別的發(fā)生,因此需要對生成的句子文件進行非語音過濾,即對碎片化后的句子文件進行語音/非語音判別,剩下語音句子文件,該步驟具體如下:
[0075]首先,解析每個碎片化后的句子文件,根據(jù)語音/非語音分類模型,通過分類器對每個句子文件進行語音/非語音的判別;
[0076]其次,根據(jù)判別結(jié)果,對非語音的句子文件進行刪除標(biāo)識的操作,并記錄句子時間位置。
[0077]本實施例中使用了一種基于支持向量機(Support Vector Machine,簡稱SVM)的音頻分類方法,首先基于能量門限,把短句子分成靜音和非靜音,然后通過選擇有效而又魯棒的音頻特征,把非靜音信號分成4類:語音(純語音、非純語音)、非語音(音樂、環(huán)境音),該方法具有很高的分類準(zhǔn)確率和處理速度,該音頻分類方法的技術(shù)框架如圖3所示。
[0078]步驟S23、對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識,判別為窄帶信號的語音句子文件添加窄帶標(biāo)識。
[0079]對每個語音句子進行寬窄帶判別,以便根據(jù)判別結(jié)果為后續(xù)語音識別時選擇哪種語音識別模型提供參考,該步驟具體如下:
[0080]首先,對過濾后剩下的適合語音識別系統(tǒng)處理的語音句子片斷進行逐條分析,判別其語音句子為寬帶(高采樣率)或窄帶(低采樣率),以便后續(xù)語音識別時選擇哪種語音識別模型提供參考;
[0081]其次,對每條語音句子進行寬窄帶標(biāo)識,即對寬帶信號的語音句子文件添加寬帶標(biāo)識,對窄帶信號的語音句子文件添加窄帶標(biāo)識。
[0082]具體的,本實施例中寬窄帶判別通過分析音頻信號中的頻譜能量值進行判別,當(dāng)8K以上的頻譜能量值大于0.1時,該音頻信號為寬帶,當(dāng)8K以下的頻譜能量值小于或等于
0.1時,該音頻信號則為窄帶信號。
[0083]步驟S24、對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
[0084]為節(jié)省網(wǎng)絡(luò)帶寬資源,對語音句子文件添加寬窄帶標(biāo)識之后,還要進行音頻特征的提取,將音頻數(shù)據(jù)轉(zhuǎn)化為文本特征數(shù)據(jù),以減少網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量,具體如下:
[0085]首先,對對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行逐條分析,抽取MFCC(Mel Frequency Cepstrum Coefficient, Mel 頻率倒譜系數(shù))和 PLP (Packet LevelProtocol,分組級協(xié)議)語音特征,這是在語音識別領(lǐng)域常用的兩種語音特征;
[0086]其次,對抽取后的每條語音特征進行時間標(biāo)識,使得最后得到的特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于哪個音視頻文件的文件名稱以及對應(yīng)的寬窄帶標(biāo)識。
[0087]需要說明的是,該步驟不僅將輸入語音信號轉(zhuǎn)換成比較魯棒且具有區(qū)分能力的語音特征,用于區(qū)分不同的說話人,而且在特征提取基礎(chǔ)上還進行了一定的歸一化,其中的歸一化內(nèi)容包括:
[0088]I)均值歸一化CMN,主要降低信道影響;
[0089]2)方差歸一化CVN,主要降低加性噪聲影響;
[0090]3)聲道長度歸一化VTLN,主要降低聲道差異造成的影響;
[0091]4)高斯化 Gaussianization,是 CMN+CVN 的推廣算法;
[0092]5)抗噪算法,降低背景噪聲對系統(tǒng)性能影響,使用AWF和VTS算法。
[0093]優(yōu)選地,本實施例步驟S3將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器,進入語音識別流程。本實施例中云服務(wù)器調(diào)用模塊采用Web Service接口協(xié)議,將待識別的廣播電視任務(wù)信息以XML消息的方式發(fā)送至與服務(wù)器端進行語音識別。其中識別任務(wù)的XML消息包含以下內(nèi)容:
[0094]I)待識別的廣播電視文件名稱;
[0095]2)碎片化的句子文件列表;
[0096]3)每個句子文件的語音/非語音標(biāo)識;
[0097]4)每個句子文件的寬帶/窄帶標(biāo)識;
[0098]5)每個鑒定為語音的句子文件的語音特征文本;
[0099]6)每個句子文件的起止時間標(biāo)識。
[0100]云服務(wù)器接收到識別任務(wù)后,進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標(biāo)點符號識別,生成含有標(biāo)識的語音識別結(jié)果,該步驟具體如下:
[0101](I)將待識別的語音句子文件對應(yīng)的語音特征文本以XML (可擴展語言)消息的方式逐條發(fā)送到遠(yuǎn)端用于廣播電視語音識別處理的與服務(wù)器,在XML消息中除了包含語音特征文本數(shù)據(jù)之外,還應(yīng)該包含以下信息:語音句子文件對應(yīng)的起止時間、該語音句子文件歸屬的廣播電視音視頻文件名稱、該語音句子文件的寬窄帶標(biāo)識;
[0102](2)云服務(wù)器中的語音識別系統(tǒng)基于云計算框架構(gòu)建,當(dāng)語音句子的特征文本發(fā)送到廣播電視語音識別云時,通過控制器根據(jù)云服務(wù)器中計算資源的占用情況,為該條語音句子文件的識別合理分配計算資源;
[0103](3)語音識別系統(tǒng)調(diào)用分配到的計算資源對語音特征分別進行男女聲識別、說話人識別、語音內(nèi)容與標(biāo)點符號識別,其中男女聲識別根據(jù)男女聲分類模型,通過分類器對每個句子進行男女聲的分類判別并標(biāo)識;說話人識別根據(jù)說話人模型庫,對每個句子進行說話人的識別并標(biāo)識;語音內(nèi)容識別和標(biāo)點符號識別對每個句子進行語音內(nèi)容的識別,同時標(biāo)記標(biāo)點符號,并對識別出的每個詞匯進行時間標(biāo)注。
[0104]優(yōu)選地,本實施例步驟S4對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識的具體包括:
[0105]步驟S41、對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序,具體的:針對每個語音句子的識別結(jié)果進行融合,按照其歸屬的廣播電視音視頻文件進行匯總整理,將各句子的不同識別結(jié)果(男女聲識別、說話人識別、語音內(nèi)容與標(biāo)點符號識別)按照時間點對齊,并進行時間排序。[0106]步驟S42、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記,包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳,具體的:針對排序好的識別結(jié)果,按照特定的結(jié)構(gòu)化的格式進行文本結(jié)果標(biāo)識,標(biāo)識內(nèi)容包括每個句子文件的說話人性別、說話人、句子中的語音內(nèi)容、句子中每個語音詞的時間戳、句子中斷點的標(biāo)點符號。
[0107]最后生成結(jié)構(gòu)化的語音識別結(jié)果,之后再將語音識別結(jié)果以XML消息的形式反饋給用戶,其中XML消息包含以下內(nèi)容:
[0108]I)識別的廣播電視文件名稱;
[0109]2)碎片化的句子文件列表;
[0110]3)每個句子文件的語音/非語音標(biāo)識;
[0111]4)每個句子文件的寬帶/窄帶標(biāo)識;
[0112]5)每個句子文件的語音識別結(jié)果;
[0113]6)每個句子文件的說話人標(biāo)識;
[0114]7)每個句子文件的男女聲標(biāo)識;
[0115]8)每個句子文件的起止時間標(biāo)識。
[0116]優(yōu)選地,本實施例為保障語音識別的準(zhǔn)確率,在步驟S3進行識別處理的過程是根據(jù)聲學(xué)模型庫與語言模型庫進行識別的,其中語言模型庫通過對網(wǎng)絡(luò)文本的采集和對網(wǎng)絡(luò)文本的學(xué)習(xí)不斷進行更新。定期通過互聯(lián)網(wǎng)進行網(wǎng)絡(luò)文本的采集,通過對網(wǎng)絡(luò)文本的學(xué)習(xí)定期優(yōu)化語言模型庫,具體如下:
[0117]I)從互聯(lián)網(wǎng)中定期搜集網(wǎng)絡(luò)文本,通過網(wǎng)絡(luò)爬蟲,定期向各大搜索引擎(如百度、谷歌、搜搜、搜狗、搜庫等)以及各大廣播電視相關(guān)的門戶網(wǎng)站(如央視網(wǎng)、各地網(wǎng)臺、新浪、搜狐等)抓取網(wǎng)頁鏈接,搜集熱門詞匯以及網(wǎng)絡(luò)文章。
[0118]2)通過搜集的網(wǎng)絡(luò)文本對網(wǎng)絡(luò)文章進行分詞,并統(tǒng)計詞頻、詞數(shù),將分詞結(jié)果、網(wǎng)絡(luò)熱詞采集結(jié)果以及統(tǒng)計數(shù)據(jù)錄入該語音識別系統(tǒng)中的語言模型庫,供各語音識別模塊進行參考,實現(xiàn)對語言模型庫的定期更新,以保障廣播電視語音識別的準(zhǔn)確率。
[0119]基于上述,本實施例對廣播電視數(shù)據(jù)進行語音識別的具體流程如圖4所示,具體包括:
[0120]首先,接收廣播電視數(shù)據(jù),將其發(fā)送給預(yù)處理終端進行音視頻解碼,從中提取出音頻數(shù)據(jù),之后進行音頻切分以及碎片化,對碎片化后的句子文件進行語音/非語音判別,如果是語音則繼續(xù)下一步驟,否則將其標(biāo)記為非語音,并不做繼續(xù)處理。對于語音句子文件繼續(xù)進行寬窄帶判別、語音特征提取,再將得到的特征文本數(shù)據(jù)通過語音識別的“云”調(diào)用,將其以XML消息作為語音識別任務(wù)發(fā)送給云服務(wù)器進行語音識別處理。云服務(wù)器端的云服務(wù)平臺對其分別進行男女聲識別、說話人識別、語音內(nèi)容識別與標(biāo)點符號識別,再對識別結(jié)果進行融合等處理后反饋給與服務(wù)平臺,同時從網(wǎng)絡(luò)學(xué)習(xí)新的網(wǎng)絡(luò)詞匯、熱門詞匯等對云服務(wù)平臺的語言模型庫進行定期更新,保證語音識別的準(zhǔn)確率。最后,云服務(wù)器將識別結(jié)果,也就是結(jié)構(gòu)化的語音識別結(jié)果通過XML形式反饋給用戶,供用戶參考、檢索等進一步地智能化處理。
[0121]通過本實施例提供的識別方法,基于云計算對現(xiàn)有語音識別方法進行改進,融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法,對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù),具體包括以下幾點:
[0122]5)對語音的識別結(jié)果以及對語音詞時間戳的標(biāo)識結(jié)果可以為廣播電視語音內(nèi)容的檢索業(yè)務(wù)提供基礎(chǔ)數(shù)據(jù);
[0123]6)對語音句子的切分時間點標(biāo)識結(jié)果,以及寬窄帶的判別結(jié)果,可以為廣播電視節(jié)目的拆分提供邊界時間點的參考;
[0124]7)對廣播電視中語音內(nèi)容的識別以及標(biāo)點符號的識別,可以為廣播電視節(jié)目中的字幕識別提供內(nèi)容參考;
[0125]8)對語音句子的說話人識別以及寬窄帶的判別結(jié)果,可以為廣播電視節(jié)目中的主持人識別、嘉賓識別、說話場景識別(室內(nèi)場景、室外場景)等提供依據(jù)。
[0126]另外,處理速度加快,能夠應(yīng)對海量數(shù)據(jù)的語音識別問題,還由于定期對語言模型庫進行學(xué)習(xí)與更新,能夠提高語音識別的準(zhǔn)確度。
[0127]實施例二
[0128]本發(fā)明實施例二還提供了一種廣播電視語音識別系統(tǒng),組成示意圖如圖5所示,該系統(tǒng)包括:
[0129]提取單元10,根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);
[0130]預(yù)處理終端20,對音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù),并發(fā)送給云服務(wù)器30 ;
[0131]云服務(wù)器30,對特征文本數(shù)據(jù)進行識別處理,得到語音識別結(jié)果,并對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。
[0132]優(yōu)選地,本實施例中的預(yù)處理終端20的組成示意圖如圖6所示,具體包括:
[0133]切分模塊21,對音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件;
[0134]非語音過濾模塊22,對句子文件進行非語音過濾,留下語音句子文件;
[0135]寬窄帶判別模塊23,對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識,判別為窄帶信號的語音句子文件添加窄帶標(biāo)識;
[0136]音頻特征提取模塊24,對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
[0137]優(yōu)選地,本實施例中的云服務(wù)器30的組成示意圖如圖7所示,具體包括:
[0138]男女聲識別模塊31,用于對特征文本數(shù)據(jù)進行男女聲識別。
[0139]由于在生理和心理學(xué)方面,男性、女性說話有明顯的差異,如聲帶產(chǎn)生的基音、口腔結(jié)構(gòu)(喉咽、舌頭、腭、唇、齒等)產(chǎn)生的共振峰頻率、呼出氣流的大小和強弱等。因此語音信號中包含說話人的性別特征。在本實施例中,通過GMM-SVM (Gaussian MixtureModels-Support Vector Machines)混合模型的技術(shù)框架,建立了全體變化空間建模(Total Variability Modeling)的男女聲識別(即說話人性別識別)。全體變化空間建模在訓(xùn)練空間矩陣時,不再區(qū)分說話人空間和信道空間,通過總體空間來表示,簡化了空間的數(shù)學(xué)表示,大大降低了對訓(xùn)練數(shù)據(jù)的依賴程度。通過多系統(tǒng)融合,給出最終的性別結(jié)果判定。
[0140]說話人識別模塊32,用于對特征文本進行說話人識別。[0141]在本實施例中說話人識別基于說話人之間的兩類差別來實現(xiàn)的:一是不同聲道頻譜特性的發(fā)音上本身存在差異,這種差異體現(xiàn)在發(fā)音的語音特征分布上不一樣;二是不同說話人的高層次特征(high-level features)存在差異,即由于生活環(huán)境和背景不同,后天形成的,如習(xí)慣用語、韻律、語言結(jié)構(gòu)等差異。目前國際上主流的說話人識別系統(tǒng)基本上都是基于這些特點,用統(tǒng)計建模的方法解決來說話人識別問題。具體的,說話人識別系統(tǒng)包括以下兩個模塊:
[0142]A、說話人建模工具模塊:通過區(qū)分訓(xùn)練的方法,如支持向量機SVM,或者基于統(tǒng)計建模的方法,如高斯混合模型GMM,對說話人進行建模,刻畫不同說話人各自的特征空間分布特性,用于區(qū)分不同的說話人。
[0143]B、說話人判別算法模塊:將輸入語音的特征與相應(yīng)的說話人模型進行匹配,根據(jù)匹配程度判別輸入語音的說話人身份。
[0144]語音內(nèi)容與標(biāo)點符號識別模塊33,用于對特征文本進行語音內(nèi)容識別以及標(biāo)點符號識別,生成含有標(biāo)識的語音識別結(jié)果。
[0145]模塊包含4個組成部分:聲學(xué)模型庫、語言模型庫、搜索與解碼、標(biāo)點符號生成,工作流程圖如圖8所示,輸入語音特征后,根據(jù)該語音特征是寬帶信號還是窄帶信號,由搜索與解碼模塊選擇調(diào)用智能學(xué)習(xí)而來的聲學(xué)模型庫與語言模型庫對語音內(nèi)容進行識別,識別后生成的文本(句子)送入標(biāo)點符號生成模塊進行標(biāo)點符號的識別,最后生成帶有標(biāo)點符號標(biāo)識的語音識別結(jié)果。
[0146]4個組成部分分別采用的識別技術(shù)介紹如下:
[0147]A、聲學(xué)模型庫:在本實施例中采用基于⑶-DNN-HMM (上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)的隱馬爾可夫模型)聲學(xué)模型庫,比傳統(tǒng)的基于GMM-HMM (高斯混合模型的隱馬爾可夫模型)聲學(xué)模型庫識別準(zhǔn)確率要更高。
[0148]B、語言模型庫:在本實施例中采用N-Gram (N元語法)語言模型,該模型基于這樣一種假設(shè),第η個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。N-Gram語言模型簡單有效,被語音識別業(yè)界所廣泛使用。
[0149]C、搜索與解碼:在本實施例中采用Viterbi搜索算法等動態(tài)規(guī)劃方法,搜索在給定模型情況下的最優(yōu)結(jié)果;基于動態(tài)規(guī)劃的Viterbi算法在每個時間點上的各個狀態(tài),計算解碼狀態(tài)序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節(jié)點記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。Viterbi算法在不喪失最優(yōu)解的條件下,同時解決了連續(xù)語音識別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時間對準(zhǔn)、詞邊界檢測和詞的識別,也是常用的語音識別搜索的基本策略。
[0150]標(biāo)點符號生成:在本實施例中米用了一種利用純文本信息添加中文口語句子句末標(biāo)點的方法。該方法從句子的不同粒度角度,建模全局詞匯信息與標(biāo)點的關(guān)系,并使用多層感知器來融合在不同粒度下得到的標(biāo)點模型,從而實現(xiàn)了標(biāo)點(句號、問號和嘆號)生成。
[0151]識別結(jié)果處理模塊34,對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。其中本實施例中,識別結(jié)果處理模塊34首先對廣播電視數(shù)據(jù)中各個語音句子文件的語音識別結(jié)果(帶標(biāo)點符號、每個語音詞帶時間戳)進行匯總及融合。
[0152]優(yōu)選地,本實施例中的識別結(jié)果處理模塊34進一步包括:[0153]匯總排序模塊,用于對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序;
[0154]加標(biāo)識模塊,用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記,包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
[0155]優(yōu)選地,本實施例中的云服務(wù)器30中還包括:語言模型智能學(xué)習(xí)模塊35,用于定期搜集網(wǎng)絡(luò)文本,通過對網(wǎng)絡(luò)文本的學(xué)習(xí)定期更新語言模型庫,在識別處理過程中根據(jù)定期更新的語言模型庫進行識別,以確保語音識別的準(zhǔn)確率。。
[0156]本實施例中的云服務(wù)器30是基于語音識別云服務(wù)平臺36實現(xiàn)的,具體的語音識別云服務(wù)平臺基于ICE與SOA相結(jié)合的云服務(wù)平臺框架進行構(gòu)建,由ICE框架完成分布式計算,通過SOA框架對外提供云服務(wù),完成基于Web Service的識別任務(wù)與識別結(jié)果的通?目。
[0157]在本實施例中服務(wù)平臺中,將各種識別模塊(即男女聲識別模塊31、說話人識別模塊32、語音內(nèi)容與標(biāo)點符號識別模塊33以及識別結(jié)果處理模塊34)封裝成為插件,形成標(biāo)準(zhǔn)的云服務(wù),配置在框架中,成為云服務(wù)平臺的一部分,各種識別模塊可以在不影響系統(tǒng)正常運行的情況下在平臺中方便地添加和卸載,當(dāng)待識別的數(shù)據(jù)量增加時,云服務(wù)平臺將自適應(yīng)地添加識別模塊,以完成海量的廣播電視語音識別任務(wù)。
[0158]該云服務(wù)平臺架構(gòu)如圖9所示,廣播電視數(shù)據(jù)完成預(yù)處理后,通過調(diào)用數(shù)據(jù)接入接口將語音識別任務(wù)以XML任務(wù)消息傳遞給控制單元,由控制單元根據(jù)當(dāng)前的計算資源的狀態(tài)(計算資源的狀態(tài)通過監(jiān)控單元搜集),主要包括CPU、內(nèi)存、網(wǎng)絡(luò)狀態(tài),結(jié)合識別節(jié)點的任務(wù)執(zhí)行狀態(tài),任務(wù)優(yōu)先級,以及執(zhí)行效率的先驗知識,動態(tài)決策并分配最優(yōu)的計算資源完成識別任務(wù)的執(zhí)行。
`[0159]綜上所述,本實施例提供的識別系統(tǒng)融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法,對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù)。另外,由于采用對碎片化的語音數(shù)據(jù)并行處理的方式,處理速度加快,能夠應(yīng)對海量數(shù)據(jù)的語音識別問題,同時由于定期對語言模型庫進行智能學(xué)習(xí)與更新,能夠提高語音識別的準(zhǔn)確度。
[0160]以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)【技術(shù)領(lǐng)域】的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應(yīng)由權(quán)利要求限定。
【權(quán)利要求】
1.一種廣播電視語音識別方法,其特征在于,包括: 51、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù); 52、對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù); 53、將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果; 54、對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。
2.如權(quán)利要求1所述的廣播電視語音識別方法,其特征在于,步驟S2對所述音頻數(shù)據(jù)進行預(yù)處理具體包括: 521、對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件; 522、對所述句子文件進行非語音過濾,留下語音句子文件; 523、對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識,判別為窄帶信號的語音句子文件添加窄帶標(biāo)識; 524、對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
3.如權(quán)利要求1所述的廣播電視語音識別方法,其特征在于,步驟S3將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標(biāo)點符號識別,生成含有標(biāo)識的語音識別結(jié)果。
4.如權(quán)利要求1所述的廣播電視語音識別方法,其特征在于,步驟S4對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識具體包括: 541、對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序; 542、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記,包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
5.如權(quán)利要求1所述的廣播電視語音識別方法,其特征在于,步驟S3進行識別處理的過程是根據(jù)語言模型庫進行識別的,且所述語音模型庫通過網(wǎng)絡(luò)文本采集和網(wǎng)絡(luò)文本學(xué)習(xí)不斷進行更新。
6.一種廣播電視語音識別系統(tǒng),其特征在于,該系統(tǒng)包括: 提取單元,根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù); 預(yù)處理終端,對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù),并發(fā)送給云服務(wù)器; 云服務(wù)器,對所述特征文本數(shù)據(jù)進行識別處理,得到語音識別結(jié)果,并對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。
7.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng),其特征在于,所述預(yù)處理終端包括: 切分模塊,對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件; 非語音過濾模塊,對所述句子文件進行非語音過濾,留下語音句子文件; 寬窄帶判別模塊,對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識,判別為窄帶信號的語音句子文件添加窄帶標(biāo)識; 音頻特征提取模塊,對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
8.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng),其特征在于,所述云服務(wù)器包括: 男女聲識別模塊,用于對所述特征文本數(shù)據(jù)進行男女聲識別; 說話人識別模塊,用于對所述特征文本進行說話人識別; 語音內(nèi)容與標(biāo)點符號識別模塊,用于對所述特征文本進行語音內(nèi)容識別以及標(biāo)點符號識別,生成含有標(biāo)點符號標(biāo)識的語音識別結(jié)果; 識別結(jié)果處理模塊,對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié)果。
9.如權(quán)利要求8所述的廣播電視語音識別系統(tǒng),其特征在于,所述識別結(jié)果處理模塊進一步包括: 匯總排序模塊,用于對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序; 加標(biāo)識模塊,用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記,包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
10.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng),其特征在于,所述云服務(wù)器中還包括:語言模型智能學(xué)習(xí)模塊,用于定期搜集網(wǎng)絡(luò)文本,通過對網(wǎng)絡(luò)文本的學(xué)習(xí)定期更新語言模型庫,在識別處理過程中根據(jù)定期更新的語言模型庫進行識別。
【文檔編號】G10L15/26GK103700370SQ201310648375
【公開日】2014年4月2日 申請日期:2013年12月4日 優(yōu)先權(quán)日:2013年12月4日
【發(fā)明者】陳鑫瑋, 徐波 申請人:北京中科模識科技有限公司