一種廣播電視語音識別系統(tǒng)方法及系統(tǒng)的制作方法

文檔序號：2826488閱讀：239來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種廣播電視語音識別系統(tǒng)方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種廣播電視語音識別方法及系統(tǒng)，其中方法包括：根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)；對音頻數(shù)據(jù)進行預(yù)處理，得到特征文本數(shù)據(jù)；將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理，得到男女聲識別、說話人識別以及語音識別結(jié)果；對數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。該方法對現(xiàn)有語音識別方法進行改進，融合各種廣播電視數(shù)據(jù)預(yù)處理技術(shù)以及廣播電視語音識別方法，對語音數(shù)據(jù)針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理，對各識別結(jié)果進行融合并生成結(jié)構(gòu)化的語音識別結(jié)果，能夠為后續(xù)廣播電視節(jié)目的其他業(yè)務(wù)的智能化處理提供基礎(chǔ)數(shù)據(jù)，且處理速度加快并提高準(zhǔn)確度。
【專利說明】—種廣播電視語音識別系統(tǒng)方法及系統(tǒng)【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音視頻處理【技術(shù)領(lǐng)域】，特別涉及一種廣播電視語音識別方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前在廣播電視領(lǐng)域，對廣播電視語音識別主要利用適用于各行業(yè)的傳統(tǒng)語音識別方法，而傳統(tǒng)的語音識別主要采用模式匹配法，分為訓(xùn)練和識別兩個階段，其中在訓(xùn)練階段，用戶將詞匯表中的每一詞依次讀或者說一遍，并且將其特征矢量作為模板存入模板庫；在識別階段，將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較，將相似度最高者作為識別結(jié)果輸出。
[0003]但是該語音識別應(yīng)用在廣播電視領(lǐng)域的語音識別存在以下問題:
[0004]I)廣播電視行業(yè)對語音識別往往有特別的、不同于其他行業(yè)的處理和操作，但是由于上述傳統(tǒng)語音識別是應(yīng)用于各行業(yè)的，對于廣播電視行業(yè)沒有針對性，不能根據(jù)廣播電視行業(yè)的特點對廣播電視數(shù)據(jù)中的非語音內(nèi)容進行過濾。因為在廣播電視行業(yè)內(nèi)非語音內(nèi)容對于語音識別是不在處理范圍之內(nèi)的，所以如果不對非語音內(nèi)容進行過濾，就還需要對其進行傳輸和處理，不僅導(dǎo)致傳輸資源和計算資源的浪費，而且還會由于非語音內(nèi)容的存在導(dǎo)致出現(xiàn)較多的誤識別操作，并且影響處理速度。
[0005]2)由于傳統(tǒng)語音識別技術(shù)不具備針對廣播電視行業(yè)的語音識別功能，導(dǎo)致識別結(jié)果不夠完整，例如，對于一段廣播電視數(shù)據(jù)無法判斷出說話發(fā)生的場景以及說話人的身份等重要信息，無法對語音內(nèi)容根據(jù)不同的說話人進行分段，無法標(biāo)識每個語音詞的時間戳，對后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理無法提供任何有價值的參考信息。
[0006]綜上，傳統(tǒng)的語音識別方法應(yīng)用在廣播電視行業(yè)中存在耗費資源、處理速度慢、準(zhǔn)確度不高、提供信息量不足等問題。

【發(fā)明內(nèi)容】

[0007](一)要解決的技術(shù)問題
[0008]本發(fā)明要解決的技術(shù)問題是如何針對廣播電視行業(yè)特點進行語音識別，避免傳統(tǒng)語音識別方法在廣播電視行業(yè)應(yīng)用中存在的缺點，為后續(xù)其它廣播電視行業(yè)業(yè)務(wù)的智能化、自動化處理提供充足可用的基礎(chǔ)數(shù)據(jù)。
[0009](二)技術(shù)方案
[0010]為解決上述技術(shù)問題，本發(fā)明提供了一種廣播電視語音識別方法，包括:
[0011]S1、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)；
[0012]S2、對所述音頻數(shù)據(jù)進行預(yù)處理，得到特征文本數(shù)據(jù)；
[0013]S3、將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理，得到男女聲識別、說話人識別以及語音識別結(jié)果；
[0014]S4、對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。[0015]進一步地，步驟S2對所述音頻數(shù)據(jù)進行預(yù)處理具體包括:
[0016]S21、對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件；
[0017]S22、對所述句子文件進行非語音過濾，留下語音句子文件；
[0018]S23、對每個語音句子文件進行寬窄帶判別，對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識，判別為窄帶信號的語音句子文件添加窄帶標(biāo)識；
[0019]S24、對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取，得到特征文本數(shù)據(jù)，其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
[0020]進一步地，步驟S3將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標(biāo)點符號識別，生成含有標(biāo)識的語音識別結(jié)果。
[0021]進一步地，步驟S4對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識具體包括:
[0022]S41、對各個語音識別結(jié)果進行匯總、對齊，并按照其中包含的起止時間進行排序;
[0023]S42、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記，包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
[0024]進一步地，步驟S3進行識別處理的過程是根據(jù)語言模型庫進行識別的，且所述語音模型庫通過網(wǎng)絡(luò)文本采集和網(wǎng)絡(luò)文本學(xué)習(xí)不斷進行更新。
[0025]為解決上述技術(shù)問題，本發(fā)明還提供了一種廣播電視語音識別系統(tǒng)，該系統(tǒng)包括:
[0026]提取單元，根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)；
[0027]預(yù)處理終端，對所述音頻數(shù)據(jù)進行預(yù)處理，得到特征文本數(shù)據(jù)，并發(fā)送給云服務(wù)器；
[0028]云服務(wù)器，對所述特征文本數(shù)據(jù)進行識別處理，得到語音識別結(jié)果，并對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。
[0029]進一步地，所述預(yù)處理終端包括:
[0030]切分模塊，對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件；
[0031]非語音過濾模塊，對所述句子文件進行非語音過濾，留下語音句子文件；
[0032]寬窄帶判別模塊，對每個語音句子文件進行寬窄帶判別，對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識，判別為窄帶信號的語音句子文件添加窄帶標(biāo)識；
[0033]音頻特征提取模塊，對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取，得到特征文本數(shù)據(jù)，其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
[0034]進一步地，所述云服務(wù)器包括:
[0035]男女聲識別模塊，用于對所述特征文本數(shù)據(jù)進行男女聲識別；
[0036]說話人識別模塊，用于對所述特征文本進行說話人識別；
[0037]語音內(nèi)容與標(biāo)點符號識別模塊，用于對所述特征文本進行語音內(nèi)容識別以及標(biāo)點符號識別，生成含有標(biāo)點符號標(biāo)識的語音識別結(jié)果；
[0038]識別結(jié)果處理模塊，對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。[0039]進一步地，所述識別結(jié)果處理模塊進一步包括:
[0040]匯總排序模塊，用于對各個語音識別結(jié)果進行匯總、對齊，并按照其中包含的起止時間進行排序；
[0041]加標(biāo)識模塊，用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記，包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
[0042]進一步地，所述云服務(wù)器中還包括:語言模型智能學(xué)習(xí)模塊，用于定期搜集網(wǎng)絡(luò)文本，通過對網(wǎng)絡(luò)文本的學(xué)習(xí)定期更新語言模型庫，在識別處理過程中根據(jù)定期更新的語言模型庫進行識別。
[0043](三)有益效果
[0044]本發(fā)明實施例提供了一種廣播電視語音識別方法及系統(tǒng)，其中方法包括:根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)；對所述音頻數(shù)據(jù)進行預(yù)處理，得到特征文本數(shù)據(jù)；將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理，得到男女聲識別、說話人識別以及語音識別結(jié)果；對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。。該方法基于云計算對現(xiàn)有語音識別方法進行改進，融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法，對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理，對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果，能夠為廣播電視節(jié)目的語音檢索、字幕識別、主持人識別等后期智能化處理功能提供基礎(chǔ)數(shù)據(jù)，能夠使得廣播電視語音識別處理速度加快并提高準(zhǔn)確度。
[0045]為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù)具體包括以下幾占-
^ \\\.[0046]I)對語音的識別結(jié)果以及對語音詞時間戳的標(biāo)識結(jié)果可以為廣播電視語音內(nèi)容的檢索業(yè)務(wù)提供基礎(chǔ)數(shù)據(jù)；
[0047]2)對語音句子的切分時間點標(biāo)識結(jié)果，以及寬窄帶的判別結(jié)果，可以為廣播電視節(jié)目的拆分提供邊界時間點的參考；
[0048]3 )對廣播電視中語音內(nèi)容的識別以及標(biāo)點符號的識別，可以為廣播電視節(jié)目中的字幕識別提供內(nèi)容參考；
[0049]4)對語音句子的說話人識別以及寬窄帶的判別結(jié)果，可以為廣播電視節(jié)目中的主持人識別、嘉賓識別、說話場景識別(室內(nèi)場景、室外場景)等提供依據(jù)。
【專利附圖】

【附圖說明】
[0050]圖1為本發(fā)明實施例一提供的一種廣播電視語音識別方法的步驟流程圖；
[0051]圖2為本發(fā)明實施例一提供的預(yù)處理操作的步驟流程圖；
[0052]圖3為本發(fā)明實施例一提供的語音/非語音判別過程中音頻分類方法的技術(shù)框架示意圖；
[0053]圖4為本發(fā)明實施例一提供的對廣播電視數(shù)據(jù)進行語音識別的具體流程圖；
[0054]圖5為本發(fā)明實施例二提供的一種廣播電視語音識別系統(tǒng)的組成示意圖；
[0055]圖6為本發(fā)明實施例二提供的預(yù)處理終端的組成示意圖；[0056]圖7為本發(fā)明實施例二提供的云服務(wù)器的組成示意圖；
[0057]圖8為本發(fā)明實施例二提供的語音內(nèi)容與標(biāo)點符號識別模塊的工作流程圖；
[0058]圖9為本發(fā)明實施例二提供的云服務(wù)平臺架構(gòu)示意圖。
【具體實施方式】
[0059]下面結(jié)合附圖和實施例，對本發(fā)明的【具體實施方式】作進一步詳細(xì)描述。以下實施例用于說明本發(fā)明，但不用來限制本發(fā)明的范圍。
[0060]實施例一
[0061]本發(fā)明實施例一提供了一種廣播電視語音識別方法，步驟流程如圖1所示，具體包括以下步驟:
[0062]步驟S1、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)。
[0063]步驟S2、對音頻數(shù)據(jù)進行預(yù)處理，得到特征文本數(shù)據(jù)。
[0064]步驟S3、將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理，得到男女聲識別、說話人識別以及語音識別結(jié)果；
[0065]步驟S4、對數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。
[0066]上述方法首先從用戶提供的待識別廣播電視數(shù)據(jù)(即音視頻數(shù)據(jù))中抽取出音頻數(shù)據(jù)，并經(jīng)過預(yù)處理后得到特征文本數(shù)據(jù)，再由云服務(wù)器對其進行識別處理，最后對得到的數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，最終生成結(jié)構(gòu)化的語音識別結(jié)果，并將其以可擴展標(biāo)記語言XML返回給用戶。對語音識別結(jié)果添加語音詞的時間戳、句子的時間戳、男女聲、說話人等標(biāo)識，能夠為廣播電視語音內(nèi)容的檢索、字幕識別以及主持人識別等提供依據(jù)，更加方便后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理，為各種操作和處理提供基礎(chǔ)數(shù)據(jù)。
[0067]優(yōu)選地，本實施例步驟SI之前還包括:接收用戶發(fā)送的廣播電視數(shù)據(jù)，其中該廣播電視數(shù)據(jù)中包括音視頻數(shù)據(jù)，可以理解為音頻數(shù)據(jù)和視頻數(shù)據(jù)。接收到廣播電視數(shù)據(jù)之后，要首先判斷該廣播電視數(shù)據(jù)是否為語音識別系統(tǒng)支持的音視頻數(shù)據(jù)類型，如果不是支持的或者說可識別的音視頻數(shù)據(jù)，則拒絕處理。
[0068]本實施例中的音視頻解碼采用G.711的編解碼標(biāo)準(zhǔn)，利用ffmpeg軟件解碼工具實現(xiàn)音視頻的解碼，抽取音頻部分保存為Pcm格式，可兼容當(dāng)前各種主流的廣播電視音視頻數(shù)據(jù)格式，例如wmv，wma, wav, mp3, asf, rm, mp4、av1、flv等格式。如果判斷出是可識別的音視頻數(shù)據(jù)，則對該音視頻數(shù)據(jù)進行解碼，并進一步從中提取出屬于音頻部分的數(shù)據(jù)，并將得到的音頻數(shù)據(jù)作為步驟S2的待處理數(shù)據(jù)。
[0069]優(yōu)選地，本實施例中的步驟S2對音頻數(shù)據(jù)進行預(yù)處理，預(yù)處理內(nèi)容主要包括按照適合語音識別的標(biāo)準(zhǔn)進行切分以及碎片化，對碎片化后的句子文件進行語音/非語音、寬帶/窄帶的判別并標(biāo)識，最后提取包含有語音特征的特征文本數(shù)據(jù)，預(yù)處理操作的步驟流程如圖2所示，具體包括以下步驟:
[0070]步驟S21、對音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件。
[0071]由于接收到的音頻數(shù)據(jù)是比較完整的數(shù)據(jù)塊，需要對其切分和碎片化處理，生成若干個小的、適合語音識別系統(tǒng)處理的句子文件。具體的切分過程如下:[0072]首先對該音頻數(shù)據(jù)進行解析，分析各音頻采樣點的能量信號值，找到靜音位置，在本實施例中以50幀，一幀200個采樣點作為靜音點閥值，超過該靜音點閥值時，說明該點為靜音位置；找到靜音位置之后，按照靜音位置對音頻數(shù)據(jù)進行切分，即碎片化生成離散的句子文件，并對每個句子文件打上時間標(biāo)識，最終得到的句子文件以Pcm格式保存。
[0073]步驟S22、對句子文件進行非語音過濾，留下語音句子文件。
[0074]由于步驟S21只是根據(jù)靜音位置對音頻數(shù)據(jù)進行切分，其中還包括大量的非語音內(nèi)容，而這些內(nèi)容對于后續(xù)的音頻識別沒有任何幫助，也起不到任何積極的作用，相反的，由于非語音內(nèi)容的存在還會加重語音識別系統(tǒng)對音頻數(shù)據(jù)的傳輸和計算的處理負(fù)擔(dān)，還會導(dǎo)致誤識別的發(fā)生，因此需要對生成的句子文件進行非語音過濾，即對碎片化后的句子文件進行語音/非語音判別，剩下語音句子文件，該步驟具體如下:
[0075]首先，解析每個碎片化后的句子文件，根據(jù)語音/非語音分類模型，通過分類器對每個句子文件進行語音/非語音的判別；
[0076]其次，根據(jù)判別結(jié)果，對非語音的句子文件進行刪除標(biāo)識的操作，并記錄句子時間位置。
[0077]本實施例中使用了一種基于支持向量機(Support Vector Machine,簡稱SVM)的音頻分類方法，首先基于能量門限，把短句子分成靜音和非靜音，然后通過選擇有效而又魯棒的音頻特征，把非靜音信號分成4類:語音(純語音、非純語音)、非語音(音樂、環(huán)境音)，該方法具有很高的分類準(zhǔn)確率和處理速度，該音頻分類方法的技術(shù)框架如圖3所示。
[0078]步驟S23、對每個語音句子文件進行寬窄帶判別，對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識，判別為窄帶信號的語音句子文件添加窄帶標(biāo)識。
[0079]對每個語音句子進行寬窄帶判別，以便根據(jù)判別結(jié)果為后續(xù)語音識別時選擇哪種語音識別模型提供參考，該步驟具體如下:
[0080]首先，對過濾后剩下的適合語音識別系統(tǒng)處理的語音句子片斷進行逐條分析，判別其語音句子為寬帶(高采樣率)或窄帶(低采樣率)，以便后續(xù)語音識別時選擇哪種語音識別模型提供參考；
[0081]其次，對每條語音句子進行寬窄帶標(biāo)識，即對寬帶信號的語音句子文件添加寬帶標(biāo)識，對窄帶信號的語音句子文件添加窄帶標(biāo)識。
[0082]具體的，本實施例中寬窄帶判別通過分析音頻信號中的頻譜能量值進行判別，當(dāng)8K以上的頻譜能量值大于0.1時，該音頻信號為寬帶，當(dāng)8K以下的頻譜能量值小于或等于
0.1時，該音頻信號則為窄帶信號。
[0083]步驟S24、對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取，得到特征文本數(shù)據(jù)，其中特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
[0084]為節(jié)省網(wǎng)絡(luò)帶寬資源，對語音句子文件添加寬窄帶標(biāo)識之后，還要進行音頻特征的提取，將音頻數(shù)據(jù)轉(zhuǎn)化為文本特征數(shù)據(jù)，以減少網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量，具體如下:
[0085]首先，對對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行逐條分析，抽取MFCC(Mel Frequency Cepstrum Coefficient, Mel 頻率倒譜系數(shù))和 PLP (Packet LevelProtocol，分組級協(xié)議)語音特征，這是在語音識別領(lǐng)域常用的兩種語音特征；
[0086]其次，對抽取后的每條語音特征進行時間標(biāo)識，使得最后得到的特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于哪個音視頻文件的文件名稱以及對應(yīng)的寬窄帶標(biāo)識。
[0087]需要說明的是，該步驟不僅將輸入語音信號轉(zhuǎn)換成比較魯棒且具有區(qū)分能力的語音特征，用于區(qū)分不同的說話人，而且在特征提取基礎(chǔ)上還進行了一定的歸一化，其中的歸一化內(nèi)容包括:
[0088]I)均值歸一化CMN，主要降低信道影響；
[0089]2)方差歸一化CVN，主要降低加性噪聲影響；
[0090]3)聲道長度歸一化VTLN，主要降低聲道差異造成的影響；
[0091]4)高斯化 Gaussianization,是 CMN+CVN 的推廣算法；
[0092]5)抗噪算法，降低背景噪聲對系統(tǒng)性能影響，使用AWF和VTS算法。
[0093]優(yōu)選地，本實施例步驟S3將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器，進入語音識別流程。本實施例中云服務(wù)器調(diào)用模塊采用Web Service接口協(xié)議，將待識別的廣播電視任務(wù)信息以XML消息的方式發(fā)送至與服務(wù)器端進行語音識別。其中識別任務(wù)的XML消息包含以下內(nèi)容:
[0094]I)待識別的廣播電視文件名稱；
[0095]2)碎片化的句子文件列表；
[0096]3)每個句子文件的語音/非語音標(biāo)識；
[0097]4)每個句子文件的寬帶/窄帶標(biāo)識；
[0098]5)每個鑒定為語音的句子文件的語音特征文本；
[0099]6)每個句子文件的起止時間標(biāo)識。
[0100]云服務(wù)器接收到識別任務(wù)后，進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標(biāo)點符號識別，生成含有標(biāo)識的語音識別結(jié)果，該步驟具體如下:
[0101](I)將待識別的語音句子文件對應(yīng)的語音特征文本以XML (可擴展語言)消息的方式逐條發(fā)送到遠(yuǎn)端用于廣播電視語音識別處理的與服務(wù)器，在XML消息中除了包含語音特征文本數(shù)據(jù)之外，還應(yīng)該包含以下信息:語音句子文件對應(yīng)的起止時間、該語音句子文件歸屬的廣播電視音視頻文件名稱、該語音句子文件的寬窄帶標(biāo)識；
[0102](2)云服務(wù)器中的語音識別系統(tǒng)基于云計算框架構(gòu)建，當(dāng)語音句子的特征文本發(fā)送到廣播電視語音識別云時，通過控制器根據(jù)云服務(wù)器中計算資源的占用情況，為該條語音句子文件的識別合理分配計算資源；
[0103](3)語音識別系統(tǒng)調(diào)用分配到的計算資源對語音特征分別進行男女聲識別、說話人識別、語音內(nèi)容與標(biāo)點符號識別，其中男女聲識別根據(jù)男女聲分類模型，通過分類器對每個句子進行男女聲的分類判別并標(biāo)識；說話人識別根據(jù)說話人模型庫，對每個句子進行說話人的識別并標(biāo)識；語音內(nèi)容識別和標(biāo)點符號識別對每個句子進行語音內(nèi)容的識別，同時標(biāo)記標(biāo)點符號，并對識別出的每個詞匯進行時間標(biāo)注。
[0104]優(yōu)選地，本實施例步驟S4對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識的具體包括:
[0105]步驟S41、對各個語音識別結(jié)果進行匯總、對齊，并按照其中包含的起止時間進行排序，具體的:針對每個語音句子的識別結(jié)果進行融合，按照其歸屬的廣播電視音視頻文件進行匯總整理，將各句子的不同識別結(jié)果(男女聲識別、說話人識別、語音內(nèi)容與標(biāo)點符號識別)按照時間點對齊，并進行時間排序。[0106]步驟S42、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記，包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳，具體的:針對排序好的識別結(jié)果，按照特定的結(jié)構(gòu)化的格式進行文本結(jié)果標(biāo)識，標(biāo)識內(nèi)容包括每個句子文件的說話人性別、說話人、句子中的語音內(nèi)容、句子中每個語音詞的時間戳、句子中斷點的標(biāo)點符號。
[0107]最后生成結(jié)構(gòu)化的語音識別結(jié)果，之后再將語音識別結(jié)果以XML消息的形式反饋給用戶，其中XML消息包含以下內(nèi)容:
[0108]I)識別的廣播電視文件名稱；
[0109]2)碎片化的句子文件列表；
[0110]3)每個句子文件的語音/非語音標(biāo)識；
[0111]4)每個句子文件的寬帶/窄帶標(biāo)識；
[0112]5)每個句子文件的語音識別結(jié)果；
[0113]6)每個句子文件的說話人標(biāo)識；
[0114]7)每個句子文件的男女聲標(biāo)識；
[0115]8)每個句子文件的起止時間標(biāo)識。
[0116]優(yōu)選地，本實施例為保障語音識別的準(zhǔn)確率，在步驟S3進行識別處理的過程是根據(jù)聲學(xué)模型庫與語言模型庫進行識別的，其中語言模型庫通過對網(wǎng)絡(luò)文本的采集和對網(wǎng)絡(luò)文本的學(xué)習(xí)不斷進行更新。定期通過互聯(lián)網(wǎng)進行網(wǎng)絡(luò)文本的采集，通過對網(wǎng)絡(luò)文本的學(xué)習(xí)定期優(yōu)化語言模型庫，具體如下:
[0117]I)從互聯(lián)網(wǎng)中定期搜集網(wǎng)絡(luò)文本，通過網(wǎng)絡(luò)爬蟲，定期向各大搜索引擎(如百度、谷歌、搜搜、搜狗、搜庫等)以及各大廣播電視相關(guān)的門戶網(wǎng)站(如央視網(wǎng)、各地網(wǎng)臺、新浪、搜狐等)抓取網(wǎng)頁鏈接，搜集熱門詞匯以及網(wǎng)絡(luò)文章。
[0118]2)通過搜集的網(wǎng)絡(luò)文本對網(wǎng)絡(luò)文章進行分詞，并統(tǒng)計詞頻、詞數(shù)，將分詞結(jié)果、網(wǎng)絡(luò)熱詞采集結(jié)果以及統(tǒng)計數(shù)據(jù)錄入該語音識別系統(tǒng)中的語言模型庫，供各語音識別模塊進行參考，實現(xiàn)對語言模型庫的定期更新，以保障廣播電視語音識別的準(zhǔn)確率。
[0119]基于上述，本實施例對廣播電視數(shù)據(jù)進行語音識別的具體流程如圖4所示，具體包括:
[0120]首先，接收廣播電視數(shù)據(jù)，將其發(fā)送給預(yù)處理終端進行音視頻解碼，從中提取出音頻數(shù)據(jù)，之后進行音頻切分以及碎片化，對碎片化后的句子文件進行語音/非語音判別，如果是語音則繼續(xù)下一步驟，否則將其標(biāo)記為非語音，并不做繼續(xù)處理。對于語音句子文件繼續(xù)進行寬窄帶判別、語音特征提取，再將得到的特征文本數(shù)據(jù)通過語音識別的“云”調(diào)用，將其以XML消息作為語音識別任務(wù)發(fā)送給云服務(wù)器進行語音識別處理。云服務(wù)器端的云服務(wù)平臺對其分別進行男女聲識別、說話人識別、語音內(nèi)容識別與標(biāo)點符號識別，再對識別結(jié)果進行融合等處理后反饋給與服務(wù)平臺，同時從網(wǎng)絡(luò)學(xué)習(xí)新的網(wǎng)絡(luò)詞匯、熱門詞匯等對云服務(wù)平臺的語言模型庫進行定期更新，保證語音識別的準(zhǔn)確率。最后，云服務(wù)器將識別結(jié)果，也就是結(jié)構(gòu)化的語音識別結(jié)果通過XML形式反饋給用戶，供用戶參考、檢索等進一步地智能化處理。
[0121]通過本實施例提供的識別方法，基于云計算對現(xiàn)有語音識別方法進行改進，融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法，對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理，對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果，能夠為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù)，具體包括以下幾點:
[0122]5)對語音的識別結(jié)果以及對語音詞時間戳的標(biāo)識結(jié)果可以為廣播電視語音內(nèi)容的檢索業(yè)務(wù)提供基礎(chǔ)數(shù)據(jù)；
[0123]6)對語音句子的切分時間點標(biāo)識結(jié)果，以及寬窄帶的判別結(jié)果，可以為廣播電視節(jié)目的拆分提供邊界時間點的參考；
[0124]7)對廣播電視中語音內(nèi)容的識別以及標(biāo)點符號的識別，可以為廣播電視節(jié)目中的字幕識別提供內(nèi)容參考；
[0125]8)對語音句子的說話人識別以及寬窄帶的判別結(jié)果，可以為廣播電視節(jié)目中的主持人識別、嘉賓識別、說話場景識別(室內(nèi)場景、室外場景)等提供依據(jù)。
[0126]另外，處理速度加快，能夠應(yīng)對海量數(shù)據(jù)的語音識別問題，還由于定期對語言模型庫進行學(xué)習(xí)與更新，能夠提高語音識別的準(zhǔn)確度。
[0127]實施例二
[0128]本發(fā)明實施例二還提供了一種廣播電視語音識別系統(tǒng)，組成示意圖如圖5所示，該系統(tǒng)包括:
[0129]提取單元10，根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)；
[0130]預(yù)處理終端20，對音頻數(shù)據(jù)進行預(yù)處理，得到特征文本數(shù)據(jù)，并發(fā)送給云服務(wù)器30 ；
[0131]云服務(wù)器30，對特征文本數(shù)據(jù)進行識別處理，得到語音識別結(jié)果，并對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。
[0132]優(yōu)選地,本實施例中的預(yù)處理終端20的組成示意圖如圖6所示,具體包括:
[0133]切分模塊21，對音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件；
[0134]非語音過濾模塊22，對句子文件進行非語音過濾，留下語音句子文件；
[0135]寬窄帶判別模塊23，對每個語音句子文件進行寬窄帶判別，對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識，判別為窄帶信號的語音句子文件添加窄帶標(biāo)識；
[0136]音頻特征提取模塊24，對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取，得到特征文本數(shù)據(jù)，其中特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
[0137]優(yōu)選地，本實施例中的云服務(wù)器30的組成示意圖如圖7所示，具體包括:
[0138]男女聲識別模塊31，用于對特征文本數(shù)據(jù)進行男女聲識別。
[0139]由于在生理和心理學(xué)方面，男性、女性說話有明顯的差異，如聲帶產(chǎn)生的基音、口腔結(jié)構(gòu)(喉咽、舌頭、腭、唇、齒等)產(chǎn)生的共振峰頻率、呼出氣流的大小和強弱等。因此語音信號中包含說話人的性別特征。在本實施例中，通過GMM-SVM (Gaussian MixtureModels-Support Vector Machines)混合模型的技術(shù)框架，建立了全體變化空間建模(Total Variability Modeling)的男女聲識別(即說話人性別識別)。全體變化空間建模在訓(xùn)練空間矩陣時，不再區(qū)分說話人空間和信道空間，通過總體空間來表示，簡化了空間的數(shù)學(xué)表示，大大降低了對訓(xùn)練數(shù)據(jù)的依賴程度。通過多系統(tǒng)融合，給出最終的性別結(jié)果判定。
[0140]說話人識別模塊32，用于對特征文本進行說話人識別。[0141]在本實施例中說話人識別基于說話人之間的兩類差別來實現(xiàn)的:一是不同聲道頻譜特性的發(fā)音上本身存在差異，這種差異體現(xiàn)在發(fā)音的語音特征分布上不一樣；二是不同說話人的高層次特征(high-level features)存在差異，即由于生活環(huán)境和背景不同，后天形成的，如習(xí)慣用語、韻律、語言結(jié)構(gòu)等差異。目前國際上主流的說話人識別系統(tǒng)基本上都是基于這些特點，用統(tǒng)計建模的方法解決來說話人識別問題。具體的，說話人識別系統(tǒng)包括以下兩個模塊:
[0142]A、說話人建模工具模塊:通過區(qū)分訓(xùn)練的方法，如支持向量機SVM，或者基于統(tǒng)計建模的方法，如高斯混合模型GMM，對說話人進行建模，刻畫不同說話人各自的特征空間分布特性，用于區(qū)分不同的說話人。
[0143]B、說話人判別算法模塊:將輸入語音的特征與相應(yīng)的說話人模型進行匹配，根據(jù)匹配程度判別輸入語音的說話人身份。
[0144]語音內(nèi)容與標(biāo)點符號識別模塊33，用于對特征文本進行語音內(nèi)容識別以及標(biāo)點符號識別，生成含有標(biāo)識的語音識別結(jié)果。
[0145]模塊包含4個組成部分:聲學(xué)模型庫、語言模型庫、搜索與解碼、標(biāo)點符號生成，工作流程圖如圖8所示，輸入語音特征后，根據(jù)該語音特征是寬帶信號還是窄帶信號，由搜索與解碼模塊選擇調(diào)用智能學(xué)習(xí)而來的聲學(xué)模型庫與語言模型庫對語音內(nèi)容進行識別，識別后生成的文本(句子)送入標(biāo)點符號生成模塊進行標(biāo)點符號的識別，最后生成帶有標(biāo)點符號標(biāo)識的語音識別結(jié)果。
[0146]4個組成部分分別采用的識別技術(shù)介紹如下:
[0147]A、聲學(xué)模型庫:在本實施例中采用基于⑶-DNN-HMM (上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)的隱馬爾可夫模型)聲學(xué)模型庫，比傳統(tǒng)的基于GMM-HMM (高斯混合模型的隱馬爾可夫模型)聲學(xué)模型庫識別準(zhǔn)確率要更高。
[0148]B、語言模型庫:在本實施例中采用N-Gram (N元語法)語言模型，該模型基于這樣一種假設(shè)，第η個詞的出現(xiàn)只與前面N-1個詞相關(guān)，而與其它任何詞都不相關(guān)，整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。N-Gram語言模型簡單有效，被語音識別業(yè)界所廣泛使用。
[0149]C、搜索與解碼:在本實施例中采用Viterbi搜索算法等動態(tài)規(guī)劃方法，搜索在給定模型情況下的最優(yōu)結(jié)果；基于動態(tài)規(guī)劃的Viterbi算法在每個時間點上的各個狀態(tài)，計算解碼狀態(tài)序列對觀察序列的后驗概率，保留概率最大的路徑，并在每個節(jié)點記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。Viterbi算法在不喪失最優(yōu)解的條件下，同時解決了連續(xù)語音識別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時間對準(zhǔn)、詞邊界檢測和詞的識別，也是常用的語音識別搜索的基本策略。
[0150]標(biāo)點符號生成:在本實施例中米用了一種利用純文本信息添加中文口語句子句末標(biāo)點的方法。該方法從句子的不同粒度角度，建模全局詞匯信息與標(biāo)點的關(guān)系，并使用多層感知器來融合在不同粒度下得到的標(biāo)點模型，從而實現(xiàn)了標(biāo)點(句號、問號和嘆號)生成。
[0151]識別結(jié)果處理模塊34，對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。其中本實施例中，識別結(jié)果處理模塊34首先對廣播電視數(shù)據(jù)中各個語音句子文件的語音識別結(jié)果(帶標(biāo)點符號、每個語音詞帶時間戳)進行匯總及融合。
[0152]優(yōu)選地，本實施例中的識別結(jié)果處理模塊34進一步包括:[0153]匯總排序模塊，用于對各個語音識別結(jié)果進行匯總、對齊，并按照其中包含的起止時間進行排序；
[0154]加標(biāo)識模塊，用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記，包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
[0155]優(yōu)選地，本實施例中的云服務(wù)器30中還包括:語言模型智能學(xué)習(xí)模塊35，用于定期搜集網(wǎng)絡(luò)文本，通過對網(wǎng)絡(luò)文本的學(xué)習(xí)定期更新語言模型庫，在識別處理過程中根據(jù)定期更新的語言模型庫進行識別，以確保語音識別的準(zhǔn)確率。。
[0156]本實施例中的云服務(wù)器30是基于語音識別云服務(wù)平臺36實現(xiàn)的，具體的語音識別云服務(wù)平臺基于ICE與SOA相結(jié)合的云服務(wù)平臺框架進行構(gòu)建，由ICE框架完成分布式計算，通過SOA框架對外提供云服務(wù)，完成基于Web Service的識別任務(wù)與識別結(jié)果的通?目。
[0157]在本實施例中服務(wù)平臺中，將各種識別模塊(即男女聲識別模塊31、說話人識別模塊32、語音內(nèi)容與標(biāo)點符號識別模塊33以及識別結(jié)果處理模塊34)封裝成為插件，形成標(biāo)準(zhǔn)的云服務(wù)，配置在框架中，成為云服務(wù)平臺的一部分，各種識別模塊可以在不影響系統(tǒng)正常運行的情況下在平臺中方便地添加和卸載，當(dāng)待識別的數(shù)據(jù)量增加時，云服務(wù)平臺將自適應(yīng)地添加識別模塊，以完成海量的廣播電視語音識別任務(wù)。
[0158]該云服務(wù)平臺架構(gòu)如圖9所示，廣播電視數(shù)據(jù)完成預(yù)處理后，通過調(diào)用數(shù)據(jù)接入接口將語音識別任務(wù)以XML任務(wù)消息傳遞給控制單元，由控制單元根據(jù)當(dāng)前的計算資源的狀態(tài)(計算資源的狀態(tài)通過監(jiān)控單元搜集)，主要包括CPU、內(nèi)存、網(wǎng)絡(luò)狀態(tài)，結(jié)合識別節(jié)點的任務(wù)執(zhí)行狀態(tài)，任務(wù)優(yōu)先級，以及執(zhí)行效率的先驗知識，動態(tài)決策并分配最優(yōu)的計算資源完成識別任務(wù)的執(zhí)行。
`[0159]綜上所述，本實施例提供的識別系統(tǒng)融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法，對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理，對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果，能夠為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù)。另外，由于采用對碎片化的語音數(shù)據(jù)并行處理的方式，處理速度加快，能夠應(yīng)對海量數(shù)據(jù)的語音識別問題，同時由于定期對語言模型庫進行智能學(xué)習(xí)與更新，能夠提高語音識別的準(zhǔn)確度。
[0160]以上實施方式僅用于說明本發(fā)明，而并非對本發(fā)明的限制，有關(guān)【技術(shù)領(lǐng)域】的普通技術(shù)人員，在不脫離本發(fā)明的精神和范圍的情況下，還可以做出各種變化和變型，因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇，本發(fā)明的專利保護范圍應(yīng)由權(quán)利要求限定。
【權(quán)利要求】
1.一種廣播電視語音識別方法，其特征在于，包括: 51、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)； 52、對所述音頻數(shù)據(jù)進行預(yù)處理，得到特征文本數(shù)據(jù)； 53、將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理，得到男女聲識別、說話人識別以及語音識別結(jié)果； 54、對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。
2.如權(quán)利要求1所述的廣播電視語音識別方法，其特征在于，步驟S2對所述音頻數(shù)據(jù)進行預(yù)處理具體包括: 521、對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件； 522、對所述句子文件進行非語音過濾，留下語音句子文件； 523、對每個語音句子文件進行寬窄帶判別，對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識，判別為窄帶信號的語音句子文件添加窄帶標(biāo)識； 524、對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取，得到特征文本數(shù)據(jù)，其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
3.如權(quán)利要求1所述的廣播電視語音識別方法，其特征在于，步驟S3將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標(biāo)點符號識別，生成含有標(biāo)識的語音識別結(jié)果。
4.如權(quán)利要求1所述的廣播電視語音識別方法，其特征在于，步驟S4對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識具體包括: 541、對各個語音識別結(jié)果進行匯總、對齊，并按照其中包含的起止時間進行排序； 542、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記，包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
5.如權(quán)利要求1所述的廣播電視語音識別方法，其特征在于，步驟S3進行識別處理的過程是根據(jù)語言模型庫進行識別的，且所述語音模型庫通過網(wǎng)絡(luò)文本采集和網(wǎng)絡(luò)文本學(xué)習(xí)不斷進行更新。
6.一種廣播電視語音識別系統(tǒng)，其特征在于，該系統(tǒng)包括: 提取單元，根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)；預(yù)處理終端，對所述音頻數(shù)據(jù)進行預(yù)處理，得到特征文本數(shù)據(jù)，并發(fā)送給云服務(wù)器；云服務(wù)器，對所述特征文本數(shù)據(jù)進行識別處理，得到語音識別結(jié)果，并對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。
7.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng)，其特征在于，所述預(yù)處理終端包括: 切分模塊，對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件；非語音過濾模塊，對所述句子文件進行非語音過濾，留下語音句子文件；寬窄帶判別模塊，對每個語音句子文件進行寬窄帶判別，對判別為寬帶信號的語音句子文件添加寬帶標(biāo)識，判別為窄帶信號的語音句子文件添加窄帶標(biāo)識；音頻特征提取模塊，對添加寬帶標(biāo)識和窄帶標(biāo)識的語音句子文件進行音頻特征提取，得到特征文本數(shù)據(jù)，其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于音視頻文件名稱和對應(yīng)的寬窄帶標(biāo)識。
8.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng)，其特征在于，所述云服務(wù)器包括: 男女聲識別模塊，用于對所述特征文本數(shù)據(jù)進行男女聲識別；說話人識別模塊，用于對所述特征文本進行說話人識別；語音內(nèi)容與標(biāo)點符號識別模塊，用于對所述特征文本進行語音內(nèi)容識別以及標(biāo)點符號識別，生成含有標(biāo)點符號標(biāo)識的語音識別結(jié)果；識別結(jié)果處理模塊，對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識，生成結(jié)構(gòu)化的語音識別結(jié)果。
9.如權(quán)利要求8所述的廣播電視語音識別系統(tǒng)，其特征在于，所述識別結(jié)果處理模塊進一步包括: 匯總排序模塊，用于對各個語音識別結(jié)果進行匯總、對齊，并按照其中包含的起止時間進行排序；加標(biāo)識模塊，用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標(biāo)記，包括說話人性別標(biāo)識、說話人標(biāo)識、語音內(nèi)容、標(biāo)點符號以及時間戳。
10.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng)，其特征在于，所述云服務(wù)器中還包括:語言模型智能學(xué)習(xí)模塊，用于定期搜集網(wǎng)絡(luò)文本，通過對網(wǎng)絡(luò)文本的學(xué)習(xí)定期更新語言模型庫，在識別處理過程中根據(jù)定期更新的語言模型庫進行識別。
【文檔編號】G10L15/26GK103700370SQ201310648375
【公開日】2014年4月2日申請日期:2013年12月4日優(yōu)先權(quán)日:2013年12月4日
【發(fā)明者】陳鑫瑋, 徐波申請人:北京中科模識科技有限公司

完整全部詳細(xì)技術(shù)資料下載