亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音頻數(shù)據(jù)的編碼方法及解碼方法

文檔序號:2833636閱讀:580來源:國知局
專利名稱:音頻數(shù)據(jù)的編碼方法及解碼方法
技術(shù)領(lǐng)域
本發(fā)明涉及智能信息處理領(lǐng)域,尤其涉及一種音頻數(shù)據(jù)的編碼方法及解碼方法。
背景技術(shù)
語音作為人類交流信息的主要手段之一,語音編碼一直在通信系統(tǒng)中占據(jù)重要的地位。語音的數(shù)據(jù)量非常龐大,不便于直接進行傳輸和存儲處理,同時很多領(lǐng)域?qū)φZ音的壓縮傳輸率要求很高,因此必須對語音進行合理有效的處理,以減少語音信號的傳輸速率和存儲量,即進行語音壓縮編碼,因此極低速率語音編碼已經(jīng)越來越受到關(guān)注,語音信號中有很大的信息冗余,壓縮的每一個比特都意味著節(jié)省開支,低速率數(shù)字語音傳輸具有重大的實用價值,高質(zhì)量的低速率語音編碼技術(shù)在移動通信、衛(wèi)星通信、多媒體技術(shù)以及IP電話通信中得到了普遍應用。目前已有的極低速率語音編碼方法是在現(xiàn)有的參數(shù)語音編碼方法的基礎(chǔ)上進行進一步壓縮,實現(xiàn)極低速率下的語音編碼。將相鄰幀聯(lián)合編碼和多級矢量量化等技術(shù)引入到經(jīng)典的參數(shù)編碼方法后,可以使語音在600bps速率下傳輸,接收端生成的語音仍具有可懂性。如果進一步降低語音傳輸速率(低于300bps),語音的音質(zhì)將大大降低,這種方法將難以適用。通過傳統(tǒng)的語音識別系統(tǒng)識別出對應的文本信息后進行傳輸,可以將傳輸速率降至200bps以下,但是采用這種方法識別出的文本難以保證較高的準確率,尤其在噪聲環(huán)境下這一問題更加突顯。

發(fā)明內(nèi)容
(一 )要解決的技術(shù)問題為解決上述的一個或多個問題,本發(fā)明提供了一種音頻數(shù)據(jù)的編碼方法及解碼方法,以在低編碼速率的情況下,保持較高的語音音質(zhì)。( 二 )技術(shù)方案根據(jù)本發(fā)明的一個方面,提供了一種音頻數(shù)據(jù)的編碼方法。該編碼方法包括獲取原始音頻,通過短時能量和短時過零率進行端點檢測,剔除原始音頻中的非音頻數(shù)據(jù),獲得語音段數(shù)據(jù);從語音段數(shù)據(jù)提取特征參數(shù),通過已訓練的隱馬爾科夫模型和Viterbi算法,對每幀語音段數(shù)據(jù)進行狀態(tài)識別,確定狀態(tài)序列和狀態(tài)時長;以及對狀態(tài)序列和狀態(tài)時長進行編碼,生成音頻數(shù)據(jù)包。根據(jù)本發(fā)明的另一個方面,還提供了一種音頻數(shù)據(jù)的解碼方法。該解碼方法包括對接收到的音頻數(shù)據(jù)包進行解碼,提取狀態(tài)序列以及各狀態(tài)時長參數(shù);以及對狀態(tài)序列和狀態(tài)時長通過訓練好的隱馬爾科夫模型和動態(tài)參數(shù)生成算法確定每幀數(shù)據(jù)的譜參數(shù)和基頻,通過聲碼器生成音頻數(shù)據(jù)。(三)有益效果從上述技術(shù)方案可以看出,本發(fā)明音頻數(shù)據(jù)的編碼方法及解碼方法具有以下有益效果
(I)采用基于狀態(tài)傳輸?shù)姆椒ㄟM行語音編碼,發(fā)送端僅需要對識別出的狀態(tài)序列和每個狀態(tài)的時長進行編碼傳輸。通過定量的分析可以確定其編碼速率低于300bps,編碼速率低于傳統(tǒng)的基于參數(shù)的語音編碼方法。(2)接收端是對狀態(tài)序列和各狀態(tài)的時長利用隱馬爾科夫模型確定語音參數(shù),通過聲碼方法生成語音,去除了噪聲的干擾。因此,輸出的語音比傳統(tǒng)的基于參數(shù)的語音編碼方法更加清晰、可懂。(3)傳輸?shù)囊纛l數(shù)據(jù)不受說話人、文本內(nèi)容、聲音采集環(huán)境的限制,因此系統(tǒng)具有高魯棒性,便于實際應用。


圖1為根據(jù)本發(fā)明實施例的音頻數(shù)據(jù)的編碼方法及解碼方法的整體結(jié)構(gòu)示意圖;圖2為圖1所示音頻數(shù)據(jù)的編碼方法中剔除非語音幀的結(jié)構(gòu)示意圖;圖3為圖1所示音頻數(shù)據(jù)的編碼方法中濾除背景噪聲的結(jié)構(gòu)示意圖;圖4為圖1所示音頻數(shù)據(jù)的編碼方法中對預處理后的音頻數(shù)據(jù)提取特征參數(shù)并識別狀態(tài)序列的結(jié)構(gòu)示意圖;圖5為圖1所示音頻數(shù)據(jù)的編碼方法中對狀態(tài)序列和各狀態(tài)時長進行壓縮傳輸?shù)慕Y(jié)構(gòu)示意圖;圖6為圖1所示音頻數(shù)據(jù)解碼方法中接收數(shù)據(jù)并對數(shù)據(jù)包進行解碼的結(jié)構(gòu)示意圖;圖7為圖1所示音頻數(shù)據(jù)解碼方法中通過狀態(tài)序列、狀態(tài)時長和隱馬爾科夫模型生成音頻數(shù)據(jù)的結(jié)構(gòu)示意圖;圖8為本發(fā)明實施例的音頻數(shù)據(jù)的編碼/解碼方法系統(tǒng)中隱馬爾科夫模型的離線訓練過程的示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。附圖中未繪示或描述的實現(xiàn)方式,為所屬技術(shù)領(lǐng)域中普通技術(shù)人員所知的形式。另外,雖然本文可提供包含特定值的參數(shù)的示范,但應了解,參數(shù)無需確切等于相應的值,而是可在可接受的誤差容限或設(shè)計約束內(nèi)近似于相應的值。本發(fā)明提出了一種基于狀態(tài)傳輸?shù)囊纛l數(shù)據(jù)的編解碼機制。該機制分為編碼方法和解碼方法。編碼方法將采集到的語音轉(zhuǎn)換成狀態(tài)序列,通過信道進行傳輸。解碼方法從信道中獲取狀態(tài)序列,對狀態(tài)序列進行解析,恢復原始的語音,實現(xiàn)了音頻數(shù)據(jù)在極低碼率下的傳輸。本發(fā)明中提供了一種音頻數(shù)據(jù)的編碼方法。如圖1所示,本編碼方法包括對不同環(huán)境下的原始音頻,首先通過端點檢測技術(shù)剔除非音頻數(shù)據(jù);針對不同類型的噪聲,采用小波去噪的方法濾除噪聲,盡可能降低噪聲的干擾;對于經(jīng)過端點檢測和降噪后的音頻數(shù)據(jù),提取特征參數(shù)并通過隱馬爾科夫模型對狀態(tài)序列進行識別,將語音信號轉(zhuǎn)換成狀態(tài)序列以及每個狀態(tài)的時長;對識別后的狀態(tài)信息進行編碼,加載到通信系統(tǒng)中進行傳輸。該編碼方法包括端點檢測步驟、語音增強步驟、狀態(tài)識別步驟、數(shù)據(jù)編碼步驟。下面對各個功能步驟采用的方法進行詳細介紹。步驟S110,獲取原始音頻,通過短時能量和短時過零率實現(xiàn)端點檢測,剔除原始音頻中的非音頻數(shù)據(jù),獲得語音段數(shù)據(jù),后續(xù)只對語音段數(shù)據(jù)進行狀態(tài)識別、編碼和傳輸,可以進一步降低系統(tǒng)對音頻的傳輸速率;利用短時能量可以有效的檢測出濁音,利用短時過零率可以有效的檢測出清音,從而減少數(shù)據(jù)處理量,拒絕非語音信號。如圖2所示,通過短時能量和短時過零率實現(xiàn)端點檢測的過程如下子步驟S112,將原始音頻等間隔分成若干子段,計算每段原始音頻的短時能量和短時過零率;子步驟S114,將每段原始音頻的短時能量和短時過零率分別與預先設(shè)定的短時能量和短時過零率的兩個門限進行比較,根據(jù)比較結(jié)果將采集的音頻數(shù)據(jù)分為靜音段、過渡段和語音段,去除靜音段和過渡段,僅保留語音段數(shù)據(jù)。如果短時能量或短時過零率超過低門限,則開始標記起始點進入過渡段,進入過渡段后當兩個參數(shù)都回落到低門限以下則恢復到靜音狀態(tài),而在過渡段中兩個參數(shù)的任意一個超過高門限,即被認為進入語音段。處在語音段時,如果兩個參數(shù)都降到低門限以下,并且持續(xù)時間超過閾值,則語音段的終點確定。處理后的音頻只包括語音段的數(shù)據(jù)。步驟S120,采取小波去噪方法降低語音段數(shù)據(jù)中的噪聲干擾;系統(tǒng)在實際應用時,采集的聲音不可避免存在著各種噪聲??赡馨ㄓ蓱?zhàn)斗機引起的周期性噪聲、由于爆炸撞擊引起的沖激噪聲、由于室外氣流引起的寬帶噪聲以及周邊的語音干擾。相比其它去噪方法,小波變換在低信噪比情況下的去噪效果較好,去噪后的語音信號識別率較高,對時變信號和突變信號去噪效果尤其明顯。如圖3所示,采取小波去噪方法降低噪聲干擾的步驟包括子步驟S122,對語音段數(shù)據(jù)進行3層小波分解,分解成3個高頻部分和I個低頻部分,每個部分對應一組小波系數(shù);子步驟S124,對高頻部分進行二次小波分解,進一步細化各高頻部分的頻帶,二次分解后得到的各低尺度高頻部分,其小波系數(shù)基本由噪聲控制;子步驟S126,將噪聲小波系數(shù)占主導的分量剔除,保留語音信號占主導的小波系數(shù),即將二次分解后得到的各低尺度高頻部分剔除;子步驟S128,利用小波重構(gòu)算法恢復原始信號,實現(xiàn)對語音段數(shù)據(jù)的去噪。步驟S130,對去噪的語音段數(shù)據(jù)提取特征參數(shù),通過已訓練的隱馬爾科夫模型和Viterbi算法,對每幀音頻數(shù)據(jù)進行狀態(tài)識別,確定狀態(tài)序列和狀態(tài)時長;如圖4所示,狀態(tài)識別步驟具體實現(xiàn)方法如下子步驟S132,對于每幀音頻數(shù)據(jù),對其進行特征參數(shù)提取,提取梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC);MFCC是基于人耳聽覺提出來的,廣泛應用于語音信號處理的各個領(lǐng)域,因此譜參數(shù)選擇MFCC。這里先提取靜態(tài)參數(shù),然后分別計算它們的一階差分和二階差分,最終提取的參數(shù)是39維,利用這39維屬性進行后續(xù)狀態(tài)的識別。子步驟S134,對于去噪后的語音段數(shù)據(jù),利用提取的每幀音頻數(shù)據(jù)的MFCC,通過訓練好的隱馬爾科夫模型和Viterbi算法進行狀態(tài)識別,確定最優(yōu)狀態(tài)序列;子步驟S136,對識別出的狀態(tài)序列進行糾錯處理,確定最終生成的狀態(tài)序列以及各狀態(tài)的時長,從而保證狀態(tài)識別的準確性。例如連續(xù)3幀數(shù)據(jù)的狀態(tài)識別結(jié)果為AXA,則需更正為AAA。本領(lǐng)域技術(shù)人員應當清楚,狀態(tài)層是處于音素層和語音參數(shù)層之間的層次,如果系統(tǒng)只對狀態(tài)進行識別和傳輸,不僅可以提高識別的準確率,而且相比傳統(tǒng)的參數(shù)語音編碼方法,可以進一步降低語音的傳輸速率。無論在編碼方法,還是在解碼方法中,都需要用到隱馬爾科夫模型,以下對隱馬爾科夫模型的訓練步驟進行說明。模型訓練步驟選擇覆蓋不同說話人、不同主題的音庫進行隱馬爾科夫模型訓練,這樣可以保證模型的魯棒性,同時音庫應覆蓋各種聲韻現(xiàn)象。每個音頻文件需要對應一個標注文件,每個標注文件需要包含相應音頻所對應的音素信息。對于訓練語料首先需要剔除非音頻數(shù)據(jù)并濾除噪聲,然后進行隱馬爾科夫模型訓練;采用步驟SllO中的端點檢測方法剔除非音頻數(shù)據(jù),采用步驟S120中的語音增強方法濾除噪聲。如圖8所示,模型訓練過程包括步驟S310,對剔除非音頻數(shù)據(jù)并濾除噪聲的訓練語料提取譜參數(shù)和基頻,提取的譜參數(shù)是39維MFCC。每個音素對應一個隱馬爾科夫模型,模型訓練時每個音素分成5個狀態(tài),對于譜參數(shù),每個狀態(tài)對應一個多高斯分布。對于基頻需要分清音和濁音兩種情況考慮,采用多空間分布進行訓練,利用譜參數(shù)和基頻建立隱馬爾科夫模型。根據(jù)特征參數(shù)類型的不同采用多個流進行訓練。模型中包含4個流,其中I個流對應于譜參數(shù),另外3個流分別對應于基頻以及基頻的一階和二階差分。步驟S320,利用提取的譜參數(shù)和基頻進行模型的初始訓練,確定模型的初始概率、觀測概率和轉(zhuǎn)移概率。每個音素對應一個隱馬爾科夫模型,每個隱馬爾科夫模型包含5個狀態(tài),不同狀態(tài)對應于不同的分布。采用等分法確定不同狀態(tài)和不同音素之間的初始邊界,并訓練得到模型的初始參數(shù),然后通過Viterbi算法調(diào)整不同狀態(tài)之間邊界,并重新訓練更新模型參數(shù),經(jīng)過多次迭代確定模型初始概率、觀測概率和轉(zhuǎn)移概率即完成模型的初始訓練。步驟S330,對狀態(tài)進行聚類,根據(jù)譜參數(shù)、基頻等聲學特征將相似的狀態(tài)歸為I類。步驟S340,進行模型的優(yōu)化訓練,更新模型參數(shù)。根據(jù)狀態(tài)聚類的結(jié)果,更新模型的初始概率、觀測概率和轉(zhuǎn)移概率,然后通過Viterbi算法重新調(diào)整不同狀態(tài)之間邊界,經(jīng)過多次迭代優(yōu)化模型參數(shù)后確定最終的隱馬爾科夫模型。最終得到的隱馬爾科夫模型包括4個流,在進行狀態(tài)識別時只使用其中I個與譜參數(shù)相關(guān)的流。在通過狀態(tài)生成音頻數(shù)據(jù)時需要同時使用4個流。至此,隱馬爾科夫模型訓練過程結(jié)束。步驟S140,對每個語音段的狀態(tài)序列和狀態(tài)時長進行編碼,生成音頻數(shù)據(jù)包。
數(shù)據(jù)編碼過程如圖5所示,具體實現(xiàn)方法如下子步驟S142,對狀態(tài)序列以及狀態(tài)時長根據(jù)相應的碼值進行編碼,傳輸對應碼值的編號,其中每個狀態(tài)對應一個碼值,不同時長對應于相應的碼值。子步驟S144,將狀態(tài)序列及狀態(tài)時長的碼值組成音頻數(shù)據(jù)包,其中,數(shù)據(jù)包第一位作為同步頭,每個狀態(tài)信息(類別和時長)按照時間順序依次排列,數(shù)據(jù)包最后一位作為奇偶校驗位。采用上述方法進行語音編碼,通過定量的分析可以確定傳輸速率可降到低于300bps。在發(fā)送端完成數(shù)據(jù)編碼后,將數(shù)據(jù)包加載到信道中進行傳輸。本發(fā)明中提供了一種音頻數(shù)據(jù)的解碼方法,如圖1所示。該解碼方法用于在保證通信過程中數(shù)據(jù)正確傳輸?shù)那疤嵯聦?shù)據(jù)包進行解碼,提取狀態(tài)序列以及各狀態(tài)時長參數(shù);根據(jù)隱馬爾科夫模型和動態(tài)參數(shù)生成算法確定每幀數(shù)據(jù)的譜參數(shù)和基頻,利用聲碼器生成音頻數(shù)據(jù)。該解碼方法還可以對語音增加適當?shù)谋尘霸肼?,使傳輸?shù)恼Z音聽起來是在真實的環(huán)境下采集的。該解碼方法還包括數(shù)據(jù)解碼步驟、音頻生成步驟。步驟S210,對接收到的音頻數(shù)據(jù)包進行解碼,提取狀態(tài)序列以及各狀態(tài)時長參數(shù)。如圖6所示,數(shù)據(jù)解碼步驟的具體實現(xiàn)方法如下子步驟S212,對音頻數(shù)據(jù)包的校驗信息進行檢驗,判斷同步頭和奇偶校驗位的正確性。子步驟S214,在確定數(shù)據(jù)包在通信系統(tǒng)中正確傳輸后,繼續(xù)對狀態(tài)序列和狀態(tài)時長進行解碼,通過相應的狀態(tài)碼值和時長碼值依次解析各狀態(tài)的類別和時長。對接收到的狀態(tài)序列需要進行進一步的檢驗,盡可能避免錯誤信息的傳遞。如果狀態(tài)序列中連續(xù)兩個狀態(tài)相同,說明該數(shù)據(jù)包在傳輸過程中已經(jīng)被破壞,不再進行后續(xù)處理。步驟S220,對狀態(tài)序列和狀態(tài)時長通過訓練好的隱馬爾科夫模型和動態(tài)參數(shù)生成算法確定每幀數(shù)據(jù)的譜參數(shù)和基頻,通過聲碼器生成音頻數(shù)據(jù);后對其進行后處理,使最終的音頻數(shù)據(jù)像是在真實環(huán)境下采集的。如圖7所示,音頻生成步驟具體實現(xiàn)方法如下子步驟S222,在已知狀態(tài)序列以及各狀態(tài)時長的基礎(chǔ)上,通過訓練好的隱馬爾科夫模型和動態(tài)參數(shù)生成算法計算最優(yōu)的參數(shù)序列。本子步驟中,需要同時考慮了譜參數(shù)和基頻的靜態(tài)特征以及一階和二階差分的動態(tài)特征,避免了生成的參數(shù)在狀態(tài)模型銜接處的不連續(xù)現(xiàn)象,保證了生成參數(shù)的平滑性。子步驟S224,利用上述的最優(yōu)參數(shù)序列選擇梅爾對數(shù)譜近似(Mel LogSpectrumApproximation,簡稱MLSA)的合成聲碼器生成音頻數(shù)據(jù)。此時得到的音頻數(shù)據(jù)已經(jīng)基本濾除了真實環(huán)境下的背景噪聲。子步驟S226,在完成從狀態(tài)序列和狀態(tài)時長到音頻的轉(zhuǎn)換后,為了增加語音的真實感,需要對語音增加適當?shù)谋尘霸肼暎箓鬏數(shù)恼Z音聽起來像是在真實的環(huán)境下采集的。為了不影響語音的可懂度,應選擇平穩(wěn)的隨機噪聲,信噪比盡可能的高。綜上所述,本發(fā)明提出了一種語音編碼及解碼方法,通過語音編碼將采集到的語音轉(zhuǎn)換成狀態(tài)序列,通過信道進行傳輸,通過語音解碼對狀態(tài)序列進行解析,恢復原始的語音,實現(xiàn)了音頻數(shù)據(jù)低碼率下的傳輸。解碼后的語音清晰、可懂,同時系統(tǒng)具有高魯棒性,不受說話人、文本內(nèi)容、聲音采集環(huán)境的限制,便于實際應用。需要說明的是,上述對各部件的實現(xiàn)方式并不僅限于實施方式中提到的各種實現(xiàn)方式,本領(lǐng)域的普通技術(shù)人員可對其進行簡單地熟知地替換,例如(I)狀態(tài)識別和音頻生成用到的譜參數(shù)是MFCC,可以用其它參數(shù)替代,如使用不同階數(shù)的線譜對(Linear Spectrum Pair, LSP)參數(shù)。(2)建立隱馬爾科夫模型過程中,規(guī)定的將每個音素分成5個狀態(tài)也可以進行調(diào)整,如聲母包含3個狀態(tài),韻母包含5個狀態(tài)。以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種音頻數(shù)據(jù)的編碼方法,其特征在于,包括 獲取原始音頻,通過短時能量和短時過零率進行端點檢測,剔除所述原始音頻中的非音頻數(shù)據(jù),獲得語音段數(shù)據(jù); 從所述語音段數(shù)據(jù)提取特征參數(shù),通過已訓練的隱馬爾科夫模型和Viterbi算法,對每幀語音段數(shù)據(jù)進行狀態(tài)識別,確定狀態(tài)序列和狀態(tài)時長;以及對所述狀態(tài)序列和狀態(tài)時長進行編碼,生成音頻數(shù)據(jù)包。
2.根據(jù)權(quán)利要求1所述的編碼方法,其特征在于,所述通過短時能量和短時過零率進行端點檢測,剔除原始音頻中的非音頻數(shù)據(jù)包括 將原始音頻等間隔分成若干子段,計算每段原始音頻的短時能量和短時過零率;以及將每段原始音頻的短時能量和短時過零率分別與預先設(shè)定的短時能量和短時過零率的兩個門限進行比較,根據(jù)比較結(jié)果將采集的音頻數(shù)據(jù)分為靜音段、過渡段和語音段,去除靜音段和過渡段,僅保留語音段數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的編碼方法,其特征在于,所述對去噪的語音段數(shù)據(jù)提取特征參數(shù),通過已訓練的隱馬爾科夫模型和Viterbi算法,對每幀語音段數(shù)據(jù)進行狀態(tài)識別,確定狀態(tài)序列和狀態(tài)時長的步驟包括 對于每幀音頻數(shù)據(jù),對其進行特征參數(shù)提取,提取梅爾頻率倒譜系數(shù); 利用提取的每幀音頻數(shù)據(jù)的梅爾頻率倒譜系數(shù),通過訓練好的隱馬爾科夫模型和Viterbi算法進行狀態(tài)識別,確定最優(yōu)狀態(tài)序列;以及 對識別出的狀態(tài)序列進行糾錯處理,確定最終生成的狀態(tài)序列以及各狀態(tài)的時長,從而保證狀態(tài)識別的準確性。
4.根據(jù)權(quán)利要求3所述的編碼方法,其特征在于,所述通過訓練好的隱馬爾科夫模型和Viterbi算法進行狀態(tài)識別的步驟之前還包括 對剔除非音頻數(shù)據(jù)并濾除噪聲的訓練語料提取譜參數(shù)和基頻; 利用提取的譜參數(shù)和基頻進行模型的初始訓練,確定模型的初始概率、觀測概率和轉(zhuǎn)移概率,每個音素對應一個隱馬爾科夫模型,每個隱馬爾科夫模型包含5個狀態(tài),不同狀態(tài)對應于不同的分布; 對狀態(tài)進行聚類,根據(jù)譜參數(shù)、基頻將相似的狀態(tài)歸為I類;以及根據(jù)狀態(tài)聚類的結(jié)果,更新模型的初始概率、觀測概率和轉(zhuǎn)移概率,通過Viterbi算法重新調(diào)整不同狀態(tài)之間邊界,經(jīng)過多次迭代優(yōu)化模型參數(shù)后確定最終的隱馬爾科夫模型。
5.根據(jù)權(quán)利要求1所述的編碼方法,其特征在于,所述對每個語音段數(shù)據(jù)的狀態(tài)序列和狀態(tài)時長進行編碼包括 對狀態(tài)序列以及狀態(tài)時長根據(jù)相應的碼值進行編碼,傳輸對應碼值的編號,其中每個狀態(tài)對應一個碼值,不同時長對應于相應的碼值;以及 將狀態(tài)序列及狀態(tài)時長的碼值組成音頻數(shù)據(jù)包,其中,數(shù)據(jù)包第一位作為同步頭,每個狀態(tài)信息按照時間順序依次排列,數(shù)據(jù)包最后一位作為奇偶校驗位。
6.根據(jù)權(quán)利要求1至5中任一項所述的編碼方法,其特征在于,從語音段數(shù)據(jù)提取特征參數(shù)的步驟之前還包括 采取小波去噪方法降低語音段數(shù)據(jù)中的噪聲干擾。
7.一種對權(quán)利要求1至5中任一項編碼方法獲得的音頻數(shù)據(jù)包進行解碼的方法,其特征在于,包括 對接收到的音頻數(shù)據(jù)包進行解碼,提取狀態(tài)序列以及各狀態(tài)時長參數(shù);以及 對狀態(tài)序列和狀態(tài)時長通過訓練好的隱馬爾科夫模型和動態(tài)參數(shù)生成算法確定每幀數(shù)據(jù)的譜參數(shù)和基頻,通過聲碼器生成音頻數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的解碼方法,其特征在于,所述對接收到的音頻數(shù)據(jù)包進行解碼,提取狀態(tài)序列以及各狀態(tài)時長參數(shù)的步驟包括 對音頻數(shù)據(jù)包的校驗信息進行檢驗,判斷同步頭和奇偶校驗位的正確性;以及 在確定數(shù)據(jù)包在通信系統(tǒng)中正確傳輸后,對狀態(tài)序列和狀態(tài)時長進行解碼,通過相應的狀態(tài)碼值和時長碼值依次解析各狀態(tài)的類別和時長。
9.根據(jù)權(quán)利要求7所述的解碼方法,其特征在于,所述對狀態(tài)序列和狀態(tài)時長通過訓練好的隱馬爾科夫模型和動態(tài)參數(shù)生成算法確定每幀數(shù)據(jù)的譜參數(shù)和基頻,通過聲碼器生成音頻數(shù)據(jù)的步驟包括 在已知狀態(tài)序列以及各狀態(tài)時長的基礎(chǔ)上,通過訓練好的隱馬爾科夫模型和動態(tài)參數(shù)生成算法計算最優(yōu)的參數(shù)序列;以及 利用上述的最優(yōu)參數(shù)序列通過聲碼器生成音頻數(shù)據(jù)。
10.根據(jù)權(quán)利要求7至9中任一項所述的解碼方法,其特征在于,所述生成音頻數(shù)據(jù)的步驟之后還包括 對音頻數(shù)據(jù)增加適當?shù)谋尘霸肼暎栽黾诱Z音的真實感。
全文摘要
本發(fā)明提供了一種音頻數(shù)據(jù)的編碼方法和解碼方法。該編碼方法包括獲取原始音頻,通過短時能量和短時過零率進行端點檢測,剔除原始音頻中的非音頻數(shù)據(jù),獲得語音段數(shù)據(jù);從語音段數(shù)據(jù)提取特征參數(shù),通過已訓練的隱馬爾科夫模型和Viterbi算法,對每幀語音段數(shù)據(jù)進行狀態(tài)識別,確定狀態(tài)序列和狀態(tài)時長;以及對狀態(tài)序列和狀態(tài)時長進行編碼,生成音頻數(shù)據(jù)包。本發(fā)明可以在低編碼速率的情況下,保持較高的語音音質(zhì)。
文檔編號G10L19/24GK103035238SQ201210487489
公開日2013年4月10日 申請日期2012年11月27日 優(yōu)先權(quán)日2012年11月27日
發(fā)明者陶建華, 劉斌, 潘詩鋒 申請人:中國科學院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1