亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種自適應(yīng)多速率窄帶編碼方法及編碼器的制作方法

文檔序號(hào):2830856閱讀:552來(lái)源:國(guó)知局

專利名稱::一種自適應(yīng)多速率窄帶編碼方法及編碼器的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及自適應(yīng)多速率窄帶編碼器及其編碼方法,具體涉及到自適應(yīng)多速率窄帶編碼器的話音激活檢測(cè)和對(duì)連續(xù)聲音信號(hào)幀進(jìn)行AMR-NB編碼的技術(shù)。
背景技術(shù)
:碼激勵(lì)線性預(yù)測(cè)編碼器自1985年被提出以來(lái)得到了廣泛的應(yīng)用。在碼分多址(CDMA)和通用移動(dòng)通信系統(tǒng)(UMTS)的聲碼器中都使用了碼激勵(lì)線性預(yù)測(cè)編碼器的技術(shù)。碼激勵(lì)線性預(yù)測(cè)包括了線性預(yù)測(cè)和量化、自適應(yīng)碼書(shū)搜索和固定碼書(shū)搜索。因?yàn)檎Z(yǔ)音本身有靜默期,可以通過(guò)降低這些靜默期間的數(shù)據(jù)速率有效壓縮語(yǔ)音數(shù)據(jù)的傳輸速率,高通公司的申請(qǐng)?zhí)枮?2104618.9的可變速率聲碼器的專利就是關(guān)于上述方法的一個(gè)方案。在UMTS中使用了自適應(yīng)多速率(AMR)語(yǔ)音編碼,自適應(yīng)多速率(AMR)語(yǔ)音編碼是3GPP(第三代移動(dòng)通信伙伴計(jì)劃)制定的應(yīng)用于第三代移動(dòng)通信中的語(yǔ)音壓縮編碼,自適應(yīng)多速率(AMR)語(yǔ)音編碼又分為自適應(yīng)多速率窄帶(AMR-NB)語(yǔ)音編碼、自適應(yīng)多速率寬帶(AMR-WB)語(yǔ)音編碼和自適應(yīng)多速率寬帶改進(jìn)型(AMR-WB+)語(yǔ)音編碼,這些編碼方法都基于碼書(shū)激勵(lì)線性線性預(yù)測(cè)技術(shù)。自適應(yīng)多速率(AMR)編解碼方式中采用的碼書(shū)激勵(lì)線性預(yù)測(cè)編碼器將一個(gè)話音信號(hào)幀分成若干個(gè)子幀,進(jìn)行線性預(yù)測(cè)和量化、自適應(yīng)碼書(shū)搜索和量化以及固定碼書(shū)搜索和量化。AMR-NB(自適應(yīng)多速率窄帶)語(yǔ)音編碼支持八種速率的語(yǔ)音模式的編碼速率12.2、10.2、7.95、7.40、6.70、5.90、5.15、4.75kb/s(千比特/秒),以及低速率(1.80kb/s)的背景噪聲模式的編碼速率,3GPP的TS26.071-500的章節(jié)5的表格1(Table1)給出了對(duì)應(yīng)上述這些自適應(yīng)多速率窄帶編碼速率的編碼器模式AMR—12.20、AMR—10.20、M1R_7.95、AMR—7.40、AMR_6.70、AMR—5.90、AMR—5.15、AMR—4.75以及AMR—SID。線性預(yù)測(cè)和量化包括了將采樣得到的話音信號(hào)幀或經(jīng)過(guò)預(yù)處理的話音信號(hào)幀組成一個(gè)序列,用一個(gè)窗函數(shù)乘該序列中的聲音樣本,以提供一個(gè)加窗的聲音數(shù)據(jù)幀;由所述加窗的聲音數(shù)據(jù)幀計(jì)算一組自相關(guān)系數(shù);用萊文遜一杜賓(Levinson-Durbin)算法由所述自相關(guān)系數(shù)組計(jì)算一組線性預(yù)測(cè)系數(shù)將所述線性預(yù)測(cè)系數(shù)組轉(zhuǎn)換到另一個(gè)頻譜域;根據(jù)編碼指令中的速率量化所述轉(zhuǎn)換到另一個(gè)頻譜域上的系數(shù)組,例如,IO階的一組線頻譜對(duì)(LSP)的值,或16階的一組聲抗納頻譜對(duì)(ISP)的值,關(guān)于線頻譜對(duì)(LSP),最早在發(fā)表于國(guó)際語(yǔ)言語(yǔ)音和信號(hào)處理會(huì)議(ICASSP)'84中的文章"線頻譜對(duì)(LSP)和語(yǔ)音數(shù)據(jù)壓縮"中有說(shuō)明,高通公司的申請(qǐng)?zhí)枮?2104618.9的可變速率聲碼器的專利中也有說(shuō)明,在3GPP的TS(技術(shù)規(guī)范)26090和3GPP2的C.S0014-A中也都有說(shuō)明。在碼激勵(lì)線性預(yù)測(cè)編碼過(guò)程中,自適應(yīng)碼書(shū)搜索和固定碼書(shū)搜索得到的最佳碼書(shū)矢量信號(hào)乘以各自的最佳增益后相加,其和為激勵(lì)信號(hào)。激勵(lì)信號(hào)是編碼過(guò)程中一定要使用的,碼激勵(lì)線性預(yù)測(cè)編碼是搜索與原始語(yǔ)音之間誤差最小的基于激勵(lì)信號(hào)的合成語(yǔ)音。3GPP的TS26090對(duì)自適應(yīng)多速率窄帶的自適應(yīng)碼書(shū)搜索作了說(shuō)明,例如,TS26090-310版本的5.6節(jié)。自適應(yīng)碼書(shū)搜索包含了基于以前激勵(lì)信號(hào)的閉環(huán)基音(pitch)搜索和此后的按選定的整數(shù)和分?jǐn)?shù)基音延遲進(jìn)行的內(nèi)插以前激勵(lì)信號(hào)得到自適應(yīng)碼書(shū)的計(jì)算。自適應(yīng)碼書(shū)搜索得到的自適應(yīng)碼書(shū)參數(shù)是激勵(lì)信號(hào)、整數(shù)和分?jǐn)?shù)基音延遲、自適應(yīng)碼書(shū)增益和量化的自適應(yīng)碼書(shū)增益。閉環(huán)基音搜索是通過(guò)原始語(yǔ)音和重構(gòu)語(yǔ)音之間的均方加權(quán)誤差的最小化來(lái)完成的,所述最小化需要從搜索范圍內(nèi)的每個(gè)延時(shí)值所對(duì)應(yīng)的均方加權(quán)誤差中找出最小的均方加權(quán)誤差,每個(gè)延時(shí)值所對(duì)應(yīng)的均方加權(quán)誤差由自適應(yīng)碼書(shū)搜索目標(biāo)信號(hào)(targetsignal)和加權(quán)合成濾波器(weightedsynthesisfilter)對(duì)以前激勵(lì)信號(hào)的響應(yīng)所確定。對(duì)自適應(yīng)多速率窄帶來(lái)說(shuō),3GPP的TS26.090-310版本中的5.6節(jié)對(duì)此做了說(shuō)明,就是先求解由下面的式(1)表示的特征項(xiàng)R(k)最大時(shí)的整數(shù)延時(shí)值k得到最佳整數(shù)延遲,x(n)是自適應(yīng)碼書(shū)搜索的目標(biāo)信號(hào),yk是在整數(shù)延時(shí)k處的過(guò)去激勵(lì)信號(hào)的經(jīng)過(guò)濾波的值,在最佳整數(shù)延遲附近的分?jǐn)?shù)延時(shí)值是通過(guò)內(nèi)插歸一化的特征項(xiàng)R(k)得到的,搜索最大的分?jǐn)?shù)延時(shí)值可得到最佳分?jǐn)?shù)延遲,存放激勵(lì)信號(hào)值的是激勵(lì)緩沖器excitationbuffer(u(n),n=-(143+11),",39,),其中搜索階段的值(u(n),n=0,1,…,39,)是線性殘差(LPresidual),每個(gè)子幀的激勵(lì)信號(hào)是當(dāng)前本子幀的自適應(yīng)碼書(shū)信號(hào)按量化的自適應(yīng)碼書(shū)增益值放大后的得到信號(hào),同固定碼書(shū)信號(hào)按量化的固定碼書(shū)增益值放大后的得到信號(hào)進(jìn)行疊加所得到的信號(hào),關(guān)于這一點(diǎn),可以參見(jiàn)3GPP的TS26.090-310版本的5.9節(jié),其中式(64)是激勵(lì)信號(hào)值的數(shù)學(xué)表示。關(guān)于AMR-NB的固定碼書(shū)搜索在3GPP的TS26090-500的5.7節(jié)中有詳細(xì)描述,AMR-NB的固定碼書(shū)采用了代數(shù)碼書(shū)Algebraiccodebook,固定碼書(shū)搜索得到固定碼書(shū)參數(shù)有固定碼書(shū)矢量、固定碼書(shū)增益及量化的固定碼書(shū)增益。自適應(yīng)多速率窄帶(AMR-NB)語(yǔ)音解碼過(guò)程中,對(duì)每一幀都進(jìn)行LP(線性預(yù)測(cè))濾波器參數(shù)解碼,從而形成用于重構(gòu)每一子幀的語(yǔ)音信號(hào)的每個(gè)子幀的LP濾波器系數(shù);每個(gè)子幀的激勵(lì)信號(hào)的構(gòu)造方法是將自適應(yīng)碼書(shū)信號(hào)按自適應(yīng)碼書(shū)增益值放大后得到的信號(hào),同固定碼書(shū)信號(hào)按固定碼書(shū)增益值放大后得到的信號(hào)進(jìn)行疊加,這里的自適應(yīng)碼書(shū)增益值和固定碼書(shū)信號(hào)是按照解碼得到的自適應(yīng)碼書(shū)增益索引和固定碼書(shū)索引從量化表找到的量化值;AMR-NB的自適應(yīng)碼書(shū)信號(hào)是基于上一個(gè)子幀的激勵(lì)信號(hào)的合成信號(hào),即,解碼自適應(yīng)碼書(shū)索引得到的的整數(shù)和分?jǐn)?shù)基音延遲,按所述整數(shù)和分?jǐn)?shù)基音延遲對(duì)上一個(gè)子幀的激勵(lì)信號(hào)進(jìn)行內(nèi)插得到自適應(yīng)碼書(shū)信號(hào)。自適應(yīng)多速率窄帶(AMR-NB)的固定碼書(shū)增益量化包括基于以前子幀的量化能量預(yù)測(cè)誤差(quantifiedpredictionerror)得到的固定碼書(shū)預(yù)測(cè)增益,以及固定碼書(shū)增益和所述乙。x(")力(")的固定碼書(shū)預(yù)測(cè)增益之間的修正因子的量化。子幀的量化能量預(yù)測(cè)誤差(quantifiedpredictionerror)由編解碼雙方約定一個(gè)相同的值,例如可以是上一個(gè)被編碼的信號(hào)幀的幀能量的對(duì)數(shù)平均值,也可以是上述的上一個(gè)編碼幀的修正因子的對(duì)數(shù)按固定比例放大后的值,或者是編解碼雙方都使用各自上一幀的量化能量預(yù)測(cè)誤差。3GPP的TS26.090對(duì)自適應(yīng)多速率窄帶的固定碼書(shū)增益量化作了說(shuō)明,例如,TS26.090-310版本的5.8節(jié)中的式(54)和(56),也就是下面的式(3)和(4)說(shuō)明量化能量預(yù)測(cè)誤差如何影響固定碼書(shū)預(yù)測(cè)增益的,<formula>formulaseeoriginaldocumentpage9</formula>(4)式(3)是第n個(gè)子幀預(yù)測(cè)能量(predictedenergy)的定義,取值為的[blb2b3b4]是移動(dòng)平均(MA)預(yù)測(cè)系數(shù),》(的就是第k個(gè)子幀的量化能量預(yù)測(cè)誤差;式(4)是固定碼書(shū)預(yù)測(cè)增益(predictedfixed-codebookgain)g:的定義,玄是更新能量(irmovationenergy)的平均值并且根據(jù)模式的不同取不同的常數(shù)值,例如12.2kb/s時(shí)為36分貝(dB),五,是平均更新能量(meaninnovationenergy)。固定碼書(shū)增益和固定碼書(shū)預(yù)測(cè)增益之間的修正因子為前者與后者的比值;而TS26.090-310版本的5.8節(jié)中的式(58)說(shuō)明能量預(yù)測(cè)誤差R(n)就是20乘上述修正因子的對(duì)數(shù),量化能量預(yù)測(cè)誤差則是20乘量化修正因子的對(duì)數(shù)。在3GPP的TS26.092-500的5.2節(jié)幀能量計(jì)算(Frameenergycaculation)中給出了根據(jù)以前的幀的幀能量計(jì)算幀能量對(duì)數(shù)平均值的如下說(shuō)明<formula>formulaseeoriginaldocumentpage9</formula>是輸入聲音信號(hào)幀/經(jīng)過(guò)高通濾波預(yù)處理后的信號(hào)幀,eA。g(0是當(dāng)前的第的幀能量對(duì)數(shù)值。<formula>formulaseeoriginaldocumentpage9</formula>(6)e"i。g是當(dāng)前的第;幀的幀能量對(duì)數(shù)平均值,幀能量對(duì)數(shù)平均值被量化成6比特的能量索引放在SID幀。采樣數(shù)字話音幀經(jīng)預(yù)處理后形成的數(shù)字話音幀經(jīng)過(guò)線性預(yù)測(cè)和量化、自適應(yīng)碼書(shū)搜索和固定碼書(shū)搜索后所形成的合成數(shù)字話音幀的共振峰主要由線性預(yù)測(cè)所使用的線性預(yù)測(cè)分析(LPC)所決定,更確切一點(diǎn),對(duì)AMR-NB來(lái)說(shuō),就是線頻譜對(duì)(LSP)轉(zhuǎn)換為預(yù)測(cè)(LP)系數(shù)后,一個(gè)10階線性預(yù)測(cè)合成濾波器(linearpredictionsynthesisfilter)就可以按式(7)確定,其中的4(/=/,…,附,附-lO)是量化了的預(yù)測(cè)(LP)系數(shù)。<formula>formulaseeoriginaldocumentpage10</formula>(7)對(duì)于AMR-NB和AMR-WB來(lái)說(shuō),將激勵(lì)信號(hào)通過(guò)線性預(yù)測(cè)合成濾波器濾波后的輸出就是合成數(shù)字話音幀,所以,線性預(yù)測(cè)合成濾波器的極點(diǎn)對(duì)應(yīng)了合成數(shù)字話音幀的共振峰的頻率和帶寬,這些共振峰反映在時(shí)域上的波形的強(qiáng)度上,對(duì)聽(tīng)覺(jué)影響很大。根據(jù)發(fā)表在Proc.IEEE(進(jìn)展.電氣電子工程師協(xié)會(huì)).1975,63(4):561-580的文獻(xiàn)"線性預(yù)測(cè)入門(mén)性的回顧(LinearPrediction:ATutorialReview)"可以知道,采用線性預(yù)測(cè)的方法得到的譜包絡(luò)的峰值比較接近諧波峰值而常常偏離真正的共振峰的位置,也就是說(shuō),根據(jù)線性預(yù)測(cè)合成濾波器得到的合成數(shù)字話音幀的譜包絡(luò)和原來(lái)的數(shù)字話音信號(hào)幀的譜包絡(luò)并不是一致的。在電子工業(yè)出版社2004年出版的作者是美國(guó)的夸特爾瑞的<〈離散時(shí)間語(yǔ)音信號(hào)處理:原理與應(yīng)用(Discrete-TimeSpeechSignalProcessing:PrincipleandPractice)〉〉的5.3.4節(jié)——Levinson(萊文遜)遞歸及其相關(guān)特性中指出線性預(yù)測(cè)所使用的全極點(diǎn)模型和自相關(guān)方法會(huì)使(7)式的所有極點(diǎn)落在單位圓內(nèi)是最小相位系統(tǒng);序列的自相關(guān)法的解的傅立葉變換的相位函數(shù)是失真的;線性預(yù)測(cè)的自相關(guān)引起聲門(mén)最大相位極點(diǎn)向最小相位極點(diǎn)的轉(zhuǎn)變;建立合成語(yǔ)音波形時(shí),自相關(guān)變換造成的相位函數(shù)失真可能對(duì)語(yǔ)音感知有影響,即,合成數(shù)字話音信號(hào)的波形和原來(lái)數(shù)字話音信號(hào)的波形的偏離。在該書(shū)的5.6節(jié)——基于全極點(diǎn)模型的語(yǔ)音綜合中指出基于線性預(yù)測(cè)自相關(guān)法的合成信號(hào)看起來(lái)像語(yǔ)音,但同時(shí)由于其最小相位特性而失去了絕對(duì)相位結(jié)構(gòu);書(shū)中的圖5.18中的例子所示,重建語(yǔ)音信號(hào)的尖峰比原始信號(hào)更為突出,并且,假定為最小相位的理想聲門(mén)波是時(shí)間翻轉(zhuǎn)的,并具有比實(shí)際聲門(mén)波更陡的上升沿。目前自適應(yīng)多速率聲碼器的話音激活檢測(cè)(VAD)方法是先計(jì)算預(yù)處理后的輸入信號(hào)的電平和背景噪聲估計(jì)值之間的差值,再計(jì)算出VAD判決閾值,VAD初始判決是通過(guò)比較所述差值和判決閾值來(lái)實(shí)現(xiàn)的,當(dāng)前者大于后者時(shí)初始判決為有話音幀,當(dāng)前者小于等于后者時(shí)初始判決為無(wú)話音幀,VAD的最終判決是將初始判決和預(yù)處理后的數(shù)字話音信號(hào)音調(diào)等其它檢測(cè)的結(jié)果綜合后的判決。AMR-NB和AMR-TO的VAD還要和不連續(xù)發(fā)送DTX相結(jié)合,DTX是通過(guò)多個(gè)輸入信號(hào)幀的VAD結(jié)果檢測(cè)到一段語(yǔ)音結(jié)束后才開(kāi)始進(jìn)行不連續(xù)的靜音描述幀SID的發(fā)送,3GPP的TS26.093介紹了一種DTX的執(zhí)行方案。DTX要求,當(dāng)一段語(yǔ)音結(jié)束時(shí),將需要多個(gè)(例如8個(gè))連續(xù)幀去產(chǎn)生一個(gè)SID幀,即在將連續(xù)多個(gè)(例如7個(gè))VAD結(jié)果為無(wú)話音的輸入信號(hào)幀以語(yǔ)音模式編碼速率編碼之后將之后的幀(例如第8幀)編碼為SID一FIRST以標(biāo)明一段語(yǔ)音的結(jié)束,一旦SID一FIRST幀被發(fā)送,只要連續(xù)無(wú)語(yǔ)音就周期性地(例如每8幀)發(fā)送SID—UPDATE幀,第一個(gè)SIDJJPDATE幀需要在SDLFIRST幀后的特定時(shí)刻(例如第3幀)發(fā)送出;一種例外情況是當(dāng)有語(yǔ)音的輸入信號(hào)幀后的一個(gè)輸入信號(hào)幀的VAD結(jié)果是無(wú)話音并且距離上一段語(yǔ)音結(jié)束少于一定時(shí)間(例如24幀)將該幀編碼為SID_FIRST幀。目前的自適應(yīng)多速率聲碼器都基本上是可變速率單模式編碼,聲碼器根據(jù)編碼命令的速率指令和它對(duì)話音信號(hào)幀的檢測(cè)決定是采用編碼命令的速率還是采用編碼背景噪聲的速率來(lái)編碼,對(duì)于歌曲這類(lèi)音樂(lè)信號(hào)幾乎不存在靜默期,編碼器也就不需要靜默期檢測(cè)這個(gè)功能。因?yàn)殪o音描述(SID)幀的頻繁使用固然會(huì)帶來(lái)無(wú)線資源的利用率的提高,但也會(huì)帶來(lái)語(yǔ)音質(zhì)量的下降。目前的可變速率自適應(yīng)多速率編碼器都有靜音描述幀自動(dòng)生成的功能。
發(fā)明內(nèi)容要解決的技術(shù)問(wèn)題根據(jù)采用碼激勵(lì)線性預(yù)測(cè)技術(shù)的AMR編碼所產(chǎn)生的編碼幀所生成的合成數(shù)字話音幀和原數(shù)字話音信號(hào)幀的語(yǔ)音特征并不一致,關(guān)于這一點(diǎn)已經(jīng)在
背景技術(shù)
中有所指出,g卩以線性預(yù)測(cè)分析方法來(lái)估計(jì)共振峰常常發(fā)生所得到的譜包絡(luò)的峰值位置偏離真正的共振峰;線性預(yù)測(cè)所使用的全極點(diǎn)模型和自相關(guān)方法會(huì)使模型的所有極點(diǎn)落在單位圓內(nèi),從而造成合成數(shù)字話音信號(hào)的傅立葉變換的相位函數(shù)失真,這會(huì)使合成數(shù)字話音信號(hào)的波形形狀和原來(lái)數(shù)字話音信號(hào)的波形形狀的偏離?,F(xiàn)有AMR技術(shù)采用的VAD所針對(duì)的對(duì)象是采樣話音輸入后形成的數(shù)字話音信號(hào)幀或采樣后數(shù)字話音信號(hào)幀再經(jīng)預(yù)處理后形成的預(yù)處理后的數(shù)字話音信號(hào)幀,以線性預(yù)測(cè)分析和碼書(shū)激勵(lì)的方式編碼產(chǎn)生的連續(xù)的編碼幀經(jīng)譯碼后產(chǎn)生的合成數(shù)字話音信號(hào)的波形上的峰值位置常常會(huì)偏離原來(lái)的用于VAD的數(shù)字話音信號(hào)(或預(yù)處理后的數(shù)字話音信號(hào))的波形上的峰值位置,本文通過(guò)3GPP的AMR-NB聲音編碼器對(duì)具體的聲音編碼給出實(shí)例,3GPP的TS26.074-500.zip(zip是文件的后綴名)文件中的TS—AMR—500—DTX.zip文件的DTX—400.zip中DTX4.INP(INP-文件的后綴名)文件所對(duì)應(yīng)的語(yǔ)音信號(hào)的波形中的7.83秒和7.84秒之間的最大峰值位置同以DTX4.INP文件為輸入以12.2kb/s為編碼速率進(jìn)行編碼解碼后形成的合成數(shù)字話音信號(hào)的波形上的對(duì)應(yīng)峰值位置所屬的幀不是相互對(duì)應(yīng)的,下面就是關(guān)于這一點(diǎn)的說(shuō)明如圖6所示,DTX4.INP所指定的話音信號(hào)預(yù)處理后的數(shù)字話音信號(hào)的392幀(圖中7.84秒之前)的波形中出現(xiàn)的最大峰值對(duì)應(yīng)了DTX4.INP文件所對(duì)應(yīng)的語(yǔ)音信號(hào)的波形中的7.83秒和7.84秒之間的最大峰值,對(duì)于譯碼后的合成數(shù)字語(yǔ)音信號(hào)而言,如圖7所示,對(duì)應(yīng)的波形的峰值出現(xiàn)在以12.2kb/s速率編碼的編碼幀經(jīng)譯碼后產(chǎn)生的合成數(shù)字話音信號(hào)393幀(7.84秒之后)中,合成數(shù)字話音信號(hào)幀393是比對(duì)應(yīng)的392幀晚了一幀,如果VAD采用短時(shí)能量檢測(cè)的方法可以檢測(cè)到預(yù)處理后的數(shù)字話音信號(hào)的392幀的波形峰值,這樣盡管預(yù)處理后的數(shù)字話音信號(hào)以12.2kb/s速率方式編碼,但該數(shù)字話音信號(hào)的以12.2kb/s速率編碼的編碼幀被譯碼后產(chǎn)生的合成數(shù)字話音信號(hào)的392幀中卻沒(méi)有原信號(hào)的392幀中的明顯影響聽(tīng)覺(jué)的對(duì)應(yīng)波形峰值。發(fā)生上述情況的原因是因?yàn)榘凑?GPP的TS26.073-530所構(gòu)造的層R-NB編碼器的VAD和語(yǔ)音模式編碼針對(duì)的數(shù)字話音信號(hào)并不完全相同,VAD所針對(duì)的數(shù)字話音信號(hào)要比語(yǔ)音模式編碼所針對(duì)的要在時(shí)間上更靠后一點(diǎn),即VAD對(duì)還未編碼的數(shù)字話音信號(hào)進(jìn)行了話音激活檢測(cè)。所以,預(yù)處理后的數(shù)字話音信號(hào)幀和其對(duì)應(yīng)的合成數(shù)字話音信號(hào)幀不一定具有完全一致的聲音特征。被用作VAD的預(yù)處理后的數(shù)字話音信號(hào)幀(或采樣數(shù)字話音信號(hào)幀)的VAD結(jié)果也并不意味著其對(duì)應(yīng)的合成數(shù)字話音信號(hào)幀有與之相同的VAD結(jié)果,特別是在當(dāng)一個(gè)被用作VAD的數(shù)字話音輸入幀上的可被檢測(cè)出的共振峰經(jīng)編碼操作被映射到其相鄰的后一個(gè)被用作VAD的數(shù)字話音輸入幀所對(duì)應(yīng)的合成數(shù)字話音幀上的情況下。正如
背景技術(shù)
所述,現(xiàn)有的VAD技術(shù)中不檢測(cè)預(yù)處理后的數(shù)字話音幀(或采樣數(shù)字話音幀)中共振峰,目前的技術(shù)中的分成多個(gè)頻率子帶分別檢測(cè)信號(hào)電平、音調(diào)檢測(cè)、基音檢測(cè)、復(fù)雜信號(hào)檢測(cè)這些技術(shù)都不直接涉及共振峰的檢測(cè),而AMR編碼以LPC所得到的LP系數(shù)的預(yù)測(cè)合成濾波器的極點(diǎn)對(duì)應(yīng)共振峰以形成對(duì)聽(tīng)覺(jué)有很大影響的諧振峰,這樣共振峰的頻率位置就被編碼操作映射到這些諧振峰上去了。在語(yǔ)音信號(hào)非常微弱時(shí),語(yǔ)音信號(hào)的共振峰的幅度和能量很小幾乎被背景噪聲淹沒(méi),艮P,原始采樣數(shù)字話音信號(hào)或預(yù)處理后的數(shù)字話音信號(hào)中背景噪聲的電平或能量同微弱的共振峰的電平或能量接近使得VAD結(jié)果為無(wú)話音,多子帶電平檢測(cè)、音調(diào)檢測(cè)、基音檢測(cè)也無(wú)法檢測(cè),由于現(xiàn)有技術(shù)中VAD被安排在基音延遲參數(shù)和更新碼書(shū)(innovativecodebook)計(jì)算之前進(jìn)行,現(xiàn)有的AMR技術(shù)中的LPC沒(méi)有被用來(lái)檢測(cè)出對(duì)應(yīng)共振峰的那些極點(diǎn)的頻率和帶寬,更沒(méi)有去檢測(cè)在對(duì)應(yīng)于預(yù)測(cè)合成濾波器極點(diǎn)處的波形峰值處的波形的振幅和能量,盡管這些波形峰值處的波形的振幅和能量的大小對(duì)語(yǔ)音感知影響很大。本發(fā)明要解決編碼前后的輸入信號(hào)幀和編碼幀解碼后的合成數(shù)字信號(hào)幀的語(yǔ)音特性不一致對(duì)VAD帶來(lái)的不良影響;以及兩者間波形特征不一致所帶來(lái)的不良影響,例如,上述DTX4.INP所指定的話音信號(hào)預(yù)處理后的數(shù)字話音信號(hào)的392幀的VAD結(jié)果是有話音但393幀是無(wú)話音會(huì)導(dǎo)致392幀被按語(yǔ)音模式編碼速率編碼而393幀按背景噪聲編碼速率編碼情況,這樣392幀的最大的波形峰值就不會(huì)反映到變速率編碼的合成數(shù)字信號(hào)幀上了。如果話音激活檢測(cè)要針對(duì)合成數(shù)字話音幀進(jìn)行,那么產(chǎn)生該合成數(shù)字話音信號(hào)幀的線性預(yù)測(cè)和碼書(shū)搜索操作所得到的激勵(lì)信號(hào)、濾波器記憶、濾波器誤差等參數(shù)是否能及如何用于下一幀的編碼,也是本發(fā)明要解決的問(wèn)題。技術(shù)方案AMR-NB編碼幀經(jīng)譯碼后所得到的數(shù)字話音幀是否有話音,這個(gè)判斷還可以通過(guò)對(duì)該數(shù)字話音幀進(jìn)行話音激活檢測(cè)來(lái)作出,所以本發(fā)明采用對(duì)AMR編碼幀的合成數(shù)字話音信號(hào)幀進(jìn)行直接話音激活檢測(cè)的方法。為了使對(duì)聽(tīng)覺(jué)影響大的對(duì)應(yīng)于原來(lái)數(shù)字話音信號(hào)的共振峰的合成數(shù)字話音信號(hào)的諧振峰不在VAD過(guò)程中被遺漏,本發(fā)明還將上述的直接話音激活檢測(cè)定位在向線性預(yù)測(cè)合成濾波器輸入激勵(lì)信號(hào)所產(chǎn)生的輸出信號(hào)的中的振幅或能量上,這樣,雖然不能直接檢測(cè)到對(duì)應(yīng)于線性預(yù)測(cè)合成濾波器極點(diǎn)的原來(lái)輸入信號(hào)波形峰值處的波形的振幅或能量,但只要合成數(shù)字信號(hào)頻譜中的諧振峰反映到時(shí)域波形上的振幅或短時(shí)能量或平均幅度超過(guò)規(guī)定的檢測(cè)閾值就不會(huì)漏檢合成數(shù)字信號(hào)頻譜中的諧振峰。本發(fā)明提出的一種VAD方法就是檢測(cè)合成數(shù)字話音信號(hào)的波形中的振幅是否超過(guò)閾值,如果超過(guò)則將合成數(shù)字話音信號(hào)判決為有話音。這樣,對(duì)于對(duì)應(yīng)于那些原輸入數(shù)字話音信號(hào)共振峰的波形來(lái)說(shuō),一旦其振幅超過(guò)閾值就不會(huì)被遺漏而會(huì)被檢測(cè)出來(lái),就不會(huì)將其所在的合成數(shù)字話音信號(hào)幀用背景噪聲編碼幀來(lái)代替并向譯碼方發(fā)送了。另一種檢測(cè)方法是檢測(cè)合成數(shù)字話音信號(hào)的短時(shí)平均能量或短時(shí)平均幅度的峰值是否超過(guò)閾值,如果超過(guò)則將合成數(shù)字話音信號(hào)判決為有話音,這樣那些對(duì)應(yīng)于原輸入數(shù)字話音信號(hào)共振峰的波形的短時(shí)平均能量或短時(shí)平均幅度的峰值一旦超過(guò)閾值就不是會(huì)遺漏而是會(huì)被檢測(cè)出來(lái)。要解決的問(wèn)題中還提到——合成數(shù)字話音信號(hào)幀或以非背景噪聲編碼速率編碼AMR幀的過(guò)程中所得到的激勵(lì)信號(hào)等參數(shù)是否以及如何在下一幀編碼時(shí)使用的問(wèn)題,解決這個(gè)問(wèn)題的一個(gè)方法是沿用3GPP標(biāo)準(zhǔn)給出的方法——僅保留編碼發(fā)送給接收方AMR-NB幀的過(guò)程所產(chǎn)生的那些參數(shù),即當(dāng)VAD的結(jié)果是有話音則以非背景噪聲編碼速率編碼AMR幀的過(guò)程中所得到的激勵(lì)信號(hào)、濾波器記憶信號(hào)、濾波誤差信號(hào)和量化能量預(yù)測(cè)誤差等參數(shù)將在下一幀編碼時(shí)使用;當(dāng)VAD的結(jié)果是無(wú)話音并最終導(dǎo)致當(dāng)前幀的發(fā)送類(lèi)型被定為靜音描述開(kāi)始SID_FIRST、靜音描述更新SID—UPDATE或無(wú)數(shù)據(jù)N0一DATA,則以非背景噪聲編碼速率編碼AMR幀的過(guò)程中所得到的所有參數(shù)將被丟棄,而編碼背景噪聲編碼速率幀所產(chǎn)生的復(fù)位后的激勵(lì)信號(hào)等參數(shù)將在下一幀編碼時(shí)被使用,這也是3GPP所給出的從背景噪聲模式的背景噪聲編碼速率切換到語(yǔ)音模式的非背景噪聲編碼速率時(shí)的做法。對(duì)本發(fā)明的生成語(yǔ)音模式編碼速率合成數(shù)字話音幀并將其作為VAD的對(duì)象的方法來(lái)說(shuō),一方面,生成合成數(shù)字話音幀涉及到不間斷地執(zhí)行AMR-NB語(yǔ)音模式編碼操作中的線性預(yù)測(cè)、碼書(shū)搜索等操作;另一方面,當(dāng)VAD結(jié)果是無(wú)話音且最后導(dǎo)致編碼器輸出背景噪聲編碼幀時(shí)就還要涉及到背景噪聲編碼速率的細(xì)R-NB幀的編碼。不間斷(例如恒速率)的語(yǔ)音模式編碼的聲音效果要好于語(yǔ)音模式和背景噪聲模式混合方式的變速率編碼的聲音效果,所以在背景噪聲模式的編碼后再執(zhí)行語(yǔ)音模式的編碼時(shí)使用語(yǔ)音模式編碼(或生成合成數(shù)字話音幀)所產(chǎn)生的參數(shù)有利于提高語(yǔ)音質(zhì)量。所以,本發(fā)明提出另一種方法,在涉及到語(yǔ)音模式(非背景噪聲編碼速率)和非語(yǔ)音模式(背景噪聲編碼速率)對(duì)同一話音輸入幀進(jìn)行了雙模式的編碼且只有背景噪聲編碼速率編碼幀被選擇為AMR-NB發(fā)送幀向譯碼器發(fā)送的情況下,有選擇地使用語(yǔ)音模式編碼所產(chǎn)生的參數(shù)用于下一幀的編碼,本發(fā)明給出上述選擇的的方案。本發(fā)明的選擇的方案使得,在編碼器在完成當(dāng)前輸入信號(hào)幀的AMR-NB幀的編碼后以及譯碼器在完成該AMR-NB幀的譯碼后,雙方保持一致的激勵(lì)信號(hào)。達(dá)到這樣的效果帶來(lái)的好處是,在雙方保持一致激勵(lì)信號(hào)的前提下,只要語(yǔ)音模式的AMR-NB幀中的涉及構(gòu)造線性預(yù)測(cè)合成濾波器的線性譜頻率LSF參數(shù)傳送無(wú)誤,對(duì)于編譯碼雙方來(lái)說(shuō),由線性預(yù)測(cè)合成濾波器響應(yīng)激勵(lì)信號(hào)所輸出的合成數(shù)字話音幀就可以取得一致了。在使編譯碼雙方保持一致激勵(lì)信號(hào)的本發(fā)明的技術(shù)方案中,編碼器需要根據(jù)其輸出的AMR-NB幀確定激勵(lì)信號(hào),當(dāng)輸出幀是背景噪聲模式的AMR-NB幀時(shí),編碼器將激勵(lì)信號(hào)復(fù)位到一個(gè)編碼器和譯碼器雙方約定的固定值;當(dāng)輸出幀是語(yǔ)音模式的AMR-NB編碼幀時(shí),編碼器按整數(shù)和分?jǐn)?shù)基音延遲對(duì)上一個(gè)子幀及之前的激勵(lì)信號(hào)進(jìn)行內(nèi)插最后得到自適應(yīng)碼書(shū)信號(hào),該自適應(yīng)碼書(shū)信號(hào)再按量化的自適應(yīng)碼書(shū)增益值放大后的得到信號(hào),同固定碼書(shū)信號(hào)按量化的固定碼書(shū)增益值放大后的得到信號(hào)進(jìn)行疊加,將所得到的信號(hào)作為激勵(lì)信號(hào)。語(yǔ)音模式AMR-NB編碼幀包含整數(shù)和分?jǐn)?shù)基音延遲、自適應(yīng)碼書(shū)的量化增益和固定碼書(shū)信號(hào),但并不直接包含固定碼書(shū)增益參數(shù),而是包含固定碼書(shū)增益和固定碼書(shū)預(yù)測(cè)增益^之間的修正因子的量化編碼參數(shù),因?yàn)镸1R-NB編碼器和譯碼器雙方約定了一致的固定碼書(shū)預(yù)測(cè)增益A,所以雙方就可以在激勵(lì)信號(hào)上取得一致。AMR-NB編碼器是通過(guò)和其AMR-NB譯碼器約定一致的量化能量預(yù)測(cè)誤差來(lái)約定一致的固定碼書(shū)預(yù)測(cè)增益A的,由前面式(4)所示的固定碼書(shū)預(yù)測(cè)增益^的計(jì)算式中可知只有子幀的預(yù)測(cè)能量(predictedenergy)由量化能量預(yù)測(cè)誤差確定,更新能量的平均值^的取值只和編碼器發(fā)送的AMR-NB編碼幀的編碼速率有關(guān),平均更新能量£/僅和固定碼書(shū)信號(hào)有關(guān),關(guān)于這一點(diǎn),在TS26.090-310版本的5,8節(jié)中的式(55)給出了說(shuō)明,所以自適應(yīng)多速率窄帶譯碼器通過(guò)獲得AMR-NB編碼幀的編碼速率和固定碼書(shū)參數(shù),可以和AMR-NB編碼器在更新能量的平均值玄和平均更新能量五/上取得完全一致,如果使用同樣的四個(gè)子幀的量化能量預(yù)測(cè)誤差來(lái)計(jì)算子幀的預(yù)測(cè)能量^U),編碼器和譯碼器雙方的固定碼書(shū)預(yù)測(cè)增益A也完全一致?,F(xiàn)有的3GPP標(biāo)準(zhǔn)給出了M1R-NB編碼器和譯碼器之間約定一致的量化能量預(yù)測(cè)誤差的一種方法,即,當(dāng)AMR-NB編碼器的發(fā)送幀是語(yǔ)音模式的AMR-NB編碼幀時(shí),按TS26.090-310版本的5.8節(jié)中的式(58)說(shuō)明,能量預(yù)測(cè)誤差R(n)就設(shè)定為20乘該AMR-NB幀中修正因子的對(duì)數(shù),量化能量預(yù)測(cè)誤差則是20乘該量化修正因子的對(duì)數(shù);當(dāng)編碼幀是背景噪聲編碼速率幀時(shí),編譯碼器雙方的子幀的量化能量預(yù)測(cè)誤差是根據(jù)該背景噪聲編碼速率的M!R-NB編碼幀中給出的量化的幀能量的對(duì)數(shù)平均值(averagedlogarithmicenergy)進(jìn)行設(shè)定,在3GPP的TS26.092-500的5.2節(jié)幀能量計(jì)算(Frameenergycaculation)中給出了根據(jù)以前的幀的幀能量計(jì)算幀能量對(duì)數(shù)平均值的說(shuō)明上述這種在AMR-NB編碼器和譯碼器之間約定一致量化能量預(yù)測(cè)誤差的方案并不是唯一的,例如,在3GPP的AMR-WB方案中,就是編譯碼器雙方都按語(yǔ)音模式編碼發(fā)送幀中的修正因子來(lái)設(shè)置量化能量預(yù)測(cè)誤差進(jìn)而取得一致;實(shí)際上對(duì)于本發(fā)明的這種為每一個(gè)輸入信號(hào)幀都生成合成數(shù)字話音幀的方法,可以為每一個(gè)輸入信號(hào)幀都生成修正因子,并且在發(fā)送幀是靜音描述幀的時(shí)候?qū)⒃搸乃膫€(gè)子幀的修正因子一同向譯碼器發(fā)送,這樣,編譯碼器雙方就維持了量化能量預(yù)測(cè)誤差參數(shù)的一致性,也就不需要采用3GPP這樣的發(fā)送SID一UPDATE幀將雙方的量化能量預(yù)測(cè)誤差統(tǒng)一到量化的幀能量的對(duì)數(shù)平均值的方式,雖然比原來(lái)只發(fā)送靜音描述幀的做法增加了發(fā)送的少量的比特?cái)?shù)。對(duì)于自適應(yīng)多速率窄帶編碼來(lái)說(shuō),上一幀的激勵(lì)信號(hào)的所有160個(gè)樣本點(diǎn)上的數(shù)據(jù)不是全部都要使用,因?yàn)?GPP規(guī)范規(guī)定基音延時(shí)的搜索范圍在143個(gè)樣本點(diǎn)之內(nèi),所以規(guī)范中規(guī)定的激勵(lì)信號(hào)緩沖器也只有154個(gè)樣本點(diǎn)的大小,如果只要求兼容現(xiàn)有的3GPP規(guī)范的要求只使用160個(gè)樣本點(diǎn)中的154個(gè)樣本點(diǎn)就可以了。下面就是根據(jù)合成數(shù)字聲音信號(hào)執(zhí)行話音激活檢測(cè)的技術(shù)方案按照背景噪聲編碼速率和一個(gè)非背景噪聲編碼速率對(duì)輸入信號(hào)幀序列中的一輸入信號(hào)幀進(jìn)行自適應(yīng)多速率窄帶AMR-NB編碼和對(duì)與該輸入信號(hào)幀相鄰的后一輸入信號(hào)幀進(jìn)行AMR-NB編碼的方法,其特征在于,根據(jù)以所述非背景噪聲編碼速率對(duì)所述的一輸入信號(hào)幀編碼所得到的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)生成激勵(lì)信號(hào),根據(jù)以所述非背景噪聲編碼速率對(duì)所述的一輸入信號(hào)幀編碼所得到的線性預(yù)測(cè)參數(shù)確定線性預(yù)測(cè)合成濾波器,用該線性預(yù)測(cè)合成濾波器對(duì)該激勵(lì)信號(hào)濾波生成合成數(shù)字聲音信號(hào)幀;根據(jù)所述合成數(shù)字聲音信號(hào)幀進(jìn)行話音激活檢測(cè),根據(jù)所述話音激活檢測(cè)的結(jié)果確定不連續(xù)發(fā)送的發(fā)送類(lèi)型信號(hào);若所述的發(fā)送類(lèi)型信號(hào)是正常話音SPEECH—GOOD,根據(jù)所述一輸入信號(hào)幀的所述非背景噪聲編碼速率的AMR-NB編碼幀中所使用的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù),生成所述的一輸入信號(hào)幀的激勵(lì)信號(hào);若所述的發(fā)送類(lèi)型信號(hào)不是SPEECH—GOOD,將所述的一輸入信號(hào)幀的的激勵(lì)信號(hào)復(fù)位;根據(jù)所述的一輸入信號(hào)幀的的激勵(lì)信號(hào)對(duì)相鄰的后一輸入信號(hào)幀進(jìn)行非背景噪聲編碼速率的編碼操作。在上述方法中不連續(xù)發(fā)送的控制DTX和操作模塊仍然為輸入信號(hào)幀序列中的每一幀產(chǎn)生一個(gè)發(fā)送類(lèi)型信號(hào)TX—TYPE,但這個(gè)發(fā)送類(lèi)型信號(hào)的確定要根據(jù)對(duì)合成數(shù)字聲音信號(hào)幀所作的話音激活檢測(cè)的結(jié)果,這不同于現(xiàn)有技術(shù)的不考慮編碼幀的合成數(shù)字聲音信號(hào)幀的做法。對(duì)于上述方法來(lái)說(shuō),基于AMR-NB編解碼器要維持一致的量化能量預(yù)測(cè)誤差的前提,它做到了使雙方有一致的激勵(lì)信號(hào)。至于維持一致的量化能量預(yù)測(cè)誤差的方法有多種下面一一列出第一種,編碼器僅在發(fā)送語(yǔ)音模式的AMR-NB幀時(shí),根據(jù)編碼幀中的修正因子將量化能量預(yù)測(cè)誤差更新,其余時(shí)候維持不變;譯碼器在收到語(yǔ)音模式的AMR-NB幀時(shí),根據(jù)編碼幀中的修正因子將量化能量預(yù)測(cè)誤差更新,其余時(shí)候維持量化能量預(yù)測(cè)誤差不變,即,將與所述的一輸入信號(hào)幀相鄰的前一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差作為所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差;第二種,編碼器僅在發(fā)送AMR-NB幀時(shí),根據(jù)編碼幀中的修正因子將量化能量預(yù)測(cè)誤差更新,其余時(shí)候維持不變,同時(shí)在發(fā)送SID幀時(shí)同時(shí)發(fā)送編碼語(yǔ)音模式的AMR-NB幀產(chǎn)生的修正因子的編碼給譯碼器;譯碼器在收到語(yǔ)音模式的AMR-NB幀時(shí),根據(jù)編碼幀中的修正因子將量化能量預(yù)測(cè)誤差更新,在接收SID幀的同時(shí)接收修正因子并根據(jù)修正因子將量化能量預(yù)測(cè)誤差更新,其余時(shí)候維持量化能量預(yù)測(cè)誤差不變。第三種就是現(xiàn)有AMR-NB譯碼器仍然按照3GPP規(guī)定的窄帶譯碼的方法進(jìn)行譯碼,編碼一方,在所述的發(fā)送類(lèi)型信號(hào)是SPEECH—GOOD時(shí),根據(jù)所述一輸入信號(hào)幀的所述非背景噪聲編碼速率的AMR-NB編碼幀中所使用的修正因子correctionfactor,生成所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差;在所述的發(fā)送類(lèi)型信號(hào)是靜音描述開(kāi)始SID_FIRST或靜音描述更新SID一UPDATE時(shí),根據(jù)所述一輸入信號(hào)幀的量化的幀能量的對(duì)數(shù)平均值,生成所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差;在所述的發(fā)送類(lèi)型信號(hào)是無(wú)數(shù)據(jù)N0一DATA時(shí),將與所述的一輸入信號(hào)幀相鄰的前一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差作為所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差;由于編碼背景噪聲模式的AMR-NB幀不需要上一幀的激勵(lì)信號(hào)和量化能量預(yù)測(cè)誤差,在本發(fā)明的上述雙模式的方法中,所述的輸入信號(hào)幀的的激勵(lì)信號(hào)和量化能量預(yù)測(cè)誤差僅被用于對(duì)相鄰的后一輸入信號(hào)幀進(jìn)行非背景噪聲編碼速率的編碼操作。在上述技術(shù)方案中生成激勵(lì)信號(hào)的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)來(lái)自于輸入信號(hào)幀編碼的非背景噪聲編碼速率的AMR-NB編碼幀,構(gòu)造線性預(yù)測(cè)合成濾波器的線性預(yù)測(cè)參數(shù)同樣來(lái)自于非背景噪聲編碼速率的AMR-NB編碼幀。但上述這些參數(shù)可以在生成AMR-NB編碼幀前取得,也就是說(shuō)在線性預(yù)測(cè)后獲取線性預(yù)測(cè)參數(shù),在自適應(yīng)碼書(shū)搜索后獲取自適應(yīng)碼書(shū)參數(shù),以及在固定碼書(shū)搜索后獲得固定碼書(shū)參數(shù)。于是就有下面的AMR-NB編碼器,艮卩,一種帶有不連續(xù)發(fā)送DTX控制和操作裝置的自適應(yīng)多速率窄帶AMR-NB編碼器,所述不連續(xù)發(fā)送控制和操作裝置按照話音激活檢測(cè)結(jié)果確定發(fā)送類(lèi)型TX一TYPE和確定細(xì)R-NB編碼幀的編碼速率,在所述AMR-NB編碼器中,對(duì)輸入聲音信號(hào)幀進(jìn)行線性預(yù)測(cè),根據(jù)所述編碼速率為所述輸入聲音信號(hào)幀編碼并輸出類(lèi)型為T(mén)X—TYPE的細(xì)R-NB發(fā)送幀,并生成用于編碼下一個(gè)聲音輸入信號(hào)幀的所述輸入聲音信號(hào)幀的激勵(lì)信號(hào),其特征在于,由對(duì)所述輸入聲音信號(hào)幀進(jìn)行線性預(yù)測(cè)得到的線性預(yù)測(cè)參數(shù)確定線性預(yù)測(cè)合成濾波器;根據(jù)語(yǔ)音模式的編碼速率對(duì)所述聲音輸入聲音信號(hào)幀自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索所得到的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)生成語(yǔ)音模式的激勵(lì)信號(hào);用所述線性預(yù)測(cè)合成濾波器對(duì)所述語(yǔ)音模式的激勵(lì)信號(hào)濾波生成合成數(shù)字聲音信號(hào)幀;根據(jù)對(duì)所述合成數(shù)字聲音信號(hào)幀執(zhí)行的話音激活檢測(cè)得到所述的話音激活檢測(cè)結(jié)果;若所述TXJTYPE是正常話音SPEECH—GOOD,根據(jù)所述對(duì)輸入聲音信號(hào)幀的自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索所得到的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)為輸入聲音信號(hào)幀編碼AMR-NB發(fā)送幀,并根據(jù)該編碼幀中所使用的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù),生成所述輸入信號(hào)幀的激勵(lì)信號(hào);若所述TXJTPE是靜音描述開(kāi)始SID—FIRST或靜音描述更新SIDJJPDATE,按背景噪聲編碼速率為輸入信號(hào)幀編碼AMR-NB發(fā)送幀,并將所述的輸入聲音信號(hào)幀的激勵(lì)信號(hào)復(fù)位;若所述TX—TYPE是無(wú)數(shù)據(jù)NO一DATA,將所述的輸入聲音信號(hào)幀的激勵(lì)信號(hào)復(fù)位。上述的AMR-NB編碼器由于先進(jìn)行話音激活檢測(cè)VAD,再確定TX—TYPE,所以按照TXJTYPE決定編碼速率可以達(dá)到為每個(gè)輸入信號(hào)幀只編碼一個(gè)AMR-NB幀(包括不用TXJTPE為NO—DATA的不需要發(fā)送的幀)的效果,由于AMR-NB編譯碼器根據(jù)雙方之間的AMR-NB編碼幀來(lái)使彼此之間的量化能量預(yù)測(cè)誤差達(dá)到一致,所以上述編碼器的確定量化能量預(yù)測(cè)誤差的方案就較為簡(jiǎn)單,它只要在TXJTPE是SPEECH一GOOD時(shí)根據(jù)修正因子設(shè)置量化能量預(yù)測(cè)誤差,而在TX—TYPE是SID時(shí)按輸入信號(hào)幀的幀能量來(lái)設(shè)置(AMR-NB的方法)或維持不變(AMR-WB的方法)。采用按輸入信號(hào)幀的幀能量來(lái)設(shè)置(AMR-NB的方法)的技術(shù)方案能使得本發(fā)明的編碼器能和按照3GPP的AMR-NB標(biāo)準(zhǔn)的譯碼器兼容,g卩,該編碼器包括確定編碼與所述輸入聲音信號(hào)幀相鄰的后一輸入信號(hào)幀的語(yǔ)音模式AMR-NB幀所需要的所述輸入聲音信號(hào)幀的四個(gè)子幀的量化能量預(yù)測(cè)誤差的裝置,其特征在于,根據(jù)所述輸入聲音信號(hào)幀的發(fā)送類(lèi)型TXJTYPE確定所述輸入聲音信號(hào)幀的四個(gè)子幀的量化能量預(yù)測(cè)誤差,在所述發(fā)送類(lèi)型是正常話音SPEECH—GOOD時(shí)該裝置根據(jù)所述輸入聲音信號(hào)幀的非背景噪聲編碼速率的AMR-NB編碼幀中所給出的修正因子生成所述輸入聲音信號(hào)幀的四個(gè)子幀的量化能量預(yù)測(cè)誤差,在所述TX—TYPE是靜音描述開(kāi)始SID—FIRST或靜音描述更新SID一UPDATE時(shí)該裝置將所述輸入聲音信號(hào)幀的四個(gè)子幀的量化能量預(yù)測(cè)誤差設(shè)置為所述輸入聲音信號(hào)幀的量化的幀能量對(duì)數(shù)平均值,若所述的發(fā)送類(lèi)型是無(wú)數(shù)據(jù)NO—DATA,將與所述輸入聲音信號(hào)幀相鄰的前一輸入聲音信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差作為所述輸入聲音信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差。本發(fā)明的編碼器中所使用的編碼方法比現(xiàn)有技術(shù)的編碼方法的最明顯之處就是將VAD的對(duì)象擴(kuò)展到了合成數(shù)字話音信號(hào),因而可以利用共振峰在合成數(shù)字話音信號(hào)波形上的特征檢出話音,所以本發(fā)明的編碼器的對(duì)合成數(shù)字話音信號(hào)的VAD包括了對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)。由于合成數(shù)字話音信號(hào)在預(yù)測(cè)合成濾波器極點(diǎn)對(duì)應(yīng)的諧振峰處有較高的能量,在對(duì)合成數(shù)字話音信號(hào)幀進(jìn)行話音激活檢測(cè)時(shí)可以檢測(cè)其波峰的振幅,如果其波峰的上升沿和下降沿的幅度都超過(guò)或其中之一超過(guò)閾值就將該幀判決為有話音,這樣,一旦所述的極點(diǎn)所對(duì)應(yīng)的諧振峰反映在波形上的振蕩的波峰的幅度超過(guò)閾值,合成數(shù)字話音信號(hào)幀就不會(huì)在VAD檢測(cè)時(shí)被漏掉。當(dāng)出現(xiàn)
背景技術(shù)
中指出的合成數(shù)字話音信號(hào)的波峰的尖峰比原始信號(hào)更為突出的現(xiàn)象時(shí)那些突出的尖峰可以較容易地用與閾值比較的方法被檢出。用來(lái)與波峰的上升沿或下降沿比較的閾值的設(shè)定方法不是唯一的,該閾值的確定可以用固定值,也可以和波峰所在的合成數(shù)字話音信號(hào)幀有關(guān),比如,可以參考合成數(shù)字話音信號(hào)幀的平均幅度——幀內(nèi)樣本點(diǎn)上的信號(hào)值的絕對(duì)值的和,也可以參考合成數(shù)字話音信號(hào)幀的特定的子帶的電平,3GPP26094-500的3.3.1節(jié)濾波器組與子帶電平計(jì)算(Filterbankandcomputationofsub-bandlevels)給出了一種求子帶的電平的方法。對(duì)于本發(fā)明的上述編碼器及再之前的從語(yǔ)音模式編碼幀中獲取參數(shù)來(lái)生成激勵(lì)信號(hào)的編碼方法來(lái)說(shuō),就有下面的VAD的波形檢測(cè)的方法,根據(jù)被檢測(cè)的合成數(shù)字聲音信號(hào)幀確定閾值,若所述的合成數(shù)字聲音信號(hào)幀中的波形中的波峰的上升沿的幅度超過(guò)該閾值,就將所述話音激活檢測(cè)的結(jié)果確定為有話音。根據(jù)被檢測(cè)的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值和下降沿閾值,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的波峰的上升沿的幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值,就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音?,F(xiàn)有技術(shù)中的話音激活檢測(cè)方法對(duì)合成數(shù)字話音信號(hào)仍然適用,對(duì)于波形中波峰數(shù)目很多但上升沿和下降沿幅度相差不大的情形來(lái)說(shuō),現(xiàn)有技術(shù)中的將信號(hào)能量同背景噪聲能量比較的方法是能夠檢出信號(hào)來(lái)的。但對(duì)于波形中波峰數(shù)目較少的情形來(lái)說(shuō),本發(fā)明在下面給出的方法檢出信號(hào)的能力更強(qiáng)根據(jù)被檢測(cè)的合成數(shù)字聲音信號(hào)幀確定幅度閾值和范圍,若所述的合成數(shù)字聲音信號(hào)幀中的波形中的上升沿幅度超過(guò)該幅度閾值的波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果確定為有話音。根據(jù)被檢測(cè)的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值、下降沿閾值和范圍,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的上升沿幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音。本發(fā)明的AMR-NB編碼器中的使用的非背景噪聲速率AMR-NB幀的編碼方法同樣落在本發(fā)明的保護(hù)范圍之內(nèi),這種對(duì)一輸入信號(hào)幀序列中的一輸入信號(hào)幀進(jìn)行自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索及自適應(yīng)多速率窄帶細(xì)R-NB編碼和對(duì)與該輸入信號(hào)幀相鄰的后一輸入信號(hào)幀進(jìn)行非背景噪聲編碼速率AMR-NB編碼的方法,其特征在于,對(duì)所述的一輸入信號(hào)幀進(jìn)行線性預(yù)測(cè),并根據(jù)所得到的線性預(yù)測(cè)參數(shù)確定線性預(yù)測(cè)合成濾波器,按語(yǔ)音模式編碼速率對(duì)所述一輸入信號(hào)幀自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索,并根據(jù)所得到的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)生成激勵(lì)信號(hào),用該線性預(yù)測(cè)合成濾波器對(duì)該激勵(lì)信號(hào)濾波生成合成數(shù)字聲音信號(hào)幀;根據(jù)所述合成數(shù)字聲音信號(hào)幀進(jìn)行話音激活檢測(cè),根據(jù)該話音激活檢測(cè)結(jié)果確定不連續(xù)發(fā)送的發(fā)送類(lèi)型;若所述的發(fā)送類(lèi)型是正常話音SPEECH—GOOD,根據(jù)所述的語(yǔ)音模式編碼速率為所述一輸入信號(hào)幀的編碼AMR-NB編碼幀,并根據(jù)該編碼幀中所使用的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù),生成所述的一輸入信號(hào)幀的激勵(lì)信號(hào);若發(fā)送類(lèi)型是靜音描述更新SID—UPDATE則生成所述輸入信號(hào)幀的按背景噪聲編碼速率編碼的自適應(yīng)多速率窄帶靜音描述AMR-NB—SIDJJPDATE幀;若發(fā)送類(lèi)型是靜音描述開(kāi)始SID_FIRST則生成所述輸入信號(hào)幀的AMR-NB_SID_FIRST^JJ|;若所述的發(fā)送類(lèi)型不是SPEECH—GOOD,將所述的一輸入信號(hào)幀的的激勵(lì)信號(hào)復(fù)位;根據(jù)所述的一輸入信號(hào)幀的的激勵(lì)信號(hào)對(duì)相鄰的后一輸入信號(hào)幀進(jìn)行非背景噪聲的語(yǔ)音模模式編碼速率的編碼操作。對(duì)于上述編碼方法來(lái)說(shuō)編碼方同樣有多種和譯碼方保持量化能量預(yù)測(cè)誤差一致的方法,一種是只在編碼方向譯碼方發(fā)送語(yǔ)音模式AMR-NB幀時(shí)雙方根據(jù)編碼幀中的修正因子調(diào)整各自的量化能量預(yù)測(cè)誤差;還有一種方法就是-若根據(jù)合成數(shù)字話音信號(hào)的話音激活檢測(cè)得到的發(fā)送類(lèi)型是正常話音SPEECH—GOOD則生成所述輸入信號(hào)幀的非背景噪聲編碼速率的AMR-NB幀,并根據(jù)該AMR-NB幀中的修正因子correctionfactor生成量化能量預(yù)測(cè)誤差;若所述發(fā)送類(lèi)型是靜音描述開(kāi)始SID—FIRST或靜音描述更新SID—UPDATE則將所述輸入數(shù)字聲音幀的量化能量預(yù)測(cè)誤差設(shè)置成該輸入信號(hào)幀的量化的幀能量對(duì)數(shù)平均值。若所述的發(fā)送類(lèi)型是無(wú)數(shù)據(jù)NO—DATA,將與所述的一輸入信號(hào)幀相鄰的前一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差作為所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差。在上述編碼方法中的VAD方法也可以采用波形檢測(cè)的方法,艮P,采用固定的閾值或根據(jù)被檢測(cè)的合成數(shù)字聲音信號(hào)幀確定閾值,若所述的合成數(shù)字聲音信號(hào)幀中的波形中的波峰的上升沿的幅度超過(guò)該閾值,就將所述話音激活檢測(cè)的結(jié)果確定為有話音。采用固定的上升沿閾值和下降沿閾值,或根據(jù)被檢測(cè)的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值和下降沿閾值,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的波峰的上升沿的幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值,就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音現(xiàn)有技術(shù)中的話音激活檢測(cè)方法對(duì)合成數(shù)字話音信號(hào)仍然適用,對(duì)于波形中波峰數(shù)目很多但上升沿和下降沿幅度相差不大的情形來(lái)說(shuō),現(xiàn)有技術(shù)中的將信號(hào)能量同背景噪聲能量比較的方法是能夠檢出信號(hào)來(lái)的。但對(duì)于波形中波峰數(shù)目較少的情形來(lái)說(shuō),本發(fā)明在下面給出的方法檢出有話音的信號(hào)的能力更強(qiáng)根據(jù)被檢測(cè)的合成數(shù)字聲音信號(hào)幀確定幅度閾值和范圍,若所述的合成數(shù)字聲音信號(hào)幀中的波形中的上升沿幅度超過(guò)該幅度閾值的波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果確定為有話音。根據(jù)被檢測(cè)的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值、下降沿閾值和范圍,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的上升沿幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音。本發(fā)明的技術(shù)方案也并不排斥對(duì)話音采樣數(shù)字信號(hào)(它的預(yù)處理后的數(shù)字信號(hào))進(jìn)行信號(hào)電平和背景噪聲電平的計(jì)算和比較并根據(jù)比較的結(jié)果決定發(fā)送類(lèi)型TX_TYPE,雖然本發(fā)明的實(shí)施例中的輸入到VAD裝置的是合成數(shù)字聲音信號(hào)而非經(jīng)過(guò)預(yù)處理的聲音信號(hào)(或聲音信號(hào))。有益效果由于采用了先執(zhí)行線性預(yù)測(cè)和碼書(shū)搜索再執(zhí)行VAD的方法,這樣,根據(jù)碼書(shū)搜索和線性預(yù)測(cè)所生成的激勵(lì)信號(hào)的出現(xiàn)就先于VAD操作,針對(duì)激勵(lì)信號(hào)通過(guò)線性預(yù)測(cè)合成濾波器的輸出進(jìn)行VAD,這樣,如果原始數(shù)字聲音幀經(jīng)過(guò)線性預(yù)測(cè)、自適應(yīng)碼書(shū)搜索和固定碼書(shū)搜索處理后的形成的合成數(shù)字信號(hào)幀的特征是有話音的,其VAD的結(jié)果就是有話音的,譯碼方收到的非背景噪聲編碼速率的AMR編碼幀經(jīng)譯碼后產(chǎn)生的數(shù)字語(yǔ)音信號(hào)幀的特征與編碼方的該編碼速率的用于檢測(cè)的合成數(shù)字語(yǔ)音信號(hào)的特征相似;編碼方在無(wú)法檢測(cè)到具有活動(dòng)話音的合成數(shù)字信號(hào)的情況下才有可能產(chǎn)生SID編碼類(lèi)型的AMR編碼幀。本發(fā)明將VAD的對(duì)象直接定位在非背景噪聲編碼速率的AMR編碼幀所對(duì)應(yīng)的合成數(shù)字話音信號(hào)幀上,因編碼速率降低會(huì)造成該編碼速率的合成數(shù)字話音信號(hào)幀的VAD結(jié)果趨向于無(wú)活動(dòng)話音,即,對(duì)于具有一定數(shù)量的幀的聲音信號(hào)來(lái)說(shuō),使用本發(fā)明的方法,編碼速率降低會(huì)使根據(jù)輸入信號(hào)電平和背景噪聲估計(jì)值間差值所作的VAD判決的結(jié)果為無(wú)話音的幀的個(gè)數(shù)增加。因此,本發(fā)明還可以提高AMR編碼技術(shù)的聲音壓縮率,使同樣的無(wú)線資源能容納更多的聲音信號(hào)。由于采用了先執(zhí)行線性預(yù)測(cè)和碼書(shū)搜索再執(zhí)行VAD的方法,這樣,按非背景噪聲編碼速率生成的激勵(lì)信號(hào)的出現(xiàn)就先于VAD操作,按非背景噪聲編碼速率的碼書(shū)搜索的操作在執(zhí)行的次序上先于VAD操作,當(dāng)VAD的結(jié)果使DTX控制和操作模塊產(chǎn)生的發(fā)送類(lèi)型指示不是正常語(yǔ)音(SPEECH一G00D)時(shí)按非背景噪聲編碼速率生成合成數(shù)字話音信號(hào)時(shí)產(chǎn)生的激勵(lì)信號(hào)的參數(shù)就不能再用于下一幀的非背景噪聲編碼速率的編碼了,本發(fā)明的在此情況下有選擇地棄用語(yǔ)音模式下進(jìn)行線性預(yù)測(cè)、自適應(yīng)碼書(shū)搜索和固定碼書(shū)搜索所得到的參數(shù),即,除了使用編碼背景噪聲編碼速率編碼幀所產(chǎn)生的激勵(lì)信號(hào)和量化能量預(yù)測(cè)誤差參數(shù)以外,為下一幀輸入聲音信號(hào)生成合成數(shù)字聲音信號(hào)時(shí)就可以利用從語(yǔ)音模式下執(zhí)行線性預(yù)測(cè)、自適應(yīng)碼書(shū)搜索和固定碼書(shū)搜索操作所得到的參數(shù),而不必再象現(xiàn)有技術(shù)那樣編碼SID幀后放棄按非背景噪聲編碼速率執(zhí)行線性預(yù)測(cè)和碼書(shū)搜索產(chǎn)生的其它參數(shù),由于有了這一方案,為下一輸入聲音信號(hào)幀生成的用于話音激活檢測(cè)的合成數(shù)字聲音信號(hào)含有更多的輸入聲音信號(hào)的特征,因?yàn)楝F(xiàn)有技術(shù)中,一旦遇到一次背景噪聲速率編碼幀,會(huì)將AMR-NB編碼器中的包括激勵(lì)信號(hào)和量化能量預(yù)測(cè)誤差的狀態(tài)變量都復(fù)位,此刻編碼器丟失了過(guò)去的輸入聲音信號(hào)的特征。在收到語(yǔ)音模式的AMR-NB編碼幀后,接收方的譯碼器與編碼器中的語(yǔ)音模式編碼模塊分別參照一致的包括上一幀子幀樣本點(diǎn)的過(guò)去樣本點(diǎn)上的激勵(lì)信號(hào)和四個(gè)子幀的量化能量預(yù)測(cè)誤差,一方使用信道上的收到的編碼幀中的參數(shù),另一方使用自己編碼到該編碼幀中去的參數(shù),分別生成各自子幀的激勵(lì)信號(hào)和合成語(yǔ)音,所以接收方譯碼器合成的的激勵(lì)信號(hào)與所述語(yǔ)音編碼模塊合成的激勵(lì)信號(hào)完全一致,譯碼器使用和編碼器一致的激勵(lì)信號(hào)使譯碼產(chǎn)生的合成語(yǔ)音的聽(tīng)覺(jué)質(zhì)量有保證。本發(fā)明的將合成數(shù)字話音信號(hào)的波峰的幅度同閾值比較的VAD方法可以在預(yù)測(cè)合成濾波器極點(diǎn)對(duì)應(yīng)的諧振峰反映在波形上的波峰的幅度高于閾值時(shí)檢出該波峰所在的合成數(shù)字話音信號(hào)幀。當(dāng)
背景技術(shù)
中提到的合成數(shù)字話音信號(hào)的尖峰比原始信號(hào)更為突出這一現(xiàn)象體現(xiàn)在對(duì)應(yīng)原始信號(hào)共振峰的合成數(shù)字話音信號(hào)的波形中的尖峰的上升沿或下降沿比原始信號(hào)的更大時(shí),上述的將合成數(shù)字話音信號(hào)的波峰的幅度同閾值比較的方法可以檢測(cè)出無(wú)法通過(guò)檢測(cè)原始信號(hào)波形的尖峰而檢出的幀。同樣,當(dāng)前面提到的合成數(shù)字話音信號(hào)的上升沿比原始信號(hào)更為陡這一現(xiàn)象體現(xiàn)在對(duì)應(yīng)原始信號(hào)共振峰的合成數(shù)字話音信號(hào)的波形中的尖峰的上升沿比原始信號(hào)的更大時(shí),本發(fā)明的將合成數(shù)字話音信號(hào)的波峰的上升沿同閾值比較的方法可以檢測(cè)出原來(lái)無(wú)法檢出的幀。同樣,當(dāng)前面提到的合成數(shù)字話音信號(hào)的上升沿比原始信號(hào)更為陡這一現(xiàn)象體現(xiàn)在對(duì)應(yīng)原始信號(hào)共振峰的合成數(shù)字話音信號(hào)的波形中的尖峰的上升沿的斜率比原始信號(hào)更大時(shí),將合成數(shù)字話音信號(hào)的波峰的上升沿的斜率同閾值比較的方法可以檢測(cè)出原來(lái)無(wú)法檢出的幀。圖l是支持恒定語(yǔ)音模式編碼的可變速率的自適應(yīng)多速率窄帶(AMR-NB)編碼器的原理框圖。圖2是圖1中語(yǔ)音編碼模塊的簡(jiǎn)化框圖。圖3是以3GPP的TS26074-500中的DTX4.INP為輸入信號(hào)以12.2kb/s為編碼速率的第393幀的合成數(shù)字話音信號(hào)幀,圖上的7.84是指7.84秒的時(shí)刻。圖4是為每一個(gè)輸入信號(hào)幀生成一個(gè)AMR-NB編碼幀的AMR-NB編碼器。圖5是圖4中的語(yǔ)音編碼模塊的簡(jiǎn)化框圖。圖6是作為輸入信號(hào)的3GPP的TS26074-500中的DTX4.INP經(jīng)過(guò)預(yù)處理后的數(shù)字話音信號(hào)的第392幀,圖上的7.84是指7.84秒的時(shí)刻。圖7是以3GPP的TS26074-500中的DTX4.INP為輸入信號(hào)以12.2kb/s為編碼速率的編碼譯碼后的合成數(shù)字話音信號(hào)的第393幀,圖上的7.84是指7.84秒的時(shí)刻。具體實(shí)施方式實(shí)施例1,一個(gè)可以在恒定語(yǔ)音模式和不連續(xù)發(fā)送DTX模式間切換的自適應(yīng)多速率窄帶(AMR-NB)編碼器,如圖1所示,話音采樣率為8kHz的13比特均勻脈沖調(diào)制(PCM)輸入聲音信號(hào)幀l同時(shí)向非背景噪聲編碼速率語(yǔ)音編碼模塊和背景噪聲編碼模塊輸出,語(yǔ)音編碼模塊將信號(hào)幀1的非背景噪聲編碼速率的自適應(yīng)多速率窄帶(AMR-NB)編碼幀11向編碼幀輸出選擇模塊輸出,背景噪聲編碼模塊將信號(hào)幀1的背景噪聲編碼速率的自適應(yīng)多速率窄帶(AMR-NB)靜音描述編碼幀12向編碼幀輸出選擇模塊輸出,語(yǔ)音編碼模塊還將編碼信號(hào)幀1時(shí)產(chǎn)生的合成數(shù)字話音信號(hào)幀17向話音激活檢測(cè)模塊輸出,合成數(shù)字話音信號(hào)幀17的生成按照3GPP的26090-500的5.9節(jié)中給出的生成本地合成語(yǔ)音(localsynthesizedspeech)的方法產(chǎn)生,話音激活檢測(cè)模塊對(duì)合成數(shù)字話音信號(hào)幀17進(jìn)行話音激活檢測(cè),并將檢測(cè)的結(jié)果——VAD標(biāo)志18向不連續(xù)發(fā)送(DTX)控制和操作模塊輸出,DTX控制和操作模塊輸出發(fā)送類(lèi)型信號(hào)19到編碼幀輸出選擇模塊,編碼幀輸出選擇模塊將收到的發(fā)送類(lèi)型信號(hào)19向3G(第三代移動(dòng)通信)無(wú)線接入網(wǎng)(AN)輸出。發(fā)送類(lèi)型信號(hào)19是正常話音(SPEECH一GOOD)、靜音描述開(kāi)始(SID一FIRST)、靜音描述更新(SID—UPDATE)、無(wú)數(shù)據(jù)(NO—DATA)四種之一,當(dāng)發(fā)送類(lèi)型信號(hào)19是正常話音(SPEECH一G00D)時(shí),編碼幀輸出選擇模塊輸出的信息比特2是按非背景噪聲編碼速率(語(yǔ)音模式)編碼的自適應(yīng)多速率窄帶(AMR-NB)編碼幀11;當(dāng)發(fā)送類(lèi)型信號(hào)19是靜音描述更新(SID—UPDATE)時(shí),編碼幀輸出選擇模塊輸出的信息比特2是按背景噪聲編碼速率編碼的自適應(yīng)多速率窄帶靜音描述(AMR-NB一SID)幀12;當(dāng)發(fā)送類(lèi)型信號(hào)19是靜音描述開(kāi)始(SID_FIRST)時(shí),編碼幀輸出選擇模塊輸出的信息比特2也是背景噪聲編碼模塊輸出的AMR-NB一SID幀12而不是按照3GPP技術(shù)規(guī)范TS26093形成的SID—FIRST幀(35個(gè)舒適噪聲比特全為0的幀);當(dāng)發(fā)送類(lèi)型信號(hào)19是無(wú)數(shù)據(jù)(NO一DATA)時(shí),信息比特2對(duì)于3G的AN無(wú)效,所以當(dāng)發(fā)送類(lèi)型信號(hào)19不是正常話音(SPEECH—GOOD)時(shí),編碼幀輸出選擇模塊將背景噪聲編碼模塊輸出的AMR-NB—SID幀12放到信息比特2里。不連續(xù)發(fā)送控制和操作模塊還接收編碼方式信號(hào)5,編碼方式信號(hào)5指示恒定語(yǔ)音模式或不連續(xù)發(fā)送DTX模式,當(dāng)編碼方式信號(hào)5是不連續(xù)發(fā)送DTX模式時(shí)不連續(xù)發(fā)送控制和操作模塊發(fā)送的發(fā)送類(lèi)型信號(hào)19可以是正常話音(SPEECH一G00D)、靜音描述開(kāi)始(SID—FIRST)、靜音描述更新(SID—UPDATE)、無(wú)數(shù)據(jù)(NO—DATA)四種之中的任意一種,此時(shí)發(fā)送類(lèi)型信號(hào)19的內(nèi)容僅由DTX控制和操作模塊根據(jù)VAD標(biāo)志18的運(yùn)行結(jié)果決定,當(dāng)編碼方式信號(hào)5是恒定語(yǔ)音模式時(shí)發(fā)送類(lèi)型信號(hào)19內(nèi)容為正常話音(SPEECH—GOOD),BP,VAD標(biāo)志18輸出到了不連續(xù)發(fā)送控制和操作模塊,但不連續(xù)發(fā)送控制和操作模塊收到該信號(hào)(不管其內(nèi)容是有話音還是無(wú)話音)后就輸出內(nèi)容是正常話音(SPEECH—GOOD)的發(fā)送類(lèi)型信號(hào)19,不連續(xù)發(fā)送控制和操作模塊將其狀態(tài)變量復(fù)位到初始狀態(tài),這樣只有語(yǔ)音編碼模塊編碼的AMR-NB幀才會(huì)被發(fā)送到3G的AN。若不連續(xù)發(fā)送(DTX)控制和操作模塊根據(jù)輸入的VAD標(biāo)志18將發(fā)送類(lèi)型信號(hào)19設(shè)定為正常話音(SPEECH—GOOD)的發(fā)送類(lèi)型指示,不連續(xù)發(fā)送(DTX)控制和操作模塊也向語(yǔ)音編碼模塊發(fā)送當(dāng)前8kHz的13比特均勻PCM信號(hào)幀1的AMR-NB編碼幀的發(fā)送類(lèi)型指示——正常話音(SPEECH—GOOD),收到該發(fā)送類(lèi)型信號(hào)19后語(yǔ)音編碼模塊為當(dāng)前8kHz的13比特均勻PCM信號(hào)幀的相鄰的后一幀編碼AMR-NB幀時(shí)仍使用模塊本身的激勵(lì)信號(hào)緩沖器中的激勵(lì)信號(hào)和模塊本身的量化能量預(yù)測(cè)誤差緩存器中的量化能量預(yù)測(cè)誤差,即,仍然按照3GPP的TS26090所描述的方法來(lái)使用其激勵(lì)緩沖器中的激勵(lì)信號(hào)和使用量化能量預(yù)測(cè)誤差;若不連續(xù)發(fā)送(DTX)控制和操作模塊根據(jù)輸入的VAD標(biāo)志18將發(fā)送類(lèi)型信號(hào)19設(shè)定為靜音描述開(kāi)始(SID—FIRST)、靜音描述更新(SID—UPDATE)和無(wú)數(shù)據(jù)(NO—DATA)三個(gè)之中的任一個(gè),不連續(xù)發(fā)送(DTX)控制和操作模塊也把該信號(hào)19向語(yǔ)音編碼模塊發(fā)送,收到這些類(lèi)型之一的發(fā)送類(lèi)型信號(hào)19后,語(yǔ)音編碼模塊就要用背景噪聲編碼模塊完成對(duì)當(dāng)前的PCM信號(hào)幀1編碼后產(chǎn)生的激勵(lì)信號(hào)35去代替其自身激勵(lì)信號(hào)緩沖器中的激勵(lì)信號(hào)供編碼與當(dāng)前8kHz的13比特均勻PCM信號(hào)幀的相鄰的后一幀的AMR-NB幀時(shí)使用,同樣,語(yǔ)音編碼模塊要用背景噪聲編碼模塊完成對(duì)當(dāng)前的PCM信號(hào)幀1編碼后產(chǎn)生的四個(gè)子幀的量化能量預(yù)測(cè)誤差37去代替本身的量化能量預(yù)測(cè)誤差緩存器中的四個(gè)子幀的量化能量預(yù)測(cè)誤差供編碼與當(dāng)前8kHz的13比特均勻PCM信號(hào)幀的相鄰的后一幀的AMR-NB幀時(shí)使用。譯碼器收到編碼器發(fā)送的AMR一SID幀后,從中獲得幀能量對(duì)數(shù)的索引,根據(jù)幀能量對(duì)數(shù)的索引獲取幀能量對(duì)數(shù)平均值,將其四個(gè)子幀的量化能量預(yù)測(cè)都設(shè)置為該幀能量對(duì)數(shù)平均值,由于本實(shí)施例中SID一UPDATE和SID一FIRST幀都包含了幀能量對(duì)數(shù)的索引,譯碼器在收到AMR—SID幀時(shí)都能和編碼器釆用一樣的量化能量預(yù)測(cè)誤差,由于譯碼器收到語(yǔ)音模式AMR-NB幀時(shí)根據(jù)其中的修正因子設(shè)置量化能量預(yù)測(cè)誤差,譯碼器在編碼器暫停發(fā)送的DTX期間保持量化能量預(yù)測(cè)誤差不變,所以編碼器和譯碼器能保持一致的量化能量預(yù)測(cè)誤差。圖1和3GPP的TS26.071的圖1中發(fā)送方(TRANSMITSIDE)的右邊的編碼部分的框圖相似,不同之處在于話音激活檢測(cè)(VoiceActivityDetector)模塊從語(yǔ)音編碼模塊那里接收到的信號(hào)不同,3GPP的的TS26.071的圖1中的是語(yǔ)音采樣經(jīng)語(yǔ)音編碼(SpeechEncoder)模塊預(yù)處理后的信號(hào),本文圖1中的是語(yǔ)音編碼模塊對(duì)輸入的語(yǔ)音數(shù)字信號(hào)幀進(jìn)行線性預(yù)測(cè)及量化、自適應(yīng)碼書(shū)搜索以及固定碼書(shū)搜索后所生成的合成數(shù)字語(yǔ)音信號(hào)幀。本文的圖1中,在發(fā)送類(lèi)型信號(hào)19是正常話音(SPEECH—GOOD)或是靜音描述更新(SIDJJPDATE)時(shí)編碼幀輸出選擇模塊要從語(yǔ)音編碼模塊生成的AMR-NB編碼幀和背景噪聲編碼模塊生成的自適應(yīng)多速率窄帶靜音描述(AMR-NB一SID)編碼幀中選擇一個(gè)作為信息比特(infobits);與本發(fā)明不同,在3GPP的的TS26.071的圖1中的語(yǔ)音編碼幀(speechframe)4和靜音描述幀(SIDframe)5不會(huì)同時(shí)出現(xiàn),不存在從兩者之中作選擇的這個(gè)操作。圖2所示的是圖1中語(yǔ)音編碼模塊的簡(jiǎn)化框圖,它給出了信號(hào)的處理流程,該圖和3GPP的TS26.090-500中的圖3(AMR編碼器的簡(jiǎn)化框圖)基本相同,圖2中的A(z)是未量化系數(shù)的逆向?yàn)V波器(Theinversefilterwithquantizedcoefficients),x(n)是自適應(yīng)碼書(shū)搜索的目標(biāo)信號(hào),X2(n)固定碼書(shū)搜索的目標(biāo)信號(hào),在TS26.090-500中各章節(jié)的描述覆蓋了其圖3的內(nèi)容,所以也覆蓋了本文的圖2所涉及的與其圖3相同的內(nèi)容。本文的圖2中的與TS26.090-500中的圖3的不同的地方為以下幾處圖2中所示的語(yǔ)音編碼模塊利用量化系數(shù)的逆向?yàn)V波器(Theinversefilterwithquantizedcoefficients)獲得線性預(yù)測(cè)合成濾波器,用該合成濾波器對(duì)激勵(lì)信號(hào)濾波產(chǎn)生合成數(shù)字聲音信號(hào)幀17;圖2中還示出了后處理流程,該后處理就是先對(duì)發(fā)送類(lèi)型19的內(nèi)容進(jìn)行檢測(cè),若不是SPEECH—GOOD,就用激勵(lì)信號(hào)35代替當(dāng)前幀的激勵(lì)信號(hào),用量化能量預(yù)測(cè)誤差37代替當(dāng)前幀中的四個(gè)子幀的量化能量預(yù)測(cè)誤差;圖1中的AMR-NB編碼幀11中的參數(shù)就來(lái)自于圖2中的LSP索引、自適應(yīng)碼書(shū)索引、自適應(yīng)碼書(shū)增益索引、固定碼書(shū)索引和固定碼書(shū)增益索引。下面是AMR-NB編碼器以3GPP的TS26.074-500中的DTX4.INP所表示的信號(hào)為輸入信號(hào)進(jìn)行12.2kb/s編碼的過(guò)程的一段時(shí)間上的詳細(xì)說(shuō)明,DTX4.INP的總長(zhǎng)度是1188個(gè)幀,每幀20毫秒,即總長(zhǎng)23.76秒,DTX4.INP的每個(gè)樣本點(diǎn)的值被表示為16比特,AMR-NB編碼器將其3個(gè)最低有效位(比特2-比特O)置0從而形成13比特的數(shù)字話音信號(hào)(該數(shù)字話音信號(hào)的精度為8)。工作在12.2kb/s編碼速率的語(yǔ)音編碼模塊對(duì)輸入信號(hào)幀進(jìn)行3GPP的TS26.090的5.1章節(jié)所規(guī)定的預(yù)處理后以12.2kb/s進(jìn)行非背景噪聲編碼速率語(yǔ)音模式編碼,這包括了線性預(yù)測(cè)及量化、自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索的AMR-NB編碼和生成合成數(shù)字話音信號(hào)的一系列操作。編碼方式信號(hào)5在7.7秒前為恒定語(yǔ)音模式,編碼器對(duì)7.7秒之前的輸入信號(hào)幀一直以12.2kb/s的恒速率的編碼輸出,即為DTX4.INP的第1幀(0秒至0.02秒)到第385幀中的每一幀選擇信息比特19時(shí)都采用語(yǔ)音編碼模塊產(chǎn)生的12.2kb/s的速率編碼幀;從7.7秒開(kāi)始到8.10秒為止編碼方式信號(hào)5為DTX模式,g卩,第386幀到第405幀中的每一幀的編碼速率是由VAD模塊和DTX控制和發(fā)送模塊確定的12.2kb/s和背景噪聲編碼速率(l.80kb/s)中的一個(gè),現(xiàn)在對(duì)DTX方式工作期間的編碼過(guò)程進(jìn)行考察。對(duì)于本實(shí)施例的合成數(shù)字話音幀,可以參考3GPP的TS26.074-500提供的文件DTX4一122.COD(COD是文件的后綴名),用該文件所確定的合成數(shù)字話音信號(hào)的第393幀來(lái)對(duì)照?qǐng)D3所示的第393幀的合成數(shù)字話音信號(hào)幀的波形。3GPP的AMR的VAD1選項(xiàng)的話音激活檢測(cè)對(duì)于DTX4.INP的第386到第405幀的VAD結(jié)果一直是無(wú)話音的,它無(wú)法檢測(cè)出圖7中第392幀的有話音的語(yǔ)音特征,而下面給出的3種VAD方法都在第393幀(7.84秒到7.86秒)檢測(cè)出了合成數(shù)字話音幀的有話音的語(yǔ)音特征,本實(shí)施例中的VAD使用了下述的第3種方法,在表格1中列出了這些幀的檢測(cè)結(jié)果。DTX控制和操作裝置在收到有話音的VAD標(biāo)志43后將TX_TYPE設(shè)為SPEECH—GOOD,連續(xù)收到8個(gè)內(nèi)容是無(wú)話音的VAD標(biāo)志43后將TX—TYPE設(shè)置為SID_FIRST,如果再收到3個(gè)無(wú)話音的VAD標(biāo)志43就將TX一TYPE設(shè)置為SIDJJPDATE(SID—UPDATE和SID—FIRST之間的2個(gè)TXJTYPE是NOJ)ATA),此后每收到連續(xù)8個(gè)無(wú)話音的VAD標(biāo)志43就將TXJTYPE設(shè)置為SID—UPDATE(該SID—UPDATE之前的TX—TYPE都是NO_DATA)。圖3示出第393幀的合成數(shù)字話音信號(hào)幀的波形,圖的橫坐標(biāo)標(biāo)注了時(shí)間,縱坐標(biāo)標(biāo)注了百分比,可以看出圖中給出的第393幀前半個(gè)幀(7.84秒到7.85秒)的范圍在-l.6%到2.2%之間。由于16位有符號(hào)整數(shù)的范圍是-215(等于-32768)到215-1(等于32767),-1.6%到2.2%相當(dāng)于-524到720,第一種VAD方法規(guī)定波峰大于等于502的閾值則VAD判決是有話音時(shí),可以檢測(cè)出第393幀的話音信號(hào),在圖中第393幀前半個(gè)幀(7.84秒到7.85秒)內(nèi)最大的波峰的值是430,與其相鄰的左邊的波谷為-176,與其相鄰的右邊的波谷的值為-81,艮卩,上升沿長(zhǎng)是606,下降沿為511都超過(guò)了502,這樣第393幀就會(huì)被判決為有話音;第二種VAD方法規(guī)定波峰中的上升沿或下降沿大于等于592的閾值則VAD判決是有話音,這種方法也可以檢測(cè)出第393幀的話音信號(hào);第三種VAD方法規(guī)定波峰中的上升沿大于等于592的閾值并且波峰的下降沿大于等于502的閾值則VAD判決是有話音,這種方法也可以檢測(cè)出第393幀的話音信號(hào)。<table>tableseeoriginaldocumentpage24</column></row><table>表格1合成數(shù)字話音信號(hào)幀393的幀的樣本點(diǎn)上的信號(hào)值按先后順序在下面花括號(hào)內(nèi){-43,42,13,15,7,—41,—1,33,0,—1,1,-6,—5,—176,—32,215,430'186,—81,—74,195,105,19,—29,—72,—29,—46,-235,123,-98,—67,-72,16,39,126,71,—63,53,31,-153,92,136,100,2,17,-45,31,45,-47,-102,-98,-44,8,88,1,-41,118,-52'1,59,32'10,-27,-41,108,-45,-44,55'72,-26,119,-110,-70,-131,43,54'10,-41,-50,16,-15,56,20,13,-13,-1,-3,6,11,9,-44,-119,-134,151,288,104,—229'-39,—6,25,188,61,一73,—27,-233,—137,136,_2,—218,56,43,139,-14,5,-16,246,22,-131,89,76'-97,7,134,9,42,3,-31,-102,-126,-49,-11,-36,-64,-5,144'201,17,42,56,-146,-134,1,-76,-153,-81,22,2,-39,39'80,42,80,31,-30,-41,-52,-75,-16,7,-17}可以計(jì)算出該幀的幀的平均幅度是(幀內(nèi)每個(gè)樣本點(diǎn)上的信號(hào)值的絕對(duì)值之和)是10813。在VAD中的可以使用上述3種波形檢測(cè)方法,第一種波形檢測(cè)是在上升沿和下降沿幅度都大于閾值時(shí)將VAD結(jié)果設(shè)定為有話音,求閾值的方法是在500和加權(quán)系數(shù)0.04643與幀的平均幅度的乘積之間取其中的較大值,后者是0.04643乘10813等于502,所以該方法的閾值為502;第二種波形檢測(cè)是在上升沿幅度大于閾值時(shí)將VAD結(jié)果設(shè)為有話音,求閾值的方法是在572和加權(quán)系數(shù)0.05475與幀的平均幅度的乘積之間取其中的較大值,后者是0.05475乘10813等于592,所以該方法的閾值為502;第三種波形檢測(cè)是在波峰的上升沿和下降沿幅度分別大于各自的閾值時(shí)將VAD結(jié)果設(shè)為有話音,上升沿幅度的閾值是按在572和加權(quán)系數(shù)0.05475與幀的平均幅度的乘積之間取其中的較大值的方法得到的,下降沿幅度的閾值是按在在500和加權(quán)系數(shù)0.04643與幀的平均幅度的乘積之間取其中的較大值的方法得到的,所以它們分別為592和502,表格1的第二列的VAD標(biāo)志的數(shù)值是按照這個(gè)VAD方法得到的。但是對(duì)于同樣的DTX4.INP輸入,將上述檢測(cè)波形的方法用于3GPP技術(shù)規(guī)范26.073規(guī)定的AMR-NB編碼器的第393幀的VAD的預(yù)處理數(shù)字話音信號(hào)則無(wú)法將該幀檢出為有話音的幀,即,采用上述上升沿和下降沿幅度都大于各自對(duì)應(yīng)的閾值則VAD判決為有話音的方法,不能將原預(yù)處理數(shù)字話音信號(hào)的第393幀判決為有話音。在上述的3種波形檢測(cè)方法中都是只要被比較值超過(guò)閾值就把VAD判決定為有話音,實(shí)際上為超過(guò)閾值的波峰數(shù)設(shè)定范圍也是一種檢測(cè)波形的方法,例如,可以規(guī)定當(dāng)上升沿和下降沿幅度分別大于各自的閾值的波峰的數(shù)目在1到3的范圍內(nèi)就將VAD結(jié)果設(shè)為有話音,上升沿幅度的閾值是按在572和加權(quán)系數(shù)0.05475與幀的平均幅度的乘積之間取其中的較大值的方法得到的,下降沿幅度的閾值是按在在500和加權(quán)系數(shù)0.04643與幀的平均幅度的乘積之間取其中的較大值的方法得到的,所以它們分別為592和502,在這一規(guī)定之下仍然可以檢出第393個(gè)合成數(shù)字話音幀的有話音的VAD結(jié)果。實(shí)施例1中執(zhí)行編碼所按照的2個(gè)編碼速率是一個(gè)是背景噪聲編碼速率另一個(gè)是非背景噪聲編碼速率,這樣,發(fā)送類(lèi)型19指定了編碼后一幀時(shí)應(yīng)該使用的量化能量預(yù)測(cè)誤差和激勵(lì)信號(hào),即,若發(fā)送類(lèi)型信號(hào)19內(nèi)容是SPEECH—GOOD則以12.2kb/s編碼所產(chǎn)生的激勵(lì)信號(hào)和量化預(yù)測(cè)誤差將被它在編碼下一幀時(shí)使用,否則語(yǔ)音編碼模塊編碼下一幀時(shí)使用背景噪聲編碼模塊復(fù)位后的激勵(lì)信號(hào)和根據(jù)量化的幀能量對(duì)數(shù)平均值生成的量化預(yù)測(cè)誤差。第386幀之前DTX控制和操作模塊一直維持在初始的狀態(tài),自第386幀開(kāi)始工作,前7幀始終都不會(huì)產(chǎn)生SID—FIRST的輸出(第一個(gè)SID—FIRST需要8個(gè)VAD為無(wú)話音的幀),因?yàn)榈?幀即第393幀被檢測(cè)出是有話音的,因此表格1中的393到400幀的輸出也都是12.2kb/s的AMR-NB幀。實(shí)施例2,如圖4所示一個(gè)對(duì)一個(gè)輸入話音信號(hào)幀只有一個(gè)編碼模塊為其產(chǎn)生AMR-NB編碼幀的AMR-NB編碼器,輸入聲音信號(hào)幀42是13比特均勻PCM幀,43是VAD標(biāo)志,44是AMR-NB編碼語(yǔ)音幀(非背景噪聲編碼速率自適應(yīng)窄帶編碼幀),45是AMR-NB靜音描述(SID)幀,46是發(fā)送類(lèi)型的指示,47是傳給3G接入網(wǎng)的信息比特,語(yǔ)音編碼模塊對(duì)13比特均勻PCM幀進(jìn)行線性預(yù)測(cè)和碼書(shū)搜索得到的合成數(shù)字話音信號(hào)幀48,49是對(duì)13比特均勻PCM幀進(jìn)行預(yù)處理后得到的預(yù)處理后的聲音信號(hào)幀,50是背景噪聲編碼模塊編碼背景噪聲編碼速率的編碼幀-靜音描述(SID)幀時(shí)生成的子幀的量化能量預(yù)測(cè)誤差——量化的幀能量對(duì)數(shù)平均值,是幀能量的對(duì)數(shù)平均值(averagedlogarithmicenergy)經(jīng)過(guò)量化處理后的值,四個(gè)子幀的量化能量預(yù)測(cè)誤差都用該數(shù)值,在3GPP的TS26.092-500的5.2節(jié)幀能量計(jì)算(Frameenergycaculation)中給出了幀能量的對(duì)數(shù)平均值和量化的幀能量對(duì)數(shù)平均值定義。圖4和3GPP26.071-400圖1中描述的發(fā)送部分(Transmitside)的右邊一個(gè)框圖類(lèi)似,不同的地方在于本發(fā)明的圖4中的話音激活檢測(cè)模塊對(duì)合成數(shù)字話音信號(hào)進(jìn)行檢測(cè),3GPP的方法是對(duì)預(yù)處理后的數(shù)字話音信號(hào)進(jìn)行檢測(cè)。圖4中的背景噪聲編碼模塊參照的3GPP的TS26.092的技術(shù)規(guī)范實(shí)現(xiàn)背景噪聲編碼速率AMR-NB幀的編碼的功能。背景噪聲編碼模塊把向語(yǔ)音編碼模塊提供其編碼SID幀時(shí)產(chǎn)生的量化能量預(yù)測(cè)誤差——量化的幀能量對(duì)數(shù)平均值在圖4中有了明確的表示,背景噪聲編碼模塊接收VAD標(biāo)志43,當(dāng)背景噪聲編碼模塊接收到連續(xù)8個(gè)以上(包括8個(gè))內(nèi)容為無(wú)話音的VAD標(biāo)志43時(shí)就對(duì)其幀能量對(duì)數(shù)平均值50進(jìn)行更新計(jì)算。圖4的語(yǔ)音編碼模塊的簡(jiǎn)化框圖如圖5所示,圖5中的后處理流程中,當(dāng)當(dāng)前幀的發(fā)送類(lèi)型46不是SPEECH_GOOD時(shí),使用己知的激勵(lì)信號(hào)的復(fù)位值來(lái)設(shè)置其激勵(lì)緩沖器中存放的當(dāng)前幀的激勵(lì)信號(hào),該激勵(lì)緩沖器中的激勵(lì)信號(hào)至少是包含最后一個(gè)子幀的154個(gè)樣本點(diǎn)上的信號(hào)值,根據(jù)來(lái)自背景噪聲編碼模塊的量化的幀能量對(duì)數(shù)平均值50來(lái)設(shè)置當(dāng)前的四個(gè)子幀的量化能量預(yù)測(cè)誤差。在本實(shí)施例中,語(yǔ)音編碼模塊接收13比特均勻PCM幀42,向話音激活檢測(cè)模塊發(fā)送其對(duì)預(yù)處理后的話音數(shù)字信號(hào)進(jìn)行線性預(yù)測(cè)、自適應(yīng)碼書(shū)搜索和固定碼書(shū)搜索后得到的合成數(shù)字話音信號(hào)幀,即用自適應(yīng)碼書(shū)按自適應(yīng)碼書(shū)增益放大后與固定碼書(shū)按固定碼書(shū)增益放大后相加得到激勵(lì)信號(hào),再用激勵(lì)信號(hào)通過(guò)由線性預(yù)測(cè)得到的線性預(yù)測(cè)(LP)參數(shù)-i(z)所確定的線性預(yù)測(cè)合成濾波器得到合成數(shù)字話音信號(hào)幀48(用于合成數(shù)字話音幀的線性預(yù)測(cè)合成濾波器也可以由線性預(yù)測(cè)參數(shù)J(z)所確定);話音激活檢測(cè)模塊根據(jù)對(duì)合成數(shù)字話音信號(hào)幀48的檢測(cè)所得到VAD結(jié)果——VAD標(biāo)志43向DTX控制和操作模塊輸出,DTX控制和操作模塊的功能同3GPP中規(guī)定的一樣,具體參見(jiàn)TS26.093-520的5.l節(jié)。圖4示出的語(yǔ)音編碼模塊在收到發(fā)送類(lèi)型指示46是正常語(yǔ)音(SPEECH—GOOD)時(shí)產(chǎn)生AMR-NB語(yǔ)音模式編碼幀(非背景噪聲編碼速率編碼幀),此時(shí)圖5中的LSP索引、自適應(yīng)碼書(shū)索引、自適應(yīng)碼書(shū)增益索引、固定碼書(shū)索引和固定碼書(shū)增益索引才會(huì)被編入該AMR-NB語(yǔ)音模式編碼幀中;當(dāng)背景噪聲編碼模塊在收到的發(fā)送類(lèi)型指示46不是正常語(yǔ)音(SPEECH—GOOD)時(shí),背景噪聲編碼模塊為預(yù)處理后的話音數(shù)字信號(hào)幀49編碼AMR-NB靜音描述(SID)幀45,DTX控制和操作模塊在發(fā)送類(lèi)型指示46是正常語(yǔ)音(SPEECH—GOOD)時(shí)在信息比特47里放AMR-NB編碼語(yǔ)音幀44向3G接入網(wǎng)(AN)發(fā)送,DTX控制和操作模塊在發(fā)送類(lèi)型指示46是靜音描述更新(SID—UPDATE)時(shí)在信息比特47里放自適應(yīng)多速率靜音描述(AMR一SID)幀45向3G接入網(wǎng)(AN)發(fā)送,DTX控制和操作模塊在發(fā)送類(lèi)型指示46是靜音描述開(kāi)始(SID一FIRST)時(shí)在信息比特47里放按照3GPP技術(shù)規(guī)范TS26093形成的SID一FIRST幀向3G接入網(wǎng)(AN)發(fā)送,TX控制和操作模塊在發(fā)送類(lèi)型指示46是無(wú)數(shù)據(jù)(N(LDATA)時(shí)指示3G接入網(wǎng)不進(jìn)行話音幀的發(fā)送,所以在信息比特里無(wú)論放什么都可以。在實(shí)施例2中的不連續(xù)發(fā)送DTX控制和操作裝置接收VAD結(jié)果來(lái)自于對(duì)合成數(shù)字話音的檢測(cè),其操作按照3GPP的TS26.093的規(guī)定。如技術(shù)方案中所述的,在傳送背景噪聲模式編碼幀的情況下,雙方將激勵(lì)信號(hào)復(fù)位到一致的激勵(lì)信號(hào),譯碼器根據(jù)SID—UPDATE幀中的幀能量對(duì)數(shù)平均值索引設(shè)置量化能量預(yù)測(cè)誤差使之與編碼器的相一致,譯碼器根據(jù)在SID一FIRST幀之前收到的多個(gè)語(yǔ)音模式幀的幀能量的對(duì)數(shù)平均值設(shè)置量化能量預(yù)測(cè)誤差使之與編碼器的相一致;在傳送語(yǔ)音模式編碼幀的情況下,譯碼器使用收到的編碼幀中的參數(shù),編碼器使用自己編碼到該編碼幀中去的參數(shù),基于一致的激勵(lì)信號(hào)和量化能量預(yù)測(cè)誤差生成一致的子幀的激勵(lì)信號(hào)和合成語(yǔ)音。所以對(duì)應(yīng)于上述編碼器的譯碼器可以和編碼器保持一致的激勵(lì)信號(hào)和量化能量預(yù)測(cè)誤差。權(quán)利要求1.一種按照背景噪聲編碼速率和一個(gè)非背景噪聲編碼速率對(duì)輸入信號(hào)幀序列中的一輸入信號(hào)幀進(jìn)行自適應(yīng)多速率窄帶AMR-NB編碼和對(duì)與該輸入信號(hào)幀相鄰的后一輸入信號(hào)幀進(jìn)行AMR-NB編碼的方法,其特征在于,根據(jù)以所述非背景噪聲編碼速率對(duì)所述的一輸入信號(hào)幀編碼所得到的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)生成激勵(lì)信號(hào),根據(jù)以所述非背景噪聲編碼速率對(duì)所述的一輸入信號(hào)幀編碼所得到的線性預(yù)測(cè)參數(shù)確定線性預(yù)測(cè)合成濾波器,用該線性預(yù)測(cè)合成濾波器對(duì)該激勵(lì)信號(hào)濾波生成合成數(shù)字聲音信號(hào)幀;根據(jù)所述合成數(shù)字聲音信號(hào)幀進(jìn)行話音激活檢測(cè),根據(jù)所述話音激活檢測(cè)的結(jié)果確定不連續(xù)發(fā)送的發(fā)送類(lèi)型;若所述的發(fā)送類(lèi)型是正常話音SPEECH_GOOD,根據(jù)所述一輸入信號(hào)幀的所述非背景噪聲編碼速率的AMR-NB編碼幀中所使用的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù),生成所述的一輸入信號(hào)幀的激勵(lì)信號(hào);若所述的發(fā)送類(lèi)型不是SPEECH_GOOD,將所述的一輸入信號(hào)幀的的激勵(lì)信號(hào)復(fù)位;根據(jù)所述的一輸入信號(hào)幀的的激勵(lì)信號(hào)對(duì)相鄰的后一輸入信號(hào)幀進(jìn)行非背景噪聲編碼速率的編碼操作。2.根據(jù)權(quán)利要求1的方法,其特征在于,若所述的發(fā)送類(lèi)型是SPEECH—GOOD,根據(jù)所述一輸入信號(hào)幀的所述非背景噪聲編碼速率的AMR-NB編碼幀中所使用的修正因子correctionfactor,生成所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差;若所述的發(fā)送類(lèi)型是靜音描述開(kāi)始SID—FIRST或靜音描述更新SID_UPDATE,根據(jù)所述一輸入信號(hào)幀的量化的幀能量的對(duì)數(shù)平均值,生成所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差;若所述的發(fā)送類(lèi)型是無(wú)數(shù)據(jù)NO一DATA,將與所述的一輸入信號(hào)幀相鄰的前一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差作為所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差;根據(jù)所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差對(duì)相鄰的后一輸入信號(hào)幀進(jìn)行非背景噪聲編碼速率的編碼操作。3.根據(jù)權(quán)利要求1或2的方法,其特征在于其中進(jìn)行的話音激活檢測(cè)包括對(duì)合成數(shù)字聲音信號(hào)幀的波形檢測(cè)。4.根據(jù)權(quán)利要求3的方法,其特征在于,所述的對(duì)所述合成數(shù)字聲音信號(hào)幀的波形檢測(cè)包括根據(jù)所述的合成數(shù)字聲音信號(hào)幀確定閾值,若所述的合成數(shù)字聲音信號(hào)幀中的波形中的波峰的上升沿的幅度超過(guò)該閾值,就將所述話音激活檢測(cè)的結(jié)果確定為有話音。5.根據(jù)權(quán)利要求3的方法,其特征在于,所述的對(duì)所述合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)包括根據(jù)所述的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值和下降沿閾值,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿闞值和下降沿閾值比較;若波形中的波峰的上升沿的幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值,就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音。6.根據(jù)權(quán)利要求3的方法,其特征在于,所述的對(duì)所述合成數(shù)字聲音信號(hào)幀的波形檢測(cè)包括:根據(jù)所述的合成數(shù)字聲音信號(hào)幀確定幅度閾值和范圍,若所述的合成數(shù)字聲音信號(hào)幀中的波形中的上升沿幅度超過(guò)該幅度閾值的波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果確定為有話音。7.根據(jù)權(quán)利要求3的方法,其特征在于,所述的對(duì)所述合成數(shù)字聲音信號(hào)幀的波形檢測(cè)包括根據(jù)所述的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值、下降沿閾值和范圍,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的上升沿幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音。8.—種帶有不連續(xù)發(fā)送控制和操作裝置的自適應(yīng)多速率窄帶AMR-NB編碼器,所述不連續(xù)發(fā)送控制和操作裝置按照話音激活檢測(cè)結(jié)果確定發(fā)送類(lèi)型TX—TYPE和確定AMR-NB編碼幀的編碼速率,在所述AMR-NB編碼器中,對(duì)輸入聲音信號(hào)幀進(jìn)行線性預(yù)測(cè),根據(jù)所述編碼速率為所述輸入聲音信號(hào)幀編碼并輸出類(lèi)型為T(mén)X—TYPE的AMR-NB發(fā)送幀,并生成用于編碼下一個(gè)聲音輸入信號(hào)幀的所述輸入聲音信號(hào)幀的激勵(lì)信號(hào),其特征在于,由對(duì)所述輸入聲音信號(hào)幀進(jìn)行線性預(yù)測(cè)得到的線性預(yù)測(cè)參數(shù)確定線性預(yù)測(cè)合成濾波器;根據(jù)語(yǔ)音模式的編碼速率對(duì)所述聲音輸入聲音信號(hào)幀自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索所得到的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)生成語(yǔ)音模式的激勵(lì)信號(hào);用所述線性預(yù)測(cè)合成濾波器對(duì)所述語(yǔ)音模式的激勵(lì)信號(hào)濾波生成合成數(shù)字聲音信號(hào)幀;根據(jù)對(duì)所述合成數(shù)字聲音信號(hào)幀執(zhí)行的話音激活檢測(cè)得到所述的話音激活檢測(cè)結(jié)果;若所述TX一TYPE是正常話音SPEECH—G00D,根據(jù)所述的對(duì)輸入聲音信號(hào)幀的自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索所得到的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)為輸入聲音信號(hào)幀編碼AMR-NB發(fā)送幀,并根據(jù)該編碼幀中所使用的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù),生成所述輸入聲音信號(hào)幀的激勵(lì)信號(hào);若所述TX一TYPE是靜音描述開(kāi)始SID一FIRST或靜音描述更新SIDJJPDATE,按背景噪聲編碼速率為輸入信號(hào)幀編碼AMR-NB發(fā)送幀,并將所述的輸入聲音信號(hào)幀的激勵(lì)信號(hào)復(fù)位;若所述TX一TYPE是無(wú)數(shù)據(jù)NO—DATA,將所述的輸入聲音信號(hào)幀的激勵(lì)信號(hào)復(fù)位。9.根據(jù)權(quán)利要求8的編碼器,還包括確定編碼與所述輸入聲音信號(hào)幀相鄰的后一輸入信號(hào)幀的語(yǔ)音模式AMR-NB幀所需要的所述輸入聲音信號(hào)幀的四個(gè)子幀的量化能量預(yù)測(cè)誤差的裝置,其特征在于,根據(jù)所述輸入聲音信號(hào)幀的發(fā)送類(lèi)型TX一TYPE確定所述輸入聲音信號(hào)幀的四個(gè)子幀的量化能量預(yù)測(cè)誤差,艮P,在所述發(fā)送類(lèi)型是正常話音SPEECH一G00D時(shí)該裝置根據(jù)所述輸入聲音信號(hào)幀的非背景噪聲編碼速率的AMR-NB編碼幀中所給出的修正因子生成所述輸入聲音信號(hào)幀的四個(gè)子幀的量化能量預(yù)測(cè)誤差,在所述TX—TYPE是靜音描述開(kāi)始SID_FIRST或靜音描述更新SID—UPDATE時(shí)該裝置將所述輸入聲音信號(hào)幀的四個(gè)子幀的量化能量預(yù)測(cè)誤差設(shè)置為所述輸入聲音信號(hào)幀的量化的幀能量對(duì)數(shù)平均值,若所述的發(fā)送類(lèi)型是無(wú)數(shù)據(jù)NO一DATA,將與所述輸入聲音信號(hào)幀相鄰的前一輸入聲音信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差作為所述輸入聲音信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差。10.根據(jù)權(quán)利要求8或9的編碼器,其中執(zhí)行的話音激活檢測(cè)包括對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)。11.根據(jù)權(quán)利要求10的編碼器,其特征在于,所述對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)包括根據(jù)所述合成數(shù)字聲音信號(hào)幀確定一個(gè)閾值,將所述合成數(shù)字聲音信號(hào)幀中的波形的波峰的上升沿的幅度同所述閾值比較,當(dāng)所述波形的波峰的上升沿的幅度大于該閾值就將所述的話音激活檢測(cè)的結(jié)果確定為有話音。12.根據(jù)權(quán)利要求10的編碼器,其特征在于,所述對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)包括根據(jù)所述的合成數(shù)字聲音信號(hào)幀確定幅度閾值和范圍,若所述的合成數(shù)字聲音信號(hào)幀中的波形中的上升沿幅度超過(guò)該幅度閾值的波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果確定為有話音。13.根據(jù)權(quán)利要求10的編碼器,其特征在于,所述對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)包括:根據(jù)所述的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值、下降沿閾值和范圍,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的上升沿幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音。14.根據(jù)權(quán)利要求10的編碼器,其特征在于,所述對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)包括:根據(jù)所述的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值和下降沿閾值,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的波峰的上升沿的幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值,就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音。15.—種對(duì)一輸入信號(hào)幀序列中的一輸入信號(hào)幀進(jìn)行自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索及自適應(yīng)多速率窄帶AMR-NB編碼和對(duì)與該輸入信號(hào)幀相鄰的后一輸入信號(hào)幀進(jìn)行非背景噪聲編碼速率AMR-NB編碼的方法,其特征在于,對(duì)所述的一輸入信號(hào)幀進(jìn)行線性預(yù)測(cè),并根據(jù)所得到的線性預(yù)測(cè)參數(shù)確定線性預(yù)測(cè)合成濾波器,按語(yǔ)音模式編碼速率對(duì)所述一輸入信號(hào)幀自適應(yīng)碼書(shū)搜索、固定碼書(shū)搜索,并根據(jù)所得到的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù)生成激勵(lì)信號(hào),用該線性預(yù)測(cè)合成濾波器對(duì)該激勵(lì)信號(hào)濾波生成合成數(shù)字聲音信號(hào)幀;根據(jù)所述合成數(shù)字聲音信號(hào)幀進(jìn)行話音激活檢測(cè),根據(jù)該話音激活檢測(cè)的結(jié)果確定不連續(xù)發(fā)送的發(fā)送類(lèi)型;若所述的發(fā)送類(lèi)型是正常話音SPEECH—G00D,根據(jù)所述的語(yǔ)音模式編碼速率為所述一輸入信號(hào)幀的編碼AMR-NB編碼幀,并根據(jù)該編碼幀中所使用的自適應(yīng)碼書(shū)參數(shù)和固定碼書(shū)參數(shù),生成所述的一輸入信號(hào)幀的激勵(lì)信號(hào);若發(fā)送類(lèi)型是靜音描述更新SIDJJPDATE或靜音描述開(kāi)始SID_FIRST則生成所述輸入信號(hào)幀的按背景噪聲編碼速率編碼的自適應(yīng)多速率窄帶靜音描述AMR-NB一SID幀;若所述的發(fā)送類(lèi)型不是SPEECH_G00D,將所述的一輸入信號(hào)幀的的激勵(lì)信號(hào)復(fù)位;根據(jù)所述的一輸入信號(hào)幀的的激勵(lì)信號(hào)對(duì)相鄰的后一輸入信號(hào)幀進(jìn)行非背景噪聲的語(yǔ)音模模式編碼速率的編碼操作。16.根據(jù)權(quán)利要求15的方法,其特征在于,若所述發(fā)送類(lèi)型是正常話音SPEECH—GOOD則生成所述輸入信號(hào)幀的非背景噪聲編碼速率的AMR-NB幀,并根據(jù)該AMR-NB幀中的修正因子correctionfactor生成量化能量預(yù)測(cè)誤差;若所述發(fā)送類(lèi)型是靜音描述開(kāi)始SID_FIRST或靜音描述更新SID—UPDATE則將所述輸入數(shù)字聲音幀的量化能量預(yù)測(cè)誤差設(shè)置成該輸入信號(hào)幀的量化的幀能量對(duì)數(shù)平均值;若所述的發(fā)送類(lèi)型是無(wú)數(shù)據(jù)NO—DATA,將與所述的一輸入信號(hào)幀相鄰的前一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差作為所述的一輸入信號(hào)幀的子幀的量化能量預(yù)測(cè)誤差。17.根據(jù)權(quán)利要求15或16的方法,其特征在于其中進(jìn)行的話音激活檢測(cè)包括對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)。18.根據(jù)權(quán)利要求17的方法,其特征在于,所述對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)包括,在所述合成數(shù)字話音信號(hào)幀中的波形的波峰的上升沿的幅度超過(guò)閾值時(shí)就將所述話音激活檢測(cè)結(jié)果設(shè)定為有話音。19.根據(jù)權(quán)利要求17的方法,其特征在于所述對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)根據(jù)所述的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值和下降沿閾值,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的波峰的上升沿的幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值,就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音。20.根據(jù)權(quán)利要求17的方法,其特征在于,所述對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)包括根據(jù)所述的合成數(shù)字聲音信號(hào)幀確定幅度閾值和范圍,若所述的合成數(shù)字聲音信號(hào)幀中的波形中的上升沿幅度超過(guò)該幅度閾值的波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果確定為有話音。21.根據(jù)權(quán)利要求17的方法,其特征在于,所述對(duì)合成數(shù)字聲音信號(hào)幀的波形的檢測(cè)包括:根據(jù)所述的合成數(shù)字聲音信號(hào)幀設(shè)定上升沿閾值、下降沿閾值和范圍,將所述的合成數(shù)字聲音信號(hào)幀的波形中的波峰的上升沿的幅度和下降沿幅度分別同設(shè)定的上升沿閾值和下降沿閾值比較;若波形中的上升沿幅度和下降沿幅度分別超過(guò)了所述的上升沿閾值和下降沿閾值波峰的個(gè)數(shù)在所述范圍之內(nèi),就將所述話音激活檢測(cè)的結(jié)果設(shè)定為有話音。22.根據(jù)權(quán)利要求18的方法,其特征在于,根據(jù)所述的合成數(shù)字聲音信號(hào)幀確定所述閾值。全文摘要本發(fā)明提出一種采用新的自適應(yīng)多速率編碼器和編碼方法,其話音激活檢測(cè)較現(xiàn)有技術(shù)有較大的改變,將話音激活檢測(cè)的對(duì)象針對(duì)編碼幀對(duì)應(yīng)的合成數(shù)字話音,并且根據(jù)所述的改變重新對(duì)自適應(yīng)多速率編碼器和編碼方法作了總體架構(gòu)上的更新,從而使譯碼器合成的聲音信號(hào)能準(zhǔn)確地反映原始聲音的聽(tīng)覺(jué)效果。本發(fā)明可直接應(yīng)用于第三代移動(dòng)通信系統(tǒng)——通用移動(dòng)通信系統(tǒng)的話音編碼技術(shù)中。文檔編號(hào)G10L19/12GK101399043SQ20081009661公開(kāi)日2009年4月1日申請(qǐng)日期2008年4月29日優(yōu)先權(quán)日2007年7月30日發(fā)明者為向申請(qǐng)人:為向
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1