專利名稱:自適應(yīng)多速率窄帶不連續(xù)發(fā)送的一種編碼器和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自適應(yīng)多速率窄帶編碼器及其編碼方法,具體涉及到自適應(yīng)多速率窄帶編碼 器的根據(jù)輸入信號(hào)幀的后續(xù)信號(hào)確定不連續(xù)發(fā)送的發(fā)送類型的裝置和方法,和解決由此引起 的編碼處理延遲的問題。
背景技術(shù):
碼激勵(lì)線性預(yù)測編碼器自1985年被提出以來得到了廣泛的應(yīng)用。在碼分多址(CDMA)和 通用移動(dòng)通信系統(tǒng)(UMTS)的聲碼器中都使用了碼激勵(lì)線性預(yù)測編碼器的技術(shù)。
碼激勵(lì)線性預(yù)測包括了線性預(yù)測和量化、自適應(yīng)碼書搜索和固定碼書搜索。因?yàn)檎Z音本 身有靜默期,可以通過降低這些靜默期間的數(shù)據(jù)速率有效壓縮語音數(shù)據(jù)的傳輸速率,高通公 司的申請?zhí)枮?2104618.9的可變速率聲碼器的專利就是關(guān)于上述方法的一個(gè)方案。
在LMTS中使用了自適應(yīng)多速率(AMR)語音編碼,自適應(yīng)多速率(AMR)語音編碼是3GPP (第三代移動(dòng)通信伙伴計(jì)劃)制定的應(yīng)用于第三代移動(dòng)通信中的語音壓縮編碼,自適應(yīng)多速 率(AMR)語音編碼又分為自適應(yīng)多速率窄帶(A服-NB)語音編碼、自適應(yīng)多速率寬帶(AMR-WB) 語音編碼和自適應(yīng)多速率寬帶改進(jìn)型(AMR-WB+)語音編碼,這些編碼方法都基于碼書激勵(lì)線 性線性預(yù)測技術(shù)。自適應(yīng)多速率(AMR)編解碼方式中采用的碼書激勵(lì)線性預(yù)測編碼器將一個(gè) 話音信號(hào)幀分成若干個(gè)子幀,進(jìn)行線性預(yù)測和量化、自適應(yīng)碼書搜索和量化以及固定碼書搜 索和量化。AMR-NB(自適應(yīng)多速率窄帶)語音編碼支持八種速率的語音模式的編碼速率12.2、 10.2、 7.95、 7.40、 6.70、 5.90、 5.15、 4. 75 kb/s (千比特/秒),以及低速率(1.80kb/s) 的背景噪聲編碼速率,3GPP的TS26.071-500的章節(jié)5的表格1 (Table 1)給出了對應(yīng)上述 這些自適應(yīng)多速率窄帶編碼速率的編碼器模式AMR一12. 20、 AMR一IO. 20、 AMR一7. 95、 AMR_7. 40、 AMR—6. 70、 AMR—5. 90、 AMR—5. 15、 AMR—4. 75以及AMR—SID。
線性預(yù)測和量化包括了將采樣得到的話音信號(hào)幀進(jìn)行高通濾波的預(yù)處理所得到的采樣 率為8千赫茲的話音信號(hào)幀組成一個(gè)序列,用一個(gè)窗函數(shù)乘該序列中的聲音樣本,以提供一 個(gè)加窗的聲音數(shù)據(jù)幀;由所述加窗的聲音數(shù)據(jù)幀計(jì)算一組自相關(guān)系數(shù);用萊文遜一杜賓 (Levinson-Durbin)算法由所述自相關(guān)系數(shù)組計(jì)算一組線性預(yù)測系數(shù)將所述線性預(yù)測系數(shù) 組轉(zhuǎn)換到另一個(gè)頻譜域;根據(jù)編碼指令中的速率量化所述轉(zhuǎn)換到另一個(gè)頻譜域上的系數(shù)組, 例如,IO階的一組線頻譜對(LSP)的值,或16階的一組聲抗納頻譜對(ISP)的值,關(guān)于 線頻譜對(LSP),最早在發(fā)表于國際語旨語音和信號(hào)處理會(huì)議(ICASSP)' 84中的文章"線 頻譜對(LSP)和語音數(shù)據(jù)壓縮"中有說明,高通公司的申請?zhí)枮?2104618.9的可變速率聲碼 器的專利中也有說明,在3GPP的TS (技術(shù)規(guī)范)26090和3GPP2的C. S0014-A中也都有說明。在根據(jù)輸入信號(hào)幀的語音信號(hào)的特性確定編碼速率的方案中,在較短的一段時(shí)間(例如 一幀)內(nèi)的語音信號(hào)的能量往往是一個(gè)參照對象,通常,語音信號(hào)的短時(shí)能量的定義如下-
<formula>formula see original document page 11</formula>
5"是信號(hào)x(m)在從樣本點(diǎn)w開始的長度為iV個(gè)樣本點(diǎn)的這一時(shí)間段上的能量,/ (")是 一個(gè)矩形窗
<formula>formula see original document page 11</formula>,其它
在碼激勵(lì)線性預(yù)測編碼過程中,自適應(yīng)碼書搜索和固定碼書搜索得到的最佳碼書矢量信 號(hào)乘以各自的最佳增益后相加,其和為激勵(lì)信號(hào)。激勵(lì)信號(hào)是編碼過程中一定要使用的,碼 激勵(lì)線性預(yù)測編碼是搜索與原始語音之間誤差最小的基于激勵(lì)信號(hào)的合成語音。
3GPP的TS26. 090對自適應(yīng)多速率窄帶的自適應(yīng)碼書搜索作了說明,例如,TS26. 090-310 版本的5.6節(jié)。自適應(yīng)碼書搜索包含了基于以前激勵(lì)信號(hào)的閉環(huán)基音(pitch)搜索和此后的 按選定的整數(shù)和分?jǐn)?shù)基音延遲進(jìn)行的內(nèi)插以甜激勵(lì)信號(hào)得到自適應(yīng)碼書的計(jì)算。自適應(yīng)碼書 搜索得到的自適應(yīng)碼書參數(shù)是激勵(lì)信號(hào)、整數(shù)和分?jǐn)?shù)基音延遲、自適應(yīng)碼書增益和量化的自 適應(yīng)碼書增益。
閉環(huán)基音搜索是通過原始語音和重構(gòu)語音之間的均方加權(quán)誤差的最小化來完成的,所述 最小化需要從搜索范圍內(nèi)的每個(gè)延時(shí)值所對應(yīng)的均方加權(quán)誤差中找出最小的均方加權(quán)誤差, 每個(gè)延時(shí)值所對應(yīng)的均方加權(quán)誤差由自適應(yīng)碼書搜索目標(biāo)信號(hào)(target signal)和加權(quán)合成 濾波器(weighted synthesis filter)對以甜激勵(lì)信號(hào)的響應(yīng)所確定。對自適應(yīng)多速率窄帶 來說,3GPP的TS26. 090-310版本中的5. 6節(jié)對此做了說明,就是先求解由下面的式(1)表 示的特征項(xiàng)r(k)最大時(shí)的整數(shù)延時(shí)值k得到最佳整數(shù)延遲,
<formula>formula see original document page 11</formula>, (1)
x(n)是目標(biāo)信號(hào),yk是在整數(shù)延時(shí)k處的過去激勵(lì)信號(hào)的經(jīng)過濾波的值,在最佳整數(shù)延遲附近 的分?jǐn)?shù)延時(shí)值是通過內(nèi)插歸一化的特征項(xiàng)r(k)得到的,搜索最大的分?jǐn)?shù)延時(shí)值可得到最佳分 數(shù)延遲,存放激勵(lì)信號(hào)值的是激勵(lì)緩沖器excitation buffer (u(n),n=- (143+11),…,39,), 其中搜索階段的值(u(n),n=0, 1,…,39,)是線性殘差(LP residual)每個(gè)子幀的激勵(lì)信號(hào) 是當(dāng)前本子幀的自適應(yīng)碼書信號(hào)按量化的自適應(yīng)碼書增益值放大后的得到信號(hào),同固定碼書 信號(hào)按量化的固定碼書增益值放大后的得到信號(hào)進(jìn)行疊加所得到的信號(hào),關(guān)于這一點(diǎn),可以 參見3GPP的TS26. 090-310版本的5. 9節(jié),其中式(64)是激勵(lì)信號(hào)值的數(shù)學(xué)表示。
關(guān)于AMR-NB的固定碼書搜索在3GPP的TS26090-500的5. 7節(jié)中有詳細(xì)描述,AMR-NB的 固定碼書采用了代數(shù)碼書Algebraic codebook,固定碼書搜索得到固定碼書參數(shù)有固定碼書 矢量、固定碼書增益及量化的固定碼書增益。自適應(yīng)多速率窄帶(AMR-NB)語音解碼過程中,對每一幀都進(jìn)行LP(線性預(yù)測)濾波器參 數(shù)解碼,從而形成用于重構(gòu)每一子幀的語音信號(hào)的每個(gè)子幀的LP濾波器系數(shù);每個(gè)子幀的激 勵(lì)信號(hào)的構(gòu)造方法是將自適應(yīng)碼書信號(hào)按自適應(yīng)碼書增益值放大后得到的信號(hào),同固定碼 書信號(hào)按固定碼書增益值放大后得到的信號(hào)進(jìn)行疊加,這里的自適應(yīng)碼書增益值和固定碼書 信號(hào)是按照解碼得到的自適應(yīng)碼書增益索引和固定碼書索引從量化表找到的量化值;AMR-NB 的自適應(yīng)碼書信號(hào)是基于上一個(gè)子幀的激勵(lì)信號(hào)的合成信號(hào),即,解碼自適應(yīng)碼書索引得到 的的整數(shù)和分?jǐn)?shù)基音延遲,按所述整數(shù)和分?jǐn)?shù)基音延遲對上一個(gè)子幀的激勵(lì)信號(hào)進(jìn)行內(nèi)插得 到自適應(yīng)碼書信號(hào)。'
自適應(yīng)多速率窄帶(AMR-NB)的固定碼書增益量化包括基于以前子幀的量化能量預(yù)測 誤差(quantified prediction error)得到的或固定碼書預(yù)測增益,以及固定碼書增益和所 述的固定碼書預(yù)測增益之間的修正因子的量化。子幀的量化能量預(yù)測誤差(quantified prediction error)就是所述修正因子的對數(shù)按固定比例放大后的值。
3GPP的TS26.090對自適應(yīng)多速率窄帶的固定碼書增益量化作了說明,例如, TS26.090-310版本的5.8節(jié)中的式(54)和(56),也就是下面的式(3)和(4)說明量化 能量預(yù)測誤差如何影響預(yù)測增益的,
<formula>formula see original document page 12</formula> (3)<formula>formula see original document page 12</formula> (4)
式(3)是第n個(gè)子幀預(yù)測能量(predicted energy) 的定義,取值為
的[bl b2 b3 b4]是移動(dòng)平均(MA)預(yù)測系數(shù),》(的就是第k個(gè)子幀的量化能量預(yù)測誤 差;式(4)是固定碼書預(yù)測增益(predicted fixed-codebook gain) gV的定義,£是更新 能量(innovation energy)的平均值并且根據(jù)模式的不同取不同的常數(shù)值,例如12. 2kb/s時(shí) 為36分貝(dB),五/是平均更新能量(mean innovation energy)。固定碼書增益和固定碼書預(yù) 測增益之間的修正因子為前者與后者的比值;而TS26.090-310版本的5.8節(jié)中的式(58)說 明能量預(yù)測誤差R (n)就是20乘上述修正因子的對數(shù),量化能量預(yù)測誤差則是20乘量化修 正因子的對數(shù)。
采樣數(shù)字話音幀經(jīng)預(yù)處理后形成的數(shù)字話音幀經(jīng)過線性預(yù)測和量化、自適應(yīng)碼書搜索和 固定碼書搜索后所形成的合成數(shù)字話音幀的共振峰主要由線性預(yù)測所使用的線性預(yù)測分析 (LPC)所決定,更確切一點(diǎn),對AMR-NB來說,就是LSP轉(zhuǎn)換為預(yù)測(LP)系數(shù)后, 一個(gè)10 階線性預(yù)測合成濾波器(linear prediction synthesis filter)就可以按式(7)確定,其 中的A (/=/w=10)是量化了的預(yù)測(LP)系數(shù)。
對于AMR-NB和AMR-來說,將激勵(lì)信號(hào)通過線性預(yù)測合成濾波器濾波后的輸出就是合 成數(shù)字話音幀,所以,線性預(yù)測合成濾波器的極點(diǎn)對應(yīng)了合成數(shù)字話音幀的共振峰的頻率和帶寬,這些共振峰反映在時(shí)域上的波形的強(qiáng)度上,對聽覺影響很大。
目前自適應(yīng)多速率聲碼器的話音激活檢測(VAD)方法是先計(jì)算預(yù)處理后的輸入信號(hào)的電 平和背景噪聲估計(jì)值之間的差值,再計(jì)算出VAD判決閾值,VAD初始判決是通過比較所述差 值和判決閾值來實(shí)現(xiàn)的,當(dāng)前者大于后者時(shí)初始判決為有話音幀,當(dāng)前者小于等于后者時(shí)初 始判決為無話音幀,VAD的最終判決是將初始判決和預(yù)處理后的數(shù)字話音信號(hào)音調(diào)等其它檢 測的結(jié)果綜合后的判決。
音調(diào)檢測的目的是檢測信號(hào)音調(diào),當(dāng)然也包括其它具有很強(qiáng)周期性的信號(hào),它是通過比 較開環(huán)基音增益和設(shè)定閾值來實(shí)現(xiàn)的。如果開環(huán)基音增益值大于閾值(TONE—THR),表示檢測 到音調(diào)并將音調(diào)標(biāo)志置位。音調(diào)檢測的算法如下
if (t0 > TONE一T服X tl) '
tone = 1 -
其中
/0 =》w(">w("-A:) (8)
(9)
;是被檢測聲音信號(hào)幀的加權(quán)語音信號(hào),k是丌環(huán)基音延遲,n的范圍是當(dāng)前幀的0到159 或0到79或80到159。
AMR-NB的VAD還要和不連續(xù)發(fā)送DTX相結(jié)合,DTX是通過多個(gè)輸入信號(hào)幀的VAD結(jié)果檢 測到一段語音結(jié)束后才開始進(jìn)行不連續(xù)的靜音描述幀SID的發(fā)送,3GPP的TS26. 093介紹了 一種DTX的執(zhí)行方案。
DTX要求,當(dāng)一段語音結(jié)束時(shí),將需要多個(gè)(例如8個(gè))連續(xù)幀去產(chǎn)生一個(gè)SID幀,即 在將連續(xù)多個(gè)(例如7個(gè))VAD結(jié)果為無話音的輸入信號(hào)幀以語音模式編碼速率編碼之后將 之后的幀(例如第8幀)編碼為SID—FIRST以標(biāo)明一段語音的結(jié)束, 一旦SID—FIRST幀被發(fā) 送,只要連續(xù)無語音就周期性地(例如每8幀)發(fā)送SID一UPDATE幀,第一個(gè)SID—UPDATE幀 需要在SID—FIRST幀后的特定時(shí)刻(例如第3幀)發(fā)送出; 一種例外情況是當(dāng)有語音的輸入 信號(hào)幀后的一個(gè)輸入信號(hào)幀的VAD結(jié)果是無話音并且距離上一段語音結(jié)束少于一定時(shí)間(例 如24幀)將該幀編碼為SID一FIRST幀。
發(fā)明內(nèi)容
要解決的技術(shù)問題
現(xiàn)有技術(shù)采用的VAD所針對的對象是采樣話音輸入后形成的數(shù)字話音信號(hào)幀或采樣后數(shù) 字話音信號(hào)幀再經(jīng)預(yù)處理后形成的預(yù)處理后的數(shù)字話音信號(hào)幀,音調(diào)檢測的相關(guān)性檢測的對 象除了將預(yù)處理后的數(shù)字話音信號(hào)幀加權(quán)后的形成的幀之外還涉及前一預(yù)處理后的數(shù)字話音 信號(hào)幀經(jīng)加權(quán)處理后的部分樣本點(diǎn)上的信號(hào),所以,即使音調(diào)檢測的結(jié)果是強(qiáng)相關(guān)并導(dǎo)致VAD 的結(jié)果為有話音,所述前一預(yù)處理后的數(shù)字話音信號(hào)幀的VAD結(jié)果也可以是無話音的。
式(8)中的Sw(")("-0,l,…159)涉及到當(dāng)甜幀的樣本點(diǎn),式(8)中的Sw("-A:)("=0,l, 159) 不僅涉及到當(dāng)前幀還涉及到之前幀的樣本點(diǎn)。現(xiàn)有音調(diào)檢測技術(shù)僅對前者樣本點(diǎn)涉及的幀做 出VAD判決,對后者的樣本點(diǎn)所涉及的先前幀不作有關(guān)該幀的VAD判決,在一定條件下會(huì) 發(fā)生這樣的情況音調(diào)檢測得出當(dāng)前幀與先前幀的相關(guān)程度達(dá)到了有音調(diào)的結(jié)果,將當(dāng)前幀 的編碼速率定為語音模式卻將先前幀定為背景噪聲模式。
技術(shù)方案
本發(fā)明將聲音信號(hào)相關(guān)檢測的結(jié)果應(yīng)用在聲音信號(hào)樣本點(diǎn)相關(guān)檢測所涉及的所有聲音信 號(hào)幀的編碼速率的確定上。
對于被編碼或?qū)⒁痪幋a的聲音信號(hào)幀,對其進(jìn)行后向的相關(guān)性檢測,即,除了進(jìn)行3GPP 規(guī)范給出的音調(diào)檢測外,還檢測其相鄰后一信號(hào)幀中的樣本點(diǎn)是否與它相關(guān),并根據(jù)檢測的 結(jié)果來確定當(dāng)前幀的發(fā)送類型TXJTPE,例如,計(jì)算相鄰后一信號(hào)幀的前半個(gè)幀的樣本點(diǎn)上 的信號(hào)S(n) (n = 0,1,…,79)與其的相關(guān)性。
在全部獲得了后一信號(hào)幀上的樣本點(diǎn)之后再開始編碼AMR-NB幀會(huì)帶來較大的時(shí)延,艮卩, 對比現(xiàn)有技術(shù)的在獲取聲音信號(hào)幀之后就先對聲音信號(hào)幀進(jìn)行VAD操作再根據(jù)VAD的結(jié)果對 該聲音信號(hào)幀進(jìn)行AMR-NB編碼的方法,或比照在獲取聲音信號(hào)幀及后面相鄰的1/4幀之后就 先對聲音信號(hào)幀進(jìn)行VAD操作再根據(jù)VAD的結(jié)果對該聲音信號(hào)幀進(jìn)行AMR-NB編碼的方法,獲 取全部后一信號(hào)幀上的樣本點(diǎn)之后再開始編碼要引起更大的時(shí)延,為了減少延時(shí)可以縮小當(dāng) 前幀的后向相關(guān)性的搜索范圍,即,對于延遲j可以僅針對后一相鄰信號(hào)幀的前半幀的樣本 點(diǎn)上的信號(hào),例如,在j-143時(shí),僅針對S(n)(^160,161,…,239)這些后一相鄰信號(hào)幀的樣 本點(diǎn)上的信號(hào)的相關(guān)性進(jìn)行檢測,對S(n) (n=240, 241,…,303)這些樣本點(diǎn)上的信號(hào)不做檢測。
實(shí)際上, 一旦當(dāng)前聲音信號(hào)幀的所有樣本點(diǎn)的信號(hào)都可用時(shí)就可以開始編碼它的AMR-NB 幀,因?yàn)榫幋aAMR-NB幀需要一定的處理時(shí)間,這一處理時(shí)間小于一個(gè)幀的幀長(20毫秒), 但一般會(huì)在1/4到3/4的幀長之間,這樣為了利用編碼處理期間接收到的下一幀的樣本點(diǎn)上 的信號(hào)進(jìn)行相關(guān)性檢測,可以先進(jìn)行語音模式編碼速率的AMR-NB編碼再根據(jù)所述相關(guān)性檢測 的結(jié)果確定應(yīng)該向譯碼器方發(fā)送的AMR-NB編碼幀的發(fā)送類型和編碼速率,如果確定的發(fā)送類型TX一TYPE不是正常話音SPEECH—GOOD就舍棄語音模式的編碼幀而選擇以背景噪聲模式的編 碼速率編碼,背景噪聲模式的編碼速率的編碼幀指發(fā)送類型為靜音描述SID和無數(shù)據(jù) NO—DATA,、背景噪聲模式的編碼幀也可以在編碼處理期間形成。
為了避免不必要的低頻部分的干擾,可以使執(zhí)行相關(guān)性檢測的聲音信號(hào)是經(jīng)過高通濾波 器預(yù)處理后的聲音信號(hào),為此,可以按3GPP的TS26. 090的5. 1節(jié)預(yù)處理(Pre-processing) 給出的方法進(jìn)行預(yù)處理。
聲音信號(hào)的相關(guān)程度是通過計(jì)算它的自相關(guān)函數(shù)的值來獲得的,自相關(guān)函數(shù)的形式如下
其中d是延遲,Kd)是自相關(guān)函數(shù),s(n)是聲音信號(hào)在樣本點(diǎn)"上的值,N是自相關(guān)函數(shù) 所涉及的樣本點(diǎn)數(shù)。 .
在計(jì)算自相關(guān)函數(shù)之前還可以將上述聲音信號(hào)加權(quán),下面是一種以逐個(gè)子幀的方式為輸 入聲音信號(hào)進(jìn)行加權(quán)的方案
10 10
其中^( )是加權(quán)聲音信號(hào),是所述輸入聲音信號(hào)幀中的信號(hào)或所述后續(xù)聲音信號(hào),
加權(quán)因子y,小于1大于等于0,加權(quán)因子^小于0.7大于等于0,",是線性預(yù)測LP系數(shù),丄 是子幀的長度為40個(gè)樣本點(diǎn),如果凡和凡都是0就相當(dāng)于加權(quán)函數(shù)將原聲音信號(hào)保持不變。
由于采用了根據(jù)相鄰后一幀聲音信號(hào)中的一部分樣本點(diǎn)上的信號(hào)進(jìn)行相關(guān)程度的檢測,僅需 根據(jù)這一部分樣本點(diǎn)的信號(hào)自相關(guān)函數(shù)的計(jì)算, '
加權(quán)自相關(guān)函數(shù)和所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信 號(hào)的能量的形式如下
M+159
柳)=2X("KX"-d)w(d)
w=160 — M+159
^ (dw^) —dmaxKX —d隨)
其中,i (d)是加權(quán)自相關(guān)函數(shù),d是延遲,dm^是/ (d)取最大值所對應(yīng)的延遲,fi((Lax) 是所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,W(d)是加 權(quán)函數(shù),當(dāng)W(d)為1時(shí)/ (d)就是自相關(guān)函數(shù),^(")是加權(quán)聲音信號(hào),M是所述不超過20
毫秒時(shí)間長度所包含的樣本點(diǎn)的個(gè)數(shù),0到159范圍內(nèi)的整數(shù)w是對應(yīng)了所述輸入聲音信號(hào) 幀的樣本點(diǎn),160到M+159范圍內(nèi)的整數(shù)n對應(yīng)了所述后續(xù)聲音信號(hào)的樣本點(diǎn)。
根據(jù)當(dāng)前幀的后向相關(guān)檢測為其在背景噪聲編碼速率和語音模式的非背景噪聲編碼速率 的兩者中做出選擇的AMR-NB編碼器的技術(shù)方案如下-
一種帶有不連續(xù)發(fā)送DTX控制和操作部件自適應(yīng)多速率窄帶AMR-NB編碼器,它接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收與所述輸入聲音信號(hào)幀相鄰的不超過20毫秒時(shí)間長度 的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán)輸入聲音信號(hào);它包 括自相關(guān)計(jì)算部件,該部件為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最大延遲和
預(yù)定最小延遲之間的自相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲之間的 區(qū)域劃分為至少一個(gè)的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲識(shí)別為最 佳延時(shí),計(jì)算自相關(guān)函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去信 號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量;若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù) 聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定 值,所述不連續(xù)發(fā)送DTX控制和操作部件將所述輸入聲音信號(hào)幀發(fā)送類型TX—TYPE確定為正 常語音SPEECH—G00D。
為其中的輸入聲音信號(hào)幀及后續(xù)聲音信號(hào)生成加權(quán)聲音信號(hào)的加權(quán)函數(shù)具有如下的形
式
10 10
&(")=4")+a,x4"—'〕—Z",7;、("—0, "=o,...,丄-1 其中^(")是加權(quán)聲音信號(hào),s(")是所述輸入聲音信號(hào)幀中的信號(hào)或所述后續(xù)聲音信號(hào),
加權(quán)因子y,小于1大于等于0,加權(quán)因子)VJ、于0. 7大于等于o, y,和72都等于0相當(dāng)于不進(jìn) 行加權(quán)操作(&(")= s (") ), ^是線性預(yù)測LP系數(shù),丄是子幀的長度。計(jì)算線性預(yù)測LP系數(shù) 的方法在3GPP的TS(技術(shù)規(guī)范)26. 090-500在5. 2節(jié)線性預(yù)測分析和量化(Linear prediction analysis and quantization)給出的方案來進(jìn)行,也就是背景技術(shù)中提及的線性預(yù)測分析和 量化的方法進(jìn)行。
上述加權(quán)自相關(guān)函數(shù)和所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲 音信號(hào)的能量的形式如下
M+159
d)w(d)
M+159
"d匿)dmax -d隨)
其中,i (d)是加權(quán)自相關(guān)函數(shù),d是延遲,w(d)是加權(quán)函數(shù),當(dāng)w(d)是1時(shí)i (d)就是自 相關(guān)函數(shù),cU^是及(d)取最大值所對應(yīng)的延遲,f (cU )是所述后續(xù)聲音信號(hào)在所述最佳延 時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,當(dāng)所述最大延遲和所述最小延遲之間的區(qū)域 被劃分為多于1個(gè)的范圍時(shí),每個(gè)范圍內(nèi)及(d)都有一個(gè)最大值,cUm也有多個(gè),當(dāng)所述最大 延遲和所述最小延遲之間的整個(gè)區(qū)域被作為一個(gè)范圍時(shí),i (d)只有一個(gè)最大值,(1 ^也只有一 個(gè)。^(")是加權(quán)聲音信號(hào),M是所述不超過20毫秒時(shí)間長度所包含的樣本點(diǎn)的個(gè)數(shù),0 到159范圍內(nèi)的整數(shù)"是對應(yīng)了所述輸入聲音信號(hào)幀的樣本點(diǎn),160到M+159范圍內(nèi)的整數(shù)n 對應(yīng)了所述后續(xù)聲音信號(hào)的樣本點(diǎn)。
采用適當(dāng)?shù)募訖?quán)函數(shù)w(d)有助于將所述最大延遲和所述最小延遲之間的區(qū)域被劃分的
16范圍的個(gè)數(shù)變?yōu)?個(gè),例如采用形式如下的W(d):
w(d),(d)w" (d)
其中d是延遲,低延遲加權(quán)函數(shù)>^/((1)的形式是 /((1)= dlc)g2/:"w',相鄰過去幀延遲加
權(quán)函數(shù)^(d)的形式是^(d)叫或Mvd)-(ir。w-di+di)10821, di是所述最小延遲,r。ld 是所述輸入聲音信號(hào)幀的丌環(huán)基音延遲,/^、v是延遲d鄰近區(qū)域加權(quán)的調(diào)整參數(shù),a:^是
延遲(lr。ur dl+d。鄰近區(qū)域加權(quán)的調(diào)整參數(shù)。
在編碼當(dāng)前幀的語音模式AMR-NB幀的同時(shí)進(jìn)行當(dāng)前幀相鄰后續(xù)信號(hào)的采樣的做法對上述 編碼器適用,由于對當(dāng)前幀的線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索的操作和對 當(dāng)前幀的相鄰后續(xù)信號(hào)的采樣操作并行進(jìn)行,所以根據(jù)對采樣得到的后續(xù)信號(hào)進(jìn)行相關(guān)檢測 的結(jié)果可以控制當(dāng)前幀的編碼速率在語音模式和背景噪聲模式之間的選取。
考慮到對譯碼后的聲音信號(hào)的實(shí)時(shí)性要求,后續(xù)信號(hào)的時(shí)間長度的需要一定的限制,這 樣從收到當(dāng)前幀并開始對其編碼到其AMR-NB幀編碼完成的時(shí)間可以控制在20毫秒之內(nèi)。對 于給定的后續(xù)信號(hào)的時(shí)間長度來說,只要線性預(yù)測及量化、碼書搜索、話音激活檢測VAD、 后向相關(guān)檢測和DTX控制和操作這些編碼每一個(gè)20毫秒時(shí)長信號(hào)幀所需要的歩驟的總的完成 時(shí)間小于20毫秒,聲音信號(hào)就能被不間斷持續(xù)地編碼并向譯碼方發(fā)送。由于采樣后續(xù)信號(hào)的 操作可以和線性預(yù)測及量化、碼書搜索(自適應(yīng)碼書搜索和固定碼書搜索)和VAD并行進(jìn)行, 在AMR-NB變速率編碼中引入后向檢測仍能保持較小的延時(shí)。對于目甜的微處理器和DSP (數(shù) 字信號(hào)處理器)的運(yùn)算速度來說,將后續(xù)信號(hào)的時(shí)間長度定為IO毫秒是一個(gè)合適的選擇。
相關(guān)檢測中所采用的最小延遲和最大延遲可以采用3GPP的細(xì)R-NB的基音檢測所使用的 搜索范圍,即分別為20個(gè)樣本點(diǎn)(或18個(gè)樣本點(diǎn))和143個(gè)樣本點(diǎn)。
上述聲音信號(hào)編碼器的技術(shù)方案可以用于其它任何語音編碼的領(lǐng)域,所以,本發(fā)明提出 下面的確定AMR-NB的發(fā)送類型的方法
自適應(yīng)多速率窄帶AMR-NB編碼的一種確定不連續(xù)發(fā)送DTX的發(fā)送類型TX一TYPE的方法, 對于該方法來說,接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收所述與輸入聲音信號(hào)幀相鄰 的不超過20毫秒時(shí)間長度的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成 加權(quán)輸入聲音信號(hào);
為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最大延遲和最小延遲之間的自相關(guān) 函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲之間的區(qū)域劃分為至少一個(gè)的范圍, 將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲作為最佳延時(shí),計(jì)算自相關(guān)函數(shù)在最佳 延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去信號(hào)所Xt應(yīng)的加權(quán)聲音信號(hào)的能量;
若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最佳延 時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定值,將所述輸入聲音信號(hào)幀發(fā) 送類型TX—TYPE確定為正常語音SPEECH一GOOD。
上述編碼方法中為輸入聲音信號(hào)幀及后續(xù)聲音信號(hào)生成加權(quán)聲音信號(hào)的加權(quán)函數(shù)具有如 下的形式10 10
、(")=- ' )-》A(" -0, " = o,…,z -1 其中&(")是加權(quán)聲音信號(hào),是所述輸入聲音信號(hào)幀中的信號(hào)或所述后續(xù)聲音信
號(hào),加權(quán)因子y,小于1大于等于0,加權(quán)因子y2小于0.7大于等于0,"是線性預(yù)測LP
系數(shù),z是子幀的長度。
上述方法中的加權(quán)自相關(guān)函數(shù)和所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)
的加權(quán)聲音信號(hào)的能量的形式如下
M+159
y (d)= Z、(w)、("一d)w(d)
M+I59
^ (d賺)d("-d隨)
=160
其中,i (d)是加權(quán)自相關(guān)函數(shù),d是延遲,cU,是i (d)取最大值所對應(yīng)的延遲,f (d,) 是所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,w(d)是加 權(quán)函數(shù),;(w)是所述加權(quán)聲音信號(hào),M是所述不超過20毫秒時(shí)間長度所包含的樣本點(diǎn)的個(gè) 數(shù),0到159范圍內(nèi)的整數(shù)"是對應(yīng)了所述輸入聲音信號(hào)幀的樣本點(diǎn),160到M+159范圍內(nèi) 的整數(shù)w對應(yīng)了所述后續(xù)聲音信號(hào)的樣本點(diǎn)。
同樣,采用適當(dāng)?shù)募訖?quán)函數(shù)w(d)有助于將所述最大延遲和所述最小延遲之間的區(qū)域被劃 分的范圍個(gè)數(shù)變?yōu)閘,例如采用形式如下的w(d):
w(d),(d)w" (d)
其中d是延遲,低延遲加權(quán)函數(shù)w/(d)的形式是wxdhd^^"'、相鄰過去幀延遲加
權(quán)函數(shù)w (d)的形式是w (d) =1或w (d) =(|r。ld- d|+cL)lc>g2^, di是所述最小延遲,r。ld
是所述輸入聲音信號(hào)幀的開環(huán)基音延遲,尺^是延遲d鄰近區(qū)域加權(quán)的調(diào)整參數(shù),《^是 延遲Cir。ur dl+d"鄰近區(qū)域加權(quán)的調(diào)整參數(shù)。
上述聲音編碼器的將后續(xù)聲音采樣和線性預(yù)測和碼書搜索并行進(jìn)行的做法在這里仍然適用。
在對相鄰后續(xù)信號(hào)做相關(guān)性檢測的同時(shí)可以檢測所述相鄰后續(xù)信號(hào)按最佳延時(shí)延時(shí)后所 在的樣本點(diǎn)上的激勵(lì)信號(hào)的能量,并根據(jù)所述激勵(lì)信號(hào)的能量和閾值的比較結(jié)果確定當(dāng)前幀 的編碼模式(語音模式或背景噪聲模式)。有一點(diǎn)在這里說明的是:對于所述相鄰后續(xù)信號(hào)按 最佳延時(shí)延時(shí)后所在的樣本點(diǎn)上的激勵(lì)信號(hào)來說,只有在當(dāng)甜幀的樣本點(diǎn)上的那部分是不需 要對后續(xù)信號(hào)進(jìn)行線性預(yù)測和碼書搜索這些計(jì)算就可以獲得的,在有實(shí)時(shí)性要求的情況下, 可以僅根據(jù)按最佳延時(shí)進(jìn)行延時(shí)所確定的過去信號(hào)在當(dāng)前幀中所占據(jù)的樣本點(diǎn)上的激勵(lì)信號(hào) 的能量來確定當(dāng)前幀的編碼模式。當(dāng)然,在沒有實(shí)時(shí)性要求的情況下,可以根據(jù)按最佳延時(shí) 進(jìn)行延時(shí)所確定的過去信號(hào)所在的樣本點(diǎn)上的能量來確定編碼模式而不必考慮樣本點(diǎn)的位置 是否在當(dāng)前幀的范圍內(nèi),即生成后續(xù)信號(hào)的激勵(lì)信號(hào),這樣所有樣本點(diǎn)上的能量都可以得到。
18下面就是考慮到激勵(lì)信號(hào)能量的確定AMR-NB編碼模式的技術(shù)方案
一種帶有不連續(xù)發(fā)送DTX控制和操作部件自適應(yīng)多速率窄帶AMR-NB編碼器,接收幀長為 20毫秒的輸入聲音信號(hào)幀,還接收與所述輸入聲音信號(hào)幀相鄰的不超過20毫秒時(shí)間長度的 后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán)輸入聲音信號(hào),在接收 到所述輸入聲音信號(hào)幀后丌始對所述輸入聲音信號(hào)幀進(jìn)行線性預(yù)測及量化、自適應(yīng)碼書搜索 和固定碼書搜索,在所述的對所述輸入聲音信號(hào)幀進(jìn)行線性預(yù)測及量化、自適應(yīng)碼書搜索和 固定碼書搜索的期間接收所述后續(xù)聲音信號(hào),即,在從接收到所述輸入聲音信號(hào)幀至接收到 所述后續(xù)聲音信號(hào)的期間至少安排執(zhí)行對所述輸入聲音信號(hào)幀的線性預(yù)測及量化、自適應(yīng)碼 書搜索和固定碼書搜索這其中的第一項(xiàng),并且生成所述輸入聲音信號(hào)幀的激勵(lì)信號(hào);該編碼 器包括自相關(guān)計(jì)算部件,該部件為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最大延 遲和最小延遲之間的自相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲之間的 區(qū)域劃分為至少一個(gè)的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲識(shí)別為最 佳延時(shí),計(jì)算自相關(guān)函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去信 號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,計(jì)算位于所述輸入聲音信號(hào)幀中的后續(xù)聲音信號(hào)在最佳延 時(shí)處的過去信號(hào)所在的樣本點(diǎn)上的激勵(lì)信號(hào)的能量;若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí) 上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能 量的比值大于預(yù)定值,并且位于所述輸入聲音信號(hào)幀中的所述后續(xù)聲音信號(hào)在該至少一個(gè)最 佳延時(shí)處的過去信號(hào)所在的樣本點(diǎn)上的激勵(lì)信號(hào)的能量大于為該激勵(lì)信號(hào)設(shè)定的閾值,所述 的設(shè)定的閾值為所述過去信號(hào)所在的樣本點(diǎn)的個(gè)數(shù)與樣本點(diǎn)能量閾值的乘積,所述不連續(xù)發(fā) 送DTX控制和操作部件將所述輸入聲音信號(hào)幀發(fā)送類型TXJTYPE確定為正常語音 SPEEQLGOOD。在這里確定用于與激勵(lì)信號(hào)的能量比較的閾值的方法是將激勵(lì)信號(hào)在當(dāng)前幀范 圍內(nèi)的樣本點(diǎn)的數(shù)目乘以預(yù)定值,該預(yù)定值的確定和輸入信號(hào)幀的動(dòng)態(tài)范圍和表示方式有關(guān), 比如,對于同樣的輸入聲音信號(hào)要取得同樣的效果,13比特的動(dòng)態(tài)范圍和有符號(hào)的16比特 整數(shù)表示方式的輸入信號(hào)的預(yù)定值和20比特的動(dòng)態(tài)范圍和32比特的有符號(hào)整數(shù)表示方式的 輸入信號(hào)的預(yù)定值是完全不一樣的。
可以參照本文前面給出的方案來為該編碼器生成加權(quán)聲音信號(hào),同樣,前面給出的加權(quán) 自相關(guān)函數(shù)和加權(quán)聲音信號(hào)的能量的計(jì)算的方案也同樣在這里適用。也可以參考本文前面給 出的方案在最小延遲和最大延遲之間的整個(gè)或若干個(gè)范圍中搜索加權(quán)自相關(guān)函數(shù)最大值。
考慮到實(shí)時(shí)性和目前的CPU (中央處理器)及DSP (數(shù)字信號(hào)處理器)能達(dá)到的運(yùn)算速率, 用于相關(guān)檢測的與當(dāng)前幀相鄰的后續(xù)聲音信號(hào)不宜太長,所以將該聲音信號(hào)的長度定為10毫 秒的時(shí)間長度是一個(gè)折中的選擇,為了減少搜索的運(yùn)算開銷可以減小搜索的范圍,比如將最 小延遲設(shè)定為80。
考慮激勵(lì)信號(hào)能量的當(dāng)前幀的后向相關(guān)檢測的方案不僅適用于上述AMR-NB編碼器,還適 用于其它需要AMR-NB編碼的場合。于是就有下面的方法,
自適應(yīng)多速率窄帶AMR-NB編碼的一種確定不連續(xù)發(fā)送DTX的發(fā)送類型TXJTPE的方 法,在方法中,接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收與所述輸入聲音信號(hào)幀相 鄰的不超過20毫秒時(shí)間長度的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán)輸入聲音信號(hào),在接收到所述輸入聲音信號(hào)幀后開始對所述輸入聲音信號(hào)幀進(jìn) 行線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索,在從接收到所述輸入聲音信號(hào)幀至 接收到所述后續(xù)聲音信號(hào)'的期間至少安排執(zhí)行對所述輸入聲音信號(hào)幀的線性預(yù)測及量化、 自適應(yīng)碼書搜索和固定碼書搜索這其中的第一項(xiàng);
為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最大延遲和最小延遲之間的自 相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲之間的區(qū)域劃分為至少一個(gè) 的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲作為最佳延時(shí),計(jì)算自相關(guān) 函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲 音信號(hào)的能量,計(jì)算位于所述輸入聲音信號(hào)幀中的所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去 信號(hào)所在的樣本點(diǎn)上的激勵(lì)信號(hào)的能量; 、
若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最 佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定值,并且位于所述輸入 聲音信號(hào)幀中的后續(xù)聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所在的樣本點(diǎn)上的激 勵(lì)信號(hào)的能量大于為該激勵(lì)信號(hào)設(shè)定的閾值,所述的設(shè)定的閾值為所述過去信號(hào)所在的樣 本點(diǎn)的個(gè)數(shù)與樣本點(diǎn)能量閾值的乘積,將所述輸入聲音信號(hào)幀發(fā)送類型TX一TYPE確定為正 常語音SPEECH—GOOD 。.上述對于上述編碼器或編碼方法來說,根據(jù)激勵(lì)信號(hào)的能量的做法可以用根據(jù)激勵(lì)信號(hào) 的電平的做法來替代。將一段時(shí)間激勵(lì)信號(hào)的所有樣本點(diǎn)上信號(hào)取絕對值求和就是該段時(shí)間 激勵(lì)信號(hào)的電平。
有益效果
本發(fā)明將現(xiàn)有技術(shù)中的按要編碼的當(dāng)前幀和已編碼的過去幀的相關(guān)性作出的音調(diào)檢測方 法應(yīng)用到了要編碼的當(dāng)前幀和未編碼的后相鄰幀的信號(hào)上,當(dāng)當(dāng)前幀和后相鄰幀中的信號(hào)的 相關(guān)程度達(dá)到超越預(yù)定門限的程度時(shí)就將當(dāng)前幀的編碼速率定為語音模式的編碼速率,而對 于現(xiàn)有技術(shù)來說,如果當(dāng)前幀和其之前的相鄰幀的相關(guān)達(dá)到未達(dá)到預(yù)定門限,即使在編碼其 之后的相鄰幀時(shí)會(huì)在該當(dāng)前幀和該之后的相鄰幀的相關(guān)達(dá)到超越預(yù)定門限的程度仍不會(huì)依據(jù) 相關(guān)的檢測結(jié)果將當(dāng)前幀的編碼速率定為語音模式的編碼速率。
從背景技術(shù)的介紹可以知道按整數(shù)和分?jǐn)?shù)基音延遲對上一個(gè)子幀及之前的激勵(lì)信號(hào)進(jìn) 行內(nèi)插最后得到自適應(yīng)碼書信號(hào),該自適應(yīng)碼書信號(hào)再按量化的自適應(yīng)碼書增益值放大后的 得到信號(hào),同固定碼書信號(hào)按量化的固定碼書增益值放大后的得到信號(hào)進(jìn)行疊加,所得到的信 號(hào)就是激勵(lì)信號(hào)。
本發(fā)明的方法可以檢測出當(dāng)前信號(hào)幀是否與相鄰后一信號(hào)幀中信號(hào)的相關(guān)程度,從而使 得與相鄰后一信號(hào)幀的相關(guān)程度超過預(yù)定門限的當(dāng)前信號(hào)幀都能以語音模式的編碼速率編 碼,從而形成非零的當(dāng)前信號(hào)幀的激勵(lì)信號(hào),這樣,在對相鄰后一信號(hào)幀進(jìn)行語音模式的編 碼時(shí),可以將編碼所得到的自適應(yīng)參數(shù)給出的基音延遲應(yīng)用于當(dāng)前信號(hào)幀的激勵(lì)信號(hào),艮卩, 當(dāng)前幀的非全零的激勵(lì)信號(hào)可對該相鄰后一信號(hào)幀的激勵(lì)信號(hào)的構(gòu)成作出貢獻(xiàn),如果當(dāng)前幀以背景噪聲模式編碼,無論相鄰后一信號(hào)幀的基音延遲的取值是多大,其甜一信號(hào)幀(當(dāng)前 信號(hào)幀)的被復(fù)位的全零的激勵(lì)信號(hào)對該相鄰后一信號(hào)幀的激勵(lì)信號(hào)的構(gòu)成沒有貢獻(xiàn),也就 是說當(dāng)前幀和后一幀的較強(qiáng)的相關(guān)性沒有在編碼幀的解碼后的聲音幀中表現(xiàn)出來。
本發(fā)明的根據(jù)當(dāng)前幀和后相鄰幀相關(guān)性的確定當(dāng)前幀編碼模式的方案還可結(jié)合檢測當(dāng)前 幀激勵(lì)信號(hào)對其后相鄰幀的貢獻(xiàn)的方案,因?yàn)椴捎昧撕突粞舆t相一致的搜索方法,按本發(fā) 明的方案進(jìn)行操作所得到的最佳延時(shí)是開環(huán)基音延遲的候選,用開環(huán)基音延遲的候選所對應(yīng) 的激勵(lì)信號(hào)的能量來反映或預(yù)測后相鄰幀的基音延遲處所對應(yīng)的激勵(lì)信號(hào)的能量,從而忽略 那些一些相關(guān)檢測結(jié)果為相關(guān)的但激勵(lì)信號(hào)能量很低的當(dāng)前幀,不再將它們用語音模式編碼 速率編碼,可以壓縮傳輸速率。
本發(fā)明提出的根據(jù)加權(quán)語音信號(hào)進(jìn)行相關(guān)檢測的方法和開環(huán)基音檢測的方法相近,對當(dāng) 前幀的相鄰下一幀搜索所得到開環(huán)基音延時(shí)與對加權(quán)語音信號(hào)進(jìn)行相關(guān)檢測所得到的最佳延 時(shí)中的一個(gè)接近。本發(fā)明的相關(guān)檢測所使用的最小延遲、最大延遲和丌環(huán)基音搜索所使用的 最小延遲、最大延遲一致時(shí),相關(guān)檢測檢測到的最佳延時(shí)肯定有一個(gè)接近丌環(huán)基音延遲,只 要在該基音延遲處的自相關(guān)值與加權(quán)聲音信號(hào)能量的比值大于閾值且按該基音延遲延時(shí)后續(xù) 信號(hào)到當(dāng)前幀內(nèi)的那些樣本點(diǎn)上的激勵(lì)信號(hào)的能量大于預(yù)定值,按本發(fā)明的方案就可以檢測 出這一現(xiàn)象,從而發(fā)出內(nèi)容為相關(guān)的信號(hào)到DTX控制和操作模塊使當(dāng)前幀的編碼速率為語音 模式的非背景噪聲編碼速率。這樣做的好處很明顯,當(dāng)當(dāng)前幀的激勵(lì)信號(hào)具有一定的能量, 并且最佳延時(shí)處的自相關(guān)值與加權(quán)聲音信號(hào)能量的比值表明所述激勵(lì)信號(hào)對相鄰下一幀的構(gòu) 成有貢獻(xiàn)時(shí),將當(dāng)前幀編碼為語音模式幀可以使當(dāng)前幀的激勵(lì)信號(hào)不為零,而采用背景噪聲 編碼速率編碼則會(huì)使當(dāng)前幀的激勵(lì)信號(hào)為零(這給相鄰下一幀的語音模式的編碼帶來不利影 響)。
由于采用了先執(zhí)行線性預(yù)測和碼書搜索再執(zhí)行確定編碼速率的方法,這樣,根據(jù)非背景 噪聲編碼速率所生成的激勵(lì)信號(hào)的出現(xiàn)就先于編碼速率確定操作,針對后續(xù)信號(hào)和激勵(lì)信號(hào) 確定當(dāng)前幀編碼速率的方案是現(xiàn)有技術(shù)不具備的。
圖1是帶后向相關(guān)檢測部件的可雙模式編碼的AMR-NB編碼器的原理框圖。 圖2是圖1所示(AMR-NB)編碼器的中的后向相關(guān)檢測模塊的原理框圖。 圖3是圖1所示(AMR-NB)編碼器的中的語音編碼模塊的原理框圖。
圖4是帶后向相關(guān)檢測部件(檢測激勵(lì)信號(hào))的可雙模式編碼的AMR-NB編碼器的原理框圖。 圖5是圖3所示(AMR-NB)編碼器的中的后向相關(guān)檢測模塊的原理框圖。 圖6是帶后向相關(guān)檢測部件的AMR-NB編碼器。
圖7是圖5所示(AMR-NB)編碼器的中的后向相關(guān)檢測模塊的原理框圖。
具體實(shí)施例方式
實(shí)施例1, 一個(gè)用于UMTS系統(tǒng)的可雙模式編碼的自適應(yīng)多速率窄帶(AMR-NB)編碼器, 如圖1所示,話音采樣率為8kHz的13比特均勻脈沖調(diào)制(PCM)信號(hào)幀1同時(shí)向非背景噪聲編 碼速率的語音編碼模塊和背景噪聲編碼速率的背景噪聲編碼模塊輸出,自適應(yīng)多速率窄帶 (AMR-NB)編碼器還接收話音采樣率為8kHz的13比特均勻脈沖調(diào)制(PCM)信號(hào)幀5,信號(hào)幀5 和信號(hào)幀l有這樣的關(guān)系對于AMR-NB編碼器來說,其收到的信號(hào)幀5的前10毫秒的2個(gè) 子幀和它最近收到的信號(hào)幀,l的后10毫秒的2個(gè)子幀相同,信號(hào)幀5的后10毫秒的2個(gè)子 幀和它將要收到的信號(hào)幀1的前10毫秒的2個(gè)子幀相同,這樣比信號(hào)幀1晚10毫秒到達(dá) AMR-NB編碼器的信號(hào)幀5就可以包含與信號(hào)幀1的相鄰的10毫秒時(shí)間長度的后續(xù)信號(hào)。
非背景噪聲編碼速率語音模式的語音編碼模塊將信號(hào)幀1的非背景噪聲編碼速率的自適 應(yīng)多速率窄帶(AMR-NB)編碼幀11向編碼幀輸出選擇模塊輸出,背景噪聲模式的背景噪聲編 碼模塊將信號(hào)幀1的背景噪聲編碼速率的自適應(yīng)多速率窄帶(AMR-NB)靜音描述編碼幀12向 編碼幀輸出選擇模塊輸出,非背景噪聲編碼速率的語音編碼模塊還將編碼信號(hào)幀1時(shí)產(chǎn)生的 預(yù)處理后的數(shù)字聲音信號(hào)幀17向話音激活檢測模塊輸出,如圖3的語音編碼模塊的編碼流程 所示,數(shù)字聲音信號(hào)幀17是預(yù)處理模塊的輸出,是將信號(hào)幀1的所有輸入樣本點(diǎn)上的值除以 2然后再通過截止頻率為80赫茲的高通濾波器后得到的。話音激活檢測模塊對數(shù)字聲音信號(hào) 幀17進(jìn)行話音激活檢測,并將檢測的結(jié)果——VAD標(biāo)志18向不連續(xù)發(fā)送(DTX)控制和操作 模塊輸出,DTX控制和操作模塊輸出發(fā)送類型TX—TYPE信號(hào)19到編碼幀輸出選擇模塊,編碼 幀輸出選擇模塊將收到的發(fā)送類型信號(hào)19向3G (第三代移動(dòng)通信)無線接入網(wǎng)(AN)輸出。 發(fā)送類型信號(hào)19是正常話音(SPEECH一GOOD)、靜音描述開始(SID一FIRST)、靜音描述更 新(SID一UPDATE)、無數(shù)據(jù)(NO—DATA)四種之一,當(dāng)發(fā)送類型信號(hào)19是正常話音(SPEECH—GOOD) 時(shí),編碼幀輸出選擇模塊輸出的信息比特2是按非背景噪聲編碼速率的自適應(yīng)多速率窄帶
(AMR-NB)編碼幀11;當(dāng)發(fā)送類型信號(hào)19是靜音描述更新(SID一UPDATE)時(shí),編碼幀輸出 選擇模塊輸出的信息比特2是按背景噪聲編碼速率的自適應(yīng)多速率窄帶靜音描述
(AMR-NB—SID)幀12;當(dāng)發(fā)送類型信號(hào)19是靜音描述開始(SID一FIRST)時(shí),編碼幀輸出選 擇模塊輸出的信息比特2是按照3GPP技術(shù)規(guī)范TS26093形成的SID一FIRST幀;當(dāng)發(fā)送類型信 號(hào)19是無數(shù)據(jù)(NO—DATA)時(shí),信息比特2對于3G的AN無效。若不連續(xù)發(fā)送(DTX)控制和 操作模塊根據(jù)輸入的VAD標(biāo)志18將發(fā)送類型信號(hào)19設(shè)定為正常話音(SPEECH—GOOD)的發(fā)送 類型指示,不連續(xù)發(fā)送(DTX)控制和操作模塊也向非背景噪聲編碼速率語音模式的語音編碼 模塊發(fā)送當(dāng)前8kHz的13比特均勻PCM信號(hào)幀1的AMR-NB編碼幀的發(fā)送類型指示——正常話 音(SPEECH—GOOD),收到該發(fā)送類型信號(hào)19后非背景噪聲編碼速率語音編碼模塊為當(dāng)前8kHz 的13比特均勻PCM信號(hào)幀的相鄰的后一幀編碼AMR-NB幀時(shí)仍使用模塊本身的激勵(lì)信號(hào)緩沖 器中的激勵(lì)信號(hào)和模塊本身的量化能量預(yù)測誤差緩存器中的量化能量預(yù)測誤差,即,仍然按 照3GPP的TS26. 090所描述的方法來使用其激勵(lì)緩沖器中的激勵(lì)信號(hào)和使用量化能量預(yù)測誤 差;若不連續(xù)發(fā)送(DTX)控制和操作模塊根據(jù)輸入的VAD標(biāo)志18將發(fā)送類型信號(hào)19設(shè)定為 靜音描述開始(SID—FIRST)、靜音描述更新(SID—UPDATE)和無數(shù)據(jù)(NO—DATA)三個(gè)之中的
22任一個(gè),不連續(xù)發(fā)送(DTX)控制和操作模塊也把該信號(hào)19向非背景噪聲編碼速率的語音編 碼模塊發(fā)送,收到這些類型之一的發(fā)送類型信號(hào)19后,非背景噪聲編碼速率語音編碼模塊就 要用背景噪聲編碼速率背景噪聲編碼模塊完成對當(dāng)前的PCM信號(hào)幀1編碼后產(chǎn)生的激勵(lì)信號(hào) 35去代替其自身激勵(lì)信號(hào)緩沖器中的激勵(lì)信號(hào)供編碼與當(dāng)前8kHz的13比特均勻PCM信號(hào)幀 的相鄰的后一幀的AMR-NB幀時(shí)使用,同樣,語音編碼模塊就要用背景噪聲編碼模塊完成對當(dāng) 前的PCM信號(hào)幀1編碼后產(chǎn)生的四個(gè)子幀的量化能量預(yù)測誤差37去代替本身的量化能量預(yù)測 誤差緩存器中的四個(gè)子幀的量化能量預(yù)測誤差供編碼與當(dāng)前8kHz的13比特均勻PCM信號(hào)幀 的相鄰的后一幀的AMR-NB幀時(shí)使用。
圖1和3GPP的TS26. 071的圖1中發(fā)送方(TRANSMIT SIDE)的右邊的編碼部分的框圖相 似,不同之處在于多了后向相關(guān)檢測模塊,該模塊對輸入的語音數(shù)字信號(hào)幀5進(jìn)行預(yù)處理、 線性預(yù)測及量化、計(jì)算加權(quán)的語音和后續(xù)信號(hào)相關(guān)檢測。預(yù)處理、線性預(yù)測及量化和計(jì)算加 權(quán)的語音在3GPP的TS26. 090中都有說明,在這里需要詳細(xì)說明的是后續(xù)信號(hào)相關(guān)檢測模塊 是如何工作的。
圖2所示是后向相關(guān)檢測模塊的處理流程圖,如圖所示,后續(xù)信號(hào)相關(guān)檢測模塊從計(jì)算 加權(quán)語音模塊接收經(jīng)過加權(quán)的語音信號(hào)幀,后續(xù)信號(hào)相關(guān)檢測模塊將計(jì)算加權(quán)語音模塊向其 輸出的語音信號(hào)幀5中的10毫秒時(shí)間長度的后半幀被用作相關(guān)檢測參照對象,g卩,按前面式 (8)給出的表達(dá)式進(jìn)行相關(guān)函數(shù)的計(jì)算,在計(jì)算式(8)時(shí)/7的范圍在語音信號(hào)幀中的IO毫秒 時(shí)間長度的后半幀范圍內(nèi),當(dāng)前信號(hào)幀1的樣本點(diǎn)的范圍表示為0-159,上述后續(xù)信號(hào)的樣 本點(diǎn)范圍的表示是160-239。
預(yù)處理模塊同語音編碼模塊中的預(yù)處理模塊產(chǎn)生數(shù)字聲音幀17的功能相同,計(jì)算加權(quán)語 音模塊對預(yù)處理后的信號(hào)幀所作的處理就是感知加權(quán),該模塊根據(jù)接收到的非量化系數(shù)的逆 向?yàn)V波器的表示式A(z)構(gòu)造加權(quán)濾波器A(z/1)/ A(z/%), Y,為0.94, 丫2為0.6,即,對長 度為子幀長度L (按照AMR-NB中規(guī)定取為40) —個(gè)子幀長度的語音,按下式得到加權(quán)語音
<formula>formula see original document page 23</formula>
在本實(shí)施例中規(guī)定最小延遲為20最大延遲為143,計(jì)算自相關(guān)函數(shù)的在20-143之間每 一個(gè)延遲k上的值,并在20-39、 40-80和80-143這三個(gè)范圍內(nèi)為自相關(guān)函數(shù)找到最大值, 將最大值所對應(yīng)的延遲k的值作為最佳延時(shí),這樣就有了3個(gè)最佳延時(shí),在這里自相關(guān)函數(shù) r(k)表示為
<formula>formula see original document page 23</formula>
在這里M為80 (10毫秒的時(shí)間長度)。
計(jì)算上述3個(gè)最佳延時(shí)kmax處的能量,能量的計(jì)算式表示為
<formula>formula see original document page 23</formula>分別計(jì)算3個(gè)kmax處的自相關(guān)函數(shù)值與能量的比值——^r(k隨)/ E(kmax),將這3個(gè)比值分 別與0.65比較,只要其中有一個(gè)比值大于0.65就將內(nèi)容是相關(guān)的后向相關(guān)結(jié)果信號(hào)28向不 連續(xù)發(fā)送控制和操作模塊發(fā)送,如果3個(gè)比值中沒有一個(gè)比0.65大就將內(nèi)容是不相關(guān)的后向 相關(guān)結(jié)果信號(hào)28向不連續(xù)發(fā)送控制和操作模塊發(fā)送。
不連續(xù)發(fā)送控制和操作模塊一旦收到內(nèi)容是相關(guān)的后向相關(guān)結(jié)果信號(hào)28就輸出正常話 音SPEECH—GOOD,這樣編碼幀輸出選擇模塊輸出的信息比特2就是語音編碼模塊生成的非 背景噪聲編碼速率的語音模式的AMR-NB編碼幀。
實(shí)施例2, 一個(gè)根據(jù)所要編碼幀的激勵(lì)信號(hào)的能量確定后向相關(guān)的自適應(yīng)多速率窄帶 (AMR-NB)編碼器,如圖4所示,與實(shí)施例l的不同之處是語音編碼模塊和后向檢測模塊中 都沒有預(yù)處理模塊,而信號(hào)幀1和信號(hào)幀5中的信號(hào)是13比特PCM輸入信號(hào)0經(jīng)過了預(yù)處理 模塊預(yù)處理后的信號(hào),預(yù)處理所執(zhí)行的操作是高通濾波和信號(hào)值除以2,信號(hào)幀5的前半幀 同信號(hào)幀l的后半幀相同,信號(hào)幀5的后半幀是信號(hào)幀1的相鄰后續(xù)信號(hào),這樣做與把預(yù)處 理模塊放到語音編碼和后向相關(guān)檢測之中的方案效果一樣;非背景噪聲編碼速率的語音編碼 模塊向后向相關(guān)檢測模塊輸出聲音信號(hào)幀l的激勵(lì)信號(hào),如圖4所示,激勵(lì)信號(hào)45。這樣, 對于信號(hào)幀5來說,它的前2個(gè)子幀的激勵(lì)信號(hào)就是激勵(lì)信號(hào)45中的最后2個(gè)子幀的信號(hào)。 圖5所示的是后向相關(guān)檢測模塊,其中的后續(xù)信號(hào)相關(guān)檢測模塊接收該激勵(lì)信號(hào)45。
在本實(shí)施例中除了要進(jìn)行與實(shí)施例1相同的在20-143之間每一個(gè)延遲k上的自相關(guān)函數(shù) 值的計(jì)算和分別為20-39、 40-80和80-143這三個(gè)范圍內(nèi)自相關(guān)函數(shù)最大值對應(yīng)的最佳延時(shí)
kmax計(jì)算其能量外,后續(xù)信號(hào)相關(guān)檢測模塊還要為這3個(gè)范圍的每個(gè)的最佳延時(shí)kmax計(jì)算其 對應(yīng)在信號(hào)幀l的范圍內(nèi)的激勵(lì)信號(hào)的能量,每個(gè)最佳延時(shí)kn^的激勵(lì)信號(hào)的能量表示式如 下 .
Ev(kmax) = 1>W(" —kmax)、("-kmax)當(dāng)20 £kmax < 80時(shí),
239
E"k隨)=2>w(" —k隨)、("一k隨)當(dāng)80 5kmax 5 143時(shí)
w=160
其中v(/ ) (rO, 1, , , 159)是信號(hào)幀1的所有4個(gè)子幀的激勵(lì)信號(hào),Ev(kn^)就是位于信 號(hào)幀1中的后續(xù)信號(hào)(信號(hào)幀5的后10毫秒時(shí)間長度的部分)按延時(shí)kmax延時(shí)所得到的過去 信號(hào)的激勵(lì)信號(hào)的能量,即位于信號(hào)幀l中的后續(xù)信號(hào)在延時(shí)km^處的過去信號(hào)的樣本點(diǎn)上 的激勵(lì)信號(hào)的能量。 ''
本實(shí)施例中,產(chǎn)生內(nèi)容為相關(guān)的后向相關(guān)結(jié)果信號(hào)28的條件與實(shí)施例1略有不同,當(dāng)3 個(gè)kmax中的某一個(gè)kmax處的自相關(guān)函數(shù)值與能量的比值——r(kmax)/ E(kmax)大于0.65且該k隨
處的Ev(kmax)大于給定的閾值時(shí)才輸出內(nèi)容為相關(guān)的后向相關(guān)結(jié)果信號(hào)28,本實(shí)施例中輸入
信號(hào)0的13個(gè)比特的動(dòng)態(tài)范圍樣本點(diǎn)上的值表示為16位比特有符號(hào)整數(shù)(樣本值的最低3 位比特都為0,高13位代表輸入信號(hào)0的13位比特信號(hào)),該給定的閾值就是25000與信號(hào) 幀5的后10毫秒時(shí)間長度的部分按該km延時(shí)后的信號(hào)中的位于信號(hào)幀1中的部分的長度, 即,當(dāng)該km肌大于等于80時(shí),所述給定的閾值就是25000與80的乘積——2000000,當(dāng)k,小于80時(shí),所述給定的閾值就是25000與kmax的乘積。
'實(shí)施例3,和實(shí)施例2不同之處在于本實(shí)施例中規(guī)定Y,和"/2都為0,相當(dāng)于計(jì)算加權(quán)語 音模塊保持輸入信號(hào)不變,最小延遲為80,最大延遲為143,所以僅在80-143這一個(gè)范圍搜 尋自相關(guān)函數(shù)最大值及對應(yīng)的最佳延時(shí),除此之外,實(shí)施例3和實(shí)施例2相同。這樣,在唯
一的一個(gè)最佳延時(shí)kn^處的激勵(lì)信號(hào)的能量Ev(kmax)就可以用下式計(jì)算
239
Ev(kmax) =^^"" —kmax)Vw("—kmax)
這是因?yàn)樵?0-143這一個(gè)范圍搜尋到的kmax大于等于80,信號(hào)幀5中的后續(xù)信號(hào)部分 的時(shí)間長度只有10毫秒的80個(gè)樣本,所以后續(xù)聲音信號(hào)在最佳延時(shí)kp^處的過去信號(hào)所在
的樣本點(diǎn)就是(/Hc隨)到(/^79-kmax)的80個(gè)樣本點(diǎn)的范圍。
在本實(shí)施例中,當(dāng)k皿處的自相關(guān)函數(shù)值與能量的比值——r(k,)/E(k,)大于0.65且該
kmax處的Ev(kmax)大于給定的閾值——2000000時(shí),就輸出內(nèi)容為相關(guān)的后向相關(guān)結(jié)果信號(hào)28
到DTX控制和操作模塊。
對'于本實(shí)施例來說80-143的搜索范圍比3GPP的基音(pitch)搜索的范圍要小很多,但 本發(fā)明的目的不是搜索基音,實(shí)際上,在基音周期的整數(shù)倍上也會(huì)體現(xiàn)出相關(guān)性,所以當(dāng)基 音周期小于80但它的整數(shù)倍在80-143之間且在它的整數(shù)倍上檢測出相關(guān)性時(shí),就可將當(dāng)前 幀以語音模式的非背景噪聲編碼速率來編碼。
實(shí)施例4,如圖6所示,對一個(gè)輸入話音信號(hào)幀42有一個(gè)工作在10.2kbit/s (千比特每 秒)編碼模塊為其產(chǎn)生AMR-NB編碼幀的AMR-NB編碼器,輸入話音信號(hào)幀42是13比特均勻 PCM幀,VAD標(biāo)志43指示VAD結(jié)果,語音編碼模塊編碼生成AMR-NB編碼語音幀44 (非背景噪 聲編碼速率自適應(yīng)窄帶編碼幀),背景噪聲編碼模塊編碼生成AMR-NB靜音描述(SID)幀41,發(fā) 送類型指示46用來指示傳給3G接入網(wǎng)的信息比特47中的內(nèi)容的類型,語音編碼模塊對13比 特均勻PCM幀進(jìn)行預(yù)處理、線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索得到合成數(shù)字 話音信號(hào)幀48,對13比特均勻PCM幀進(jìn)行預(yù)處理后得到預(yù)處理后的話音信號(hào)幀49,背景噪聲 編碼模塊編碼背景噪聲編碼速率的編碼幀-靜音描述(SID)幀時(shí)生成子幀的量化能量預(yù)測誤差 50——量化的幀能量對數(shù)平均值,是幀能量的對數(shù)平均值(averaged logarithmic energy) 經(jīng)過量化處理后的值,四個(gè)子幀的量化能量預(yù)測誤差都用該數(shù)值,在3GPP的TS26. 092-500 的5. 2節(jié)幀能量計(jì)算(Frame energy caculation)中給出了幀能量的對數(shù)平均值和量化的幀 能量對數(shù)平均值定義。
圖5和3GPP26. 071-400圖1中描述的發(fā)送部分(Transmit side)的右邊一個(gè)框圖不同的 地方在于本發(fā)明的圖5中的話音激活檢測模塊對合成數(shù)字話音信號(hào)48進(jìn)行檢測,3GPP的 方法是對預(yù)處理后的數(shù)字話音信號(hào)進(jìn)行檢測,圖5中還多了后向相關(guān)檢測模塊,該模塊對輸 入的語音數(shù)字信號(hào)幀55進(jìn)行預(yù)處理、線性預(yù)測及量化、計(jì)算加權(quán)的語音和后續(xù)信號(hào)相關(guān)檢測, 該后向相關(guān)檢測模塊還接收來自語音編碼模塊的激勵(lì)信號(hào)45以及丌環(huán)增益51。
背景噪聲編碼模塊向語音編碼模塊提供其編碼SID幀時(shí)產(chǎn)生的量化能量預(yù)測誤差50—— 量化的幀能量對數(shù)平均值,對此,在圖6中有明確的表示。
25在本實(shí)施例中,自適應(yīng)多速率窄帶(AMR-NB)編碼器除了接收接收13比特均勻PCM幀42 之外還接收話音采樣率為8kHz的13比特均勻脈沖調(diào)制(PCM)信號(hào)幀55,信號(hào)幀55和信號(hào)幀 42有這樣的關(guān)系對于AMR-NB編碼器收到信號(hào)幀55來說,其前10毫秒的2個(gè)子幀和AMR-NB 編碼器最近收到的信號(hào)幀42的后10毫秒的2個(gè)子幀相同,其后10毫秒的2個(gè)子幀和AMR-NB 編碼器下一次收到信號(hào)幀42的前10毫秒的2個(gè)子幀相同,這樣比信號(hào)幀42晚10毫秒到達(dá) AMR-NB編碼器的信號(hào)幀5就可以包含與信號(hào)幀1的相鄰的10毫秒時(shí)間長度的后續(xù)信號(hào)。語 音編碼模塊接收16比特形式表示的13比特均勻PCM幀42 (最低有效的3比特置零,其余13 比特為有效的13比特PCM值)后,即進(jìn)行下列操作
對信號(hào)幀42進(jìn)行截止頻率為80赫茲的高通濾波以消除伸頻噪聲(例如 50赫茲的交 流工頻噪聲)和將樣本值除以2的預(yù)處理;
對預(yù)處理后的話音數(shù)字信號(hào)進(jìn)行線性預(yù)測和量化;
自適應(yīng)碼書搜索和固定碼書搜索后得到合成數(shù)字話音信號(hào)幀,即用自適應(yīng)碼書按
自適應(yīng)碼書增益放大后與固定碼書按固定碼書增益放大后相加得到激勵(lì)信號(hào),再用激勵(lì)
信號(hào)通過由線性預(yù)測得到的預(yù)測(LP)系數(shù)所確定的線性預(yù)測合成濾波器得到合成數(shù)字 話音信號(hào)幀48;
向話音激活檢測模塊發(fā)送合成數(shù)字話音信號(hào)幀48。
話音激活檢測模塊根據(jù)對合成數(shù)字話音信號(hào)幀48的檢測所得到VAD結(jié)果——VAD標(biāo)志43 向DTX控制和操作模塊輸出。
在語音編碼模塊的上述的編碼過程中,新的輸入聲音被采樣,形成一個(gè)一個(gè)的樣本點(diǎn)上 的信號(hào)值,當(dāng)信號(hào)幀42之后的10毫秒時(shí)間長度的樣本值都被采樣到后,用信號(hào)幀42的后 10毫秒的樣本點(diǎn)上的信號(hào)作為信號(hào)幀55的前半幀用采樣到的信號(hào)幀42之后的10毫秒時(shí)間 長度的樣本值作為信號(hào)幀55的后半幀(第3、 4子幀),這樣在采樣信號(hào)幀42的相鄰后續(xù)信 號(hào)期間就能將編碼信號(hào)幀42過程中的線性預(yù)測及量化、自適應(yīng)碼書搜索、固定碼書搜索和對 合成聲音信號(hào)的話音激活檢測的的操作一部分或全部安排在同時(shí)進(jìn)行,g卩,在語音編碼模塊 對信號(hào)幀42進(jìn)行線性預(yù)測及量化、自適應(yīng)碼書搜索、固定碼書搜索期間采樣生成信號(hào)幀55 的后半幀中的信號(hào)。比起獲得完整的信號(hào)幀55后再丌始編碼的方法,這樣做的好處是編碼語 音模式AMR-NB幀的處理可以提前到完整的信號(hào)幀42被接收到的時(shí)候。
圖6中的后向檢測模塊的處理過程由圖7表示,聲音信號(hào)幀55經(jīng)過預(yù)處理模塊的高通濾 波和除以2的處理后輸出到計(jì)算加權(quán)的^語音模塊后的輸出信號(hào)為、(n),計(jì)算加權(quán)的語音模塊 對輸入信號(hào)幀所作的處理就是感知加權(quán),該模塊根據(jù)接收到的非量化系數(shù)的逆向?yàn)V波器的表 示式A(z)構(gòu)造加權(quán)濾波器A(zA,)/ A(zA2), Y,為0.94, 72為0.6,即,對長度為子幀長度 Z (在AMR-NB中規(guī)定為40) —子幀語音,按下式得到加權(quán)語音
<formula>formula see original document page 26</formula>
本實(shí)施例中,規(guī)定最小延遲為20最大延遲為143,圖6中的后續(xù)信號(hào)相關(guān)檢測模塊計(jì)算 加權(quán)自相關(guān)函數(shù)的在20-143之間每一個(gè)延遲k上的值,并在20-143的范圍中搜索加權(quán)自相關(guān)函數(shù)的最大值并將該最大值對應(yīng)的延遲識(shí)別為最佳延時(shí),加權(quán)自相關(guān)函數(shù)i (6/)的表示式如 下
所述10毫秒時(shí)間長度所包含的樣本點(diǎn)的個(gè)數(shù)為80, 0到159范圍內(nèi)的整數(shù)w是對應(yīng) 了聲音信號(hào)幀42的樣本點(diǎn),160到239范圍內(nèi)的整數(shù)"對應(yīng)了所述信號(hào)幀55的后半幀聲 音信號(hào)的樣本點(diǎn),其中d是延遲,低延遲加權(quán)函數(shù)^/^)的形式是^/(巾=d^g2《",相鄰 過去幀延遲加權(quán)函數(shù)w (d)的形式是W (d) =1或w (d) =(|r。ld- d|+di)lQg2^, 是所述最 小延遲,『。id是所述輸入聲音信號(hào)幀的開環(huán)基音延遲,A^是延遲d鄰近區(qū)域加權(quán)的調(diào)整
參數(shù),/^是延遲(ir。KT di+di)鄰近區(qū)域加權(quán)的調(diào)整參數(shù)。
為了便于快速計(jì)算,將c^g2《""表示為cvvfd),以固定的取值表表示d為0到250時(shí)的cwfd入-本實(shí)施例中的cwfcU中的取值表采用3GPP的TS26. 073中的文件corrwght. tab給出的數(shù)據(jù)。
.當(dāng)镩入信號(hào)幀42的開環(huán)增益51大于0. 4則v為1 ,否則v為上一幀的v和0. 9的乘積。 關(guān)于輸入信號(hào)幀42的開環(huán)增益的計(jì)算方法在3GPP的TS26. 090-500的5. 3節(jié)開環(huán)增益分析的 10. 2kbit/s的鄰分有詳細(xì)的說明。
圖7中的后續(xù)信號(hào)相關(guān)檢測模塊根據(jù)搜索20—143范圍內(nèi)的加權(quán)自相關(guān)函數(shù)的最大值得
到該最大值處的延遲kmax,計(jì)算在kmax處的自相關(guān)函數(shù)值,還計(jì)算信號(hào)幀55的后半幀聲音信
號(hào)按該kn^處延時(shí)的樣本點(diǎn)中的所有落在信號(hào)幀42范圍之內(nèi)的樣本點(diǎn)上的激勵(lì)信號(hào)的能量,
當(dāng)kmax小于80時(shí)只有km肌個(gè)樣本點(diǎn)上的激勵(lì)信號(hào)的能量要計(jì)算,當(dāng)kmax大于80時(shí)要計(jì)算80 個(gè)樣本點(diǎn)上的的激勵(lì)信號(hào)的能量。自相關(guān)函數(shù)在kmax處的值r(kmax)、位于輸入聲音信號(hào)幀 42中的后續(xù)聲音信號(hào)(信號(hào)幀55的后半幀)以kmax延時(shí)的過去信號(hào)所在的樣本點(diǎn)上的激勵(lì) 信號(hào)的能量Ev(kmax)和加權(quán)聲音信號(hào)、(")在k隱處的能量E(k脂x)的表示如下
<formula>formula see original document page 27</formula>Ev(k隨)—k,職)、("—kmax) 當(dāng)80 5kmax 5 143時(shí)
"=160
239 rt-160
其中v(/7) (/7=0,1,'",159)是信號(hào)幀42的所有4個(gè)子幀的激勵(lì)信號(hào),在本實(shí)施例中, 當(dāng)k鵬處的自相關(guān)函數(shù)值與能量的比值^r(kmax)/ E(km狄)大于0.65且該kmax處的E"k麗)大 于給定的閾值就產(chǎn)生內(nèi)容為相關(guān)的后向相關(guān)結(jié)果信號(hào)28,對于16比特形式表示的13比特均 勻PCM幀55 (最低有效的3比特置零,其余13比特為有效的13比特PCM值)來說,該閾值 為25000與信號(hào)幀55的后10毫秒時(shí)間長度的部分按該kmax延時(shí)后的信號(hào)中的位于信號(hào)幀1 中的部分的長度,即,當(dāng)該kmax大于等于80時(shí),所述給定的閾值就是25000與80的乘積一 —2000000,當(dāng)kmax小于80時(shí),所述給定的閾值就是25000與kmax的乘積。
不連續(xù)發(fā)送控制和操作模塊一旦收到內(nèi)容是相關(guān)的后向相關(guān)結(jié)果信號(hào)28就輸出正常話 音SPEECH—GOOD,語音編碼模塊在收到DTX控制和操作模塊輸出的內(nèi)容是正常語音
(SPEECH—GOOD)發(fā)送類型指示46時(shí)產(chǎn)生AMR-NB語音模式編碼幀(非背景噪聲編碼速率編碼 幀),當(dāng)語音編碼模塊在收到發(fā)送類型指示46不是正常語音(SPEECH_G00D)時(shí)向背景噪聲編 碼模塊發(fā)送預(yù)處理后的話音數(shù)字信號(hào)幀49,背景噪聲編碼模塊在收到內(nèi)容是靜音描述更新
(SID—UPDATE)的發(fā)送類型指示46后產(chǎn)生AMR-NB靜音描述(SID)幀41; DTX控制和操作模塊 在發(fā)送類型指示46是正常語音(SPEECH—GOOD)時(shí)在信息比特47里放AMR-NB編碼語音幀44 向3G接入網(wǎng)(AN)發(fā)送,DTX控制和操作模塊在發(fā)送類型指示46是靜音描述更新(SID—UPDATE) 時(shí)在信息比特47里放自適應(yīng)多速率靜音描述(AMR—SID)幀41向3G接入網(wǎng)(AN)發(fā)送,DTX 控制和操作模塊在發(fā)送類型指示46是靜音描述丌始(SID—FIRST)時(shí)在信息比特47単放按照 3GPP技術(shù)規(guī)范TS26093形成的SID—FIRST幀向3G接入網(wǎng)(AN)發(fā)送,TX控制和操作模塊在 發(fā)送類型指示46是無數(shù)據(jù)(NO—DATA)時(shí)指示3G接入網(wǎng)不進(jìn)行話音幀的發(fā)送,所以在信息比 '特里無論放什么都可以。
28
權(quán)利要求
1.一種帶有不連續(xù)發(fā)送DTX控制和操作部件自適應(yīng)多速率窄帶AMR-NB編碼器,其特征在于接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收與所述輸入聲音信號(hào)幀相鄰的不超過20毫秒時(shí)間長度的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán)聲音信號(hào),在從接收到所述輸入聲音信號(hào)幀至接收到所述后續(xù)聲音信號(hào)的期間至少安排執(zhí)行對所述輸入聲音信號(hào)幀的線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索這其中的第一項(xiàng);包括自相關(guān)計(jì)算部件,該部件為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最大延遲和預(yù)定最小延遲之間的自相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲之間的區(qū)域劃分為至少一個(gè)的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲識(shí)別為最佳延時(shí),計(jì)算自相關(guān)函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量;若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定值,所述不連續(xù)發(fā)送DTX控制和操作部件將所述輸入聲音信號(hào)幀發(fā)送類型TX_TYPE確定為正常語音SPEECH_GOOD。
2. 根據(jù)權(quán)利要求2的編碼器,其特征在于,為其中的輸入聲音信號(hào)幀和后續(xù)聲音信號(hào)生成加 權(quán)聲音信號(hào)的加權(quán)函數(shù)具有如下的形式<formula>formula see original document page 2</formula>其中^(")是加權(quán)聲音信號(hào),s(")是所述輸入聲音信號(hào)幀中的信號(hào)或所述后續(xù)聲音信 號(hào),加權(quán)因子y,小于1大于等于0,加權(quán)因子^小于0.7大于等于0, fl,是線性預(yù)測LP系數(shù),丄是子幀的長度。
3. 根據(jù)權(quán)利要求3的編碼器,其特征在于,所述加權(quán)自相關(guān)函數(shù)和所述后續(xù)聲音信號(hào)在所 述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的形式如下<formula>formula see original document page 2</formula>其中,i (d)是加權(quán)自相關(guān)函數(shù),d是延遲,cU^是/ (d)取最大值所對應(yīng)的延遲,夙d皿》 是所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,w(d) 是加權(quán)函數(shù),Sw(")是所述加權(quán)聲音信號(hào),M是所述不超過20毫秒時(shí)間長度所包含的樣本 點(diǎn)的個(gè)數(shù),0到159范圍內(nèi)的整數(shù)"是對應(yīng)了所述輸入聲音信號(hào)幀的樣本點(diǎn),160到M+159 范圍內(nèi)的整數(shù)"對應(yīng)了所述后續(xù)聲音信號(hào)的樣本點(diǎn)。
4. 根據(jù)權(quán)利要求3的編碼器,其特征在于,加權(quán)相關(guān)函數(shù)和相關(guān)函數(shù)相同,即,其中的加 權(quán)函數(shù)W(d)為1。
5. 根據(jù)權(quán)利要求3的編碼器,其特征在于,所述的至少一個(gè)的范圍是從所述最小延遲到所 述最大延遲的這樣一個(gè)范圍,所述至少一個(gè)最佳延時(shí)是一個(gè)最佳延時(shí),所述加權(quán)函數(shù)w(d)的形式如下vKd)=W/(d)w (d)其中d是延遲,低延遲加權(quán)函數(shù) /((1)的形式是>^((1)= d'og2《"w,相鄰過去幀延遲加 權(quán)函數(shù)w"(d)的形式是^(d"l或vMd"(lr。w-dl+d^oS2&, d丄是所述最小延遲,r。ld是所述輸入聲音信號(hào)幀的開環(huán)基音延遲,K^是延遲d鄰近區(qū)域加權(quán)的調(diào)整參數(shù),ZJT^是 延遲(ir。ur dl+di)鄰近區(qū)域加權(quán)的調(diào)整參數(shù)。
6. 根據(jù)權(quán)利要求1至5中任一項(xiàng)的編碼器,其特征在于,所述的后續(xù)聲音信號(hào)的時(shí)間長度 是10毫秒。
7. —種帶有不連續(xù)發(fā)送DTX控制和操作部件自適應(yīng)多速率窄帶AMR-NB編碼器,其特征在于接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收與所述輸入聲音信號(hào)幀相鄰的不超過 20毫秒時(shí)間長度的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán) 聲音信號(hào),對所述輸入聲音信號(hào)幀進(jìn)行線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索, 并且生成所述輸入聲音信號(hào)幀的激勵(lì)信號(hào);包括自相關(guān)計(jì)算部件,該部件為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最 大延遲和最小延遲之間的自相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲 之間的區(qū)域劃分為至少一個(gè)的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲 識(shí)別為最佳延時(shí),計(jì)算自相關(guān)函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí) 處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,計(jì)算位于所述輸入聲音信號(hào)幀中的所述后續(xù) 聲音信號(hào)在最佳延時(shí)處的過去信號(hào)所在的樣本點(diǎn)上的激勵(lì)信號(hào)的能量;若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最 佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定值,并且位于所述輸入 聲音信號(hào)幀中的后續(xù)聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所在的樣本點(diǎn)上的激 勵(lì)信號(hào)的能量大于為該激勵(lì)信號(hào)設(shè)定的閾值,所述的設(shè)定的閾值為所述過去信號(hào)所在的樣 本點(diǎn)的個(gè)數(shù)與樣本點(diǎn)能量閾值的乘積,所述不連續(xù)發(fā)送DTX控制和操作部件將所述輸入聲 音信號(hào)幀發(fā)送類型TXJTPE確定為正常語音SPEECH一G00D。
8. 根據(jù)權(quán)利要求7的編碼器,其特征在于,為其中的輸入聲音信號(hào)幀和后續(xù)聲音信號(hào)生成加 權(quán)聲音信號(hào)的加權(quán)函數(shù)具有如下的形式<formula>formula see original document page 4</formula>其中&(")是加權(quán)聲音信號(hào),是所述輸入聲音信號(hào)幀中的信號(hào)或所述后續(xù)聲音信號(hào),加權(quán)因子y,小于1大于等于0.88,加權(quán)因子y2小于0.7大于等于0.4, ^是線性預(yù) 測LP系數(shù),丄是子幀的長度。
9. 根據(jù)權(quán)利要求8的編碼器,其特征在于,所述加權(quán)自相關(guān)函數(shù)和所述后續(xù)聲音信號(hào)在所 述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的形式如下<formula>formula see original document page 4</formula>其中及(d)是加權(quán)自相關(guān)函數(shù),d是延遲,cU^是W(d)取最大值所對應(yīng)的延遲,^(cU^) 是所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,vv(d) 是加權(quán)函數(shù),s"")是所述加權(quán)聲音信號(hào),M是所述不超過20毫秒時(shí)間長度所包含的樣本 點(diǎn)的個(gè)數(shù),0到159范圍內(nèi)的整數(shù)"是對應(yīng)了所述輸入聲音信號(hào)幀的樣本點(diǎn),160到M+159 范圍內(nèi)的整數(shù)"對應(yīng)了所述后續(xù)聲音信號(hào)的樣本點(diǎn)。
10. 根據(jù)權(quán)利要求9的編碼器,其特征在于,所述的至少一個(gè)的范圍是從所述最小延遲到所 述最大延遲的這樣一個(gè)范圍,所述至少一個(gè)最佳延時(shí)是一個(gè)最佳延時(shí),其中的加權(quán)函數(shù) w(d)的形式如下<formula>formula see original document page 4</formula>其中d是延遲,低延遲加權(quán)函數(shù)w/(d)的形式是w/(d)z d^^^"w,相鄰過去幀延遲加權(quán)函數(shù)w (d)的形式是<formula>formula see original document page 4</formula> d丄是所述最小延遲,r。ld是所述輸入聲音信號(hào)幀的開環(huán)基音延遲,K^是延遲d鄰近區(qū)域加權(quán)的調(diào)整參數(shù),A^是延 遲Or。,cr dl+di)鄰近區(qū)域加權(quán)的調(diào)整參數(shù)。
11. 根據(jù)權(quán)利要求9的編碼器,其特征在于,加權(quán)相關(guān)函數(shù)和相關(guān)函數(shù)相同,g卩,所述的加 權(quán)函數(shù)w(d)為1。
12. 根據(jù)權(quán)利要求7至11中任一項(xiàng)的編碼器,其特征在于,所述的后續(xù)聲音信號(hào)的時(shí)間長度 是10毫秒。
13. 根據(jù)權(quán)利要求7至11中任一項(xiàng)的編碼器,其特征在于,在從接收到所述輸入聲音信號(hào)幀至接收到所述后續(xù)聲音信號(hào)的期間至少安排執(zhí)行對所述輸入聲音信號(hào)幀的線性預(yù)測及量 化、自適應(yīng)碼書搜索和固定碼書搜索這其中的第一項(xiàng)。
14. 根據(jù)權(quán)利要求7至11中任一項(xiàng)的編碼器,其特征在于,根據(jù)所述自相關(guān)函數(shù)在所述該至 少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在所述該至少一個(gè)最佳延時(shí)處的過去信號(hào)所 對應(yīng)的加權(quán)聲音信號(hào)的能量的比值確定所述樣本點(diǎn)能量閾值。
15. 自適應(yīng)多速率窄帶AMR-NB編碼的一種確定不連續(xù)發(fā)送DTX的發(fā)送類型TX一TYPE的方法, 其特征在于接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收所述與輸入聲音信號(hào)幀相鄰的不超過 20毫秒時(shí)間長度的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán) 聲音信號(hào),在從接收到所述輸入聲音信號(hào)幀至接收到所述后續(xù)聲音信號(hào)的期間至少安排執(zhí) 行對所述輸入聲音信號(hào)幀的線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索這其中的第 一項(xiàng);為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最大延遲和最小延遲之間的自 相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲之間的區(qū)域劃分為至少一個(gè) 的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲作為最佳延時(shí),計(jì)算自相關(guān) 函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲 音信號(hào)的能量;若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最 佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定值,將所述輸入聲音信 號(hào)幀發(fā)送類型TX—TYPE確定為正常語音SPEECH—GOOD。
16. 根據(jù)權(quán)利要求15的方法,其特征在于,為其中的輸入聲音信號(hào)幀和后續(xù)聲音信號(hào)生成加 權(quán)聲音信號(hào)的加權(quán)函數(shù)具有如下的形式10 10、(")=+)+S "》("-0 - S "眾("-0 , " = o,…,£ -1其中&(")是加權(quán)聲音信號(hào),J(")是所述輸入聲音信號(hào)幀中的信號(hào)或所述后續(xù)聲音信號(hào),加權(quán)因子y,小于1大于等于0,加權(quán)因子72小于0. 7大于等于0,"是線性預(yù)測LP 系數(shù),丄是子幀的長度。
17. 根據(jù)權(quán)利要求16的方法,其特征在于,所述加權(quán)自相關(guān)函數(shù)和所述后續(xù)聲音信號(hào)在所述 最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的形式如下M+159卿-IX("K"-d)贈(zèng))M+159^ (d匿)=dmaxK>-d,)其中,及(d)是加權(quán)自相關(guān)函數(shù),d是延遲,dww是及(d)取最大值所對應(yīng)的延遲,夙cU^) 是所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,w(d) 是加權(quán)函數(shù),^(n)是所述加權(quán)聲音信號(hào),M是所述不超過20毫秒時(shí)間長度所包含的樣本 點(diǎn)的個(gè)數(shù),0到159范圍內(nèi)的整數(shù)w是對應(yīng)了所述輸入聲音信號(hào)幀的樣本點(diǎn),160到M+159 范圍內(nèi)的整數(shù)w對應(yīng)了所述后續(xù)聲音信號(hào)的樣本點(diǎn)。
18. 根據(jù)權(quán)利要求17的方法,其特征在于,加權(quán)相關(guān)函數(shù)和相關(guān)函數(shù)相同,目卩,所述的加權(quán) 函數(shù)w(d)為1。
19. 根據(jù)權(quán)利要求18的方法,其特征在于,所述的至少一個(gè)的范圍是從所述最小延遲到所述 最大延遲的這樣一個(gè)范圍,所述至少一個(gè)最佳延時(shí)是一個(gè)最佳延時(shí),其中的加權(quán)函數(shù)vv(d) 的形式如下-<formula>formula see original document page 6</formula>其中d是延遲,低延遲加權(quán)函數(shù)w/(d)的形式是w/(d)-d^g2《"w,相鄰過去幀延遲加權(quán)函數(shù)w(d)的形式是w (d) =1或w (d) =(|r。ld- d|+di)lQg2、, 是所述最小延遲,r。ld是所述輸入聲音信號(hào)幀的開環(huán)基音延遲,尺w是延遲d鄰近區(qū)域加權(quán)的調(diào)整參數(shù),《w是延遲(ir。w-dl+di)鄰近區(qū)域加權(quán)的調(diào)整參數(shù)。,所述的后續(xù)聲音信號(hào)的時(shí)間長度是io毫秒。
20. 根據(jù)權(quán)利要求15至19中任一項(xiàng)的方法,其特征在于,所述的后續(xù)聲音信號(hào)的時(shí)間長度是 10毫秒。
21. 自適應(yīng)多速率窄帶AMR-NB編碼的一種確定不連續(xù)發(fā)送DTX的發(fā)送類型TX_TYPE的方法, 其特征在于接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收與所述輸入聲音信號(hào)幀相鄰的不超過 20毫秒時(shí)間長度的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán) 聲音信號(hào),對所述輸入聲音信號(hào)幀進(jìn)行線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索, 并且生成所述輸入聲音信號(hào)幀的激勵(lì)信號(hào);為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最大延遲和最小延遲之間的自 相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲之間的區(qū)域劃分為至少一個(gè) 的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲作為最佳延時(shí),計(jì)算自相關(guān) 函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲 音信號(hào)的能量,計(jì)算位于所述輸入聲音信號(hào)幀中的所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去 信號(hào)所在的樣本點(diǎn)上的激勵(lì)信號(hào)的能量;若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定值,并且位于所述輸入聲音信號(hào)幀中的后續(xù)聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所在的樣本點(diǎn)上的激勵(lì)信號(hào)的能量大于為該激勵(lì)信號(hào)設(shè)定的閾值,所述的設(shè)定的閾值為所述過去信號(hào)所在的樣本點(diǎn)的個(gè)數(shù)與樣本點(diǎn)能量閾值的乘積,將所述輸入聲音信號(hào)幀發(fā)送類型TX一TYPE確定為正 常語音SPEECH_G00D。
22.根據(jù)權(quán)利要求21的方法,其特征在于,為其中的輸入聲音信號(hào)幀和后續(xù)聲音信號(hào)生成加 權(quán)聲音信號(hào)的加權(quán)函數(shù)具有如下的形式10 10 (")=4")+Z —0—S ("—0, " = o",丄—1其中;(")是加權(quán)聲音信號(hào),是所述輸入聲音信號(hào)幀中的信號(hào)或所述后續(xù)聲音信 號(hào),加權(quán)因子y,小于1大于等于0.88,加權(quán)因子72小于0.7大于等于0.4,",是線性預(yù) 測LP系數(shù),£是子幀的長度。
23. 根據(jù)權(quán)利要求22的方法,其特征在于,所述加權(quán)自相關(guān)函數(shù)和所述后續(xù)聲音信號(hào)在所述 最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的形式如下M+I597 (力=d)w(d)M+159 w=160其中,及(d)是加權(quán)自相關(guān)函數(shù),d是延遲,dw^是i (d)取最大值所對應(yīng)的延遲,夙cU^) 是所述后續(xù)聲音信號(hào)在所述最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,w(d) 是加權(quán)函數(shù),;(")是所述加權(quán)聲音信號(hào),M是所述不超過20毫秒時(shí)間長度所包含的樣本 點(diǎn)的個(gè)數(shù),0到159范圍內(nèi)的整數(shù)w是對應(yīng)了所述輸入聲音信號(hào)幀的樣本點(diǎn),160到M+159 范圍內(nèi)的整數(shù)《對應(yīng)了所述后續(xù)聲音信號(hào)的樣本點(diǎn)。
24. 根據(jù)權(quán)利要求23的編碼方法,其特征在于,所述的至少一個(gè)的范圍是從所述最小延遲到 所述最大延遲的這樣一個(gè)范圍,所述至少一個(gè)最佳延時(shí)是一個(gè)最佳延時(shí),其中的加權(quán)函 數(shù)w(d)的形式如下w(d),(d)w" (d)其中d是延遲,低延遲加權(quán)函數(shù)w/(d)的形式是w/(d" d"M^,相鄰過去幀延遲加權(quán)函數(shù)w (d)的形式是w (d) -i或w (d) =(|r。ld- dl+di)1^^, di是所述最小延遲,r。ld是所述輸入聲音信號(hào)幀的開環(huán)基音延遲,/C^是延遲d鄰近區(qū)域加權(quán)的調(diào)整參數(shù),ii^是延 遲(lr。ur dl+di)鄰近區(qū)域加權(quán)的調(diào)整參數(shù)。
25. 根據(jù)權(quán)利要求24的編碼方法,其特征在于,加權(quán)相關(guān)函數(shù)和相關(guān)函數(shù)相同,g卩,所述的 加權(quán)函數(shù)w(d)為1。
26. 根據(jù)權(quán)利要求21至25中任一項(xiàng)的方法,其特征在于,在從接收到所述輸入聲音信號(hào)幀 至接收到所述后續(xù)聲音信號(hào)的期間至少安排執(zhí)行對所述輸入聲音信號(hào)幀的線性預(yù)測及量 化、自適應(yīng)碼書搜索和固定碼書搜索這其中的第一項(xiàng)。
27. 根據(jù)權(quán)利要求21至25中任一項(xiàng)的方法,其特征在于,所述的后續(xù)聲音信號(hào)的時(shí)間長度 是10毫秒。
28. 根據(jù)權(quán)利要求21至25中任一項(xiàng)的方法,其特征在于,根據(jù)所述自相關(guān)函數(shù)在所述該至 少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在所述該至少一個(gè)最佳延時(shí)處的過去信號(hào)所 對應(yīng)的加權(quán)聲音信號(hào)的能量的比值確定所述樣本點(diǎn)能量閾值。
29. —種帶有不連續(xù)發(fā)送DTX控制和操作部件自適應(yīng)多速率窄帶AMR-NB編碼器,其特征在于接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收與所述輸入聲音信號(hào)幀相鄰的不超過 20毫秒時(shí)間長度的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán) 聲音信號(hào),對所述輸入聲音信號(hào)幀進(jìn)行線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索, 并且生成所述輸入聲音信號(hào)幀的激勵(lì)信號(hào);包括自相關(guān)計(jì)算部件,該部件為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最 大延遲和最小延遲之間的自相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲 之間的區(qū)域劃分為至少一個(gè)的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲 識(shí)別為最佳延時(shí),計(jì)算自相關(guān)函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí) 處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量,計(jì)算位于所述輸入聲音信號(hào)幀中的所述后續(xù) 聲音信號(hào)在最佳延時(shí)處的過去信號(hào)所在的樣本點(diǎn)上的激勵(lì)信號(hào)的電平;若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最 佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定值,并且位于所述輸入 聲音信號(hào)幀中的后續(xù)聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所在的樣本點(diǎn)上的激 勵(lì)信號(hào)的電平大于為該激勵(lì)信號(hào)設(shè)定的閾值,所述的設(shè)定的閾值為所述過去信號(hào)所在的樣 本點(diǎn)的個(gè)數(shù)與樣本點(diǎn)電平閾值的乘積,所述不連續(xù)發(fā)送DTX控制和操作部件將所述輸入聲 音信號(hào)幀發(fā)送類型TXJTPE確定為正常語音SPEECH_GOOD。
30. 自適應(yīng)多速率窄帶AMR-NB編碼的一種確定不連續(xù)發(fā)送DTX的發(fā)送類型TX—TYPE的方法, 其特征在于接收幀長為20毫秒的輸入聲音信號(hào)幀,還接收與所述輸入聲音信號(hào)幀相鄰的不超過 20毫秒時(shí)間長度的后續(xù)聲音信號(hào),為所述輸入聲音信號(hào)幀和所述后續(xù)聲音信號(hào)生成加權(quán) 聲音信號(hào),對—所述輸入聲音信號(hào)幀進(jìn)行線性預(yù)測及量化、自適應(yīng)碼書搜索和固定碼書搜索, 并且生成所述輸入聲音信號(hào)幀的激勵(lì)信號(hào);為對應(yīng)于所述后續(xù)聲音信號(hào)的加權(quán)聲音信號(hào)確定預(yù)定最大延遲和最小延遲之間的自 相關(guān)函數(shù)和加權(quán)自相關(guān)函數(shù),將所述最大延遲和所述最小延遲之間的區(qū)域劃分為至少一個(gè) 的范圍,將所述范圍中的對應(yīng)于加權(quán)自相關(guān)函數(shù)最大值的延遲作為最佳延時(shí),計(jì)算自相關(guān)函數(shù)在最佳延時(shí)上的值,計(jì)算所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲 音信號(hào)的能量,計(jì)算位于所述輸入聲音信號(hào)幀中的所述后續(xù)聲音信號(hào)在最佳延時(shí)處的過去 信號(hào)所在的樣本點(diǎn)上的激勵(lì)信號(hào)的電平;若所述自相關(guān)函數(shù)在至少一個(gè)最佳延時(shí)上的值與所述后續(xù)聲音信號(hào)在該至少一個(gè)最 佳延時(shí)處的過去信號(hào)所對應(yīng)的加權(quán)聲音信號(hào)的能量的比值大于預(yù)定值,并且位于所述輸入 聲音信號(hào)幀中的所述后續(xù)聲音信號(hào)在該至少一個(gè)最佳延時(shí)處的過去信號(hào)所在的樣本點(diǎn)上 的激勵(lì)信號(hào)的電平大于為該激勵(lì)信號(hào)設(shè)定的閾值,所述的設(shè)定的閾值為所述過去信號(hào)所在 的樣本點(diǎn)的個(gè)數(shù)與樣本點(diǎn)電平閾值的乘積,將所述輸入聲音信號(hào)幀發(fā)送類型TX一TYPE確定 為正常語音SPEECH一G00D。
全文摘要
本發(fā)明提出一種在不連續(xù)發(fā)送機(jī)制中采用后向相關(guān)檢測的自適應(yīng)多速率編碼器和編碼方法,本發(fā)明的后向相關(guān)檢測把當(dāng)前待編碼幀和后續(xù)相鄰信號(hào)作為檢測對象,在檢測到后向相關(guān)結(jié)果時(shí)不連續(xù)發(fā)送的發(fā)送類型就是正常話音,這樣的自適應(yīng)多速率編碼器和編碼方法能使譯碼器合成的聲音信號(hào)能準(zhǔn)確地反映原始聲音的聽覺效果。本發(fā)明可直接應(yīng)用于第三代移動(dòng)通信系統(tǒng)——通用移動(dòng)通信系統(tǒng)的話音編碼技術(shù)中。
文檔編號(hào)G10L11/02GK101609683SQ20081003898
公開日2009年12月23日 申請日期2008年6月16日 優(yōu)先權(quán)日2008年6月16日
發(fā)明者為 向 申請人:為 向