用于隱藏幀錯誤的方法和設(shè)備以及用于對音頻進行解碼的方法和設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 示例性實施例設(shè)及帖錯誤隱藏,更具體地說,設(shè)及一種在使用時頻變換 (time-化equencytransform)處理的音頻編碼和解碼中在解碼的音頻信號的一部分帖中 發(fā)生錯誤時,能夠使重建聲音質(zhì)量的惡化最小化的帖錯誤隱藏方法和設(shè)備W及音頻解碼方 法和設(shè)備。
【背景技術(shù)】
[0002] 當編碼的音頻信號通過有線/無線網(wǎng)絡(luò)被發(fā)送時,如果一部分包由于傳輸錯誤而 被損壞或失真,則在解碼的音頻信號的一部分帖中會發(fā)生錯誤。如果錯誤未被適當校正,貝U 在包括發(fā)生錯誤的帖(在下文中,被稱為"錯誤帖")和相鄰帖的持續(xù)時間中,解碼的音頻信 號的聲音質(zhì)量會降低。
[0003] 關(guān)于音頻信號編碼,眾所周知對特定信號執(zhí)行時頻變換處理并隨后在頻域中執(zhí)行 壓縮處理的方法提供了良好的重建聲音質(zhì)量。在時頻變換處理中,廣泛地使用修正離散余 弦變換(MDCT)。在該種情況下,對于音頻信號解碼,使用逆MDCT(IMDCT)將頻域信號變換為 時域信號,并可對該時域信號執(zhí)行重疊相加(0LA)處理。在0LA處理中,如果在當前帖中發(fā) 生錯誤,則下一帖也會被影響。具體地說,通過將先前帖和后續(xù)帖之間的混疊分量與時域信 號中的重疊部分相加來產(chǎn)生最終的時域信號,如果發(fā)生錯誤,則不存在精確的混疊分量,因 此,可能產(chǎn)生噪聲,從而導致相當大的重建聲音質(zhì)量惡化。
[0004] 當使用時頻變換處理對音頻信號進行編碼和解碼時,在多個用于隱藏帖錯誤的方 法之中的用于通過對先前好帖(PGF)的參數(shù)進行回歸分析來獲得錯誤帖的參數(shù)的回歸分 析方法中,可通過稍微考慮錯誤帖的原始能量來進行隱藏,但是在信號逐漸增強或嚴重波 動的部分中,錯誤隱藏效率會降低。此外,當將被應(yīng)用的參數(shù)類型的數(shù)量增加時,回歸分析 方法將會引起復雜度的增加。在通過重復地復制錯誤帖的PGF來恢復錯誤帖中的信號的重 復方法中,可能由于0LA處理的特性而難W使重建聲音質(zhì)量的惡化最小化。通過對PGF和 下一好帖(NGF)的參數(shù)進行插值來對錯誤帖的參數(shù)進行預測的插值方法需要額外一個帖 的延遲,因此,不宜將該插值方法應(yīng)用在對于延遲敏感的通信編解碼器中。
[0005] 因此,當使用時頻變換處理對音頻信號進行編碼和解碼時,需要一種在無需額外 時間延遲或復雜度的過分增加的情況下對帖錯誤進行隱藏W使由于帖錯誤而引起的重建 聲音質(zhì)量的惡化最小化的方法。
【發(fā)明內(nèi)容】
[0006] 技術(shù)問題
[0007] 示例性實施例提供了一種帖錯誤隱藏方法和設(shè)備,所述帖錯誤隱藏方法和設(shè)備用 于在使用時頻變換處理對音頻信號進行編碼和解碼時在沒有額外時間延遲并具有低復雜 度的情況下對帖錯誤進行隱藏。
[000引示例性實施例還提供了一種音頻解碼方法和設(shè)備,所述音頻解碼方法和設(shè)備用于 在使用時頻變換處理對音頻信號進行編碼和解碼時使由于帖錯誤而引起的重建聲音質(zhì)量 的惡化最小化。
[0009] 示例性實施例還提供了一種音頻編碼方法和設(shè)備,所述音頻解碼方法和設(shè)備用于 在音頻解碼設(shè)備中更精確地檢測關(guān)于用于帖錯誤隱藏的瞬態(tài)帖的信息。
[0010] 示例性實施例還提供了一種非暫時性計算機可讀存儲介質(zhì),所述非暫時性計算機 可讀存儲介質(zhì)存儲有該樣的程序指令;該程序指令在被計算機運行時執(zhí)行帖錯誤隱藏方 法、音頻編碼方法或音頻解碼方法。
[0011] 示例性實施例還提供了一種采用帖錯誤隱藏設(shè)備、音頻編碼設(shè)備或音頻解碼設(shè)備 的多媒體裝置。
[001引技術(shù)方案
[0013] 根據(jù)示例性實施例的一方面,提供了一種帖錯誤隱藏(FEC)方法,包括:基于關(guān)于 時頻逆變換處理之后產(chǎn)生的時域信號的帖狀態(tài)和相位匹配標志中的至少一個,選擇基于相 位匹配的第一主模式和基于簡單重復的第二主模式之一;基于選擇的模式對當前帖執(zhí)行時 域錯誤隱藏處理,其中,當前帖是錯誤帖,或者,當前帖是在先前錯誤帖之后的好帖。
[0014] 根據(jù)示例性實施例的另一方面,提供了一種音頻解碼方法,包括:當當前帖是錯誤 帖時,在頻域中執(zhí)行錯誤隱藏處理;當當前帖是好帖時對頻譜系數(shù)進行解碼;對作為錯誤 帖或好帖的當前帖執(zhí)行時頻逆變換處理;基于關(guān)于時頻逆變換處理之后產(chǎn)生的時域信號的 帖狀態(tài)和相位匹配標志中的至少一個,選擇基于相位匹配的第一主模式和基于簡單重復的 第二主模式之一,并基于選擇的模式對當前帖執(zhí)行時域錯誤隱藏處理,其中,當前帖是錯誤 帖,或者,當前帖是在先前錯誤帖之后的好帖。
[00巧]有益效果
[0016] 根據(jù)示例性實施例,在使用時頻變換處理的音頻編碼和解碼中,當在解碼的音頻 信號中的一部分帖中發(fā)生錯誤時,通過按照根據(jù)時域中的信號特性的最佳方法執(zhí)行平滑處 理,在解碼的音頻信號中由于錯誤帖而引起的快速信號波動可被平滑,并且復雜度低也沒 有額外延遲。
[0017]具體地說,作為瞬態(tài)帖的錯誤帖或者構(gòu)成突發(fā)錯誤的錯誤帖可被更精確地重建, 并且作為結(jié)果,緊接著錯誤帖的正常帖所受到的影響也可被最小化。
[0018]另外,通過將基于相位匹配從存儲在緩沖器中的多個先前帖獲得的預定大小的區(qū) 段復制到作為錯誤帖的當前帖并執(zhí)行在相鄰帖之間的平滑處理,可額外預期低頻帶的重建 聲音質(zhì)量的提高。
【附圖說明】
[0019] 圖la和圖化分別是根據(jù)示例性實施例的音頻編碼設(shè)備和音頻解碼設(shè)備的框圖;
[0020] 圖2a和圖化分別是根據(jù)另一示例性實施例的音頻編碼設(shè)備和音頻解碼設(shè)備的框 圖;
[0021] 圖3a和圖3b分別是根據(jù)另一示例性實施例的音頻編碼設(shè)備和音頻解碼設(shè)備的框 圖;
[0022] 圖4a和圖4b分別是根據(jù)另一示例性實施例的音頻編碼設(shè)備和音頻解碼設(shè)備的框 圖;
[0023]圖5是根據(jù)示例性實施例的頻域音頻編碼設(shè)備的框圖;
[0024] 圖6是用于描述當使用重疊時長小于50%的變換窗時拖尾延遲保護化angover) 標志被設(shè)置為1的時長的示圖;
[0025] 圖7是根據(jù)示例性實施例的圖5的頻域音頻編碼設(shè)備中的瞬態(tài)檢測單元的框圖;
[0026]圖8是用于描述根據(jù)示例性實施例的圖7中的第二瞬態(tài)確定單元的操作的示圖;
[0027] 圖9是用于描述根據(jù)示例性實施例的圖7中的信號信息(signaling in化rmation)產(chǎn)生單元的操作的流程圖;
[002引圖10是根據(jù)示例性實施例的頻域音頻解碼設(shè)備的框圖;
[0029] 圖11是根據(jù)示例性實施例的圖10中的頻譜解碼單元的框圖;
[0030] 圖12是根據(jù)另一示例性實施例的圖10中的頻譜解碼單元的框圖;
[0031] 圖13是用于描述根據(jù)示例性實施例的圖12中的解交織(deinterleaving)單元 的操作的示圖;
[003引圖14是根據(jù)示例性實施例的圖10中的重疊相加(0LA)單元的框圖;
[0033] 圖15是根據(jù)示例性實施例的圖10的錯誤隱藏和0LA單元的框圖;
[0034] 圖16是根據(jù)示例性實施例的圖15中的第一錯誤隱藏單元的框圖;
[0035] 圖17是根據(jù)示例性實施例的圖15中的第二錯誤隱藏單元的框圖;
[0036] 圖18是根據(jù)示例性實施例的圖15中的第S錯誤隱藏單元的框圖;
[0037] 圖19是用于描述在使用重疊時長小于50%的變換窗時由編碼設(shè)備和解碼設(shè)備執(zhí) 行的用于去除時域混疊的加窗處理的示例的示圖;
[0038] 圖20是用于描述圖18中的使用NGF的時域信號進行0LA處理的示例的示圖;
[0039] 圖21是根據(jù)另一示例性實施例的頻域音頻解碼設(shè)備的框圖;
[0040] 圖22是根據(jù)示例性實施例的圖21中的穩(wěn)態(tài)檢測單元的框圖;
[0041] 圖23是根據(jù)示例性實施例的圖21中的錯誤隱藏和0LA單元的框圖;
[0042] 圖24是用于描述根據(jù)示例性實施例的當當前帖是錯誤帖時圖21中的FEC模式選 擇單元的操作的流程圖;
[0043] 圖25是用于描述根據(jù)示例性實施例的當先前帖是錯誤帖并且當前帖不是錯誤帖 時圖21中的FEC模式選擇單元的操作的流程圖;
[0044] 圖26是示出根據(jù)示例性實施例的圖23中的第一錯誤隱藏單元的操作的框圖;
[0045] 圖27是示出根據(jù)示例性實施例的圖23中的第二錯誤隱藏單元的操作的框圖;
[0046] 圖28是示出根據(jù)另一示例性實施例的圖23中的第二錯誤隱藏單元的操作的框 圖;
[0047] 圖29是用于描述根據(jù)示例性實施例的圖26中的當當前帖是錯誤帖時的錯誤隱藏 方法的框圖;
[0048] 圖30是用于描述根據(jù)示例性實施例的圖28中的當先前帖是錯誤帖時用于作為瞬 態(tài)帖的下一好帖(NGF)的錯誤隱藏方法的框圖;
[0049] 圖31是用于描述根據(jù)示例性實施例的圖27或圖28中的當先前帖是錯誤帖時用 于不是瞬態(tài)帖的NGF的錯誤隱藏方法的框圖;
[0050] 圖32是用于描述圖26中的當當前帖是錯誤帖時進行的0LA處理的示例的示圖;
[0051] 圖33是用于描述圖27中的當先前帖是隨機錯誤帖時對下一帖進行的OLA處理的 示例的示圖;
[0052] 圖34是用于描述圖27中的當先前帖是突發(fā)錯誤帖時對下一帖進行的0LA處理的 示例的示圖;
[0化3] 圖35是用于描述根據(jù)示例性實施例的相位匹配方法的概念的示圖;
[0054]圖36是根據(jù)示例性實施例的錯誤隱藏設(shè)備的框圖;
[0化5] 圖37是根據(jù)示例性實施例的圖36中的相位匹配FEC模塊或時域FEC模塊的框 圖;
[0化6] 圖38是根據(jù)示例性實施例的圖37中的第一相位匹配錯誤隱藏單元或第二相位匹 配錯誤隱藏單元的框圖;
[0057]圖39是用于描述根據(jù)示例性實施例的圖38中的平滑單元的操作的示圖;
[005引圖40是用于描述根據(jù)另一示例性實施例的圖38中的平滑單元的操作的示圖; [0化9] 圖41是根據(jù)示例性實施例的包括編碼模塊的多媒體裝置的框圖;
[0060] 圖42是根據(jù)示例性實施例的包括解碼模塊的多媒體裝置的框圖;
[0061] 圖43是根據(jù)示例性實施例的包括編碼模塊和解碼模塊的多媒體裝置的框圖。
【具體實施方式】
[0062] 本發(fā)明構(gòu)思可允許各種類型的改變或修改W及形式上的各種改變,特定的示例性 實施例將在附圖中說明,并在說明書中詳細描述。然而,應(yīng)理解特定示例性實施例不將本發(fā) 明構(gòu)思限制在特定的公開形式,而是包括本發(fā)明構(gòu)思的精神和技術(shù)范圍內(nèi)的每個修改的、 等價的或代替的形式。在W下描述中,由于公知功能或結(jié)構(gòu)將使用不必要的細節(jié)來模糊本 發(fā)明,因此不詳細描述公知功能或結(jié)構(gòu)。
[0063] 雖然諸如"第一"和"第二"的術(shù)語可被用于描述各種元件,但是該些元件不能由 該些術(shù)語的限制。該些術(shù)語可被用于將特定元件與另一元件區(qū)分。
[0064] 在本申請中使用的術(shù)語僅被用于描述特定示例性實施例,并不具有限制本發(fā)明構(gòu) 思的目的。雖然在考慮在本發(fā)明構(gòu)思中的功能的同時將當前盡可能廣泛使用的一般術(shù)語選 為在本發(fā)明構(gòu)思中使用的術(shù)語,但是它們可根據(jù)本領(lǐng)域中的普通技術(shù)人員的意圖、司法先 例或者新技術(shù)的出現(xiàn)而改變。另外,在特定情況下,可使用由申請人有意選擇的術(shù)語,并且 在此情況下,將在本發(fā)明的相應(yīng)描述中公開所述術(shù)語的含義。因此,在本發(fā)明構(gòu)思中使用的 術(shù)語不應(yīng)由術(shù)語的簡單名稱來定義,而由術(shù)語的含義和本發(fā)明構(gòu)思的內(nèi)容來定義。
[00化]單數(shù)形式的表達包括復數(shù)形式的表達,除非它們在上下文中明顯彼此不同。在本 申請中,應(yīng)理解,諸如"包括"和"具有"的術(shù)語用于指示被實現(xiàn)的特征、數(shù)量、步驟、操作、元 素、部件或它們的組合的存在,而不預先排除存在或添加一個或更多個其它特征、數(shù)量、步 驟、操作、元素、部件或它們的組合的可能性。
[0066] 現(xiàn)在將參照附圖詳細地描述示例性實施例。
[0067] 圖la和圖化分別是根據(jù)示例性實施例的音頻編碼設(shè)備110和音頻解碼設(shè)備130 的框圖。
[0068] 圖la中示出的音頻編碼設(shè)備110可包括預處理單元112、頻域編碼單元114和參 數(shù)編碼單元116。該些組件可被集成在至少一個模塊中,并可被實現(xiàn)為至少一個處理器(未 示出)。
[0069] 在圖la中,預處理單元112可對輸入信號執(zhí)行濾波、下采樣等,但不限于此。輸入 信號可包括語音信號、音樂信號或者語音和音樂的混合信號。W下,為了描述方便,輸入信 號被稱為音頻信號。
[0070] 頻域編碼單元114可對由預處理單元112提供的音頻信號執(zhí)行時頻變換,選擇與 聲道的數(shù)量、編碼頻帶和音頻信號的比特率相應(yīng)的編碼工具,并通過使用選擇的編碼工具 對音頻信號進行編碼。時頻變換使用改進離散余弦變換(MDCT)、調(diào)制重疊變換(MLT)或快 速傅里葉變換(FFT),但不限于此。當給定的比特數(shù)充足時,可將一般的變換編碼方法用于 所有頻帶,當給定的比特數(shù)不足時,可將帶寬擴展方案應(yīng)用于一部分頻帶。當音頻信號是立 體聲道或多聲道時,如果給定的比特數(shù)充足,則可對每個聲道執(zhí)行編碼,如果給定的比特數(shù) 不足,則可應(yīng)用向下混合(down-mixing)方案。頻域編碼單元114產(chǎn)生編碼后的頻譜系數(shù)。
[0071] 參數(shù)編碼單元116可從提供自頻域編碼單元114的編碼后的頻譜系數(shù)提取參數(shù), 并對提取的參數(shù)進行編碼。例如,可針對每個子頻帶來提取參數(shù),其中,子頻帶是對頻譜系 數(shù)進行分組的單位,并可通過反映臨界頻帶而具有統(tǒng)一或非統(tǒng)一的長度。當每個子頻帶具 有非統(tǒng)一的長度時,存在于低頻頻帶中的子頻帶與存在于高頻頻帶中的子頻帶相比可具有 相對短的長度。包括在一個帖中的子頻帶的數(shù)量和長度可根據(jù)編解碼器算法而變化,并可 影響編碼性能。參數(shù)可包括例如縮放因子、功率、平均能量或范數(shù),但不限于此。作為編碼 的結(jié)果而獲得的頻譜系數(shù)和參數(shù)可形成比特流,并且比特流可被存儲在存儲介質(zhì)中,或者 可通過信道W例如包的形式被發(fā)送。
[0072] 圖化中示出的音頻解碼設(shè)備130可包括參數(shù)解碼單元132、頻域解碼單元134和 后處理單元136。頻域解碼單元134可包括帖錯誤隱藏算法。該些組件可被集成在至少一 個模塊中,并可被實現(xiàn)為至少一個處理器(未示出)。
[0073] 在圖化中,參數(shù)解碼單元132可從接收到的比特流解碼出參數(shù),并從解碼后的參 數(shù)W帖為單位檢查是否已發(fā)生了錯誤。各種公知的方法可被用于錯誤檢查,并且關(guān)于當前 帖是正常帖還是錯誤帖的信息被提供給頻域解碼單元134。
[0074] 當當前帖是正常帖時,頻域解碼單元134可通過一般的變換解碼處理執(zhí)行解碼來 產(chǎn)生合成的頻譜系數(shù)。當當前帖是錯誤帖時,頻域解碼單元134可通過錯誤隱藏算法對先 前好帖(PG巧的頻譜系數(shù)進行縮放來產(chǎn)生合成的頻譜系數(shù)。頻域解碼單元134可通過對合 成的頻譜系數(shù)執(zhí)行頻時變換來產(chǎn)生時域信號。
[0075] 后處理單元136可對從頻域解碼單元134提供的時域信號執(zhí)行濾波、上采樣等W 提高聲音質(zhì)量,但是不限于此。后處理單元136提供重建的音頻信號作為輸出信號。
[0076] 圖2a和圖化分別是根據(jù)另一示例性實施例的音頻編碼設(shè)備210和音頻解碼設(shè)備 230的框圖,其中,音頻編碼設(shè)備210和音頻解碼設(shè)備230具有切換結(jié)構(gòu)。
[0077] 圖2a中示出的音頻編碼設(shè)備210可包括預處理單元212、模式確定單元213、頻域 編碼單元214、時域編碼單元215和參數(shù)編碼單元216。該些組件可被集成在至少一個模塊 中,并可被實現(xiàn)為至少一個處理器(未示出)。
[007引在圖2a中,由于預處理單元212基本上與圖la的預處理單元112相同,因此省略 其描述。
[0079]模式確定單元213可通過參考輸入信號的特性來確定編碼模式。模式確定單元 213可根據(jù)輸入信號的特性,確定適用于當前帖的編碼模式是語音模式還是音樂模式,并且 還可確定對于當前帖有效的編碼模式是時域模式還是頻域模式。可通過使用帖的短期特性 或多個帖的長期特性來感知輸入信號的特性,但不限于此。例如,如果輸入信號與語音信號 相應(yīng),則編碼模式可被確定為語音模式或時域模式,如果輸入信號與除了語音信號之外的 信號(即,音樂信號或混合信號)對應(yīng),則編碼模式可被確定為音樂模式或頻域模式。當輸 入信號的特性與音樂模式或頻域模式相應(yīng)時,模式確定單元213可將預處理單元212的輸 出信號提供給頻域編碼單元214,當輸入信號的特性與語音模式或時域模式相應(yīng)時,模式確 定單元213將預處理單元212的輸出信號提供給時域編碼單元215。
[0080] 由于頻域編碼單元214基本上與圖la的頻域編碼單元114相同,因此省略其描 述。
[0081] 時域編碼單元215可對從預處理單元212提供的音頻信號執(zhí)行碼激勵線性預測 (CEL巧編碼。詳細地講,可將代數(shù)CELP用于CELP編碼,但是CELP編碼不限于此。時域編 碼單元215產(chǎn)生編碼后的頻譜系數(shù)。
[0082] 參數(shù)編碼單元216