亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音頻編碼器、音頻解碼器、提供編碼及解碼音頻信息的方法、計算機(jī)程序及使用信號適應(yīng)...的制作方法

文檔序號:9510214閱讀:443來源:國知局
音頻編碼器、音頻解碼器、提供編碼及解碼音頻信息的方法、計算機(jī)程序及使用信號適應(yīng) ...的制作方法
【技術(shù)領(lǐng)域】
[0001] 根據(jù)本發(fā)明的實(shí)施例為關(guān)于一種用于基于輸入音頻信息來提供編碼音頻信息的 音頻編碼器。
[0002] 根據(jù)本發(fā)明的其他實(shí)施例為關(guān)于一種用于基于編碼音頻信息來提供解碼音頻信 息的音頻解碼器。
[0003] 根據(jù)本發(fā)明的其他實(shí)施例為關(guān)于一種用于基于輸入音頻信息來提供編碼音頻信 息的方法。
[0004] 根據(jù)本發(fā)明的其他實(shí)施例為關(guān)于一種用于基于編碼音頻信息來提供解碼音頻信 息的方法。
[0005] 根據(jù)本發(fā)明的其他實(shí)施例為關(guān)于一種用于執(zhí)行該方法中的一個的計算機(jī)程序。
[0006] 根據(jù)本發(fā)明的其他實(shí)施例為關(guān)于一種表示音頻信息的編碼音頻表示。
[0007] 根據(jù)本發(fā)明的一些實(shí)施例為關(guān)于一種將信號適應(yīng)性旁側(cè)信息速率用于極低比特 率音頻寫碼的一般音頻帶寬擴(kuò)展。
【背景技術(shù)】
[0008] 近年來,已顯現(xiàn)對音頻內(nèi)容的編碼及解碼的增加需求。雖然用于編碼音頻內(nèi)容的 傳輸及儲存的可用比特率及儲存容量實(shí)質(zhì)上已增加,但仍存在對在合理質(zhì)量下的音頻內(nèi)容 (尤其在通信情形中為語音信號)的比特率有效編碼、傳輸、儲存及解碼的需求。
[0009] 同期語音寫碼系統(tǒng)能夠以低達(dá)6kbps的比特率編碼寬帶(WB)數(shù)字音頻內(nèi)容,亦 艮P,具有高達(dá)7至8kHz的頻率的信號。最廣泛論述的實(shí)例為ITU-T標(biāo)準(zhǔn)G. 722. 2 (例如,參 見參考案[1])以及最近開發(fā)的G. 718 (例如,參見參考案[4]及[10])及MPEG統(tǒng)一語音及 音頻編碼解碼器xHE-AAC (例如,參見參考案[8])。亦稱為AMR-WB的G. 722. 2與G. 718兩 者使用在6. 4kHz與7kHz之間的帶寬擴(kuò)展(BWE)技術(shù),以允許基礎(chǔ)ACELP核心寫碼器"專 注"于感知上更相關(guān)的較低頻率(尤其為人類聽覺系統(tǒng)為相位敏感情況下的頻率),且藉此 達(dá)成足夠質(zhì)量,尤其在極低比特率下。在xHE-AAC中,將增強(qiáng)型頻帶復(fù)制(eSBR)用于帶寬 擴(kuò)展(BWE)??梢话銓挃U(kuò)展程序分成兩個概念性方法:
[0010] ?"盲"或"人工"BWE,其中單獨(dú)地自解碼低頻(LF)核心寫碼器信號(亦即,不需 要自編碼器傳輸?shù)呐詡?cè)信息)重建構(gòu)高頻(HF)分量。此方案由AMR-WB及G. 718在16kbps 及低于16kbps下使用,以及一些回溯兼容帶寬擴(kuò)展后處理系統(tǒng)對傳統(tǒng)窄頻帶電話語音操 作(例如,參見參考案[5]及[9])。
[0011] 魯"導(dǎo)引式"BWE,其與盲帶寬擴(kuò)展的不同之處在于,將用于高頻(HF)內(nèi)容重建構(gòu) 的參數(shù)中的一些作為旁側(cè)信息傳輸至解碼器,而非自解碼核心信號估計該參數(shù)。AMR-WB、 G. 718、xHE-AAC以及一些其他編碼解碼器(例如,參見參考案[2]、[7]及[11])使用此方 法,但并非在極低比特率下使用。
[0012] 然而,業(yè)已發(fā)現(xiàn),難以在低比特率下提供適當(dāng)帶寬擴(kuò)展,低比特率在音頻內(nèi)容的重 建構(gòu)時提供足夠良好的質(zhì)量。
[0013] 因此,存在對帶來比特率與音頻質(zhì)量之間的改良取舍的帶寬擴(kuò)展概念的需要。

【發(fā)明內(nèi)容】

[0014] 根據(jù)本發(fā)明的實(shí)施例建立一種用于基于輸入音頻信息來提供編碼音頻信息的音 頻編碼器。該音頻編碼器包括低頻編碼器,被配置為編碼該輸入音頻信息的低頻部分以獲 得該低頻部分的編碼表示。該音頻編碼器亦包含帶寬擴(kuò)展信息提供器,被配置為基于該輸 入音頻信息來提供帶寬擴(kuò)展信息。該音頻編碼器被配置為以信號適應(yīng)性方式選擇性地將帶 寬擴(kuò)展信息包括至該編碼音頻信息中。
[0015] 根據(jù)本發(fā)明的此實(shí)施例基于以下發(fā)現(xiàn):對于一些類型的音頻內(nèi)容,且甚至對于連 續(xù)音頻內(nèi)容片段的一些部分,可在不使用任何帶寬擴(kuò)展旁側(cè)信息或僅使用少量帶寬擴(kuò)展旁 側(cè)信息(例如,包括至該編碼音頻信息中的少量帶寬擴(kuò)展參數(shù))的情況下基于該低頻部分 的該編碼表示來達(dá)成一良好質(zhì)量的帶寬擴(kuò)展。然而,該概念亦基于以下發(fā)現(xiàn):因?yàn)榻獯a器側(cè) 帶寬擴(kuò)展不提供令人滿意的音頻質(zhì)量,所以對于其他類型的音頻內(nèi)容,且甚至對于連續(xù)音 頻內(nèi)容片段的其他部分,可能有必要(或至少非常需要)將帶寬擴(kuò)展旁側(cè)信息(例如,專用 帶寬擴(kuò)展參數(shù))或增加量的帶寬擴(kuò)展旁側(cè)信息(例如,當(dāng)與先前提及的狀況相比時)包括 至編碼音頻信息中。
[0016] 藉由選擇性地將帶寬擴(kuò)展信息包括至編碼音頻信息中(例如,藉由選擇性地使包 括至編碼音頻信息中的帶寬擴(kuò)展信息或帶寬擴(kuò)展參數(shù)的量變化,或藉由選擇性地在帶寬擴(kuò) 展信息至編碼音頻信息中的包括與帶寬擴(kuò)展信息至編碼音頻信息中的該包括的省略之間 切換),可避免在解碼器側(cè)帶寬擴(kuò)展事實(shí)上不需要帶寬擴(kuò)展信息的狀況下,"不必要的"帶寬 擴(kuò)展信息消耗寶貴的比特率,且仍可確保在解碼器側(cè)帶寬擴(kuò)展實(shí)際上需要帶寬擴(kuò)展信息的 情況下,亦即,對于音頻內(nèi)容的解碼器側(cè)重建構(gòu),將帶寬擴(kuò)展信息(或增加量的帶寬擴(kuò)展信 息)包括至編碼音頻信息中。
[0017] 因此,藉由以信號適應(yīng)性方式選擇性地將帶寬擴(kuò)展信息包括至編碼音頻信息中, 亦即,當(dāng)帶寬擴(kuò)展信息實(shí)際上為達(dá)成解碼音頻信號表示的足夠良好質(zhì)量所需的時,可減小 平均比特率,同時仍維持獲得良好音頻質(zhì)量的可能性。
[0018] 換言之,音頻編碼器可(例如)在帶寬擴(kuò)展信息的提供(其允許在音頻解碼器側(cè) 獲得參數(shù)導(dǎo)引式帶寬擴(kuò)展)與帶寬擴(kuò)展信息的提供的省略(其使在音頻解碼器側(cè)使用盲帶 寬擴(kuò)展成為必要)之間切換。
[0019] 因此,可使用上述概念獲得比特率與音頻質(zhì)量之間的尤其良好的取舍。
[0020] 在較佳實(shí)施例中,音頻編碼器包括偵測器,被配置為識別輸入音頻信息的不能基 于低頻部分的編碼表示且使用盲帶寬擴(kuò)展以足夠或所要的質(zhì)量(例如,就預(yù)定質(zhì)量度量而 言)解碼的部分。在此狀況下,音頻編碼器被配置為針對輸入音頻信息的由偵測器識別的 部分而選擇性地將帶寬擴(kuò)展信息包括至編碼音頻信息中。藉由判定或估計(例如,基于輸 入音頻信息的特征,或基于音頻信息在音頻編碼器側(cè)上的部分或完整重建構(gòu))輸入音頻信 息的哪些部分不能基于低頻部分的編碼表示且使用盲帶寬擴(kuò)展以足夠(或所要的)質(zhì)量解 碼,獲得有意義的準(zhǔn)則以針對輸入音頻信息的部分(例如,幀)(或等效地,針對編碼音頻信 息的幀或部分)決定是否將帶寬擴(kuò)展信息包括至編碼音頻信息中。換言之,藉由偵測器評 估的上文所提及的準(zhǔn)則允許可藉由解碼編碼音頻信息達(dá)成的收聽印象與編碼音頻信息的 比特率之間的良好取舍。
[0021] 在較佳實(shí)施例中,音頻編碼器包括偵測器,被配置為識別輸入音頻信息的不能以 足夠或所要的準(zhǔn)確度來基于低頻部分估計帶寬擴(kuò)展參數(shù)的部分。在此狀況下,音頻編碼器 被配置為針對輸入音頻信息的由偵測器識別的部分而選擇性地將帶寬擴(kuò)展信息包括至編 碼音頻信息中。根據(jù)本發(fā)明的此實(shí)施例基于以下發(fā)現(xiàn):關(guān)于是否可以足夠或所要的準(zhǔn)確度 來基于低頻部分估計帶寬擴(kuò)展參數(shù)的判定構(gòu)成可以適度計算努力來評估且仍構(gòu)成用于決 定是否將帶寬擴(kuò)展信息包括至編碼音頻信息中的良好準(zhǔn)則的準(zhǔn)則。
[0022] 在較佳實(shí)施例中,音頻編碼器包括偵測器,被配置為根據(jù)輸入音頻信息的部分是 否為時間上穩(wěn)定的部分且根據(jù)該部分是否具有低通性質(zhì)而識別該部分。此外,音頻編碼器 被配置為針對輸入音頻信息的由偵測器識別為具有低通性質(zhì)的時間上穩(wěn)定的部分的部分 而選擇性地省略帶寬擴(kuò)展信息至編碼音頻信息中的包括。
[0023] 根據(jù)本發(fā)明的此實(shí)施例基于以下發(fā)現(xiàn):對于輸入音頻信息的在時間上穩(wěn)定且包含 低通性質(zhì)的部分,通常不必將帶寬擴(kuò)展信息包括至編碼音頻信息中,這是因?yàn)槊挃U(kuò)展 (其不依賴于來自比特流的帶寬擴(kuò)展信息或參數(shù))通常允許此等信號部分的足夠良好的重 建構(gòu)。因此,存在可以計算有效方式評估且仍實(shí)現(xiàn)良好結(jié)果(就比特率與音頻質(zhì)量之間的 取舍而言)的準(zhǔn)則。
[0024] 在較佳實(shí)施例中,偵測器被配置為根據(jù)輸入音頻信息的部分是否包含有聲語音及 /或根據(jù)該部分是否包含環(huán)境(例如,汽車)噪聲及/或根據(jù)該部分是否包含無打擊樂器聲 的音樂而識別該部分。已發(fā)現(xiàn),可通常以足夠音頻質(zhì)量使用盲帶寬擴(kuò)展來重建構(gòu)包含有聲 語音或包含環(huán)境噪聲或包含無打擊樂器聲的音樂的此等部分,使得對于此等部分,可推薦 省略帶寬擴(kuò)展信息至編碼音頻信息中的包括。
[0025] 在較佳實(shí)施例中,音頻編碼器包括偵測器,被配置為根據(jù)低頻部分的頻譜包絡(luò)與 高頻部分的頻譜包絡(luò)之間的差是否大于或等于預(yù)定差度量而識別輸入音頻信息的部分。在 此狀況下,音頻編碼器被配置為針對輸入音頻信息的由偵測器識別的部分而選擇性地將帶 寬擴(kuò)展信息包括至編碼音頻信息中。
[0026] 已發(fā)現(xiàn),通??赡懿豢墒褂妹挃U(kuò)展來良好地重建構(gòu)輸入音頻信息的包含低頻 部分的頻譜包絡(luò)與高頻部分的頻譜包絡(luò)之間的大差值的部分,這是因?yàn)樵谂c各別低頻部分 相比時,盲帶寬擴(kuò)展常常在高頻部分中(亦即,在帶寬擴(kuò)展信號中)提供類似頻譜包絡(luò)。因 此已發(fā)現(xiàn),對低頻部分的頻譜包絡(luò)與高頻部分的頻譜包絡(luò)之間的差的評定構(gòu)成用于決定是 否將帶寬擴(kuò)展信息包括至編碼音頻信息中的良好準(zhǔn)則。
[0027] 在較佳實(shí)施例中,偵測器被配置為根據(jù)輸入音頻信息的部分是否包含無聲語音及 /或根據(jù)該部分是否包含打擊聲而識別該部分。已發(fā)現(xiàn),包含無聲語音的部分及包含打擊聲 的部分通常包含以下頻譜:其中低頻部分的頻譜包絡(luò)實(shí)質(zhì)上不同于高頻部分的頻譜包絡(luò)。 因此,已發(fā)現(xiàn)對無聲語音及/或打擊聲的偵測為用于決定是否將帶寬擴(kuò)展信息包括至編碼 音頻信息中的良好準(zhǔn)則。
[0028] 在較佳實(shí)施例中,音頻編碼器包括偵測器,被配置為判定輸入音頻信息的部分的 頻譜傾斜量,且根據(jù)所判定的頻譜傾斜量是否大于或等于固定或可變的傾斜量閾值而識別 輸入音頻信息的部分。在此狀況下,音頻編碼器被配置為針對輸入音頻信息的由偵測器識 別的部分而選擇性地將帶寬擴(kuò)展信息包括至編碼音頻信息中。已發(fā)現(xiàn),可藉由適度計算努 力來導(dǎo)出頻譜傾斜量,且該頻譜傾斜量仍提供用于關(guān)于是否將帶寬擴(kuò)展信息包括至編碼音 頻信息中的決策的良好準(zhǔn)則。舉例而言,若頻譜傾斜量達(dá)到或超過傾斜量閾值,則可推斷頻 譜具有高通性質(zhì)且不可藉由盲帶寬擴(kuò)展來良好地建構(gòu)。詳言之,盲帶寬擴(kuò)展通常不可以良 好準(zhǔn)確度來重建構(gòu)包含正傾斜量(其中相比于低頻部分,著重強(qiáng)調(diào)高頻部分)的頻譜。此 外,由于在正傾斜量的狀況下,高頻部分具有特定感知相關(guān)性,因此在此等狀況下可推薦將 帶寬擴(kuò)展信息包括至編碼音頻表示中。
[0029] 在較佳實(shí)施例中,偵測器被進(jìn)一步配置為判定輸入音頻信息的部分的過零率,且 還根據(jù)所判定的過零率是否大于或等于固定或可變的過零率閾值而識別輸入音頻信息的 部分。已發(fā)現(xiàn),過零率亦為用以偵測輸入音頻信息的不可使用盲帶寬擴(kuò)展來良好地重建構(gòu) 使得將帶寬擴(kuò)展信息包括至編碼音頻信息中有意義(就達(dá)成比特率與音頻質(zhì)量之間的良 好取舍而言)的部分的良好準(zhǔn)則。
[0030] 在較佳實(shí)施例中,偵測器被配置為應(yīng)用滯后以用于識別輸入音頻信息的信號部 分,以減少在所識別的信號部分(對于該部分,將帶寬擴(kuò)展信息包括至編碼音頻表示中)與 未識別的信號部分(對于該部分,不將帶寬擴(kuò)展信息包括至編碼音頻表示中)之間的轉(zhuǎn)變 的數(shù)目。已發(fā)現(xiàn),避免以下兩者之間的過多切換系有利的:帶寬擴(kuò)展信息至編碼音頻信息中 的包括,及帶寬擴(kuò)展信息至編碼音頻表示中的包括的省略,這是因?yàn)榇说绒D(zhuǎn)變可帶來一些 偽訊(artifact),尤其在轉(zhuǎn)變的數(shù)目極高的情況下系如此。因此,使用可(例如)應(yīng)用于 傾斜量閾值(其接著為可變傾斜量閾值)或過零率閾值(其接著為可變過零率閾值)的滯 后,可達(dá)成此目標(biāo)。
[0031] 在較佳實(shí)施例中,音頻編碼器被配置為以信號適應(yīng)性方式選擇性地將表示輸入音 頻信息的高頻部分的頻譜包絡(luò)的參數(shù)作為帶寬擴(kuò)展信息包括至編碼音頻信息中。此實(shí)施例 基于以下想法:表示高頻部分的頻譜包絡(luò)的參數(shù)在參數(shù)導(dǎo)引式帶寬擴(kuò)展中尤其重要,使得 包括表示輸入音頻信息的高頻部分的頻譜包絡(luò)的該參數(shù)允許在不引起高比特率的情況下 達(dá)成良好質(zhì)量的帶寬擴(kuò)展。
[0032] 在較佳實(shí)施例中,低頻編碼器被配置為編碼輸入音頻信息的低頻部分,該低頻部 分包含高達(dá)位于6kHz與7kHz之間的范圍中的最大頻率的頻率。此外,音頻編碼器被配置 為選擇性地將描述具有在300Hz與500Hz之間的帶寬的高頻信號部分或子部分(例如,具 有高于大約6至7kHz的頻率的信號部分)的強(qiáng)度的三個至五個參數(shù)包括至編碼音頻表示 中。已發(fā)現(xiàn),此概念導(dǎo)致良好音頻質(zhì)量而實(shí)質(zhì)上不損害比特率努力。
[0033] 在較佳實(shí)施例中,音頻編碼器被配置為選擇性地將描述四個高頻信號部分(或子 部分)的強(qiáng)度的3至5個標(biāo)量量化參數(shù)包括至編碼音頻表示中,該高頻信號部分(或子部 分)涵蓋高于低頻部分的頻率范圍。已發(fā)現(xiàn),使用描述四個高頻信號部分的強(qiáng)度的3至5 個標(biāo)量量化參數(shù)通常足以達(dá)成參數(shù)導(dǎo)引式帶寬擴(kuò)展,該參數(shù)導(dǎo)引式帶寬擴(kuò)展勝過可由盲帶 寬擴(kuò)展針對相同信號部分而獲得的相對較低音頻質(zhì)量。因此,無關(guān)于經(jīng)重建構(gòu)音頻信號系 使用盲帶寬擴(kuò)展或?qū)б綆挃U(kuò)展來重建構(gòu),經(jīng)重建構(gòu)音頻信號部分之間不存在大的質(zhì)量 差異。因此,上文所提及的概念良好地適于允許盲帶寬擴(kuò)展與參數(shù)導(dǎo)引式帶寬擴(kuò)展之間的 切換的概念。
[0034] 在較佳實(shí)施例中,音頻編碼器被配置為選擇性地將描述頻譜相鄰的頻率部分的能 量之間的關(guān)系的多個參數(shù)包括至編碼音頻表示中,其中,該參數(shù)中的一個描述第帶寬擴(kuò)展 高頻部分與低頻部分的能量之間的比率,且其中,該參數(shù)中的其他參數(shù)描述(多對)其他帶 寬擴(kuò)展高頻部分的能量之間的比率。已發(fā)現(xiàn),描述不同(較佳相鄰)頻率部分的能量(或 等效地,強(qiáng)度)之間的比率(或差)的此概念允許帶寬擴(kuò)展信息的有效編碼。亦已發(fā)現(xiàn),可 通常藉由僅少量比特來量化描述頻譜相鄰的頻率部分的能量之間的關(guān)系的此等參數(shù),而實(shí) 質(zhì)上不損害可由帶寬擴(kuò)展達(dá)成的音頻質(zhì)量。
[0035] 根據(jù)本發(fā)明的另一實(shí)施例建立一種用于基于編碼音頻信息來提供解碼音頻信息 的音頻解碼器。該音頻解碼器包括低頻解碼器,被配置為解碼(音頻內(nèi)容的)低頻部分的 編碼表示以獲得低頻部分的解碼表示。音頻解碼器亦包含帶寬擴(kuò)展,被配置為針對音頻內(nèi) 容的無帶寬擴(kuò)展參數(shù)包括于編碼音頻信息中的部分而使用盲帶寬擴(kuò)展來獲得帶寬擴(kuò)展信 號,且針對音頻內(nèi)容的有帶寬擴(kuò)展參數(shù)包括于編碼音頻信息中的部分而使用參數(shù)導(dǎo)引式帶 寬擴(kuò)展來獲得帶寬擴(kuò)展信號。
[0036] 此音頻編碼器基于以下想法:若甚至在連續(xù)音頻內(nèi)容片段內(nèi)仍有可能在盲帶寬擴(kuò) 展與參數(shù)導(dǎo)引式帶寬擴(kuò)展之間切換,則可達(dá)成音頻質(zhì)量與比特率之間的良好取舍,這是因 為已
當(dāng)前第1頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1