專(zhuān)利名稱(chēng):噪聲填充器、噪聲填充參數(shù)計(jì)算器、用于提供噪聲填充參數(shù)的方法/用于提供音頻信號(hào)的 ...的制作方法
技術(shù)領(lǐng)域:
根據(jù)本發(fā)明的實(shí)施例涉及一種用于基于音頻信號(hào)的輸入頻譜表示提供該音頻信 號(hào)的填充了噪聲的頻譜表示的噪聲填充器;一種用于基于音頻信號(hào)的已量化頻譜表示提供 噪聲填充參數(shù)的噪聲填充參數(shù)計(jì)算器;一種表示音頻信號(hào)的編碼音頻信號(hào)表示;一種用于 提供音頻信號(hào)的填充了噪聲的頻譜表示的方法;一種用于基于音頻信號(hào)的已量化頻譜表示 提供噪聲填充參數(shù)的方法;及用于實(shí)施所述方法的計(jì)算機(jī)程序。
背景技術(shù):
后文將說(shuō)明若干情形,其中可有優(yōu)勢(shì)地應(yīng)用根據(jù)本發(fā)明的實(shí)施例。許多頻域音頻 信號(hào)編碼器是基于下述構(gòu)想某些頻率區(qū)或頻譜區(qū)(例如由時(shí)域至頻域變換所提供的頻率 線(xiàn)或頻譜線(xiàn))比其它頻譜區(qū)更重要。相應(yīng)地,典型地,與較低頻譜聲學(xué)相關(guān)的頻譜區(qū)相比, 以更高的精度對(duì)高心理聲學(xué)相關(guān)的頻譜區(qū)進(jìn)行編碼。不同頻譜區(qū)的心理聲學(xué)關(guān)可例如使用 心理聲學(xué)模型來(lái)計(jì)算,該模型考慮由相鄰強(qiáng)頻譜峰遮蔽較弱的頻譜區(qū)。若期望將已編碼音頻信號(hào)的比特率降低至低水平,以極低精度(例如只有一位精 度或二位精度)量化某些頻譜區(qū)。相應(yīng)地,以低精度量化的多個(gè)頻譜區(qū)被量化至零。如此, 在低比特率下,基于變換的音頻編碼器容易出現(xiàn)不同的偽信號(hào),特別是源自于零量化的頻 率線(xiàn)的偽信號(hào)。確實(shí),在低比特率音頻編碼中對(duì)頻譜值的粗糙量化可能導(dǎo)致在逆量化后極 為稀疏的頻譜,其原因在于許多頻譜線(xiàn)可能被量化為零。這些重構(gòu)信號(hào)中的頻譜孔洞產(chǎn)生 非期望的聲音偽信號(hào)。當(dāng)頻譜中的頻譜孔洞在幀間移動(dòng)時(shí),可能造成重現(xiàn)的聲音極為尖銳 或不穩(wěn)定(唧啾聲)。噪聲填充是通過(guò)在解碼器側(cè)用隨機(jī)噪聲填充零量化系數(shù)或頻帶來(lái)遮蔽這些偽信 號(hào)的手段。所插入的噪聲能量是由編碼器計(jì)算及發(fā)送的參數(shù)。已知不同的噪聲填充構(gòu)思。例如,如參考文獻(xiàn)[1]中描述的,所謂的AMR-WB+組合 了噪聲填充及離散傅立葉變換(DFT)。此外,國(guó)際標(biāo)準(zhǔn)ITU-T G. 729. 1定義了組合噪聲填充 及修改型離散余弦變換(MDCT)的構(gòu)思。具體細(xì)節(jié)說(shuō)明于參考文獻(xiàn)[2]。有關(guān)噪聲填充的額外方面說(shuō)明于Koninklijke的國(guó)際專(zhuān)利申請(qǐng)PCT/ IB2002/001388(飛利浦電子公司(Philips Electronics N. V.))(參考參考文獻(xiàn)[3])。雖然如此,傳統(tǒng)的噪聲填充構(gòu)思導(dǎo)致聽(tīng)覺(jué)失真。鑒于此討論,期望創(chuàng)造一種可提供改良型聽(tīng)覺(jué)印象的噪聲填充構(gòu)思。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的實(shí)施例創(chuàng)造了一種用于基于音頻信號(hào)的輸入頻譜表示提供該音頻 信號(hào)的填充了噪聲的頻譜表示的噪聲填充器。該噪聲填充器包含頻譜區(qū)識(shí)別器,被配置為 識(shí)別與輸入頻譜表示的非零頻譜區(qū)(例如頻譜線(xiàn)或頻譜倉(cāng)(spectral bins))間隔至少一個(gè)中間頻譜區(qū)的該輸入頻譜表示的頻譜區(qū)(例如頻譜線(xiàn)或頻譜倉(cāng))而獲得已識(shí)別的頻譜 區(qū)。噪聲填充器還包含噪聲插入器,被配置為選擇性地將噪聲引入已識(shí)別的頻譜區(qū)(例如 頻譜線(xiàn)或頻譜倉(cāng))而獲得該音頻信號(hào)的填充了噪聲的頻譜表示。本發(fā)明的實(shí)施例基于以下發(fā)現(xiàn)若噪聲填充應(yīng)用于音頻信號(hào)的頻譜表示的音調(diào)組 分的緊鄰,則就聽(tīng)覺(jué)印象而言,該音調(diào)組分典型地將會(huì)降級(jí)。相應(yīng)地,發(fā)現(xiàn)若噪聲填充只應(yīng) 用于與此種音調(diào)非零頻譜區(qū)間隔開(kāi)的頻譜區(qū),則可獲得填充了噪聲的音頻信號(hào)的改良型聽(tīng) 覺(jué)印象。相應(yīng)地,音頻信號(hào)頻譜的音調(diào)組分(在輸入該噪聲填充器的已量化頻譜表示中非 量化至零的組分)維持可聽(tīng)聞(亦即不會(huì)被緊鄰的噪聲所污染),而仍可有效避免大的頻譜 孔洞的存在。在優(yōu)選實(shí)施例中,頻譜區(qū)識(shí)別器被配置為識(shí)別輸入頻譜表示的頻譜線(xiàn),所述頻譜 線(xiàn)被量化為零并且包含至少第一預(yù)定數(shù)目的量化為零的較低頻鄰近頻譜線(xiàn)及至少第二預(yù) 定數(shù)目的量化為零的較高頻鄰近頻譜線(xiàn)作為已識(shí)別的頻譜區(qū),其中該第一預(yù)定數(shù)目大于或 等于1,并且該第二預(yù)定數(shù)目大于或等于1。在本實(shí)施例中,噪聲插入器被配置為將噪聲選 擇性地引入已識(shí)別的頻譜線(xiàn),同時(shí)使量化至非零值的頻譜線(xiàn)及量化為零的頻譜線(xiàn)(但不包 含第一預(yù)定數(shù)目的量化為零的較低頻鄰近頻譜線(xiàn)或第二預(yù)定數(shù)目的量化為零的較高頻鄰 近頻譜線(xiàn))未受噪聲填充影響。如此,噪聲填充為選擇性的,使得噪聲只引入于被量化為零 的頻譜線(xiàn),且沿向上的頻譜方向及向下的頻譜方向,與量化為非零值的頻譜線(xiàn)例如間隔第 一預(yù)定數(shù)目的量化為零的較低頻鄰近頻譜線(xiàn)及第二預(yù)定數(shù)目的量化為零的較高頻鄰近頻 譜線(xiàn)。在優(yōu)選實(shí)施例中,第一預(yù)定數(shù)目等于第二預(yù)定數(shù)目,使得沿由量化為非零值的線(xiàn) 向上的頻率方向的最小間隔等于沿由量化為非零值的線(xiàn)向下的頻率方向的最小間隔。在優(yōu)選實(shí)施例中,噪聲填充器被配置為將噪聲只引入音頻信號(hào)的頻譜表示的上部 的頻譜區(qū),而使音頻信號(hào)的頻譜表示的下部不受噪聲填充影響。此種構(gòu)思是有用的,其原 因在于通常較高頻于感知重要性上次于低頻。此外,零量化值大部分出現(xiàn)于頻譜的第二半 (亦即高頻)。同時(shí)添加高頻噪聲較不易獲得最終雜音回復(fù)。在優(yōu)選實(shí)施例中,頻譜區(qū)識(shí)別器被配置為對(duì)給定頻譜區(qū)的預(yù)定雙邊頻譜鄰近(亦 即延展至較低頻及較高頻的頻譜鄰近)的頻譜區(qū)的量化強(qiáng)度值(例如能量值或振幅值)求 和來(lái)獲得和值;以及評(píng)估該和值來(lái)判定該給定頻譜區(qū)是否為已識(shí)別的頻譜區(qū)。已發(fā)現(xiàn),給定 頻譜區(qū)的雙邊頻譜鄰近上的已量化頻譜的能量的和值為判定噪聲填充是否應(yīng)應(yīng)用至該給 定頻譜區(qū)的有意義的量。在另一個(gè)實(shí)施例中,該頻譜區(qū)識(shí)別器被配置為掃描輸入頻譜表示的頻譜區(qū)范圍以 檢測(cè)量化為零的頻譜區(qū)的連續(xù)序列,且辨識(shí)此種所檢測(cè)的連續(xù)序列的一個(gè)或多個(gè)中心頻譜 區(qū)(亦即非邊界頻譜區(qū)),作為已識(shí)別的頻譜區(qū)。已發(fā)現(xiàn),對(duì)被量化為零的頻譜區(qū)的特定“游程長(zhǎng)度”的檢測(cè)為可以特低運(yùn)算復(fù)雜 度實(shí)施的任務(wù)。為了識(shí)別此種頻譜區(qū)的連續(xù)序列,可判定在此頻譜區(qū)序列中的全部頻譜區(qū) 是否皆量化為零,這可使用相對(duì)簡(jiǎn)單的算法或電路來(lái)實(shí)施。若發(fā)現(xiàn)此種頻譜區(qū)的連續(xù)序列 被量化為零,則序列的內(nèi)部頻譜區(qū)中的一個(gè)或多個(gè)(距本頻譜區(qū)序列外側(cè)頻譜區(qū)的間隔夠 遠(yuǎn))被當(dāng)作已識(shí)別的頻譜區(qū)。如此,通過(guò)掃描頻譜區(qū)范圍(例如通過(guò)隨后選擇不同移位的 頻譜區(qū)序列),可以對(duì)頻譜表示進(jìn)行高效分析,來(lái)識(shí)別被量化為零且與量化為非零值的頻譜區(qū)間隔預(yù)定最小距離的頻譜區(qū)。根據(jù)本發(fā)明的另一實(shí)施例創(chuàng)造了用于基于音頻信號(hào)的已量化頻譜表示,提供噪聲 填充參數(shù)的噪聲填充參數(shù)計(jì)算器。該噪聲填充參數(shù)計(jì)算器包含頻譜區(qū)識(shí)別器,被配置為識(shí) 別與該已量化頻譜表示的非零頻譜區(qū)間隔至少一個(gè)中間頻譜區(qū)的該已量化頻譜表示的頻 譜區(qū),以獲得已識(shí)別的頻譜區(qū)。該噪聲填充參數(shù)計(jì)算器還包含噪聲值計(jì)算器,被配置為針對(duì) 噪聲填充參數(shù)的計(jì)算,選擇性地考慮已識(shí)別的頻譜區(qū)的量化誤差。噪聲填充參數(shù)計(jì)算器基 于下述關(guān)鍵構(gòu)思期望將解碼器側(cè)的噪聲填充限于與音調(diào)頻譜區(qū)(量化至非零值)隔開(kāi)的 頻譜區(qū);以及結(jié)果,考慮此種構(gòu)思,須在編碼器側(cè)計(jì)算噪聲參數(shù)。相應(yīng)地,獲得特別適合前述 解碼器構(gòu)思的噪聲填充參數(shù)。還發(fā)現(xiàn)被量化為零但極為接近量化為非零值的頻譜區(qū)的頻 譜區(qū)通常并未反映真正類(lèi)似噪聲的音頻內(nèi)容,反而與相鄰的音調(diào)(量化至非零值)頻譜區(qū) 強(qiáng)相關(guān)。相應(yīng)地,已發(fā)現(xiàn)對(duì)于噪聲填充參數(shù)的計(jì)算,一般不期望考慮臨近量化為非零值的 頻譜區(qū)的頻譜區(qū)的量化誤差,其原因在于如此典型地導(dǎo)致噪聲的強(qiáng)烈超估,因而導(dǎo)致過(guò)多 噪聲的重構(gòu)的頻譜表示。如此,此處所述的噪聲填充參數(shù)計(jì)算構(gòu)思可與前述噪聲填充構(gòu)思結(jié)合使用,甚至 與傳統(tǒng)噪聲填充構(gòu)思結(jié)合使用。在優(yōu)選實(shí)施例中,已經(jīng)就噪聲填充器討論的頻譜區(qū)識(shí)別構(gòu)思還能夠與噪聲填充參 數(shù)計(jì)算器結(jié)合應(yīng)用。在又一優(yōu)選實(shí)施例中,噪聲值計(jì)算器被配置為考慮已識(shí)別的頻譜區(qū)的量化誤差的 實(shí)際能量,用于噪聲填充參數(shù)的計(jì)算。已發(fā)現(xiàn)考慮實(shí)際量化誤差(而非考慮估計(jì)的量化誤 差或平均量化誤差)典型地獲得改良的結(jié)果,其原因在于實(shí)際量化誤差典型地偏離統(tǒng)計(jì)上 的期望量化誤差。在又一優(yōu)選實(shí)施例中,噪聲值計(jì)算器被配置為關(guān)于集中于單個(gè)頻譜區(qū)的音調(diào)量化 誤差能量,強(qiáng)調(diào)分布在多個(gè)已識(shí)別頻譜區(qū)上的非音調(diào)量化誤差能量。此種構(gòu)思基于以下發(fā) 現(xiàn)其平均能量低于量化閾值因而被量化為零的非音調(diào)寬帶噪聲與其強(qiáng)度低于量化閾值的 單個(gè)音調(diào)音頻組分相比,對(duì)于該噪聲填充器在感知上遠(yuǎn)為相關(guān)得多,即使量化為零的非音 調(diào)寬帶噪聲及量化為零的音調(diào)組分二者皆被量化為零亦如此。原因在于,通過(guò)在解碼器處 產(chǎn)生隨機(jī)噪聲的噪聲填充器可以對(duì)遺漏該已量化頻譜表示中的非音調(diào)寬帶噪聲但不遺漏 音調(diào)組分進(jìn)行建模。如此,相對(duì)于量化為零的音調(diào)組分,強(qiáng)調(diào)量化為零的非音調(diào)噪聲組分獲 得更理想的聲音重構(gòu)。這還由于以下事實(shí)與因不存在量化為零的小頻譜尖峰,人類(lèi)聽(tīng)覺(jué)印 象因頻譜孔洞的存在(例如,具有不存在量化為零的寬帶噪聲的形式)而造成的降級(jí)遠(yuǎn)遠(yuǎn) 大得多。音調(diào)組分可集中于單個(gè)頻譜線(xiàn),或可擴(kuò)展在數(shù)條連續(xù)的線(xiàn)(例如i-l、i、i+l)上。 頻譜區(qū)例如可以包含一條或多條頻譜線(xiàn)。在優(yōu)選實(shí)施例中,噪聲值計(jì)算器被配置為計(jì)算該已識(shí)別的頻譜區(qū)的對(duì)數(shù)量化誤差 能量的和而獲得噪聲填充參數(shù)。通過(guò)計(jì)算該已識(shí)別的頻譜區(qū)的對(duì)數(shù)量化誤差能量的和,可 以高效地方式獲得如前文說(shuō)明的相對(duì)于量化為零的音調(diào)區(qū),相對(duì)強(qiáng)調(diào)量化為零的非音調(diào)頻譜區(qū)。根據(jù)本發(fā)明的另一實(shí)施例創(chuàng)造了用于表示音頻信號(hào)的已編碼音頻信號(hào)表示。已編 碼音頻信號(hào)表示包含該音頻信號(hào)的已編碼已量化的頻譜域表示及已編碼的噪聲填充參數(shù)。 該噪聲填充參數(shù)表示量化為零且與量化至非零值的該頻譜域表示的頻譜區(qū)間隔至少預(yù)定數(shù)目的中間頻譜區(qū)的該頻譜域表示的頻譜區(qū)的量化誤差。前述已編碼音頻信號(hào)表示可由前 文討論的噪聲填充器使用,并且可使用如前文討論的噪聲填充參數(shù)計(jì)算器獲得。已編碼音 頻信號(hào)表示允許以特佳音頻質(zhì)量重構(gòu)該音頻信號(hào),其原因在于該噪聲填充參數(shù)選擇性地反 映出其中存在有意義的噪聲信息的此種頻譜區(qū)的已量化頻譜域表示的量化誤差,且該量化 誤差對(duì)于解碼器側(cè)的噪聲填充也須選擇性地加以考慮。根據(jù)本發(fā)明的另一個(gè)實(shí)施例創(chuàng)造了一種用于提供音頻信號(hào)的填充了噪聲的表示 的方法。根據(jù)本發(fā)明的又一個(gè)實(shí)施例創(chuàng)造了一種基于音頻信號(hào)的已量化頻譜表示提供噪 聲填充參數(shù)的方法。根據(jù)本發(fā)明的又一個(gè)實(shí)施例創(chuàng)造了用于實(shí)施前述方法的計(jì)算機(jī)程序。
隨后將參考
根據(jù)本發(fā)明的實(shí)施例,附圖中圖1示出了根據(jù)本發(fā)明的實(shí)施例的噪聲填充器的示意框圖;圖2示出了包含根據(jù)本發(fā)明的噪聲填充器的音頻信號(hào)解碼器的示意框圖;圖3示出了用于實(shí)施圖1的噪聲填充器的功能的偽程序代碼;圖4示出了可在根據(jù)圖1的噪聲填充器進(jìn)行的頻譜區(qū)識(shí)別的圖形表示;圖5示出了根據(jù)本發(fā)明的實(shí)施例的噪聲填充參數(shù)計(jì)算器的示意框圖;圖6示出了用于實(shí)施根據(jù)圖5的噪聲填充參數(shù)計(jì)算器的功能的偽程序代碼;圖7示出了用于基于音頻信號(hào)的輸入頻譜表示,提供音頻信號(hào)的填充了噪聲的頻 譜表示的方法的流程圖;圖8示出了用于基于音頻信號(hào)的量化頻譜表示提供噪聲化填充參數(shù)的流程圖;及圖9示出了根據(jù)本發(fā)明的實(shí)施例的音頻信號(hào)表示的圖形表示。
具體實(shí)施例方式根據(jù)圖1-4的噪聲填充器圖1示出了根據(jù)本發(fā)明的實(shí)施例的噪聲填充器100的示意框圖。噪聲填充器100 被配置為接收音頻信號(hào)的輸入頻譜表示110,該表示例如具有已解碼頻譜系數(shù)(例如可以 進(jìn)行了量化或逆量化)的形式。噪聲填充器100還被配置為基于輸入頻譜表示110提供該 音頻信號(hào)的填充了噪聲的頻譜表示112。噪聲填充器100包含頻譜區(qū)識(shí)別器120,其被配置為識(shí)別與輸入頻譜表示110的 非零頻譜區(qū)間隔至少一個(gè)中間頻譜區(qū)的該輸入頻譜表示110的頻譜區(qū),而獲得指示該已識(shí) 別的頻譜區(qū)的信息122。噪聲填充器100還包含噪聲插入器130,其被配置為將噪聲選擇性 地引入已識(shí)別的頻譜區(qū)(以信息122描述),而獲得該音頻信號(hào)的填充了噪聲的頻譜表示 112。有關(guān)噪聲填充器100的功能,通常可以說(shuō)噪聲填充器100以噪聲選擇性地填充輸 入頻譜表示110的頻譜區(qū)(例如頻譜線(xiàn)或頻譜倉(cāng)),例如通過(guò)描述噪聲的置換頻譜值來(lái)替換 被量化為零的頻譜線(xiàn)的頻譜值。藉此方式,可填充輸入頻譜表示110內(nèi)的頻譜孔洞或頻譜 間隙,該孔洞或間隙可能是由輸入頻譜表示110的粗糙量化引起的。但噪聲填充器100并未將噪聲引入量化為零的全部頻譜線(xiàn)(即,其頻譜值被量化為零的頻譜線(xiàn))。相反,噪聲填 充器100只將噪聲引入包含距量化為非零值的任何頻譜線(xiàn)有足夠距離的此種量化為零的 頻譜線(xiàn)。藉此方式,噪聲填充并未完全填充頻譜孔洞或頻譜間隙,反而在其中引入噪聲的那 些頻譜線(xiàn)與量化為非零值的頻譜線(xiàn)間維持至少一個(gè)頻譜區(qū)的頻譜距離(或至少任何其他 預(yù)定數(shù)目的頻譜區(qū)的頻譜距離)。如此,維持引入頻譜表示的填充噪聲與量化至非零值的頻 譜線(xiàn)間的頻譜距離,使得(由于預(yù)定數(shù)目的一個(gè)或多個(gè)頻譜區(qū)的頻譜距離)可清晰區(qū)分心 理聲學(xué)相關(guān)頻譜線(xiàn)(在音頻信號(hào)的輸入頻譜表示中未量化為零)與由噪聲填充器引入頻譜 的填充噪聲。相應(yīng)地,可清晰感知心理聲學(xué)上最相關(guān)的音頻內(nèi)容(在輸入頻譜表示110中 以非零頻譜線(xiàn)值表示),同時(shí)避免大的頻譜孔洞。其原因在于,在被量化為非零值的輸入頻 譜表示的頻譜線(xiàn)附近選擇性地省去噪聲填充,而在頻譜孔洞或頻譜間隙的中央?yún)^(qū)執(zhí)行噪聲 填充。后文將參考圖2說(shuō)明噪聲填充器100的應(yīng)用環(huán)境。圖2示出了根據(jù)本發(fā)明的實(shí)施 例的音頻信號(hào)解碼器200的示意框圖。音頻信號(hào)解碼器200包含噪聲填充器100作為關(guān)鍵 組件。音頻信號(hào)解碼器200還包含頻譜系數(shù)解碼器210,其被配置為接收已編碼音頻信號(hào)表 示212及提供該已編碼音頻信號(hào)的頻譜系數(shù)的已解碼(選擇性地經(jīng)逆量化)的表示214。 頻譜系數(shù)解碼器210例如可包含熵解碼器(例如算術(shù)解碼器或游程長(zhǎng)度解碼器)及選擇性 地包含逆量化器來(lái)由該已編碼的音頻信號(hào)表示212導(dǎo)出頻譜系數(shù)的已解碼表示214(例如 具有逆量化系數(shù)的形式)。噪聲填充器100被配置為接收頻譜系數(shù)的已解碼表示214 (選擇 性地可經(jīng)逆量化),作為該音頻信號(hào)的輸入頻譜表示110。音頻信號(hào)解碼器200還包含噪聲因子提取器220,其被配置為由該已編碼的音頻 信號(hào)表示212提取噪聲因子信息222,且將該已提取的噪聲因子信息222提供給噪聲填充器 100。音頻信號(hào)解碼器200還包含頻譜整形器230,其被配置為從噪聲填充器100接收已重 構(gòu)的頻譜表示232。已重構(gòu)的頻譜表示232例如可以是等于由噪聲填充器所提供的填充了 噪聲的頻譜表示112。頻譜整形器230可視為可選的,被配置為基于已重構(gòu)的頻譜表示232 而提供頻譜信息234。音頻信號(hào)解碼器200進(jìn)一步包含頻譜域至?xí)r域變換器M0,其接收由 頻譜整形器230所提供的頻譜表示234,或在不存在頻譜整形器230的情況下,接收已重構(gòu) 的頻譜表示232 ;以及基于此提供時(shí)域音頻信號(hào)表示對(duì)2。頻譜域至?xí)r域變換器240例如可 被配置為執(zhí)行逆修改型離散余弦變換(IMDCT)。在優(yōu)選實(shí)施例中,解碼器側(cè)的噪聲填充包括下列步驟(或遵循其次步驟)1.角軍碼本底噪聲(noise floor);2.解碼頻率線(xiàn)的已量化值;3.在頻譜的選定部分中檢測(cè)頻譜區(qū),其中,零的游程長(zhǎng)度高于最小游程長(zhǎng)度大小; 及4.對(duì)于選定區(qū)內(nèi)部的各條線(xiàn),將隨機(jī)產(chǎn)生的符號(hào)應(yīng)用于已解碼的本底噪聲。本底噪聲解碼如下nf_decoded = 0. 0625*(8-index)所檢測(cè)的頻譜區(qū)例如是以與在編碼器側(cè)相同的方式選擇的(容后詳述)。在MDCT域中的無(wú)記憶高斯噪聲是由對(duì)全部線(xiàn)皆有相同振幅但具有隨機(jī)符號(hào)的頻 譜產(chǎn)生的。如此,對(duì)選定區(qū)內(nèi)部的各線(xiàn),解碼器產(chǎn)生隨機(jī)符號(hào)(-1或+1)且將其應(yīng)用至已解碼的本底噪聲。但其它提供噪聲貢獻(xiàn)的方法也適用。后文中將參考第1、2、3及圖4說(shuō)明若干細(xì)節(jié),其中圖3示出了可由噪聲填充器100 執(zhí)行的用于在解碼器側(cè)噪聲填充的算法的偽程序代碼,及其中圖4示出了噪聲填充的圖形表不。首先,由噪聲因子提取器220執(zhí)行本底噪聲的解碼,噪聲因子提取器220例如接收 噪聲因子索引(也簡(jiǎn)寫(xiě)為(“索引”),基于此提供已解碼噪聲因子值222(也標(biāo)示為“nf_ decoded")。噪聲因子索引例如可使用三位或四位編碼,例如可為0至7的范圍的整數(shù)值或 0至15的范圍的整數(shù)值。頻率線(xiàn)(也稱(chēng)作為“頻譜線(xiàn)”或“頻譜倉(cāng)”)的量化值可由頻譜系數(shù)解碼器210提 供。相應(yīng)地,獲得已量化的(或選擇性地,已逆量化的)頻譜線(xiàn)值(也稱(chēng)作為“頻譜系數(shù)”), 標(biāo)示為“已量化(X(i))”。此處i表示頻譜線(xiàn)值的頻率索引。隨后,由噪聲填充器100檢測(cè)在頻譜的選定部分(例如始于預(yù)定頻譜線(xiàn)頻率索引i 的頻譜上部)中的頻譜區(qū),此處零的游程長(zhǎng)度(亦即量化為零的已量化頻譜線(xiàn)值)高于最 小游程長(zhǎng)度大小。此種頻譜區(qū)的檢測(cè)是由圖3的算法300的第一部分310執(zhí)行的。如由算 法300的第一部分310可見(jiàn),所檢測(cè)的區(qū)域的集合R于算法起點(diǎn)被初始化空集(R ={};)。在圖3的算法示例中,最小游程長(zhǎng)度被設(shè)定為8的固定值,當(dāng)然也可選用任何其它 數(shù)值。隨后,對(duì)所考慮的多個(gè)頻譜線(xiàn)(標(biāo)示為游程變量“線(xiàn)索引”),確定所考慮的各條 頻譜線(xiàn)是否包含量化至零的頻譜線(xiàn)的雙邊環(huán)境(及所考慮的頻譜線(xiàn)是否本身量化為零)。 舉例而言,在頻譜的第二半部分中的全部頻譜線(xiàn)隨后皆被看作所考慮的頻譜線(xiàn),其中目前 正在考慮的線(xiàn)標(biāo)示為頻率索引“線(xiàn)索引”。對(duì)標(biāo)示為“線(xiàn)索引”的所考慮的線(xiàn),運(yùn)算由“線(xiàn)索 引_(最小游程長(zhǎng)度)/2”的頻譜線(xiàn)頻率索引至“線(xiàn)索引+最小游程長(zhǎng)度)/2”的頻譜線(xiàn)頻率 索引的范圍環(huán)境中的已量化的頻譜系數(shù)“量化(x(i))”的和。若發(fā)現(xiàn)在目前正在考慮的頻 譜線(xiàn)(具有頻譜線(xiàn)頻率索引“線(xiàn)索引”)的所述環(huán)境中的頻譜線(xiàn)值的和為零,則目前正在考 慮的頻譜線(xiàn)(或更精確而言,其頻譜線(xiàn)頻率索引“線(xiàn)索引”)加至所檢測(cè)的區(qū)域的集合R(或 所檢測(cè)的頻譜線(xiàn))。結(jié)果,若頻譜線(xiàn)的頻譜線(xiàn)頻率索引加至集合R,表示具有“線(xiàn)索引_(最 小游程長(zhǎng)度)/2”至“線(xiàn)索引+(最小游程長(zhǎng)度)/2”間的線(xiàn)索引的頻譜線(xiàn)全部皆包含量化為 零的頻譜線(xiàn)值。相應(yīng)地,在偽程序代碼310的第一部分310中,獲得頻譜線(xiàn)頻率索引“線(xiàn)索引”的 集合R,集合R枚舉了所考慮的頻譜部分的那些(且只有那些)與量化至非零值的任何頻譜 線(xiàn)“充分”隔開(kāi)(亦即間隔至少最小游程長(zhǎng)度/2條線(xiàn))的頻譜線(xiàn)。此區(qū)的檢測(cè)示意于于圖4,圖4示出了頻譜的圖形表示400。橫坐標(biāo)410以頻譜線(xiàn) 頻率索引“線(xiàn)索引”描述頻譜線(xiàn)的頻率??v坐標(biāo)412描述頻譜線(xiàn)的強(qiáng)度(亦即振幅或能量)。 如此可見(jiàn),圖形表示400中示意的頻譜的部分包含量化至非零值的四條頻譜線(xiàn)420a、420b、 420c、及420d。此外,頻譜線(xiàn)420c與420d間有11條量化為零的頻譜線(xiàn)42h_422k。進(jìn)一 步,假設(shè)如果目前正在考慮的頻譜線(xiàn)與量化至非零值的任何其它頻譜線(xiàn)間有至少四條量 化為零的頻譜線(xiàn)(及當(dāng)然,若目前正在考慮的頻譜線(xiàn)本身被量化為零),該頻譜線(xiàn)才被認(rèn)為 與量化為非零值的頻譜線(xiàn)充分間隔。但當(dāng)考慮頻譜線(xiàn)42 時(shí),將發(fā)現(xiàn)頻譜線(xiàn)42 緊鄰于 未量化為零的頻譜線(xiàn)422c,故頻譜線(xiàn)42 的頻譜線(xiàn)頻率索引根據(jù)算法300的第一部分310將不會(huì)構(gòu)成所運(yùn)算的集合R的一部分。同理,將發(fā)現(xiàn)頻譜線(xiàn)422b、422c及422d與量化至非 零值的任何頻譜線(xiàn)并未間隔得足夠遠(yuǎn),使得頻譜線(xiàn)422b至422d的頻譜線(xiàn)頻率索引也非為 集合R的一部分。相反地,將認(rèn)識(shí)到頻譜線(xiàn)42 與任何量化為非零值的頻譜線(xiàn)間隔得足夠 遠(yuǎn),這是由于頻譜線(xiàn)42 為9條全部量化為零的連續(xù)頻譜線(xiàn)的序列的中心線(xiàn)(或更通常為 中線(xiàn))。相應(yīng)地,頻譜線(xiàn)42 的頻譜線(xiàn)頻率索引將為在算法300的第一部分310中運(yùn)算的 集合R的一部分。頻譜線(xiàn)422f及422g亦如此,使得頻譜線(xiàn)422f及422g的頻譜線(xiàn)頻率索 引將成為在算法300的第一部分310中確定的集合R的一部分,這是由于頻譜線(xiàn)422f、422g 與量化為非零值的較低頻頻譜線(xiàn)420a、420b、及420c間隔得足夠遠(yuǎn),且與量化為非零值的 任何較高頻頻譜線(xiàn)間隔得足夠遠(yuǎn)。另一方面,頻譜線(xiàn)42 u422i、422j、及42 將不屬于集 合R的一部分,這是由于就頻率而言所述頻譜線(xiàn)太過(guò)接近量化為非零值的頻譜線(xiàn)420d。相應(yīng)地,集合R將不包含頻譜線(xiàn)420a、420b、420c、420d的頻譜線(xiàn)頻率索引,這是 由于所述頻譜線(xiàn)被量化為非零值。此外,頻譜線(xiàn)422a、422b、422c、422d、422h、422i、422j、 及42 的頻譜線(xiàn)頻率索引將不構(gòu)成集合R的一部分,這是由于所述頻譜線(xiàn)太過(guò)接近頻譜線(xiàn) 420a、420b、420c、及420d。相反地,頻譜線(xiàn)42&、422f、422g的頻譜線(xiàn)頻率索引將包括于集 合R,這是由于所述頻譜線(xiàn)本身被量化為零,且與任何相鄰的非零頻譜線(xiàn)間隔得足夠遠(yuǎn)。算法300還包含解碼本底噪聲的第二部分320,其中噪聲值索引(程序代碼部分 320中的“索引”)被變換成已解碼的噪聲因數(shù)值(程序代碼300中的“nf_deC0ded”)。程序代碼300還包含用噪聲填充已識(shí)別的頻譜線(xiàn)(亦即其頻譜線(xiàn)頻率索引i在集 合R中的頻譜線(xiàn))的第三部分330。用于此項(xiàng)目的,已識(shí)別的頻譜線(xiàn)的頻譜值(例如以χ (i) 標(biāo)示,其中游程變量i隨后取集合R所包括的全部頻譜線(xiàn)頻率索引)被設(shè)定為噪聲填充值。 噪聲填充值例如是通過(guò)將已解碼的噪聲填充值(nf_deC0ded)乘以隨機(jī)數(shù)或偽隨機(jī)數(shù)(標(biāo) 示為“random(-1,+1) ”)獲得的,其中隨機(jī)數(shù)或偽隨機(jī)數(shù)例如可隨機(jī)或偽隨機(jī)地取數(shù)_1及 +1。但當(dāng)然隨機(jī)噪聲或偽隨機(jī)噪聲不同供應(yīng)也是可以的。噪聲填充也示意于圖4。如圖4可見(jiàn),以噪聲填充值替換(圖4中以虛線(xiàn)表示)頻 譜線(xiàn)42&、422f、及422g的零頻譜值。根據(jù)圖5及圖6的噪聲填充參數(shù)計(jì)算器圖5示出了噪聲填充參數(shù)計(jì)算器500的示意框圖。噪聲填充參數(shù)計(jì)算器500被配 置為獲得音頻信號(hào)的已量化頻譜表示510,以及基于該表示而提供噪聲填充參數(shù)512。噪聲 填充參數(shù)計(jì)算器500包含頻譜區(qū)識(shí)別器520,其被配置為接收音頻信號(hào)的已量化頻譜表示 510,且識(shí)別與已量化頻譜表示510的非零頻譜區(qū)間隔至少一個(gè)中間頻譜區(qū)(例如頻譜線(xiàn)) 的已量化頻譜表示510的頻譜區(qū)(例如頻譜線(xiàn)),來(lái)獲得描述已識(shí)別的頻譜區(qū)(例如已識(shí)別 的頻譜線(xiàn))的信息522。噪聲填充參數(shù)計(jì)算器500進(jìn)一步包含噪聲值計(jì)算器530,被配置為 接收量化誤差信息532及提供噪聲填充參數(shù)512。用于此項(xiàng)目的,噪聲值計(jì)算器被配置為選 擇性地考慮由信息522描述的用于計(jì)算噪聲填充參數(shù)512的已識(shí)別的頻譜區(qū)的量化誤差。量化誤差信息532例如可與描述已量化頻譜表示510中被量化為零的那些頻譜線(xiàn) 的能量(或強(qiáng)度)的能量信息(或強(qiáng)度信息)相同。噪聲填充參數(shù)計(jì)算器500可以選擇性地包含量化器M0,被配置為接收音頻信號(hào) 的未經(jīng)量化的頻譜表示M2,和提供音頻信號(hào)的已量化頻譜表示510。量化器540可具有可 調(diào)整的量化分辨率,例如可以是每條頻譜線(xiàn)個(gè)別調(diào)整或每個(gè)頻帶個(gè)別調(diào)整(例如取決于使用心理聲學(xué)模型獲得的頻譜線(xiàn)或頻譜帶的心理聲學(xué)相關(guān))??勺兎直媛柿炕鞯墓δ芸傻?于國(guó)際標(biāo)準(zhǔn)IS0/IEC 13818-7及IS0/IEC 14496-3中說(shuō)明的功能。特定而言,量化器MO 可被調(diào)整為音頻信號(hào)的量化頻譜表示510中有頻譜間隙或頻譜孔洞,亦即被量化為零的 相鄰頻譜線(xiàn)的連續(xù)區(qū)。此外,未經(jīng)量化的頻譜表示542可用作量化誤差信息532,或量化誤差信息532可 由未經(jīng)量化的頻譜表示542導(dǎo)出。后文將詳細(xì)說(shuō)明可由噪聲填充參數(shù)計(jì)算器500執(zhí)行的噪聲填充參數(shù)運(yùn)算功能。在 編碼器側(cè)的噪聲填充參數(shù)運(yùn)算中,噪聲填充優(yōu)選地應(yīng)用于量化域。藉此方式,隨后由心理聲 學(xué)相關(guān)的逆濾波器成形所引入的噪聲。于編碼器側(cè),遵照下列步驟計(jì)算和編碼由解碼器所 引入的噪聲能量1.獲得頻率線(xiàn)的已量化值;2.只選擇部分頻譜;3.在頻譜的選定部分中檢測(cè)頻譜區(qū),其中,零的游程長(zhǎng)度高于最小游程長(zhǎng)度大 ??;4.對(duì)先前檢測(cè)的頻譜區(qū)計(jì)算量化誤差的幾何平均;及5.以3位均勻量化該幾何平均。有關(guān)第一步驟,頻譜線(xiàn)的已量化值可使用量化器540來(lái)獲得。因此,頻譜線(xiàn)的已量 化值是由已量化頻譜表示510表示的。有關(guān)第二步驟,第二步驟被視為可選的,須注意噪聲填充的運(yùn)算優(yōu)選地是基于頻 譜的高頻部分執(zhí)行的。在優(yōu)選實(shí)施例中,只對(duì)頻譜的第二半部分亦即對(duì)高頻(而非對(duì)低頻) 計(jì)算噪聲能量(稱(chēng)作為本底噪聲)。確實(shí),通常高頻(頻譜上部)于感知重要性上次于低 頻,零量化值大部分出現(xiàn)于頻譜的第二半部分。此外,添加高頻噪聲較不容易獲得最終雜音 回復(fù)。有關(guān)第三步驟,通過(guò)限制在出現(xiàn)零量化值游程長(zhǎng)度的頻譜區(qū)上的噪聲填充,避免 噪聲填充過(guò)度影響非零值。藉此方式,噪聲填充并未應(yīng)用于非零值鄰近,這些線(xiàn)的原始音調(diào) 得到更好地保留。在優(yōu)選實(shí)施例中,最小游程長(zhǎng)度大小固定為8。表示一個(gè)非零值附近的8 條線(xiàn)不受噪聲填充影響(因此,不考慮用于噪聲值的計(jì)算)。有關(guān)第四步驟,在已量化域中的量化誤差位于[-0. 5 ;0. 5]的范圍內(nèi),且假設(shè)為均 勻分布。所檢測(cè)的區(qū)域的量化誤差能量為對(duì)數(shù)域中的平均值(亦即幾何平均)。然后,本底 噪聲nf計(jì)算如下nf = power (10, sum(IoglO (Ε (χ (i)))) / (2*η))上式中,sum()為所檢測(cè)的區(qū)域內(nèi)部個(gè)別線(xiàn)x(i)的對(duì)數(shù)能量IoglO(EO)的和,η 為這些區(qū)內(nèi)的線(xiàn)數(shù)目。本底噪聲nf為0至0.5。此種計(jì)算允許將零化值的原始頻譜平坦度 列入考慮,然后獲得有關(guān)其音調(diào)/噪聲特性的信息。若零化值極為有調(diào)性,則本底噪聲(于裝置500運(yùn)算)將朝向零而去,在解碼器 (例如于前述解碼器100、200)處將加上低本底噪聲。若零化值實(shí)際上有噪聲,則本底噪聲 將高,噪聲填充可視為零化頻譜線(xiàn)的高度參數(shù)編碼,類(lèi)似PNS (感知噪聲取代)(也參見(jiàn)參考 文獻(xiàn)[4])。有關(guān)第五步驟,本底噪聲的量化索引(“索引”)計(jì)算如下
index = max (0,min (7, int (8-16*nf)))。索引例如以3位傳送。后文中將參考第6圖說(shuō)明運(yùn)算噪聲填充參數(shù)的算法,圖6示出了根據(jù)本發(fā)明的實(shí) 施例,用于獲得噪聲填充參數(shù)的此種算法的偽程序代碼600。算法600包含檢測(cè)運(yùn)算噪聲填 充參數(shù)須考慮的區(qū)的第一部分610。已識(shí)別區(qū)(例如頻譜線(xiàn))以集合R描述,例如可包含已 識(shí)別頻譜線(xiàn)的頻譜線(xiàn)頻率索引(“線(xiàn)索引”)??勺R(shí)別本身被量化為零且與被量化為非零值 的任何其它頻譜線(xiàn)間隔得充分遠(yuǎn)的頻譜線(xiàn)。程序600的第一部分610可以與程序300的第一部分310相同。相應(yīng)地,用于算 法600的已量化頻譜表示(“已量化(x(i))”)可與解碼器側(cè)用于算法300的已量化頻譜 表示(“已量化(x(i))”)相同。換言之,用于編碼器側(cè)的已量化頻譜表示可以編碼形式傳 送至包含編碼器及解碼器的傳送系統(tǒng)中的解碼器。算法600包含運(yùn)算本底噪聲的第二部分620。于本底噪聲的運(yùn)算中,只考慮由算法 600的第一部分610中運(yùn)算的集合R描述的那些頻譜區(qū)(或頻譜線(xiàn))。可見(jiàn),噪聲填充值nf 首先被初始化為零。所考慮的頻譜線(xiàn)數(shù)目(η)也被初始化為零。隨后,對(duì)線(xiàn)索引包括于集 合R的全部頻譜線(xiàn)的能量進(jìn)行求和,其中在對(duì)頻譜線(xiàn)的能量進(jìn)行求和前進(jìn)行對(duì)數(shù)化。例如 可對(duì)頻譜線(xiàn)能量(E(x(i)))的以10為底的對(duì)數(shù)(IoglO)進(jìn)行求和。須注意,量化前頻譜線(xiàn) 的實(shí)際能量(以“E或能量(x(i))”表示)是以對(duì)數(shù)化形式求和的。還計(jì)算所考慮的頻譜 線(xiàn)的數(shù)目。如此,在執(zhí)行算法600的第二部分620后,變量nf指示量化前已識(shí)別的頻譜線(xiàn) 的能量的對(duì)數(shù)和,變量η描述已識(shí)別的頻譜線(xiàn)的數(shù)目。算法600還包含量化值nf (亦即已識(shí)別的頻譜線(xiàn)的對(duì)數(shù)和)的第三部分630???使用如前文說(shuō)明或如第6圖所示的映射方程。根據(jù)第7圖的方法圖7示出了用于基于音頻信號(hào)的輸入頻譜表示,提供音頻信號(hào)的填充了噪聲的頻 譜表示的方法的流程圖。圖7的方法700包含步驟710,識(shí)別與音頻信號(hào)的輸入頻譜表示間 隔至少一個(gè)中間頻譜區(qū)的該輸入頻譜表示的頻譜區(qū),來(lái)獲得已識(shí)別的頻譜區(qū)。方法700還 包含步驟720,將噪聲選擇性地引入已識(shí)別的頻譜區(qū),來(lái)獲得音頻信號(hào)的填充了噪聲的頻譜表不。方法700可由此處參考本發(fā)明的噪聲填充器的任何特征及功能補(bǔ)充。根據(jù)圖8的方法圖8示出了用于基于音頻信號(hào)的已量化頻譜表示提供噪聲填充參數(shù)的方法的流 程圖。方法800包含步驟810,識(shí)別與音頻信號(hào)的量化頻譜表示間隔至少一個(gè)中間頻譜區(qū)的 該量化頻譜表示的頻譜區(qū),來(lái)獲得已識(shí)別的頻譜區(qū)。方法800還包含步驟820,選擇性地考 慮已識(shí)別的頻譜區(qū)的量化誤差用于填充參數(shù)的計(jì)算。方法800可由此處關(guān)于噪聲填充參數(shù)計(jì)算器的任何特征及功能補(bǔ)充。根據(jù)圖9的音頻信號(hào)表示圖9示出了根據(jù)本發(fā)明的實(shí)施例的音頻信號(hào)表示的圖形表示。音頻信號(hào)表示900 例如可形成輸入頻譜表示110的基礎(chǔ)。音頻信號(hào)表示900也可以接管已編碼音頻信號(hào)表示 212的功能。音頻信號(hào)表示900可使用噪聲填充參數(shù)計(jì)算器500來(lái)獲得,其中音頻信號(hào)表示 900可以例如包含音頻信號(hào)的已量化頻譜表示510及噪聲填充參數(shù)512,例如二者皆呈編碼形式。換言之,已編碼的音頻信號(hào)表示900可表示音頻信號(hào)。已編碼的音頻信號(hào)表示900 包含音頻信號(hào)的已編碼已量化的頻譜域表示,也包含已編碼的噪聲填充參數(shù)。該噪聲填充 參數(shù)表示頻譜域表示的量化為零的且與量化為非零的頻譜域表示的頻譜區(qū)間隔至少一個(gè) 中間頻譜區(qū)的頻譜區(qū)的量化誤差。當(dāng)然音頻信號(hào)表示900可由前述任何信息補(bǔ)充??商鎿Q實(shí)施依據(jù)某些實(shí)施要求,本發(fā)明的實(shí)施例可用硬件或軟件實(shí)施。該實(shí)施可使用數(shù)字儲(chǔ) 存媒體來(lái)實(shí)現(xiàn),例如軟盤(pán)、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH內(nèi)存,其上存儲(chǔ)有可 電子式讀取的控制信號(hào),且與可編程計(jì)算機(jī)系統(tǒng)協(xié)作(或能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作) 從而執(zhí)行相應(yīng)方法。根據(jù)本發(fā)明的若干實(shí)施例包含具有可電子式讀取的控制信號(hào)的數(shù)據(jù)載體,所述信 號(hào)可與可編程計(jì)算機(jī)系統(tǒng)協(xié)作,從而執(zhí)行此處所述的方法之一。通常,本發(fā)明的實(shí)施例可以被實(shí)施為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品,該程序代 碼可操作用于當(dāng)該計(jì)算機(jī)程序產(chǎn)品運(yùn)行于計(jì)算機(jī)上時(shí)執(zhí)行所述方法之一。該程序代碼例如可儲(chǔ)存于機(jī)器可讀載體上。其它實(shí)施例包含儲(chǔ)存于機(jī)器可讀載體上的用于執(zhí)行此處所述方法之一的計(jì)算機(jī)程序。換言之,因此,本發(fā)明方法的一實(shí)施例為計(jì)算機(jī)程序,其具有程序代碼,當(dāng)該計(jì)算 機(jī)程序運(yùn)行于計(jì)算機(jī)上時(shí)該程序代碼用于執(zhí)行此處所述的方法之一。因此,本發(fā)明方法的又一實(shí)施例為數(shù)據(jù)載體(或數(shù)字儲(chǔ)存介質(zhì))包含可用于執(zhí)行 此處所述方法之一的計(jì)算機(jī)程序。因此,本發(fā)明方法的又一實(shí)施例為數(shù)據(jù)流或信號(hào)序列,表示用于執(zhí)行此處所述方 法之一的計(jì)算機(jī)程序。數(shù)據(jù)流或信號(hào)序列例如可配置為經(jīng)由數(shù)據(jù)通信連接(例如因特網(wǎng)) 傳輸。又一實(shí)施例包含被配置為或適于執(zhí)行此處所述方法之一的一種處理裝置,例如計(jì) 算機(jī)或可編程邏輯裝置。又一實(shí)施例包含計(jì)算機(jī),其上安裝有用于執(zhí)行此處所述方法之一的計(jì)算機(jī)程序。在若干實(shí)施例中,可編程邏輯裝置(例如現(xiàn)場(chǎng)可編程門(mén)陣列)可用來(lái)執(zhí)行此處所 述方法的部分或全部功能。在若干實(shí)施例中,現(xiàn)場(chǎng)可編程門(mén)陣列可與微處理器協(xié)作來(lái)執(zhí)行 此處所述方法之一。Mrk綜上所述,當(dāng)在編碼器側(cè)運(yùn)算噪聲填充參數(shù),及在解碼器側(cè)施加噪聲時(shí),通過(guò)考慮 輸入信號(hào)特性及已解碼信號(hào)特性,本發(fā)明強(qiáng)化了音頻編碼工具“噪聲填充”。在本發(fā)明的實(shí) 施例中,估計(jì)零量化頻譜線(xiàn)的調(diào)性/噪聲度,并將其用于估計(jì)本底噪聲。然后,將此本底噪 聲傳送至解碼器,解碼器將該噪聲填充應(yīng)用至出現(xiàn)于頻譜的特定區(qū)的零量化值。這些區(qū)域 是基于已解碼頻譜的特性選定的。有關(guān)本發(fā)明的上下文,注意本發(fā)明應(yīng)用于在MDCT上使用標(biāo)量量化的基于轉(zhuǎn)換的 編碼。MDCT系數(shù)先前是通過(guò)基于感知線(xiàn)索計(jì)算的曲線(xiàn)規(guī)格化的。通過(guò)如同于AMR-WB+的TCX模式(參考參考文獻(xiàn)[1])下進(jìn)行的對(duì)LPC系數(shù)進(jìn)行加權(quán),由先前的LPC(線(xiàn)性預(yù)測(cè)編 碼)分析階段推斷該曲線(xiàn)。由已加權(quán)系數(shù),設(shè)計(jì)感知加權(quán)濾波器并于MDCT前應(yīng)用該感知加 權(quán)濾波器。還在逆MDCT后,在解碼器側(cè)應(yīng)用逆濾波器。該逆感知加權(quán)濾波器對(duì)量化噪聲進(jìn) 行成型,使得其最小化或遮蔽所感知的噪聲。在根據(jù)本發(fā)明的實(shí)施例中,克服了現(xiàn)有技術(shù)的缺陷。傳統(tǒng)上,只考慮基于頻譜包絡(luò) 的閾值、遮蔽閾值、或能量閾值,以系統(tǒng)化性方式對(duì)零量化值應(yīng)用噪聲填充?,F(xiàn)有技術(shù)既未 考慮輸入信號(hào)特性,也未考慮已解碼信號(hào)特性。如此,傳統(tǒng)裝置可引入非期望的額外偽信號(hào) (特別地,噪聲偽信號(hào))而抵消此種工具的優(yōu)點(diǎn)。相反地,根據(jù)本發(fā)明的實(shí)施例允許如前文討論的具有減少的偽信號(hào)的改良式噪聲 填充。參考文獻(xiàn)[1] "Extended Adaptive Multi-Rate-ffideband (AMR-ffB+) codec", 3GPP TS 26.290 V6. 3. 0,2005-06,Technical Specification[2]Ragot et al, "ITU-T G. 729. 1 :AN 8_32Kbit/S Scalable Coder Interoperable with G. 729 for Wideband Telephony and Voice Over IP",Vol. 4,ICASSP 07,15-20 April 2007[3] "AUDIO CODING”, International Application No. :PCT/IB2002/001388, Applicant :K0NINKLIJKE PHILIPS ELECTRONICSN.V. [NL/NL] ;Groenewoudseweg 1 NL-5621 BA Eindhoven(NL). Inventors =TAORI, Rakesh ;Prof Holstlaan 6 NL-5656 AA Eindhoven (NL) and VAN DE PAR, Steven, L. , J. , D. , E. ;Prof. Holstlaan 6 NL-5656 AA Eindhoven (NL).[4]Generic Coding of Moving Pictures and Associated Audio :Advanced Audio Coding. International Standard 13818-7, IS0/IECJTC1/SC29/WG11 Moving Pictures Expert Group,1997.
權(quán)利要求
1.一種用于基于音頻信號(hào)的輸入頻譜表示(110)提供該音頻信號(hào)的填充了噪聲的頻 譜表示(112)的噪聲填充器(100),該噪聲填充器包括頻譜區(qū)識(shí)別器(120),被配置為識(shí)別與輸入頻譜表示(110)的非零頻譜區(qū)(420a、420b、 420c、420d)間隔至少一個(gè)中間頻譜區(qū)(422a、422b、422c、422d、422h、422i、422j、422k)的 輸入頻譜表示(110)的頻譜區(qū)(42&、422f、422g),而獲得已識(shí)別的頻譜區(qū)(42&、422f、 422g);以及噪聲插入器(130),被配置為將噪聲選擇性地引入已識(shí)別的頻譜區(qū)(42&、422f、 422g),而獲得音頻信號(hào)的填充了噪聲的頻譜表示(112)。
2.根據(jù)權(quán)利要求1所述的噪聲填充器(100),其中頻譜區(qū)識(shí)別器(120)被配置為識(shí)別 輸入頻譜表示(110)的頻譜線(xiàn)(42&、422f、422g),所述頻譜線(xiàn)被量化為零,并且包含至少 第一預(yù)定數(shù)目(4)的量化為零的較低頻鄰近頻譜線(xiàn)(42h、422b、422c、422d ;422b、422c、 422d、422e、422C、422d、42&、422f)及至少第二預(yù)定數(shù)目(4)的量化為零的較高頻鄰近頻 譜線(xiàn)(422f、422g、422h、422i ;422g、422h、422i、422j 422h、422i、422j、422k)作為已識(shí)別 的頻譜區(qū);其中第一預(yù)定數(shù)目(4)大于或等于1,并且第二預(yù)定數(shù)目(4)大于或等于1 ;以及其中噪聲插入器(130)被配置為將噪聲選擇性地引入已識(shí)別的頻譜線(xiàn)(42&、422f、 422g),同時(shí)使量化為非零值的頻譜線(xiàn)(420a、420b、420c、420d)及量化為零的但不包含第 一預(yù)定數(shù)目(4)的量化為零的較低頻鄰近頻譜線(xiàn)或第二預(yù)定數(shù)目(4)的量化為零的較高頻 鄰近頻譜線(xiàn)的頻譜線(xiàn)G22a、42^、422c、422d、422h、422i、422j、42^0,不受噪聲填充影響。
3.根據(jù)權(quán)利要求2所述的噪聲填充器(100),其中第一預(yù)定數(shù)目(4)等于第二預(yù)定數(shù) 目⑷。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的噪聲填充器(100),其中該噪聲填充器被配置 為將噪聲只引入音頻信號(hào)的輸入頻譜表示(110)上部中的頻譜區(qū),而使該音頻信號(hào)的輸 入頻譜表示(110)的下部不受噪聲填充影響。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的噪聲填充器(100),其中頻譜區(qū)識(shí)別器(120) 被配置為對(duì)給定頻譜區(qū)(i)的預(yù)定雙邊頻譜鄰近中的頻譜區(qū)的已量化強(qiáng)度值(已量化 (χ⑴))求和,以獲得和值(E);以及評(píng)估該和值(E)以判定該給定頻譜區(qū)⑴是否為已識(shí)別的頻譜區(qū)。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的噪聲填充器(100),其中頻譜區(qū)識(shí)別器(120) 被配置為掃描輸入頻譜表示(110)的頻譜區(qū)范圍,以檢測(cè)量化為零的頻譜區(qū)的連續(xù)序列 (422a至422i ;422b至422 j ;422c至422k);以及辨識(shí)所檢測(cè)的連續(xù)序列的一個(gè)或多個(gè)中 央頻譜區(qū)(42&、422f、422g),作為已識(shí)別的頻譜區(qū)。
7.一種用于基于音頻信號(hào)的已量化頻譜表示(510)提供噪聲填充參數(shù)(512)的噪聲填 充參數(shù)計(jì)算器(500),該噪聲填充參數(shù)計(jì)算器包括頻譜區(qū)識(shí)別器(520),被配置為識(shí)別與已量化頻譜表示(510)的非零頻譜區(qū)G20a、 420b、420c、420d)間隔至少一個(gè)中間頻譜區(qū)(422a、422b、422c、422d、422h、422i、422j、 422k)的已量化頻譜表示(110)的頻譜區(qū)(42&、422f、422g),而獲得已識(shí)別的頻譜區(qū) (422e.422f.422g);以及噪聲值計(jì)算器(530),被配置為選擇性地考慮已識(shí)別的頻譜區(qū)(i)的量化誤差(能量(x(i))),用于噪聲填充參數(shù)(512、nf)的計(jì)算。
8.根據(jù)權(quán)利要求7所述的噪聲填充參數(shù)計(jì)算器(500),其中頻譜區(qū)識(shí)別器(520)被配置為識(shí)別輸入頻譜表示(510)的頻譜線(xiàn)(42&、422f、 422g),所述頻譜線(xiàn)被量化為零,并且包含至少第一預(yù)定數(shù)目(4)的量化為零的較低頻鄰 近頻譜線(xiàn)(422a,422b,422c,422d ;42^、422c、422d、422e、422c、422d、422e、422f)及至少 第二預(yù)定數(shù)目(4)的量化為零的較高頻鄰近頻譜線(xiàn)G22f、422g、422h、422i ;422g、422h、 422i、422j ;422h、422i、422j、422k)作為已識(shí)別的頻譜區(qū);其中第一預(yù)定數(shù)目(4)大于或等于1,并且第二預(yù)定數(shù)目(4)大于或等于1 ;以及其中噪聲值計(jì)算器(520)被配置為選擇性地考慮已識(shí)別的頻譜區(qū)(i)的量化誤差,用 于噪聲填充參數(shù)的計(jì)算,同時(shí)不考慮將量化為非零值的頻譜線(xiàn)(420a、420b、420c、420d)及 量化為零的但不包含第一預(yù)定數(shù)目(4)的量化為零的較低頻鄰近頻譜線(xiàn)或第二預(yù)定數(shù)目 (4)的量化為零的較高頻鄰近頻譜線(xiàn)的頻譜線(xiàn)G22a、422b、422c、422d、422h、422i、422j、 422k)用于噪聲填充參數(shù)的計(jì)算。
9.根據(jù)權(quán)利要求7至8中任一項(xiàng)所述的噪聲填充參數(shù)計(jì)算器(500),其中噪聲值計(jì)算 器(530)被配置為考慮已識(shí)別的頻譜區(qū)(i)的量化誤差的實(shí)際能量(能量(x(i))),用于 噪聲填充參數(shù)(512、nf、nf_index)的計(jì)算。
10.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的噪聲填充參數(shù)計(jì)算器(500),其中噪聲值計(jì) 算器(530)被配置為關(guān)于集中于單個(gè)頻譜區(qū)或集中于多個(gè)連續(xù)頻譜線(xiàn)的音調(diào)量化誤差能 量,強(qiáng)調(diào)分布于多個(gè)已識(shí)別的頻譜區(qū)的非音調(diào)量化誤差能量(能量(x(i)))。
11.根據(jù)權(quán)利要求7至10中任一項(xiàng)所述的噪聲填充參數(shù)計(jì)算器(500),其中噪聲值 計(jì)算器(530)被配置為計(jì)算已識(shí)別的頻譜區(qū)(i)的對(duì)數(shù)量化誤差能量(IoglO(能量 (χ⑴)))的和,以獲得噪聲填充參數(shù)(512、nf、nf_index)。
12.—種表示音頻信號(hào)的已編碼音頻信號(hào)表示(900),該已編碼音頻信號(hào)表示包括音頻信號(hào)的已編碼已量化的頻譜域表示;及已編碼的噪聲填充參數(shù);其中噪聲填充參數(shù)表示被量化為零并且與頻譜域表示的量化為非零值的頻譜區(qū)間隔 至少一個(gè)中間頻譜區(qū)的頻譜域表示的頻譜區(qū)的量化誤差。
13.一種用于基于音頻信號(hào)的輸入頻譜表示提供音頻信號(hào)的填充了噪聲的頻譜表示的 方法(700),該方法包括識(shí)別(710)與輸入頻譜表示的非零頻譜區(qū)間隔至少一個(gè)中間頻譜區(qū)的輸入頻譜表示 的頻譜區(qū),而獲得已識(shí)別的頻譜區(qū);以及將噪聲選擇性地引入(720)已識(shí)別的頻譜區(qū),而獲得音頻信號(hào)的填充了噪聲的頻譜表7J\ ο
14.一種用于基于音頻信號(hào)的已量化頻譜表示提供噪聲填充參數(shù)的方法(800),該方 法包括識(shí)別(810)與已量化頻譜表示的非零頻譜區(qū)間隔至少一個(gè)中間頻譜區(qū)的已量化頻譜 表示的頻譜區(qū),而獲得已識(shí)別的頻譜區(qū);以及選擇性地考慮(820)已識(shí)別的頻譜區(qū)的量化誤差,用于噪聲填充參數(shù)的計(jì)算。
15.一種計(jì)算機(jī)程序,用于當(dāng)該計(jì)算機(jī)程序運(yùn)行于計(jì)算機(jī)上時(shí)執(zhí)行根據(jù)權(quán)利要求13或14所述的方法。
全文摘要
一種用于基于音頻信號(hào)的輸入頻譜表示提供該音頻信號(hào)的填充了噪聲的頻譜表示的噪聲填充器,包括頻譜區(qū)識(shí)別器,被配置為識(shí)別與該輸入頻譜表示的非零頻譜區(qū)間隔至少一個(gè)中間頻譜區(qū)的輸入頻譜表示的頻譜區(qū)而獲得已識(shí)別的頻譜區(qū);以及噪聲插入器,被配置為將噪聲選擇性地引入該已識(shí)別的頻譜區(qū)而獲得該音頻信號(hào)的填充了噪聲的頻譜表示。一種用于基于音頻信號(hào)的已量化頻譜表示提供噪聲填充參數(shù)的噪聲填充參數(shù)計(jì)算器,包括如上所述的頻譜區(qū)識(shí)別器;以及噪聲值計(jì)算器,被配置為選擇性地考慮該已識(shí)別的頻譜區(qū)的量化誤差用于該噪聲填充參數(shù)的計(jì)算。相應(yīng)地,可獲得表示該音頻信號(hào)的已編碼音頻信號(hào)表示。
文檔編號(hào)G10L19/00GK102089806SQ200980127090
公開(kāi)日2011年6月8日 申請(qǐng)日期2009年6月26日 優(yōu)先權(quán)日2008年7月11日
發(fā)明者于爾根·赫勒, 伯恩哈德·格瑞, 哈拉爾德·波普, 尼古拉斯·里特爾博謝, 屈揚(yáng)姆·富克斯, 延斯·希斯費(fèi)爾德, 斯特凡·瓦希尼克, 斯特凡·蓋爾斯貝格, 杰拉爾德·舒勒, 馬庫(kù)斯·馬特拉斯 申請(qǐng)人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)