亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種優(yōu)化的復(fù)合編碼方法

文檔序號(hào):2819098閱讀:363來(lái)源:國(guó)知局
專利名稱:一種優(yōu)化的復(fù)合編碼方法
技術(shù)領(lǐng)域
本發(fā)明涉及在傳輸或存儲(chǔ)多媒體信號(hào),例如音頻(語(yǔ)音和/或聲音)信號(hào)或視頻信號(hào)的應(yīng)用中對(duì)數(shù)字信號(hào)的編碼和解碼。
背景技術(shù)
為了保證靈活性和連續(xù)性,現(xiàn)代的、改良的多媒體通訊服務(wù)必須可以在一個(gè)多變的環(huán)境下予以運(yùn)行。多媒體通訊部門(sector)的活力以及網(wǎng)絡(luò)、接入點(diǎn)和終端的不同特征,產(chǎn)生了過(guò)多的壓縮格式。
本發(fā)明與一個(gè)數(shù)字信號(hào)或部分?jǐn)?shù)字信號(hào)使用多于一種編碼技術(shù)進(jìn)行編碼時(shí)所使用的“復(fù)合編碼(multiple coding)”技術(shù)的優(yōu)化有關(guān)。復(fù)合編碼可以是同時(shí)(在一個(gè)單傳輸中完成)或非同時(shí)的。該過(guò)程可以用于同一個(gè)信號(hào)或者源于同一個(gè)信號(hào)的不同版本的信號(hào)(例如具有不同帶寬)。于是,“復(fù)合編碼”與“編碼轉(zhuǎn)換(transcoding)”區(qū)分開來(lái),在“編碼轉(zhuǎn)換”中每個(gè)編碼器都將源于之前一個(gè)編碼器壓縮的信號(hào)的解碼再壓縮成一個(gè)版本。
復(fù)合編碼的一個(gè)例子是對(duì)同樣內(nèi)容以多于一種格式進(jìn)行編碼,然后將其傳送給不支持同樣編碼格式的一個(gè)終端。在實(shí)時(shí)廣播的情況下,該過(guò)程必須同步完成。在訪問一個(gè)數(shù)據(jù)庫(kù)的情況下,編碼可以一個(gè)接一個(gè)地完成,并且“離線”。在這些例子中,復(fù)合編碼被用來(lái)對(duì)具有不同格式的同樣內(nèi)容進(jìn)行編碼,其使用多個(gè)編碼器(或者可以是多個(gè)比特率(bit rate),或者同一個(gè)編碼器的多個(gè)模式),每個(gè)編碼器獨(dú)立于其他編碼器運(yùn)行。
復(fù)合編碼的另一個(gè)用途發(fā)生在編碼結(jié)構(gòu)中,在該結(jié)構(gòu)中多個(gè)編碼器競(jìng)爭(zhēng)對(duì)一個(gè)信號(hào)段(segment)進(jìn)行編碼,最終只有一個(gè)編碼器被選擇來(lái)對(duì)該信號(hào)段編碼。該編碼器可以在處理該段后,或者甚至更晚些(延遲決定)被選擇。該類型的結(jié)構(gòu)在下面被稱為“復(fù)合模式編碼(multimode coding)”結(jié)構(gòu)(指對(duì)一個(gè)編碼“模式”的選擇)。在這些復(fù)合模式編碼結(jié)構(gòu)中,共享一個(gè)“共用過(guò)去(common past)”的多個(gè)編碼器對(duì)同樣的信號(hào)部分進(jìn)行編碼。所使用的該編碼技術(shù)可以不同或源自一個(gè)單一編碼結(jié)構(gòu)。除了在“無(wú)記憶(memoryless)”技術(shù)的情況下,他們并不是完全獨(dú)立的。在使用遞歸處理的該(常規(guī))編碼技術(shù)的情況下,對(duì)一個(gè)給定信號(hào)段的處理取決于該信號(hào)在過(guò)去如何被編碼。這樣,當(dāng)一個(gè)編碼器不得不考慮來(lái)自于另一個(gè)編碼器的輸出的存儲(chǔ)器時(shí),則存在一些編碼器互相依賴的情況。
“復(fù)合編碼”的概念以及使用該技術(shù)的場(chǎng)合已經(jīng)在上述的不同情況予以介紹。但是,實(shí)施的復(fù)雜性可以被證明是不可克服的。
例如,在內(nèi)容服務(wù)商采用不同客戶的接入點(diǎn)、網(wǎng)絡(luò)以及終端來(lái)傳播具有不同格式的同樣內(nèi)容的情況下,該操作變得特別地復(fù)雜,因?yàn)樗枰袷降臄?shù)量增加了。在實(shí)時(shí)廣播的情況下,由于不同的格式被并行地編碼,系統(tǒng)資源對(duì)其快速地做出了限制。
上述提及的第二個(gè)用途與復(fù)合模式編碼應(yīng)用有關(guān),其從用于被分析的每個(gè)信號(hào)部分的一系列編碼器中選擇一個(gè)編碼器。該選擇需要一個(gè)標(biāo)準(zhǔn)的定義,許多通常的標(biāo)準(zhǔn)著眼于對(duì)比特率/失真比的優(yōu)化。信號(hào)基于連續(xù)時(shí)間段被分析,在每個(gè)段中要計(jì)算許多編碼。然后,給定質(zhì)量的具有低比特率的編碼,或者給定比特率具有最好質(zhì)量的編碼被選擇。需要注意的是,在比特率和失真之外的限制可以被使用。
在這樣的結(jié)構(gòu)中,所述編碼經(jīng)常被通過(guò)基于相關(guān)段對(duì)該信號(hào)進(jìn)行分析選擇一個(gè)優(yōu)先(priori)(根據(jù)該信號(hào)的特征選擇)。但是,為了這個(gè)選擇的目的產(chǎn)生該信號(hào)的一個(gè)加強(qiáng)(robust)的分類(robust classification)的困難導(dǎo)致提出一個(gè)想法,即在對(duì)所有模式編碼后作出的后選擇最優(yōu)模式,盡管這帶來(lái)高復(fù)雜性。
結(jié)合上述兩種途徑的中間方式已經(jīng)被提出來(lái),其從減少計(jì)算成本的角度著眼。但是,這樣的策略比所述最優(yōu)的方法要差,而且與探測(cè)所有模式的方法相比難以執(zhí)行。例如,探測(cè)所有模式或模式的主要部分構(gòu)成一個(gè)復(fù)合編碼應(yīng)用,其主要是高度復(fù)雜而且不容易與實(shí)時(shí)編碼優(yōu)先(priori)兼容。
目前,多數(shù)復(fù)合編碼和編碼轉(zhuǎn)換操作沒有考慮在格式彼此之間,以及在格式和其內(nèi)容彼此之間的交互影響。很少的復(fù)合模式編碼技術(shù)已經(jīng)提出,但是所使用模式的決定通常完成一優(yōu)先(priori)操作,例如,不論對(duì)信號(hào)(通過(guò)分類,如在SMV編碼器(可選擇模式語(yǔ)音編碼機(jī)(vocoder))中),或者作為網(wǎng)絡(luò)環(huán)境的一個(gè)函數(shù)(例如,在適應(yīng)復(fù)合比率(AMR)編碼器中)。
在下述文檔中描述了不同的選擇模式,特別是由源控制的決定以及由網(wǎng)絡(luò)控制的決定。
“An overview of variable rate speech coding for cellularnetworks”Gersho,A.、Paksoy,E.著,《無(wú)線通訊》,1992。會(huì)議學(xué)報(bào),1992IEEE關(guān)于選擇主題的國(guó)際會(huì)議,1992年6月25日、26日,頁(yè)碼172~175。
“A variable rate speech coding algorithm for cellular networks”,Paksoy、E.Gersho,A.著,《電訊語(yǔ)音編碼》,1992。學(xué)報(bào),IEEE Workshop,1993,頁(yè)碼109~110。
“Variable rate speech coding for multiple access wireless networks”,Paksoy、E.Gersho,A.著,學(xué)報(bào),第7次地中海電子技術(shù)會(huì)議,1994年4月12~14日,頁(yè)碼第1卷47~50。
在由源(source)控制決定的例子中,所述優(yōu)先(priori)決定在所述輸入信號(hào)的分類的基礎(chǔ)上做出。有很多對(duì)輸入信號(hào)分類的方法。
在由網(wǎng)絡(luò)控制決定的例子中,提供一個(gè)復(fù)合模式編碼器是很簡(jiǎn)單的,該編碼器的比特率被一個(gè)外部模塊所選擇,而不是被源(source)所選擇。最簡(jiǎn)單的方法是生成一個(gè)編碼器家族,其中每個(gè)編碼器都有確定的但又不同的比特率,并且在這些比特率中轉(zhuǎn)換而獲得一個(gè)所需要的當(dāng)前模式。
在組合許多用于待使用模式的優(yōu)先(priori)選擇的標(biāo)準(zhǔn)的基礎(chǔ)上,相關(guān)工作也被完成,尤其是下述文檔“Variable-rate for the basic speech service in UMTS”,Berruto,E.、Sereno,D.著;媒介技術(shù)會(huì)議,1993IEEE第43次,1993年5月18~20日,頁(yè)碼520~530;以及“A VR-CELP codec implementation for CDMA mobilecommunications”,Cellario,L.、Sereno,D.、Giani,M.、Blocher,P.、Hellwing,K等著,《聲學(xué)、語(yǔ)音和信號(hào)處理》,1994,ICASSP-94,1994IEEE國(guó)際會(huì)議,卷1,1994年4月19~22日,頁(yè)碼卷1,I/281-I284。
所有使用優(yōu)先的(priori)編碼模式選擇的復(fù)合模式編碼算法都有同樣的問題,尤其是與優(yōu)先的(priori)分類的強(qiáng)健性有關(guān)的問題。
由于這個(gè)原因,已經(jīng)提出使用后(posteriori)決定用于編碼模式。例如,在下述文檔中“Finite state CELP for variable rate speech coding”,Vaseghi,S.V.著,《聲學(xué)、語(yǔ)音和信號(hào)處理》,1990,ICASSP-90,1990IEEE國(guó)際會(huì)議,1990年4月3~6日,頁(yè)碼卷1,37~40,編碼器可以通過(guò)優(yōu)化一個(gè)客觀質(zhì)量評(píng)測(cè)(objective qualitymeasurement)在不同的模式間切換,該評(píng)測(cè)具有作出后(posteriori)選擇作為輸入信號(hào)的特征、目標(biāo)SQNR、編碼器的當(dāng)前狀態(tài)的函數(shù)的結(jié)果。這種編碼方案提高了質(zhì)量。但是,不同編碼被并行地執(zhí)行,且這種系統(tǒng)的結(jié)果復(fù)雜度非常高。
其它技術(shù)提出了將一個(gè)優(yōu)先(priori)決定與閉環(huán)改進(jìn)相結(jié)合。在文檔“Multimode variable bit rate speech codingan efficient paradigm forhig-quality low-rate representation of speech signal”,DAS,A.、Dejaco,A.、Manjunath,S.、Aanthapadmanabhan,A.、Huang,J、Choy,E.著,《聲學(xué)、語(yǔ)音和信號(hào)處理》,1999,ICASSP’99,學(xué)報(bào),1999IEEE國(guó)際會(huì)議,卷41999年4月15~19日,頁(yè)碼卷4,2307~2310,所提出的系統(tǒng)完成一個(gè)所述模式的第一選擇(開環(huán)選擇)作為所述信號(hào)的特征的函數(shù)。這個(gè)決定可以通過(guò)分類來(lái)完成。然后,如果所選擇模式的執(zhí)行不令人滿意,則在一個(gè)錯(cuò)誤評(píng)測(cè)的基礎(chǔ)上,一個(gè)更高的比特率模式被應(yīng)用且所述操作被重復(fù)(閉環(huán)決定)。
類似的技術(shù)在下述文檔中被描述*“Variable rate speech coding for UMTS”,Cellario,L.、Sereno,D.著,《電訊語(yǔ)音編碼》,1993,學(xué)報(bào),IEEE Workshop,1993,頁(yè)碼1~2。
“Phonetically-based vector excitation coding of speech at 3.6kbps”,Wang,S.、Gersho,A.著,《聲學(xué)、語(yǔ)音和信號(hào)處理》,1989,ICASSP-89,1989IEEE國(guó)際會(huì)議,1989年5月23~26日,頁(yè)碼卷1,49~52。
*“A modified CS-ACELP algorithm for variable-rate speech codingrobust in noisy environments”,Beritelli,F(xiàn).著,IEEE信號(hào)處理信函,卷6,出版日期1999年2月2日,頁(yè)碼31~34。
一個(gè)開環(huán)第一選擇在對(duì)所述輸入信號(hào)分類(語(yǔ)音或聲音/非聲音分類(phonetic or voiced/non-voiced classsifcation))后完成,在其后一個(gè)閉環(huán)決定被做出或者在整個(gè)編碼器上,在該情況下整個(gè)語(yǔ)音段被重新編碼;或者在部分所述編碼器上,如同在前面所述由“*”標(biāo)識(shí)的,在該情況下所使用的字典被通過(guò)一個(gè)閉環(huán)處理所選擇。
所有如上所述的工作尋找解決優(yōu)化模式選擇的復(fù)雜度問題的方法,通過(guò)使用或部分使用一個(gè)優(yōu)先(priori)選擇或預(yù)選擇來(lái)避免復(fù)合編碼或降低并行所使用的編碼器的數(shù)量。
但是,沒有在先技術(shù)曾提出過(guò)降低編碼器復(fù)雜度。

發(fā)明內(nèi)容
本發(fā)明在這樣的情況下尋找提高的方法。
為了這個(gè)目的,本發(fā)明提出一個(gè)復(fù)合壓縮編碼方法,其中,一個(gè)輸入信號(hào)并行地輸入若干編碼器內(nèi),每個(gè)編碼器包括一系列功能單元,目的在于由每一個(gè)編碼器對(duì)所述信號(hào)進(jìn)行壓縮編碼。
本發(fā)明的方法包括下述預(yù)備步驟a)標(biāo)識(shí)(identifying)組成每個(gè)編碼器的功能單元,且由各單元實(shí)現(xiàn)一個(gè)或多個(gè)功能;b)標(biāo)識(shí)(marking)從一個(gè)編碼器至另一個(gè)編碼器的通用功能;c)對(duì)所有在一個(gè)通用計(jì)算模塊內(nèi)的至少部分編碼器,執(zhí)行一次所述通用功能。
在本發(fā)明的一個(gè)實(shí)施例中,上述步驟由一個(gè)軟件產(chǎn)品執(zhí)行,該產(chǎn)品包括完成這些步驟的程序指令。在這個(gè)方面,本發(fā)明也涉及一個(gè)上述類型的軟件產(chǎn)品,其適合存儲(chǔ)于一個(gè)處理單元,尤其是一個(gè)計(jì)算機(jī)或一個(gè)移動(dòng)終端的存儲(chǔ)器內(nèi),或者一個(gè)與該處理單元的閱讀器相配合的可移除存儲(chǔ)介質(zhì)內(nèi)。
本發(fā)明也涉及一個(gè)用于實(shí)現(xiàn)本發(fā)明的方法的壓縮編碼輔助(aid)系統(tǒng),該系統(tǒng)包括一個(gè)存儲(chǔ)器,適合存儲(chǔ)上述類型的軟件產(chǎn)品的指令的。


本發(fā)明的其他特征和優(yōu)點(diǎn)在閱讀下面的詳細(xì)描述以及附圖后即更加清楚,其中圖1a是本發(fā)明的應(yīng)用環(huán)境的圖,顯示了并行布置的許多編碼器;圖1b是本發(fā)明的一個(gè)應(yīng)用的圖,具有在并行布置的許多編碼器之間共享的功能單元;圖1c是本發(fā)明的一個(gè)應(yīng)用的圖,具有在復(fù)合模式編碼之間共享的功能單元;圖1d是本發(fā)明的一個(gè)應(yīng)用于復(fù)合模式網(wǎng)格(trellis)編碼的圖;圖2是一個(gè)感知(perceptual)頻率編碼器的主要功能單元的圖;圖3是一個(gè)綜合分析編碼器的主要功能單元的圖;圖4a是一個(gè)TDAC編碼器的主要功能單元的圖;圖4b是由圖4a所示的編碼器編碼的位流的格式的一個(gè)圖;圖5是本發(fā)明的并行應(yīng)用于若干TDAC編碼器的優(yōu)選實(shí)施例的圖;圖6a是一個(gè)MPEG-1(第一層和第二層)編碼器的主要功能單元的圖;圖6b是一個(gè)由圖6a所示編碼器編碼的位流的格式的圖;圖7是本發(fā)明應(yīng)用于并行設(shè)置的若干MPEG-1(第一層和第二層)編碼器的優(yōu)選實(shí)施例的圖;并且圖8更詳細(xì)地描述了一個(gè)符合3GPP標(biāo)準(zhǔn)的NB-AMR綜合分析編碼器的功能單元。
具體實(shí)施例方式
首先參考圖1a,其中用C0、C1......CN表示并行的若干編碼器,每個(gè)都接受一個(gè)輸入信號(hào)S0。每個(gè)編碼器包括功能單元BF1至BFn,用來(lái)實(shí)現(xiàn)連續(xù)編碼步驟以及最終傳送一個(gè)編碼比特流BS0、BS1......BSN。在一個(gè)復(fù)合模式編碼應(yīng)用中,編碼器C0至CN的輸出連接到一個(gè)優(yōu)化模式選擇模塊MM,且來(lái)自于所述優(yōu)化編碼器中的比特流BS被轉(zhuǎn)送(圖1a中的虛線箭頭)。
為了簡(jiǎn)單起見,所有在圖1a所示例子中的編碼器都有同樣數(shù)量的功能單元,但是必須理解的是,在實(shí)踐中并不是所有這些功能單元都必須出現(xiàn)在所有的編碼器中。
有時(shí),從一個(gè)模式(或編碼器)至另一個(gè)模式的某些功能單元BFi是一樣的。其它的僅僅在被量化的層(layers)的級(jí)別上有差別。當(dāng)使用來(lái)自使用類似的模型或與信號(hào)物理相關(guān)(linked)的計(jì)算參數(shù)的同樣的編碼家族的編碼器時(shí),可用的關(guān)系也是存在的。
本發(fā)明的目的是利用這些關(guān)系來(lái)降低復(fù)合編碼操作的復(fù)雜度。
本發(fā)明首先提出標(biāo)識(shí)組成每個(gè)編碼器的功能單元。然后,通過(guò)考慮功能相等或類似的功能單元來(lái)利用編碼器之間的技術(shù)相似性。對(duì)于這些單元中的每一個(gè),本發(fā)明提出定義“通用(common)”操作,并僅對(duì)所有編碼器完成一次;并且使用對(duì)每個(gè)編碼器特定的計(jì)算方法,并且特別地使用上述的通用計(jì)算的結(jié)果。這些計(jì)算方法產(chǎn)生了一個(gè)可能不同于由完整編碼(completecoding)所產(chǎn)生的結(jié)果。然后,實(shí)際上的目標(biāo)是通過(guò)利用特別是由通用計(jì)算所提供的可用信息來(lái)加快處理。例如,類似于這些的加快計(jì)算的方法被很多技術(shù)所使用來(lái)降低編碼轉(zhuǎn)換操作的復(fù)雜度(大家所知道的“智能的編碼轉(zhuǎn)換(intelligent transcoding)”技術(shù))。
圖1b描述了所提出的解決方案。在當(dāng)前的例子中,如上所述“通用”操作僅對(duì)至少部分編碼器執(zhí)行一次,而且優(yōu)選地對(duì)一個(gè)獨(dú)立模塊MI內(nèi)所有編碼器執(zhí)行一次,該MI向至少部分編碼器或優(yōu)選地向所有編碼器重新分布(redistribute)獲得的結(jié)果。于是存在一個(gè)在C0至CN的至少部分編碼器之間分享所獲得結(jié)果的問題(這在下面稱為“共有(mutualization)”)。上述類型的獨(dú)立模塊MI可以形成如上所述的復(fù)合壓縮編碼輔助系統(tǒng)的一部分。
在一個(gè)變化中,與使用一個(gè)外部計(jì)算模塊MI不同,所存在的同一個(gè)編碼器或許多分開的編碼器的一個(gè)或者多個(gè)功能單元BF1至BFn被使用,所述一個(gè)或多個(gè)編碼器根據(jù)后面所解釋的標(biāo)準(zhǔn)被選擇。
本發(fā)明可以使用許多策略,這些策略可以根據(jù)相關(guān)功能單元的作用(role)來(lái)自然地區(qū)分。
第一個(gè)策略使用具有最低的比特率的編碼器的參數(shù)來(lái)聚焦(focus)對(duì)所有其它模式搜索的參數(shù)。
第二個(gè)策略使用具有最高比特率的編碼器的參數(shù),并且然后逐漸地“降級(jí)”為具有最低比特率的編碼器。
當(dāng)然,如果對(duì)一個(gè)特定的編碼器進(jìn)行優(yōu)先選擇,可以使用該編碼器來(lái)對(duì)一個(gè)信號(hào)段進(jìn)行編碼并且然后可以通過(guò)應(yīng)用上述兩種策略來(lái)達(dá)到具有更高或更低比特率的編碼器。
當(dāng)然,除比特率之外的其它標(biāo)準(zhǔn)可以用來(lái)控制搜索。例如,對(duì)某些功能單元,可以優(yōu)先選擇這樣的編碼器,其參數(shù)導(dǎo)致其對(duì)有效提取(或分析)和/或?qū)ζ渌幋a器的類似參數(shù)的編碼最好,效力根據(jù)復(fù)雜度或質(zhì)量或其兩者之間的折中來(lái)判斷。
一個(gè)不在所述編碼器內(nèi)但能使與所有編碼器相關(guān)的功能單元的參數(shù)的編碼有效的獨(dú)立編碼模塊也可以被創(chuàng)建。
不同的實(shí)現(xiàn)策略尤其在復(fù)合編碼的情況下特別有益。如圖1c所示的情況下,本發(fā)明降低了在最后一個(gè)步驟內(nèi)完成的編碼器的在前的后(posteriori)選擇的計(jì)算復(fù)雜度,例如通過(guò)在轉(zhuǎn)發(fā)比特流BS之前的最后的模塊MM。
在這個(gè)復(fù)合模式編碼的特別例子中,圖1c所示的本發(fā)明的一個(gè)變化在每個(gè)編碼步驟之后(并且在功能單元BFi1至BFiN1之后,該等功能單元與每個(gè)其它單元相競(jìng)爭(zhēng)且其對(duì)于所選擇的塊BFicc的結(jié)果將在后面使用)引入了一個(gè)部分選擇模塊MSPi(其中i=1,2,......,N)。于是,不同模式的類似處被用來(lái)加快對(duì)每個(gè)功能單元的計(jì)算。在這樣的情況下,不是所有的編碼方案都有必要被計(jì)算。
一個(gè)基于上述的將其劃分為功能單元的復(fù)合模式結(jié)構(gòu)的更復(fù)雜的變化將通過(guò)圖1d來(lái)描述。圖1d的復(fù)合模式結(jié)構(gòu)是一個(gè)“網(wǎng)格(trellis)”結(jié)構(gòu),通過(guò)所述網(wǎng)格(trellis)提供若干可能的路徑。事實(shí)上,圖1描述了所有通過(guò)所述網(wǎng)格(trellis)的可能的路徑,于是構(gòu)成了一個(gè)樹形。網(wǎng)格(trellis)的每個(gè)路徑都被所述功能單元的操作模式的組合所定義,每個(gè)功能單元為下一個(gè)功能單元提供若干可能的變化。
于是,每個(gè)編碼模式來(lái)自于所述功能單元的操作模式的組合中功能單元1有N1個(gè)操作模式,功能單元2有N2個(gè)操作模式,以此類推直到單元P。于是,可能的組合NN=N1×N2×...×Np由一個(gè)網(wǎng)格(trellis)表示,其具有NN分支,端對(duì)端(end-to-end)地,定義了一個(gè)完整的具有NN個(gè)模式的復(fù)合模式編碼器。在定義具有減少的數(shù)量的分支之前,所述網(wǎng)格(trellis)的某些分支可以消除。這種結(jié)構(gòu)的第一個(gè)特別的特征是,對(duì)于一個(gè)給定的功能單元,其對(duì)于在先功能單元的每個(gè)輸出提供了一個(gè)通用(common)計(jì)算模塊。這些通用計(jì)算模塊針對(duì)不同的信號(hào)執(zhí)行同樣的操作,因?yàn)槠鋪?lái)源于之前的不同的單元。所述的同一級(jí)別的通用計(jì)算模塊被共有(mutualized)可以被后續(xù)模塊使用的來(lái)自于一個(gè)給定模塊的結(jié)果被提供給那些后續(xù)模塊。第二,在每個(gè)功能模塊的處理之后的部分選擇能夠使提供與所選擇標(biāo)準(zhǔn)背離的最低性能的分支消除。于是,將被計(jì)算的網(wǎng)格(trellis)分支的數(shù)量可以被減少。
這個(gè)復(fù)合模式網(wǎng)格(trellis)結(jié)構(gòu)的一個(gè)進(jìn)一步應(yīng)用如下所述。
如果功能單元有必要使用特定于所述比特率的參數(shù)工作于各自不同的比特率,對(duì)于一個(gè)給定功能單元,所選擇的網(wǎng)格(trellis)的路徑是根據(jù)編碼的環(huán)境(context)通過(guò)具有最低比特率的功能單元,或者通過(guò)具有最高比特率的功能單元,而且從具有最低(或最高)比特率的功能單元得到的結(jié)果適合于至少部分所述其它功能單元的所述比特率,通過(guò)一個(gè)聚焦參數(shù)搜索至少部分所述其他功能單元,直到達(dá)到具有最高(相應(yīng)地,最低)比特率的功能單元。
可選地,一個(gè)給定比特率的功能單元被選擇,而且通過(guò)聚焦搜索使特定于該功能單元的至少部分所述參數(shù)逐步匹配直到所述功能單元能夠在最低比特率運(yùn)行;并且直到所述功能單元能夠在最高比特率運(yùn)行。
通常,這降低了與復(fù)合編碼有關(guān)的復(fù)雜度。
本發(fā)明應(yīng)用于任何使用多媒體內(nèi)容的復(fù)合編碼的壓縮方案。如下描述在音頻(語(yǔ)音和聲音)壓縮領(lǐng)域的3個(gè)實(shí)施例。前兩個(gè)實(shí)施例涉及轉(zhuǎn)換編碼器家族,與其相關(guān)的參考文獻(xiàn)如下“Perceptual Coding of Digital Audio”,Painter,T.、Spanias,A.著,IEEE學(xué)報(bào),88卷,第4號(hào),2000年4月。
第3個(gè)實(shí)施例涉及CELP編碼器,與其相關(guān)的參考文獻(xiàn)如下
“Code Excited Linear Prediction(CELP)High quality speech at verylow bit rates”,Schroeder M.R.、Atal B.S.著,《聲學(xué)、語(yǔ)音和信號(hào)處理》,1985,學(xué)報(bào)。1985IEEE國(guó)際會(huì)議,頁(yè)碼937~940。
首先簡(jiǎn)要給出這兩個(gè)編碼器家族的主要特征。
編碼轉(zhuǎn)換(transform)或子波段(sub-band)編碼器這些編碼器基于心理-聲學(xué)(psycho-acoustic)標(biāo)準(zhǔn)并且轉(zhuǎn)換時(shí)間域內(nèi)的信號(hào)塊來(lái)獲得一系列系數(shù)。這些轉(zhuǎn)換是時(shí)間-頻率類型的,其中最被廣泛使用的轉(zhuǎn)換之一是改進(jìn)的離散余弦轉(zhuǎn)換(MDCT)。在系數(shù)被量化之前,一個(gè)算法向比特(bits)賦值(assign)以使噪音被量化至盡可能聽不見。比特賦值以及系數(shù)量化采用一個(gè)從心理學(xué)-聲學(xué)(phycho-acoustic)模型中獲得的掩蔽曲線(masking curve),其用來(lái)對(duì)被考慮的頻譜(spectrum)的每條線(line)計(jì)算一個(gè)表示對(duì)可以聽到的頻率的聲音是必要的振幅的掩蔽閾值(masking threshold)。圖2是一個(gè)頻率域編碼器的方塊圖。需要注意的是,其以功能單元的形式的結(jié)構(gòu)已經(jīng)清楚地顯示。參考圖2,主要功能單元是一個(gè)單元21,對(duì)所述輸入數(shù)字聲音信號(hào)S0完成時(shí)間/頻率轉(zhuǎn)換;一個(gè)單元22,從所述轉(zhuǎn)換的信號(hào)確定感知(perceptual)模型;一個(gè)量化和編碼單元23,運(yùn)行于概念(conceptual)模型;并且一個(gè)單元24,用于格式化所述位流來(lái)獲得一個(gè)編碼的音頻流stc。
綜合分析編碼器(CELP編碼)在綜合分析類型的編碼器中,編碼器使用重建(reconstructed)的信號(hào)的綜合模型來(lái)提取對(duì)要編碼的信號(hào)進(jìn)行建模的參數(shù)。這些信號(hào)可以在一個(gè)8khz(300-3400赫茲電話波段)頻率或者在更高的頻率被取樣,例如在一個(gè)用于寬帶編碼的16khz(帶寬從50hz到7khz)。根據(jù)應(yīng)用以及所需要的質(zhì)量,壓縮率在1到16之間變化。這些編碼器在電話波段中工作于從2千比特每秒(kbps)到16千比特每秒(kbps)的比特率,在寬帶中工作于6千比特每秒(kbps)到32千比特每秒(kbps)的比特率。圖3描述了一個(gè)CELP數(shù)字編碼器的主要功能單元,該編碼器是目前最為廣泛使用的綜合分析編碼器。所述語(yǔ)音信號(hào)s0被取樣并被轉(zhuǎn)換為一系列包含L個(gè)樣本的幀。每個(gè)幀通過(guò)過(guò)濾一個(gè)波形而綜合,該波形是從一個(gè)借助兩個(gè)濾波器實(shí)時(shí)變化的結(jié)果而增加的路徑(也稱為字典)中提取出來(lái)的。該激勵(lì)(excitation)字典是L個(gè)樣本的波形的一個(gè)有限集合。所述第一個(gè)濾波器是一個(gè)長(zhǎng)期預(yù)測(cè)(long-term prediction,LTP)濾波器。一個(gè)LTP分析評(píng)價(jià)該LTP的參數(shù),其利用有聲聲音(voiced sound)的周期特征,諧波組件被以一個(gè)適應(yīng)的字典(adaptive dictionary)(單元32)的形式被建模。所述第二個(gè)濾波器時(shí)短期預(yù)測(cè)濾波器。線性預(yù)測(cè)編碼(Linear predictioncoding,LPC)分析方法被用來(lái)獲取代表語(yǔ)音通道(vocal tract)的傳輸函數(shù)和信號(hào)頻譜的包封特征的短期預(yù)測(cè)(short-term prediction)參數(shù)。用來(lái)決定改良(innovation)序列的方法是綜合分析方法,其可以概括如下在編碼器中,來(lái)自于確定的激勵(lì)字典(fixed excitation dictionary)中的大量的改良序列被LPC濾波器(圖3中的功能單元34的綜合濾波器)所過(guò)濾。適合的激勵(lì)(adaptive excitation)已經(jīng)預(yù)先以類似的方式所獲得。所選擇的波形是在基于一個(gè)通常被稱為CELP標(biāo)準(zhǔn)(36)的感知加權(quán)標(biāo)準(zhǔn)判斷時(shí)產(chǎn)生最接近于原始信號(hào)的綜合信號(hào)(在功能單元35的級(jí)別最小化錯(cuò)誤)。
在圖3的CELP編碼器的方塊圖中,有聲聲音(voiced sound)的基礎(chǔ)(fundamental)頻率(音調(diào)(pitch))被從功能單元31內(nèi)的LPC分析所產(chǎn)生的信號(hào)中提取,且然后使稱為諧波(harmonic)或匹配的激勵(lì)(adaptiveexcitation)(E.A.)組件的長(zhǎng)期關(guān)聯(lián)(long-term correlation)在功能單元32中被提取。最后,剩余信號(hào)被通過(guò)一些脈沖以傳統(tǒng)方式建模,這些脈沖的所有位置都在該功能單元33的一個(gè)稱為確定的激勵(lì)(E.F.)路徑的路徑中被預(yù)先定義。
解碼比編碼簡(jiǎn)單很多。解碼器可以在分離后從編碼器產(chǎn)生的位流中獲得每個(gè)參數(shù)的量化索引。然后,該信號(hào)可以通過(guò)對(duì)參數(shù)進(jìn)行解碼和應(yīng)用綜合模型而被重建。
下面描述上述的3個(gè)實(shí)施例,從圖2所示類型的轉(zhuǎn)換編碼器開始。
第一實(shí)施例一個(gè)“TDAC”編碼器應(yīng)用第一個(gè)實(shí)施例與一個(gè)“TDAC”感知頻率域編碼器有關(guān),特別是在公開文獻(xiàn)US-2001/027393中描述的那樣。一個(gè)TDAC編碼器被用來(lái)對(duì)取樣于16khz的數(shù)字音頻信號(hào)編碼。圖4a顯示該編碼器的主要功能單元。一個(gè)波寬(band-limited)限制為7khz并取樣為16khz的音頻信號(hào)x(n)被劃分為320個(gè)樣本(20毫秒)的幀。一個(gè)被修正離散余弦轉(zhuǎn)換(MDCT)被應(yīng)用于由640個(gè)樣本組成的輸入信號(hào)的幀中,這些樣本具有50%的重疊以及每20毫秒刷新的MDCT分析(功能單元41)。通過(guò)將后31個(gè)系統(tǒng)設(shè)定為0(只有前289個(gè)系數(shù)是非零的),該頻譜被限定于7225赫茲。從該頻譜(功能單元42)確定一個(gè)掩蔽曲線(masking curve),以及所有掩蔽系數(shù)被設(shè)置為0。所述頻譜被劃分為32個(gè)帶寬不相等的波段。任何掩蔽波段被確定作為信號(hào)的轉(zhuǎn)換系數(shù)的函數(shù)。針對(duì)該頻譜的每個(gè)波段,MDCT系數(shù)的能量(energy)被計(jì)算以獲得縮放比例因數(shù)(scaling factor)。32個(gè)縮放比例因數(shù)組成了信號(hào)的頻譜包絡(luò)(spectrum envelope),然后其被量化、被熵(entropic)的編碼所編碼(在功能單元43內(nèi))并最終以被編碼的幀sc傳輸。
動(dòng)態(tài)比特賦值(在功能單元44內(nèi))是基于對(duì)每個(gè)從所述頻譜包絡(luò)(功能單元42)的解碼和解量化版本中所計(jì)算的波段的一個(gè)掩蔽曲線。這使得由編碼器和解碼器的比特賦值可以相互匹配。然后,在每個(gè)波段中的標(biāo)準(zhǔn)MDCT系數(shù)通過(guò)使用一個(gè)由第二類型的置換碼的結(jié)合組成的大小交替存取字典(size-interleaved dictionary),被矢量量化(vector quantizers)量化(在功能單元45內(nèi))。最終,參考圖4b,音調(diào)(在此于一個(gè)比特B1上編碼)和聲音(在此于一個(gè)比特B0上編碼)的信息、頻譜包絡(luò)eq(i)和編碼的系數(shù)yq(i)是復(fù)合的(在功能單元46內(nèi),參考圖4a)并在幀中被傳輸。
該編碼器可以運(yùn)行于幾個(gè)比特率上,并且其被提出以產(chǎn)生一個(gè)復(fù)合比特率編碼器,例如一個(gè)提供16、24和32kbps比特率的編碼器。在這個(gè)編碼方案中,下述功能單元可以在不同的模式中被共享MDCT(功能單元41);發(fā)聲探測(cè)(voicing detection)(功能單元47,圖4a)以及音調(diào)(tonality)探測(cè)(功能單元48,圖4a);頻譜包絡(luò)的計(jì)算、量化以及熵(entropic)編碼(功能單元43);以及通過(guò)系數(shù)計(jì)算一個(gè)掩蔽曲線系數(shù)以及計(jì)算每個(gè)波段的掩蔽曲線(功能單元42)。
這些單元占由該編碼過(guò)程執(zhí)行的處理的復(fù)雜性的61.5%。于是,當(dāng)生成若干符合不同比特率的比特流時(shí),他們的因數(shù)分解(factorization)成為在降低復(fù)雜性方面的主要因素。
上述功能單元的結(jié)果已經(jīng)生成了一第一部分,對(duì)于所有包括載有發(fā)聲(voicing)、音調(diào)(tonality)以及被編碼的頻譜包絡(luò)信息的比特的輸出比特流。
在該實(shí)施例的第一個(gè)變化中,可以對(duì)每個(gè)與所考慮的比特率相應(yīng)的輸出比特流執(zhí)行比特賦值以及量化操作。這兩個(gè)操作被準(zhǔn)確地在一TDAC編碼器內(nèi)以相同的方式執(zhí)行。
在第二個(gè)、更先進(jìn)的變化中,如圖5所示,“智能”編碼轉(zhuǎn)換技術(shù)可以被用來(lái)(如公開文獻(xiàn)US-2001/027393)進(jìn)一步降低復(fù)雜性以及共有(mutualize)特定操作,特別地比特賦值(功能單元44),以及系數(shù)量化(功能單元45_i,參見下面)。
在圖5中,在編碼器之間共享的功能單元41、42、47、48、43以及44(“共有的”)用與圖4所示的一個(gè)單一TDAC編碼器中的這些單元相同的標(biāo)記。特別地,比特賦值功能單元44被用于復(fù)合傳送,以及對(duì)于每個(gè)編碼器完成的轉(zhuǎn)換量化(transquantization),被賦值的比特的數(shù)量被調(diào)整(功能單元45_1、......、45_(k-2)、45_(k-1),參見下面)。進(jìn)一步請(qǐng)注意,對(duì)于一個(gè)索引0的被選擇的編碼器(在此例子中編碼器具有最低比特率),這些轉(zhuǎn)換量化(transquantization)使用通過(guò)量化功能單元45_0所獲得的結(jié)果。最終,只有非實(shí)時(shí)交互操作的編碼器的功能單元是復(fù)合功能單元46_0、46_1、.....、46_(k-2)、46_(k-1),盡管他們都使用同樣的聲音和音調(diào)信息以及同樣的編碼頻譜包絡(luò)。在這方面,足以說(shuō),復(fù)合的部分共有(mutulization)可以被再次完成。
對(duì)于比特賦值以及量化功能單元,所使用的策略包括,為比特流(0)在最低比特率D0,利用比特賦值的結(jié)果以及所獲得的量化功能單元,來(lái)加速對(duì)于K-1個(gè)其他比特流(k)(1≤k<K)相應(yīng)的兩個(gè)功能單元的操作。一個(gè)對(duì)每個(gè)比特流(對(duì)那個(gè)單元沒有因數(shù)分解(factorization))使用一個(gè)比特賦值功能單元,但共有部分連續(xù)量化操作的復(fù)合比特率編碼方案也可以被考慮。
上述的復(fù)合編碼技術(shù)是基于智能的編碼轉(zhuǎn)換來(lái)降低被編碼的音頻流的比特率,通常在一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)中。
比特流k(0≤k<K)在下面的遞增的比特率順序(D0<D1<...Dk-1)中被分類。于是,比特流0對(duì)應(yīng)于最低比特率。
比特賦值在TDAC編碼器中,比特賦值在兩個(gè)階段完成。首先,賦給每個(gè)波段的比特的數(shù)量被計(jì)算,優(yōu)選地使用下述等式bopt(i)=12log2[eq2(i)Sb(j)]+C,0≤i≤M-1]]>其中,C=BM-12MΣi=0M-1log2[eq2(l)/Sb(l)]]]>是一個(gè)恒量。
B是可用比特的總數(shù)。
M是波段的數(shù)量。
eq(i)是在波段i上的頻譜包絡(luò)解碼和解量化值,以及Sb(i)是那個(gè)波段的掩蔽閾值(threshold)。
每個(gè)獲得的值均四舍五入為最接近的自然數(shù)。如果所賦值的總比特率與那個(gè)可利用的自然數(shù)不是嚴(yán)格相等,則第二階段完成一個(gè)校正,優(yōu)選地通過(guò)一系列基于一種感知標(biāo)準(zhǔn)的重復(fù)(iterative)操作,該操作從波段中增加或減少比特。
因此,如果所分布的比特的總數(shù)小于那個(gè)可利用的自然數(shù),則比特被加給波段,其顯示最大感知改善(perceptual improvement),如同由在初始和最終波段賦值之間的噪音掩蔽(noise-to-mask)的變量所測(cè)量的。對(duì)于顯示最大變化的波段,比特率被增加。在相反的情況,當(dāng)所分布的比特的總數(shù)比那個(gè)可利用的自然數(shù)大,則從波段中提取比特的過(guò)程是上述過(guò)程的雙重過(guò)程。
在與TDAC編碼器相應(yīng)的復(fù)合比特率編碼方案中,可以對(duì)比特的所述賦值分解為某些操作。于是,使用上述等式來(lái)決定的第一階段可以僅基于最低比特率D0來(lái)一次完成。然后,通過(guò)增加比特,調(diào)整階段可以被繼續(xù)完成。一旦所分布的比特的總數(shù)達(dá)到與一個(gè)比特流k(k=1,2......k-1)的比特率相應(yīng)的數(shù)量,則當(dāng)前分布被考慮用來(lái)對(duì)比特流的每個(gè)波段來(lái)量化標(biāo)準(zhǔn)化的系數(shù)矢量。
系數(shù)量化對(duì)于系數(shù)量化,TDAC編碼器使用矢量量化,該量化使用尺寸交互存取字典(size-interleaved dictionary),該字典由第二類型置換碼的并集構(gòu)成。這個(gè)類型的量化被應(yīng)用于在該波段上的MDCT系數(shù)的每一個(gè)矢量。這種類型的矢量使用該波段上的頻譜包絡(luò)(spectral envelope)的解量化值而被預(yù)先標(biāo)準(zhǔn)化。下述符號(hào)被使用C(bi,di)是相應(yīng)于比特bi以及維度di的數(shù)量的字典;N(bi,di)是在該字典中的元素的數(shù)量;CL(bi,di)是其前導(dǎo)字符(leaders)的集合;NL(bi,di)是前導(dǎo)字符的數(shù)量。
對(duì)幀的每個(gè)波段i的量化結(jié)果是一個(gè)在比特流中傳輸?shù)拇a字(codeword)mi。其表示從下述信息計(jì)算的字典內(nèi)的量化矢量的索引與當(dāng)前前導(dǎo)字符(leaders) 最接近的量化前導(dǎo)矢量 的字典的前導(dǎo)字符集合CL(bi,di)內(nèi)的數(shù)量Li;前導(dǎo)字符 的分類內(nèi)Tq(i)的排列ri;以及應(yīng)用于Yq(i)(或 的符號(hào)signq(i)的組合。
下述符號(hào)被使用Y(i)是波段i的標(biāo)準(zhǔn)系數(shù)的絕對(duì)值的矢量;sign(i)是波段i的標(biāo)準(zhǔn)系數(shù)的符號(hào)的矢量; 是上述以遞減順序排序其組件所獲得的上述矢量Y(i)的前導(dǎo)矢量(相應(yīng)的置換表示為perm(i));以及Yq(i)是Y(i)的量化矢量(或者Y(i)在字典C(bi,di)內(nèi)的“最接近的鄰域(nearest neighbor)”)。
下面,具有指數(shù)k的符號(hào)α(k)表示用于獲得編碼器k的比特流的過(guò)程中的參數(shù)。沒有這個(gè)指數(shù)的參數(shù)被計(jì)算一次,并且對(duì)所有位流0的參數(shù)。他們獨(dú)立于相關(guān)的比特率(或模式)。
如下描述上述字典的“交替存取(interleaving)”特征C(bi(0),di)⊆...⊆C(bi(k-1),di)⊆C(bi(k),di)...⊆C(bi(K-1),di)]]>還有CL(bi(0),di)⊆...⊆CL(bi(k-1),di)⊆CL(bi(k),di)...⊆CL(bi(K-1),di)]]>CL(bi(k),di))\CL(bi(k-1),di)是CL(bi(k-1),di))在CL(bi(k),di)中的補(bǔ)充,其基數(shù)與NL(bi(k),di))-NL(bi(k-1),di)相等。
碼字mi(k)(其中0≤k<K)如下所述獲得,其是對(duì)于每個(gè)比特流k的波段i的系數(shù)的矢量進(jìn)行量化的結(jié)果。
對(duì)比特流k=0,量化操作被傳統(tǒng)地完成,如同在TDAC編碼器中通常的那樣。其生成參數(shù)signq(0)(i)、Li(0)以及ri(0)用來(lái)構(gòu)建碼字mi(0)。矢量 以及sign(i)都在這個(gè)步驟內(nèi)被確定。他們與相應(yīng)的置換perm(i)一起被存儲(chǔ)在存儲(chǔ)器中,如果必要,在與其他位流相關(guān)的后續(xù)步驟中被使用。
對(duì)比特流1≤k<K,采用了一個(gè)增加的方法,從k=1至k=K-1,優(yōu)選地,使用下述步驟如果(bi(k)=bi(k-1)),則1.在波段i上,比特流k的幀的碼字與比特流(k-1)的比特流的幀的碼字相同mi(k)=mi(k-1)如果不相等,也就是說(shuō),如果(bi(k)>bi(k-1))2.CL(bi(k),di)\CL(bi(k-1),di)的前導(dǎo)字符(NL(bi(k),di)-NL(bi(k-1),di))被搜索來(lái)查找 的最接近的鄰域。
3.給定步驟2的結(jié)果,并知道在CL(bi(k-1),di)內(nèi)的 的最接近的鄰域,執(zhí)行一個(gè)判斷來(lái)確定在CL(bi(k),di)內(nèi)的 的所述最接近的鄰域是否在CL(bi(k-1),di)中(這是下面討論的“標(biāo)記=0”的情況)或在CL(bi(k),di)\CL(bi(k-1),di)中(這是下面討論的“標(biāo)記=1”的情況)。
4.如果標(biāo)記=0(在CL(bi(k-1),di)中的 的最接近的前導(dǎo)字符,也是其在CL(bi(k),di)中的最接近的鄰域),則mi(k)=mi(k-1)如果標(biāo)記=1(在步驟2中發(fā)現(xiàn)的CL(bi(k),di)\CL(bi(k-1),di)中的與 最接近的前導(dǎo)字符,也是其在CL(bi(k),di)中的最接近的鄰域),則下述步驟被執(zhí)行a)搜索Yq(k)(i)的排列rik,(在前導(dǎo)字符 的分類內(nèi)的Y(i)新的量化矢量)例如使用perm(i)的Schalkwijk算法;b)使用sign(i)和perm(i)確定signq(k)(i);c)從Li(k)、ri(k)和signq(k)(i)確定碼字mik。
第二實(shí)施例應(yīng)用于一個(gè)MPEG-1的第一層和第二層的轉(zhuǎn)換編碼器如圖6a所示的MPEG-1第一層、第二層編碼器,使用一個(gè)具有32個(gè)相同子波段的濾波器庫(kù)(bank)(圖6a內(nèi)的功能單元61)來(lái)將時(shí)間/頻率編碼轉(zhuǎn)換應(yīng)用于輸入音頻信號(hào)s0。每個(gè)子波段的輸出樣本被分組,然后在量化(功能單元62)之前通過(guò)一個(gè)通用比例因素(scaling factor)(由功能單元67確定)來(lái)標(biāo)準(zhǔn)化。使用于每個(gè)子波段的統(tǒng)一分級(jí)量化器(scalarquantizer)的級(jí)別的數(shù)量,是使用一個(gè)心理學(xué)模型來(lái)確定對(duì)噪音量化盡可能使其不能感覺的比特分布的一個(gè)動(dòng)態(tài)比特賦值過(guò)程的結(jié)果。在標(biāo)準(zhǔn)中提出的聽覺模型是基于對(duì)從對(duì)時(shí)間域輸入信號(hào)應(yīng)用一個(gè)快速傅立葉變換(FFT)所獲得的頻譜的估計(jì)(功能單元65)。參考圖6b,由圖6a內(nèi)的功能單元66復(fù)合的、最終在一個(gè)頭域HD后被傳輸?shù)膸瑂c,包括所有量化子波段ESB的樣本,其是主要信息和用于解碼操作的補(bǔ)充信息,由縮放因數(shù)FE和比特賦值因數(shù)Ai組成。
從該編碼方案開始,在本發(fā)明的一個(gè)應(yīng)用中,一個(gè)復(fù)合比特率編碼器可以由匯聚(pooling)下述功能單元(參考圖7)構(gòu)建分析濾波器庫(kù)的功能單元61;確定縮放因數(shù)的功能單元67;FFT計(jì)算的功能單元65;用一心理聲學(xué)模型確定掩蔽域值的功能單元64。
功能單元64以及65已經(jīng)提供用于比特賦值過(guò)程(圖7中的功能單元70)的信號(hào)-掩蔽率(圖6a和圖7中的箭頭SMR)。
在圖7所示的實(shí)施例中,可以通過(guò)集中但是加一些修改來(lái)探測(cè)用于比特賦值的過(guò)程(圖7中的比特賦值功能單元70)。只有量化功能單元62_0至62_(k-1)被特定于與一比特率Dk(1≤k<K-1)相應(yīng)的每個(gè)比特流。同樣的內(nèi)容應(yīng)用于復(fù)合單元66_0至66_(k-1)。
比特賦值在MPEG-1第一層、第二層編碼器中,比特賦值通過(guò)一系列交互存取步驟被完成,如下步驟0對(duì)每個(gè)子波段i(0≤i<M)將比特bi的數(shù)量初始化為0。
步驟1在每個(gè)子波段上更新失真函數(shù)NMR(i)(噪音-掩蔽率),NMR(i)=SMR(i)-SNR(bi),其中SNR(bi)是與具有許多比特bi的量化器相應(yīng)的信號(hào)-噪音比,并且SMR(i)是由心理聲學(xué)模型提供的信號(hào)-掩蔽比。
步驟2當(dāng)失真達(dá)到最大值時(shí),增加子波段i0的比特bi0的數(shù)量bi0=bi0+ε,i0=argmaxi[NMR(i)]]]>其中,ε是一個(gè)取決于波段的正整數(shù),通常取為1。
步驟1和步驟2重復(fù)直到可用比特的總量,相應(yīng)于可操作的比特率,已經(jīng)被分布。這樣的結(jié)果是一個(gè)比特分布矢量(b0,b1,......bM-1)。
在復(fù)合比特率編碼方案中,這些步驟借助一些其他修改來(lái)合并,特別是功能單元的輸出包括K個(gè)比特分布矢量(b0(k),b1(k),...,bM-1(k))(0≤k<K-1),一個(gè)矢量(b0(k),b1(k),...,bM-1(k)),在與比特流k的比特率Dk相對(duì)應(yīng)的可用的總量已經(jīng)被分布時(shí),在步驟1和2的重復(fù)中被獲得;并且當(dāng)與最高比特率Dk-1相對(duì)應(yīng)的可用的總量已經(jīng)全部被分布時(shí),步驟1和2的重復(fù)停止(比特流以增加的比特率排序)。
需要注意的是,比特分布矢量從k=0至k=K-1連續(xù)獲得。對(duì)在給定比特率的每個(gè)比特流,比特賦值功能單元的所述K個(gè)輸出提供給量化功能單元。
第三實(shí)施例應(yīng)用于一個(gè)CELP編碼器的最后的實(shí)施例涉及使用一個(gè)后(posteriori)決定3GPP NB-AMR(窄波段適應(yīng)復(fù)合比率)編碼器對(duì)復(fù)合模式語(yǔ)音的編碼,其是一個(gè)遵守3GPP標(biāo)準(zhǔn)的電話波段語(yǔ)音編碼器。該編碼器屬于著名的CELP編碼器家族,其原理如上的簡(jiǎn)要描述,具有從12.2kbps至4.75kbps的8個(gè)模式(或比特率),所有都基于代數(shù)編碼激勵(lì)線性預(yù)測(cè)(ACELP)技術(shù)。圖8以功能單元的形式描述了這個(gè)編碼器的編碼方案。該結(jié)構(gòu)已經(jīng)被應(yīng)用以生產(chǎn)一個(gè)基于4NB-AMR模式(7.4;6.7;5.9;5.15)的后(posteriori)決定復(fù)合模式編碼器。
在第一個(gè)變化中,只有相同功能單元的共有(mutualization)被利用(4個(gè)編碼的結(jié)果對(duì)于并行的4個(gè)編碼的結(jié)果是相同的)。
在第二個(gè)變化中,復(fù)雜性進(jìn)一步降低。針對(duì)某些模式的不相同的功能單元的計(jì)算通過(guò)利用另一個(gè)模式的或者一通用處理模塊(如下)的功能單元被加速。以這種方式共有的4個(gè)編碼的結(jié)果與并行的4個(gè)編碼的結(jié)果不同。
在一個(gè)進(jìn)一步的變化中,這4個(gè)模式的功能單元被用于復(fù)合模式網(wǎng)格(trellis)編碼,如上述參考圖1d所描述。
3GPP NB-AMR編碼器的4個(gè)模式(7.4;6.7;5.9;5.15)如下簡(jiǎn)要描述。
所述3GPP NB-AMR編碼器工作于一個(gè)限制為3.4khz、取樣于8khz并且被劃分為20毫米的幀(160個(gè)樣本)的語(yǔ)音信號(hào)上。每個(gè)幀包括4個(gè)5毫米的子幀(40個(gè)樣本),兩兩組合為10毫秒的“超級(jí)子幀”(80個(gè)樣本)。對(duì)于所有模式,同樣類型的參數(shù)從信號(hào)中被提取,但在參數(shù)建模和/或量化方面具有變化。在NB-AMR編碼器中,5個(gè)類型的參數(shù)被分析和編碼。對(duì)于所有除12.2模式的模式,線頻譜對(duì)(line spectral pair,LSP)參數(shù),每幀處理一次(并且然后每個(gè)超級(jí)子幀(supersubframe)處理一次)。其他參數(shù)(特別是LTP延遲、適應(yīng)的激勵(lì)獲取、確定的激勵(lì)以及確定的激勵(lì)獲取)每個(gè)子幀處理一次。
在此所考慮的4個(gè)模式(7.4;6.7;5.9;5.15)在量化其參數(shù)方面本質(zhì)上不同。這4個(gè)模式的比特賦值如下表1所示
表13GPP NB-AMR編碼器的4模式(7.4;6.7;5.9;5.15)的比特賦值。

NB-AMR編碼器的這4個(gè)模式(7.4;6.7;5.9;5.15)確切地使用同樣的模塊,例如預(yù)處理、線性預(yù)測(cè)系數(shù)分析以及加權(quán)信號(hào)計(jì)算模塊。信號(hào)的預(yù)處理是具有一個(gè)80hz的取舍(cut-off)頻率的低通過(guò)過(guò)濾,以消除與2個(gè)輸入信號(hào)的劃分組合的DC成分以防止溢出。該LPC分析包括開窗(windowing)子模塊、自相關(guān)(autocorrelation)計(jì)算子模塊、Levinson-Durbin算法實(shí)現(xiàn)模塊、A(z)→LSP轉(zhuǎn)換子模塊、用于通過(guò)在過(guò)去的幀以及當(dāng)前幀的LSP之間的插值對(duì)每個(gè)子幀(i=0......,3)計(jì)算LSPi非量化參數(shù)的子模塊,以及反的LSPi→Ai(z)轉(zhuǎn)換子模塊。
計(jì)算加權(quán)語(yǔ)音信號(hào)包括通過(guò)感知加權(quán)過(guò)濾器(Wi(z)=Ai(z/γ1)/Ai(z/γ2))進(jìn)行過(guò)濾,其中Ai(z)是索引i,γ1=0.94且γ2=0.6的子幀的非量化過(guò)濾器。
其他功能單元僅對(duì)于3個(gè)模式(7.4;6.7;5.9)是相同的。例如,開環(huán)LTP延遲搜索對(duì)這3個(gè)模式的每個(gè)超級(jí)子幀在加權(quán)信號(hào)上完成一次。但,對(duì)于5.15模式,其僅僅對(duì)每個(gè)幀完成一次。
類似地,如果使用具有減低平均值(suppressed average)的第一順序預(yù)測(cè)加權(quán)矢量的MA(平均移動(dòng)(moving average))量化以及在標(biāo)準(zhǔn)頻率域內(nèi)的LSP參數(shù)的笛卡爾產(chǎn)品的4個(gè)模式,則5.15kbps模式的LSP參數(shù)于23比特以及其他3個(gè)模式于26比特被量化。其后轉(zhuǎn)換為標(biāo)準(zhǔn)頻率域,LSP參數(shù)的每個(gè)笛卡爾產(chǎn)品的“分離(split)VQ”矢量量化將10個(gè)LSP參數(shù)分離為3個(gè)子矢量,大小分別為3、3、4。由第一3個(gè)LSP組成的第一子矢量使用對(duì)4個(gè)模式同樣的字典在8比特量化。針對(duì)3個(gè)高比特率模式,由下3個(gè)LSP組成的第二子矢量使用大小為512(9比特)的字典量化,以及對(duì)5.15模式用該字典的一半(兩個(gè)中一個(gè)矢量)。由最后四個(gè)LSP組成的第三和最后子矢量,對(duì)于高比特率模式用大小為512(9比特)的字典量化,對(duì)于低比特率使用一個(gè)大小為128(7比特)的字典量化。轉(zhuǎn)換為標(biāo)準(zhǔn)頻率域,二次錯(cuò)誤標(biāo)準(zhǔn)的權(quán)重的計(jì)算,以及用來(lái)量化的LSP殘留的平均移動(dòng)預(yù)測(cè),對(duì)于這4個(gè)模式確切地相同。因?yàn)?個(gè)高比特率模式使用同樣的字典來(lái)量化該LSP,他們可以在相同矢量量化模式之外共享所述反轉(zhuǎn)轉(zhuǎn)換(來(lái)從標(biāo)準(zhǔn)頻率域回復(fù)至余弦域),以及通過(guò)在過(guò)去的幀和當(dāng)前幀的量化LSP之間的插補(bǔ)對(duì)每個(gè)子幀(i=0,..,3)的LSPQi量化的計(jì)算,以及最后反轉(zhuǎn)轉(zhuǎn)換LSPQi→AQi(z)。
適應(yīng)和確定的激勵(lì)閉環(huán)搜索被繼續(xù)執(zhí)行,并且對(duì)加權(quán)綜合濾波器和目標(biāo)信號(hào)脈沖反應(yīng)的預(yù)先計(jì)算成為必要。加權(quán)綜合濾波器的脈沖反應(yīng)(Ai(z/γ1)/[AQi(z)Ai(z/γ2)])對(duì)于3個(gè)高比特率模式(7.4;6.7;5.9)確切地相同。對(duì)每個(gè)子幀,對(duì)于適應(yīng)激勵(lì)的目標(biāo)信號(hào)的計(jì)算取決于加權(quán)信號(hào)(獨(dú)立于模式)、量化濾波器(其與3個(gè)模式確切地相同)以及之前的子幀(其與第一子幀以外的每一個(gè)子幀都不同)。對(duì)于每個(gè)子幀,用于確定激勵(lì)的目標(biāo)信號(hào)通過(guò)從之前的目標(biāo)信號(hào)中減去子幀的過(guò)濾的適應(yīng)激勵(lì)的基值而獲取(除了對(duì)于第一個(gè)3模式的第一個(gè)子幀,其從一個(gè)模式至其他模式不同)。
3個(gè)適應(yīng)字典被使用。第一個(gè)字典,用于7.4、6.7、5.9模式的偶數(shù)子幀(i=0和2)并用于5.12模式的第一個(gè)子幀,包括在[19+1/3,84+2/3]范圍內(nèi)的1/3解析(resolution)的256個(gè)局部(fractional)絕對(duì)延遲,以及在[85,143]范圍的整個(gè)解析。在該絕對(duì)延遲字典內(nèi)搜索聚焦于在開環(huán)模式內(nèi)發(fā)現(xiàn)(對(duì)于5.15模式步長(zhǎng)為±5,對(duì)于其他模式步長(zhǎng)為±3)的延遲。對(duì)于7.4、6.7、5.9模式的第一子幀,目標(biāo)信號(hào)以及開環(huán)延遲是相同的,閉環(huán)搜索的結(jié)果也是相同的。其他兩個(gè)字典是不同類型的而且被用來(lái)對(duì)當(dāng)前延遲和接近于之前的子幀的局部(fractional)延遲的整個(gè)延遲Ti-1之間的差值進(jìn)行編碼。在5比特的第一個(gè)不同的字典,用于7.4模式的奇數(shù)子幀,是在[Ti-1-5+2/3,Ti-1+4+2/3]范圍內(nèi)的關(guān)于整個(gè)延遲Ti-1的1/3解析。在4比特的第二個(gè)不同的字典,其包括在第一個(gè)不同的字典內(nèi),被用于6.7和5.9模式的奇數(shù)子幀,并且用于5.15模式的最后3個(gè)子幀。該第二字典是在[Ti-1-5,Ti-1+4]范圍內(nèi)的關(guān)于整個(gè)延遲Ti-1的整個(gè)解析加上在[Ti-1-1+2/3,Ti-1+2/3]范圍內(nèi)的1/3解析。
所述確定字典屬于著名的ACELP字典家族。一個(gè)ACELP路徑的結(jié)構(gòu)是基于交互存取單脈沖置換(ISPP)概念,其包括將L個(gè)位置的集合分割為K個(gè)交互存取的聲道,第N個(gè)脈沖位于某個(gè)預(yù)先定義的聲道中。所述7.4、6.7、5.9以及5.15模式使用對(duì)一個(gè)子幀的40個(gè)樣本分為長(zhǎng)度為8的5個(gè)交互存取的聲道的同樣分割,如表2a所示。表2a顯示,對(duì)于7.4、6.7、以及5.9模式,字典的比特率、脈沖的數(shù)量以及在聲道內(nèi)的分布。具有9比特的ACELP字典的5.15模式的2個(gè)脈沖的分布甚至具有更多限制。
表2a3GPP NB-AMR編碼器的一個(gè)子幀的40個(gè)位置的交互存取的聲道的分割。

表2b對(duì)于3GPP NB-AMR編碼器的7.4、6.7以及5.9模式的聲道內(nèi)的脈沖的分布。

所述適應(yīng)和確定激勵(lì)獲取通過(guò)聯(lián)合矢量量化使CELP標(biāo)準(zhǔn)最小化,在7或6比特被量化(具有應(yīng)用于確定激勵(lì)獲取的MA預(yù)測(cè))。
具有一事后(posteriori)決定的復(fù)合模式編碼僅利用同樣的功能單元的共有(mutualization)一個(gè)事后(posteriori)決定復(fù)合模式編碼器其可以基于上述編碼方案,匯聚(pooling)如下描述的功能單元。
參考圖8,對(duì)于4個(gè)模式通常完成預(yù)處理(功能單元81);分析線性預(yù)測(cè)系數(shù)(開窗和計(jì)算自動(dòng)相關(guān)功能單元82,執(zhí)行Levinson-Durbin算法功能單元83;A(z)→LSP轉(zhuǎn)換功能單元84,插補(bǔ)LSP和反轉(zhuǎn)轉(zhuǎn)換功能單元862);計(jì)算加權(quán)輸入信號(hào)功能單元87;將LSP參數(shù)轉(zhuǎn)換為標(biāo)準(zhǔn)頻率域,計(jì)算對(duì)于LSP的矢量量化的二次錯(cuò)誤標(biāo)準(zhǔn)的權(quán)重、LSP殘余的MA預(yù)測(cè)、第一3個(gè)LSP(在功能單元85內(nèi))的矢量量化。
于是,對(duì)于所有這些單元的累計(jì)復(fù)雜度被劃分為4。
對(duì)于3個(gè)最高比特率模式(7.4、6.7以及5.9),完成最后7個(gè)LSP的矢量量化(每個(gè)幀一次)(在圖8中的功能單元85內(nèi));開環(huán)LTP延遲搜索(每個(gè)幀二次)(在圖8中的功能單元88內(nèi));量化的LSP插補(bǔ)(861)以及對(duì)濾波器AQi反轉(zhuǎn)轉(zhuǎn)換(對(duì)于每個(gè)幀);并且計(jì)算加權(quán)的綜合濾波器(對(duì)每個(gè)幀)的脈沖反應(yīng)(89)。
對(duì)于這些單元,上述計(jì)算不再是完成4次而是2次,一次對(duì)3個(gè)高比特率模式,一次對(duì)低比特率模式。他們的復(fù)雜度被劃分為2。
對(duì)3個(gè)最高比特率模式,也可以對(duì)第一子幀,與閉環(huán)LTP搜索一起(功能單元881)共有(mutualize)確定激勵(lì)(圖8中的功能單元91)以及適應(yīng)激勵(lì)(功能單元90)的目標(biāo)信號(hào)的計(jì)算。需要注意的是,對(duì)于第一子幀的共有操作僅僅在一個(gè)事后(posteriori)決定復(fù)合模式類型復(fù)合編碼的情況下產(chǎn)生同樣的結(jié)果。在通常的復(fù)合編碼情況下,第一子幀的過(guò)去(past)根據(jù)比特率而不同,就像對(duì)于其他3個(gè)子幀一樣,在這樣的情況下這些操作通常產(chǎn)生不同的結(jié)果。
先進(jìn)的后(posteriori)決定復(fù)合模式編碼不一樣的功能單元可以通過(guò)利用另一個(gè)模式或一個(gè)通用處理模塊的那些單元而被加速。
取決于應(yīng)用的限制(在質(zhì)量和/或復(fù)雜度方面),可以使用不同的變化。下面描述一些例子。也可以依賴在CELP編碼器之間的智能編碼轉(zhuǎn)換技術(shù)。
第二LSP子矢量的矢量量化如在TDAC編碼器的實(shí)施例一樣,交互存取某些字典可以加速計(jì)算。因此,如5.15模式的第二LSP子矢量的字典被包含在其他3個(gè)模式的字典中,由4個(gè)模式對(duì)那個(gè)子矢量Y的量化可以進(jìn)一步被組合步驟1在最小的字典(與大字典的一半相適應(yīng))內(nèi)搜索最接近的鄰域Y1對(duì)5.15模式Y(jié)1量化Y步驟2在大字典的補(bǔ)充內(nèi)(也就是說(shuō),在字典的另一半內(nèi))搜索最接近的鄰域Yh步驟3判斷在9比特的字典內(nèi)最接近的鄰域Y是否是Y1(標(biāo)記=0)或Yh(標(biāo)記=1)標(biāo)記=0對(duì)7.4、6.7和5.9模式,Y1也量化Y;標(biāo)記=1對(duì)7.4、6.7和5.9模式,Yh量化Y。
對(duì)非優(yōu)化的復(fù)合模式編碼器,該實(shí)施例給出了一個(gè)同樣的結(jié)果。如果量化復(fù)雜度進(jìn)一步被減小,則如果該矢量被視為充分接近Y,我們可以在步驟1停止并且取Y1作為用于高比特率模式的量化矢量。這個(gè)簡(jiǎn)化可以產(chǎn)生與一個(gè)與窮盡搜索不同的結(jié)果。
開環(huán)LTP搜索加速
5.15模式開環(huán)LTP延遲搜索可以使用對(duì)于其他模式的搜索結(jié)果。如果在兩個(gè)超級(jí)子幀上發(fā)現(xiàn)的兩個(gè)開環(huán)延遲充分接近以允許不同的編碼,則所述5.15模式開環(huán)搜索不被執(zhí)行。相反,高模式的結(jié)果被使用。如果不,則選擇是完成標(biāo)準(zhǔn)搜索;或者圍繞由更高模式發(fā)現(xiàn)(found)的兩個(gè)開環(huán)延遲,在整個(gè)幀上聚焦開環(huán)搜索。
相反地,所述5.15模式開環(huán)延遲搜索可以首先被完成,并且兩個(gè)更高模式的開環(huán)延遲搜索聚焦于由5.15模式?jīng)Q定的值附近。
在一個(gè)如圖1d所示的第三以及更多的實(shí)施例中,一個(gè)復(fù)合模式網(wǎng)格(trellis)編碼器被生成允許許多功能單元的組合,每個(gè)功能單元具有至少2個(gè)操作模式(或比特率)。該新的編碼器從上述的NB-AMR編碼器的4比特率(5.15、5.90、6.70、7.40)構(gòu)建。在這個(gè)編碼器中,4個(gè)功能單元是區(qū)別的LPC功能單元、LTP功能單元、確定激勵(lì)功能單元以及獲取功能單元。參考上述表1,下述表3概括了對(duì)這些功能單元的每一個(gè)的比特率的數(shù)量以及其比特率。
表3a對(duì)NB-AMR編碼器的4個(gè)模式(5.15、5.90、6.70、7.40)的功能單元的比特率的數(shù)量以及比特率。

于是,有P=4個(gè)功能單元以及2×3×4×2=48種可能的組合。在這個(gè)特別的實(shí)施例中,功能單元2的高比特率(LTP比特率26比特/幀)沒有被考慮。當(dāng)然,其他選擇也是可以的。
以這種方式取得的復(fù)合比特率編碼器在具有32種可能模式的比特率方面具有高的間隔尺寸(granulartiy)(參考表3b)。但是,該結(jié)果編碼器不能與上述的NB-AMR編碼器交互作用。在表3b中,與NB-AMR編碼器的5.15、5.90以及6.70比特率相對(duì)應(yīng)的模式以粗體顯示,對(duì)功能單元LTP的最高比特率的排除消除了7.40比特率。
表3b每功能單元的比特率以及復(fù)合模式網(wǎng)格(trellis)編碼器的全局比特率。

這個(gè)具有32個(gè)可能比特率的編碼器,為了標(biāo)識(shí)所使用的模式5比特是必要的。如上一個(gè)變化所述,功能單元是被關(guān)聯(lián)。不同的編碼策略被應(yīng)用于不同的功能單元。
例如,對(duì)包括LSP量化的功能單元1,會(huì)對(duì)低比特率優(yōu)先選擇,如上所述,以及如下所述使用與這個(gè)功能單元相關(guān)的兩比特率的相同字典,組成第一3個(gè)LSP的第一子矢量在8比特被量化;使用具有最低比特率的字典,組成第二3個(gè)LSP的第二矢量在8比特被量化。與更高比特率字典的一半相應(yīng)的字典,如果在所述3個(gè)LSP和在字典內(nèi)的被選擇元素之間的距離超過(guò)一個(gè)某個(gè)閾值(threshold),則所述搜索在僅該字典的另一半內(nèi)完成;并且組成最后4個(gè)LSP的第3和最后子矢量使用一個(gè)大小為512(9比特)的字典以及一個(gè)大小為128(7比特)的字典來(lái)量化。
另一方面,如上所述,與第二個(gè)變化相關(guān)(對(duì)應(yīng)于先進(jìn)的后(posteriori)決定的復(fù)合模式編碼),所述選擇被做出以對(duì)功能單元2(LTP延遲)做出高比特率的優(yōu)先選擇。在NB-AMR編碼器中,對(duì)24位的LTP延遲,所述開環(huán)LTP延遲搜索在每幀內(nèi)完成兩次,并且對(duì)20位的LTP延遲每幀完成一次。我們的目標(biāo)是對(duì)這個(gè)功能單元做出高比特率的優(yōu)先選擇。于是,所述開環(huán)LTP延遲計(jì)算以下述方式完成兩個(gè)開環(huán)延遲在兩個(gè)超級(jí)子幀上被計(jì)算。如果他們充分接近以允許不同編碼,所述開環(huán)搜索不在整個(gè)幀上完成。相反,對(duì)兩個(gè)超級(jí)子幀的結(jié)果被使用;并且如果他們不足夠接近,一個(gè)開環(huán)搜索在整個(gè)幀上執(zhí)行,圍繞預(yù)先發(fā)現(xiàn)的兩個(gè)開環(huán)延遲聚焦(focused)。一個(gè)降低復(fù)雜度的變化僅僅保持他們當(dāng)中第一個(gè)的開環(huán)延遲。
可以在某些功能單元后作一個(gè)部分選擇來(lái)降低要探測(cè)的組合的數(shù)量。例如,在功能單元1(LPC)后,具有26比特的組合可以針對(duì)這個(gè)塊被消除,如果23比特模式的執(zhí)行足夠接近,或者如果與26比特模式相比下降太多的話,23比特模式的執(zhí)行可以被消除。
于是,本發(fā)明可以通過(guò)共有(mutualizing)和加快由不同編碼器執(zhí)行的計(jì)算來(lái)對(duì)復(fù)合編碼的復(fù)雜度問題提供一個(gè)有效的解決方案。于是,編碼結(jié)構(gòu)可以通過(guò)描述所完成的處理過(guò)程的功能單元來(lái)表示。使用于復(fù)合編碼中的不同編碼形式的功能單元具有本發(fā)明利用的強(qiáng)關(guān)聯(lián)(relation)。當(dāng)不同編碼對(duì)應(yīng)于相同結(jié)構(gòu)的不同模式時(shí),這些關(guān)聯(lián)(relation)特別地強(qiáng)。
最后,需要注意的是,從復(fù)雜度的觀點(diǎn)來(lái)看,本發(fā)明的是靈活的。事實(shí)上,可以在最大復(fù)合編碼復(fù)雜度上決定一個(gè)優(yōu)先(priori),并且使作為該復(fù)雜度的函數(shù)的所探測(cè)編碼器的數(shù)量適應(yīng)。
權(quán)利要求
1.一種復(fù)合壓縮編碼方法,其中,一個(gè)輸入信號(hào)并行地提供給若干編碼器,每個(gè)編碼器包括一系列功能單元,以通過(guò)每一個(gè)編碼器對(duì)所述信號(hào)進(jìn)行壓縮編碼,其特征在于,所述方法包括如下步驟標(biāo)識(shí)組成每個(gè)編碼器的功能單元,且由每個(gè)單元實(shí)現(xiàn)一個(gè)或多個(gè)功能;標(biāo)識(shí)從一個(gè)編碼器至另一個(gè)編碼器的通用功能;以及對(duì)所有在一個(gè)通用計(jì)算模塊內(nèi)的至少部分編碼器執(zhí)行一次所述通用功能。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算模塊由一個(gè)編碼器的一個(gè)或多個(gè)功能單元組成。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)在步驟c)中執(zhí)行的每個(gè)功能,從所述若干編碼器中選擇的一個(gè)編碼器的至少一個(gè)功能單元被使用,且被選擇的所述編碼器的所述功能單元適合于向其他編碼器傳送部分結(jié)果,用于通過(guò)所述其他編碼器在復(fù)雜性和編碼質(zhì)量之間驗(yàn)證一個(gè)優(yōu)化標(biāo)準(zhǔn)來(lái)有效編碼。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述編碼器有必要運(yùn)行于各自不同的比特率上,其特征在于,選擇的所述編碼器是具有最低比特率的編碼器,以及通過(guò)一個(gè)聚焦參數(shù)搜索至少部分其他模式,使在步驟c)中執(zhí)行所述功能后獲得的具有特定于所選擇的編碼器的參數(shù)的結(jié)果,適用于至少部分其他編碼器的比特率,直到具有最高比特率的編碼器。
5.根據(jù)權(quán)利要求3所述的方法,其中,所述編碼器適合于在各自不同的比特率上運(yùn)行,其特征在于,選擇的所述編碼器是具有高比特率的編碼器,而且通過(guò)一個(gè)聚焦參數(shù)搜索至少部分其他模式,使在步驟c)中執(zhí)行所述功能后所獲得的具有特定于選擇的所述編碼器的參數(shù)的結(jié)果,適用于至少部分其他編碼器的比特率,直到具有最低比特率的編碼器。
6.根據(jù)權(quán)利要求4和5所述的方法,其特征在于,在一個(gè)給定比特率運(yùn)行的編碼器的所述功能單元被用來(lái)作為用于該比特率的計(jì)算模塊,而且通過(guò)聚焦搜索使特定于該編碼器的至少部分參數(shù)逐漸適用,直到具有最高比特率的編碼器,以及直到具有最低比特率的編碼器。
7.根據(jù)權(quán)利要求1所述的方法,其中,所述不同編碼器的所述功能單元被設(shè)置于一個(gè)具有許多可能路徑在其內(nèi)的網(wǎng)格(trellis)中,其特征在于,在所述網(wǎng)格(trellis)內(nèi)的每條路徑都被所述功能單元的操作模式的一個(gè)組合所定義,且每個(gè)功能單元提供下一個(gè)功能單元的若干可能的變化。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,一個(gè)部分選擇模塊在每個(gè)編碼步驟后被提供,這些編碼步驟由一個(gè)或多個(gè)功能單元執(zhí)行,所述功能單元能夠選擇由一個(gè)或多個(gè)用于后續(xù)編碼步驟的那些功能單元所提供的結(jié)果。
9.根據(jù)權(quán)利要求7所述的方法,其中,所述功能單元有必要使用特定于所述比特率的各自參數(shù)在各自不同的比特率運(yùn)行,其特征在于,對(duì)于一個(gè)給定的功能單元,在網(wǎng)格中選擇的所述路徑是經(jīng)過(guò)最低比特率功能單元,并且通過(guò)一個(gè)聚焦參數(shù)搜索至少部分其他功能單元,使從所述最低比特率功能單元獲得的所述結(jié)果適合于至少部分其他功能單元的比特率,直到最高比特率功能單元。
10.根據(jù)權(quán)利要求7所述的方法,其中,所述功能單元有必要使用特定于所述比特率的各自參數(shù)在各自不同的比特率運(yùn)行,其特征在于,對(duì)于一個(gè)給定的功能單元,在網(wǎng)格中選擇的所述路徑是經(jīng)過(guò)最高比特率功能單元,并且通過(guò)一個(gè)聚焦參數(shù)搜索至少部分其他功能單元,使從所述最高比特率功能單元獲得的所述結(jié)果適合于至少部分其他功能單元的比特率,直到最低比特率功能單元。
11.根據(jù)權(quán)利要求9和10所述的方法,其特征在于,對(duì)于一個(gè)與一個(gè)編碼器的功能單元的所述參數(shù)相關(guān)的給定比特率,在所述給定比特率運(yùn)行的所述功能單元被作為計(jì)算模塊使用,而且通過(guò)聚焦搜索,使特定于該功能單元的至少部分所述參數(shù)適合,直到所述功能單元能夠在最低比特率運(yùn)行,以及直到所述功能單元能夠在最高比特率運(yùn)行。
12.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算模塊獨(dú)立于所述編碼器,且使適合于向所有的編碼器重新分布在步驟c)中獲得的結(jié)果。
13.根據(jù)權(quán)利要求12和2所述的方法,其特征在于,使所述獨(dú)立模塊和至少一個(gè)編碼器中的一個(gè)功能單元或多個(gè)功能單元適合于彼此交換在步驟c)中獲得的結(jié)果,且使所述計(jì)算模塊適合于在不同編碼器的功能單元間完成適合編碼轉(zhuǎn)換。
14.根據(jù)權(quán)利要求12或13所述的方法,其特征在于,所述獨(dú)立模塊包括一個(gè)至少部分編碼功能單元以及一個(gè)適合編碼轉(zhuǎn)換功能單元。
15.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其中,使并行的所述編碼器適合于執(zhí)行復(fù)合編碼,其特征在于,提供一個(gè)能夠選擇編碼器之一的后選擇模塊。
16.根據(jù)權(quán)利要求15所述的方法,其特征在于,提供一個(gè)部分選擇模塊,其獨(dú)立于所述編碼器,并且能夠在每個(gè)被一個(gè)或多個(gè)功能單元執(zhí)行的編碼步驟后選擇一個(gè)或多個(gè)編碼器。
17.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其中,所述編碼器是轉(zhuǎn)換類型,其特征在于,所述計(jì)算模塊包括一個(gè)在所有編碼器之間共享的比特賦值功能單元,在一個(gè)編碼器完成的每個(gè)比特賦值以后使其適合于該編碼器匹配,尤其是作為其比特率的一個(gè)函數(shù)。
18.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述方法進(jìn)一步包括一個(gè)量化步驟,其結(jié)果提供給所有的所述編碼器。
19.根據(jù)權(quán)利要求18所述的方法,其特征在于,其進(jìn)一步包括對(duì)所有所述編碼器通用的步驟,其包括一個(gè)時(shí)間-頻率(MDCT)轉(zhuǎn)換;在輸入信號(hào)中檢測(cè)發(fā)聲;檢測(cè)音調(diào);確定掩蔽曲線;以及頻譜包絡(luò)編碼。
20.根據(jù)權(quán)利要求17所述的方法,其中,所述編碼器完成子波段(MPEG-1)編碼,其特征在于,所述方法進(jìn)一步包括對(duì)所有所述編碼器通用的步驟,其包括應(yīng)用一個(gè)分析濾波器庫(kù);確定縮放因數(shù);頻譜轉(zhuǎn)換(FFT)計(jì)算;以及根據(jù)心理-聲學(xué)模型確定掩蔽閾值。
21.根據(jù)權(quán)利要求1至16中任一項(xiàng)所述的方法,其中,所述編碼器是綜合分析(CELP)類型,其特征在于,所述方法包括對(duì)所有所述編碼器通用的步驟,其包括預(yù)處理;線性預(yù)測(cè)系數(shù)分析;加權(quán)的輸入信號(hào)計(jì)算;以及對(duì)至少部分所述參數(shù)量化。
22.根據(jù)權(quán)利要求21和16所述的方法,其特征在于,所述部分選擇模塊用在一個(gè)用于短期(LPC)參數(shù)的拆分矢量量化步驟以后。
23.根據(jù)權(quán)利要求21和16所述的方法,其特征在于,所述部分選擇模塊用在一個(gè)共享的開環(huán)長(zhǎng)期參數(shù)(LTP)搜索步驟以后。
24.一種軟件產(chǎn)品,適合存儲(chǔ)在一個(gè)處理單元,特別是一計(jì)算機(jī)或一移動(dòng)終端的存儲(chǔ)器內(nèi),或在一個(gè)適合與一個(gè)所述處理單元的閱讀器配合的可移除存儲(chǔ)介質(zhì)內(nèi),其特征在于,其包括執(zhí)行根據(jù)前述任一權(quán)利要求所述的編碼轉(zhuǎn)換方法的指令。
25.一種用于輔助復(fù)合壓縮編碼的系統(tǒng),其中,為了由每個(gè)編碼器對(duì)所述信號(hào)進(jìn)行壓縮編碼的目的,一個(gè)輸入信號(hào)并行地提供給若干編碼器,每個(gè)編碼器包括一系列功能單元,其特征在于,其包括一個(gè)存儲(chǔ)器,適合存儲(chǔ)根據(jù)權(quán)利要求24所述的一個(gè)軟件產(chǎn)品的指令。
26.一種根據(jù)權(quán)利要求25所述的設(shè)備,其特征在于,其進(jìn)一步包括一個(gè)獨(dú)立計(jì)算模塊(MI),用于實(shí)現(xiàn)根據(jù)權(quán)利要求12至16、22和23中任一項(xiàng)所述的方法。
全文摘要
本發(fā)明涉及數(shù)字信號(hào),例如多媒體信號(hào)(音頻或視頻)的壓縮編碼器,特別是,涉及一個(gè)用于復(fù)合編碼的方法,其中若干個(gè)編碼器并行地接收一個(gè)輸入信號(hào),每個(gè)編碼器由一系列功能塊組成。根據(jù)本發(fā)明,a)組成每個(gè)編碼器的功能塊(BF10,BFnN)是相同的,每個(gè)功能塊執(zhí)行一個(gè)或若干個(gè)功能;b)對(duì)不同編碼器通用的功能詳細(xì)說(shuō)明;c)最后,在至少一個(gè)同樣的計(jì)算模塊(BF1CC,BFnCC)中,對(duì)于至少所有編碼器的一部分,所述通用功能被執(zhí)行。
文檔編號(hào)G10L19/18GK1890714SQ200480036584
公開日2007年1月3日 申請(qǐng)日期2004年11月24日 優(yōu)先權(quán)日2003年12月10日
發(fā)明者達(dá)維德·維雷特, 克洛德·朗布蘭, 阿卜杜勒-拉蒂夫·本·杰隆·圖伊米 申請(qǐng)人:法國(guó)電信
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1