用于編碼和解碼基于對象的音頻信號的方法和裝置的制作方法

文檔序號：2830509閱讀：145來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于編碼和解碼基于對象的音頻信號的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于編碼和解碼基于對象的音頻信號的音頻編碼和解碼方法及裝置，使得音頻信號可通過分組得到有效的處理。
背景技術(shù)：
一般來說，基于對象的音頻編/解碼采用一種方法，該方法發(fā)送從每個對象信號中提取出的特定參數(shù)之和以及對象信號，從中恢復(fù)各個對象信號，并且混音對象信號以得到期望聲道數(shù)。貝U，當(dāng)對象信號的數(shù)量很多時，混音各個對象信號所需的信息量也隨著對象信號的數(shù)量而增長。
然而，在具有緊密關(guān)聯(lián)的對象信號中，對于每一個對象信號，發(fā) 送相似的混音信息及類似信息。從而，如果對象信號被打包到一個組中，則相同的信息就只被發(fā)送一次，于是提高了效率。
在一般的編碼和解碼方法中，通過將多個對象信號打包到一個對象信號中可以獲得相同的效果。然而，如果使用該方法，增加了對象信號的單位，并且也無法作為打包前的原始對象信號單元來混音對象信號。

發(fā)明內(nèi)容
技術(shù)問題
從而，本發(fā)明的一個目的是提供一種用于編碼和解碼對象信號的音頻編碼和解碼方法及其裝置，其中有關(guān)聯(lián)的對象音頻信號被打包進(jìn) 一個組中，并且可以基于每個組進(jìn)行處理。
6技術(shù)方案
為了實(shí)現(xiàn)目的，根據(jù)本發(fā)明的音頻信號解碼方法包括從音頻信號中提取音樂對象基于聲道被編碼的第一音頻信號和第一音頻參數(shù)，并提取嗓音對象基于對象被編碼的第二音頻信號和第二音頻參數(shù)；通過利用該第一和第二音頻信號中的至少一個來生成第三音頻信號；和通過利用該第一和第二音頻參數(shù)中的至少一個以及該第三音頻信號來生成多聲道音頻信號。
進(jìn)一步，為了實(shí)現(xiàn)上述目的，根據(jù)本發(fā)明的音頻解碼方法包括步驟接收縮減混音信號；從該縮減混音信號中提取包含嗓音對象的音樂對象被編碼的第一音頻信號，并提取嗓音對象被編碼的第二音頻信號；根據(jù)該第一和第二音頻信號生成僅包括嗓音對象的音頻信號、包括嗓音對象的音頻信號和不包括嗓音對象的音頻信號中的任何一個。
同時，根據(jù)本發(fā)明的音頻信號解碼裝置包括解復(fù)用器，用于從接收到的比特流中提取縮減混音信號和邊信息；對象解碼器，用于通過利用從該縮減混音信號中提取的音樂對象基于聲道被編碼的第一音頻信號和從該縮減混音信號中提取的嗓音對象基于對象被編碼的第二音頻信號中的至少一個來生成第三音頻信號；和多聲道解碼器，用于通過利用從該邊信息中所提取出的第一音頻參數(shù)和第二音頻參數(shù)中的至少一個和該第三音頻信號來生成多聲道音頻信號。
進(jìn)一步，根據(jù)本發(fā)明的音頻解碼裝置包括對象解碼器，用于根據(jù)從縮減混音信號中提取的音樂對象被編碼的第一音頻信號和從縮減混音信號中提取的嗓音對象被編碼的第二音頻信號，來生成僅包括嗓音對象的音頻信號、包括嗓音對象的音頻信號和不包括嗓音對象的音頻信號中的任何一個；和多聲道解碼器，用于通過利用從該對象解碼器中輸出的信號來生成多聲道音頻信號。
進(jìn)一步，根據(jù)本發(fā)明的音頻編碼方法包括步驟生成音樂對象基于聲道被編碼的第一音頻信號和相應(yīng)于該音樂對象的第一音頻參數(shù)；生成嗓音對象基于對象被編碼的第二音頻信號和相應(yīng)于該嗓音對象的第二音頻參數(shù)；和生成包括該第一和第二音頻信號以及該第一和第二音頻參數(shù)的比特流。
根據(jù)本發(fā)明，其提供了一種音頻編碼裝置包括多聲道編碼器，用于生成音樂對象基于聲道被編碼的第一音頻信號和關(guān)于該音樂對象的基于聲道的第一音頻參數(shù)；對象編碼器，用于生成嗓音對象基于對
象被編碼的第二音頻信號和關(guān)于該嗓音對象的基于對象的第二音頻參數(shù)；和復(fù)用器，用于生成包括該第一和第二音頻信號以及該第一和第二音頻參數(shù)的比特流。
為實(shí)現(xiàn)上述方面，本發(fā)明提供一種計算機(jī)可讀記錄介質(zhì)，其中記錄有用于執(zhí)行上述方法的程序。
有益效果
根據(jù)本發(fā)明，有關(guān)聯(lián)的對象音頻信號可按組被處理，同時最大可能地利用了基于對象的音頻信號的編碼和解碼的優(yōu)點(diǎn)。從而，提高了編碼和解碼處理中的計算量，被編碼的比特流的大小等方面的效率。進(jìn)一步，通過將對象信號打包到一個音樂對象、嗓音對象中，本發(fā)明可被有效應(yīng)用到卡拉OK系統(tǒng)等。

圖1是根據(jù)本發(fā)明第一實(shí)施例的音頻編碼和解碼裝置的方框圖2是根據(jù)本發(fā)明第二實(shí)施例的音頻編碼和解碼裝置的方框圖3是表示聲音源、組和對象信號之間的關(guān)系的示意圖4是根據(jù)本發(fā)明第三實(shí)施例的音頻編碼和解碼裝置的方框圖5和圖6是表示主對象和背景對象的示意圖7和圖8是表示在編碼裝置中生成的比特流的結(jié)構(gòu)示意圖9是根據(jù)本發(fā)明第四實(shí)施例的音頻編碼和解碼裝置的方框圖；圖IO是表示使用多個主對象的例子的示意圖11是根據(jù)本發(fā)明第五實(shí)施例的音頻編碼和解碼裝置的方框圖；圖12是根據(jù)本發(fā)明第六實(shí)施例的音頻編碼和解碼裝置的方框圖；圖13是根據(jù)本發(fā)明第七實(shí)施例的音頻編碼和解碼裝置的方框圖；圖14是根據(jù)本發(fā)明第八實(shí)施例的音頻編碼和解碼裝置的方框圖；圖15是根據(jù)本發(fā)明第九實(shí)施例的音頻編碼和解碼裝置的方框圖；圖16是表示逐步編碼嗓音對象的例子的示意圖。
實(shí)施本發(fā)明的最佳模式
現(xiàn)在將參照附圖來詳細(xì)描述本發(fā)明。
圖1是根據(jù)本發(fā)明第一實(shí)施例的音頻編碼和解碼裝置的方框圖。根據(jù)本實(shí)施例的音頻解碼和編碼裝置根據(jù)分組的概念來解碼并編碼相應(yīng)于基于對象的音頻信號的對象信號。換句話說，通過將有關(guān)聯(lián)的一個或多個對象信號打包到一個相同的組中，基于每個組來執(zhí)行編碼和解碼。
參見圖1,其表示包括對象編碼器111的音頻編碼裝置110，及包括對象解碼器121和混音器/渲染器123的音頻解碼裝置120。雖然未在圖中示出，編碼裝置110可包括復(fù)用器等，用于生成縮減混音信號和邊信息所組成的比特流，并且解碼裝置120可包括解復(fù)用器等，用于從接收到的比特流中提取縮減混音信號和邊信息。稍后將描述根據(jù) 其它實(shí)施例的具有該結(jié)構(gòu)的編碼和解碼裝置。
編碼裝置IIO接收N個對象信號和有關(guān)聯(lián)的對象信號的基于每個組的的組信息，該組信息包括有關(guān)位置信息、大小信息、時間標(biāo)志信息等。編碼裝置110編碼在其中有關(guān)聯(lián)的對象信號被分組在一起的信號，并且生成具有一個或多個聲道的基于對象的縮減混音信號和包括從每個對象信號提取出的信息的邊信息等。在解碼裝置120中，對象解碼器121根據(jù)縮減混音信號和邊信息來生成基于分組被編碼的信號，并且混音器/渲染器123根據(jù)控制信息將從對象解碼器121中輸出的信號以特定電平放置于多聲道空間中的特定位置。也就是說，解碼裝置120生成多聲道信號，而不會對以分組為基礎(chǔ)編碼的信號重新以對象為基礎(chǔ)進(jìn)行解包。
根據(jù)這種結(jié)構(gòu)，通過分組和編碼具有時間上的相同的位置改變、大小改變、延遲改變等的對象，可減少需要被傳輸?shù)男畔⒘?。進(jìn)一步，如果對象信號被分組，可傳輸關(guān)于一個組的共用邊信息，所以可以容易地控制屬于相同組的多個對象信號。
圖2是根據(jù)本發(fā)明第二實(shí)施例的音頻編碼和解碼裝置的方框圖。根據(jù)該實(shí)施例的音頻信號解碼裝置140與第一實(shí)施例不同，其區(qū)別在于音頻信號解碼裝置140進(jìn)一步包括對象提取器143。
換句話說，編碼裝置130、對象解碼器141、和混音器/渲染器145 具有與第一實(shí)施例相同的功能和結(jié)構(gòu)。然而，因?yàn)榻獯a裝置140進(jìn)一步包括對象提取器143，當(dāng)必須解包對象單元時，相應(yīng)對象信號所屬的一個組可以對象為單位被解包。在這種情況下，不會以對象為單位被解包，而只對不可能以組為單位進(jìn)行混音的組提取對象信號。
圖3是表示聲音源、組和對象信號之間的關(guān)系的示意圖。如圖3 所示，具有相同屬性的對象信號被分組在一起，這樣可以減小比特流的大小，并且所有的對象信號屬于上層的組。
圖4是根據(jù)本發(fā)明第三實(shí)施例的音頻編碼和解碼裝置的方框圖。在根據(jù)本實(shí)施例的音頻編碼和解碼裝置中，使用了核心縮減混音聲道這一概念。
參見圖4，其示出了屬于音頻編碼裝置的對象編碼器151，及包括
10對象解碼器161和混音器/渲染器163的音頻解碼裝置160。
對象編碼器151接收N個對象信號(N>1)，并且生成M個聲道的縮減混音信號(1<M<N)。在解碼裝置160中，對象解碼器161再次將M個聲道的縮減混音信號解碼為N個對象信號，并且混音器/渲染器163最終輸出L個聲道信號(L》1)。
此時，由對象編碼器151所生成的M個縮減混音聲道包括K個核心縮減混音聲道(K<M)和M-K個非核心縮減混音聲道。縮減混音聲道具有上述結(jié)構(gòu)的原因是因?yàn)槠渲匾钥筛鶕?jù)對象信號而改變。換句話說，對于對象信號一般的編碼和解碼方法不具有足夠的分辨率，因此其可以包括基于每個對象信號的其它對象信號的成分。貝U，如果縮減混音聲道包括如上所述的核心縮減混音聲道和非核心縮減混音聲道，可最小化對象信號之間的沖突。
在這種情況下，核心縮減混音聲道可使用不同于非核心縮減混音聲道所使用的處理方法。舉例來說，參見圖4，輸入到混音器/渲染器 163的邊信息可僅在核心縮減混音聲道中被定義。換句話說，混音器/ 渲染器163可被配置為僅控制從核心縮減混音聲道中解碼出的對象信號，而不控制從非核心縮減混音聲道中解碼出的對象信號。
作為另一個例子，核心縮減混音聲道可僅由少數(shù)對象信號構(gòu)成，這些對象信號被分組在一起并根據(jù)一個控制信息被控制。舉例來說，額外的核心縮減混音聲道可僅由嗓音信號構(gòu)成以構(gòu)成卡拉OK系統(tǒng)。進(jìn) 一步，額外的核心縮減混音聲道可通過僅分組鼓聲等信號來構(gòu)成，所以低頻信號，例如鼓聲信號的強(qiáng)度，可被精確控制。
同時，通常通過混合多種具有軌跡形式的音頻信號來生成音樂。舉例來說，在音樂是由鼓聲、吉他聲、鋼琴聲和嗓音信號組成的情況下，鼓聲、吉他聲、鋼琴聲和嗓音信號的每一個都可作為一個對象信號。在這種情況下，全部對象信號中的某一個信號被確定為特別重要的信號，并且可由用戶來控制，或者多個對象信號，其被作為一個對象信號來混音和控制，可被定義為主對象。進(jìn)一步，全部對象信號中的主對象以外的對象信號的混合可被定義為背景對象。根據(jù)該定義，可以說全部對象或音樂對象包括主對象和背景對象。
圖5和圖6是表示主對象和背景對象的示意圖。如圖5a所示，假設(shè)主對象是嗓音，背景對象是嗓音之外的全部樂器聲的混合，音樂對象可包括嗓音對象和除嗓音之外的樂器的混音后的背景對象。如圖5b 所示，主對象的數(shù)量可以是一個或多個。
進(jìn)一步，主對象可以具有在其中多種對象信號被混音的形態(tài)。舉例來說，如圖6所示，嗓音和吉他聲的混音可被作為主對象，剩余樂器聲可被作為背景對象。
為了能分別控制音樂對象中的主對象和背景對象，在編碼裝置中編碼的比特流必須具有如圖7所示的格式之一。
圖7a表示在編碼裝置中生成的比特流由音樂比特流和主對象比特流組成時的情況。音樂比特流具有這樣的形態(tài)，即所有的對象信號混合于其中，并且是指相應(yīng)于所有主對象和背景對象之和的比特流。圖 7b表示比特流是由音樂比特流和背景對象比特流組成時的情況。圖7c 表示比特流是由主對象比特流和背景對象比特流組成時的情況。
在圖7中，通過使用具有相同方法的編碼器和解碼器來確定規(guī)則以生成音樂比特流、主對象比特流和背景比特流。然而，當(dāng)主對象被用作為嗓音對象時，可使用MP3來解碼和編碼音樂比特流，并且可使用例如AMR、 QCELP、 EFR或EVRC的語音編解碼器來解碼和編碼嗓音對象比特流，這樣可以減少比特流的容量。換句話說，音樂對象和主對象，主對象和背景對象等的編碼和解碼方法可以不同。
12在圖7a中，使用與通常編碼方法相同的方法來配置音樂比特流部分。進(jìn)一步，在諸如MP3或AAC之類的編碼方法中，在比特流的后半部分中，可包含諸如副區(qū)域或輔助區(qū)域之類指示邊信息的部分，主對象比特流可被增加到這個部分。因此，總比特流是由音樂對象被編碼的區(qū)域和接著音樂對象被編碼的區(qū)域的主對象區(qū)域所組成的。此時，將一個表示增加了主對象的標(biāo)識符、標(biāo)志等添加到邊區(qū)域的第一半部分，所以在解碼裝置中可以確定是否存在主對象。
圖7b的情況基本上與圖7a的格式相同。在圖7b中，使用背景對象來代替圖7a中的主對象。
圖7c表示比特流是由主對象比特流和背景對象比特流組成時的情況。在這種情況下，音樂對象是由主對象和背景對象的總和或混音所組成的。在該配置比特流的方法中，首先存儲背景對象，并且接著在輔助區(qū)域中存儲主對象?？蛇x的是，首先存儲主對象，并且接著在輔助區(qū)域中存儲背景對象。在這樣的情況下，如上所述，可將表示邊區(qū) 域信息的標(biāo)識符添加到邊區(qū)域的第一半部分。
圖8表示配置比特流的方法，以便確定增加的主對象。第一個例子是在音樂比特流完成后相應(yīng)的區(qū)域?yàn)檩o助區(qū)域，直到下一幀開始。在第一個例子中，僅包括表示主對象已被編碼的標(biāo)識符。
第二個例子相應(yīng)于需要表示從音樂比特流之后開始的輔助區(qū)域或數(shù)據(jù)區(qū)域已經(jīng)完成的標(biāo)識符的編碼方法。為此，在編碼主對象的過程中，需要兩種標(biāo)識符，比如一個表示輔助區(qū)域開始的標(biāo)識符，和一個表示主對象的標(biāo)識符。在解碼該比特流的過程中，通過讀取標(biāo)識符來確定數(shù)據(jù)的類型，并且接著通過數(shù)據(jù)部分來解碼比特流。
圖9是根據(jù)本發(fā)明第四實(shí)施例的音頻編碼和解碼裝置的方框圖。根據(jù)該實(shí)施例的音頻編碼和解碼裝置編碼和解碼在其中增加了嗓音對象作為主對象的比特流。
參見圖9，包括在編碼裝置中的編碼器211編碼包括嗓音對象和
音樂對象的音樂信號。編碼器211的音樂信號的例子包括MP3、 AAC、 WMA等。編碼器211將嗓音對象作為除音樂信號之外的主對象增加到比特流中。此時，編碼器211將嗓音對象增加到表示邊信息的部分中，例如以上提及的副區(qū)域或輔助區(qū)域，并且將表示把存在額外的嗓音對象這個事實(shí)通知給編碼裝置的標(biāo)識符增加到該部分。
解碼裝置220包括一般編解碼解碼器221，嗓音解碼器223和混音器225。一般編解碼解碼器221解碼所接收到的比特流的音樂比特流部分。在這種情況下，主對象區(qū)域可被簡單地識別為邊區(qū)域或數(shù)據(jù)區(qū) 域，但其在解碼處理中不被使用。嗓音解碼器223解碼所接收到的比特流中的嗓音對象部分?；煲羝?25對在一般編解碼解碼器221和嗓音解碼器223中所解碼的信號進(jìn)行混音，并且輸出混音結(jié)果。
當(dāng)接收到的比特流中包括作為主對象的嗓音對象時，不包括嗓音解碼器223的解碼裝置僅解碼音樂比特流并且輸出解碼結(jié)果。然而，即使在這種情況下，其還是和通常的音頻輸出一樣，因?yàn)樵谝魳繁忍?流中包括了嗓音信號。進(jìn)一步，在解碼處理中，其根據(jù)標(biāo)識符等來確定是否有嗓音對象被增加到了比特流中。當(dāng)不可能解碼嗓音對象時，通過跳過來忽略嗓音對象，但是當(dāng)可能解碼嗓音對象時，嗓音信號被解碼并被用于混音。
一般編解碼解碼器221適用于音樂播放和一般使用的音頻解碼。舉例來說，有MP3、 AAC、 HE-AAC、 WMA、 OggVorbis等。嗓音解碼器223可使用與一般編解碼解碼器221相同或不同的編解碼器。舉例來說，嗓音解碼器223可使用語音編解碼器，例如EVRC、 EFR、 AMR 或QCELP。在這種情況下，可減少解碼的計算量。
14進(jìn)一步，如果嗓音對象是由單聲所組成的，可以最大可能地減少比特率。然而，如果音樂比特流不能僅由單聲組成，因其是由立體聲道組成且左右聲道的嗓音信號不相同，嗓音對象也可由立體聲組成。
在根據(jù)本實(shí)施例的解碼裝置220中，可以對僅播放音樂的模式、
僅播放主對象的模式、和充分混音并播放音樂和主對象的模式中的任何一種模式進(jìn)行選擇并播放，以響應(yīng)于諸如在播放裝置上的按鈕或菜單的操作之類的用戶控制命令。
在主對象被忽略并且僅播放原始音樂這一事件中，其對應(yīng)于當(dāng)前音樂的播放。然而，因?yàn)榭梢皂憫?yīng)于用戶控制命令進(jìn)行混音，所以可以控制主對象或背景對象的大小。當(dāng)主對象是嗓音對象時，這意味著當(dāng)與背景音樂相比較后只有嗓音可被增加或減小。
僅播放主對象的例子可以包括嗓音對象或一個特定的樂器聲以作為主對象。換句話說，這意味著僅可聽到嗓音而聽不到背景音樂，僅可聽到樂器聲而聽不到背景音樂等。
當(dāng)音樂和主對象被充分地混音并播放時，這意味著當(dāng)與背景音樂相比較后只有嗓音可被增加或減小。尤其是，在嗓音成分被完全從音
樂中剝離出后，因?yàn)樯ひ舫煞值南?，該音樂可被用于卡拉OK系統(tǒng)。如果嗓音對象在編碼裝置中被編碼，其中嗓音對象的相位被逆轉(zhuǎn)，解碼裝置可通過將嗓音對象增加到音樂對象中而播放卡拉OK系統(tǒng)。
在上述處理中，已經(jīng)描述了音樂對象和主對象被分別解碼然后被混音。然而，可以在解碼處理期間執(zhí)行混音處理。舉例來說，在諸如包括MP3和AAC之類的MDCT (修改的離散余弦變換)變換編碼系列中，可對MDCT系數(shù)執(zhí)行混音并且最終執(zhí)行逆MDCT，這樣來生成 PCM輸出。在這種情況下，可有效減少總計算量。此外，本發(fā)明并不限制于MDCT，而是包括所有的變換，其中關(guān)于一般變換編碼系列解
碼器的系數(shù)被混合進(jìn)變換域中，并且接著執(zhí)行解碼。
此外，在上述例子中已經(jīng)描述了使用一個主對象的例子。然而，
還可以使用多個主對象。舉例來說，如圖10所示，嗓音信號可作為主對象l，吉他聲音可作為主對象2。該結(jié)構(gòu)在僅播放音樂中除了嗓音和
吉他之外的背景對象，并且用戶直接唱歌和彈吉他時是特別有用的。進(jìn)一步，可通過音樂的多種組合來播放該比特流，該音樂組合的其中之一可為不包括嗓音的音樂、不包括吉他的音樂、不包括嗓音和吉他的音樂等。
同時，在本發(fā)明中，由嗓音比特流所指示的聲道可被擴(kuò)展。舉例來說，可使用鼓聲比特流來播放音樂的整個部分、音樂的鼓聲部分、或音樂中整個部分中不包括鼓聲的那部分。進(jìn)一步，可使用兩個或更多額外的比特流，例如嗓音比特流和鼓聲比特流來基于每個部分控制混音。
此外，在本實(shí)施例中，僅主要描述了立體聲/單聲。然而，本實(shí)施例還可被擴(kuò)展到多聲道。舉例來說，可通過將嗓音對象、主對象比特
流等增加到5.1聲道比特流來配置比特流，并且可以播放原始聲音、剝離了嗓音的聲音和僅包括嗓音的聲音中的任何一個。
本實(shí)施例還可被配置為僅支持音樂和從音樂中剝離了嗓音的模式，而不支持僅播放嗓音(主對象)的模式。該方法可被應(yīng)用于當(dāng)演唱者不希望僅播放嗓音時。其可被擴(kuò)展到解碼器的配置，在該配置中指示是否存在僅支持嗓音的功能的標(biāo)識符被放置于比特流中，并且根據(jù)該比特流來決定播放的范圍。
圖11是根據(jù)本發(fā)明第五實(shí)施例的音頻編碼和解碼裝置的方框圖。根據(jù)該實(shí)施例的音頻編碼和解碼裝置可使用殘差信號來實(shí)現(xiàn)卡拉OK
16系統(tǒng)。當(dāng)其專用于卡拉OK系統(tǒng)時，音樂對象可被劃分為如上所述的背
景對象和主對象。主對象涉及與背景對象分離控制的對象信號。尤其是，主對象涉及嗓音對象信號。背景對象是除主對象之外的整個對象信號之和。
參見圖ll，包括在編碼裝置中的編碼器251編碼一起輸出的背景對象和主對象。在編碼過程中，可使用諸如AAC或MP3之類的一般音頻編解碼器。如果在解碼裝置260中解碼信號，解碼后的信號包括背景對象信號和主對象信號。假設(shè)解碼后的信號是原始解碼信號，可使用以下方法以將卡拉OK系統(tǒng)應(yīng)用給該信號。
主對象是以殘差信號的形式包括在全部比特流中。主對象被解碼并且接著被從原始解碼信號中剝離。在這種情況下，第一解碼器261 解碼全部信號，并且第二解碼器263解碼殘差信號，其中g(shù)-l?？蛇x的是，具有相反相位的主對象信號可以殘差信號的形式包括在全部比特流中。主對象信號可被解碼并且接著被增加給原始解碼信號。在這種情況下，g=-l。在以上任一方法中，可通過控制g值來實(shí)現(xiàn)一種可伸縮的卡拉OK系統(tǒng)。
舉例來說，當(dāng)g=-0.5或g=0.5時，主對象或嗓音對象沒有被完全移除，而僅可控制其電平。進(jìn)一步，如果值g被設(shè)為正數(shù)或0負(fù)數(shù)，其影響嗓音對象的大小的控制。如果沒有使用原始解碼信號，并且僅輸出殘差信號，也可支持僅有嗓音的獨(dú)唱模式。
圖12是根據(jù)本發(fā)明第六實(shí)施例的音頻編碼和解碼裝置的方框圖。根據(jù)該實(shí)施例的音頻編碼和解碼裝置通過區(qū)分用于卡拉OK信號輸出和嗓音模式輸出的殘差信號而使用兩個殘差信號。
參見圖12，在第一解碼器291解碼的原始解碼信號在對象分離單元295中被劃分為背景對象信號和主對象信號，并且接著被輸出。事實(shí)上，背景對象包括一些主對象成分和原始背景對象，并且主對象也包括一些背景對象成分和原始主對象。這是因?yàn)閷⒃冀獯a信號劃分為背景對象和主對象信號的過程是不完全的。
尤其是，關(guān)于背景對象，包括在背景對象中的主對象成分可被預(yù) 先以殘差信號的形式包括在所有比特流中，所有比特流將被解碼，并且可從背景對象中減去主對象成分。在這種情況下，在圖12中，g=-l。通過如第五實(shí)施例中所述的那樣控制g值的任一方法可以實(shí)現(xiàn)可伸縮
的卡拉OK系統(tǒng)。
以同樣的方法，在殘差信號被應(yīng)用到主對象信號后通過控制值gl 可以支持獨(dú)唱模式?？紤]殘差信號和原始對象的相位比較及嗓音模式的程度，gl值可如以上描述那樣被應(yīng)用。
圖13是根據(jù)本發(fā)明第七實(shí)施例的音頻編碼和解碼裝置的方框圖。在該實(shí)施例中，使用以下方法來進(jìn)一步減少上述實(shí)施例中的殘差信號的比特率。
當(dāng)主對象信號是單聲信號時，立體聲-三聲道變換單元305對在第一解碼器301中解碼的原始立體聲信號執(zhí)行立體聲-三聲道變換。因?yàn)?立體聲-三聲道變換沒有完成，背景對象(也就是一個輸出)包括一些主對象成分和背景對象成分，并且主對象(也就是另一個輸出)也包括一些背景對象成分和主對象成分。
接著，第二解碼器303對所有比特流的殘差部分執(zhí)行解碼(或在解碼后，進(jìn)行qmf變換或mdct-qmf變換)，并且加權(quán)到背景對象信號和主對象信號中。從而，可以分別獲得由背景對象成分和主對象成分所組成的信號。
該方法的優(yōu)點(diǎn)是，因?yàn)楸尘皩ο笮盘柡椭鲗ο笮盘柾ㄟ^立體聲-三
18聲道變換已被劃分，可使用較少比特率來構(gòu)建用于去除包括在信號中的其它成分的殘差信號(即，保留在背景對象信號中的主對象成分和保留在主對象信號中的背景對象成分)。
參見圖13，假設(shè)在背景對象信號BS中的背景對象成分為B、主對象成分為m，以及在主對象信號MS中的主對象成分為M、背景對象成分為b，則建立以下公式。
算式l
BS=B+m
MS=M+b
舉例來說，當(dāng)殘差信號R由b-m組成，最終卡拉OK輸出KO結(jié) 果為
算式2
KO=BS+R=B+b
最終獨(dú)唱模式輸出SO結(jié)果為:
算式3
SO=BS-R=M+m
在上述公式中可把殘差信號的符號改為相反的，也就是說， R=m-b， g=-l&gl=l。
當(dāng)配置BS和MS時，根據(jù)如何設(shè)置B、 m、 M和/或b的符號，可容易地計算出g和gl的值，上述g和gl用于使得KO和SO的最終值能由B和b及M和m組成的。在上述情況中，由原始信號對卡拉 OK和獨(dú)唱信號雖然只做了微小改變，但就可以實(shí)現(xiàn)實(shí)際使用的輸出信號的高質(zhì)量，這是因?yàn)榭ɡ璒K的輸出不包括獨(dú)唱成分，并且獨(dú)唱的輸出也不包括卡拉OK成分。進(jìn)一步，當(dāng)存在兩個或多個主對象時，可逐步使用二至三聲道變換和殘差信號的增加/減少。
圖14是根據(jù)本發(fā)明第八實(shí)施例的音頻編碼和解碼裝置的方框圖。根據(jù)該實(shí)施例的音頻信號解碼裝置330與第七實(shí)施例不同，其區(qū)別在于當(dāng)主對象信號是立體聲信號時，對每個原始立體聲聲道執(zhí)行兩次單聲-立體聲變換。
因?yàn)閱温?立體聲變換不是完美的，背景對象信號(也就是一個輸出)包括一些主對象成分和背景對象成分，并且主對象信號(也就是另一個輸出)包括一些背景對象成分和主對象成分。其后，對所有比特流中的殘差部分執(zhí)行解碼(或在解碼后，執(zhí)行qmf變換或mdct-qmf 變換)，則左和右聲道成分乘上加權(quán)后被分別增加到背景對象信號和主對象信號的左右聲道中，所以可以獲得由背景對象成分(立體聲) 和主對象成分(立體聲)所組成的信號。
在通過利用立體聲背景對象和立體聲主對象之間的差而形成的立體聲殘差信號中，圖14中的g=g2=-l且ghg34。此外，如上所述，可根據(jù)背景對象信號、主對象信號和殘差信號的符號容易地計算出g、 gl、 g2和g3的值。
一般來說，主對象信號可以是單聲或立體聲。因?yàn)檫@個原因，指示主對象是單聲還是立體聲的標(biāo)志被放置于所有比特流中。當(dāng)主對象信號是單聲時，可使用如圖13所示的第七實(shí)施例的方法來解碼主對象信號，當(dāng)主對象信號是立體聲時，通過讀取標(biāo)志可使用如圖14所示的第八實(shí)施例的方法來解碼主對象信號。
此外，當(dāng)包括一個或多個主對象時，可根據(jù)每個主對象是單聲還是立體聲來連續(xù)地使用上述方法。此時，每個方法所使用的次數(shù)與單聲/立體聲主對象數(shù)量一樣。舉例來說，當(dāng)主對象的數(shù)量為3,三個主對象中的單聲主對象數(shù)量為2，立體聲主對象數(shù)量為1時，可通過使用
第七實(shí)施例所述的方法兩次和圖14中的第八實(shí)施例所述的方法一次來輸出卡拉OK信號。此時，可預(yù)先決定第七實(shí)施例所述的方法和第八實(shí)施例所述的方法的順序。舉例來說，對于單聲主對象總是執(zhí)行第七實(shí)施例所述的方法，而對于立體聲對象執(zhí)行第八實(shí)施例所述的方法。作為另一種順序決定方法，用于描述第七實(shí)施例所述的方法和第八實(shí)施例所述的方法的順序的描述符可被放置于總比特流中，并且可以根據(jù)描述符來選擇性地執(zhí)行方法。
圖15是根據(jù)本發(fā)明第九實(shí)施例的音頻編碼和解碼裝置的方框圖。根據(jù)該實(shí)施例的音頻編碼和解碼裝置使用多聲道編碼器來生成音樂對象或背景對象。
參見圖15，顯示了一種音頻編碼裝置350，其包括多聲道編碼器351，對象編碼器353和復(fù)用器355，還顯示了一種音頻解碼裝置360，其包括解復(fù)用器361，對象解碼器363和多聲道解碼器369。對象解碼器363可包括聲道變換器365和混音器367。
多聲道編碼器351使用基于聲道的音樂對象來生成縮減混音信號，并且通過提取音樂對象的信息來生成基于聲道的第一音頻參數(shù)信息。對象編碼器353生成一縮減混音信號(該縮減混音信號是通過使用嗓音對象和多聲道編碼器351生成的縮減混音信號編碼而得)作為對象基礎(chǔ)、并生成基于對象的第二音頻參數(shù)信息和相應(yīng)于嗓音對象的殘差信號。復(fù)用器355生成對象編碼器353所生成的縮減混音信號和邊信息所組合的比特流。此時，邊信息是包括多聲道編碼器351所生成的第一音頻參數(shù)，殘差信號和對象解碼器353所生成的第二音頻參數(shù)等的信息。
在音頻解碼裝置360中，解復(fù)用器361從接收到的比特流中解復(fù)
21用縮減混音信號和邊信息。對象解碼器363通過利用在其中音樂對象
基于聲道被編碼的音頻信號和在其中嗓音對象被編碼的音頻信號中的
至少一個來生成帶有被控制的嗓音成分的音頻信號。對象解碼器363包括聲道變換器365，其可以在解碼處理中執(zhí)行單聲-立體聲變換或二-三變換?；煲羝?67可以使用包括在控制信息中的混音參數(shù)等來控制特定對象信號的電平、位置等。多聲道解碼器369使用在對象解碼器363所解碼的音頻信號和邊信息等來生成多聲道信號。
對象解碼器363可以根據(jù)輸入的控制信息來生成對應(yīng)于在其中生成不具有嗓音成分的音頻信號的卡拉OK模式，在其中生成僅包括嗓音成分的音頻信號的獨(dú)唱模式，和在其中生成包括嗓音成分的音頻信號的一般模式這三種模式中的任何一種的音頻信號。
圖16是表示逐步編碼嗓音對象情況下的示意圖。參見圖16，根據(jù)本實(shí)施例的編碼裝置380包括多聲道編碼器381，第一到第三對象編碼器383、 385和387，和復(fù)用器389。
多聲道編碼器381具有與圖15所示的多聲道編碼器一樣的結(jié)構(gòu)與功能。本實(shí)施例與圖15所示的第九實(shí)施例的區(qū)別在于第一到第三對象編碼器383、 385和387被配置為逐步分組嗓音對象和殘差信號，殘差信號是在各個分組步驟生成的，并且包括在復(fù)用器389生成的比特流中。
在解碼通過這種處理而生成的比特流時，可通過將從比特流中所提取的殘差信號應(yīng)用到通過逐步分組音樂對象而被編碼的音頻信號或通過逐步分組嗓音對象而被編碼的音頻信號中來生成具有控制的嗓音成分或其它期望的對象成分的信號。
同時，在上述實(shí)施例中，執(zhí)行原始編碼信號與殘差信號之和或之差，或者背景對象或主對象與殘差信號之和或之差的位置并不限制于某一特定區(qū)域。舉例來說，可在時域中或在頻域中，諸如MDCT域中執(zhí)行該處理?？蛇x的是，可在子帶域，諸如QMF子帶域或混合子帶域中執(zhí)行該處理。尤其是，當(dāng)在頻域或子帶域中執(zhí)行該處理時，可通過控制不包括殘差成分的頻帶數(shù)量來生成可伸縮的卡拉OK信號。舉例來說，當(dāng)原始解碼信號的子帶數(shù)量為20時，如果殘差信號的頻帶數(shù)量被設(shè)為20，則可以輸出完美的卡拉OK信號。當(dāng)僅覆蓋了10個低頻時，僅從低頻部分排除嗓音成分，并在高頻部分保留。在后一種情況中，聲音質(zhì)量比前一種情況要低，但是其具有更低比特率的優(yōu)點(diǎn)。
進(jìn)一步，當(dāng)主對象的數(shù)量不是一個時，多個殘差信號可被包括在所有比特流中，并且可以多次執(zhí)行殘差信號之和或之差。舉例來說，當(dāng)兩個主對象包括嗓音和吉他時，并且它們的殘差信號包括在所有比特流中，則可以以如下方式生成去除了嗓音和吉他信號的卡拉OK信號首先從所有信號中去除嗓音信號，接著再去除吉他信號。在這種情況下，可以生成在其中僅去除了嗓音信號的卡拉OK信號和在其中僅去除了吉他信號的卡拉OK信號?？蛇x的是，可僅輸出嗓音信號或僅輸出吉他信號。
此外，為了通過從所有信號中完全地僅去除嗓音信號而生成卡拉OK信號，所有信號和嗓音信號被分別編碼。根據(jù)用于編碼的編解碼器的類型而需要以下兩種方式。第一，總是在所有信號和嗓音信號中使用相同的編碼編解碼器。在這種情況下，要在比特流中建立一個能夠確定關(guān)于所有信號和嗓音信號的編碼編解碼器類型的標(biāo)識符，并且解碼器通過確定該標(biāo)識符來執(zhí)行編解碼器類型的識別、解碼信號、并且接著去除嗓音成分的處理。在該處理中，以上所述，使用了和及差。標(biāo)識符的信息可包括是否殘差信號使用了與原始解碼信號相同的編解碼器，用于編碼殘差信號的編解碼器的類型等。
另外，對于所有信號和嗓音信號可以使用不同的編碼編解碼器。舉例來說，嗓音信號(也就是殘差信號)總是使用固定的編解碼器。在這種情況下，用于殘差信號的標(biāo)識符就不是必需的，并且只有預(yù)定的編解碼器可被用于解碼所有信號。然而，在這種情況下，從所有信號中去除殘差信號的處理被限制于在兩個信號之間的處理是立即可行
的域，諸如時域或子帶域。舉例來說，在MDCT域中，兩個信號之間
的處理不是立即可行的。
此外，根據(jù)本發(fā)明，可輸出僅由背景對象信號所組成的卡拉OK信號?？赏ㄟ^對卡拉OK信號執(zhí)行額外的擴(kuò)展混音來生成多聲道信號。舉例來說，如果額外應(yīng)用MPEG環(huán)繞聲給本發(fā)明所生成的卡拉OK信號，可以生成5.1聲道卡拉OK信號。
另外，在上述實(shí)施例中，已經(jīng)描述了一幀內(nèi)的音樂對象和主對象的數(shù)量，或背景對象和主對象的數(shù)量是相同的情況了。然而，一幀內(nèi)的主對象和主對象的數(shù)量，或背景對象和主對象的數(shù)量可以不同。舉例來說，音樂可存在于每幀中，并且主對象可存在于每兩幀。此時，主對象可被解碼，并且解碼結(jié)果可被應(yīng)用于兩個幀。
音樂和主對象可以具有不同的采樣頻率。舉例來說，當(dāng)音樂的采樣頻率為44.1KHz，主對象的采樣頻率為22.05KHz時，主對象的MDCT系數(shù)可被計算，并且接著可僅對音樂的MDCT系數(shù)的相應(yīng)區(qū)域執(zhí)行混音。其利用了在卡拉OK系統(tǒng)中，嗓音具有比樂器聲更低的頻帶的原理，并且其具有減少數(shù)據(jù)容量的優(yōu)點(diǎn)。
此外，根據(jù)本發(fā)明，可在處理器可讀的記錄介質(zhì)上實(shí)現(xiàn)處理器可讀的代碼。處理器可讀的記錄介質(zhì)可包括在其上存儲有可被處理器讀取的數(shù)據(jù)的所有種類的記錄裝置。處理器可讀的記錄介質(zhì)的例子包括ROM、 RAM、 CD-ROM、磁帶、軟盤、光數(shù)據(jù)存儲器等，并且還包括例如通過因特網(wǎng)的傳輸?shù)妮d波。此外，處理器可讀的記錄介質(zhì)可在通過網(wǎng)絡(luò)而連接的系統(tǒng)中被分配，并且處理器可讀的代碼可以分布方式被存儲和執(zhí)行。
24盡管本發(fā)明已參照其優(yōu)選實(shí)施例進(jìn)行了描述，可以理解的是本發(fā) 明并不限于這些特定實(shí)施例，本領(lǐng)域技術(shù)人員可以作出多種可能的修改。需要注意的是，這些修改不應(yīng)脫離于本發(fā)明的技術(shù)精神和期望而被單獨(dú)理解。
工業(yè)實(shí)用性
本發(fā)明可被用于基于對象的音頻信號的編碼和解碼處理，根據(jù)組來處理關(guān)聯(lián)的對象信號，并且可以提供播放模式，諸如卡拉OK模式，獨(dú)唱模式和一般模式。
權(quán)利要求
1. 一種音頻解碼方法，其包括，從音頻信號中提取音樂對象基于聲道被編碼的第一音頻信號和第一音頻參數(shù)，并提取嗓音對象基于對象被編碼的第二音頻信號和第二音頻參數(shù)；通過利用所述第一和第二音頻信號中的至少一個來生成第三音頻信號；和通過利用所述第一和第二音頻參數(shù)中的至少一個以及所述第三音頻信號來生成多聲道音頻信號。
2. 如權(quán)利要求l所述的音頻解碼方法，其中，通過編碼至少兩個音樂對象而獲得所述第一音頻信號，并且通過編碼至少兩個嗓音對象而獲得所述第二音頻信號。
3. 如權(quán)利要求1所述的音頻解碼方法，其中，根據(jù)用戶控制命令來生成所述第三音頻信號。
4. 如權(quán)利要求l所述的音頻解碼方法，其中，基于所述第一和第二音頻信號中的至少一個的信號的增加/減少而生成所述第三音頻信號。
5. 如權(quán)利要求l所述的音頻解碼方法，其中，通過去除所述第一和第二音頻信號中的至少一個而生成所述第三音頻信號。
6. 如權(quán)利要求1所述的音頻解碼方法，其中，所述第一音頻信號是不包括嗓音成分的信號。
7. 如權(quán)利要求l所述的音頻解碼方法，其中，所述音頻信號是從廣播信號中接收到的信號。
8. —種音頻解碼裝置，其包括解復(fù)用器，用于從接收到的比特流中提取縮減混音信號和邊信息；對象解碼器，用于通過利用從所述縮減混音信號中提取的音樂對象基于聲道被編碼的第一音頻信號和從所述縮減混音信號中提取的嗓音對象基于對象被編碼的第二音頻信號中的至少一個來生成第三音頻信號；和多聲道解碼器，用于通過利用從所述邊信息中所提取出的第一音頻參數(shù)和第二音頻參數(shù)中的至少一個和所述第三音頻信號來生成多聲道音頻信號。
9. 如權(quán)利要求8所述的音頻解碼裝置，其中，所述對象解碼器基于所述第一和第二音頻信號中的至少一個的信號的增加/減少而生成所述第三音頻信號。
10. —種音頻解碼方法，其包括以下步驟接收縮減混音信號；從所述縮減混音信號中提取包含嗓音對象的音樂對象被編碼的第一音頻信號，并提取嗓音對象被編碼的第二音頻信號；根據(jù)所述第一和第二音頻信號生成僅包括嗓音對象的音頻信號、包括嗓音對象的音頻信號和不包括嗓音對象的音頻信號中的任何一個。
11. 如權(quán)利要求IO所述的音頻解碼方法，其中，所述第一音頻信號是基于聲道被編碼的信號，并且所述第二音頻信號是基于對象被編碼的信號。
12. 如權(quán)利要求IO所述的音頻解碼方法，其中，所述第二音頻信號是殘差形式的信號。
13. —種音頻解碼裝置，其包括對象解碼器，用于根據(jù)從縮減混音信號中提取的音樂對象被編碼的第一音頻信號和從縮減混音信號中提取的嗓音對象被編碼的第二音頻信號，來生成僅包括嗓音對象的音頻信號、包括嗓音對象的音頻信號和不包括嗓音對象的音頻信號中的任何一個；和多聲道解碼器，用于通過利用從所述對象解碼器中輸出的信號來生成多聲道音頻信號。
14. 如權(quán)利要求13所述的音頻解碼裝置，其中，所述第一音頻信號是基于聲道被編碼的信號，并且所述第二音頻信號是基于對象被編碼的信號。
15. 如權(quán)利要求13所述的音頻解碼裝置，其進(jìn)一步包括解復(fù)用器，用于從接收到的比特流中提取所述縮減混音信號和用于生成所述多聲道音頻信號的邊信息。
16. —種音頻編碼方法，其包括以下步驟生成音樂對象基于聲道被編碼的第一音頻信號和相應(yīng)于所述音樂對象的第一音頻參數(shù)；生成嗓音對象基于對象被編碼的第二音頻信號和相應(yīng)于所述嗓音對象的第二音頻參數(shù)；和生成包括所述第一和第二音頻信號以及所述第一和第二音頻參數(shù) 的比特流。
17. —種音頻編碼裝置，其包括多聲道編碼器，用于生成音樂對象基于聲道被編碼的第一音頻信號和關(guān)于所述音樂對象的基于聲道的第一音頻參數(shù)；對象編碼器，用于生成嗓音對象基于對象被編碼的第二音頻信號和關(guān)于所述嗓音對象的基于對象的第二音頻參數(shù)；和復(fù)用器，用于生成包括所述第一和第二音頻信號以及所述第一和第二音頻參數(shù)的比特流。
18. —種記錄介質(zhì)，其上記錄了用于在處理器中執(zhí)行根據(jù)權(quán)利要求l-7任一項(xiàng)所述的解碼方法的程序，所述記錄介質(zhì)是處理器可讀的。
19. 一種記錄介質(zhì)，其上記錄了用于在處理器中執(zhí)行根據(jù)權(quán)利要求16所述的編碼方法的程序，所述記錄介質(zhì)是處理器可讀的。
全文摘要
本發(fā)明涉及一種用于編碼和解碼基于對象的音頻信號的方法和裝置。該音頻解碼方法包括從音頻信號中提取音樂對象基于聲道被編碼的第一音頻信號和第一音頻參數(shù)，和提取嗓音對象基于對象被編碼的第二音頻信號和第二音頻參數(shù)；通過利用第一和第二音頻信號中的至少一個來生成第三音頻信號，并且通過利用第一和第二音頻參數(shù)中的至少一個和第三音頻信號來生成多聲道音頻信號。從而，可有效減少編碼和解碼處理的計算量以及被編碼的比特流的大小。
文檔編號G10L19/00GK101490745SQ200780026242
公開日2009年7月22日申請日期2007年11月24日優(yōu)先權(quán)日2006年11月24日
發(fā)明者尹圣龍, 房熙錫, 李顯國, 林宰顯, 金東秀申請人:Lg電子株式會社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尹圣龍;房熙錫;李顯國;金東秀;林宰顯
技術(shù)所有人：LG電子株式會社
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

音頻編解碼相關(guān)技術(shù)

音頻編解碼芯片相關(guān)技術(shù)

silk音頻編解碼協(xié)議相關(guān)技術(shù)

音頻編解碼技術(shù)相關(guān)技術(shù)

音頻編解碼算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于編碼和解碼基于對象的音頻信號的方法和裝置的制作方法