專(zhuān)利名稱(chēng):一種混音編碼方法、裝置和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體通信技術(shù)領(lǐng)域,特別涉及一種混音編碼方法、裝置和 系統(tǒng)。
背景技術(shù):
目前,實(shí)時(shí)多媒體通信服務(wù)的應(yīng)用越來(lái)越多,用以滿足日益增長(zhǎng)的業(yè)務(wù) 需求,例如多媒體會(huì)議系統(tǒng)等等,因此各種多媒體會(huì)議系統(tǒng)相關(guān)技術(shù)顯得十 分重要。
在多媒體會(huì)議中,音頻互動(dòng)是最基本的要素。在集中式會(huì)議中,各個(gè)
終端都與多點(diǎn)控制單元(Multi-point Controlling Unit, MCU)建立基于單播 (unicast)的連接,實(shí)時(shí)地向MCU發(fā)送音頻碼流和從MCU接收音頻碼流。 因此,MCU的輸入均是各種編碼方案編碼后的音頻碼流,其輸出為按照合 成策略進(jìn)行混音處理后的音頻碼流。
如圖1所示為一個(gè)多媒體會(huì)議系統(tǒng)示意圖,其中虛線框可以看作一個(gè) MCU單元。終端位置1,終端位置2等輸入音頻碼流經(jīng)分別解碼,解碼后 的音頻碼流在混音單元混音后,再對(duì)混音后的音頻碼流分別進(jìn)行編碼,再輸 出到相應(yīng)的終端。如圖l所示的多媒體會(huì)議系統(tǒng),有M個(gè)終端參與混音。 對(duì)于特定的時(shí)刻t,每個(gè)終端會(huì)將音頻數(shù)據(jù)送與MCU, MCU首先將音頻數(shù) 據(jù)解碼,并對(duì)每路信號(hào)進(jìn)行混音參數(shù)的計(jì)算,最終對(duì)多路解碼信號(hào)進(jìn)行混音
處理?;煲籼幚淼某S盟惴醇雍退新方獯a數(shù)據(jù),將加和后的數(shù)據(jù)再通過(guò) 編碼器編碼,最終傳送至各個(gè)終端。
采用上述的時(shí)域疊加混音方案,常常會(huì)引入噪聲。這是因?yàn)槊恳粋€(gè)終端 在向MCU傳送的音頻信號(hào)都有一定的范圍[min, max],其中min表示范圍的下限,max表示范圍的上限。當(dāng)直接加和所有路信號(hào)時(shí),很可能會(huì)超出信 號(hào)取值范圍[min, max]。由于數(shù)字音頻信號(hào)存在量化上限和下限的問(wèn)題,疊 加運(yùn)算很可能會(huì)造成結(jié)果溢出。通常的處理手段是進(jìn)行溢出檢測(cè),然后再進(jìn) 行飽和運(yùn)算,即超過(guò)上限的結(jié)果被置為上限值,超過(guò)下限的值置為下限值。 這種運(yùn)算本身破壞了語(yǔ)音信號(hào)原有的時(shí)域特征,從而引入了噪聲,這就是在
某些系統(tǒng)中會(huì)出現(xiàn)爆破聲和語(yǔ)音不連續(xù)現(xiàn)象的原因。
隨著參與混音的終端數(shù)據(jù)增加,出現(xiàn)溢出的頻率也不斷上升,所以這類(lèi) 時(shí)域疊加混音方案存在一個(gè)終端數(shù)目上限,而且這個(gè)上限值很低,實(shí)驗(yàn)證明, 很多情況下,如果在4個(gè)終端參與混音時(shí)其結(jié)果就有很多噪聲和斷續(xù),無(wú)法 分辨語(yǔ)流了。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提出一種混音編碼方法,能夠克服現(xiàn)有技術(shù)中 時(shí)域混音編碼的噪聲問(wèn)題。所述混音編碼方法包括如下步驟
對(duì)聲音信息根據(jù)混音策略設(shè)置混音標(biāo)識(shí)位,根據(jù)標(biāo)志位信息對(duì)所述聲音 信息進(jìn)行編碼,編碼的結(jié)果作為核心編碼數(shù)據(jù);
若混音標(biāo)識(shí)位信息為需要混音,則計(jì)算動(dòng)態(tài)邊信息,生成并輸出包含所 述混音標(biāo)識(shí)位、核心編碼it據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流;若混音標(biāo)識(shí)位 信息為不需要混音,則生成并輸出包含所述混音標(biāo)識(shí)位和核心編碼數(shù)據(jù)的音 頻編碼碼流;
網(wǎng)絡(luò)側(cè)收到來(lái)自終端的音頻編碼碼流,根據(jù)其中的混音標(biāo)識(shí)位信息判斷 是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理,對(duì)需要進(jìn)行混音處理的M,路音 頻編碼碼流,根據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流,對(duì)所選擇的N 路音頻編碼碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理,并輸出混音后的音頻編碼碼 流,其中N小于等于M,。
本發(fā)明實(shí)施例還提出 一種終端側(cè)編碼方法,包括如下步驟 根據(jù)混音策略對(duì)聲音信息設(shè)置混音標(biāo)識(shí),根據(jù)所述混音標(biāo)識(shí)信息對(duì)所述聲音信息進(jìn)行編碼獲得核心編碼數(shù)據(jù);
若所述混音標(biāo)識(shí)信息為需要混音,則計(jì)算動(dòng)態(tài)邊信息,生成并輸出包含
所述混音標(biāo)識(shí)、核心編碼數(shù)據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流;若所述混音標(biāo) 識(shí)信息為不需要混音,則終端生成并輸出包含所述混音標(biāo)識(shí)和核心編碼數(shù)據(jù) 的音頻編碼碼流。
本發(fā)明實(shí)施例還提出 一種網(wǎng)絡(luò)側(cè)混音編碼方法,包括如下步驟 接收M路音頻編碼碼流,根據(jù)其中的混音標(biāo)識(shí)信息判斷是否需要對(duì)該 音頻編碼碼流進(jìn)行混音處理,對(duì)需要進(jìn)行混音處理的M,路音頻編碼碼流, 才艮據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流,對(duì)所選擇的N路音頻編碼 碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理,并輸出混音后的音頻編碼碼流,其中M、 M,和N均為正整數(shù),N小于等于M,, M,小于等于M。
本發(fā)明實(shí)施例提出一種多媒體會(huì)議系統(tǒng),包括M個(gè)終端和多點(diǎn)控制單
元;
包括M個(gè)終端和多點(diǎn)控制單元,其特征在于,
所述終端用于對(duì)收集的聲音信息根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位, 根據(jù)標(biāo)志位信息對(duì)所述聲音信息進(jìn)行編碼,編碼的結(jié)果作為核心編碼數(shù)據(jù); 并根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位,生成并輸出包含所述核心編碼數(shù) 據(jù)、混音標(biāo)識(shí)位為需要混音和動(dòng)態(tài)邊信息的音頻編碼碼流,或者生成并輸出 包含所述核心編碼數(shù)據(jù)和混音標(biāo)識(shí)位為不需要混音的音頻編碼碼流;
所述多點(diǎn)控制單元用于接收來(lái)自終端的音頻編碼碼流,根據(jù)其中的混音 標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理,對(duì)需要進(jìn)行混 音處理的M,路音頻碼流,根據(jù)其中的動(dòng)態(tài)邊信息中選出N路音頻碼流,對(duì) 所選4奪的N路音頻碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理,并輸出混音后的音 頻編碼碼流,其中M、 M,和N均為正整數(shù),N小于等于M,, M,小于等于M。
本發(fā)明實(shí)施例提出一種多媒體會(huì)議終端,包括
聲音收集模塊,用于收集聲音信息;
混音策略模塊,用于根據(jù)預(yù)先設(shè)置的混音策略對(duì)所述聲音收集模塊所收集的聲音信息設(shè)置混音標(biāo)識(shí)位;
核心編碼模塊,用于對(duì)所述聲音信息進(jìn)行編碼,輸出核心編碼數(shù)據(jù); 成幀模塊,用于根據(jù)所述混音策略模塊設(shè)置的混音標(biāo)識(shí)位計(jì)算動(dòng)態(tài)邊信
息,并一艮據(jù)所述混音標(biāo)識(shí)位的取值,生成包含所述核心編碼lt據(jù)、混音標(biāo)識(shí)
位和動(dòng)態(tài)邊信息的音頻編碼數(shù)據(jù)幀,或者生成包含所述核心編碼數(shù)據(jù)和混音
標(biāo)識(shí)位的音頻編碼數(shù)據(jù)幀;
輸出模塊,用于對(duì)外輸出所述成幀模塊生成的音頻編碼數(shù)據(jù)幀作為音頻
編碼碼流。
本發(fā)明實(shí)施例提出一種多點(diǎn)控制單元,包括
選捧單元,用于對(duì)接收來(lái)自M個(gè)終端的音頻編碼碼流,根據(jù)所述音頻 編碼碼流的混音標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處 理,對(duì)需要進(jìn)行混音處理的M,路音頻編碼碼流,根據(jù)其中的動(dòng)態(tài)邊信息選 出N路音頻編碼碼流;
混音單元,用于將所述選擇單元所選擇的N路音頻編碼碼流中的核心 編碼數(shù)據(jù)進(jìn)行混音處理,得到M,路混音后的音頻編碼碼流;
發(fā)送單元,用于將來(lái)自所述混音單元的音頻編碼碼流發(fā)送到相應(yīng)的目的 終端。
從以上技術(shù)方案可以看出,在終端側(cè),在編碼碼流中進(jìn)行混音標(biāo)識(shí)位的 標(biāo)定并增加相應(yīng)的動(dòng)態(tài)邊信息;在網(wǎng)絡(luò)側(cè),才艮據(jù)混音標(biāo)識(shí)位以及動(dòng)態(tài)邊信 息來(lái)選擇需要混音的音頻編碼碼流進(jìn)行混音處理,可以解決混音編碼時(shí)的噪 聲問(wèn)題。
圖1為現(xiàn)有技術(shù)的一個(gè)多媒體會(huì)議系統(tǒng)示意圖; 圖2為本發(fā)明實(shí)施例的多媒體會(huì)議系統(tǒng)示意圖3為本發(fā)明實(shí)施例的終端編碼器單元輸出的音頻編碼碼流中的編碼 數(shù)據(jù)幀的結(jié)構(gòu)圖;圖4為本發(fā)明實(shí)施例的終端側(cè)的編碼流程圖; 圖5為本發(fā)明實(shí)施例的MCU側(cè)的混音編碼流程圖; 圖6為發(fā)明實(shí)施例提出的一種多媒體會(huì)議終端框圖; 圖7為本發(fā)明實(shí)施例提出的一種多點(diǎn)控制單元框圖。
具體實(shí)施例方式
本發(fā)明實(shí)施例提出基于混音標(biāo)識(shí)位的混音編碼方法,終端輸出的數(shù)據(jù)流 中,除了承栽語(yǔ)音的核心編碼碼流,還包括混音標(biāo)識(shí)位和動(dòng)態(tài)邊信息,其中 動(dòng)態(tài)邊信息攜帶混音編碼所需的信息,如果混音標(biāo)識(shí)位設(shè)置為需要混音,則 設(shè)置動(dòng)態(tài)邊信息;如果混音標(biāo)識(shí)位設(shè)置為不需要混音,則不設(shè)置動(dòng)態(tài)邊信息。 MCU根據(jù)所述混音標(biāo)識(shí)位選擇需要進(jìn)行混音處理的核心編碼碼流進(jìn)行混音 處理。
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明 作進(jìn)一步的詳細(xì)闡述。
圖2示出了本發(fā)明實(shí)施例的多媒體會(huì)議系統(tǒng)示意。該多媒體會(huì)議系 統(tǒng)中,包括M個(gè)終端,即終端1、終端2……終端M;還包括一個(gè)MCU。
以終端1為例,該終端包括編碼器單元201,編碼器單元201對(duì)終端1 的聲音收集裝置如麥克風(fēng)收集到的聲音進(jìn)行編碼,生成攜帶所述聲音信息的 核心編碼碼流。編碼器單元201還根據(jù)本地設(shè)置的混音策略,設(shè)置混音標(biāo)識(shí) 位。所述混音策略用于確定本終端輸出的聲音編碼是否需要進(jìn)行混音處理, 根據(jù)實(shí)際的需要可以設(shè)置不同的混音策略,例如,可以對(duì)不同的終端設(shè)置不 同的優(yōu)先級(jí),對(duì)于來(lái)自優(yōu)先級(jí)高的終端的音頻碼流優(yōu)先進(jìn)行混音;還可以設(shè) 置聲音能量閾值,當(dāng)終端收集的聲音能量超過(guò)該能量閾值則對(duì)該終端的音頻 碼流進(jìn)行混音等等。并且多個(gè)混音策略可以同時(shí)使用。
如果設(shè)置的混音標(biāo)識(shí)位表示需要混音,則編碼器單元201還要生成動(dòng)態(tài) 邊信息,寫(xiě)入音頻碼流中;如果混音標(biāo)識(shí)位表示不需要混音,則編碼器單元 201輸出的音頻碼流中僅包括核心編碼和混音標(biāo)識(shí)位。圖3示出了本發(fā)明實(shí)施例的終端編碼器單元輸出的音頻編碼碼流中的
編碼數(shù)據(jù)幀的結(jié)構(gòu)圖。設(shè)一個(gè)數(shù)據(jù)幀的總長(zhǎng)度為n比特,當(dāng)混音標(biāo)識(shí)位表示 需要混音時(shí),該編碼數(shù)據(jù)幀如圖3中的上圖所示,包括t比特的混音標(biāo)識(shí)位, m比特的動(dòng)態(tài)邊信息,以及n-m-t比特的核心編碼。其中,混音標(biāo)識(shí)位設(shè)置 在幀頭,便于MCU識(shí)別。當(dāng)混音標(biāo)識(shí)位表示不需要混音時(shí),該編碼數(shù)據(jù)幀 如圖3中的下圖所示,包括t比特的混音標(biāo)識(shí)位和n-t比特的核心編碼。
對(duì)于G.711窄帶增強(qiáng)層(Low Band Enhance, LBE )編碼來(lái)說(shuō),圖3中 各個(gè)部分可取如下數(shù)值t=l, n=80, m = 9。
邊信息包括幀能量(Frame Energy)和聲音分值(Voicing score), 若邊信息碼長(zhǎng)為9比特,則其中6比特為量化的幀能量,3比特為量化的 聲音分值。
其中,幀能量的計(jì)算用公式(1)表示
Fram g 一Ig wgfA—1
£ 外.)
尸ra附e —五"g,gy =-1=5- (1 )
Frame—Length為幀長(zhǎng)度,鄧)是經(jīng)過(guò)正交鏡象濾波器(Quadrature Mirror Filter, QMF)的低頻帶信號(hào),i為幀中的采樣值序號(hào)。
聲音分值用公式(2)計(jì)算
T, , Zero Oo孤-"g / "/e , ^ 、
Fcwz"g — scorg -二-—-=- I 2
— Sca/c — ybctor
其中,過(guò)零率(Zero—Crossing—Rate)表示10ms內(nèi),時(shí)域波形過(guò)零次數(shù)。 約化因子(Scale—Factor) 為預(yù)先設(shè)置的約化常量,取值為[O , l]。
根據(jù)實(shí)際情況,動(dòng)態(tài)邊信息也可設(shè)置為其它可用于作為混音處理判斷依 據(jù)的量,例如,可以設(shè)置為靜音活動(dòng)檢測(cè)(VAD)。
終端輸出的音頻碼流發(fā)送到MCU后,首先輸入選擇單元202。選擇單 元202 /人收到的音頻編碼碼流中首先識(shí)別出混音標(biāo)識(shí)位,根據(jù)混音標(biāo)識(shí)位的 取值,確定是否需要對(duì)該路音頻編碼碼流進(jìn)行混音處理,如果不需要混音處 理,則選4奪單元202將該路音頻編碼碼流輸出至相應(yīng)的目的終端。對(duì)于所有M, (M,小于等于M)路需要混音處理的音頻編碼碼流,選擇單元202根據(jù) 其中的動(dòng)態(tài)邊信息,選擇出N (N小于等于M,)路音頻編碼碼流,將這些 音頻編碼碼流分別發(fā)送至相應(yīng)的解碼器,經(jīng)過(guò)解碼后,再發(fā)送到混音單元 203進(jìn)行混音處理,得到M,路混音后的音頻碼流,再將這M,路音頻碼流分 別用編碼器編碼后,發(fā)送至相應(yīng)的終端。
本發(fā)明實(shí)施例的終端側(cè)的編碼過(guò)程如圖4所示,包括如下步驟
步驟401:對(duì)收集的聲音信息根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位,然 后對(duì)所述聲音信息進(jìn)行編碼,編碼的結(jié)果作為核心編碼數(shù)據(jù);
步驟402:若設(shè)置混音標(biāo)識(shí)位為需要混音,則計(jì)算動(dòng)態(tài)邊信息,可以依 據(jù)前述公式(1)和公式(2)計(jì)算幀能量和聲音分值作為動(dòng)態(tài)邊信息。
步驟403:生成并輸出音頻編碼碼流。所述生成音頻編碼碼流具體包括 若所設(shè)置的混音標(biāo)識(shí)位為有效,則生成包括所述混音標(biāo)識(shí)位、核心編碼數(shù)據(jù) 和動(dòng)態(tài)邊信息的音頻編碼數(shù)據(jù)幀;若所設(shè)置的混音標(biāo)識(shí)位為無(wú)效,則生成包 括所述混音標(biāo)識(shí)位和核心編碼數(shù)據(jù)的音頻編碼數(shù)據(jù)幀。所述混音標(biāo)識(shí)位設(shè)置 在數(shù)據(jù)幀最前,較佳地,長(zhǎng)度為1比特。
本發(fā)明實(shí)施例的MCU側(cè)的混音編碼過(guò)程如圖5所示,包括如下步驟
步驟501: MCU收到來(lái)自終端的音頻編碼碼流,根據(jù)其中的混音標(biāo)識(shí) 位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理,若是,則執(zhí)行步驟 502,否則,執(zhí)行步驟503。
步驟502:將該路音頻編碼碼流直接發(fā)送到對(duì)應(yīng)的目的終端,并結(jié)束對(duì) 該路音頻編碼碼流的處理。
步驟503:對(duì)于同一時(shí)刻收到的來(lái)自M,個(gè)終端的音頻編碼碼流,且這 些音頻編碼碼流中的混音標(biāo)識(shí)位均為需要進(jìn)行混音處理,MCU根據(jù)這些碼 流中的動(dòng)態(tài)邊信息,從中選擇出N路音頻編碼碼流,并丟棄剩下的M,-N路 音頻編碼碼流。其中N小于等于M,。
可以根據(jù)邊信息中能量的值,如果大于某一個(gè)閾值T,則混音,小于則 不進(jìn)行混音。504:對(duì)所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)分別進(jìn)行解碼,將 解碼后的核心編碼數(shù)據(jù)進(jìn)行混音處理,得到M,路混音后的音頻碼流。
步驟505:將所述M,路混音后的音頻碼流分別進(jìn)行編碼,將編碼后的 M,路編碼并混音后的音頻編碼碼流分別發(fā)送到M,個(gè)目的終端。
圖6為發(fā)明實(shí)施例提出的一種多媒體會(huì)議終端,包括
聲音收集模塊601,用于收集聲音信息;
混音策略模塊602,用于根據(jù)預(yù)先設(shè)置的混音策略對(duì)所述聲音收集模塊 601所收集的聲音信息設(shè)置混音標(biāo)識(shí)位;
核心編碼模塊603,用于對(duì)所述聲音信息進(jìn)行編碼,輸出核心編碼數(shù)據(jù); 如果混音策略模塊602將混音標(biāo)識(shí)位設(shè)置為不需要混音,則核心編碼模塊 603進(jìn)行編碼時(shí),無(wú)需考慮動(dòng)態(tài)邊信息的比特分配;如果該混音標(biāo)識(shí)位設(shè)置 為需要混音,則核心編碼模塊603進(jìn)行編碼時(shí),需要考慮動(dòng)態(tài)邊信息的比特 分配。例如,如果編碼數(shù)據(jù)幀的總比特?cái)?shù)為n比特,混音標(biāo)識(shí)位為t比特, 動(dòng)態(tài)邊信息為m比特,則對(duì)于不需要考慮動(dòng)態(tài)邊信息的比特分配的情況, 核心編碼模塊603編碼得到的核心編碼數(shù)據(jù)長(zhǎng)度為n-t比特;對(duì)于需要考慮 動(dòng)態(tài)邊信息的比特分配的情況,核心編碼模塊603編碼得到的核心編碼數(shù)據(jù) 長(zhǎng)度為n-m-t比特。
成幀模塊604,用于根據(jù)所述混音策略模塊603設(shè)置的混音標(biāo)識(shí)位計(jì)算 動(dòng)態(tài)邊信息,并根據(jù)所述混音標(biāo)識(shí)位的取值,生成包含所述核心編碼數(shù)據(jù)、 混音標(biāo)識(shí)位和動(dòng)態(tài)邊信息的音頻數(shù)據(jù)幀,或者生成包含所述核心編碼數(shù)據(jù)和 混音標(biāo)識(shí)位的音頻數(shù)據(jù)幀;
輸出模塊605,用于將所述成幀模塊604生成的音頻數(shù)據(jù)幀作為音頻編 碼碼流對(duì)外輸出。
圖7為本發(fā)明實(shí)施例提出的一種多點(diǎn)控制單元,包括
選捧單元701,用于對(duì)接收來(lái)自M個(gè)終端的音頻編碼碼流,才艮據(jù)所述音 頻編碼碼流的混音標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音 處理,對(duì)需要進(jìn)行混音處理的M,路音頻編碼碼流,才艮據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流;
混音單元702,用于將所述選擇單元所選擇的N路音頻編碼碼流中的核 心編碼數(shù)據(jù)進(jìn)行混音處理,得到M,路混音后的音頻碼流;
發(fā)送單元703,用于將來(lái)自所述混音單元的音頻碼流發(fā)送到相應(yīng)的目的 終端。
所述選擇單元701將不需要混音處理的音頻編碼碼流發(fā)送到所述發(fā)送 單元703;則所述發(fā)送單元703將來(lái)自所述選擇單元的音頻編碼碼流發(fā)送到 相應(yīng)的目的終端。
所述多點(diǎn)控制單元進(jìn)一步包括解碼器704,用于對(duì)所述選擇單元701 所選擇的音頻編碼碼流中的核心編碼數(shù)據(jù)進(jìn)行解碼,并將解碼后的核心編碼 數(shù)據(jù)發(fā)送到所述混音單元702;
編碼器705,用于對(duì)來(lái)自所述混音單元702的混音后的音頻碼流進(jìn)行編 碼,并將編碼后的音頻編碼碼流發(fā)送到所述發(fā)送單元703。
本發(fā)明實(shí)施例方案在編碼碼流中進(jìn)行混音標(biāo)識(shí)位的標(biāo)定并增加相應(yīng)的 動(dòng)態(tài)邊信息,4艮據(jù)混音標(biāo)識(shí)位和動(dòng)態(tài)分配邊信息比特分配。MCU纟艮據(jù)混音 標(biāo)識(shí)位以及動(dòng)態(tài)邊信息來(lái)選擇需要混音的音頻編碼碼流進(jìn)行混音處理,可以 解決信號(hào)溢出以及對(duì)大信號(hào)進(jìn)行混音時(shí)會(huì)引入誤差的問(wèn)題,并降低MCU的 計(jì)算復(fù)雜度;在不進(jìn)行混音時(shí),能夠充分利用碼流比特分配,提高核心編碼 質(zhì)量。本發(fā)明方案既可用于混音系統(tǒng),又可應(yīng)用常用編解碼系統(tǒng)的編解碼器, 有利實(shí)現(xiàn)編碼碼流的智能控制,增強(qiáng)MCU單元交互性。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本 發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本 發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種混音編碼方法,其特征在于,包括如下步驟對(duì)聲音信息根據(jù)混音策略設(shè)置混音標(biāo)識(shí)位,根據(jù)標(biāo)志位信息對(duì)所述聲音信息進(jìn)行編碼,編碼的結(jié)果作為核心編碼數(shù)據(jù);若混音標(biāo)識(shí)位信息為需要混音,則計(jì)算動(dòng)態(tài)邊信息,生成并輸出包含所述混音標(biāo)識(shí)位、核心編碼數(shù)據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流;若混音標(biāo)識(shí)位信息為不需要混音,則生成并輸出包含所述混音標(biāo)識(shí)位和核心編碼數(shù)據(jù)的音頻編碼碼流;網(wǎng)絡(luò)側(cè)收到來(lái)自終端的音頻編碼碼流,根據(jù)其中的混音標(biāo)識(shí)位信息判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理,對(duì)需要進(jìn)行混音處理的M’路音頻編碼碼流,根據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流,對(duì)所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理,并輸出混音后的音頻編碼碼流,其中N小于等于M’。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述動(dòng)態(tài)邊信息包括幀 能量、聲音分值和/或靜音活動(dòng)檢測(cè)。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計(jì)算動(dòng)態(tài)邊信息包frame 一丄engf/r-l2 S2①括根據(jù)公式 _ ^"/^-""g^計(jì)算幀能量,其中,F(xiàn)rame—Energy表示幀能量,外')是經(jīng)過(guò)正交鏡象濾波器的低頻帶信號(hào),i為幀中的采樣值序 號(hào)。
4、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計(jì)算動(dòng)態(tài)邊信息包T,… CWm/wg 7 她 Kozczwfi" score =-^--括根據(jù)公式 — 計(jì)算聲音分值,其中Zero—Crossing—Rate表示預(yù)定時(shí)間內(nèi),所述聲音信息的時(shí)域波形過(guò)零次數(shù); Scale—Factor為預(yù)先設(shè)置的約化常量,取值為[O , l]。
5、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)其中的混音標(biāo)識(shí)位的信息判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理,其判斷結(jié)果為不需要對(duì)該音頻編碼碼流進(jìn)行混音處理,則進(jìn)一步包括將所述音頻編碼碼流 輸出至目的終端。
6、 根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,所述對(duì)所選 擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理,并輸出混音后的音 頻碼流包括對(duì)所選擇的N路音頻碼流中的核心編碼數(shù)據(jù)分別解碼,將解 碼后的N路核心編碼數(shù)據(jù)進(jìn)行混音處理,得到M,路混音后的音頻碼流,將 所述M,路混音后的音頻碼流分別進(jìn)4亍編碼,將編碼后的M,路編碼并混音后 的音頻編碼碼流分別發(fā)送到M'個(gè)目的終端。
7、 一種終端側(cè)編碼方法,其特征在于,包括如下步驟 根據(jù)混音策略對(duì)聲音信息設(shè)置混音標(biāo)識(shí),根據(jù)所述混音標(biāo)識(shí)信息對(duì)所述聲音信息進(jìn)行編碼獲得核心編碼數(shù)據(jù);若所述混音標(biāo)識(shí)信息為需要混音,則計(jì)算動(dòng)態(tài)邊信息,生成并輸出包含 所述混音標(biāo)識(shí)、核心編碼數(shù)據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流;若所述混音標(biāo) 識(shí)信息為不需要混音,則終端生成并輸出包含所述混音標(biāo)識(shí)和核心編碼數(shù)據(jù) 的音頻編碼碼 流。
8、 一種網(wǎng)絡(luò)側(cè)的混音編碼方法,其特征在于,包括如下步驟接收M路音頻編碼碼流,根據(jù)其中的混音標(biāo)識(shí)信息判斷是否需要對(duì)該 音頻編碼碼流進(jìn)行混音處理,對(duì)需要進(jìn)行混音處理的M,路音頻編碼碼流, 根據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流,對(duì)所選擇的N路音頻編碼 碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理,并輸出混音后的音頻編碼碼流,其中M、 M,和N均為正整數(shù),N小于等于M,, M,小于等于M。
9、 一種多媒體會(huì)議系統(tǒng),包括M個(gè)終端和多點(diǎn)控制單元,其特征在于, 所述終端用于對(duì)收集的聲音信息根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位,根據(jù)標(biāo)志位信息對(duì)所述聲音信息進(jìn)行編碼,編碼的結(jié)果作為核心編碼數(shù)據(jù); 并根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位,生成并輸出包含所述核心編碼數(shù) 據(jù)、混音標(biāo)識(shí)位為需要混音和動(dòng)態(tài)邊信息的音頻編碼碼流,或者生成并輸出包含所述核心編碼數(shù)據(jù)和混音標(biāo)識(shí)位為不需要混音的音頻編碼碼流;所述多點(diǎn)控制單元用于接收來(lái)自終端的音頻編碼碼流,根據(jù)其中的混音 標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理,對(duì)需要進(jìn)行混 音處理的M,路音頻碼流,根據(jù)其中的動(dòng)態(tài)邊信息中選出N路音頻碼流,對(duì) 所選擇的N路音頻碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理,并輸出混音后的音 頻編碼碼流,其中M、 M,和N均為正整數(shù),N小于等于M,, M,小于等于M。
10、 一種多媒體會(huì)議終端,其特征在于,包括 聲音收集模塊,用于收集聲音信息;混音策略模塊,用于根據(jù)預(yù)先設(shè)置的混音策略對(duì)所述聲音收集模塊所收 集的聲音信息設(shè)置混音標(biāo)識(shí)位;核心編碼模塊,用于對(duì)所述聲音信息進(jìn)行編碼,輸出核心編碼數(shù)據(jù);成幀模塊,用于根據(jù)所述混音策略模塊設(shè)置的混音標(biāo)識(shí)位計(jì)算動(dòng)態(tài)邊信 息,并根據(jù)所述混音標(biāo)識(shí)位的取值,生成包含所述核心編碼數(shù)據(jù)、混音標(biāo)識(shí) 位和動(dòng)態(tài)邊信息的音頻編碼數(shù)據(jù)幀,或者生成包含所述核心編碼數(shù)據(jù)和混音 標(biāo)識(shí)位的音頻編碼數(shù)據(jù)幀;輸出模塊,用于對(duì)外輸出所述成幀模塊生成的音頻編碼數(shù)據(jù)幀作為音頻 編碼碼流。
11、 一種多點(diǎn)控制單元,其特征在于,包括選擇單元,用于對(duì)接收來(lái)自M個(gè)終端的音頻編碼碼流,根據(jù)所述音頻 編碼碼流的混音標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處 理,對(duì)需要進(jìn)行混音處理的M,路音頻編碼碼流,根據(jù)其中的動(dòng)態(tài)邊信息選 出N路音頻編碼碼流;混音單元,用于將所述選擇單元所選擇的N路音頻編碼碼流中的核心 編碼數(shù)據(jù)進(jìn)行混音處理,得到M,路混音后的音頻編碼碼流;發(fā)送單元,用于將來(lái)自所述混音單元的音頻編碼碼流發(fā)送到相應(yīng)的目的 終端。
12、 根據(jù)權(quán)利要求11所述的多點(diǎn)控制單元,其特征在于,所述選擇單元將不需要混音處理的音頻編碼碼流發(fā)送到所述發(fā)送單元;則所述發(fā)送單元 將來(lái)自所述選擇單元的音頻編碼碼流發(fā)送到相應(yīng)的目的終端。
13、根據(jù)權(quán)利要求11或12所述的多點(diǎn)控制單元,其特征在于,所述多 點(diǎn)控制單元進(jìn)一步包括解碼器,用于對(duì)所述選擇單元所選擇的音頻編碼碼 流中的核心編碼數(shù)據(jù)進(jìn)行解碼,并將解碼后的核心編碼數(shù)據(jù)發(fā)送到所述混音單元;編碼器,用于對(duì)來(lái)自所述混音單元的混音后的音頻碼流進(jìn)行編碼,并將 編碼后的音頻編碼碼流發(fā)送到所述發(fā)送單元。
全文摘要
本發(fā)明公開(kāi)了一種終端側(cè)編碼方法,根據(jù)混音策略對(duì)聲音信息設(shè)置混音標(biāo)識(shí),根據(jù)所述混音標(biāo)識(shí)信息對(duì)所述聲音信息進(jìn)行編碼獲得核心編碼數(shù)據(jù);若所述混音標(biāo)識(shí)信息為需要混音,則計(jì)算動(dòng)態(tài)邊信息,生成并輸出包含所述混音標(biāo)識(shí)、核心編碼數(shù)據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流;若所述混音標(biāo)識(shí)信息為不需要混音,則終端生成并輸出包含所述混音標(biāo)識(shí)和核心編碼數(shù)據(jù)的音頻編碼碼流。本發(fā)明還公開(kāi)了相應(yīng)的網(wǎng)絡(luò)側(cè)的混音編碼方法,以及用于進(jìn)行混音編碼的裝置和系統(tǒng)。本發(fā)明方案可以解決混音時(shí)信號(hào)溢出以及引入誤差的問(wèn)題,并且不會(huì)降低編碼效率。
文檔編號(hào)G10L11/02GK101414463SQ20071018137
公開(kāi)日2009年4月22日 申請(qǐng)日期2007年10月19日 優(yōu)先權(quán)日2007年10月19日
發(fā)明者清 張, 偉 李, 杜正中, 毅 楊, 晨 胡, 磊 苗, 許麗凈, 許劍峰, 齊峰巖 申請(qǐng)人:華為技術(shù)有限公司