一種混音編碼方法、裝置和系統(tǒng)的制作方法

文檔序號(hào)：2837492閱讀：238來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：一種混音編碼方法、裝置和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及多媒體通信技術(shù)領(lǐng)域，特別涉及一種混音編碼方法、裝置和系統(tǒng)。
背景技術(shù)：
目前，實(shí)時(shí)多媒體通信服務(wù)的應(yīng)用越來(lái)越多，用以滿足日益增長(zhǎng)的業(yè)務(wù) 需求，例如多媒體會(huì)議系統(tǒng)等等，因此各種多媒體會(huì)議系統(tǒng)相關(guān)技術(shù)顯得十分重要。
在多媒體會(huì)議中，音頻互動(dòng)是最基本的要素。在集中式會(huì)議中，各個(gè)
終端都與多點(diǎn)控制單元(Multi-point Controlling Unit, MCU)建立基于單播 (unicast)的連接，實(shí)時(shí)地向MCU發(fā)送音頻碼流和從MCU接收音頻碼流。因此，MCU的輸入均是各種編碼方案編碼后的音頻碼流，其輸出為按照合成策略進(jìn)行混音處理后的音頻碼流。
如圖1所示為一個(gè)多媒體會(huì)議系統(tǒng)示意圖，其中虛線框可以看作一個(gè) MCU單元。終端位置1,終端位置2等輸入音頻碼流經(jīng)分別解碼，解碼后的音頻碼流在混音單元混音后，再對(duì)混音后的音頻碼流分別進(jìn)行編碼，再輸出到相應(yīng)的終端。如圖l所示的多媒體會(huì)議系統(tǒng)，有M個(gè)終端參與混音。對(duì)于特定的時(shí)刻t，每個(gè)終端會(huì)將音頻數(shù)據(jù)送與MCU, MCU首先將音頻數(shù) 據(jù)解碼,并對(duì)每路信號(hào)進(jìn)行混音參數(shù)的計(jì)算，最終對(duì)多路解碼信號(hào)進(jìn)行混音
處理?；煲籼幚淼某Ｓ盟惴醇雍退新方獯a數(shù)據(jù)，將加和后的數(shù)據(jù)再通過(guò) 編碼器編碼，最終傳送至各個(gè)終端。
采用上述的時(shí)域疊加混音方案，常常會(huì)引入噪聲。這是因?yàn)槊恳粋€(gè)終端在向MCU傳送的音頻信號(hào)都有一定的范圍[min， max],其中min表示范圍的下限，max表示范圍的上限。當(dāng)直接加和所有路信號(hào)時(shí)，很可能會(huì)超出信號(hào)取值范圍[min, max]。由于數(shù)字音頻信號(hào)存在量化上限和下限的問(wèn)題，疊加運(yùn)算很可能會(huì)造成結(jié)果溢出。通常的處理手段是進(jìn)行溢出檢測(cè)，然后再進(jìn) 行飽和運(yùn)算，即超過(guò)上限的結(jié)果被置為上限值，超過(guò)下限的值置為下限值。這種運(yùn)算本身破壞了語(yǔ)音信號(hào)原有的時(shí)域特征，從而引入了噪聲，這就是在
某些系統(tǒng)中會(huì)出現(xiàn)爆破聲和語(yǔ)音不連續(xù)現(xiàn)象的原因。
隨著參與混音的終端數(shù)據(jù)增加，出現(xiàn)溢出的頻率也不斷上升，所以這類(lèi) 時(shí)域疊加混音方案存在一個(gè)終端數(shù)目上限，而且這個(gè)上限值很低，實(shí)驗(yàn)證明，很多情況下，如果在4個(gè)終端參與混音時(shí)其結(jié)果就有很多噪聲和斷續(xù)，無(wú)法分辨語(yǔ)流了。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明實(shí)施例提出一種混音編碼方法，能夠克服現(xiàn)有技術(shù)中時(shí)域混音編碼的噪聲問(wèn)題。所述混音編碼方法包括如下步驟
對(duì)聲音信息根據(jù)混音策略設(shè)置混音標(biāo)識(shí)位，根據(jù)標(biāo)志位信息對(duì)所述聲音信息進(jìn)行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；
若混音標(biāo)識(shí)位信息為需要混音，則計(jì)算動(dòng)態(tài)邊信息，生成并輸出包含所述混音標(biāo)識(shí)位、核心編碼it據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流；若混音標(biāo)識(shí)位信息為不需要混音，則生成并輸出包含所述混音標(biāo)識(shí)位和核心編碼數(shù)據(jù)的音頻編碼碼流；
網(wǎng)絡(luò)側(cè)收到來(lái)自終端的音頻編碼碼流，根據(jù)其中的混音標(biāo)識(shí)位信息判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M，路音頻編碼碼流，根據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流，對(duì)所選擇的N 路音頻編碼碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理，并輸出混音后的音頻編碼碼流，其中N小于等于M，。
本發(fā)明實(shí)施例還提出一種終端側(cè)編碼方法，包括如下步驟根據(jù)混音策略對(duì)聲音信息設(shè)置混音標(biāo)識(shí)，根據(jù)所述混音標(biāo)識(shí)信息對(duì)所述聲音信息進(jìn)行編碼獲得核心編碼數(shù)據(jù)；
若所述混音標(biāo)識(shí)信息為需要混音，則計(jì)算動(dòng)態(tài)邊信息，生成并輸出包含
所述混音標(biāo)識(shí)、核心編碼數(shù)據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流；若所述混音標(biāo) 識(shí)信息為不需要混音，則終端生成并輸出包含所述混音標(biāo)識(shí)和核心編碼數(shù)據(jù) 的音頻編碼碼流。
本發(fā)明實(shí)施例還提出一種網(wǎng)絡(luò)側(cè)混音編碼方法，包括如下步驟接收M路音頻編碼碼流，根據(jù)其中的混音標(biāo)識(shí)信息判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M，路音頻編碼碼流，才艮據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流，對(duì)所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理，并輸出混音后的音頻編碼碼流，其中M、 M，和N均為正整數(shù)，N小于等于M，， M，小于等于M。
本發(fā)明實(shí)施例提出一種多媒體會(huì)議系統(tǒng)，包括M個(gè)終端和多點(diǎn)控制單
元；
包括M個(gè)終端和多點(diǎn)控制單元，其特征在于，
所述終端用于對(duì)收集的聲音信息根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位，根據(jù)標(biāo)志位信息對(duì)所述聲音信息進(jìn)行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；并根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位，生成并輸出包含所述核心編碼數(shù) 據(jù)、混音標(biāo)識(shí)位為需要混音和動(dòng)態(tài)邊信息的音頻編碼碼流，或者生成并輸出包含所述核心編碼數(shù)據(jù)和混音標(biāo)識(shí)位為不需要混音的音頻編碼碼流；
所述多點(diǎn)控制單元用于接收來(lái)自終端的音頻編碼碼流，根據(jù)其中的混音標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M，路音頻碼流，根據(jù)其中的動(dòng)態(tài)邊信息中選出N路音頻碼流，對(duì) 所選4奪的N路音頻碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理，并輸出混音后的音頻編碼碼流，其中M、 M，和N均為正整數(shù)，N小于等于M，， M，小于等于M。
本發(fā)明實(shí)施例提出一種多媒體會(huì)議終端，包括
聲音收集模塊，用于收集聲音信息；
混音策略模塊，用于根據(jù)預(yù)先設(shè)置的混音策略對(duì)所述聲音收集模塊所收集的聲音信息設(shè)置混音標(biāo)識(shí)位；
核心編碼模塊，用于對(duì)所述聲音信息進(jìn)行編碼，輸出核心編碼數(shù)據(jù)；成幀模塊，用于根據(jù)所述混音策略模塊設(shè)置的混音標(biāo)識(shí)位計(jì)算動(dòng)態(tài)邊信
息，并一艮據(jù)所述混音標(biāo)識(shí)位的取值，生成包含所述核心編碼lt據(jù)、混音標(biāo)識(shí)
位和動(dòng)態(tài)邊信息的音頻編碼數(shù)據(jù)幀，或者生成包含所述核心編碼數(shù)據(jù)和混音
標(biāo)識(shí)位的音頻編碼數(shù)據(jù)幀；
輸出模塊，用于對(duì)外輸出所述成幀模塊生成的音頻編碼數(shù)據(jù)幀作為音頻
編碼碼流。
本發(fā)明實(shí)施例提出一種多點(diǎn)控制單元，包括
選捧單元，用于對(duì)接收來(lái)自M個(gè)終端的音頻編碼碼流，根據(jù)所述音頻編碼碼流的混音標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M，路音頻編碼碼流，根據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流；
混音單元，用于將所述選擇單元所選擇的N路音頻編碼碼流中的核心編碼數(shù)據(jù)進(jìn)行混音處理，得到M，路混音后的音頻編碼碼流；
發(fā)送單元，用于將來(lái)自所述混音單元的音頻編碼碼流發(fā)送到相應(yīng)的目的終端。
從以上技術(shù)方案可以看出，在終端側(cè)，在編碼碼流中進(jìn)行混音標(biāo)識(shí)位的標(biāo)定并增加相應(yīng)的動(dòng)態(tài)邊信息；在網(wǎng)絡(luò)側(cè)，才艮據(jù)混音標(biāo)識(shí)位以及動(dòng)態(tài)邊信息來(lái)選擇需要混音的音頻編碼碼流進(jìn)行混音處理，可以解決混音編碼時(shí)的噪聲問(wèn)題。

圖1為現(xiàn)有技術(shù)的一個(gè)多媒體會(huì)議系統(tǒng)示意圖；圖2為本發(fā)明實(shí)施例的多媒體會(huì)議系統(tǒng)示意圖3為本發(fā)明實(shí)施例的終端編碼器單元輸出的音頻編碼碼流中的編碼數(shù)據(jù)幀的結(jié)構(gòu)圖；圖4為本發(fā)明實(shí)施例的終端側(cè)的編碼流程圖；圖5為本發(fā)明實(shí)施例的MCU側(cè)的混音編碼流程圖；圖6為發(fā)明實(shí)施例提出的一種多媒體會(huì)議終端框圖；圖7為本發(fā)明實(shí)施例提出的一種多點(diǎn)控制單元框圖。
具體實(shí)施例方式
本發(fā)明實(shí)施例提出基于混音標(biāo)識(shí)位的混音編碼方法，終端輸出的數(shù)據(jù)流中，除了承栽語(yǔ)音的核心編碼碼流，還包括混音標(biāo)識(shí)位和動(dòng)態(tài)邊信息，其中動(dòng)態(tài)邊信息攜帶混音編碼所需的信息，如果混音標(biāo)識(shí)位設(shè)置為需要混音，則設(shè)置動(dòng)態(tài)邊信息；如果混音標(biāo)識(shí)位設(shè)置為不需要混音，則不設(shè)置動(dòng)態(tài)邊信息。 MCU根據(jù)所述混音標(biāo)識(shí)位選擇需要進(jìn)行混音處理的核心編碼碼流進(jìn)行混音處理。
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)闡述。
圖2示出了本發(fā)明實(shí)施例的多媒體會(huì)議系統(tǒng)示意。該多媒體會(huì)議系統(tǒng)中，包括M個(gè)終端，即終端1、終端2……終端M;還包括一個(gè)MCU。
以終端1為例，該終端包括編碼器單元201,編碼器單元201對(duì)終端1 的聲音收集裝置如麥克風(fēng)收集到的聲音進(jìn)行編碼，生成攜帶所述聲音信息的核心編碼碼流。編碼器單元201還根據(jù)本地設(shè)置的混音策略，設(shè)置混音標(biāo)識(shí) 位。所述混音策略用于確定本終端輸出的聲音編碼是否需要進(jìn)行混音處理，根據(jù)實(shí)際的需要可以設(shè)置不同的混音策略，例如，可以對(duì)不同的終端設(shè)置不同的優(yōu)先級(jí)，對(duì)于來(lái)自優(yōu)先級(jí)高的終端的音頻碼流優(yōu)先進(jìn)行混音；還可以設(shè) 置聲音能量閾值，當(dāng)終端收集的聲音能量超過(guò)該能量閾值則對(duì)該終端的音頻碼流進(jìn)行混音等等。并且多個(gè)混音策略可以同時(shí)使用。
如果設(shè)置的混音標(biāo)識(shí)位表示需要混音，則編碼器單元201還要生成動(dòng)態(tài) 邊信息，寫(xiě)入音頻碼流中；如果混音標(biāo)識(shí)位表示不需要混音，則編碼器單元 201輸出的音頻碼流中僅包括核心編碼和混音標(biāo)識(shí)位。圖3示出了本發(fā)明實(shí)施例的終端編碼器單元輸出的音頻編碼碼流中的
編碼數(shù)據(jù)幀的結(jié)構(gòu)圖。設(shè)一個(gè)數(shù)據(jù)幀的總長(zhǎng)度為n比特，當(dāng)混音標(biāo)識(shí)位表示需要混音時(shí)，該編碼數(shù)據(jù)幀如圖3中的上圖所示，包括t比特的混音標(biāo)識(shí)位， m比特的動(dòng)態(tài)邊信息，以及n-m-t比特的核心編碼。其中，混音標(biāo)識(shí)位設(shè)置在幀頭，便于MCU識(shí)別。當(dāng)混音標(biāo)識(shí)位表示不需要混音時(shí)，該編碼數(shù)據(jù)幀如圖3中的下圖所示，包括t比特的混音標(biāo)識(shí)位和n-t比特的核心編碼。
對(duì)于G.711窄帶增強(qiáng)層(Low Band Enhance, LBE )編碼來(lái)說(shuō)，圖3中各個(gè)部分可取如下數(shù)值t=l, n=80, m = 9。
邊信息包括幀能量(Frame Energy)和聲音分值(Voicing score)，若邊信息碼長(zhǎng)為9比特，則其中6比特為量化的幀能量，3比特為量化的聲音分值。
其中，幀能量的計(jì)算用公式(1)表示
Fram g 一Ig wgfA—1
￡外.)
尸ra附e —五"g,gy =-1=5- (1 )
Frame—Length為幀長(zhǎng)度，鄧)是經(jīng)過(guò)正交鏡象濾波器(Quadrature Mirror Filter, QMF)的低頻帶信號(hào)，i為幀中的采樣值序號(hào)。
聲音分值用公式(2)計(jì)算
T, , Zero Oo孤-"g / "/e , ^ 、
Fcwz"g — scorg -二-—-=- I 2
— Sca/c — ybctor
其中，過(guò)零率(Zero—Crossing—Rate)表示10ms內(nèi)，時(shí)域波形過(guò)零次數(shù)。約化因子(Scale—Factor) 為預(yù)先設(shè)置的約化常量，取值為[O , l]。
根據(jù)實(shí)際情況，動(dòng)態(tài)邊信息也可設(shè)置為其它可用于作為混音處理判斷依據(jù)的量，例如，可以設(shè)置為靜音活動(dòng)檢測(cè)(VAD)。
終端輸出的音頻碼流發(fā)送到MCU后，首先輸入選擇單元202。選擇單元202 /人收到的音頻編碼碼流中首先識(shí)別出混音標(biāo)識(shí)位，根據(jù)混音標(biāo)識(shí)位的取值，確定是否需要對(duì)該路音頻編碼碼流進(jìn)行混音處理，如果不需要混音處理，則選4奪單元202將該路音頻編碼碼流輸出至相應(yīng)的目的終端。對(duì)于所有M， (M，小于等于M)路需要混音處理的音頻編碼碼流，選擇單元202根據(jù) 其中的動(dòng)態(tài)邊信息，選擇出N (N小于等于M，)路音頻編碼碼流，將這些音頻編碼碼流分別發(fā)送至相應(yīng)的解碼器，經(jīng)過(guò)解碼后，再發(fā)送到混音單元 203進(jìn)行混音處理，得到M，路混音后的音頻碼流，再將這M，路音頻碼流分別用編碼器編碼后，發(fā)送至相應(yīng)的終端。
本發(fā)明實(shí)施例的終端側(cè)的編碼過(guò)程如圖4所示，包括如下步驟
步驟401:對(duì)收集的聲音信息根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位，然后對(duì)所述聲音信息進(jìn)行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；
步驟402:若設(shè)置混音標(biāo)識(shí)位為需要混音，則計(jì)算動(dòng)態(tài)邊信息，可以依據(jù)前述公式(1)和公式(2)計(jì)算幀能量和聲音分值作為動(dòng)態(tài)邊信息。
步驟403:生成并輸出音頻編碼碼流。所述生成音頻編碼碼流具體包括若所設(shè)置的混音標(biāo)識(shí)位為有效，則生成包括所述混音標(biāo)識(shí)位、核心編碼數(shù)據(jù) 和動(dòng)態(tài)邊信息的音頻編碼數(shù)據(jù)幀；若所設(shè)置的混音標(biāo)識(shí)位為無(wú)效，則生成包括所述混音標(biāo)識(shí)位和核心編碼數(shù)據(jù)的音頻編碼數(shù)據(jù)幀。所述混音標(biāo)識(shí)位設(shè)置在數(shù)據(jù)幀最前，較佳地，長(zhǎng)度為1比特。
本發(fā)明實(shí)施例的MCU側(cè)的混音編碼過(guò)程如圖5所示，包括如下步驟
步驟501: MCU收到來(lái)自終端的音頻編碼碼流，根據(jù)其中的混音標(biāo)識(shí) 位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，若是，則執(zhí)行步驟 502，否則，執(zhí)行步驟503。
步驟502:將該路音頻編碼碼流直接發(fā)送到對(duì)應(yīng)的目的終端，并結(jié)束對(duì) 該路音頻編碼碼流的處理。
步驟503:對(duì)于同一時(shí)刻收到的來(lái)自M，個(gè)終端的音頻編碼碼流，且這些音頻編碼碼流中的混音標(biāo)識(shí)位均為需要進(jìn)行混音處理，MCU根據(jù)這些碼流中的動(dòng)態(tài)邊信息，從中選擇出N路音頻編碼碼流，并丟棄剩下的M，-N路音頻編碼碼流。其中N小于等于M，。
可以根據(jù)邊信息中能量的值，如果大于某一個(gè)閾值T，則混音，小于則不進(jìn)行混音。504:對(duì)所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)分別進(jìn)行解碼，將解碼后的核心編碼數(shù)據(jù)進(jìn)行混音處理，得到M，路混音后的音頻碼流。
步驟505:將所述M，路混音后的音頻碼流分別進(jìn)行編碼，將編碼后的 M，路編碼并混音后的音頻編碼碼流分別發(fā)送到M，個(gè)目的終端。
圖6為發(fā)明實(shí)施例提出的一種多媒體會(huì)議終端，包括
聲音收集模塊601，用于收集聲音信息；
混音策略模塊602，用于根據(jù)預(yù)先設(shè)置的混音策略對(duì)所述聲音收集模塊 601所收集的聲音信息設(shè)置混音標(biāo)識(shí)位；
核心編碼模塊603,用于對(duì)所述聲音信息進(jìn)行編碼，輸出核心編碼數(shù)據(jù)；如果混音策略模塊602將混音標(biāo)識(shí)位設(shè)置為不需要混音，則核心編碼模塊 603進(jìn)行編碼時(shí)，無(wú)需考慮動(dòng)態(tài)邊信息的比特分配；如果該混音標(biāo)識(shí)位設(shè)置為需要混音，則核心編碼模塊603進(jìn)行編碼時(shí)，需要考慮動(dòng)態(tài)邊信息的比特分配。例如，如果編碼數(shù)據(jù)幀的總比特?cái)?shù)為n比特，混音標(biāo)識(shí)位為t比特，動(dòng)態(tài)邊信息為m比特，則對(duì)于不需要考慮動(dòng)態(tài)邊信息的比特分配的情況，核心編碼模塊603編碼得到的核心編碼數(shù)據(jù)長(zhǎng)度為n-t比特；對(duì)于需要考慮動(dòng)態(tài)邊信息的比特分配的情況，核心編碼模塊603編碼得到的核心編碼數(shù)據(jù) 長(zhǎng)度為n-m-t比特。
成幀模塊604,用于根據(jù)所述混音策略模塊603設(shè)置的混音標(biāo)識(shí)位計(jì)算動(dòng)態(tài)邊信息，并根據(jù)所述混音標(biāo)識(shí)位的取值，生成包含所述核心編碼數(shù)據(jù)、混音標(biāo)識(shí)位和動(dòng)態(tài)邊信息的音頻數(shù)據(jù)幀，或者生成包含所述核心編碼數(shù)據(jù)和混音標(biāo)識(shí)位的音頻數(shù)據(jù)幀；
輸出模塊605，用于將所述成幀模塊604生成的音頻數(shù)據(jù)幀作為音頻編碼碼流對(duì)外輸出。
圖7為本發(fā)明實(shí)施例提出的一種多點(diǎn)控制單元，包括
選捧單元701，用于對(duì)接收來(lái)自M個(gè)終端的音頻編碼碼流，才艮據(jù)所述音頻編碼碼流的混音標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M，路音頻編碼碼流，才艮據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流；
混音單元702，用于將所述選擇單元所選擇的N路音頻編碼碼流中的核心編碼數(shù)據(jù)進(jìn)行混音處理，得到M，路混音后的音頻碼流；
發(fā)送單元703,用于將來(lái)自所述混音單元的音頻碼流發(fā)送到相應(yīng)的目的終端。
所述選擇單元701將不需要混音處理的音頻編碼碼流發(fā)送到所述發(fā)送單元703;則所述發(fā)送單元703將來(lái)自所述選擇單元的音頻編碼碼流發(fā)送到相應(yīng)的目的終端。
所述多點(diǎn)控制單元進(jìn)一步包括解碼器704,用于對(duì)所述選擇單元701 所選擇的音頻編碼碼流中的核心編碼數(shù)據(jù)進(jìn)行解碼，并將解碼后的核心編碼數(shù)據(jù)發(fā)送到所述混音單元702;
編碼器705，用于對(duì)來(lái)自所述混音單元702的混音后的音頻碼流進(jìn)行編碼，并將編碼后的音頻編碼碼流發(fā)送到所述發(fā)送單元703。
本發(fā)明實(shí)施例方案在編碼碼流中進(jìn)行混音標(biāo)識(shí)位的標(biāo)定并增加相應(yīng)的動(dòng)態(tài)邊信息，4艮據(jù)混音標(biāo)識(shí)位和動(dòng)態(tài)分配邊信息比特分配。MCU纟艮據(jù)混音標(biāo)識(shí)位以及動(dòng)態(tài)邊信息來(lái)選擇需要混音的音頻編碼碼流進(jìn)行混音處理，可以解決信號(hào)溢出以及對(duì)大信號(hào)進(jìn)行混音時(shí)會(huì)引入誤差的問(wèn)題，并降低MCU的計(jì)算復(fù)雜度；在不進(jìn)行混音時(shí)，能夠充分利用碼流比特分配，提高核心編碼質(zhì)量。本發(fā)明方案既可用于混音系統(tǒng)，又可應(yīng)用常用編解碼系統(tǒng)的編解碼器，有利實(shí)現(xiàn)編碼碼流的智能控制，增強(qiáng)MCU單元交互性。
以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種混音編碼方法，其特征在于，包括如下步驟對(duì)聲音信息根據(jù)混音策略設(shè)置混音標(biāo)識(shí)位，根據(jù)標(biāo)志位信息對(duì)所述聲音信息進(jìn)行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；若混音標(biāo)識(shí)位信息為需要混音，則計(jì)算動(dòng)態(tài)邊信息，生成并輸出包含所述混音標(biāo)識(shí)位、核心編碼數(shù)據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流；若混音標(biāo)識(shí)位信息為不需要混音，則生成并輸出包含所述混音標(biāo)識(shí)位和核心編碼數(shù)據(jù)的音頻編碼碼流；網(wǎng)絡(luò)側(cè)收到來(lái)自終端的音頻編碼碼流，根據(jù)其中的混音標(biāo)識(shí)位信息判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M’路音頻編碼碼流，根據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流，對(duì)所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理，并輸出混音后的音頻編碼碼流，其中N小于等于M’。
2、根據(jù)權(quán)利要求1所述的方法，其特征在于，所述動(dòng)態(tài)邊信息包括幀能量、聲音分值和/或靜音活動(dòng)檢測(cè)。
3、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述計(jì)算動(dòng)態(tài)邊信息包frame 一丄engf/r-l2 S2①括根據(jù)公式 _ ^"/^-""g^計(jì)算幀能量，其中，F(xiàn)rame—Energy表示幀能量，外')是經(jīng)過(guò)正交鏡象濾波器的低頻帶信號(hào)，i為幀中的采樣值序號(hào)。
4、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述計(jì)算動(dòng)態(tài)邊信息包T,… CWm/wg 7 她 Kozczwfi" score =-^--括根據(jù)公式 — 計(jì)算聲音分值，其中Zero—Crossing—Rate表示預(yù)定時(shí)間內(nèi)，所述聲音信息的時(shí)域波形過(guò)零次數(shù)； Scale—Factor為預(yù)先設(shè)置的約化常量，取值為[O ， l]。
5、根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)其中的混音標(biāo)識(shí)位的信息判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，其判斷結(jié)果為不需要對(duì)該音頻編碼碼流進(jìn)行混音處理，則進(jìn)一步包括將所述音頻編碼碼流輸出至目的終端。
6、根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法，其特征在于，所述對(duì)所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理，并輸出混音后的音頻碼流包括對(duì)所選擇的N路音頻碼流中的核心編碼數(shù)據(jù)分別解碼，將解碼后的N路核心編碼數(shù)據(jù)進(jìn)行混音處理，得到M，路混音后的音頻碼流，將所述M，路混音后的音頻碼流分別進(jìn)4亍編碼，將編碼后的M，路編碼并混音后的音頻編碼碼流分別發(fā)送到M'個(gè)目的終端。
7、一種終端側(cè)編碼方法，其特征在于，包括如下步驟根據(jù)混音策略對(duì)聲音信息設(shè)置混音標(biāo)識(shí)，根據(jù)所述混音標(biāo)識(shí)信息對(duì)所述聲音信息進(jìn)行編碼獲得核心編碼數(shù)據(jù)；若所述混音標(biāo)識(shí)信息為需要混音，則計(jì)算動(dòng)態(tài)邊信息，生成并輸出包含所述混音標(biāo)識(shí)、核心編碼數(shù)據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流；若所述混音標(biāo) 識(shí)信息為不需要混音，則終端生成并輸出包含所述混音標(biāo)識(shí)和核心編碼數(shù)據(jù) 的音頻編碼碼流。
8、一種網(wǎng)絡(luò)側(cè)的混音編碼方法，其特征在于，包括如下步驟接收M路音頻編碼碼流，根據(jù)其中的混音標(biāo)識(shí)信息判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M，路音頻編碼碼流，根據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流，對(duì)所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理，并輸出混音后的音頻編碼碼流，其中M、 M，和N均為正整數(shù)，N小于等于M，， M，小于等于M。
9、一種多媒體會(huì)議系統(tǒng)，包括M個(gè)終端和多點(diǎn)控制單元，其特征在于，所述終端用于對(duì)收集的聲音信息根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位，根據(jù)標(biāo)志位信息對(duì)所述聲音信息進(jìn)行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；并根據(jù)本地的混音策略設(shè)置混音標(biāo)識(shí)位，生成并輸出包含所述核心編碼數(shù) 據(jù)、混音標(biāo)識(shí)位為需要混音和動(dòng)態(tài)邊信息的音頻編碼碼流，或者生成并輸出包含所述核心編碼數(shù)據(jù)和混音標(biāo)識(shí)位為不需要混音的音頻編碼碼流；所述多點(diǎn)控制單元用于接收來(lái)自終端的音頻編碼碼流，根據(jù)其中的混音標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M，路音頻碼流，根據(jù)其中的動(dòng)態(tài)邊信息中選出N路音頻碼流，對(duì) 所選擇的N路音頻碼流的核心編碼數(shù)據(jù)進(jìn)行混音處理，并輸出混音后的音頻編碼碼流，其中M、 M，和N均為正整數(shù)，N小于等于M，， M，小于等于M。
10、一種多媒體會(huì)議終端，其特征在于，包括聲音收集模塊，用于收集聲音信息；混音策略模塊，用于根據(jù)預(yù)先設(shè)置的混音策略對(duì)所述聲音收集模塊所收集的聲音信息設(shè)置混音標(biāo)識(shí)位；核心編碼模塊，用于對(duì)所述聲音信息進(jìn)行編碼，輸出核心編碼數(shù)據(jù)；成幀模塊，用于根據(jù)所述混音策略模塊設(shè)置的混音標(biāo)識(shí)位計(jì)算動(dòng)態(tài)邊信息，并根據(jù)所述混音標(biāo)識(shí)位的取值，生成包含所述核心編碼數(shù)據(jù)、混音標(biāo)識(shí) 位和動(dòng)態(tài)邊信息的音頻編碼數(shù)據(jù)幀，或者生成包含所述核心編碼數(shù)據(jù)和混音標(biāo)識(shí)位的音頻編碼數(shù)據(jù)幀；輸出模塊，用于對(duì)外輸出所述成幀模塊生成的音頻編碼數(shù)據(jù)幀作為音頻編碼碼流。
11、一種多點(diǎn)控制單元，其特征在于，包括選擇單元，用于對(duì)接收來(lái)自M個(gè)終端的音頻編碼碼流，根據(jù)所述音頻編碼碼流的混音標(biāo)識(shí)位的取值判斷是否需要對(duì)該音頻編碼碼流進(jìn)行混音處理，對(duì)需要進(jìn)行混音處理的M，路音頻編碼碼流，根據(jù)其中的動(dòng)態(tài)邊信息選出N路音頻編碼碼流；混音單元，用于將所述選擇單元所選擇的N路音頻編碼碼流中的核心編碼數(shù)據(jù)進(jìn)行混音處理，得到M，路混音后的音頻編碼碼流；發(fā)送單元，用于將來(lái)自所述混音單元的音頻編碼碼流發(fā)送到相應(yīng)的目的終端。
12、根據(jù)權(quán)利要求11所述的多點(diǎn)控制單元，其特征在于，所述選擇單元將不需要混音處理的音頻編碼碼流發(fā)送到所述發(fā)送單元；則所述發(fā)送單元將來(lái)自所述選擇單元的音頻編碼碼流發(fā)送到相應(yīng)的目的終端。
13、根據(jù)權(quán)利要求11或12所述的多點(diǎn)控制單元，其特征在于，所述多點(diǎn)控制單元進(jìn)一步包括解碼器，用于對(duì)所述選擇單元所選擇的音頻編碼碼流中的核心編碼數(shù)據(jù)進(jìn)行解碼，并將解碼后的核心編碼數(shù)據(jù)發(fā)送到所述混音單元；編碼器，用于對(duì)來(lái)自所述混音單元的混音后的音頻碼流進(jìn)行編碼，并將編碼后的音頻編碼碼流發(fā)送到所述發(fā)送單元。
全文摘要
本發(fā)明公開(kāi)了一種終端側(cè)編碼方法，根據(jù)混音策略對(duì)聲音信息設(shè)置混音標(biāo)識(shí)，根據(jù)所述混音標(biāo)識(shí)信息對(duì)所述聲音信息進(jìn)行編碼獲得核心編碼數(shù)據(jù)；若所述混音標(biāo)識(shí)信息為需要混音，則計(jì)算動(dòng)態(tài)邊信息，生成并輸出包含所述混音標(biāo)識(shí)、核心編碼數(shù)據(jù)和動(dòng)態(tài)邊信息的音頻編碼碼流；若所述混音標(biāo)識(shí)信息為不需要混音，則終端生成并輸出包含所述混音標(biāo)識(shí)和核心編碼數(shù)據(jù)的音頻編碼碼流。本發(fā)明還公開(kāi)了相應(yīng)的網(wǎng)絡(luò)側(cè)的混音編碼方法，以及用于進(jìn)行混音編碼的裝置和系統(tǒng)。本發(fā)明方案可以解決混音時(shí)信號(hào)溢出以及引入誤差的問(wèn)題，并且不會(huì)降低編碼效率。
文檔編號(hào)G10L11/02GK101414463SQ20071018137
公開(kāi)日2009年4月22日申請(qǐng)日期2007年10月19日優(yōu)先權(quán)日2007年10月19日
發(fā)明者清張, 偉李, 杜正中, 毅楊, 晨胡, 磊苗, 許麗凈, 許劍峰, 齊峰巖申請(qǐng)人:華為技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張清;苗磊;李偉;許劍峰;許麗凈;杜正中;胡晨;楊毅;齊峰巖
技術(shù)所有人：華為技術(shù)有限公司
我是此專(zhuān)利的發(fā)明人