一種混音編碼方法、裝置和系統(tǒng)的制作方法

文檔序號：2825278閱讀：176來源：國知局

專利名稱：一種混音編碼方法、裝置和系統(tǒng)的制作方法
技術(shù)領域：
本發(fā)明涉及多媒體通信技術(shù)領域，特別涉及一種混音編碼方法、裝置和系統(tǒng)。
背景技術(shù)：
目前，實時多媒體通信服務的應用越來越多，用以滿足日益增長的業(yè)務需求，例如多媒體會議系統(tǒng)等等，因此各種多媒體會議系統(tǒng)相關技術(shù)顯得十分重要。在多媒體會議中，音頻互動是最基本的要素。在集中式會議中，各個終端都與多點控制單元(Multi-point Controlling Unit，MCU)建立基于單播(unicast)的連接，實時地向MCU發(fā)送音頻碼流和從MCU接收音頻碼流。因此，MCU的輸入均是各種編碼方案編碼后的音頻碼流，其輸出為按照合成策略進行混音處理后的音頻碼流。如圖1所示為一個多媒體會議系統(tǒng)示意圖，其中虛線框可以看作一個MCU單元。終端位置1，終端位置2等輸入音頻碼流經(jīng)分別解碼，解碼后的音頻碼流在混音單元混音后，再對混音后的音頻碼流分別進行編碼，再輸出到相應的終端。如圖1所示的多媒體會議系統(tǒng)，有M個終端參與混音。對于特定的時刻t，每個終端會將音頻數(shù)據(jù)送與MCU，MCU首先將音頻數(shù)據(jù)解碼，并對每路信號進行混音參數(shù)的計算，最終對多路解碼信號進行混音處理?；煲籼幚淼某Ｓ盟惴醇雍退新方獯a數(shù)據(jù)，將加和后的數(shù)據(jù)再通過編碼器編碼，最終傳送至各個終端。采用上述的時域疊加混音方案，常常會引入噪聲。這是因為每一個終端在向MCU 傳送的音頻信號都有一定的范圍[min，max]，其中min表示范圍的下限，max表示范圍的上限。當直接加和所有路信號時，很可能會超出信號取值范圍[min，max]。由于數(shù)字音頻信號存在量化上限和下限的問題，疊加運算很可能會造成結(jié)果溢出。通常的處理手段是進行溢出檢測，然后再進行飽和運算，即超過上限的結(jié)果被置為上限值，超過下限的值置為下限值。這種運算本身破壞了語音信號原有的時域特征，從而引入了噪聲，這就是在某些系統(tǒng)中會出現(xiàn)爆破聲和語音不連續(xù)現(xiàn)象的原因。隨著參與混音的終端數(shù)據(jù)增加，出現(xiàn)溢出的頻率也不斷上升，所以這類時域疊加混音方案存在一個終端數(shù)目上限，而且這個上限值很低，實驗證明，很多情況下，如果在4 個終端參與混音時其結(jié)果就有很多噪聲和斷續(xù)，無法分辨語流了。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明實施例提出一種混音編碼方法，能夠克服現(xiàn)有技術(shù)中時域混音編碼的噪聲問題。所述混音編碼方法包括如下步驟對聲音信息根據(jù)混音策略設置混音標識位，根據(jù)標志位信息對所述聲音信息進行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；若混音標識位信息為需要混音，則計算動態(tài)邊信息，生成并輸出包含所述混音標識位、核心編碼數(shù)據(jù)和動態(tài)邊信息的音頻編碼碼流；若混音標識位信息為不需要混音，則生成并輸出包含所述混音標識位和核心編碼數(shù)據(jù)的音頻編碼碼流；
網(wǎng)絡側(cè)收到來自終端的音頻編碼碼流，根據(jù)其中的混音標識位信息判斷是否需要對該音頻編碼碼流進行混音處理，對需要進行混音處理的M’路音頻編碼碼流，根據(jù)其中的動態(tài)邊信息選出N路音頻編碼碼流，對所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進行混音處理，并輸出混音后的音頻編碼碼流，其中N小于等于M，。本發(fā)明實施例還提出一種終端側(cè)編碼方法，包括如下步驟根據(jù)混音策略對聲音信息設置混音標識，根據(jù)所述混音標識信息對所述聲音信息進行編碼獲得核心編碼數(shù)據(jù)；若所述混音標識信息為需要混音，則計算動態(tài)邊信息，生成并輸出包含所述混音標識、核心編碼數(shù)據(jù)和動態(tài)邊信息的音頻編碼碼流；若所述混音標識信息為不需要混音，則終端生成并輸出包含所述混音標識和核心編碼數(shù)據(jù)的音頻編碼碼流。本發(fā)明實施例還提出一種網(wǎng)絡側(cè)混音編碼方法，包括如下步驟接收M路音頻編碼碼流，根據(jù)其中的混音標識信息判斷是否需要對該音頻編碼碼流進行混音處理，對需要進行混音處理的M，路音頻編碼碼流，根據(jù)其中的動態(tài)邊信息選出 N路音頻編碼碼流，對所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進行混音處理，并輸出混音后的音頻編碼碼流，其中M、M’和N均為正整數(shù)，N小于等于Μ’，Μ’小于等于Μ。本發(fā)明實施例提出一種多媒體會議系統(tǒng)，包括M個終端和多點控制單元；包括M個終端和多點控制單元，其特征在于，所述終端用于對收集的聲音信息根據(jù)本地的混音策略設置混音標識位，根據(jù)標志位信息對所述聲音信息進行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；并根據(jù)本地的混音策略設置混音標識位，生成并輸出包含所述核心編碼數(shù)據(jù)、混音標識位為需要混音和動態(tài)邊信息的音頻編碼碼流，或者生成并輸出包含所述核心編碼數(shù)據(jù)和混音標識位為不需要混音的音頻編碼碼流；所述多點控制單元用于接收來自終端的音頻編碼碼流，根據(jù)其中的混音標識位的取值判斷是否需要對該音頻編碼碼流進行混音處理，對需要進行混音處理的Μ，路音頻碼流，根據(jù)其中的動態(tài)邊信息中選出N路音頻碼流，對所選擇的N路音頻碼流的核心編碼數(shù)據(jù)進行混音處理，并輸出混音后的音頻編碼碼流，其中Μ、Μ’和N均為正整數(shù)，N小于等于Μ’， Μ’小于等于Μ。本發(fā)明實施例提出一種多媒體會議終端，包括聲音收集模塊，用于收集聲音信息；混音策略模塊，用于根據(jù)預先設置的混音策略對所述聲音收集模塊所收集的聲音信息設置混音標識位；核心編碼模塊，用于對所述聲音信息進行編碼，輸出核心編碼數(shù)據(jù)；成幀模塊，用于根據(jù)所述混音策略模塊設置的混音標識位計算動態(tài)邊信息，并根據(jù)所述混音標識位的取值，生成包含所述核心編碼數(shù)據(jù)、混音標識位和動態(tài)邊信息的音頻編碼數(shù)據(jù)幀，或者生成包含所述核心編碼數(shù)據(jù)和混音標識位的音頻編碼數(shù)據(jù)幀；輸出模塊，用于對外輸出所述成幀模塊生成的音頻編碼數(shù)據(jù)幀作為音頻編碼碼流。本發(fā)明實施例提出一種多點控制單元，包括選擇單元，用于對接收來自M個終端的音頻編碼碼流，根據(jù)所述音頻編碼碼流的混音標識位的取值判斷是否需要對該音頻編碼碼流進行混音處理，對需要進行混音處理的 M，路音頻編碼碼流，根據(jù)其中的動態(tài)邊信息選出N路音頻編碼碼流；混音單元，用于將所述選擇單元所選擇的N路音頻編碼碼流中的核心編碼數(shù)據(jù)進行混音處理，得到M，路混音后的音頻編碼碼流；發(fā)送單元，用于將來自所述混音單元的音頻編碼碼流發(fā)送到相應的目的終端。從以上技術(shù)方案可以看出，在終端側(cè)，在編碼碼流中進行混音標識位的標定并增加相應的動態(tài)邊信息；在網(wǎng)絡側(cè)，根據(jù)混音標識位以及動態(tài)邊信息來選擇需要混音的音頻編碼碼流進行混音處理，可以解決混音編碼時的噪聲問題。

圖1為現(xiàn)有技術(shù)的一個多媒體會議系統(tǒng)示意圖；圖2為本發(fā)明實施例的多媒體會議系統(tǒng)示意圖；圖3為本發(fā)明實施例的終端編碼器單元輸出的音頻編碼碼流中的編碼數(shù)據(jù)幀的結(jié)構(gòu)圖；圖4為本發(fā)明實施例的終端側(cè)的編碼流程圖；圖5為本發(fā)明實施例的MCU側(cè)的混音編碼流程圖；圖6為發(fā)明實施例提出的一種多媒體會議終端框圖；圖7為本發(fā)明實施例提出的一種多點控制單元框圖。
具體實施例方式本發(fā)明實施例提出基于混音標識位的混音編碼方法，終端輸出的數(shù)據(jù)流中，除了承載語音的核心編碼碼流，還包括混音標識位和動態(tài)邊信息，其中動態(tài)邊信息攜帶混音編碼所需的信息，如果混音標識位設置為需要混音，則設置動態(tài)邊信息；如果混音標識位設置為不需要混音，則不設置動態(tài)邊信息。MCU根據(jù)所述混音標識位選擇需要進行混音處理的核心編碼碼流進行混音處理。為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面結(jié)合附圖對本發(fā)明作進一步的詳細闡述。圖2示出了本發(fā)明實施例的多媒體會議系統(tǒng)示意。該多媒體會議系統(tǒng)中，包括M個終端，即終端1、終端2......終端M ；還包括一個MCU。以終端1為例，該終端包括編碼器單元201，編碼器單元201對終端1的聲音收集裝置如麥克風收集到的聲音進行編碼，生成攜帶所述聲音信息的核心編碼碼流。編碼器單元201還根據(jù)本地設置的混音策略，設置混音標識位。所述混音策略用于確定本終端輸出的聲音編碼是否需要進行混音處理，根據(jù)實際的需要可以設置不同的混音策略，例如，可以對不同的終端設置不同的優(yōu)先級，對于來自優(yōu)先級高的終端的音頻碼流優(yōu)先進行混音；還可以設置聲音能量閾值，當終端收集的聲音能量超過該能量閾值則對該終端的音頻碼流進行混音等等。并且多個混音策略可以同時使用。如果設置的混音標識位表示需要混音，則編碼器單元201還要生成動態(tài)邊信息，寫入音頻碼流中；如果混音標識位表示不需要混音，則編碼器單元201輸出的音頻碼流中僅包括核心編碼和混音標識位。
圖3示出了本發(fā)明實施例的終端編碼器單元輸出的音頻編碼碼流中的編碼數(shù)據(jù)幀的結(jié)構(gòu)圖。設一個數(shù)據(jù)幀的總長度為η比特，當混音標識位表示需要混音時，該編碼數(shù)據(jù)幀如圖3中的上圖所示，包括t比特的混音標識位，m比特的動態(tài)邊信息，以及n-m-t比特的核心編碼。其中，混音標識位設置在幀頭，便于MCU識別。當混音標識位表示不需要混音時，該編碼數(shù)據(jù)幀如圖3中的下圖所示，包括t比特的混音標識位和n-t比特的核心編碼。對于G. 711窄帶增強層(Low Band Enhance, LBE)編碼來說，圖3中各個部分可取如下數(shù)值t = l，n = 80，m = 9。邊信息包括幀能量(Frame Energy)和聲音分值(Voicing score)，若邊信息碼長為9比特，則其中6比特為量化的幀能量，3比特為量化的聲音分值。其中，幀能量的計算用公式⑴表示
權(quán)利要求
1.一種混音編碼方法，其特征在于，包括如下步驟對聲音信息根據(jù)混音策略設置混音標識位，根據(jù)標志位信息對所述聲音信息進行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；若混音標識位信息為需要混音，則計算動態(tài)邊信息，生成并輸出包含所述混音標識位、核心編碼數(shù)據(jù)和動態(tài)邊信息的音頻編碼碼流；若混音標識位信息為不需要混音，則生成并輸出包含所述混音標識位和核心編碼數(shù)據(jù)的音頻編碼碼流；網(wǎng)絡側(cè)收到來自終端的音頻編碼碼流，根據(jù)其中的混音標識位信息判斷是否需要對該音頻編碼碼流進行混音處理，對需要進行混音處理的M’路音頻編碼碼流，根據(jù)其中的動態(tài)邊信息選出N路音頻編碼碼流，對所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進行混音處理，并輸出混音后的音頻編碼碼流，其中N小于等于M，。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述動態(tài)邊信息包括幀能量、聲音分值和 /或靜音活動檢測。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述計算動態(tài)邊信息包括根據(jù)公式
4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述計算動態(tài)邊信息包括根據(jù)公式 Zero Crossifis RcitcVoicing_score =———--——計算聲音分值，其中^ro Crossing Rate表示預定 Scale _ Jactor——時間內(nèi)，所述聲音信息的時域波形過零次數(shù)；Scale_Factor為預先設置的約化常量，取值為 W，l]。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)其中的混音標識位的信息判斷是否需要對該音頻編碼碼流進行混音處理，其判斷結(jié)果為不需要對該音頻編碼碼流進行混音處理，則進一步包括將所述音頻編碼碼流輸出至目的終端。
6.根據(jù)權(quán)利要求1至5任一項所述的方法，其特征在于，所述對所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進行混音處理，并輸出混音后的音頻碼流包括對所選擇的N路音頻碼流中的核心編碼數(shù)據(jù)分別解碼，將解碼后的N路核心編碼數(shù)據(jù)進行混音處理，得到M，路混音后的音頻碼流，將所述M，路混音后的音頻碼流分別進行編碼，將編碼后的M，路編碼并混音后的音頻編碼碼流分別發(fā)送到M’個目的終端。
7.—種終端側(cè)編碼方法，其特征在于，包括如下步驟根據(jù)混音策略對聲音信息設置混音標識，根據(jù)所述混音標識信息對所述聲音信息進行編碼獲得核心編碼數(shù)據(jù)；若所述混音標識信息為需要混音，則計算動態(tài)邊信息，生成并輸出包含所述混音標識、核心編碼數(shù)據(jù)和動態(tài)邊信息的音頻編碼碼流；若所述混音標識信息為不需要混音，則終端生成并輸出包含所述混音標識和核心編碼數(shù)據(jù)的音頻編碼碼流。
8.一種網(wǎng)絡側(cè)的混音編碼方法，其特征在于，包括如下步驟接收M路音頻編碼碼流，根據(jù)其中的混音標識信息判斷是否需要對該音頻編碼碼流進行混音處理，對需要進行混音處理的M’路音頻編碼碼流，根據(jù)其中的動態(tài)邊信息選出N路音頻編碼碼流，對所選擇的N路音頻編碼碼流的核心編碼數(shù)據(jù)進行混音處理，并輸出混音后的音頻編碼碼流，其中M、M’和N均為正整數(shù)，N小于等于Μ’，Μ’小于等于Μ。
9.一種多媒體會議系統(tǒng)，包括M個終端和多點控制單元，其特征在于，所述終端用于對收集的聲音信息根據(jù)本地的混音策略設置混音標識位，根據(jù)標志位信息對所述聲音信息進行編碼，編碼的結(jié)果作為核心編碼數(shù)據(jù)；并根據(jù)本地的混音策略設置混音標識位，生成并輸出包含所述核心編碼數(shù)據(jù)、混音標識位為需要混音和動態(tài)邊信息的音頻編碼碼流，或者生成并輸出包含所述核心編碼數(shù)據(jù)和混音標識位為不需要混音的音頻編碼碼流；所述多點控制單元用于接收來自終端的音頻編碼碼流，根據(jù)其中的混音標識位的取值判斷是否需要對該音頻編碼碼流進行混音處理，對需要進行混音處理的Μ’路音頻碼流，根據(jù)其中的動態(tài)邊信息中選出N路音頻碼流，對所選擇的N路音頻碼流的核心編碼數(shù)據(jù)進行混音處理，并輸出混音后的音頻編碼碼流，其中Μ、Μ’和N均為正整數(shù)，N小于等于Μ’，Μ’小于等于Μ。
10.一種多媒體會議終端，其特征在于，包括聲音收集模塊，用于收集聲音信息；混音策略模塊，用于根據(jù)預先設置的混音策略對所述聲音收集模塊所收集的聲音信息設置混音標識位；核心編碼模塊，用于對所述聲音信息進行編碼，輸出核心編碼數(shù)據(jù)；成幀模塊，用于根據(jù)所述混音策略模塊設置的混音標識位計算動態(tài)邊信息，并根據(jù)所述混音標識位的取值，生成包含所述核心編碼數(shù)據(jù)、混音標識位和動態(tài)邊信息的音頻編碼數(shù)據(jù)幀，或者生成包含所述核心編碼數(shù)據(jù)和混音標識位的音頻編碼數(shù)據(jù)幀；輸出模塊，用于對外輸出所述成幀模塊生成的音頻編碼數(shù)據(jù)幀作為音頻編碼碼流。
11.一種多點控制單元，其特征在于，包括選擇單元，用于對接收來自M個終端的音頻編碼碼流，根據(jù)所述音頻編碼碼流的混音標識位的取值判斷是否需要對該音頻編碼碼流進行混音處理，對需要進行混音處理的Μ’路音頻編碼碼流，根據(jù)其中的動態(tài)邊信息選出N路音頻編碼碼流；混音單元，用于將所述選擇單元所選擇的N路音頻編碼碼流中的核心編碼數(shù)據(jù)進行混音處理，得到Μ’路混音后的音頻編碼碼流；發(fā)送單元，用于將來自所述混音單元的音頻編碼碼流發(fā)送到相應的目的終端。
12.根據(jù)權(quán)利要求11所述的多點控制單元，其特征在于，所述選擇單元將不需要混音處理的音頻編碼碼流發(fā)送到所述發(fā)送單元；則所述發(fā)送單元將來自所述選擇單元的音頻編碼碼流發(fā)送到相應的目的終端。
13.根據(jù)權(quán)利要求11或12所述的多點控制單元，其特征在于，所述多點控制單元進一步包括解碼器，用于對所述選擇單元所選擇的音頻編碼碼流中的核心編碼數(shù)據(jù)進行解碼，并將解碼后的核心編碼數(shù)據(jù)發(fā)送到所述混音單元；編碼器，用于對來自所述混音單元的混音后的音頻碼流進行編碼，并將編碼后的音頻編碼碼流發(fā)送到所述發(fā)送單元。
全文摘要
本發(fā)明公開了一種終端側(cè)編碼方法，根據(jù)混音策略對聲音信息設置混音標識，根據(jù)所述混音標識信息對所述聲音信息進行編碼獲得核心編碼數(shù)據(jù)；若所述混音標識信息為需要混音，則計算動態(tài)邊信息，生成并輸出包含所述混音標識、核心編碼數(shù)據(jù)和動態(tài)邊信息的音頻編碼碼流；若所述混音標識信息為不需要混音，則終端生成并輸出包含所述混音標識和核心編碼數(shù)據(jù)的音頻編碼碼流。本發(fā)明還公開了相應的網(wǎng)絡側(cè)的混音編碼方法，以及用于進行混音編碼的裝置和系統(tǒng)。本發(fā)明方案可以解決混音時信號溢出以及引入誤差的問題，并且不會降低編碼效率。
文檔編號G10L19/00GK102324235SQ20111020509
公開日2012年1月18日申請日期2007年10月19日優(yōu)先權(quán)日2007年10月19日
發(fā)明者張清, 李偉, 杜正中, 楊毅, 胡晨, 苗磊, 許麗凈, 許劍峰, 齊峰巖申請人:華為技術(shù)有限公司

完整全部詳細技術(shù)資料下載