專利名稱:支持大容量混音的同聲傳譯視頻會議系統(tǒng)及方法
技術領域:
本發(fā)明為一種用于互聯(lián)網(wǎng)同聲傳譯視頻會議系統(tǒng),具體地說解決了一個會議室大容量混音和同聲傳譯的通訊問題。
背景技術:
隨著國內(nèi)涉外事務、外貿(mào)等行業(yè)的高速發(fā)展,一種可以滿足大容量混音和多語種交流的網(wǎng)絡語音通訊平臺將會有很好的應用前景。
現(xiàn)在比較通用的混音架構是集中式和分布式混音,在集中式結構下,每個會議終端將自己的音頻數(shù)據(jù)發(fā)送給中心混頻器,在中心混頻器上完成音頻混合過程并將混音結果反饋給所有終端。在分布式結構下,每個會議終端從其他所有成員處接收音頻數(shù)據(jù)并在自身站點上獨立執(zhí)行混音。很明顯,這種方式導致了混音過程的重復計算,網(wǎng)絡通信量很大,容易造成網(wǎng)絡擁塞且投資昂貴。集中式處理具有減少客戶端計算量,網(wǎng)絡通信量低,簡單且易于實現(xiàn)等特點。目前規(guī)模較小的多媒體會議系統(tǒng)都是采用的這種處理方式,但隨著會議規(guī)模的增大,集中式處理的弊端也越來越明顯。首先是混音計算量隨著與會終端數(shù)的增加而增加,同時混音延時必然增加;其次是語音質(zhì)量的下降,目前公開的幾種混音算法線性疊加、平均調(diào)整權重法、強對齊權重法、弱對齊權重法等,在混音語音路數(shù)達到一定數(shù)目時存在混音后音量降低、求和溢出及引入隨機噪聲的缺點。因此,為了對混音數(shù)量加以限制,一般都采用話語權切換來實現(xiàn),這樣對于使用者而言非常不方便。本發(fā)明的一部分就是為了解決這一系列的問題,具體方法是通過高效靜音檢測方法抑制發(fā)言端靜音的傳送和在混音器里使用更有效的混音方法,使用中可以做到至少20路的實時混音。
一般多媒體會議系統(tǒng)以會議室為單位進行語音處理,每個會議室只有一個混音器,這種模式是無法滿足國際型交流活動要求的,國際型交流活動包括會議、商務交流、產(chǎn)品推介會等,該會議環(huán)境要求多語種信息可以同時發(fā)布和允許主辦方與不同國家人員進行交流,而目前市場的一些視訊會議系統(tǒng)必須針對不同語種開設多個會議室,才能保證多種語言音頻能同時被混音和傳送到不同對象,顯然這種方式是不經(jīng)濟的和帶來操作的不便利。
發(fā)明內(nèi)容
為了提高混音效率和解決同聲傳譯問題,本發(fā)明提供一種更高效靜音檢測方法、混音方法和同聲傳譯方法??梢詫崿F(xiàn)更高的靜音檢測率、比其它混音方法更多的混音路數(shù)和在同一會議室進行多語種同步混音。
本發(fā)明的目的是通過以下技術方案來實現(xiàn)的系統(tǒng)采用集中式處理架構,定義了兩個主要的系統(tǒng)客戶終端(Terminal)、多點控制單元(MCU)??蛻艚K端包括視頻編解碼、音頻編解碼、控制單元、網(wǎng)絡傳輸層、輔助辦公等功能模塊,音頻編解碼采用下面提出的靜音檢測方法,在壓縮音頻之前檢測出是否需要壓縮該幀語音。多點控制單元一般安裝在服務器上,MCU包含了多點控制模塊以及多點處理模塊,多點處理模塊式用下面提出的短時自適應權重混音方法。
支持大容量混音的方法由以下步驟實現(xiàn)1、客戶終端中音頻編解碼模塊使用本發(fā)明提供的基于Mel尺度倒譜特征與支持向量機靜音檢測方法以減少音頻數(shù)據(jù)的傳輸。這里采用Mel尺度倒譜系數(shù)作為語音特征,Mel尺度倒譜系數(shù)利用人耳的聽覺掩蔽效應,將語音在頻率域上劃分為一系列的臨界帶組成三角形的濾波器組,即Mel濾波器序列。靜音檢測的過程是1)提取一幀音頻數(shù)據(jù)的Mel尺度倒譜系數(shù),Mel尺度倒譜系數(shù)(CMFCC)計算公式如下cMFCC(i)=2LΣl=1Llogm(l)cos{(l-12)iπL}---(1)]]>其中m(l)=Σk=o(l)h(l)Wl(k)|Xn(k)|,l=1,2,···,L---(2)]]>Wi(k)=k-o(l)c(l)-o(l)o(l)≤k≤c(l)h(l)-kh(l)-c(l)c(l)≤k≤h(l)---(3)]]>式中,o(l)、c(l)和h(l)分別是1個三角形濾波器的下限、中心和上限頻率。
2)用二分類支持向量機對音頻的Mel尺度倒譜系數(shù)加以判別,得到正常語音和靜音兩類結果。當然也可使用其它分類器,本發(fā)明對此無限制。
2、多點控制單元中短時自適應權重混音方法定義混音權重w[j],首先計算每路聲音在k個數(shù)據(jù)幀中的平均幅度值Avg[j]=1klΣi=0kl-1|data[j,i]|---(4)]]>上式中data[j,i]表示第j路語音的第i個樣本值,字母1代表一個數(shù)據(jù)幀中聲音的樣本數(shù)。然后根據(jù)Avg[j]計算出第j路語音應占有的權重w[j]
w[j]=Avg[j]/Σp=0n-1Avg[j]---(5)]]>然后根據(jù)w[j]對聲音進行混合MixData[i]=Σj=0n-1data[j,i]*w[j]---(6)]]>同聲傳譯方法的實現(xiàn)步驟是定義新的音頻數(shù)據(jù)包頭格式,使具可以表明語種。當MCU建立會議室時,為一個會議室創(chuàng)建n個語種混音器。發(fā)言方開始時表明發(fā)言語種類別,接受方表明接受語種類別,或者對發(fā)言、接受語種進行設置。MCU接受到音頻時判斷該路音頻屬于哪個會議室、語種,并送入相應的混音器。然后MCU根據(jù)接受方的請求分別傳輸混音后數(shù)據(jù)。
圖1是本發(fā)明的模塊結構示意圖;圖2是本發(fā)明的系統(tǒng)流程圖。
具體實施例方式
1、圖1所示為系統(tǒng)模塊的組成框圖,在發(fā)送客戶終端,從輸入設備獲取的視頻和音頻信號,經(jīng)編碼器壓縮后,按照一定格式打包,通過網(wǎng)絡發(fā)送出去;在多點控制單元,多點控制模塊對所有會議提供控制功能,多點處理模塊提供數(shù)據(jù)轉(zhuǎn)發(fā)服務;在接收客戶終端,來自網(wǎng)絡的數(shù)據(jù)包首先被解包,獲得的視頻、音頻壓縮數(shù)據(jù)經(jīng)解碼后送入輸出設備,用戶數(shù)據(jù)和控制數(shù)據(jù)也得到了相應的處理。系統(tǒng)所包含各個功能是視頻編解碼完成對視頻碼流的冗余壓縮編碼,可以通過MPEG4、H.264等實現(xiàn)。
音頻編解碼完成語音信號的靜音檢測和編解碼,并在接收端可選擇地加入緩沖延遲以保證語音的連續(xù)性,可以使用g.723、g729等。
控制單元提供端到端信令,以保證終端的正常通信。定義了請求、應答、信令和指示四種信息,通過各種終端間進行通信能力協(xié)商,打開/關閉邏輯信道,發(fā)送命令或指示等操作,完成對通信的控制。
網(wǎng)絡傳輸層將視頻、音頻、控制等數(shù)據(jù)格式化并發(fā)送,同時從網(wǎng)絡接收數(shù)據(jù)。另外,還負責處理一些諸如邏輯分幀、加序列號、錯誤檢測等功能。
輔助辦公用來實現(xiàn)電子白板、文字聊天、文件傳送等具體操作功能。
圖2描述了本發(fā)明系統(tǒng)中音、視頻的數(shù)據(jù)流流程。音、視頻的特征和序列號等可通過RTP協(xié)議實現(xiàn),發(fā)送時采用TCP或UDP協(xié)議。
2、支持大容量混音的方法實施描述靜音檢測中,Mel尺度倒譜系數(shù)為L=12個,支持向量機的內(nèi)積函數(shù)選用徑向基函數(shù),支持向量機的訓練方法可以采用SMO方法,本發(fā)明對此并無限制。
短時自適應權重混音方法可以設計出高度并行化的計算結構。注意到式(4)中各路音頻的平均幅度值Avg[j]的計算是相互獨立的,因此各路可以并行地計算Avg[j]。而到了混合這一步,各路的計算仍然是相互獨立的,因此同樣適合進行并行計算。程序編寫過程中還可用MMX、SSE、SSE2指令集對程序進行優(yōu)化。實際測試表明,該方法混音效果良好,不產(chǎn)生新的混音噪聲,在音量公平的原則下較好地保留了原各路聲音的細節(jié)。
3、同聲傳譯技術在具體使用時,每個客戶端都可以從多個不同的語種中自由選擇收聽的語種,對于發(fā)言權,需要進行權限設定,對于一般身份的客戶,其發(fā)言的語種只能使用默認的一種語種,只有身份為翻譯或高級的客戶可以選擇發(fā)言的語種為其它的語種。每個客戶端都把本地的音頻壓縮后上傳給MCU,由MCU根據(jù)客戶發(fā)言選擇的語種,分別在不同混音器中解壓后混合起來,然后再根據(jù)客戶收聽所選擇的語種將其所需要的語種再壓縮傳輸下去。對于發(fā)言與收聽處于同一語種的客戶,MCU還需要先將其聲音從混合的聲音中減掉,以避免該客戶聽到自己的聲音。
為了使MCU、客戶端能有效表示和區(qū)別發(fā)送或接收的數(shù)據(jù)報語種類型,定義新的音頻數(shù)據(jù)包頭格式,在數(shù)據(jù)包頭中使用多比特位數(shù)對語種加以定義,一般3個比特就可以滿足8個語種的同時使用。
權利要求
1.一種支持大容量混音的同聲傳譯視頻會議系統(tǒng)及方法,其特征在于它包含(1)支持大容量混音的方法,通過基于Mel尺度倒譜特征與支持向量機靜音檢測方法抑制發(fā)言端靜音的傳送和在多點控制單元混音器中使用短時自適應權重混音方法。(2)同一會議室進行多語種同步混音,定義了新的音頻數(shù)據(jù)包頭格式,及在一個會議室使用多個混音過程。
2.根據(jù)權利1所述的支持大容量混音的同聲傳譯視頻會議系統(tǒng)及方法,其特征在于內(nèi)容(1)中,提出基于Mel尺度倒譜特征與支持向量機靜音檢測方法、短時自適應權重混音方法。
3.根據(jù)權利1所述的支持大容量混音的同聲傳譯視頻會議系統(tǒng)及方法,其特征在于內(nèi)容(2)中,定義了新的音頻數(shù)據(jù)包頭格式,并且在一個會議室使用多個混音過程。
全文摘要
本發(fā)明公開了一種支持大容量混音的同聲傳譯視頻會議系統(tǒng)及方法,提出了基于Mel尺度倒譜特征與支持向量機靜音檢測方法、大容量混音方法和同聲傳譯方法??梢詫崿F(xiàn)更高的靜音檢測率、比其它混音方法更多的混音路數(shù)和在同一會議室進行多語種同步混音。靜音檢測方法以Mel尺度倒譜系數(shù)為語音特征,二分類支持向量機為分類器判斷出靜音和正常語音;混音方法采用語音的短時能量作為權重處理依據(jù);多語種同步混音通過定義新的音頻數(shù)據(jù)包頭格式實現(xiàn)。
文檔編號H04M3/56GK1845573SQ200610040060
公開日2006年10月11日 申請日期2006年4月30日 優(yōu)先權日2006年4月30日
發(fā)明者都思丹, 薛衛(wèi), 周余, 葉迎憲, 劉紅星 申請人:南京大學