專利名稱:一種多畫面視訊會議中的畫面控制方法、設(shè)備及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視訊會議領(lǐng)域,尤其是涉及一種多畫面視訊會議中的畫面控制方法、設(shè)備及系統(tǒng)。
背景技術(shù):
在視訊會議系統(tǒng)中,由于與會會場個數(shù)多,且分布各地,為使與會者能與其他會場與會人員進行面對面的直接交流,在同一時間內(nèi)能看到其他會場的與會人員,普遍采用了多畫面的技術(shù),與會者通過觀看多畫面,可以同時與多個會場的與會人員進行交流。當前視訊會議系統(tǒng)顯示多畫面的方案為預(yù)先設(shè)定多畫面的模式,如4畫面、9畫面等,然后將固定的幾個會場填入到多畫面的子畫面中,會議時各會場看到的多畫面均為這種預(yù)先設(shè)定的模式。發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)采用現(xiàn)有技術(shù)中這種方案時,子畫面中的會場可能一直未發(fā)言,而其他發(fā)言踴躍的會場卻未在多畫面中顯示,使得視訊會 議達不到預(yù)期的效果;此外現(xiàn)有技術(shù)中的多畫面顯示形式固定,無法根據(jù)現(xiàn)場情況進行調(diào)難
iF. O
發(fā)明內(nèi)容
本發(fā)明實施例的目的是提供一種多畫面視訊會議中的畫面控制方法、設(shè)備及系統(tǒng),以根據(jù)現(xiàn)場各會場的情況實時調(diào)整子畫面從而有效提高會議效果。本發(fā)明實施例公開了一種多畫面視訊會議的畫面控制方法,所述方法包括接收會場的音頻數(shù)據(jù);根據(jù)所述會場中每個會場的音頻數(shù)據(jù),實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值,所述語音特征值用于表征會場的激活狀態(tài);根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場;將所述指定會場的圖像作為子畫面填充到多畫面中,以對所述多畫面進行實時更新。本發(fā)明實施例還公開了一種多畫面視訊會議的畫面控制設(shè)備,所述設(shè)備包括音頻接收單元,用于接收會場的音頻數(shù)據(jù);語音特征值獲取單元,用于根據(jù)所述會場中每個會場的音頻數(shù)據(jù),實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值,所述語音特征值用于表征會場的激活狀態(tài);會場篩選單元,用于根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場;子畫面更新單元,用于將所述指定會場的圖像作為子畫面填充到多畫面中,以對所述多畫面進行實時更新。本發(fā)明實施例還公開了一種多畫面視訊會議的畫面控制系統(tǒng),所述系統(tǒng)包括上述設(shè)備以及一個或多個會場終端,所述會場終端用于顯示經(jīng)所述設(shè)備控制生成的多畫面。本發(fā)明實施例以時間段為統(tǒng)計單位,通過統(tǒng)計該時間段內(nèi)的一些特征值來判斷某會場是否處于激活狀態(tài),并作為參與多畫面合成的依據(jù),從而實現(xiàn)了多畫面中子畫面內(nèi)容的動態(tài)調(diào)整,顯著提高了會議效果,大大改善了與會者的會議體驗。此外,本發(fā)明實施例還可以動態(tài)調(diào)整多畫面中子畫面的個數(shù)及位置,從而也有效的提高了會議效果。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明一實施例方法的流程圖;圖2是本發(fā)明一實施例中音視頻解碼示意圖;圖3是本發(fā)明一實施例中多畫面等比切分方式示意圖; 圖4是本發(fā)明一實施例中多畫面大小子畫面嵌套切分方式示意圖;圖5是本發(fā)明一實施例中多方混音不意圖;圖6是本發(fā)明另一實施例設(shè)備的示意圖;圖7是本發(fā)明再一實施例系統(tǒng)的示意圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖I是本發(fā)明一實施例方法的流程圖,所述方法包括SlOl :接收會場的音頻數(shù)據(jù)。所述會場可以是一個或多個。在本實施例中,具體可以是MCU (Multipoint Control Unit,多點控制單元)接收各會場的RTP (實時傳送協(xié)議,Real-time Transport Protocol)碼流,并根據(jù)對應(yīng)的音視頻協(xié)議進行解碼處理,RTP包解碼后輸出為音視頻裸碼流,參見圖2所示,圖2中Site表示會場,Site I碼流解碼后音頻數(shù)據(jù)為AudioData I,視頻數(shù)據(jù)為VideoDatal…Site X碼流解碼后音頻數(shù)據(jù)為AudioDataX,視頻數(shù)據(jù)為VideoData X。S102 :根據(jù)所述會場中每個會場的音頻數(shù)據(jù),實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值,所述語音特征值用于表征會場的激活狀態(tài)。要選擇哪些會場應(yīng)該進入到多畫面中,首先要有一個評判標準,在本實施例中,這一評判標準就是各個會場的語音特征值。若某一會場的語音特征值滿足某種條件,則該會場就可以看為一個激活會場,或稱活躍會場,就可以作為進入多畫面的一個備選會場了。在本實施例中,可以有多種方式對語音特征值進行定義及評價,下面以舉例的方式進行說明。需要指出的是,在本發(fā)明其他實施例中,同樣還可以有其他多種方式對語音特征值進行定義及評價,對此本發(fā)明實施例不做限制。方式一獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值,并將所述音頻能量值作為所述語音特征值,若所述音頻能量值大于指定的能量閾值,則判定會場處于激活狀態(tài)。優(yōu)選的,獲取音頻能量值可以有以下兩種方法
第一種方法是在所述第一指定時間段內(nèi)選取多個第二指定時間段,在每個第二指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù),根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第二時間段的音頻能量數(shù)據(jù),再將所述多個第二指定時間段的音頻能量數(shù)據(jù)的均值作為所述音頻能量值。具體來講,可以以TO (典型的如I分鐘)為第一指定時間段,然后獲取各會場在TO內(nèi)的語音特征值。獲取的步驟是對于一個會場,在TO中選取多個第二指定時間段Tl (如20ms),即以Tl為能量計算子單元,然后在Tl內(nèi)進行采樣獲取該會場的多個音頻能量數(shù)據(jù),如在一個Tl內(nèi)進行N次采樣,每次采樣獲取的音頻能量數(shù)據(jù)分別為χι、χ2、…xN,則該會場一個Tl的音頻能量數(shù)據(jù)X·可通過以下公式計算
權(quán)利要求
1.一種多畫面視訊會議的畫面控制方法,其特征在于,所述方法包括 接收會場的音頻數(shù)據(jù); 根據(jù)所述會場中每個會場的音頻數(shù)據(jù),實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值,所述語音特征值用于表征會場的激活狀態(tài); 根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場; 將所述指定會場的圖像作為子畫面填充到多畫面中,以對所述多畫面進行實時更新。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值的步驟,具體包括 獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值,并將所述音頻能量值作為所述語音特征值,若所述音頻能量值大于指定的能量閾值,則判定會場處于激活狀態(tài)?!?br>
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值的步驟,具體包括 在所述第一指定時間段內(nèi)選取多個第二指定時間段,在每個第二指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù),根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第二時間段的音頻能量數(shù)據(jù),再將所述多個第二指定時間段的音頻能量數(shù)據(jù)的均值作為所述音頻能量值。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值的步驟,具體包括 在所述第一指定時間段內(nèi)選取多個第二指定時間段,再在每個第二指定時間段內(nèi)選取多個第三指定時間段;在每個第三指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù),根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第三時間段的音頻能量數(shù)據(jù);再根據(jù)所述多個第三指定時間段的音頻能量數(shù)據(jù)的均值獲取每個第二指定時間段的音頻能量數(shù)據(jù);最后將每個第二指定時間段的音頻能量數(shù)據(jù)進行加權(quán)處理后相加,將結(jié)果作為所述音頻能量值;其中所述加權(quán)處理的規(guī)則是距當前時刻越近則權(quán)重越大。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值的步驟,具體包括 統(tǒng)計相應(yīng)會場在所述第一指定時間段內(nèi)處于連續(xù)語音態(tài)的時長,并將所述時長作為語音特征值,若所述時長大于指定的時長閾值,則判定會場處于激活狀態(tài);或者, 獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值和連續(xù)語音態(tài)時長,并將所述音頻能量值和所述時長的組合作為語音特征值,若所述組合滿足指定規(guī)則,則判定會場處于激活狀態(tài)。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場的步驟,具體包括 將當前處于激活狀態(tài)的會場作為指定會場;或者, 將上次處于激活狀態(tài)的會場和當前處于激活狀態(tài)的會場都作為指定會場;或者, 將當前處于激活狀態(tài)的會場,以及上次處于激活狀態(tài)且語音特征值大于當前處于激活狀態(tài)的會場的語音特征值最小值的會場,作為指定會場。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,將所述指定會場的圖像作為子畫面填充到多畫面中的步驟,具體包括 根據(jù)所述指定會場的數(shù)量,采用等比切分的方式將所述多畫面進行切分,并將所述指定會場按照指定順序填入切分后得到的子畫面中;或者, 根據(jù)所述指定會場的數(shù)量,采用大畫面嵌套小畫面的方式將所述多畫面進行切分,并將所述指定會場按照指定順序填入切分后得到的子畫面中。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述指定順序具體為 語音特征值較大的會場填入到較大的子畫面中;或者, 優(yōu)先填入在所述多畫面中的歷史位置的順序。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場的步驟之后,還包括 從所述激活會場中選擇指定數(shù)量的會場進行多方混音,和/或,按照不向會場輸出本會場聲音的規(guī)則進行多方混音。
10.一種多畫面視訊會議的畫面控制設(shè)備,其特征在于,所述設(shè)備包括 音頻接收單元,用于接收會場的音頻數(shù)據(jù); 語音特征值獲取單元,用于根據(jù)所述會場中每個會場的音頻數(shù)據(jù),實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值,所述語音特征值用于表征會場的激活狀態(tài); 會場篩選單元,用于根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場; 子畫面更新單元,用于將所述指定會場的圖像作為子畫面填充到多畫面中,以對所述多畫面進行實時更新。
11.根據(jù)權(quán)利要求10所述的設(shè)備,其特征在于,所述語音特征值獲取單元具體包括 音頻能量值獲取子單元,用于獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值,并將所述音頻能量值作為所述語音特征值,若所述音頻能量值大于指定的能量閾值,則判定會場處于激活狀態(tài);或者, 連續(xù)語音態(tài)時長獲取子單元,用于統(tǒng)計相應(yīng)會場在所述第一指定時間段內(nèi)處于連續(xù)語音態(tài)的時長,并將所述時長作為語音特征值,若所述時長大于指定的時長閾值,則判斷會場處于激活狀態(tài)。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其特征在于,所述音頻能量值獲取子單元具體包括 第一采樣子單元,用于在所述第一指定時間段內(nèi)選取多個第二指定時間段,在每個第二指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù); 第一計算子單元,用于根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第二時間段的音頻能量數(shù)據(jù),再將所述多個第二指定時間段的音頻能量數(shù)據(jù)的均值作為所述音頻能量值。
13.根據(jù)權(quán)利要求11所述的設(shè)備,其特征在于,所述音頻能量值獲取子單元具體包括 第二采樣子單元,用于在所述第一指定時間段內(nèi)選取多個第二指定時間段,再在每個第二指定時間段內(nèi)選取多個第三指定時間段;在每個第三指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù); 第二計算子單元,用于根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第三時間段的音頻能量數(shù)據(jù);再根據(jù)所述多個第三指定時間段的音頻能量數(shù)據(jù)的均值獲取每個第二指定時間段的音頻能量數(shù)據(jù); 加權(quán)處理子單元,用于將每個第二指定時間段的音頻能量數(shù)據(jù)進行加權(quán)處理后相加,將結(jié)果作為所述音頻能量值;其中所述加權(quán)處理的規(guī)則是距當前時刻越近則權(quán)重越大。
14.一種多畫面視訊會議的畫面控制系統(tǒng),其特征在于,所述系統(tǒng)包括權(quán)利要求1(Γ13任一項所述的設(shè)備以及一個或多個會場終端,所述會場終端用于顯示經(jīng)所述設(shè)備控制生成的多畫面。
全文摘要
本發(fā)明實施例公開了一種多畫面視訊會議的畫面控制方法、設(shè)備及系統(tǒng),所述方法包括接收會場的音頻數(shù)據(jù);根據(jù)所述會場中每個會場的音頻數(shù)據(jù),實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值,所述語音特征值用于表征會場的激活狀態(tài);根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場;將所述指定會場的圖像作為子畫面填充到多畫面中,以對所述多畫面進行實時更新。通過統(tǒng)計時間段內(nèi)的特征值來判斷某會場是否處于激活狀態(tài),并作為參與多畫面合成的依據(jù),實現(xiàn)了多畫面中子畫面內(nèi)容的動態(tài)調(diào)整,顯著提高了會議效果,改善了與會者的會議體驗。此外還可以動態(tài)調(diào)整多畫面中子畫面的個數(shù)及位置,從而也有效的提高了會議效果。
文檔編號H04N7/15GK102857732SQ20121016663
公開日2013年1月2日 申請日期2012年5月25日 優(yōu)先權(quán)日2012年5月25日
發(fā)明者詹五洲, 韋海斌, 吳姣黎 申請人:華為技術(shù)有限公司