一種多畫面視訊會議中的畫面控制方法、設(shè)備及系統(tǒng)的制作方法

文檔序號：7852063閱讀：285來源：國知局

專利名稱：一種多畫面視訊會議中的畫面控制方法、設(shè)備及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及視訊會議領(lǐng)域，尤其是涉及一種多畫面視訊會議中的畫面控制方法、設(shè)備及系統(tǒng)。
背景技術(shù)：
在視訊會議系統(tǒng)中，由于與會會場個數(shù)多，且分布各地，為使與會者能與其他會場與會人員進行面對面的直接交流，在同一時間內(nèi)能看到其他會場的與會人員，普遍采用了多畫面的技術(shù)，與會者通過觀看多畫面，可以同時與多個會場的與會人員進行交流。當前視訊會議系統(tǒng)顯示多畫面的方案為預(yù)先設(shè)定多畫面的模式,如4畫面、9畫面等，然后將固定的幾個會場填入到多畫面的子畫面中，會議時各會場看到的多畫面均為這種預(yù)先設(shè)定的模式。發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)采用現(xiàn)有技術(shù)中這種方案時，子畫面中的會場可能一直未發(fā)言，而其他發(fā)言踴躍的會場卻未在多畫面中顯示，使得視訊會議達不到預(yù)期的效果；此外現(xiàn)有技術(shù)中的多畫面顯示形式固定，無法根據(jù)現(xiàn)場情況進行調(diào)難
iF. O

發(fā)明內(nèi)容
本發(fā)明實施例的目的是提供一種多畫面視訊會議中的畫面控制方法、設(shè)備及系統(tǒng)，以根據(jù)現(xiàn)場各會場的情況實時調(diào)整子畫面從而有效提高會議效果。本發(fā)明實施例公開了一種多畫面視訊會議的畫面控制方法，所述方法包括接收會場的音頻數(shù)據(jù)；根據(jù)所述會場中每個會場的音頻數(shù)據(jù)，實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值，所述語音特征值用于表征會場的激活狀態(tài)；根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場；將所述指定會場的圖像作為子畫面填充到多畫面中，以對所述多畫面進行實時更新。本發(fā)明實施例還公開了一種多畫面視訊會議的畫面控制設(shè)備，所述設(shè)備包括音頻接收單元，用于接收會場的音頻數(shù)據(jù)；語音特征值獲取單元，用于根據(jù)所述會場中每個會場的音頻數(shù)據(jù)，實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值，所述語音特征值用于表征會場的激活狀態(tài)；會場篩選單元，用于根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場；子畫面更新單元，用于將所述指定會場的圖像作為子畫面填充到多畫面中，以對所述多畫面進行實時更新。本發(fā)明實施例還公開了一種多畫面視訊會議的畫面控制系統(tǒng)，所述系統(tǒng)包括上述設(shè)備以及一個或多個會場終端，所述會場終端用于顯示經(jīng)所述設(shè)備控制生成的多畫面。本發(fā)明實施例以時間段為統(tǒng)計單位，通過統(tǒng)計該時間段內(nèi)的一些特征值來判斷某會場是否處于激活狀態(tài)，并作為參與多畫面合成的依據(jù)，從而實現(xiàn)了多畫面中子畫面內(nèi)容的動態(tài)調(diào)整，顯著提高了會議效果，大大改善了與會者的會議體驗。此外，本發(fā)明實施例還可以動態(tài)調(diào)整多畫面中子畫面的個數(shù)及位置，從而也有效的提高了會議效果。

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明一實施例方法的流程圖；圖2是本發(fā)明一實施例中音視頻解碼示意圖；圖3是本發(fā)明一實施例中多畫面等比切分方式示意圖；圖4是本發(fā)明一實施例中多畫面大小子畫面嵌套切分方式示意圖；圖5是本發(fā)明一實施例中多方混音不意圖；圖6是本發(fā)明另一實施例設(shè)備的示意圖；圖7是本發(fā)明再一實施例系統(tǒng)的示意圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。圖I是本發(fā)明一實施例方法的流程圖，所述方法包括SlOl :接收會場的音頻數(shù)據(jù)。所述會場可以是一個或多個。在本實施例中，具體可以是MCU (Multipoint Control Unit,多點控制單元)接收各會場的RTP (實時傳送協(xié)議，Real-time Transport Protocol)碼流，并根據(jù)對應(yīng)的音視頻協(xié)議進行解碼處理，RTP包解碼后輸出為音視頻裸碼流，參見圖2所示，圖2中Site表示會場，Site I碼流解碼后音頻數(shù)據(jù)為AudioData I,視頻數(shù)據(jù)為VideoDatal…Site X碼流解碼后音頻數(shù)據(jù)為AudioDataX，視頻數(shù)據(jù)為VideoData X。S102 :根據(jù)所述會場中每個會場的音頻數(shù)據(jù)，實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值，所述語音特征值用于表征會場的激活狀態(tài)。要選擇哪些會場應(yīng)該進入到多畫面中，首先要有一個評判標準，在本實施例中，這一評判標準就是各個會場的語音特征值。若某一會場的語音特征值滿足某種條件，則該會場就可以看為一個激活會場，或稱活躍會場，就可以作為進入多畫面的一個備選會場了。在本實施例中，可以有多種方式對語音特征值進行定義及評價，下面以舉例的方式進行說明。需要指出的是，在本發(fā)明其他實施例中，同樣還可以有其他多種方式對語音特征值進行定義及評價，對此本發(fā)明實施例不做限制。方式一獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值，并將所述音頻能量值作為所述語音特征值，若所述音頻能量值大于指定的能量閾值，則判定會場處于激活狀態(tài)。優(yōu)選的，獲取音頻能量值可以有以下兩種方法
第一種方法是在所述第一指定時間段內(nèi)選取多個第二指定時間段，在每個第二指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù)，根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第二時間段的音頻能量數(shù)據(jù)，再將所述多個第二指定時間段的音頻能量數(shù)據(jù)的均值作為所述音頻能量值。具體來講，可以以TO (典型的如I分鐘)為第一指定時間段，然后獲取各會場在TO內(nèi)的語音特征值。獲取的步驟是對于一個會場，在TO中選取多個第二指定時間段Tl (如20ms),即以Tl為能量計算子單元，然后在Tl內(nèi)進行采樣獲取該會場的多個音頻能量數(shù)據(jù)，如在一個Tl內(nèi)進行N次采樣，每次采樣獲取的音頻能量數(shù)據(jù)分別為χι、χ2、…xN，則該會場一個Tl的音頻能量數(shù)據(jù)X·可通過以下公式計算
權(quán)利要求
1.一種多畫面視訊會議的畫面控制方法，其特征在于，所述方法包括接收會場的音頻數(shù)據(jù)；根據(jù)所述會場中每個會場的音頻數(shù)據(jù)，實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值，所述語音特征值用于表征會場的激活狀態(tài)；根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場；將所述指定會場的圖像作為子畫面填充到多畫面中，以對所述多畫面進行實時更新。
2.根據(jù)權(quán)利要求I所述的方法，其特征在于，獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值的步驟，具體包括獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值，并將所述音頻能量值作為所述語音特征值，若所述音頻能量值大于指定的能量閾值，則判定會場處于激活狀態(tài)?！?br> 3.根據(jù)權(quán)利要求2所述的方法，其特征在于，獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值的步驟，具體包括在所述第一指定時間段內(nèi)選取多個第二指定時間段，在每個第二指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù)，根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第二時間段的音頻能量數(shù)據(jù)，再將所述多個第二指定時間段的音頻能量數(shù)據(jù)的均值作為所述音頻能量值。
4.根據(jù)權(quán)利要求2所述的方法，其特征在于，獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值的步驟，具體包括在所述第一指定時間段內(nèi)選取多個第二指定時間段，再在每個第二指定時間段內(nèi)選取多個第三指定時間段；在每個第三指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù)，根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第三時間段的音頻能量數(shù)據(jù)；再根據(jù)所述多個第三指定時間段的音頻能量數(shù)據(jù)的均值獲取每個第二指定時間段的音頻能量數(shù)據(jù)；最后將每個第二指定時間段的音頻能量數(shù)據(jù)進行加權(quán)處理后相加，將結(jié)果作為所述音頻能量值；其中所述加權(quán)處理的規(guī)則是距當前時刻越近則權(quán)重越大。
5.根據(jù)權(quán)利要求I所述的方法，其特征在于，獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值的步驟，具體包括統(tǒng)計相應(yīng)會場在所述第一指定時間段內(nèi)處于連續(xù)語音態(tài)的時長，并將所述時長作為語音特征值，若所述時長大于指定的時長閾值，則判定會場處于激活狀態(tài)；或者，獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值和連續(xù)語音態(tài)時長，并將所述音頻能量值和所述時長的組合作為語音特征值，若所述組合滿足指定規(guī)則，則判定會場處于激活狀態(tài)。
6.根據(jù)權(quán)利要求I所述的方法，其特征在于，根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場的步驟，具體包括將當前處于激活狀態(tài)的會場作為指定會場；或者，將上次處于激活狀態(tài)的會場和當前處于激活狀態(tài)的會場都作為指定會場；或者，將當前處于激活狀態(tài)的會場，以及上次處于激活狀態(tài)且語音特征值大于當前處于激活狀態(tài)的會場的語音特征值最小值的會場，作為指定會場。
7.根據(jù)權(quán)利要求I所述的方法，其特征在于，將所述指定會場的圖像作為子畫面填充到多畫面中的步驟，具體包括根據(jù)所述指定會場的數(shù)量，采用等比切分的方式將所述多畫面進行切分，并將所述指定會場按照指定順序填入切分后得到的子畫面中；或者，根據(jù)所述指定會場的數(shù)量，采用大畫面嵌套小畫面的方式將所述多畫面進行切分，并將所述指定會場按照指定順序填入切分后得到的子畫面中。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述指定順序具體為語音特征值較大的會場填入到較大的子畫面中；或者，優(yōu)先填入在所述多畫面中的歷史位置的順序。
9.根據(jù)權(quán)利要求I所述的方法，其特征在于，根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場的步驟之后，還包括從所述激活會場中選擇指定數(shù)量的會場進行多方混音，和/或，按照不向會場輸出本會場聲音的規(guī)則進行多方混音。
10.一種多畫面視訊會議的畫面控制設(shè)備，其特征在于，所述設(shè)備包括音頻接收單元，用于接收會場的音頻數(shù)據(jù)；語音特征值獲取單元，用于根據(jù)所述會場中每個會場的音頻數(shù)據(jù)，實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值，所述語音特征值用于表征會場的激活狀態(tài)；會場篩選單元，用于根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場；子畫面更新單元，用于將所述指定會場的圖像作為子畫面填充到多畫面中，以對所述多畫面進行實時更新。
11.根據(jù)權(quán)利要求10所述的設(shè)備，其特征在于，所述語音特征值獲取單元具體包括音頻能量值獲取子單元，用于獲取相應(yīng)會場在第一指定時間段內(nèi)的音頻能量值，并將所述音頻能量值作為所述語音特征值，若所述音頻能量值大于指定的能量閾值，則判定會場處于激活狀態(tài)；或者，連續(xù)語音態(tài)時長獲取子單元，用于統(tǒng)計相應(yīng)會場在所述第一指定時間段內(nèi)處于連續(xù)語音態(tài)的時長，并將所述時長作為語音特征值，若所述時長大于指定的時長閾值，則判斷會場處于激活狀態(tài)。
12.根據(jù)權(quán)利要求11所述的設(shè)備，其特征在于，所述音頻能量值獲取子單元具體包括第一采樣子單元，用于在所述第一指定時間段內(nèi)選取多個第二指定時間段，在每個第二指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù)；第一計算子單元，用于根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第二時間段的音頻能量數(shù)據(jù)，再將所述多個第二指定時間段的音頻能量數(shù)據(jù)的均值作為所述音頻能量值。
13.根據(jù)權(quán)利要求11所述的設(shè)備，其特征在于，所述音頻能量值獲取子單元具體包括第二采樣子單元，用于在所述第一指定時間段內(nèi)選取多個第二指定時間段，再在每個第二指定時間段內(nèi)選取多個第三指定時間段；在每個第三指定時間段內(nèi)獲取多個樣點音頻能量數(shù)據(jù)；第二計算子單元，用于根據(jù)所述多個樣點音頻能量數(shù)據(jù)的均方根值獲取第三時間段的音頻能量數(shù)據(jù)；再根據(jù)所述多個第三指定時間段的音頻能量數(shù)據(jù)的均值獲取每個第二指定時間段的音頻能量數(shù)據(jù)；加權(quán)處理子單元，用于將每個第二指定時間段的音頻能量數(shù)據(jù)進行加權(quán)處理后相加，將結(jié)果作為所述音頻能量值；其中所述加權(quán)處理的規(guī)則是距當前時刻越近則權(quán)重越大。
14.一種多畫面視訊會議的畫面控制系統(tǒng)，其特征在于，所述系統(tǒng)包括權(quán)利要求1(Γ13任一項所述的設(shè)備以及一個或多個會場終端，所述會場終端用于顯示經(jīng)所述設(shè)備控制生成的多畫面。
全文摘要
本發(fā)明實施例公開了一種多畫面視訊會議的畫面控制方法、設(shè)備及系統(tǒng)，所述方法包括接收會場的音頻數(shù)據(jù)；根據(jù)所述會場中每個會場的音頻數(shù)據(jù)，實時獲取相應(yīng)會場在第一指定時間段內(nèi)的語音特征值，所述語音特征值用于表征會場的激活狀態(tài)；根據(jù)各個會場的激活狀態(tài)從所述多個會場中選擇指定會場；將所述指定會場的圖像作為子畫面填充到多畫面中，以對所述多畫面進行實時更新。通過統(tǒng)計時間段內(nèi)的特征值來判斷某會場是否處于激活狀態(tài)，并作為參與多畫面合成的依據(jù)，實現(xiàn)了多畫面中子畫面內(nèi)容的動態(tài)調(diào)整，顯著提高了會議效果，改善了與會者的會議體驗。此外還可以動態(tài)調(diào)整多畫面中子畫面的個數(shù)及位置，從而也有效的提高了會議效果。
文檔編號H04N7/15GK102857732SQ20121016663
公開日2013年1月2日申請日期2012年5月25日優(yōu)先權(quán)日2012年5月25日
發(fā)明者詹五洲, 韋海斌, 吳姣黎申請人:華為技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：詹五洲;韋海斌;吳姣黎
技術(shù)所有人：華為技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>