專利名稱:一種視頻會(huì)議中顯示純語音終端圖像的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體通信領(lǐng)域,特別是涉及一種視頻會(huì)議中顯示純語音終端圖像的 方法。
背景技術(shù):
視頻會(huì)議中,終端一般都是支持視頻的終端,但在特定的情況下,也可能存在不支 持視頻的純語音終端,比如IP電話,或者PSTN電話,或者移動(dòng)的手機(jī)等等。這些終端加入 視頻會(huì)議時(shí)只能聞其聲,而不能觀其形,對視頻會(huì)議的直觀性有較大的損傷。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種視頻會(huì)議中顯示純語音終端圖像的方法,可將純語音 終端的個(gè)人圖像顯示在視頻會(huì)議系統(tǒng)中其他終端。為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下一種視頻會(huì)議中顯示純語音終端圖像的方法,包括如下步驟(1)在MCU上建立與會(huì)語音終端庫;(2)MCU按照預(yù)定規(guī)則找到所述語音終端使用者的人臉圖像碼流;(3)MCU根據(jù)當(dāng)前會(huì)議的協(xié)議支持情況,將對應(yīng)的一樣的協(xié)議人臉圖像碼流和音頻 流一起發(fā)送到各個(gè)終端;(4)所述各個(gè)終端接收到所述人臉圖像碼流和音頻碼流,進(jìn)行解碼后在顯示設(shè)備 與聲音播放設(shè)備上顯示與播放。所述與會(huì)語音終端庫中的每條記錄主要包括所述語音終端的E. 164號碼,IP地 址,對應(yīng)的語音終端使用者的人臉圖像碼流,和/或?qū)?yīng)的語音終端使用者的聲音錄音。所述人臉圖像碼流支持H264、H263等常用協(xié)議,可配置支持多種,例如CIF、或 4CIF、或720P、或1080P的圖像格式。步驟(2)中,所述預(yù)定規(guī)則是根據(jù)語音終端E. 164號碼以及IP地址查找到本語音 終端使用者的人臉圖像碼流,或根據(jù)語音終端庫中聲音通過語音分析算法實(shí)現(xiàn)和實(shí)際聲音 的匹配,找到本語音終端使用者的人臉圖像碼流。語音分析算法通過會(huì)議中的語音終端語音與語音終端數(shù)據(jù)庫中的語音進(jìn)行語音 參數(shù)分析,識別出匹配的語音,從而得到使用者的人臉圖像碼流。語音參數(shù)包括語音基頻頻 譜、聲門激勵(lì)數(shù)值、聲道形狀數(shù)值,不同的語音具有不同的語音參數(shù)數(shù)值,通過對語音頻譜 等語音參數(shù)的分析實(shí)現(xiàn)語音識別。采用本發(fā)明的視頻會(huì)議中顯示純語音終端圖像的方法,使純音頻終端加入視頻會(huì) 議可以讓其他終端看到此音頻終端的圖像,使會(huì)議效果得到質(zhì)的提升。并且,無論是PSTN 音頻、移動(dòng)電話、IP語音電話都可以使用本發(fā)明實(shí)現(xiàn)音頻終端帶圖像入會(huì),具有普遍實(shí)用價(jià)值。
圖1是本發(fā)明視頻會(huì)議中顯示純語音終端圖像的方法的流程圖;圖2音頻終端數(shù)據(jù)庫建立過程的流程圖;圖3音頻終端人臉圖像匹配過程的流程圖;圖4MCU人臉圖像碼流發(fā)送過程的流程圖。
具體實(shí)施例方式為便于理解視頻會(huì)議是如何工作的,先簡要介紹視頻會(huì)議的組成。視頻會(huì)議主要 由三部分關(guān)鍵設(shè)備組成第一部分是外圍設(shè)備,又分為采集與顯示設(shè)備,比如攝像頭、MIC 就是屬于采集設(shè)備,而顯示器或者電視機(jī)就是屬于顯示設(shè)備;第二部分是視頻終端設(shè)備, 主要的功能是視頻壓縮解壓縮與信令呼叫處理,視頻終端放置在各個(gè)會(huì)場,純語音的IP電 話、PSTN電話等也可以歸于這類設(shè)備;第三部分是中心處理設(shè)備,稱為MCU,多點(diǎn)控制單元, 這類設(shè)備放置在系統(tǒng)中心位置,用于調(diào)度與控制會(huì)議、轉(zhuǎn)換碼流、形成多畫面等。對于每個(gè) 加入視頻會(huì)議的終端,都有唯一分配的一個(gè)號碼,稱為E164號碼。參考附圖1-4,本發(fā)明的技術(shù)方案如下步驟(1)在MCU上建立與會(huì)語音終端庫,庫中的每條記錄主要包括此語音終端的 E. 164號碼,IP地址(無IP地址則全0表示),對應(yīng)語音終端使用者的人臉圖像碼流,該人 臉圖像可配置支持多種大小,包括CIF、4CIF、720P、1080P等格式,碼流協(xié)議支持H264、H263 等常用協(xié)議,以及對應(yīng)語音終端使用者聲音錄音,可根據(jù)要求配置錄音時(shí)間,一般在5到10 秒即可。其中,建立音頻終端數(shù)據(jù)庫建立過程如圖2所示,首先,設(shè)置E. 164號碼,設(shè)置IP 地址,然后設(shè)置聲音錄音,錄入人頭圖像格式,MCU根據(jù)當(dāng)前會(huì)議終端的協(xié)議,如H264,或 H263,壓縮可支持的頭像碼流。步驟(2),MCU按照預(yù)定規(guī)則找到所述語音終端使用者的人臉圖像碼流;MCU實(shí)現(xiàn) 下面兩種算法或者其中一種(1)根據(jù)語音終端E. 164號碼以及IP地址查找到本語音終端 使用者的人臉圖像碼流。(2)根據(jù)語音終端庫中聲音通過聲音分析算法實(shí)現(xiàn)和實(shí)際聲音的 匹配,找到本語音終端使用者的人臉圖像碼流。其中,MCU根據(jù)音頻終端人臉圖像匹配過程,如圖3所示。MCU開啟會(huì)議,設(shè)置發(fā)言 人,當(dāng)發(fā)言人是純音頻終端時(shí),根據(jù)步驟(1)中的數(shù)據(jù)庫進(jìn)行音頻終端匹配,MCU支持聲音 匹配算法,然后聲音算法匹配終端人臉圖像,最后人臉圖像匹配成功。或者,MCU支持E164號碼匹配算法,然后E164號碼算法匹配終端人臉圖像。其他 步驟與聲音算法匹配過程均相同。步驟(3),MCU找到對應(yīng)的人臉圖像碼流后,當(dāng)發(fā)言人是次語音終端時(shí),MCU根據(jù) 當(dāng)前會(huì)議的協(xié)議支持情況,將對應(yīng)的一樣的協(xié)議人臉圖像碼流和音頻流一起發(fā)送到各個(gè)終端。最后,步驟(4)所述各個(gè)終端接收到所述人臉圖像碼流和音頻碼流,進(jìn)行解碼后 在顯示設(shè)備與聲音播放設(shè)備上顯示與播放。圖4所示的是圖4MCU人臉圖像碼流發(fā)送過程,當(dāng)步驟(2)的人臉圖像匹配成功 會(huì),如會(huì)議支持H264協(xié)議,則MCU從數(shù)據(jù)庫中讀取H264碼流,將該H264頭像碼流發(fā)送至支持H264的會(huì)議終端。如會(huì)議支持的協(xié)議是H263或其他協(xié)議,則相應(yīng)的MCU從數(shù)據(jù)庫中讀取MCU從數(shù)據(jù) 庫中讀取H263或其他協(xié)議碼流,將該H264或其他協(xié)議頭像碼流發(fā)送至支持H264的會(huì)議終端。本發(fā)明的主要優(yōu)點(diǎn)與效益是(1)使純音頻終端加入視頻會(huì)議可以讓其他終端看到此音頻終端的圖像,使會(huì)議 效果得到質(zhì)的提升。(2)無論是PSTN音頻、移動(dòng)電話、IP語音電話都可以使用本發(fā)明實(shí)現(xiàn)音頻終端帶 圖像入會(huì),具有普遍實(shí)用價(jià)值。前面提供了對較佳實(shí)施例的描述,以使本領(lǐng)域內(nèi)的任何技術(shù)人員可使用或利用本 發(fā)明。對該較佳實(shí)施例,本領(lǐng)域內(nèi)的技術(shù)人員在不脫離本發(fā)明原理的基礎(chǔ)上,可以作出各種 修改或者變換。應(yīng)當(dāng)理解,說明書中所舉的實(shí)施例僅是一種較佳實(shí)施例,對該實(shí)施例做出的 修改或者變換都不脫離本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種視頻會(huì)議中顯示純語音終端圖像的方法,其特征在于,包括如下步驟(1)在MCU上建立與會(huì)語音終端庫;(2)MCU按照預(yù)定規(guī)則識別所述語音終端使用者的人臉圖像特定碼流,或者說通過預(yù)定規(guī)則關(guān)聯(lián)到使用者的人臉圖像特定碼流;(3)MCU根據(jù)當(dāng)前會(huì)議的協(xié)議支持情況,將對應(yīng)的一樣的協(xié)議人臉圖像碼流和音頻流一起發(fā)送到各個(gè)終端;(4)所述各個(gè)終端接收到所述人臉圖像碼流和音頻碼流,進(jìn)行解碼后在顯示設(shè)備與聲音播放設(shè)備上顯示與播放。
2.根據(jù)權(quán)利要求1所述的視頻會(huì)議中顯示純語音終端圖像的方法,其特征在于,所述 與會(huì)語音終端庫中的每條記錄主要包括所述語音終端的E. 164號碼,IP地址,對應(yīng)的語音 終端使用者的人臉圖像碼流,和/或?qū)?yīng)的語音終端使用者的聲音錄音。
3.根據(jù)權(quán)利要求2所述的視頻會(huì)議中顯示純語音終端圖像的方法,其特征在于,所述 人臉圖像碼流支持H264、H263等常用協(xié)議。
4.根據(jù)權(quán)利要求2所述的視頻會(huì)議中顯示純語音終端圖像的方法,其特征在于,所述 人臉圖像可配置支持多種圖像格式。
5.根據(jù)權(quán)利要求4所述的視頻會(huì)議中顯示純語音終端圖像的方法,其特征在于,所述 圖像格式包括CIF、或4CIF、或720P、或1080P。
6.根據(jù)權(quán)利要求2-5中任一項(xiàng)所述的視頻會(huì)議中顯示純語音終端圖像的方法,其特征 在于,步驟(2)中,所述預(yù)定規(guī)則是根據(jù)語音終端E. 164號碼以及IP地址查找到本語音終 端使用者的人臉圖像碼流。
7.根據(jù)權(quán)利要求2所述的視頻會(huì)議中顯示純語音終端圖像的方法,其特征在于,所述 聲音錄音為5至10秒。
8.根據(jù)權(quán)利要求2或7所述的視頻會(huì)議中顯示純語音終端圖像的方法,其特征在于,步 驟(2)中,所述預(yù)定規(guī)則是根據(jù)語音終端庫中聲音通過語音分析算法實(shí)現(xiàn)和實(shí)際聲音的匹 配,找到本語音終端使用者的人臉圖像碼流。
全文摘要
本發(fā)明涉及一種視頻會(huì)議中顯示純語音終端圖像的方法,包括如下步驟(1)在MCU上建立與會(huì)語音終端庫;(2)MCU按照預(yù)定規(guī)則找到所述語音終端使用者的人臉圖像碼流;(3)MCU根據(jù)當(dāng)前會(huì)議的協(xié)議支持情況,將對應(yīng)的一樣的協(xié)議人臉圖像碼流和音頻流一起發(fā)送到各個(gè)終端;(4)所述各個(gè)終端接收到所述人臉圖像碼流和音頻碼流,進(jìn)行解碼后在顯示設(shè)備與聲音播放設(shè)備上顯示與播放。本發(fā)明的視頻會(huì)議中顯示純語音終端圖像的方法,使純音頻終端加入視頻會(huì)議可以讓其他終端看到此音頻終端的圖像,會(huì)議效果得到質(zhì)的提升,且具有普遍實(shí)用價(jià)值。
文檔編號H04L29/06GK101895717SQ20101021344
公開日2010年11月24日 申請日期2010年6月29日 優(yōu)先權(quán)日2010年6月29日
發(fā)明者羅奇勇 申請人:上海紫南信息技術(shù)有限公司