面地描述示例實(shí)施方式。然而,示例實(shí)施方式能夠以多種形式實(shí)施,且不應(yīng)被理解為限于在此闡述的實(shí)施方式;相反,提供這些實(shí)施方式使得本發(fā)明將全面和完整,并將示例實(shí)施方式的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。在圖中相同的附圖標(biāo)記表示相同或類似的結(jié)構(gòu),因而將省略對它們的重復(fù)描述。
[0034]參見圖1,圖1示出了根據(jù)本發(fā)明實(shí)施例的視頻會議系統(tǒng)的示意圖。視頻會議系統(tǒng)包括第一攝像機(jī)110、第二攝像機(jī)120、麥克風(fēng)矩陣130、視頻輸出裝置150以及處理裝置140。第一攝像機(jī)110可選地為球形攝像機(jī)。例如,第一攝像機(jī)110可以是PTZ云臺攝像機(jī)。第二攝像機(jī)120可選地為全景攝像機(jī),用于采集視頻會議場所的全景視頻數(shù)據(jù)。麥克風(fēng)矩陣130用于采集視頻會議場所中的音頻以供處理裝置140進(jìn)行音源定位。具體而言,麥克風(fēng)矩陣130中包括多個麥克風(fēng),該多個麥克風(fēng)排列成矩陣形式。麥克風(fēng)矩陣130中的每個麥克風(fēng)接收到同一音源的時間不同,麥克風(fēng)在麥克風(fēng)矩陣130中的位置以及接收到同一音源的時間差可以同來確定音源位置。處理裝置140可以根據(jù)麥克風(fēng)矩陣130采集的音頻及其時間差將音源所在方向的視頻畫面作為會議視頻輸出。
[0035]具體而言,圖1中所示的視頻會議系統(tǒng)中的各個部件可以通過有線或無線的方式進(jìn)行連接。例如,第一攝像機(jī)110和第二攝像機(jī)120通過有線的方式與處理裝置140連接,麥克風(fēng)矩陣130以無線的方式與處理裝置140連接。又例如,第一攝像機(jī)110、第二攝像機(jī)120、麥克風(fēng)矩陣130、視頻輸出裝置150都通過諸如局域網(wǎng)、互聯(lián)網(wǎng)等無線的方式與處理裝置140連接??蛇x地,本發(fā)明提供視頻會議系統(tǒng)配合ITU/T H.239Role management andaddit1nal media channels for H.300-series terminals協(xié)議,或者RFC4582BFCP和RFC4583SDP Format for BFCP Streams等協(xié)議一起使用,以實(shí)現(xiàn)同時顯示第一攝像機(jī)110和第二攝像機(jī)120所采集的視頻數(shù)據(jù)的畫面。以上協(xié)議僅示例性地說明視頻會議系統(tǒng)所使用的協(xié)議,但實(shí)際實(shí)現(xiàn)時并非以此為限。
[0036]本視頻會議系統(tǒng)利用麥克風(fēng)矩陣來實(shí)現(xiàn)音源的定位,并通過處理裝置對第一攝像機(jī)和第二攝像機(jī)的控制來自動定位并跟蹤到當(dāng)前的發(fā)言人,且無需繁瑣的操作,整個功能可自動化實(shí)現(xiàn),無需對會議的使用者進(jìn)行如此那般的教育和指導(dǎo),也無需人工干預(yù),為視頻會議的召開和進(jìn)行帶來了極大的便利,并可為參與會議的各方帶來一種面對面的體驗和感受,可極大的提升視頻會議的整體交互性和體驗度。并在相對小的一個會議環(huán)境中得以更佳的體驗。同時,雙攝像頭的設(shè)計也可為會議的管理和控制帶來更多的靈活性,也同時可有效提升整個會議過程中的交互性。
[0037]處理裝置的結(jié)構(gòu)如圖2所示。處理裝置200包括音源定位模塊203、第一控制模塊201、第一截取模塊202以及合成模塊204。
[0038]音源定位模塊203用于根據(jù)麥克風(fēng)矩陣所采集的音頻確定第一音源以及至少一個第二音源所在方向。具體而言,第一音源為持續(xù)音源,來表示第一發(fā)言人(主發(fā)言人)。當(dāng)音源定位模塊203確定某一音源的音量大于第一閾值,并且大于該第一閾值的持續(xù)時間大于第二閾值,可以將該音源作為第一音源。第二音源為動態(tài)音源,來表示其余發(fā)言人。當(dāng)音源定位模塊203確定某一個或多個音源在第一音源大于第一閾值的持續(xù)時間內(nèi)大于第三閾值,并且第二音源大于第三閾值的持續(xù)時間小于第四閾值時,可以將該一個或多個音源作為第二音源。其中,第三閾值小于第一閾值,第四閾值小于第二閾值。
[0039]具體而言,音源定位模塊203通過各個麥克風(fēng)在麥克風(fēng)矩陣中的位置以及接收到同一音源的時間差可以同來確定音源所在方向。其中,音源所在方向可以用該音源在視頻會議場景中的坐標(biāo)(極坐標(biāo)或直角坐標(biāo))來表示。音源定位模塊203將第一音源及第二音源的音源所在方向發(fā)送給第一控制裝置201及第一截取裝置202。
[0040]第一控制模塊201用于控制第一攝像機(jī)轉(zhuǎn)向第一音源所在方向,并指示第一攝像機(jī)采集第一音源所在方向的第一視頻數(shù)據(jù)。具體而言,第一控制模塊201根據(jù)音源定位模塊203所發(fā)送的第一音源所在方向(例如視頻會議場所中的坐標(biāo)),來控制第一攝像機(jī)轉(zhuǎn)向第一音源所在方向,以獲取包含發(fā)出第一音源的第一發(fā)言人畫面的第一視頻數(shù)據(jù)。所獲得的第一視頻數(shù)據(jù)的畫面可以參見圖5所示的第一視頻數(shù)據(jù)畫面510。
[0041]第一截取模塊202用于獲取第二攝像機(jī)采集的全景視頻數(shù)據(jù),并根據(jù)第二音源所在方向在全景視頻數(shù)據(jù)中截取對應(yīng)于至少一個第二音源所在方向的至少一個第二視頻數(shù)據(jù)。具體而言,第一截取模塊202獲取音源定位模塊203所發(fā)送的第二音源所在方向(例如視頻會議場所中的坐標(biāo)),并將獲取的第二音源所在方向轉(zhuǎn)換為全景視頻數(shù)據(jù)畫面(如圖6所示的全景視頻數(shù)據(jù)畫面520)中對應(yīng)位置,以該對應(yīng)位置為中心截取能夠包括發(fā)出第二音源的其余發(fā)言人的畫面區(qū)域作為第二視頻數(shù)據(jù)(如圖6所示的包括第二發(fā)言人162的第二視頻數(shù)據(jù)畫面530)。當(dāng)有多個第二音源時,第一截取模塊202可截取對應(yīng)于該多個第二音源的多個第二視頻數(shù)據(jù)。
[0042]合成模塊204用于將第一視頻數(shù)據(jù)和至少一個第二視頻數(shù)據(jù)合成到合成畫面中??蛇x地,合成模塊204還用于根據(jù)第二視頻數(shù)據(jù)的數(shù)量將第一視頻數(shù)據(jù)和第二視頻數(shù)據(jù)布局在合成畫面中。例如,將一個或多個第二視頻數(shù)據(jù)嵌入第一視頻數(shù)據(jù)的畫面中(如圖7和圖8所示的合成畫面500)。又例如,將一個或多個第二視頻數(shù)據(jù)畫面分布在第一視頻數(shù)據(jù)畫面的一側(cè)或兩側(cè)(如圖9和圖10所示的合成畫面500)??蛇x地,第一視頻數(shù)據(jù)在合成畫面500中所占比例大于任一個第二視頻數(shù)據(jù)在合成畫面500中所占比例。具體而言,當(dāng)?shù)诙曨l數(shù)據(jù)的數(shù)量發(fā)生變化時,合成模塊204自動切換合成畫面,例如從圖7所示的僅有一個第二視頻數(shù)據(jù)的合成畫面500切換為圖8所示的有兩個第二視頻數(shù)據(jù)的合成畫面500。
[0043]可選地,處理裝置還可以具有更多的模塊,如圖3所示。圖3所示的處理裝置300除了與圖2中相同的音源定位模塊305、第一控制模塊301、第一截取模塊302以及合成模塊304之外,還包括多個模塊。該多個模塊可以部分省略或配合使用來實(shí)現(xiàn)更多的功能。
[0044]可選地,處理裝置300還包括語音識別裝置306。語音識別裝置306用于根據(jù)麥克風(fēng)矩陣所采集的音頻識別來自不同發(fā)言人的第一音源以及至少一個第二音源。具體而言,語音識別裝置306與音源定位模塊305配合使用。語音識別模塊306可以根據(jù)所獲取的音源聲紋來辨別由不同的發(fā)言人所發(fā)出的音源。例如,當(dāng)確定第一音源由第一發(fā)言人發(fā)出后,語音識別模塊306識別第一音源的聲紋,當(dāng)?shù)谝灰粼丛俅纬霈F(xiàn),或其余音源出現(xiàn)時,語音識別模塊306即可識別該音源由第一發(fā)言人發(fā)出或由其余發(fā)言人發(fā)出。同樣地,語音識別模塊306還可以識別第二發(fā)言人、第三發(fā)言人、第四發(fā)言人等的音源。
[0045]可選地,處理裝置300還包括切換模塊307。切換模塊307用于切換視頻輸出。具體而言,當(dāng)語音識別裝置306未識別到第一音源和第二音源(也就是語音識別裝置306未識別到任何發(fā)言人發(fā)言)時,指示處理裝置300輸出由第二攝像機(jī)所采集的全景視頻數(shù)據(jù)(如圖6所示的全景視頻數(shù)據(jù)畫面520)。當(dāng)語音識別裝置306識別到第一音源但未識別到第二音源(也就是語音識別裝置306僅識別到第一發(fā)言人發(fā)言)時,指示處理裝置300輸出由第一攝像機(jī)所采集的第一視頻數(shù)據(jù)(如圖5所示的第一視頻數(shù)據(jù)畫面510)。當(dāng)語音識別裝置306識別到第一音源和至少