本發(fā)明涉及網(wǎng)絡(luò)直播技術(shù)領(lǐng)域,尤其涉及一種多攝像頭直播方法及系統(tǒng)。
背景技術(shù):
隨著高速有線及無線IP網(wǎng)絡(luò),大容量數(shù)據(jù)存儲,數(shù)字視頻壓縮以及大規(guī)模計(jì)算等技術(shù)的迅猛發(fā)展,基于各類的視頻傳感器,我們的視覺觸角已經(jīng)被不斷延伸到更大的廣度和深度。同時(shí),伴隨著社交網(wǎng)絡(luò)的不斷發(fā)展,人們對可攫取的信息的豐富性的要求日益高漲。因此,富媒體應(yīng)運(yùn)而生。而人們對現(xiàn)場實(shí)時(shí)視頻信息的需求愈發(fā)突出,視頻直播迅速成為最直接最受歡迎的一種富媒體方式。直播通常是指在事件發(fā)生的現(xiàn)場同步采集、制作、發(fā)布視頻(通常包括音頻)信息的方式。從傳播的本質(zhì)而言,視頻在人與人交互方面具有天然的優(yōu)勢,形態(tài)更豐富、信息更多元,能承載更為豐富的情感。直播的內(nèi)容非常碎片化,打開電腦或手機(jī)的直播平臺,隨時(shí)有各種各樣的直播場景供人們選擇觀看。視頻直播真正做到去中心化,讓任何人都能自由地表達(dá)自己。直播視頻是人與人并連接最有效途徑之一,在傳達(dá)更豐富情感的同時(shí),讓溝通更有效率。由于延遲短,不確定因素會(huì)影響劇情發(fā)展,大大滿足了人們的獵奇心理,這也是直播吸引觀眾的魅力之一。
2016年視頻直播已全面移動(dòng)化和泛娛樂化。,視頻直播全面注入社交基因,運(yùn)用社交關(guān)系或粉絲關(guān)系來進(jìn)行直播已然將直播全面推向大眾。其所營造的更新鮮化、生活化、多元化的直播場景,契合全民娛樂審美提升的發(fā)展趨勢,受到了眾多90后、00后用戶追捧,爆發(fā)已經(jīng)勢不可擋。由騰訊視頻制作的網(wǎng)絡(luò)真人秀節(jié)目《我們15個(gè)》,15個(gè)職業(yè)迥異、年齡分布在20~60歲之間的普通人,在120臺高清攝像機(jī)、360度全景鏡頭、80個(gè)麥克風(fēng)的環(huán)繞下,共同生存一年——這一切,網(wǎng)民都可以通過手機(jī)24小時(shí)觀看。沒有劇本、沒有預(yù)計(jì)、沒有死角。節(jié)目從6月23日開播至7月31日的收視數(shù)據(jù):總收視量3.8億人次,日均收視996萬人次,人均觀看91分鐘。網(wǎng)友們一共發(fā)了1000萬條“彈幕”,平均下來每分鐘都有232條。易觀發(fā)布的《中國秀場娛樂市場專題研究報(bào)告2016》顯示,移動(dòng)互聯(lián)網(wǎng)催生泛生活類直播,其中,秀場娛樂市場在2016年有望達(dá)100億元。而根據(jù)華創(chuàng)證券預(yù)估,2020年直播行業(yè)市場規(guī)模將由2015年的120億增長到1060億。
人類史上最早的娛樂節(jié)目直播發(fā)生在1938年。當(dāng)時(shí),BBC僅僅讓參賽者拼命拼寫單詞,完成了《拼寫蜜蜂》的直播。近80年過去,如今任何人只要有一根網(wǎng)線,就可以完成一場直播,網(wǎng)絡(luò)上有大批美女主播因此誕生。從技術(shù)上講,直播并不存在任何難度。真正的難處是現(xiàn)場的調(diào)度、切播與時(shí)間控制。
當(dāng)前主流直播軟件的直播模式為一個(gè)主播進(jìn)行直播,多個(gè)觀眾在該主播的直播間觀看直播的方式。但是,目前這種秀場類的直播往往局限于單一直播場景,要么是直接置于電腦處的單一USB攝像頭,要么即便是多個(gè)攝像頭也是單一物理房間內(nèi)聚焦于一點(diǎn)的多角度攝像頭。[1]提出了一種將針對單一直播場景多方位的攝像頭多路輸出視頻在遠(yuǎn)程進(jìn)行同步播放的方式,主要通過在每一視頻中疊加時(shí)間戳并在遠(yuǎn)程緩沖數(shù)據(jù)以求得時(shí)間戳同步的方式。[2]制作了一種硬件盒子,通過它可以基于紅外監(jiān)測控制直播攝像頭的啟停,從而保護(hù)主播的隱私(當(dāng)離開直播范圍時(shí)),并可以將攝像頭的開關(guān)狀態(tài)通過指示燈和聲音直觀展示給主播。[3]實(shí)現(xiàn)了一種把多個(gè)直播源整合到單一視頻流的方法。為了減少硬件投入和安裝麻煩,通過自動(dòng)視頻內(nèi)容偵測技術(shù),[4]提出了一種用分別面向教師和學(xué)生的雙攝像頭方式來取代傳統(tǒng)的五攝像頭安裝方式的方法。[5]通過在所關(guān)注直播場景的多個(gè)角度架設(shè)攝像頭的方式,基于視頻拼接技術(shù),實(shí)現(xiàn)了對直播場景的全景式直播。[6]則實(shí)現(xiàn)了一種雙主播模式下在兩個(gè)主播的直播間之間進(jìn)行快速切換的方式。
目前的這種單直播場景的直播方式已經(jīng)大大限制了主播的表演空間和呈現(xiàn)內(nèi)容(如圖1所示)。而[4]提出的方式僅僅局限于教學(xué)這一單一形式,[6]則只考慮了兩個(gè)單空間的切換問題。其實(shí)更好的方式是類似真人秀的基于多空間多方位攝像頭的方式,也即本發(fā)明提出的多位攝像頭的方式,這里的多位包含三個(gè)含義:1.多攝像頭:整個(gè)系統(tǒng)包含至少兩個(gè)或兩個(gè)以上的攝像頭;2.多位置:這些攝像頭處于多個(gè)離散的位置,比如在兩個(gè)不同的房間內(nèi);3.多方位:這些攝像頭的朝向是可以完全不受任何因素影響的,比如不像[4]和[5]需要特別針對技術(shù)方案需要精心設(shè)計(jì)。如圖2所示,主播應(yīng)該可以在多處自由活動(dòng),攝像頭的安裝主要是為了獲得盡量無死角的覆蓋,而不應(yīng)該是為了后續(xù)的技術(shù)解決方法(比如全景重建)考慮。
當(dāng)然,實(shí)現(xiàn)這種類似電視真人秀的直播方式,有一個(gè)最大的問題就是必須需要一個(gè)導(dǎo)播來遷移視頻觀眾的注意重心。否則如果需要觀眾時(shí)刻面對如圖2所示的所有7個(gè)攝像頭的話,一是會(huì)很快失去興趣(因?yàn)橐话阒挥幸粋€(gè)有主播而其它的基本是靜止畫面),二是會(huì)浪費(fèi)大量的帶寬(僅僅用來傳輸無人的畫面)。
引用:[1](CN105245977 A)一種多組攝像頭同步直播的方法(公示中)。
[2](CN105141847 A)一種電腦攝像頭直播用多功能轉(zhuǎn)接設(shè)備(實(shí)質(zhì)性審查中);
[3](CN100452033 C)一種實(shí)現(xiàn)流媒體直播的方法。
[4](CN105611237 A)一種教學(xué)錄播用雙攝像頭模擬五攝像頭的方法。(實(shí)質(zhì)性審查中);
[5](CN105847851 A)全景視頻直播方法、裝置和系統(tǒng)以及視頻源控制設(shè)備(實(shí)質(zhì)性審查中)。
[6](CN106028166 A)直播過程中直播間切換方法及裝置。(實(shí)質(zhì)性審查中)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有直播需要人為切換攝像頭無法保證直播活動(dòng)的流暢性的問題,而提供一種多攝像頭直播方法。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
一種多攝像頭直播方法,包括如下步驟:
S1、在直播場景內(nèi),固定至少兩個(gè)深度攝像頭,通過深度攝像頭獲取各直播場景的背景深度值并存儲;
S2、通過深度攝像頭獲取主播的當(dāng)前位置深度圖像,根據(jù)深度圖像生成最佳深度攝像頭序號,將直播畫面切換至最佳深度攝像頭畫面;
S3、持續(xù)通過深度攝像頭獲取的深度圖像、檢測主播位置是否發(fā)生變化,當(dāng)主播位置變化時(shí)返回步驟S2。
進(jìn)一步地,所述S2中通過深度攝像頭獲取主播當(dāng)前位置的方式為:通過深度攝像頭獲取主播當(dāng)前位置深度,標(biāo)記主播當(dāng)前位置深度與直播場景背景深度不一致的區(qū)域?yàn)橹鞑ジ采w區(qū)域,選取主播覆蓋區(qū)域面積最大的深度攝像頭為最佳攝像頭。
進(jìn)一步地,所述S2中通過深度攝像頭獲取主播當(dāng)前位置的方式為:
記錄人為主觀標(biāo)定出的主播在不同位置深度時(shí)對應(yīng)的最佳攝像頭序號;直播時(shí)通過深度攝像頭獲取主播當(dāng)前位置深度,再根據(jù)記錄的人為標(biāo)定結(jié)果生成最佳攝像頭序號。
進(jìn)一步地,所述步驟S2還包括自動(dòng)插播:當(dāng)所有深度攝像頭檢測到主播所在區(qū)域的深度值均為背景深度值時(shí),自動(dòng)插播備用直播信號;當(dāng)重新檢測到主播時(shí),切換回最佳深度攝像頭畫面。
本發(fā)明還提供了一種多攝像頭直播系統(tǒng),包括存儲模塊、攝像頭組、存儲模塊、處理器,
所述攝像頭組包括至少兩個(gè)用于獲取直播畫面及主播區(qū)域深度的深度攝像頭;
所述存儲模塊用于存儲各個(gè)直播場景的背景深度值;
所述處理器用于接收所述攝像頭組得到的深度圖像,通過所述深度圖像隨時(shí)監(jiān)測主播是否在處于盲區(qū),當(dāng)主播不處于盲區(qū)時(shí)判斷出當(dāng)前最佳深度攝像頭序號;
進(jìn)一步地,所述處理器用于通過所述深度圖像標(biāo)記主播當(dāng)前位置深度與直播場景背景深度不一致的區(qū)域?yàn)橹鞑ジ采w區(qū)域,選取主播覆蓋區(qū)域面積最大的深度攝像頭為最佳攝像頭。
進(jìn)一步地,所述存儲模塊還用于存儲人為主觀標(biāo)定出的主播在不同位置深度時(shí)對應(yīng)的最佳攝像頭序號;所述處理器用于根據(jù)所述深度圖像以及存儲的人為標(biāo)定結(jié)果生成最佳攝像頭序號。
進(jìn)一步地,所述存儲模塊還用于存儲備用直播資源;所述處理器還用于根據(jù)所述深度圖像中深度值均為背景深度值時(shí),調(diào)用備用直播資源;當(dāng)所述處理器重新檢測到主播時(shí),將直播畫面切換至最佳深度攝像頭畫面。
本發(fā)明自動(dòng)實(shí)現(xiàn)了最佳攝像頭的切換,在網(wǎng)絡(luò)主播多種與觀眾互動(dòng)過程中自動(dòng)保持直播過程的流暢性,有利于網(wǎng)絡(luò)主播提高直播的效率,并在網(wǎng)絡(luò)主播暫時(shí)離開攝像頭前時(shí),自動(dòng)插播其他內(nèi)容。
附圖說明
圖1為單房間直播場景示意圖;
圖2為多房間直播場景示意圖;
圖3為本發(fā)明基本流程示意圖。
具體實(shí)施方式
以下結(jié)合附圖對本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
如附圖3所示,一種多攝像頭直播方法,包括如下步驟:
S1、在直播場景內(nèi),固定至少兩個(gè)深度攝像頭,通過深度攝像頭獲取各直播場景的背景深度值并存儲;
深度攝像頭采用彩色/深度攝像頭(RGBD攝像頭)獲取直播場景中的深度圖像,通過骨架檢測技術(shù)(開源的OpenNI/NiTE技術(shù))找到當(dāng)期主播所在的準(zhǔn)確位置。
由于主播所在直播場景光照以及主播衣著,發(fā)型造型變化大,且攝像頭拍攝視角在不同主播平臺中變化較大。如果利用普通的RGB攝像頭,通過傳統(tǒng)圖像識別技術(shù)(如HOG+SVM技術(shù)或HOG+Adaboost技術(shù)),很難準(zhǔn)確識別出主播人來。因此本發(fā)明選用同時(shí)能獲取彩色與深度信息的RGBD攝像頭,配合上骨架檢測技術(shù)(選用開源的OpenNI/NiTE技術(shù)),利用深度數(shù)據(jù)及NiTE訓(xùn)練好的骨架識別器識別出各種角度與姿勢下的主播位置。
RGBD攝像頭同時(shí)還能提供不同分辨率的RGB信息,用戶可以根據(jù)具體要求選用,如果需要高分辨率的,還可以選擇微軟公司的KinectV2作為RGBD攝像頭。
為了降低成本,本發(fā)明專利選用了華碩的xtionproLive彩色/深度攝像頭,也可采用其他廠商深度攝像頭如KinectV1,KinectV2。由于骨架追蹤技術(shù)是一種魯棒性的技術(shù),因此主播可以采用坐,站立等多種姿勢,不受限制。
S2、通過深度攝像頭獲取主播的當(dāng)前位置深度圖像,根據(jù)深度圖像生成最佳深度攝像頭序號,將直播畫面切換至最佳深度攝像頭畫面;
S3、持續(xù)通過深度攝像頭獲取的深度圖像、檢測主播位置是否發(fā)生變化,當(dāng)主播位置變化時(shí)返回步驟S2。
所述S2中通過深度攝像頭獲取主播當(dāng)前位置的方式為:通過深度攝像頭獲取主播當(dāng)前位置深度,標(biāo)記主播當(dāng)前位置深度與直播場景背景深度不一致的區(qū)域?yàn)橹鞑ジ采w區(qū)域,選取主播覆蓋區(qū)域面積最大的深度攝像頭為最佳攝像頭。
實(shí)際操作中,由于事先安裝攝像頭的時(shí)候有一種成本考慮,因此各個(gè)攝像頭間的重疊區(qū)域面積較少。因此可以根據(jù)主播所占的面積多少來決定哪一個(gè)攝像頭是最佳攝像頭。比如圖2中右下角所示房間中有2個(gè)攝像頭,雖然兩個(gè)攝像頭的區(qū)域有一定重疊,但重疊面積較少,但主播接近攝像頭7的時(shí)候,在攝像頭7的畫面中存在的圖像面積較大,同時(shí)通過深度信息也能進(jìn)一步確認(rèn)距離,這個(gè)時(shí)候就選取攝像頭7為最佳攝像頭。
所述S2中通過深度攝像頭獲取主播當(dāng)前位置的方式為:
記錄人為主觀標(biāo)定出的主播在不同位置深度時(shí)對應(yīng)的最佳攝像頭序號;直播時(shí)通過深度攝像頭獲取主播當(dāng)前位置深度,再根據(jù)記錄的人為標(biāo)定結(jié)果生成最佳攝像頭序號。
多攝像頭直播方法還包括自動(dòng)插播:當(dāng)所有深度攝像頭檢測到主播所在區(qū)域的深度值均為背景深度值時(shí),即判斷出主播處于所有深度攝像頭的拍攝盲區(qū),并自動(dòng)插播備用直播信號:
即利用深度攝像頭,通過對檢測到的主播骨骼所在位置的深度信息進(jìn)行不斷評測,當(dāng)主播所在區(qū)域的深度值為背景深度值時(shí),可判斷主播離開了所在位置。選用深度做上述前景運(yùn)動(dòng)檢測的原因是深度信息不易受環(huán)境光照,陰影的影響。因?yàn)樵谥鞑ナ覂?nèi)主播動(dòng)作會(huì)不斷改變及光照也會(huì)不斷變化(跳舞時(shí)的光照變化很嚴(yán)重),因此傳統(tǒng)基于RGB攝像頭做前景運(yùn)動(dòng)檢測是不能用的。這也是本發(fā)明專利的一個(gè)特色。當(dāng)上述通過前景檢測技術(shù)檢測到主播位置發(fā)生變化時(shí)(即主播離開了該出現(xiàn)的位置范圍),則判斷其他攝像頭對應(yīng)的區(qū)域是否出現(xiàn)有效骨架。如果發(fā)現(xiàn)了有效的人體骨架,說明有主播存在,再找到最適合的攝像頭,然后迅速切換到該攝像頭。在主播處于盲區(qū)位置(即不在任何攝像頭所覆蓋范圍內(nèi)時(shí)候)自動(dòng)插播圖像類廣告(單幅宣傳用的圖像)。
本發(fā)明還提供了一種多攝像頭直播系統(tǒng),包括存儲模塊、攝像頭組、存儲模塊、處理器,
所述攝像頭組包括至少兩個(gè)用于獲取直播畫面及主播區(qū)域深度的深度攝像頭;
所述存儲模塊用于存儲各個(gè)直播場景的背景深度值;
所述處理器用于接收所述攝像頭組得到的深度圖像,通過所述深度圖像隨時(shí)監(jiān)測主播是否在處于盲區(qū),當(dāng)主播不處于盲區(qū)時(shí)判斷出當(dāng)前最佳深度攝像頭序號。
所述處理器用于通過所述深度圖像標(biāo)記主播當(dāng)前位置深度與直播場景背景深度不一致的區(qū)域?yàn)橹鞑ジ采w區(qū)域,選取主播覆蓋區(qū)域面積最大的深度攝像頭為最佳攝像頭。
所述存儲模塊還用于存儲人為主觀標(biāo)定出的主播在不同位置深度時(shí)對應(yīng)的最佳攝像頭序號;所述處理器用于根據(jù)所述深度圖像以及存儲的人為標(biāo)定結(jié)果生成最佳攝像頭序號。
所述存儲模塊還用于存儲備用直播資源;所述處理器還用于根據(jù)所述深度圖像中深度值均為背景深度值時(shí),調(diào)用備用直播資源。
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。