基于空間可伸縮編碼的交互式全景視頻轉(zhuǎn)碼與播放方法及系統(tǒng)與流程

文檔序號：11480252閱讀：396來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

基于空間可伸縮編碼的交互式全景視頻轉(zhuǎn)碼與播放方法及系統(tǒng)與流程

本發(fā)明屬于交互式全景視頻轉(zhuǎn)碼與播放技術(shù)領(lǐng)域，具體涉及一種基于空間可伸縮編碼的交互式全景視頻轉(zhuǎn)碼與播放方法及系統(tǒng)。

背景技術(shù)：

交互式全景視頻是興起的一種新型媒體，它在傳統(tǒng)的二維視頻的基礎(chǔ)上，增加了視覺的現(xiàn)實感和逼真感，它允許用戶自由的選擇視點與視角以獲得其所感興趣的視頻內(nèi)容。交互性是這種媒體的重要特征。

2001年，國際音視頻標(biāo)準(zhǔn)組織mpeg成立研究組，對三維音視頻3dav技術(shù)展開探索性研究，itu-t的視頻編碼專家組vceg與mpeg成立的聯(lián)合視頻專家組jvt也對3dav編碼標(biāo)準(zhǔn)的進(jìn)行研究與制定。3dav的主要研究目標(biāo)是拓展現(xiàn)有標(biāo)準(zhǔn)視頻所具有的功能，向用戶提供：(1)交互性，在一個場景中允許用戶自主地選擇場景視點；(2)沉浸感，提供給用戶具有深度感和臨境感的視頻服務(wù)。

對于全景視頻，通常使用360度全景瀏覽器在顯示器上顯示，需通過鼠標(biāo)控制視口進(jìn)行360度觀看，某時刻觀察到的圖像僅是全景圖像的一部分。而對于整個全景視頻播放系統(tǒng)而言，服務(wù)器需要將每幀全景視頻數(shù)據(jù)發(fā)送給播放終端，因此浪費(fèi)大量的傳輸帶寬和計算資源。

針對這一問題，國際國內(nèi)許多研究機(jī)構(gòu)與企業(yè)提出了改進(jìn)方法。長春理工大學(xué)的權(quán)巍等人提出了一種基于cave的交互式全景視頻顯示方法，其使用五個虛擬相機(jī)對該全景視頻映射球面的四面及頂面進(jìn)行拍攝，并將所得五幅圖像分別投影到cave系統(tǒng)中各投影幕中；美國北卡羅來納大學(xué)的sriharipratapa等人提出了一種針對視頻顯示圖像進(jìn)行紋理壓縮的方法；韓國電信研究院的seongyonglim等人提出了一種基于tile分塊顯示的基于mpeg-dash協(xié)議的全景視頻傳輸系統(tǒng)；挪威奧斯陸大學(xué)的vamsidharreddygaddam等人也提出了一種針對全景視頻的tile劃分方法。以上這些改進(jìn)方法，基本思想均是將全景視頻劃分為固定數(shù)據(jù)量的多塊數(shù)據(jù)，只傳輸用戶觀看的部分，能夠部分緩解傳輸帶寬占用的壓力，但是未考慮接收播放終端的計算能力、網(wǎng)絡(luò)狀態(tài)的動態(tài)變化以及用戶互動操作pan/tilt/zoom(平移/旋轉(zhuǎn)/縮放)等指令的特點，因此實際使用效果還有待改進(jìn)。

技術(shù)實現(xiàn)要素：

本發(fā)明針對交互式全景視頻數(shù)據(jù)量大、收播放終端的計算能力多樣化、網(wǎng)絡(luò)帶寬動態(tài)變化以及用戶互動操作pan/tilt/zoom等指令的特點，提出了一種基于空間可伸縮編碼的交互式全景視頻轉(zhuǎn)碼與播放方法及系統(tǒng)，能夠在降低傳輸帶寬的同時，針對播放終端、網(wǎng)絡(luò)狀態(tài)和用戶互動操作指令提供合適的視頻數(shù)據(jù)，大大增強(qiáng)播放終端的用戶體驗。

一種基于空間可伸縮編碼的交互式全景視頻轉(zhuǎn)碼與播放方法，包括如下步驟：

(1)通過源地址獲取超高清的原始全景視頻，通過高斯金字塔對原始全景視頻進(jìn)行空間下采樣，得到多組不同分辨率的空間層視頻數(shù)據(jù)；

(2)將所述空間層視頻數(shù)據(jù)劃分成多個tile，每個tile大小為n×n，n＝2ⁿ且n為大于0的自然數(shù)；

(3)根據(jù)用戶的pan/tilt/zoom操作指令確定roi(感興趣區(qū)域)的位置，該roi即為用戶當(dāng)前觀看的視頻窗口；

(4)選取最適合用戶播放器終端分辨率的一組空間層視頻數(shù)據(jù)，并將roi投影到該空間層視頻數(shù)據(jù)上；

(5)將該空間層視頻數(shù)據(jù)上roi所覆蓋占用的tile轉(zhuǎn)碼重寫成標(biāo)準(zhǔn)碼流，其余tile以skip數(shù)據(jù)流填充并采用skip模式進(jìn)行編碼，進(jìn)而將得到的視頻碼流傳輸給用戶播放器終端，由終端對其解碼后進(jìn)行播放顯示。

所述步驟(1)中通過高斯金字塔對原始全景視頻進(jìn)行空間下采樣，得到的多組空間層視頻數(shù)據(jù)的分辨率從上往下依次減小，即利用高斯核與上一層視頻數(shù)據(jù)gi的卷積和移除gi中的偶數(shù)行和偶數(shù)列，從而得到當(dāng)前空間層視頻數(shù)據(jù)gi+1，依此得到多組不同分辨率的空間層視頻數(shù)據(jù)。

優(yōu)選地，所述步驟(3)中采用卡爾曼濾波算法預(yù)測用戶的pan/tilt/zoom操作指令，即用戶播放器終端根據(jù)信號與噪聲的狀態(tài)空間模型，利用前一時刻pan/tilt/zoom操作指令的估計值和當(dāng)前時刻pan/tilt/zoom操作指令的觀測值來更新對pan/tilt/zoom操作指令的估計，求出當(dāng)前時刻pan/tilt/zoom操作指令的估計值，從而確定roi的位置，并將預(yù)測得到的roi位置信息實時地反饋給轉(zhuǎn)碼分發(fā)服務(wù)器，以減少交互延時。

所述步驟(4)中根據(jù)用戶播放器終端的分辨率以及各空間層視頻數(shù)據(jù)的分辨率，基于視頻縮放系數(shù)最趨近于1的原則，即空間層視頻數(shù)據(jù)分辨率與用戶播放器終端分辨率最接近的原則，從而選取最適合用戶播放器終端分辨率的一組空間層視頻數(shù)據(jù)。

一種基于空間可伸縮編碼的交互式全景視頻轉(zhuǎn)碼與播放系統(tǒng)，包括用戶播放器終端以及轉(zhuǎn)碼分發(fā)服務(wù)器；所述用戶播放器終端用于向轉(zhuǎn)碼分發(fā)服務(wù)器提供全景視頻的源地址、終端的本地配置信息以及roi(即用戶當(dāng)前觀看的視頻窗口)的位置信息，所述轉(zhuǎn)碼分發(fā)服務(wù)器包括：

空間采樣單元，用于通過源地址獲取超高清的原始全景視頻，通過高斯金字塔對原始全景視頻進(jìn)行空間下采樣，得到多組不同分辨率的空間層視頻數(shù)據(jù)；

數(shù)據(jù)劃分單元，用于將所述空間層視頻數(shù)據(jù)劃分成多個tile，每個tile大小為n×n，n＝2ⁿ且n為大于0的自然數(shù)；

匹配投影單元，用于選取最適合用戶播放器終端分辨率的一組空間層視頻數(shù)據(jù)，并將roi投影到該空間層視頻數(shù)據(jù)上；

編碼單元，用于將該空間層視頻數(shù)據(jù)上roi所覆蓋占用的tile轉(zhuǎn)碼重寫成標(biāo)準(zhǔn)碼流，其余tile以skip數(shù)據(jù)流填充并采用skip模式進(jìn)行編碼；

通信傳輸單元，用于將編碼單元生成的視頻碼流傳輸給用戶播放器終端；

所述用戶播放器終端對接收到的視頻碼流解碼后進(jìn)行播放顯示。

所述空間采樣單元通過高斯金字塔對原始全景視頻進(jìn)行空間下采樣，得到的多組空間層視頻數(shù)據(jù)的分辨率從上往下依次減小，即利用高斯核與上一層視頻數(shù)據(jù)gi的卷積和移除gi中的偶數(shù)行和偶數(shù)列，從而得到當(dāng)前空間層視頻數(shù)據(jù)gi+1，依此得到多組不同分辨率的空間層視頻數(shù)據(jù)。

優(yōu)選地，所述用戶播放器終端采用卡爾曼濾波算法預(yù)測用戶的pan/tilt/zoom操作指令，即用戶播放器終端根據(jù)信號與噪聲的狀態(tài)空間模型，利用前一時刻pan/tilt/zoom操作指令的估計值和當(dāng)前時刻pan/tilt/zoom操作指令的觀測值來更新對pan/tilt/zoom操作指令的估計，求出當(dāng)前時刻pan/tilt/zoom操作指令的估計值，從而確定roi的位置，并將預(yù)測得到的roi位置信息實時地反饋給轉(zhuǎn)碼分發(fā)服務(wù)器，以減少交互延時。

所述匹配投影單元根據(jù)用戶播放器終端的分辨率以及各空間層視頻數(shù)據(jù)的分辨率，基于視頻縮放系數(shù)最趨近于1的原則，即空間層視頻數(shù)據(jù)分辨率與用戶播放器終端分辨率最接近的原則，從而選取最適合用戶播放器終端分辨率的一組空間層視頻數(shù)據(jù)。

本發(fā)明將原始視頻分成多個分辨率不同的空間層視頻數(shù)據(jù)，再將每層數(shù)據(jù)按tile形式劃分，根據(jù)用戶的操作指令將roi投影到各層視頻上，通過對比用戶播放器終端的視頻窗口分辨率及所選空間層視頻分辨率，基于視頻縮放系數(shù)最趨近于1的原則，轉(zhuǎn)碼分發(fā)服務(wù)器選擇最合適的空間層視頻數(shù)據(jù)以及對應(yīng)的tile，進(jìn)行轉(zhuǎn)碼重寫，其他未選定的數(shù)據(jù)則以skip數(shù)據(jù)流填充以減少帶寬，保證兼容性；同時，用戶播放器終端采用kalman濾波方式預(yù)測用戶的操作指令，從而預(yù)測roi的位置以減少交互延時。

故本發(fā)明能夠根據(jù)不同的帶寬環(huán)境，給用戶播放最適合播放窗口分辨率的視頻數(shù)據(jù)，具有空間可伸縮、空間分辨率自適應(yīng)匹配等特點，能夠使用戶更好的享受交互視頻的自然場景或虛擬場景的三維沉浸視覺感受、無縫式視點切換與靈活的人機(jī)交互特性。

附圖說明

圖1為本發(fā)明系統(tǒng)的結(jié)構(gòu)示意圖。

圖2為高斯金字塔下采樣的示意圖。

圖3為本發(fā)明方法的流程示意圖。

圖4為空間下采樣的示意圖。

圖5為感興趣區(qū)域的投影示意圖。

圖6為空間層視頻數(shù)據(jù)的選擇示意圖。

圖7為skip數(shù)據(jù)流的填充示意圖。

圖8為感興趣區(qū)域的預(yù)測示意圖。

具體實施方式

為了更為具體地描述本發(fā)明，下面結(jié)合附圖及具體實施方式對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。

如圖1所示，本發(fā)明基于空間可伸縮編碼的交互式全景視頻轉(zhuǎn)碼與播放系統(tǒng)包括用戶播放器終端與轉(zhuǎn)碼分發(fā)服務(wù)器。用戶播放器終端用于提供交互視頻的源地址以及作為用戶的操作界面，為轉(zhuǎn)碼分發(fā)服務(wù)器提供本地屏幕分辨率等配置信息。布置于云端的轉(zhuǎn)碼分發(fā)服務(wù)器用于接收用戶播放器終端傳過來的pan/tilt/zoom操作指令，并根據(jù)操作指令在各層視頻上投影的roi作出pan/tilt/zoom指令反饋，本發(fā)明的總體實施流程如圖3所示。

如圖4所示，轉(zhuǎn)碼分發(fā)服務(wù)器將超高清原始視頻按金字塔方式進(jìn)行空間下采樣，對超高清原始視頻序列進(jìn)行抽樣，獲得m個分辨率不同的空間層視頻數(shù)據(jù)，這些空間層視頻數(shù)據(jù)的分辨率依次由大到小排列，然后將每層數(shù)據(jù)按tile形式劃分，每個tile的大小均為n×n，n為2的指數(shù)倍，每個空間層視頻數(shù)據(jù)的tile數(shù)因各層的分辨率不同而有所差異，通過采用空間下采樣的方案可以實現(xiàn)空間可伸縮性。

如圖5所示，用戶播放器終端將pan/tilt/zoom操作指令傳到轉(zhuǎn)碼分發(fā)服務(wù)器，轉(zhuǎn)碼分發(fā)服務(wù)器將用戶感興趣區(qū)域roi，即當(dāng)前觀看的視頻窗口，投影到各層視頻上。

如圖6所示，轉(zhuǎn)碼分發(fā)服務(wù)器根據(jù)用戶播放器終端的視頻窗口分辨率及所選空間層視頻分辨率，基于視頻縮放系數(shù)最趨近于1的原則，即空間層視頻的分辨率與用戶播放器終端的視頻窗口分辨率最接近的原則，選擇最合適的空間層視頻數(shù)據(jù)，以及對應(yīng)的tile。

如圖7所示，轉(zhuǎn)碼分發(fā)服務(wù)器提取選定的空間層視頻tile數(shù)據(jù)，轉(zhuǎn)碼重寫成標(biāo)準(zhǔn)碼流，使其他未選定的tile數(shù)據(jù)均以skip數(shù)據(jù)流填充，采用skip跳躍式編碼模式，可以節(jié)省碼流，保證兼容性，減少帶寬。

用戶播放器終端接收到轉(zhuǎn)碼分發(fā)服務(wù)器重寫后的視頻流后，解碼并提取roi視頻數(shù)據(jù)進(jìn)行縮放顯示，用戶可根據(jù)喜好對播放的視頻進(jìn)行pan(平移)或是tilt(旋轉(zhuǎn))或是zoom(縮放)的操作，從而獲取更好的觀看視點。

如圖8所示，用戶播放器終端采用kalman濾波方式預(yù)測用戶pan/tilt/zoom操作，用戶播放器終端根據(jù)信號與噪聲的狀態(tài)空間模型，利用前一時刻對用戶操作指令的估計值和現(xiàn)時刻對用戶操作指令的觀測值來更新對用戶操作指令的估計，求出現(xiàn)時刻的估計值，從而預(yù)測用戶感興趣區(qū)域roi的位置，并將預(yù)測與實際位置實時地反饋給轉(zhuǎn)碼分發(fā)服務(wù)器，以減少交互延時。

如圖2所示，轉(zhuǎn)碼分發(fā)服務(wù)器對原始視頻進(jìn)行空間采樣時，所采用的是高斯金字塔下采樣。圖像的分辨率從上往下依次減小，通過利用高斯核與gi層的卷積和移走每個偶數(shù)行和列產(chǎn)生gi+1層，如此可生成m層，即m個分辨率不同的空間層視頻數(shù)據(jù)。

本發(fā)明將原始視頻分成m個分辨率不同的空間層視頻數(shù)據(jù)，再將每層數(shù)據(jù)按tile形式劃分，根據(jù)用戶的操作指令將roi投影到各層視頻上，通過對比用戶播放器終端的視頻窗口分辨率及所選空間層視頻分辨率，基于視頻縮放系數(shù)最趨近于1的原則，轉(zhuǎn)碼分發(fā)服務(wù)器選擇最合適的空間層視頻數(shù)據(jù)以及對應(yīng)的tile，進(jìn)行轉(zhuǎn)碼重寫，其他未選定的數(shù)據(jù)則以skip數(shù)據(jù)流填充以減少帶寬，保證兼容性；同時，用戶播放器終端采用kalman濾波方式預(yù)測用戶的操作指令，從而預(yù)測roi的位置以減少交互延時。

因此，本發(fā)明能夠根據(jù)不同的帶寬環(huán)境，給用戶播放最適合播放窗口分辨率的視頻數(shù)據(jù)，具有空間可伸縮、空間分辨率自適應(yīng)匹配等特點，大大提升了交互式全景視頻播放的用戶體驗。

上述對實施例的描述是為便于本技術(shù)領(lǐng)域的普通技術(shù)人員能理解和應(yīng)用本發(fā)明。熟悉本領(lǐng)域技術(shù)的人員顯然可以容易地對上述實施例做出各種修改，并把在此說明的一般原理應(yīng)用到其他實施例中而不必經(jīng)過創(chuàng)造性的勞動。因此，本發(fā)明不限于上述實施例，本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的揭示，對于本發(fā)明做出的改進(jìn)和修改都應(yīng)該在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬漢杰;馮杰
技術(shù)所有人：杭州碼全信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種自動酸化生產(chǎn)線的制造方法與工藝
上一篇：裝飾板和具有其的車輛的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于空間可伸縮編碼的交互式全景視頻轉(zhuǎn)碼與播放方法及系統(tǒng)與流程