本發(fā)明涉及虛擬現(xiàn)實(shí)
技術(shù)領(lǐng)域:
,特別涉及一種虛擬現(xiàn)實(shí)應(yīng)用中多媒體的呈現(xiàn)和交互方法。
背景技術(shù):
:虛擬現(xiàn)實(shí)技術(shù)(VirtualReality,簡(jiǎn)稱VR)是一種可以創(chuàng)建和體驗(yàn)虛擬世界的計(jì)算機(jī)仿真系統(tǒng)。該仿真系統(tǒng)利用計(jì)算機(jī)生成一種模擬環(huán)境,是一種多源信息融合的交互式的三維動(dòng)態(tài)視景和實(shí)體行為的系統(tǒng)仿真,使用戶沉浸到該模擬環(huán)境中。虛擬現(xiàn)實(shí)技術(shù)是仿真技術(shù)與計(jì)算機(jī)圖形學(xué)、人機(jī)接口技術(shù)、多媒體技術(shù)、傳感技術(shù)和網(wǎng)絡(luò)技術(shù)等多種技術(shù)的集合,是一門富有挑戰(zhàn)性的交叉技術(shù)前沿學(xué)科和研究領(lǐng)域。虛擬現(xiàn)實(shí)技術(shù)主要包括模擬環(huán)境、動(dòng)作、感知和傳感設(shè)備等方面。模擬環(huán)境是由計(jì)算機(jī)生成的、實(shí)時(shí)動(dòng)態(tài)的三維立體全景圖像和聲音。感知是指理想的VR應(yīng)該具有一切人所具有的感知,除計(jì)算機(jī)圖形技術(shù)所生成的視覺感知外,還有聽覺、觸覺、力覺、運(yùn)動(dòng)等感知。動(dòng)作是指人的頭部轉(zhuǎn)動(dòng)、眼睛的動(dòng)作、手勢(shì)、或其他人體行為動(dòng)作,由計(jì)算機(jī)來處理與參與者的動(dòng)作相適應(yīng)的數(shù)據(jù),并對(duì)用戶的輸入作出實(shí)時(shí)響應(yīng),并分別反饋到用戶的五官。傳感設(shè)備是指虛擬現(xiàn)實(shí)交互設(shè)備,比如帶頭部跟蹤的顯示設(shè)備或者只是一部帶頭部跟蹤傳感器的立體聲耳機(jī)。實(shí)現(xiàn)頭部跟蹤也有多種方法,比較常見的是使用多種傳感器。運(yùn)動(dòng)傳感器套件通常包括加速度計(jì)、陀螺儀和磁力傳感器。在運(yùn)動(dòng)跟蹤和絕對(duì)方向方面每種傳感器都有自己固有的強(qiáng)項(xiàng)和弱點(diǎn)。因此常用做法是采用傳感器“融合”(sensorfusion),將來自各傳感器的信號(hào)組合在一起,產(chǎn)生一個(gè)更加精確的運(yùn)動(dòng)檢測(cè)結(jié)果。多媒體(Multimedia)是多種媒體的綜合,一般包括文本、聲音和圖像等多種媒體形式。在計(jì)算機(jī)系統(tǒng)中,多媒體指組合兩種或兩種以上媒體的一種人機(jī)交互式信息交流和傳播媒體。使用的媒體包括文字、圖片、照片、聲音、動(dòng)畫和影片,以及程序所提供的互動(dòng)功能。在虛擬現(xiàn)實(shí)領(lǐng)域,由于用戶置身于一個(gè)360度全景3D空間,多媒體的呈現(xiàn)和交互方式相比傳統(tǒng)方法會(huì)有很大的不同?,F(xiàn)有技術(shù)中,針對(duì)多媒體的呈現(xiàn)的研究較多,而對(duì)多媒體的交互方式研究不足,導(dǎo)致用戶與多媒體元素進(jìn)行交互的過程不夠順暢,影響用戶的使用體驗(yàn)。另外,現(xiàn)有技術(shù)普遍忽視了用戶在虛擬現(xiàn)實(shí)空間與多媒體元素交互時(shí)的行為數(shù)據(jù)所包含的信息的價(jià)值,沒有充分利用這些交互時(shí)的行為數(shù)據(jù),不利于對(duì)用戶的個(gè)性化特征進(jìn)行分析。有鑒于此,在虛擬現(xiàn)實(shí)領(lǐng)域需要一種多媒體呈現(xiàn)和交互標(biāo)準(zhǔn)的解決方案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于提供一種應(yīng)用于虛擬現(xiàn)實(shí)領(lǐng)域的多媒體呈現(xiàn)和交互方法。為實(shí)現(xiàn)上述目的,本發(fā)明所述的虛擬現(xiàn)實(shí)領(lǐng)域多媒體呈現(xiàn)和交互的方法包括以下步驟:步驟一、定義虛擬現(xiàn)實(shí)中多媒體元素的類型和屬性;步驟二、定義多媒體元素在虛擬現(xiàn)實(shí)全景3D空間的呈現(xiàn)方式和實(shí)現(xiàn)腳本;步驟三、確定用戶與虛擬現(xiàn)實(shí)中多媒體元素的交互;步驟四、記錄和分析交互中用戶的行為數(shù)據(jù)。步驟一中所述的虛擬現(xiàn)實(shí)中多媒體元素的類型包括視頻、圖像、聲音、模型、文字或彈幕;其中視頻包括主線索視頻、分支劇情視頻或畫中畫視頻;圖像包括海報(bào)圖片、場(chǎng)景中提示圖片或商品圖片;聲音包括全景3D音樂、音效或提示語音;模型包括添加到場(chǎng)景中的電腦圖形3D模型;文字包括字幕、場(chǎng)景中的提示文字或商品介紹文字;彈幕為用戶在互動(dòng)中的評(píng)論,包括文字彈幕或語音彈幕。步驟一中所述的虛擬現(xiàn)實(shí)中多媒體元素的屬性包括:元素的唯一標(biāo)識(shí)、元素的存儲(chǔ)路徑、元素的名稱、元素的類型、元素的距離、元素的大小、元素的水平角方位、元素的仰角方位、元素生命周期起點(diǎn)、元素生命周期終點(diǎn)或元素是否需要被觸發(fā)啟動(dòng)。步驟二中所述的多媒體元素在虛擬現(xiàn)實(shí)全景3D空間的呈現(xiàn)方式由所述的多媒體元素的屬性決定,通過程序?qū)ζ鋵傩缘臄?shù)據(jù)做解析,從而確定多媒體元素在場(chǎng)景中出現(xiàn)的時(shí)間、位置或大小。步驟二中所述的實(shí)現(xiàn)腳本采用json格式或xml格式。步驟二中所述的實(shí)現(xiàn)腳本定義了元素的距離和元素的大小這兩個(gè)屬性,對(duì)于圖片來說,元素的大小定義了圖片的原始大小,元素的距離定義了圖片的距離遠(yuǎn)近;對(duì)于聲音來說,元素的大小定義了聲源的面積,元素的距離定義了聲源的距離,聲音的音量與聲源的距離的平方成反比。步驟二中所述的實(shí)現(xiàn)腳本定義了元素的水平角方位和元素的仰角方位,對(duì)于圖片,通過openGL渲染到全景3D可視空間里;對(duì)于聲音,通過HRTF技術(shù)渲染到全景3D聲場(chǎng)空間里。步驟二中所述的實(shí)現(xiàn)腳本還定義了元素的生命周期起點(diǎn)和生命周期終點(diǎn),對(duì)于圖片,元素的生命周期起點(diǎn)是指圖像開始顯示;元素的生命周期終點(diǎn)是指圖像終止顯示;對(duì)于聲音,元素的生命周期起點(diǎn)是指聲音開始播放,元素的生命周期終點(diǎn)是指聲音終止播放。步驟二中所述的實(shí)現(xiàn)腳本定義了元素是否需要被觸發(fā)啟動(dòng),需要被觸發(fā)啟動(dòng)的多媒體元素為可交互元素;步驟三中所述的用戶與虛擬現(xiàn)實(shí)中多媒體元素的交互包括用戶觸發(fā)啟動(dòng)可交互元素,從而使可交互元素在其生命周期內(nèi)得以呈現(xiàn)。所述的觸發(fā)包括藍(lán)牙手柄觸發(fā)、語音觸發(fā)、手勢(shì)觸發(fā)、眼球觸發(fā)和凝視觸發(fā);觸發(fā)的一個(gè)必要條件是用戶的視線在觸發(fā)區(qū)域內(nèi);所述的觸發(fā)區(qū)域是由可交互元素在全景3D空間中覆蓋的范圍決定的;通過程序來確定用戶視線與觸發(fā)區(qū)域是否相交;然后用戶通過觸發(fā)藍(lán)牙手柄觸發(fā)器,或者語音指令,或者通過手勢(shì)識(shí)別技術(shù),或者通過眼球追蹤技術(shù),或者通過凝視一定時(shí)間來觸發(fā)啟動(dòng)可交互元素,從而使可交互元素在其生命周期內(nèi)得以呈現(xiàn);其中手勢(shì)識(shí)別技術(shù)包括利用光學(xué)追蹤、傳感器追蹤或者光學(xué)追蹤與傳感器追蹤結(jié)合的方式。步驟四中所述的記錄和分析交互中用戶的行為數(shù)據(jù)包括以下步驟:首先記錄用戶在整個(gè)交互過程中頭部或除了頭部以外的可動(dòng)身體部位的位置和角度;通過每個(gè)時(shí)間點(diǎn)頭部或除了頭部以外的可動(dòng)身體部位的位置和角度,分析場(chǎng)景中各個(gè)多媒體元素的位置,得出用戶感興趣的區(qū)域和多媒體元素;然后記錄用戶在交互過程中觸發(fā)的多媒體元素;用戶的行為數(shù)據(jù)根據(jù)腳本預(yù)先的定義記錄在指定的數(shù)據(jù)庫中用于分析或結(jié)算。本發(fā)明具有如下優(yōu)點(diǎn):本發(fā)明所述的虛擬現(xiàn)實(shí)領(lǐng)域多媒體呈現(xiàn)和交互的方法與現(xiàn)有技術(shù)相比,使內(nèi)容創(chuàng)作者可以自由定義多媒體元素,包括視頻、圖像、聲音、文字等,以及在全景3D空間的方向、距離、大小、運(yùn)動(dòng)軌跡和生命周期等,還能記錄用戶的行為數(shù)據(jù),用于大數(shù)據(jù)分析。同時(shí)用戶可以自由選擇觀看的方向,并與多媒體元素進(jìn)行交互。附圖說明圖1是本發(fā)明所述的虛擬現(xiàn)實(shí)領(lǐng)域多媒體呈現(xiàn)和交互的方法的流程框圖。具體實(shí)施方式以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。如圖1所示,本發(fā)明所述的虛擬現(xiàn)實(shí)領(lǐng)域多媒體呈現(xiàn)和交互的方法包括以下步驟:步驟一、定義虛擬現(xiàn)實(shí)中多媒體元素的類型和屬性;步驟二、定義多媒體元素在虛擬現(xiàn)實(shí)全景3D空間的呈現(xiàn)方式和實(shí)現(xiàn)腳本;步驟三、確定用戶與虛擬現(xiàn)實(shí)中多媒體元素的交互;步驟四、記錄和分析交互中用戶的行為數(shù)據(jù)。步驟一中所述的虛擬現(xiàn)實(shí)中多媒體元素的類型包括視頻、圖像、聲音、模型、文字或彈幕等;其中視頻包括主線索視頻、分支劇情視頻或畫中畫視頻等;圖像包括海報(bào)圖片、場(chǎng)景中提示圖片或商品圖片等;聲音包括全景3D音樂、音效或提示語音等;模型主要指添加到場(chǎng)景中的電腦圖形(CG,ComputerGraphics)3D模型;文字指字幕、場(chǎng)景中的提示文字或商品介紹文字等(2D文字,3D文字);彈幕指用戶在互動(dòng)中的一些評(píng)論,可以是文字彈幕,也可以是語音彈幕(包括固定彈幕、實(shí)時(shí)彈幕)。步驟一中所述的虛擬現(xiàn)實(shí)中多媒體元素的屬性包括:ID:元素的唯一標(biāo)識(shí);Src:元素的存儲(chǔ)路徑;Name:元素的名稱;Type:元素的類型;Distance:元素的距離;Size:元素的大??;Azimuth:元素的水平角方位;Elvation:元素的仰角方位;StartTime:元素生命周期起點(diǎn);EndTime:元素生命周期終點(diǎn);Trigger:元素是否需要被觸發(fā)啟動(dòng)。步驟二中所述的多媒體元素在虛擬現(xiàn)實(shí)全景3D空間的呈現(xiàn)方式由所述的多媒體元素的屬性決定,通過程序?qū)ζ鋵傩缘臄?shù)據(jù)做解析,從而確定多媒體元素在場(chǎng)景中出現(xiàn)的時(shí)間、位置、大小等。步驟二中所述的實(shí)現(xiàn)腳本可以采用json格式或xml格式。以json格式腳本為例,下面給出了一段簡(jiǎn)單的json格式腳本,包括一個(gè)圖片的現(xiàn)實(shí),和一個(gè)聲音的播放。上面的json格式腳本中,定義了圖片image和聲音sound的唯一標(biāo)識(shí)“ID”號(hào),存儲(chǔ)路徑“src”,名稱“name”和類型“type”。其中,我們預(yù)先定義“type”的枚舉編號(hào)為:Typeid123456元素類型圖片視頻聲音文字模型彈幕實(shí)現(xiàn)腳本也定義了多媒體元素的距離“distance”和大小“size”,這兩個(gè)屬性對(duì)于圖片和聲音元素來說,解析的方法不同。對(duì)于圖片來說,“size”定義了圖片的原始大小,“distance”定義了圖片的距離遠(yuǎn)近,距離遠(yuǎn)時(shí),圖片的相對(duì)大小變小,反之變大。對(duì)于聲音來說,“size”定義了聲源的面積,這個(gè)值越小,聲音越聚焦(focus)為點(diǎn)聲源,比如一個(gè)人說話可以近似為一個(gè)點(diǎn)聲源,位置在嘴部。反之,這個(gè)值越大,聲源的面積越大,成為一片,比如烏云密布下,天空廣闊的雷聲?!癲istance”定義了聲源的距離,聲音的音量與距離的平方成反比,即距離越遠(yuǎn),音量越低。實(shí)現(xiàn)腳本定義的方位角“azimuth”(元素的水平角方位)和仰角“elevation”(元素的仰角方位),對(duì)于圖片,通過openGL渲染到全景3D可視空間里;對(duì)于聲音,可以通過HRTF技術(shù)渲染到全景3D聲場(chǎng)空間里。實(shí)現(xiàn)腳本定義的元素的生命周期起點(diǎn)“StartTime”和元素的生命周期終點(diǎn)“EndTime”,決定了多媒體元素的開始和結(jié)束時(shí)間,即生命周期。對(duì)于圖片,元素的生命周期起點(diǎn)是指圖像開始顯示;元素的生命周期終點(diǎn)是指圖像終止顯示;對(duì)于聲音,元素的生命周期起點(diǎn)是指聲音開始播放,元素的生命周期終點(diǎn)是指聲音終止播放。比如上述的json格式腳本中,聲音sound1從20s開始播放,到30s時(shí)停止。聲源距離為1米,位于右后方110度方向。實(shí)現(xiàn)腳本定義的“trigger”,決定了元素是線性呈現(xiàn)的,還是通過用戶觸發(fā)啟動(dòng)的。比如上述的json格式腳本中,圖片image1的生命周期是從1s至10s,但是因?yàn)闃?biāo)記了“trigger”的值為1,即通過用戶觸發(fā)啟動(dòng),那么如果用戶沒有觸發(fā),image1是不會(huì)呈現(xiàn)的,只有用戶在其生命周期內(nèi)有效觸發(fā),image1才會(huì)在其生命周期內(nèi)呈現(xiàn)。前面通過多媒體元素的屬性和實(shí)現(xiàn)腳本確定了哪些元素是通過用戶觸發(fā)啟動(dòng)的,即“trigger”=1。這些多媒體元素具有可交互性,或者說這些多媒體元素為可交互元素。步驟三中所述的用戶與虛擬現(xiàn)實(shí)中多媒體元素的交互包括用戶觸發(fā)啟動(dòng)可交互元素,從而使可交互元素在其生命周期內(nèi)得以呈現(xiàn)。觸發(fā)可以通過多種方法實(shí)現(xiàn),包括藍(lán)牙手柄觸發(fā)、語音觸發(fā)、手勢(shì)觸發(fā),眼球觸發(fā)和凝視觸發(fā)。觸發(fā)的一個(gè)必要條件是用戶的視線需要在觸發(fā)區(qū)域內(nèi),也就是說用戶需要注視著可交互元素。這個(gè)觸發(fā)區(qū)域可以是由可交互元素在全景3D空間中覆蓋的范圍決定的。通過程序來確定用戶視線與觸發(fā)區(qū)域是否相交。然后用戶可以觸發(fā)藍(lán)牙手柄觸發(fā)器,或者通過語音指令,或者通過手勢(shì)識(shí)別技術(shù),或者通過眼球追蹤技術(shù),或者通過凝視一定時(shí)間來觸發(fā)啟動(dòng)可交互元素,從而使可交互元素在其生命周期內(nèi)得以呈現(xiàn)。手勢(shì)觸發(fā)通過手勢(shì)識(shí)別來實(shí)現(xiàn)。常見的手勢(shì)識(shí)別技術(shù)包括利用光學(xué)追蹤、傳感器追蹤或者二者結(jié)合的方式。在實(shí)際應(yīng)用中,可交互元素的觸發(fā)可以是完成一次購物確認(rèn),也可以是選擇電影中的一個(gè)劇情分支。用戶在虛擬現(xiàn)實(shí)空間與多媒體元素交互時(shí)的行為數(shù)據(jù)是有價(jià)值的。比如在虛擬購物場(chǎng)景中,可以分析得出用戶感興趣的區(qū)域和商品。步驟四中所述的記錄和分析交互中用戶的行為數(shù)據(jù)包括以下步驟:首先需要記錄的是用戶在整個(gè)交互過程中頭部的位置(x,y,z)和角度(azimuth,elevation)。這個(gè)信息可以通過虛擬現(xiàn)實(shí)設(shè)備的傳感器獲得。通過每個(gè)時(shí)間點(diǎn)頭部的位置和角度,即可得到用戶視線注視的方位,分析場(chǎng)景中各個(gè)多媒體元素的位置,即可得出用戶感興趣的區(qū)域和多媒體元素??梢钥吹?,如果虛擬現(xiàn)實(shí)設(shè)備配備相應(yīng)的外設(shè)如手勢(shì)識(shí)別,或眼球追蹤,本發(fā)明中的系統(tǒng)記錄的用戶交互信息不局限于頭部的位置。然后可以記錄用戶在交互過程中觸發(fā)的多媒體元素。比如在虛擬現(xiàn)實(shí)購物中,觸發(fā)的多媒體元素可以對(duì)應(yīng)用戶放入購物車中的商品。用戶的行為數(shù)據(jù)可以根據(jù)腳本預(yù)先的定義記錄在指定的數(shù)據(jù)庫中用于分析或結(jié)算。雖然,上文中已經(jīng)用一般性說明及具體實(shí)施例對(duì)本發(fā)明作了詳盡的描述,但在本發(fā)明基礎(chǔ)上,可以對(duì)之作一些修改或改進(jìn),這對(duì)本領(lǐng)域技術(shù)人員而言是顯而易見的。因此,在不偏離本發(fā)明精神的基礎(chǔ)上所做的這些修改或改進(jìn),均屬于本發(fā)明要求保護(hù)的范圍。當(dāng)前第1頁1 2 3