專利名稱:用于對(duì)數(shù)字視頻內(nèi)容進(jìn)行基于交互式映像的分析的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于數(shù)字視頻內(nèi)容的交互式創(chuàng)作、共享和分析的電子方法和系統(tǒng)。
背景技術(shù):
目前已經(jīng)提出并設(shè)計(jì)了用于捕捉全景數(shù)字影像并對(duì)全景數(shù)字影像進(jìn)行交互式導(dǎo)航的各種系統(tǒng)。舉例而言,參見“FlyCam實(shí)用全景視頻(FlycamPracticalPanoramic Video)”,IEEE International Conference on Multimedia and Expo會(huì)刊第III卷第1419-1422頁(2000年8月);Nalwa的第6,285,365號(hào)美國專利“由圖標(biāo)定位的全景圖像顯示(Icon-Referenced Panoramic Image Display)”;及Teodosio等人的第6,121,966號(hào)美國專利“可導(dǎo)航的觀察系統(tǒng)(Nabigable Viewing System)”單獨(dú)地,還存在用于注解和共享傳統(tǒng)視頻“剪輯”或選錄的系統(tǒng)。例如,參見“VideoNoter一種用于探索性視頻分析的工具(VideoNoterA Tool for ExploratoryVideo Analysis)”,Roschelle,Pea及Trigg,Institute for Research on Learning,Technical Report第17期(1990年)。
然而,至今人們卻幾乎沒有注意到這樣一種更大的需求-及機(jī)會(huì)即并置的或分散的用戶社區(qū)通過創(chuàng)建、注解、存儲(chǔ)和共享“視點(diǎn)式”可視媒體遍歷的永久記錄來創(chuàng)作和共享對(duì)多媒體內(nèi)容的個(gè)人解釋的需求。此等記錄應(yīng)忠實(shí)地捕捉作者在查看特定媒體內(nèi)容時(shí)的獨(dú)特觀點(diǎn)(例如,記錄作者的查看經(jīng)歷的空間焦點(diǎn)和定時(shí))以及通過注釋、分類以及其他的注解符號(hào)形式為作者提供一種表達(dá)他或她對(duì)該媒體內(nèi)容的解釋的載體。一種解決這一需求的有效解決方案應(yīng)該提供能夠允許進(jìn)行強(qiáng)有力的表達(dá)但又適用于并非技術(shù)專家的作者的充分集成的交互式設(shè)備。此外,該解決方案應(yīng)使作者能夠與一聯(lián)網(wǎng)的用戶社區(qū)共享其解釋,并同樣地使社區(qū)的參與者能夠根據(jù)特定媒體內(nèi)容來發(fā)表其自己的注釋和觀點(diǎn)。此外,所需解決方案應(yīng)支持使用戶能夠探測和量化所共享的媒體內(nèi)容和注釋的重要性的分析工具。
發(fā)明內(nèi)容
簡單地說,本發(fā)明提供用于對(duì)數(shù)字視頻內(nèi)容進(jìn)行交互式創(chuàng)作、共享和分析的電子方法及裝置。
在一方面中,本發(fā)明通過顯示可視數(shù)據(jù)、將每一遍歷界定為一基于時(shí)間的幀序列并注釋和存儲(chǔ)該遍歷的一記錄,來提供一種創(chuàng)作帶注釋的遍歷的交互式電子方法。當(dāng)重復(fù)實(shí)施該方法時(shí),該方法會(huì)創(chuàng)建復(fù)數(shù)個(gè)可能來自于不同可視源的所存儲(chǔ)遍歷。該可視數(shù)據(jù)較佳包括動(dòng)態(tài)視頻、靜止影像、模擬影像/動(dòng)畫影像、全景影像及/或活動(dòng)影像。所述全景影像較佳包括使用復(fù)數(shù)個(gè)自一固定點(diǎn)朝向外部(或自一周邊朝向內(nèi)部)的攝像機(jī)所捕捉的影像,以便各遍歷可反映一可由用戶調(diào)整的3D立體圖。所述注解較佳包括文本注釋、圖形符號(hào)、分類碼、元數(shù)據(jù)及/或音頻轉(zhuǎn)錄。所述分類碼是以交互方式選自可由用戶界定的碼模板。在另一方面中,所述所存儲(chǔ)的遍歷記錄可以被壓縮圖像數(shù)據(jù)的形式對(duì)所遍歷的可視數(shù)據(jù)進(jìn)行編碼,或?qū)⑺闅v的可視數(shù)據(jù)編碼為一組界定所述遍歷的位置座標(biāo)。
界定所述遍歷較佳包括通過相對(duì)于所述可視數(shù)據(jù)對(duì)一覆蓋窗口進(jìn)行定位,以交互方式掃視所述數(shù)據(jù);通過調(diào)整所述覆蓋窗口的大小進(jìn)行放大或縮?。灰约按鎯?chǔ)所述遍歷的一記錄。所述可視數(shù)據(jù)可以一矩形布局進(jìn)行顯示;或者,另一選擇為,以一圓柱形布局進(jìn)行顯示,其中所述覆蓋的位置由一位于所述圓柱中央的虛擬攝像機(jī)界定。此外,對(duì)所述覆蓋窗口進(jìn)行定位可包括移動(dòng)所述可視數(shù)據(jù),而使所述覆蓋窗口保持固定或者,另一選擇為,移動(dòng)所述覆蓋窗口,而所述可視數(shù)據(jù)保持固定。所述覆蓋窗口具有一較佳可由用戶選擇的幾何形狀。本發(fā)明的進(jìn)一步的方面包括同時(shí)使用復(fù)數(shù)個(gè)獨(dú)立定位的覆蓋窗口來掃視所述可視數(shù)據(jù)。
在本發(fā)明的另一方面中,較佳使用一集成圖形界面來實(shí)施所述方法。所述圖形用戶界面較佳包括復(fù)數(shù)個(gè)計(jì)算機(jī)顯示區(qū)-包括一顯示所述可視數(shù)據(jù)的概覽區(qū)、一在所述覆蓋窗口內(nèi)顯示當(dāng)前數(shù)據(jù)的細(xì)節(jié)區(qū)及一顯示一由所述復(fù)數(shù)個(gè)所存儲(chǔ)的帶注解遍歷記錄構(gòu)成的列表的工作表區(qū)。所述細(xì)節(jié)區(qū)以一高于所述概覽區(qū)的放大率或分辨率來顯示數(shù)據(jù)。該放大率或分辨率可由用戶控制,或由對(duì)用戶帶寬連接性或其他與性能相關(guān)的量度敏感的網(wǎng)絡(luò)服務(wù)來使能。通過以交互方式選擇其中一個(gè)遍歷記錄,例如通過將一對(duì)應(yīng)于所選記錄的圖形元素從所述工作表拖放至所述細(xì)節(jié)區(qū)上,啟動(dòng)所選存儲(chǔ)記錄在所述細(xì)節(jié)區(qū)中的重放。本發(fā)明的進(jìn)一步的方面包括指定一復(fù)合遍歷記錄,即復(fù)數(shù)個(gè)所存儲(chǔ)的遍歷記錄的一組合。重放所述復(fù)合遍歷記錄包括相鄰地顯示所組合的各遍歷記錄??赏ㄟ^選擇一源記錄、關(guān)閉所有音頻及/或?yàn)槊恳挥涗浿付ㄒ幌鄬?duì)音頻成分,來指定所組合的各遍歷記錄的音頻成分。在另一方面中,在一可使用一標(biāo)準(zhǔn)HTML瀏覽器通過網(wǎng)絡(luò)訪問的文檔中公布由帶注解的遍歷記錄構(gòu)成的工作表區(qū)列表。
在一實(shí)施例中,使用一用于以交互方式創(chuàng)作可視數(shù)據(jù)的帶注解遍歷的遙控?cái)?shù)字電子裝置來實(shí)施本發(fā)明。所述裝置包括一用于顯示可視數(shù)據(jù)的第一顯示器件及一與所述第一器件進(jìn)行通信的手持式遙控器件。所述遙控器經(jīng)配置用于控制圖形交互作用,所述圖形交互作用界定所顯示的可視數(shù)據(jù)的遍歷、注解和存儲(chǔ)帶注解遍歷的一基于時(shí)間的記錄。界定所述遍歷包括通過相對(duì)于所顯示的可視數(shù)據(jù)對(duì)一覆蓋窗口進(jìn)行定位來掃視所述可視數(shù)據(jù),及通過調(diào)整所述覆蓋窗口的大小來進(jìn)行縮放。
本發(fā)明進(jìn)一步提供一種用于創(chuàng)作可視數(shù)據(jù)及相關(guān)聯(lián)的空間音頻數(shù)據(jù)的遍歷的交互式電子方法。所述方法包括顯示所述可視數(shù)據(jù);以交互方式界定所述數(shù)據(jù)的一遍歷,即一基于時(shí)間的幀序列,其中每一幀均包括所述可視數(shù)據(jù)的一空間子集;以及存儲(chǔ)所述遍歷的一記錄,包括與每一幀中的可視數(shù)據(jù)相關(guān)聯(lián)的空間音頻數(shù)據(jù)。所述可視數(shù)據(jù)和音頻數(shù)據(jù)較佳包括對(duì)一情景的視聽記錄。所述可視數(shù)據(jù)也可包括對(duì)位置的描繪,且所述音頻數(shù)據(jù)也可包括對(duì)來自所述位置的聲音的記錄。舉例而言,可視數(shù)據(jù)可描繪一音樂廳或一會(huì)議室,而所述空間音頻可包括對(duì)所述音樂廳中的音樂或?qū)λ鰰?huì)議室中的談話的記錄。另一方面包括通過轉(zhuǎn)錄所述記錄中所包含的空間音頻數(shù)據(jù)來對(duì)所述遍歷記錄進(jìn)行注解。
在另一實(shí)施例中,本發(fā)明提供一種用于通過公布(較佳作為一網(wǎng)頁)一由遍歷記錄和注解構(gòu)成的列表來共享用戶對(duì)可視數(shù)據(jù)的觀點(diǎn)的系統(tǒng)和方法。公布在因特網(wǎng)聯(lián)網(wǎng)或一專用內(nèi)聯(lián)網(wǎng)上的網(wǎng)頁較佳提供一用于顯示所選遍歷的區(qū)域。瀏覽或訪問公布頁面的用戶可以交互方式選擇遍歷用于重放,并以交互方式向所述頁面添加注解以供他人查看。可對(duì)每一注解進(jìn)行編碼(例如,用顏色或陰影以及用名字),以表明其作者。在另一特征中,所列遍歷記錄包括至少一個(gè)復(fù)合遍歷記錄(指定一遍歷組合);根據(jù)此特征,重放較佳包括以并排窗格或以窗口中的窗口的格式相鄰地重放相應(yīng)復(fù)數(shù)個(gè)遍歷的內(nèi)容。在又一特征中,還公布所述注解的一索引,所述索引可通過一網(wǎng)絡(luò)瀏覽器查找。此類索引可提供縮略圖或動(dòng)態(tài)圖像表示以作為所注解的媒體項(xiàng)的替代物。此特征允許檢索和訪問一個(gè)列出那些與在所述查找中指定的注解相關(guān)聯(lián)的遍歷記錄的網(wǎng)頁。
在另一方面中,本發(fā)明提供一種使用復(fù)數(shù)個(gè)遍歷記錄對(duì)可視數(shù)據(jù)進(jìn)行交互式電子探測和分析的方法。所述方法包括顯示一抽象映像;在所述映像上相應(yīng)的復(fù)數(shù)個(gè)位置上繪制復(fù)數(shù)個(gè)標(biāo)記,每一標(biāo)記均對(duì)應(yīng)于一遍歷記錄;并響應(yīng)于選擇所述標(biāo)記而重復(fù)所述遍歷。舉例而言,所述抽象映像可代表來自所述可視數(shù)據(jù)的一景物的輪廓,其通過使用邊緣檢測算法自動(dòng)產(chǎn)生,在此種情形中,可根據(jù)在每一相應(yīng)的遍歷記錄中所捕捉的影像的空間位置以邏輯方式繪制所述標(biāo)記?;蛘?,所述抽象映像可代表一曲線圖,該曲線圖的軸線度量一個(gè)或多個(gè)為所述存儲(chǔ)記錄指定的注解數(shù)據(jù)值,在此種情形中,可根據(jù)為每一相應(yīng)遍歷記錄指定的特定注解值以邏輯方式繪制所述標(biāo)記。在本發(fā)明的又一方面中,使用一圖形用戶界面來實(shí)施所述方法,該圖形用戶界面包括一具有一由遍歷記錄和相關(guān)注解構(gòu)成的列表的工作表區(qū)。在這一方面中,所述方法進(jìn)一步涵蓋在所述抽象映像內(nèi)以交互方式選擇一空間區(qū)域(例如借助一滑動(dòng)條)以及響應(yīng)于此而在所述工作表內(nèi)顯示一由與那些位于所關(guān)心空間區(qū)域內(nèi)的標(biāo)記對(duì)應(yīng)的遍歷記錄構(gòu)成的經(jīng)過濾的列表。
圖1為一流程圖,其根據(jù)本發(fā)明一較佳實(shí)施例圖解說明一用于創(chuàng)作可視數(shù)據(jù)的帶注解的“視點(diǎn)”遍歷的方法。
圖2A根據(jù)一矩形實(shí)施例圖解說明一用于界定視點(diǎn)遍歷的圖形用戶界面。
圖2B根據(jù)一圓柱形實(shí)施例圖解說明一用于界定視點(diǎn)遍歷的圖形用戶界面。
圖3圖解說明一用于查看復(fù)合遍歷記錄的圖形用戶界面。
圖4圖解說明一用于為一遍歷記錄指派分類代碼注解的圖形選擇模板。
圖5是一流程圖,其圖解說明一種公布并與一網(wǎng)絡(luò)社區(qū)的成員共享可視數(shù)據(jù)的帶注解的“視點(diǎn)”遍歷的方法。
圖6為一流程圖,其圖解說明一種使用數(shù)據(jù)映像來探測和分析可視數(shù)據(jù)遍歷的方法。
圖7圖解說明一使用數(shù)據(jù)映像來探測和分析可視數(shù)據(jù)遍歷的圖形用戶界面的一實(shí)施例。
圖8圖解說明一使用數(shù)據(jù)映像來探測和分析可視數(shù)據(jù)遍歷的圖形用戶界面的又一實(shí)施例。
圖9圖解說明一使用數(shù)據(jù)映像來探測和分析可視數(shù)據(jù)遍歷的圖形用戶界面的又一實(shí)施例。
圖10描繪一從具體到抽象呈現(xiàn)的用于探測和分析可視數(shù)據(jù)遍歷的信息工作流。
圖11圖示一用于實(shí)施本文所述較佳實(shí)施例的數(shù)字電子裝置的網(wǎng)絡(luò)。
圖12圖解說明通過“內(nèi)容循環(huán)”來傳送“元內(nèi)容”數(shù)據(jù)包的現(xiàn)有技術(shù)。
圖13圖解說明用于適應(yīng)性速率多服務(wù)和外邊緣內(nèi)容高速緩存的現(xiàn)有技術(shù)架構(gòu)。
具體實(shí)施例方式
現(xiàn)在將參照附圖來詳細(xì)說明本發(fā)明的較佳實(shí)施例。出于本發(fā)明的目的,可視數(shù)據(jù)通常包括任一形式的數(shù)字圖像數(shù)據(jù),包括動(dòng)態(tài)視頻、靜止影像、模擬或動(dòng)畫影像、全景影像及活動(dòng)影像-均帶有或不帶有伴隨的音頻通道。
A.創(chuàng)作圖1為一流程圖,其根據(jù)本發(fā)明一較佳實(shí)施例圖解說明一用于創(chuàng)作可視數(shù)據(jù)的帶注解的“視點(diǎn)”遍歷的方法。圖2A根據(jù)一矩形實(shí)施例圖解說明一用于界定視點(diǎn)遍歷的圖形用戶界面。大致地說,所述創(chuàng)作過程由從可視數(shù)據(jù)中以交互方式選擇一組剪輯的空間和時(shí)間選擇、以及在所述工作空間中對(duì)其進(jìn)行標(biāo)記組成。我們在本文中將這種交互式選擇稱為遍歷。
在100中,在概覽窗口210中顯示可視數(shù)據(jù),從而提供整個(gè)景物的一概覽。概覽210可與一標(biāo)準(zhǔn)視頻流、靜止圖像或動(dòng)畫相關(guān)聯(lián),或者可利用一視頻景物的全景360度表示法。對(duì)于線性視頻,概覽210將顯示一自原始視頻記錄創(chuàng)建的標(biāo)準(zhǔn)4∶3長寬比的視頻流,其中所述景物上的一矩形覆蓋200對(duì)應(yīng)于一對(duì)準(zhǔn)該特定景物區(qū)域的虛擬攝像機(jī)的視野的經(jīng)剪輯的空間區(qū)域。對(duì)于所描繪的全景視頻,概覽210(也稱為“全景概覽”)顯示一自原始圓柱形視頻記錄創(chuàng)建的脫殼(peeled back)的圖像。該全景圖像上的矩形覆蓋200對(duì)應(yīng)于一對(duì)準(zhǔn)所述特定景物區(qū)域的虛擬攝像機(jī)的視場。在兩種情形下,細(xì)節(jié)窗口220均較佳提供“攝像機(jī)視野”-由概覽210內(nèi)的矩形覆蓋200的邊界所界定的一更高分辨率圖像。這種更高分辨率較佳可由用戶調(diào)整,或者可由對(duì)用戶帶寬連接性及/或其他與性能相關(guān)的量度敏感的網(wǎng)絡(luò)服務(wù)來實(shí)現(xiàn)和調(diào)整。如下文所要進(jìn)一步論述,工作空間230提供一用于注解和組織選自所述景物的視頻和音頻遍歷的靈活環(huán)境。
在110中,覆蓋窗口200以交互方式定位于在窗口210中顯示的可視數(shù)據(jù)的一指定的空間子集上。在120中,覆蓋窗口由用戶以交互方式調(diào)整大小,以在所選可視數(shù)據(jù)上“放大”或“縮小”。任務(wù)110和120是根據(jù)用戶需要而隨時(shí)間重復(fù)實(shí)施,而100中的可視數(shù)據(jù)則是連續(xù)顯示。用戶由此遍歷可視數(shù)據(jù)的一所需空間和時(shí)間子集。舉例而言,如果所述可視數(shù)據(jù)包括視頻數(shù)據(jù),則通過根據(jù)每一當(dāng)前視頻幀內(nèi)所特別關(guān)注的內(nèi)容將所述覆蓋窗口定位到200并確定200的大小,所述用戶實(shí)際上可創(chuàng)建“電影中的電影”。我們在本文中有時(shí)會(huì)提及將這種遍歷定義為“視點(diǎn)”創(chuàng)作,因?yàn)樵诿恳槐闅v中均反映作者/用戶對(duì)可視數(shù)據(jù)的獨(dú)特的和個(gè)人的視覺觀點(diǎn)。
就全景可視數(shù)據(jù)而言,創(chuàng)建有效的導(dǎo)航界面為計(jì)算機(jī)成像和用戶界面設(shè)計(jì)帶來挑戰(zhàn)和機(jī)遇。一方面,全向攝像機(jī)可為用戶提供對(duì)整個(gè)現(xiàn)實(shí)世界空間的360度表示(從一單個(gè)節(jié)點(diǎn))。另一方面,用于創(chuàng)建全景概覽的光學(xué)裝置會(huì)在圖像中引入投影失真(變形),從而限制其作為一信息圖像的有效性(例如,參見Foote&Kimber 2000),當(dāng)用戶需要抽取關(guān)于景物中的空間布局、人的位置及身體取向的精確信息時(shí)尤其如此。舉例而言,考慮對(duì)于一全景概覽而言回答下列問題的難度景物的空間布局是何種布局?哪個(gè)方向是前向及后向?左向及右向?各演員彼此離多遠(yuǎn)?另一方面,也許存在其他種類的其中所述概覽中的空間失真將不會(huì)妨礙信息抽取的任務(wù)。舉例而言,一全景概覽很可能將允許用戶回答例如以下等問題誰講了什么?他們何時(shí)講的?他們這樣講時(shí)的狀態(tài)如何(關(guān)于非口頭姿勢、面部表情、身體位置、聲音語調(diào)等的信息)?有趣的是,當(dāng)前用于產(chǎn)生全景概覽的方法可能非常缺乏空間定向力,以致于人們發(fā)現(xiàn)其令人迷惑,無論該任務(wù)是否涉及抽取在空間上精確的信息。
考慮到空間定向,圖2B圖解說明具有用于查看和遍歷全景數(shù)據(jù)的特定值的一本發(fā)明替代實(shí)施例。我們將此實(shí)施例稱為“旋轉(zhuǎn)罐”查看。此處,并非將一圓柱形全景圖像脫殼,而是將所述圖像映射到一圓柱或圓筒210上,用戶可將該圓柱或圓筒210圍繞其豎直和水平軸線旋轉(zhuǎn),以便檢查其內(nèi)容。舉例而言,通過在所述圓筒210中央顯示一攝像機(jī)圖標(biāo)260并使用攝像機(jī)260的視場界定覆蓋窗口270,可向用戶更清楚地顯示所述觀察圖像是如何形成的及所述攝像機(jī)聚焦于所述景物的哪一部分上。通過旋轉(zhuǎn)所述攝像機(jī)或圍繞所述攝像機(jī)的圓筒,可在細(xì)節(jié)窗口220(其未在圖2B中顯示)中顯示經(jīng)矯正的部分圖像270。此界面可使用戶更容易理解前/后、左/右取向以及物體在所述景物中的相對(duì)位置。
在一較佳實(shí)施例中,可視數(shù)據(jù)包括使用復(fù)數(shù)個(gè)圍繞所述景物并且朝內(nèi)的攝像機(jī)捕捉的全景景物數(shù)據(jù)。如實(shí)踐者所將認(rèn)識(shí)到,這使遍歷能夠反映一經(jīng)用戶調(diào)整的3D立體圖,從而尤其能夠使導(dǎo)航看到原本從一特定攝像機(jī)角度看不到的隱藏物體。
在130中,用戶較佳使用圖2A所示的圖形用戶界面對(duì)遍歷進(jìn)行注解,以添加包括自由文本注釋250(a)和分類碼250(c)在內(nèi)的注解。如在圖4中所描繪,分類碼250(c)為選自一編碼模板菜單400中的預(yù)定義的標(biāo)簽。此特征使用戶能夠根據(jù)一支持后續(xù)數(shù)據(jù)分析(舉例而言,如下文結(jié)合圖6-10所述)的統(tǒng)一的分類學(xué)對(duì)遍歷進(jìn)行迅速分類。較佳地,分類標(biāo)簽編碼模板400可由用戶自定義。在另外的實(shí)施例中,遍歷注解較佳包括對(duì)與每一遍歷中所記錄的視頻(其如果尚不能以電子形式得到,則可使用傳統(tǒng)的語音識(shí)別技術(shù)自動(dòng)產(chǎn)生)相對(duì)應(yīng)的音頻250(b)的轉(zhuǎn)錄以及描述遍歷段的“元數(shù)據(jù)”250(d),例如(但不限于)角色名稱、景物名稱、時(shí)間/日期,等等。
在140中,存儲(chǔ)所述帶注解的遍歷的一永久記錄,以供將來參考和研究,包括網(wǎng)絡(luò)公布和分析(將在下文中根據(jù)圖5-10來詳細(xì)闡述)。對(duì)許多實(shí)踐者和應(yīng)用而言,圖1所示的方法將重復(fù)實(shí)施,從而產(chǎn)生復(fù)數(shù)個(gè)帶注解的遍歷記錄。圖2A中的工作表區(qū)230顯示此等記錄的一交互式列表。這樣,列240以一代表性縮略圖標(biāo)識(shí)每一遍歷,列250(a)-(d)顯示相關(guān)聯(lián)的注解。舉例而言,視頻縮略圖可包括靜止圖像、全景縮略圖或動(dòng)作預(yù)覽。
注意,對(duì)于圖2A和圖2B二者的實(shí)施例,通過使覆蓋窗口200保持固定而移動(dòng)概覽窗口210或者使概覽窗口210保持固定而移動(dòng)覆蓋窗口200來將覆蓋窗口200相對(duì)定位,可遍歷概覽窗口210中的可視數(shù)據(jù)。這兩種技術(shù)是等效的,其均屬于本發(fā)明的精神和范圍內(nèi);實(shí)踐者可根據(jù)特定應(yīng)用的詳細(xì)情節(jié)來選擇一種方法。
在150-170中,用戶可重放一記錄遍歷的內(nèi)容。在150中,用戶從在工作表區(qū)230中顯示的列表中以交互方式選擇一存儲(chǔ)遍歷。在一較佳實(shí)施例中,可用的選擇機(jī)制包括使用鼠標(biāo)或其他光標(biāo)控制器件來將一縮略圖從對(duì)應(yīng)于所需遍歷記錄的列240“拖放”至細(xì)節(jié)窗口220上。較佳地,這使細(xì)節(jié)窗口220以及概覽窗口210復(fù)位到所選遍歷序列開始時(shí)的適當(dāng)?shù)膸]^佳地,通過點(diǎn)擊屏幕視頻控制區(qū)215上的“播放”按鈕來啟動(dòng)在窗口210和220中的遍歷的重放170。
如果所選遍歷為一復(fù)合遍歷,即由用戶指定的一個(gè)以上存儲(chǔ)遍歷的復(fù)合,例如圖3所示的復(fù)合遍歷320,那么重放170較佳包括同時(shí)和相鄰地重放多個(gè)遍歷記錄,例如以并排窗格340的形式或以窗口中的窗口的形式。當(dāng)所述復(fù)合遍歷包括音頻通道時(shí),在160中為重放170指定一合適的音頻混合。所述混合可較佳是一收聽一個(gè)遍歷而使其它遍歷無聲的用戶選擇;或使所有音頻均無聲的選擇;或是由用戶選擇的相對(duì)衰落(例如使用屏幕上的滑動(dòng)條來指定),從而突出復(fù)合遍歷中的一個(gè)所需遍歷,且不完全使其它遍歷無聲。
附帶注意圖3所示的變化,其中將細(xì)節(jié)窗口220顯示為一與工作表區(qū)230重疊的“彈出”窗口,而不是象在圖2A和2B中一般顯示為一與覆蓋窗口210相鄰的固定區(qū)域。實(shí)踐者易知,視特定應(yīng)用的需要和喜好而定,可具有此種變化及其他類似性質(zhì)的變化,這些變化都屬于本發(fā)明的精神和范圍內(nèi)。
在某些應(yīng)用中,可使用一單個(gè)工作表區(qū)230來列出和組織來自一個(gè)以上源的可視數(shù)據(jù)的遍歷。舉例而言,此可適用于對(duì)不同電影中的相似景物或不同景物和視頻中一單個(gè)演員或個(gè)人的行為進(jìn)行比較和對(duì)比。
在一針對(duì)某些應(yīng)用的較佳實(shí)施例中,一包括空間音頻數(shù)據(jù)的音頻通道與正被遍歷的視頻數(shù)據(jù)相關(guān)聯(lián)。舉例而言,正被遍歷的數(shù)據(jù)可包括一景物的一視聽記錄;或者,所述視頻數(shù)據(jù)可包括對(duì)一地點(diǎn)的描繪,例如一音樂廳、會(huì)議室或講堂的圖像,而相關(guān)聯(lián)的音頻數(shù)據(jù)包括對(duì)所述音樂廳中的音樂、所述會(huì)議室中的談話或所述講堂里的演講的記錄。
如相關(guān)技術(shù)領(lǐng)域的實(shí)踐者所知,空間音頻通常是例如通過在要錄音的地點(diǎn)配備多個(gè)麥克風(fēng)并對(duì)合成立體聲數(shù)據(jù)進(jìn)行適當(dāng)?shù)男盘?hào)處理來捕捉。
作為本發(fā)明的一個(gè)優(yōu)點(diǎn),包括空間音頻數(shù)據(jù)的實(shí)施例較佳隨每一遍歷記錄一起存儲(chǔ)與用戶在整個(gè)景物內(nèi)所遍歷的空間區(qū)域相關(guān)聯(lián)的音頻數(shù)據(jù)。舉例而言,一較佳實(shí)施例允許用戶以交互方式界定多個(gè)離散的空間聲區(qū),例如通過在概覽窗口210(未顯示)內(nèi)以圖形方式設(shè)置“虛擬麥克風(fēng)”圖標(biāo)。隨一特定遍歷一起存儲(chǔ)的音頻數(shù)據(jù)于是將在所述遍歷的每一幀處反映可在與該特定幀的空間位置相關(guān)聯(lián)的音區(qū)內(nèi)聽到的適當(dāng)聲音。在本發(fā)明所實(shí)現(xiàn)的另一特征中,可通過對(duì)包含在所述記錄中的空間音頻數(shù)據(jù)進(jìn)行轉(zhuǎn)錄來對(duì)所述遍歷記錄進(jìn)行注解(如上文結(jié)合圖1的任務(wù)130及圖形界面區(qū)域250b所述)。因此,僅轉(zhuǎn)錄在空間上相關(guān)的音頻可濾除不相關(guān)的全局噪聲并提供幾個(gè)優(yōu)點(diǎn)。舉例而言,由于濾除了來自其他扇區(qū)的無關(guān)噪聲,因此提高了自動(dòng)語音識(shí)別的精確度。同樣,如果產(chǎn)生轉(zhuǎn)錄,則其將包含僅著重于相關(guān)空間內(nèi)的言辭的可查找文本數(shù)據(jù),從而使文本查找更具效率和有效。
B.共享和協(xié)作1.網(wǎng)絡(luò)公布圖5是一流程圖,其圖解說明一種公布并與一網(wǎng)絡(luò)社區(qū)的成員共享可視數(shù)據(jù)的帶注解的“視點(diǎn)”遍歷的方法。在500中,我們從一帶注解的遍歷記錄列表開始。所述列表可例如使用在本文中結(jié)合圖1-4所述的方法和裝置、具體而言使用在工作表區(qū)230中產(chǎn)生的內(nèi)容來創(chuàng)建。在510中,將此列表作為一網(wǎng)絡(luò)文檔或網(wǎng)頁進(jìn)行公布;較佳地,如所屬領(lǐng)域的技術(shù)人員在其他相關(guān)背景中所知,較佳提供輸出實(shí)用程序來利于進(jìn)行或?yàn)橛脩糇詣?dòng)進(jìn)行此過程。所述網(wǎng)頁較佳公布在公用網(wǎng)絡(luò)上,例如因特網(wǎng)或?qū)S闷髽I(yè)內(nèi)聯(lián)網(wǎng)上,此視應(yīng)用性質(zhì)而定。在515中,由其他用戶通過網(wǎng)絡(luò)、較佳使用標(biāo)準(zhǔn)網(wǎng)絡(luò)瀏覽器來訪問所述網(wǎng)頁。在520中,訪問所述網(wǎng)頁的用戶以交互方式從所顯示的列表中選擇一所關(guān)心的遍歷記錄(例如通過“點(diǎn)擊”該記錄)。作為響應(yīng),在530中,通常在網(wǎng)頁的一指定區(qū)域中或者在一彈出式播放窗口中,為用戶重放與所選記錄相對(duì)應(yīng)的遍歷數(shù)據(jù)。
在網(wǎng)絡(luò)用戶查看一遍歷后,可鼓勵(lì)所述網(wǎng)絡(luò)添加他或她自己關(guān)于該遍歷內(nèi)容的注解。在這種情況下,在540中,所述網(wǎng)絡(luò)用戶以交互方式輸入一新的補(bǔ)充注解,并在550處,通過網(wǎng)絡(luò)以交互方式將新的注解提交給主持所述網(wǎng)頁的服務(wù)器。如實(shí)踐者在其他上下文中所熟知,所述網(wǎng)頁較佳利用交互式聯(lián)機(jī)形式技術(shù)以此種方式捕捉新的注解。在560中,所述服務(wù)器將所述新的注解添加到所公布的網(wǎng)頁上,并將其作為該頁面的一部分顯示給隨后訪問該頁面的所有網(wǎng)絡(luò)用戶。
在本發(fā)明的較佳實(shí)施例和應(yīng)用中,進(jìn)一步使網(wǎng)絡(luò)用戶能夠形成反映共同興趣的社區(qū)和子社區(qū)。(注意我們在本文中有時(shí)將本發(fā)明的一實(shí)施例稱為一DIVERTM系統(tǒng),其代表數(shù)字交互式視頻探測與反映(Digital Interactive VideoExploration and Reflection)技術(shù),并將所存儲(chǔ)遍歷的一工作表列表230稱為一DIVETM工作表。))舉例而言,本發(fā)明的較佳系統(tǒng)可記錄并向網(wǎng)絡(luò)用戶公布所共同感興趣的使用數(shù)據(jù),例如最流行的DIVE、最近張貼的DIVE、最近誰訪問過、現(xiàn)在誰在DIVE等。用戶可較佳定閱關(guān)于新公布的DIVE或DIVE更新的電子郵件通知,并且在選擇(使用頁面中的HTML定位符)所述電子郵件消息中的一鏈接時(shí),可在515中直接瀏覽一特定的所公布工作表230內(nèi)的一指定的或突出顯示的窗格。
較佳網(wǎng)絡(luò)實(shí)施例的進(jìn)一步特征包括一“HyperDiving”能力,其使所公布網(wǎng)頁中的工作表230表項(xiàng)(例如注解區(qū)250)能夠直接超級(jí)鏈接至諸如下列等參考材料類型·現(xiàn)有的視頻DIVE;·另一所公布的DIVE工作表;·網(wǎng)絡(luò)URL(即一網(wǎng)頁或一網(wǎng)絡(luò)文檔引用);及,·所加載的文檔(在此種情況下,將較佳為創(chuàng)建此種鏈接的用戶提供一界面,以瀏覽用戶的本地目錄并選擇和向服務(wù)器加載一文件,然后,該文件即與所述超級(jí)鏈接相關(guān)聯(lián))。
在針對(duì)協(xié)作性網(wǎng)絡(luò)應(yīng)用的較佳實(shí)施例中,用戶可使用諸如“公眾”(全部注冊的和非注冊的用戶)、“全部注冊的”(全部注冊用戶)及個(gè)別和共同界定的用戶和群組的特定組合等訪問方法,為DIVE設(shè)定訪問控制。較佳可賦予不同類別的DIVER用戶適當(dāng)類別的權(quán)利和特權(quán),這些權(quán)利和特權(quán)包括“全權(quán)”(用戶可創(chuàng)建和修改DIVE)、“查看和注解權(quán)”(用戶只能查看和注解DIVE)及“只查看”(用戶只能查看DIVE及其注釋;用戶不可以添加注釋)。舉例而言,可能非注冊用戶應(yīng)全部為“只查看”。
2.網(wǎng)絡(luò)視頻分發(fā)問題在因特網(wǎng)上傳送數(shù)字視頻在某種意義上已在所屬領(lǐng)域中眾所周知和簡單易懂,但要實(shí)現(xiàn)不變的高性能可能極具挑戰(zhàn)性。文件會(huì)很大,查看者偏愛高質(zhì)量和高性能,實(shí)時(shí)要求很高,管道仍然狹窄-且因特網(wǎng)常常不可靠、擁擠、慢且易于崩潰。可靠的協(xié)議(即FTP、HTTP和TCP)可保證傳送,但可能遭受無法接受程度的等待時(shí)間和延遲,而且無法保證及時(shí)的數(shù)據(jù)傳送。不可靠的協(xié)議(例如UDP或RTSP)可提供更快的性能,但可能遭受數(shù)據(jù)丟失,并因而導(dǎo)致接收器側(cè)的內(nèi)容不完整。視頻壓縮算法可減少帶寬,但會(huì)相應(yīng)地降低質(zhì)量。不僅限于回放地對(duì)數(shù)字視頻進(jìn)行處理-包括創(chuàng)作、共享、協(xié)作及專門的交互作用,是一極大的挑戰(zhàn),對(duì)于復(fù)雜問題而言,在處理用于創(chuàng)作、交互作用、協(xié)作和傳送的全景的超高帶寬視頻時(shí),這些對(duì)于傳統(tǒng)線性視頻內(nèi)容即已非常嚴(yán)重的問題會(huì)以指數(shù)方式變得更加困難。
幸而,存在很多種在因特網(wǎng)上處理數(shù)字視頻的方法,而且這一前景發(fā)展迅速。的確,在該技術(shù)前沿上經(jīng)常出現(xiàn)管理視頻的新方案,并經(jīng)常出現(xiàn)形成新的視頻創(chuàng)新的機(jī)會(huì)。由于本發(fā)明的許多應(yīng)用和實(shí)施例可受益于數(shù)字視頻內(nèi)容在因特網(wǎng)上的高性能傳輸,因而本節(jié)對(duì)當(dāng)前的和新興的技術(shù)選項(xiàng)進(jìn)行綜述,以供實(shí)踐者在該上下文中考慮
(a)流式視頻算法。視頻流式算法和協(xié)議的新方法,包括可適合于根據(jù)本發(fā)明獨(dú)有的特性來傳送視頻的專門算法。
(b)視頻文件傳輸協(xié)議。此種解決方案類型包括使用基于軟件的文件傳輸協(xié)議的技術(shù)方法,包括查看用于諸如對(duì)等傳輸和多點(diǎn)傳輸(通常為無狀態(tài)性質(zhì))等高速因特網(wǎng)文件傳輸?shù)摹跋乱淮鷧f(xié)議”。
(c)媒體分發(fā)方法。存在媒體計(jì)算、存儲(chǔ)和分發(fā)方法,其可用于提供增強(qiáng)的性能,例如內(nèi)容高速緩存和復(fù)制、聯(lián)合服務(wù)器和數(shù)據(jù)庫、網(wǎng)格計(jì)算和專用超高速網(wǎng)絡(luò)等。
(d)視頻壓縮算法。此種解決方案類型包括視頻壓縮算法。此視頻壓縮算法查看MPEG2國際視頻壓縮標(biāo)準(zhǔn)的替代方案和發(fā)展路徑。
注意我們在下文中有時(shí)將本發(fā)明的一實(shí)施例稱為DIVERTM(代表數(shù)字交互式視頻探測與反映(Digital Video Exploration and Reflection)技術(shù)),并將所存儲(chǔ)遍歷的一工作表列表230稱為一DIVETM工作表。
(a)流式視頻算法。
在數(shù)字視頻領(lǐng)域中,存在很多種眾所周知的流式媒體技術(shù)。然而,這些流式算法均未設(shè)計(jì)成滿足本發(fā)明的獨(dú)特要求。為了本文說明的目的,將設(shè)計(jì)成滿足本發(fā)明的特殊要求的新的類型的流式算法稱為DIVER流。為處理DIVER流,流式算法應(yīng)較佳能夠解決媒體的甚高帶寬性質(zhì)、并行流表示(概覽和虛擬攝像機(jī))、線性及/或全景視頻特性、以及如下要求提供對(duì)虛擬攝像機(jī)電影的時(shí)空隨機(jī)訪問,以便能夠在空間和時(shí)間上縮放和掃視所述景物顯示。下面介紹若干備選方法。
(i)自適應(yīng)多分辨率提出一種自適應(yīng)多分辨率存儲(chǔ)和網(wǎng)絡(luò)化訪問方法來處理DIVER流,其中所述流能適應(yīng)可用網(wǎng)絡(luò)帶寬和CPU能力??衫靡浑娪啊盎緦?duì)”-具有一適度分辨率的概覽電影和更高分辨率虛擬攝像機(jī)電影。從所述高分辨率基本對(duì)得到的其他電影以越來越低的分辨率存儲(chǔ),從而實(shí)質(zhì)上形成一“圖像金字塔”,即一具有不同分辨率的圖像堆疊(Ramella,2001年)。此方案能夠適應(yīng)可用帶寬和CPU能力(借助一反饋機(jī)構(gòu))以確定用于重放的分辨率水平。有人提出根據(jù)對(duì)網(wǎng)絡(luò)帶寬的實(shí)時(shí)監(jiān)控和桌面CPU性能測量來使用“金字塔分辨率轉(zhuǎn)換”。
(ii)壓縮數(shù)據(jù)二次抽樣提出一種壓縮數(shù)據(jù)二次抽樣方案來允許對(duì)壓縮的高分辨率虛擬攝像機(jī)電影進(jìn)行時(shí)空隨機(jī)訪問,以在進(jìn)行中產(chǎn)生壓縮的、經(jīng)過時(shí)空剪輯的虛擬攝像機(jī)數(shù)據(jù)流。雖然視頻壓縮會(huì)降低存儲(chǔ)和網(wǎng)絡(luò)成本,但會(huì)提高處理要求,因?yàn)閿?shù)據(jù)在處理之前必須解壓縮。解壓縮的開銷非常大壓縮算法(例如JPEG或MPEG)要求每一像素150到300個(gè)解壓縮指令,相當(dāng)于所處理的質(zhì)量視頻的每一NTSC秒的27億個(gè)指令。數(shù)據(jù)在處理后必須壓縮,此會(huì)顯著增加開銷。在解壓縮后處理視頻被稱為空間域處理,這是最常使用的方法。避免這些問題的一種方法是直接以視頻數(shù)據(jù)的壓縮形式處理視頻數(shù)據(jù)(Smith 1993年,Arman 1993年),此會(huì)減少處理所需的數(shù)據(jù)量,并減少復(fù)雜且費(fèi)時(shí)的壓縮和解壓縮循環(huán)。這種方法被稱為壓縮域處理,它將空間域處理轉(zhuǎn)換成其頻域的等效處理。通過如下方式對(duì)壓縮的數(shù)據(jù)進(jìn)行處理對(duì)壓縮的位流進(jìn)行熵譯碼以在頻域中恢復(fù)稀疏向量數(shù)據(jù),應(yīng)用一個(gè)或多個(gè)壓縮域運(yùn)算符,并對(duì)結(jié)果進(jìn)行量化和壓縮。注意,可對(duì)壓縮數(shù)據(jù)格式、以頻率空間或其他編碼表示形式實(shí)施壓縮域處理。
在所提出的方案中,將使用一種能在壓縮域中支持處理和視頻景物二次抽樣的DIVER視頻的壓縮表示形式。此可用于幀間或幀內(nèi)視頻算法。當(dāng)在服務(wù)器處應(yīng)用該方法時(shí),該方法將在壓縮的數(shù)據(jù)流內(nèi)選擇感興趣的剪輯的時(shí)空視頻流區(qū),并且只隨壓縮的概覽電影一起為虛擬攝像機(jī)路徑傳輸對(duì)應(yīng)的壓縮流。一種更大程度地使用客戶機(jī)的替代方法是隨界定虛擬攝像機(jī)路徑的矩形的空間和時(shí)間坐標(biāo)一起傳輸壓縮的全分辨率虛擬攝像機(jī)視頻,然后在客戶機(jī)側(cè)選擇并解壓縮所述電影的適當(dāng)區(qū)域。推薦使用服務(wù)器側(cè)方法,因?yàn)槠涓咔熬?,但確實(shí)要求進(jìn)行大量的服務(wù)器處理。
(iii)逐漸改良提出一種逐漸改良的方案來在用戶與所述DIVE交互作用時(shí)提供分辨率隨時(shí)間逐漸升高的DIVER視頻影像。所述逐漸改良概念(Cohen 1988年)起源于用于使用輻射通量密度算法來逐漸地迅速渲染復(fù)雜3D景物的計(jì)算機(jī)圖形領(lǐng)域。在DIVER情形中,而是使用一類似機(jī)理將逐漸改良應(yīng)用于數(shù)字視頻流。此方法也可以結(jié)合上文所述的多分辨率算法使用。在此種情況下,將首先傳輸所述圖像金字塔的最低或較低層,接著傳輸所述金字塔的后續(xù)層。將使用標(biāo)準(zhǔn)內(nèi)插算法將所述金字塔的一層添加到下一層,并且如果需要,產(chǎn)生若干中間金字塔層。首先發(fā)送所述景物的最低分辨率版本作為一起點(diǎn)并將其用于產(chǎn)生所述概覽電影和所述虛擬攝像機(jī)。在用戶與所述電影隨時(shí)間交互作用期間,將分辨率逐漸提高的視頻傳輸至客戶機(jī)。隨著所述用戶與一特定視頻DIVE的交互越來越多,所述視頻的顯示質(zhì)量也越來越高。
(iv)服務(wù)器側(cè)再壓縮提出一種服務(wù)器側(cè)再壓縮方案來允許創(chuàng)建傳輸中的所剪輯時(shí)空虛擬攝像機(jī)電影的實(shí)時(shí)壓縮版本。通過此種方法,在服務(wù)器上將高帶寬高分辨率虛擬攝像機(jī)原作解壓縮。使用一圖像尺寸減小和過濾過程來減小分辨率并在服務(wù)器處產(chǎn)生未壓縮的視頻。所述未壓縮的視頻以一更低的分辨率受到再壓縮并以一壓縮形式傳輸。本方案既可用于概覽又可用于虛擬攝像機(jī)。此模型在需要時(shí)起作用并且將需要能夠在用戶正查看許多DIVE時(shí)處理許多并行的再壓縮。此方法將有可能只用于其中在服務(wù)器層上有極高性能的分布式和并行處理陣列可供用于視頻變碼(解壓縮和再壓縮)的情況下。
(v)凹顯示提出一種“凹點(diǎn)”概念(Chang及Yap,1997年),以在虛擬攝像機(jī)和概覽電影中所關(guān)心的區(qū)域中提供高分辨率。所述凹點(diǎn)概念模仿人眼的行為??梢暬饕且环N“心理生理現(xiàn)象”。這一事實(shí)可用來解決當(dāng)前可視化研究中的挑戰(zhàn)。生物視覺的一關(guān)鍵事實(shí)是其使用“凹的圖像”,在這類圖像中,在凹處的分辨率遠(yuǎn)遠(yuǎn)高于外圍的分辨率。與標(biāo)準(zhǔn)圖像相比,這些種類的圖像明顯具有極小的數(shù)據(jù)密度。為對(duì)不均勻的分辨率進(jìn)行調(diào)整,必須向查看者提供新程度的“有效控制”(Chang,Yap及Yen,1997年)。在針對(duì)DIVER提出的方案中,將有一個(gè)用于所關(guān)注區(qū)域(剪輯的時(shí)空區(qū))且覆蓋一粗粒度的“大圖片”的高分辨率聚焦的虛擬攝像機(jī)圖像(在一高級(jí)實(shí)施方案中,該概念可與眼睛跟蹤結(jié)合使用,以根據(jù)引起人睛興趣的區(qū)域來精確地提供分辨率)。
(b)文件傳輸協(xié)議(i)標(biāo)準(zhǔn)協(xié)議HTTP、HTTPS、FTP、WebDAV-這些是當(dāng)前在因特網(wǎng)上用于文件傳輸和共享的若干標(biāo)準(zhǔn)協(xié)議。這些協(xié)議和系統(tǒng)均可用于傳輸、共享和分發(fā)大的媒體文件。這些協(xié)議最大的優(yōu)點(diǎn)是其無處不在,而最大的缺點(diǎn)是其缺少對(duì)增強(qiáng)媒體內(nèi)容的高性能傳送的特定支持。
(ii)下一代協(xié)議FTP(“文件傳送協(xié)議”)是在20世紀(jì)70年代初作為一在因特網(wǎng)上傳輸文件的協(xié)議開發(fā)而成。此標(biāo)準(zhǔn)在客戶機(jī)與服務(wù)器之間建立一對(duì)話,其中數(shù)據(jù)被分離成信息包并以小的網(wǎng)絡(luò)數(shù)據(jù)包形式傳輸。在典型的數(shù)據(jù)包丟失和往返時(shí)間(RTT)中,F(xiàn)TP通常在擁擠和延遲的環(huán)境下運(yùn)行。一旦網(wǎng)絡(luò)丟失和延遲達(dá)到一定限度,對(duì)數(shù)據(jù)傳輸而言,增大帶寬的益處可能極小甚至毫無益處,即使在甚高速鏈路上,數(shù)據(jù)傳輸率也無法超過一相當(dāng)?shù)偷拈撝?,從而?dǎo)致這些鏈路上的效率非常低。FTP因其無處不在而頗為有用,但在用于當(dāng)前因特網(wǎng)上所需的大文件尺寸傳輸類型時(shí),當(dāng)數(shù)據(jù)包丟失增加時(shí),其效率可能非常有限。
最近出現(xiàn)了使用許多種不同的獨(dú)特方法來處理與FTP協(xié)議的低效率相關(guān)的主要根本原因的創(chuàng)新解決方案。現(xiàn)在可得到一組據(jù)說“可提供TCP的可靠性和UDP的速度”的新協(xié)議;這些方案可比FTP明顯改進(jìn),其量化的速度提高量的范圍為5X到10X或更高。
一種特別引起注意的方法是MetaContent方法(Digital Fountain,2002年),在本文中將其稱為內(nèi)容循環(huán)(Content cycling)方法,其中內(nèi)容是以一與順序無關(guān)的方式傳輸。如圖12所示,Digital Fountain的數(shù)據(jù)分發(fā)技術(shù)與傳統(tǒng)文件服務(wù)器或傳輸協(xié)議的數(shù)據(jù)分發(fā)技術(shù)根本不同。該架構(gòu)由一Digital Fountain服務(wù)器、一Digital Fountain客戶機(jī)和一叫做“MetaContent(元內(nèi)容)”的專利概念組成,其中使用數(shù)學(xué)“比喻”在接收器處重新構(gòu)造數(shù)據(jù)。使用MetaContent,將數(shù)據(jù)作為一“與順序無關(guān)”的信息流來接收,此信息流類似于多點(diǎn)傳輸視頻流。包含獨(dú)立產(chǎn)生的Meta-Content(元內(nèi)容)的數(shù)據(jù)包完全可互換,且接收器可隨時(shí)接入數(shù)據(jù)“源泉”。所述Fountain客戶機(jī)接收哪一Meta-Content以及以什么樣的順序接收并不重要。只有所接收的獨(dú)立產(chǎn)生的Meta-Content的數(shù)量才能決定何時(shí)可重新構(gòu)造原始內(nèi)容。因此,如果包含Meta-Content的數(shù)據(jù)包在傳輸中丟失,則在隨后接收的數(shù)據(jù)包中所包含的任何相等數(shù)量的Meta-Content剛好可用于重新構(gòu)造原始內(nèi)容。在此種情形中,并非如大多數(shù)傳輸協(xié)議一般實(shí)施嚴(yán)格的順序性數(shù)據(jù)傳送,而是利用循環(huán)的重復(fù)性數(shù)據(jù)方案。
與例如FTP等標(biāo)準(zhǔn)協(xié)議相比,使用Digital Foutain可使傳輸速度得到顯著提高。在通常情況下,與FTP相比,傳輸速度通常提高2.5X到5X或更高,并且可以高達(dá)2至3個(gè)數(shù)量級(jí)。另外,在某些情況下,Digital Fountain可提供高達(dá)95%的鏈路利用率。擁塞流量控制可確保對(duì)其他網(wǎng)絡(luò)通信量的公平性,而且此方案使用一小的(若干兆字節(jié))的存儲(chǔ)器使用量。Digital Fountain要求所有數(shù)據(jù)接收方使用專有客戶機(jī)側(cè)軟件以及在服務(wù)器側(cè)上使用Transporter Fountain。為使用Transporter Fountain平臺(tái),必須購買一服務(wù)器許可證。Digital Fountain使用UDP協(xié)議,這可能要求媒體用戶的IT或網(wǎng)絡(luò)部門進(jìn)行防火墻配置工作。雖然DigitalFountain的優(yōu)點(diǎn)可能很大,但其優(yōu)點(diǎn)會(huì)根據(jù)網(wǎng)絡(luò)速度、等待時(shí)間和跳躍次數(shù)而對(duì)上下文非常敏感;實(shí)踐者應(yīng)留心查看此功能的潛在應(yīng)用,以保證其只用于適當(dāng)?shù)那闆r下。
(c)媒體分發(fā)(i)內(nèi)容高速緩存DIVER工程可考慮許多種內(nèi)容高速緩存方法來提高終端用戶的視頻性能。DIVER組可使用其自身的開發(fā)資源開發(fā)一組方法。這可能包括用于使用一同步算法將視頻內(nèi)容從一中央DIVER服務(wù)器復(fù)制到區(qū)域DIVER服務(wù)器的獨(dú)特機(jī)理,以將經(jīng)常被訪問的視頻DIVE內(nèi)容分發(fā)到一由DIVER服務(wù)器構(gòu)成的分布式局部網(wǎng)絡(luò)。當(dāng)一用戶請(qǐng)求所述內(nèi)容時(shí),可將其指引到滿足所規(guī)定標(biāo)準(zhǔn)(即通信量最少、負(fù)荷最小、位置最近或這些量度的組合)的最近的DIVER服務(wù)器。另一選擇將是采用市售內(nèi)容高速緩存產(chǎn)品(Vichare,2002年)。一附加選擇將是將一內(nèi)部開發(fā)的高速緩存模型與市售高速緩存產(chǎn)品相結(jié)合。
目前,內(nèi)部網(wǎng)和因特網(wǎng)上的終端用戶正使用內(nèi)容聯(lián)網(wǎng)產(chǎn)品(由例如Inktomi、Akamai、CacheFlow、Cisco、Network Appliance等供應(yīng)商提供)來提高對(duì)豐富內(nèi)容的查看和交互性能。這些產(chǎn)品為以一可縮放的、可靠且安全的方法傳送靜態(tài)內(nèi)容、流式內(nèi)容及動(dòng)態(tài)內(nèi)容提供基礎(chǔ)結(jié)構(gòu)。高速緩存的要素包括在網(wǎng)絡(luò)邊緣處靠近終端用戶存儲(chǔ)的內(nèi)容,以提高性能并使上游帶寬最小化;內(nèi)容選路,其對(duì)內(nèi)容進(jìn)行選路以創(chuàng)建一內(nèi)容位置目錄,網(wǎng)絡(luò)和服務(wù)器負(fù)荷使用所述目錄將請(qǐng)求選路到最佳的數(shù)據(jù)中心或提供最近的內(nèi)容;及內(nèi)容分發(fā)和管理,其是將靜態(tài)內(nèi)容、動(dòng)態(tài)內(nèi)容和流式內(nèi)容積極、智能地從任一起始點(diǎn)分發(fā)到網(wǎng)絡(luò)邊緣。為了便于在網(wǎng)絡(luò)上存取,一高速緩存器件智能并迅速地選擇和存儲(chǔ)Web數(shù)據(jù)。更頻繁被請(qǐng)求的內(nèi)容是存儲(chǔ)在網(wǎng)絡(luò)上,從而大大減輕Web服務(wù)器和防火墻的負(fù)擔(dān)。因此,網(wǎng)絡(luò)可更快地滿足對(duì)網(wǎng)頁和增強(qiáng)媒體內(nèi)容的請(qǐng)求。高速緩存器件用于三種不同的情景中其可以“反向高速緩沖存儲(chǔ)器”形式位于網(wǎng)路服務(wù)器前面,以減小服務(wù)器負(fù)荷和加快站點(diǎn)性能;其可以“正向高速緩沖存儲(chǔ)器”形式位于一企業(yè)LAN面向WAN的位置處,以減少WAN上的通信量;其可沿著一ISP的或運(yùn)營商的主干線駐存于許多個(gè)“分布式高速緩沖存儲(chǔ)器”點(diǎn)上,以減少沿著傳送路線的通信量。
實(shí)踐者可對(duì)可供用于在分布式環(huán)境中優(yōu)化對(duì)DIVER內(nèi)容的訪問的各種內(nèi)容高速緩存選項(xiàng)進(jìn)行評(píng)估。
(ii)聯(lián)合服務(wù)器與數(shù)據(jù)庫聯(lián)合服務(wù)器和數(shù)據(jù)庫是實(shí)踐者可考慮用于DIVER的可能感興趣的技術(shù)。較佳應(yīng)用包括開發(fā)一在Video Collaboratories分布式網(wǎng)絡(luò)上復(fù)制的DIVER環(huán)境;對(duì)于此種應(yīng)用,較佳具有一種允許媒體存儲(chǔ)于分布式數(shù)據(jù)庫中的系統(tǒng)。這將使各個(gè)DIVER中心能夠各自保持其自己的DIVER服務(wù)器和內(nèi)容,但仍然能夠在所有DIVER站點(diǎn)中以全局方式共享內(nèi)容和元數(shù)據(jù)。
聯(lián)合系統(tǒng)是一種特殊種類的分布式數(shù)據(jù)庫管理系統(tǒng)(DBMS)(Rutledge,2001年)。聯(lián)合系統(tǒng)使人們能夠查詢和檢索位于其他DBMS(例如Oracle、Sybase、Microsoft SQL服務(wù)器或如mySQL等Open Source數(shù)據(jù)庫)上的數(shù)據(jù)。SQL語句可以在一單個(gè)語句中提及多個(gè)DBMS或單獨(dú)的數(shù)據(jù)庫。舉例而言,人們可以連接位于一Oracle表格、Microsoft SQL服務(wù)器和mySQL視圖中的數(shù)據(jù)。在一聯(lián)合數(shù)據(jù)庫環(huán)境下,會(huì)自多個(gè)異質(zhì)數(shù)據(jù)源提供一單個(gè)同步視圖。聯(lián)合系統(tǒng)模型是一適用于具有一般通信量和性能要求的小重要和中等重要應(yīng)用的架構(gòu)。
聯(lián)合系統(tǒng)由一將用作聯(lián)合數(shù)據(jù)庫(一數(shù)據(jù)庫實(shí)例)的數(shù)據(jù)庫和一個(gè)或多個(gè)數(shù)據(jù)“源”組成。用于標(biāo)識(shí)數(shù)據(jù)源及其特性的目錄項(xiàng)構(gòu)成所述聯(lián)合數(shù)據(jù)庫。DBMS和數(shù)據(jù)構(gòu)成所述數(shù)據(jù)源。可使用“綽號(hào)”來指代位于所述數(shù)據(jù)源中的表格和視圖。應(yīng)用程序如同連接至任一其他數(shù)據(jù)庫一般連接至聯(lián)合數(shù)據(jù)庫,并期望仿佛其是一個(gè)統(tǒng)一數(shù)據(jù)庫一般來利用其內(nèi)容。
在聯(lián)合系統(tǒng)建立后,便可訪問各數(shù)據(jù)源中的信息,仿佛其處于一個(gè)大的數(shù)據(jù)庫中一般。用戶和應(yīng)用程序向一個(gè)聯(lián)合數(shù)據(jù)庫發(fā)送查詢,由所述聯(lián)合數(shù)據(jù)庫從數(shù)據(jù)源中檢索數(shù)據(jù)。聯(lián)合系統(tǒng)可在某些限制條件下運(yùn)行;舉例而言,分布式請(qǐng)求僅限于只讀操作。
(iii)網(wǎng)格計(jì)算最近幾年中,眾多的開發(fā)已將網(wǎng)格計(jì)算(Foster 2001年、Chen 2002年)領(lǐng)域變成一種對(duì)大規(guī)模分布式計(jì)算任務(wù)似乎可取的解決方案。人們已經(jīng)開始著重于用于科學(xué)性可視化、圖像渲染、航天計(jì)算和諸如多人多媒體游戲(也稱作MMG-對(duì)應(yīng)于大規(guī)模多人游戲(Massively Multiplayer Gaming,且是IBM Butterfly.Net(http//www.butterfly.net)首創(chuàng)精神的核心)等商業(yè)應(yīng)用的研究應(yīng)用。如果DIVFR的使用在Digital Video Collaboratories網(wǎng)絡(luò)上變得很普遍,并且在一分布式用戶基數(shù)中廣泛地需要處理大量的大文件尺寸的全景和傳統(tǒng)視頻,那么網(wǎng)格計(jì)算可是一可供考慮的非常令人感興趣的解決方案。網(wǎng)格計(jì)算令人感興趣,因?yàn)槠湓试S大規(guī)模地捕獲空閑的CPU循環(huán),從而實(shí)質(zhì)上高效地利用計(jì)算資源(并因此顯著降低成本)。一確定一計(jì)算任務(wù)是否映射到一網(wǎng)格計(jì)算解決方案的檢查表可見于(Dyck 2002年)。一典型的網(wǎng)格計(jì)算“檢查表”包括確定所述計(jì)算是否需要滿足下列標(biāo)準(zhǔn) 分散式管理結(jié)構(gòu) 需要高級(jí)計(jì)算 計(jì)算可分布至各組件封裝內(nèi) 數(shù)據(jù)已經(jīng)分布于許多位置中 不需要快速或可預(yù)測的響應(yīng)時(shí)間 計(jì)算容忍軟件和硬件故障實(shí)踐者應(yīng)檢查在一特定應(yīng)用中所述DIVER對(duì)數(shù)字視頻處理的需要,以確定是否與一網(wǎng)格計(jì)算方法潛在地匹配。例如,在實(shí)施下列數(shù)字視頻分析任務(wù)的應(yīng)用中也可提高網(wǎng)格計(jì)算的DIVER值 將音頻自動(dòng)轉(zhuǎn)錄成可查找的帶索引的文本 全景反扭曲 將視頻“編碼”成行為類別和統(tǒng)計(jì)分析 將視頻變碼成低位速率和視頻流格式,隨著這些能力日趨復(fù)雜和對(duì)計(jì)算的要求越來越苛求,會(huì)尤其如此。
Globus Project(http//www.globus.org)是一管理網(wǎng)格計(jì)算的Open Source(開放式源碼)開發(fā)、研究和原型的組織。Globus Toolkit2.0現(xiàn)在可供用于生產(chǎn)目的;Globus Toolkit3.0著重于開放網(wǎng)格服務(wù)架構(gòu)(OGSA)-網(wǎng)格計(jì)算與網(wǎng)絡(luò)服務(wù)框架的結(jié)合。
(iv)對(duì)等式在Kontiki(http//www.kontiki.com)傳送管理系統(tǒng)(Delivery ManagementSystem,圖13所示的架構(gòu))中,可得到一組在企業(yè)中提供數(shù)字媒體的公布安全性、傳送和跟蹤的應(yīng)用程序。此技術(shù)采用對(duì)等式文件共享和一大型文件分發(fā)模型,在所述模型中,一旦內(nèi)容已在一節(jié)點(diǎn)處得到訪問,便以一分布式方式在廣域網(wǎng)和局域網(wǎng)節(jié)點(diǎn)之間高速緩存數(shù)據(jù)。在越來越多數(shù)量的用戶更頻繁地訪問數(shù)據(jù)時(shí),數(shù)據(jù)便被分發(fā)到更多節(jié)點(diǎn),因而對(duì)內(nèi)容的訪問變得更快。此技術(shù)類似于大規(guī)模對(duì)等文件共享能力,但注重于增強(qiáng)媒體的更加安全、可靠和企業(yè)強(qiáng)度的傳送。Kontiki解決方案要求一轉(zhuǎn)有客戶機(jī)和一服務(wù)器模塊。
此技術(shù)是基于Bandwidth Harvesting(包括Adaptive Rate MultiServing(自適應(yīng)速率多服務(wù),其中Kontiki監(jiān)控正服務(wù)于該文件的每一臺(tái)計(jì)算機(jī)的響應(yīng)時(shí)間和可用帶寬,并且自適應(yīng)性地從提供最佳吞吐量的計(jì)算機(jī)請(qǐng)求更多的數(shù)據(jù))、Caching Content(高速緩存內(nèi)容,在外部網(wǎng)格邊緣處)、及Time Shifting(時(shí)移,其中Kontiki的網(wǎng)絡(luò)目錄建立已預(yù)定了即將進(jìn)行的一次性傳送和正在進(jìn)行的傳送(例如每周新聞提要)的媒體用戶的列表,并在非高峰時(shí)間自動(dòng)傳送這些文件))、Digital Rights Management(數(shù)字權(quán)限管理)和一Secure Distributed NetworkManagement Protocol(安全分布式網(wǎng)絡(luò)管理協(xié)議)。
此方法的速度優(yōu)點(diǎn)相當(dāng)突出,并且類似于Digital Fountain,在各種情形中,回報(bào)可能很顯著,其中速度提高多倍或多個(gè)數(shù)量級(jí)(即當(dāng)在局部網(wǎng)上在一就近的臺(tái)式機(jī)上就地高速緩存媒體文件時(shí))。
(v)手持式及移動(dòng)視頻手持式和移動(dòng)裝置領(lǐng)域繼續(xù)以驚人的步伐前進(jìn),新型的手持式裝置和手機(jī)可提供彩屏、更大的存儲(chǔ)器、帶寬和存儲(chǔ)能力。合乎邏輯地,可考慮使用這些裝置作為一在上面使用媒體分發(fā)的平臺(tái)。舉例而言,數(shù)據(jù)存儲(chǔ)卡(CompactFlash、SmartMedia及其他數(shù)據(jù)存儲(chǔ)卡)提供從幾兆字節(jié)一直到四分之一吉字節(jié)或以上的不等的數(shù)據(jù)存儲(chǔ)能力。此種存儲(chǔ)水平非常適合于處理壓縮的數(shù)字視頻文件。可以設(shè)想在此種能夠?qū)崿F(xiàn)高數(shù)據(jù)存儲(chǔ)能力的新類型裝置上使用線性或全景視頻內(nèi)容。Kinoma(http//www.kinoma.com)剛剛發(fā)布了一種用于在手持式裝置上顯示高質(zhì)量數(shù)字視頻的有力的解決方案。Kinoma提供一創(chuàng)作環(huán)境,該創(chuàng)作環(huán)境允許獲取一輸入源電影并將它轉(zhuǎn)換成一適合于在一手持式裝置上重放和交互的專門格式。
為在手持式裝置上使用視頻DIVE,值得考慮多種視頻編碼選項(xiàng)。舉例而言,可以一“可縮放”的方式呈現(xiàn)DIVE視頻,以便以包括適合于低端裝置的位速率在內(nèi)的多種位速率產(chǎn)生內(nèi)容?;蛘?,可將視頻變碼成一設(shè)計(jì)用于手持式裝置上的低位速率視頻的新格式。最后,可使用所述視頻的一“智能”呈現(xiàn)-其將根據(jù)可用的計(jì)算能力、屏幕尺寸,等而自動(dòng)按比例縮放。
(d)視頻壓縮(i)概述視頻壓縮算法是總體視頻傳送圖片的一重要部分。所使用的算法將在確定文件大小、傳輸時(shí)間、圖片質(zhì)量、編輯能力和與工業(yè)標(biāo)準(zhǔn)的相符性中起關(guān)鍵作用。在視頻壓縮領(lǐng)域中不斷涌現(xiàn)出創(chuàng)新性的新開發(fā),其中許多廠家提出許多關(guān)于文件大小和圖片質(zhì)量的強(qiáng)烈權(quán)利主張。建議在此領(lǐng)域中謹(jǐn)慎行事,因?yàn)樾碌膲嚎s算法要求大量的時(shí)間和資源投資和投入。應(yīng)該根據(jù)基本的設(shè)計(jì)參數(shù)(壓縮比、文件尺寸、傳輸時(shí)間、標(biāo)準(zhǔn)相符性、圖片質(zhì)量、開放度,等等)對(duì)任何新的壓縮算法進(jìn)行評(píng)價(jià)。許多供應(yīng)商只強(qiáng)調(diào)其視頻壓縮文件的尺寸和速率信息,但這對(duì)于評(píng)價(jià)而言是不夠的。對(duì)一新的編譯碼器來說,一重要的決定因素是圖片質(zhì)量。目前還沒有用于測定圖片質(zhì)量的既定的通用定量量度(雖然可使用例如信噪比等量度進(jìn)行)。在缺少定量數(shù)據(jù)的條件下,必須對(duì)目標(biāo)用戶實(shí)施測試,以確定圖片質(zhì)量是否滿足對(duì)可接受質(zhì)量視頻的需要。
(ii)標(biāo)準(zhǔn)MPEG-4是由MPEG(運(yùn)動(dòng)圖像專家組)開發(fā)的一ISO/IEC標(biāo)準(zhǔn),該委員會(huì)還開發(fā)了稱作MPEG-1的全球標(biāo)準(zhǔn)(從而產(chǎn)生視頻CD、PC重放、MP3)和MPEG-2(當(dāng)前在DVD和數(shù)字電視上廣泛使用)。例如參見http//mpeg.telecomitalialab.com/standards/mpeg-4/mpeg-4.htm。MPEG-4是由全世界數(shù)百個(gè)研究者和工程師所進(jìn)行的一項(xiàng)新的國際性努力的結(jié)果。MPEG-4是建立在三個(gè)領(lǐng)域(數(shù)字電視;交互式圖形應(yīng)用(合成內(nèi)容);和交互式多媒體(環(huán)球網(wǎng),內(nèi)容的分發(fā)和訪問)的經(jīng)過證明的成功之上。MPEG-4提供能夠集成所述三個(gè)領(lǐng)域的生產(chǎn)、分發(fā)和內(nèi)容訪問范例的標(biāo)準(zhǔn)化技術(shù)元素。相關(guān)標(biāo)準(zhǔn)MPEG-7(內(nèi)容描述標(biāo)準(zhǔn)(Standard for Content Description))和MPEG-21(多媒體框架(Multimedia Framework))當(dāng)前正在開發(fā)之中,并且很可能會(huì)與MPEG-4相關(guān)。
MPEG-4是一基于目標(biāo)的視頻標(biāo)準(zhǔn),其流式方法會(huì)產(chǎn)生與MPEG-2(當(dāng)前的行業(yè)標(biāo)準(zhǔn))相同質(zhì)量的視頻流,但只使用MPEG-2位速率的三分之一。這種在相同質(zhì)量級(jí)別上的位速率降低非常明顯并使傳輸時(shí)間顯著加速。MPEG-4在整個(gè)帶寬頻譜上-從手機(jī)一直到高位速率寬帶-提供極高的質(zhì)量,這可與當(dāng)今所具有的最好的專利壓縮算法相媲美。
Apple計(jì)算機(jī)強(qiáng)力支持MPEG-4。例如參見http//www.apple.com/mpeg4/。MPEG-4將為QuickTime 6的一組成要素,Real Networks也已采用這一標(biāo)準(zhǔn)。然而,值得注意的是,Microsoft尚待接受這一標(biāo)準(zhǔn),且正在提供一種叫做“Corona”(Windows Media 9)的替代方案。參看http//www.microsoft.com/windows/windowsmedia/thirdgen/default.asp。
(iii)開放式源碼(編譯碼器)VP3(www.vp3.com)為一“開放式源碼”視頻編譯碼器。該編譯碼器允許開放式源碼社區(qū)訪問一具有增強(qiáng)和擴(kuò)展視頻處理代碼的選項(xiàng)的視頻編譯碼器源碼基數(shù)。VP3的目標(biāo)是高質(zhì)量視頻和高壓縮程度,且可在PC和Macintosh計(jì)算機(jī)上快速解壓。內(nèi)容可在網(wǎng)上流式傳輸,或由一本地磁盤驅(qū)動(dòng)器、CD或DVD播放。
當(dāng)前在QuickTime中支持VP3,且VP3支持視頻內(nèi)容的編碼(以QuickTime5.x Pro)和譯碼(QuickTime 5.x標(biāo)準(zhǔn))。編碼后的視頻文件自QuickTime StreamServer流式傳輸或由一網(wǎng)絡(luò)服務(wù)器提供以便逐漸下載。對(duì)于Mac和PC,VP3可與QuickTime兼容,而且它可實(shí)現(xiàn)使用QuickTime Pro編碼,或任何其他與QuickTime一致的編碼應(yīng)用。VP3文件也可使用Windows Media Player(其中文件與Direct X和Video For Windows平臺(tái)二者都兼容)播放。Windows的VP3允許使用與Video For Windows相一致的編碼器(例如Adobe Premiere和Cleaner)在VP3視頻中編碼。所述編譯碼器的譯碼器部分既與Video ForWindows一致又與DirectShow一致。
由于VP3是開放式源碼軟件,因而編譯碼器源可免費(fèi)得到并可整合入定制應(yīng)用中。對(duì)于視頻捕捉和編碼,雖然可從On2Technologies(Open Source Codec forVideo(視頻開放式源碼編譯碼器)的發(fā)起者)得到視頻捕捉和編碼功能,但在該行業(yè)中對(duì)VP3的支持有限。
還有一種叫做“Ogg Vorbis”的開放式源碼音頻編譯碼器,其中Ogg Vorbis為非專利性的、開放的、無專利和專利權(quán)稅的音頻格式和編譯碼器,其用于固定和可變位速率下的中等到高質(zhì)量的音頻以供在因特網(wǎng)上傳送。
(iv)開放式源碼(服務(wù)器)Real Networks已經(jīng)宣布了第一個(gè)主要的開放式源碼流式媒體服務(wù)器-“Helix”Universal Server,參見http//www.realnetworks.com/info/helix/index.html,其支持許多種媒體編譯碼器(即QuickTime、MPEG-2、MPEG-4、WindowsMedia、Real Media,等等),并還提供對(duì)一用于增強(qiáng)和擴(kuò)展所述媒體服務(wù)器的開放式源碼基數(shù)的訪問。在按照上文所概述將新的種類的流式媒體算法及協(xié)議構(gòu)建為DIVER流時(shí),此種新服務(wù)器可能非常適用于實(shí)踐者。其也可適用于建立用于DIVER的定制的Helix編碼器和客戶側(cè)播放器(叫做“HelixDNA播放器”)。
表1提供在本節(jié)中所引用的關(guān)于數(shù)字影像的處理和分發(fā)的技術(shù)參考文獻(xiàn)的列表,以供感興趣的實(shí)踐者進(jìn)一步參考和查閱。
表1-參考文獻(xiàn)Foster,I.Kesselman,C,Tuecke,S.(2001)″The Anatomy of theGridEnabling Scalable Virtual Organizations,″International J.SupercomputerApplications,15(3),2001年。
Rutledge,S.,Medicke,J.(2001)″Building Federated Systems with RelationalConnect and Database Views,″IBM e-business Solution Integration Technical WhitePaper,2001年。
Arman,F(xiàn).,Hsu,A.and Chiu,M.(1993)″Image Processing on CompressedData for Large Video Databases,″Proceedings of the First ACM InternationalConference on Multimedia,1993年8月。
Smith,B.及Rowe,L.(1993)″Algorithms for Manipulating CompressedImages,″IEEE Computer Graphics and Applications,1993年9月,第13卷,(no.5)第34-42頁。34-42.
Vichare,R.,and Borovick,L.(2002)″Content Caching Vendor MarketShare,″2001,IDCBulletin #26785,2002年3月。
Chang,E.,及Yap,C.(1997)″A Wavelet Approach to Foveating Iinages,″Proc.13th ACM Symposium on Computational Geometry,第397-399頁,1997年。
Chang,E.,Yap,C.及Yen,T.(1997)″RealTime Visualization of Large imagesover a Thinwire,″IEEE Visualization 97 (Late Breaking Hot Topics),Tucson,Arizona.,1997年10月19-24日。CD and Video Proceedings.
Ramella,G.,Sanniti,G.(2001)″Shape and Topology Preserving MuIti-ValuedImage Pyramids for Multi-Resolution Skeletonization,″Pattern RecognitionLetters,第22卷,No.5,第741-751頁,2001年。741-751,2001.
Cohen,M.F.,Chen,S.E.,Wallace,J.R.,Greenberg,D.P(1988)″AProgressive Refinement Approach to Fast Radiosity Image Generation,″SIGGRAPH(1988)第75-84頁。
Digital Fountain Corporation(2002)″Digital Fountain′s MetaContentTechnology,″Technology White Paper,2002年4月23日。
Chen,A.(2002)″Girding for Grid Battle,″e(cuò)Week Labs Report,第37頁,2002年7月22日。
Dyck,T.(2002)″Grid Technical Challenges Daunting,″e(cuò)Week Labs Report,第38頁,2002年7月22日。
C.分析和探測圖6-10圖解說明稱為交互式全景視頻映像的概念即一交互式、可轉(zhuǎn)換的表示法,其有助于用戶超越對(duì)事件(基本的音頻視頻記錄)表面結(jié)構(gòu)的體驗(yàn),以便在視頻數(shù)據(jù)中探測和分析更多的抽象式樣和關(guān)系。我們將這些全景概覽稱為映像,以強(qiáng)調(diào)與傳統(tǒng)映像制作和映像理解的類似。如同傳統(tǒng)映像一樣,一全景視頻映像是一比其所代表的真實(shí)世界時(shí)空事件更為抽象的圖像。并且像傳統(tǒng)映像一樣,為有用,一全景視頻映像在強(qiáng)調(diào)原始動(dòng)態(tài)事件的那些對(duì)現(xiàn)有分析任務(wù)有用的特征的同時(shí),過濾掉無關(guān)的細(xì)節(jié)。然而,與傳統(tǒng)的紙上映像不同,全景視頻映像的強(qiáng)大特征之一是其可以是交互式的;其允許用戶選擇適合于現(xiàn)有任務(wù)的景物抽象層次。
交互式全景映像概覽的方案為了闡明交互式全景映像概覽的概念,我們提供四種顯示其如何用作本發(fā)明應(yīng)用的用戶方案。如實(shí)踐者將了解,這些方案并非窮盡性,而是旨在提供對(duì)人機(jī)交互的挑戰(zhàn)和機(jī)遇的了解,使用本發(fā)明即可有利地解決這些挑戰(zhàn)和機(jī)遇。
方案1.在全景概覽映像內(nèi)查找注解“熱點(diǎn)”工作空間區(qū)230是用戶可在其中注解、組織和分析將構(gòu)成一“DIVE”的遍歷(用戶對(duì)全景視頻事件的特定觀點(diǎn))的區(qū)域。在先前在圖2A和2B中所描繪的實(shí)施例中,工作表230由一組面板組成,其中每一面板尤其包含一電影縮略圖240、時(shí)間碼250(d)和一用于注解所述電影的正文框250(a)?,F(xiàn)在假定一有興趣在學(xué)生和教師之間進(jìn)行非語言式交互作用的研究者已經(jīng)創(chuàng)建了一包含從一教室事件的全景視頻中選出的幾百個(gè)帶注解遍歷的DIVER工作表。進(jìn)一步假定所述研究者希望得到這些帶注解的“熱點(diǎn)”在所述視頻中的位置的概覽。換句話說,所述注解群集于所述事件中特定時(shí)間和空間點(diǎn)的周圍?一沿視頻時(shí)間線顯示注解頻率的直方圖將是查看此等熱點(diǎn)的傳統(tǒng)方法。不過,傳統(tǒng)直方圖只顯示注解發(fā)生的時(shí)間,但不顯示發(fā)生的地點(diǎn)。圖7顯示一界面窗格,其中帶注解的遍歷710的縮略圖預(yù)覽730覆蓋在一邊緣受檢測的全景概覽720上。
注意,全景概覽720已受到邊緣檢測(一種為實(shí)踐者所熟知的圖像處理方法)和整理,以突出遍歷縮略圖730的空間位置。因?yàn)樵跇?biāo)記2D全景內(nèi)一視頻遍歷段的x-y位置以進(jìn)行注解時(shí)會(huì)自動(dòng)記錄該x-y位置,因此可在2D映像720上顯示遍歷縮略圖730。通過改變一滑動(dòng)條740的時(shí)間范圍,用戶將以動(dòng)態(tài)方式看到注解活動(dòng)的空間分布在所述景物內(nèi)如何改變。舉例而言,在下文的實(shí)例中,在該時(shí)間片期間,看起來有許多該教師處于其講示工作臺(tái)上的帶注解遍歷。為得到更細(xì)程度的細(xì)節(jié),可在整個(gè)所述全景景物內(nèi)拖動(dòng)一注解滑動(dòng)條740;拖動(dòng)所述滑動(dòng)條可過濾所述DIVER工作表,以在與所述滑動(dòng)條相交的顯示中僅顯示那些帶注解的遍歷。最后,如先前結(jié)合圖1-3所述,通過點(diǎn)擊一縮略圖730(n)在一細(xì)節(jié)播放器窗口中重放相應(yīng)的音頻片斷710(n),用戶便可更進(jìn)一步地向下觀看。
方案2.使用全景視頻映像進(jìn)行數(shù)據(jù)覆蓋全景概覽也可用于信息可視化,尤其用于探測關(guān)于自然背景及其對(duì)行為的影響的假想。假定一研究者使用DIVER探測一實(shí)際課堂課節(jié)的全景視頻,以便形成深入了解并開始創(chuàng)建分析類別。舉例而言,假定所述研究者開發(fā)一交互簡表并就所述教員所從事的交互作用的種類和時(shí)間長度,使用DIVER對(duì)所述視頻進(jìn)行編碼(如圖4所示,使用分類碼注解)。將一DIVER編碼表中的分析結(jié)果視為一遍歷列表將不能提供關(guān)于交互作用模式與自然背景之間關(guān)系的大量深入了解。.然而,通過使所述系統(tǒng)將所編碼的數(shù)據(jù)覆蓋到一受到邊緣檢測的全景概覽(所述空間的一種等高線圖),研究者即可容易地看到群集于房間的不同空間區(qū)域中的各交互作用模式的分布(每一交互式樣較佳均由一著色點(diǎn)編碼)。圖8描繪這樣一種顯示其顯示以一受到邊緣檢測的全景景物810為背景繪制的帶索引號(hào)的數(shù)據(jù)點(diǎn)820。(此實(shí)例顯示替代實(shí)施例2A和2B對(duì)于某些應(yīng)用的重要性。舉例而言,在這里,如果所述全景概覽在空間上不直觀或不精確,則其作為一可視化映像的適用性可能會(huì)受到限制。)不難看出如何在本發(fā)明的精神范圍內(nèi)對(duì)這一概念作進(jìn)一步的延伸。舉例而言,全景視頻映像可用于檢查同以物理空間如何可由不同的教師使用或用于不同的對(duì)象。另一使用一視頻腹腔鏡的全景形式進(jìn)行醫(yī)學(xué)教育的應(yīng)用能夠檢查具有不同專業(yè)觀察力和能力水平的學(xué)生如何對(duì)同一身體器官進(jìn)行手術(shù)。
方案3.全景視頻數(shù)據(jù)的動(dòng)態(tài)查詢另外,信息可視化技術(shù)可幫助用戶發(fā)現(xiàn)選自一全景流中的數(shù)據(jù)的式樣和關(guān)系。舉例而言,假定一個(gè)對(duì)研究學(xué)生-教師的交互作用感興趣的教育研究者已使用了DIVER分類碼注解在例如面部表情、手勢、學(xué)生問問題的頻率、講話時(shí)間,等類別方面對(duì)一大組視頻遍歷進(jìn)行編碼。進(jìn)一步假定所述研究者也能在學(xué)生名字、年齡、性別、平均測試得分、聲望得分等方面對(duì)每一剪輯進(jìn)行編碼。圖9中的界面圖解說明如何使用動(dòng)態(tài)查詢技術(shù)來幫助所述研究者探測所述數(shù)據(jù)中的式樣。圖9描繪一散點(diǎn)圖920,其顯示所問問題的平均數(shù)與平均測試得分之間的關(guān)系。電影縮略圖930用于標(biāo)記數(shù)據(jù)點(diǎn)。在左邊,用戶可通過下拉菜單910選擇x和y軸的變量。在此實(shí)例中,所述研究者已選擇繪示所問問題的平均數(shù)與平均測試得分之間的關(guān)系。
所述散點(diǎn)圖有助于研究者看到學(xué)生提問題的頻率與其測試得分之間的線性關(guān)系。所述關(guān)系圖還有助于用戶注意到例外的人930(a),即平均得分很高但看起來問問題并不多的學(xué)生。使用電影縮略圖930作為數(shù)據(jù)點(diǎn)有助于研究者將數(shù)據(jù)置于上下文中進(jìn)行分析(contextualize);能夠?qū)⑼鈬鷶?shù)據(jù)點(diǎn)看作代表一特定的學(xué)生可能引發(fā)更多的詢問。舉例而言,通過點(diǎn)擊所述電影縮略圖,研究者不僅能夠在細(xì)節(jié)窗口950中播放這一特定數(shù)據(jù)點(diǎn)所表示的視頻遍歷,而且能夠在全景概覽940中在其原始空間和時(shí)間上下文中看到它。通過此種方式,所述界面會(huì)鼓勵(lì)研究者(以及其他可能在查看所述數(shù)據(jù)的人)迅速地上下移動(dòng)抽象標(biāo)尺(如圖10所示)、輕松地鏈接回到主視頻記錄以便在上下文中查閱人行為的短暫細(xì)節(jié)。最后,如先前結(jié)合圖3所述,所述界面通過如下方式允許進(jìn)行更細(xì)程度的分析令研究者創(chuàng)建一組空間合成的遍歷(一種新的復(fù)合電影),允許她進(jìn)行更精細(xì)的逐幀分析,將(例如)女孩問問題的遍歷與男孩問問題的遍歷相比較。
一般而言,如圖10所示,可以認(rèn)為用戶的分析任務(wù)是沿一抽象標(biāo)尺存在。所述標(biāo)尺的范圍是從對(duì)事件1010的直接感覺經(jīng)歷到更具思考性的思維和發(fā)現(xiàn)模式1030。并且,對(duì)于所述標(biāo)尺的每一尺度,均將有一相應(yīng)的呈現(xiàn)(1020,1040),這種呈現(xiàn)的功能是幫助用戶在一特定抽象層次來探測所述事件。事實(shí)上,此概念的能力恰好是在研究者專注于所述全景視頻記錄時(shí)使她能夠輕松地沿一抽象標(biāo)尺的任一方向行進(jìn)的能力。因此,在本發(fā)明的較佳實(shí)施例中,一全景視頻映像是一種可變換的呈現(xiàn)形式,其使用戶能夠在探測所述全景視頻記錄時(shí)在各抽象層次之間輕松移換。
圖6為一流程圖,其圖解說明一種使用例如圖7-10所示視頻數(shù)據(jù)映像來探測和分析視頻數(shù)據(jù)遍歷的方法。在600中,顯示正被分析的視頻數(shù)據(jù)的一抽象映像。對(duì)于剛剛所述的方案,所述抽象映像將分別包括全景概覽720(圖7)、受到邊緣檢測的景物810(圖8)或散點(diǎn)圖920(圖9)。在610中,使一標(biāo)記與正被分析的每一遍歷記錄相關(guān)聯(lián)。同樣,對(duì)于剛剛所述的方案,所述標(biāo)記將包括遍歷縮略圖像730和930(圖7和9)或分類碼點(diǎn)820(圖8)。在620中,沿所述抽象映像在適當(dāng)位置處繪示所述標(biāo)記。在630中,用戶以交互方式選擇所關(guān)心的標(biāo)記并在640中重放對(duì)應(yīng)的遍歷記錄,從而在不同的抽象層次之間鏈接和移換,以便探測所述視頻記錄,如圖10所示。
方案4.全景視頻事件的協(xié)作性可視化至此所述的各方案涉及由單個(gè)用戶分析一全景視頻行為記錄??稍O(shè)想,作為一研究者聯(lián)網(wǎng)社區(qū)的一部分,可得到一教室事件的一全景視頻。隨著時(shí)間的經(jīng)過,許多具有不同背景和觀點(diǎn)的研究者可創(chuàng)建與所述全景事件相關(guān)的DIVE和分析。如上文結(jié)合圖5所闡述,在DIVER中用于共享分析的一基本機(jī)理是查看網(wǎng)上所公布的DIVER工作表上的串線式討論。如結(jié)合圖6-10所闡述,全景視頻映像通過使用戶能夠看到景物上的可視化和數(shù)據(jù)覆蓋(可能是數(shù)百或也許數(shù)千個(gè)用戶的總體,每一用戶對(duì)所述景物均具有其自己的觀點(diǎn)),而提供該概念的強(qiáng)大延伸。如實(shí)踐者根據(jù)本文中的教示所顯而易見,可應(yīng)用動(dòng)態(tài)查詢和信息可視化原理來使用戶能夠?qū)⒁蛔逵^點(diǎn)視為景物上的注解覆蓋。舉例而言,一顯示由以特定顏色或特征形狀編碼的各個(gè)人類學(xué)家所作注解的時(shí)空群集的數(shù)據(jù)覆蓋。另一實(shí)例將是顯示由創(chuàng)建可通過一網(wǎng)站訪問的動(dòng)畫視頻記錄的遍歷的不同年齡兒童群組(或那些沿其他可度量尺寸的有差別輪廓)所作注解的時(shí)空群集的對(duì)比式樣。
雖然上述聯(lián)網(wǎng)社區(qū)方案涉及與影像有關(guān)的非同步DIVE和分析,但是另一方案涉及多個(gè)可同時(shí)創(chuàng)建與視頻或其他影像相關(guān)的DIVE的個(gè)人,如在講堂中或?qū)τ诶鐒?dòng)畫等娛樂事件。
圖11圖示一用于實(shí)施本文所述較佳實(shí)施例的數(shù)字電子裝置的網(wǎng)絡(luò)。創(chuàng)作工作站1100,即一標(biāo)準(zhǔn)個(gè)人計(jì)算機(jī),包括處理器和存儲(chǔ)器1130、顯示器1110及輸入1120,其用于實(shí)施圖1所示的創(chuàng)作方法并產(chǎn)生圖2-4所示的圖形界面顯示。
在一變化形式中,遙控裝置1140較佳以無線方式連接至工作站1100,從而能夠?qū)换ナ綍?huì)話實(shí)施方便的手持控制。在某些實(shí)施例中,裝置1140可包括足夠的處理能力和存儲(chǔ)能力,以充分控制該邏輯并產(chǎn)生圖1-4所示的交互式顯示,在此種情形中,裝置1100可基本上為一電子顯示器,可不必需要獨(dú)立的計(jì)算處理能力1130。
總之,裝置1130/1140較佳通過網(wǎng)絡(luò)1150(例如,因特網(wǎng)或?qū)S脙?nèi)聯(lián)網(wǎng))與較佳包括標(biāo)準(zhǔn)網(wǎng)絡(luò)瀏覽客戶機(jī)功能的用戶裝置1160(a)-(n)連接。該聯(lián)網(wǎng)裝置社區(qū)按照?qǐng)D5實(shí)施帶注解遍歷的公布和共享。按照?qǐng)D6-10使用抽象視頻映像進(jìn)行的遍歷分析可由任一所配備的處理能力和存儲(chǔ)能力足以運(yùn)行可執(zhí)行結(jié)合所述附圖所說明及論述的功能的映射及繪制軟件例程的裝置1130/1140或1160(a)-(n)獨(dú)立實(shí)施。
本發(fā)明的范圍不應(yīng)由所闡釋的實(shí)施例確定,而應(yīng)由隨附權(quán)利要求書及其合法的等效內(nèi)容確定。
權(quán)利要求
1.一種使用復(fù)數(shù)個(gè)遍歷記錄來探測及分析可視數(shù)據(jù)的交互式電子方法,所述遍歷記錄中的每一遍歷記錄均包括一基于時(shí)間的幀序列,每一幀均為所述可視數(shù)據(jù)的一空間子集,所述方法包括顯示所述可視數(shù)據(jù)的一抽象映像;在所述映像上的復(fù)數(shù)個(gè)位置上繪制對(duì)應(yīng)復(fù)數(shù)個(gè)標(biāo)記,所述標(biāo)記中的每一標(biāo)記均與所述遍歷記錄中的一遍歷記錄相關(guān)聯(lián);及響應(yīng)于交互式地選擇所述標(biāo)記中的一個(gè)所需標(biāo)記來重放對(duì)應(yīng)遍歷。
2.如權(quán)利要求1所述的方法,其中所述抽象映像包括來自所述可視數(shù)據(jù)的一景物的一輪廓。
3.如權(quán)利要求2所述的方法,其中使用一邊緣檢測算法自所述可視數(shù)據(jù)自動(dòng)產(chǎn)生所述景物輪廓。
4.如權(quán)利要求1所述的方法,其中所述抽象映像包括為所述存儲(chǔ)遍歷記錄指定的一或多個(gè)注解數(shù)據(jù)值的一曲線圖。
5.如權(quán)利要求1所述的方法,其中所述標(biāo)記中每一標(biāo)記均包括其相關(guān)聯(lián)記錄的一縮略圖。
6.如權(quán)利要求1所述的方法,其中所述標(biāo)記中每一標(biāo)記均標(biāo)示一為其對(duì)應(yīng)遍歷記錄所指定的注解值。
7.如權(quán)利要求1所述的方法,其中使用一圖形用戶界面來實(shí)施所述方法,所述圖形界面包括復(fù)數(shù)個(gè)計(jì)算機(jī)顯示區(qū),所述復(fù)數(shù)個(gè)計(jì)算機(jī)顯示區(qū)包括一顯示所述抽象映像及所繪制標(biāo)記的映像區(qū)、及一顯示所需遍歷的重放區(qū)。
8.如權(quán)利要求7所述的方法,其中所述圖形界面進(jìn)一步包括一工作表區(qū),所述工作表區(qū)用于顯示所述遍歷記錄及相關(guān)聯(lián)注解的一列表。
9.如權(quán)利要求8所述的方法,其進(jìn)一步包括以交互方式選擇所述抽象映像內(nèi)的一個(gè)感興趣的空間區(qū)域,并在所述工作表區(qū)內(nèi)顯示那些與位于所述感興趣的空間區(qū)域內(nèi)的所述標(biāo)記相對(duì)應(yīng)的遍歷記錄的一經(jīng)過濾的列表。
10.一種使用復(fù)數(shù)個(gè)遍歷記錄來探測及分析可視數(shù)據(jù)的交互式電子裝置,所述遍歷記錄中的每一遍歷記錄均包括一基于時(shí)間的幀序列,每一幀均為所述可視數(shù)據(jù)的一空間子集,所述裝置包括顯示構(gòu)件,其用于顯示所述可視數(shù)據(jù)的一抽象映像;繪制構(gòu)件,其用于在所述映像上的復(fù)數(shù)個(gè)位置上繪制對(duì)應(yīng)復(fù)數(shù)個(gè)標(biāo)記,所述標(biāo)記中的每一標(biāo)記均與所述遍歷記錄中的一遍歷記錄相關(guān)聯(lián);及重放構(gòu)件,其用于響應(yīng)于交互式地選擇所述標(biāo)記中的一個(gè)所需標(biāo)記來重放對(duì)應(yīng)遍歷。
11.如權(quán)利要求10所述的裝置,其中所述抽象映像包括來自所述可視數(shù)據(jù)的一景物的一輪廓。
12.如權(quán)利要求11所述的裝置,其中使用一邊緣檢測算法自所述可視數(shù)據(jù)自動(dòng)產(chǎn)生所述景物輪廓。
13.如權(quán)利要求10所述的裝置,其中所述抽象映像包括為所述存儲(chǔ)遍歷記錄指定的一或多個(gè)注解數(shù)據(jù)值的一曲線圖。
14.如權(quán)利要求10所述的裝置,其中所述標(biāo)記中每一標(biāo)記均包括其相關(guān)聯(lián)記錄的一縮略圖。
15.如權(quán)利要求10所述的裝置,其中所述標(biāo)記中每一標(biāo)記均標(biāo)示一為其對(duì)應(yīng)遍歷記錄所指定的注解值。
16.如權(quán)利要求10所述的裝置,其中所述用于顯示、繪制及重放的構(gòu)件包含于一集成圖形用戶界面中,所述圖形界面包括復(fù)數(shù)個(gè)計(jì)算機(jī)顯示區(qū),所述復(fù)數(shù)個(gè)計(jì)算機(jī)顯示區(qū)包括一顯示所述抽象映像及所繪制標(biāo)記的映像區(qū)、及一顯示所需遍歷的重放區(qū)。
17.如權(quán)利要求16所述的裝置,其中所述圖形界面進(jìn)一步包括一工作表區(qū),所述工作表區(qū)用于顯示所述遍歷記錄及相關(guān)聯(lián)注解的一列表。
18.如權(quán)利要求17所述的裝置,其進(jìn)一步包括以交互方式選擇所述抽象映像內(nèi)的一個(gè)感興趣的空間區(qū)域,并在所述工作表區(qū)內(nèi)顯示那些與位于所述感興趣的空間區(qū)域內(nèi)的所述標(biāo)記相對(duì)應(yīng)的遍歷記錄的一經(jīng)過濾的列表。
全文摘要
本發(fā)明提供用于以交互方式創(chuàng)作、共享和分析數(shù)字視頻內(nèi)容的電子方法和裝置。創(chuàng)作方法包括顯示可視數(shù)據(jù),將每一遍歷界定為一基于時(shí)間的幀序列,并注解和存儲(chǔ)所述遍歷的記錄及其相關(guān)聯(lián)的音頻記錄。界定所述遍歷包括通過相對(duì)于所述可視數(shù)據(jù)定位一覆蓋窗口來以交互方式掃視所述可視數(shù)據(jù),并通過調(diào)整所述覆蓋窗口的大小來進(jìn)行放大或縮小。在替代實(shí)施例中,可以一矩形布局或一圓柱形布局來顯示所述可視數(shù)據(jù)。使用一集成圖形界面來實(shí)施所述方法,所述集成圖形界面包括一顯示所述可視數(shù)據(jù)的概覽區(qū)、一在所述覆蓋窗口內(nèi)顯示當(dāng)前數(shù)據(jù)的細(xì)節(jié)區(qū)、及一顯示先前所存儲(chǔ)的帶注解的遍歷記錄的列表的工作表區(qū)。在另一方面中,所述帶注解的遍歷記錄的工作表區(qū)列表是在一可使用一標(biāo)準(zhǔn)HTML瀏覽器通過網(wǎng)絡(luò)訪問的網(wǎng)絡(luò)文檔中公布,并且可由一網(wǎng)絡(luò)用戶社區(qū)添加更多的注解。本發(fā)明還提供分析方法,其中相對(duì)于交互式抽象映像繪制對(duì)應(yīng)于遍歷記錄的數(shù)據(jù)標(biāo)記,可使使用戶在探測所述視頻記錄時(shí)在各抽象層次之間移換。
文檔編號(hào)G09C5/00GK1754194SQ200380109878
公開日2006年3月29日 申請(qǐng)日期2003年12月22日 優(yōu)先權(quán)日2002年12月30日
發(fā)明者羅伊·佩亞, 邁克爾·米爾斯, 埃里克·霍費(fèi)爾特, 約瑟夫·羅森, 肯尼斯·道貝爾 申請(qǐng)人:小利蘭斯坦福大學(xué)理事會(huì)