亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

媒介分段系統(tǒng)和相關(guān)的方法

文檔序號(hào):6560438閱讀:195來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):媒介分段系統(tǒng)和相關(guān)的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種圖象處理,更具體地說(shuō),是涉及一種媒介分段系統(tǒng)和相關(guān)的方法。
背景技術(shù)
隨著近年來(lái)數(shù)據(jù)處理、存儲(chǔ)及網(wǎng)絡(luò)技術(shù)的發(fā)展,許多個(gè)人計(jì)算機(jī)系統(tǒng)有能力接收、處理和再現(xiàn)多媒體對(duì)象(例如音頻、圖象和視頻內(nèi)容)。例如,應(yīng)用于多媒體再現(xiàn)領(lǐng)域的這種計(jì)算能力的一個(gè)示例,是使視頻內(nèi)容從一個(gè)遠(yuǎn)程服務(wù)器通過(guò)網(wǎng)絡(luò)“流”到一個(gè)具有適當(dāng)配置的計(jì)算系統(tǒng),用于在該計(jì)算系統(tǒng)上再現(xiàn)。再現(xiàn)系統(tǒng)有很多種,所提供的功能類(lèi)似于典型的視頻盒式磁帶放象機(jī)/錄像機(jī)(VCR)。然而,隨著計(jì)算能力的增強(qiáng),消費(fèi)者期望能有更先進(jìn)的性能。這種期望的最初示例是快速訪(fǎng)問(wèn)相關(guān)媒介內(nèi)容的能力?,F(xiàn)有技術(shù)的系統(tǒng)尚不能滿(mǎn)足這一期望。
為了適應(yīng)和訪(fǎng)問(wèn)媒介龐大的數(shù)據(jù)量,目前可以采用各種圖象數(shù)據(jù)庫(kù)和視覺(jué)信息系統(tǒng)。這些系統(tǒng)已用于各種各樣的應(yīng)用裝置,包括醫(yī)學(xué)圖象管理、CAD/CAM系統(tǒng)、罪犯識(shí)別系統(tǒng)、剪輯圖庫(kù)等等?,F(xiàn)有技術(shù)的系統(tǒng)可能采用多種搜索技術(shù)之任一種,以訪(fǎng)問(wèn)及檢索相關(guān)信息。這些現(xiàn)有技術(shù)的系統(tǒng)基本上是利用基于文本的、關(guān)鍵詞方法對(duì)這種媒介內(nèi)容進(jìn)行編索引和檢索。根據(jù)這一方法,每一幀(frame)、場(chǎng)面(shot)或場(chǎng)景(scene)(每一項(xiàng)包括一個(gè)或多個(gè)前者)被存儲(chǔ)為數(shù)據(jù)庫(kù)對(duì)象,其中數(shù)據(jù)庫(kù)中的每一幅圖象(例如幀、場(chǎng)面、場(chǎng)景)與人工產(chǎn)生的該對(duì)象的文字說(shuō)明相關(guān)。于是采用邏輯查詢(xún)可以檢索這些關(guān)鍵詞描述信息,其中的檢索是基于對(duì)查詢(xún)文本的精確匹配或概率匹配。
而這些現(xiàn)有技術(shù)系統(tǒng)的作用是激勵(lì)了人們對(duì)這種技術(shù)的欲望,這些現(xiàn)有技術(shù)的系統(tǒng)中沒(méi)有一個(gè)真正促進(jìn)了基于內(nèi)容的媒介搜索,因此未能全面地尋到所需的位置以訪(fǎng)問(wèn)和檢索特定的媒介內(nèi)容。專(zhuān)門(mén)基于文本的系統(tǒng)中存在幾個(gè)問(wèn)題。自動(dòng)產(chǎn)生描述性關(guān)鍵詞或提取建立分類(lèi)層次所需的語(yǔ)義信息,已超出了當(dāng)前計(jì)算圖象和智能技術(shù)的能力。相應(yīng)地,這種圖象的文字描述應(yīng)該是人工產(chǎn)生的。應(yīng)該理解的是,人工輸入關(guān)鍵詞描述信息是冗長(zhǎng)乏味的、耗費(fèi)時(shí)間的過(guò)程,易于不精確和受描述的限制。而且,某些視覺(jué)特性,例如結(jié)構(gòu)和圖案的描述,如果不是不可能的話(huà),也往往是難以充分地或精確地用一些文字說(shuō)明來(lái)描述,特別是對(duì)于那些多用途的索引編制和檢索應(yīng)用裝置而言。
而已討論的其它方法試圖基于內(nèi)容對(duì)媒介定性地分段,所有方法的計(jì)算量是巨大的,結(jié)果,對(duì)于幾乎是實(shí)時(shí)用戶(hù)應(yīng)用裝置而言是不適用的。這些現(xiàn)有技術(shù)的方法一般都試圖在各幀之間識(shí)別相似材料以檢測(cè)出場(chǎng)面邊界線(xiàn)。本領(lǐng)域技術(shù)人員可理解的是,場(chǎng)面邊界線(xiàn)常常表示編輯點(diǎn),例如攝像漸變,并不是語(yǔ)義的邊界線(xiàn)。而且,由于所涉及的計(jì)算的復(fù)雜性,這種場(chǎng)面往往被定義為靜態(tài)的,或在前的固定數(shù)量的幀,或是隨后的編輯點(diǎn)(例如在先的三幀和后來(lái)的三幀)。在這方面,這種在先技術(shù)的系統(tǒng)一般都利用幀的固定窗口定義一個(gè)場(chǎng)面。
相反,場(chǎng)景包括語(yǔ)義上相似的場(chǎng)面,因此可包含多個(gè)場(chǎng)面邊界線(xiàn)。相應(yīng)地,在先技術(shù)的方法是基于兩個(gè)場(chǎng)面之間幀的視覺(jué)相似性,往往不會(huì)產(chǎn)生好的效果,所需要的是對(duì)場(chǎng)面之間語(yǔ)義相關(guān)性的定量值。
因此,提出一種媒介分段系統(tǒng)和相關(guān)的方法,不受在先技術(shù)的系統(tǒng)一般常帶有的局限性的妨礙。
本發(fā)明概述本發(fā)明涉及一種媒介分段系統(tǒng)和相關(guān)的方法,便于實(shí)現(xiàn)在語(yǔ)義級(jí)對(duì)媒介內(nèi)容的快速訪(fǎng)問(wèn)和檢索。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所提出的一種方法包括接收媒介內(nèi)容并分析所接收媒介的連續(xù)場(chǎng)面的一個(gè)或多個(gè)屬性;至少是部分地根據(jù)對(duì)該一個(gè)或多個(gè)屬性的分析,產(chǎn)生相對(duì)于每一個(gè)連續(xù)場(chǎng)面的相關(guān)值,其中實(shí)現(xiàn)場(chǎng)景分段,將語(yǔ)義上緊密結(jié)合的場(chǎng)面分組。
附圖簡(jiǎn)述在所有附圖中相同的參考編號(hào)用于表示相同的部件和裝置。
圖1是含有本發(fā)明之思想的計(jì)算系統(tǒng)示例的方框圖;圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例實(shí)現(xiàn)基于內(nèi)容的場(chǎng)景分段的媒介分析工具之示例的方框圖;圖3說(shuō)明了根據(jù)本發(fā)明的一個(gè)方面表示顏色對(duì)象分段和跟蹤;圖4說(shuō)明根據(jù)本發(fā)明的一個(gè)方面表示擴(kuò)展窗口場(chǎng)面分組技術(shù);圖5說(shuō)明根據(jù)本發(fā)明的一個(gè)方面的數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包括擴(kuò)展場(chǎng)景窗口;圖6說(shuō)明了根據(jù)本發(fā)明的一個(gè)方面的共生矩陣(co-occurrencematrices),它用于瞬間切片分析;圖7是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于基于內(nèi)容的場(chǎng)景分段方法示例之流程圖;圖8是根據(jù)本發(fā)明的一個(gè)方面的顏色對(duì)象分段方法之示例的流程圖,該方法用于識(shí)別媒介內(nèi)容的場(chǎng)面之間的語(yǔ)義相似性;圖9是根據(jù)本發(fā)明的一個(gè)方面的瞬間切片分析方法之示例的流程圖,該方法可識(shí)別媒介內(nèi)容的場(chǎng)面之間的語(yǔ)義相似性;圖10是存儲(chǔ)媒介示例的方塊圖,該存儲(chǔ)媒介含有存儲(chǔ)其中的多條可執(zhí)行指令,在這些可執(zhí)行指令中至少包括一個(gè)子集,當(dāng)執(zhí)行該指令子集時(shí),實(shí)現(xiàn)含有本發(fā)明之思想的媒介分析工具。
詳細(xì)說(shuō)明本發(fā)明涉及一種基于內(nèi)容的場(chǎng)景分段系統(tǒng)和相關(guān)的方法。在這方面,本發(fā)明克服了現(xiàn)有技術(shù)的圖象存儲(chǔ)和檢索系統(tǒng)所帶有的常見(jiàn)的多種局限性,這些現(xiàn)有技術(shù)的系統(tǒng)主要依賴(lài)于文字的關(guān)鍵詞。本發(fā)明的創(chuàng)造性特征是在視覺(jué)的媒介內(nèi)容范圍設(shè)計(jì)的。然而,應(yīng)該理解的是,本發(fā)明并未限制于此,以下說(shuō)明的創(chuàng)新的媒介分析工具充分利用這里所述的創(chuàng)造性思想,對(duì)各種各樣的任何多媒體內(nèi)容實(shí)現(xiàn)基于內(nèi)容的媒介分段,例如所述的多媒體內(nèi)容包括音頻內(nèi)容、圖象內(nèi)容等。在這方面,以下所述的實(shí)施例只是對(duì)本發(fā)明的范圍和宗旨做出例證。
在對(duì)本發(fā)明的說(shuō)明中,將根據(jù)以上的


網(wǎng)絡(luò)結(jié)構(gòu)和相關(guān)方法之示例。然而,應(yīng)該注意的是,在不背離本發(fā)明的情況下,可以對(duì)這里所述的結(jié)構(gòu)和方法適當(dāng)?shù)刈龀鲂薷?。?shí)際上,這種替代的實(shí)施例在本發(fā)明的范圍和宗旨內(nèi)是可以預(yù)料的。
計(jì)算系統(tǒng)示例圖1說(shuō)明了一種計(jì)算系統(tǒng)102示例,它包括一種創(chuàng)新的媒介分析工具104,該工具分析媒介內(nèi)容,在一個(gè)場(chǎng)面的每幀內(nèi)識(shí)別一個(gè)或多個(gè)對(duì)象,將含有類(lèi)似對(duì)象的場(chǎng)面分段成場(chǎng)景,用于存儲(chǔ)并在之后用于基于內(nèi)容的訪(fǎng)問(wèn)和檢索。正如以上所介紹的,并根據(jù)以下說(shuō)明可以理解的是,在不背離本發(fā)明的宗旨和范圍的情況下,該分析工具104可被充分利用,為實(shí)現(xiàn)基于內(nèi)容的搜索之目的而對(duì)其它類(lèi)型的媒介進(jìn)行識(shí)別和分段。應(yīng)該理解的是,盡管在圖1中的分析工具104被描述為一個(gè)分離的、獨(dú)立的應(yīng)用程序,它也可以適當(dāng)?shù)刈鳛閼?yīng)用程序的一個(gè)功能來(lái)實(shí)現(xiàn),例如媒介播放器、媒介信息庫(kù)、支解者(ripper)應(yīng)用程序等。由以下的說(shuō)明將清楚地看出,計(jì)算機(jī)102是用來(lái)表示任何種類(lèi)的、為一般目的或特定目的的計(jì)算平臺(tái),當(dāng)該計(jì)算平臺(tái)具有創(chuàng)新的分析工具104時(shí),它根據(jù)上述的第一實(shí)施例實(shí)現(xiàn)本發(fā)明的思想??梢岳斫獾氖牵M管在圖1的說(shuō)明中,分析工具104被描述為一種軟件應(yīng)用程序,可以選擇的是,計(jì)算機(jī)102也支持工具104實(shí)現(xiàn)為一種硬件。在這方面,除了對(duì)分析工具104的說(shuō)明外,以下對(duì)計(jì)算機(jī)系統(tǒng)102的說(shuō)明只是用來(lái)作為例證,在不背離本發(fā)明的宗旨和范圍的情況下,性能更好或更弱的計(jì)算機(jī)系統(tǒng)可以適當(dāng)?shù)乇惶娲?br> 如圖所示,計(jì)算機(jī)102包括一個(gè)或多個(gè)處理器或處理單元132、系統(tǒng)存儲(chǔ)器134和總線(xiàn)136,總線(xiàn)136將各種系統(tǒng)部件(包括系統(tǒng)存儲(chǔ)器134)連接至處理器132。
總線(xiàn)136表示任何種類(lèi)的總線(xiàn)結(jié)構(gòu)之一種或多種,包括存儲(chǔ)器總線(xiàn)或存儲(chǔ)器控制器、外圍設(shè)備總線(xiàn)、加速圖形端口及處理器或采用多種總線(xiàn)結(jié)構(gòu)之任何總線(xiàn)的局部總線(xiàn)。系統(tǒng)存儲(chǔ)器包括只讀存儲(chǔ)器(ROM)138和隨機(jī)存取存儲(chǔ)器(RAM)140?;据斎?輸出系統(tǒng)(BIOS)142存儲(chǔ)于ROM 138中,該系統(tǒng)包括有助于在計(jì)算機(jī)102內(nèi)各部件之間傳輸信息的基本程序庫(kù)。計(jì)算機(jī)102還包括一個(gè)硬盤(pán)驅(qū)動(dòng)器144,用于對(duì)硬盤(pán)(未示出)的讀寫(xiě);一個(gè)磁盤(pán)驅(qū)動(dòng)器146,用于對(duì)可攜帶磁盤(pán)148進(jìn)行讀寫(xiě);以及一個(gè)光盤(pán)驅(qū)動(dòng)器150,用于對(duì)可攜帶光盤(pán)152進(jìn)行讀或?qū)懖僮?,例如CD ROM、DVD ROM或其它類(lèi)似的光學(xué)媒介。該硬盤(pán)驅(qū)動(dòng)器144、磁盤(pán)驅(qū)動(dòng)器146和光盤(pán)驅(qū)動(dòng)器150通過(guò)SCSI(小型計(jì)算機(jī)系統(tǒng)接口)接口154或某些其它適用的總線(xiàn)接口而連接到總線(xiàn)136。這些驅(qū)動(dòng)器及其相關(guān)的計(jì)算機(jī)可讀媒介為計(jì)算機(jī)102提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的非易失性存儲(chǔ)。
盡管這里所述的操作平臺(tái)示例采用了硬盤(pán)144、可攜帶磁盤(pán)148和可攜帶光盤(pán)152,本領(lǐng)域技術(shù)人員可以理解的是,能夠存儲(chǔ)數(shù)據(jù)的其它類(lèi)型的計(jì)算機(jī)可讀媒介可以由計(jì)算機(jī)存取,例如盒式磁帶、閃速(flash)存儲(chǔ)器卡、數(shù)字式視頻光盤(pán)、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)等等,這些媒介也可以被用于該示例的操作平臺(tái)。
在硬盤(pán)144、磁盤(pán)148、光盤(pán)152、ROM 138或RAM 140上可存儲(chǔ)多個(gè)程序模塊,包括操作系統(tǒng)158、一個(gè)或多個(gè)應(yīng)用程序160(例如,包含有與本發(fā)明之思想相結(jié)合的分析工具104)、其它程序模塊162和程序數(shù)據(jù)164(例如結(jié)果、語(yǔ)言、模型、數(shù)據(jù)結(jié)構(gòu)等)。用戶(hù)可通過(guò)輸入裝置(例如鍵盤(pán)166和點(diǎn)擊裝置168)向計(jì)算機(jī)102輸入指令和信息。其它輸入裝置(未示出)可包括(話(huà)筒、操縱桿、游戲手柄、衛(wèi)星碟型天線(xiàn)、掃描儀或其它類(lèi)似裝置。這些輸入裝置和其它輸入裝置通過(guò)接口170連接至處理單元132,該接口連接至總線(xiàn)136。監(jiān)視器172或其它類(lèi)型的顯示裝置也通過(guò)一個(gè)接口(例如視頻適配器174)連接至總線(xiàn)136。除了監(jiān)視器172外,個(gè)人計(jì)算機(jī)往往包括其它外圍輸出設(shè)備(未示出),例如揚(yáng)聲器和打印機(jī)。
如圖所示,計(jì)算機(jī)102運(yùn)行在網(wǎng)絡(luò)環(huán)境之中,采用邏輯連接方式連接一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),例如遠(yuǎn)程計(jì)算機(jī)176。遠(yuǎn)程計(jì)算機(jī)176可以是另一臺(tái)個(gè)人計(jì)算機(jī)、個(gè)人數(shù)字助理、服務(wù)器、路由器或其它網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)“瘦客戶(hù)機(jī)(thin-client)”P(pán)C、同位體(peer)設(shè)備或其它常見(jiàn)的網(wǎng)絡(luò)節(jié)點(diǎn),一般包括與計(jì)算機(jī)102類(lèi)似的上述許多或全部的組件,盡管在圖1中只圖示出存儲(chǔ)器存儲(chǔ)裝置178。在這方面,創(chuàng)新的分析工具104可以由遠(yuǎn)程計(jì)算系統(tǒng)(例如計(jì)算系統(tǒng)176)充分調(diào)用和利用。
如圖所示,在圖1中描述的邏輯連接包括局域網(wǎng)(LAN)180和遠(yuǎn)程網(wǎng)(WAN)182。這種網(wǎng)絡(luò)平臺(tái)常見(jiàn)于辦公室、企業(yè)區(qū)域計(jì)算機(jī)網(wǎng)絡(luò)、企業(yè)內(nèi)部互連網(wǎng)和因特網(wǎng)。在一個(gè)實(shí)施例中,遠(yuǎn)程計(jì)算機(jī)執(zhí)行一個(gè)因特網(wǎng)瀏覽器程序以訪(fǎng)問(wèn)和利用在線(xiàn)服務(wù),例如由位于華盛頓的雷德蒙德的微軟公司生產(chǎn)和銷(xiāo)售的“Intemet Explorer”網(wǎng)上瀏覽器。
當(dāng)用于局域網(wǎng)的網(wǎng)絡(luò)平臺(tái)中時(shí),計(jì)算機(jī)102通過(guò)網(wǎng)絡(luò)接口或適配器184連接至局域網(wǎng)180。當(dāng)用于遠(yuǎn)程網(wǎng)的網(wǎng)絡(luò)平臺(tái)時(shí),計(jì)算機(jī)102一般包括調(diào)制解調(diào)器186或其它用于在遠(yuǎn)程網(wǎng)182(例如因特網(wǎng))上建立連接的裝置。調(diào)制解調(diào)器186可以是內(nèi)置式或外置式的,它經(jīng)過(guò)輸入/輸出(I/O)接口156連接至總線(xiàn)136。除了網(wǎng)絡(luò)的連通性之外,I/O接口156也支持一個(gè)或多個(gè)打印機(jī)188。在一個(gè)網(wǎng)絡(luò)平臺(tái)中,所描述的與個(gè)人計(jì)算機(jī)102相關(guān)的程序模塊、或是其中的部分可存儲(chǔ)于遠(yuǎn)程存儲(chǔ)器存儲(chǔ)裝置??梢岳斫獾氖牵镜木W(wǎng)絡(luò)連接是示例性的,可以采用其它的手段在各計(jì)算機(jī)之間建立通信鏈接。
一般來(lái)說(shuō),通過(guò)在不同時(shí)間存儲(chǔ)于計(jì)算機(jī)的各種計(jì)算機(jī)可讀存儲(chǔ)媒介的指令,計(jì)算機(jī)102的數(shù)據(jù)處理器被編程。程序和操作系統(tǒng)一般被分布在例如軟盤(pán)或CD-ROM上。由此,它們被安裝或調(diào)入計(jì)算機(jī)的輔助存儲(chǔ)器中。在執(zhí)行時(shí),它們至少被部分調(diào)入計(jì)算機(jī)的主電子存儲(chǔ)器中。在此描述的本發(fā)明包括這些以及其它各種類(lèi)型的計(jì)算機(jī)可讀存儲(chǔ)媒介,這種媒介包含指令或程序,所述的指令或程序與微處理器或其它數(shù)據(jù)處理器相結(jié)合而共同實(shí)現(xiàn)以下所述的創(chuàng)新步驟。本發(fā)明也包括計(jì)算機(jī)本身,這種計(jì)算機(jī)是根據(jù)以下所述的方法和技術(shù)被編程的。而且,計(jì)算機(jī)的某些子部件可被編程,以實(shí)現(xiàn)以下所述的功能和步驟。當(dāng)這種子部件按所述內(nèi)容編程時(shí),本發(fā)明包括這種子部件。另外,這里所述的本發(fā)明包括數(shù)據(jù)結(jié)構(gòu),這些數(shù)據(jù)結(jié)構(gòu)被包含于各種類(lèi)型的存儲(chǔ)媒介上,如下所述。
為了實(shí)現(xiàn)所述的用途,程序和其它可執(zhí)行程序部件(例如操作系統(tǒng))在此被圖示為分立的方塊,盡管可以理解的是,這些程序和部件在不同的時(shí)間駐留在該計(jì)算機(jī)的不同存儲(chǔ)部件之中,并由該計(jì)算機(jī)的數(shù)據(jù)處理器執(zhí)行之。
媒介分析工具示例圖2說(shuō)明了根據(jù)本發(fā)明的一個(gè)實(shí)施例、結(jié)合有本發(fā)明之思想的媒介分析工具示例的方框圖。根據(jù)圖2所述的實(shí)施例,所描述的媒介分析工具104包括一個(gè)或多個(gè)控制器202、媒介分析引擎204、存儲(chǔ)器/存儲(chǔ)裝置206、輸入/輸出接口以及可選擇的一個(gè)或多個(gè)應(yīng)用程序210,每一部分具有如圖所示的連接關(guān)系。如上所述,媒介分析工具104分析所接收的媒介各幀之內(nèi)容,至少是部分地根據(jù)所接收媒介之內(nèi)容的一個(gè)或多個(gè)屬性,將該媒介分段為不同的場(chǎng)景。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,媒介分析工具104可以有選擇地調(diào)用顏色對(duì)象分析器212、瞬間切片分析功能214和相關(guān)性檢測(cè)器216之中的一個(gè)或多個(gè),對(duì)媒介場(chǎng)景進(jìn)行識(shí)別和分段。根據(jù)一個(gè)實(shí)施例,顏色對(duì)象分析器212或瞬間切片分析功能被調(diào)用,并與相關(guān)性檢測(cè)器216組合,以識(shí)別各場(chǎng)面之間的語(yǔ)義相似性,實(shí)現(xiàn)場(chǎng)景檢測(cè)和分段。如圖所示,顏色對(duì)象分析器包括顏色空間量化器(quantizer)218。所描述的瞬間切片分析功能214包括運(yùn)動(dòng)圖形分析和關(guān)鍵幀提取功能220,以下將做更詳細(xì)的說(shuō)明。如圖所示,存儲(chǔ)裝置/存儲(chǔ)器206包括的存儲(chǔ)器存有一個(gè)或多個(gè)所接收的媒介內(nèi)容224、擴(kuò)展的場(chǎng)景窗口數(shù)據(jù)結(jié)構(gòu)226和(或)被識(shí)別的場(chǎng)景數(shù)據(jù)結(jié)構(gòu)228。以下將要詳細(xì)說(shuō)明的是,媒介分析引擎204分析所接收媒介的一個(gè)或多個(gè)屬性(例如顏色、結(jié)構(gòu)、時(shí)空信息等),以識(shí)別各場(chǎng)面之間的語(yǔ)義相似性。至少是部分地根據(jù)對(duì)語(yǔ)義相似性的分析,媒介分析引擎204將所接收的媒介分段為場(chǎng)景,隨后用于基于內(nèi)容的訪(fǎng)問(wèn)和檢索。
可以理解的是,盡管部件202-228被描述為多個(gè)不同的功能塊,其中的一個(gè)或多個(gè)可以適當(dāng)?shù)亟M合成一個(gè)或多個(gè)功能塊。同樣,分析工具104可以適當(dāng)?shù)赜酶俚墓δ軌K實(shí)現(xiàn),即,在不背離本發(fā)明的宗旨和范圍的情況下,只用對(duì)象識(shí)別功能212或瞬間切片分析功能214中的一個(gè)功能。
根據(jù)一個(gè)實(shí)施例,控制器202從任意多個(gè)源接收媒介內(nèi)容,例如這些源包括本機(jī)存儲(chǔ)裝置(206)、遠(yuǎn)程媒介供應(yīng)者和(或)內(nèi)容存儲(chǔ)源,通過(guò)網(wǎng)絡(luò)連接至媒介分析工具104(參見(jiàn)圖7)。根據(jù)一個(gè)實(shí)施例,由控制器202自遠(yuǎn)程信息源接收媒介內(nèi)容并存放在存儲(chǔ)裝置/存儲(chǔ)器224中用于分析。根據(jù)一個(gè)實(shí)施例,由主計(jì)算機(jī)102以壓縮格式接收該媒介并解壓,然后呈現(xiàn)給媒介分析工具104。在一個(gè)可選的實(shí)施例中,控制器202有選擇地調(diào)用駐留在媒介分析工具104內(nèi)的解碼器應(yīng)用程序(例如210),將以壓縮格式接收的媒介解壓,然后有選擇地調(diào)用媒介分析引擎204。除了本發(fā)明的上述創(chuàng)新方面之外,控制器202是用來(lái)表示任何各種各樣本領(lǐng)域中已知的控制邏輯,例如處理器、特定用途的集成電路(ASIC)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)、可編程邏輯陣列(PLA)等等。而且,應(yīng)該理解的是,控制器202可以用軟件充分地實(shí)現(xiàn),作為多個(gè)可執(zhí)行指令,當(dāng)執(zhí)行這些指令時(shí)(例如由處理單元132執(zhí)行),實(shí)現(xiàn)上述的控制功能。
媒介分析引擎204被選擇性地被控制器202調(diào)用,以識(shí)別所接收媒介各場(chǎng)面之間的語(yǔ)義相關(guān)性,以便將該媒介精確地分段為場(chǎng)景。與現(xiàn)有技術(shù)不同,現(xiàn)有技術(shù)最多是識(shí)別各幀之間的視覺(jué)相似性,以識(shí)別出場(chǎng)面邊界線(xiàn),而媒介分析引擎204有選擇地調(diào)用一個(gè)或多個(gè)語(yǔ)義上下文的分析器212和(或)214,以識(shí)別連續(xù)場(chǎng)面內(nèi)的一個(gè)或多個(gè)定性的幀屬性。以下將詳細(xì)說(shuō)明,這些屬性的量化信息被提交給相關(guān)性檢測(cè)器216,以確定是否這些場(chǎng)面在語(yǔ)義上是相關(guān)的或相似的。如果滿(mǎn)足相似性的一個(gè)閾值,這些場(chǎng)面被分組為一個(gè)場(chǎng)景的至少一個(gè)子集。
根據(jù)圖2所描述的示例,所描述的媒介分析引擎204包括兩個(gè)語(yǔ)義上下文的媒介分析器顏色對(duì)象分析器212和瞬間切片分析功能214。由以下的說(shuō)明可以理解到的是,可以調(diào)用一個(gè)或多個(gè)媒介分析器用于場(chǎng)景分段。因此,在不背離本發(fā)明的宗旨和范圍的情況下,可以用語(yǔ)義分析性能更強(qiáng)或更弱的媒介分析引擎替代所說(shuō)明的顏色對(duì)象分析器如圖所示,顏色對(duì)象分析器212包括顏色量化器218。與測(cè)量視覺(jué)相似性的現(xiàn)有技術(shù)之方法不同,顏色對(duì)象分析器212調(diào)用顏色量化器,對(duì)于連續(xù)各場(chǎng)面內(nèi)的一幀或多幀的一個(gè)或多個(gè)主對(duì)象和(或)周?chē)鷮?duì)象,計(jì)算在顏色空間中的顏色柱狀圖。根據(jù)一個(gè)實(shí)施例,色度、飽和度和濃淡色度,即“HSV”,顏色空間被用于顏色量化及計(jì)算柱狀圖。HSV顏色空間為這種分析提供優(yōu)于其它顏色空間的多個(gè)優(yōu)點(diǎn),因?yàn)樗亲匀坏募芭c知覺(jué)近似一致的,所以,HSV顏色空間的量化產(chǎn)生一個(gè)色彩集,該色彩集是密集的和完整的。根據(jù)一個(gè)實(shí)施例,該HSV顏色空間是由顏色量化器218以一個(gè)三維直角坐標(biāo)系進(jìn)行量化,該直角坐標(biāo)系分別對(duì)于X和Y有10個(gè)值、對(duì)于Z(亮度)有5個(gè)值。本領(lǐng)域技術(shù)人員可以理解的是,采用10個(gè)值表示顏色(即X和Y坐標(biāo))使得顏色量化器218能區(qū)別出該HSV空間中即使是稍有不同的顏色之間的差別,能夠識(shí)別出更多的對(duì)象,即使是照明條件變化的情況下。
為了確定視頻場(chǎng)面的主顏色對(duì)象,由顏色量化器218將該場(chǎng)面的每一幀的象素和(或)內(nèi)編碼(intra-encoded)幀(I)投影到已量化的顏色空間中(例如HSV顏色空間)。這些象素在三維顏色空間中的歸一化分布構(gòu)成該幀的三維顏色柱狀圖。在該三維顏色柱狀圖中所有主要的局部最大點(diǎn)被識(shí)別;由顏色量化器218將在該顏色空間中一個(gè)小鄰域內(nèi)環(huán)繞每個(gè)局部最大點(diǎn)的區(qū)域定義為一個(gè)顏色對(duì)象(例如參見(jiàn)圖3)。一旦識(shí)別出顏色對(duì)象,顏色對(duì)象分析器212用最多的象素信息識(shí)別一個(gè)或多個(gè)對(duì)象。這些對(duì)象被識(shí)別為包含相對(duì)該幀的最重要的顏色信息,對(duì)噪聲更有反彈性。根據(jù)一個(gè)實(shí)施例,顏色對(duì)象分析器212選擇最高的20個(gè)對(duì)象作為主要對(duì)象。
于是,通過(guò)只對(duì)包含在主顏色對(duì)象中的象素進(jìn)行計(jì)數(shù),顏色對(duì)象分析器212產(chǎn)生相對(duì)于每一幀的3D主顏色柱狀圖。根據(jù)一個(gè)實(shí)施例,該主顏色柱狀圖被表示為histd(k,x,y,z)(1)其中,k表示幀數(shù),x、y、z表示顏色箱(bin)。應(yīng)該理解的是,已知上述內(nèi)容,顏色對(duì)象分析器212在空間區(qū)域中尚不能實(shí)現(xiàn)對(duì)象分段,而要考慮到歸入對(duì)象的顏色空間中主要區(qū)域的象素。
一旦識(shí)別出主要對(duì)象,顏色對(duì)象分析器212跟蹤通過(guò)各幀的顏色空間中的對(duì)象,以識(shí)別場(chǎng)面的主要對(duì)象。如果在兩個(gè)相鄰幀中兩個(gè)顏色對(duì)象的中心充分接近,這兩個(gè)顏色對(duì)象被識(shí)別為相同的顏色對(duì)象。這種顏色跟蹤過(guò)程一直持續(xù)到該場(chǎng)面中所有的幀都被跟蹤。在跟蹤之后,只有那些在場(chǎng)面中具有最長(zhǎng)持續(xù)時(shí)間的顏色對(duì)象被記為主要對(duì)象。根據(jù)一個(gè)實(shí)施例,顏色對(duì)象分析器212對(duì)每個(gè)場(chǎng)面產(chǎn)生一個(gè)總的主顏色柱狀圖,表示為histda(x,y,z) (2)其中a表示一個(gè)場(chǎng)面??偟闹黝伾鶢顖D包括的主要顏色對(duì)象是通過(guò)該場(chǎng)面的各幀所共有的。根據(jù)一個(gè)實(shí)施例,顏色對(duì)象分析器212對(duì)在一個(gè)場(chǎng)面中具有較長(zhǎng)持續(xù)時(shí)間的顏色對(duì)象采用一個(gè)加權(quán)值,用數(shù)學(xué)式表示為histdA(x,y,z)=histda(x,y,z)×d1/d0(3)其中d0是該場(chǎng)面的持續(xù)時(shí)間,d1是具有顏色(x,y,z)的主顏色對(duì)象的持續(xù)時(shí)間。根據(jù)一個(gè)實(shí)施例,顏色對(duì)象分析器212通過(guò)使該場(chǎng)面內(nèi)的每個(gè)主顏色對(duì)象的平均尺寸歸一化,進(jìn)一步改善柱狀圖(3)。因此,一個(gè)場(chǎng)面的主顏色柱狀圖表示一幀中的結(jié)構(gòu)內(nèi)容和一個(gè)場(chǎng)面中的瞬間內(nèi)容。此外,這些主顏色對(duì)象往往表示一個(gè)場(chǎng)面中的主要對(duì)象或背景,在兩個(gè)場(chǎng)面中這些顏色對(duì)象之間的相關(guān)性能夠表示這兩個(gè)場(chǎng)面之間的相關(guān)性。
參見(jiàn)圖3,圖中表示根據(jù)本發(fā)明的一個(gè)方面、填充有所識(shí)別對(duì)象的HSV顏色空間之示例。如圖所示,描述了兩個(gè)HSV顏色空間圓柱體,例如一個(gè)表示幀(N)302,一個(gè)表示幀(N+1)304。該HSV顏色柱狀圖302和304被用于識(shí)別相關(guān)幀(302,304)內(nèi)的主顏色對(duì)象(例如306A…N,308A…N),以識(shí)別一個(gè)場(chǎng)面中的主顏色對(duì)象。接著,這種HSV顏色柱狀圖被用于為場(chǎng)景分段而識(shí)別主顏色對(duì)象。
再參見(jiàn)圖2,一旦由顏色對(duì)象分析器212產(chǎn)生主顏色對(duì)象柱狀圖,控制器202有選擇地調(diào)用相關(guān)性檢測(cè)器216的情況,得出兩場(chǎng)面a和b之間的相關(guān)性值。相關(guān)性檢測(cè)器216可以采用多種統(tǒng)計(jì)技術(shù)的任何技術(shù),以識(shí)別場(chǎng)面之間的相關(guān)性。根據(jù)一個(gè)實(shí)施例,通過(guò)計(jì)算場(chǎng)面a和b的兩個(gè)主顏色柱狀圖之間的柱狀圖交集,相關(guān)性檢測(cè)器216計(jì)算出這兩個(gè)場(chǎng)面之間的相關(guān)性,用數(shù)學(xué)式表示為Cor(a,b)=∑x∑y∑zmin[histdA(x,y, z),histdB(x,y,z)](4)其特性是1)0≤cor(a,b)≤1,cor(a,a)=12)cor(a,b)=cor(b,a)用于場(chǎng)面分組的擴(kuò)展窗配置至少部分基于相關(guān)性檢測(cè)器216執(zhí)行的相關(guān)性分析,控制器202將各場(chǎng)面分組以將媒介分段為場(chǎng)景。根據(jù)一實(shí)施例,控制器202將滿(mǎn)足最小相關(guān)性閾值(Tc)的場(chǎng)面分組。
根據(jù)本發(fā)明的一個(gè)方面,控制器202利用存儲(chǔ)器206的擴(kuò)展窗218將相關(guān)的連續(xù)場(chǎng)面分組為至少部分基于相關(guān)性檢測(cè)器216取出的相關(guān)性記分的一個(gè)場(chǎng)景??梢岳斫獾氖?,根據(jù)下面的說(shuō)明,擴(kuò)展窗技術(shù)省略了比較許多場(chǎng)面對(duì)或構(gòu)造復(fù)雜的場(chǎng)面鏈接的需要,因此減少了計(jì)算復(fù)雜度。
另外,考慮到瞬間約束,即時(shí)間相互接近的場(chǎng)面很可能屬于同一場(chǎng),兩個(gè)場(chǎng)面間的相關(guān)性記分由一個(gè)瞬間接近(或吸收)參數(shù)w加權(quán)
w=1/(1+d/C)(5)其中,d為兩場(chǎng)面間的最小距離,C為至少部分由場(chǎng)面長(zhǎng)度確定的常數(shù)。根據(jù)一實(shí)施例,控制器202假設(shè)每場(chǎng)景至少包括三場(chǎng)面。首先,第一組三個(gè)場(chǎng)面形成新場(chǎng)景,擴(kuò)展窗的尺寸設(shè)置為3。每次分析新場(chǎng)面時(shí),其相關(guān)值與窗中的上三個(gè)場(chǎng)面比較,確定三個(gè)相關(guān)值中的最大值v。然后,如果計(jì)算的最大值大于包含擴(kuò)展窗的場(chǎng)面的平均最大相關(guān)性記分減任何變量,場(chǎng)面被吸收入擴(kuò)展窗中的當(dāng)前場(chǎng)景??刂破?02執(zhí)行的比較的數(shù)學(xué)表示式為v>平均值-變量 (6)如果最大值(v)不滿(mǎn)足這個(gè)閾值,分析幾個(gè)更靠后的場(chǎng)面以改善當(dāng)前場(chǎng)面代表新場(chǎng)景之起始的可信度。根據(jù)經(jīng)驗(yàn)可以確定,在一個(gè)場(chǎng)景中常常有一場(chǎng)面不滿(mǎn)足前面的要包括在該場(chǎng)景內(nèi)的要求。然而,對(duì)其它連續(xù)場(chǎng)面的分析可能會(huì)確認(rèn)當(dāng)前場(chǎng)面不代表語(yǔ)義場(chǎng)景的結(jié)束。如果控制器202判定一個(gè)或多個(gè)后續(xù)場(chǎng)面滿(mǎn)足公式(6),任何前面的場(chǎng)面可被包括在擴(kuò)展窗218中導(dǎo)出的場(chǎng)景中??刂破?02導(dǎo)出的當(dāng)前場(chǎng)面I對(duì)新場(chǎng)景的吸收比表示為數(shù)學(xué)式R(i)=(right(i)+right(i+1))/(left(i)+left(i+1)) (7)其中如果R(i)>T且R(i)>R(i-1)且R(i)>R(i+1),其中T為閾值,則left(i)=max{cor(i,i-1),cor(i,i-2),cor(i,i-3)}left(i+1)=max{cor(i+1,i-1),cor(i+1,i-2)}right(i)=max{cor(i,i+1),cor(i,i+2),cor(i,i+3)}right(i+1)=max{cor(i+1,i+2),cor(i+1,i+3),cor(i+1,i+4)}根據(jù)一實(shí)施例,控制器202設(shè)置閾值T為1.5。因此,在從右端對(duì)場(chǎng)面i的吸收大于從左端的吸收之位置,判定當(dāng)前場(chǎng)面i開(kāi)始一個(gè)新場(chǎng)景。否則,控制器202放置場(chǎng)面i于擴(kuò)展窗的當(dāng)前場(chǎng)景中。下文參照?qǐng)D4和5圖示描繪擴(kuò)展窗。
參照?qǐng)D4,該圖描述了將場(chǎng)面加入至少部分基于上述相關(guān)性測(cè)量的擴(kuò)展場(chǎng)景窗。如圖所示,控制器202將各場(chǎng)面的相關(guān)值與在前的及連續(xù)的場(chǎng)面相比較,以識(shí)別每個(gè)場(chǎng)面應(yīng)放置在哪一個(gè)場(chǎng)景。
圖5描繪根據(jù)本發(fā)明的一個(gè)方面的存儲(chǔ)裝置/存儲(chǔ)器206,它包括擴(kuò)展場(chǎng)景窗218。如上所述,擴(kuò)展窗218用于將具有類(lèi)似語(yǔ)義內(nèi)容(如相關(guān)性測(cè)量所定義)的場(chǎng)面分組。
時(shí)空分析功能除顏色對(duì)象分析器212外,或是作為對(duì)顏色對(duì)象分析器212的替代,控制器202可選擇地調(diào)用時(shí)空切片分析功能214的實(shí)例(instance),以識(shí)別場(chǎng)面之間的語(yǔ)義類(lèi)似性,從中可識(shí)別獨(dú)立的場(chǎng)景。如圖所示,瞬間切片分析功能214包括移動(dòng)分析功能220和空間分析功能222。以下做更詳細(xì)的說(shuō)明,瞬間切片分析功能214從連續(xù)場(chǎng)面的幀中切割一個(gè)或多個(gè)橫向或縱向的一維(1D)切片,以量化切片的移動(dòng)圖象,并選擇關(guān)鍵幀代表一個(gè)場(chǎng)面的每個(gè)移動(dòng)分段。至少部分地基于由該1D切片的量化特征,控制器202調(diào)用相關(guān)性檢測(cè)器216的實(shí)例,以測(cè)量相鄰場(chǎng)面的量化特征間的類(lèi)似性,來(lái)識(shí)別場(chǎng)景邊界。此外,與現(xiàn)有技術(shù)不同,該瞬間切片分析功能214識(shí)別場(chǎng)面間的語(yǔ)義內(nèi)聚性(cohesive)以識(shí)別媒介場(chǎng)景。
根據(jù)一實(shí)施例,瞬間切片分析功能214從接收的媒介的垂直和水平面切割1D切片,并選擇調(diào)用移動(dòng)分析功能220的實(shí)例。移動(dòng)分析功能220反復(fù)劃分每個(gè)場(chǎng)面的切片為更小的片斷,其每個(gè)具有連貫的移動(dòng)圖象。在二維時(shí)空切片,瞬間結(jié)構(gòu)包含指示移動(dòng)軌道的信息。根據(jù)一實(shí)施例,通常的結(jié)構(gòu)分析方法是采用例如共生矩陣計(jì)算,以特征化場(chǎng)面中的移動(dòng)圖象。根據(jù)一實(shí)施例,計(jì)算15個(gè)共生矩陣以對(duì)在3個(gè)不同方向中通過(guò)5個(gè)掃描的軌道進(jìn)行模擬,而代表每個(gè)矩陣的平滑度和對(duì)比度的30個(gè)特征被提取。參照?qǐng)D6描繪15個(gè)共生矩陣的例子。
根據(jù)一實(shí)施例,根據(jù)下列4種至少部分基于場(chǎng)面的基本移動(dòng)之一,分析功能220特征化場(chǎng)面內(nèi)的每個(gè)片斷的移動(dòng);1)不移動(dòng)或細(xì)微移動(dòng);2)放大或縮??;3)搖攝(pan);和4)字幕(title)。至少基于相對(duì)于連貫移動(dòng)圖象的每個(gè)片斷的移動(dòng)圖象,根據(jù)下列原則選擇一個(gè)或多個(gè)關(guān)鍵幀1)不移動(dòng)或細(xì)微移動(dòng);選擇任意幀用于檢索2)放大或縮?。贿x擇第一幀和最后幀用于檢索3)搖攝;選擇對(duì)應(yīng)的垂直切片用于檢索4)字幕選擇對(duì)應(yīng)的水平切片用于檢索一旦被檢索,每個(gè)場(chǎng)面將由一個(gè)或多個(gè)關(guān)鍵幀的一組特征表示,這些關(guān)鍵幀至少是部分地基于上述移動(dòng)分析而提取的。關(guān)鍵幀的特征可以是顏色柱狀圖或其它圖象特征。至少部分基于場(chǎng)面的關(guān)鍵幀的特征,相關(guān)性檢測(cè)器計(jì)算場(chǎng)面的類(lèi)似性之值,以確定這些場(chǎng)面是否語(yǔ)義相關(guān),如果是,控制器202將這些場(chǎng)面分段為一個(gè)場(chǎng)景,它至少暫時(shí)存儲(chǔ)在存儲(chǔ)器228。在一實(shí)施例中,控制器202通過(guò)識(shí)別兩場(chǎng)面的關(guān)鍵幀間的柱狀圖交集計(jì)算場(chǎng)面間的相似性。另外,如上所述,根據(jù)一實(shí)施例,媒介分析工具104利用擴(kuò)展窗動(dòng)態(tài)地由那些滿(mǎn)足語(yǔ)義相似性的閾值的場(chǎng)面產(chǎn)生場(chǎng)景。
這里所用的每一個(gè)存儲(chǔ)裝置/存儲(chǔ)器206和輸入/輸出接口208都是用來(lái)表示本領(lǐng)域所公知的那些元件。媒介分析工具104利用存儲(chǔ)器206至少部分暫時(shí)地保存媒介內(nèi)容224、擴(kuò)展場(chǎng)景窗226和/或所識(shí)別的場(chǎng)景228。I/O接口208使媒介分析工具104能與外部元件和系統(tǒng)通信,有助于實(shí)現(xiàn)分布式結(jié)構(gòu)和遠(yuǎn)程操作。
應(yīng)用程序210是用來(lái)包括各種各樣的應(yīng)用程序,它們可使用媒介分析引擎204、或由媒介分析引擎204所用,以自動(dòng)識(shí)別具有語(yǔ)義內(nèi)聚性的場(chǎng)面用于場(chǎng)景分段。在這方面,應(yīng)用程序210可適當(dāng)包括圖象用戶(hù)接口(GUI)、媒介播放器、媒介發(fā)生器、媒介數(shù)據(jù)庫(kù)控制器等。
按以上所做的描述,可以理解的是,媒介分析工具可在多個(gè)可選的實(shí)施例中充分實(shí)現(xiàn)。根據(jù)一實(shí)施例,媒介分析工具104可以用軟件實(shí)現(xiàn)而作為一個(gè)獨(dú)立的應(yīng)用程序,作為較高級(jí)多媒體應(yīng)用的子集,如媒介解碼應(yīng)用程序、媒介著色(rendering)應(yīng)用程序、瀏覽器應(yīng)用程序、媒介播放器應(yīng)用程序等??蛇x的是,媒介分析工具104也可由硬件充分實(shí)現(xiàn),例如采用專(zhuān)用集成電路(ASIC)、控制器、可編程邏輯器件(PLD)、多媒體加速器外圍裝置等。這些可選的實(shí)現(xiàn)方式在本發(fā)明的宗旨和范圍內(nèi)可以預(yù)期到的。
運(yùn)行和實(shí)施示例以上參照?qǐng)D1至圖6介紹了媒介分析工具104的運(yùn)行環(huán)境和功能組件,以下參照?qǐng)D7至圖10將更充分地闡述系統(tǒng)的運(yùn)行。為簡(jiǎn)化描述,并不受限制,以下對(duì)媒介分析工具104的闡述是在按語(yǔ)義對(duì)視頻媒介進(jìn)行分段的范圍中。然而,本領(lǐng)域技術(shù)人員知道,該媒介分析工具104可擴(kuò)展到按語(yǔ)義對(duì)其它類(lèi)型的媒介(例如音頻內(nèi)容)進(jìn)行分段。
圖7的流程圖描繪了根據(jù)本發(fā)明的一個(gè)實(shí)施例、將媒介動(dòng)態(tài)分段為語(yǔ)義類(lèi)似單元的方法示例。更具體地說(shuō),根據(jù)所描述的實(shí)施例,圖7表示用于將視頻內(nèi)容動(dòng)態(tài)分段為場(chǎng)景的方法示例,這種分段至少部分是基于組成場(chǎng)景的場(chǎng)面間的語(yǔ)義類(lèi)似性。
如圖7所示的方法,在框702,開(kāi)始接收對(duì)媒介內(nèi)容分段的指示。更具體地說(shuō),媒介分析工具104的控制器202從本機(jī)應(yīng)用程序(如210)或外部源(即通過(guò)I/O接口208)接收指示。
作為響應(yīng),在框704,媒介分析工具104調(diào)用媒介分析引擎204的實(shí)例來(lái)分析所識(shí)別的媒介內(nèi)容,以識(shí)別組成媒介的場(chǎng)面間的語(yǔ)義類(lèi)似性。如上所述,媒介分析引擎204選擇地調(diào)用顏色對(duì)象分析器212以執(zhí)行顏色對(duì)象分段,和/或瞬間切片分析功能214以對(duì)媒介內(nèi)容進(jìn)行瞬間切片分析。至少部分地基于這種分析,調(diào)用相關(guān)性檢測(cè)器216識(shí)別具有統(tǒng)計(jì)上的語(yǔ)義內(nèi)聚性的場(chǎng)面。
在框706,那些被找出的具有統(tǒng)計(jì)上的語(yǔ)義相關(guān)性的場(chǎng)面被分組在一起,形成語(yǔ)義相關(guān)的媒介內(nèi)容的場(chǎng)景。如上所述,一旦相關(guān)性檢測(cè)器216確定一個(gè)場(chǎng)面與在前的場(chǎng)面和/或隨后的場(chǎng)面語(yǔ)義相關(guān),該場(chǎng)景被加入到一個(gè)定義場(chǎng)景的場(chǎng)面的擴(kuò)展窗(218)。利用擴(kuò)展窗218使得媒介分析工具104免于現(xiàn)有技術(shù)常有的繁瑣的復(fù)雜計(jì)算。
圖8的流程圖描繪了根據(jù)本發(fā)明的一個(gè)方面、顏色對(duì)象分段的方法示例。根據(jù)所述的實(shí)施例,該方法始于框802,其中,在HSV顏色空間分析媒介內(nèi)容。即,來(lái)自幀的內(nèi)容由顏色量化器218在HSV顏色空間中進(jìn)行量化。
在框804,在HSV顏色空間中通過(guò)幀和場(chǎng)面識(shí)別和跟蹤主對(duì)象。更具體地說(shuō),如上所述,控制器202在HSV顏色空間中識(shí)別對(duì)象,跟蹤這種對(duì)象通過(guò)幀邊界。幀間對(duì)象的小的位置移動(dòng)指示相似的語(yǔ)義結(jié)構(gòu)。
在框806,關(guān)于HSV顏色空間中主顏色對(duì)象的信息被發(fā)送到相關(guān)性檢測(cè)器216,它至少部分地基于連續(xù)場(chǎng)面中的主顏色對(duì)象產(chǎn)生語(yǔ)義相似性之值。在框808,與其它場(chǎng)面在統(tǒng)計(jì)的語(yǔ)義上相似的場(chǎng)面被分組在場(chǎng)面的擴(kuò)展窗中。一旦識(shí)別了所有語(yǔ)義相似的場(chǎng)面(并因此保存在擴(kuò)展窗中),這些場(chǎng)面被定義為場(chǎng)景,存儲(chǔ)之以方便以后的訪(fǎng)問(wèn)和檢索。
圖9的流程圖描繪了根據(jù)本發(fā)明的一個(gè)方面、瞬間切片分析的方法示例。如上所述,媒介分析引擎204可以有選擇地調(diào)用瞬間切片分析功能214作為可選方案,或者另加上顏色對(duì)象分析器212,以識(shí)別語(yǔ)義相似的場(chǎng)面,用于分段為場(chǎng)景。不象顏色對(duì)象分析器212,瞬間切片分析功能214分析所接收的媒介內(nèi)容的移動(dòng)和時(shí)空結(jié)構(gòu)屬性,以分段場(chǎng)景。
因此,根據(jù)圖9的實(shí)施例,該方法始于框902,從一個(gè)或多個(gè)連續(xù)場(chǎng)面的一個(gè)或多個(gè)幀中提取一維水平和垂直方向的切片。在框904,至少部分地基于這些分段的移動(dòng)屬性,移動(dòng)分析功能220反復(fù)劃分這些切片更小的分段。
在框906,控制器202選擇地調(diào)用瞬間分析功能222,以根據(jù)移動(dòng)模式分析提取場(chǎng)面的關(guān)鍵幀,并提取這些關(guān)鍵幀的特征,代表該場(chǎng)面的視覺(jué)內(nèi)容。根據(jù)上述實(shí)施例,瞬間分析功能222提取關(guān)鍵幀的移動(dòng)、顏色和/或瞬間結(jié)構(gòu)屬性中的一個(gè)或多個(gè),代表該場(chǎng)面的視覺(jué)內(nèi)容。
在框908,向相關(guān)性檢測(cè)器216提供所識(shí)別的關(guān)鍵幀的特征,至少部分地根據(jù)這些特征,相關(guān)性檢測(cè)器216得出場(chǎng)面間的語(yǔ)義相似性的統(tǒng)計(jì)數(shù)值。如上所述,具有統(tǒng)計(jì)上的語(yǔ)義相似性的內(nèi)容被分組在一起構(gòu)成一個(gè)場(chǎng)景。如上所述,控制器202可充分使用擴(kuò)展窗218將場(chǎng)面分組在場(chǎng)景分段中。
可選實(shí)施例圖10是一種存儲(chǔ)媒介的方框圖,在該存儲(chǔ)媒介中存儲(chǔ)有多個(gè)指令,根據(jù)本發(fā)明的另一實(shí)施例,其中包括實(shí)現(xiàn)根據(jù)本發(fā)明的思想的指令。圖10在整體上描述了一種存儲(chǔ)媒介/裝置1000,它存儲(chǔ)有多個(gè)可執(zhí)行指令,其中至少包括在執(zhí)行時(shí)可實(shí)現(xiàn)本發(fā)明的媒介分析工具104的可執(zhí)行指令之子集。
這里所用的存儲(chǔ)媒介1000是用來(lái)代表本領(lǐng)域技術(shù)人員已知的多種存儲(chǔ)裝置和/或存儲(chǔ)媒介之一種或多種,如易失性存儲(chǔ)裝置、非易失性存儲(chǔ)裝置、磁存儲(chǔ)媒介、光學(xué)存儲(chǔ)媒介等。類(lèi)似地,可執(zhí)行指令是用來(lái)表現(xiàn)任何在本領(lǐng)域中公知的軟件語(yǔ)言,如C++、VisualBasic、Hypertext Markup Language(HTML,超文本標(biāo)記語(yǔ)言)、Java、eXtensible Markup Language(XML,可擴(kuò)充標(biāo)記語(yǔ)言)等。另外,可以理解的是,存儲(chǔ)媒介/裝置1000并不是非要與任何主機(jī)系統(tǒng)設(shè)在一處。即,存儲(chǔ)媒介/裝置1000可位于一個(gè)遠(yuǎn)程服務(wù)器內(nèi),該服務(wù)器與一個(gè)執(zhí)行系統(tǒng)建立通信連接,并可由該系統(tǒng)訪(fǎng)問(wèn)。因此,圖10的軟件實(shí)現(xiàn)被認(rèn)為是例證性的,其它存儲(chǔ)媒介和軟件實(shí)施例也在本發(fā)明的精神和范圍內(nèi)。
雖然本發(fā)明對(duì)結(jié)構(gòu)特征和方法性步驟采用特定的術(shù)語(yǔ)描述,應(yīng)該理解的是,權(quán)利要求書(shū)中所限定的本發(fā)明并不限于所述的具體特征或步驟。例如,這里所表述的發(fā)明原理可以適當(dāng)?shù)赜糜谧R(shí)別具有多種音頻內(nèi)容的存儲(chǔ)媒介(例如音樂(lè)CD)上不同的音頻內(nèi)容(例如歌曲)。根據(jù)這個(gè)可選的實(shí)施例,媒介分析工具104的應(yīng)用程序210產(chǎn)生存儲(chǔ)媒介上的音頻內(nèi)容的顏色表示。有很多技術(shù)都可以適當(dāng)?shù)赜糜趫?zhí)行這個(gè)聲音到視覺(jué)的轉(zhuǎn)換,如頻譜分析等。一旦完成聲音到視覺(jué)的轉(zhuǎn)換,根據(jù)以上公開(kāi)的本發(fā)明的思想,媒介分析工具104選擇性地調(diào)用顏色對(duì)象分析器212、顏色量化器218和相關(guān)性檢測(cè)器216,從該多種音頻內(nèi)容中識(shí)別出語(yǔ)義不同的音頻內(nèi)容。因此,可以理解的是,雖然公開(kāi)了具體特征和步驟,但只是作為本發(fā)明的實(shí)施例,在這里說(shuō)明更廣泛的發(fā)明原理。
權(quán)利要求
1.一種方法,包括分析所接收的媒介內(nèi)容的連續(xù)場(chǎng)面的一個(gè)或多個(gè)屬性;和至少部分地基于對(duì)所述場(chǎng)面的一個(gè)或多個(gè)屬性的分析,產(chǎn)生連續(xù)場(chǎng)面的相關(guān)值。
2.如權(quán)利要求1的方法,其中所述媒介內(nèi)容是從遠(yuǎn)程提供者和/或本地存儲(chǔ)器接收。
3.如權(quán)利要求1的方法,其中所述的相關(guān)值反映所述連續(xù)場(chǎng)面之間的語(yǔ)義相關(guān)性。
4.如權(quán)利要求1的方法,其中,對(duì)媒介的連續(xù)場(chǎng)面的一個(gè)或多個(gè)屬性的分析包括產(chǎn)生幀的顏色柱狀圖;和識(shí)別所述顏色柱狀圖中的主要顏色對(duì)象。
5.如權(quán)利要求4的方法,其中產(chǎn)生幀的顏色柱狀圖之步驟包括將幀的象素、和/或內(nèi)部編碼幀的DC塊投影至一個(gè)量化的顏色空間;和產(chǎn)生所述象素和/或塊的歸一化的分布,為每一幀產(chǎn)生顏色柱狀圖。
6.如權(quán)利要求5的方法,其中所述量化的顏色空間是色度、飽和度、及濃淡色度(HSV)顏色空間。
7.如權(quán)利要求4的方法,還包括在通過(guò)幀的顏色空間中跟蹤所識(shí)別的顏色對(duì)象;和至少部分地基于通過(guò)幀的主顏色對(duì)象的相對(duì)位置,檢測(cè)場(chǎng)面的邊界。
8.如權(quán)利要求1的方法,還包括產(chǎn)生所檢測(cè)的場(chǎng)面間的相關(guān)值;和至少部分基于所產(chǎn)生的相關(guān)值,把場(chǎng)面加入一動(dòng)態(tài)調(diào)整大小的、定義場(chǎng)景的場(chǎng)面的擴(kuò)展窗。
9.如權(quán)利要求8的方法,其中所產(chǎn)生的相關(guān)性至少部分地反映所述場(chǎng)面中顏色對(duì)象的相關(guān)性。
10.如權(quán)利要求8的方法其中產(chǎn)生相關(guān)值之步驟包括識(shí)別與兩個(gè)或多個(gè)場(chǎng)面之每個(gè)場(chǎng)面相關(guān)的顏色柱狀圖的交集。
11.一種存儲(chǔ)媒介,包括多個(gè)可執(zhí)行指令,其中包括一指令子集,執(zhí)行該指令子集時(shí),實(shí)現(xiàn)權(quán)利要求1所述的方法。
12.一種計(jì)算系統(tǒng),包括存儲(chǔ)媒介,包含多個(gè)可執(zhí)行指令;及執(zhí)行單元,連接到該存儲(chǔ)媒介,它至少執(zhí)行多個(gè)所述的可執(zhí)行指令,實(shí)現(xiàn)如權(quán)利要求1所述的方法。
13.一種方法,包括分析在一顏色空間中與所接收的媒介內(nèi)容有關(guān)的顏色信息,以識(shí)別一個(gè)或多個(gè)顏色對(duì)象;通過(guò)所接收的媒介內(nèi)容跟蹤顏色對(duì)象,以識(shí)別場(chǎng)面;及量化場(chǎng)面間的相關(guān)性,以至少部分地基于所分析的顏色信息來(lái)識(shí)別場(chǎng)景,該顏色信息與所接收的媒介內(nèi)容有關(guān)。
14.如權(quán)利要求13的方法其中分析顏色信息之步驟包括將每幀的象素、或內(nèi)部編碼幀的DC塊投影到一個(gè)量化的顏色空間;和產(chǎn)生所述象素和/或塊的歸一化的分布,以產(chǎn)生媒介內(nèi)容的顏色柱狀圖。
15.如權(quán)利要求14的方法還包括識(shí)別所述顏色柱狀圖中的局部最大點(diǎn);定義顏色對(duì)象為環(huán)繞每個(gè)所識(shí)別的局部最大點(diǎn)的N個(gè)量化單元的區(qū)域(sphere)。
16.如權(quán)利要求15的方法其中所述顏色對(duì)象定義為環(huán)繞識(shí)別的局部最大點(diǎn)的3個(gè)量化單元的區(qū)域。
17.如權(quán)利要求15的方法其中通過(guò)媒介內(nèi)容跟蹤顏色對(duì)象還包括在關(guān)聯(lián)于兩幀的顏色空間中,選擇一個(gè)或多個(gè)顏色對(duì)象;和產(chǎn)生對(duì)于幀的相關(guān)值,表示出現(xiàn)在每幀的對(duì)象是同一對(duì)象的可能性。
18.如權(quán)利要求17的方法其中產(chǎn)生幀間相關(guān)值包括在兩幀中的每幀中,定位顏色對(duì)象的中心點(diǎn);和計(jì)算每幀中的每一個(gè)對(duì)象的中心點(diǎn)的相對(duì)位置,其中,如果對(duì)象的相對(duì)位置不偏離預(yù)定的閾值,對(duì)象被識(shí)別為一般對(duì)象。
19.如權(quán)利要求15的方法還包括產(chǎn)生場(chǎng)面顏色柱狀圖,以?xún)H包括通過(guò)幀并具有最長(zhǎng)持續(xù)時(shí)間的顏色對(duì)象,所述的幀包括所識(shí)別的場(chǎng)面。
20.如權(quán)利要求19的方法其中量化場(chǎng)面間的相關(guān)性包括計(jì)算兩場(chǎng)面顏色柱狀圖間的柱狀圖交集,以確定場(chǎng)面間的語(yǔ)義相關(guān)性。
21.如權(quán)利要求20的方法還包括當(dāng)場(chǎng)面間的相關(guān)值大于預(yù)定閾值時(shí),將擴(kuò)展窗中語(yǔ)義相關(guān)的場(chǎng)面分組。
22.如權(quán)利要求21的方法其中場(chǎng)面的組合包括場(chǎng)景。
23.如權(quán)利要求13的方法還包括當(dāng)場(chǎng)面間的相關(guān)值大于預(yù)定閾值時(shí),將擴(kuò)展窗中語(yǔ)義相關(guān)的場(chǎng)面分組。
24.一種存儲(chǔ)媒介,包括多個(gè)可執(zhí)行指令,執(zhí)行這些指令時(shí),實(shí)現(xiàn)如權(quán)利要求13的方法。
25.一種計(jì)算系統(tǒng),包括存儲(chǔ)媒介,包括多個(gè)可執(zhí)行指令;及執(zhí)行單元,連接到所述存儲(chǔ)媒介,以訪(fǎng)問(wèn)并執(zhí)行所述多個(gè)可執(zhí)行指令的至少一個(gè)子集,實(shí)現(xiàn)如權(quán)利要求13所述的方法。
26.一種方法,包括分析一個(gè)或多個(gè)所接收的媒介內(nèi)容的屬性,以識(shí)別所接收的內(nèi)容的元素間的語(yǔ)義相似性;和將接收的媒介內(nèi)容分段為語(yǔ)義相關(guān)元素的場(chǎng)景。
27.如權(quán)利要求26的方法其中的分析步驟包括識(shí)別所接收媒介的幀的顏色空間內(nèi)的對(duì)象;和跟蹤在通過(guò)幀的顏色空間中所識(shí)別的對(duì)象,以產(chǎn)生幀間相關(guān)值,檢測(cè)場(chǎng)面邊界。
28.如權(quán)利要求26的方法其中的分析步驟包括從所接收的媒介的幀中提取一個(gè)或多個(gè)切片,以分析所接收的媒介的幀的一個(gè)或多個(gè)時(shí)空屬性;至少部分基于幀的時(shí)空屬性,產(chǎn)生幀間相關(guān)值;及至少部分基于該幀間相關(guān)值,選擇場(chǎng)面內(nèi)的分段邊界。
29.如權(quán)利要求26的方法其中的分段包括產(chǎn)生所識(shí)別的場(chǎng)面間的相關(guān)值;用相關(guān)值大于預(yù)定閾值的場(chǎng)面填充動(dòng)態(tài)擴(kuò)展窗。
30.如權(quán)利要求29的方法其中產(chǎn)生相關(guān)值之步驟包括至少部分地基于幀的時(shí)空屬性,為所識(shí)別的場(chǎng)面的每個(gè)分段選擇一個(gè)或多個(gè)關(guān)鍵幀至少部分基于場(chǎng)面的關(guān)鍵幀的視覺(jué)特征,產(chǎn)生所識(shí)別場(chǎng)面間的相關(guān)值。
31.一種存儲(chǔ)媒介,包括多個(gè)指令,執(zhí)行這些指令時(shí),實(shí)現(xiàn)一種媒介分析工具,以分析所接收的媒介內(nèi)容的一個(gè)或多個(gè)屬性,來(lái)識(shí)別所接收的內(nèi)容的元素間的語(yǔ)義相似性,并分段所接收的媒介內(nèi)容為語(yǔ)義相關(guān)元素的場(chǎng)景。
32.如權(quán)利要求31的存儲(chǔ)媒介,其中,分析所接收的媒介內(nèi)容的一個(gè)或多個(gè)屬性的指令包括在所接收的媒介的幀的顏色空間內(nèi)識(shí)別對(duì)象的指令,和在通過(guò)幀的顏色空間中跟蹤所識(shí)別的對(duì)象、以產(chǎn)生幀間相關(guān)值來(lái)檢測(cè)場(chǎng)景邊界的指令。
33.如權(quán)利要求31的存儲(chǔ)媒介,其中,分析所接收的媒介內(nèi)容的一個(gè)或多個(gè)屬性的指令包括從所接收的媒介的幀提取一個(gè)或多個(gè)切片的指令,以分析所接收的媒介的幀的一個(gè)或多個(gè)時(shí)空屬性;至少部分地基于幀的時(shí)空屬性,產(chǎn)生幀間相關(guān)值的指令,和至少部分基于幀間相關(guān)值選擇場(chǎng)景邊界的指令。
34.如權(quán)利要求31的存儲(chǔ)媒介,其中,將所接收的媒介分段的指令包括產(chǎn)生所識(shí)別的場(chǎng)面間的相關(guān)值的指令,和用相關(guān)值大于預(yù)定閾值的場(chǎng)面填充動(dòng)態(tài)擴(kuò)展窗的指令。
35.一種計(jì)算系統(tǒng),包括盤(pán)驅(qū)動(dòng)器,可移動(dòng)并接收如權(quán)利要求31的存儲(chǔ)媒介;執(zhí)行單元,連接到該盤(pán)驅(qū)動(dòng)器,執(zhí)行在所述可移動(dòng)接收的存儲(chǔ)媒介上的多個(gè)指令的至少一個(gè)子集,實(shí)現(xiàn)媒介分析工具。
36.一種計(jì)算系統(tǒng),包括存儲(chǔ)裝置,接收和提供媒介內(nèi)容;和媒介分析工具,連接到所述存儲(chǔ)裝置,分析媒介內(nèi)容的一個(gè)或多個(gè)屬性,識(shí)別所接收的內(nèi)容的元素間的語(yǔ)義相似性,和分段所接收媒介內(nèi)容為語(yǔ)義相關(guān)元素的場(chǎng)景。
37.如權(quán)利要求36的計(jì)算系統(tǒng),其中媒介分析工具包括顏色對(duì)象分析器,以將幀的象素、和/或內(nèi)部編碼的幀的DC塊投影到一個(gè)量化的顏色空間;和產(chǎn)生幀的顏色柱狀圖。
38.如權(quán)利要求37的計(jì)算系統(tǒng),其中所述顏色對(duì)象分析器從顏色柱狀圖中的局部最大點(diǎn)識(shí)別顏色空間對(duì)象,和跟蹤通過(guò)幀的主要顏色空間對(duì)象,以識(shí)別語(yǔ)義相似幀的場(chǎng)面。
39.如權(quán)利要求35的計(jì)算系統(tǒng),其中媒介分析工具還包括相關(guān)性檢測(cè)器,以從顏色對(duì)象分析器接收與多個(gè)場(chǎng)面有關(guān)的一個(gè)或多個(gè)屬性,并計(jì)算兩個(gè)或多個(gè)場(chǎng)面間的相關(guān)值。
40.如權(quán)利要求39的計(jì)算系統(tǒng),其中的媒介分析工具還包括動(dòng)態(tài)確定尺寸的擴(kuò)展窗,連接到該相關(guān)性檢測(cè)器,以保留定義一個(gè)場(chǎng)景的語(yǔ)義相關(guān)場(chǎng)面,直到所有統(tǒng)計(jì)分析的場(chǎng)面都包括在該場(chǎng)景中。
41.如權(quán)利要求36的計(jì)算系統(tǒng),其中媒介分析工具包括瞬間切片分析器,以從一個(gè)或多個(gè)幀中提取一維切片,并分析切片的一個(gè)或多個(gè)時(shí)空屬性,以檢測(cè)場(chǎng)面邊界。
42.如權(quán)利要求41的計(jì)算系統(tǒng),其中媒介分析工具包括相關(guān)性檢測(cè)器,以從瞬間切片分析器接收與多個(gè)場(chǎng)面相關(guān)的一個(gè)或多個(gè)屬性,并計(jì)算兩個(gè)或多個(gè)場(chǎng)面間的相關(guān)值。
43.如權(quán)利要求42的計(jì)算系統(tǒng),其中媒介分析工具還包括動(dòng)態(tài)確定尺寸的擴(kuò)展窗,連接到該相關(guān)性檢測(cè)器,以保留定義一個(gè)場(chǎng)景的語(yǔ)義相關(guān)場(chǎng)面,直到所有統(tǒng)計(jì)分析的場(chǎng)面包括在該場(chǎng)景中。
全文摘要
一種方法,包括接收媒介內(nèi)容和分析所接收的媒介的連續(xù)場(chǎng)面的一個(gè)或多個(gè)屬性。至少部分基于一個(gè)或多個(gè)屬性的分析,對(duì)每個(gè)連續(xù)場(chǎng)面產(chǎn)生相關(guān)值,其中,執(zhí)行場(chǎng)景分段以對(duì)語(yǔ)義相關(guān)的場(chǎng)面進(jìn)行分組。
文檔編號(hào)G06T7/20GK1359082SQ01123068
公開(kāi)日2002年7月17日 申請(qǐng)日期2001年7月30日 優(yōu)先權(quán)日2000年7月28日
發(fā)明者林童, 張洪江 申請(qǐng)人:微軟公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1