專利名稱:基于語義關(guān)聯(lián)的內(nèi)容檢索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明致力于多媒體數(shù)據(jù)檢索領(lǐng)域。尤其是致力于這樣一種方法和系統(tǒng),其使用戶查詢一種媒體形態(tài)(modality)的多媒體檔案(archive)并且自動檢索另一種媒體形態(tài)的相關(guān)數(shù)據(jù),而不需要人工地通過數(shù)據(jù)結(jié)構(gòu)來關(guān)聯(lián)數(shù)據(jù)項。
本申請引入了受讓人的在2002年2月14日提交的,發(fā)明人為M.Li、D.Li以及N.Dimitrova,序號為10/076,194,并且題目為“Speaking Face Detection in TV Domain”的申請,以供參考。這Li的申請為本發(fā)明提供了背景技術(shù)。
在過去的十年中,多媒體應(yīng)用的數(shù)目已經(jīng)按指數(shù)規(guī)律增長,并且多媒體內(nèi)容量也在繼續(xù)劇增。增強的計算能力、萬維網(wǎng)的發(fā)展以及更緊湊和廉價的存儲介質(zhì)的可用性都加速了此增長。自然而然地,也導(dǎo)致了在基于多媒體內(nèi)容的檢索方面增長的興趣,反映出了這些現(xiàn)象。
然而,現(xiàn)有的檢索多媒體內(nèi)容的方式是有限的。例如,為了查詢多媒體數(shù)據(jù)庫以便檢索圖像,所述查詢必須結(jié)合圖像的形式。例如將瀑布的聲音用作查詢來檢索瀑布的圖像就是是不可能的。除了通過關(guān)鍵字進行基本的交叉媒體檢索以外,檢索仍然是被限制在單個多媒體域。
序列號為10/076,194的美國專利申請描述了一種在不需要面部識別的情況下、把面部圖像與語音相關(guān)聯(lián)的系統(tǒng)和方法。對象檢測模塊根據(jù)視頻面部數(shù)據(jù)提供了多個對象特征,而音頻分段模塊提供了多個與該視頻相關(guān)的音頻語音特征。潛在語義索引(LSI)技術(shù)被用于使所述對象特征相關(guān),和定位在視頻中正在進行講話的面部。此申請沒有描述數(shù)據(jù)檢索,而是只討論了音頻與視頻形態(tài)。
Hse及其他人提出的題目為“Automatic Synthesis of SemanticInformation From Multimedia Documents”的編號為6,154,754的專利公開了一種用于構(gòu)造非文本媒體的分層信息結(jié)構(gòu)的系統(tǒng)。從文本和非文本媒體中提取的這些信息被稱作AIU(可錨的信息單元Anchorable Information Unit),并且都是依照標(biāo)準(zhǔn)通用標(biāo)記語言(SGML)來表示的,因此它們可以依照相同的方式來處理。AIU對象是一個或多個可解析字符串或者ASCII串的序列。例如,該`754專利致力于解決基于文本轉(zhuǎn)換來鏈接文本和非文本媒體文獻,并且沒有解決對視頻段檢索的問題。
由Ball及其他人提出的題目為“User Interface for DataPresentation Systems”、編號為EP 1 120 720 A2的歐洲專利申請公開了一種用于增強用戶界面的方法。用戶可以自然語言格式給出用戶查詢,像是文本、語音或點并單擊,接著該方法把所述查詢翻譯為標(biāo)準(zhǔn)的數(shù)據(jù)庫查詢以檢索文本。如果所述自然語言的查詢無法被有效轉(zhuǎn)換,那么該方法就向用戶供應(yīng)附加信息并且繼續(xù)提示用戶進行查詢。此申請沒有解決信息的交叉形態(tài)檢索。
題目為“Multimedia Archive Description Scheme”的公開號為WO 00/45307 A1的國際專利公開了用于集合多媒體記錄的描述方案。所述方案涉及使用稱為簇的數(shù)據(jù)結(jié)構(gòu)的記錄。簇是通過就相似性評估記錄描述的屬性而形成的。簇可以加以組合以形成其它的簇。簇的例子是藝術(shù)家、歷史、表現(xiàn)派作家、印象派作家。簇信息必須被為每個記錄存儲,并且限制可以檢索特定記錄的查詢的類型。
公開號為US 2001/0028731 A1、題目為“Canonical CorrelationAnalysis of Image/Control-Point Location Coupling for theAutomatic Location of Control Points”的美國專利申請公開了一種用于基于可觀測的數(shù)據(jù)來導(dǎo)出隱式數(shù)據(jù)(控制點)的方法??刂泣c組被用于定位感興趣的特征,諸如嘴,并且可以被定位在嘴角、在嘴唇的內(nèi)外邊緣以及在其中心。該系統(tǒng)公開了如何生成模型以便在無標(biāo)記的圖像上定位這些控制點。該系統(tǒng)是單一媒體形態(tài)的系統(tǒng)并且不檢索數(shù)據(jù)。
Savchenko及其他人提出的題目為“Seamless MultimediaBranching”的編號為6,343,298 B1的美國專利公開了一種創(chuàng)作多媒體名稱并且存儲多媒體內(nèi)容的方法,該方法實現(xiàn)了以高的尋找等待尋道延遲時間以及此延遲上的固定上界來進行數(shù)字媒體上的無縫轉(zhuǎn)移。把連續(xù)的媒體內(nèi)容作為單個剪輯設(shè)置在存儲介質(zhì)上,并且由作者標(biāo)識剪輯之間的無縫轉(zhuǎn)移。單個剪輯被標(biāo)識為載體剪輯或者非載體剪輯以確保無縫,以及優(yōu)化存儲器使用率以及無縫跳轉(zhuǎn)的有效性。特定目標(biāo)媒體剪輯的橋接數(shù)據(jù)在所述存儲介質(zhì)上與載體剪輯交織或相反與其關(guān)聯(lián),該載體剪輯是該目標(biāo)媒體剪輯的上游,并且與上游媒體剪輯一起被遞送。這不是一個自動系統(tǒng),并且沒有采用統(tǒng)計方法論。
由此,在本領(lǐng)域中需要這樣一種交叉形態(tài)系統(tǒng),該系統(tǒng)可以在沒有存儲對象之間的關(guān)聯(lián)的情況下,自動地檢索與第二形式的媒體對象相關(guān)的一種形態(tài)的媒體對象。需要的是這樣一種裝置,該裝置用于無縫地瀏覽不同種類的多媒體內(nèi)容,并且能夠基于它們的語義關(guān)聯(lián)集成不同的媒體源。
本發(fā)明通過提供這樣一種系統(tǒng)(即,方法、設(shè)備以及計算機可執(zhí)行的處理步驟)來解決上述需要,所述系統(tǒng)用于構(gòu)造不同類型多媒體內(nèi)容之間的關(guān)聯(lián),以致從一種類型的媒體到另一種類型媒體的瀏覽可以平滑地進行。該關(guān)聯(lián)是通過使用本領(lǐng)域所熟知的正則(canonical)相關(guān)統(tǒng)計技術(shù)來構(gòu)造的,以在二維空間中,基于語義關(guān)聯(lián)(相關(guān)性),把諸如視覺特征的一種形態(tài)的低級特征映射至諸如音頻特征的另一形態(tài)的低級特征。本發(fā)明還可以用于采用相同的形態(tài)進行查詢和檢索。
最初,該系統(tǒng)被提供多媒體采樣,特征就是從該多媒體采樣提取的。例如,從爆炸的視頻剪輯中提取諸如紋理、色彩和邊緣之類的視覺特征,從爆炸的聲音的音頻剪輯中提取諸如帶寬、音調(diào)和Mel倒譜系數(shù)(MFCC)的特征。要提取的特征和該提取方法都是本領(lǐng)域眾所周知的。
雖然這兩組特征之間的相關(guān)性乍一看也許不明顯,但是仔細(xì)的審查表明實際上它們是相關(guān)的。例如,使用爆炸舉例來說,諸如逐漸變紅的顏色將被從視頻中提取出來,而以音調(diào)和幅度變化的特定模式為特征的聲音將被從音頻中提取出來。統(tǒng)計分析將揭露這些特征之間的相關(guān)性,并且提供鏈接音頻與視頻的關(guān)聯(lián)模式。
正則相關(guān)的統(tǒng)計技術(shù)產(chǎn)生優(yōu)化的矩陣A和B,這兩個矩陣被用于確定具有特征集X的候選圖像A與具有特征集Y的音頻剪輯B的相關(guān)性。這些矩陣可用于使用Y(或者X)來評估X(或者Y)。換言之,所述相關(guān)性是雙向的,因此,聲音剪輯可用于檢索相關(guān)聯(lián)的視頻或者相關(guān)聯(lián)的視頻可用于檢索聲音剪輯。作為選擇,在本領(lǐng)域中眾所周知的潛在語義索引技術(shù)可用于展開該矩陣。
本發(fā)明的優(yōu)勢在于使用戶能夠以最小化帶寬的方式來瀏覽和搜索不同形態(tài)的多媒體內(nèi)容。例如,為了檢索圖像,僅僅需要傳輸語音查詢,來取代經(jīng)由例如因特網(wǎng)的網(wǎng)絡(luò)來傳遞圖像形式的查詢。
本發(fā)明的優(yōu)勢還在于降低了查詢包含圖像的多媒體數(shù)據(jù)庫所需的裝備的成本。例如,一次查詢可以只使用麥克風(fēng)來開展,而不要求圖形輸入裝置。
本發(fā)明的優(yōu)勢還在于補償損壞的輸入。例如,如果聲音被背景噪聲損壞了,那么可以使用相關(guān)聯(lián)的視覺特征來取代之作為查詢的基礎(chǔ)。
本發(fā)明還為用戶瀏覽多媒體數(shù)據(jù)庫提供了更大的選擇,因為所述用戶可以選擇用戶更喜歡的以及用戶最熟悉的形態(tài)。例如,兒童可以發(fā)出迪斯尼角色Simba的聲音(吼聲),檢索Simba的圖像,而不是必須知道如何鍵入拼出該角色名字的字母。
本發(fā)明并不局限于聽覺和視覺的搜索,而且可以使用其它形態(tài),諸如味道、皮膚電反應(yīng)或者觸覺特性。例如,可以把特定的酒的香氣用作查詢來使用與上述相同的特征提取和相關(guān)性技術(shù)來檢索與酒有關(guān)的標(biāo)識信息,諸如葡萄、葡萄園以及原產(chǎn)地。在香氣的情況中,化學(xué)特征往往被提取并且以數(shù)字形式表示。同樣,本發(fā)明的技術(shù)也可用于把諸如眼膜圖案的生物統(tǒng)計學(xué)數(shù)據(jù)與有關(guān)諸如單個圖像的個體的信息相關(guān)聯(lián),由此使用戶能使用任何一種形態(tài)作為查詢基礎(chǔ)來查詢采用不同形態(tài)的個體特性的多媒體數(shù)據(jù)庫,和檢索處于其它任何一種形態(tài)的信息。
通過相關(guān)過程展開的關(guān)聯(lián)還可以用于以逼真的方式來做出化身(avatar)作品。例如,當(dāng)化身說單詞“停止”時,化身的面部將以與該單詞相關(guān)聯(lián)的方式來移動。本發(fā)明還可以用于搜索情緒,諸如以官方表情符號詞典(official Smiley Dictionary)(參見附錄)的方式描述的那些情緒。在此例子中,檢索例如是“生氣的”聲音或者“快樂的面部”,而查詢是一個有關(guān)的單詞或者短語。
根據(jù)附圖及其后優(yōu)選實施例的詳細(xì)說明,本發(fā)明的其它特征和方面以及本發(fā)明的各種優(yōu)勢將更加明顯。
圖1描述了可以在其上實現(xiàn)本發(fā)明的系統(tǒng)。
圖2示出了該系統(tǒng)的總體圖。
圖3是示出該系統(tǒng)的操作的流程圖。
圖1示出了可以在其中實現(xiàn)本發(fā)明的系統(tǒng)。在優(yōu)選的實施例中,該系統(tǒng)是通過由數(shù)據(jù)處理設(shè)備執(zhí)行的計算機可讀代碼來實現(xiàn)的。該代碼可以存儲在數(shù)據(jù)處理設(shè)備中的存儲器中,或者可從諸如DVD/CD-ROM或者軟盤的存儲介質(zhì)中讀取/下載。在其它實施例中,可以使用硬件電路代替軟件指令或者兩者結(jié)合來實現(xiàn)本發(fā)明。例如,本發(fā)明可以在使用用于處理的三媒體處理器和用于顯示的電視監(jiān)視器的數(shù)字電視平臺或者機頂盒上實現(xiàn)。
如圖1所示,計算機100包括網(wǎng)絡(luò)連接101,用于對接到數(shù)據(jù)網(wǎng)絡(luò),該數(shù)據(jù)網(wǎng)絡(luò)諸如是帶寬可變網(wǎng)絡(luò)、因特網(wǎng);和/或傳真/調(diào)制解調(diào)器連接,用于與其它遠(yuǎn)程源102對接,該遠(yuǎn)程源102諸如是視頻或者數(shù)字照相機(未示出)。該系統(tǒng)還可以采用獨立的模式來運行。該計算機100還包括顯示器103,用于向用戶顯示信息(包括視頻數(shù)據(jù));輸入設(shè)備104,諸如鍵盤、麥克風(fēng)或者輸入圖形板,用于輸入查詢或者其它命令;鼠標(biāo)105,用于在顯示器103上定位光標(biāo)和輸入用戶命令;磁盤驅(qū)動器106,用于讀寫在其中安裝的軟盤;以及CD-ROM/DVD驅(qū)動器107,用于訪問在CD-ROM或者DVD上存儲的信息。該計算機100還可以具有一個或多個連接到其上的外圍設(shè)備,諸如用于輸入圖像等等的一對電視會議照相機;以及具有用于輸出圖像、文本等等的打印機108。
可以通過各種裝置以硬件和軟件的方式并且通過各式各樣的控制器以及處理器來實現(xiàn)其它實施例。例如,應(yīng)注意的是,膝上型計算機或者掌上型計算機、電視會議系統(tǒng)、個人數(shù)字助理(PDA)、具有顯示器的電話、電視、機項盒或者其它任何類型的類似裝置都可以使用。
圖2示出了該計算機100的內(nèi)部結(jié)構(gòu),其包括存儲器110,該存儲器110可以包括隨機存取存儲器(RAM)、只讀存儲器(ROM)以及諸如硬盤的計算機可讀介質(zhì)。存儲在該存儲器110中的項目包括操作系統(tǒng)、各種數(shù)據(jù)以及應(yīng)用。存儲在存儲器110中的應(yīng)用可以包括視頻編碼器、視頻解碼器及幀捕獲器。該視頻編碼器以常規(guī)的方式編碼視頻數(shù)據(jù),而該視頻解碼器則對已經(jīng)以常規(guī)的方式編碼的視頻數(shù)據(jù)進行解碼。該幀捕獲器能夠?qū)崿F(xiàn)從視頻信號流抓取和處理單個幀。
該計算機100中還包括中央處理單元(CPU)120、通信接口121、存儲器接口122、CD-ROM/DVD驅(qū)動器接口123、視頻接口124和總線125。該CPU 120包括微處理器等等,用于執(zhí)行計算機可讀代碼,即諸如上文提及的出自存儲器110的應(yīng)用??梢园堰@種應(yīng)用存儲在存儲器110(如上所述)中,或者作為選擇,存儲在磁盤驅(qū)動器106中的軟盤上或者光盤驅(qū)動器107中的CD-ROM上。CPU 120經(jīng)由存儲器接口122來訪問存儲在軟盤上的應(yīng)用(或者其它數(shù)據(jù)),并且經(jīng)由光盤驅(qū)動器接口123訪問存儲在CD-ROM上的應(yīng)用(或者其它數(shù)據(jù))。
CPU 120例如可以代表微處理器、中央處理單元、計算機、電路卡、數(shù)字信號處理器或者專用集成電路(ASIC)。該存儲器110例如可以代表基于盤的光學(xué)或磁存儲部件、電子存儲器以及這些和其他存儲器設(shè)備的部分或者組合。
與該系統(tǒng)10相關(guān)聯(lián)的各種功能性操作可以完全或者部分地以一個或多個軟件程序的方式來實現(xiàn),該軟件程序存儲在存儲器110中并且由該CPU 120來執(zhí)行。此類計算和媒體處理設(shè)備可以是高級機頂盒的一部分。
圖3和3a舉例說明了本發(fā)明的操作。在圖3中,視頻140經(jīng)由圖2中附圖標(biāo)記124視頻接口被輸入至圖2中附圖標(biāo)記120 CPU。視頻140被分成音頻和視覺分量,即視覺142和音頻144。通過視覺特征提取步驟146從該視覺142中提取視覺特征,通過音頻特征提取步驟148從該音頻144中提取音頻特征。此過程在2002年2月14日由發(fā)明人M.Li、D.Li以及N.Dimitrova提交的序號為10/076,194的“SpeakingFace Detection in TV Domain”中的第10-11頁做出了詳細(xì)描述,將該申請引入于此。
在步驟150,基于如下采樣輸入來訓(xùn)練該系統(tǒng),該采樣輸入表示將存儲在多媒體數(shù)據(jù)庫中的信息類型。在步驟152,計算由X和Y表示的音頻和視覺信息的協(xié)方差。在步驟154,對所述協(xié)方差執(zhí)行奇異值分解,產(chǎn)生中間積USVT。在步驟156,矩陣A和B推導(dǎo)出來,這些矩陣把例如視頻轉(zhuǎn)換為例如與音頻更好地相關(guān)的空間。
步驟152至156在數(shù)學(xué)上可以按照如下來描述A=Cxx-1/2U并且B=Cyy-1/2V被推導(dǎo)出來,以致使AX和BY之間的相關(guān)性最大化。A和B是正交矩陣并且det(A)=det(B)=1,其中,Cxx=E{(X-mx)(X-mx)T}Cyy=E{(Y-my)(Y-my)T}Cxy=E{(X-mx)(&-my)T}
K=Cxx-1/2·Cxy·Cyy-1/2=U·S·VTX和Y是來自于不同形態(tài)的特征集。Cxx、Cyy和Cxy是協(xié)方差矩陣。Mx和My是中值向量。U、S和V是從奇異值分解獲得的。
上述數(shù)學(xué)操縱的效果是查找最佳相關(guān)性,而沒有考慮每一特征集的分布。在下面的附圖中,由正則相關(guān)過程揭示的相關(guān)性方向在a1和v1^v2子空間之間。所揭示的相關(guān)性方向不受v1和v2子空間上的分布的影響。
一旦查找相關(guān)性的方向,就可以使用上述公式來把特征從一個子空間轉(zhuǎn)換至另一子空間,例如從音頻轉(zhuǎn)換為視頻。
現(xiàn)在轉(zhuǎn)向圖3a,在步驟158,存儲A和B矩陣。在步驟160,相對于多媒體數(shù)據(jù)庫啟動使用視頻(X)或者音頻(Y)的查詢。在步驟162,使用矩陣A和B來關(guān)聯(lián)X和Y。當(dāng)存在來自于形態(tài)X的查詢時,使用X的提取特征就可以計算出AX。然后,就能夠為對于形態(tài)B在數(shù)據(jù)庫中的每一項計算出BY。當(dāng)存在來自于形態(tài)Y的查詢時,使用Y的提取特征就可以計算出BY。然后,就能夠為形態(tài)A在數(shù)據(jù)庫中的每一項計算AX。
在計算了AX和BY之后,在該數(shù)據(jù)庫中搜索在AX和BY之間具有最大相關(guān)性的X或者Y。因此,例如,如果該查詢項目是Simba的吼聲,那么搜索項例如可以是Simba的圖像。對于此例子來說,在步驟164,就和檢索到Simba的多個圖像,并且在步驟166中顯示出來。
已經(jīng)相對于特殊的例證性實施例描述了本發(fā)明。應(yīng)該理解的是,本發(fā)明不局限于上述實施例及其修改,在不脫離所附權(quán)利要求書的精神和范圍的情況下,本領(lǐng)域中普通技術(shù)人員可以做出各種改變和修改。
權(quán)利要求
1.一種多媒體系統(tǒng),包括查詢模塊,能夠生成多種媒體形態(tài)的查詢;數(shù)據(jù)庫,能夠存儲表示多種媒體形態(tài)的數(shù)據(jù);對象檢測模塊,能夠從該查詢中提取第一組對象特征并且從該數(shù)據(jù)庫中提取第二組對象特征,其中第一組對象特征和第二組對象特征是從表示不同形態(tài)的媒體中提取的;處理器,耦合至該對象檢測模塊,其中該處理器被設(shè)置來確定第一組對象特征和第二組對象特征之間的相關(guān)性,以及從該數(shù)據(jù)庫中檢索那些相關(guān)性至少等于預(yù)定的最大相關(guān)度的項目。
2.如權(quán)利要求1所述的系統(tǒng),其中在檢索之前,該系統(tǒng)被使用采樣數(shù)據(jù)來加以訓(xùn)練以使交叉形態(tài)媒體相關(guān)。
3.如權(quán)利要求1所述的系統(tǒng),其中該相關(guān)性是使用正則相關(guān)方法來計算的。
4.如權(quán)利要求1所述的系統(tǒng),其中該相關(guān)性是使用潛在語義索引方法來計算的。
5.如權(quán)利要求2所述的系統(tǒng),其中該訓(xùn)練產(chǎn)生正交矩陣A=Cxx-1/2U和B=Cyy-1/2V其中,det(A)=det(B)=1,Cxx=E{(X-mx)(X-mx)T},Cyy=E{(Y-my)(Y-my)T},Cxy=E(X-mx)(Y-my)T},K=Cxx-1/2·Cxy·Cyy-1/2=U·S·VT,并且表示第一形態(tài)中第一特征集的AX和表示第二形態(tài)中第二特征集的BY之間的相關(guān)性最大,由此使特征能夠從該第一形態(tài)轉(zhuǎn)換到第二形態(tài)。
6.如權(quán)利要求5所述的系統(tǒng),其中,由于BY與AX之間具有最大相關(guān)性,所以表示第一特征集的查詢-AX可以僅僅用給定的、表示第二特征集的查詢結(jié)果-BY來標(biāo)識。
7.一種從多媒體檔案檢索用戶感興趣的至少一項目的方法,包括如下步驟生成查詢;從該查詢中提取第一組對象特征,該對象特征表示第一形態(tài);從所述多媒體檔案中的項目中提取第二組對象特征,該對象特征表示第二形態(tài);確定該第一組對象特征和第二組對象特征之間的相關(guān)性;從該檔案中檢索那些與在所述查詢中的對象特征之間的相關(guān)性至少等于預(yù)定的最大相關(guān)度的項目。
8.如權(quán)利要求7所述的方法,還包括使用采樣數(shù)據(jù)來生成相關(guān)矩陣的步驟,該相關(guān)矩陣用于使交叉形態(tài)媒體相關(guān)。
9.如權(quán)利要求7所述的方法,其中該相關(guān)方法是正則相關(guān)。
10.如權(quán)利要求7所述的方法,其中該相關(guān)方法是潛在語義索引。
11.如權(quán)利要求7所述的方法,其中所生成的矩陣表示為A=Cxx-1/2U并且B=Cyy-1/2V,其中,det(A)=det(B)=1,Cxx=E{(X-mx)(X-mx)T},Cyy=E{(Y-my)(Y-my)T},Cxy=E(X-mx)(Y-my)T},K=Cxx-1/2·Cxy·Cyy-1/2=U·S·VT,并且表示第一形態(tài)中第一特征集的AX和表示第二形態(tài)中第二特征集的BY之間的相關(guān)性最大,由此使特征能夠從第一形態(tài)轉(zhuǎn)換到第二形態(tài)。
12.如權(quán)利要求11所述的方法,其中由于BY與AX之間具有最大相關(guān)性,所以表示第一特征集的查詢-AX可以僅僅用給定的、表示第二特征集的查詢結(jié)果-BY來標(biāo)識。
13.計算機可執(zhí)行的處理步驟,該計算機可執(zhí)行處理步驟被存儲在計算機可讀介質(zhì)上,以使用戶能夠從多媒體數(shù)據(jù)庫中檢索感興趣的媒體,包括查詢生成步驟,用于獲得來自于用戶的查詢,該查詢采用第一媒體形態(tài);第一提取步驟,用于從該查詢中提取第一組對象特征;第二提取步驟,用于從所述多媒體檔案的項目中提取第二組對象特征,該對象特征表示第二媒體形態(tài);相關(guān)性計算步驟,用于確定該第一組對象特征和第二組對象特征之間的相關(guān)性;檢索步驟,用于從該數(shù)據(jù)庫中檢索那些與在所述查詢中的對象特征之間的相關(guān)性至少等于預(yù)定的最大相關(guān)度的項目。
14.用于從多媒體檔案中檢索用戶感興趣的至少一項目的設(shè)備,包括用于生成第一媒體形態(tài)的查詢的裝置;用于從該查詢中提取第一組對象特征的裝置;用于從該多媒體檔案的項目中提取第二組對象特征的裝置;用于確定第一組對象特征和第二組對象特征之間的相關(guān)性的裝置,其中第二組對象特征是從第二媒體形態(tài)中提取的;從該檔案中檢索那些與在所述查詢中的對象特征之間的相關(guān)性至少等于預(yù)定的最大相關(guān)度的項目。
15.一種用于從多媒體檔案中檢索角色的至少一個視頻剪輯的方法,該方法包括如下步驟生成包括該角色的語音的音頻剪輯的查詢;從該查詢中提取多個音頻特征;從該多媒體檔案中的每一視頻剪輯中提取多個視頻特征;計算多個音頻特征和多個視頻特征之間的相關(guān)性;以及基于使音頻和視頻之間的相關(guān)度最大化來檢索所述角色說話的至少一個視頻剪輯。
16.一種用于檢索在多媒體檔案中存儲的人員的至少一個圖像的方法,該方法包括如下步驟生成包括所述人員的生物統(tǒng)計學(xué)特征的查詢;從該查詢中提取多個視覺特征;從該多媒體檔案的每一圖像中提取多個視覺特征;計算來自于該檔案的多個視覺特征和來自于該查詢的多個視覺特征之間的相關(guān)性;以及基于使從該查詢中提取的多個視覺特征和從該多媒體檔案中提取的多個視覺特征之間的相關(guān)度最大化,來檢索該人員的至少一個圖片。
17.如權(quán)利要求16所述的方法,其中該生物統(tǒng)計學(xué)特征是眼膜圖像。
18.一種用于檢索在多媒體檔案中存儲的且標(biāo)識未知液體的至少一項信息的方法,該方法包括如下步驟生成包括香氣的查詢;從該查詢中提取多個化學(xué)特征,這些化學(xué)特征利用數(shù)字形式加以表示;從該多媒體檔案的每一文本項中提取多個文本特征;計算從該查詢中提取的多個化學(xué)特征和從該多媒體檔案中提取的多個文本特征之間的相關(guān)性;以及基于使從該查詢中提取的多個化學(xué)特征和從該多媒體檔案中提取的多個文本特征之間的相關(guān)度最大化,來檢索標(biāo)識未知液體的至少一項信息。
19.如權(quán)利要求18所述的方法,其中該未知的液體是飲料。
20.一種用于從多媒體檔案檢索與情緒相關(guān)聯(lián)的聲音的方法,該情緒是從標(biāo)準(zhǔn)的情緒列表中選擇的,該方法包括如下步驟生成包括情緒單詞的查詢;從該查詢中提取多個文本特征;從該多媒體檔案的每一聲音中提取多個音頻特征;計算從該查詢中提取的多個文本特征和從該多媒體檔案中提取的多個音頻特征之間的相關(guān)性;以及基于使從該查詢中提取的多個文本特征和從該多媒體檔案中提取的多個音頻特征之間的相關(guān)度最大化,來檢索至少一個聲音。
21.一種用于在最初只知道第二媒體形態(tài)的查詢結(jié)果之時檢索第一媒體形態(tài)的查詢的方法,包括如下步驟檢索所存儲的矩陣B,以把第二形態(tài)的特征轉(zhuǎn)換到與第一形態(tài)相關(guān)的特征空間中,其中該矩陣B是在訓(xùn)練過程期間被生成的,用于使第一形態(tài)A中的項目與第二形態(tài)B中的項目相關(guān),反之亦然,如此使得A=Cxx-1/2U并且B=Cyy-1/2V其中,det(A)=det(B)=1,Cxx=E{(X-mx)(X-mx)T},Cyy=E{(Y-my)(Y-my)T},Cxy=E{(X-mx)(Y-my)T),K=Cxx-1/2·Cxy·Cyy-1/2=U·S·VT,并且表示第一形態(tài)中的第一特征集的AX和表示第二形態(tài)中的第二特征集的BY之間的相關(guān)性最大;從第二形態(tài)的項目中提取對象特征;計算第二形態(tài)的AY;從第一形態(tài)的項目中提取對象特征,其中該項目存儲在多媒體數(shù)據(jù)庫中;為每個項目計算AX;使AX和AY相關(guān);并且檢索在AX和BY之間具有最大相關(guān)性的X。
全文摘要
一種使用戶能夠查詢一種媒體形態(tài)的多媒體檔案并且自動檢索另一媒體形態(tài)的相關(guān)數(shù)據(jù)且不需要人工地通過數(shù)據(jù)結(jié)構(gòu)來關(guān)聯(lián)數(shù)據(jù)項的方法和系統(tǒng)。該相關(guān)方法在不受數(shù)據(jù)在每種形態(tài)的相應(yīng)子空間中的分布的影響的情況下,可以查找數(shù)據(jù)項之間的最大相關(guān)性。一旦揭示了相關(guān)性的方向,就可以把已提取的特征從一個子空間轉(zhuǎn)換到另一子空間。
文檔編號G06F17/30GK1723455SQ200380103280
公開日2006年1月18日 申請日期2003年11月7日 優(yōu)先權(quán)日2002年11月15日
發(fā)明者D·李, N·迪米特羅瓦 申請人:皇家飛利浦電子股份有限公司