專利名稱:使用數(shù)字圖像的元數(shù)據(jù)和內(nèi)容特征來找到相關(guān)音頻伴奏的系統(tǒng)和方法
使用數(shù)字圖像的元數(shù)據(jù)和內(nèi)容特征來 找到相關(guān)音頻伴奏的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是使用數(shù)字圖像序列的元數(shù)據(jù)來識別音頻伴奏并與之 關(guān)聯(lián),以及創(chuàng)建與所識別的音頻相結(jié)合的序列,從而將其作為建議播放列 表或是視聽展示呈現(xiàn)給用戶,其中所述音頻伴奏包含了具有與圖像元數(shù)據(jù) 相類似的文本和元數(shù)據(jù)的音樂和聲音。
越來越多的消費(fèi)者系統(tǒng)將不同類型內(nèi)容的存儲和回放組合在了 一起。 由此,個(gè)人用于回放數(shù)字照片的系統(tǒng)通常將能在顯示這些照片的同時(shí)播放
音樂伴奏。由此產(chǎn)生的問題是這種可能性為用戶提出了額外的任務(wù),那 就是找到并選擇恰當(dāng)?shù)囊魳?,以便為照片幻燈顯示(數(shù)字圖像序列)提供 伴奏。由此需要一種用于自動播放(或建議)與特定數(shù)字圖像序列的內(nèi)容 相匹配的音頻伴奏的方法。
在一個(gè)實(shí)施例中,本發(fā)明的系統(tǒng)、設(shè)備和方法提供了一種通過使用數(shù) 字圖像(例如照片、相簿、家庭視頻)的元數(shù)據(jù)來搜索音樂的方法,其中 所述音樂包含了與這些照片相關(guān)聯(lián)的歌曲文本。
為了實(shí)現(xiàn)該目的
(1) 從一個(gè)或多個(gè)圖像(的集合/序列)或是從圖像元數(shù)據(jù)中得到文 本標(biāo)簽,以及
(2) 這些文本標(biāo)簽或關(guān)鍵短語包含了至少一個(gè)關(guān)鍵字,并且被用于 找到在音樂標(biāo)題中、或是在與音樂相關(guān)聯(lián)的歌曲文本的某些(顯著)部分 中、或是在音頻的元數(shù)據(jù)中包含了這些關(guān)鍵短語的音頻伴奏。
4艮多經(jīng)典作品都具有為其音樂設(shè)置的文字,例如,"I'm Always Chasing Rainbows"是一首為Chopin's Fantasie Impromptu設(shè)置的歌曲。 此外,^f艮多沒有文字的音樂作品都適合作為用于幻燈顯示的背景音樂,例 如與海洋音樂相關(guān)聯(lián)的海濱幻燈顯示。除了音樂之外,音軌同樣可以作為 音頻伴奏而被提供。后面的這些音頻伴奏必須具有用于描述其內(nèi)容的相關(guān) 元數(shù)據(jù)。圖l描述的是根據(jù)本發(fā)明的方法的功能流程圖2描述的是根據(jù)本發(fā)明而將音樂與歌曲相關(guān)聯(lián)的設(shè)備;以及
圖3描述的是根據(jù)本發(fā)明的系統(tǒng)。
本領(lǐng)域普通技術(shù)人員應(yīng)該理解,提供以下描述是為了進(jìn)行例證,而不 是加以限制。技術(shù)人員應(yīng)該理解的是,在本發(fā)明的實(shí)質(zhì)和所附權(quán)利要求的 范圍以內(nèi)存在著多種變型。對已知功能和操作來說,與"M目關(guān)的不必要細(xì) 節(jié)可以從當(dāng)前描述中被省略,以免與本發(fā)明相混淆。
在一個(gè)優(yōu)選實(shí)施例中,用戶提供的數(shù)字圖像內(nèi)容和特性被用于導(dǎo)出文 本標(biāo)簽(圖像元數(shù)據(jù)),這些文本標(biāo)簽可以是包含了從用戶指定的圖像名/ 標(biāo)簽中導(dǎo)出的至少一個(gè)關(guān)鍵字的關(guān)鍵短語,或者是從圖像的文本注釋中得 出的關(guān)鍵短語。在一個(gè)優(yōu)選實(shí)施例中,通過對文本內(nèi)容使用光學(xué)字符識別 (0CR)、對場景使用圖像場景識別以及對對象(包括人和動物)使用圖像 對象識別,識別圖像序列的內(nèi)容。用戶提供的圖像特性被當(dāng)作圖像元數(shù)據(jù) 對待,并且可以包括如下項(xiàng)目,例如特定于用戶的數(shù)據(jù)(例如種族劃分、 性別、年齡、職業(yè))、圖像的創(chuàng)建時(shí)間和創(chuàng)建地點(diǎn)的信息,這些項(xiàng)目將被 轉(zhuǎn)換成有意義的名稱,或者轉(zhuǎn)換成包含標(biāo)準(zhǔn)化關(guān)鍵字并且描述了最有可能 發(fā)生的事件和地點(diǎn)(例如生日、圣誕節(jié)、紐約、巴黎、暑假.......)的關(guān)
鍵短語o
在一個(gè)實(shí)施例中,使用圖像內(nèi)容分析算法來對圖像風(fēng)景進(jìn)行分類,并 且提供了用于描述圖像的元數(shù)據(jù),而這些元數(shù)據(jù)則可以用作搜索項(xiàng),以便 搜索用關(guān)鍵短語索引的音頻伴奏數(shù)據(jù)庫。與該分類相關(guān)聯(lián)的文字或標(biāo)簽同 樣被用于導(dǎo)出文本標(biāo)簽(圖像元數(shù)據(jù)),然后,這些文本標(biāo)簽被用于找到 相關(guān)的音頻內(nèi)容。例如,我們可以從其總體的白色中檢測到冬天的場景。 這種特性的識別被轉(zhuǎn)換成某個(gè)文本元數(shù)據(jù)(標(biāo)簽),例如冬天、雪、白色。 然后,這些元數(shù)據(jù)可以用于找到具有與冬天、下雪等等有關(guān)的歌曲文本和 音頻元數(shù)據(jù)的音頻。
在一個(gè)優(yōu)選實(shí)施例中,關(guān)于圖像的元數(shù)據(jù)被合并。例如,時(shí)間信息可 以轉(zhuǎn)換成"圣誕節(jié)",而場景分析信息產(chǎn)生(除了別的文字之外)"白色"。 本發(fā)明在這個(gè)實(shí)例中找出"白色圣誕節(jié)"以及下雪的聲音。
在一個(gè)優(yōu)選實(shí)施例中,選定的音頻伴奏會在時(shí)間上延續(xù),以便覆蓋圖 像序列,這是因?yàn)橐话銇碚f,并不希望此類序列為每一個(gè)組成圖像都跳轉(zhuǎn) 另一個(gè)音頻伴奏。由此,較為有利的是將可用于圖像序列的元數(shù)據(jù)聚合成關(guān)于整個(gè)序列的描述。然后,通過使用聚合元數(shù)據(jù),可以選擇至少一個(gè)適 合整個(gè)圖像序列的音頻伴奏。
在另 一個(gè)替換實(shí)施例中,可以通過具有關(guān)于用戶的可用信息(例如用 于提供恰當(dāng)程度的位置粒度的地理住宅位置,用于導(dǎo)出正確事件的區(qū)域/ 文化背景,用于確定假期的個(gè)人/家庭信息,等等),來改進(jìn)元數(shù)據(jù)到有意 義的文本標(biāo)簽的轉(zhuǎn)換。
在一個(gè)優(yōu)選實(shí)施例中,音效是作為與圖像的元數(shù)據(jù)相關(guān)的音頻伴奏提 供的。例如,聚會的幻燈顯示可以穿插玻璃杯的聲音。關(guān)于人群的圖片可 以觸發(fā)一個(gè)低語的聲音。
現(xiàn)在參考
圖1,該圖描述了根據(jù)本發(fā)明的方法的優(yōu)選實(shí)施例的一個(gè)流
程圖實(shí)例。在步驟102,圖像或圖像序列101連同相關(guān)聯(lián)的元數(shù)據(jù)101 — 起被輸入,其中該元數(shù)據(jù)是為至少一個(gè)圖像接收和創(chuàng)建的元數(shù)據(jù)中的至少 一個(gè),然后,圖像和元數(shù)據(jù)保留在短期持久性存儲器(persistent memory)103中。該圖像元數(shù)據(jù)既可以由用戶輸入,也可以由本發(fā)明導(dǎo)出, 并且可以包括日期、時(shí)間、事件、位置、圖像與用戶的關(guān)系或是其他描 述符。本發(fā)明的系統(tǒng)、設(shè)備和方法可以包括用于將用戶輸入的任何元數(shù)據(jù) 標(biāo)準(zhǔn)化成標(biāo)準(zhǔn)集合的術(shù)語及其同義詞的辭典104. 1,例如mom, mother, ma, mama, madre等等,所有這些指示的都是圖像的同一 "mother (母親)" 特性。同樣,本發(fā)明的方法IOO可以包括用于創(chuàng)建白色冬天場景之類的圖 像元數(shù)據(jù)的圖像分析能力。包括用戶輸入的元數(shù)據(jù)和系統(tǒng)創(chuàng)建的元數(shù)據(jù)的 這兩種類型元數(shù)據(jù)連同圖像序列一起保存在持久性存儲器103中,并且必 須保存至少一種類型的元數(shù)據(jù),以便本發(fā)明的系統(tǒng)300、設(shè)備200和方法 100定位(locate)用于輸入圖4象序列的相應(yīng)音頻伴奏。
提供了一個(gè)預(yù)先用標(biāo)準(zhǔn)化的音頻伴奏元數(shù)據(jù)注釋(索引)的音頻伴奏 數(shù)據(jù)庫104。通過使用保留在短期持久性存儲器103中的、標(biāo)準(zhǔn)化的被捕 獲/創(chuàng)建的圖像元數(shù)據(jù),在步驟105,搜索所提供的音樂數(shù)據(jù)庫104,以 尋求匹配音樂元數(shù)據(jù)。在步驟106,所有匹配的音樂元數(shù)據(jù)都被編譯到一 個(gè)播放列表中,與圖像相關(guān)聯(lián),并且保留在持久性存儲器103中。在一個(gè) 優(yōu)選實(shí)施例中,還會導(dǎo)出匹配程度,例如,冬天、白色圖像以及用戶提供 的日期12/25將會導(dǎo)致與"White Christmas (白色圣誕節(jié))"100%匹配, 而與"Walking In A Winter Wonderland (在冬天仙境漫步),,則沒那么匹 配。在步驟107,從持久性存儲器103中檢索搜索結(jié)果,在顯示圖像的同 時(shí),最佳匹配是在有序的音樂伴奏建議列表中被播放或呈現(xiàn)的一個(gè)。在一個(gè)優(yōu)選實(shí)施例中,圖像和音頻注釋都保存在數(shù)據(jù)庫108中,以便在以后進(jìn) 行檢索、顯示和播放。
現(xiàn)在參考圖2,該圖描述的是用于在顯示圖像時(shí)將音頻伴奏與圖像相 關(guān)聯(lián)以及用于向用戶呈現(xiàn)音頻伴奏播放列表的設(shè)備200。該設(shè)備包括圖像 元數(shù)據(jù)捕獲/創(chuàng)建模塊201,用于接收圖像、圖像序列以及描述圖像和圖 像序列的元數(shù)據(jù)。該元數(shù)據(jù)包括日期、時(shí)間、季節(jié)、事件、與用戶的關(guān)系、 個(gè)人/寵物的名稱,圖像和圖像序列的位置。用戶輸入的元數(shù)據(jù)由模塊201 捕獲,以及由模塊201通過圖像分析創(chuàng)建,例如是海洋或湖泊、島嶼等等。 一旦捕獲了圖像及其元數(shù)據(jù),并且模塊201創(chuàng)建了用于輸入圖像序列的元 數(shù)據(jù),那么它會保留在短期持久性存儲器103中。然后,搜索/關(guān)聯(lián)模塊 203根據(jù)元數(shù)據(jù)在數(shù)據(jù)庫102中搜索適當(dāng)?shù)囊纛l伴奏,并且建議/播放模 塊204進(jìn)行建議播放列表或播放搜索得出的最相關(guān)音頻伴奏中的至少一 個(gè)。在一個(gè)優(yōu)選實(shí)施例中,該結(jié)果被保存在已注釋圖像的數(shù)據(jù)庫108中, 以便在以后進(jìn)行檢索和播放。持久性存儲器103是一個(gè)相對短期的存儲 器,其持續(xù)時(shí)間僅與用戶希望由包括設(shè)備200的顯示裝置顯示圖像序列的 時(shí)間是一樣長的。
現(xiàn)在參考圖3,該圖描述的是包括圖2設(shè)備200的系統(tǒng)300。該系統(tǒng) 300接受數(shù)字圖像內(nèi)容,以及由此由用戶101輸入的元數(shù)據(jù),通過使用圖 2的設(shè)備200借助辭典104. 1來創(chuàng)建附加圖像元數(shù)據(jù)(如有必要),以在 其數(shù)據(jù)庫104中定位恰當(dāng)音頻伴奏,并且將得到的與輸入序列相關(guān)聯(lián)的音 頻伴奏保存在短期持久性存儲器103中。然后,該系統(tǒng)或者在顯示302圖 像/序列的同時(shí)播放301音頻伴奏,或者向用戶建議302結(jié)果播放列表。 這些結(jié)果以及圖像還可以保存在注釋的圖像數(shù)據(jù)庫108中,以便在以后進(jìn) 行檢索和查看。
雖然在這里描述并且例證了本發(fā)明的優(yōu)選實(shí)施例,但是本領(lǐng)域技術(shù)人 員應(yīng)該理解,這里描述的系統(tǒng)、設(shè)備和方法是例證性的,在沒有脫離本發(fā) 明的實(shí)際范圍的情況下,眾多的變更和修改都是可行的,并且可以使用等 價(jià)物來替換其部件。此外,在不脫離本發(fā)明中心范圍的情況下,眾多的修 改都可被實(shí)施,以使本發(fā)明的教導(dǎo)適應(yīng)于特定的圖像回放/聲音/音效設(shè) 置。由此,本發(fā)明并不局限于作為預(yù)期執(zhí)行本發(fā)明的最佳模式而被公開的 特定實(shí)施例,相反,本發(fā)明包含了落入所附權(quán)利要求范圍以內(nèi)的所有實(shí)施 例。
權(quán)利要求
1. 一種使用與至少一個(gè)圖像(ioi)的序列相關(guān)聯(lián)的內(nèi)容元數(shù)據(jù)來為其提供音樂伴奏的方法,包括以下步驟使用與該序列相關(guān)聯(lián)的內(nèi)容元數(shù)據(jù),在數(shù)據(jù)庫(104)中定位匹配的 (105)音頻伴奏;以及提供所定位的音頻伴奏(107),作為該序列的伴奏。
2. 權(quán)利要求l的方法,其中,內(nèi)容元數(shù)據(jù)包括日期、時(shí)間、事件、 位置、圖像與用戶的關(guān)系、用戶特性以及描述符關(guān)鍵短語。
3. 權(quán)利要求l的方法,還包括以下步驟 提供標(biāo)準(zhǔn)內(nèi)容元數(shù)據(jù)及其同義詞的辭典(104. 1);以及 使用該辭典(104. 1 )來將關(guān)聯(lián)于該序列(101)的內(nèi)容元數(shù)據(jù)標(biāo)準(zhǔn)化成標(biāo)準(zhǔn)的內(nèi)容元數(shù)據(jù)(104.1)。
4. 權(quán)利要求3的方法,其中,內(nèi)容元數(shù)據(jù)包括日期、時(shí)間、事件、 位置、圖像與用戶的關(guān)系、以及描述符關(guān)鍵短語。
5. 權(quán)利要求1的方法,還包括以下步驟通過從包含以下各項(xiàng)的組 中選擇的技術(shù)而將內(nèi)容元數(shù)據(jù)與序列相關(guān)聯(lián)(102):分配元數(shù)據(jù)描述符, 通過至少一個(gè)圖像的內(nèi)容分析來導(dǎo)出出元數(shù)據(jù)描述符。
6. 權(quán)利要求5的方法,其中,內(nèi)容分析是從包含以下各項(xiàng)的組中選 出的文本的光學(xué)字符識別,圖像場景識別,以及圖像對象識別。
7. 權(quán)利要求5的圖像,其中,提供步驟還包括首先執(zhí)行以下步驟 將所定位的音頻伴奏編譯(106)到與該序列相關(guān)聯(lián)的播放列表中;以及奏中。
8. 權(quán)利要求7的方法,還包括以下步驟將序列以及為其定位的音頻伴奏保留在短期持久性存儲器103中;以及在所述提供步驟之前,檢索保留的序列以及為其定位的音頻伴奏。
9. 權(quán)利要求8的方法,其中,內(nèi)容元數(shù)據(jù)包括用戶數(shù)據(jù)、日期、 時(shí)間、事件、位置、圖像與用戶的關(guān)系、圖像中的個(gè)人姓名、圖像中的寵 物名稱、圖像標(biāo)題、季節(jié)、溫度、緯度、經(jīng)度、大小、身體部位、顏色、 以及描述符關(guān)鍵短語。
10. 權(quán)利要求9的方法,還包括以下步驟 提供標(biāo)準(zhǔn)內(nèi)容元數(shù)據(jù)及其同義詞的辭典(104.1);以及 使用該辭典(104. 1)來將關(guān)聯(lián)于序列(101)的內(nèi)容元數(shù)據(jù)標(biāo)準(zhǔn)化成標(biāo)準(zhǔn)的內(nèi)容元數(shù)據(jù)(104.1)。
11. 權(quán)利要求10的方法,其中 所述定位步驟還包括導(dǎo)出匹配程度的步驟;以及 所述提供步驟還包括首先根據(jù)匹配程度來對所提供的音頻伴奏執(zhí)行從最低到最高的排序的步驟。
12. 權(quán)利要求10的方法,其中,所述提供步驟還包括以下步驟 將關(guān)聯(lián)于所定位的音頻伴奏的序列存儲在數(shù)據(jù)庫108中;以及 從數(shù)據(jù)庫(108)中檢索所存儲的序列以及相關(guān)聯(lián)的音頻伴奏。
13. —種將音頻伴奏與至少一個(gè)圖像的序列相關(guān)聯(lián)的設(shè)備(200 ),其 中該圖像具有與之同時(shí)呈現(xiàn)的內(nèi)容,該設(shè)備(200)包括圖像/元數(shù)據(jù)捕獲/創(chuàng)建模塊(201),用于捕獲序列,以及捕獲和創(chuàng)建 用于描述至少一個(gè)圖像的內(nèi)容的元數(shù)據(jù);音頻伴奏元數(shù)據(jù)搜索/關(guān)聯(lián)模塊(203 ),該模塊使用相關(guān)聯(lián)的元數(shù)據(jù) 作為搜索準(zhǔn)則,在音頻伴奏數(shù)據(jù)庫(104)中搜索音頻伴奏;音頻伴奏建議/播放模塊(204 ),用于建議從搜索中得出的音頻伴奏 的播放列表;以及圖像序列顯示模塊(202 ),用于在音頻伴奏建議/播放模塊(204 )播 放從搜索中得到的音頻伴奏時(shí)同時(shí)顯示該序列。
14. 權(quán)利要求13的設(shè)備(200 ),還包括 數(shù)據(jù)庫(108);其中,圖像/元數(shù)據(jù)捕獲/創(chuàng)建模塊(201)和音頻伴奏元數(shù)據(jù)搜索/ 關(guān)聯(lián)模塊(203 )每一個(gè)被進(jìn)一步配置成將序列、元數(shù)據(jù)和所定位的音頻 伴奏存儲在數(shù)據(jù)庫(108)中;以及其中音頻伴奏建議/播放模塊(204 )和圖像序列顯示模塊(202 )每 一個(gè)被進(jìn)一步配置成從數(shù)據(jù)庫(108)中檢索序列以及相關(guān)聯(lián)的元數(shù)據(jù), 以便同時(shí)對其進(jìn)行顯示和播放。
15. 權(quán)利要求13的設(shè)備(200 ),其中,圖像/元數(shù)據(jù)捕獲/創(chuàng)建模塊 (201 )被進(jìn)一步配置成使用圖像內(nèi)容分析技術(shù)來創(chuàng)建元數(shù)據(jù)。
16. 權(quán)利要求15的設(shè)備(200 ),其中,圖像內(nèi)容分析技術(shù)是從包含 以下各項(xiàng)的組中選出的文本的光學(xué)字符識別,圖像場景識別,圖像對象識別。
17. —種用于至少一個(gè)數(shù)字圖像的序列的音頻伴奏的系統(tǒng)(300 ),包括顯示設(shè)備(301); 音頻伴奏播放設(shè)備(302 );以及根據(jù)權(quán)利要求16的設(shè)備(200 ),其中該設(shè)備可操作地連接到顯示設(shè) 備(301)和音頻播放設(shè)備(302 ),其中該設(shè)備(200 )接受至少一個(gè)圖像的序列以及第一圖像元數(shù)據(jù) (101),使用內(nèi)容分析技術(shù)(102)來導(dǎo)出第二圖像元數(shù)據(jù),使用第一和 第二元數(shù)據(jù)來定位恰當(dāng)?shù)囊纛l伴奏,然后則執(zhí)行以下操作之一在顯示 (302 )序列的時(shí)候播放(301)音頻伴奏,或者向用戶建議(302 )結(jié)果 的播放列表。
全文摘要
在這里提供了一種系統(tǒng)(300)、設(shè)備(200)和方法(100),用于在顯示具有至少一個(gè)數(shù)字圖像的序列的時(shí)候自動播放/建議至少一個(gè)音頻伴奏,使得音頻伴奏與特定圖像序列的內(nèi)容相匹配,以及匹配任何提供的和/或產(chǎn)生的圖像元數(shù)據(jù)。搜索項(xiàng)是從圖像自身以及用戶提供的任何元數(shù)據(jù)當(dāng)中導(dǎo)出的,然后,這些搜索項(xiàng)被用于找到具有如下特性的音頻伴奏(1)在圖像或相關(guān)文本(例如歌曲文本)中包含這些搜索項(xiàng)或是其同義詞,或者(2)代表通常與圖像相關(guān)聯(lián)的聲音,例如用于快速流動的小河的圖像的沖水聲。本發(fā)明接受用戶輸入,定位恰當(dāng)?shù)囊纛l伴奏作為搜索結(jié)果,并且通過在顯示圖像的時(shí)候播放音頻伴奏或者通過向用戶建議從這些結(jié)果中編譯的播放列表來將這些結(jié)果呈現(xiàn)給用戶。
文檔編號G11B27/34GK101313364SQ200680043552
公開日2008年11月26日 申請日期2006年11月15日 優(yōu)先權(quán)日2005年11月21日
發(fā)明者A·里克卡爾特, B·M·斯盧伊斯, K·H·J·夫里林克, M·弗伯克特 申請人:皇家飛利浦電子股份有限公司