亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于確定音頻軌道的方法、設(shè)備和計(jì)算機(jī)程序的制作方法

文檔序號(hào):7978657閱讀:176來源:國知局
用于確定音頻軌道的方法、設(shè)備和計(jì)算機(jī)程序的制作方法
【專利摘要】本發(fā)明提供一種音頻處理設(shè)備。所述設(shè)備包括被配置成獲得一組音頻信號(hào)的音頻分析單元,每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間,所述音頻分析單元還被配置成對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間。所述設(shè)備還包括被配置成基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道的音頻軌道確定單元。所述設(shè)備還可以包括分類單元,其被配置成:獲得多個(gè)音頻信號(hào),每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián);獲得多項(xiàng)位置指示,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián);以及確定作為所述多幅圖像當(dāng)中的一個(gè)子集的該組圖像,從而使得該組包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。
【專利說明】用于確定音頻軌道的方法、設(shè)備和計(jì)算機(jī)程序
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于確定和/或合成音頻軌道的方法、設(shè)備和計(jì)算機(jī)程序。具體來說,本發(fā)明涉及確定、準(zhǔn)備或合成可用于順序地伴隨被組合成聚合圖像(例如作為幻燈片)或者按照任何其他適當(dāng)方式組合的針對(duì)用戶的多幅圖像的呈現(xiàn)的音頻軌道。
【背景技術(shù)】
[0002]例如數(shù)字?jǐn)z影機(jī)和配備有數(shù)字?jǐn)z影機(jī)或攝影機(jī)模塊的移動(dòng)電話之類的現(xiàn)代成像裝置可以具有利用全球定位系統(tǒng)(GPS)檢測(cè)其位置的能力。此外,這樣的裝置可以能夠在捕獲圖像時(shí)確定當(dāng)前位置,并且把所確定的當(dāng)前位置與所捕獲的圖像相關(guān)聯(lián)。這樣的裝置還可以具有在捕獲圖像時(shí)記錄音頻信號(hào)并且把所捕獲的音頻信號(hào)與所捕獲的圖像一同存儲(chǔ)的能力。

【發(fā)明內(nèi)容】

[0003]根據(jù)本發(fā)明的第一方面,提供一種設(shè)備,所述設(shè)備包括被配置成獲得一組音頻信號(hào)的音頻分析單元,每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間,所述音頻分析單元還被配置成對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間。所述設(shè)備還包括被配置成基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道的音頻軌道確定單元。
[0004]所述設(shè)備還可以包括分類單元,其被配置成:獲得多個(gè)音頻信號(hào),每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián);獲得多項(xiàng)位置指示,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián);以及確定作為所述多幅圖像當(dāng)中的一個(gè)子集的該組圖像,從而使得該組包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。
[0005]根據(jù)本發(fā)明的第二方面,提供一種設(shè)備,所述設(shè)備包括至少一個(gè)處理器以及包括對(duì)應(yīng)于一個(gè)或更多程序的計(jì)算機(jī)程序代碼的至少一個(gè)存儲(chǔ)器,所述至少一個(gè)存儲(chǔ)器和計(jì)算機(jī)程序代碼被配置成利用所述至少一個(gè)處理器使得所述設(shè)備至少:獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間;對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
[0006]根據(jù)本發(fā)明的第三方面,提供一種設(shè)備,所述設(shè)備包括:用于獲得一組音頻信號(hào)的裝置,每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間;用于對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道的裝置,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及用于基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道的裝置。
[0007]根據(jù)本發(fā)明的第四方面,提供一種方法,所述方法包括:獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間;對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
[0008]根據(jù)本發(fā)明的第五方面,提供一種計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括由一條或更多條指令構(gòu)成的一個(gè)或更多序列,當(dāng)由一個(gè)或更多處理器執(zhí)行時(shí),其使得設(shè)備至少:獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間;對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
[0009]所述計(jì)算機(jī)程序可以被具體實(shí)現(xiàn)在易失性或非易失性計(jì)算機(jī)可讀記錄介質(zhì)上,例如作為包括其中存儲(chǔ)有程序代碼的至少一項(xiàng)計(jì)算機(jī)可讀非瞬時(shí)性介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述程序在由設(shè)備執(zhí)行時(shí)使得所述設(shè)備至少施行前面對(duì)于根據(jù)本發(fā)明的第五方面的計(jì)算機(jī)程序所描述的操作。
[0010]根據(jù)本發(fā)明的各個(gè)實(shí)施例的方法、設(shè)備和計(jì)算機(jī)程序的一個(gè)優(yōu)點(diǎn)在于,其基于對(duì)與多幅圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的一個(gè)或多個(gè)另外的數(shù)據(jù)項(xiàng)目的分析提供了靈活的并且自動(dòng)化或部分自動(dòng)化的音頻軌道合成,以便伴隨所述多幅圖像的呈現(xiàn)。
[0011]在本專利申請(qǐng)中給出的本發(fā)明的示例性實(shí)施例不應(yīng)當(dāng)被解釋成對(duì)所附權(quán)利要求書的適用性構(gòu)成限制?!鞍ā币辉~在本專利申請(qǐng)中被用作開放性限制,其不排除未引述的特征的存在。除非明確地另行聲明,否則可以自由組合后面所描述的各項(xiàng)特征。
[0012]在所附權(quán)利要求書中具體闡述了被視為本發(fā)明的特性的新穎特征。但是通過結(jié)合附圖閱讀后面對(duì)于具體實(shí)施例的詳細(xì)描述,將會(huì)最好地理解本發(fā)明本身的構(gòu)造和操作方法連同其附加的目的和優(yōu)點(diǎn)。
【專利附圖】

【附圖說明】
[0013]圖1示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理設(shè)備。
[0014]圖2a示意性地示出了作為伴隨有音頻軌道的幻燈片呈現(xiàn)多幅圖像的基本想法。
[0015]圖2b示意性地示出了作為伴隨有音頻軌道的聚合圖像的各個(gè)部分呈現(xiàn)多幅圖像的基本想法。
[0016]圖3示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例合成音頻軌道的一個(gè)實(shí)例。
[0017]圖4示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例合成音頻軌道的一個(gè)實(shí)例。
[0018]圖5示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例合成音頻軌道的一個(gè)實(shí)例。
[0019]圖6示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例合成音頻軌道的一個(gè)實(shí)例。
[0020]圖7示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例合成音頻軌道的一個(gè)實(shí)例。[0021]圖8示出了與圖像相關(guān)聯(lián)的另外的數(shù)據(jù)的概念。
[0022]圖9示出了預(yù)先記錄功能的原理。
[0023]圖10示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法。
[0024]圖11示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法。
[0025]圖12示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法。
[0026]圖13示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法。
[0027]圖14示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法。
[0028]圖15示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的設(shè)備。
【具體實(shí)施方式】
[0029]圖像可以具有與之相關(guān)聯(lián)的音頻信號(hào)。音頻信號(hào)也可以被稱作音頻剪輯、音頻樣本等等。所述音頻信號(hào)可以是單耳、立體聲或多聲道音頻信號(hào)。還可以有表征與圖像相關(guān)聯(lián)的音頻信號(hào)的另外的與音頻有關(guān)的信息。這樣的另外的與音頻有關(guān)的信息例如可以包括關(guān)于所應(yīng)用的采樣頻率、關(guān)于聲道的數(shù)目以及/或者關(guān)于音頻信號(hào)的聲道配置的信息。作為另一個(gè)實(shí)例,所述另外的與音頻有關(guān)的信息可以包括關(guān)于音頻信號(hào)的類型的指示,其例如表明音頻信號(hào)包括特定信號(hào)分量,比如語音或話音信號(hào)分量、音樂、僅有背景音(ambiance)信號(hào)分量、空間音頻信號(hào)分量或者以其他方式表征音頻信號(hào)的類型的信息。作為其他的實(shí)例,所述另外的與音頻有關(guān)的信息可以表明音頻信號(hào)的持續(xù)時(shí)間(即時(shí)間長(zhǎng)度),以及/或者與空間音頻信號(hào)相關(guān)聯(lián)的到達(dá)方向。這樣的表征音頻信號(hào)的另外的與音頻有關(guān)的信息可以基于針對(duì)音頻信號(hào)的預(yù)先分析來確定。
[0030]音頻信號(hào)連同可能的另外的與音頻有關(guān)的信息可以被稱作音頻項(xiàng)目。后面將參照與圖像相關(guān)聯(lián)的音頻信號(hào)來描述本發(fā)明的各個(gè)實(shí)施例。但是所述描述可以被推廣到與圖像相關(guān)聯(lián)的音頻項(xiàng)目,從而直接表明音頻信號(hào)伴隨有可以在對(duì)于音頻信號(hào)/項(xiàng)目的分析中利用的另外的與音頻有關(guān)的信息。
[0031]圖1示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻處理設(shè)備10。設(shè)備10包括音頻分析單元12和適于耦合到音頻分析單元12的音頻軌道確定單元14。設(shè)備10還可以包括適于耦合到音頻分析單元12和/或音頻軌道確定單元14的分類單元16。設(shè)備10還可以包括適于耦合到音頻分析單元12和/或音頻軌道確定單元14的圖像分析單元18。適于彼此耦合的各個(gè)單元可以被配置和/或允許在其間交換信息和/或指令。
[0032]音頻分析單元12也可以被稱作音頻分析器。音頻軌道確定單元14也可以被稱作音頻軌道確定器或音頻軌道合成器。分類單元16也可以被稱作分類器或圖像分類器。圖像分析單元18也可以被稱作圖像分析器。
[0033]音頻分析單元12被配置成獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián)。該組圖像例如可以被提供用于合成具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間。該組音頻信號(hào)可以包括一個(gè)或更多音頻信號(hào)。
[0034]音頻分析單元12還被配置成分析該組音頻信號(hào)當(dāng)中的至少一個(gè)音頻信號(hào),以便確定可被用于確定具有所期望的持續(xù)時(shí)間的音頻軌道的一個(gè)或更多中間音頻信號(hào)。音頻分析單元12還可以被配置成向音頻軌道確定單元14提供所述一個(gè)或更多中間音頻信號(hào)。
[0035]音頻軌道確定單元14被配置成基于所述一個(gè)或更多中間音頻信號(hào)確定或合成具有所述期望的持續(xù)時(shí)間的音頻軌道,其中所述一個(gè)或更多中間音頻信號(hào)是基于針對(duì)該組音頻信號(hào)當(dāng)中的一個(gè)或更多音頻信號(hào)的分析而確定的。所述音頻軌道優(yōu)選地具有覆蓋或者基本上覆蓋為該組圖像的呈現(xiàn)所指派的總體觀看時(shí)間的持續(xù)時(shí)間。
[0036]術(shù)語“基本上覆蓋”在本上下文中被用來表示音頻軌道的持續(xù)時(shí)間等于或長(zhǎng)于該組圖像的所指派的總體觀看時(shí)間。換句話說,優(yōu)選地確定其持續(xù)時(shí)間不短于該組圖像的所指派的總體觀看時(shí)間的音頻軌道。
[0037]作為一個(gè)實(shí)例,音頻軌道確定單元14可以被配置成基于一定數(shù)目的中間音頻信號(hào)來合成音頻軌道或其一部分,這例如是通過串聯(lián)一個(gè)或更多中間音頻信號(hào)以便獲得具有所期望的長(zhǎng)度的音頻軌道。作為另一個(gè)實(shí)例,音頻軌道確定單元14可以被配置成通過混合兩個(gè)或更多中間音頻信號(hào)來合成音頻軌道或其一部分,這例如是通過將兩個(gè)或更多中間音頻信號(hào)的對(duì)應(yīng)樣本相加或求平均以便獲得具有所期望的音頻信號(hào)特性的音頻軌道。作為其他的實(shí)例,音頻軌道確定單元14可以被配置成通過重復(fù)和/或部分地重復(fù)(例如“循環(huán)”)中間音頻信號(hào)來合成音頻片段或其一部分,以便獲得具有所期望的長(zhǎng)度的音頻片段,或者其可以被配置成通過調(diào)節(jié)中間音頻信號(hào)的信號(hào)水平來合成音頻軌道或其一部分,以便獲得所期望的音頻信號(hào)特性。
[0038]設(shè)備10還可以包括另外的組件,比如處理器、存儲(chǔ)器、用戶接口、通信接口等等。
[0039]音頻軌道確定單元12可以被配置成獲得音頻信號(hào),這例如是通過從設(shè)備10的存儲(chǔ)器讀取音頻信號(hào)或者經(jīng)由通信接口從另一設(shè)備接收音頻信號(hào)。
[0040]音頻分析單元12和/或音頻確定單元14還可以被配置成獲得為該組圖像當(dāng)中的各幅圖像所指派的觀看時(shí)間。具體來說,音頻分析單元12或音頻軌道確定單元14可以被配置成獲得為該組圖像當(dāng)中的一幅圖像所指派的觀看時(shí)間,這例如是通過從設(shè)備10的存儲(chǔ)器讀取對(duì)應(yīng)的所指派的觀看時(shí)間,或者經(jīng)由通信接口從另一設(shè)備接收對(duì)應(yīng)的所指派的觀看時(shí)間。作為另一個(gè)實(shí)例,可以經(jīng)由用戶接口作為來自用戶的輸入接收對(duì)應(yīng)的所指派的觀看時(shí)間。通過確定為給定圖像所指派的觀看時(shí)間而獲得的對(duì)應(yīng)的所指派的觀看時(shí)間可以被確定為等于與所述給定圖像相關(guān)聯(lián)的音頻信號(hào)的持續(xù)時(shí)間(即時(shí)間長(zhǎng)度)。作為另一個(gè)實(shí)例,音頻分析單元12或音頻軌道確定單元14可以被配置成獲得為該組圖像所指派的總體觀看時(shí)間,并且通過基于該組圖像的所指派的總體觀看時(shí)間確定為給定圖像所指派的觀看時(shí)間而獲得所指派的觀看時(shí)間,這例如是通過把所指派的總體觀看時(shí)間除以該組圖像當(dāng)中的圖像數(shù)目。
[0041]所指派的觀看時(shí)間也可以被稱作所指派的顯示時(shí)間、所指派的呈現(xiàn)時(shí)間等等。所指派的觀看時(shí)間決定該圖像關(guān)于該組圖像的所指派的總體觀看時(shí)間的時(shí)間位置。為給定圖像所指派的觀看時(shí)間可以決定關(guān)于參考時(shí)間點(diǎn)的所指派的開始和結(jié)束時(shí)間。或者為給定圖像所指派的觀看時(shí)間可以決定關(guān)于參考時(shí)間點(diǎn)的用于呈現(xiàn)所述給定圖像的所指派的開始時(shí)間,連同為所述給定圖像所指派的觀看持續(xù)時(shí)間。所述參考時(shí)間點(diǎn)例如可以是對(duì)于該組圖像的觀看/顯示/呈現(xiàn)的起始,例如是對(duì)于該組圖像當(dāng)中的第一圖像的觀看的起始。
[0042]音頻分析單元12和/或音頻確定單元14還可以被配置成獲得或者確定該組圖像的所指派的總體觀看時(shí)間。作為一個(gè)實(shí)例,該組圖像的所指派的總體觀看時(shí)間可以被確定為該組圖像當(dāng)中的各幅圖像的所指派的觀看時(shí)間的總和。作為另一個(gè)實(shí)例,可以基于該組圖像當(dāng)中的圖像數(shù)目來確定為該組圖像所指派的總體觀看時(shí)間,這例如是通過為該組圖像當(dāng)中的每一幅圖像指派預(yù)定的相等觀看時(shí)間。作為另一個(gè)實(shí)例,可以基于從用戶接口接收的來自用戶的輸入來確定所指派的總體觀看時(shí)間。
[0043]該組圖像當(dāng)中的各幅圖像例如可以是照片、繪畫、圖形、計(jì)算機(jī)生成的圖像等等。一組圖像當(dāng)中的一些或所有圖像可以源自或者可以被設(shè)置到一個(gè)視頻序列中,從而可能構(gòu)成該組圖像內(nèi)的一個(gè)圖像序列。具體來說,包括這樣的圖像序列的一組圖像可以代表電影動(dòng)片(cinemagraph)。
[0044]所確定的音頻軌道可以被設(shè)置成伴隨該組圖像的呈現(xiàn)。所述圖像例如可以作為幻燈片或者作為基于一定數(shù)目的圖像合成的聚合圖像的各個(gè)部分被呈現(xiàn)給用戶。聚合圖像的一個(gè)實(shí)例是全景圖像。
[0045]在這里,幻燈片指的是順序地(例如逐一地)呈現(xiàn)多幅圖像。在幻燈片中呈現(xiàn)的每一幅圖像可以被呈現(xiàn)預(yù)定時(shí)間段,其被稱作所指派的觀看時(shí)間。為給定圖像所指派的觀看時(shí)間可以被設(shè)定為固定時(shí)間段,其對(duì)于每一幅圖像是相等或基本上相等的?;蛘咚概傻挠^看時(shí)間可以對(duì)于不同圖像有所不同。此外,所述呈現(xiàn)可以具有所指派的總體觀看時(shí)間。
[0046]圖2a示出了作為伴隨有音頻軌道的幻燈片呈現(xiàn)一定數(shù)目的圖像(即圖像A、B和C)的基本想法的一個(gè)實(shí)例。所述一定數(shù)目的圖像的所指派的總體觀看時(shí)間覆蓋從、到&的時(shí)間。圖2a還示出了音頻軌道,其也覆蓋所述一定數(shù)目的圖像的所指派的總體觀看時(shí)間。圖像A從tA開始到tB被呈現(xiàn),這一持續(xù)時(shí)間覆蓋圖像A的所指派的觀看時(shí)間,同一時(shí)間段也被音頻軌道的部分A覆蓋。圖像B從tB開始到被呈現(xiàn),圖像C從開始到tE被呈現(xiàn),從而分別覆蓋圖像B和C的所指派的觀看時(shí)間。圖像B和C的所指派的觀看時(shí)間分別被音頻軌道的部分B和C覆蓋。
[0047]在所述一定數(shù)目的圖像或其子集代表電影動(dòng)片的情況下,可以按照類似于前面對(duì)于作為幻燈片被呈現(xiàn)的所述一定數(shù)目的圖像所描述的方式來呈現(xiàn)各幅圖像。在所述一定數(shù)目的圖像包括構(gòu)成一個(gè)視頻圖像序列的圖像序列的情況下,對(duì)于所述視頻序列當(dāng)中的每一幅圖像可以有專用的所指派的觀看時(shí)間,或者對(duì)于該視頻序列可以有單一所指派的觀看時(shí)間。
[0048]聚合圖像可以被合成為兩幅或更多幅圖像的組合,從而形成更大的合成圖像。聚合圖像的一個(gè)具體實(shí)例是全景圖像。全景圖像通常要求把各幅圖像組合成代表從相同或基本上相同的位置朝向兩個(gè)或更多不同方向的不同視圖的全景圖像??梢曰谶@樣的圖像來合成全景圖像,這是通過對(duì)所述圖像進(jìn)行處理或分析,以便在代表朝向鄰近方向的視圖的圖像的邊緣區(qū)域中找到匹配圖樣,并且組合這些圖像從而形成代表兩個(gè)鄰近方向的統(tǒng)一組合圖像。組合各幅圖像的處理可以涉及去除代表兩個(gè)鄰近方向的其中一幅或全部?jī)煞鶊D像的邊緣區(qū)域中的重疊部分??梢韵蛴脩舫尸F(xiàn)聚合圖像,從而使得在給定時(shí)間段期間只示出聚合圖像的一部分,其中根據(jù)預(yù)訂模式來改變當(dāng)前向用戶示出的聚合圖像部分。
[0049]圖2b示出了作為伴隨有音頻軌道的聚合圖像的各個(gè)部分呈現(xiàn)一定數(shù)目的圖像(即圖像A、B和C)的基本想法的一個(gè)實(shí)例。圖像A、B和C被組合成具有圖像部分A’、B’和C’的聚合圖像。由圖像部分A’、B’和C’形成的所述一定數(shù)目的圖像的所指派的總體觀看時(shí)間覆蓋從tA到tE的時(shí)間。圖像部分A’從tA開始到tB被呈現(xiàn),這一持續(xù)時(shí)間覆蓋圖像部分A’的所指派的觀看時(shí)間,同一時(shí)間段也被音頻軌道的部分A覆蓋。圖像部分B’從&開始到被呈現(xiàn),圖像部分C’從開始到tE被呈現(xiàn),從而分別覆蓋圖像部分B’和C’的所指派的觀看時(shí)間。圖像部分B’和C’的所指派的觀看時(shí)間分別被音頻軌道的部分B和C覆蓋。
[0050]所述音頻軌道的持續(xù)時(shí)間優(yōu)選地等于或基本上等于形成所述呈現(xiàn)的所述一定數(shù)目的圖像的所指派的總體觀看時(shí)間。所述音頻軌道隱含地或明確地包括一定數(shù)目的部分,每一個(gè)部分在時(shí)間上與所述一定數(shù)目的圖像當(dāng)中的給定圖像的所指派的觀看時(shí)間對(duì)準(zhǔn),從而將被設(shè)置成與該給定圖像的所指派的觀看時(shí)間同時(shí)或基本上同時(shí)重放。
[0051]音頻軌道合成單元14還可以被配置成把該組圖像和所確定的音頻軌道設(shè)置成該組圖像的呈現(xiàn)。所述呈現(xiàn)例如可以被設(shè)置成幻燈片,或者設(shè)置成例如全景圖像之類的聚合圖像的呈現(xiàn)。
[0052]所述呈現(xiàn)例如可以被設(shè)置成Microsoft PowerPoint呈現(xiàn),或者被設(shè)置成利用相應(yīng)的呈現(xiàn)軟件/設(shè)置的呈現(xiàn)。適用于呈現(xiàn)的其他格式實(shí)例包括MPEG-4、Adobe Flash等等,或者允許音頻和圖像/視頻的同步呈現(xiàn)的任何其他多媒體格式。此外,所述圖像和音頻軌道可以被例如設(shè)置成網(wǎng)頁,其被配置成在用戶訪問該網(wǎng)頁時(shí)呈現(xiàn)圖像并且重放音頻。
[0053]圖像可以具有與之相關(guān)聯(lián)的位置指示。所述位置指示也可以被稱作位置信息、位置標(biāo)識(shí)符等等。位置指示可以包括確定與圖像相關(guān)聯(lián)的位置的信息。例如在照片的情況下,位置指示可以包括表明該圖像的捕獲位置的信息,或者其可以包括表明以其他方式與圖像相關(guān)聯(lián)的位置的信息??梢曰谛l(wèi)星定位系統(tǒng)來提供位置指示,比如全球定位系統(tǒng)(GPS)坐標(biāo),地理坐標(biāo)(度、分、秒),關(guān)于預(yù)定參考位置的方向和距離等等。
[0054]根據(jù)本發(fā)明的一個(gè)實(shí)施例,設(shè)備10可以包括分類單元16。分類單元16可以被配置成獲得多個(gè)音頻信號(hào),每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián)??梢匀缜懊嫠枋龅哪菢荧@得與所述多幅圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的音頻信號(hào)。
[0055]分類單元16還可以被配置成獲得多項(xiàng)位置指示,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián)。位置指示可以表明與圖像相關(guān)聯(lián)的位置,并且位置指示可以包括GPS坐標(biāo)、地理坐標(biāo)、表明關(guān)于預(yù)定參考位置的距離和方向的信息等等。
[0056]分類單元16還可以被配置成確定作為所述多幅圖像當(dāng)中的一個(gè)子集的第一組圖像,從而使得第一組圖像包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。
[0057]與所述多幅圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的位置指示可以被用來將所述多幅圖像劃分或指派到一組或更多組圖像中。作為一個(gè)實(shí)例,具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像被指派到第一組圖像中,具有與之相關(guān)聯(lián)的涉及第二位置的位置指示的圖像被指派到第二組中,后面以此類推。因此,可以對(duì)于每一組圖像單獨(dú)確定和/或合成用以伴隨一組圖像的呈現(xiàn)的音頻軌道,并且可以把所得到的各個(gè)音頻軌道組合(例如串聯(lián))成用以伴隨所述多幅圖像的呈現(xiàn)的合成音頻軌道。
[0058]作為一個(gè)實(shí)例,如果位置指示表明關(guān)于與某一特定位置相關(guān)聯(lián)的參考位置的預(yù)定義最大距離內(nèi)的位置,則其可以被視為涉及所述特定位置。作為另一個(gè)實(shí)例,如果位置指示表明與某一特定位置相關(guān)聯(lián)的參考區(qū)域內(nèi)的位置,則其可以被視為涉及所述特定位置。所述參考區(qū)域例如可以通過一定數(shù)目的參考位置或參考點(diǎn)來定義。所述參考位置或參考區(qū)域可以是預(yù)定的,或者可以基于與所述多幅圖像當(dāng)中的一幅或更多幅圖像相關(guān)聯(lián)的位置信息來確定。
[0059]圖像可以具有與之相關(guān)聯(lián)的時(shí)間指示。與圖像相關(guān)聯(lián)的時(shí)間指示例如可以表明與該圖像相關(guān)聯(lián)的日間時(shí)和日期。與圖像相關(guān)聯(lián)的時(shí)間指示例如可以表明捕獲照片的時(shí)間和日期,或者時(shí)間指示可以表明以其他方式與圖像相關(guān)聯(lián)的時(shí)間和日期。
[0060]根據(jù)本發(fā)明的一個(gè)實(shí)施例,分類單元16可以被配置成獲得多項(xiàng)時(shí)間指示,每一項(xiàng)時(shí)間指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián)。時(shí)間指示可以表明與圖像相關(guān)聯(lián)的時(shí)間和日期,分類單元16還可以被配置成確定作為所述多幅圖像當(dāng)中的一個(gè)子集的第一組圖像,從而使得第一組圖像包括具有與之相關(guān)聯(lián)的涉及第一時(shí)間段的時(shí)間指示的圖像。此外,時(shí)間指示可以被用來按照類似于前面對(duì)于基于位置指示的分組所描述的方式將所述多幅圖像當(dāng)中的各幅圖像指派到一定數(shù)目的組中。
[0061]作為一種替換的分組設(shè)置,分類單元16可以被配置成同時(shí)基于與之相關(guān)聯(lián)的位置指示和時(shí)間指示來施行圖像分組,從而例如使得具有與之相關(guān)聯(lián)的涉及第一位置的位置指示和涉及第一時(shí)間段的時(shí)間指示的圖像被指派到第一組中。相應(yīng)地,具有與之相關(guān)聯(lián)的涉及第二位置的位置指示和涉及第二時(shí)間段的時(shí)間指示的圖像被指派到第二組中,后面以此類推。
[0062]根據(jù)本發(fā)明的一個(gè)實(shí)施例,音頻分析單元12可以被配置成對(duì)于一組圖像當(dāng)中的每一幅圖像確定與之相關(guān)聯(lián)的音頻信號(hào)片段,以用于確定對(duì)應(yīng)的中間音頻信號(hào)。音頻分析單元12還可以被配置成基于所述確定的與之相關(guān)聯(lián)的音頻信號(hào)片段對(duì)于該組圖像當(dāng)中的每一幅圖像確定中間音頻信號(hào),所述中間音頻信號(hào)的持續(xù)時(shí)間與對(duì)應(yīng)圖像的所指派的觀看時(shí)間相匹配或基本上匹配。此外,音頻軌道確定單元14可以被配置成將所述音頻軌道合成為所述各個(gè)中間音頻信號(hào)的串聯(lián),從而形成其持續(xù)時(shí)間覆蓋或基本上覆蓋該組圖像的所指派的總體觀看時(shí)間的音頻軌道。
[0063]因此,音頻分析單元12可以被配置成基于與對(duì)應(yīng)圖像相關(guān)聯(lián)的音頻信號(hào)對(duì)于該組圖像當(dāng)中的每一幅圖像確定在時(shí)間上與對(duì)應(yīng)圖像的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道部分,并且音頻軌道確定單元14可以被配置成將各個(gè)音頻軌道部分串聯(lián)成具有所期望的持續(xù)時(shí)間的單一音頻軌道。在圖3中示出了如此確定音頻軌道的一般原理。
[0064]確定與圖像相關(guān)聯(lián)的音頻信號(hào)片段(segment)以及/或者基于所述片段確定中間音頻信號(hào)可以包括例如關(guān)于音頻信號(hào)內(nèi)的持續(xù)時(shí)間和信號(hào)水平來分析音頻信號(hào)。替換地或附加地,所述分析可以包括分析與圖像相關(guān)聯(lián)的另外的與音頻有關(guān)的信息。
[0065]對(duì)應(yīng)于該組圖像當(dāng)中的給定圖像的中間音頻信號(hào)可以被確定為與所述給定圖像相關(guān)聯(lián)的音頻信號(hào)的預(yù)定部分,例如被確定為音頻信號(hào)的開頭處的具有所期望的持續(xù)時(shí)間的一部分。在音頻信號(hào)的持續(xù)時(shí)間短于給定圖像的所指派的觀看時(shí)間的情況下,對(duì)應(yīng)的中間音頻信號(hào)例如可以被確定為重復(fù)的和/或部分地重復(fù)的所述音頻信號(hào),以便達(dá)到與給定圖像的所指派的觀看時(shí)間相匹配或基本上匹配的持續(xù)時(shí)間。
[0066]或者,對(duì)應(yīng)于該組圖像當(dāng)中的給定圖像的中間音頻信號(hào)可以通過修改與所述給定圖像或其一個(gè)片段相關(guān)聯(lián)的音頻信號(hào)的預(yù)定部分來確定。這樣的修改例如可以包括所述音頻信號(hào)部分的信號(hào)水平調(diào)節(jié),以便得到具有所期望的總體信號(hào)水平的中間音頻信號(hào)。作為另一個(gè)實(shí)例,這樣的修改可以包括與所述給定圖像相關(guān)聯(lián)的音頻信號(hào)部分的所選片段的信號(hào)水平調(diào)節(jié),以便例如實(shí)施音頻軌道的鄰近部分之間的所期望的特性的交叉衰落。
[0067]根據(jù)本發(fā)明的一個(gè)實(shí)施例,音頻分析單元12可以被配置成分析至少其中一個(gè)音頻信號(hào),以便確定某一音頻信號(hào)是否包括特定的音頻信號(hào)分量。音頻分析單元12還可以被配置成響應(yīng)于確定與給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定音頻分量而確定具有與所述給定圖像的所指派的觀看時(shí)間相匹配或基本上匹配的持續(xù)時(shí)間的中間音頻信號(hào)。因此,所述中間音頻信號(hào)對(duì)應(yīng)于所述給定圖像,并且可以至少部分地基于在與給定圖像相關(guān)聯(lián)的音頻信號(hào)中識(shí)別出的所述特定音頻分量來確定中間音頻信號(hào)。這一確定可以涉及從音頻信號(hào)中提取(例如拷貝)所識(shí)別出的特定音頻分量。此外,音頻軌道確定單元14可以被配置成至少部分地基于所述中間音頻信號(hào)來合成在時(shí)間上與給定圖像的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道部分。
[0068]因此,在與該組圖像當(dāng)中的給定圖像相關(guān)聯(lián)的音頻信號(hào)中識(shí)別出的特定音頻信號(hào)分量可以被用作與所述給定圖像相關(guān)聯(lián)的音頻信號(hào)部分以便用于確定音頻軌道,特別是確定在時(shí)間上與所述給定圖像的所指派的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道部分。
[0069]對(duì)應(yīng)于給定圖像的中間音頻信號(hào)可以被確定為所述特定音頻信號(hào)分量本身,或者被確定為組合到一個(gè)或多個(gè)預(yù)定音頻信號(hào)的特定音頻信號(hào)分量以便確定具有所期望的(時(shí)間)長(zhǎng)度(即所期望的持續(xù)時(shí)間)的中間音頻信號(hào)。所述組合例如可以包括將所述特定音頻信號(hào)分量與預(yù)定音頻信號(hào)混合,或者將所述特定音頻信號(hào)分量與一個(gè)或更多預(yù)定音頻信號(hào)(的拷貝)串聯(lián)以便獲得具有所期望的持續(xù)時(shí)間的信號(hào)。
[0070]在圖4中提供了至少部分地基于特定音頻信號(hào)分量合成音頻軌道的一部分的一個(gè)實(shí)例。
[0071]所述特定音頻信號(hào)分量例如可以是源自人類對(duì)象的語音(或話音)信號(hào)分量、音樂、源自動(dòng)物的聲音、源自機(jī)器的聲音或者具有預(yù)定特性的任何特定音頻信號(hào)分量。具體來說,所述特定音頻信號(hào)分量可以包括空間音頻信號(hào),從而具有與之相關(guān)聯(lián)的可感知到達(dá)方向。空間音頻信號(hào)的可感知到達(dá)方向可以基于兩個(gè)或更多音頻信號(hào)來確定,或者通過分析立體聲或多聲道音頻信號(hào)的各個(gè)聲道之間的(多項(xiàng))耳間時(shí)間差異和/或(多項(xiàng))耳間水平差異基于立體聲或多聲道音頻信號(hào)來確定。
[0072]作為一個(gè)實(shí)例,對(duì)音頻信號(hào)進(jìn)行分析以便確定音頻信號(hào)是否包括特定信號(hào)分量可以包括確定音頻信號(hào)是否包括語音或話音信號(hào)分量。這樣的分析可以包括利用話音辨識(shí)技術(shù),其實(shí)際上被配置成解釋或辨識(shí)語音或話音信號(hào),但是作為副產(chǎn)品也可以被用來檢測(cè)話音或語音信號(hào)分量的存在。替換地或附加地,例如通常在電信中所使用的語音活動(dòng)檢測(cè)技術(shù)允許確定音頻信號(hào)的一部分是否包括話音或語音分量,從而提供了用于確定音頻信號(hào)內(nèi)的話音或語音信號(hào)分量的存在的分析工具的另一個(gè)實(shí)例。
[0073]對(duì)于音頻信號(hào)的分析的另一個(gè)實(shí)例是確定空間音頻信號(hào)的存在和/或其可感知到達(dá)方向,正如前面已經(jīng)提到的那樣。作為一個(gè)實(shí)例,通過關(guān)于各個(gè)聲道之間的水平和/或時(shí)間差異分析兩聲道或多聲道音頻信號(hào)的各個(gè)聲道可以允許確定空間音頻信號(hào)分量的可感知到達(dá)方向并且從而確定關(guān)于其存在的指示,而關(guān)于不可能以足夠可靠的方式確定可感知到達(dá)方向的指示則可以表明不存在空間音頻信號(hào)分量。
[0074]圖像還可以具有與之相關(guān)聯(lián)的圖像模式數(shù)據(jù)。作為一個(gè)實(shí)例,圖像模式數(shù)據(jù)可以包括表明圖像格式的信息,例如圖像是否具有肖像格式,也就是說圖像的寬度小于其高度,或者風(fēng)景格式,也就是說圖像的寬度大于其高度。作為另一個(gè)實(shí)例,特別在照片的情況下,圖像模式數(shù)據(jù)可以包括表明捕獲圖像時(shí)所采用的攝影機(jī)的操作模式(即捕獲模式、拍攝模式、簡(jiǎn)檔等等)的信息。這樣的操作模式例如可以是“肖像”、“人物”、“景觀”、“運(yùn)動(dòng)”、“聚會(huì)”、“戶外”等等,從而可能提供關(guān)于圖像所代表的對(duì)象的指示。
[0075]根據(jù)本發(fā)明的一個(gè)實(shí)施例,音頻分析單元12可以被配置成至少部分地基于與圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)來施行分析,以便確定特定音頻信號(hào)分量的存在。作為一個(gè)實(shí)例,表明肖像作為圖像格式或者例如“肖像”、“人物”等等作為操作模式的圖像模式數(shù)據(jù)可以被用作表明與給定圖像相關(guān)聯(lián)的信號(hào)可能包括特定音頻信號(hào)分量(比如語音或話音信號(hào)分量或者空間音頻信號(hào))的指示。因此,根據(jù)本發(fā)明的一個(gè)實(shí)施例,可以只對(duì)與此類圖像相關(guān)聯(lián)的音頻信號(hào)進(jìn)行分析以便確定特定音頻信號(hào)分量的存在?;蛘咭纛l分析單元12可以被配置成對(duì)于該組音頻信號(hào)當(dāng)中的所有音頻信號(hào)或者對(duì)于該組音頻信號(hào)當(dāng)中的一個(gè)預(yù)定子集施行分析,以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量。
[0076]根據(jù)本發(fā)明的一個(gè)實(shí)施例,設(shè)備10包括圖像分析單元18。圖像分析單元18可以被配置成響應(yīng)于確定與給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定信號(hào)分量而對(duì)所述給定圖像進(jìn)行分析,以便確定給定圖像內(nèi)的特定對(duì)象的存在和位置。此外,音頻軌道確定單元12可以被配置成響應(yīng)于確定在給定圖像中存在特定對(duì)象而基于所述特定音頻信號(hào)分量合成中間音頻信號(hào),從而將所述中間音頻信號(hào)提供為具有對(duì)應(yīng)于所述給定圖像中的所確定的特定對(duì)象的位置的可感知到達(dá)方向的空間音頻信號(hào),或者將其提供為包括一個(gè)(時(shí)間)部分的信號(hào),所述(時(shí)間)部分包括具有對(duì)應(yīng)于所述給定圖像中的所確定的特定對(duì)象的位置的可感知到達(dá)方向的空間音頻分量。
[0077]換句話說,可以對(duì)于在時(shí)間上與一幅圖像的所指派的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道的一部分生成具有可感知到達(dá)方向的空間音頻信號(hào),其中所述圖像具有包括與之相關(guān)聯(lián)的特定音頻信號(hào)分量的音頻信號(hào)并且具有在圖像數(shù)據(jù)中識(shí)別出的特定對(duì)象。生成空間音頻信號(hào)可以包括修改已經(jīng)包括空間音頻信號(hào)分量的音頻信號(hào)的音頻圖像(即可感知到達(dá)方向),或者修改非空間音頻信號(hào)以便引入空間音頻信號(hào)分量。前一種情況可以涉及向單聲道音頻信號(hào)添加兩個(gè)或更多音頻聲道,并且處理各個(gè)音頻聲道以便獲得對(duì)應(yīng)于具有所期望的可感知到達(dá)方向的空間音頻信號(hào)的(多項(xiàng))耳間水平差異和/或(多項(xiàng))耳間時(shí)間差異。后一種情況可以涉及修改/處理音頻信號(hào)的各個(gè)聲道,以便獲得對(duì)應(yīng)于具有所期望的可感知到達(dá)方向的空間音頻信號(hào)的(多項(xiàng))耳間水平差異和/或(多項(xiàng))耳間時(shí)間差異。這樣的處理/修改可以被整體應(yīng)用于音頻信號(hào)或者僅被應(yīng)用于包括與給定圖像中的特定對(duì)象相關(guān)聯(lián)的特定音頻信號(hào)分量的(多個(gè))音頻信號(hào)部分。
[0078]將要識(shí)別的特定對(duì)象例如可以是人類對(duì)象或其一部分,特別是人臉。因此,可以利用適當(dāng)?shù)哪J奖孀R(shí)算法來分析給定圖像的數(shù)據(jù),其中所述模式辨識(shí)算法被配置成例如檢測(cè)人臉、人類的體形、動(dòng)物的形狀或者具有預(yù)定特性的任何適當(dāng)形狀。此外還確定特定對(duì)象在給定圖像內(nèi)的位置,以便允許確定和/或準(zhǔn)備具有與所述特定對(duì)象在給定圖像內(nèi)的位置相匹配或基本上匹配的可感知到達(dá)方向的空間音頻信號(hào)。所述特定對(duì)象的存在和/或位置可以被存儲(chǔ)或提供為與對(duì)應(yīng)圖像相關(guān)聯(lián)的另外的數(shù)據(jù)。
[0079]根據(jù)本發(fā)明的一個(gè)實(shí)施例,音頻分析單元12可以被配置成分析與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的至少其中一個(gè)音頻信號(hào),以便確定音頻信號(hào)是否包括背景音信號(hào)分量。具體來說,音頻分析單元12可以被配置成確定音頻信號(hào)或其一部分是否僅包括背景音信號(hào)分量而沒有特定音頻信號(hào)分量。所述確定還可以包括從音頻信號(hào)中提取(例如拷貝)背景音信號(hào)分量以便用于生成背景音軌道。[0080]音頻分析單元12還可以被配置成響應(yīng)于確定給定的音頻信號(hào)包括背景音信號(hào)分量而確定或合成背景音軌道,其中所述背景音軌道的持續(xù)時(shí)間覆蓋或者基本上覆蓋該組圖像的所指派的總體觀看時(shí)間。可以基于所述背景音信號(hào)分量來確定背景音軌道。音頻分析單元12可以被配置成提取(例如拷貝)背景音信號(hào)分量,并且/或者把背景音信號(hào)分量提供到音頻軌道確定單元14。此外,音頻軌道確定單元14可以被配置成基于背景音軌道以及所述一個(gè)或更多中間音頻信號(hào)來合成音頻軌道。背景音軌道可以被視為用于確定音頻軌道的中間音頻信號(hào)。
[0081]在背景音軌道是唯一可用的中間音頻信號(hào)的情況下,可以單獨(dú)基于背景音軌道來合成音頻軌道。在這種情況下,音頻軌道例如可以被合成為背景音軌道的拷貝或者背景音軌道的修改。這樣的修改例如可以包括對(duì)于背景音軌道或其一部分的信號(hào)水平調(diào)節(jié)。
[0082]音頻軌道的合成可以包括將背景音軌道組合到一個(gè)或更多(其他)中間音頻信號(hào)。具體來說,音頻軌道的合成可以包括將背景音軌道與中間音頻信號(hào)混合,其中所述中間音頻信號(hào)是基于在與給定圖像相關(guān)聯(lián)的音頻信號(hào)中識(shí)別出的特定音頻信號(hào)分量,從而使得基于所述特定音頻信號(hào)分量確定的中間音頻信號(hào)在時(shí)間上與所述給定圖像的所指派的觀看時(shí)間對(duì)準(zhǔn)。因此,當(dāng)源自背景音軌道的信號(hào)分量覆蓋或者基本上覆蓋該組圖像的所指派的總體觀看時(shí)間(并且從而是音頻軌道的持續(xù)時(shí)間)時(shí),基于在與給定圖像相關(guān)聯(lián)的音頻信號(hào)中識(shí)別出的特定音頻信號(hào)分量所確定的中間音頻信號(hào)被混合在背景音軌道的時(shí)間位置(并且從而是音頻軌道的時(shí)間位置)處,并且在時(shí)間上與所述給定圖像的所指派的觀看時(shí)間對(duì)準(zhǔn)。在圖5中提供了以這種方式合成音頻軌道的一般原理。
[0083]根據(jù)本發(fā)明的一個(gè)實(shí)施例,基于與該組圖像當(dāng)中的第一圖像相關(guān)聯(lián)的音頻信號(hào)來確定背景音信號(hào)可以包括基于與所述第一給定圖像或其一部分相關(guān)聯(lián)的音頻信號(hào)來確定背景音信號(hào)。具體來說,所述確定可以包括與所述第一圖像相關(guān)聯(lián)的音頻信號(hào)僅包括背景音信號(hào)分量而沒有特定信號(hào)分量,或者所述音頻信號(hào)的至少一部分僅包括背景音信號(hào)分量而沒有特定信號(hào)分量。
[0084]基于背景音信號(hào)分量確定背景音軌道可以包括利用(例如提取或拷貝)背景音信號(hào)分量本身、背景音信號(hào)分量的一個(gè)所選部分,或者背景音軌道可以被確定為重復(fù)或部分地重復(fù)的整個(gè)背景音信號(hào)分量或者其一個(gè)所選部分,以便覆蓋背景音軌道的所期望的持續(xù)時(shí)間。在圖6中示出了確定或合成背景音軌道的原理的一個(gè)實(shí)例。
[0085]根據(jù)本發(fā)明的一個(gè)實(shí)施例,音頻分析單元12被配置成響應(yīng)于確定第二給定音頻信號(hào)包括第二背景音信號(hào)分量,還基于所述第二背景音信號(hào)分量來確定或合成具有覆蓋或基本上覆蓋該組圖像的所指派的總體觀看時(shí)間的持續(xù)時(shí)間的背景音軌道。
[0086]因此,背景音軌道的確定或合成可以是基于兩個(gè)(即第一和第二)背景音信號(hào)分量。所述確定或合成可以包括將背景音信號(hào)確定為第一和第二背景音信號(hào)分量或者其某些部分的組合。所述組合可以涉及兩個(gè)背景音信號(hào)分量或其某些部分的串聯(lián)或者兩個(gè)背景音信號(hào)分量或其某些部分的混合,以便分別獲得具有所期望的持續(xù)時(shí)間或者具有所期望的音頻特性的背景音信號(hào)。背景音信號(hào)的確定還可以包括修改第一背景音信號(hào)分量或其一部分,以及/或者修改第二背景音信號(hào)分量或其一部分。作為一個(gè)實(shí)例,所述修改可以包括調(diào)節(jié)其中任一個(gè)或全部?jī)蓚€(gè)音頻信號(hào)或者其某些部分的信號(hào)水平,以便獲得背景音信號(hào)的所期望的信號(hào)水平。作為另一個(gè)實(shí)例,特別在被確定為兩個(gè)背景音信號(hào)分量的串聯(lián)的背景音信號(hào)的情況下,所述修改可以包括其中任一個(gè)或全部?jī)蓚€(gè)背景音信號(hào)分量或其某些部分的所選片段的水平調(diào)節(jié),以便實(shí)施交叉衰落?;趦蓚€(gè)背景音信號(hào)分量的背景音信號(hào)確定或合成可以被推廣到從與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的一定數(shù)目的音頻信號(hào)中識(shí)別或提取出的任意數(shù)目的背景音信號(hào)分量的確定或合成。
[0087]基于背景音信號(hào)確定背景音軌道可以包括利用(例如提取或拷貝)背景音信號(hào)本身、背景音信號(hào)的一個(gè)所選部分,或者背景音軌道可以被確定為重復(fù)或部分地重復(fù)的整個(gè)背景音信號(hào)或者其一個(gè)所選部分,以便覆蓋背景音軌道的所期望的持續(xù)時(shí)間。在圖7中示出了基于背景音信號(hào)確定或合成背景音軌道的原理的一個(gè)實(shí)例。
[0088]作為一個(gè)實(shí)例,對(duì)音頻信號(hào)進(jìn)行分析以便確定音頻信號(hào)是否包括背景音信號(hào)分量可以包括確定音頻信號(hào)或其一部分是否表現(xiàn)出表明背景音信號(hào)分量的存在的預(yù)定音頻特性。作為這樣的預(yù)定音頻特性的一個(gè)實(shí)例,在信號(hào)水平方面和/或在頻率特性方面隨著時(shí)間表現(xiàn)出靜止特性的音頻信號(hào)或其一部分可以被視為代表背景音信號(hào)分量。替換地或附加地,分析音頻信號(hào)以便確定背景音信號(hào)分量的存在可以利用前面所描述的用于確定特定信號(hào)分量的存在的方法:如果在音頻信號(hào)中或者在其一部分中不存在特定信號(hào)分量,這可以被視為表明對(duì)應(yīng)的音頻信號(hào)或其一部分僅包括背景音信號(hào)分量。
[0089]根據(jù)本發(fā)明的一個(gè)實(shí)施例,用以確定音頻信號(hào)是否包括背景音信號(hào)分量的分析至少部分地是基于可以與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)。
[0090]正如前面所描述的那樣,與圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)例如可以表明圖像的格式或者對(duì)于捕獲圖像所采用的捕獲裝置的操作模式。因此,表明風(fēng)景作為圖像格式或者例如“景觀”、“風(fēng)景”等等作為操作模式的圖像模式數(shù)據(jù)可以被用作表明與給定圖像或其一部分相關(guān)聯(lián)的音頻信號(hào)可能僅包括背景音信號(hào)分量而沒有特定信號(hào)分量的指示。因此,根據(jù)本發(fā)明的一個(gè)實(shí)施例,可以只對(duì)與這樣的圖像相關(guān)聯(lián)的音頻信號(hào)進(jìn)行分析以用于確定背景音信號(hào)分量的存在。或者,音頻分析單元12可以被配置成對(duì)于該組音頻信號(hào)當(dāng)中的所有音頻信號(hào)或者對(duì)于該組音頻信號(hào)當(dāng)中的一個(gè)預(yù)定子集施行用以確定音頻信號(hào)是否包括背景音信號(hào)分量的分析。
[0091]圖像可以具有與之相關(guān)聯(lián)的指向數(shù)據(jù)。所述指向數(shù)據(jù)可以包括表明圖像關(guān)于一個(gè)或更多參考點(diǎn)的指向的信息。作為一個(gè)實(shí)例,指向數(shù)據(jù)可以包括表明關(guān)于北方或者關(guān)于磁場(chǎng)北極的指向,從而表明羅盤方向或其估計(jì)。作為另一個(gè)實(shí)例,指向數(shù)據(jù)可以包括表明圖像關(guān)于水平面的指向的信息,從而表明圖像關(guān)于水平面的傾斜。
[0092]作為一個(gè)實(shí)例,可以對(duì)與圖像相關(guān)聯(lián)的指向數(shù)據(jù)進(jìn)行評(píng)估,以便特別在關(guān)于前方/后方困惑的分析中幫助確定與空間音頻信號(hào)相關(guān)聯(lián)的到達(dá)方向。因此,作為這方面的一個(gè)實(shí)例,在確定空間音頻信號(hào)是代表來自圖像前側(cè)還是來自圖像后側(cè)的聲音時(shí),如果在這方面存在任何困惑,則可以采用可以由指向數(shù)據(jù)表明的攝影機(jī)的“拍攝方向”。舉例來說,音頻分析單元12可以被配置成使用指向信息來控制關(guān)于音頻信號(hào)是否包括特定音頻信號(hào)的分析:表明音頻信號(hào)(從而可能是特定信號(hào)分量)具有圖像后方的到達(dá)方向的指向信息可以被用作從所述分析中排除給定音頻信號(hào)的指示。作為另一個(gè)實(shí)例,圖像分析單元18可以被配置成使用指向信息來控制關(guān)于圖像中的特定對(duì)象的存在的分析:表明音頻信號(hào)(從而可能是特定信號(hào)分量)具有圖像后方的到達(dá)方向的指向信息可以被用作從所述分析中排除給定圖像的指示。[0093]根據(jù)本發(fā)明的各個(gè)實(shí)施例,使用并考慮與圖像相關(guān)聯(lián)的另外的數(shù)據(jù)項(xiàng)目。所述另外的數(shù)據(jù)可以包括表征圖像并且/或者提供與圖像相關(guān)聯(lián)的另外的信息的感測(cè)信息和/或其他信息。所述另外的數(shù)據(jù)可以與實(shí)際圖像數(shù)據(jù)一同被存儲(chǔ)和/或提供,這例如是通過使用允許同時(shí)存儲(chǔ)/提供(數(shù)字)圖像數(shù)據(jù)和另外的數(shù)據(jù)的適當(dāng)?shù)拇鎯?chǔ)或容器格式?;蛘撸隽硗獾臄?shù)據(jù)可以作為與對(duì)應(yīng)的圖像數(shù)據(jù)相聯(lián)系的一個(gè)或更多單獨(dú)的數(shù)據(jù)元素而被存儲(chǔ)或提供,其例如被設(shè)置到適當(dāng)?shù)臄?shù)據(jù)庫中。
[0094]圖8中提供的一個(gè)實(shí)例示出了表明與圖像相關(guān)聯(lián)的另外的數(shù)據(jù)項(xiàng)目的各個(gè)實(shí)例的與圖像相關(guān)聯(lián)的另外的數(shù)據(jù)的概念,其中一些在前面進(jìn)行了描述。
[0095]作為一個(gè)實(shí)例,所述多幅圖像當(dāng)中的一幅圖像可以是源自能夠捕獲圖像(特別是數(shù)字圖像)的設(shè)備或裝置。這樣的設(shè)備或裝置例如可以是攝影機(jī)或視頻攝影機(jī),特別是數(shù)字?jǐn)z影機(jī)或數(shù)字視頻攝影機(jī)。作為另一個(gè)實(shí)例,圖像可以是源自配備有捕獲(數(shù)字)圖像的能力的設(shè)備或裝置。這樣的設(shè)備或裝置的實(shí)例包括移動(dòng)電話、膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、互聯(lián)網(wǎng)平板電腦等等,其配備有或連接到攝影機(jī)、視頻攝影機(jī)、攝影機(jī)模塊、視頻攝影機(jī)模塊或者允許捕獲數(shù)字圖像的其他設(shè)置。
[0096]能夠捕獲圖像的裝置還可以被配備并且配置成捕獲或記錄、存儲(chǔ)和/或提供可以被用作與圖像相關(guān)聯(lián)的另外的數(shù)據(jù)的信息,正如前面所描述的那樣。
[0097]能夠捕獲圖像的裝置還可以提供有允許確定當(dāng)前位置的裝備,并且所述裝置可以被配置成在捕獲圖像時(shí)確定裝置的當(dāng)前位置。此外,所述裝置可以被配置成存儲(chǔ)和/或提供當(dāng)前位置以作為確定與所捕獲的圖像相關(guān)聯(lián)的位置的信息。
[0098]作為一個(gè)實(shí)例,所述裝置還可以提供有允許捕獲音頻信號(hào)的音頻記錄裝備,并且所述裝置可以被配置成在捕獲圖像的時(shí)間或其附近捕獲一個(gè)或更多音頻信號(hào)。所捕獲的音頻信號(hào)可以是單耳、立體聲或多聲道音頻信號(hào),并且所述音頻信號(hào)可以代表空間音頻信號(hào)。所述裝置還可以被配置成將一個(gè)或更多所捕獲的音頻信號(hào)存儲(chǔ)和/或提供為與所捕獲的圖像相關(guān)聯(lián)的一個(gè)或更多音頻數(shù)據(jù)項(xiàng)目。
[0099]所述音頻記錄裝備例如可以包括一個(gè)或更多麥克風(fēng)、定向麥克風(fēng)或麥克風(fēng)陣列。作為采用一個(gè)或更多麥克風(fēng)的設(shè)置的一個(gè)實(shí)例,所述攝影機(jī)或裝置可以提供有處于預(yù)定配置中的三個(gè)或更多麥克風(fēng)?;谟伤鋈齻€(gè)或更多麥克風(fēng)捕獲的三個(gè)或更多音頻信號(hào)并且基于有關(guān)所述預(yù)定麥克風(fēng)配置的知識(shí),例如有可能確定三個(gè)或更多音頻信號(hào)之間的相位差,并且從而導(dǎo)出由所述三個(gè)或更多所捕獲的音頻信號(hào)代表的聲音的到達(dá)方向。這種方法類似于正常人類聽覺,其中聲音的局部化(即可感知到達(dá)方向)部分地是基于左耳與右耳之間的耳間時(shí)間差異(ITD)。在麥克風(fēng)陣列的情況下也可以應(yīng)用類似的操作原理。
[0100]所述裝置可以配備允許甚至在圖像捕獲之前就開始捕獲音頻信號(hào)的所謂的預(yù)先記錄功能,并且所述裝置可以被配置成利用所述預(yù)先記錄功能捕獲一個(gè)或更多音頻信號(hào)。圖9示出了預(yù)先記錄功能的原理。圖像捕獲的時(shí)間由時(shí)間t表示,時(shí)間t_ At則表示音頻信號(hào)捕獲的開始,并且時(shí)間t+At表示音頻信號(hào)捕獲的結(jié)束。例如可以將裝置的音頻記錄裝備配置成不斷地記錄并且緩沖音頻信號(hào)從而可以覆蓋t-At與t之間的時(shí)間段,從而可以實(shí)施時(shí)間t之前的音頻捕獲。在圖9的實(shí)例中示出了圖像捕獲時(shí)間t之前和之后的相等的音頻捕獲持續(xù)時(shí)間。但是在其他實(shí)例中,圖像捕獲時(shí)間t之前的音頻捕獲持續(xù)時(shí)間可以短于或長(zhǎng)于時(shí)間t之后的音頻捕獲持續(xù)時(shí)間。[0101]能夠捕獲圖像的裝置還可以提供有允許捕獲與圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)的裝備,并且所述裝置可以被配置成在捕獲圖像時(shí)捕獲當(dāng)前圖像模式。此外,所述裝置可以被配置成將所捕獲的當(dāng)前圖像模式存儲(chǔ)和/或提供為與所捕獲的圖像相關(guān)聯(lián)的圖像模式。
[0102]能夠捕獲圖像的裝置還可以提供有允許捕獲與圖像相關(guān)聯(lián)的指向數(shù)據(jù)的裝備,并且所述裝置可以被配置成在捕獲圖像時(shí)捕獲裝置的當(dāng)前指向。此外,所述裝置可以被配置成將所捕獲的當(dāng)前裝置指向存儲(chǔ)和/或提供為表明圖像關(guān)于與所捕獲的圖像相關(guān)聯(lián)的一個(gè)或更多參考點(diǎn)的指向的信息。作為一個(gè)實(shí)例,所述允許捕獲指向數(shù)據(jù)的裝備可以包括羅盤。作為另一個(gè)實(shí)例,所述允許捕獲指向數(shù)據(jù)的裝備可以包括被配置成跟蹤裝置的當(dāng)前指向的一個(gè)或更多加速度計(jì)。作為另一個(gè)實(shí)例,所述允許捕獲指向數(shù)據(jù)的裝備可以包括一個(gè)或更多接收器或收發(fā)器,其允許基于源自已知的(分開的)位置的一個(gè)或更多所接收到的無線電信號(hào)確定當(dāng)前位置。
[0103]能夠捕獲圖像的裝置還可以提供有允許捕獲當(dāng)前時(shí)間的裝備,并且所述裝置可以被配置成在捕獲圖像時(shí)捕獲當(dāng)前時(shí)間。此外,所述裝置可以被配置成把所捕獲的時(shí)間存儲(chǔ)和/或提供為與所捕獲的圖像相關(guān)聯(lián)的時(shí)間指示。這樣的時(shí)間指示例如可以表明與圖像相關(guān)聯(lián)的日間時(shí)和日期。
[0104]取代與圖像一同和/或在捕獲圖像時(shí)捕獲或記錄與圖像相關(guān)聯(lián)的另外的數(shù)據(jù)的數(shù)據(jù)項(xiàng)目,例如通過使用配備有允許捕獲或記錄對(duì)應(yīng)的另外的數(shù)據(jù)項(xiàng)目的設(shè)置的能夠捕獲圖像的裝置,可以與圖像捕獲分開引入與圖像相關(guān)聯(lián)的另外的數(shù)據(jù)的數(shù)據(jù)項(xiàng)目。因此,作為少數(shù)幾個(gè)實(shí)例,圖像可以與并不和圖像捕獲直接有關(guān)的位置信息、音頻數(shù)據(jù)、圖像模式數(shù)據(jù)和/或指向數(shù)據(jù)相關(guān)聯(lián)。這在圖像而非照片的情況下可能是特別有用的,比如繪畫、圖形、計(jì)算機(jī)生成的圖像等等。具體來說,可以與圖像捕獲分開引入與圖像相關(guān)聯(lián)的任何用戶指定的數(shù)據(jù)。此外還有可能修改或者替換例如通過使用能夠捕獲圖像的裝置而引入的與圖像相關(guān)聯(lián)的另外的數(shù)據(jù)的一個(gè)或更多數(shù)據(jù)項(xiàng)目,其中所述裝置配備有允許捕獲或記錄對(duì)應(yīng)的另外的數(shù)據(jù)項(xiàng)目的設(shè)置。
[0105]前面在結(jié)構(gòu)方面描述了根據(jù)本發(fā)明的各個(gè)實(shí)施例的設(shè)備。在前面被指派給若干結(jié)構(gòu)單元的規(guī)程,即被指派給音頻分析單元12、音頻軌道確定單元14、分類單元16和/或圖像分析單元18的規(guī)程可以按照不同的方式被指派給各個(gè)單元,或者可以有另外的單元用來施行在前面描述的本發(fā)明的各個(gè)實(shí)施例的情境中所描述的其中一些規(guī)程。具體來說,在前面被指派給音頻分析單元12、音頻軌道確定單元14、分類單元16和/或圖像分析單元18的規(guī)程可以被替換地指派給設(shè)備10的單一處理單元。根據(jù)在功能方面表述的本發(fā)明的另一個(gè)實(shí)施例,提供一種音頻處理設(shè)備,所述設(shè)備包括:用于獲得一組音頻信號(hào)的裝置,每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間;用于對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道的裝置,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及用于基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道的裝置。
[0106]在圖10中示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法100。如步驟102中所示,方法100包括獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間。如步驟104中所示,方法100還包括對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間。如步驟106中所示,方法100還包括基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
[0107]在圖11中示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法120。如步驟122中所示,方法120包括獲得多個(gè)音頻信號(hào),每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián)。如步驟124中所示,方法120還包括獲得多項(xiàng)位置指示,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián)。如步驟124中所示,方法120還包括確定作為所述多幅圖像當(dāng)中的一個(gè)子集的第一組圖像,從而使得該第一組包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。例如可以根據(jù)前面描述的方法100來處理所述第一組圖像。
[0108]在圖12中示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法140。如步驟142中所示,方法140包括獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間。如步驟144中所示,方法140還包括對(duì)于每一幅圖像確定與之相關(guān)聯(lián)的音頻信號(hào)片段以用于確定對(duì)應(yīng)的中間音頻信號(hào),以及如步驟146中所示,對(duì)于每一幅圖像基于所述確定的與之相關(guān)聯(lián)的音頻信號(hào)片段確定具有與對(duì)應(yīng)圖像的所指派的觀看時(shí)間基本上匹配的持續(xù)時(shí)間的中間音頻信號(hào)。如步驟148中所示,方法140還包括將音頻軌道合成為所述中間音頻
號(hào)的串聯(lián)。
[0109]在圖13中示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法160。如步驟162中所示,方法160包括獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間。如步驟164中所示,方法160包括對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括背景音信號(hào)分量。如步驟166中所示,方法160還包括響應(yīng)于確定第一給定音頻信號(hào)包括背景音信號(hào)分量,確定具有覆蓋或基本上覆蓋該組圖像的所指派的總體觀看時(shí)間的持續(xù)時(shí)間的背景音軌道,其中所述背景音軌道是基于所述背景音信號(hào)分量確定的。如步驟168中所示,方法160還包括基于背景音軌道以及所述一個(gè)或更多中間音頻信號(hào)合成音頻軌道。
[0110]在圖14中示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法180。如步驟182中所示,方法180包括獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間。如步驟184中所示,方法180包括對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量。如步驟186中所示,方法180還包括響應(yīng)于確定與給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定音頻信號(hào)分量,至少部分地基于所述特定音頻信號(hào)分量確定具有與所述給定圖像的所指派的觀看時(shí)間基本上匹配的持續(xù)時(shí)間的中間音頻信號(hào)。方法180還包括至少部分地基于所述中間音頻信號(hào)合成在時(shí)間上與所述給定圖像的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道。
[0111]后面公開了本發(fā)明的另一個(gè)示例性實(shí)施例。
[0112]根據(jù)本發(fā)明的一個(gè)實(shí)施例,獲得多幅圖像,每一幅圖像與位置指示相關(guān)聯(lián)。此外,所述多幅圖像當(dāng)中的每一幅圖像還與音頻信號(hào)相關(guān)聯(lián)。所述多幅圖像當(dāng)中的每一幅圖像還可以與指向數(shù)據(jù)并且與其他感測(cè)數(shù)據(jù)相關(guān)聯(lián),其中所述感測(cè)數(shù)據(jù)描述與對(duì)應(yīng)圖像的捕獲相關(guān)聯(lián)的條件。
[0113]例如在計(jì)算機(jī)或攝影機(jī)的顯示屏上向用戶呈現(xiàn)所述多幅圖像當(dāng)中的各幅圖像,并且用戶選擇將要包括在一項(xiàng)呈現(xiàn)中的圖像。所述呈現(xiàn)例如可以是幻燈片,其中向幻燈片的觀看者逐一地示出各幅圖像,每一幅圖像將被呈現(xiàn)為之指派的觀看時(shí)間或持續(xù)時(shí)間。
[0114]在選擇用于呈現(xiàn)的圖像的過程中或之后,獲得對(duì)應(yīng)于每一幅圖像的所指派的觀看時(shí)間。對(duì)應(yīng)于被選擇用于呈現(xiàn)的給定圖像的所指派的觀看時(shí)間可以被預(yù)先指派,并且作為與所述給定圖像相關(guān)聯(lián)的另外的數(shù)據(jù)而獲得?;蛘哂脩艨梢岳缭谶x擇用于呈現(xiàn)的對(duì)應(yīng)圖像時(shí)為被選擇用于呈現(xiàn)的每一幅圖像指派所期望的觀看時(shí)間。
[0115]確定用以伴隨被選擇用于作為幻燈片呈現(xiàn)的圖像的呈現(xiàn)的音頻軌道包括基于與圖像相關(guān)聯(lián)的位置指示將被選擇用于呈現(xiàn)的圖像分組到若干組中:涉及同一位置或者可以被視為代表同一位置的某一區(qū)域的圖像被指派到同一組。一旦將被選擇用于呈現(xiàn)的圖像指派到適當(dāng)數(shù)目的組中,對(duì)每一組單獨(dú)進(jìn)行處理。
[0116]對(duì)于給定的一組,通過分析算法對(duì)與被指派給所述給定的一組的圖像相關(guān)聯(lián)的音頻信號(hào)進(jìn)行處理,以便檢測(cè)作為對(duì)應(yīng)的音頻信號(hào)內(nèi)的特定音頻信號(hào)分量的話音或語音信號(hào)。響應(yīng)于檢測(cè)到音頻信號(hào)中的話音或語音信號(hào),可以提取出所述話音/語音信號(hào)以供后來用于合成對(duì)應(yīng)于所述給定的一組的音頻軌道。類似地,對(duì)與所述給定的一組當(dāng)中的圖像相關(guān)聯(lián)的音頻信號(hào)進(jìn)行處理,以便識(shí)別出其中僅包括背景音信號(hào)分量的圖像。響應(yīng)于僅在音頻信號(hào)中檢測(cè)到背景音信號(hào)分量,可以提取出所述背景音信號(hào)分量以供后來用于合成對(duì)應(yīng)于所述給定的一組的背景音軌道。
[0117]通過圖像分析算法對(duì)具有與之相關(guān)聯(lián)的發(fā)現(xiàn)其包括話音或語音信號(hào)分量的音頻信號(hào)的圖像進(jìn)行處理,以便檢測(cè)人類對(duì)象或其某些部分,例如人臉及其在對(duì)應(yīng)圖像內(nèi)的位置。因此,響應(yīng)于在圖像中檢測(cè)到人臉或其一部分,可以為對(duì)應(yīng)的圖像提供例如標(biāo)簽之類的標(biāo)識(shí)符,以表明該圖像中的人類對(duì)象的存在。所述標(biāo)識(shí)符或標(biāo)簽還可以包括指明所識(shí)別出的人類對(duì)象在圖像內(nèi)的位置的信息。所述標(biāo)識(shí)符可以被包括(例如存儲(chǔ)或提供)為與對(duì)應(yīng)圖像相關(guān)聯(lián)的另外的數(shù)據(jù)。對(duì)于發(fā)現(xiàn)其中存在人類對(duì)象的圖像的分析還可以包括分析與之相關(guān)聯(lián)的音頻信號(hào)以便檢測(cè)空間音頻信號(hào)分量,并且可能修改所述空間音頻分量以便獲得代表所期望的可感知到達(dá)方向的音頻圖像。或者可以把與發(fā)現(xiàn)其包括人類對(duì)象的圖像相關(guān)聯(lián)的音頻信號(hào)修改成空間音頻信號(hào),并且可以把關(guān)于空間音頻信號(hào)分量的存在的指示包括在與音頻信號(hào)相關(guān)聯(lián)的另外的與音頻有關(guān)的信息中,并且可能與表明空間音頻信號(hào)分量的可感知方向的信息包括在一起。
[0118]前面提到的分析算法可以適應(yīng)或響應(yīng)于與圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù),從而例如使得表明對(duì)應(yīng)于圖像的肖像格式或者暗示在圖像中存在人類對(duì)象的攝影機(jī)模式或簡(jiǎn)檔的圖像模式數(shù)據(jù)被首要地或排他地視為潛在地具有包括在與之相關(guān)聯(lián)的音頻信號(hào)中的話音或語音信號(hào)分量和/或空間音頻信號(hào)分量的圖像。與此相對(duì),表明風(fēng)景格式或者暗示在圖像中包括景觀或風(fēng)景的攝影機(jī)模式的圖像模式數(shù)據(jù)被首要地或排他地視為潛在地僅具有包括在與之相關(guān)聯(lián)的音頻信號(hào)中的背景音信號(hào)分量的圖像。
[0119]一旦對(duì)于所有各組都分析了話音或語音分量以及背景音信號(hào)分量,對(duì)于每一組生成背景音軌道。對(duì)應(yīng)于給定的一組的背景音軌道是基于針對(duì)所述給定的一組識(shí)別出(并且可能提取出)的背景音信號(hào)分量而合成的。對(duì)于給定的一組圖像,生成其總體持續(xù)時(shí)間與為所述給定的一組指派的各幅圖像的所指派的觀看時(shí)間的總和相匹配的背景音軌道。正如在前面詳細(xì)描述的那樣,可以基于在與為所述給定的一組指派的各幅圖像相關(guān)聯(lián)的一個(gè)或更多音頻信號(hào)中識(shí)別出的背景音信號(hào)分量生成背景音軌道。
[0120]一旦生成對(duì)應(yīng)于給定的一組的背景音軌道,把可能從與為所述給定的一組指派的某些圖像相關(guān)聯(lián)的音頻信號(hào)中識(shí)別出(并且可能提取出)的話音/語音信號(hào)分量與背景音軌道混合,從而生成對(duì)應(yīng)于所述給定的一組的音頻軌道。所述話音或音頻信號(hào)分量被混合在音頻軌道中,其被混合的時(shí)間位置對(duì)應(yīng)于所述對(duì)應(yīng)的話音或音頻信號(hào)分量與之相關(guān)聯(lián)的圖像的所指派的觀看時(shí)間。
[0121 ] 一旦對(duì)于所有各組圖像都生成了音頻軌道,通過將各個(gè)音頻軌道串聯(lián)成一個(gè)合成音頻軌道而生成用以伴隨被選擇用于呈現(xiàn)的圖像的呈現(xiàn)的合成音頻軌道。
[0122]圖15示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的設(shè)備40。設(shè)備40可以被用作音頻處理設(shè)備10。設(shè)備40可以是末端產(chǎn)品或模塊,術(shù)語模塊指的是排除了某些部件或組件的單元或設(shè)備,所述部件或組件可以由末端制造商或用戶引入從而得到形成末端產(chǎn)品的設(shè)備。
[0123]設(shè)備40可以被單獨(dú)實(shí)施為硬件(例如電路、可編程或不可編程處理器等等),設(shè)備40可以具有被單獨(dú)實(shí)施為軟件(例如固件)或者可以被實(shí)施為硬件與軟件的組合的某些方面。
[0124]設(shè)備40可以利用實(shí)現(xiàn)硬件功能的指令來實(shí)施,例如通過在通用或?qū)S锰幚砥髦惺褂每蓤?zhí)行計(jì)算機(jī)程序指令,其可以被存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(盤、存儲(chǔ)器等等)中以便由這樣的處理器執(zhí)行。
[0125]在圖15的實(shí)例中,設(shè)備40包括處理器42、存儲(chǔ)器44和通信接口 46,其例如是允許與另一設(shè)備進(jìn)行無線或有線通信的網(wǎng)絡(luò)卡或網(wǎng)絡(luò)適配器。處理器42被配置成從存儲(chǔ)器44進(jìn)行讀寫。設(shè)備40還可以包括用戶接口 48,其用于向處理器42提供數(shù)據(jù)、命令和/或其他輸入,并且/或者用于從處理器42接收數(shù)據(jù)或其他輸出,所述用戶接口例如包括顯示器、鍵盤或按鍵、鼠標(biāo)或?qū)?yīng)的指示裝置、觸摸屏等等當(dāng)中的一項(xiàng)或更多項(xiàng)。所述設(shè)備還可以包括未在圖15的實(shí)例中示出的組件。
[0126]雖然處理器42在圖15的實(shí)例中被給出為單一組件,但是處理器42也可以被實(shí)施為一個(gè)或更多分開的組件。雖然圖15的實(shí)例中的存儲(chǔ)器44被示出為單一組件,但是其也可以被實(shí)施為一個(gè)或更多分開的組件,其中一些或全部可以被集成/可移除并且/或者可以提供永久性/半永久性/動(dòng)態(tài)/高速緩存的存儲(chǔ)。
[0127]設(shè)備40例如可以被具體實(shí)現(xiàn)為移動(dòng)電話、攝影機(jī)、視頻攝影機(jī)、音樂播放器、游戲裝置、膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、互聯(lián)網(wǎng)平板電腦、電視機(jī)等等。
[0128]存儲(chǔ)器44可以存儲(chǔ)計(jì)算機(jī)程序50,其包括在被加載到處理器42中時(shí)控制設(shè)備40的操作的計(jì)算機(jī)可執(zhí)行指令。作為一個(gè)實(shí)例,計(jì)算機(jī)程序50可以包括由一條或更多條指令構(gòu)成的一個(gè)或更多序列。計(jì)算機(jī)程序50可以被提供為計(jì)算機(jī)程序代碼。處理器42能夠通過從存儲(chǔ)器44讀取包括在其中的由一條或更多條指令構(gòu)成的一個(gè)或更多序列來加載及執(zhí)行計(jì)算機(jī)程序50。所述由一條或更多條指令構(gòu)成的一個(gè)或更多序列可以被配置成當(dāng)由一個(gè)或更多處理器執(zhí)行時(shí)使得例如設(shè)備40之類的設(shè)備實(shí)施根據(jù)前面所描述的本發(fā)明的一個(gè)或更多實(shí)施例的處理。
[0129]因此,設(shè)備40可以包括至少一個(gè)處理器42以及包括對(duì)應(yīng)于一個(gè)或更多程序的計(jì)算機(jī)程序代碼的至少一個(gè)存儲(chǔ)器44,所述至少一個(gè)存儲(chǔ)器44和計(jì)算機(jī)程序代碼被配置成利用所述至少一個(gè)處理器42使得所述設(shè)備40施行根據(jù)前面所描述的本發(fā)明的一個(gè)或更多實(shí)施例的處理。
[0130]可以通過任何適當(dāng)?shù)倪f送機(jī)制在設(shè)備40處提供計(jì)算機(jī)程序50。作為一個(gè)實(shí)例,所述遞送機(jī)制可以包括其中存儲(chǔ)有程序代碼的至少一項(xiàng)計(jì)算機(jī)可讀非瞬時(shí)性介質(zhì),所述程序代碼當(dāng)由設(shè)備執(zhí)行時(shí)使得所述設(shè)備至少實(shí)施根據(jù)本發(fā)明的一個(gè)實(shí)施例的處理,比如前面所描述的任一種方法100、120、140、160和180。所述遞送機(jī)制例如可以包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、計(jì)算機(jī)程序產(chǎn)品、存儲(chǔ)器裝置和例如CD-ROM或DVD之類的記錄介質(zhì)、有形地具體實(shí)現(xiàn)計(jì)算機(jī)程序50的制造品。作為另一個(gè)實(shí)例,所述遞送機(jī)制可以是被配置成可靠地傳輸計(jì)算機(jī)程序50的信號(hào)。
[0131]在提到處理器時(shí)不應(yīng)當(dāng)被理解為僅涵蓋可編程處理器,而是還涵蓋例如現(xiàn)場(chǎng)可編程門陣列(FPGA)、專用集成電路(ASIC)、信號(hào)處理器等專用電路??梢园凑粘饲懊婷鞔_地描述的組合之外的其他組合來使用在前面的描述中所描述的特征。雖然前面參照某些特征描述了各項(xiàng)功能,但是這些功能也可以由無論是否被描述的其他特征來施行。雖然前面參照某些實(shí)施例描述的各項(xiàng)特征,但是這些特征也可以存在于無論是否被描述的其他實(shí)施例中。
【權(quán)利要求】
1.一種設(shè)備,其包括: 音頻分析單元,其被配置成: 獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間,以及 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及 音頻軌道確定單元,其被配置成基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
2.根據(jù)權(quán)利要求1的設(shè)備,其還包括分類單元,所述分類單元被配置成: 獲得多個(gè)音頻信號(hào),每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián), 獲得多項(xiàng)位置指示,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián),以及 確定作為所述多幅圖像當(dāng)中的一個(gè)子集的該組圖像,從而使得該組包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。
3.根據(jù)權(quán)利要求2的設(shè)備,其中,所述位置信息包括全球定位系統(tǒng)坐標(biāo)。
4.根據(jù)權(quán)利要求2或3的設(shè)備,其中,通過與預(yù)定參考位置的預(yù)定義最大距離來確定所述第一位置。
5.根據(jù)權(quán)利要求1到4當(dāng)中的任一條的設(shè)備, 其中,所述音頻分析單元被配置成: 對(duì)于每一幅圖像確定與之相關(guān)聯(lián)的音頻信號(hào)片段,以用于確定對(duì)應(yīng)的中間音頻信號(hào),以及 對(duì)于每一幅圖像,基于所述確定的與之相關(guān)聯(lián)的音頻信號(hào)片段確定中間音頻信號(hào),其中所述中間音頻信號(hào)的持續(xù)時(shí)間與對(duì)應(yīng)圖像的所指派的觀看時(shí)間基本上匹配;并且其中,所述音頻軌道確定單元被配置成將音頻軌道合成為所述中間音頻信號(hào)的串聯(lián)。
6.根據(jù)權(quán)利要求1到4當(dāng)中的任一條的設(shè)備, 其中,所述音頻分析單元被配置成: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括背景音信號(hào)分量, 響應(yīng)于確定第一給定音頻信號(hào)包括背景音信號(hào)分量,確定具有第一持續(xù)時(shí)間的背景音軌道,其中所述背景音軌道是基于所述背景音信號(hào)分量而確定的;并且 其中,所述音頻軌道確定單元被配置成基于背景音軌道以及所述一個(gè)或更多中間音頻信號(hào)來合成音頻軌道。
7.根據(jù)權(quán)利要求6的設(shè)備,其中,所述音頻分析單元被配置成響應(yīng)于確定第二給定音頻信號(hào)包括第二背景音信號(hào)分量,還基于所述第二背景音信號(hào)分量來確定具有第一持續(xù)時(shí)間的背景音軌道。
8.根據(jù)權(quán)利要求6或7的設(shè)備,其中,所述音頻分析單元被配置成對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便至少部分地根據(jù)與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)來確定音頻信號(hào)是否包括背景音信號(hào)分量。
9.根據(jù)權(quán)利要求8的設(shè)備,其中,所述圖像模式數(shù)據(jù)表明對(duì)應(yīng)圖像源自的攝影機(jī)的操作模式。
10.根據(jù)權(quán)利要求1到9當(dāng)中的任一條的設(shè)備, 其中,所述音頻分析單元被配置成: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量,以及 響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定音頻信號(hào)分量,至少部分地基于所述特定音頻信號(hào)分量確定具有與第三給定圖像的所指派的觀看時(shí)間基本上匹配的持續(xù)時(shí)間的中間音頻信號(hào);并且 其中,所述音頻軌道確定單元被配置成至少部分地基于所述中間音頻信號(hào)合成在時(shí)間上與第三給定圖像的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道部分。
11.根據(jù)權(quán)利要求10的設(shè)備,其中,所述音頻分析單元被配置成對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便至少部分地根據(jù)與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)來確定音頻信號(hào)是否包括特定音頻信號(hào)分量。
12.根據(jù)權(quán)利要求10或11的設(shè)備,其中,所述特定音頻信號(hào)分量包括語音或話音信號(hào)。
13.根據(jù)權(quán)利要求10到12當(dāng)中的任一條的設(shè)備,其中,所述特定音頻信號(hào)分量包括空間音頻信號(hào)。
14.根據(jù)權(quán)利要求10到13當(dāng)中的任一條的設(shè)備,其包括: 圖像分析單元,其被配置成響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定信號(hào)分量而對(duì)第三給定圖像進(jìn)行分析,以便確定第三給定圖像中的特定對(duì)象的存在和位置,并且 其中,所述音頻軌道確定單元被配置成響應(yīng)于確定在第三給定圖像中存在特定對(duì)象,基于所述特定音頻信號(hào)分量將中間音頻信號(hào)合成為具有對(duì)應(yīng)于所述第三給定圖像中的所確定的特定對(duì)象的位置的可感知到達(dá)方向的空間音頻信號(hào)。
15.根據(jù)權(quán)利要求14的設(shè)備,其中,所述特定對(duì)象包括人臉或者對(duì)應(yīng)于人形的形狀。
16.—種方法,其包括: 獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間, 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及 基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
17.根據(jù)權(quán)利要求16的方法,其還包括: 獲得多個(gè)音頻信號(hào),每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián), 獲得多項(xiàng)位置指示,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián),以及 確定作為所述多幅圖像當(dāng)中的一個(gè)子集的第一組圖像,從而使得該第一組包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。
18.根據(jù)權(quán)利要求17的方法,其中,所述位置信息包括全球定位系統(tǒng)坐標(biāo)。
19.根據(jù)權(quán)利要求17或18的方法,其中,通過與預(yù)定參考位置的預(yù)定義最大距離來確定所述第一位置。
20.根據(jù)權(quán)利要求16到19當(dāng)中的任一條的方法, 其中,對(duì)至少其中一個(gè)音頻信號(hào)的所述分析包括: 對(duì)于每一幅圖像確定與之相關(guān)聯(lián)的音頻信號(hào)片段,以用于確定對(duì)應(yīng)的中間音頻信號(hào),以及 對(duì)于每一幅圖像,基于所述確定的與之相關(guān)聯(lián)的音頻信號(hào)片段確定中間音頻信號(hào),其中所述中間音頻信號(hào)的持續(xù)時(shí)間與對(duì)應(yīng)圖像的所指派的觀看時(shí)間基本上匹配;并且其中,所述合成包括將音頻軌道合成為所述中間音頻信號(hào)的串聯(lián)。
21.根據(jù)權(quán)利要求16到19當(dāng)中的任一條的方法, 其中,對(duì)至少其中一個(gè)音頻信號(hào)的所述分析包括: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括背景音信號(hào)分量,以及 響應(yīng)于確定第一給定音頻信號(hào)包括背景音信號(hào)分量,確定具有第一持續(xù)時(shí)間的背景音軌道,其中所述背景音軌道是基于所述背景音信號(hào)分量而確定的;并且 其中,所述合成包括基于背景音軌道以及所述一個(gè)或更多中間音頻信號(hào)來合成音頻軌道。
22.根據(jù)權(quán)利要求21的方法,其中,對(duì)至少其中一個(gè)音頻信號(hào)的所述分析包括響應(yīng)于確定第二給定音頻信號(hào)包括第二背景音信號(hào)分量,還基于所述第二背景音信號(hào)分量來確定具有第一持續(xù)時(shí)間的背景音軌道。
23.根據(jù)權(quán)利要求21或22的方法,其中,對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析以便確定音頻信號(hào)是否包括背景音信號(hào)分量至少部分地是基于與對(duì)應(yīng)圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)。
24.根據(jù)權(quán)利要求23的方法,其中,所述圖像模式數(shù)據(jù)表明對(duì)應(yīng)圖像源自的攝影機(jī)的操作模式。
25.根據(jù)權(quán)利要求16到23當(dāng)中的任一條的方法, 其中,對(duì)至少其中一個(gè)音頻信號(hào)的所述分析包括: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量,以及 響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定音頻信號(hào)分量,至少部分地基于所述特定音頻信號(hào)分量確定具有與第三給定圖像的所指派的觀看時(shí)間基本上匹配的持續(xù)時(shí)間的中間音頻信號(hào);并且 其中,所述合成包括至少部分地基于所述中間音頻信號(hào)合成在時(shí)間上與第三給定圖像的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道部分。
26.根據(jù)權(quán)利要求25的方法,對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行所述分析以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量至少部分地是基于與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)。
27.根據(jù)權(quán)利要求25或26的方法,其中,所述特定音頻信號(hào)分量包括語音或話音信號(hào)。
28.根據(jù)權(quán)利要求25到27當(dāng)中的任一條的方法,其中,所述特定音頻信號(hào)分量包括空間音頻信號(hào)。
29.根據(jù)權(quán)利要求25到28當(dāng)中的任一條的方法,其還包括: 響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定信號(hào)分量,對(duì)第三給定圖像進(jìn)行分析,以便確定第三給定圖像中的特定對(duì)象的存在和位置,并且 其中,所述合成包括響應(yīng)于確定在第三給定圖像中存在特定對(duì)象,基于所述特定音頻信號(hào)分量將中間音頻信號(hào)合成為具有對(duì)應(yīng)于所述第三給定圖像中的所確定的特定對(duì)象的位置的可感知到達(dá)方向的空間音頻信號(hào)。
30.根據(jù)權(quán)利要求29的方法,其中,所述特定對(duì)象包括人臉。
31.一種設(shè)備,其包括至少一個(gè)處理器以及包括對(duì)應(yīng)于一個(gè)或更多程序的計(jì)算機(jī)程序代碼的至少一個(gè)存儲(chǔ)器,所述至少一個(gè)存儲(chǔ)器和計(jì)算機(jī)程序代碼被配置成利用所述至少一個(gè)處理器使得所述設(shè)備至少施行以下步驟: 獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間;對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及 基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
32.根據(jù)權(quán)利要求31的設(shè)備,其中,所述計(jì)算機(jī)可執(zhí)行指令被配置成在由處理器執(zhí)行時(shí)使得所述設(shè)備: 獲得多個(gè)音頻信號(hào),每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián), 獲得多項(xiàng)位置指示,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián),以及確定作為所述多幅圖像當(dāng)中的一個(gè)子集的該組圖像,從而使得該組包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。
33.根據(jù)權(quán)利要求32的設(shè)備,其中,所述位置信息包括全球定位系統(tǒng)坐標(biāo)。
34.根據(jù)權(quán)利要求32或33的設(shè)備,其中,通過與預(yù)定參考位置的預(yù)定義最大距離來確定所述第一位置。
35.根據(jù)權(quán)利要求31到34當(dāng)中的任一條的設(shè)備, 其中,所述分析至少其中一個(gè)音頻信號(hào)包括: 對(duì)于每一幅圖像確定與之相關(guān)聯(lián)的音頻信號(hào)片段,以用于確定對(duì)應(yīng)的中間音頻信號(hào),以及 對(duì)于每一幅圖像,基于所述確定的與之相關(guān)聯(lián)的音頻信號(hào)片段確定中間音頻信號(hào),其中所述中間音頻信號(hào)的持續(xù)時(shí)間與對(duì)應(yīng)圖像的所指派的觀看時(shí)間基本上匹配;并且其中,所述合成包括將音頻軌道合成為所述中間音頻信號(hào)的串聯(lián)。
36.根據(jù)權(quán)利要求31到34當(dāng)中的任一條的設(shè)備, 其中,所述分析至少其中一個(gè)音頻信號(hào)包括: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括背景音信號(hào)分量,以及 響應(yīng)于確定第一給定音頻信號(hào)包括背景音信號(hào)分量,確定具有第一持續(xù)時(shí)間的背景音軌道,其中所述背景音軌道是基于所述背景音信號(hào)分量而確定的;并且 其中,所述合成包括基于背景音軌道以及所述一個(gè)或更多中間音頻信號(hào)來合成音頻軌道。
37.根據(jù)權(quán)利要求36的設(shè)備,其中,所述分析至少其中一個(gè)音頻信號(hào)包括響應(yīng)于確定第二給定音頻信號(hào)包括第二背景音信號(hào)分量,還基于所述第二背景音信號(hào)分量來確定具有第一持續(xù)時(shí)間的背景音軌道。
38.根據(jù)權(quán)利要求36或37的設(shè)備,其中,所述分析至少其中一個(gè)音頻信號(hào)以便確定音頻信號(hào)是否包括背景音信號(hào)分量是根據(jù)與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)來施行的。
39.根據(jù)權(quán)利要求38的設(shè)備,其中,所述圖像模式數(shù)據(jù)表明對(duì)應(yīng)圖像源自的攝影機(jī)的操作模式。
40.根據(jù)權(quán)利要求31到39當(dāng)中的任一條的設(shè)備, 其中,所述分析至少其中一個(gè)音頻信號(hào)包括: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量,以及 響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定音頻信號(hào)分量,至少部分地基于所述特定音頻信號(hào)分量確定具有與第三給定圖像的所指派的觀看時(shí)間基本上匹配的持續(xù)時(shí)間的中間音頻信號(hào);并且 其中,所述合成包括至少部分地基于所述中間音頻信號(hào)合成在時(shí)間上與第三給定圖像的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道部分。
41.根據(jù)權(quán)利要求30的設(shè)備,其中,所述分析至少其中一個(gè)音頻信號(hào)以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量是根據(jù)與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)來施行的。
42.根據(jù)權(quán)利要求40或41的設(shè)備,其中,所述特定音頻信號(hào)分量包括語音或話音信號(hào)。
43.根據(jù)權(quán)利要求40到42當(dāng)中的任一條的設(shè)備,其中,所述特定音頻信號(hào)分量包括空間音頻信號(hào)。
44.根據(jù)權(quán)利要求40到43當(dāng)中的任一條的設(shè)備,其中,所述至少一個(gè)存儲(chǔ)器和計(jì)算機(jī)程序代碼被配置成利用所述至少一個(gè)處理器使得所述設(shè)備至少施行以下步驟: 響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定信號(hào)分量而對(duì)第三給定圖像進(jìn)行分析,以便確定第三給定圖像中的特定對(duì)象的存在和位置,并且 其中,所述合成包括響應(yīng)于確定在第三給定圖像中存在特定對(duì)象,基于所述特定音頻信號(hào)分量將中間音頻信號(hào)合成為具有對(duì)應(yīng)于所述第三給定圖像中的所確定的特定對(duì)象的位置的可感知到達(dá)方向的空間音頻信號(hào)。
45.根據(jù)權(quán)利要求44的設(shè)備,其中,所述特定對(duì)象包括人臉或者對(duì)應(yīng)于人形的形狀。
46.—種設(shè)備,其包括: 用于獲得一組音頻信號(hào)的裝置,每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間, 用于對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道的裝置,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及 用于基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道的裝置。
47.根據(jù)權(quán)利要求46的設(shè)備,其還包括: 用于獲得多個(gè)音頻信號(hào)的裝置,每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián), 用于獲得多項(xiàng)位置指示的裝置,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián),以及 用于確定作為所述多幅圖像當(dāng)中的一個(gè)子集的第一組圖像的裝置,從而使得該第一組包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。
48.根據(jù)權(quán)利要求47的設(shè)備,其中,所述位置信息包括全球定位系統(tǒng)坐標(biāo)。
49.根據(jù)權(quán)利要求47或48的設(shè)備,其中,通過與預(yù)定參考位置的預(yù)定義最大距離來確定所述第一位置。
50.根據(jù)權(quán)利要求46到49當(dāng)中的任一條的設(shè)備, 其中,所述用于分析至少其中一個(gè)音頻信號(hào)的裝置被配置成: 對(duì)于每一幅圖像確定與之相關(guān)聯(lián)的音頻信號(hào)片段,以用于確定對(duì)應(yīng)的中間音頻信號(hào),以及 對(duì)于每一幅圖像, 基于所述確定的與之相關(guān)聯(lián)的音頻信號(hào)片段確定中間音頻信號(hào),其中所述中間音頻信號(hào)的持續(xù)時(shí)間與對(duì)應(yīng)圖像的所指派的觀看時(shí)間基本上匹配;并且其中,所述用于合成的裝置被配置成將音頻軌道合成為所述中間音頻信號(hào)的串聯(lián)。
51.根據(jù)權(quán)利要求46到49當(dāng)中的任一條的設(shè)備, 其中,所述用于分析至少其中一個(gè)音頻信號(hào)的裝置被配置成: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括背景音信號(hào)分量,以及 響應(yīng)于確定第一給定音頻信號(hào)包括背景音信號(hào)分量,確定具有第一持續(xù)時(shí)間的背景音軌道,其中所述背景音軌道是基于所述背景音信號(hào)分量而確定的;并且 其中,所述用于合成的裝置被配置成基于背景音軌道以及所述一個(gè)或更多中間音頻信號(hào)來合成音頻軌道。
52.根據(jù)權(quán)利要求51的設(shè)備,其中,所述用于分析至少其中一個(gè)音頻信號(hào)的裝置被配置成響應(yīng)于確定第二給定音頻信號(hào)包括第二背景音信號(hào)分量,還基于所述第二背景音信號(hào)分量來確定具有第一持續(xù)時(shí)間的背景音軌道。
53.根據(jù)權(quán)利要求51或52的設(shè)備,其中,所述用于分析至少其中一個(gè)音頻信號(hào)以便確定音頻信號(hào)是否包括背景音信號(hào)分量的裝置至少部分地是基于與對(duì)應(yīng)圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)。
54.根據(jù)權(quán)利要求53的設(shè)備,其中,所述圖像模式數(shù)據(jù)表明對(duì)應(yīng)圖像源自的攝影機(jī)的操作模式。
55.根據(jù)權(quán)利要求46到53當(dāng)中的任一條的設(shè)備, 其中,所述用于分析至少其中一個(gè)音頻信號(hào)的裝置被配置成: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量,以及 響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定音頻信號(hào)分量,至少部分地基于所述特定音頻信號(hào)分量確定具有與第三給定圖像的所指派的觀看時(shí)間基本上匹配的持續(xù)時(shí)間的中間音頻信號(hào);并且其中,所述用于合成的裝置被配置成至少部分地基于所述中間音頻信號(hào)合成在時(shí)間上與第三給定圖像的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道部分。
56.根據(jù)權(quán)利要求55的設(shè)備,其中,所述用于分析至少其中一個(gè)音頻信號(hào)以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量的裝置至少部分地是基于與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)。
57.根據(jù)權(quán)利要求55或56的設(shè)備,其中,所述特定音頻信號(hào)分量包括語音或話音信號(hào)。
58.根據(jù)權(quán)利要求55到57當(dāng)中的任一條的設(shè)備,其中,所述特定音頻信號(hào)分量包括空間音頻信號(hào)。
59.根據(jù)權(quán)利要求55到58當(dāng)中的任一條的設(shè)備,其還包括: 用于響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定信號(hào)分量而對(duì)第三給定圖像進(jìn)行分析的裝置,以便確定第三給定圖像中的特定對(duì)象的存在和位置,并且 其中,所述用于合成的裝置被配置成響應(yīng)于確定在第三給定圖像中存在特定對(duì)象,基于所述特定音頻信號(hào)分量將中間音頻信號(hào)合成為具有對(duì)應(yīng)于所述第三給定圖像中的所確定的特定對(duì)象的位置的可感知到達(dá)方向的空間音頻信號(hào)。
60.根據(jù)權(quán)利要求59的設(shè)備,其中,所述特定對(duì)象包括人臉。
61.一種包括由一條或更多條指令構(gòu)成的一個(gè)或更多序列的計(jì)算機(jī)程序,當(dāng)由一個(gè)或更多處理器執(zhí)行時(shí),其使得設(shè)備至少施行以下步驟: 獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間,對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及 基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
62.根據(jù)權(quán)利要求61的計(jì)算機(jī)程序,其還包括被配置成施行以下步驟的計(jì)算機(jī)可讀指令: 獲得多個(gè)音頻信號(hào),每一個(gè)音頻信號(hào)與多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián), 獲得多項(xiàng)位置指示,每一項(xiàng)位置指示與所述多幅圖像當(dāng)中的一幅圖像相關(guān)聯(lián),以及確定作為所述多幅圖像當(dāng)中的一個(gè)子集的該組圖像,從而使得該組包括具有與之相關(guān)聯(lián)的涉及第一位置的位置指示的圖像。
63.根據(jù)權(quán)利要求62的計(jì)算機(jī)程序,其中,所述位置信息包括全球定位系統(tǒng)坐標(biāo)。
64.根據(jù)權(quán)利要求62或63的計(jì)算機(jī)程序,其中,通過與預(yù)定參考位置的預(yù)定義最大距離來確定所述第一位置。
65.根據(jù)權(quán)利要求61到64當(dāng)中的任一條的計(jì)算機(jī)程序, 其中,所述分析至少其中一個(gè)音頻信號(hào)包括: 對(duì)于每一幅圖像確定與之相關(guān)聯(lián)的音頻信號(hào)片段,以用于確定對(duì)應(yīng)的中間音頻信號(hào),以及 對(duì)于每一幅圖像,基于所述確定的與之相關(guān)聯(lián)的音頻信號(hào)片段確定中間音頻信號(hào),其中所述中間音頻信號(hào)的持續(xù)時(shí)間與對(duì)應(yīng)圖像的所指派的觀看時(shí)間基本上匹配;并且其中,所述合成包括將音頻軌道合成為所述中間音頻信號(hào)的串聯(lián)。
66.根據(jù)權(quán)利要求61到64當(dāng)中的任一條的計(jì)算機(jī)程序, 其中,所述分析至少其中一個(gè)音頻信號(hào)包括: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括背景音信號(hào)分量,以及 響應(yīng)于確定第一給定音頻信號(hào)包括背景音信號(hào)分量,確定具有第一持續(xù)時(shí)間的背景音軌道,其中所述背景音軌道是基于所述背景音信號(hào)分量而確定的;并且 其中,所述合成包括基于背景音軌道以及所述一個(gè)或更多中間音頻信號(hào)來合成音頻軌道。
67.根據(jù)權(quán)利要求36的計(jì)算機(jī)程序,其中,所述分析至少其中一個(gè)音頻信號(hào)包括響應(yīng)于確定第二給定音頻信號(hào)包括第二背景音信號(hào)分量,還基于所述第二背景音信號(hào)分量來確定具有第一持續(xù)時(shí)間的背景音軌道。
68.根據(jù)權(quán)利要求66或67的計(jì)算機(jī)程序,其中,所述分析至少其中一個(gè)音頻信號(hào)以便確定音頻信號(hào)是否包括背景音信號(hào)分量是根據(jù)與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)來施行的。
69.根據(jù)權(quán)利要求68的計(jì)算機(jī)程序,其中,所述圖像模式數(shù)據(jù)表明對(duì)應(yīng)圖像源自的攝影機(jī)的操作模式。
70.根據(jù)權(quán)利要求61到69當(dāng)中的任一條的計(jì)算機(jī)程序, 其中,所述分析至少其中一個(gè)音頻信號(hào)包括: 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量,以及 響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定音頻信號(hào)分量,至少部分地基于所述特定音頻信號(hào)分量確定具有與第三給定圖像的所指派的觀看時(shí)間基本上匹配的持續(xù)時(shí)間的中間音頻信號(hào);并且 其中,所述合成包括至少部分地基于所述中間音頻信號(hào)合成在時(shí)間上與第三給定圖像的觀看時(shí)間對(duì)準(zhǔn)的音頻軌道部分。
71.根據(jù)權(quán)利要求70的計(jì)算機(jī)程序,其中,所述分析至少其中一個(gè)音頻信號(hào)以便確定音頻信號(hào)是否包括特定音頻信號(hào)分量是根據(jù)與該組圖像當(dāng)中的各幅圖像相關(guān)聯(lián)的圖像模式數(shù)據(jù)來施行的。
72.根據(jù)權(quán)利要求70或71的計(jì)算機(jī)程序,其中,所述特定音頻信號(hào)分量包括語音或話音信號(hào)。
73.根據(jù)權(quán)利要求70到72當(dāng)中的任一條的計(jì)算機(jī)程序,其中,所述特定音頻信號(hào)分量包括空間音頻信號(hào)。
74.根據(jù)權(quán)利要求70到73當(dāng)中的任一條的計(jì)算機(jī)程序,其還包括由一條或更多條指令構(gòu)成的一個(gè)或更多序列,當(dāng)由所述一個(gè)或更多處理器執(zhí)行時(shí),其使得所述設(shè)備至少還施行以下步驟: 響應(yīng)于確定與第三給定圖像相關(guān)聯(lián)的音頻信號(hào)包括特定信號(hào)分量,對(duì)第三給定圖像進(jìn)行分析,以便確定第三給定圖像中的特定對(duì)象的存在和位置,并且 其中,所述合成包括響應(yīng)于確定在第三給定圖像中存在特定對(duì)象,基于所述特定音頻信號(hào)分量將中間音頻信號(hào)合成為具有對(duì)應(yīng)于所述第三給定圖像中的所確定的特定對(duì)象的位置的可感知到達(dá)方向的空間音頻信號(hào)。
75.根據(jù)權(quán)利要求74的計(jì)算機(jī)程序,其中,所述特定對(duì)象包括人臉或者對(duì)應(yīng)于人形的形狀。
76.—種包括其中存儲(chǔ)有程序代碼的至少一項(xiàng)計(jì)算機(jī)可讀非瞬時(shí)性介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述程序在由設(shè)備執(zhí)行時(shí)使得所述設(shè)備至少施行以下步驟: 獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間, 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及 基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
77.—種包括由一條或更多條指令構(gòu)成的一個(gè)或更多序列的計(jì)算機(jī)程序產(chǎn)品,其在由一個(gè)或更多處理器執(zhí)行時(shí)使得設(shè)備至少施行以下步驟: 獲得一組音頻信號(hào),每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間, 對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析,從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及 基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道。
78.—種包括計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)可讀介質(zhì)承載具體實(shí)現(xiàn)在其中的計(jì)算機(jī)程序代碼以便與計(jì)算機(jī)一起使用,所述計(jì)算機(jī)程序代碼包括: 用于獲得一組音頻信號(hào)的代碼,每一個(gè)音頻信號(hào)與一組圖像當(dāng)中的一幅圖像相關(guān)聯(lián),該組圖像被提供用于具有所指派的總體觀看時(shí)間的呈現(xiàn),其中每一幅圖像具有所指派的觀看時(shí)間, 用于對(duì)至少其中一個(gè)音頻信號(hào)進(jìn)行分析的代碼,從而確定一個(gè)或更多中間音頻信號(hào)以用于確定具有第一持續(xù)時(shí)間的音頻軌道,所述第一持續(xù)時(shí)間基本上覆蓋所述指派的總體觀看時(shí)間;以及 用于基于所述一個(gè)或更多中間音頻信號(hào)合成具有所述第一持續(xù)時(shí)間的音頻軌道的代碼。
【文檔編號(hào)】H04N1/32GK104011592SQ201180075775
【公開日】2014年8月27日 申請(qǐng)日期:2011年12月22日 優(yōu)先權(quán)日:2011年12月22日
【發(fā)明者】R·O·耶爾維寧, K·J·耶爾維寧, J·H·阿拉斯沃里, M·維勒爾莫 申請(qǐng)人:諾基亞公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1