專利名稱:生成并檢測用于同步音頻和視頻的指紋的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及至少兩個信號之間的同步。更準(zhǔn)確地說,本發(fā)明涉及同步第一信號(例如音頻信號)和第二信號(例如視頻信號)的方法和對應(yīng)的設(shè)備。本發(fā)明還涉及實現(xiàn)音頻信號和視頻信號同步的方法和對應(yīng)的設(shè)備。此外,本發(fā)明還涉及計算機(jī)可讀介質(zhì),在其上存儲了使一個或多個處理裝置執(zhí)行依照本發(fā)明的方法的指令。
視頻流和對應(yīng)的音頻流的同步是一個已經(jīng)受到了很多關(guān)注的難題。對這個問題已經(jīng)提出并實現(xiàn)了很多解決方案。這些解決方案中的絕大部分都需要由熟練的操作員進(jìn)行手工同步。通常操作員在圖片中尋找可視線索以確定聽到的聲音是否與圖片對應(yīng)以及它們是否確實同步。當(dāng)需要自動完成同步時這個問題變得要難得多。不管是在錄音棚環(huán)境內(nèi)還是在錄音棚環(huán)境外,隨著音頻和視頻信號的處理和發(fā)布變得更復(fù)雜,這個問題也相應(yīng)地變得越來越難。下面是一個錄音棚環(huán)境外的例子消費(fèi)者用他的錄像機(jī)記錄了一段電影。他希望以原始音軌觀看。因此他購買了原始音軌,原始音軌例如被通過因特網(wǎng)采用流送方式發(fā)送給他?,F(xiàn)在需要在(例如)他的錄像機(jī)或別的同步設(shè)備中自動同步音頻和視頻。
一種已有的可用來實現(xiàn)音頻和視頻流的自動同步的系統(tǒng)是由Tektronix銷售的。在這個系統(tǒng)中,音頻信號包絡(luò)被通過水印嵌入到視頻信號中。在處理鏈分布中的任何點上,都可以比較實際的音頻包絡(luò)和嵌入的音頻包絡(luò),從比較中可以得出兩個音頻流之間的延遲。接下來,糾正音頻的延遲以實現(xiàn)同步。但是,這個系統(tǒng)需要廣播公司或別的經(jīng)銷商的合作,因為在傳輸之前需要在視頻中嵌入水印。此外,這個系統(tǒng)只能將一個特定的音頻流關(guān)聯(lián)到視頻。一旦已經(jīng)嵌入了音頻流的包絡(luò),該系統(tǒng)就只能同步視頻和那個特定的音頻流。為了同步其它音頻流,應(yīng)該先嵌入別的水印。最后,該系統(tǒng)僅限于音頻流和視頻流之間的同步。
本發(fā)明的一個目標(biāo)是提供解決了上述問題的、用于生成可用于同步至少兩個信號的第一和第二指紋的方法和對應(yīng)設(shè)備以及用于同步兩個或多個信號的對應(yīng)方法和設(shè)備。進(jìn)一步的目標(biāo)是以簡單有效的途徑提供這些方法和對應(yīng)設(shè)備。另一目標(biāo)是能夠簡單、可靠、準(zhǔn)確地定位多媒體信號的給定部分。另一目標(biāo)是能夠不修改第一信號和至少一個第二信號中的任何信號就實現(xiàn)它們之間的自動同步。
這是由實現(xiàn)第一和第二信號的同步的第一方法(和對應(yīng)設(shè)備)以及實現(xiàn)兩個或多個信號的同步的第二方法(和對應(yīng)設(shè)備)實現(xiàn)的,第一個方法包括下列步驟-根據(jù)一段第一信號得出第一指紋,其中該段第一信號與第一同步時間點毫無歧義地相關(guān),-根據(jù)一段第二信號得出第二指紋,其中該段第二信號與第二同步時間點毫無歧義地相關(guān),以及-將該第一和第二指紋提供給同步設(shè)備。
第二個方法包括下列步驟-根據(jù)第一信號生成第一指紋流,-根據(jù)第二信號生成第二指紋流,-比較一段第一指紋流和至少一個數(shù)據(jù)庫中存儲的一個或多個第一指紋以確定是否存在匹配,-比較一段第二指紋流和至少一個數(shù)據(jù)庫中存儲的一個或多個第二指紋以確定是否存在匹配,-如果對于第一和第二指紋都存在匹配,就確定了第一信號的第一同步時間點位置和第二信號的第二同步時間點位置并用確定出的位置同步該第一和第二信號。
這樣,就獲得了同步至少兩個信號的簡單、可靠、有效的途徑。此外,不用更改第一或第二信號(或后續(xù)信號)就實現(xiàn)了這一點。這些信號在一定程度上甚至可以被失真或改變,而由于使用了指紋,所以仍然能夠?qū)崿F(xiàn)準(zhǔn)確的同步。
多媒體對象/內(nèi)容/信號的指紋是所關(guān)注的對象/內(nèi)容/信號部分的可感知特征的表示。這種指紋有時也稱作“(健壯)散列”。更準(zhǔn)確地說,一段音頻或視頻的指紋是在該段音頻或視頻之上計算出來、并且即使所涉及的內(nèi)容隨后被轉(zhuǎn)換了代碼、進(jìn)行了過濾或者被更改了也基本上不會發(fā)生變化的標(biāo)識符。
從屬權(quán)利要求中定義了依照本發(fā)明的方法和設(shè)備的便利實施方案。
此外,本發(fā)明還涉及計算機(jī)可讀介質(zhì),在其上存儲了使一個或多個處理裝置執(zhí)行依照本發(fā)明的方法的指令。
圖1a示意地圖示出了用于音頻和視頻信號間同步的指紋對的生成;圖1b示意地圖示出了對按照本發(fā)明這樣生成的用于同步的指紋對的檢測;圖2示出了依照本發(fā)明的指紋生成設(shè)備的示意框圖;圖3示出了依照本發(fā)明檢測并使用指紋的同步設(shè)備的示意框圖;圖4示出了依照本發(fā)明的表/記錄的一個例子;圖5示出了第一信號和第二信號中的時間點之間的關(guān)系的可選實施方案;圖6示出了第一和第二表示被存儲在遠(yuǎn)程位置的實施方案;圖7示意地且更具體地示出了在一種實施方案中如何在使用緩沖器的同步設(shè)備中實現(xiàn)同步。
圖1a示意地圖示出了用于音頻和視頻信號之間同步的指紋對的生成。
所示為數(shù)字或模擬第一信號101和數(shù)字或模擬第二信號103。下文中該第一信號101是音頻信號,該第二信號103是視頻信號。
必須在一個或多個同步時間點Tn、Tn+1上得出指紋對。這些時間點是根據(jù)至少一個預(yù)定標(biāo)準(zhǔn)選擇的,例如規(guī)定一個時間點在音頻和/或視頻信號的開始、一個時間點在音頻和/或視頻信號結(jié)尾,一個時間點在中間的標(biāo)準(zhǔn)?;蛘?,可以按照如下原則選擇時間點一個時間點在開始,一個時間點是已經(jīng)經(jīng)過了給定時間段之后的每個點,例如每隔兩分鐘或兩秒鐘一個時間點等等?;蛘?,可以從對基礎(chǔ)信號自身的分析得出時間點,例如視頻信號中的每個場景變化上一個時間點。根據(jù)本發(fā)明,為了實現(xiàn)兩個信號101、103之間的同步只需要單個時間點Tn、Tn+1。但是,使用更多時間點能夠進(jìn)行更好的同步,例如在信號中的一個(或兩個都)被截斷或更改等等的情況下就是如此。利用若干時間點的一個例子是當(dāng)用戶如前所述已經(jīng)記錄了一部電影并且購買了原始音軌但已經(jīng)記錄下的電影帶有廣告時段。通過增加更多同步時間點能夠得到更好的同步,在同步時間點位于或接近廣告時段的終點時尤其如此。
為音頻信號101的每個同步時間點Tn、Tn+1得出一個音頻指紋102,并在相同的同步時間點Tn、Tn+1為視頻信號得出一個視頻指紋104,結(jié)果就對每個同步時間點Tn、Tn+1都有一個指紋對102、104。對于給定時間點Tn、Tn+1(音頻和/或視頻信號)的指紋優(yōu)選地是在(基本上)從給定時間點開始的一段信號上得出的?;蛘?,該段(基本上)可以在該給定時間點Tn、Tn+1結(jié)束,或者,該段(基本上)可以在該給定時間點Tn、Tn+1之前或之后的預(yù)定距離處開始或結(jié)束,或者該給定時間點Tn、Tn+1可以在該段的起點和終點之間的預(yù)定時間點上,或者是任意其它方案,只要在同步期間應(yīng)用了相同方案來根據(jù)指紋確定該給定時間點Tn、Tn+1即可,這點將結(jié)合圖1b進(jìn)行更詳細(xì)描述。
指紋的大小可以是預(yù)定的固定大小或者是可變大小。
國際專利申請WO 02/065782(代理人文檔號PHNL010110)中說明了一種用于計算健壯指紋的方法,當(dāng)然可以使用任何用于計算健壯指紋的方法。
歐洲專利申請01200505.4說明了一種為多媒體內(nèi)容(例如音頻剪輯,該音頻剪輯被分割成連續(xù)(首選重疊)的時間間隔)生成健壯指紋的方法。對每個時間間隔,將頻譜分割成頻帶。計算出每個頻帶的健壯性(例如,能量)并由各自的指紋位表示。
多媒體內(nèi)容因而由以二進(jìn)制值連接組成的指紋表示,每個時間間隔一個指紋。不需要在整個多媒體內(nèi)容上計算指紋,而是可以在已經(jīng)接收到了一定長度的一部分時進(jìn)行計算。因而對一個多媒體內(nèi)容可以有多個指紋,取決于在哪部分上計算指紋。
此外,從(例如)下列公開可以了解視頻指紋識別算法JobOostveen,Ton Kalker,Jaap Haitsma的“Feature Extraction anda Database strategy for Video Fingerprinting”,117-128頁;Shi-Kuo Chang,Zhe Chen,Suh-Yin Lee(Eds)的“Recent Advancesin Visual Information Systems”(2002年三月11-13于臺灣新竹舉行的第五屆國際VISUAL會議論文集,Springer于2002年出版的Computer Science 2314中的講稿)。
依照本發(fā)明,根據(jù)音頻信號101的一個給定段和視頻信號103位于特定時間點上或其附近的一段為每個時間點Tn、Tn+1生成一個音頻指紋102和一個視頻指紋104。
這樣,給定指紋對102、104就是同步標(biāo)志器,它能夠?qū)π盘?01和103的給定時間點進(jìn)行非常準(zhǔn)確和非常精確的定位,而不用使用具體時間點,相反使用(一段)信號即可。此外,不用改變信號就做到了這一點。即使對視頻指紋識別來說,該定位通常也能準(zhǔn)確到幀,至少只要視頻信號的任何失真不是過于嚴(yán)重。
在已經(jīng)生成了指紋對102、104之后,首選地將其存儲在數(shù)據(jù)庫、存儲器、存儲設(shè)備和/或類似裝置中以備后用。
將多媒體信號101、103的指紋對(102、104)而不是多媒體信號自身存儲在數(shù)據(jù)庫中有多個優(yōu)點。下面列出一些-降低了對數(shù)據(jù)庫的存儲器/存儲設(shè)備的需求。
-指紋的比較比多媒體信號自身的比較更有效,因為指紋基本上比信號更短。
-在數(shù)據(jù)庫中查找匹配指紋比查找完整的多媒體信號更有效,因為它涉及匹配更短的項目。
-查找匹配指紋更可能成功,因為對多媒體信號的小變動(例如以不同格式進(jìn)行了編碼或改變了位速率)都不影響指紋。
存儲在數(shù)據(jù)庫中的生成的指紋對102、104可以隨后被(通過因特網(wǎng)或其它方式)分發(fā)到一個或多個同步設(shè)備,以在回放、存儲之前根據(jù)本發(fā)明進(jìn)行信號同步,或者進(jìn)一步傳輸兩個(已同步的)信號。
注意本發(fā)明還適用于多于兩個信號的同步以及不是音頻和視頻的其它類型的信號的同步,只要能夠獲得健壯指紋即可。原則上,根據(jù)本發(fā)明可以同步任意數(shù)量的信號。這可能只需要對每個附加信號在每個時間點Tn、Tn+1有一個附加的指紋。
或者,可以對各個信號在不同時間點生成指紋對,例如可在每一個信號的25秒處生成指紋對的第一指紋,而在第二信號的第30秒處生成指紋對的第二指紋。但是,這需要每個各自的時間點(例如上述例子中的25秒和30秒)到公共時線/時幀之間有明確的關(guān)系。將結(jié)合圖5更詳細(xì)地說明這種可選實施方案。
圖1b用示意圖示出了對根據(jù)本發(fā)明生成的用于同步的這種指紋的檢測。所示為(要同步的)數(shù)字或模擬第一信號101和(要同步的)數(shù)字或模擬第二信號。下文中該第一信號101是音頻信號,該第二信號103是視頻信號。還示出了分別根據(jù)音頻信號101和視頻信號103連續(xù)或基本上連續(xù)生成的第一指紋流105和第二指紋流106?;蛘撸侄紊芍讣y流105、106。將每個指紋流(或段)105、106與(例如)存儲在數(shù)據(jù)庫中的指紋102、104進(jìn)行比較以確定是否存在匹配。更準(zhǔn)確地說,將音頻指紋流105和所存儲的音頻指紋102進(jìn)行比較,將視頻指紋流106和所存儲的視頻指紋104進(jìn)行比較。所存儲的指紋102、104是按照結(jié)合圖1a所說明的那樣生成的,例如在中心位置上生成。所存儲的指紋102、104是例如通過因特網(wǎng)或其它一些方法(例如從中心位置)接收到的。
當(dāng)發(fā)現(xiàn)音頻指紋流105的一段和數(shù)據(jù)庫中的給定音頻指紋102之間存在匹配,并且在視頻指紋流106的一段和數(shù)據(jù)庫中的給定視頻指紋104之間也存在匹配時,即當(dāng)已經(jīng)找到了匹配的指紋對時,當(dāng)已經(jīng)根據(jù)本發(fā)明并如結(jié)合圖1a所說明的那樣生成了指紋102、104時也就給出了適當(dāng)?shù)耐綍r間點Tn、Tn+1。
根據(jù)在特定時間點Tn、Tn+1上生成音頻指紋102和視頻指紋104期間已經(jīng)使用的方案來確定具體的同步時間點Tn、Tn+1。
優(yōu)選地,特定的同步時間點Tn、Tn+1,是通過讓在(根據(jù)圖1a)生成指紋期間匹配的指紋對102、104最初所基于的一段音頻信號101和一段視頻信號103(基本上)從該給定時間點Tn、Tn+1開始而給出的。在可選實施方案中,音頻信號101的那一段和視頻信號103的那一段(基本上)在該給定時間點Tn、Tn+1結(jié)束,音頻信號和視頻信號101、103的那些段在該給定同步時間點Tn、Tn+1之前或之后的預(yù)定距離處開始或結(jié)束,或者該給定同步時間點Tn、Tn+1可以在視頻信號101和音頻信號103的那些段的起始和結(jié)束之間的預(yù)定時間點上。
該同步設(shè)備只需要了解生成期間所用的給定指紋和給定時間點之間的關(guān)系,這個關(guān)系可以在該同步設(shè)備的制造期間確定并實現(xiàn)或者是可更新的。
如前所述,在確定了區(qū)配指紋102、104之后,就知道了這對指紋的時間點Tn、Tn+1,并將它當(dāng)作同步時間點,因為這個時間點直接給出了兩個信號101和103之間的參考點。該同步設(shè)備隨后通過例如移位兩個信號中的一個使它們關(guān)于該時間點對齊而補(bǔ)償它們之間的延遲(如果有的話)。
上面提到的國際專利申請WO 02/065782(代理人文檔號PHNL010110)說明了用于匹配為音頻剪輯計算出的指紋和數(shù)據(jù)庫中存儲的指紋的各種匹配策略。匹配表示未知信息信號的指紋和存儲在數(shù)據(jù)庫中的已識別信息的多個指紋以標(biāo)識該未知信號的一種這樣的方法使用了提取出的指紋位的可靠性信息。指紋位,是通過計算信息信號的特征并為所述特征設(shè)置獲得指紋位的閾值而確定出的。如果一個特征的值非常接近該閾值,那么該信號中微小的變化都可能導(dǎo)致具有相反值的指紋位。特征值和該閾值之間的差的絕對值被用來標(biāo)記各個指紋位可靠或不可靠??煽啃噪S后被用來改進(jìn)實際的匹配過程。
這樣,即使信號之一(例如視頻信號)已經(jīng)被以較低質(zhì)量獲得、被修改過(例如壓縮)等等,也可以達(dá)到同步。
請注意音頻信號101和/或視頻信號103可以是指紋生成期間所用信號即圖1a中的信號的失真版本。
如同結(jié)合圖1a所述那樣,可以方便地修改這個實施方案以適應(yīng)多于兩個信號的同步和/或非音頻和/或視頻的另一種類型的信號的同步。
圖2示出了依照本發(fā)明的指紋生成設(shè)備的示意框圖。
所示為指紋生成設(shè)備200,包括信號輸入模塊201、指紋采集模塊202、數(shù)據(jù)庫、存儲器和/或類似設(shè)備203,這些裝置通過總線205或類似部件在一個或多個微處理器(未示出)的控制下通信。指紋生成設(shè)備200在一種實施方案中還可以任選地包括用于通過有線和/或無線網(wǎng)絡(luò)(例如因特網(wǎng))與其它系統(tǒng)、設(shè)備等通信的發(fā)送器和接收器204。
信號輸入模塊201接收第一信號101和至少第二信號103。下文中接收到的兩個信號包含了模擬或數(shù)字的音頻信號和視頻信號形式的多媒體內(nèi)容。輸入模塊201將這兩個信號饋送到指紋采集模塊202。指紋采集模塊202還接收到了將用作同步時間點的時間點(...,Tn,Tn+1,...)的表示?;蛘撸芍讣y生成設(shè)備200得出時間點。如果時間點由指紋生成設(shè)備200提供并且不是由它生成的,那么就不必向指紋生成設(shè)備200提供完整的音頻信號101和完整的視頻信號103。因而,只提供用于生成指紋的音頻信號101和視頻信號103各自的段就足夠了,即每個信號對應(yīng)每個時間點的一段就足夠了。
發(fā)送器和接收器204還可負(fù)責(zé)接收一個或多個信號101和103并將它(們)提供給信號接收器301或者直接提供給指紋檢測器302。
指紋采集模塊202根據(jù)接收到的音頻信號101和視頻信號103計算指紋??梢詾檎麄€內(nèi)容或一部分內(nèi)容得出指紋?;蛘?,幾個指紋均可以從不同的部分得出。根據(jù)本發(fā)明,按照結(jié)合圖1a所述,對每個時間點Tn,Tn+1得出一個指紋?;蛘撸讣y采集模塊202可以被分成兩個(例如)獨(dú)立的指紋模塊或者由兩個獨(dú)立的指紋模塊組成,一個模塊用于得出音頻指紋,一個模塊用于得出視頻指紋。
指紋采集模塊202隨后將計算出的指紋對傳送給數(shù)據(jù)庫203。如圖4中所示,數(shù)據(jù)庫203包含由視頻指紋104“V_FP1”、“V_FP2”、“V_FP3”、“V_FP4”、“V_FP5”等和對應(yīng)的音頻指紋102“A_FP1”、“A_FP2”、“A_FP3”、“A_FP4”、“A_FP5’等組成的一列組織成的視頻指紋。
可以用多種方式組織數(shù)據(jù)庫203以優(yōu)化查詢時間和/或數(shù)據(jù)組織。設(shè)計數(shù)據(jù)庫203中的表時應(yīng)該考慮指紋采集模塊202的輸出。在圖4所示的實施方案中,數(shù)據(jù)庫203包含一張其表項(記錄)由各自的指紋對組成的表。
如上所述,可以方便地更改這個示范實施方案以適應(yīng)多于兩個的信號的同步或非音頻和/或視頻的另一類型的信號的同步。
圖3示出了根據(jù)本發(fā)明檢測并使用指紋的同步設(shè)備的示意框圖。
所示為同步設(shè)備300,包括信號接收器301、指紋檢測器302、同步電路303、數(shù)據(jù)庫、存儲器和/或類似裝置203,這些裝置在一個或多個微處理器(未示出)的控制下通過總線205或類似部件通信。同步設(shè)備300在一種實施方案中還可任選地包括用于通過有線和/或無線網(wǎng)絡(luò)(例如因特網(wǎng))與其它系統(tǒng)、設(shè)備等通信的發(fā)送器和接收器204。
信號接收器301接收到第一信號101和至少第二信號103。下文中接收到的兩個信號包含了要同步的模擬或數(shù)字音頻信號和模擬或數(shù)字視頻信號形式的多媒體內(nèi)容。發(fā)送器和接收器204還可以負(fù)責(zé)接收一個或多個信號101和103并將它(們)提供給信號接收器301或者直接提供給指紋檢測器302。
接收到的信號被饋送到指紋檢測器302,它為每個信號得出指紋流或其的各段并按照結(jié)合圖1b所述確定與數(shù)據(jù)庫203中存儲的指紋對是否存在匹配。如果找到了匹配,也就確定了每個信號的具體同步時間點Tn、Tn+1。每個信號的同步時間點Tn、Tn+1的具體確定,取決于生成特定時間點Tn、Tn+1上音頻指紋102和視頻指紋104的期間已經(jīng)使用的方案。
優(yōu)選地,特定的同步時間點Tn、Tn+1是通過讓在(根據(jù)圖1a)生成指紋期間匹配的指紋對102、104最初所基于的音頻信號101的那一段和視頻信號103的那一段(基本上)從該給定時間點Tn、Tn+1開始而給出的。在可選實施方案中,音頻信號101的那一段和視頻信號103的那一段(基本上)在該給定時間點Tn、Tn+1結(jié)束,音頻信號和視頻信號101、103的那些段在該給定同步時間點Tn、Tn+1之前或之后的預(yù)定距離處開始或結(jié)束,或者該給定同步時間點Tn、Tn+1可以在視頻信號101和音頻信號103的那些段的起始和結(jié)束之間的預(yù)定時間點上。
該同步設(shè)備只需要了解生成期間所用的給定指紋和給定時間點之間的關(guān)系,這個關(guān)系可以在該同步設(shè)備的制造期間確定并實現(xiàn)或者是可更新的。
如前所述,在確定了匹配指紋對102、104之后,就知道了這對指紋的每個指紋的時間點Tn、Tn+1(不過不必知道其值,而只需要知道其在音頻和視頻信號中的位置),并將其當(dāng)作同步時間點,因為這些時間點直接給出了兩個信號101和103之間的參考點。該同步設(shè)備,隨后通過例如移位兩個信號中的一個或兩個使它們關(guān)于該時間點對齊,來補(bǔ)償它們之間的延遲或偏移量(如果有的話)。
作為一個簡單的例子,假定在根據(jù)圖1a的指紋生成期間信號101和103的同步時間點在5分34秒。在(根據(jù)圖1a的)指紋生成期間,可以在音頻信號101的5分34秒處或附近(取決于所用方案)得出一個音頻指紋,并且在視頻信號103的5分34秒處或附近(取決于所用方案)也可以得出一個視頻指紋。隨后可以存儲這兩個指紋并將它們發(fā)送到用于實施這兩個信號間的同步的同步設(shè)備。在同步設(shè)備中,可以將音頻信號的指紋流105和視頻信號的指紋流106同存儲的兩個指紋進(jìn)行比較。當(dāng)在所存儲的音頻指紋和音頻指紋流之間找到了匹配時,該指紋流中的匹配位置(例如圖1b的105中的Tn)就給出了所用的同步時間點,即應(yīng)該與5分34秒對應(yīng)的時間點。同樣,當(dāng)在所存儲的視頻指紋和視頻指紋流之間找到了匹配時,該指紋流中的匹配位置(例如圖1b的106中的Tn)就給出了所用的同步時間點,即5分34秒??梢砸莆贿@兩個信號,但隨后可用信號中應(yīng)該是5分34秒的確切位置(由與所存儲的指紋匹配的指紋流的那一段給出)對齊這兩個信號。甚至不需要知道或特別得出時間點(5分34秒)的具體值。需要的唯一知識是應(yīng)該對齊/同步兩個信號101、103的指紋匹配位置。例如,5分34秒的同步時間點可能對應(yīng)于音頻信號中的5分34秒(例如,因為這是在音頻指紋生成期間使用的原始音軌)并對應(yīng)于視頻信號中的6分零3秒(例如,在該視頻信號與視頻指紋生成期間所用的原始視頻信號相比還包括了廣告時段的情況下)。然后,可以用兩個時間值(6分零3秒-5分34秒=29秒)之間的差/偏移量來補(bǔ)償延遲,例如通過將回放移位以使音頻信號和視頻信號在同步時間點上被同時播放來進(jìn)行,并且向前進(jìn)(在不存在對任一信號進(jìn)一步修改的情況下,例如額外的廣告時段等)。
優(yōu)選地,數(shù)據(jù)庫203的數(shù)據(jù)布局與圖4所示相一致。
如上所述,可以方便地修改這個實施方案以適應(yīng)多于兩個信號的同步和/或非音頻和/或視頻的另一種類型的信號的同步。
圖4示出了依照本發(fā)明的表/記錄的一個例子。所示的表包括指紋對102、104。在這個例子中,該表由兩列組成,一列包括視頻指紋“V_FP1”、“V_FP2”、“V_FP3”、“V_FP4”、“V_FP5”等,另一列包括各自對應(yīng)的音頻指紋102“A_FP1”、“A_FP2”、“A_FP3”、“A_FP4”、“A_FP5”等。
圖5示出了第一和第二信號中的時間點之間關(guān)系的一種可選實施方案。所示為第一信號101和第二信號103。在這個實施方案中,還示出了第三個或參考或公共或內(nèi)部時鐘/時線107(以下只標(biāo)示為參考時線)以更好地解釋這個實施方案的原理。
在這個特定的可選實施方案的例子中,已經(jīng)在值為560的第一同步時間點Tn為第一信號101生成了指紋(未示出)。第一信號101的這個特定時間點Tn與由參考時線107表示的參考時幀相關(guān)(如箭頭所示),關(guān)系到參考時線107上值為8:45:17.23的時間點(表示在Tn=560的第一信號應(yīng)該在8:45:17.23出現(xiàn))??梢詫⒌谝恍盘?01的特定時間點Tn之間的這種指示或關(guān)系的表示(即,第一表示)與生成的第一指紋相關(guān)聯(lián)并存儲在數(shù)據(jù)庫中(例如包括所生成的指紋的數(shù)據(jù)庫或者不同的數(shù)據(jù)庫),這一點將在以下解釋。
此外,已經(jīng)在值為1800的第二同步時間點Tm為第二信號103生成了指紋(未示出)。第二信號103的這個特定時間點Tm也與由參考時線107所示的相同參考時幀相關(guān)(如箭頭所示),關(guān)系到參考時線上值為8:45:17.18的時間點(表示在Tm=1800處的第二信號應(yīng)該在8:45:17.18出現(xiàn))??梢詫⒌诙盘?03的特定時間點Tm之間的這種指示或關(guān)系的表示(即,第二表示)與生成的第二指紋相關(guān)聯(lián)并存儲在數(shù)據(jù)庫中(例如包括所生成的指紋的數(shù)據(jù)庫或者不同的數(shù)據(jù)庫),這一點將在以下解釋。
例如,在簡單情況下,該第一和第二表示可以分別是第一和第二信號的參考時間點。在上面的例子中,值8:45:17.23然后可以被和在Tn=560處生成的指紋存儲在一起,值8:45:17.18然后可以將被和在Tm=1800生成的指紋存儲在一起。
在同步期間,依照這個實施方案的同步設(shè)備如同結(jié)合圖1b所述生成第一和第二指紋流或指紋段。將每個指紋流(或段)與本地或遠(yuǎn)程數(shù)據(jù)庫中存儲的指紋相比較以確定是否存在匹配,也按結(jié)合圖1b所述進(jìn)行。當(dāng)已經(jīng)找到了匹配的第一和第二指紋時,那么就知道或者能夠得出第一同步時間點Tn(即,上例中的560)和第二同步時間點Tm(即,上例中的1800)。然后,利用上述與參考時幀的關(guān)系的第一和第二表示就能夠確定應(yīng)該如何根據(jù)給定時幀來同步信號。
如上所述,可以將第一和第二表示存儲在一個或多個數(shù)據(jù)庫中,并且應(yīng)該在同步之前將它們傳送給同步設(shè)備。在一種實施方案中,第一和第二表示被直接從指紋生成設(shè)備傳送給了同步設(shè)備進(jìn)行存儲?;蛘?,可以將第一和第二表示傳送給能夠與同步設(shè)備通信的別的設(shè)備,例如一臺服務(wù)器。將結(jié)合圖6更詳細(xì)地闡述這個實施方案。
圖6示出了第一和第二表示被存儲在遠(yuǎn)程位置的一種實施方案。所示為分別向音頻指紋發(fā)生器202和視頻指紋發(fā)生器202提供音頻流和視頻流的音頻服務(wù)器601和視頻服務(wù)器602。音頻和視頻指紋發(fā)生器202如同結(jié)合圖2所述那樣運(yùn)行并且可以位于相同或兩個不同的指紋發(fā)生設(shè)備200中。在這個實施方案中,生成的指紋被供應(yīng)到位于(數(shù)據(jù)庫)服務(wù)器600的數(shù)據(jù)庫203,該服務(wù)器與同步設(shè)備300有通信連接。服務(wù)器600還接收并存儲例如結(jié)合圖5所述的每個音頻指紋的第一表示和每個視頻指紋的第二表示,即音頻和視頻流的時間點和公共參考時線或時幀之間的關(guān)系的表示。
同步設(shè)備300如結(jié)合圖3或圖5所述那樣運(yùn)行。它從音頻和視頻服務(wù)器601、602接收要同步的音頻和視頻流,并生成每個的指紋流或指紋段,并如前所述和表示同步時間點的預(yù)定指紋(對應(yīng)于圖1a和1b的102和104)進(jìn)行比較??梢詮闹讣y發(fā)生設(shè)備200(如兩個虛箭頭所示)或從服務(wù)器600接收到預(yù)定的指紋。如果預(yù)定的指紋是從服務(wù)器600接收到的,就節(jié)省了同步設(shè)備300中的存儲,同步設(shè)備300具有的存儲能力可能非常有限。優(yōu)選地,還從服務(wù)器600接收到每個指紋對的第一和第二表示并用來如結(jié)合圖5所述在回放之前同步音頻和視頻流。
所述服務(wù)器(一個或者多個)可能已經(jīng)存儲了若干不同音頻和視頻流的預(yù)定指紋和/或它們相關(guān)聯(lián)的第一和第二表示。
因此,在一種實施方案中,預(yù)定指紋被存儲在同步設(shè)備200上,而第一和第二表示被存儲在一個或多個服務(wù)器600上。當(dāng)已經(jīng)檢測到指紋對時,就將這一對的第一和第二表示從所述服務(wù)器(一個或者多個)發(fā)送出來,并且被用于同步設(shè)備200中?;蛘?,可以在同步開始之前根據(jù)(例如)流ID等將給定音頻和視頻流的所有預(yù)定指紋的所有第一和第二表示供應(yīng)給同步設(shè)備200。
在一種可選實施方案中,預(yù)定指紋以及它們相關(guān)聯(lián)的第一和第二表示一起僅被存儲在一個或多個服務(wù)器600。在流同步之前,例如根據(jù)流ID或類似信息將指紋和它們相關(guān)聯(lián)的第一和第二表示發(fā)送到同步設(shè)備200?;蛘?,在同步開始之前只發(fā)送指紋,并在檢測到匹配指紋時,將相關(guān)聯(lián)的第一和第二表示發(fā)送到同步設(shè)備200。
請注意在根據(jù)音頻和視頻流生成指紋和這些流被供應(yīng)到到同步設(shè)備300之間通常會有一段時間。
數(shù)據(jù)庫203可以是可能位于單個或多個服務(wù)器的單個數(shù)據(jù)庫或多個數(shù)據(jù)庫。
圖7示意地且具體地示出了在一個實施方案中如何在使用緩沖器的同步設(shè)備中完成同步。所示為緩沖音頻數(shù)據(jù)的緩沖器701和緩沖視頻數(shù)據(jù)的緩沖器702。對于音頻緩沖器701,輸入指針I(yè)-P表示從音頻流到達(dá)的下一個音頻采樣將被放在緩沖器中的位置。輸出指針O-P表示將從哪里讀出下一個音頻采樣。輸出指針以同步設(shè)備的時鐘所設(shè)置的步調(diào)移動到下一個位槽。
對于視頻緩沖器702,所示輸入指針I(yè)-P和輸出指針O-P以與針對音頻緩沖器701所述相同的方式運(yùn)行。
根據(jù)第一表示(例如,已經(jīng)位于同步設(shè)備中或如前所述從服務(wù)器接收到),調(diào)整(即移位)輸出指針到緩沖器701中的前一個位槽或后一個位槽。
對于視頻緩沖器702第二表示也是如此。
這樣,根據(jù)第一和第二表示調(diào)整輸出指針并由此以非常簡單的方式同步輸出流。
在權(quán)利要求中,放在括號中的任何附圖標(biāo)記都不應(yīng)被看作限制本發(fā)明。詞組“包括”不排除權(quán)利要求中所列部件或步驟之外的部件或步驟的存在。部件之前的“一個”不排除多個這種部件的存在。
可以通過包括若干分立部件的硬件或者適當(dāng)編程的計算機(jī)實現(xiàn)本發(fā)明。在枚舉了若干裝置的設(shè)備權(quán)利要求中,這些裝置中的一些可以由一個且相同的硬件項來實現(xiàn)。在互不相同的從屬權(quán)利要求中列舉了某些措施這一純粹的事實并不表示不能夠有利地來使用這些措施的組合。
權(quán)利要求
1.一種實現(xiàn)第一和第二信號同步的方法,該方法包括-根據(jù)一段第一信號(101)得出第一指紋(102),該段第一信號(101)與第一同步時間點(Tn、Tn+1)毫無歧義地相關(guān),-根據(jù)一段第二信號(103)得出第二指紋(104),該段第二信號(103)與第二同步時間點(Tn、Tn+1、Tm)毫無歧義地相關(guān),-將該第一和第二指紋(102、104)提供給同步設(shè)備(200、300)。
2.依照權(quán)利要求1的方法,其特征在于該方法還包括為每個給定的同步時間點(Tn、Tn+1、Tm)將得出的第一指紋(102)存儲在數(shù)據(jù)庫(203)中和/或?qū)⒌贸龅牡诙讣y(104)存儲在相同數(shù)據(jù)庫(203)中或者存儲在另一個數(shù)據(jù)庫(203)中。
3.依照權(quán)利要求1-2的方法,其特征在于該第一指紋(102)和該第二指紋(104)被通過因特網(wǎng)或其它裝置發(fā)送到同步設(shè)備(300)。
4.依照權(quán)利要求1-3的方法,其特征在于該段第一信號(101)和/或該段第二信號(103)與該第一和/或第二同步時間點(Tn、Tn+1、Tm)根據(jù)如下方案毫無歧義地相關(guān)-該段第一信號(101)和/或該段第二信號(103)基本上在該第一和/或第二同步時間點(Tn、Tn+1、Tm)結(jié)束,-該段第一信號(101)和/或該段第二信號(103)基本上在該第一和/或第二同步時間點(Tn、Tn+1、Tm)開始,-該段第一信號(101)和/或該段第二信號(103)基本上在該第一和/或第二同步時間點(Tn、Tn+1、Tm)之前或之后的預(yù)定距離處開始或結(jié)束,-該第一和/或第二同步時間點(Tn、Tn+1、Tm)位于該段第一信號(101)和/或該段第二信號(103)開始和結(jié)束之間的預(yù)定時間點上。
5.依照權(quán)利要求1-4的方法,其特征于該第一同步時間點(Tn、Tn+1)和第二同步時間點(Tn、Tn+1、Tm)相同。
6.依照權(quán)利要求1-4的方法,其特征在于第一同步時間點(Tn、Tn+1)和第二同步時間點(Tn、Tn+1、Tm)不同,并且該方法包括存儲該第一同步時間點(Tn、Tn+1)和參考時間(107)的第一時間點之間關(guān)系的第一表示并存儲該第二同步時間點(Tn、Tn+1,Tm)和所述參考時間(107)的第二時間點之間關(guān)系的第二表示的步驟。
7.依照權(quán)利要求1-6的方法,其特征在于該方法還包括下列步驟-將該第一和/或第二表示發(fā)送到同步設(shè)備(300),和/或-將該第一和/或第二表示發(fā)送到服務(wù)器(600),所述服務(wù)器與同步設(shè)備(300)有通信連接,和/或-將一個或多個得出的第一指紋(102)和第二指紋(104)發(fā)送到服務(wù)器(600)。
8.一種同步兩個或更多信號的方法,該方法包括下列步驟-根據(jù)第一信號(101)生成第一指紋流(105),-根據(jù)第二信號(103)生成第二指紋流(106),-比較一段第一指紋流(105)和至少一個數(shù)據(jù)庫(203)中存儲的一個或多個第一指紋(102)以便確定是否存在匹配,-比較一段第二指紋流(106)和至少一個數(shù)據(jù)庫(203)中存儲的一個或多個第二指紋(104)以便確定是否存在匹配,并-如果對于第一和第二指紋(102、104)都存在匹配,就確定第一信號(101)的第一同步時間點(Tn、Tn+1)的位置和第二信號(103)的第二同步時間點(Tn、Tn+1,Tm)的位置,并用確定出的位置同步該第一(101)和第二信號(103)。
9.依照權(quán)利要求8的方法,其特征在于同步步驟包括按照延遲量延遲第一信號(101)或者延遲第二信號(103),延遲量等于第一信號(101)的第一同步時間點(Tn、Tn+1)的位置和第二信號(103)的第二同步時間點(Tn、Tn+1,Tm)的位置之間存在的差值。
10.依照權(quán)利要求8-9的方法,其特征在于第一和第二信號(101、103)的第一和/或第二同步時間點(Tn、Tn+1,Tm)的位置通過與在生成匹配第一指紋(102)和匹配第二指紋(104)期間所使用的一段第一信號(101)和/或一段第二信號(103)之間的毫無歧義的關(guān)系而給出。
11.依照權(quán)利要求8-10的方法,其特征在于該第一和第二同步時間點(Tn、Tn+1,Tm)相同。
12.依照權(quán)利要求8-10的方法,其特征在于該第一和第二同步時間點(Tn、Tn+1,Tm)不同,并且該方法還包括-如果對第一和第二指紋(102、104)都存在匹配,-獲得該第一同步時間點(Tn、Tn+1)和參考時間(107)的第一時間點之間關(guān)系的第一表示,-獲得該第二同步時間點(Tn、Tn+1、Tm)和所述參考時間(107)的第二時間點之間關(guān)系的第二表示,以及-用所述參考時間(107)的第一和第二時間點同步該第一(101)和第二信號(103)-否則,-如果對于第一和第二指紋(102、104)都存在匹配,就確定第一信號(101)的第一同步時間點的位置(Tn、Tn+1)和第二信號(103)的第二同步時間點的位置(Tn、Tn+1,Tm),并用確定出的位置同步該第一(101)和第二信號(103)。
13.依照權(quán)利要求12的方法,其特征在于該方法還包括下列步驟-在同步設(shè)備(300)中從服務(wù)器(600)接收第一和/或第二表示,所述服務(wù)器與同步設(shè)備(300)有通信連接,和/或-從所述服務(wù)器(600)接收一個或多個第一指紋(102)和第二指紋(104)。
14.依照權(quán)利要求1-8或權(quán)利要求9-13的方法,其特征在于所述第一信號(101)是音頻信號,所述第二信號(103)是視頻信號,所述第一指紋(102)是音頻指紋,所述第二指紋(104)是視頻指紋。
15.一種用于同步至少兩個信號的設(shè)備(200),該設(shè)備包括指紋發(fā)生器(202)適合-根據(jù)一段第一信號(101)得出第一指紋(102),該段第一信號(101)與第一同步時間點(Tn、Tn+1)毫無歧義地相關(guān),-根據(jù)一段第二信號(103)得出第二指紋(104),該段第二信號(103)與第二同步時間點(Tn、Tn+1、Tm)毫無歧義地相關(guān)。
16.依照權(quán)利要求15的設(shè)備,其特征在于該設(shè)備還包括已經(jīng)存儲了為每個給定同步時間點(Tn、Tn+1、Tm)得出的第一指紋(102)和/或得出的第二指紋(104)的至少一個數(shù)據(jù)庫(203)。
17.依照權(quán)利要求15-16的設(shè)備,其特征在于該設(shè)備還包括發(fā)送器(204),用于通過因特網(wǎng)或其它裝置將該至少一個數(shù)據(jù)庫(203)中的一個或多個得出的第一指紋(102)和第二指紋(104)發(fā)送到同步設(shè)備(300)。
18.依照權(quán)利要求15-17的設(shè)備,其特征在于該段第一信號(101)和/或該段第二信號(103)與該第一和/或第二同步時間點(Tn、Tn+1、Tm)按照如下方案毫無歧義地相關(guān)-該段第一信號(101)和/或該段第二信號(103)基本上在該第一和/或第二同步時間點(Tn、Tn+1、Tm)結(jié)束,-該段第一信號(101)和/或該段第二信號(103)基本上在該第一和/或第二同步時間點(Tn、Tn+1、Tm)開始,-該段第一信號(101)和/或該段第二信號(103)基本上在該第一和/或第二同步時間點(Tn、Tn+1、Tm)之前或之后的預(yù)定距離開始或結(jié)束,-該第一和/或第二同步時間點(Tn、Tn+1、Tm)位于該段第一信號(101)和/或該段第二信號(103)開始和結(jié)束之間的預(yù)定時間點上。
19.依照權(quán)利要求15-18的設(shè)備,其特征在于該第一同步時間點(Tn、Tn+1)和該第二同步時間點(Tn、Tn+1、Tm)相同。
20.依照權(quán)利要求15-18的設(shè)備,其特征在于該第一同步時間點(Tn、Tn+1)不同于該第二同步時間點(Tn、Tn+1、Tm),并且該設(shè)備包括適合存儲該第一同步時間點(Tn、Tn+1)和參考時間(107)的第一時間點之間關(guān)系的第一表示并存儲該第二同步時間點(Tn、Tn+1,Tm)和所述參考時間(107)的第二時間點之間關(guān)系的第二表示的裝置。
21.依照權(quán)利要求20的設(shè)備,其特征在于該設(shè)備還包括-用于將該第一和/或第二表示發(fā)送到同步設(shè)備(300)的發(fā)送器(204),和/或-用于將該第一和/或第二表示發(fā)送到服務(wù)器(600)的發(fā)送器(204),所述服務(wù)器(600)和同步設(shè)備(300)有通信連接,和/或-用于將一個或多個得出的第一指紋(102)和第二指紋(104)發(fā)送到服務(wù)器(600)的發(fā)送器(204)。
22.一種用于同步兩個或更多信號的同步設(shè)備(300),該設(shè)備包括-用于根據(jù)第一信號(101)生成第一指紋流(105)的裝置(302),-用于根據(jù)第二信號(103)生成第二指紋流(106)的裝置(302),-用于比較一段第一指紋流(105)和至少一個數(shù)據(jù)庫(203)中存儲的一個或多個第一指紋(102)以便確定是否存在匹配的裝置(302),-用于比較一段第二指紋流(106)和至少一個數(shù)據(jù)庫(203)中存儲的一個或多個第二指紋(104)以便確定是否存在匹配的裝置(302),和-用于如果對于第一和第二指紋(102、104)都存在匹配就確定第一信號(101)的第一同步時間點(Tn、Tn+1)的位置和第二信號(103)的第二同步時間點(Tn、Tn+1,Tm)的位置的裝置(302),和用于用確定出的位置同步該第一(101)和第二信號(103)的裝置(303)。
23.依照權(quán)利要求22的設(shè)備,其特征在于用于同步的裝置(303)適合按照延遲量延遲第一信號(101)或者延遲第二信號(103),延遲量等于第一信號(101)的第一同步時間點(Tn、Tn+1)的位置和第二信號(103)的第二同步時間點(Tn、Tn+1,Tm)的位置之間存在的差值。
24.依照權(quán)利要求22-23的設(shè)備,其特征在于第一和/或第二信號(101、103)的第一和/或第二同步時間點(Tn、Tn+1,Tm)的位置通過與在生成匹配第一指紋(102)和匹配第二指紋(104)期間所使用的一段第一信號(101)和/或一段第二信號(103)之間的毫無歧義的關(guān)系而給出。
25.依照權(quán)利要求22-24的設(shè)備,其特征在于該第一和第二同步時間點(Tn、Tn+1,Tm)相同。
26.依照權(quán)利要求22-25的設(shè)備,其特征在于該第一和第二同步時間點(Tn、Tn+1,Tm)不同并且該設(shè)備還包括-如果對第一和第二指紋(102、104)都存在匹配,-用于獲得該第一同步時間點(Tn、Tn+1)和參考時間(107)的第一時間點之間關(guān)系的第一表示的接收器(204),-用于獲得該第二同步時間點(Tn、Tn+1、Tm)和所述參考時間(107)的第二時間點之間關(guān)系的第二表示的接收器(204),-用于用所述參考時間(107)的第一和第二時間點同步該第一(101)和第二信號(103)的同步裝置(303),-否則包括-用于如果對于第一和第二指紋(102、104)都存在匹配就確定第一信號(101)的第一同步時間點(Tn、Tn+1)的位置和第二信號(103)的第二同步時間點(Tn、Tn+1,Tm)的位置的裝置(302),和用于用確定出的位置同步該第一(101)和第二信號(103)的裝置(303)。
27.依照權(quán)利要求26的設(shè)備,其特征在于該設(shè)備還包括-用于在同步設(shè)備(300)中從服務(wù)器(600)接收第一和/或第二表示的接收器(204),所述服務(wù)器與同步設(shè)備(300)有通信連接,和/或-用于從服務(wù)器(600)接收一個或多個第一指紋(102)和第二指紋(104)的接收器(204)。
28.依照權(quán)利要求15-21或權(quán)利要求22-27的設(shè)備,其特征在于所述第一信號(101)是音頻信號,所述第二信號(103)是視頻信號,所述第一指紋(102)是音頻指紋,所述第二指紋(104)是視頻指紋。
29.一種計算機(jī)可讀介質(zhì),其上已經(jīng)存儲了使一個或多個處理部件執(zhí)行依照權(quán)利要求1-8或權(quán)利要求9-14中任意一個的方法的指令。
全文摘要
本發(fā)明涉及生成可用于同步至少兩個信號(101、103)的第一和第二指紋(102、104)的設(shè)備和方法以及用于同步兩個或更多信號的對應(yīng)方法和設(shè)備。在每個同步時間點上根據(jù)一段第一信號(例如音頻信號)和一段第二信號(例如視頻信號)生成一個指紋對。所生成的指紋對被存儲在數(shù)據(jù)庫(203)中并傳送或分發(fā)到同步設(shè)備(303)。在同步期間,生成了要同步的音頻信號的指紋和要同步的視頻信號的指紋并將它們和數(shù)據(jù)庫中的指紋進(jìn)行匹配。當(dāng)找到了匹配時,這些指紋還確定了用于同步這兩個信號的同步時間點。這樣就獲得了一種同步至少兩個信號的簡單、可靠、高效的途徑。此外,不用修改第一或第二信號(或后續(xù)信號)就實現(xiàn)了這一點。這些信號在一定程度上甚至可以被失真或改變,但是仍然能夠?qū)崿F(xiàn)同步。
文檔編號H04N7/52GK1830211SQ200480021403
公開日2006年9月6日 申請日期2004年7月20日 優(yōu)先權(quán)日2003年7月25日
發(fā)明者J·C·烏斯特維恩, D·K·羅伯茨, A·J·M·德尼森, W·R·T·坦凱特 申請人:皇家飛利浦電子股份有限公司