用于管理音視頻、音頻或視頻內(nèi)容的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及對(duì)音頻、視頻或者音視頻內(nèi)容的自動(dòng)監(jiān)控或者其他管理。
【背景技術(shù)】
[0002]典型廣播設(shè)備輸出到地面、衛(wèi)星和電纜發(fā)布系統(tǒng)的非常大量的“信道”不能被人類觀眾和聽眾進(jìn)行經(jīng)濟(jì)監(jiān)控。并且,當(dāng)從內(nèi)容提供商接收的諸如電影、電視節(jié)目和廣告的音視頻內(nèi)容在“被吸收”到廣播設(shè)備的數(shù)字存儲(chǔ)系統(tǒng)中時(shí),人類操作員不能總是檢查該音視頻內(nèi)容與技術(shù)標(biāo)準(zhǔn)的符合性。由查找缺陷和與標(biāo)準(zhǔn)的不符合性的一個(gè)人來檢查的歷史實(shí)踐對(duì)現(xiàn)代數(shù)字廣播設(shè)備來說不再是經(jīng)濟(jì)的,或者甚至不再是可行的。
[0003]這些發(fā)展已經(jīng)引起用于音視頻內(nèi)容的自動(dòng)化質(zhì)量檢查(QC)和監(jiān)控系統(tǒng)的很大進(jìn)展。典型的QC和監(jiān)控設(shè)備使用識(shí)別內(nèi)容的諸如以下內(nèi)容的特定特征的各種不同算法來分析音視頻數(shù)據(jù):
[0004].音頻動(dòng)態(tài)范圍
[0005].無聲或者黑屏的時(shí)段的持續(xù)時(shí)間
[0006].存在字幕
[0007].存在測試信號(hào)
[0008].視頻寬高比和在視頻幀的邊緣處存在或不存在“黑條”
[0009].音頻與視頻同步
[0010]該分析結(jié)果可以被存儲(chǔ)為與音視頻內(nèi)容相關(guān)聯(lián)的“元數(shù)據(jù)”;或者,其可以在檢測發(fā)布的內(nèi)容的缺陷并向操作員報(bào)警的監(jiān)控系統(tǒng)中進(jìn)行使用,或者自動(dòng)地對(duì)信號(hào)路由等做出改變以糾正缺陷。
[0011 ] 典型的QC和監(jiān)控處理是復(fù)雜的,并且產(chǎn)生的元數(shù)據(jù)量很大。因此QC設(shè)備通常放置在發(fā)布或者處理系統(tǒng)中的僅少數(shù)點(diǎn)處,也許僅放置在系統(tǒng)的輸入點(diǎn)和輸出點(diǎn)。
【發(fā)明內(nèi)容】
[0012]本發(fā)明的某些實(shí)施方式的目的是提供用于對(duì)音頻、視頻或者音視頻內(nèi)容的自動(dòng)監(jiān)控或者其他管理的改進(jìn)方法和裝置。
[0013]本發(fā)明利用了音視頻內(nèi)容制作和發(fā)布領(lǐng)域中的另一個(gè)發(fā)展范圍的優(yōu)勢,其為處理音頻和視頻內(nèi)容以形成以非常少量的數(shù)據(jù)描述內(nèi)容的一些特征的“簽名”或“指紋”。通常這些簽名或者指紋與內(nèi)容中的一些時(shí)間位置或者片段(諸如視頻幀)相關(guān)聯(lián),并且使內(nèi)容流之間的相對(duì)定時(shí)能被測量;以及,發(fā)布網(wǎng)絡(luò)中的不同點(diǎn)處的內(nèi)容等效性得到確認(rèn)。在本說明書的其余部分,術(shù)語指紋將被用來描述這種數(shù)據(jù)類型。
[0014]在指紋之間進(jìn)行區(qū)分是重要的,所述區(qū)分主要是針對(duì)內(nèi)容標(biāo)識(shí)和音頻與視頻同步,以及與音視頻數(shù)據(jù)相關(guān)聯(lián)的輔助數(shù)據(jù)。輔助數(shù)據(jù)通常將含有源自于QC過程的數(shù)據(jù),并且可以用與攜帶指紋數(shù)據(jù)的方式相類似的方式來一同攜帶音頻和視頻數(shù)據(jù)及輔助數(shù)據(jù)。然而,輔助數(shù)據(jù)直接對(duì)元數(shù)據(jù)編碼,并且通??梢酝ㄟ^簡單的解復(fù)用和解碼來提取。
[0015]在指紋和壓縮圖像之間進(jìn)行區(qū)分同樣是重要的。盡管可以通過不可逆的有損編碼過程來產(chǎn)生壓縮圖像,但是壓縮圖像保持了圖像并且可以經(jīng)由合適的解碼過程來轉(zhuǎn)換成看得見的形式。卻不能通過任何已知的過程來將指紋轉(zhuǎn)換成看得見的圖像。
[0016]指紋生成設(shè)備通常是簡單的、便宜的并且放置在發(fā)布或處理系統(tǒng)中的許多點(diǎn)處。
[0017]本發(fā)明在一個(gè)方面包含用于從多個(gè)指紋推斷元數(shù)據(jù)的方法和裝置,所述多個(gè)指紋通過不可逆的數(shù)據(jù)簡化過程從特定的音視頻、音頻或者視頻內(nèi)容流內(nèi)的各自的時(shí)間區(qū)域中推導(dǎo)出,其中所述元數(shù)據(jù)不是直接以指紋進(jìn)行編碼的并且多個(gè)指紋是經(jīng)由通信網(wǎng)絡(luò)從與推斷過程物理分離的指紋生成器接收到的。
[0018]在第一實(shí)施方式中,在分類機(jī)中將指紋流的特征與特定的音視頻內(nèi)容類型的預(yù)期特征進(jìn)行比較,并且所推斷的元數(shù)據(jù)識(shí)別從中推導(dǎo)出指紋的內(nèi)容類型。
[0019]合適地方法是,將指紋值的流轉(zhuǎn)換到頻域,并且將產(chǎn)生的頻域分量與特定的音視頻內(nèi)容類型的預(yù)期頻率分量進(jìn)行比較。
[0020]此外,對(duì)指紋值的流窗口化并且將特定的指紋值或者指紋值范圍的出現(xiàn)頻率與預(yù)期的特定音視頻內(nèi)容類型的出現(xiàn)頻率進(jìn)行比較。
[0021]在第二實(shí)施方式中,檢測了空間視頻指紋的特定值的持續(xù)出現(xiàn),并且與一個(gè)或者多個(gè)預(yù)期圖像的一個(gè)或者多個(gè)預(yù)期值進(jìn)行比較以便生成指示特定的預(yù)期圖像的存在的元數(shù)據(jù)。
[0022]在第三實(shí)施方式中,檢測音頻指紋的低值的持續(xù)出現(xiàn)并且生成指示無聲的元數(shù)據(jù)。
[0023]在第四實(shí)施方式中,將時(shí)間上相繼的視頻指紋的值之間的差異模式與電影節(jié)奏的預(yù)期模式進(jìn)行比較,并且生成指示電影節(jié)奏的元數(shù)據(jù)。
【附圖說明】
[0024]圖1示出了根據(jù)本發(fā)明的實(shí)施方式的示例性系統(tǒng)。
[0025]圖2示出了根據(jù)本發(fā)明的實(shí)施方式的元數(shù)據(jù)處理器。
[0026]圖3示出了視頻時(shí)間指紋值的序列,從該序列中可識(shí)別鏡頭變化的位置。
[0027]圖4示出了視頻時(shí)間指紋值的序列的三個(gè)實(shí)例,從這些序列中可識(shí)別電影節(jié)奏。
[0028]圖5示出了根據(jù)本發(fā)明的替代實(shí)施方式的元數(shù)據(jù)處理器。
[0029]圖6示出了根據(jù)本發(fā)明的另一個(gè)替代實(shí)施方式的元數(shù)據(jù)處理器。
【具體實(shí)施方式】
[0030]圖1中示出了根據(jù)本發(fā)明的實(shí)施方式的系統(tǒng)。音視頻數(shù)據(jù)流(I)被輸入到音視頻內(nèi)容發(fā)布系統(tǒng)中的一個(gè)點(diǎn)處的指紋生成器(2)。指紋生成器(2)輸出描述音視頻數(shù)據(jù)流(I)的指紋流(3)。指紋流(3)可以描述音視頻數(shù)據(jù)流(I)的音頻或視頻元素,但是通常將含有涉及音頻和視頻元素兩者的信息。
[0031]指紋流(3)包括指紋序列,其中該序列的每個(gè)元素涉及數(shù)據(jù)流(I)中的不同的時(shí)間位置。通常,每個(gè)指紋的視頻元素源自于不同的視頻數(shù)據(jù)幀;并且,每個(gè)指紋的音頻元素源自于不同的音頻樣本集合。指紋流(3)的數(shù)據(jù)速率比音視頻數(shù)據(jù)流(I)的數(shù)據(jù)速率小很多。通常,指紋流(3)的音頻分量具有150字節(jié)/秒左右的數(shù)據(jù)速率,并且指紋流(3)的視頻分量具有500字節(jié)/秒左右的數(shù)據(jù)速率。從音視頻數(shù)據(jù)推導(dǎo)指紋是一個(gè)不可逆的過程;從指紋重新構(gòu)建音視頻數(shù)據(jù)是不可能的。指紋可以被考慮為音視頻數(shù)據(jù)的哈希函數(shù),使得不同音視頻數(shù)據(jù)將極不可能給出相同的指紋。
[0032]存在從音頻和視頻中推導(dǎo)出指紋的許多已知方法。國際專利申請(qǐng)WO2009/104022(其在此通過引用被并入)描述了可以如何從音頻樣本流中推導(dǎo)出音頻指紋,并且可以如何從視頻幀中推導(dǎo)出空間和時(shí)間視頻指紋。定義音頻指紋和視頻指紋的用于建立音頻流和視頻流之間的時(shí)間同步的標(biāo)準(zhǔn)正在形成當(dāng)中。
[0033]參考圖1,指紋流(3)被輸入到指紋處理器(4)并且在下文進(jìn)一步被描述,其中指紋處理器(4)從指紋流(3)中推導(dǎo)出元數(shù)據(jù)(5)。
[0034]在內(nèi)容發(fā)布系統(tǒng)的另一個(gè)地方,不與第一音視頻流(I)相關(guān)的第二音視頻數(shù)據(jù)流
(6)被輸入到第二指紋處理器(7),第二指紋處理器(7)從第二音視頻數(shù)據(jù)流(6)生成第二指紋流(8)。第二指紋流也被路由到指紋處理器(4)。來自音視頻內(nèi)容制作和發(fā)布過程中的不同點(diǎn)的其他不相關(guān)的音頻流、視頻流或音視頻流可以被指紋化,并且結(jié)果被路由到指紋處理器(4)。例如,描述音視頻數(shù)據(jù)流(9)的指紋流(10)被示出為進(jìn)一步輸入到指紋處理器(4)。由于指紋包括少量的數(shù)據(jù),故可以通過低帶寬鏈路將各自的指紋流傳送到指紋處理器(4);例如,可以使用窄帶互聯(lián)網(wǎng)連接。
[0035]從元數(shù)據(jù)處理器(4)輸出的元數(shù)據(jù)(5)包括描繪第一音視頻流(I)和第二音視頻流(6)以及其各自的指紋流被輸入到元數(shù)據(jù)處理器(4)的任何其它音視頻流的元數(shù)據(jù)。通常,指紋處理器(4)將位于中央監(jiān)控位置,并且其輸出元數(shù)據(jù)(5)將被輸入到手動(dòng)或自動(dòng)控制系統(tǒng),該手動(dòng)或自動(dòng)控制系