專利名稱:改進的音頻數(shù)據(jù)指紋搜索的制作方法
技術領域:
本發(fā)明涉及適用于對指紋和數(shù)據(jù)庫中所存儲的指紋進行匹配的方法和設備。
背景技術:
散列函數(shù)通常用于密碼學的領域,其中它們一般用于匯總和驗證大量數(shù)據(jù)。例如,由MIT(麻省理工學院)的RLRivest教授開發(fā)的MD5算法將一個任意長度的消息作為輸入,并且產(chǎn)生該輸入的128位的“指紋”、“簽名”或“散列”作為輸出。人們已經(jīng)推測兩條不同的消息具有相同的指紋在統(tǒng)計學上是很不可能的。因此,這種加密指紋算法對于驗證數(shù)據(jù)完整性是一個有用的方式。
在很多的應用中,多媒體信號的識別是希望的,包括音頻和/或視頻內(nèi)容。然而,經(jīng)常以各種各樣的文件格式傳輸多媒體信號。例如,適用于聲音文件的格式就有若干種不同的文件格式,像WAV、MP3和Windowsmedia,以及各種壓縮或質(zhì)量級別。諸如MD5的加密散列是基于二進制數(shù)據(jù)格式的,因此它將為相同多媒體內(nèi)容的不同文件格式提供不同的指紋值。這使得加密散列不適合于匯總多媒體數(shù)據(jù),對此,要求相同內(nèi)容的不同質(zhì)量版本產(chǎn)生相同的散列,或至少相似的散列。多媒體內(nèi)容的散列一直被稱為健壯的散列(robust hashes)(例如在“Robust Audio Hashing for Content Indentification(內(nèi)容識別的健壯性音頻散列))”中,基于多媒體索引內(nèi)容2001,Brescia,意大利,2001年9月,Jaap Haitsma、Ton Kalker和Job Oostveen),但是現(xiàn)在已經(jīng)被統(tǒng)稱為多媒體指紋。
相對于數(shù)據(jù)處理恒定的多媒體內(nèi)容指紋(只要所述處理保持內(nèi)容的得到認可的質(zhì)量)稱為健壯性匯總、健壯的簽名、健壯的指紋、感知的(perceptual)或健壯的散列。健壯的指紋捕獲視聽內(nèi)容的感知基本部分,與由人類聽覺系統(tǒng)(HAS)和/或人類視覺系統(tǒng)(HVS)所感知到的一樣。
多媒體指紋的一個定義是這樣一個函數(shù),它把多媒體內(nèi)容的每一個基本的時間單元(time-uint)和半唯一的位序列(semi-uniquebit-sequence)相關聯(lián),所述位序列相對于由HAS/HVS所感知的內(nèi)容相似性是連續(xù)的。換句話說,如果HAS/HVS認為兩段音頻、視頻或圖像非常相似,那么相關聯(lián)的指紋也將是非常相似的。尤其是,原創(chuàng)內(nèi)容和壓縮內(nèi)容的指紋應該是相似的。另一方面,如果兩個信號確實表示不同的內(nèi)容,則健壯的指紋將能區(qū)別開這兩個信號(半唯一的)。因此,多媒體指紋能夠實現(xiàn)內(nèi)容識別,這是很多應用的基礎。
例如,在一個應用程序中,大量多媒體對象的指紋以及每個對象相關的元數(shù)據(jù)被存儲在一個數(shù)據(jù)庫中。元數(shù)據(jù)通常是關于對象的信息,而不是關于該對象內(nèi)容的信息,例如如果該對象是一首歌曲的一個音頻剪輯,那么該元數(shù)據(jù)可以包括歌曲標題、藝術家、作曲家、唱片簿、剪輯的長度以及剪輯在該歌曲中的位置。
一般地,不為整個完整的多媒體信號計算單個指紋值或項。相反,為多媒體信號的多個分段中的每一個計算多個指紋(以下簡稱子指紋),例如為每一個圖像幀(或一個圖像幀的部分)、或音頻軌道的一個時間片計算一個子指紋。因此,諸如歌曲之類的音頻軌道的指紋只不過是一個子指紋列表。
一個指紋塊是一個子指紋序列(一般地為256),其包括足夠的信息以可靠地識別該信息源(例如歌曲)。原則上,一首歌曲的指紋塊可以是該歌曲所有連續(xù)的子指紋塊。一般地,為每一首歌曲建立多個指紋塊,每一個塊表示該歌曲的一個連續(xù)部分。
如果多媒體內(nèi)容連續(xù)地被接收,而不帶有任何元數(shù)據(jù),那么多媒體內(nèi)容的元數(shù)據(jù)可以通過計算該多媒體內(nèi)容一或多個指紋塊來確定,以及在該數(shù)據(jù)庫中查找對應的指紋塊。由于需要較少的存儲器/大儲存器,所以指紋塊而不是多媒體內(nèi)容本身的匹配是更加高效的,因為感知的不相干性一般不包括在該指紋內(nèi)。
(從所接收的多媒體內(nèi)容中)提取的指紋塊和在數(shù)據(jù)庫中存儲的指紋塊的匹配可以通過執(zhí)行一種強力搜索來執(zhí)行,以便將接收的信號的指紋塊(或如果接收的信號的長度是足夠長的話就是指紋塊)和數(shù)據(jù)庫中的每一指紋塊進行匹配。
如下的這篇文章描述了一種合適的音頻指紋搜索技術,所述論文為“Robust Audio Hashing for Content Indentification(內(nèi)容識別的健壯性音頻散列))”,基于多媒體索引內(nèi)容2001,Brescia,意大利,2001年9月,Jaap Haitsma、TonKalker和Job Oostveen)。所描述的策略使用一個用于所有可能子指紋值的查找表。表中的條目指向所述歌曲以及各自子指紋值出現(xiàn)在的那首歌曲的位置。通過為每一個所述提取子指紋值檢查查找表,產(chǎn)生一個候選者歌曲以及位置列表,以便高效地減少所要求的、指紋的匹配的范圍。
本發(fā)明實施例的一個目的是提供一種能夠實現(xiàn)高效搜索指紋數(shù)據(jù)庫的方法以及設備。
發(fā)明內(nèi)容
在一方面,本發(fā)明提供一種匹配一個輸入指紋塊組和數(shù)據(jù)庫中存儲的、識別各自信息信號的指紋的方法,每個指紋塊表示信息信號的至少一部分,該方法包括如下步驟選擇所述輸入指紋塊組的第一指紋塊;在所述數(shù)據(jù)庫中查找至少一個匹配所選指紋塊的指紋塊;從所述指紋塊組中選擇位于相對于所述第一選擇指紋塊的預定位置的另一個指紋塊;在所述數(shù)據(jù)庫中定位位于相對于所找到的指紋塊的預定位置的至少一個對應的指紋塊;并且確定所定位的指紋塊是否匹配所述選擇的另一個指紋塊。
通過使用初始匹配來明顯地縮小搜索范圍,隨后匹配對應位置的指紋塊,因此,用這樣的方式搜索可以有效地減小所述搜索的速度和/或增加健壯性。
另一個方面,本發(fā)明提供一種用于為一個信息信號產(chǎn)生日志報告的方法,包括如下步驟將該信息信號劃分為相似的內(nèi)容分段;為每一個分段產(chǎn)生一個輸入指紋塊;并且重復如上所述的方法步驟以便識別所述的每一個塊。
本發(fā)明更進一步的一個方面提供一種計算機程序,用于執(zhí)行如上所述的方法。
另一個方面,本發(fā)明提供一種記錄載體,包括如上所述的計算機程序。
更進一步的方面,本發(fā)明提供一種可用來下載如上所述計算機程序的方法。
另一個方面,本發(fā)明提供一種用于匹配一個輸入指紋塊組和數(shù)據(jù)庫中所存儲的、識別各自信息信號的指紋的設備,每個輸入塊表示信息信號的至少一個部分,該設備包括處理單元,用于選擇所述輸入指紋塊組的第一輸入塊;在所述數(shù)據(jù)庫中查找至少一個匹配該選擇指紋塊的輸入塊;從所述指紋塊組中選擇位于相對于所述第一選擇指紋塊的預定位置的另一個指紋塊;在所述數(shù)據(jù)庫中定位位于相對于所找到的指紋塊的預定位置的至少一個對應的指紋塊;并且確定所述定位的輸入塊是否匹配所述選擇的另一個指紋塊。
本發(fā)明更進一步的特征定義在所述附加的權利要求中。
為了更好地理解本發(fā)明,并且說明如何執(zhí)行相同的實施例以達到效果,現(xiàn)在通過實施例引用以下附圖,其中附圖1是本發(fā)明第一實施例方法步驟的流程圖;附圖2是示出根據(jù)本發(fā)明實施例對應于用于搜索選擇音頻信號分段的指紋塊的示意圖;附圖3是第二實施例方法步驟的流程圖;附圖4是一種設備的示意圖,根據(jù)本發(fā)明,所述設備用于根據(jù)輸入信息流產(chǎn)生指紋塊值,并且隨后匹配更進一步的指紋塊。
具體實施例方式
一般地,通過把指紋塊和在數(shù)據(jù)庫中所存儲的指紋塊進行匹配來識別指紋塊,這要求我們所稱為的一個完全搜索(例如使用在RobustAudio Hashing forContent Indentification(內(nèi)容識別的健壯性音頻散列))”中由Jaap Haitsma、Ton Kalker以及Job Oostveen描述的搜索技術,基于多媒體索引內(nèi)容2001,Brescia,意大利,2001年9月)。
本發(fā)明利用了這樣一個事實,即隨后的(或先前的)指紋塊產(chǎn)生于相同的信息分段(例如歌曲或錄像剪輯段)的概率是高的。因此,一旦已經(jīng)識別一個指紋塊,試圖通過僅僅把指紋塊和數(shù)據(jù)庫中對應的指紋塊相匹配,就可以快速識別隨后的指紋塊。
附圖1示出根據(jù)本發(fā)明第一實施例在執(zhí)行這種搜索中所涉及到的步驟的流程圖。
這種搜索假定存在一個數(shù)據(jù)庫,所述數(shù)據(jù)庫包括對應于一種信息信號不同部分的多個指紋。例如,這種數(shù)據(jù)庫可以包括大量歌曲的指紋塊,每個指紋塊包括一個子指紋序列。一個子指紋對應于所述歌曲的短分段(例如長達11.8毫秒)。元數(shù)據(jù)和每首歌曲相關聯(lián),指示例如歌曲標題、歌曲長度、演出藝術家、作曲家、唱片公司等等。
接收一種信息信號(例如一首歌曲、或一首歌曲的部分)后,希望識別出這首歌曲和/或與這首歌曲相關聯(lián)的元數(shù)據(jù)。這可以通過將這首歌曲的指紋塊和數(shù)據(jù)庫中對應的指紋塊相匹配來實現(xiàn)。
如附圖1所示,為在該信息信號中第一位置x計算第一指紋塊X(步驟10)。例如,在一首歌曲中,這可能會涉及這首歌曲內(nèi)3-5秒之間的時間片。
然后,執(zhí)行該數(shù)據(jù)庫的搜索,以識別該數(shù)據(jù)庫中的任何指紋塊是否匹配所述計算的指紋塊X(步驟20)。
這種搜索(步驟20)可以是所述數(shù)據(jù)庫的一種窮舉搜索,將指紋塊X和所述數(shù)據(jù)庫內(nèi)每個指紋塊迭代地進行比較??蛇x擇地,可以使用一個查找表來選擇所述最可能的匹配,如上述由Jaap Haitsma、TonKalker以及Job Oostveen所述的論文“Robust Audio Hashing forContent Indentification(內(nèi)容識別的健壯性音頻散列))”中所描述,基于多媒體索引的內(nèi)容2001,Brescia,意大利,2001年9月,。
由于在所述信號時間間隙的成幀過程中存在著變化,以及由于傳輸和/或壓縮的信號衰減,因而導致指紋塊X未必恰好匹配所述數(shù)據(jù)庫存儲中的任何單個指紋塊。然而,如果所述指紋塊X和所述數(shù)據(jù)庫中所述指紋塊的任何一個之間的相似性是足夠高的,則被認為發(fā)生了一次匹配(步驟20)。
相同的,所述指紋塊X和所述數(shù)據(jù)庫中的指紋塊間相異性是可以比較的。如果所述相異性(所述兩個指紋塊間相差的數(shù)目)低于一個預定的閥值T1,那么被認為發(fā)生了一次匹配。
如果確定沒有匹配的指紋塊存在于所述數(shù)據(jù)庫(步驟40),那么為所述信號內(nèi)一個新的開始位置計算指紋塊,然后重新執(zhí)行搜索(步驟20和40)。
如果發(fā)現(xiàn)一個或可能更多的(如果兩首歌曲是非常相似的這種情況可能發(fā)生)指紋塊是相似的,那么需要注意它們在所述數(shù)據(jù)庫中的位置。如果所述匹配的可靠性是足夠高的(步驟55)那么就能記錄所述結果(步驟90),然后可以停止所述識別過程。在步驟60,如果所述匹配的可靠性不高,可以為所述信號中位置X的相鄰位置確定指紋塊Y(例如所述音頻信號先前或隨后的時間片)。
所述數(shù)據(jù)庫中對應位置的指紋塊然后和指紋塊Y相比(步驟70)。例如,如果為緊跟在音頻信號中位置X之后的時間間隙計算了指紋塊Y,那么所述指紋塊Y就會被和所述數(shù)據(jù)庫中的指紋塊相比較,所述指紋塊預期可能會在緊跟著匹配了指紋塊X的指紋塊之后出現(xiàn)。
另外,指紋塊的匹配可以使用一個預定門限值(T2)執(zhí)行,所述預定門限值(T2)與所述指紋塊間的相異性有關。閾值T2可以和T1相同,或者低于T1。然而,最好為T2是一個比T1稍高的閥值。兩個相鄰指紋塊匹配所述數(shù)據(jù)庫中兩個相鄰的指紋塊是極其不太可能的,除非所述指紋塊涉及相同的信息源。如果指紋塊Y和所述數(shù)據(jù)庫中對應的指紋塊不相匹配(例如這種情況可能發(fā)生在一首新歌已開始播放之時),那么可以為指紋塊Y執(zhí)行一次完全搜索。
如果在數(shù)據(jù)庫中沒有任何匹配(步驟80),那么重新開始所述搜索過程,即為所述當前指紋塊Y的匹配執(zhí)行所述數(shù)據(jù)庫的一個完全搜索(步驟20),然后視情況而定重復后面的步驟。
如果所述數(shù)據(jù)庫中一個或多個對應的指紋塊匹配(步驟80),那么確定所述任何匹配是否是可靠的(步驟85),例如任何匹配是否可靠得足以識別所述信息信號。如果一個匹配是可靠的,那么就記錄所述結果(步驟90),然后停止所述識別處理。如果匹配不可靠,為所述信號中下一個相鄰的時間間隙(即接近所述先前指紋塊Y的位置)確定新的指紋塊Y(步驟60)。
可以理解的是上述實施例僅僅是通過實施例來提供的。例如,已經(jīng)結合接收的信息信號描述了所述實施例,按照所述搜索按照所述搜索還執(zhí)行為所述信息信號內(nèi)位置計算指紋塊。同樣地,所述搜索技術適用于接收的信息信號,以及適用于為所述信號中的一或多個位置(直至每個位置)(所述搜索開始之前)計算的指紋塊,隨后選擇這些塊以供所述搜索過程之用??蛇x擇地,可以只接收對應于信息信號的至少一部分的兩個或更多單個指紋塊,并且執(zhí)行搜索以便使用這些指紋塊來識別所述原始信息信號。
所述匹配閾值可以依靠實施的搜索的不同而不同。例如如果預期所述信息信號很可能會失真,那么所述閥值T1可以設置為比正常的高,以便更健壯地防止失真并且減小假陰性率(false negative rate)(如果確定兩個指紋塊不匹配,那么就認為已產(chǎn)生了假陰性,即使它們涉及所述信息信號相同的部分)。減小假陰性率一般將導致一個高假陽性率(false positive rate)(其中匹配被認為發(fā)生在實際上涉及不同信息的兩個指紋塊間)。然而,通過考慮下一個(或前一個)指紋塊是否與所述數(shù)據(jù)庫中的對應的塊相匹配,對于所述總體搜索,就可以減小假陽性率。
上述方法已經(jīng)假定選擇來匹配所述信息信號的每個隨后的指紋塊是鄰近于前一個指紋塊(按序在前或在后)的。然而,可以理解的是,如果所述指紋塊對應的信息鄰近于預先選擇的指紋塊的信息,那么也可以使用相同的方法。同樣地,可以利用信息信號的指紋塊間任何已知的關系,或所述指紋塊涉及的信息的位置之間的任何已知關系,只要該關系是一個具有對應位置的指紋塊可能位于所述數(shù)據(jù)庫內(nèi)即可。例如,在一個包括圖像的信息信號中,可以沿著所述圖像對角線依據(jù)對應于圖像分段的指紋塊執(zhí)行搜索。
本發(fā)明的實施例還可以用來監(jiān)控歌曲或其它音樂作品的無線或有線廣播。例如,一個音頻指紋系統(tǒng)可用于為存在于一個音頻流中的所有時間塊(一般地兩級在3-5秒左右)產(chǎn)生一個日志報告,其可以包括多個歌曲。對于一個分段的日志信息通常包括歌曲、藝術家、唱片簿以及這首歌曲的位置。
該監(jiān)控過程可以脫機完成,即音頻流(例如廣播電臺的廣播)的指紋塊首先被記錄到一個指紋文件,所述指紋文件例如包括一個小時的音頻指紋塊。對于這一個小時音頻的日志,可以通過使用上述方法高效地產(chǎn)生。
附圖2示出一個指紋文件90,包括三首歌曲(歌曲1、歌曲2、歌曲3)的指紋塊,每首歌曲持續(xù)各自的一個時間(t1、t2、t3)。代替對所有指紋塊執(zhí)行一個完全搜索,僅僅對一個小的指紋塊組(例如91,95以及98)執(zhí)行一個完全搜索,最好相隔一個平均的歌曲間隔(大約3-4分鐘)或一個極小歌曲間隔(例如2分鐘的間隔,假定該極小歌曲間隔已知是等于或者或者大于2分鐘)。一般地,一個子指紋將持續(xù)大約10毫秒,并且一個指紋塊持續(xù)3-5秒。
一旦從該小的指紋塊組中識別指紋塊(91,95,98),通過僅僅匹配所述數(shù)據(jù)庫中對應的指紋塊并使用結合附圖1所述的方法,就可以非常高效地識別相鄰塊(92,93,96,97…)。通過使用識別塊的歌曲位置以及識別歌曲的歌曲間隔就可以識別對應的塊。執(zhí)行所述匹配之后,為一個完全搜索從一個未鑒別的塊組中選擇一個新的指紋塊。該整個過程本身重復執(zhí)行,直到所有的指紋塊肯定已經(jīng)由一個匹配識別,或者一個完全搜索已經(jīng)把指紋塊視為未知。
人們注意到本發(fā)明的實施例還可以用于實時監(jiān)控。例如,一個實施例可用于在播放所述歌曲之時幾乎瞬時地識別廣播中的歌曲。在那種情況下僅僅在一個已經(jīng)識別的指紋塊之后的指紋塊可以容易地用于與所述數(shù)據(jù)庫中對應的塊相配。然而,如果在接收當前塊以及識別信息源之間允許一些延遲,那么多個在前的指紋塊就可以用于識別過程。
附圖3示出本發(fā)明實施例方法步驟的一個流程圖,其適用于執(zhí)行這種信息信號的實時監(jiān)控。
在附圖3中,為該方法步驟使用了對應于附圖1相同方法步驟的附圖標記。
首先,為信號中的位置x計算指紋塊X(步驟10)。然后以第一閥值T1在所述數(shù)據(jù)庫中執(zhí)行一個搜索,以便匹配指紋塊(步驟20),并且記錄匹配的結果(步驟30)。
如果在數(shù)據(jù)庫中沒有找到任何匹配的塊(步驟40),那么為所述信息信號的一個新的開始位置計算指紋塊(步驟50),然后重新執(zhí)行搜索(步驟20)。
如果在數(shù)據(jù)庫中發(fā)現(xiàn)一或多個匹配的指紋塊(步驟40),則為信息信號的相鄰位置計算指紋塊Y(步驟60)。例如,如果信息信號正在連續(xù)地接收,那么可以為該信號的下一個接收的時間片計算指紋塊Y。
然后,以一秒的閾值T2把塊Y和該數(shù)據(jù)庫中對應的塊進行比較(步驟70)??蛇x擇地,僅僅把塊Y和數(shù)據(jù)庫中的如下的那些塊相比較以匹配塊X,所述那些塊涉及在信息信號中的、與在步驟20中發(fā)現(xiàn)的塊位置的鄰近的位置。
如果發(fā)現(xiàn)塊Y和該數(shù)據(jù)庫中對應的任何塊都不匹配,(步驟80),那么為指紋塊Y執(zhí)行數(shù)據(jù)庫的一個完全搜索(步驟20)。
然而,如果發(fā)現(xiàn)塊Y和該數(shù)據(jù)庫中的一個或多個對應的塊匹配(步驟80),那么記錄該結果(步驟90),并且為一個相鄰位置計算指紋塊以及重復該過程。繼續(xù)附圖3描述的整個過程,直到所有的指紋塊肯定已經(jīng)被識別,或者已經(jīng)被完全搜索確定為是未知的。
這個實施例可以更進一步的改進,即通過檢驗信息信號的、任何搜索的指紋塊和數(shù)據(jù)庫對應的塊間的相似性以確定匹配是否是足夠可靠的。換句話說,匹配塊的歷史是可以比較的。例如,在數(shù)據(jù)庫中已經(jīng)發(fā)現(xiàn)一個指紋塊X的一個合理匹配,該合理匹配可以還沒有可靠到足以識別該信息信號。在數(shù)據(jù)庫中還可能已經(jīng)發(fā)現(xiàn)了指紋塊Y的一個合理匹配,該匹配本身可能被認為是還沒有可靠到足以識別該信息信號。然而,如果X和Y的匹配都涉及相同的信息信號,那么這兩種匹配偶然發(fā)生的可能性是相對低的,即匹配發(fā)生的組合概率可靠到足以識別傳輸?shù)男畔⑿盘枴?br>
本發(fā)明適合于結合多種指紋技術使用。例如,Haitsma等的音頻指紋技術計算對于音頻信號的基本窗口設定的間隔的子指紋值,如存在于″(Robust Audio Hashing for Content Indentification(內(nèi)容識別的健壯性音頻散列))″、內(nèi)容基于多媒體索引2001,Brescia,意大利,2001年9月。這種音頻信號由此被分成幀,并且隨后每個時間幀的頻譜表示用傅里葉變換加以計算。這種技術提供一個模仿HAS行為的健壯的指紋函數(shù),即它提供一種模仿了音頻信號內(nèi)容且與聽眾會感知到的一樣的指紋。
在這種指紋技術中,如附圖4所示,可以輸入音頻信號或包括音頻信號的位流。
如果正在位流信號取出指紋,那么包括編碼的音頻信號的位流由位流解碼器110接收。該位流解碼器完全解碼該位流,以便產(chǎn)生一個音頻信號。這個音頻信號然后傳遞到成幀單元120。
可替換地,一個音頻信號可在直接音頻輸入100接收,并且傳遞到成幀單元120。
該成幀單元將音頻信號劃分為一系列基本窗口設定的(windowedtime)時間間隔。該時間間隔最好互相重疊,以使得來自隨后的幀的子指紋值在很大程度上是相似的。
然后,每一窗口設定的時間間隔信號被傳遞到傅里葉變換單元130,該單元對于每一個時間窗口計算傅里葉變換。絕對值計算單元140用于計算該傅里葉變換的絕對值。執(zhí)行這一計算,因為人類聽覺系統(tǒng)(HAS)相對于相位不太靈敏,并且僅僅保持這種頻譜的絕對值,因為該絕對值對應于人類耳朵常常會聽到的音調(diào)。
為了能夠為該頻譜內(nèi)預定的頻帶系列中的每一個計算單獨的子指紋值,使用選擇器151、152、…158、159來選擇與所希望的頻帶相對應的傅里葉系數(shù)。適用于每個頻帶的傅里葉系數(shù)然后被傳遞到各自的能量計算級161、162、…168、169。每個能量計算級然后計算每一頻帶的能量,然后把所計算的能量傳遞給到微分電路,該微分電路計算子指紋位H(n,x)并且將其發(fā)送到輸出180,其中x相當于各自的頻帶,而n相當于相關的時間幀間隔。在最簡單的情況下,這些位可以是一個指示該能量是否大于一個預定門限值的符號。通過對比對應于單個時間幀的位,為每一個希望的時間幀計算一個子指紋。
然后,把每個幀的子指紋存儲在一個緩沖器190中,以便形成指紋塊。該緩沖器的內(nèi)容隨后由一個數(shù)據(jù)庫搜索引擎195訪問。該數(shù)據(jù)庫搜索引擎然后執(zhí)行搜索,以便使用上述方法匹配在匹配緩存器19O中存儲的指紋塊和在數(shù)據(jù)庫中存儲的對應的指紋塊,以便有效地識別輸入到了位流解碼器110或直接音頻輸入100中的信息流(和/或與該信息流相關聯(lián)的元數(shù)據(jù))。
盡管已經(jīng)結合了音頻信息流描述本發(fā)明的上述實施例時,可以理解的是本發(fā)明可以適用于其它信息信號,尤其是多媒體信號,包括視頻信號。
例如,這篇論文描述了一個用于提取來自一個運動圖像序列實質(zhì)的感性特征的合適的技術,所述論文是“J.C.Oostveen,A.A.C.Kalker,J.A.Haitsma,Visual Hashing of Digital VideoApplications and Techiques(數(shù)字視頻的可視化散列)應用和技術”,SPIE,數(shù)字圖像處理應用程序XXIV,2001年7月7月31-8月3,圣地亞哥,美國”。
由于該技術涉及可視化指紋,感知的特征涉及HVS查看的內(nèi)容,即它輔助為同樣由HVS考慮的內(nèi)容產(chǎn)生相同(相似的)指紋信號。提出的算法注意考慮提取自通過像素塊計算的亮度分量或者色度分量的特征。
技術人員可以理解的是未具體描述的各種實施例將可被理解為屬于本發(fā)明的范圍。例如,當僅僅描述了指紋塊產(chǎn)生裝置的功能度時,可以理解的是該裝置可以由數(shù)字電路、模擬電路、計算機程序或其中的結合來實現(xiàn)。
同樣地,當結合具體類型編碼方案描述上述實施例時,可以理解的是本發(fā)明可以適用于其它類型編碼方案,尤其是那些當傳輸多媒體信號時包括關于感知的重要信息系數(shù)的編碼方案。
讀者的注意放在論文和所有文件上,其是同時申請或連同這種應用程序之前的說明書,并且這種說明書對公眾的監(jiān)督是公開的,這里一并結合引用所有這種文件的內(nèi)容。
本說明書公開的所有的特征(包括所有附加的權利要求、摘要以及附圖),和/或因此公開的任何方法或處理的所有的步驟可以以任何結合方式進行結合,除非其中這種特征和/或步驟中至少一些是互斥的。
本說明書公開的每個特征(包括所有附加權利要求、摘要以及附圖)可以由用于相同、相等或相似的目的的備選方案特征替代,除非另有明確說明。因此,除非另有明確說明,公開的每個特征僅僅是一般的一系列相等或相似特征的一個實例。
本發(fā)明并不局限于上述實施例的細節(jié)。本發(fā)明延伸本說明書(包括所有附加權利要求、摘要以及附圖)公開特征的任何的新的特征或任何的新的組合,或因此公開的任何方法或處理的步驟的任何的新的步驟或任何的新的組合。
在本說明書內(nèi)可以理解的是詞“包括”不排除其它元件或步驟,“一個”或“以及”不排除大量,而單個處理器或其它裝置可以完成本權利要求中敘述的若干裝置的功能。
本發(fā)明可以概述如下。描述了一種匹配一個輸入指紋塊組和在數(shù)據(jù)庫中存儲的、識別各自信息信號的指紋的方法和裝置,每個指紋塊表示信息信號的至少一部分。本方法包括如下步驟選擇所述輸入指紋塊組的第一指紋塊,并且在所述數(shù)據(jù)庫中查找至少一個匹配所選指紋塊的指紋塊。從所述指紋塊組中選擇位于相對于所述第一選擇指紋塊的預定位置的另一個指紋塊。在所述數(shù)據(jù)庫中定位位于相對于所找到的指紋塊的預定位置的至少一個對應的指紋塊,并且確定所定位的指紋塊是否匹配所述選擇的另一個指紋塊。
權利要求
1.一種匹配一個輸入指紋塊組和在數(shù)據(jù)庫中所存儲的、識別各自信息信號的指紋的方法,每個指紋塊表示信息信號的至少一部分,該方法包括如下步驟選擇所述輸入指紋塊組的第一指紋塊;在所述數(shù)據(jù)庫中查找至少一個與所選指紋塊相匹配的指紋決;從所述指紋塊組中選擇位于相對于所述第一選擇指紋塊的預定位置的另一個指紋塊;在所述數(shù)據(jù)庫中定位位于相對于所找到的指紋塊的預定位置的至少一個對應的指紋塊;并且確定所定位的指紋塊是否匹配所選擇的另一個指紋塊。
2.如權利要求1的方法,該方法還包括迭代地重復執(zhí)行的如下步驟選擇另一個指紋塊,在所述數(shù)據(jù)庫中定位一個相應的指紋塊,并且對于相對于第一選擇指紋塊的不同預定位置,確定所定位的指紋塊是否與所選擇的另一個指紋塊相匹配。
3.如權利要求1的方法,其中所述預定位置是一個相鄰位置。
4.如權利要求1的方法,其中如果指紋塊間相差的數(shù)目低于第一閾值,則認為在所述查找步驟中已經(jīng)發(fā)生了一次匹配,并且如果指紋塊間相差的數(shù)目低于第二閾值,則認為在所述確定步驟中已經(jīng)發(fā)生了一次匹配。
5.如權利要求4的方法,其中所述第二閾值不同于所述第一閾值。
6.如權利要求1的方法,還包括如下步驟接收一個信息信號;將該信息信號劃分為幾個部分;并且通過為每一個部分計算指紋塊產(chǎn)生所述輸入塊。
7.一種用于為信息信號產(chǎn)生日志報告的方法,包括如下步驟將該信息信號劃分為相似的內(nèi)容分段;為每一個分段產(chǎn)生一個輸入指紋塊;并且重復如權利要求1所述的方法步驟,以便識別每一個塊。
8.如權利要求7的方法,其中所述信息信號包括一個音頻信號,并且其中每個分段相當于一首歌曲的至少一部分。
9.一種用于執(zhí)行如權利要求1所述的方法的計算機程序。
10.一種包括如權利要求9所述的計算機程序的記錄載體。
11.一種可用于下載如權利要求9所述的計算機程序的的方法。
12.一種用于匹配一個輸入指紋塊組和在數(shù)據(jù)庫中存儲的、識別各自信息信號的指紋的設備,每個輸入塊表示信息信號的至少一個部分,該設備包括處理單元,用于選擇所述輸入指紋塊組的第一指紋塊;在所述數(shù)據(jù)庫中查找至少一個與所選指紋塊相匹配的指紋塊;從所述指紋塊組中選擇位于相對于所述第一選擇指紋塊的預定位置的另一個指紋塊;在所述數(shù)據(jù)庫中定位位于相對于所找到的指紋塊的預定位置的至少一個對應的指紋塊;并且確定所定位的指紋塊是否匹配所選擇的另一個指紋塊。
13.如權利要求12的設備,還包括一個數(shù)據(jù)庫,用于存儲識別各自信息信號的指紋和與每個信號相關聯(lián)的元數(shù)據(jù)。
14.如權利要求12的設備,還包括一個接收器,用于接收一個信息信號,以及一個指紋發(fā)生器,用于根據(jù)所述信息信號產(chǎn)生所述輸入指紋塊組。
全文摘要
描述了一種用于匹配一個輸入指紋塊組和在數(shù)據(jù)庫中存儲的、用于識別各自信息信號的指紋的方法和設備,每個指紋塊表示信息信號的至少一部分。本方法包括選擇該輸入指紋塊組的第一指紋塊(10),并且在該數(shù)據(jù)庫中查找至少一個與該選擇的指紋塊相匹配(20,40)的指紋塊。然后,從該輸入塊組中選擇位于距離第一選擇指紋塊(60)的一個預定位置處的另一個指紋塊。然后,在該數(shù)據(jù)庫中把另一個指紋塊定位在一個相對于所找到的指紋塊的相同的預定位置(70),并且確定該定位的指紋塊是否匹配所選擇的另一個指紋塊(80)。
文檔編號G06F17/30GK1708758SQ200380102514
公開日2005年12月14日 申請日期2003年10月7日 優(yōu)先權日2002年11月1日
發(fā)明者J·A·海特斯馬 申請人:皇家飛利浦電子股份有限公司