專利名稱:具有根據(jù)搜索負(fù)荷被均衡的指紋數(shù)據(jù)庫(kù)的媒體識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及媒體識(shí)別系統(tǒng),尤其涉及對(duì)媒體識(shí)別系統(tǒng)用來(lái)匹配未知測(cè)試樣本的參考指紋的數(shù)據(jù)庫(kù)的管理。
背景技術(shù):
數(shù)字指紋識(shí)別是能夠用來(lái)識(shí)別諸如音頻或視頻樣本之類的未知數(shù)字媒體樣本的處理。在示例媒體識(shí)別系統(tǒng)中,為可從數(shù)據(jù)文件、廣播節(jié)目、流媒體或任何各種其他媒體源獲得的多個(gè)已知媒體樣本中的每一個(gè)生成數(shù)字指紋。每個(gè)數(shù)字指紋可包含如下數(shù)據(jù)段,所述數(shù)據(jù)段含有關(guān)于媒體的樣本的特征信息,所述特征信息是從媒體樣本生成的。通過(guò)引用全部結(jié)合于此的美國(guó)專利No. 7,516,074描述了用于從數(shù)據(jù)信號(hào)生成特征數(shù)字指紋的實(shí)施例。參考指紋隨后被存儲(chǔ)在數(shù)據(jù)庫(kù)或儲(chǔ)存庫(kù)中,并通過(guò)將參考指紋與其相應(yīng)的媒體樣本和/或與媒體樣本有關(guān)的元數(shù)據(jù)相關(guān)聯(lián)的方式被索引。美國(guó)專利No. 7,516,074還公開了在數(shù)據(jù)庫(kù)中索引參考指紋的實(shí)施例。參考指紋的數(shù)據(jù)庫(kù)可用來(lái)識(shí)別未知媒體樣本。為了識(shí)別未知媒體項(xiàng),測(cè)試指紋從該媒體項(xiàng)的樣本被生成。測(cè)試指紋隨后被對(duì)照參考指紋的數(shù)據(jù)庫(kù)來(lái)進(jìn)行匹配,并且如果發(fā)現(xiàn)匹配,則該未知媒體樣本被宣布為與匹配的參考指紋相關(guān)聯(lián)的媒體樣本。用于宣布有效匹配的各種精確匹配和模糊匹配算法及標(biāo)準(zhǔn)可被使用。通常根據(jù)指紋的普通特征(例如指紋向量的坐標(biāo)或者指紋中包含的數(shù)據(jù)的某一其他部分)來(lái)在數(shù)據(jù)庫(kù)中索引參考指紋。這種類型的索引方案允許多階段匹配處理。例如, 基于該索引方案,測(cè)試指紋可被審查以確定與數(shù)據(jù)庫(kù)中的參考指紋的一個(gè)或多個(gè)候選集合的初步匹配。然后,每個(gè)被識(shí)別的候選被與測(cè)試指紋(例如逐比特地)作比較以確定是否存在匹配。通過(guò)在計(jì)算量更大的指紋比較之前縮窄為候選列表,這種多階段匹配處理避免了訪問(wèn)數(shù)據(jù)庫(kù)中的每個(gè)參考指紋然后將每個(gè)參考指紋與測(cè)試指紋作比較的需要。在媒體匹配系統(tǒng)的某些應(yīng)用中,未知媒體樣本對(duì)照已知媒體樣本的擴(kuò)展集合而被匹配。例如,未知媒體樣本可以是來(lái)自在線視頻分享網(wǎng)站的視頻剪輯,并且這些媒體樣本可對(duì)照諸如廣播節(jié)目之類的已知媒體樣本被測(cè)試。隨著已知媒體樣本集合的增長(zhǎng),新的參考指紋被從這些樣本生成并且隨后被添加到參考指紋數(shù)據(jù)庫(kù)。在參考指紋的數(shù)據(jù)庫(kù)非常大的應(yīng)用中,數(shù)據(jù)庫(kù)可在多個(gè)物理和/或邏輯分區(qū)(又稱為“貯存?zhèn)}”(silo))上被實(shí)施。當(dāng)參考數(shù)據(jù)庫(kù)包含多個(gè)分區(qū)時(shí),參考樣本通?;诿總€(gè)分區(qū)中包含的數(shù)據(jù)量基本均勻地被分布在這些分區(qū)上。用于存儲(chǔ)參考指紋的具體算法可取決于該參考指紋所源自的媒體樣本的源。當(dāng)例如從廣播節(jié)目被獲得時(shí),樣本可根據(jù)從其獲得這些樣本的廣播頻道或者這些樣本的任何其他元屬性而被添加到分區(qū)。雖然該算法可能易于均衡每個(gè)分區(qū)中存儲(chǔ)的數(shù)據(jù)量,但是它不會(huì)使數(shù)據(jù)庫(kù)的預(yù)期使用達(dá)到最優(yōu)情況。這是因?yàn)閷?shí)際上,媒體樣本的元屬性及其受歡迎度(popularity)之間常常存在關(guān)聯(lián)。例如,在示例媒體匹配系統(tǒng)中,與源自其他源相比,測(cè)試樣本常常更經(jīng)常地源自一個(gè)特定的源。由于索引系統(tǒng)會(huì)將用于測(cè)試樣本的候選分組成分區(qū),因此這往往會(huì)導(dǎo)致某些分區(qū)上的訪問(wèn)負(fù)荷(例如,讀請(qǐng)求)比其他分區(qū)更多?;诿襟w匹配系統(tǒng)進(jìn)行的訪問(wèn)所造成的某些分區(qū)上的超負(fù)荷可能導(dǎo)致系統(tǒng)的次優(yōu)性能。
發(fā)明內(nèi)容
當(dāng)在媒體識(shí)別系統(tǒng)的參考數(shù)據(jù)庫(kù)中存儲(chǔ)參考指紋時(shí),發(fā)明的實(shí)施例對(duì)當(dāng)數(shù)據(jù)庫(kù)被媒體識(shí)別系統(tǒng)使用時(shí)的數(shù)據(jù)庫(kù)上的搜索負(fù)荷進(jìn)行均衡。具體地,當(dāng)在數(shù)據(jù)庫(kù)中存儲(chǔ)一個(gè)或多個(gè)新的參考指紋時(shí),發(fā)明的實(shí)施例選擇數(shù)據(jù)庫(kù)中的用于存儲(chǔ)新參考指紋的一個(gè)或多個(gè)分區(qū)。所選分區(qū)是至少部分地基于媒體識(shí)別系統(tǒng)對(duì)分區(qū)的訪問(wèn)率(例如,給定時(shí)間段中對(duì)每個(gè)分區(qū)的搜索次數(shù))來(lái)確定的。在一個(gè)實(shí)施例中,新的參考指紋將傾向于被放置在具有比其他分區(qū)相對(duì)更低的訪問(wèn)率的分區(qū)中。由于向分區(qū)添加參考指紋往往會(huì)增加該分區(qū)的訪問(wèn)率,因此向數(shù)據(jù)庫(kù)的具有相對(duì)更低的訪問(wèn)率的分區(qū)添加新的參考指紋將易于均衡媒體識(shí)別系統(tǒng)對(duì)分區(qū)的搜索負(fù)荷。在一個(gè)實(shí)施例中,該系統(tǒng)可以創(chuàng)建新分區(qū)并將新分區(qū)鏈接到現(xiàn)有數(shù)據(jù)庫(kù)以減輕對(duì)現(xiàn)有分區(qū)的搜索負(fù)荷。例如,通過(guò)將現(xiàn)有參考數(shù)據(jù)文件轉(zhuǎn)移到新創(chuàng)建的分區(qū),所有分區(qū)的搜索負(fù)荷可以變得更均衡,從而改進(jìn)整體數(shù)據(jù)庫(kù)訪問(wèn)率。在另一實(shí)施例中,該系統(tǒng)可以通過(guò)根據(jù)對(duì)指紋的訪問(wèn)率在數(shù)據(jù)庫(kù)內(nèi)移動(dòng)現(xiàn)有參考指紋來(lái)重新均衡分區(qū)上的負(fù)荷。分區(qū)可以按照關(guān)于參考數(shù)據(jù)的元信息來(lái)被分組,并且對(duì)搜索負(fù)荷的均衡可以按組的級(jí)別而不是單獨(dú)針對(duì)每個(gè)新參考指紋來(lái)進(jìn)行。
圖1是根據(jù)發(fā)明實(shí)施例的媒體指紋識(shí)別系統(tǒng)的示意圖。圖2是根據(jù)發(fā)明實(shí)施例的參考指紋的數(shù)據(jù)庫(kù)的示意表示。圖3是用于在圖2的數(shù)據(jù)庫(kù)中存儲(chǔ)參考指紋的數(shù)據(jù)結(jié)構(gòu)的示意表示。圖4是根據(jù)發(fā)明實(shí)施例的在指紋匹配系統(tǒng)中使用的數(shù)據(jù)庫(kù)的示意圖示。圖5A和圖5B是示出根據(jù)發(fā)明實(shí)施例的由用于匹配數(shù)字指紋的應(yīng)用所執(zhí)行的步驟的流程圖。圖6是描繪了將被存儲(chǔ)在數(shù)據(jù)結(jié)構(gòu)中的參考指紋的候選集合的、圖3所示的數(shù)據(jù)結(jié)構(gòu)的示例。圖7是根據(jù)發(fā)明實(shí)施例的用于均衡參考指紋的數(shù)據(jù)庫(kù)上的搜索負(fù)荷的方法的流程圖。這些附圖僅出于例示目的描繪了本發(fā)明的各個(gè)實(shí)施例。本領(lǐng)域技術(shù)人員從以下討論中將容易認(rèn)識(shí)到,在不脫離本文描述的發(fā)明原理的情況下,可以采用本文例示的方法和結(jié)構(gòu)的替代實(shí)施例。
具體實(shí)施例方式在數(shù)字指紋識(shí)別應(yīng)用中,從未知音頻或視頻內(nèi)容采樣到的數(shù)字指紋被與從已知音頻或視頻節(jié)目獲得的數(shù)字指紋的參考數(shù)據(jù)庫(kù)作比較,以便識(shí)別該未知內(nèi)容。識(shí)別未知內(nèi)容是所希望的,因?yàn)樗梢栽试S未知內(nèi)容的元數(shù)據(jù)被修復(fù),或者允許控制版權(quán)保護(hù)素材的分發(fā),以及媒體識(shí)別系統(tǒng)的很多其他應(yīng)用。
圖1示出用于在數(shù)據(jù)庫(kù)系統(tǒng)中實(shí)施數(shù)字指紋識(shí)別應(yīng)用的裝置。參考指紋的數(shù)據(jù)庫(kù) 100和數(shù)據(jù)庫(kù)服務(wù)器125被示出。數(shù)據(jù)庫(kù)服務(wù)器125運(yùn)行從媒體樣本創(chuàng)建參考指紋的指紋生成算法。在一個(gè)實(shí)施例中,數(shù)據(jù)庫(kù)服務(wù)器從由廣播機(jī)130發(fā)送的廣播節(jié)目140生成參考指紋。在另一實(shí)施例中,數(shù)據(jù)庫(kù)服務(wù)器125從諸如文件分享網(wǎng)絡(luò)或互聯(lián)網(wǎng)站點(diǎn)之類的計(jì)算機(jī)網(wǎng)絡(luò)135采樣媒體內(nèi)容并從所采樣的媒體內(nèi)容創(chuàng)建參考指紋。數(shù)據(jù)庫(kù)服務(wù)器125將生成的參考指紋存儲(chǔ)在數(shù)據(jù)庫(kù)100上以便它們可被用于識(shí)別未知媒體樣本,如本文所描述的。圖2更詳細(xì)地示出數(shù)據(jù)庫(kù)100的一個(gè)實(shí)施例。數(shù)據(jù)庫(kù)100包括存儲(chǔ)在數(shù)據(jù)結(jié)構(gòu)110 內(nèi)的多個(gè)標(biāo)準(zhǔn)大小的參考指紋105。參考指紋105可包含音頻或視頻內(nèi)容中的一部分的數(shù)字指紋。數(shù)據(jù)庫(kù)100中還包括與每個(gè)參考指紋105相關(guān)的元數(shù)據(jù)115。元數(shù)據(jù)115可包括與被歸為參考指紋105的數(shù)字媒體內(nèi)容有關(guān)的信息,如標(biāo)題、藝術(shù)家、流派、制作者和版權(quán)日期。元數(shù)據(jù)115可從廣播節(jié)目140被提取或以其他方式由數(shù)據(jù)庫(kù)服務(wù)器125獲得。數(shù)據(jù)庫(kù)100還包括能夠被用來(lái)識(shí)別可能與測(cè)試指紋相匹配的候選指紋的集合的多個(gè)索引120, 如本文將更詳細(xì)地描述的。索引方法被用來(lái)識(shí)別可能與測(cè)試指紋相匹配的參考指紋的候選集合。候選指紋的集合是基于它們?cè)谶壿嬵A(yù)定義的“存儲(chǔ)桶”(bucket)中的出現(xiàn)被識(shí)別的,每個(gè)存儲(chǔ)桶引用在與該存儲(chǔ)桶相關(guān)聯(lián)的模板所指定的某些比特位置處共享相同比特值的一組指紋。包含有其比特值與相應(yīng)模板中所指定比特位置處的測(cè)試指紋相匹配的指紋的存儲(chǔ)桶被標(biāo)記。由于指紋可在許多不同的存儲(chǔ)桶中被引用并且每個(gè)被標(biāo)記的存儲(chǔ)桶指示出被該存儲(chǔ)桶引用的指紋是匹配物的增大的概率(increased probability),一組指紋可基于它們?cè)谧罡邩?biāo)記的存儲(chǔ)桶中的重現(xiàn)而被識(shí)別為候選指紋集合。圖3更詳細(xì)地示出參考指紋105被存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)110。數(shù)據(jù)結(jié)構(gòu)110包括被稱為分區(qū)的多個(gè)數(shù)據(jù)儲(chǔ)存庫(kù)。在一個(gè)實(shí)施例中,分區(qū)200例如由LDAP協(xié)議邏輯地定義,并且每個(gè)分區(qū)200的實(shí)際數(shù)據(jù)內(nèi)容可被存儲(chǔ)在相同或不同位置中的任何數(shù)量的物理存儲(chǔ)介質(zhì)上。 每個(gè)分區(qū)200的內(nèi)容包含參考指紋105的子集。在圖4所示的典型匹配應(yīng)用中,未知媒體內(nèi)容300被數(shù)據(jù)庫(kù)服務(wù)器125采樣以生成測(cè)試指紋310。未知內(nèi)容300可包括從諸如允許用戶生成的數(shù)據(jù)被上傳的網(wǎng)站之類的網(wǎng)站采樣到的數(shù)字音頻或視頻數(shù)據(jù)。該采樣可由數(shù)據(jù)庫(kù)服務(wù)器125處的軟件程序或者由將測(cè)試指紋310傳送到數(shù)據(jù)庫(kù)服務(wù)器125的遠(yuǎn)程程序自動(dòng)執(zhí)行。這種軟件程序可以是通常被稱為“機(jī)器人”或“蜘蛛”的自動(dòng)程序,所述自動(dòng)程序自動(dòng)地在互聯(lián)網(wǎng)上爬行,以尋找被分享的音頻或視頻內(nèi)容來(lái)采樣。未知內(nèi)容300還可包括在文件分享網(wǎng)絡(luò)上被分享的數(shù)據(jù)。測(cè)試指紋310可以是從未知內(nèi)容300的一部分獲得的數(shù)字指紋。多個(gè)數(shù)字指紋可以從同一音頻或視頻流獲得。在一個(gè)示例中,為每五秒的采樣內(nèi)容生成一個(gè)新的測(cè)試指紋。 測(cè)試指紋310 —旦被獲得,它就可以被對(duì)照數(shù)據(jù)庫(kù)100進(jìn)行匹配,以確定數(shù)據(jù)庫(kù)100中包含的參考指紋105是否與該測(cè)試指紋310相匹配。如果發(fā)現(xiàn)匹配,則匹配的參考指紋305的元數(shù)據(jù)115可以被審查以識(shí)別未知內(nèi)容300并采取適當(dāng)?shù)钠渌襟E,例如,通知版權(quán)所有者、 在該內(nèi)容中插入廣告或阻止該內(nèi)容。測(cè)試指紋310不需要與參考指紋105完全匹配。由于未知內(nèi)容300中的噪聲所造成的保真度損失或其他失真可能導(dǎo)致測(cè)試指紋310和相應(yīng)的參考指紋105之間的差別,因此可以認(rèn)為部分匹配足以用于以足夠高的確定度來(lái)識(shí)別測(cè)試指紋。
圖5A示出用于對(duì)照參考指紋105來(lái)匹配測(cè)試指紋310的方法的概況。在塊400 所示的第一步,參考指紋的候選集合500被生成。在塊405所示的第二步,測(cè)試指紋310被對(duì)照候選集合500中的每個(gè)參考指紋來(lái)進(jìn)行比較以確定它們是否匹配。圖5B示出圖5A的識(shí)別步驟400的一個(gè)實(shí)施方式。在圖5B中,索引方法被用來(lái)識(shí)別參考指紋的候選集合500。每個(gè)索引120根據(jù)參考指紋的特征來(lái)索引參考指紋。例如, 索引可將對(duì)于特定坐標(biāo)具有同一值的參考指紋分成組。在塊410所示的第一步,測(cè)試指紋 105被與第一索引120作比較以識(shí)別可能與該測(cè)試指紋相匹配的指紋的候選集合。如果匹配,則與索引120相關(guān)聯(lián)的參考指紋被標(biāo)記,如塊420所示。對(duì)每個(gè)索引120重復(fù)該處理直到所有索引都已與測(cè)試指紋310作比較,以識(shí)別用于該測(cè)試指紋的所有可能的候選參考指紋。在該方法的最后,多個(gè)參考指紋105將被標(biāo)記。由于參考指紋105可能與由多于一個(gè)索引120所定義的測(cè)試指紋310的被索引特征相匹配,因此參考指紋105可多次被標(biāo)記為候選。所有候選參考指紋隨后被分組,如塊425所示。在上述步驟中,候選參考指紋在不必獲得參考指紋的實(shí)際副本的情況下通過(guò)索引被識(shí)別。然而一旦候選指紋被識(shí)別,候選參考指紋的副本就被獲得,所以匹配算法可以將每個(gè)被識(shí)別的候選指紋與測(cè)試指紋作比較以確定是否存在匹配。由于從參考數(shù)據(jù)庫(kù)獲得候選指紋的副本是讀操作,因此它可包含對(duì)數(shù)據(jù)庫(kù)中候選參考指紋所位于的分區(qū)的“訪問(wèn)”,并且因而是參考數(shù)據(jù)庫(kù)的資源上的負(fù)荷。圖6通過(guò)示例示出數(shù)據(jù)結(jié)構(gòu)110,其中數(shù)據(jù)結(jié)構(gòu)110中的參考指紋的候選集合500 已被識(shí)別出。在圖6的示例中,四個(gè)分區(qū)200被示出,并且這四個(gè)分區(qū)200包含總共兩百個(gè)被識(shí)別的候選指紋。如從左到右所示,第一分區(qū)200包含該候選集合的一百個(gè)參考指紋,第二分區(qū)200包含十七個(gè)參考指紋,第三分區(qū)200包含一個(gè)參考指紋,并且第四分區(qū)200包含八十二個(gè)參考指紋。為了識(shí)別候選集合500中任一參考指紋是否與測(cè)試指紋310相匹配,指紋匹配算法可在測(cè)試指紋310和候選集合500中的每個(gè)參考指紋之間執(zhí)行逐比特比較。這可在圖5A 所示的比較階段405期間執(zhí)行。為了進(jìn)行該比較,指紋匹配系統(tǒng)首先從每個(gè)分區(qū)200獲得候選參考指紋的副本。該讀操作可在每個(gè)分區(qū)200上并行執(zhí)行;然而,比較階段的整體速度受到從最慢分區(qū)200進(jìn)行讀取的速度的限制,最慢分區(qū)可能是保存了最大數(shù)目的候選指紋的分區(qū)200。在本示例中,包含較多被識(shí)別候選指紋的分區(qū)將可能比包含較少被識(shí)別候選指紋的分區(qū)花費(fèi)更多的時(shí)間來(lái)將指紋提供給匹配算法。由于在本示例中候選指紋的數(shù)目沒有均勻地被均衡,因此比較的整體速度將是次優(yōu)的。如果參考指紋的候選集合500更均勻地分布在各分區(qū)200上,比較階段將進(jìn)行地更快。這種情況下,如果候選集合中的兩百個(gè)指紋更均勻地被分布,則每個(gè)分區(qū)將大約擁有候選集合中的五十個(gè)指紋,并且匹配的整體速度可能快得多。圖7示出根據(jù)本發(fā)明的用于均衡數(shù)據(jù)庫(kù)中的搜索負(fù)荷的計(jì)算機(jī)實(shí)現(xiàn)的方法的流程圖。如塊600所示,針對(duì)每個(gè)分區(qū)200監(jiān)視訪問(wèn)率。訪問(wèn)率被確定為指紋的候選集合500 中包含的該分區(qū)上的參考指紋的平均數(shù)目,并且是在多個(gè)測(cè)試指紋310的比較過(guò)程中測(cè)得的。訪問(wèn)率可在若干時(shí)間段中被測(cè)量,包括但不限于,每月、每周、每天、每小時(shí)、每分鐘或每秒。在監(jiān)視對(duì)數(shù)據(jù)庫(kù)中的分區(qū)的訪問(wèn)率時(shí),數(shù)據(jù)庫(kù)服務(wù)器125可如塊610所示接收用于將新的參考指紋添加到數(shù)據(jù)庫(kù)100的請(qǐng)求。該請(qǐng)求可以是對(duì)諸如圖1所示的已知廣播 140進(jìn)行采樣的結(jié)果。然后,如塊620所示,新的參考指紋被存儲(chǔ)在與其他分區(qū)200相比具有相對(duì)低的訪問(wèn)率的至少一個(gè)分區(qū)200上。通過(guò)持續(xù)將新參考指紋存儲(chǔ)在具有較低訪問(wèn)率的分區(qū)上,這些分區(qū)上的訪問(wèn)率提高,使得它們對(duì)于大多數(shù)搜索大致保持平均,進(jìn)而平均搜索速度可以提高。參考指紋還可被動(dòng)態(tài)地重新分布以對(duì)分區(qū)的訪問(wèn)率進(jìn)行負(fù)荷均衡。代替僅將新參考指紋存儲(chǔ)在具有較低訪問(wèn)率的分區(qū)上,還可通過(guò)將參考指紋從具有較高訪問(wèn)率的分區(qū)轉(zhuǎn)移到具有較低訪問(wèn)率的分區(qū)來(lái)周期性地重新均衡數(shù)據(jù)庫(kù)。這既可持續(xù)地被執(zhí)行,也可在指定的預(yù)定維護(hù)時(shí)間被執(zhí)行。另外,參考指紋可被成組地存儲(chǔ)在分區(qū)上,參考指紋的最優(yōu)位置的判斷以組的級(jí)別而不是單獨(dú)針對(duì)每個(gè)參考指紋來(lái)進(jìn)行。例如,當(dāng)為特定一集的廣播節(jié)目生成參考指紋時(shí), 用于該集的所有參考指紋可被存儲(chǔ)在具有最低訪問(wèn)率的分區(qū)上。僅當(dāng)下一集被廣播時(shí),用于該段內(nèi)容的新創(chuàng)建的參考指紋才隨后被存儲(chǔ)在用于該集的具有相對(duì)低的訪問(wèn)率的一組分區(qū)上。作為替代,指定數(shù)目或數(shù)據(jù)大小的參考指紋可被分組在一起,以對(duì)該組將被存儲(chǔ)在數(shù)據(jù)庫(kù)中什么地方進(jìn)行定位。在一個(gè)實(shí)施例中,隨著數(shù)據(jù)庫(kù)增長(zhǎng),可能希望向該組分區(qū)添加分區(qū),而不是簡(jiǎn)單地增加現(xiàn)有分區(qū)的大小。當(dāng)分區(qū)被添加時(shí),一種在數(shù)據(jù)庫(kù)系統(tǒng)中實(shí)現(xiàn)新分區(qū)的方法將參考指紋從一個(gè)或多個(gè)現(xiàn)有分區(qū)轉(zhuǎn)移到新分區(qū)。通過(guò)這樣做,可以預(yù)計(jì),新分區(qū)的訪問(wèn)率將與現(xiàn)有分區(qū)的平均訪問(wèn)率大致相等或更低。已出于例示目的給出了發(fā)明的實(shí)施例的以上描述,但它不打算成為窮盡性的或?qū)l(fā)明限制在所公開的確切形式。相關(guān)領(lǐng)域技術(shù)人員可以理解,鑒于以上公開,可能存在很多修改和變化。本說(shuō)明書的某些部分在對(duì)信息進(jìn)行的操作的符號(hào)化表示和算法方面描述了發(fā)明的實(shí)施例。這些算法描述和表示通常被數(shù)據(jù)處理領(lǐng)域技術(shù)人員用于將他們的工作內(nèi)容有效地傳達(dá)給該領(lǐng)域其他技術(shù)人員。這些操作雖然是在功能上、計(jì)算上或邏輯上被描述的,但是應(yīng)理解,它們可由計(jì)算機(jī)程序或等同的電子電路、微代碼等來(lái)實(shí)施。另外,也已證明,在不失一般性的情況下,有時(shí)將這些操作的裝置稱為模塊比較方便。所描述的操作和它們相關(guān)的模塊可以通過(guò)軟件、固件、硬件或其任意組合來(lái)體現(xiàn)。本文描述的任何步驟、操作或處理可通過(guò)一個(gè)或多個(gè)硬件或軟件模塊、單獨(dú)或與其他設(shè)備結(jié)合地被執(zhí)行或?qū)嵤T谝粋€(gè)實(shí)施例中,軟件模塊是利用包含計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品來(lái)實(shí)施的,所述計(jì)算機(jī)可讀介質(zhì)包含可以由用于執(zhí)行所描述的任一或全部步驟、操作或處理的計(jì)算機(jī)處理器來(lái)運(yùn)行的計(jì)算機(jī)程序代碼。發(fā)明的實(shí)施例還可與用于執(zhí)行本文的操作的設(shè)備有關(guān)。該設(shè)備可針對(duì)所需目的來(lái)專門構(gòu)造,并且/或者它可包含由計(jì)算機(jī)中存儲(chǔ)的計(jì)算機(jī)程序選擇性地激活或重新配置的通用計(jì)算設(shè)備。這種計(jì)算機(jī)程序可被存儲(chǔ)在有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或任何類型的適于存儲(chǔ)電子指令并耦合到計(jì)算機(jī)系統(tǒng)總線的介質(zhì)中。此外,說(shuō)明書中所稱的任何計(jì)算系統(tǒng)可包括單個(gè)處理器或者可以是為了增加的計(jì)算能力而采用多處理器設(shè)計(jì)的架構(gòu)。發(fā)明的實(shí)施例還可與載波中包含的計(jì)算機(jī)數(shù)據(jù)信號(hào)有關(guān),其中計(jì)算機(jī)數(shù)據(jù)信號(hào)包括本文描述的計(jì)算機(jī)程序產(chǎn)品或其他數(shù)據(jù)組合的任何實(shí)施例。計(jì)算機(jī)數(shù)據(jù)信號(hào)是以有形介質(zhì)或載波存在的并且在載波中被調(diào)制或以其他方式編碼的、有形的并且根據(jù)任何適當(dāng)傳輸方法被傳輸?shù)漠a(chǎn)品。 最后,說(shuō)明書中使用的語(yǔ)言主要是出于可讀性和指導(dǎo)目的而選擇的,并且它不是為了描述或限制發(fā)明主題而選擇的。因此,希望發(fā)明的范圍不受該詳細(xì)描述的限制,而由基于此而提出申請(qǐng)的任何權(quán)利要求限制。因此,發(fā)明的實(shí)施例的公開打算例示而非限制發(fā)明的范圍,發(fā)明的范圍在所附權(quán)利要求中給出。
權(quán)利要求
1.一種用于向數(shù)據(jù)庫(kù)添加參考指紋以均衡媒體識(shí)別系統(tǒng)對(duì)數(shù)據(jù)庫(kù)的搜索負(fù)荷的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括維護(hù)包含多個(gè)分區(qū)的參考數(shù)據(jù)庫(kù),每個(gè)分區(qū)存儲(chǔ)從已知媒體樣本生成的參考指紋的集合;監(jiān)視媒體識(shí)別系統(tǒng)對(duì)分區(qū)的訪問(wèn)率;接收用于在所述參考數(shù)據(jù)庫(kù)中存儲(chǔ)一個(gè)或多個(gè)新的參考指紋的請(qǐng)求; 至少部分地基于對(duì)分區(qū)的訪問(wèn)率來(lái)選擇所述參考數(shù)據(jù)庫(kù)的分區(qū);以及將新的參考指紋存儲(chǔ)在所述參考數(shù)據(jù)庫(kù)的被選分區(qū)中。
2.根據(jù)權(quán)利要求1所述的方法,其中每個(gè)分區(qū)是邏輯地定義的所述參考數(shù)據(jù)庫(kù)的數(shù)據(jù)儲(chǔ)存庫(kù)。
3.根據(jù)權(quán)利要求1所述的方法,其中維護(hù)所述參考數(shù)據(jù)庫(kù)包括 按照參考指紋的特征來(lái)在所述數(shù)據(jù)庫(kù)中索引參考指紋;以及將具有相同被索引特征的參考指紋分組在所述參考數(shù)據(jù)庫(kù)的同一分區(qū)中。
4.根據(jù)權(quán)利要求1所述的方法,其中所述參考數(shù)據(jù)庫(kù)還包括與所述參考數(shù)據(jù)庫(kù)中的參考指紋所對(duì)應(yīng)的所述已知媒體樣本有關(guān)的元數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的方法,其中所述參考數(shù)據(jù)庫(kù)的特定分區(qū)的訪問(wèn)率包含在指定的時(shí)間段中從該分區(qū)讀取參考指紋的請(qǐng)求的數(shù)目。
6.根據(jù)權(quán)利要求1所述的方法,其中參考指紋中的一個(gè)或多個(gè)是從已知音頻樣本生成的。
7.根據(jù)權(quán)利要求1所述的方法,其中參考指紋中的一個(gè)或多個(gè)是從已知視頻樣本生成的。
8.一種用于向數(shù)據(jù)庫(kù)添加參考指紋以均衡媒體識(shí)別系統(tǒng)對(duì)數(shù)據(jù)庫(kù)的搜索負(fù)荷的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括含有計(jì)算機(jī)程序代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)程序代碼用于執(zhí)行以下操作維護(hù)包含多個(gè)分區(qū)的參考數(shù)據(jù)庫(kù),每個(gè)分區(qū)存儲(chǔ)從已知媒體樣本生成的參考指紋的集合;監(jiān)視媒體識(shí)別系統(tǒng)對(duì)分區(qū)的訪問(wèn)率;接收用于在所述參考數(shù)據(jù)庫(kù)中存儲(chǔ)一個(gè)或多個(gè)新的參考指紋的請(qǐng)求; 至少部分地基于對(duì)分區(qū)的訪問(wèn)率來(lái)選擇所述參考數(shù)據(jù)庫(kù)的分區(qū);以及將新的參考指紋存儲(chǔ)在所述參考數(shù)據(jù)庫(kù)的被選分區(qū)中。
9.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中每個(gè)分區(qū)是邏輯地定義的所述參考數(shù)據(jù)庫(kù)的數(shù)據(jù)儲(chǔ)存庫(kù)。
10.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中維護(hù)所述參考數(shù)據(jù)庫(kù)包括 按照參考指紋的特征來(lái)在所述數(shù)據(jù)庫(kù)中索引參考指紋;以及將具有相同被索引特征的參考指紋分組在所述參考數(shù)據(jù)庫(kù)的同一分區(qū)中。
11.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中所述參考數(shù)據(jù)庫(kù)還包括與所述參考數(shù)據(jù)庫(kù)中的參考指紋所對(duì)應(yīng)的所述已知媒體樣本有關(guān)的元數(shù)據(jù)。
12.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中所述參考數(shù)據(jù)庫(kù)的特定分區(qū)的訪問(wèn)率包含在指定的時(shí)間段中從該分區(qū)讀取參考指紋的請(qǐng)求的數(shù)目。
13.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中參考指紋中的一個(gè)或多個(gè)是從已知音頻樣本生成的。
14.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中參考指紋中的一個(gè)或多個(gè)是從已知視頻樣本生成的。
15.一種媒體識(shí)別系統(tǒng),包括包含多個(gè)分區(qū)的參考數(shù)據(jù)庫(kù),每個(gè)分區(qū)存儲(chǔ)從已知媒體樣本生成的參考指紋的集合;指紋匹配系統(tǒng),所述指紋匹配系統(tǒng)被配置成通過(guò)將從未知媒體樣本生成的測(cè)試指紋與所述參考數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)參考指紋相比較來(lái)匹配該未知媒體樣本;指紋生成系統(tǒng),所述指紋生成系統(tǒng)被配置成從已知媒體樣本生成新的參考指紋,并且還被配置成將新的參考指紋存儲(chǔ)在所述參考數(shù)據(jù)庫(kù)中的至少部分地基于所述指紋匹配系統(tǒng)對(duì)分區(qū)的訪問(wèn)率而選出的分區(qū)中。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中每個(gè)分區(qū)是邏輯地定義的所述參考數(shù)據(jù)庫(kù)的數(shù)據(jù)儲(chǔ)存庫(kù)。
17.根據(jù)權(quán)利要求15所述的系統(tǒng),其中維護(hù)所述參考數(shù)據(jù)庫(kù)包括用于按照參考指紋的特征來(lái)索引參考指紋的索引,其中具有相同被索引特征的參考指紋被分組在所述參考數(shù)據(jù)庫(kù)的同一分區(qū)中。
18.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述參考數(shù)據(jù)庫(kù)還包括與所述參考數(shù)據(jù)庫(kù)中的參考指紋所對(duì)應(yīng)的所述已知媒體樣本有關(guān)的元數(shù)據(jù)。
19.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述參考數(shù)據(jù)庫(kù)的特定分區(qū)的訪問(wèn)率包含在指定的時(shí)間段中從該分區(qū)讀取參考指紋的請(qǐng)求的數(shù)目。
20.根據(jù)權(quán)利要求15所述的系統(tǒng),其中參考指紋中的一個(gè)或多個(gè)是從已知音頻樣本生成的。
21.根據(jù)權(quán)利要求15所述的系統(tǒng),其中參考指紋中的一個(gè)或多個(gè)是從已知視頻樣本生成的。
全文摘要
媒體識(shí)別系統(tǒng)生成已知媒體樣本的參考指紋并將參考指紋存儲(chǔ)在參考數(shù)據(jù)庫(kù)中。媒體識(shí)別系統(tǒng)使用參考指紋來(lái)匹配從未知媒體樣本生成的指紋,以識(shí)別該未知樣本。當(dāng)在指紋數(shù)據(jù)庫(kù)中存儲(chǔ)新參考指紋時(shí),數(shù)據(jù)庫(kù)的分區(qū)被選擇以均衡當(dāng)數(shù)據(jù)庫(kù)被媒體識(shí)別系統(tǒng)使用時(shí)的數(shù)據(jù)庫(kù)上的搜索負(fù)荷。例如,被選分區(qū)可至少部分地基于媒體識(shí)別系統(tǒng)對(duì)分區(qū)的訪問(wèn)率來(lái)確定。新參考指紋將傾向于被放置在具有比其他分區(qū)相對(duì)更低的訪問(wèn)率的分區(qū)中,這將易于均衡媒體識(shí)別系統(tǒng)對(duì)分區(qū)的搜索負(fù)荷。
文檔編號(hào)G06F15/16GK102483731SQ201080024642
公開日2012年5月30日 申請(qǐng)日期2010年5月11日 優(yōu)先權(quán)日2009年6月11日
發(fā)明者亞當(dāng)·卡漢, 尼古拉斯·斯特, 約書亞·斯莫曼, 羅布·約翰遜 申請(qǐng)人:雅虎公司