專利名稱:高精度的類似檢索系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及檢索與所輸入的非結(jié)構(gòu)化數(shù)據(jù)類似的數(shù)據(jù)的方法以及系統(tǒng)。
背景技術(shù):
將對于所輸入的圖像、動畫、音樂、文書、ニ進制數(shù)據(jù)、生物信息等非結(jié)構(gòu)化數(shù)據(jù),檢索與其類似的非結(jié)構(gòu)化數(shù)據(jù)稱為類似檢索。一般通過從原始的非結(jié)構(gòu)化數(shù)據(jù)(以后稱為原始數(shù)據(jù))提取為了距離計算(或者類似度計算)而使用的被稱為特征量的信息,表示特征量之間的不一致程度的距離越小(或者,表示特征量之間的一致程度的類似度大),則看作越類似來進行類似檢索。將特征量之間的距離(或者類似度)稱為得分。例如,有如下方法計算在檢索時所輸入的原始數(shù)據(jù)(以后稱為檢索用數(shù)據(jù))和數(shù)據(jù)庫中已注冊的原始數(shù)據(jù)(以后稱為注冊用數(shù)據(jù))之間的距離(或者類似度),按照距離從 小到大(或者類似度從大到小)的順序選擇K個注冊用數(shù)據(jù),作為檢索結(jié)果來輸出與其相關(guān)的信息的方法(k-Nearest Neighbor Search);或者作為檢索結(jié)果來輸出與距離(或者類似度)小于(或者大于)閾值r的注冊用數(shù)據(jù)相關(guān)的信息的方法(Range Search) 0此時,當(dāng)把注冊用數(shù)據(jù)的總數(shù)設(shè)為N吋,在對于全部注冊用數(shù)據(jù)計算得分吋,需要N次得分計算。一般,在得分計算中需要較多的時間,所以如果注冊用數(shù)據(jù)的數(shù)量N増加,則需要與其大致成比例的檢索時間。與此相對,提出了如下的距離索引(Distance-basedIndexing):預(yù)先計算好注冊用數(shù)據(jù)之間的得分,使用這些來決定用于計算得分的注冊用數(shù)據(jù)的選擇順序,中途停止與注冊用數(shù)據(jù)的得分的計算,由此削減計算得分的次數(shù)。例如,在E. CHAVEZ,K. FI⑶EROA and G. NAVARRO, “Effective ProximityRetrieval by ordering Permutations,, ΕΕΕ Trans, on Pattern Analysis and MachineIntelligence, Vol. 30,No. 9,pp. 1647-1658(2008)(非專利文獻 I)中,在檢索前從 N 個注冊用數(shù)據(jù)例如隨機地選擇M個(M<N)的注冊用數(shù)據(jù)(以后稱為關(guān)鍵數(shù)據(jù)(pivot)),計算各注冊用數(shù)據(jù)與各關(guān)鍵數(shù)據(jù)之間的距離,實際用該距離來對于每個注冊用數(shù)據(jù)求出檢索時所使用的矢量(以后稱為第一索引用矢量),計算出檢索時所輸入的檢索用數(shù)據(jù)和各關(guān)鍵數(shù)據(jù)之間的距離,求出檢索用數(shù)據(jù)的第二索引用矢量之后,以第一和第二索引用矢量之間的距離成為從小到大的順序的方式?jīng)Q定其余的注冊用數(shù)據(jù)(以后稱為非關(guān)鍵數(shù)據(jù)(non-pivot))的選擇順序。在非專利文獻I中求出按照距離從小到大的順序排列了關(guān)鍵數(shù)據(jù)的ID的矢量來作為索引用矢量。
在非專利文獻I中,以第一和第二索引用矢量之間的距離成為從小到大的方式?jīng)Q定了非關(guān)鍵數(shù)據(jù)的選擇順序。但是,在該方法中,在中途停止了與非關(guān)鍵數(shù)據(jù)的得分的計算時,與來自檢索用數(shù)據(jù)的得分小于閾值r無關(guān)地,不計算得分而結(jié)束(即、漏檢索)的減少非關(guān)鍵數(shù)據(jù)的個數(shù)的期待值的觀點,即在檢索的精度觀點上有改進的余地。非專利文獻E.CHAVEZ,K. FIGUEROA and G. NAVARRO,“Effective ProximityRetrieval by ordering Permutations,,’IEEE Trans, on Pattern Analysis and MachineIntelligence, Vol. 30, No. 9,pp.1647-1658(2008)
發(fā)明內(nèi)容
本發(fā)明的目的在于,使沒有計算得分而漏檢索的非關(guān)鍵數(shù)據(jù)的個數(shù)的期待值理論上最小化。為了實現(xiàn)上述目的,本發(fā)明的特征在于,具備關(guān)鍵數(shù)據(jù)決定部,其根據(jù)注冊用數(shù)據(jù)決定關(guān)鍵數(shù)據(jù);原始數(shù)據(jù)取得部,其取得原始數(shù)據(jù);特征量提取部,其從所述原始數(shù)據(jù)提取特征量;得分計算部,其計算作為所述特征量之間的距離或類似度的得分;索引用矢量生成部,其使用針對所述關(guān)鍵數(shù)據(jù)的所述得分,生成索引用矢量;△得分計算部,其計算作為所述索引用矢量之間的距離或類似度的△得分;各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部,其使用學(xué)習(xí)用數(shù)據(jù),學(xué)習(xí)包含回歸系數(shù)的各非關(guān)鍵數(shù)據(jù)的參數(shù);非關(guān)鍵數(shù)據(jù)選擇順序決定部,其使用所 輸入的檢索用數(shù)據(jù)和所述非關(guān)鍵數(shù)據(jù)的所述△得分和所述回歸系數(shù),通過數(shù)理邏輯回歸按照事后概率從大到小的順序來決定所述非關(guān)鍵數(shù)據(jù)的選擇順序;檢索結(jié)果輸出部,其根據(jù)所述檢索用數(shù)據(jù)和所述注冊用數(shù)據(jù)的所述得分,輸出檢索結(jié)果;以及數(shù)據(jù)庫,其保存所述注冊用數(shù)據(jù)的所述特征量、記錄了所述注冊用數(shù)據(jù)中的哪一個是所述關(guān)鍵數(shù)據(jù)的關(guān)鍵數(shù)據(jù)信息、由所述各非關(guān)鍵數(shù)據(jù)的所述索引用矢量構(gòu)成的索引、以及所述各非關(guān)鍵數(shù)據(jù)的參數(shù)。根據(jù)本發(fā)明,使用各非關(guān)鍵數(shù)據(jù)的回歸系數(shù),通過數(shù)理邏輯回歸來按照事后概率從大到小的順序決定非關(guān)鍵數(shù)據(jù)的選擇順序。由此能夠與來自檢索用數(shù)據(jù)的得分小于閾值r無關(guān)地,使未計算得分而漏檢索的非關(guān)鍵數(shù)據(jù)的個數(shù)的期待值在理論上最小化。結(jié)果,得到精度大幅度提高的效果。
圖I是表示本發(fā)明的第一實施方式的功能結(jié)構(gòu)的框圖。圖2是表示本發(fā)明的第一、第二實施方式的硬件結(jié)構(gòu)的框圖。圖3是表示本發(fā)明的第一實施方式的注冊處理的流程圖。圖4是表示本發(fā)明的第一、第二實施方式的輔助信息生成處理的流程圖。圖5是表示本發(fā)明的第一實施方式的檢索處理的流程圖。圖6時表示特征量空間和索引的概要圖。 圖7是表示本發(fā)明的第二實施方式的功能結(jié)構(gòu)的框圖。圖8是表述本發(fā)明的第二實施方式的注冊處理的流程圖。圖9是表示本發(fā)明的第二實施方式的檢索處理的流程圖。符號說明100注冊終端101原始數(shù)據(jù)取得部102 通信 I/F103組ID、用戶名取得部104特征量提取部200服務(wù)器終端201關(guān)鍵數(shù)據(jù)決定部202特征量提取部
203得分計算部204索引用矢量生成部205 Λ得分計算部206各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部207非關(guān)鍵數(shù)據(jù)選擇順序決定部 208檢索結(jié)果輸出部209 通信 I/F209a組縮小部210數(shù)據(jù)庫220 主數(shù)據(jù)(master data)221 組 ID230注冊信息231注冊用數(shù)據(jù)ID232原始數(shù)據(jù)233特征量234 用戶名240輔助信息241關(guān)鍵數(shù)據(jù)信息242 索引250各非關(guān)鍵數(shù)據(jù)參數(shù)251索引用矢量大小252回歸系數(shù)300客戶終端301原始數(shù)據(jù)取得部302 通信 I/F303組ID取得部304特征量提取部400 網(wǎng)絡(luò)500CPU501存儲器502HDD503輸入裝置504輸出裝置505通信裝置
具體實施例方式實施例I以下,參照
第一實施方式。本實施方式的類似檢索系統(tǒng)是用戶輸入圖像,系統(tǒng)從檢索服務(wù)器終端內(nèi)的數(shù)據(jù)庫檢索類似的圖像的類似圖像檢索系統(tǒng)。也可以代替圖像來使用動畫、音樂、文書、二進制數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。在本實施方式的類似檢索系統(tǒng)中,使用彩色直方圖作為圖像的特征量,使用特征量之間的歐幾里得距離作為得分。在本實施方式的類似檢索系統(tǒng)中,預(yù)先從N個注冊數(shù)據(jù)選擇M個作為關(guān)鍵數(shù)據(jù)。作為關(guān)鍵數(shù)據(jù)的選擇方法,例如有隨機選擇的方法。然后,計算剩余的各注冊數(shù)據(jù)(各非關(guān)鍵數(shù)據(jù))和各關(guān)鍵數(shù)據(jù)的得分,據(jù)此對于各非關(guān)鍵數(shù)據(jù)求出用于檢索的第一索引用矢量。檢索時,計算所輸入的檢索用數(shù)據(jù)和各關(guān)鍵數(shù)據(jù)的得分,據(jù)此求出檢索用數(shù)據(jù)的第二索引用矢量。索引用矢量是不需直接求出得分而知道各非關(guān)鍵數(shù)據(jù)和檢索用數(shù)據(jù)的位置關(guān)系的成為線索的矢量。一般檢索用數(shù)據(jù)和各注冊用數(shù)據(jù)的得分計算需要較多的時間,但通過使用索引用矢量之間的距離(或者類似度)(以后稱為△得分)決定非關(guān)鍵數(shù)據(jù)的選擇順序,進行T( < N-M)次與非關(guān)鍵數(shù)據(jù)的得分計算之后(Τ是系統(tǒng)管理者等預(yù)先決定的上限值),在中途停止與非關(guān)鍵數(shù)據(jù)的得分計算,可以削減計算得分的次數(shù)(即、高速地進行檢索)。索引用矢量可以是由與各關(guān)鍵數(shù)據(jù)的得分構(gòu)成的矢量(以后稱為得分矢量),也可以是按照距離(或類似度)從小到達(或從大到小)的順序排列了關(guān)鍵數(shù)據(jù)ID的矢量(以后稱為排列矢量)。將匯總各非關(guān)鍵數(shù)據(jù)的第一索引用矢量稱為索引。圖6中表示特征量空間中的檢索用數(shù)據(jù)Q和各注冊用數(shù)據(jù)XpX2.....Xn的例子。
其中,Xp X2.....Xm表示關(guān)鍵數(shù)據(jù),XM+1、X +2.....Xn表示非關(guān)鍵數(shù)據(jù)。在此形成了兩個聚
類(cluster),各個聚類的距離較大。此外,特征量的維數(shù)非常高,計算特征量之間的得分需要較多的時間。在圖6(al) (a2)中表示分別使用得分矢量、排列矢量來作為索引用矢量時的檢索用數(shù)據(jù)的第二索引用矢量和索引的例。但是,使用特征量之間的歐幾里得距離來作為得分。例如,在圖6(al)中,XM+1和X1的得分為70,XM+1的得分矢量SM+1成為SM+1 = (70,28,1053,...,43)τ。此外,在圖6(a2)中,XM+1和各關(guān)鍵數(shù)據(jù)的得分中實現(xiàn)最小的得分的關(guān)鍵數(shù)據(jù)成為 X2, X +1 成為 TM+1 = (X2, Xsh,· · ·,Χ3)τ。此外,作為Λ得分(索引用矢量之間的距離或類似度),使用得分矢量來作為索引用距離時,例如考慮市區(qū)距離、歐幾里得距離,在使用排列矢量時,例如考慮斯皮爾曼相關(guān)系數(shù)(Spearman Rho)等。此外,可以將從作為距離來取得的值的最大值減去上述的距離而得的值等作為類似度。例如,在使用得分矢量作為索引用矢量,使用歐幾里得距離作為△得分的情況下,將檢索用數(shù)據(jù)的得分矢量S,、注冊用數(shù)據(jù)Xi的得分矢量Si之間的歐幾里得距離設(shè)為De(Sq、Si)時,用如下公式I表不。公式I
權(quán)利要求
1.ー種類似檢索系統(tǒng),其特征在干, 具備 關(guān)鍵數(shù)據(jù)決定部,其根據(jù)注冊用數(shù)據(jù)決定關(guān)鍵數(shù)據(jù); 原始數(shù)據(jù)取得部,其取得原始數(shù)據(jù); 特征量提取部,其從所述原始數(shù)據(jù)提取特征量; 得分計算部,其計算作為所述特征量之間的距離或類似度的得分; 索引用矢量生成部,其使用針對所述關(guān)鍵數(shù)據(jù)的所述得分,生成索引用矢量; △得分計算部,其計算作為所述索引用矢量之間的距離或類似度的△得分; 各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部,其使用學(xué)習(xí)用數(shù)據(jù),學(xué)習(xí)包含回歸系數(shù)的各非關(guān)鍵數(shù)據(jù)的參數(shù); 非關(guān)鍵數(shù)據(jù)選擇順序決定部,其使用檢索用數(shù)據(jù)和所述非關(guān)鍵數(shù)據(jù)的所述△得分和所述回歸系數(shù),通過數(shù)理邏輯回歸按照事后概率從大到小的順序來決定所述非關(guān)鍵數(shù)據(jù)的選擇順序; 檢索結(jié)果輸出部,其根據(jù)所述檢索用數(shù)據(jù)和所述注冊用數(shù)據(jù)的所述得分,輸出檢索結(jié)果;以及 數(shù)據(jù)庫,其保存所述注冊用數(shù)據(jù)的所述特征量、記錄了所述注冊用數(shù)據(jù)中的哪ー個是所述關(guān)鍵數(shù)據(jù)的關(guān)鍵數(shù)據(jù)信息、由所述各非關(guān)鍵數(shù)據(jù)的所述索引用矢量構(gòu)成的索引、以及所述各非關(guān)鍵數(shù)據(jù)的參數(shù)。
2.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部,學(xué)習(xí)包含索引用矢量大小的各非關(guān)鍵數(shù)據(jù)的參數(shù)。
3.根據(jù)權(quán)利要求2所述的類似檢索系統(tǒng),其特征在干, 所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部,以誤差函數(shù)盡可能變小的方式學(xué)習(xí)包含所述索引用矢量大小的各非關(guān)鍵數(shù)據(jù)的所述參數(shù)。
4.根據(jù)權(quán)利要求2所述的類似檢索系統(tǒng),其特征在干, 所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部,在所述索引的大小成為某一定值以下時,以針對所述非關(guān)鍵數(shù)據(jù)的誤差函數(shù)的總和盡可能變小的方式學(xué)習(xí)包含所述索引用矢量大小的各非關(guān)鍵數(shù)據(jù)的所述參數(shù)。
5.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部,通過最大事后概率估計來學(xué)習(xí)所述各非關(guān)鍵數(shù)據(jù)的所述參數(shù)。
6.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部,通過最大似然估計來學(xué)習(xí)所述各非關(guān)鍵數(shù)據(jù)的所述參數(shù)。
7.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部,對于所述各非關(guān)鍵數(shù)據(jù),計算與所述學(xué)習(xí)用數(shù)據(jù)的Λ得分,使用所述△得分來選擇用于學(xué)習(xí)的所述學(xué)習(xí)用數(shù)據(jù)。
8.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部使用所述注冊用數(shù)據(jù)作為所述學(xué)習(xí)用數(shù)據(jù)。
9.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干,所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部使用區(qū)別于所述注冊用數(shù)據(jù)預(yù)先準(zhǔn)備的數(shù)據(jù)作為所述學(xué)習(xí)用數(shù)據(jù)。
10.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 所述各非關(guān)鍵數(shù)據(jù)參數(shù)學(xué)習(xí)部對所述非關(guān)鍵數(shù)據(jù)進行分類歸并,以得到的每個分類共用所述參數(shù)的一部分或者全部的方式學(xué)習(xí)所述各非關(guān)鍵數(shù)據(jù)的所述參數(shù)。
11.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 所述索引用矢量生成部生成作為所述索引用矢量的排列矢量。
12.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 所述索引用矢量生成部生成作為所述索引用矢量的得分矢量。
13.根據(jù)權(quán)利要求I所述的類似檢索系統(tǒng),其特征在干, 具有使用組ID進行縮小所述注冊用數(shù)據(jù)的組縮小部, 所述數(shù)據(jù)庫保存所述組ID。
14.ー種高精度的類似檢索方法,是通過注冊終端對從客戶機終端發(fā)送來的原始數(shù)據(jù)進行類似檢索的服務(wù)器終端中的高精度的類似檢索方法,其特征在干, 生成由從所述原始數(shù)據(jù)提取出的特征量構(gòu)成的注冊用數(shù)據(jù); 從所述注冊用數(shù)據(jù)選擇關(guān)鍵數(shù)據(jù); 計算作為所述特征量之間的距離或類似度而定義的得分; 使用針對所述關(guān)鍵數(shù)據(jù)的所述得分來生成索引用矢量; 計算作為所述索引用矢量之間的距離或類似度而定義的△得分; 使用預(yù)先準(zhǔn)備的學(xué)習(xí)用數(shù)據(jù),學(xué)習(xí)包含沒有被從所述注冊用數(shù)據(jù)中選擇為所述關(guān)鍵數(shù)據(jù)的各非關(guān)鍵數(shù)據(jù)的回歸系數(shù)的參數(shù); 使用所輸入的檢索用數(shù)據(jù)和所述非關(guān)鍵數(shù)據(jù)的所述△得分和所述回歸系數(shù),通過數(shù)理邏輯回歸按照事后概率從大到小的順序來決定所述非關(guān)鍵數(shù)據(jù)的選擇順序; 根據(jù)所述檢索用數(shù)據(jù)和所述注冊用數(shù)據(jù)的所述得分,輸出檢索結(jié)果;以及將所述注冊用數(shù)據(jù)的所述特征量、記錄了所述注冊用數(shù)據(jù)中的哪ー個是所述關(guān)鍵數(shù)據(jù)的關(guān)鍵數(shù)據(jù)信息、由所述各非關(guān)鍵數(shù)據(jù)的所述索引用矢量構(gòu)成的索引、以及所述各非關(guān)鍵數(shù)據(jù)的參數(shù)保存在數(shù)據(jù)庫中。
15.根據(jù)權(quán)利要求14所述的高精度的類似檢索方法,其特征在干, 在決定所述選擇順序時,使用所述學(xué)習(xí)用數(shù)據(jù)學(xué)習(xí)包含所述回歸系數(shù)的各非關(guān)鍵數(shù)據(jù)的參數(shù),使用所述檢索用數(shù)據(jù)和所述非關(guān)鍵數(shù)據(jù)的所述△得分和所述回歸系數(shù),通過數(shù)理邏輯回歸按照事后概率從大到小的順序來決定所述非關(guān)鍵數(shù)據(jù)的選擇順序。
全文摘要
本發(fā)明提供一種高精度的類似檢索系統(tǒng)。通過關(guān)鍵數(shù)據(jù)決定部來從注冊用數(shù)據(jù)決定關(guān)鍵數(shù)據(jù),取得原始數(shù)據(jù),從所述原始數(shù)據(jù)提取特征量,計算作為所述特征量之間的距離或類似度的得分,使用與所述關(guān)鍵數(shù)據(jù)對應(yīng)的所述得分生成索引用矢量,計算作為所述索引用矢量之間的距離或類似度的Δ得分,使用學(xué)習(xí)用數(shù)據(jù)學(xué)習(xí)包含回歸系數(shù)的各非關(guān)鍵數(shù)據(jù)的參數(shù),使用檢索用數(shù)據(jù)和所述非關(guān)鍵數(shù)據(jù)的所述Δ得分和所述回歸系數(shù),通過數(shù)理邏輯回歸來按照事后概率從大到小的順序決定所述非關(guān)鍵數(shù)據(jù)的選擇順序,根據(jù)所述檢索用數(shù)據(jù)和所述注冊用數(shù)據(jù)的所述得分,輸出檢索結(jié)果。
文檔編號G06F17/30GK102693258SQ20121002888
公開日2012年9月26日 申請日期2012年2月9日 優(yōu)先權(quán)日2011年2月28日
發(fā)明者村上隆夫, 高橋健太 申請人:株式會社日立制作所