專利名稱:索引和搜索特征向量空間的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種索引特征向量空間的方法,更具體地說,涉及索引高維特征向量空間的方法。另外,本發(fā)明涉及一種快速搜索通過該索引方法對具有類似于詢問向量特征的特征向量索引的特征向量空間的方法。
利用向量可以表示各種圖像或運動圖像的顏色特征或紋理(texture)特征。這些向量稱為特征向量。各特征向量在各特征向量所在的向量空間中進行索引,以便可以找出具有類似于詢問向量的特征的特征向量。
按照對于特征向量空間的常規(guī)索引方法,在索引低維特征向量空間的情況下,利用根據(jù)諸如R樹或X樹之類的樹形數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)劃分和空間分割方案。另外,在索引高維特征向量空間的情況下,利用向量近似(VA)方法。VA方法包含通過確定屬于具有相同超立方體的類似特征的各個向量索引高維特征向量空間。
但是,按照基于VA的常規(guī)索引方法在高維特征向量空間索引各個特征向量,可能花很多時間在從特征向量空間檢索類似于詢問向量的一個特征向量上。因此,仍然存在著對降低檢索所要求的時間的索引方法的需求。
為了解決上述問題,本發(fā)明的一個目的是提供一種索引特征向量空間的方法,該方法通過根據(jù)特征向量空間中的特征向量的密度自適應(yīng)地索引特征向量空間,可以降低檢索類似于詢問向量的特征向量所需時間。
本發(fā)明的另一個目的是提供一種按照該索引方法從向量空間中快速檢索具有類似于詢問向量的特征的特征向量的方法。
因此,為了實現(xiàn)上述各目的,本發(fā)明提供一種索引特征向量空間的方法,該方法包括以下步驟索引作為屬于樹結(jié)構(gòu)的子女節(jié)點的一個特殊節(jié)點稀疏地分布著各特征向量單元的一個近似范圍,同時索引由小于一個預(yù)定距離的一距離分隔開的其它稀疏地分布的近似范圍。
本發(fā)明還提供一種索引特征向量空間的方法,包括以下步驟(a)劃分特征向量空間為多個近似范圍;(b)選擇一個任意近似范圍,確定所選擇的近似范圍是稠密分布,還是稀疏分布;和(c)如果近似范圍被確定為是稀疏分布的,則索引對應(yīng)的近似范圍作為屬于樹結(jié)構(gòu)的子女節(jié)點的一個特殊節(jié)點,同時索引由小于一個預(yù)定距離的一距離分隔開的其它稀疏地分布的近似范圍。步驟(b)和(c)最好對在步驟(a)劃分的所有近似范圍重復(fù)執(zhí)行。
另外,在步驟(c)之前,如果在步驟(b)選擇的近似范圍確定為稠密分布的,則索引方法還包括步驟(c-1),索引對應(yīng)的近似范圍作為一個普通的節(jié)點,劃分該對應(yīng)的近似范圍為多個子近似范圍,并且對劃分的子近似范圍重復(fù)步驟(b)的操作。
在步驟(c)以后,該索引方法還包括以下步驟步驟(d),確定是否所有近似范圍索引作為特殊節(jié)點;步驟(e)如果所有近似范圍未被索引為特殊節(jié)點,則選擇下一個近似范圍并且對該近似范圍重復(fù)執(zhí)行在步驟(b)以后的各個步驟,以及(f)如果作為特殊節(jié)點索引所有近似范圍,則完成索引。多個近似范圍可以是用于隨機索引的子空間。作為替代,多個近似范圍可以是用于多維標定(MDS)、快速-映射、或者方位檢測混洗(locality sensitivehashing)的子空間。
如果確定近似范圍是稀疏分布的,則步驟(c)包括步驟(c′),與鄰近稀疏分布的近似范圍一起,索引該對應(yīng)的近似范圍作為屬于樹結(jié)構(gòu)的子女節(jié)點的一個特殊節(jié)點。
本發(fā)明還提供一種從通過利用樹結(jié)構(gòu)索引方法索引的向量空間中檢索具有類似于詢問向量的特征的特征向量的方法,該方法包括以下步驟索引一近似范圍,其中特征向量單元作為屬于樹結(jié)構(gòu)的子女節(jié)點的一個特殊節(jié)點稀疏地分布,同時索引通過小于預(yù)定距離的一距離分隔開的其它稀疏分布的近似范圍。該檢索方法包括以下步驟(a)確定屬于詢問向量的特殊節(jié)點;(b)設(shè)置詢問向量的一個單元與對應(yīng)于所確定的特殊節(jié)點的近似范圍中的一個單元之間的距離作為第一閾值,該確定的特殊節(jié)點最接近詢問向量的這個單元;和(c)如果該詢問向量與作為普通節(jié)點索引的近似范圍之間的距離大于或等于該第一閾值,則排除對應(yīng)節(jié)點的所有子女節(jié)點。
通過參照附圖對本發(fā)明的各優(yōu)選實施例的詳細描述,本發(fā)明的上述目的和優(yōu)點將變得更清楚,其中
圖1是表示按照本發(fā)明的一個實施例的索引特征向量空間方法的主要步驟的流程圖;圖2表示利用如圖1所示的方法索引特征向量空間的一個例子;圖3表示按照本發(fā)明的用于索引圖2的特征向量空間的樹形數(shù)據(jù)結(jié)構(gòu)的一個例子;圖4是表示從利用圖1的索引方法索引的特征向量空間中檢索具有類似詢問向量的特征的特征向量的方法的主要步驟的流程圖。
參考表示按照本發(fā)明的一個實施例的索引特征向量空間的方法的圖1,首先,該特征向量空間被劃分為多個超立方體(步驟102)。雖然這個實施例是參照特征向量空間被劃分為多個超立方體的例子描述的,但是該特征向量空間可以被劃分為這樣一些子空間,這些子空間用于諸如隨機索引、多維標定、快速-映射、或方位檢測混洗之類的更加改善的索引方案中。圖2表示利用圖2的方法索引的特征向量空間的一個例子。同時,特征向量空間中的各特征向量可以由n維向量表示,這里n是正整數(shù)。換言之,假設(shè)包含N個特征向量的數(shù)據(jù)庫是D,這里N是正整數(shù),各個特征向量可以利用在向量空間Rn中的n維向量表示。
接下來,使用樹形結(jié)構(gòu)將劃分出來的超立方體作為根節(jié)點的子女節(jié)點索引(步驟104)。該樹形結(jié)構(gòu)主要有根節(jié)點和多個由該根節(jié)點分叉而來的子女節(jié)點,它們以樹形式分類。圖3表示按照本發(fā)明的用于索引圖2的特征向量空間的樹形數(shù)據(jù)結(jié)構(gòu)的一個例子。
接下來,選擇為根節(jié)點302的各子女節(jié)點之一的任意超立方體,確定該超立方體是稠密,還是稀疏分布的(步驟106)。這里,如果根節(jié)點302是初始超立方體
n,并且該根節(jié)點的子女節(jié)點是
n的子立方體。則認為根節(jié)點302在0層。另外,根節(jié)點302的子女節(jié)點在1層,并且該根節(jié)點的子女節(jié)點的子女節(jié)點在2層。
如果在步驟106中所選擇的超立方體被確定為稠密分布的,對應(yīng)的超立方體被索引為普通節(jié)點(步驟108)并且被劃分為多個超立方體(步驟110)。另一方面,如果在步驟106中所選擇的超立方體被確定為稀疏分布的,則對應(yīng)的超立方體連同鄰近的稀疏分布的超立方體都被索引為特殊節(jié)點(步驟120)。雖然這個實施例已經(jīng)參照對應(yīng)確定為稀疏分布的超立方體并連同鄰近的稀疏分布的超立方體被索引為特殊節(jié)點的例子進行了描述,但是也可能索引對應(yīng)確定為稀疏分布的超立方體為一個特殊節(jié)點,并同時索引由小于預(yù)定距離分隔開的其它稀疏分布的超立方體為一個特殊節(jié)點。接下來,在對應(yīng)的超立方體被劃分為多個超立方體的情況下,對被劃分的每個超立方體重復(fù)步驟106以后的各個步驟。
在這個實施例中,參照圖2和3,確定為稀疏分布的超立方體202和超立方體204被索引為特殊節(jié)點304。另一方面,確定為稠密分布的超立方體206和超立方體208被分別索引為普通節(jié)點306和308。另外,確定為稠密分布的超立方體被劃分為多個子超立方體2061、2062、2063、2064。確定被劃分的子超立方體2061、2062、2063、2064是稠密的還是稀疏的,并且例如,被確定為稠密的超立方體2064被索引為普通節(jié)點310。另一方面,確定為稀疏的超立方體2061、2062、2063被索引為一個特殊節(jié)點312。確定為稠密的分布的超立方體2064再次被劃分為多個子超立方體2064-1、2064-2、2064-3、2064-4。接下來,確定所劃分的子超立方體2064-1、2064-2、2064-3、2064-4是稠密還是稀疏分布的,并且確定為稠密分布的立方體2064-1被索引為普通節(jié)點。確定為稠密分布的立方體2064-1再次被劃分為多個子超立方體,在這種情況下所有被劃分的立方體被確定為是稀疏分布的并且索引為普通節(jié)點314。另一方面,確定為稀疏分布的立方體2064-2、2064-3、2064-4被索引為特殊節(jié)點316。
現(xiàn)在,確定是否所有超立方體都被索引為特殊節(jié)點(步驟130),如果未確定所有節(jié)點都被索引為特殊節(jié)點,則選擇下一個立方體(步驟132),以重復(fù)執(zhí)行步驟106以后的各個步驟。另一方面,如果確定所有超立方體都被索引為特殊節(jié)點,則索引完成。
亦即,返回圖2,確定為稠密分布的超立方體208被劃分為多個子超立方體2081、2082、2083、2084。接下來,確定被劃分的子超立方體2081、2082、2083、2084是稠密還是稀疏分布的,并且確定為稠密分布的超立方體2081被索引為普通節(jié)點。但是,超立方體2081再次被劃分為多個子超立方體,在這種情況下,所有被劃分的立方體都被確定為稀疏分布的并且被索引為普通節(jié)點318。另一方面,確定為稀疏分布的立方體2082、2083、2084被索引為特殊節(jié)點320。
現(xiàn)在將描述在按照上述方法索引的特征向量空間中檢索具有類似于詢問向量的特征的特征向量的方法。圖4是表示在由圖1所示特征向量空間索引方法索引的特征向量空間中檢索具有類似于詢問向量特征的特征向量的方法的主要步驟流程圖。下面,在對應(yīng)于數(shù)據(jù)庫D的特征向量空間Rn中的一個詢問向量被表示為q,并且假設(shè)該詢問向量q位于按照
n定義的特征空間中,這里n是表示用于描述特征向量的特征向量空間的維數(shù)的一個正整數(shù)。在上述假設(shè)下,執(zhí)行下面的各步驟,以便找到最接近于詢問向量q的該數(shù)據(jù)庫的單元,也就是說一個特征向量。
第一,確定屬于該詢問向量q的一個特殊節(jié)點(步驟402)。然后,設(shè)置詢問向量q的一個單元與對應(yīng)于所確定的特殊節(jié)點的超立方體中最接近于該詢問向量的單元的一個單元之間的距離為e(步驟404)。從根節(jié)點302的各個子女節(jié)點中任意選擇一個節(jié)點,確定所選的節(jié)點是特殊節(jié)點還是普通節(jié)點(步驟410)。換言之,假設(shè)詢問向量位于對應(yīng)于索引樹的某個超立方體(ai、bi)n中,確定該詢問向量是在稠密分布節(jié)點還是在稀疏節(jié)點中。如果在步驟410中確定所選節(jié)點是普通節(jié)點,詢問向量q與被索引為普通節(jié)點的超立方體nor之間的距離dor是利用等式(1)計算的(步驟412) 這里,任意間隔a≤x≤b可以表示成對(a、b),并且超立方體 bi)可以由間隔(ai、bi)的序列表示。
接下來,確定dor是否小于e(步驟414),并且如果dor被確定為小于e,則選擇對應(yīng)的普通節(jié)點的子女節(jié)點(步驟416)。在這種情況下,如果存在一個滿足dor<e的單元,e最好是利用dor更新的。具體地,索引或搜索結(jié)構(gòu)最好被設(shè)計得僅可以迅速找到一個具有最類似詢問向量q的特征的單元。另一方面,如果dor被確定將大于或等于e,對應(yīng)節(jié)點的所有子女節(jié)點都被排除(步驟418)。
在步驟410如果所選的節(jié)點被確定為是一個特殊節(jié)點,則對應(yīng)于該節(jié)點的超立方體空間被變換為低維空間(步驟420)。亦即,在步驟410如果詢問向量q被確定位于稀疏分布的節(jié)點,則詢問向量q被投射到對應(yīng)于該詢問向量q的低維子立方體。
接下來,利用等式(2)計算詢問向量q與按照特殊節(jié)點索引的超立方體nSP中的每個單元v之間的距離dSP(步驟422) 接下來,將滿足dor<e的各單元作為侯選單元確定(步驟424)。在這種情況下,雖然未在圖4表示出,但最好是,如果存在滿足dor<e的單元,則e利用dSP更新的。具體地,索引或搜索結(jié)構(gòu)最好被設(shè)計得僅可以迅速找到一個具有最類似于詢問向量q的特征的單元。
接下來,確定是否對所有特殊節(jié)點執(zhí)行搜索(步驟430),如果未確定搜索所有特殊節(jié)點,則選擇下一個節(jié)點(步驟432),然后循環(huán)地執(zhí)行步驟410以后的各步驟。另一方面,如果確定所有特殊節(jié)點將被搜索,則確定預(yù)定各單元作為最后找到的各單元(步驟440)。
按照上述檢索方法,如果詢問向量q與一個單元之間的距離dor大于或等于作為詢問向量q與對應(yīng)于該詢問向量q屬于的特殊節(jié)點的超立方體中的一個單元之間的最接近距離確定的預(yù)定閾值e,則對應(yīng)節(jié)點的所有子女節(jié)點被從相似性搜索中排除,并且對應(yīng)于從所有被排除的子女節(jié)點分叉的各節(jié)點的各超立方體中止將被利用在對于詢問向量q的相似性測量中。再有,通過重復(fù)更新使用在相似性測量中的預(yù)定閾值e可以提供快速檢索。
也就是說,通過按照本發(fā)明的特征向量空間索引方法索引高維特征向量空間能夠以通暢和高效的方式支持諸如相似性搜索、檢索或瀏覽的功能。因此,即使數(shù)據(jù)庫的規(guī)模增加,對于相似性搜索和檢索所要求的時間也不會增加太多。
另外,按照本發(fā)明的索引和搜索特征向量空間的方法可以寫成在個人計算機或者服務(wù)器計算機上執(zhí)行的程序。工業(yè)界的計算機程序員可以很容易地推斷構(gòu)成該程序的程序碼和碼段。另外,該程序可以存儲在計算機可讀記錄介質(zhì)上。該記錄介質(zhì)包括磁記錄介質(zhì)、光記錄介質(zhì)和聲介質(zhì)。
權(quán)利要求
1.一種索引利用樹結(jié)構(gòu)的特征向量空間的方法,該方法包括索引其中各個特征向量單元按照屬于樹數(shù)據(jù)結(jié)構(gòu)的子女節(jié)點的一個特殊節(jié)點稀疏地分布的近似范圍的步驟,同時索引由小于預(yù)定距離的一個距離分隔開的其它稀疏分布的近似范圍。
2.一種索引特征向量空間的方法,包括以下步驟(a)劃分特征向量空間為多個近似范圍;(b)選擇一個任意近似范圍,確定所選擇的近似范圍是稠密分布的還是稀疏分布的;和(c)如果確定近似范圍是稀疏分布的,則索引該近似范圍作為屬于樹數(shù)據(jù)結(jié)構(gòu)的子女節(jié)點的一個特殊節(jié)點,同時索引由小于預(yù)定距離的一個距離分隔開的其它稀疏分布的近似范圍。
3.權(quán)利要求2的方法,其中對在步驟(a)中劃分的所有近似范圍重復(fù)地執(zhí)行步驟(b)和(c)。
4.權(quán)利要求2或3的方法,如果在步驟(b)中選擇的近似范圍確定為稠密分布,則在步驟(c)之前還包括步驟(c-1),索引對應(yīng)的近似范圍為一個普通節(jié)點,劃分該對應(yīng)的近似范圍為多個子近似范圍,并且對劃分的各個子近似范圍重復(fù)步驟(b)。
5.權(quán)利要求4的方法,其中對在步驟(a)中劃分的所有近似范圍執(zhí)行步驟(b)和(c)。
6.權(quán)利要求2或3的方法,其中在步驟(c)以后,還包括步驟(d)確定是否所有近似范圍都索引為特殊節(jié)點;(e)如果所有近似范圍未都被索引為特殊節(jié)點,則選擇下一個近似范圍,并且對該近似范圍重復(fù)執(zhí)行步驟(b)以后的各個步驟;和(f)如果所有近似范圍都被索引為特殊節(jié)點,則完成索引。
7.權(quán)利要求2的方法,其中多個近似范圍是用于隨機索引的子空間。
8.權(quán)利要求2的方法,其中多個近似范圍是用于多維標定、快速-映射、或者方位檢測混洗的子空間。
9.權(quán)利要求2的方法,其中如果近似范圍被確定為稀疏分布的,則步驟(c)包括步驟(c′),連同鄰近的稀疏分布的近似范圍一起索引對應(yīng)的近似范圍為屬于樹數(shù)據(jù)結(jié)構(gòu)的子女節(jié)點一個特殊節(jié)點。
10.一種從由利用樹結(jié)構(gòu)索引方法索引的向量空間中檢索具有類似于詢問向量的特征的特征向量的方法,包括索引其中特征向量單元為稀疏分布的近似范圍為屬于樹數(shù)據(jù)結(jié)構(gòu)的的子女節(jié)點的一個特殊節(jié)點的步驟,同時索引由小于預(yù)定距離的一個距離分隔開的其它稀疏分布的近似范圍,該檢索方法包括以下步驟(a)確定詢問向量屬于的特殊節(jié)點;(b)設(shè)置詢問向量的一個單元與對應(yīng)于所確定的特殊節(jié)點的近似范圍中的一個單元之間的距離作為第一閾值,該確定的特殊節(jié)點最接近于詢問向量的該單元,和(c)如果詢問向量與被索引為普通節(jié)點的近似范圍之間的距離大于或等于第一閾值,則排除該對應(yīng)節(jié)點的所有子女節(jié)點。
11.權(quán)利要求10的方法,在步驟(c)之前還包括步驟(c′),從一個根節(jié)點的各個子女節(jié)中選擇一個任意節(jié)點并且確定該選擇的節(jié)點是特殊節(jié)點還是普通節(jié)點。
12.權(quán)利要求11的方法,其中如果步驟(c′)所選擇的節(jié)點被確定為普通節(jié)點,則步驟(c)包括步驟(c-1)通過以下等式計算詢問向量qor與按照普通節(jié)點索引的近似范圍nor之間的距離dor (c-2)確定是否詢問向量q與按照普通節(jié)點索引的近似范圍nor之間的距離dor小于第一閾值;(c-3)如果詢問向量qor與按照普通節(jié)點索引的近似范圍nor之間的距離dor小于第一閾值,則選擇該對應(yīng)的節(jié)點各個子女節(jié)點;和(c-4)如果詢問向量qor與按照普通節(jié)點索引的近似范圍nor之間的距離dor大于或等于第一閾值,則排除該對應(yīng)節(jié)點的所有子女節(jié)點。
13.權(quán)利要求12的方法,如果距離dor小于第一閾值,在步驟(c-2)之后,還包括利用距離dor更新第一閾值的步驟。
14.權(quán)利要求11的方法,在步驟(c′)以后,如果所選擇的節(jié)點在步驟(c′)中被確定為是一個特殊節(jié)點,則還包括變換對應(yīng)于特殊節(jié)點的近似范圍的空間為低維空間的步驟。
15.權(quán)利要求12的方法,在步驟(c′)以后,還包括以下步驟(c-5)如果在步驟(c′)選擇的節(jié)點被確定為特殊節(jié)點,則變換對應(yīng)于該節(jié)點的近似范圍的空間為低維空間;(c-6)按以下等式計算詢問向量q與按照特殊節(jié)點索引的近似范圍nsp中的每個單元v之間的距離dsp 和(c-7)確定滿足距離dsp小于該第一閾值要求的單元作為侯選單元。
16.權(quán)利要求15的方法,在步驟(c-7)以后,如果存在滿足距離dsp小于第一閾值要求的單元,則還包括利用距離dsp更新第一閾值的步驟。
17.權(quán)利要求12或15的方法,還包括以下步驟確定是否所有的特殊節(jié)點都被搜索;如果所有節(jié)點未被搜索完,選擇下一個節(jié)點以重復(fù)執(zhí)行(c-1)以后的各個步驟;如果所有特殊節(jié)點都被搜索,則確定最后找到的單元作為單元的預(yù)定數(shù)目。
全文摘要
提供一種索引高維向量空間的方法。該索引方法包括以下步驟:(a)劃分特征向量空間為多個近似范圍;(b)選擇任意頭發(fā)近似范圍確定所選擇的近似范圍是稠密分布的還是稀疏分布的;和(c)如果該近似范圍確定為稀疏分布的,則索引對應(yīng)的近似范圍為屬于樹數(shù)據(jù)結(jié)構(gòu)的子女節(jié)點的一個特殊節(jié)點,同時索引由小于預(yù)定距離的一個距離分隔開的其它稀疏分布的近似范圍。該高維特征向量空間可以支持諸如相似性搜索之類的功能。因此即使數(shù)據(jù)庫規(guī)模增加,也不會過份增加相似性搜索和檢索所需時間。
文檔編號G06F17/16GK1352432SQ0110496
公開日2002年6月5日 申請日期2001年2月26日 優(yōu)先權(quán)日2000年11月15日
發(fā)明者崔良林, 許永植, B·S·曼朱納思, 西夫·錢德拉塞卡倫 申請人:三星電子株式會社, 加利福尼亞大學(xué)董事會