專利名稱:用于組織數(shù)據(jù)的系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)庫系統(tǒng),并且,更具體地,涉及一種用于在數(shù)據(jù)庫系統(tǒng)中組織和/或查找數(shù)據(jù)的系統(tǒng)與方法。
計算機(jī)化數(shù)據(jù)庫系統(tǒng)已經(jīng)被使用了很長時間,并且其基本概念已經(jīng)廣為人知。在C.J.DATE,INTRODUCTION TO DATABASESYSTEMS(Addison Wesley,第6版,1994)中可以找到對數(shù)據(jù)庫系統(tǒng)很好的介紹。
通常,數(shù)據(jù)庫系統(tǒng)被設(shè)計為以數(shù)據(jù)庫中的數(shù)據(jù)有用的方式組織、儲存并檢索數(shù)據(jù)。例如,數(shù)據(jù)或數(shù)據(jù)的分區(qū)集合可以被搜索、排序、組織和/或與其他數(shù)據(jù)組合。在很大程度上,一個特定數(shù)據(jù)庫系統(tǒng)的有用性取決于在該數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)的完整性(即準(zhǔn)確性和/或正確性)。數(shù)據(jù)完整性受到所儲存數(shù)據(jù)的“混亂”程度的影響?;靵y可能會以錯誤或不完全的數(shù)據(jù)的形式出現(xiàn),如重復(fù)的數(shù)據(jù)、破碎的數(shù)據(jù)、錯誤的數(shù)據(jù)等。在許多數(shù)據(jù)庫系統(tǒng)中,有時現(xiàn)有的數(shù)據(jù)可能會被編輯并處理,結(jié)果就可能會引發(fā)額外的錯誤。在某些數(shù)據(jù)庫系統(tǒng)中,新數(shù)據(jù)可能被引入。此外,由于數(shù)據(jù)庫系統(tǒng)被升級到新的硬件和/或軟件,可能需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換,或者必不可少的附加字段。而在某些應(yīng)用中,數(shù)據(jù)庫中的數(shù)據(jù)可能只是過時了。
不管采用什么樣的預(yù)防步驟,某種程度的混亂最終還是被引入了傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)中。這種混亂程度隨著時間以指數(shù)增長,直到最后在一個傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)變得完全無用了。作為結(jié)果,即使一個很小程度的混亂最終也會影響數(shù)據(jù)庫系統(tǒng)的完整性。
不幸的是,在大型數(shù)據(jù)庫系統(tǒng)中,在數(shù)據(jù)中識別并糾正混亂經(jīng)常是困難的任務(wù),即便不是不可能的任務(wù)。傳統(tǒng)上,這樣的任務(wù)是人工完成的,從而使得這些任務(wù)變得消耗時間、昂貴并且受到人為錯誤的影響。進(jìn)而,由于該任務(wù)的這種性質(zhì),大量的混亂可能未被檢測出來。所需要的是一種用于在一個數(shù)據(jù)庫系統(tǒng)中組織數(shù)據(jù)系統(tǒng)和方法,來克服這些及其他關(guān)聯(lián)的問題。
本發(fā)明提供了一種用于在一個數(shù)據(jù)庫系統(tǒng)中組織數(shù)據(jù)的系統(tǒng)與方法。本發(fā)明從由一個或多個原始數(shù)據(jù)源提取出的原始數(shù)據(jù)中導(dǎo)出一個準(zhǔn)確數(shù)據(jù)的提取(distilled)數(shù)據(jù)庫。原始數(shù)據(jù)被從其原始格式轉(zhuǎn)換為數(shù)據(jù)格式。
依據(jù)本發(fā)明的一個實施例,原始數(shù)據(jù)表現(xiàn)為一個具有數(shù)字元素的向量。一旦原始數(shù)據(jù)被數(shù)字化地表現(xiàn)出來,就可以在這些向量上實施各種數(shù)學(xué)運算,如關(guān)聯(lián)函數(shù)、模式識別方法或者其他類似的數(shù)字方法,以確定在一個特定向量中的內(nèi)容如何與一個“提取”的或者參考數(shù)據(jù)庫中的其他向量相對應(yīng)。該提取數(shù)據(jù)庫由一個或多個相關(guān)向量的集合構(gòu)成,他們被認(rèn)為針對其他集合是唯一的(如垂直的)。這些集合代表來自原始數(shù)據(jù)的最佳可用信息。在所有原始數(shù)據(jù)都被合并到提取數(shù)據(jù)庫中去之后,新數(shù)據(jù)可以被屏蔽,以確保新的錯誤不被引入到提取數(shù)據(jù)庫中去。新數(shù)據(jù)也可以被評估,以確定它是否是唯一的或者它是否包括比已經(jīng)出現(xiàn)在提取數(shù)據(jù)庫中的信息更好的信息。新數(shù)據(jù)從而被加入到提取數(shù)據(jù)庫中。
依據(jù)本發(fā)明的一個實施例,根據(jù)一個帶有適當(dāng)基數(shù)的數(shù)碼系統(tǒng)將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)字格式。一個適當(dāng)?shù)幕鶖?shù)是根據(jù)在原始數(shù)據(jù)中所包含的信息類型來確定的。例如,對于通常由字母-數(shù)字字符組成的原始數(shù)據(jù),一個適當(dāng)?shù)幕鶖?shù)可以是大于或等于原始數(shù)據(jù)中出現(xiàn)的不同字母-數(shù)字字符的數(shù)目。使用這樣一個數(shù)碼系統(tǒng)可以使原始數(shù)據(jù)被以數(shù)字形式表現(xiàn),允許通過各種廣為人知的數(shù)學(xué)運算來進(jìn)行操作。
依據(jù)本發(fā)明的一個實施例,該數(shù)碼系統(tǒng)可以被選擇,以便數(shù)字本身對于其所代表的原始數(shù)據(jù)保持語義上的意義。換句話說,在數(shù)碼系統(tǒng)中的數(shù)字被選擇,以使它們與原始數(shù)據(jù)相對應(yīng)。例如,當(dāng)原始數(shù)據(jù)由字母數(shù)字字符組成時,數(shù)字被選擇,以與其所代表的字母數(shù)字字符相對應(yīng)。當(dāng)數(shù)碼系統(tǒng)中的數(shù)字被隨后顯示時,它們表現(xiàn)為所代表的字母數(shù)字字符。
依據(jù)本發(fā)明的一個實施例,一旦原始數(shù)據(jù)在一個適當(dāng)?shù)臄?shù)碼系統(tǒng)中被以向量表示,則被表示的數(shù)據(jù)可以被有效地在數(shù)據(jù)庫中使用各種已知的技術(shù)進(jìn)行操作(如排序等)。進(jìn)而,可以對向量進(jìn)行各種已知的數(shù)學(xué)運算來分析數(shù)據(jù)內(nèi)容。這些數(shù)學(xué)運算可以包括關(guān)聯(lián)函數(shù)、特征向量分析、模式識別方法以及其他顯而易見的方法。
依據(jù)本發(fā)明的一個實施例,原始數(shù)據(jù)被合并到一個提取數(shù)據(jù)庫中。該提取數(shù)據(jù)庫代表從原始數(shù)據(jù)中提取的最佳數(shù)據(jù),沒有任何數(shù)據(jù)混亂。
依據(jù)本發(fā)明的一個實施例,新數(shù)據(jù)可以與該提取數(shù)據(jù)庫進(jìn)行比較,以確定該新數(shù)據(jù)是否實際上包括任何尚未出現(xiàn)在提取數(shù)據(jù)庫中的新信息或內(nèi)容。任何尚未出現(xiàn)在提取數(shù)據(jù)庫中的新信息被加入提取數(shù)據(jù)庫中而不會增加任何混亂。以這種方式,提取數(shù)據(jù)庫的完整性可以得到保持。
依據(jù)本發(fā)明,一種用于處理信息的方法包括以下步驟根據(jù)包含在信息中的一個數(shù)據(jù)元素的可能值的一個范圍來選擇一個適當(dāng)?shù)臄?shù)碼系統(tǒng),用在一個數(shù)碼系統(tǒng)中的一個數(shù)字來表示所述數(shù)據(jù)元素;以及對該數(shù)碼系統(tǒng)所代表的所述數(shù)據(jù)元素進(jìn)行運算,以處理該信息。
依據(jù)本發(fā)明的一個實施例,選擇一個適當(dāng)數(shù)碼系統(tǒng)的步驟包括選擇一個數(shù)碼系統(tǒng)的步驟,該數(shù)碼系統(tǒng)帶有一個基數(shù),該基數(shù)至少等于并且近似相同于字母數(shù)字字符“0”-“9”和“A”-“Z”的序列。
依據(jù)本發(fā)明的一個實施例,選擇一個適當(dāng)?shù)臄?shù)碼系統(tǒng)的步驟包括選擇一個帶有一個基數(shù)的數(shù)碼系統(tǒng)的步驟,該基數(shù)大于一個字母數(shù)字字符“0”-“9”和“ A”-“Z”的序列。
依據(jù)本發(fā)明的一個實施例,選擇一個適當(dāng)?shù)臄?shù)碼系統(tǒng)的步驟包括選擇一個帶有一個基數(shù)的數(shù)碼系統(tǒng)的步驟,該基數(shù)至少等于一個字母數(shù)字字符“0”-“9”、“A”-“Z”和“a”-“z”的序列。
依據(jù)本發(fā)明的一個實施例,選擇一個適當(dāng)?shù)臄?shù)碼系統(tǒng)的步驟包括選擇一個基數(shù)40數(shù)碼系統(tǒng)的步驟。
依據(jù)本發(fā)明的一個實施例,該信息包括財務(wù)信息、科學(xué)信息、工業(yè)信息或者化學(xué)信息。
權(quán)利要求16的方法,其中分配數(shù)字的步驟還包括將數(shù)碼系統(tǒng)中的數(shù)位A-Z分別分配給字母數(shù)字字符“a”-“z”。
依據(jù)本發(fā)明的一個實施例,所述比較所述向量與一個提取矩陣的步驟包括進(jìn)行一個特征向量分析,或者進(jìn)行一個模式識別分析,或者確定在所述向量與所述提取矩陣中的一個向量之間的點積,或者確定在所述向量與所述提取矩陣中的一個向量之間的叉積,或者確定所述向量與所述提取矩陣中的一個向量之間的差,或者確定所述向量與所述提取矩陣中的一個向量的和, 或者確定所述提取矩陣的一個決定因子(determinant),或者確定所述向量的一個量值(數(shù)值),或者確定所述向量的一個方向。
總的來說,本發(fā)明的特征就如在獨立權(quán)利要求中所陳述的那樣,而附屬權(quán)利要求則包括了本發(fā)明的優(yōu)選實施例。
參考下面的附圖對本發(fā)明的優(yōu)選實施例進(jìn)行了描述。在圖中,相同的參考號碼表示同樣的或者功能上相同的元素。另外,一個參考號碼最左邊的數(shù)位標(biāo)志著第一次出現(xiàn)該參考號碼的圖號。
圖1描繪了一個處理系統(tǒng),在其中可以實施本發(fā)明。
圖2描繪了由本發(fā)明的一個實施例處理數(shù)據(jù)的階段。
圖3是一個流程圖,用于依據(jù)本發(fā)明的一個實施例將原始數(shù)據(jù)從其原始格式轉(zhuǎn)換為一個數(shù)字格式。
圖4描繪了一個適于與本發(fā)明一起使用的數(shù)據(jù)記錄。
圖5描繪了適于與本發(fā)明一起使用的原始數(shù)據(jù)表。
圖6描繪了參考數(shù)據(jù)表,它表示依據(jù)本發(fā)明的一個實施例格式化的數(shù)據(jù)。
圖7是一個流程圖,用于依據(jù)本發(fā)明的一個實施例來分析參考數(shù)據(jù)。
圖8描繪了提取數(shù)據(jù)表,它表示依據(jù)本發(fā)明的一個實施例被關(guān)聯(lián)的相關(guān)數(shù)據(jù)。
圖9描繪了一個集群在一個二維空間中的數(shù)據(jù)示例。
圖10是一個流程圖,用于在一對字段向量中標(biāo)識重復(fù)數(shù)據(jù)。
圖11是一個流程圖,用于更詳細(xì)地在一對字段向量中標(biāo)識重復(fù)數(shù)據(jù)。
圖12描繪了在一對字段向量中標(biāo)識重復(fù)數(shù)據(jù)的一個示例。
本發(fā)明針對一種用于在一個數(shù)據(jù)庫系統(tǒng)中組織數(shù)據(jù)的系統(tǒng)與方法。下面將針對不同的示例性實施例來對本發(fā)明進(jìn)行描述,特別是針對不同的數(shù)據(jù)庫應(yīng)用。然而,顯而易見地,本發(fā)明的不同特性可以被擴(kuò)展到其他領(lǐng)域。通常,本發(fā)明可以被應(yīng)用于許多數(shù)據(jù)庫應(yīng)用中,其中有大量可能不相關(guān)的數(shù)據(jù)必須被編譯、儲存、操作、和/或分析,以便確定存在于該數(shù)據(jù)所代表的內(nèi)容中的不同關(guān)系。更具體地,本發(fā)明提供了一種方法,用于實現(xiàn)并維護(hù)一個數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)完整性,即使在該數(shù)據(jù)開始就具有一種較高的混亂程度的情況下。正如這里所使用的,混亂是指重復(fù)的、錯誤的、不完全的、不正確的、虛假的或者非正確的或多余的數(shù)據(jù)?;靵y可以以許多顯而易見的方式出現(xiàn)在數(shù)據(jù)庫系統(tǒng)中。
本發(fā)明的一個實施例被用于維護(hù)一個與應(yīng)收賬款相聯(lián)系的數(shù)據(jù)庫。在這個實施例中,一個公司可以從一個或多個來源收集關(guān)于不同個人、企業(yè)和/或賬戶的數(shù)據(jù)。這些來源可以包括,例如,信用卡公司、金融機(jī)構(gòu)、銀行、零售商和批發(fā)公司以及此類來源。當(dāng)這些來源中的每一個都可以提供多種賬戶的數(shù)據(jù)時,每個來源可以根據(jù)其自身需要提供代表不同信息的數(shù)據(jù)。進(jìn)而,可以以完全不同的方式來組織這種數(shù)據(jù)。例如,一個批發(fā)分銷商可能具有對應(yīng)于與公司賬戶相應(yīng)的應(yīng)收款的數(shù)據(jù)。這種數(shù)據(jù)可以按賬號來組織,每個數(shù)據(jù)記錄具有標(biāo)識一個賬號、一個與該賬號關(guān)聯(lián)的公司、一個該公司的地址和該賬戶所欠數(shù)額的數(shù)據(jù)字段。一個零售公司可以具有代表類似信息的數(shù)據(jù)記錄,但它是基于與個人以及公司相應(yīng)的賬戶的。
在本發(fā)明的其他實施例中,其他類型的來源可以提供不同的數(shù)據(jù)類型。例如,科研機(jī)構(gòu)可以提供針對不同研究領(lǐng)域的科學(xué)數(shù)據(jù)。工業(yè)公司可以提供針對原始材料、制造、生產(chǎn)和/或供應(yīng)的工業(yè)數(shù)據(jù)。法院或其他類型的法律機(jī)構(gòu)可以提供針對法律狀態(tài)、判決、破產(chǎn)和/或扣押物的法律數(shù)據(jù)。顯而易見地,本發(fā)明可以使用來自多種來自的數(shù)據(jù)。
在本發(fā)明的另一個實施例中,一個數(shù)據(jù)庫可以被維護(hù),以實現(xiàn)一個綜合計賬與訂單控制系統(tǒng)。除了來自與上述來源相似的來源的信息之外,本實施例可以包括與庫存相應(yīng)的數(shù)據(jù)記錄、與庫存供應(yīng)商相應(yīng)的數(shù)據(jù)記錄、以及與庫存采購者相應(yīng)的數(shù)據(jù)記錄。庫存數(shù)據(jù)可以按部件號碼來組織,每個數(shù)據(jù)記錄具有標(biāo)識內(nèi)部部件號碼、外部部件號碼(即供應(yīng)商部件號碼)、手頭的數(shù)量、期望發(fā)出的數(shù)量、期望接收的數(shù)量、批發(fā)價及零售價的多個數(shù)據(jù)字段。供應(yīng)商數(shù)據(jù)可以按一個供應(yīng)商號碼來組織;而客戶數(shù)據(jù)可以按一個客戶號碼來組織。與這些記錄中的每一個相應(yīng)的數(shù)據(jù)記錄可以包括標(biāo)識部件號碼、部件價格、訂購數(shù)量、發(fā)貨數(shù)據(jù)及其他此類信息的多個數(shù)據(jù)字段。
本發(fā)明的另一個實施例可以包括一個企業(yè)存儲系統(tǒng),該系統(tǒng)將公司信息從多個不同的來源統(tǒng)一在一起,并且使該信息在公司網(wǎng)絡(luò)上對用戶可用,不論數(shù)據(jù)類型、生成數(shù)據(jù)的計算機(jī)類型、或者請求數(shù)據(jù)的計算機(jī)類型。本發(fā)明的又一個實施例包括一個商業(yè)情報系統(tǒng),它儲存及推銷信息,并且允許該信息被在線處理及分析。
本發(fā)明使從不同來源收集的原始數(shù)據(jù)可以被分析并提取為一個準(zhǔn)確數(shù)據(jù)集合、以對一個特定應(yīng)用有用的方式對其進(jìn)行組織。使用上例的一個綜合計賬與訂單控制系統(tǒng),下面會對其進(jìn)行更全面的解釋,本發(fā)明可以產(chǎn)生一個提取數(shù)據(jù)庫,其中相關(guān)數(shù)據(jù)如與一個特定供應(yīng)商或者客戶相關(guān)的數(shù)據(jù)可以被如此標(biāo)識。在這個例子中,與相同供應(yīng)商或客戶相應(yīng)的重復(fù)數(shù)據(jù)可以被識別出來和/或丟棄,而與供應(yīng)商或者客戶相關(guān)聯(lián)的錯誤數(shù)據(jù)可以被識別、分析并可能被糾正。
總的來說,本發(fā)明可以實施在硬件或軟件中,或者兩者的組合中。理想地,本發(fā)明被實施為一種軟件程序,它在一個可編程處理系統(tǒng)中執(zhí)行,該處理系統(tǒng)包括一個處理器、一個數(shù)據(jù)存儲系統(tǒng)以及輸入輸出設(shè)備。在圖1中描繪了這樣一個系統(tǒng)100的示例。系統(tǒng)100可以包括一個處理器110、一個存儲器120、一個存儲設(shè)備130、以及一個I/O控制器140,它們通過一個處理器總線150彼此相連。I/O控制器140還通過一個I/O總線160與不同的輸入與輸出設(shè)備相連,例如鍵盤170、鼠標(biāo)180和顯示器190。顯然,其他組件可以包括在系統(tǒng)100中。
圖2描繪了本發(fā)明處理數(shù)據(jù)的不同形式。原始數(shù)據(jù)210可以從一個或多個來源收集,如原始數(shù)據(jù)210A與原始數(shù)據(jù)210B。如這里所使用的,“原始數(shù)據(jù)”只是代表實際上從一個特定來源接收的數(shù)據(jù)。顯然,原始數(shù)據(jù)210的附加來源可以被包括在其中。如下面解釋的那樣,來自不同來源的原始數(shù)據(jù)210最好被轉(zhuǎn)換為一種數(shù)字格式并儲存在一個參考數(shù)據(jù)庫220中。使用這里稱為“數(shù)據(jù)透析”的一種處理,本發(fā)明“凈化”原始數(shù)據(jù)210來形成參考數(shù)據(jù)庫220中的參考數(shù)據(jù)。參考數(shù)據(jù)庫220包括在原始數(shù)據(jù)210中存在的所有信息,包括重復(fù)的、不完全的、不一致的及錯誤的數(shù)據(jù)。
儲存在一個提取數(shù)據(jù)庫230中的提取數(shù)據(jù)是從參考數(shù)據(jù)庫220的參考數(shù)據(jù)導(dǎo)出的。提取數(shù)據(jù)代表原始數(shù)據(jù)210可用的“準(zhǔn)確”數(shù)據(jù)。提取數(shù)據(jù)庫230包括在原始數(shù)據(jù)210中存在的唯一信息。提取數(shù)據(jù)因而代表了原始數(shù)據(jù)210可用的最佳信息。
仍然如下面所解釋的那樣,本發(fā)明還為使用提取數(shù)據(jù)庫230來分析并驗證新數(shù)據(jù)240作了準(zhǔn)備,這也可以被用于在適當(dāng)?shù)臅r候更新參考數(shù)據(jù)庫220和提取數(shù)據(jù)庫230。
雖然本發(fā)明有大量的實施例,為了闡明其描述,在一個綜合計賬與訂單控制系統(tǒng)的環(huán)境中,參考圖3-8解釋一個優(yōu)選實施例。在該實施例中,原始數(shù)據(jù)210是收集自不同來源的一個數(shù)據(jù)集合,如訂單處理、發(fā)貨、接收、應(yīng)付款與應(yīng)收款等。這種原始數(shù)據(jù)210可以包括相關(guān)但具有不同數(shù)據(jù)字段的數(shù)據(jù)記錄、重復(fù)數(shù)據(jù)記錄、具有一個或多個錯誤數(shù)據(jù)字段的數(shù)據(jù)記錄等。為了找出這種錯誤,本發(fā)明將原始數(shù)據(jù)210從其初始格式與數(shù)據(jù)結(jié)構(gòu)(這可能根據(jù)來源而有所不同)轉(zhuǎn)換為一個數(shù)字格式并將這個參考數(shù)據(jù)儲存在參考數(shù)據(jù)庫220中。
依據(jù)本發(fā)明,參考數(shù)據(jù)隨后被比較并分析,以提取出可用的最佳信息。在本發(fā)明的一個實施例中,該最佳信息可以被儲存為在提取數(shù)據(jù)庫230中的提取數(shù)據(jù)?,F(xiàn)在開始描述該過程。
收集原始數(shù)據(jù)圖3描繪了依據(jù)本發(fā)明的一個實施例,原始數(shù)據(jù)210被轉(zhuǎn)換為參考數(shù)據(jù)庫220中的參考數(shù)據(jù)的過程。在步驟310,原始數(shù)據(jù)210是從一個原始數(shù)據(jù)源收集的。如圖2中所繪,原始數(shù)據(jù)210可以包括來自一個或多個來源的數(shù)據(jù),如原始數(shù)據(jù)210A與原始210B。如這里所使用的那樣,“數(shù)據(jù)”是指信息物理上的數(shù)字表現(xiàn),而數(shù)據(jù)“內(nèi)容”是指其意義,其中所包含或者由該數(shù)據(jù)所代表的信息。在原始數(shù)據(jù)210中的不同記錄可以包括相似類型的數(shù)據(jù)內(nèi)容。例如,在計賬環(huán)境中,原始數(shù)據(jù)210中的不同記錄可以全都包括與一個特定賬戶相關(guān)的數(shù)據(jù)內(nèi)容。
原始數(shù)據(jù)210將典型地被以數(shù)據(jù)記錄400的形式接收,如圖4所繪。每個數(shù)據(jù)記錄400一般包括相關(guān)信息,如對于一個特定個人、公司或者賬戶的信息。每個數(shù)據(jù)記錄400在一個或多個數(shù)據(jù)字段410中儲存這種信息??赡艿臄?shù)據(jù)字段410的示例包括,例如,一個賬號、姓、名、公司名稱、賬戶余額等。然后每個數(shù)據(jù)字段410可以包括一個或多個數(shù)據(jù)元素420,它們用于代表關(guān)于該特定記錄與特定字段的信息。數(shù)據(jù)元素420可以以不同格式存在,例如字母數(shù)字、數(shù)字、ASCII(美國信息交換標(biāo)準(zhǔn)碼)以及EBCDIC(擴(kuò)充二-十進(jìn)制交換碼),或者其他表現(xiàn)形式也是顯而易見的。從不同來源收集的原始數(shù)據(jù)210可以被有差別地格式化。數(shù)據(jù)記錄400可以包括不同數(shù)據(jù)字段410,而包含在數(shù)據(jù)字段410中的信息可以使用數(shù)據(jù)元素420以不同格式來表示,這也是顯而易見的。
在圖5的原始數(shù)據(jù)表510、520和530中對原始數(shù)據(jù)210的示例進(jìn)行的說明。數(shù)據(jù)記錄,如數(shù)據(jù)記錄510-1與數(shù)據(jù)記錄510-2被描繪為原始數(shù)據(jù)表510、520和530的行,而數(shù)據(jù)字段510-A、與數(shù)據(jù)字段510-B被描繪為原始數(shù)據(jù)表510、520和530的列。數(shù)據(jù)字段或者數(shù)據(jù)記錄都能夠被認(rèn)為是普通數(shù)學(xué)向量或者張量,并因面可以被操作。圖5中所描繪的表是可能存在于本發(fā)明不同實施例中的數(shù)據(jù)的示例。在另一個實施例中,數(shù)據(jù)可以來自許多來源并且可以被格式化為具有更大數(shù)目的數(shù)據(jù)記錄和/或數(shù)據(jù)字段的數(shù)據(jù)庫,這是顯而易見的。
轉(zhuǎn)換為數(shù)字格式參考圖3,在步驟320中,本發(fā)明將原始數(shù)據(jù)210從其初始表現(xiàn)形式(可能是數(shù)字字母、數(shù)字、ASCII、EBCDIC或者其他類似格式)轉(zhuǎn)換為一種數(shù)字表現(xiàn)形式。這保證了參考數(shù)據(jù)是以相同的方式被表現(xiàn)的。于是,參考數(shù)據(jù),包括不同來源的數(shù)據(jù)在內(nèi),可以被同樣地進(jìn)行處理。
依據(jù)本發(fā)明,原始數(shù)據(jù)210被從其初始表現(xiàn)形式轉(zhuǎn)換為一種適當(dāng)?shù)臄?shù)字表現(xiàn)形式。一種適當(dāng)?shù)臄?shù)字表現(xiàn)形式使用一個數(shù)碼系統(tǒng),其中數(shù)據(jù)元素420的每個可能值可以用該數(shù)碼系統(tǒng)中的一個唯一數(shù)字或值來表示。換句話說,選擇一個用于該數(shù)碼系統(tǒng)的基數(shù),以使該基數(shù)至少與對于一個特定數(shù)據(jù)元素的可能值的數(shù)目一樣大。例如,在一個用于檢測核酸中的腺嘌呤(A)、鳥嘌呤(G)、胞核嘧啶(C)與胸腺嘧啶(T)的核苷酸序列的生物技術(shù)應(yīng)用中,每個數(shù)據(jù)元素可以是僅有的四種值中的一種A、G、C與T。在這樣一種應(yīng)用中,關(guān)于該數(shù)碼系統(tǒng)的基數(shù)為4,就足以用一個唯一數(shù)字來代表每個數(shù)據(jù)元素。一個這樣的數(shù)碼系統(tǒng)可以包括數(shù)碼A、G、C與T。在本發(fā)明的某些實施例中,可以期望使用一個基數(shù),它至少比數(shù)據(jù)元素420的不同可能值數(shù)目大1,以便提供一個空字段的數(shù)碼。在這種情況下,例如數(shù)碼系統(tǒng)可以包括數(shù)碼A、G、C、T與^,其中^是空字段值。
依據(jù)本發(fā)明的一個優(yōu)選實施例,原始數(shù)據(jù)210中的數(shù)據(jù)元素420由字符組成,例如字母數(shù)字字符。在該優(yōu)選實施例中,選擇基數(shù)40來代表字母數(shù)字字符,如下表所示。
(注意需要一個最小為36的基數(shù)。)這個基數(shù)被選定來容納10個數(shù)字字符“0”-“9”和26個字母字符“A”-“Z”,以及允許若干附加字符。在本實施例中,不區(qū)分大小寫字母。
如表1所示,基數(shù)40數(shù)碼系統(tǒng)包括數(shù)碼0-9,接著是A-Z,再接著是4個附加數(shù)碼。這些數(shù)碼中的一個被用于表示一個空字段。這個數(shù)碼被用于表示為空或者沒有值(與0值不同)的數(shù)據(jù)字段410。其他數(shù)碼可以被使用,例如,用來表示其他信息類型,如空格;或者被用作控制信息。
表1基數(shù)40格式中原始數(shù)據(jù)210的表現(xiàn)形式具有許多好處。一個好處是原始數(shù)據(jù)210可以用一種數(shù)字方式來表示,有助于直接進(jìn)行數(shù)學(xué)操作。另一個好處是正確地選擇基數(shù)與數(shù)碼系統(tǒng)中的數(shù)字可以使所代表的內(nèi)容保持語義意義,有助于以其數(shù)字格式的表現(xiàn)形式來識別原始數(shù)據(jù)210的內(nèi)容。例如,4個字母字符“J”“O”“H”“N”來表示的單詞“JOHN”可以在不同數(shù)碼系統(tǒng)中被表示。一個這樣的數(shù)碼系統(tǒng)是一個基數(shù)40數(shù)碼系統(tǒng)。使用表1,以一個基數(shù)40數(shù)碼系統(tǒng)來表示字母數(shù)字字符“JOHN”可以得到“四十進(jìn)制”值’JOHN’, 它等同于十進(jìn)制值1,255,103(19*403+24*402+17*401+23*400,其中基數(shù)40的’J’等于十進(jìn)制的19等)。注意,基數(shù)10數(shù)碼丟失了來自原始數(shù)據(jù)210的語義意義,而基數(shù)40數(shù)碼保留了語義意義,如數(shù)碼’JOHN’可被識別為內(nèi)容“JOHN”。語義意義提供了一種數(shù)字表現(xiàn)形式的好處,而同時保持了傳達(dá)語義內(nèi)容的能力。
在本發(fā)明的某些實施例中,一個基數(shù)及其相應(yīng)數(shù)碼系統(tǒng)的選擇可以取決于處理器110所使用的位數(shù)。處理器110使用的位數(shù)以及為數(shù)碼系統(tǒng)選定的基數(shù)規(guī)定了能夠被處理器110中的一個數(shù)據(jù)字所表示的數(shù)碼字符。這種關(guān)系由下列等式?jīng)Q定N=B*ln(2)/ln(R)其中N是處理器110的一個數(shù)據(jù)字所表示的全部字符的數(shù)目,B是每個數(shù)據(jù)字的位數(shù),而R是所選的基數(shù)。這種關(guān)系限制了可以裝入一個數(shù)據(jù)字中的原始數(shù)據(jù)210的數(shù)據(jù)元素420的數(shù)目。例如,在一臺32位機(jī)器中,可以裝入一個使用基數(shù)40數(shù)碼系統(tǒng)的數(shù)據(jù)字中的最大字符數(shù)目為6(32*ln(2)/ln(40)=6.013)??梢匝b入一個使用基數(shù)41數(shù)碼系統(tǒng)的數(shù)據(jù)字中的最大字符數(shù)目只有5(32*ln(2)/ln(41)=5.973)。于是,在本發(fā)明的某些實施例中,除了具有一個大到足夠保持語義的基數(shù)之外,該基數(shù)還可以被選擇,以使單個數(shù)據(jù)字所表示的字符數(shù)目最大化,和/或有助于根據(jù)各種不同的處理器的優(yōu)點或特別設(shè)計進(jìn)行快速數(shù)學(xué)運算。在原始數(shù)據(jù)由字母數(shù)字字符組成的實施例中,一個適當(dāng)?shù)幕鶖?shù)可以從36到40。這個范圍保持了語義意義并使32位數(shù)據(jù)字所表示的字符數(shù)目最大化。在本發(fā)明的其他實施例中,其他類型的原始數(shù)據(jù)和其他大小的數(shù)據(jù)字可以規(guī)定其他適當(dāng)?shù)幕鶖?shù)范圍。
本發(fā)明上述的實施例并不區(qū)分大小寫字符。然而,本發(fā)明的其他實施例可以區(qū)分這些類型的字符。因此,為了區(qū)分這些字符,顯然一種基數(shù)64的表示法(“0”-“9”,“A”-“Z”,“a”-“z”,以及兩個其他值)是合適的。
在每個數(shù)據(jù)字段410中的數(shù)據(jù)元素420還規(guī)定在處理器110中表示的數(shù)碼所需的精度。如上所述,對于在一個32位機(jī)器中的單精度運算來說,每個數(shù)據(jù)字段410寬度可以只有6個字符或者數(shù)據(jù)元素420。在本發(fā)明的某些實施例中,這可能是不夠的。在這些實施例中,可能需要兩倍、三倍或者甚至是四倍精度來將整個數(shù)據(jù)字段410表示為一個單一值。雙倍精度數(shù)碼對于最高12個字符的數(shù)據(jù)字段410是足夠的;三倍精度數(shù)碼對于最高18個字符是足夠的;而四倍精度數(shù)碼對于最高24個字符是足夠的。
本發(fā)明的替換實施例可以通過將一個大型數(shù)據(jù)字段斷開為一個或多個更小的數(shù)據(jù)字段來容納大型數(shù)據(jù)字段。大型數(shù)據(jù)字段可以在自然邊界被切斷,如由空格定義的邊界。例如,一個表示“ 123 West Main Street”這樣一個地址的數(shù)據(jù)字段可以被斷開為4個更小的數(shù)據(jù)字段’123’,‘West’,‘Main’,和’Street’。大型數(shù)據(jù)字段也可以在數(shù)據(jù)字邊界被切斷。在上面的地址示例中,更小的數(shù)據(jù)字段可以是’123We’,’st\Mai’,‘n\Stre’,和’et’,其中數(shù)碼’\’被用于表示一個空格。顯然,本發(fā)明的其他實施例可以以其他方式來容納大型數(shù)據(jù)字段。
數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換如圖3中所示,在步驟330,被表示為一個數(shù)碼的原始數(shù)據(jù)210被儲存在一個預(yù)定的數(shù)據(jù)結(jié)構(gòu)中。在本發(fā)明的一個實施例中,這個數(shù)據(jù)結(jié)構(gòu)是一個單字段表,如圖6的表610-670所示。這種數(shù)據(jù)結(jié)構(gòu)可以是多樣的。例如,在本發(fā)明的其他實施例中,取代單字段表,該數(shù)據(jù)結(jié)構(gòu)可以是一個多字段表。在這些實施例中,數(shù)據(jù)結(jié)構(gòu)可以實施為一些標(biāo)準(zhǔn)特性,例如表頭和索引,如下面要詳細(xì)解釋的那樣,還可以包括對每個記錄的概率值。這些概率值代表該記錄中的數(shù)據(jù)是完全的可能性。更高的概率值可以表示完全性概率,而更低的概率值同樣地可以表示更低的完全性概率。這會在下面進(jìn)一步詳細(xì)描述。一開始,概率值被設(shè)為0。其他實施例也可以包括鍵數(shù)碼或者標(biāo)識數(shù)碼來幫助進(jìn)行排序并維護(hù)數(shù)據(jù)記錄之間的關(guān)系。
在本發(fā)明的一個優(yōu)選實施例中,圖5中描繪的原始數(shù)據(jù)210包括三個表510、520和530。表510可以代表來自例如一個公司的應(yīng)收款系統(tǒng)的原始數(shù)據(jù)210。表510的各列代表對于賬號、姓、名字的開頭字母的數(shù)據(jù)字段和用于列出為一個特定個人處理的不同訂單的附加字段。表510的各行(如510-1和510-2)代表對于不同個人的數(shù)據(jù)記錄。表520和530可以代表由信用卡公司維護(hù)的原始數(shù)據(jù)210。表520和530的各列代表對于賬號、姓、名和地址的數(shù)據(jù)字段。表520和530的各行代表對于特定賬戶的數(shù)據(jù)記錄。
在優(yōu)選實施例中,步驟330將原始數(shù)據(jù)210從圖5中所示的格式轉(zhuǎn)換為圖6中所示的格式。圖6描繪了從圖5的不同原始數(shù)據(jù)表510、520、530組合出的原始數(shù)據(jù)210,它被表示為一個基數(shù)40數(shù)碼系統(tǒng)中的數(shù)碼,并且被格式化為新表(表610-670),這些共同組成參考數(shù)據(jù)庫220。
每個參考數(shù)據(jù)庫表610-670與一個來自圖5的原始數(shù)據(jù)表510、520和530的單獨的字段相對應(yīng)。更明確地,參考數(shù)據(jù)表610-670的數(shù)據(jù)記錄對應(yīng)于原始數(shù)據(jù)表510的數(shù)據(jù)記錄,跟著是原始數(shù)據(jù)表520的數(shù)據(jù)記錄,跟著是原始數(shù)據(jù)表530的數(shù)據(jù)記錄。在本發(fā)明的一個實施例中,其中一個原始數(shù)據(jù)表記錄沒有關(guān)于在一個參考表610-670中表示的一個特定數(shù)據(jù)字段410的信息,則一個空字段值被輸入到參考表中的該字段中。例如,表510的第一數(shù)據(jù)記錄510-1沒有關(guān)于地址的信息,于是一個空字段值被置入表670的第一位置。
數(shù)據(jù)最好是以這樣的方式儲存在參考數(shù)據(jù)庫220中,即使所有對應(yīng)于原始數(shù)據(jù)表中的一個單一數(shù)據(jù)記錄的數(shù)據(jù)很容易被識別出來。在圖5和6中表示的實施例中,例如,對應(yīng)于原始數(shù)據(jù)表(表510、520、530)的任何特定數(shù)據(jù)記錄最好在參考表610-670中被表示為儲存在跨參考表610-670的索引i中的數(shù)字?jǐn)?shù)據(jù)的一個“向量”。例如,對應(yīng)于原始數(shù)據(jù)表520的第六條記錄520-6(描繪為屬于“Jennifer Brown”的賬號“A60”,住在“51 Fourth Street”)在參考數(shù)據(jù)庫表610-670中被表示為一個向量,它具有由表610-670的第十條記錄610-10、620-10、630-10、640-10、650-10、660-10和670-10構(gòu)成的系數(shù)。
如圖6中所示,參考數(shù)據(jù)庫220包括一個新表610,它并不與圖5中所示的原始數(shù)據(jù)210中的任何數(shù)據(jù)字段410相對應(yīng)。這個表是一個“鍵表”,它標(biāo)識在這些數(shù)據(jù)向量中的相關(guān)數(shù)據(jù)。如下面所述,由圖6中所示的表組成的參考數(shù)據(jù)庫220可以包括對于數(shù)據(jù)字段的附加鍵表。這些可以包括個人識別號碼(“PIDN”)、賬戶識別號碼(“AIDN”)、或者其他類型的識別號碼。這些鍵表或者識別號碼可以被用于識別在參考數(shù)據(jù)庫220中相關(guān)數(shù)據(jù)向量的集合。
在本例中,鍵表610具有一個單一字段“PIDN”,其代表個人識別號碼。鍵表610提供一個唯一標(biāo)識符,這樣一個特定的PIDN號碼永遠(yuǎn)不會指向原始數(shù)據(jù)210中表示的一個以上的個人。換句話說,PIDN號碼反映了這樣的事實,即原始數(shù)據(jù)210中的多條記錄可以指向相同的個人。
理想地,鍵表610中的每條數(shù)據(jù)記錄一開始就對應(yīng)于原始數(shù)據(jù)表510、520和530表示的一條不同的數(shù)據(jù)記錄。例如,在圖6中,鍵表610中的數(shù)據(jù)記錄610-10被這樣實施,使它包括對于參考表620-670中相應(yīng)數(shù)據(jù)的標(biāo)識符(如指針或索引),這些共同對應(yīng)于原始數(shù)據(jù)表520中的一條單一記錄520-6。
一開始,雖然一個單一的PIDN并未指向多個個人,而一個單一個人可以對應(yīng)于多個PIDN。例如,在圖6中,向量4(由PIDN4定義)與向量9(由PIDN9定義)看來指向相同的個人,而如所描繪的那樣,這個個人一開始就被分配給兩個PIDN號碼一PIDN4和PIDN9。如下所述,本發(fā)明支持對PIDN4和PIDN9是否事實上指向相同個人進(jìn)行一個判斷,并且,如果是的話,就向該個人分配一個單一PIDN。替換地,某些實施例可以分配一個新PIDN號碼給被如此判斷的個人,并且可以保留對舊PIDN號碼的一個參照。
如上所述,在本實施例中,記錄在參考數(shù)據(jù)庫表610-670中被表現(xiàn)為向量,它們具有跨8個單字段表的基數(shù)40數(shù)碼系數(shù)。該數(shù)字表示法允許使用直接數(shù)學(xué)運算對數(shù)據(jù)進(jìn)行分析,該數(shù)學(xué)運算被用于,例如,產(chǎn)生關(guān)聯(lián)、計算特征向量、執(zhí)行不同的坐標(biāo)變換、并應(yīng)用不同的模式識別分析。然后,這些運算可以被用于提供或者導(dǎo)出關(guān)于記錄及其相互關(guān)系的信息。通過使用小型的單字段表,這些運算可以被快速執(zhí)行。另外,如將要描繪的那樣,對包括字母數(shù)字字符的原始數(shù)據(jù)210的基數(shù)40數(shù)碼表示法使得原始數(shù)據(jù)210的內(nèi)容保留了其語義意義。
數(shù)據(jù)透析回過來參考圖2,一旦參考數(shù)據(jù)庫220如圖6中所示被生成,一個數(shù)據(jù)透析處理700被應(yīng)用,以提取出最準(zhǔn)確的數(shù)據(jù),從而將其包括在提取數(shù)據(jù)庫230中?,F(xiàn)在參考圖7來描述數(shù)據(jù)透析700。
參考數(shù)據(jù)分區(qū)在步驟710中,最好根據(jù)某些準(zhǔn)則將參考數(shù)據(jù)庫220分區(qū)或排序為多個集合。這些排序準(zhǔn)則可以是多樣的。例如,如圖8的表810中所示,在本實施例中,可以根據(jù)姓將數(shù)據(jù)記錄排序為多個集合,其值按數(shù)碼升序排列(記起原始數(shù)據(jù)的內(nèi)容現(xiàn)在在參考數(shù)據(jù)庫220中被表現(xiàn)為基數(shù)40數(shù)碼)。表810是從圖6中所繪的參考數(shù)據(jù)庫表620導(dǎo)出的,表810的每個條目是由一個唯一的姓氏來定義的并且具有與該姓氏相匹配的表620記錄的相應(yīng)集合。在所述的表示法中,表810包括一個字段,用于定義該集合(在這種情況下是一個姓氏),以及該集合成員的標(biāo)識符(如索引、指針或者其他適當(dāng)?shù)膮⒖肌@里是PIDN)。
在本發(fā)明的某些實施例中,不是參考數(shù)據(jù)庫220中所有的向量都將具有該字段的數(shù)據(jù),其中集合是基于該字段的。這種向量可以以各種方式進(jìn)行處理。例如,在參考數(shù)據(jù)庫220中,所有沒有該數(shù)據(jù)字段數(shù)據(jù)的向量可以被看作一個單一的附加集合的成員。替換地,參考數(shù)據(jù)庫220中,每個沒有該數(shù)據(jù)字段數(shù)據(jù)的向量可以被看作其自身集合的單一成員。
識別重復(fù)數(shù)據(jù)回到圖7,在步驟720中,在被識別為重復(fù)的分區(qū)集合之內(nèi)的數(shù)據(jù)記錄被標(biāo)記出來。在本發(fā)明的某些實施例中,重復(fù)數(shù)據(jù)可能是不必要的并且可以被丟棄。在其他實施例中,所有信息保留中參考數(shù)據(jù)庫220中,因為所有信息,即使是錯誤的、不完全的或者重復(fù)的信息也可能要好于沒有信息,并且可能對于某些目的來說是有用的,如識別欺詐或偷竊。
在本發(fā)明的某些實施例中,比較一對向量可以識別出重復(fù)現(xiàn)象。顯然,可以使用各種不同的運算。在一個簡單的示例中,可以執(zhí)行一個直接向量減法來測量兩條記錄之間的相似程度。其他技術(shù)也可以使用,以識別重復(fù)向量,例如使用“查找”表來識別普通名稱、昵稱、縮寫等。
圖8的表810描繪的是,姓氏“Smith”對應(yīng)于PIDN2、4、8、9和11,表示由圖6中所繪的參考數(shù)據(jù)庫表610-670的條目2、4、8、9和11構(gòu)成的向量對于PIDN2[SMITH,J,98-002,A40,A60,^]對于PIDN4[SMITH,J,98-004,A50,B10,^]對于PIDN8[SMITH,Jennifer,^,A40,^,300 Pine St.]對于PIDN9[SMITH,John,^,A50,^,37 Hunt Dr.]對于PIDN11[SMITH,Jhon,^,B10,^,85 Belmont Ave.]比較向量的向量(或矩陣)運算以及用于確定何時兩個條目足夠相似以至可以被認(rèn)定為重復(fù)的閾值可以針對不同實施例進(jìn)行適當(dāng)?shù)亩x。在一個簡單的示例中,一對向量的相應(yīng)系數(shù)之間的絕對差可以顯示相應(yīng)的記錄對之間的相似性。如果一個第一向量與一個第二向量任意字段不是不一致的,則這對向量可以被認(rèn)為是重復(fù)的,并且不提供任何附加數(shù)據(jù)。在本實施例中,附加規(guī)則也會被定義,例如,為比較不同長度的條目(如對應(yīng)于數(shù)字的右對齊字符串、以及對應(yīng)字母的左對齊字符串),為了一般地識別單詞的拼寫錯誤或者拼寫變體,以及為了識別單詞中順序顛倒的字母。顯然,這種處理可以通過各種機(jī)制來進(jìn)行。在圖8的表810的示例中,沒有數(shù)據(jù)記錄是嚴(yán)格的重復(fù)的,所以在步驟720中沒有進(jìn)行標(biāo)記。
數(shù)據(jù)相關(guān)(Correlating)回到圖7,在步驟730中,本發(fā)明的優(yōu)選實施例對保留在每個集合內(nèi)的數(shù)據(jù)記錄進(jìn)行相關(guān),并且在步驟740中,進(jìn)一步將數(shù)據(jù)記錄分區(qū)為獨立的數(shù)據(jù)記錄子集。一般來說,兩個向量之間的相關(guān)是對一個與另一個的關(guān)聯(lián)有多么緊密的一種度量,具體的相關(guān)方法根據(jù)預(yù)期的應(yīng)用會有所不同。對于相關(guān)函數(shù)的一般描述與示例可以在參考材料中找到,如NUMERICAL RECIPES IN C;THE ART OF SCIENTIFICCOMPUTING(劍橋大學(xué)出版社,第二版,1992),William H.Press等著。其他技術(shù)與示例可以在Donald E.Knuth所著的THE ART OFCOMPUTER PROGRAMMING(Addison-Wesley Pub.,1998)中找到。
作為一個示例,向量之間相關(guān)的一種簡單度量是其點積,它可以被賦與適當(dāng)?shù)臋?quán)值。根據(jù)該應(yīng)用,可以只對向量系數(shù)的一個子集計算點積,或者可以定義點積以便不僅比較相應(yīng)系統(tǒng),而且比較其他被確定為在相關(guān)字段中的系數(shù)對(即比較一個第一向量的“名”系數(shù)與一個第二向量的“中間名”系數(shù))。對于識別重復(fù)數(shù)據(jù)的運算,相關(guān)函數(shù)可以根據(jù)其預(yù)期應(yīng)用而進(jìn)行適當(dāng)?shù)恼{(diào)整。例如,一個相關(guān)函數(shù)可以被定義為適當(dāng)比較不同長度的條目并適當(dāng)區(qū)分顯著的與不顯著的差別,這是顯而易見的。
參考圖5、6和8的表所解釋的實施例中,一個相關(guān)函數(shù)的示例比較對應(yīng)于共享相同姓氏的一個集合的成員的向量,以標(biāo)識出獨立的向量子集。再一次地,這種判斷可以根據(jù)因應(yīng)用而異的準(zhǔn)則來進(jìn)行。在本例中,獨立子集可以被定義為那些代表不同個人的向量。
作為應(yīng)用相關(guān)函數(shù)的結(jié)果,一個反映一對向量獨立程度的相關(guān)參數(shù)被賦值。例如,可以賦以高值來表示高度的相似程度,而賦以低值來表示有限的相似程度。相關(guān)值隨后被與一個預(yù)定的閾值進(jìn)行比較以判斷對應(yīng)于那些向量的兩條記錄是否被認(rèn)為是獨立的一再次注意,該閾值在不同的應(yīng)用中可以變化。
根據(jù)相關(guān)值,在步驟740中,優(yōu)選實施例在每個集合之內(nèi)將數(shù)據(jù)記錄分區(qū)為獨立的數(shù)據(jù)記錄子集。在圖5、6和圖8的表810的示例中,一個獨立子集的成員可以被標(biāo)識為那些成員,它們具有相同的姓氏(考慮到拼寫錯誤和拼寫變體);相對近似的名(考慮到拼寫錯誤、拼寫變體、昵稱和名、中間名與首字母的組合);一個或多個匹配的賬號;以及不超過3個地址(允許工作與家庭地址,以及一個地址變化)。
應(yīng)用這樣一種函數(shù)的結(jié)果被描繪在圖8的表820中。識別出來的個人是Jennifer Brown,PIDN 10;Howard Lee,PIDN 3和6;Carole Lee,PIDN 7;Jennifer Smith,PIDN 2和8;John Smith,PIDN 4和11;John Smith,PIDN 9;Ann Zane,PIDN 1、5和12;以及Molly Zane,PIDN 12。
其他用于對向量進(jìn)行相關(guān)的運算也是可用的。這些可以包括計算點積、叉積、長度、方向向量以及很多依據(jù)已知技術(shù)用于評估的其他函數(shù)與算法。
圖9描繪了一個稱為集群的概念的二維示例,它被用于在概念上描述本發(fā)明的某些一般方面。在圖9中,四個集群作為一個二維點的集合而存在。這些集群被標(biāo)識為(a,b),(c,d),(e,f),及(g,h)。如所示的那樣,每個集群由一個或多個二維空間中的點構(gòu)成。每個點對應(yīng)于一條代表(具有或多或少的準(zhǔn)確性)在該空間中集群的“真”值的數(shù)據(jù)記錄。如所示的那樣,集群(a,b)和(c,d)相當(dāng)容易相互區(qū)分,并與集群(e,f)和(g,h)相區(qū)分。然而,在本簡例中,集群(e,f)和(g,h)并不容易相互區(qū)分。擴(kuò)展空間(即對向量增加附加數(shù)據(jù)字段)可以增大集群如(e,f)與(g,h)之間的區(qū)別,以使它們相互之間變得更容易區(qū)分。替換地,擴(kuò)展該空間可以表明(g,h)是一個屬于集群(e,f)或者甚至是集群(c,d)的點。在理論上,在一個具有各種已知特征的希爾伯特空間中,空間可以無限擴(kuò)展。顯然,對于大量的,即使不是無限的向量,這些特征可以為本發(fā)明所利用。
進(jìn)而,對向量增加附加數(shù)據(jù)字段(即擴(kuò)展空間)可以將集群相互分離,從而有助于其相關(guān),而從向量中刪除數(shù)據(jù)字段(即縮減空間)也可以識別某些相關(guān)。在本發(fā)明的某些實施例中,縮減空間可以識別某些實際上代表相同人個或其他唯一實體的集群。例如,在一個數(shù)據(jù)庫中的一條記錄可以具有10個數(shù)據(jù)字段,它們與該數(shù)據(jù)庫中的一個第二記錄中同樣的10個數(shù)據(jù)字段完全一致。這些數(shù)據(jù)字段可以對應(yīng)于名、出生日期、地址、母親未婚時的姓氏等。但是,這兩條記錄可以有兩個字段不同。這兩個字段可以對應(yīng)于姓氏和社會保險號碼。在某些情況下,這些記錄可以對應(yīng)于相同的個人。本發(fā)明簡化了識別這些類型的記錄的處理,使用傳統(tǒng)方法來檢測即使不是不可能的也會是困難的。
于是,從一個向量中移除一個或多個特定數(shù)據(jù)字段并縮減相應(yīng)空間可以展現(xiàn)那些不這樣做就不是很明顯的集群。對傳統(tǒng)上被用于識別目的的數(shù)據(jù)字段(如姓氏、社會保險號碼等)進(jìn)行這種處理可以展現(xiàn)數(shù)據(jù)庫中的重復(fù)記錄。這對于識別欺詐是尤其有用的。移去其中包括一個值為空的數(shù)據(jù)字段的向量的數(shù)據(jù)字段也可以展現(xiàn)那些不這樣做就不是很明顯的集群。
進(jìn)而,一旦集群被識別為代表相同個人或者實體,對于該個人或?qū)嶓w的最佳信息可以被從每條記錄或“黑點”所提供的信息中提取出來。
本發(fā)明的原理可以被擴(kuò)展超出簡單向量與數(shù)據(jù)字段。例如,可以通過使用代表一個多維空間中的對象的張量來擴(kuò)展本發(fā)明。在這種方式中,本發(fā)明可以被用于表示不同物理現(xiàn)象的參數(shù),以深入洞察其操作與效果。這種應(yīng)用對于解釋人類基因并支援如人類基因組項目這樣的計劃是尤其有用的。
處理孤立(stranded)數(shù)據(jù)再參考圖7,在步驟750,本發(fā)明的優(yōu)選實施例評估“孤立”數(shù)據(jù)。孤立數(shù)據(jù)是指那些來自參考數(shù)據(jù)庫220的沒有在步驟710中被分區(qū)到任何集合中去的記錄。在某些實施例中,參考數(shù)據(jù)庫220可以包括大量與數(shù)據(jù)字段相應(yīng)的表和大量具有不同字段組合的數(shù)據(jù)的向量。例如,在一個參考數(shù)據(jù)庫220包括對于不同數(shù)據(jù)字段的20個表及由每個表的相關(guān)數(shù)據(jù)記錄定義的1000個向量的實施例中,假設(shè)在1000個向量中只有800個具有對于字段“姓氏”的數(shù)據(jù),在步驟710中通過該字段生成集合。步驟710可能沒有將沒有“姓氏”數(shù)據(jù)的200個向量分區(qū)到任何集合,或者將這200個向量的每一個分入其自身的集合。在任何一種情況下,結(jié)果都是,這200個向量并未在步驟720、730和740中被與其他向量相關(guān)。步驟750可以評估這些向量。
評估的方法可以是多樣的。例如,一個實施例可以將每個孤立條目與步驟740中識別出的每個子集的一個成員相關(guān)。根據(jù)得出的相關(guān)值,該向量可以被加入相關(guān)度高的那個子集,或者可以定義一個新子集。替換地,在某些實施例中,可以判斷這樣的評估是否太耗費時間和/或太昂貴,而步驟750可以被完全跳過。
重復(fù)相關(guān)處理對于特定的實施例,步驟710-750可以根據(jù)需要被重復(fù)進(jìn)行。如上面注意到的,某些實施例將具有包含大量字段和大量條目的參考數(shù)據(jù)220,其中有許多條目的數(shù)據(jù)只有一個字段子集。在這樣一種情況下,在一個單一字段上執(zhí)行步驟710-750未必能夠?qū)С鏊邢嚓P(guān)信息。即使在參考圖5、6和8解釋的簡單示例中,在單一字段“姓氏”上進(jìn)行的相關(guān)只可以提供關(guān)于那些條目之間相互關(guān)系的部分信息。例如,對應(yīng)于圖6中PIDN2和8的Jennifer Smith可能與對應(yīng)于PIDN10的JenniferBrown是同一個人,因為PIDN2和10共用一個通用賬號。在姓氏字段上執(zhí)行相關(guān)可能不能將這些PIDN標(biāo)識為與相同的個人相對應(yīng),因為它們只是針對共享相同姓氏的其他PIDN來評估的。在賬號字段上執(zhí)行相關(guān)可以提供關(guān)于這些PIDN是否相關(guān)的附加信息。
于是,跨不同字段的相關(guān)對于完全評估參考數(shù)據(jù)庫220中數(shù)據(jù)的相關(guān)性程度是必不可少的。
使用相關(guān)結(jié)果來更新參考數(shù)據(jù)一旦完成了步驟710-760,參考數(shù)據(jù)庫220就已經(jīng)被提取為一個提取數(shù)據(jù)庫230,如圖2所示。在本發(fā)明的某些實施例中,這兩個數(shù)據(jù)庫被分別處理并相互共存。在本發(fā)明的其他實施例中,一個單一數(shù)據(jù)庫存在被標(biāo)記為或者被標(biāo)識為屬于參考數(shù)據(jù)庫220或提取數(shù)據(jù)庫230的記錄。這可以通過使用記錄不同的PIDN范圍來在兩個數(shù)據(jù)庫中進(jìn)行分配而實現(xiàn)。進(jìn)而,在兩個數(shù)據(jù)庫中記錄之間的關(guān)系可以通過對參考數(shù)據(jù)庫220中記錄的PIDN增加一個常量以生成在提取數(shù)據(jù)庫230中記錄的PIDN而維護(hù)。例如,參考數(shù)據(jù)庫220中一條PIDN為12345的記錄可以在提取數(shù)據(jù)庫230中具有一個PIDN9012345。以這種方式,兩個數(shù)據(jù)庫可以被看作一個單一數(shù)據(jù)庫的不同部分。
使用提取數(shù)據(jù)庫一旦完成了數(shù)據(jù)透析過程700,提取數(shù)據(jù)庫230將來自參考數(shù)據(jù)庫220的數(shù)據(jù)記錄子集標(biāo)識為相關(guān)記錄,如上所述,可以確定參考數(shù)據(jù)庫220中字段的概率來提供一個對其完整性的定性度量。這可以通過為各個數(shù)據(jù)字段的每一個賦與一個完整性概率然后使用它們來計算該數(shù)據(jù)記錄的整體完整性概率來完成。例如,對于代表名的數(shù)據(jù)字段,值’J’可以被賦與低概率(如0或0.1),值’JOHN’可以被賦與更高的概率(如0.7或0.8),而值’JONATHAN’可以被賦與最高概率(如0.9或1.0)。這些值可以被略為隨意地賦值,或者依據(jù)某種結(jié)構(gòu)前提來賦值。然而,這些值有助于識別集合中的哪些數(shù)據(jù)字段最可能包括最完全的信息或者換句話說,最可能的數(shù)據(jù)。
使用本發(fā)明可以確定大量關(guān)于記錄及其相互關(guān)系的信息,并且可以專門為特定的應(yīng)用進(jìn)行定制。進(jìn)而,使用標(biāo)準(zhǔn)數(shù)據(jù)庫操作,提取數(shù)據(jù)庫230(參考參考數(shù)據(jù)庫220的數(shù)據(jù))可以被操作,以根據(jù)需要提供格式化的報告。例如,一個實施例可以被定制為生成一個列出相關(guān)記錄子集的報告,一個子集的記錄提供關(guān)于一個特定個人或?qū)嶓w的信息。在這樣一個子集中的記錄可以提供例如關(guān)于信息的不同字段的信息;名字的別名和/或變體、地址、社會保險號碼等;以及字段-如職業(yè)、地址和賬號,對于它們,該個人可能具有不止一個條目。
由于所有數(shù)據(jù)是以數(shù)字基數(shù)40格式來表示的,子集在報告中可以按數(shù)字來排序?;鶖?shù)40格式提供額外的好處,即將字母字符表示為其各自的字母(如上面的轉(zhuǎn)換表所示)。這樣,報告將會以數(shù)字表示法來顯示,該表示法保持了其所代表的數(shù)據(jù)的語義意義,允許數(shù)據(jù)被人工地讀取和分析。例如,如果該報告顯示了一個具有包括J SMITH,JOHNSMITH,JOHN G SMITH,G SMITHT和GERALD SMITH條目的個人的記錄,閱讀該報告的一個人會理解到,這個人使用了不同的名,包括他的名或首字母、中間名或首字母、或它們的某種組合。
增加新數(shù)據(jù)對于傳統(tǒng)的數(shù)據(jù)庫應(yīng)用,新數(shù)據(jù)可以時常被加入。如圖2所示,本發(fā)明解決了增加新數(shù)據(jù)240,這將影響參考數(shù)據(jù)庫220和提取數(shù)據(jù)庫230。
通常,新數(shù)據(jù)記錄240可以參照圖3所述來格式化,并被輸入到現(xiàn)有的參考數(shù)據(jù)庫220中。另外,新數(shù)據(jù)記錄240可以針對提取數(shù)據(jù)庫230被度量,以判斷新信息或內(nèi)容在新數(shù)據(jù)記錄240中是否可用。例如,一條新數(shù)據(jù)記錄240可以與來自提取數(shù)據(jù)庫230的數(shù)據(jù)記錄進(jìn)行相關(guān),以判斷該新數(shù)據(jù)記錄240是否與任何已經(jīng)存在于提取數(shù)據(jù)庫230中的數(shù)據(jù)記錄相關(guān)。如果是,并且新數(shù)據(jù)記錄240包含沒有出現(xiàn)在提取數(shù)據(jù)庫230中的信息或內(nèi)容,則新數(shù)據(jù)記錄240可以被用于更新提取數(shù)據(jù)庫230。例如,如果新數(shù)據(jù)記錄240包括一個名叫John Smith的個人信息,他對應(yīng)于已經(jīng)出現(xiàn)在提取數(shù)據(jù)庫230中的數(shù)據(jù)記錄,但提供了附加信息,即Smith先生的中間名是Greg,則該附加信息可以被適當(dāng)?shù)丶尤胩崛?shù)據(jù)庫230。
對參考數(shù)據(jù)庫220與提取數(shù)據(jù)庫230中數(shù)據(jù)記錄的改變可以使用標(biāo)準(zhǔn)數(shù)據(jù)庫保護(hù)操作來處理,在參考資料如C.J.DATE,INTRODUCTIONTO DATABASE SYSTEMS(Addison Wesley,第6版,1994)(特別參見Part IV)中所述,參照上述內(nèi)容。例如,在由一個授權(quán)數(shù)據(jù)庫管理員對參考數(shù)據(jù)庫220進(jìn)行改變時,參考數(shù)據(jù)庫220中的相關(guān)數(shù)據(jù)記錄被根據(jù)標(biāo)準(zhǔn)關(guān)系定義所做的判斷來更新,并且其中適當(dāng)?shù)馗鶕?jù)提取數(shù)據(jù)庫230中定義的關(guān)系。
在字段向量之間識別重復(fù)數(shù)據(jù)傳統(tǒng)數(shù)據(jù)庫的一個問題是在合并來自一個第一數(shù)據(jù)庫,如原始數(shù)據(jù)210A的數(shù)據(jù)記錄與來自一個第二數(shù)據(jù)庫,如原始數(shù)據(jù)210B的數(shù)據(jù)記錄時的困難。在具有共享或重復(fù)數(shù)據(jù)的這些數(shù)據(jù)庫中的記錄需要被識別,以使其中包含的內(nèi)容可以被合并為在一個數(shù)據(jù)庫中的一個單一記錄,如參考數(shù)據(jù)庫220或提取數(shù)據(jù)庫230。例如,兩個數(shù)據(jù)庫210可以包括對于JOHN SMITH的一個或多個條目。如果數(shù)據(jù)庫210中的相應(yīng)記錄代表相同的個人John Smith,則每條記錄的內(nèi)容應(yīng)當(dāng)被合并為一條單一記錄,例如在提取數(shù)據(jù)庫230中。
用于在這些數(shù)據(jù)庫中識別這種重復(fù)數(shù)據(jù)的傳統(tǒng)窮舉方法包括比較一個來自第一數(shù)據(jù)庫的數(shù)據(jù)記錄與第二數(shù)據(jù)庫中的每條數(shù)據(jù)記錄,并對第一數(shù)據(jù)庫中的每條記錄重復(fù)這個過程。這個過程耗費時間、計算密集,并且因而是昂貴的。事實上,計算量與兩個數(shù)據(jù)庫中每一個中的記錄數(shù)量是幾何相關(guān)的。
用于減少在數(shù)據(jù)庫210中識別重復(fù)數(shù)據(jù)所需的計算量與時間的一種處理在下面參照圖10-12來描述。在下面所述的過程中,選擇一個在數(shù)據(jù)庫中普通或類似的特定字段,例如姓名字段或地址字段。這個字段被對于每個數(shù)據(jù)庫排列為一個表或者一個數(shù)組,它包括每條記錄所選字段的值。例如,如上所述,610-670的每個表代表一個數(shù)據(jù)庫中每條數(shù)據(jù)記錄的一個特定字段。出于討論的目的,這些表被稱為字段向量。
依據(jù)本發(fā)明,每個字段向量被以數(shù)字順序排序,并且如果必要的話,將其分區(qū)為相同數(shù)據(jù)的集合,如前面針對圖7和8所作的敘述。例如,多條與JOHN SMITH相關(guān)的記錄在字段向量之內(nèi)會被分區(qū)到一起。最好能夠儲存關(guān)于集合之間分區(qū)位置的信息。
一旦字段向量被排序并分區(qū),一個第一字段向量的第一元素的值被與一個第二字段向量的第一元素值進(jìn)行比較。本質(zhì)上,如果第一字段向量中的值大于第二字段向量中的值,則向第二字段向量中增加一個索引或者將索引調(diào)整到下一個分區(qū)集合內(nèi)的一個位置,以獲得在第二字段向量中的下一個值。第二字段向量中的這下一個值隨后被與第一字段向量中的值進(jìn)行比較。只要第一字段向量中的值大于第二字段向量中的值,這個處理就繼續(xù)下去。
另一方面,如果第一字段向量的值小于第二字段向量的值,則第一字段向量中索引被增加或者將索引調(diào)整到下一個分區(qū)集合的一個位置,以獲得第一字段向量的下一個值。第一字段向量的這下一個值隨后被與第二字段向量中的值進(jìn)行比較。只要第一字段向量中的值小于第二字段向量中的值,這個處理就繼續(xù)進(jìn)行下去。
當(dāng)?shù)谝蛔侄蜗蛄康闹档扔诘诙侄蜗蛄恐械闹禃r,過程就識別出了重復(fù)數(shù)據(jù),隨后最好將其儲存在一個通用字段向量中。儲存了識別出的重復(fù)數(shù)據(jù)之后,對第一字段向量和第二字段向量的索引都被增加或者調(diào)整到其各自字段向量的下一個分區(qū)集合之內(nèi)的一個位置。
如此描述的處理過程可以被看作反饋控制機(jī)制,它根據(jù)字段向量中值之間的差來調(diào)整對數(shù)組之中的索引。在上述實施例中,一個正差產(chǎn)生了一個對第二字段向量索引的調(diào)整,而一個負(fù)差則產(chǎn)生一個對第一字段向量索引的調(diào)整。這個過程導(dǎo)致了一個在字段向量中值的數(shù)量與所需的計算量(即比較)之間的線性關(guān)系,這與傳統(tǒng)方法的幾何關(guān)系相反。
本發(fā)明也可以被擴(kuò)展為排序機(jī)制。在一個特定值必須根據(jù)向量中的值的順序(如字母、數(shù)字順序等)被插入到一個字段向量中去時(即一條記錄必須被插入到一個數(shù)據(jù)庫中去),計算該特定值與向量中的元素之一的值之間的差。這個差值被“反饋”,以調(diào)整向量之中的索引來生成來自該向量的下一個值。使用精心建立的控制理論方法,索引調(diào)整可以被積分,以判斷要被插入的值的正確位置。除了積分器之外,顯然可以對差值加上一個比例增益,以建立一個期望系統(tǒng)性能。
現(xiàn)在參照圖10-12對本發(fā)明進(jìn)行描述。圖10是一個識別一對字段向量內(nèi)重復(fù)數(shù)據(jù)的流程圖。字段向量可以來自一個單一來源,如原始數(shù)據(jù)210A(如當(dāng)在一個單一數(shù)據(jù)庫中比較一個居住地址與一個郵件地址時),或者來自多個來源,如原始數(shù)據(jù)210A和原始數(shù)據(jù)210B(如當(dāng)比較兩個數(shù)據(jù)庫之間的一個姓名字段時)。
為了描述的目的,字段向量對分別被稱為第一字段向量(“FV1”)和第二字段向量(“FV2”)。這些字段向量中的數(shù)據(jù)最好是上述表示字母數(shù)字?jǐn)?shù)據(jù)的基數(shù)40數(shù)碼。然而,在本發(fā)明的某些實施例中,該數(shù)據(jù)也可以存在于其他形式之中。
在步驟1010,第一字段向量被按照數(shù)字順序進(jìn)行排序。在步驟1020中,第二字段向量也被按照數(shù)字順序進(jìn)行排序。在本發(fā)明的一個實施例中,向量是按照數(shù)字升序排序的,雖然本發(fā)明的其他實施例顯然可以按降序?qū)ο蛄窟M(jìn)行排序。
在步驟1030中,識別出在第一字段向量之內(nèi)具有通用值的分區(qū)集合。同樣地,在步驟1040,也識別出在第二字段向量之內(nèi)具有通用值的分區(qū)集合。步驟1010-1040前面參考圖7和8描述的參考數(shù)據(jù)庫220分區(qū)步驟執(zhí)行了一個相似的功能。在本發(fā)明的某些實施例中,字段向量可以不包括任何分區(qū)集合,因為每個字段向量之內(nèi)的通用值可能已經(jīng)被去除了。但是,在本發(fā)明的一個優(yōu)選實施例中,一個特定字段向量之內(nèi)的通用值被保留下來。
在步驟1050,一個標(biāo)識第一與第二字段向量之間的通用值的通用值向量被確定,最好使用分區(qū)集合。參照圖11對步驟1050進(jìn)行了更詳細(xì)的描述。
圖11是識別一對字段向量之間通用值的一個流程圖。在一個步驟1110中,三個向量索引被初始化。一個第一向量索引I是對于第一字段向量FV1的索引;一個第二向量索引J是對第二字段向量FV2的索引;第三向量索引K是對通用值向量(“CV”)的索引。如前面所提到的,通用值向量包括第一與第二字段向量共享的值。索引I和J被初始化,以在第一與第二字段向量的每一個中分別定位一個第一位置。索引K被初始化,為下一個會被包括在通用值向量中的通用值定位一個位置。
在判定步驟1120,本發(fā)明判斷在第一字段向量的第I個位置中的值是否大于或等于第二字段向量的第J個位置的值。如果是,則過程繼續(xù)進(jìn)行到判定步驟1130;否則,過程繼續(xù)進(jìn)行到步驟1170。當(dāng)?shù)谝蛔侄蜗蛄康牡?個位置中的值小于第二字段向量的第J個位置的值時,步驟1170被有效地執(zhí)行。在步驟1170中,第一索引I被調(diào)整,以定位第一字段向量中下一個分區(qū)集合的開始位置。步驟1170之后,過程繼續(xù)進(jìn)行到判定步驟1160。
在判定步驟1130中,本發(fā)明判斷第一字段向量的第I個位置中的值是否與第二字段向量的第J個位置的值相等。如果是,過程繼續(xù)進(jìn)行到判定步驟1140;否則過程繼續(xù)進(jìn)行到步驟1180。當(dāng)?shù)谝蛔侄蜗蛄康牡贗個位置中的值大于第二字段向量的第J個位置的值時,步驟1180被有效地執(zhí)行。在步驟1180,第二索引J被調(diào)整,以定位第二字段向量中下一個分區(qū)集合的開始位置。步驟1180之后,過程繼續(xù)進(jìn)行到判定步驟1160。
當(dāng)?shù)谝蛔侄蜗蛄康牡贗個位置中的值與第二字段向量的第J個位置的值相等時,步驟1140被有效地執(zhí)行。在步驟1140中,包括在第一與第二字段向量中的值被置入通用值向量中。
在步驟1150中,第三索引K被增量,以定位下一個要被識別的通用值的通用值向量中的位置。第一索引I被調(diào)整,以定位第一字段向量中下一個分區(qū)集合的開始位置。第二索引J被調(diào)整,以定位第二字段向量中下一個分區(qū)集合的開始位置。
在判定步驟1160中,本發(fā)明判斷是否有附加分區(qū)集合存在于第一字段向量和第二字段向量之中。如果是,過程繼續(xù)進(jìn)行到步驟1120。如果沒有分區(qū)集合保留在第一字段向量或者第二字段向量中,過程結(jié)束。當(dāng)過程結(jié)束時,通用值向量包括所有在第一與第二字段向量之間識別出來的重復(fù)數(shù)據(jù)。
圖12描繪了依據(jù)本發(fā)明在字段向量之間識別重復(fù)數(shù)據(jù)的一個示例。步驟1010與1030排序并分區(qū)字段向量1(“FV1”),而步驟1020和1040排序并分區(qū)字段向量2(“FV2”)?,F(xiàn)在參考步驟1110-1180來描述步驟1050的操作,其中穿過步驟1120到1160并返回到步驟1120被稱為一個“循環(huán)”。
在一個第一循環(huán)中,F(xiàn)V1的第一元素(即第0個位置)與FV2的第一元素進(jìn)行比較。(這在圖12中被描繪為FV1與FV2之間的一條兩端帶有箭頭的線,并被標(biāo)注為1)。在本例中,F(xiàn)V1的值’8’與FV2的值’8’相比較。判定步驟1120與1130判斷這些值相等,并且在步驟1140中,值’8’被置入通用值向量。(這在圖12中被描繪為FV2與通用值向量之間的一條兩端帶有箭頭的線,并被標(biāo)注為1’)步驟1150調(diào)整兩個字段向量的索引,以指向下一個分區(qū)集合。判定步驟1160判斷更多的分區(qū)集合存在于字段向量中,并且一個第二循環(huán)被啟動。
在第二循環(huán)中,F(xiàn)V1的下一元素被與FV2的下一個元素進(jìn)行比較。在本例中,F(xiàn)VI的一個值’9’被與FV2的一個值’9’進(jìn)行比較。這些值再次被判斷為相等,并且值’9’被置入通用值向量。象前面一樣,步驟1150調(diào)整兩個索引,以指向其各自字段向量中的下一個分區(qū)集合。判定步驟1160判斷更多的分區(qū)集合存在于兩個字段向量之中,并且一個第三循環(huán)被啟動。
在第三循環(huán)中,F(xiàn)V1的下一個元素被與FV2的下一個元素進(jìn)行比較。在本例中,F(xiàn)V1的一個值’10’與FV2的一個值’12’進(jìn)行比較。判定步驟1120判斷FV1中的值不大于或等于FV2中的值,并且在步驟1170中,F(xiàn)V1的索引被調(diào)整,以指向其中的下一個分區(qū)集合。判定步驟1160判斷有更多的分區(qū)集合存在于兩個字段向量中,并且一個第四循環(huán)被啟動。
在第四循環(huán)中,F(xiàn)V1的下一個元素與FV2的前一個元素進(jìn)行比較。在本例中,F(xiàn)V1的一個值’12’與FV2前一個比較過的值’12’進(jìn)行比較。判定步驟1120與1130判斷該值相等,并且在步驟1140中,值’12’被置入通用值向量中。步驟1150調(diào)整兩個索引來指向其各自字段向量中的下一個分區(qū)集合。判定步驟1160判斷有更多的分區(qū)集合存在于兩個字段向量之中,并且一個第五循環(huán)被啟動。
在第五循環(huán)中,F(xiàn)V1的下一個元素與FV2的下一個值進(jìn)行比較。在本例中,F(xiàn)V1的一個值’15’與FV2的一個值’18’比較。判定步驟1120判斷FV1中的值不大于或等于FV2中的值,并且在步驟1170中,對FV1的索引被調(diào)整,以指向其中的下一個分區(qū)集合。因為沒有更多的分區(qū)集合存在于FV1中,過程結(jié)束。
在本例中,需要每個循環(huán)最多進(jìn)行兩次比較的5個循環(huán)來識別兩個字段向量之間的三個通用值。在窮舉方法中,需要132次比較(12*11)。
預(yù)編碼信息在本發(fā)明的不同實施例中,在將數(shù)據(jù)從其初始格式轉(zhuǎn)換為數(shù)字格式之前,或者在某些實施例中與其同時,將數(shù)據(jù)預(yù)編碼為一種中間編碼格式。這種預(yù)編碼還減少或壓縮了初始格式到編碼格式的信息。一旦進(jìn)入編碼格式,數(shù)據(jù)能夠隨之被以一種適當(dāng)?shù)臄?shù)字格式來表示,如上所述。本發(fā)明的這些實施例用示例的方式很好地進(jìn)行了描述。
在本發(fā)明的一個實施例中,音素被用于將初始格式的數(shù)據(jù)表示為編碼格式。在本實施例中,音素可以被用于對單詞、單詞的某些部分(如音節(jié))或者單詞的詞組進(jìn)行編碼。于是,發(fā)音一致或類似的單詞或者音節(jié)被使用相同的音素來表示。例如名字“John”或者“Jon”會被使用相同的音素來表示。在某些實施例中,名字“Joan”也可以使用與名字“John”和“Jon”相同的音素來表示。依據(jù)本發(fā)明每個音素隨后被部分地根據(jù)所用音素,以一種適當(dāng)?shù)臄?shù)碼系統(tǒng)表示為一個數(shù)字。
例如,一種特定語言可以被分割為其有限數(shù)目的“發(fā)音”或者音素,并表示為一個適當(dāng)數(shù)碼系統(tǒng)之內(nèi)的數(shù)字。以這種方式,文本可以根據(jù)語音而不是特定拼寫進(jìn)行編碼,從而使拼寫錯誤的影響最小化,例如使用搜索引擎時的拼寫錯誤。
本發(fā)明的這些實施例可以擴(kuò)展到語音、語音識別和人工語音表現(xiàn)機(jī)制。尤其是,聽覺語音音素(與相應(yīng)的文本音素相對)也可以在一個適當(dāng)?shù)臄?shù)碼系統(tǒng)中如上述所表示,并被用于簡化上述的語音識別與語音表現(xiàn)。
在本發(fā)明的其他實施例中,單詞、詞組、習(xí)慣用語、句子、和/或想法可以被預(yù)編碼,然后被表示了一個適當(dāng)數(shù)碼系統(tǒng)中的數(shù)碼,如上所述。這樣的實施例可以被用于,例如,改進(jìn)自動語言翻譯系統(tǒng)。這些實施例還可以被用于改進(jìn)搜索引擎。被稱為一個或多個想法或概念的大型文本可以根據(jù)所傳達(dá)的想法或概念的每一條來進(jìn)行預(yù)編碼。這些實施例提供概念性搜索,相對于識別和/或定位可能不出現(xiàn)在段落中的特定單詞或詞組。
在本發(fā)明的另一個實施例中,原始地址信息被預(yù)編碼為坐標(biāo)表示,例如,根據(jù)經(jīng)度和緯度,并隨后在一個適當(dāng)?shù)臄?shù)碼系統(tǒng)中被表示出來,例如,在一個基數(shù)60的數(shù)碼系統(tǒng)中。這樣一個系統(tǒng)可能對繪圖操作、導(dǎo)航系統(tǒng)或者跟蹤系統(tǒng)特別有用。
在本發(fā)明的另一個實施例中,原始指紋數(shù)據(jù)被預(yù)編碼為不同參數(shù)、記錄點(registration points)或者其他適于分類指紋的識別標(biāo)記,它們每一個隨后被表示為一個適當(dāng)數(shù)碼系統(tǒng)中相應(yīng)的數(shù)字。于是,每個指紋可以以一個字段中的值來表示,或者替換地,每個指紋可以被表示為一個字段向量??梢猿鲇诙喾N目的(即犯罪的和非犯罪的目的)在一個這種信息的數(shù)據(jù)庫中根據(jù)從個人收集的指紋對結(jié)果數(shù)據(jù)進(jìn)行組織和維護(hù),這些可以包括由法庭專家、保安人員、背景調(diào)查員等收集的指紋。本發(fā)明理想地適用于凈化現(xiàn)有指紋數(shù)據(jù)庫、將那些數(shù)據(jù)庫合并到一個參考數(shù)據(jù)庫中、當(dāng)變得可用時,增加新指紋信息、并將指紋信息與參考數(shù)據(jù)庫中的信息進(jìn)行匹配。
可以理解,在使用預(yù)編碼的實施例中,在許多情況下,基本的初始數(shù)據(jù)必須被預(yù)處理為中間格式。這樣,為了本發(fā)明可以被使用在一個搜索環(huán)境中,被搜索的信息必須被預(yù)編碼或者“預(yù)處理”。在某些情況下,這種處理可能會導(dǎo)致語義意義的損失,如上面針對本發(fā)明的其他實施例所作的敘述那樣。
示例性實施例本發(fā)明不同實施例可以被用于許多不同應(yīng)用,它們中的一些已經(jīng)在上面描述和/或側(cè)面提到了。例如,在上述應(yīng)用中,本發(fā)明可以被用于組合從多個來源收集的計賬信息來導(dǎo)出一個提取數(shù)據(jù)庫,在該提取數(shù)據(jù)庫中有關(guān)數(shù)據(jù)記錄被識別而且重復(fù)與錯誤數(shù)據(jù)記錄被去除。如所建議的那樣,這可能會在例如涉及欺詐的情況下特別有用。典型地,使用信用卡或者其他形式的零售欺詐的人對其某些個人信息進(jìn)行微小的改變,而讓大多數(shù)信息保持相同。例如,一個社會保險號碼中的數(shù)字時常可能被顛倒或者使用一個別名。然而,其他信息如個人地址、出生日期、母親未婚時的姓氏等也經(jīng)常被相同地使用。這些類型的欺詐很容易為本發(fā)明所識別,雖然它們難以為人類分析所識別。
其他可能的應(yīng)用包括在電話推銷中,來編輯一個目標(biāo)個人或地址的列表;在郵購目錄中,來減少大量發(fā)送給相同個人或家庭的目錄;或者合并來自銷售類似數(shù)據(jù)庫的不同銷售商的記錄。還有另一個潛在的應(yīng)用是在醫(yī)學(xué)研究或者診斷領(lǐng)域中,其中核酸中的腺嘌呤(A)、鳥嘌呤(G)、胞核嘧啶(C)與胸腺嘧啶(T)的核苷酸序列可以被識別。另一個由稅務(wù)組織如國家稅務(wù)局、州與地方政府等使用的應(yīng)用組織并維護(hù)準(zhǔn)確的名單與稅務(wù)基本信息。
在其他實施例中,本發(fā)明可以在開始被用作一個特定數(shù)據(jù)庫的門衛(wèi),以便從一開始就維護(hù)數(shù)據(jù)庫的完整性,而不是在晚些時候才在數(shù)據(jù)庫中實現(xiàn)完整性。在這些實施例中,沒有原始數(shù)據(jù)210出現(xiàn),并且只有新數(shù)據(jù)240存在。在新數(shù)據(jù)240被增加到數(shù)據(jù)庫之前,針對提取數(shù)據(jù)庫230進(jìn)行度量,以判斷新數(shù)據(jù)240是否包括附加信息或者內(nèi)容。如果是,則只有新信息或內(nèi)容通過更新提取數(shù)據(jù)庫230中的一條現(xiàn)有記錄被加入提取數(shù)據(jù)庫230,以反映新信息或數(shù)據(jù),這是顯而易見的。
在本發(fā)明的另一個實施例中,一個郵件服務(wù),如美國郵政局,或者一個快件遞送服務(wù),如Airborne Express,F(xiàn)ederal Express,United ParcelService等,它們使用本發(fā)明來維護(hù)一個有效遞送地址列表。一個與一件要被遞送的物品相關(guān)聯(lián)的地址針對一個地址參考數(shù)據(jù)庫進(jìn)行檢查,以識別在該地址中的任何不準(zhǔn)確性。不準(zhǔn)確的地址可以或者被糾正(如對顛倒的號碼等),或者對其進(jìn)行聯(lián)系以驗證該地址。新地址可以在變得可用時被加入到參考數(shù)據(jù)庫,例如,在物品被成功遞送時。另外,某些發(fā)件人可以被識別為傾向于寄錯物品或者提供了不正確的地址。如果合適的話,這些發(fā)件人可以被通知。
除了使用本發(fā)明來匹配如上所述的DNA序列片斷之外,遺傳學(xué)研究者(如藥品公司、種子公司、動物飼養(yǎng)員等)還可以使用本發(fā)明來表示在一個集合中個人明顯的、切實的和/或客觀的特征,并使用這種信息來識別造成這些特征的個人基因或基因序列。
在另一個實施例中,本發(fā)明被用于在一個網(wǎng)絡(luò)如因特網(wǎng)上的信號(數(shù)據(jù)包)交換與路由數(shù)據(jù)。為一個目的地址和序列信息檢查一個進(jìn)入包并將數(shù)據(jù)包以適當(dāng)?shù)捻樞蚺判驗橐粋€適當(dāng)?shù)妮敵鲫犃?。在本實施例中,本發(fā)明對數(shù)碼排序的能力提供了對傳統(tǒng)系統(tǒng)獨特的優(yōu)點。使用一個替換數(shù)碼系統(tǒng)(與現(xiàn)在所使用的一個傳統(tǒng)數(shù)碼系統(tǒng)相對)會產(chǎn)生一個擴(kuò)充的地址空間,這提供了對網(wǎng)絡(luò)尋址與通信協(xié)議方法的改進(jìn)。
在另一個實施例中,本發(fā)明被用于在一個三維環(huán)境中表現(xiàn)并顯示一個對象。這些行為需要龐大數(shù)量的排序來判斷哪些對象在前景顯示而哪些對象相應(yīng)淡化地背景上,以及判斷每個對象的亮度特性(即陰影等)。
雖然在一個優(yōu)選實施例中描述了本發(fā)明,其他實施例與變化都在后面的權(quán)利要求范圍之內(nèi)。例如,格式化過程300可以使用不同的基數(shù)或者其他字符集來格式化數(shù)據(jù),并且可以使用不同的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)結(jié)構(gòu)可以表示多字段;根據(jù)應(yīng)用,數(shù)據(jù)結(jié)構(gòu)將表示多種字段。例如,在一個信用應(yīng)用中,除了關(guān)于賬戶持有人的個人信息之外,字段還可以包括賬戶狀態(tài)、賬號和法律狀態(tài)。在一個醫(yī)療診斷應(yīng)用中,字段可以包括等位基因或者其他在組織樣本中檢測出的基因特征。
權(quán)利要求
1.一種用于處理信息的方法,包括以下步驟根據(jù)在該信息中所包括的數(shù)據(jù)元素的可能值的一個范圍來選擇一種適當(dāng)?shù)臄?shù)碼系統(tǒng);將所述數(shù)據(jù)元素表示為在該數(shù)碼系統(tǒng)中的一個數(shù)字;以及對在該數(shù)碼系統(tǒng)中所表示的所述數(shù)據(jù)元素進(jìn)行運算,以處理該信息。
2.權(quán)利要求1的方法,其中所述選擇一種適當(dāng)數(shù)碼系統(tǒng)的步驟包括選擇一個數(shù)碼系統(tǒng)的步驟,該系統(tǒng)具有一個至少等于包括在該信息中的數(shù)據(jù)元素可能值數(shù)目的基數(shù)。
3.權(quán)利要求1的方法,其中信息中的所述數(shù)據(jù)元素包括一個字母數(shù)字字符,并且,其中選擇一個適當(dāng)數(shù)碼系統(tǒng)的步驟包括選擇一個數(shù)碼系統(tǒng)的步驟,該系統(tǒng)具有一個至少等于所述數(shù)據(jù)元素的可能字母數(shù)字字符數(shù)目的基數(shù)。
4.權(quán)利要求1的方法,其中信息包括化學(xué)信息、并且其中所述選擇一個適當(dāng)數(shù)碼系統(tǒng)的步驟包括選擇一個數(shù)碼系統(tǒng)的步驟,該系統(tǒng)具有一個至少等于信息中的可能化學(xué)結(jié)構(gòu)數(shù)目的基數(shù)。
5.權(quán)利要求2的方法,其中將信息中的所述數(shù)據(jù)元素表示為數(shù)碼系統(tǒng)中的一個數(shù)字的步驟包括為數(shù)碼系統(tǒng)中的每個數(shù)位賦與一個可以被識別為所述數(shù)據(jù)元素的值的步驟。
6.權(quán)利要求1的方法,其中將信息中的所述數(shù)據(jù)元素表示為數(shù)碼系統(tǒng)中的一個數(shù)字的步驟包括為數(shù)碼系統(tǒng)中的每個數(shù)字賦與一個可以被識別為所述數(shù)據(jù)元素的值的步驟。
7.權(quán)利要求2的方法,其中所述選擇一個適當(dāng)數(shù)碼系統(tǒng)的步驟還包括選擇具有所述基數(shù)的所述數(shù)碼系統(tǒng)的步驟,該基數(shù)也使在一個相關(guān)處理系統(tǒng)的一個數(shù)據(jù)字中所容納的數(shù)據(jù)元素數(shù)目最大化。
8.權(quán)利要求4的方法,其中所述選擇一個適當(dāng)數(shù)碼系統(tǒng)的步驟還包括選擇具有所述基數(shù)的所述數(shù)碼系統(tǒng)的步驟,該基數(shù)也使在一個相關(guān)處理系統(tǒng)的一個數(shù)據(jù)字中所容納的數(shù)據(jù)元素數(shù)目最大化。
9.一種用于將信息從至少一個原始數(shù)據(jù)庫轉(zhuǎn)換為一個提取數(shù)據(jù)庫的方法,該原始數(shù)據(jù)庫包括多個記錄,該多個記錄中的每一個都包括一個數(shù)據(jù)字段,每個數(shù)據(jù)字段包括一個數(shù)據(jù)元素,該方法包括以下步驟將原始數(shù)據(jù)庫中的一個非數(shù)字?jǐn)?shù)據(jù)字段轉(zhuǎn)換為一個數(shù)字向量;把所述向量與一個提取矩陣相比較以判斷所述向量是否被包括在所述提取矩陣中;如果所述向量沒有包括在所述提取矩陣中,則將所述向量包括到所述提取矩陣中;以及用所述提取矩陣構(gòu)成該提取數(shù)據(jù)庫。
10.權(quán)利要求9的方法,還包括以下步驟使帶有所述向量的信息可以表示其在原始數(shù)據(jù)庫中的起源。
11.權(quán)利要求9的方法,還包括以下步驟在一個參考數(shù)據(jù)庫中包括所述向量;以及在所述參考數(shù)據(jù)庫中為所述向量標(biāo)識出一個適當(dāng)位置。
12.權(quán)利要求11的方法,其中所述為所述向量標(biāo)識出一個適當(dāng)位置的步驟包括定位類似于所述向量的另一個向量的步驟。
13.權(quán)利要求12的方法,其中所述定位類似于所述向量的另一個向量的步驟包括數(shù)字化地比較所述向量與所述另一個向量的步驟。
14.權(quán)利要求11的步驟,還包括定位在所述參考數(shù)據(jù)庫中的一個第一向量的步驟,該第一向量與所述參考數(shù)據(jù)庫中的一個第二向量相類似。
15.權(quán)利要求14的步驟,其中所述定位一個第一向量的步驟包括在所述參考數(shù)據(jù)庫中定位所述第一向量的步驟,它可被看作與所述參考數(shù)據(jù)庫中的一個第二向量相同。
16.權(quán)利要求15的方法,其中所述定位所述第一向量的步驟包括在所述參考數(shù)據(jù)庫中定位所述第一向量的步驟,它與所述參考數(shù)據(jù)庫中的一個第二向量是重復(fù)的。
17.權(quán)利要求14的方法,還包括從所述第一向量和所述第二向量構(gòu)成一個提取向量的步驟,它包括來自所述第一向量和所述第二向量的最佳信息。
18.權(quán)利要求17的方法,其中所述比較所述向量與一個提取矩陣的步驟包括比較所述提取向量與所述提取矩陣以判斷所述提取向量是否被包括在所述提取矩陣中的步驟。
19.權(quán)利要求11的方法,還包括定位所述參考數(shù)據(jù)庫中的一個第一向量的步驟,它與所述參考數(shù)據(jù)庫中的每個其他向量都不相同。
20.權(quán)利要求11的方法,還包括從所述第一向量構(gòu)成一個提取向量的步驟。
21.權(quán)利要求20的方法,其中所述比較所述向量與一個提取矩陣的步驟包括比較所述提取向量與所述提取矩陣以判斷所述提取向量是否被包括在所述提取矩陣中的步驟。
22.權(quán)利要求9的方法,其中所述轉(zhuǎn)換數(shù)據(jù)字段的步驟包括以下步驟選擇一個具有一個基數(shù)的適當(dāng)?shù)臄?shù)碼系統(tǒng),該基數(shù)至少等于所述數(shù)據(jù)字段中一個數(shù)據(jù)元素的可能值數(shù)目;將所述數(shù)據(jù)元素表示為該數(shù)碼系統(tǒng)中的一個數(shù)字;以及在所述向量中儲存所述數(shù)據(jù)元素。
23.一種用于組織一個第一字段向量和一個第二字段向量的數(shù)據(jù)的方法包括以下步驟以一個特定順序?qū)Φ谝蛔侄蜗蛄窟M(jìn)行排序;以所述特定順序?qū)Φ诙侄蜗蛄窟M(jìn)行排序;將第一字段向量中的一個第一索引上的一個第一值與第二字段向量中的一個第二索引上的一個第二值進(jìn)行比較;如果所述第一值不等于所述第二值,則根據(jù)所述第一值與所述第二值之間的差調(diào)整所述第一索引與所述第二索引中的一個。
24.權(quán)利要求23的方法,其中如果所述第一值與所述第二值相等,則所述第一值與第二值被判斷為重復(fù)數(shù)據(jù)。
25.權(quán)利要求23的方法,其中所述以一個特定順序?qū)Φ谝蛔侄蜗蛄窟M(jìn)行排序的步驟包括以升序排序第一字段向量的步驟,并且其中所述以一個特定順序?qū)Φ诙侄蜗蛄窟M(jìn)行排序的步驟包括以升序排序第二字段向量的步驟。
26.權(quán)利要求23的方法,其中所述以一個特定順序?qū)Φ谝蛔侄蜗蛄窟M(jìn)行排序的步驟包括以降序排序第一字段向量的步驟,并且其中所述以一個特定順序?qū)Φ诙侄蜗蛄窟M(jìn)行排序的步驟包括以降序排序第二字段向量的步驟。
27.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括在所述第一值小于所述第二值時調(diào)整所述第一索引的步驟。
28.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括在所述第二值小于所述第一值時調(diào)整所述第二索引的步驟。
29.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括以下步驟如果所述第一值小于所述第二值,調(diào)整所述第一索引;如果所述第二值小于所述第一值,調(diào)整所述第二索引;
30.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括根據(jù)所述第一值是否大于所述第二值將所述第一索引與所述第二索引之一遞增的步驟。
31.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括根據(jù)所述第一值是否大于所述第二值將所述第一索引與所述第二索引之一遞減的步驟。
32.權(quán)利要求23的方法,其中所述第一值是一個數(shù)字值,并且其中所述第二值是一個數(shù)字值。
33.權(quán)利要求32的方法,其中所述第一值是一個代表字母數(shù)字值的數(shù)字值,并且,其中所述第二值是一個代表字母數(shù)字值的數(shù)字值。
34.權(quán)利要求23的方法,還包括以下步驟將所述第一字段向量分區(qū)為至少一個通用值的集合;以及將所述第二字段向量分區(qū)為至少一個通用值的集合。
35.權(quán)利要求34的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括將所述第一索引與所述第二索引之一調(diào)整到所述第一字段與所述第二字段向量中相應(yīng)的一個向量中的下一個分區(qū)集合的步驟。
36.一種用于組織一個第一字段向量與一個第二字段向量的數(shù)據(jù)的方法,第一字段向量與第二字段向量以一個特定的順序被排序,該方法包括以下步驟將所述第一字段向量分區(qū)為通用值的集合;將所述第二字段向量分區(qū)為通用值的集合;將第一字段向量中一個第一位置中的一個第一值與第二字段向量中一個第二位置上的一個第二值進(jìn)行比較;如果所述第一值不等于所述第二值,則根據(jù)所述第一值與所述第二值之間的差對所述第一位置與所述第二位置之一進(jìn)行調(diào)整。
37.權(quán)利要求36的方法,其中如果所述第一值與所述第二值相等,則所述第一與第二值被判斷為重復(fù)數(shù)據(jù)。
38.權(quán)利要求36的方法,其中所述調(diào)整所述第一位置與所述第二位置之一的步驟包括將所述第一位置與所述第二位置之一調(diào)整到所述第一字段向量與所述第二字段向量中相應(yīng)的一個向量的下一個分區(qū)集合中。
39.權(quán)利要求38的方法,其中第一與第二字段向量是以遞增數(shù)字順序進(jìn)行排序的,并且其中所述調(diào)整所述第一位置與所述第二位置之一的步驟包括以下步驟如果所述第一值小于所述第二值,則將所述第一位置調(diào)整到所述第一字段向量中的下一個分區(qū)集合;以及如果所述第二值小于所述第一值,則將所述第二位置調(diào)整到所述第二字段向量中的下一個分區(qū)集合。
40.權(quán)利要求38的方法,其中第一與第二字段向量是以遞減數(shù)字順序進(jìn)行排序的,并且其中所述調(diào)整所述第一位置與所述第二位置之一的步驟包括以下步驟如果所述第一值大于所述第二值,則將所述第一位置調(diào)整到所述第一字段向量中的下一個分區(qū)集合;以及如果所述第二值大于所述第一值,則將所述第二位置調(diào)整到所述第二字段向量中的下一個分區(qū)集合。
41.一種用于排序數(shù)據(jù)的方法,包括以下步驟接收一個要被排序的值;確定要包括所述值的一個向量中的一個第一位置;從所述位置上的所述向量檢索一個向量值;反饋所述向量值以確定所述值與所述向量值之間的一個差值;以及至少部分地根據(jù)所述差值來確定所述向量中的一個新位置。
42.權(quán)利要求41的方法,其中所述確定一個新位置的步驟包括至少部分地根據(jù)所述第一位置確定所述向量中的一個新位置的步驟。
43.一個用于組織數(shù)據(jù)的計算機(jī)系統(tǒng)包括一個儲存在其中的程序,用于執(zhí)行權(quán)利要求1到42的任何方法。
44.一種帶有附于其中的一個計算機(jī)程序的計算機(jī)可讀介質(zhì),該程序用于組織數(shù)據(jù)以執(zhí)行權(quán)利要求1到42的任何方法。
全文摘要
一種系統(tǒng)與方法,用于使用一種改進(jìn)的機(jī)制來識別數(shù)據(jù)庫中字段(如列)之間的重復(fù)數(shù)據(jù),以組織來自一個或多個來源的原始數(shù)據(jù)。字段可以是在一個單一數(shù)據(jù)庫之內(nèi)的類似字段,或者一對數(shù)據(jù)庫之內(nèi)相似或相同的字段,并且可以被組織為數(shù)組或字段向量。本發(fā)明將每個字段向量排序,并且,如果需要的話,用通用值對其分區(qū)。識別字段向量之間的重復(fù)數(shù)據(jù)所需要進(jìn)行的比較的數(shù)目由于反饋所比較的值之間的差而得到減少。這個差值被用于將索引調(diào)整到用于后續(xù)比較的字段向量。
文檔編號G06F12/00GK1461444SQ00812084
公開日2003年12月10日 申請日期2000年7月14日 優(yōu)先權(quán)日1999年7月20日
發(fā)明者布約恩·J·格魯恩沃爾德 申請人:英門迪亞公司