專利名稱:模糊數(shù)據(jù)操作的制作方法
技術(shù)領(lǐng)域:
本描述涉及數(shù)據(jù)管理領(lǐng)域中的模糊數(shù)據(jù)操作。
背景技術(shù):
在數(shù)據(jù)管理中采用例如聚類(cluster)、聯(lián)接(join)、搜索(search)、上卷 (rollup)和排序(sort)的數(shù)據(jù)操作來(lái)處理數(shù)據(jù)。聚類是將數(shù)據(jù)分類為不同組的操作。聯(lián)接將兩片數(shù)據(jù)組合在一起。通過(guò)關(guān)鍵字(key)的搜索找到與該關(guān)鍵字匹配的數(shù)據(jù)條目。上卷跨過(guò)(across) —組數(shù)據(jù)計(jì)算一個(gè)或多個(gè)層次的子和(subtotal,或者其他組合)的操作。 排序是對(duì)數(shù)據(jù)安排順序(order)的操作。在數(shù)據(jù)管理中數(shù)據(jù)質(zhì)量很重要。由數(shù)據(jù)操作導(dǎo)致的錯(cuò)誤或者不準(zhǔn)確使數(shù)據(jù)質(zhì)量退化。例如,將ABC公司的雇員John Smith分類為臨時(shí)工作人員或者永久工作人員使John Smith享有不同級(jí)別的福利(benefit)。對(duì)John Smith的雇傭狀態(tài)的錯(cuò)誤分類,例如數(shù)據(jù)操作聚類中的錯(cuò)誤,影響ABC公司的人力資源數(shù)據(jù)的質(zhì)量。數(shù)據(jù)操作的某些實(shí)施方案依靠字段值(“關(guān)鍵字(key) ”)的精確比較來(lái)標(biāo)識(shí)匹配的記錄、定義相關(guān)記錄的組或者鏈接記錄。當(dāng)數(shù)據(jù)有不明確性(ambiguous)、不精確、不完整或者不確定時(shí),基于字段值的精確比較的方法可能失效。當(dāng)存在與例如聚類的數(shù)據(jù)操作相關(guān)聯(lián)的內(nèi)在(inherent)不明確性時(shí),一種解決不明確性的方法可以是簡(jiǎn)單地忽略不明確性并強(qiáng)制一片數(shù)據(jù)進(jìn)入特定組中。例如,ABC公司的雇員John Smith既為營(yíng)銷部門工作也為研發(fā)部門工作。在ABC公司的人力資源數(shù)據(jù)庫(kù)中,John Smith可以與營(yíng)銷部門或研發(fā)部門相關(guān)聯(lián),但是經(jīng)常只和一個(gè)部門相關(guān)聯(lián)。將該片數(shù)據(jù)強(qiáng)制分類到特定組可能掩蓋內(nèi)在不明確性并對(duì)數(shù)據(jù)質(zhì)量有不利影響。當(dāng)存在與例如聚類的數(shù)據(jù)操作相關(guān)聯(lián)的不確定性時(shí),由于未決的事件結(jié)果,例如實(shí)體A和實(shí)體B之間的涉及一件資產(chǎn)的所有權(quán)的法律糾紛,強(qiáng)制一片數(shù)據(jù)進(jìn)入特定組中可能并非是解決該狀況的易變性的最佳方法。在判決之前,資產(chǎn)的所有權(quán)是不確定的。將該資產(chǎn)分配給A或者B結(jié)果均可能是不準(zhǔn)確的。當(dāng)存在與例如上卷的數(shù)據(jù)操作相關(guān)聯(lián)的不確定性時(shí),由于組成員資格的不明確性標(biāo)識(shí),將成員資格分配給幾個(gè)替換(alternative)之中的一個(gè)組來(lái)維護(hù)(preserve)會(huì)計(jì)誠(chéng)信(accounting integrity)可能給出誤導(dǎo)性的圖景(picture)。例如,出于風(fēng)險(xiǎn)評(píng)估和監(jiān)管的目的,銀行可能對(duì)確定其對(duì)于對(duì)手方的貸款風(fēng)險(xiǎn)感興趣。經(jīng)常通過(guò)公司名稱標(biāo)識(shí)對(duì)手方,由于公司名稱的記錄形式上的廣泛可變性,會(huì)導(dǎo)致不明確的標(biāo)識(shí)。反之,這意味著將貸款風(fēng)險(xiǎn)分配給對(duì)手方是不明確的。會(huì)發(fā)生與一個(gè)公司正確地相關(guān)聯(lián)的貸款被在幾個(gè)明顯不同的公司之中劃分,它們實(shí)際上只是這一個(gè)公司的名稱的變化形式。這導(dǎo)致低估了銀行對(duì)任一單個(gè)對(duì)手方的風(fēng)險(xiǎn)?;蛘?,如果在替換之中做出了任意的選擇,則會(huì)將風(fēng)險(xiǎn)錯(cuò)誤地分配給一個(gè)對(duì)手方盡管該風(fēng)險(xiǎn)正確地是屬于另一對(duì)手方的,從而可能高估了對(duì)第一家的風(fēng)險(xiǎn)并低估了對(duì)第二家的風(fēng)險(xiǎn)。當(dāng)存在與例如聯(lián)接的數(shù)據(jù)操作相關(guān)聯(lián)的不確定性時(shí),由于不正確或者丟失的信息,強(qiáng)制一片數(shù)據(jù)進(jìn)入特定組或者忽略該片數(shù)據(jù)可能導(dǎo)致錯(cuò)誤的聯(lián)系或者信息損失。例如, 當(dāng)試圖聯(lián)接來(lái)自兩個(gè)不同數(shù)據(jù)庫(kù)的表格時(shí),經(jīng)常不存在數(shù)據(jù)庫(kù)表格共享的公共關(guān)鍵字。為了克服這一點(diǎn),表格內(nèi)的數(shù)據(jù),例如客戶地址,用于推斷兩個(gè)數(shù)據(jù)庫(kù)中的記錄之間的關(guān)系。 但是,地址信息可能不正確或者不完整。假設(shè)對(duì)照權(quán)威性的參考集合(例如郵政地址文件) 的地址有效性表明表格A中的記錄上的房屋號(hào)碼是無(wú)效的(不存在具有該房屋號(hào)碼的房屋),而在表格B中存在可能是地址的有效替換的完整形式(alternative completion)的多個(gè)地址。任意地選擇表格A中的記錄中的地址的完整形式可能導(dǎo)致錯(cuò)誤的聯(lián)系,而忽略記錄則導(dǎo)致信息損失。當(dāng)由于錯(cuò)誤的數(shù)據(jù)錄入(entry)而存在與例如搜索的數(shù)據(jù)操作相關(guān)聯(lián)的不明確性時(shí),一種方法是提出單個(gè)替換或者替換修正的簡(jiǎn)單列表。如果這是操作者錄入數(shù)據(jù)庫(kù)的數(shù)據(jù)的驗(yàn)證過(guò)程的一部分,則當(dāng)存在多個(gè)替換時(shí)單個(gè)替換可能導(dǎo)致操作者在接受修正時(shí)對(duì)安全性的錯(cuò)誤感知。如果提供了替換的簡(jiǎn)單列表,則操作者可能不具有在替換中進(jìn)行選擇的合理根據(jù)。如果要求單個(gè)選擇并且對(duì)于錯(cuò)誤選擇接受數(shù)據(jù)質(zhì)量的某種退化,則使數(shù)據(jù)質(zhì)量的可能損失最小并量化成為目標(biāo)。
發(fā)明內(nèi)容
一般地,在一個(gè)方面,一種用于對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素進(jìn)行聚類的方法包括從數(shù)據(jù)存儲(chǔ)系統(tǒng)讀取數(shù)據(jù)元素。形成數(shù)據(jù)元素的聚類,每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員。將至少一個(gè)數(shù)據(jù)元素和兩個(gè)或多個(gè)聚類相關(guān)聯(lián)。所述數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由多義性度量表示。將表示所形成的聚類的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中。多個(gè)方面可以包括下列特征中的一個(gè)或多個(gè)。表示數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格的不明確性度量的每一個(gè)值可以在零和一之間。表示成員資格的不明確性度量的值可以與數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的可能性相關(guān)。表示數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格的不明確性度量的每一個(gè)值的和可以是一。所述方法可以包括使用不明確性度量的值保持會(huì)計(jì)誠(chéng)信。通過(guò)利用不明確性度量的值對(duì)所述數(shù)量進(jìn)行加權(quán)來(lái)實(shí)現(xiàn)對(duì)于給定數(shù)量保持會(huì)計(jì)誠(chéng)信。所述方法可以包括執(zhí)行使用表示成員資格的不明確性度量的值的數(shù)據(jù)操作。所述數(shù)據(jù)操作可以包括在所述一個(gè)或多個(gè)聚類的第一聚類內(nèi)計(jì)算數(shù)量的加權(quán)子和的上卷,所述數(shù)量與數(shù)據(jù)元素相關(guān)聯(lián),并且通過(guò)在第一聚類內(nèi)對(duì)所述數(shù)量的值和各自的不明確性度量的值的乘積求和來(lái)計(jì)算所述子和,所述數(shù)量的值與第一聚類中的每一數(shù)據(jù)相關(guān)聯(lián),所述不明確性度量的值表示第一聚類中的數(shù)據(jù)元素的成員資格。所述方法可以包括計(jì)算所述數(shù)量的排他子和和所述數(shù)量的包含子和,通過(guò)在第一聚類中排除與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的數(shù)據(jù)元素來(lái)計(jì)算排他子和,并且通過(guò)在第一聚類中包括與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的數(shù)據(jù)元素來(lái)計(jì)算包含子和。可以基于函數(shù)來(lái)建立表示成員資格的不明確性度量的值,所述函數(shù)表示所述數(shù)據(jù)元素和所述兩個(gè)或多個(gè)聚類之間的關(guān)系。由所述函數(shù)表示的所述關(guān)系可以與數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的可能性相關(guān)。由所述函數(shù)表示的所述關(guān)系可以基于所述數(shù)據(jù)元素和表示所述兩個(gè)或多個(gè)聚類的各自一個(gè)的元素之間的量化的相似性。表示所述兩個(gè)或多個(gè)聚類的各自一個(gè)的元素可以是各自聚類的關(guān)鍵字。在某些布置中,屬于所述兩個(gè)或多個(gè)聚類的每一聚類的數(shù)據(jù)元素的不明確性度量的值對(duì)于每一聚類可以相等。屬于所述兩個(gè)或多個(gè)聚類的每一聚類的數(shù)據(jù)元素的不明確性度量的值可以基于觀察到的數(shù)據(jù)元素在基準(zhǔn)集合中的頻率。所述兩個(gè)或多個(gè)聚類的每一聚類均可以表示數(shù)據(jù)元素中不同的潛在誤差,并且數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的每一聚類的不明確性度量的值基于由每一聚類表示的數(shù)據(jù)元素中潛在誤差的可能性。形成數(shù)據(jù)聚類可以包括形成數(shù)據(jù)元素的多個(gè)超聚類,并且對(duì)于每一超聚類在該超聚類內(nèi)形成數(shù)據(jù)元素的聚類。形成每一超聚類可以包括基于不同數(shù)據(jù)元素中的對(duì)象之間的變體關(guān)系確定不同數(shù)據(jù)元素中對(duì)象之間的匹配。第一對(duì)象和第二對(duì)象之間的變體關(guān)系可以對(duì)應(yīng)于表示第一對(duì)象和第二對(duì)象的之間的距離的函數(shù)的值低于預(yù)先確定的閾值。在某些布置中,所述變體關(guān)系可以不是等價(jià)關(guān)系。至少一個(gè)數(shù)據(jù)元素可以在多于一個(gè)超聚類中。在另一方面,一般地,一種用于對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素進(jìn)行的系統(tǒng)包括用于從數(shù)據(jù)存儲(chǔ)系統(tǒng)讀取數(shù)據(jù)元素的裝置;用于形成數(shù)據(jù)元素的聚類的裝置,每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員;用于將至少一個(gè)數(shù)據(jù)元素與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的裝置,所述數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由不明確性度量表示;以及用于將表示所形成的聚類的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的裝置。在另一方面,一般地,描述了一種存儲(chǔ)用于對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素進(jìn)行舉了的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì)。所述計(jì)算機(jī)程序包括指令,用于導(dǎo)致計(jì)算機(jī)從數(shù)據(jù)存儲(chǔ)系統(tǒng)讀取數(shù)據(jù)元素;形成數(shù)據(jù)元素的聚類,每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員;將至少一個(gè)數(shù)據(jù)元素與兩個(gè)或多個(gè)聚類相關(guān)聯(lián),所述數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由不明確性度量表示;以及將表示所形成的聚類的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中。在另一方面,一般地,一種用于執(zhí)行從數(shù)據(jù)存儲(chǔ)系統(tǒng)接收關(guān)鍵字并返回一個(gè)或多個(gè)數(shù)據(jù)元素的數(shù)據(jù)操作的方法包括基于關(guān)鍵字和數(shù)據(jù)元素的一個(gè)或多個(gè)搜索字段的值之間的候選匹配,確定多個(gè)候選數(shù)據(jù)元素。基于與搜索字段不同的候選數(shù)據(jù)元素的一個(gè)或多個(gè)比較字段的值對(duì)候選匹配進(jìn)行確證。多個(gè)方面可以包括下列特征中的一個(gè)或多個(gè)。所述數(shù)據(jù)操作可以包括形成數(shù)據(jù)元素的聚類,每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員。至少一個(gè)數(shù)據(jù)元素可以與兩個(gè)或多個(gè)聚類相關(guān)聯(lián),所述數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由不明確性度量表示。所述數(shù)據(jù)操作可以包括在所述一個(gè)或多個(gè)聚類的第一聚類內(nèi)計(jì)算數(shù)量的加權(quán)子和的上卷,所述數(shù)量與數(shù)據(jù)元素相關(guān)聯(lián),并且通過(guò)在第一聚類內(nèi)對(duì)所述數(shù)量的值和各自的不明確性度量的值的乘積求和來(lái)計(jì)算所述子和,所述數(shù)量的值與第一聚類中的每一數(shù)據(jù)相關(guān)聯(lián),所述不明確性度量的值表示第一聚類中的數(shù)據(jù)元素的成員資格。所述方法還可以包括計(jì)算所述數(shù)量的排他子和和所述數(shù)量的包含子和,通過(guò)在第一聚類中排除與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的數(shù)據(jù)元素來(lái)計(jì)算排他子和,并且通過(guò)在第一聚類中包括與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的數(shù)據(jù)元素來(lái)計(jì)算包含子和。表示數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格的不明確性度量的每一個(gè)值可以在零和一之間。表示成員資格的不明確性度量的值可以與數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的可能性相關(guān)??梢曰诤瘮?shù)來(lái)建立表示成員資格的不明確性度量的值,所述函數(shù)表示所述數(shù)據(jù)元素和所述兩個(gè)或多個(gè)聚類之間的關(guān)系。由所述函數(shù)表示的所述關(guān)系可以和數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的可能性相關(guān)。所述方法還可以包括基于給定數(shù)據(jù)元素的一個(gè)或多個(gè)比較字段的值確定給定聚類中所述給定數(shù)據(jù)元素的成員資格。在另一方面,一般地,一種用于執(zhí)行從數(shù)據(jù)存儲(chǔ)系統(tǒng)接收關(guān)鍵字并返回一個(gè)或多個(gè)數(shù)據(jù)元素的數(shù)據(jù)操作的系統(tǒng)包括用于基于關(guān)鍵字和數(shù)據(jù)元素的一個(gè)或多個(gè)搜索字段的值之間的候選匹配,確定多個(gè)候選數(shù)據(jù)元素的裝置;以及用于基于與搜索字段不同的候選數(shù)據(jù)元素的一個(gè)或多個(gè)比較字段的值對(duì)候選匹配進(jìn)行確證的裝置。在另一方面,一般地,描述了一種存儲(chǔ)用于執(zhí)行從數(shù)據(jù)存儲(chǔ)系統(tǒng)接收關(guān)鍵字并返回一個(gè)或多個(gè)數(shù)據(jù)元素的數(shù)據(jù)操作的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì)。所述計(jì)算機(jī)程序包括指令,用于導(dǎo)致計(jì)算機(jī)基于關(guān)鍵字和數(shù)據(jù)元素的一個(gè)或多個(gè)搜索字段的值之間的候選匹配,確定多個(gè)候選數(shù)據(jù)元素;以及基于與搜索字段不同的候選數(shù)據(jù)元素的一個(gè)或多個(gè)比較字段的值對(duì)候選匹配進(jìn)行確證。在另一方面,一般地,一種用于對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量進(jìn)行度量的方法包括從數(shù)據(jù)存儲(chǔ)系統(tǒng)讀取數(shù)據(jù)元素。對(duì)于數(shù)據(jù)元素的一個(gè)或多個(gè)字段中的一個(gè)或多個(gè)條目中的每一個(gè),計(jì)算所述條目的不明確性度量的值。基于不明確性度量的值來(lái)輸出數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示。多個(gè)方面可以包括下列特征中的一個(gè)或多個(gè)。計(jì)算不明確性度量的值可以包括將數(shù)據(jù)元素的一個(gè)或多個(gè)字段中的條目和基準(zhǔn)值進(jìn)行比較。對(duì)于不與基準(zhǔn)值精確匹配的至少第一條目,可以標(biāo)識(shí)一個(gè)或多個(gè)變體?;卺槍?duì)所述第一條目的變體,可以計(jì)算所述第一條目的不明確性度量的值。所述第一條目的不明確性度量的值可以基于針對(duì)所述第一條目的變體的數(shù)量。所述數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示可以包括具有指定的變體數(shù)量的條目的數(shù)量的直方圖。所述指定的變體數(shù)量可以被指定為在一個(gè)范圍內(nèi)。所述數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示可以包括具有大于預(yù)定的閾值的變體數(shù)量的條目的列表。計(jì)算不明確性度量的值可以包括確定一個(gè)或多個(gè)字段中不同條目的各自頻率?;诘谝粭l目相較于其他條目的頻率的相對(duì)頻率,可以計(jì)算第一條目的不明確性度量的值。在另一方面,一般地,一種用于對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量進(jìn)行度量的系統(tǒng)包括用于從數(shù)據(jù)存儲(chǔ)系統(tǒng)(12)讀取數(shù)據(jù)元素的裝置;用于對(duì)于數(shù)據(jù)元素的一個(gè)或多個(gè)字段中的一個(gè)或多個(gè)條目中的每一個(gè),計(jì)算所述條目的不明確性度量的值的裝置; 以及用于基于不明確性度量的值來(lái)輸出數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示的
直ο在另一方面,一般地,描述了一種存儲(chǔ)用于對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量進(jìn)行度量的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì)。所述計(jì)算機(jī)程序包括指令,用于導(dǎo)致計(jì)算機(jī)從數(shù)據(jù)存儲(chǔ)系統(tǒng)讀取數(shù)據(jù)元素;對(duì)于數(shù)據(jù)元素的一個(gè)或多個(gè)字段中的一個(gè)或多個(gè)條目中的每一個(gè),計(jì)算所述條目的不明確性度量的值;以及基于不明確性度量的值來(lái)輸出數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示。在另一方面,一般地,一種用于對(duì)來(lái)自存儲(chǔ)在至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)中的兩個(gè)或多個(gè)數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接的方法包括基于來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的變體關(guān)系,確定來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的匹配。評(píng)價(jià)具有被確定為匹配的各自對(duì)象的各自數(shù)據(jù)元素?;跀?shù)據(jù)元素的評(píng)價(jià),將來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素與來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素聯(lián)接。多個(gè)方面可以包括下列特征中的一個(gè)或更多個(gè)。第一對(duì)象和第二對(duì)象之間的變體關(guān)系可以對(duì)應(yīng)于表示第一對(duì)象和第二對(duì)象的之間的距離的函數(shù)的值低于預(yù)先確定的閾值。所述變體關(guān)系可以不是等價(jià)關(guān)系。確定來(lái)自第一數(shù)據(jù)集合的第一數(shù)據(jù)元素中的對(duì)象和第二數(shù)據(jù)集合中的第二數(shù)據(jù)元素中的對(duì)象之間的匹配可以包括確定在第一數(shù)據(jù)元素中的對(duì)象和第二數(shù)據(jù)元素中的對(duì)象之間所述變體關(guān)系有效。確定來(lái)自第一數(shù)據(jù)集合的第一數(shù)據(jù)元素中的對(duì)象和第二數(shù)據(jù)集合中的第二數(shù)據(jù)元素中的對(duì)象之間的匹配可以包括確定在第一數(shù)據(jù)元素中的對(duì)象和第一數(shù)據(jù)集合中的第三數(shù)據(jù)元素中的對(duì)象之間所述變體關(guān)系有效,并且在第三數(shù)據(jù)元素中的對(duì)象和第二數(shù)據(jù)元素中的對(duì)象之間所述變體關(guān)系有效。評(píng)價(jià)具有被確定為匹配的各自對(duì)象的各自數(shù)據(jù)元素可以包括在各自數(shù)據(jù)元素中除了被確定為匹配的各自對(duì)象之外的對(duì)象的比較。
在另一方面,一般地,一種用于對(duì)來(lái)自存儲(chǔ)在至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)中的兩個(gè)或多個(gè)數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行連接的系統(tǒng)包括用于基于來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的變體關(guān)系,確定來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的匹配的裝置;用于評(píng)價(jià)具有被確定為匹配的各自對(duì)象的各自數(shù)據(jù)元素的裝置;以及用于基于數(shù)據(jù)元素的評(píng)價(jià), 對(duì)來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素與來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接的裝置。在另一方面,一般地,描述了一種存儲(chǔ)用于對(duì)來(lái)自存儲(chǔ)在至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)中的兩個(gè)或多個(gè)數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì)。所述計(jì)算機(jī)程序包括指令,用于導(dǎo)致計(jì)算機(jī)基于來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的變體關(guān)系,確定來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的匹配;評(píng)價(jià)具有被確定為匹配的各自對(duì)象的各自數(shù)據(jù)元素;以及基于數(shù)據(jù)元素的評(píng)價(jià),將來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素與來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接。
圖1是用于執(zhí)行基于圖的計(jì)算的系統(tǒng)的框圖。圖2A是屬于多個(gè)聚類的數(shù)據(jù)元素的例子。圖2B是在聚類上執(zhí)行的操作的例子。圖2C、圖2D是距離計(jì)算的例子。圖3是模糊聚類的圖示。圖4是模糊聚類的另一圖示。圖5是如何生成模糊聚類的流程圖。圖6示出了模糊搜索的例子。
具體實(shí)施例方式可以將用于執(zhí)行模糊數(shù)據(jù)操作的技術(shù)應(yīng)用于包括不同形式的存儲(chǔ)數(shù)據(jù)集合的數(shù)據(jù)庫(kù)系統(tǒng)的各種類型的系統(tǒng)。如這里所使用的那樣,數(shù)據(jù)集合包括任何使數(shù)據(jù)的一部分能夠被組織為具有用于相應(yīng)字段(也稱為“屬性”或“列”)的值的記錄的數(shù)據(jù)的聚集。數(shù)據(jù)庫(kù)系統(tǒng)和所存儲(chǔ)的數(shù)據(jù)集合可以采用各種形式,例如復(fù)雜的數(shù)據(jù)庫(kù)管理系統(tǒng)或者存儲(chǔ)簡(jiǎn)單的平面文件的文件系統(tǒng)。各種數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)方面是其用于數(shù)據(jù)集合內(nèi)的記錄的記錄結(jié)構(gòu)的類型(可以包括用于每一記錄內(nèi)的字段的字段結(jié)構(gòu))。在某些系統(tǒng)中,數(shù)據(jù)集合的記錄結(jié)構(gòu)可以簡(jiǎn)單地將單獨(dú)的文本文檔定義為記錄,并且文檔的內(nèi)容表示一個(gè)或多個(gè)字段的值。在某些系統(tǒng)中,不要求單個(gè)數(shù)據(jù)集合內(nèi)的所有記錄具有相同的結(jié)構(gòu)(例如字段結(jié)構(gòu))。復(fù)雜的計(jì)算經(jīng)常可以表達(dá)為通過(guò)有向圖的數(shù)據(jù)流(稱作數(shù)據(jù)流圖),計(jì)算的要素 (component)與圖的頂點(diǎn)相關(guān)聯(lián),并且要素之間的數(shù)據(jù)流對(duì)應(yīng)于圖的連接(弧、邊)。在通過(guò)引用包含于此的美國(guó)專利 5,966,072,EXECUTING COMPUTATIONS EXPRESSED AS GRAPHS 中描述了實(shí)施這種基于圖的計(jì)算的系統(tǒng)。執(zhí)行基于圖的計(jì)算的一種方法是執(zhí)行許多個(gè)處理, 每一個(gè)均與圖的不同頂點(diǎn)相關(guān)聯(lián),并根據(jù)圖的連接在處理之間建立通信路徑。例如,通信路徑可以使用TCP/IP或者UNIX域套接字,或者使用共享存儲(chǔ)器在處理之間傳遞數(shù)據(jù)。
參考圖1,用于執(zhí)行基于圖的計(jì)算的系統(tǒng)10包括耦接到數(shù)據(jù)倉(cāng)庫(kù)12的開(kāi)發(fā)環(huán)境 14和耦接到數(shù)據(jù)倉(cāng)庫(kù)12的運(yùn)行時(shí)環(huán)境18。開(kāi)發(fā)員11使用開(kāi)發(fā)環(huán)境14構(gòu)建(buile)應(yīng)用。應(yīng)用可以與由數(shù)據(jù)倉(cāng)庫(kù)12中的數(shù)據(jù)結(jié)構(gòu)指定的一個(gè)或多個(gè)數(shù)據(jù)流圖相關(guān)聯(lián),作為開(kāi)發(fā)者使用開(kāi)發(fā)環(huán)境14的結(jié)果,所述數(shù)據(jù)結(jié)構(gòu)可以被寫到數(shù)據(jù)倉(cāng)庫(kù)。用于計(jì)算圖(computation graph) 15的數(shù)據(jù)結(jié)構(gòu)13指定,例如,計(jì)算圖的頂點(diǎn)(要素或者數(shù)據(jù)集合)以及頂點(diǎn)之間的連接(表示工作元素的流)。數(shù)據(jù)結(jié)構(gòu)還可以包括要素、數(shù)據(jù)集合和數(shù)據(jù)流圖的流的各種特性。運(yùn)行時(shí)環(huán)境18可以駐留在一個(gè)或多個(gè)在諸如UNIX操作系統(tǒng)之類的合適的操作系統(tǒng)控制下的通用計(jì)算機(jī)上。例如,運(yùn)行時(shí)環(huán)境18可以包括多節(jié)點(diǎn)并行計(jì)算環(huán)境,該環(huán)境包括使用多個(gè)中央處理單元(CPU)的計(jì)算機(jī)系統(tǒng)的配置,或者是本地的(例如SMP計(jì)算機(jī)的多處理器系統(tǒng))、或者是本地分布式的(例如耦接為集群(cluster)或MPP的多個(gè)處理器)、 或者是遠(yuǎn)程的、或者遠(yuǎn)程分布式的(例如通過(guò)LAN或WAN網(wǎng)絡(luò)耦接的多個(gè)處理器),或者是其任意組合。運(yùn)行時(shí)環(huán)境18配置為從數(shù)據(jù)倉(cāng)庫(kù)12和/或用戶17接收控制輸入,用于執(zhí)行和配置計(jì)算??刂戚斎肟梢园ㄊ褂脤?duì)應(yīng)的數(shù)據(jù)流圖處理特定數(shù)據(jù)集合的命令,在存儲(chǔ)的圖數(shù)據(jù)結(jié)構(gòu)中指定所述數(shù)據(jù)流圖。用戶17可以,例如,使用命令行或者圖形接口,與運(yùn)行時(shí)環(huán)境 18交互作用。運(yùn)行時(shí)環(huán)境18包括預(yù)運(yùn)行(pre-execution)模塊20和運(yùn)行模塊22。預(yù)運(yùn)行模塊 20執(zhí)行任何預(yù)處理過(guò)程并準(zhǔn)備和維護(hù)用于執(zhí)行計(jì)算圖的資源,諸如用于各種模糊操作(例如通過(guò)引用包含于此的No. 2009/0182728美國(guó)專利申請(qǐng)中描述的)的字典21和存檔文件 (archived字典21存儲(chǔ)單詞和關(guān)于數(shù)據(jù)集合中出現(xiàn)的單詞的相關(guān)聯(lián)信息。存檔文件M 基于數(shù)據(jù)集合的單詞、短語(yǔ)或者記錄存儲(chǔ)來(lái)自預(yù)處理的各種結(jié)果??梢砸愿鞣N格式中的任一種實(shí)施字典21和存檔文件24,并且可以將字典21和存檔文件M組織為數(shù)據(jù)的單個(gè)聚集或多個(gè)字典和存檔文件。運(yùn)行模塊22調(diào)度和控制分配給計(jì)算圖的處理的執(zhí)行,用于執(zhí)行要素的計(jì)算。執(zhí)行模塊22可以與耦接到系統(tǒng)10的外部計(jì)算資源交互作用,所述外部資源在與圖要素相關(guān)聯(lián)的處理期間被訪問(wèn),例如數(shù)據(jù)資源26提供來(lái)自數(shù)據(jù)庫(kù)系統(tǒng)的記錄。在系統(tǒng)10中執(zhí)行的模糊操作可用于各種目的,諸如分析數(shù)據(jù)以評(píng)估其質(zhì)量,或者組織和/或統(tǒng)一 (consolidate)數(shù)據(jù)。任何企業(yè)或者其他機(jī)構(gòu)的核心資產(chǎn)是其持有以進(jìn)行其運(yùn)作的數(shù)據(jù),從產(chǎn)品、服務(wù)和客戶列表到與個(gè)人、銀行或者其他企業(yè)的交易、合同和帳戶。該數(shù)據(jù)以多個(gè)格式存儲(chǔ),并存儲(chǔ)在多個(gè)系統(tǒng)中,從紙和電子表格到關(guān)系數(shù)據(jù)庫(kù)和企業(yè)應(yīng)用,如會(huì)計(jì)或者供應(yīng)鏈管理系統(tǒng)。每一機(jī)構(gòu)的主要關(guān)注是該數(shù)據(jù)的質(zhì)量和完整性(integrity)。如果發(fā)票包含不正確的價(jià)格或者誤標(biāo)的產(chǎn)品,則收取錯(cuò)誤的數(shù)額或者交付錯(cuò)誤的產(chǎn)品(item)。如果客戶或者供應(yīng)商的地址是錯(cuò)的,則出貨或者訂單可能延遲或者丟失,并且發(fā)票或者付款可能不能到達(dá)其預(yù)期方。如果在一個(gè)系統(tǒng)上表示客戶的關(guān)鍵字鏈接到另一系統(tǒng)上不同客戶的帳戶,則關(guān)于客戶的帳戶的狀態(tài)的報(bào)告將不可靠,并且,更糟糕的是,一個(gè)客戶可能具有對(duì)其他客戶的帳戶的訪問(wèn)權(quán)。數(shù)據(jù)質(zhì)量差干擾了業(yè)務(wù)的有序進(jìn)行,并且可能導(dǎo)致收入損失、名譽(yù)受損或者喪失機(jī)會(huì)。企業(yè)或者機(jī)構(gòu)的數(shù)據(jù)的重要子集是其非業(yè)務(wù)基準(zhǔn)數(shù)據(jù)(reference data),有時(shí)候稱為其主數(shù)據(jù)(master data)。這可以包括產(chǎn)品、客戶、帳戶、供應(yīng)商的列表,以及用來(lái)表示每一數(shù)據(jù)項(xiàng)的特定屬性的具體有效值(例如,客戶具有可能是男或者女的性別,或者產(chǎn)品具有可能是枚舉列表其中之一的顏色)。一般地,主數(shù)據(jù)排除了該機(jī)構(gòu)的短期操作數(shù)據(jù),如交易或者價(jià)格。主數(shù)據(jù)管理關(guān)注機(jī)構(gòu)的基準(zhǔn)數(shù)據(jù)的組織和維護(hù)。其主要關(guān)注之一是基準(zhǔn)數(shù)據(jù)的質(zhì)量和完整性(integrity)。數(shù)據(jù)質(zhì)量和基準(zhǔn)完整性的問(wèn)題具有很多形式。存在很難保持一致的不同種類的多個(gè)數(shù)據(jù)系統(tǒng)使這些問(wèn)題惡化。潛在問(wèn)題的非窮盡列表如下1)數(shù)據(jù)可能被不正確地錄入或者記錄所做錄入并非預(yù)期的那個(gè)。在錄入中可能存在排字或者謄寫錯(cuò)誤,導(dǎo)致例如客戶姓名或者地址、產(chǎn)品標(biāo)簽或者描述,或者預(yù)期取自枚舉列表的值中的單詞的變體(variant)拼寫。很多數(shù)據(jù)錄入應(yīng)用具有旨在錄入時(shí)驗(yàn)證數(shù)據(jù)的防護(hù)措施以防止這些錯(cuò)誤,但是錯(cuò)誤仍舊出現(xiàn)。2)數(shù)據(jù)可能未完成并非所有字段都被填充??蛻魬?yīng)用可能已經(jīng)具有某些字段遺失的信息。在錄入期間表格的完成可能已被中斷。信息在錄入時(shí)可能已視為無(wú)效并被丟棄。 要完成錄入的信息在輸入時(shí)可能尚不可獲得,可能直到某些其他活動(dòng)完成為止。3)數(shù)據(jù)可能是無(wú)效的字段被填充但被以無(wú)效值填充。錄入可能不與預(yù)期來(lái)自枚舉列表的值的任何一個(gè)匹配。對(duì)于其預(yù)期的數(shù)據(jù)類型,錄入可能不是有效的,例如,在數(shù)字 (decimal)字段可能存在字母符號(hào),或者,在日期中月的日可能大于該月中的天數(shù)(例如6 月31日)。4)數(shù)據(jù)可能在錯(cuò)誤字段中錄入。城市或者郵編可能出現(xiàn)在地址的街道字段中。具有不同于預(yù)期的格式的外國(guó)地址可能已被強(qiáng)制符合預(yù)期的格式。產(chǎn)品id可能在發(fā)票或者訂單表上的描述或者注釋字段中。如果姓是常見(jiàn)的名(例如Gregory Paul),或者如果姓名不常見(jiàn)或者是外國(guó)姓名,則個(gè)人的名和姓可能被交換。5)可能不存在用于數(shù)據(jù)錄入的標(biāo)準(zhǔn)數(shù)據(jù)可能被不一致地輸入。地址行的順序未被標(biāo)準(zhǔn)化,則即使在同一數(shù)據(jù)集合中可能也不總是以相同方式記錄。公司名稱的具體形式未被標(biāo)準(zhǔn)化,則即使在同一數(shù)據(jù)集合中,許多變體形式也可能可接受??蛻粜彰赡馨暾闹虚g名,或者中間名可能不存在,或者只存在中間首字母。類似地,名可能僅僅是首字母??赡茉谛罩写嬖诰哂谢虿痪哂羞B字符的雙姓,或者可能在中間名和姓字段之間進(jìn)行分割。6)數(shù)據(jù)可能保持在自由文本字段中。發(fā)票或者訂單表上的注釋字段中的備注可能包含重要的信息,如產(chǎn)品名稱或者描述性屬性,否則這些信息將會(huì)遺失。數(shù)據(jù)庫(kù)表格上的描述字段可能包含對(duì)其他字段的變化的說(shuō)明,例如當(dāng)婦女的姓因婚姻而變化時(shí)。7)關(guān)鍵字關(guān)系可能被打破。數(shù)據(jù)庫(kù)使用關(guān)鍵字來(lái)鏈接保持在不同表格中以及有時(shí)候在不同數(shù)據(jù)庫(kù)中的表格中的相關(guān)數(shù)據(jù)。當(dāng)關(guān)鍵字未適當(dāng)鏈接正確的記錄時(shí),數(shù)據(jù)庫(kù)的基準(zhǔn)完整性已被打破。關(guān)鍵字可能不正確地鏈接記錄,如當(dāng)一個(gè)客戶被鏈接到恰屬于另一客戶的帳戶時(shí)。關(guān)鍵字可能鏈接到不存在的記錄,例如,關(guān)于帳戶記錄的客戶關(guān)鍵字未鏈接到任何現(xiàn)存的客戶記錄。在某些情況下,客戶記錄存在但是具有不同的關(guān)鍵字;該關(guān)鍵字有時(shí)候被描述為“遺失關(guān)鍵字”。在其他情況中,當(dāng)根本不存在對(duì)應(yīng)的客戶記錄時(shí),帳戶記錄被說(shuō)成是孤立(orphan)的。8)關(guān)鍵字關(guān)系可能不存在。具有不同起源的數(shù)據(jù)庫(kù)可以保持類似的數(shù)據(jù),但是不存在對(duì)其共享的數(shù)據(jù)進(jìn)行鏈接的關(guān)鍵字。對(duì)于一個(gè)行業(yè)來(lái)說(shuō)未發(fā)現(xiàn)其與另一行業(yè)共享客戶是常見(jiàn)的。當(dāng)企業(yè)或者機(jī)構(gòu)合并時(shí),兩個(gè)實(shí)體的主數(shù)據(jù)可能被組合。兩個(gè)實(shí)體的不同標(biāo)準(zhǔn)和非等同有效值使得很難獲得一致的主數(shù)據(jù)的集合,但是對(duì)如客戶的共享數(shù)據(jù)進(jìn)行標(biāo)識(shí)和鏈接的問(wèn)題往往更難。數(shù)據(jù)清理(Data cleansing)尋求標(biāo)識(shí)和糾正這些問(wèn)題的大多數(shù)。由于傳統(tǒng)系統(tǒng)的數(shù)量和復(fù)雜性、系統(tǒng)之間的接口的數(shù)量以及引入新系統(tǒng)的速度,真正的挑戰(zhàn)往往不是如何改正數(shù)據(jù)質(zhì)量的問(wèn)題,而是如何應(yīng)付它們?;蛟S在企業(yè)或者機(jī)構(gòu)的系統(tǒng)中找到、存取和操作數(shù)據(jù)時(shí)的中心概念是“關(guān)鍵字”的概念。主關(guān)鍵字(primary key)是字段,或者字段的組合,它的值起到在數(shù)據(jù)集合中唯一標(biāo)識(shí)記錄的作用。在關(guān)系數(shù)據(jù)庫(kù)內(nèi),每一個(gè)表格可以具有在表格內(nèi)唯一標(biāo)識(shí)記錄的主關(guān)鍵字 (如果主關(guān)鍵字不唯一,則那是另一個(gè)數(shù)據(jù)質(zhì)量問(wèn)題)。表格中的外關(guān)鍵字是鏈接到其他表格中的記錄的關(guān)鍵字??梢詧?zhí)行許多數(shù)據(jù)操作,它們依賴于數(shù)據(jù)庫(kù)表格或者其他數(shù)據(jù)集合的關(guān)鍵字。常見(jiàn)的基于關(guān)鍵字的數(shù)據(jù)操作是查找、聯(lián)接、上卷、掃描、排序、合并,以及并行處理中的按關(guān)鍵字分區(qū)(partition)。這些數(shù)據(jù)操作基于關(guān)鍵字的精確一致,這里稱為“精確匹配”。在數(shù)據(jù)操作“查找”中,使用關(guān)鍵字從具有精確匹配關(guān)鍵字的查找數(shù)據(jù)集合檢索一個(gè)或多個(gè)記錄。在數(shù)據(jù)操作“聯(lián)接”中,通過(guò)將來(lái)自一個(gè)數(shù)據(jù)集合的記錄的內(nèi)容與來(lái)自另外的(多個(gè)) 數(shù)據(jù)集合的共享公共關(guān)鍵字的記錄的內(nèi)容相接(以及可能構(gòu)造子集)時(shí),兩個(gè)(或多個(gè)) 數(shù)據(jù)集合被組合。如果多于一個(gè)記錄具有匹配的公共關(guān)鍵字,則為每一個(gè)匹配的記錄對(duì)形成單獨(dú)的輸出記錄。在數(shù)據(jù)操作“上卷”中,一組共享公共關(guān)鍵字的記錄的內(nèi)容被組合以產(chǎn)生具有相同關(guān)鍵字的單個(gè)輸出記錄。例如,通過(guò)將交易記錄上卷到客戶層次同時(shí)對(duì)交易量求和,將獲得該客戶的總交易量。在數(shù)據(jù)操作“掃描”中,對(duì)于共享公共關(guān)鍵字的一組記錄中的每一個(gè)記錄,使用所有先前看到的具有相同關(guān)鍵字的內(nèi)容計(jì)算輸出記錄。例如,利用掃描客戶的交易,可以計(jì)算客戶花費(fèi)的累積總計(jì)。在數(shù)據(jù)操作“排序”中,記錄按其關(guān)鍵字值安排順序。在數(shù)據(jù)操作“合并(merge),, 中,來(lái)自一個(gè)或多個(gè)數(shù)據(jù)流的排序的數(shù)據(jù)被組合為單個(gè)流,以使得輸出流也被排序。在并行處理數(shù)據(jù)操作“按關(guān)鍵字分區(qū)”中,基于關(guān)鍵字的值分配數(shù)據(jù)以處理分區(qū)。當(dāng)多個(gè)獨(dú)立系統(tǒng)共存時(shí),其中每一個(gè)可能具有上面討論種類的數(shù)據(jù)質(zhì)量問(wèn)題,與具有公共數(shù)據(jù)的記錄關(guān)聯(lián)的關(guān)鍵字通常不存在,而存在的關(guān)鍵字可能不可靠。最終每一個(gè)記錄中的數(shù)據(jù)是感興趣的項(xiàng)。關(guān)鍵字可以被看作在數(shù)據(jù)庫(kù)中引入的用于標(biāo)識(shí)和存取數(shù)據(jù)的方便假設(shè)(convenient fiction)。在不存在可靠關(guān)鍵字時(shí),數(shù)據(jù)自身可被用于標(biāo)識(shí)的目的??梢曰谒阉魍ㄟ^(guò)記錄的內(nèi)容來(lái)存取記錄。例如,在一個(gè)數(shù)據(jù)庫(kù)中的客戶可以在第二數(shù)據(jù)庫(kù)中按姓名被搜尋。由于姓名是不明確的標(biāo)識(shí)符,其很少是關(guān)鍵字。雖然姓名能用來(lái)啟動(dòng)標(biāo)識(shí),但是一般需要例如出生日期和地址的支持信息來(lái)確證(corroborate)匹配。此外,由于數(shù)據(jù)質(zhì)量問(wèn)題,對(duì)于要正確匹配的記錄,往往姓名和確證信息都不需要精確地一致。精確一致可能太嚴(yán)格了,并且要求準(zhǔn)確的匹配可能導(dǎo)致錯(cuò)失很多正確的標(biāo)識(shí)。 (模糊)搜索的數(shù)據(jù)操作檢索接近地但不一定精確地匹配的數(shù)據(jù)條目。例如,針對(duì)“Leslie” 的模糊搜索可能返回名為“Lesley”的人的記錄。在模糊搜索中,可能存在多于一個(gè)的具有不同的相似或確證程度的匹配記錄(關(guān)于Leslie的搜索也可能檢索到第二個(gè)名為L(zhǎng)esley 的人的記錄)。候選匹配可能不被充分地確證以具有作為確切的或甚至可接受的匹配的資格。例如,檢索的LesLey記錄的出生日期可能和Leslie記錄的出生日期不一致,在這種情況下匹配候選未被確證。當(dāng)搜索時(shí),對(duì)于查找使用精確關(guān)鍵字的單個(gè)步驟處理被兩個(gè)步驟處理代替對(duì)于使用搜索條件(term)的檢索,記錄被標(biāo)識(shí),并且記錄被評(píng)估以確定匹配。搜索條件不是關(guān)鍵字,因?yàn)樗鼈兒苌傥ㄒ坏貥?biāo)識(shí)記錄,但是,它們像關(guān)鍵字那樣用來(lái)鏈接記錄。為了清晰,把從中選擇搜索條件的字段與用來(lái)比較記錄以評(píng)估匹配的質(zhì)量的字段區(qū)別開(kāi)是有用的。這些可以分別被稱為搜索字段和比較字段。當(dāng)搜索條件或比較字段不完全相同時(shí),為了找到和判斷匹配,可以使用計(jì)分函數(shù)來(lái)識(shí)別變體值??梢允褂米凅w搜索條件檢索候選匹配,并且使用計(jì)分函數(shù)評(píng)價(jià)所述候選匹配以量化確證字段之間的匹配的質(zhì)量。這些計(jì)分函數(shù)被設(shè)計(jì)成對(duì)于各種數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行計(jì)算。盡管有這些問(wèn)題,它們?nèi)宰R(shí)別(recognize)匹配,盡管具有減少的分?jǐn)?shù)。例如,用于個(gè)人姓名的計(jì)分函數(shù)可以容忍交換姓和名或者使用中間首字母,而適于公司名稱的計(jì)分函數(shù)可能重視單詞順序甚于重視遺失的單詞。精確關(guān)鍵字的另一基本使用是標(biāo)識(shí)具有公共關(guān)鍵字值的記錄的集合,經(jīng)常稱為關(guān)鍵字組。這些關(guān)鍵字組在很多基于關(guān)鍵字的數(shù)據(jù)操作中扮演中心角色。當(dāng)放松精確匹配關(guān)鍵字的要求時(shí),出現(xiàn)了如何分組關(guān)鍵字的問(wèn)題?;诜潘傻钠ヅ錁?biāo)準(zhǔn)分組在一起的關(guān)鍵字集合被稱為聚類。一般地,聚類可以是比較字段滿足比較測(cè)試的記錄的集合例如,在一個(gè)布置中, 如果記錄關(guān)于聚類的得分超過(guò)了閾值,則該記錄是所述聚類的成員。存在很多不同方式來(lái)定義記錄關(guān)于聚類的得分,典型但不排他地包括單獨(dú)地計(jì)算記錄關(guān)于聚類的每一個(gè)成員的得分,然后將得分組合。例如,得分可以是記錄關(guān)于聚類的每一個(gè)成員的得分的最大者,或者,可以是關(guān)于聚類的每一個(gè)成員的得分的平均。在某些布置中,計(jì)算一對(duì)記錄的得分包括將數(shù)值分配給一個(gè)字段值的集合與另一字段值的集合進(jìn)行比較的結(jié)果。字段值的比較可以包含定量和定性評(píng)估兩者。定義聚類造成的結(jié)果是不明確性成員資格分配是可能的,因?yàn)樽侄沃档谋容^是計(jì)分的關(guān)系。具體來(lái)說(shuō),計(jì)分可能指示一片數(shù)據(jù)屬于多于一個(gè)聚類。在一個(gè)布置中,可以通過(guò)強(qiáng)制該片數(shù)據(jù)進(jìn)入聚類之一以使聚類被苛刻地定義來(lái)處理這種不明確性,如精確關(guān)鍵字情況中那樣。在這種情況下,基于關(guān)鍵字的數(shù)據(jù)操作實(shí)質(zhì)上仍和精確關(guān)鍵字情況中一樣。由于各種原因,基于精確關(guān)鍵字的數(shù)據(jù)操作可能不總是如期望那樣準(zhǔn)確或者無(wú)誤。一個(gè)原因可能是與數(shù)據(jù)片和數(shù)據(jù)操作相關(guān)聯(lián)的內(nèi)在不明確性。例如,數(shù)據(jù)片可能正當(dāng)?shù)貙儆诙嘤谝粋€(gè)組。在某些聚類方法下,內(nèi)在不明確性可能使準(zhǔn)確分類很難或者難以達(dá)到。 例如,在上述的人力資源數(shù)據(jù)庫(kù)中,要根據(jù)雇員所屬的部門對(duì)雇員進(jìn)行分類,雇員可能同時(shí)屬于例如營(yíng)銷和研發(fā)兩個(gè)部門。將雇員強(qiáng)制地與任一部門(營(yíng)銷和研發(fā))相關(guān)聯(lián)可能是誤導(dǎo)性的。將雇員簡(jiǎn)單地與兩個(gè)部門都相關(guān)聯(lián)可能導(dǎo)致雙重計(jì)數(shù)問(wèn)題。例如,可能針對(duì)同一雇員計(jì)算兩遍諸如醫(yī)療之類的花費(fèi)。精確分類可能不可能的另一原因是未決事件的后果可能影響當(dāng)前的分類。例如, 機(jī)構(gòu)作為慈善機(jī)構(gòu)或者非慈善機(jī)構(gòu)的法律狀態(tài)可能改變其納稅義務(wù)。進(jìn)一步假設(shè)IRS和該機(jī)構(gòu)之間存在進(jìn)行中的訴訟,該訴訟關(guān)于該機(jī)構(gòu)是否有資格作為慈善機(jī)構(gòu)并因而應(yīng)享受減稅。如果,在該機(jī)構(gòu)的年度預(yù)算中,假定該機(jī)構(gòu)的稅務(wù)狀態(tài)是慈善機(jī)構(gòu)的狀態(tài),因此對(duì)于納稅留出了較小的預(yù)算,但是,如果后來(lái)法院判決該機(jī)構(gòu)是非慈善機(jī)構(gòu),因而不能享受僅慈善機(jī)構(gòu)享有的減稅,則年度預(yù)算必須被修訂。處理這種狀況的傳統(tǒng)方式經(jīng)常是向預(yù)算附加注釋,說(shuō)明會(huì)影響預(yù)算的可能的不利法院判決。在出現(xiàn)不利的法院判決的情況下,預(yù)算必須被更改。但是比必須修正預(yù)算更糟的是,如果在其他業(yè)務(wù)領(lǐng)域,或者在其他國(guó)家,預(yù)算已經(jīng)被其他應(yīng)用使用,則超過(guò)預(yù)算自身的修正可能是不可能的,因?yàn)榭赡軣o(wú)法追蹤連鎖反應(yīng)。上面兩個(gè)例子示出了常規(guī)數(shù)據(jù)方法如何可能不足以處理對(duì)聚類的不明確性分配 (“部分成員資格”)。當(dāng)對(duì)聚類的一對(duì)一匹配不能確定或最好不被確定時(shí),出現(xiàn)不明確性分配。通過(guò)允許分配給多個(gè)聚類帶來(lái)的一個(gè)挑戰(zhàn)是如何保持會(huì)計(jì)誠(chéng)信。部分成員資格的方法可用于這個(gè)目的,并且稍后在本公開(kāi)中將詳細(xì)討論。為了處理包含具有不明確性成員資格的元素的聚類,可以使用模糊數(shù)據(jù)操作。當(dāng)聚類具有帶有重疊的成員資格的元素、并且某些數(shù)據(jù)與多于一個(gè)聚類相關(guān)聯(lián)時(shí),可以使用模糊上卷的數(shù)據(jù)操作來(lái)執(zhí)行計(jì)算,同時(shí)保持會(huì)計(jì)誠(chéng)信并報(bào)告與可能的替換分配相關(guān)聯(lián)的錯(cuò)誤的范圍。在人力資源的例子中,模糊上卷操作可用于按部門總計(jì)花費(fèi)。如果一雇員為多于一個(gè)部門工作,則用于該雇員的花費(fèi)可以在部門之中分配,反映出該雇員的部分成員資格。當(dāng)聚類成員資格或者以未來(lái)事件為條件,如上面的法律例子中那樣,或者由于不明確和不完整的信息而不確定,如上面的銀行業(yè)例子中的對(duì)手方的確定那樣,則按組計(jì)算例如貨幣總計(jì)的模糊上卷操作應(yīng)該在保持會(huì)計(jì)誠(chéng)信的同時(shí)反映出這種不確定性。當(dāng)然,在不確定的未來(lái)事件的情況下,例如公司的稅務(wù)分類,偶然性確實(shí)存在。對(duì)于規(guī)劃和風(fēng)險(xiǎn)評(píng)估的目的,過(guò)早對(duì)特定替換進(jìn)行分配可能給出誤導(dǎo)場(chǎng)景。例如,在圖2A中,不確定數(shù)據(jù)元素120屬于聚類122、聚類IM還是聚類126。可以是數(shù)據(jù)元素120同時(shí)屬于聚類122、1M和126。也可以是數(shù)據(jù)元素120在一個(gè)特定時(shí)間屬于一個(gè)聚類,但是在這三個(gè)聚類之中輪轉(zhuǎn)。數(shù)據(jù)元素120屬于聚類122、IM和126的成員資格由!^ 和叫表示。!^、 和叫是分?jǐn)?shù)。在數(shù)據(jù)元素120以相等概率同時(shí)屬于這三個(gè)聚類的情況下,H1, n2和n3均可被分配分?jǐn)?shù)1/3。在這種情況下,數(shù)據(jù)元素120屬于聚類 122、IM和126的部分成員資格的和是一(1/3+1/3+1/3 = 1)。在數(shù)據(jù)元素120在一個(gè)特定時(shí)間屬于一個(gè)聚類,但是在這三個(gè)聚類之中輪轉(zhuǎn)的例子中,在時(shí)間t1; ηι、η2和n3可以是值1、0和0。在時(shí)間t2,ni、n2和n3可以是值0、1和0。Ii1^n2和n3的值可以變化,但是它們值的和應(yīng)該總是一。在銀行業(yè)的例子中,基于對(duì)以不明確標(biāo)識(shí)的對(duì)手方的風(fēng)險(xiǎn)的替換分配,了解對(duì)每一對(duì)手方的最大和最小風(fēng)險(xiǎn)給出了對(duì)任意給定對(duì)手方的可能風(fēng)險(xiǎn)的更完整的圖景,并溝通了信息(knowledge)的不確定狀態(tài)。通過(guò)使用成員資格的大概可能性(likelihood)對(duì)為聚類分配成員進(jìn)行加權(quán),能夠包含關(guān)于未來(lái)或者不明確性的可能解決(resolution)的當(dāng)前信念,并且這些權(quán)重可隨著時(shí)間細(xì)化以反映出信息的變化狀態(tài)。模糊聯(lián)接的操作使兩個(gè)和更多個(gè)數(shù)據(jù)庫(kù)在其不共享公共精確關(guān)鍵字時(shí)能夠被組合。例如,當(dāng)?shù)刂凡⒎侵鹱窒嗤瑫r(shí),來(lái)自不同數(shù)據(jù)庫(kù)的客戶家庭記錄可以在地址上被聯(lián)接。 當(dāng)來(lái)自一個(gè)數(shù)據(jù)庫(kù)的地址不完整或者不準(zhǔn)確時(shí),在第二數(shù)據(jù)集合中存在多個(gè)記錄是它的候選匹配。模糊聯(lián)接包容了這種可能性。排序操作通過(guò)關(guān)鍵字對(duì)記錄安排順序,并經(jīng)常在如上卷和聯(lián)接的作用于記錄的組的基于關(guān)鍵字的操作之前使用。當(dāng)各個(gè)記錄可以是(可能和實(shí)際)多個(gè)聚類的成員時(shí),模糊排序可用于在諸如模糊上卷之類的操作之前對(duì)記錄安排順序。通過(guò)對(duì)多個(gè)聚類的不明確性成員的各個(gè)記錄進(jìn)行復(fù)制并將其按最終順序置于其相關(guān)聯(lián)的聚類中的每一個(gè)中,排序順序和排序動(dòng)作的概念可以被擴(kuò)展。模糊數(shù)據(jù)操作和常規(guī)數(shù)據(jù)操作不同在于,替代基于精確匹配關(guān)鍵字的關(guān)鍵字組, 使用了聚類。聚類包括上面的當(dāng)關(guān)鍵字是Leslie時(shí)檢索Lesley的例子。聚類也包括即使因?yàn)镴ohn Smith只有一半時(shí)間在營(yíng)銷部門工作,他不完全地屬于營(yíng)銷部,也把John Smith 分類到營(yíng)銷部的例子,圖2B示出了示范性模糊數(shù)據(jù)操作。在這個(gè)例子中,模糊數(shù)據(jù)操作180關(guān)于關(guān)鍵字 160操作并檢索數(shù)據(jù)集合150。關(guān)鍵字160是常規(guī)關(guān)鍵字。被檢索的數(shù)據(jù)集合150包括5個(gè)數(shù)據(jù)元素-數(shù)據(jù)元素151、數(shù)據(jù)元素152、數(shù)據(jù)元素153、數(shù)據(jù)元素IM和數(shù)據(jù)元素155。這五個(gè)數(shù)據(jù)元素不和關(guān)鍵字160匹配。盡管如此,它們?nèi)员粩?shù)據(jù)操作檢索到。這是模糊數(shù)據(jù)操作不同于常規(guī)數(shù)據(jù)操作的地方。給定關(guān)鍵字,常規(guī)數(shù)據(jù)操作檢索與關(guān)鍵字精確匹配的數(shù)據(jù)。但是模糊數(shù)據(jù)操作可以檢索并不與關(guān)鍵字精確地匹配的數(shù)據(jù)。對(duì)于構(gòu)成模糊數(shù)據(jù)操作的基礎(chǔ)的聚類的定義來(lái)說(shuō),不同記錄中的數(shù)據(jù)比較是基本。使用比較測(cè)試來(lái)確定哪些記錄屬于每一聚類。在某些布置中,比較測(cè)試是取自每一記錄的選擇字段值的計(jì)分函數(shù),并且兩片數(shù)據(jù)(關(guān)鍵字是數(shù)據(jù)片)之間的量化的差可以是距
1 O(a)兩片數(shù)據(jù)之間的距離兩片數(shù)據(jù)之間的距離在直觀上是簡(jiǎn)單的。例如,姓名Leslie和Lesley之間的差別是顯然的,并且全職雇員和兼職雇員之間的差別是明顯的。但是,并不總是直接地量化或者度量?jī)善瑪?shù)據(jù)之間的差別。這里我們將簡(jiǎn)單討論兩種能用來(lái)度量?jī)善瑪?shù)據(jù)之間的差別的方法。應(yīng)該理解,基于下面描述的原理可以很容易地開(kāi)發(fā)對(duì)數(shù)據(jù)之間的差別進(jìn)行量化的其他方法。例如,在通過(guò)引用包含于此的No. 2009/01827 號(hào)美國(guó)專利申請(qǐng)公開(kāi)中描述了模糊匹配技術(shù)和距離度量的其他例子。(1)兩個(gè)單詞之間的距離度量(例如,從給定字符集形成的)兩個(gè)單詞之間的距離的方法,經(jīng)常被稱為 “編輯距離(edit distance)”,涉及對(duì)從一個(gè)單詞到達(dá)另一個(gè)單詞花費(fèi)多少字符操作進(jìn)行計(jì)數(shù)。在這個(gè)例子中,字符操作涉及單個(gè)字符。字符可以被以各種方式中的任何一種編碼。例如,可以使用任何單字節(jié)或者多字節(jié)編碼或者用于表示字符集中的字符的代碼點(diǎn) (code-point)對(duì)字符進(jìn)行編碼。Levenshtein編輯距離對(duì)把一個(gè)單詞變?yōu)榱硪粋€(gè)所需的字符插入、刪除和替換的數(shù)量計(jì)數(shù)。Levenshtein編輯距離及其變體的限制是它們不能用于在線模糊匹配上下文中, 即當(dāng)你具有以前未見(jiàn)過(guò)的查詢單詞并且想要在現(xiàn)有的基準(zhǔn)集合中找到匹配變體時(shí)。替代地,可以應(yīng)用用于計(jì)算變體的刪除算法(例如在通過(guò)引用包含于此的No. 2009/0182728號(hào)美國(guó)專利申請(qǐng)公開(kāi)中描述的)。在這個(gè)方法中,通過(guò)對(duì)為了到達(dá)匹配單詞需要從每一單詞刪除的數(shù)量進(jìn)行計(jì)數(shù)來(lái)確定單詞之間的距離。圖2C示出了如何計(jì)算Leslie和Lesley之間的刪除距離。操作102從“Leslie”刪除“i”以獲得“Lesle”。操作104從“Lesley”刪除 “y”以獲得“Lesle”。Leslie和Lesley之間的距離是1+1 (每一單詞一個(gè)刪除,或者,只作用于單詞其中之一的一個(gè)刪除和一個(gè)插入)。在某些布置中,通過(guò)比較被刪除的字符的相對(duì)值和位置可以做出更細(xì)化的計(jì)分。 這允許加權(quán)計(jì)分,其中針對(duì)不同種類的變化施加不同的權(quán)重。例如,替換可能沒(méi)有調(diào)換重要,或者,以“Π”替換“Π1”沒(méi)有以“k”替換“Π1”重要??梢砸韵铝蟹绞綄h除算法用于基準(zhǔn)數(shù)據(jù)集合的在線模糊搜索。通過(guò)從基準(zhǔn)數(shù)據(jù)集合中的每一個(gè)單詞刪除一個(gè)和更多個(gè)字符(直到認(rèn)為必要多的刪除)獲得每一個(gè)單詞, 通過(guò)形成所述每一個(gè)單詞從基準(zhǔn)數(shù)據(jù)集合構(gòu)建了刪除字典。(刪除的數(shù)量可以隨著單詞的長(zhǎng)度而增加以允許更大的變化。)原始單詞和被刪除字符的位置都與從刪除產(chǎn)生的單詞一起記錄。當(dāng)進(jìn)行搜索時(shí),對(duì)查詢單詞進(jìn)行處理以構(gòu)建通過(guò)刪除一個(gè)和多個(gè)字符獲得的每一個(gè)單詞。在基準(zhǔn)刪除字典中查找這些單詞中的每一個(gè)以找到對(duì)應(yīng)的原始單詞(刪除位置的記錄可用于對(duì)匹配計(jì)分)。然后,匹配的原始單詞可在數(shù)據(jù)集合中普通的精確搜索/查找中使用。重申一下,即使當(dāng)查詢單詞是在基準(zhǔn)數(shù)據(jù)集合中未出現(xiàn)的變體時(shí)這個(gè)方法也奏效。另一個(gè)例子是“Corp. ”和“Co. ”之間的距離。從“Corp. ”到“Co. ”,需要一個(gè)單詞中的兩次刪除-刪除字母r和刪除字母ρ。因此,如果兩個(gè)單詞之間的距離定義為為了獲得匹配單詞在每一單詞上(最少)需要多少刪除操作,則“Corp. ”和“Co. ”之間的距離可以是2+0,盡管“Corp. ”和“Co. ”是同一單詞“corporation”的兩個(gè)可互換的縮寫。在用戶輸入的數(shù)據(jù)使用“Corp. ”而數(shù)據(jù)操作使用的關(guān)鍵字使用“Co. ”的情況下,依靠精確匹配單詞的常規(guī)方法將不會(huì)產(chǎn)生令人滿意的結(jié)果。例如,如果使用的關(guān)鍵字是ABCCo.,則只檢索精確地匹配關(guān)鍵字的數(shù)據(jù)條目的常規(guī)搜索數(shù)據(jù)操作將不會(huì)產(chǎn)生ABC Corp.。在模糊數(shù)據(jù)操作下,模糊搜索可被構(gòu)建以返回在關(guān)鍵字的特定距離內(nèi),例如2+0或者更多以內(nèi)的數(shù)據(jù)條目。 在這種模糊搜索下,ABC Corp.可被作為關(guān)鍵字ABC Co.的匹配返回?;蛘?,由于這兩個(gè)單詞作為同義詞可互換,所以“Corp. ”和“Co. ”之間的距離可以被定義為零。模糊搜索可被構(gòu)建以返回包含用戶指定的同義詞的數(shù)據(jù)條目。這個(gè)例子展示了模糊操作可能需要處理的復(fù)雜性。在上面的例子中,基于諸如字符的插入和刪除之類的操作計(jì)算距離,其中,插入和刪除都被作為一個(gè)操作計(jì)數(shù)。在其他布置中,可以基于加權(quán)操作計(jì)算距離。可以使用加權(quán)使一個(gè)類型的操作(例如插入)相對(duì)于另一類型的操作(例如刪除)偏向(bias)?;蛘撸?可以使用加權(quán)使一個(gè)個(gè)別操作相對(duì)于另一個(gè)個(gè)別操作偏向。例如,對(duì)應(yīng)于空格的刪除操作可以被加權(quán)得少于對(duì)應(yīng)于字母ζ的插入操作,以反映出這樣的事實(shí)空格的遺漏是常見(jiàn)的拼寫錯(cuò)誤,而在英文單詞中插入字母ζ可能不是拼寫錯(cuò)誤而是兩個(gè)英文單詞之間的真實(shí)差別。例如,“sunshine”和“sun shine”之間的距離是插入一個(gè)空格?!皕inc”和“Inc” 之間的距離是插入一個(gè)字母ζ。如果在計(jì)算距離時(shí)不對(duì)個(gè)別操作進(jìn)行加權(quán),則這兩個(gè)距離 (一個(gè)操作)相等。當(dāng)模糊搜索操作被構(gòu)建以返回一個(gè)操作的距離內(nèi)的任意匹配時(shí),按關(guān)鍵字“ sunshine,,的搜索將返回“ sun shine,,,并且按關(guān)鍵字“ Inc,,的搜索將返回“ ζ inc ”。但是如果使用加權(quán)操作,則這兩個(gè)距離-“sunshine”和“sun shine”之間的距離以及“zinc”和“Inc”之間的距離可能不同。例如,空格的插入可以用因子0. 5加權(quán)以反映空格的插入更可能由打字錯(cuò)誤導(dǎo)致的事實(shí)。字母ζ的插入可以用因子1加權(quán)以反映額外的字母ζ不太可能由失誤添加的事實(shí)。圖2D示出了當(dāng)操作如此加權(quán)時(shí),“sunshine”和“sun shine”之間的距離是0. 5個(gè)操作而“zinc”和“he”之間的距離是一個(gè)操作。在模糊搜索數(shù)據(jù)操作被構(gòu)建以返回在關(guān)鍵字的0.5個(gè)字符操作的距離內(nèi)的任意匹配的布置中,搜索關(guān)鍵字“sunshine”將返回“sun shine”。但是搜索關(guān)鍵字“he”將不返回 “Zinc”。在某些布置中,可以定義更細(xì)致的加權(quán)操作。(2)兩個(gè)英國(guó)郵政編碼之間的距離模糊匹配有用的另一應(yīng)用是對(duì)包含相同家庭的重復(fù)記錄的公司的客戶地址數(shù)據(jù)庫(kù)進(jìn)行處理。相同家庭的多個(gè)條目可能由與該家庭相關(guān)聯(lián)的郵政編碼中的排字錯(cuò)誤而導(dǎo)致,或者可能由與該家庭相關(guān)聯(lián)的姓名的錯(cuò)誤拼寫而導(dǎo)致??赡艿呐抛皱e(cuò)誤可以包括遺漏或者插入空格、遺漏或者插入字母,以及錯(cuò)誤打印字母。盡管并不是不常見(jiàn),但是用戶不太可能在同一郵政編碼中犯下兩個(gè)排字錯(cuò)誤。盡管并不是沒(méi)有可能,但是用戶不可能在同一郵政編碼中犯下三個(gè)排字錯(cuò)誤。圖3示出了由郵政編碼中的排字錯(cuò)誤導(dǎo)致的可能的重復(fù)記錄。在客戶地址數(shù)據(jù)庫(kù) 300 中,在姓名 John Smith 下存在六個(gè)條目John Smith ox26qt John Smith ox26qt ; John Smith ox26qy ;John Smith ox26qy ;John Smith ox26qx 禾口 John Smith ox27qy。緊挨著連接每一對(duì)記錄的線標(biāo)記了每一對(duì)記錄之間的距離。假設(shè)公司已經(jīng)決定任何包含與真實(shí)記錄中的郵政編碼距離1+1個(gè)刪除距離之內(nèi)的郵政編碼的記錄最可能是虛假記錄-由于失誤而錄入的記錄,并且將被作為真實(shí)記錄的副本對(duì)待。進(jìn)一步假設(shè)公司已經(jīng)定義了模糊搜索來(lái)搜索在搜索關(guān)鍵字的1+1個(gè)刪除距離之內(nèi)的所有記錄。如果一個(gè)單詞在另一個(gè)單詞的指定距離內(nèi),則前者是后者的變體。后者被稱為原始的。在本例中,指定的刪除距離是1+1(從每一個(gè)單詞的一個(gè)刪除)。在圖3中列出了客戶地址數(shù)據(jù)庫(kù)300中的每一個(gè)郵政編碼之間的距離信息?;趫D4,我們可以確定每一個(gè)記錄的變體,如圖4中所示。圖4是可視化工具,并且通過(guò)利用獨(dú)特陰影的框符來(lái)表示每一個(gè)記錄并把每一個(gè)記錄的框符與其變體的框符重疊來(lái)形成圖4。例如,記錄A的框符與記錄B、C和E的框符重疊,因?yàn)橛涗汢、C和E是記錄A的變體。記錄E的框符與記錄A和F的框符重疊,因?yàn)橛涗汚和F是記錄E的變體。在某些實(shí)例中,公司可能知道哪個(gè)記錄是真實(shí)記錄,而在某些其他的實(shí)例中,公司可能不知道哪一個(gè)是真實(shí)的。在第一個(gè)例子中,公司知道真實(shí)記錄是“John Smith ox26qy"0使用“ox26qy”作為搜索關(guān)鍵字運(yùn)行模糊搜索將檢索到下列兩個(gè)記錄“John Smith ox26qt^P"John Smith ox26qy"0公司將把在同一聚類中的這兩個(gè)記錄作為真實(shí)記錄“John Smith ox26qy”的副本對(duì)待。公司可以決定消除這兩個(gè)副本或者通過(guò)給這三個(gè)記錄分配公共關(guān)鍵字將其分組在一起。這個(gè)組是模糊聚類的一個(gè)例子。模糊聚類是數(shù)據(jù)操作,該數(shù)據(jù)操作將具有不精確匹配的關(guān)鍵字但是在彼此特定距離內(nèi)的數(shù)據(jù)分組在一起。模糊聚類可以與模糊搜索相關(guān),如上面的例子中所示。如上面的情況中那樣,當(dāng)已知真實(shí)記錄時(shí),模糊搜索檢索在真實(shí)記錄的指定距離內(nèi)的數(shù)據(jù)。隨后檢索到的數(shù)據(jù)形成了模糊聚類。在公司不知道哪個(gè)記錄是真實(shí)記錄的情況下,例如“John Smith ox26qt^P"John Smith ox26qy"都可能是真正的記錄,則弄清楚哪些記錄是彼此的副本從而生成模糊聚類無(wú)法通過(guò)簡(jiǎn)單的模糊搜索進(jìn)行,因?yàn)椴淮嬖陉P(guān)于如何將記錄分組在一起的先驗(yàn)指導(dǎo)。(b)部分詳細(xì)說(shuō)明了在這種情況下為產(chǎn)生模糊聚類可以采用的幾種方法(3)量化差別的其他例子兩片數(shù)據(jù)之間的距離是兩片數(shù)據(jù)之間的量化差別的一個(gè)例子??梢杂貌煌姆绞搅炕瘍善瑪?shù)據(jù)之間的差別。在某些布置中,可以開(kāi)發(fā)基于匹配對(duì)之間的相似性對(duì)匹配對(duì)計(jì)分的計(jì)分系統(tǒng)。然后,所述對(duì)之間的量化差別可以被定義為歸一化的匹配得分的補(bǔ)(complement)。在由于例如訴訟的事件的未決結(jié)果而存在不確定性的情景下,可以使用數(shù)據(jù)片屬于一個(gè)類別(category)或另一類別的概率來(lái)量化在該數(shù)據(jù)片和表示類別的關(guān)鍵字之間的距離。如果只存在兩個(gè)類別,則該數(shù)據(jù)片和表示類別的關(guān)鍵字之間的距離可以定義為該數(shù)據(jù)片將落入該類別的概率的補(bǔ),或者,如果存在更多類別,則將所述距離定義為該數(shù)據(jù)片將落入該類別的概率的共軛。(b)變體關(guān)系和變體(模糊)聯(lián)接當(dāng)在聯(lián)接操作中配對(duì)那些數(shù)據(jù)元素時(shí),來(lái)自要進(jìn)行比較的各自數(shù)據(jù)集合中的各自數(shù)據(jù)元素的對(duì)象可以定義為數(shù)據(jù)片或者數(shù)據(jù)片的組合。在關(guān)系數(shù)據(jù)庫(kù)中的表格的行中,對(duì)象可以是列中的值,值的一部分(例如子串),或者來(lái)自多于一個(gè)列的值的組合。在由一序列由字段組成的記錄構(gòu)成的平面文件數(shù)據(jù)集合中,對(duì)象可以是一個(gè)字段中的值、一個(gè)字段的一部分或者多于一個(gè)字段的組合。在文檔中,這可以是文本的片段或者文本的拆散的片段的組合??紤]對(duì)象{k}的集合S。S中的每一對(duì)象k具有相關(guān)聯(lián)的稱為變體M的變體對(duì)象的集合,該集合可能是空的。關(guān)系k ν讀作“V是k的變體”。在某些布置中,如果兩個(gè)對(duì)象在函數(shù)s (k,ν)下的得分低于閾值T,則確定它們是變體。s(k, ν) < T(對(duì)于某些計(jì)分函數(shù),超過(guò)閾值可能反而方便)。對(duì)象之間的距離,例如上面討論的用于串的編輯距離或者刪除距離,可被用作構(gòu)建比較單詞或者短語(yǔ)的計(jì)分函數(shù)的基礎(chǔ)。變體關(guān)系無(wú)需是等價(jià)關(guān)系(即,是對(duì)稱的并且具有傳遞性(k k',k' k〃 = >k k")),但是有時(shí)候變體關(guān)系是等價(jià)關(guān)系。即使變體關(guān)系不是等價(jià)關(guān)系,也假設(shè)變體關(guān)系是對(duì)稱的k ν = > ν kS卩,如果ν是k的變體,則k是ν的變體。兩個(gè)(或更多個(gè))數(shù)據(jù)集合A和B的精確(內(nèi))聯(lián)接可以定義為記錄(行、文檔等)的配對(duì),該配對(duì)包含相同的A中的對(duì)象kA和B中的kB,以使kA = kB
對(duì)象稱為關(guān)鍵字。在兩個(gè)步驟中定義變體(“模糊”)內(nèi)聯(lián)接。首先進(jìn)行諸如記錄(或行、文檔等)之類的數(shù)據(jù)元素的臨時(shí)配對(duì)。在一個(gè)布置中,A中的kA與B中的它的變體vBn配對(duì),kA vBn。 然后,與kA和vBn相關(guān)聯(lián)的記錄對(duì)被評(píng)價(jià)E (kA,vBn),以確定保留哪些記錄對(duì)。(在精確的情況下,所有對(duì)都被保留,所以匹配和計(jì)分步驟融合到單個(gè)比較kA = kB中)。評(píng)價(jià)操作一般涉及在配對(duì)的記錄中在用于配對(duì)的對(duì)象以外的另外的(further)對(duì)象的比較。在某些配置中,評(píng)價(jià)操作產(chǎn)生得分,該得分必須超過(guò)匹配閾值以標(biāo)識(shí)匹配。類比于精確情況對(duì)半聯(lián)接和外聯(lián)接進(jìn)行定義當(dāng)未找到(或未保留)匹配記錄時(shí)空值被指定用于相反的記錄。最簡(jiǎn)單的臨時(shí)配對(duì)由kA vBn給出,即1^在8中的變體的集合。通過(guò)確定是否要保留建議的配對(duì)的評(píng)價(jià)(“計(jì)分”)步驟對(duì)這個(gè)配對(duì)(“匹配”)步驟進(jìn)行補(bǔ)充。存在對(duì)變體配對(duì)kA vBn的擴(kuò)展的層次(hierarchy)關(guān)系。首先的泛化 (generalization)是通過(guò)附加另外的對(duì)(kA, vBnm)來(lái)擴(kuò)展(kA, vBn)對(duì),(kA,vBJ由kA vAn, vBnm給出。即,kA與A中的kA的變體在B中的變體配對(duì)。當(dāng)變體關(guān)系不是等價(jià)關(guān)系時(shí),到達(dá) B中更大的元素集合。注意這個(gè)操作不是對(duì)稱的在B中可能存在不能到達(dá)kA的對(duì)象vta。 即,給定νΒ = kB,kB vBi,vBi vAiJ,沒(méi)有vAU = kA。這是因?yàn)锽中的kB的變體沒(méi)有一個(gè)需要具有kA作為變體-至多只需要kB具有kA的變體作為其變體之一。對(duì)變體的變體的諸如此類的進(jìn)一步擴(kuò)展是可能的。具體來(lái)說(shuō),利用對(duì)(kA,vBmu.)擴(kuò)展(kA,vBn),其中kA vAn, Vita vBnm, vBnm vBnmp在下列意義上是對(duì)稱的。給定B中的元素kB(通過(guò)上面的操作和kA配對(duì)),即對(duì)于某些n, m, ρ, kB = vBnmp,存在元素vAijl = kA,其中kB vBi,vBi vAiJ,vAiJ vAiJ1換句話說(shuō),逆向施加的相同變體匹配過(guò)程包含逆向?qū)腁中的對(duì)象到達(dá)的B中的每一個(gè)對(duì)象通過(guò)相同的過(guò)程可以反過(guò)來(lái)到達(dá)A中的原始對(duì)象。通過(guò)成對(duì)地聯(lián)接數(shù)據(jù)集合并取作為結(jié)果的對(duì)的笛卡兒積,可以對(duì)多于兩個(gè)數(shù)據(jù)集合的擴(kuò)展進(jìn)行定義。因此為了聯(lián)接A、B和CkA vBn,kA vCm,O (kA, vBn, vCm).通過(guò)以成對(duì)形式使用上面定義的更高階的擴(kuò)展(例如變體的變體)來(lái)獲得更高階的擴(kuò)展??蛇x地,在某些情形下,對(duì)于某些n、m,可以要求B和C之間的變體關(guān)系、 vCm更高價(jià)的變體的使用可能被要求直接在B和C之間建立這種連接(當(dāng)然該關(guān)系已經(jīng)通過(guò)A作為中間媒介)。如上面所討論的那樣,變體關(guān)系的一個(gè)有用來(lái)源是對(duì)通過(guò)編輯距離相關(guān)的單詞進(jìn)行配對(duì)。如果在單詞之間考慮的編輯距離限于一,則這容許數(shù)據(jù)集合內(nèi)的配對(duì)的某個(gè)集合作為變體。例如,“Smith”將具有〃 Smth"、“ Smi th2"和〃 Smyth"作為變體?!癝mith20"不是〃 Smith"的變體,但是其是〃 Smith2"的變體,因此編輯距離一的變體關(guān)系不是傳遞性的。當(dāng)單個(gè)單詞或者整個(gè)字段可以用作變體關(guān)鍵字時(shí),可以使用變體聯(lián)接。例如,可以將搜索數(shù)據(jù)集合明確地表達(dá)為使用變體關(guān)鍵字的變體聯(lián)接。查詢短語(yǔ)被分解為關(guān)鍵詞的集合,該集合中的每一個(gè)均按照來(lái)自目標(biāo)數(shù)據(jù)集合的單詞的索引與其變體匹配。索引將單詞與記錄標(biāo)識(shí)符(關(guān)鍵字)配對(duì),該記錄標(biāo)識(shí)符用于包含目標(biāo)數(shù)據(jù)集合中的給定字段中的所述單詞的每個(gè)記錄。從每一個(gè)關(guān)鍵詞與索引的變體匹配獲取對(duì)應(yīng)記錄標(biāo)識(shí)符的列表,并且這些列表可以交叉以找到共享一個(gè)和多個(gè)關(guān)鍵詞的記錄。通過(guò)給匹配關(guān)鍵詞的組合分配得分,返回的記錄的列表可以被排序。這個(gè)得分可以考慮到數(shù)據(jù)集合中每一個(gè)關(guān)鍵詞的相對(duì)頻率(“逆向文檔頻率(inverse document frequency)")、查詢短語(yǔ)中關(guān)鍵詞和其在目標(biāo)數(shù)據(jù)集合記錄中的位置相比的相對(duì)位置(例如順序、相鄰),或者從查詢短語(yǔ)缺少的單詞。 關(guān)鍵詞也可以和相關(guān)性的其他度量相關(guān)聯(lián)以使得計(jì)分更有區(qū)分度。變體聯(lián)接也可以用于對(duì)單個(gè)單詞的查找。例如,在一個(gè)數(shù)據(jù)集合中的客戶可以由名、姓和地址標(biāo)識(shí)。可以利用要由名和地址來(lái)確證的匹配在第二數(shù)據(jù)集合中按姓搜尋這個(gè)客戶。匹配過(guò)程是從源數(shù)據(jù)集合中的姓,使用目標(biāo)數(shù)據(jù)集合中的變體姓的集合來(lái)標(biāo)識(shí)和檢索匹配候選人集合。這些候選人被進(jìn)一步在名和地址上進(jìn)行比較以確定一致程度是否足以標(biāo)識(shí)匹配。例如,假設(shè)源數(shù)據(jù)集合中的記錄是Paul, Smith, 20ffalker Street并且目標(biāo)數(shù)據(jù)集合中的匹配變體的集合是(Smith,Smyth, Smithh)。目標(biāo)數(shù)據(jù)集合中的相關(guān)聯(lián)的記錄是1,Paul,Smith, 20ffalken St2,Robert, Smith,1532East Grove Ave3,P, Smyth,19ffestern Ave4, Pal, Smithh,20ffalker Street確證算法可以發(fā)現(xiàn)記錄1和4足夠接近成為匹配。這些記錄可以由查找(搜索) 或者在變體聯(lián)接(其中兩個(gè)數(shù)據(jù)集合被彼此對(duì)照流化(streamed))中返回?;蛘?,或許在源數(shù)據(jù)集合中,原始的“Smith”具有變體“Smith2 “,變體〃 Smith2〃在目標(biāo)中具有匹配記錄5,P, Smith20, Walker Street“ Smith20〃不是“Smith”的直接變體,但是可以從源數(shù)據(jù)集合中的變體〃 Smith2"到達(dá)。變體聯(lián)接的另一用處是在聚類之前定義超聚類。這將在下面定義過(guò)聚類以后被討論。(c)聚類和部分成員資格
很多基于精確關(guān)鍵字的數(shù)據(jù)操作要求被分組到集合的記錄共享公共關(guān)鍵字值。這些集合有時(shí)候被稱為“關(guān)鍵字組”。例如,上卷操作跨過(guò)關(guān)鍵字組中的記錄對(duì)數(shù)據(jù)進(jìn)行組合或者匯集以返回單個(gè)記錄。計(jì)數(shù)、總計(jì)、最大或最小值、值的向量、去重(deduplication)到唯一值,等等,全都可以利用上卷操作計(jì)算。任何將一組記錄匯總為單個(gè)記錄的操作均可以被理解為上卷操作。數(shù)據(jù)并行處理中數(shù)據(jù)被分離為數(shù)據(jù)分區(qū)供獨(dú)立處理,數(shù)據(jù)并行處理經(jīng)常依賴于基于關(guān)鍵字的分區(qū)來(lái)確保屬于相同關(guān)鍵字組的所有記錄存在于相同的數(shù)據(jù)分區(qū)中。如上卷和聯(lián)接的操作依賴于此來(lái)產(chǎn)生與其在串行(非并行)處理中將產(chǎn)生的相同的結(jié)果。關(guān)鍵字組的集合構(gòu)成了將所有記錄的集合分區(qū)為不相交的集合每一個(gè)記錄(對(duì)象)是一個(gè)且僅一個(gè)關(guān)鍵字組的成員。聚類將關(guān)鍵字組的概念(notion) —般化到涉及重疊集合的分區(qū),其中成員資格不由關(guān)鍵字的精確一致確定??紤]將集合S分區(qū)為可能重疊的集合{C}的聚集,集合{C}稱為對(duì)象k的聚類,每一個(gè)k具有權(quán)重w (k,C)。對(duì)象k可以是多于一個(gè)聚類C的成員,并且,如果如此,則其聚類成員資格被說(shuō)成是不明確的或者部分的。分配給C中k的權(quán)重w(k,C)對(duì)C中k的“部分成員資格”進(jìn)行量化,并且有時(shí)候被稱為不明確性的度量。聚類C可以被表示為對(duì)C= {(k, w(k,C))}的集合。如果w(k,C) =0,那么k被說(shuō)成是“不是C的成員”。如果w(k,C) =1, 則k是“無(wú)疑是C的成員”。對(duì)于固定的k,C上的權(quán)重之和等于1,對(duì)應(yīng)于S中無(wú)疑的成員資格,Σ w(k, C) = 1.C權(quán)重的分配與規(guī)則R相關(guān)聯(lián),并且可以由R標(biāo)記。給定的集合S通常允許多于一個(gè)分區(qū)在聚類的聚集內(nèi),以及在不同規(guī)則下針對(duì)每一個(gè)對(duì)象k的多于一個(gè)的加權(quán)分配。一般地,和不同規(guī)則相關(guān)聯(lián)的權(quán)重不能被組合。聚類C= {(k,w(k, C))}的補(bǔ)被定義為集合{(k,l_w(k,C))}。具體來(lái)說(shuō),所述補(bǔ)以權(quán)重1包含不在C中的對(duì)象。如果聚類{C}的聚集不生成(span) S,或者在C上k的權(quán)重之和不等于一,則在S中{C}的并集的補(bǔ)被假定為和所述聚集鄰接。通過(guò)對(duì)兩個(gè)聚類的權(quán)重求和,可以將所述兩個(gè)聚類組合為單個(gè)聚類,從而使分區(qū)變粗(coarsening)C1+C2 = {(k, w (k, C1) +w (k, C2))}通過(guò)逆轉(zhuǎn)這個(gè)處理可以將聚類分解為進(jìn)一步的聚類,為新聚類之中的每一個(gè)對(duì)象分配權(quán)重,所以新權(quán)重的和等于原始權(quán)重。通過(guò)減去對(duì)象的權(quán)重,可以從聚類去除該對(duì)象, 例如在應(yīng)用選擇標(biāo)準(zhǔn)以后。在某些情形中,當(dāng)權(quán)重滿足0 <= w(k,C) <= 1時(shí),權(quán)重可以允許一種解釋為“k 是S中的聚類C的成員的概率”,但是一般地,聚類的定義是非統(tǒng)計(jì)的。不排除負(fù)權(quán)重以及大于一的權(quán)重,但是對(duì)于固定的k的權(quán)重的和必須是一。雖然原則上可以形成如CJC1的組合,但是它們對(duì)應(yīng)于構(gòu)建包含對(duì)象的多個(gè)拷貝的聚類,如對(duì)象的最大可能權(quán)重的值所反映的那樣(例如在這種情況下是幻。對(duì)于每一個(gè)對(duì)象權(quán)重的和是一的條件假設(shè)每一個(gè)對(duì)象只有一個(gè)拷貝存在于集合S中。如果事實(shí)并非如此,則權(quán)重的和的值可以相應(yīng)地改變。一般地,不能預(yù)先排除總權(quán)重按對(duì)象變化。
具有部分成員資格的聚類類似于模糊集合的概念,因?yàn)槠淇梢员幻枋鰹槔脤?quán)重分配給集合中的每一個(gè)對(duì)象的成員資格函數(shù)的對(duì)象的集合。但是,這里的重點(diǎn)不在隔離的模糊集合上,而在作為分區(qū)的元素的聚類上。具體來(lái)說(shuō),權(quán)重是分區(qū)的性質(zhì)而不是隔離的聚類內(nèi)的對(duì)象的性質(zhì)。分配給聚類內(nèi)的對(duì)象的權(quán)重受對(duì)于其他聚類的可能的替換分配的影響。焦點(diǎn)從聚類內(nèi)的成員資格函數(shù)轉(zhuǎn)移到跨過(guò)聚類為對(duì)象分配成員資格的函數(shù)。在許多情形下自然地出現(xiàn)了具有部分成員資格的聚類。用最簡(jiǎn)單的術(shù)語(yǔ),部分成員資格是將對(duì)象分配給聚類時(shí)不明確性的結(jié)果。如果存在精確關(guān)鍵字,則對(duì)象屬于哪個(gè)關(guān)鍵字組不存在問(wèn)題。如果部分成員資格基于無(wú)需精確一致的數(shù)據(jù)片或者數(shù)據(jù)片的組合,則成員資格確定可能不會(huì)如此清晰。下面是可能導(dǎo)致部分成員資格的廣泛的數(shù)據(jù)質(zhì)量問(wèn)題的例子。相對(duì)于聚類規(guī)則數(shù)據(jù)可能是內(nèi)在不明確性的。有時(shí)候聚類由于其定義不假定排他性成員資格的簡(jiǎn)單原因而重疊??紤]為一個(gè)公司中的兩個(gè)不同部門工作的雇員。如果雇員列表按部門聚類,則雇員正確地出現(xiàn)在兩個(gè)聚類中,因?yàn)檫@反映出事情的真正狀態(tài)。在這種情況下,部分成員資格可以被設(shè)置成反映該雇員為每一個(gè)部門工作的部分時(shí)間。這反過(guò)來(lái)減少了得到在分開(kāi)的部門中存在兩個(gè)具有相同標(biāo)識(shí)信息的不同雇員的錯(cuò)誤結(jié)論的機(jī)會(huì)。數(shù)據(jù)可能有瑕疵。字段中的變體單詞可能使標(biāo)識(shí)不明確。當(dāng)將地址分配給家庭時(shí), 在一個(gè)地址記錄上的房屋號(hào)碼可以是12,然而在該街道上不存在房屋號(hào)碼12。相反,存在房屋號(hào)碼1、2和21。前兩個(gè)的0. 3的權(quán)重以及最后一個(gè)0. 4的權(quán)重可反映出調(diào)換錯(cuò)誤略大于插入錯(cuò)誤的可能。數(shù)據(jù)可能不完整。做出到聚類的確定分配所需的一片信息可能缺失。例如,考慮給家庭分配地址記錄的問(wèn)題。每一個(gè)唯一的房屋號(hào)碼、街道、城市、郵政編碼組合被分配了唯一的家庭號(hào)碼。聚類算法可以容忍街道和城市名稱的變體拼寫,所以每個(gè)地址不必完全相同以分配給正確的家庭。但是,如果房屋號(hào)碼從地址中缺失,則沒(méi)有充足的信息來(lái)做出確定性分配。為了保有盡可能多的信息,不完整的記錄可以被部分地分配給與可用信息一致的每一個(gè)家庭。如果存在五個(gè)可能的房屋號(hào)碼,則每一個(gè)家庭聚類中的權(quán)重可以是0. 2,反映每一個(gè)房屋號(hào)碼相等的可能性。在不同的上下文中,考慮由按公司名稱標(biāo)記的帳戶上的未償還債務(wù)組成的數(shù)據(jù)集合。銀行想要對(duì)這種數(shù)據(jù)進(jìn)行合計(jì)以確定按國(guó)家與每一個(gè)公司相關(guān)聯(lián)的總計(jì)未償還債務(wù)。在公司名中是〃 ACME SERVICES LIMITED (AUSTRALIA) 〃、“ ACME SERVICES LIMITED (CANADA) 〃 和〃 ACME SERVICES LIMITED"。前兩個(gè)中的每一個(gè)進(jìn)入分開(kāi)的聚類,但是第三個(gè)是前兩個(gè)中的每一個(gè)的相等匹配,并且缺少國(guó)家標(biāo)識(shí)符。將第三個(gè)公司以權(quán)重0. 5放入前兩個(gè)聚類中的每一個(gè)反映出公司信息的不完整性。數(shù)據(jù)或者分類可能是內(nèi)在地不確定的。聚類成員資格可能基于將來(lái)的事件的結(jié)果??紤]包含資產(chǎn)及其值的列表的數(shù)據(jù)集合。資產(chǎn)要按照所有人聚類。但是,關(guān)于特定資產(chǎn)的所有權(quán)的訴訟未決。將它和任一可能的所有人放在一起都可能押錯(cuò)寶,然而該資產(chǎn)不能被簡(jiǎn)單地忽略。將該資產(chǎn)以部分成員資格分配給每一所有人反映出對(duì)訴訟結(jié)果的預(yù)期結(jié)果的信息的當(dāng)前狀態(tài),給出了最公平并且最有信息量的與當(dāng)前信息一致的對(duì)資產(chǎn)的處置。(d)聚類聚類是基于聚類成員資格標(biāo)準(zhǔn)將記錄分組為聚類的動(dòng)作。在精確的情況下,來(lái)此每一個(gè)記錄(關(guān)鍵字)的對(duì)象精確地和其他記錄中的對(duì)應(yīng)對(duì)象匹配,并且聚類或者“關(guān)鍵字組”是共享公共關(guān)鍵字的記錄的集合。在模糊的情況下,聚類成員資格可以由每一記錄中的對(duì)象之間的變體關(guān)系確定。(然而更一般的聚類成員資格標(biāo)準(zhǔn)也是可能的)。為了避免必須將數(shù)據(jù)集合中的所有記錄相互比較,使用超聚類(supercluster)關(guān)鍵字將整個(gè)集合劃分為子集,并且交叉比較被限制于超聚類內(nèi)的記錄。在很多情況下,超聚類由精確關(guān)鍵字,例如郵政編碼來(lái)定義。變體聯(lián)接使超聚類能夠使用變體對(duì)象來(lái)定義。例如,超聚類可以定義為包含給定郵政編碼的變體的所有郵政編碼的記錄的集合。例如,給定UK郵政編碼OX^QY,,變體郵政編碼OX^QY和OX^QT都是編輯距離一的變體,而后者自身是有效的郵政編碼。允許來(lái)自每一變體郵政編碼的記錄作為潛在的匹配使聚類結(jié)果能夠容忍郵政編碼中的錯(cuò)誤。在另一布置中,通過(guò)從每一記錄中的選定的字段取出單詞的片段(例如基于相對(duì)頻率,從最長(zhǎng)或者最重要的單詞),并使用這個(gè)片段的變體來(lái)標(biāo)識(shí)超聚類,可以形成超聚類。 當(dāng)對(duì)于兩個(gè)記錄是相同聚類的成員時(shí)這是適當(dāng)?shù)?,它們非常可能共享特定單詞,但是那些單詞無(wú)需是直接變體,更不用說(shuō)相等。通過(guò)考慮變體片段作為超聚類關(guān)鍵字,記錄被接納, 對(duì)于這些記錄,單詞的剩余部分差別超過(guò)了可被作為變體接受。需要完整單詞和每一記錄中其他對(duì)象的更徹底的比較以確定聚類成員資格。例如,當(dāng)比較德語(yǔ)街道名稱時(shí),街道Graf von Stauffenberg Strasse可能要求以某種形式包含Mauf f enberg。在采樣數(shù)據(jù)中,觀察到Strasse可以被縮寫,并被連接到前導(dǎo)單詞以給出如Graf v. Sauffenbergstr的條目。由每一街道名稱中的最長(zhǎng)單詞的前五個(gè)字符的編輯距離二變體來(lái)定義的超聚類將包括〃 stauf 〃和〃 sauff"。包含Mauffenberg Sauffenbergstr兩者的記錄將被包括用于在超聚類內(nèi)的比較,并且適當(dāng)?shù)挠?jì)分函數(shù)將把它們分配給相同的聚類。相反,基于最長(zhǎng)單詞的編輯距離二變體的超聚類將把這兩個(gè)街道名稱隔離到分開(kāi)的超聚類中,從而它們將不能被聚類在一起。超聚類的審慎選擇對(duì)于聚類方法的性能和準(zhǔn)確性很重要。例如,如果超聚類太大, 則可能做出很多徒勞無(wú)益的比較,這可能導(dǎo)致性能受損。或者,如果超聚類太窄,則可能錯(cuò)失可接受的匹配,并且準(zhǔn)確性可能受累。(e)部分成員資格假設(shè)數(shù)據(jù)錄入操作是在應(yīng)用中填表以將新的客戶添加到數(shù)據(jù)庫(kù)。當(dāng)在表中錄入姓名時(shí),應(yīng)用程序?qū)φ栈鶞?zhǔn)姓名列表驗(yàn)證該錄入。使用利用如上所述的刪除算法的模糊搜索,應(yīng)用能夠檢測(cè)姓名的變體拼寫,并從基準(zhǔn)列表返回替換列表。假設(shè)操作者在名字段錄入 “Jame”。應(yīng)用程序可能(和數(shù)據(jù)庫(kù)中包含該姓名的記錄的計(jì)數(shù)一起)按字母順序返回下列的替換列表Jaime 250James 13359Jamie 339Jane 9975這些全都和Jame差一個(gè)插入和/或一個(gè)刪除,并且是候選的替換。為了改善列表對(duì)操作者的有用性,可以使用用于確定不明確性度量的各種模型中的任何一個(gè)將替換優(yōu)先化(prioritize)。三種示范性的量化不明確性的方式是1)均分, 2)統(tǒng)計(jì)頻率,和幻錯(cuò)誤模型。
在均分方法中,將每一個(gè)替換作為同等可能來(lái)對(duì)待。這里,Jame是替換中的任何一個(gè)的可能性是四分之一。替換的字母順序列表通常指示隱含的均分方法。在統(tǒng)計(jì)頻率方法中,基準(zhǔn)集合,像數(shù)據(jù)庫(kù)表格自身一樣,被用作每一個(gè)姓名被觀察的頻率的來(lái)源。如果按照示出的計(jì)數(shù)對(duì)上面的列表進(jìn)行降序排序,則最可能的糾正是 James,接著是Jane等。第三個(gè)方法-錯(cuò)誤模型是基于以下觀察某些種類的錯(cuò)誤比其他的更可能,至少依賴于錄入的語(yǔ)言和模式。對(duì)于熟練操作者的鍵盤錄入,替換錯(cuò)誤可能比跳過(guò)字符或者插入額外字符更常見(jiàn)。類似地,對(duì)于記錄由客戶通過(guò)電話給出的拼寫的操作者,涉及發(fā)音類似字母姓名的抄寫錯(cuò)誤可能比其他種類的錯(cuò)誤更常見(jiàn)。這里,在任一情況下,Jane將是最可能的糾正。為了使用這個(gè)方法,可以開(kāi)發(fā)并應(yīng)用對(duì)可能的錯(cuò)誤及其相對(duì)重要性進(jìn)行分類的模型。這樣的模型可以從在No. 2009/01827 號(hào)美國(guó)專利申請(qǐng)中引入的WFS(單詞頻率重要性,word frequency significance)文件的統(tǒng)計(jì)分析產(chǎn)生。假設(shè)應(yīng)用程序?qū)蛻舻刂?這里稱為查詢地址)的記錄匹配到主客戶地址表格,如果找到匹配,則檢索現(xiàn)有家庭關(guān)鍵字,否則創(chuàng)建新的關(guān)鍵字。查詢地址可能不與主客戶地址表中的地址精確地匹配,所以可以使用模糊匹配。此外,查詢地址可能不完整或者不準(zhǔn)確。這意味著多于一個(gè)現(xiàn)有地址可能和查詢地址匹配。為了量化匹配的質(zhì)量,具有匹配的不明確性的度量很有用。例如,地址可能不具有房屋號(hào)碼,而主客戶地址文件具有多個(gè)具有相同街道地址的條目(忽略房屋號(hào)碼)。假設(shè)查詢地址是具有特定城鎮(zhèn)和郵政編碼的Lower Street。對(duì)郵政編碼的模糊搜索返回了預(yù)期的(prospective)地址記錄的列表,所述地址記錄具有相同或者變體郵政編碼。將查詢地址上的郵政編碼、城鎮(zhèn)、街道和房屋號(hào)碼字段與預(yù)期地址的每一對(duì)應(yīng)字段進(jìn)行比較并計(jì)分,作為模糊匹配處理的一部分。在這個(gè)例子中,假設(shè)存在兩個(gè)和查詢地址的街道、城鎮(zhèn)和郵政編碼精確匹配的主記錄2Lower Street和3LowerStreet。 每個(gè)預(yù)期具有與查詢記錄匹配的相等質(zhì)量,并且不能利用現(xiàn)有數(shù)據(jù)對(duì)其進(jìn)行改善,因?yàn)榉课萏?hào)碼在查詢記錄中缺失。在均分度量下,實(shí)際匹配到任一家庭的可能性相等?;蛘?,假設(shè)房屋號(hào)碼被填充但是無(wú)效,不能和任何現(xiàn)有地址對(duì)應(yīng)。假設(shè)查詢地址是 12Lower Street,但是對(duì)照基準(zhǔn)郵政地址文件(所有有效地址的列表可從郵政服務(wù)獲得) 驗(yàn)證表明不存在具有該地址的房屋。如上,在該郵政編碼中匹配的地址是2Lower Street 和3Lower Street。用于地址錄入的錯(cuò)誤模型可能傾向于12到2的匹配超過(guò)12到3的匹配。這將給出對(duì)匹配可能性的偏向加權(quán)以迎合與2Lower Mreet地址的匹配。最后,如果查詢記錄上的房屋號(hào)碼被填充并且是有效的郵政地址,則用于地址錄入的錯(cuò)誤模型可以對(duì)地址是新的相對(duì)于現(xiàn)有地址的錯(cuò)誤的可能性進(jìn)行量化。(f)量化數(shù)據(jù)質(zhì)量不明確性度量也可應(yīng)用于度量數(shù)據(jù)質(zhì)量的更寬的上下文中。企業(yè)和機(jī)構(gòu)關(guān)注其數(shù)據(jù)的質(zhì)量,特別是其主數(shù)據(jù),但是目前除了最明顯的數(shù)據(jù)質(zhì)量問(wèn)題以外很難量化任何數(shù)據(jù)質(zhì)量。在上面給出的數(shù)據(jù)質(zhì)量問(wèn)題的簡(jiǎn)單列表中,某些數(shù)據(jù)質(zhì)量度量系統(tǒng)(例如,見(jiàn)通過(guò)引用包含于此的No. 2005/0114369號(hào)美國(guó)專利申請(qǐng)公開(kāi))主要直接解決一個(gè)問(wèn)題數(shù)據(jù)有效性。數(shù)據(jù)可以被窮盡編目并對(duì)照其數(shù)據(jù)類型和對(duì)照各種用戶定義的有效性度量檢查有效性,用戶定義的有效性包括有效值的列表。
記錄的字段內(nèi)的不完整錄入的證據(jù)可從未填充(空白或者空)的錄入的數(shù)量推斷,但是這并未量化缺失信息的重要性??紤]主客戶地址列表的情況。如果城市從客戶地址錄入中缺失,但是存在有效的郵政編碼和街道地址,這是否增加任何不明確性?或者,地址是否能夠從手頭上的信息有效地完成,也許使用如郵政地址文件的基準(zhǔn)集合?如果地址缺失房屋號(hào)碼怎樣?多少房屋共享剩余的地址?某些數(shù)據(jù)質(zhì)量問(wèn)題可以利用數(shù)據(jù)清理修正(缺失城市),其他的不能(缺失房屋號(hào)碼)。需要數(shù)據(jù)中存在的固有不明確性的度量。通過(guò)將每一地址條目和基準(zhǔn)數(shù)據(jù)集合進(jìn)行比較,可以計(jì)算該條目中不明確性的度量。不明確性報(bào)告可以包括不具有不明確性的條目的部分。對(duì)于具有不明確性的條目,報(bào)告可以示出具有K個(gè)替換(或者替換的指定容器/范圍,也稱為“變體”)的條目的數(shù)量的直方圖。也可能存在具有最大不明確性的前N個(gè)條目的列表,其中N是用戶指定的條目的數(shù)量。量化與整個(gè)數(shù)據(jù)集合的不完整數(shù)據(jù)相關(guān)聯(lián)的不明確性的概要統(tǒng)計(jì)可以從每記錄的替換的數(shù)量的平均值和標(biāo)準(zhǔn)差構(gòu)建。如果應(yīng)用不明確性的統(tǒng)計(jì)頻率度量來(lái)對(duì)地址的可能的完成進(jìn)行量化,則感興趣的度量是a)具有K個(gè)替換的條目的數(shù)量的直方圖,b)利用替換的頻率的分布的直方圖,具有最大替換范圍的N個(gè)記錄的列表,c)具有與單個(gè)替換最強(qiáng)的關(guān)聯(lián)的N個(gè)條目的計(jì)數(shù)和列表,d)替換數(shù)量的平均值和標(biāo)準(zhǔn)差。相似度量應(yīng)用于不明確性的錯(cuò)誤模型度量。字段中的錄入不是期望的那一個(gè)的變體錄入的數(shù)據(jù)質(zhì)量問(wèn)題與有效值問(wèn)題以及不完整信息的問(wèn)題兩者都類似。在某些層次,說(shuō)錄入不是預(yù)期那個(gè)是為了斷言其對(duì)于特定的但不一定明確的驗(yàn)證標(biāo)準(zhǔn)是無(wú)效的。街道名的驗(yàn)證可以通過(guò)將街道名稱和基準(zhǔn)郵政地址文件中所包含街道名稱的比較來(lái)定義?;蛘?,在缺少基準(zhǔn)數(shù)據(jù)集合時(shí),有效性可以從相關(guān)聯(lián)的變體匹配錄入的相對(duì)頻率推斷。如果錄入以相對(duì)較高的頻率發(fā)生并且不存在高頻率的替換,則該錄入可被當(dāng)作有效的。如果錄入以相對(duì)較低的頻率發(fā)生并且存在單個(gè)高頻率替換, 則該錄入可被當(dāng)作無(wú)效的。如果存在多個(gè)高頻率替換,則對(duì)有效數(shù)據(jù)的糾正可能是不明確的,并且可以類似于數(shù)據(jù)缺失那樣對(duì)其進(jìn)行量化。假設(shè)字段具有有效值的枚舉集合之外的值。例如,性別字段是G而非M或F。不明確性的均分度量將認(rèn)為對(duì)于該錄入存在兩個(gè)替換。頻率度量將仍表明2個(gè)替換但是可能包含對(duì)M或F的偏向。在簡(jiǎn)單的枚舉情況中,當(dāng)替換數(shù)量上沒(méi)有變化時(shí),數(shù)據(jù)集合的不明確性度量從每錄入的不明確性度量乘以無(wú)效值的分?jǐn)?shù)的簡(jiǎn)單乘積形成。當(dāng)替換的數(shù)量上存在變化時(shí),例如如果存在街道名被誤拼了,則不明確性度量將有助于對(duì)在數(shù)據(jù)中存在的不明確性進(jìn)行量化。頻率和錯(cuò)誤模型度量應(yīng)該對(duì)于變體拼寫給出最可靠的結(jié)果。與不完整信息一樣,不明確性度量最終反映數(shù)據(jù)集合可以通過(guò)清理被改善多少以及仍將遺留多少不確定性。在錯(cuò)誤字段中錄入的數(shù)據(jù)也可以以類似方式量化。這里,可能存在關(guān)于數(shù)據(jù)放置事實(shí)上是否錯(cuò)誤的額外的不明確性。在具有常見(jiàn)名值的姓的情況下,不清楚一種順序相對(duì)于另一個(gè)是否正確。知道常見(jiàn)名有多經(jīng)常存在于姓字段中有助于約束錯(cuò)誤排序的姓名的問(wèn)題可能的嚴(yán)重性。如果準(zhǔn)確的基準(zhǔn)(或者其他驗(yàn)證器)可用,則可以獲得錯(cuò)誤率的度量。在 100, 000個(gè)條目的數(shù)據(jù)集合中,可能存在500個(gè)其中存在是常見(jiàn)名的姓的條目,但是其中只有25個(gè)真正地被錯(cuò)誤地排序。則錯(cuò)誤率是25/500 = 1/20。即使不存在度量的錯(cuò)誤率,知道只有500/100,000 = 1/200的易受該問(wèn)題損害的條目提高了人們對(duì)該數(shù)據(jù)的信心。對(duì)姓名字段的其他感興趣的檢查將是知道何時(shí)a)名和姓都是常見(jiàn)名,b)何時(shí)名是常見(jiàn)的姓而姓是常見(jiàn)的名,C)何時(shí)名是常見(jiàn)的姓而姓也是常見(jiàn)的姓。從姓名的基準(zhǔn)數(shù)據(jù)集合(或許數(shù)據(jù)集合自身)導(dǎo)出的不明確性的頻率度量可用于計(jì)算排序正確的可能性。例如,考慮姓名David Paul。從David是名或姓的概率,以及類似的Paul是名或姓的概率,可以計(jì)算David是名的可能性。字段中,例如在地址中的某些重排序相對(duì)于被選擇的基準(zhǔn)數(shù)據(jù)集合是錯(cuò)誤的,但是本身不是錯(cuò)誤的,因?yàn)橹付ㄅ判虻臉?biāo)準(zhǔn)或者較弱,或者不存在。這里,與基準(zhǔn)數(shù)據(jù)集合相比的特定地址排序的不明確性度量可以用于表明不同的排序不是嚴(yán)重的數(shù)據(jù)質(zhì)量問(wèn)題,因?yàn)樗鼈儾粚⒙?lián)系(association)的不明確性引入數(shù)據(jù)。這是對(duì)在何處努力改善數(shù)據(jù)質(zhì)量的決策的重要輸入。為了量化在自由文本字段中存在的基準(zhǔn)數(shù)據(jù)的量,人們可以對(duì)照被選擇的基準(zhǔn)數(shù)據(jù)集合將自由文本分解為在模糊搜索中使用的單詞。例如,假設(shè)公司期望產(chǎn)品id正存儲(chǔ)在發(fā)票的注釋字段中。通過(guò)使用注釋字段中的每一單詞來(lái)對(duì)照產(chǎn)品id表格做模糊搜索,可以找到注釋字段中存在的產(chǎn)品id的數(shù)量。更一般地,可以對(duì)照WFS文件(參考其他專利) 搜索每一單詞以確定所有它或它的變體可能在其中出現(xiàn)的字段,以及具有什么樣的分?jǐn)?shù)比率。這給出了一個(gè)字段中的數(shù)據(jù)對(duì)照在其他字段中看到的數(shù)據(jù)的模糊交叉相關(guān)(這種方法也可以用來(lái)標(biāo)識(shí)已經(jīng)被放置在錯(cuò)誤字段中的數(shù)據(jù))。幾種基準(zhǔn)完整性問(wèn)題都可以被量化。首先確證度量可以被定義為精確關(guān)鍵字對(duì)的分?jǐn)?shù),針對(duì)所述關(guān)鍵字對(duì),被鏈接的數(shù)據(jù)事實(shí)上未被正確地鏈接。這個(gè)種類的確證只能在鏈接的兩側(cè)上都存在可比較字段(或者可比較字段可以通過(guò)額外聯(lián)接被帶到鏈接點(diǎn))時(shí)才能做出。典型地,這是類似字段之間的比較,如被保持在多于一個(gè)數(shù)據(jù)庫(kù)中的客戶姓名和地址,其中鏈接關(guān)鍵字已經(jīng)在數(shù)據(jù)庫(kù)之間建立。當(dāng)將保持在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)與填充倉(cāng)庫(kù)的源系統(tǒng)中的數(shù)據(jù)進(jìn)行比較時(shí)出現(xiàn)這個(gè)狀況。如果不同的源系統(tǒng)保持了矛盾的信息,或者如果它們被不一致地更新,則數(shù)據(jù)倉(cāng)庫(kù)可能類似地與一個(gè)或多個(gè)源系統(tǒng)矛盾。針對(duì)數(shù)據(jù)倉(cāng)庫(kù)與其源的一致性驗(yàn)證將提供對(duì)企業(yè)數(shù)據(jù)質(zhì)量的新的且重要的檢查。第二個(gè)檢查是尋找缺失或者孤立的鏈接,即在鏈接的另一側(cè)上沒(méi)有記錄的鏈接。 模糊搜索可以確定是否存在另一個(gè)應(yīng)該被鏈接(缺失鏈接)或者未被鏈接(孤立的)的記錄。這些條件中的每一個(gè)的分?jǐn)?shù)的度量很重要。如果對(duì)鏈接的另一側(cè)上的記錄的匹配是不明確的,則不明確性度量可以將其量化。這形成了數(shù)據(jù)清理操作的基礎(chǔ)以便重新填充鏈接, 其中這可以被唯一地完成,并且標(biāo)識(shí)哪些鏈接因其是不明確的而要求進(jìn)一步的調(diào)查。(下面將考慮部分成員資格的可能性)。當(dāng)兩個(gè)數(shù)據(jù)集合包含相關(guān)的信息但是它們之間不存在關(guān)鍵字關(guān)系時(shí),數(shù)據(jù)集合之間的模糊搜索或者聯(lián)接將找到數(shù)據(jù)集合之間的預(yù)期鏈接。每一預(yù)期鏈接的不明確性度量將指示數(shù)據(jù)集合之間的映射有多干凈(clean)。例如,在兩個(gè)公司合并時(shí)組合如兩個(gè)公司的客戶姓名和地址的主基準(zhǔn)數(shù)據(jù)時(shí)這將非常有用。同樣地,其可以用于合并企業(yè)的不同部分的基準(zhǔn)數(shù)據(jù)。這將是主數(shù)據(jù)管理方案的安排中重要的早期階段。創(chuàng)建主數(shù)據(jù)管理方案中的差距分析(gap analysis)的部分是確定不同系統(tǒng)使用的現(xiàn)有基準(zhǔn)數(shù)據(jù)集合之間對(duì)準(zhǔn) (alignment)的質(zhì)量。系統(tǒng)之間的初始對(duì)準(zhǔn)是這種分析的副產(chǎn)品。擁有不明確性分析有助于隨后對(duì)為了協(xié)調(diào)(reconcile)系統(tǒng)將花費(fèi)的額外工作進(jìn)行量化。(g)聚類和部分成員資格(1)創(chuàng)建模糊聚類如我們前面提到的那樣,當(dāng)不存在關(guān)于如何將元素合并(coalesce)到組中的先驗(yàn)指導(dǎo)時(shí),使用一種原則或者算法來(lái)標(biāo)識(shí)組。這實(shí)際上很重要,因?yàn)樵谡鎸?shí)情況下,經(jīng)常不清楚哪個(gè)元素應(yīng)該擔(dān)任核心元素以吸引其他元素以便形成組。例如,在上面的客戶地址數(shù)據(jù)庫(kù)中的重復(fù)記錄的例子中,有時(shí)候公司不可能知道哪個(gè)記錄是真實(shí)記錄。下面的討論提出了可用來(lái)形成記錄的模糊聚類的幾個(gè)算法,其中,數(shù)據(jù)片將被視為相互關(guān)聯(lián)。在上面提到的客戶地址例子中,存在六個(gè)和“John Smith”相關(guān)聯(lián)的記錄=(A)John Smith ox26qt ; (B)John Smith ox26qx ; (C)John Smith ox26qy ; (D) John Smith ox27qy ; (E) John Smith ox26qt ; (F) John Smith ox26qy。不知道哪個(gè)(些)記錄對(duì)應(yīng)于真實(shí)的家庭,公司可能對(duì)將上面的記錄分組為兩個(gè)或三個(gè)聚類感興趣,每一個(gè)聚類表示真實(shí)的家庭。 以這種方式,公司可能能夠通過(guò)減少發(fā)送到虛假郵寄地址的郵件來(lái)減少郵件量??捎脕?lái)創(chuàng)建聚類的一個(gè)算法是找到包含指定距離內(nèi)的最大數(shù)量的元素的最大無(wú)交集(disjoint)子集。參考圖5說(shuō)明這種方法。涉及的步驟在流程圖中示出。圖5也使用上面的客戶地址數(shù)據(jù)庫(kù)例子來(lái)詳述該算法。在對(duì)應(yīng)步驟的右邊展示了來(lái)自每一個(gè)步驟的結(jié)果。在這個(gè)實(shí)例中,指定的距離是兩個(gè)操作。參考圖5中的流程圖,從最大無(wú)交集子集創(chuàng)建聚類的第一個(gè)步驟是對(duì)于每一元素,對(duì)該元素的變體計(jì)數(shù)(502)。如上面所定義的那樣,元素的變體是距離該特定元素指定距離內(nèi)的元素。在客戶地址例子中,對(duì)于記錄A,存在三個(gè)在兩個(gè)操作的距離內(nèi)的記錄(B、 C和E)。對(duì)于記錄B,存在兩個(gè)在兩個(gè)操作的距離內(nèi)的記錄(A、C)。對(duì)于C,有四個(gè),對(duì)于D, 有一個(gè),對(duì)于E有兩個(gè),并且對(duì)于F有兩個(gè)。然后,選擇(504)具有最大量的變體的元素并使該元素及其變體成為由該元素標(biāo)記的組。在客戶地址數(shù)據(jù)庫(kù)例子中,記錄C具有最大量的變體,4。記錄C及其變體(A、B、 D、F)形成了第一聚類。接著,從所有元素集合去除(506)最大組的元素。在客戶地址例子中,這只留下了記錄E0然后,在剩下的元素中,找到(508)具有最大量的變體的元素。這個(gè)步驟將生成第二個(gè)聚類。在客戶地址例子中,在第二個(gè)聚類中只有一個(gè)元素E。繼續(xù)(510)直到所有元素都已經(jīng)被分組在聚類中為止。在客戶地址例子中,無(wú)需再進(jìn)一步,因?yàn)槊恳辉匾呀?jīng)找到其組。在客戶地址數(shù)據(jù)庫(kù)的例子中,這個(gè)算法產(chǎn)生了兩個(gè)聚類,由A、B、C、D、F組成的組, 和由E獨(dú)自組成的組。公司可以將每一個(gè)組中包含的記錄作為彼此的副本對(duì)待,并將這些記錄合并以減少郵件量??梢詫?duì)上面的算法添加某些調(diào)整。例如,記錄A和F距C和E是相同的距離。在上面算法中,分配記錄A和F作為C的副本是所述處理的人為產(chǎn)物,并且不一定指示記錄A 和F更接近C而不是E。一個(gè)調(diào)整可以是在聚類的表達(dá)式上標(biāo)注不確定性。例如,可以使用表達(dá)式C 5-2 來(lái)表示C的聚類,其包括記錄C及其變體,5指示記錄的總數(shù)并且-2指示不確定性??梢允褂帽磉_(dá)式E 1+2來(lái)表示E的聚類,其包括記錄E及其變體,1指示在該組中的記錄的總數(shù),并且2指示不確定性。聚類的正不確定性反映出存在被分組到其他聚類的可能屬于這個(gè)聚類的元素。聚類的負(fù)不確定性反映出在這個(gè)聚類中的元素可能屬于另一組。另一調(diào)整可以是把A和F添加到E的聚類。因此,組C具有記錄A、B、D、F,并且組 E具有記錄A和F。但是,因?yàn)橛涗汚和F屬于兩個(gè)組,在所有組中的記錄的總數(shù)是8,比記錄的總計(jì)數(shù)多兩個(gè)。為了保持總計(jì)數(shù),可以使用部分成員資格。當(dāng)在多單詞字段,如公司名上聚類數(shù)據(jù)時(shí),構(gòu)建模糊聚類的第二種方法是適合的, 其中,記錄之間的變化通過(guò)對(duì)短語(yǔ)而非單個(gè)單詞(或者如UK郵政編碼的整個(gè)字段)計(jì)分被評(píng)估。短語(yǔ)計(jì)分不僅把單詞的變體拼寫納入考慮,也考慮了單詞順序、缺失的單詞和單詞之間改變了具體單詞次序的插入。例如,給定公司名Bank OfAmerica,下面示出了四種類型的需要被標(biāo)識(shí)和區(qū)別的名字變化1)Bank ofAmrica(單詞的模糊匹配)2)America Bank (單詞順序,缺失的單詞)3) Bank America (缺失的單詞)4) Bank of South America (插入的單詞)作為在短語(yǔ)上聚類的例子,假設(shè)銀行正試圖對(duì)屬于主客戶列表中相同的法律實(shí)體的所有帳戶進(jìn)行標(biāo)識(shí)。法律實(shí)體要由公司名稱、地址和公司注冊(cè)號(hào)(如果有的話)標(biāo)識(shí)。用于聚類的首要字段是公司名稱,因?yàn)槠浜头蓪?shí)體高度相關(guān)并且總是被填充。地址是用來(lái)區(qū)別偶然地具有類似名稱的公司的次級(jí)字段。對(duì)于合法的實(shí)體標(biāo)識(shí),預(yù)期公司注冊(cè)號(hào)是確定的,但是其未被充分填充而不能單獨(dú)使用。模糊聚類操作通過(guò)標(biāo)識(shí)超聚類關(guān)鍵字開(kāi)始,超聚類關(guān)鍵字將原始數(shù)據(jù)集合劃分為較小的子集,適當(dāng)?shù)剡x擇關(guān)于比較的大小以允許針對(duì)聚類成員資格比較所有的元素。具有不同超聚類關(guān)鍵字的記錄通過(guò)構(gòu)建將處于不同的聚類中。對(duì)基于地理的數(shù)據(jù),如地址,郵政編碼經(jīng)常是合適的超聚類關(guān)鍵字。具有匹配變體郵政編碼的記錄可以包括在超聚類中。具有非匹配郵政編碼的記錄被預(yù)期以高概率屬于不同的聚類,所以為了改善性能,當(dāng)計(jì)算聚類時(shí)通過(guò)弓I入超聚類關(guān)鍵字來(lái)排除它們。在每一個(gè)超聚類內(nèi),數(shù)據(jù)按公司名稱字段的長(zhǎng)度降序排序并按公司名稱升序排序,以便按可再現(xiàn)的順序?qū)⒆铋L(zhǎng)的名字首先提供給聚類算法。使超聚類組中的第一個(gè)記錄成為第一個(gè)聚類的主記錄。每一后續(xù)記錄(這里稱作當(dāng)前記錄)通過(guò)將當(dāng)前記錄的公司名稱對(duì)照聚類的主記錄的公司名進(jìn)行計(jì)分來(lái)與每一現(xiàn)有聚類的主記錄進(jìn)行比較。如果得分超過(guò)猜測(cè)(suspect)匹配閾值,則所述聚類被添加到當(dāng)前記錄的猜測(cè)聚類的列表。在將當(dāng)前記錄與所有現(xiàn)有主記錄比較過(guò)以后,如果猜測(cè)列表為空,則使當(dāng)前記錄成為新聚類的主記錄。如果猜測(cè)列表只有一個(gè)條目,并且得分超過(guò)匹配閾值,則當(dāng)前記錄被添加到猜測(cè)列表上的聚類。如果猜測(cè)列表具有多于一個(gè)條目,則對(duì)照猜測(cè)列表上的每一聚類中的每一記錄對(duì)當(dāng)前記錄上的公司名稱計(jì)分。將當(dāng)前記錄添加到其具有超過(guò)匹配閾值的最高分?jǐn)?shù)的聚類。 如果對(duì)于多于一個(gè)聚類中的記錄存在超過(guò)最高分?jǐn)?shù)的相等匹配,則當(dāng)前記錄被添加到第一個(gè)這樣的聚類。如果沒(méi)有分?jǐn)?shù)超過(guò)匹配閾值,則當(dāng)前記錄成為新聚類的主記錄。這個(gè)算法具有兩個(gè)重要特征。因?yàn)橐杂欣诘谝粋€(gè)匹配聚類來(lái)決定與多個(gè)聚類的不明確匹配,所以某些聚類被以不明確成員相對(duì)地過(guò)填充(over-populate)。而且,記錄被提供給算法的順序影響具體的成員資格決定。關(guān)于公司名稱的值和長(zhǎng)度的初始排序旨在通過(guò)建立固定的名稱順序來(lái)改善這一點(diǎn)。下面討論的部分成員資格的概念給出了更豐富的解決方案,它更準(zhǔn)確地反映了聚類成員資格的不明確性。在下列的公司名稱集合中出現(xiàn)了不明確性成員資格的例子。ACME Services Australia LimitedACME Services Canada LimitedACME Services Limited在特定計(jì)分下,ACMEServices Australia Limited 與 ACME Services Canada Limited的計(jì)分是0. 65,這在0. 75的匹配閾值之下,從而這兩個(gè)記錄被放置在分開(kāi)的聚類中。ACME Services Limited對(duì)兩個(gè)聚類具有0. 95的相等分?jǐn)?shù)。它變?yōu)锳CME Services Australia Limited 聚類的成員,因?yàn)樗紫扔龅?ACME Services Australia Limited。(2)部分成員資格在前面部分的第一個(gè)例子中,記錄A和F既屬于聚類C也屬于聚類E。如果記錄在聚類中的每次出現(xiàn)都被計(jì)為一,則盡管只有六個(gè)記錄,記錄在聚類C和E中的總計(jì)數(shù)是8, 五個(gè)在組C(C,A,B,D,F(xiàn))中,并且三個(gè)在組E(Ε、A、F)中。在這個(gè)例子中,可以使用部分成員資格保持總計(jì)數(shù)。如果數(shù)據(jù)片屬于多于一個(gè)組,則該數(shù)據(jù)片的出現(xiàn)被計(jì)數(shù)為小于一,即分?jǐn)?shù)。但是該數(shù)據(jù)片的所有出現(xiàn)的和應(yīng)該仍舊是一以使總計(jì)數(shù)守恒。在某些布置中,使用例如上面描述的不明確性的度量,元素在組中的部分成員資格可以定義成反映元素屬于該特定組的可能性。例如,假設(shè)記錄A具有40%的概率屬于組C,并具有60%的概率屬于組E。則0. 4 的部分成員資格可以被分配給組C中的記錄A,并且0. 6的部分成員資格可以被分配給組E 中的記錄A。類似地,假設(shè)記錄F具有10 %的概率屬于組C,并且具有90 %的概率屬于組E。0. 1 的部分成員資格可以被分配給組C中的記錄F,并且0.9的部分成員資格可以被分配給組E 中的記錄F。隨著部分成員資格被分配給記錄A和F,總計(jì)數(shù)是組C的計(jì)數(shù)(1+1+1+0. 1+0. 4 = 3.5)和組E的計(jì)數(shù)(1+0. 9+0. 6 = 2.5)之和,其為6。因此,保持了總計(jì)數(shù)。由于部分成員資格的根源是對(duì)特定元素的成員資格的不確定性,所以每一個(gè)組的總成員資格僅以一定程度的不確定性可知,即誤差界限(margin of error)。每一個(gè)組的總計(jì)數(shù)可以表達(dá)為總地和部分地由誤差界限調(diào)整的成員資格的和。這個(gè)界限可以由通過(guò)假設(shè)關(guān)于成員資格的所有不確定決定落入包含(inclusion)或者排除(exclusion)所獲得的最大和最小邊界值指示。這對(duì)應(yīng)于聚類中成員分布上的最差情況場(chǎng)景。這里,利用邊界值,C 中的總成員資格將為3. 5 (3,5)這解讀為說(shuō)預(yù)期的C的成員數(shù)量是3. 5,而C具有至少三個(gè)成員并且至多五個(gè)成員。類似地,E中的成員資格將為2.5(1,3)預(yù)期的E的總成員資格是 2. 5,但是至少一個(gè)成員和至多3個(gè)成員。屬于不同聚類的邊界值是相關(guān)的,盡管這里使用的表示法未指示它。數(shù)據(jù)集合中不同記錄之中的相關(guān)是可能的,并且當(dāng)計(jì)算邊界值時(shí)應(yīng)該被納入考慮。例如,有時(shí)候有可能 (確定性或者其他可能性)知道A和F不在相同聚類中,而不知道它們屬于哪個(gè)聚類。在上面的第二個(gè)例子中,通過(guò)將超過(guò)猜測(cè)閾值而匹配主記錄的所有記錄和每一個(gè)聚類相關(guān)聯(lián),特別是當(dāng)存在和多于一個(gè)聚類的不明確匹配或者猜測(cè)匹配時(shí),可以提高聚類的質(zhì)量。應(yīng)該對(duì)照每一個(gè)猜測(cè)記錄來(lái)記錄匹配的質(zhì)量,并利用不明確性度量對(duì)匹配的質(zhì)量進(jìn)行量化。利用其部分成員資格的度量標(biāo)記,部分成員在一個(gè)布置中將與完整成員分開(kāi)保持。例如,聚類的成員可以按特定成員資格的降序列出(完整成員具有部分成員資格一)。規(guī)則標(biāo)記應(yīng)該附著于每一個(gè)記錄,同樣它既能用于鏈接部分成員資格被一起確定的記錄,也能識(shí)別確定部分成員資格分配的規(guī)則、事件或決定。當(dāng)組合具有不同的部分成員資格的記錄時(shí),這個(gè)規(guī)則標(biāo)記在調(diào)整部分成員資格時(shí)將會(huì)有用。雖然從一個(gè)角度,部分成員資格反映了出自成員資格的不確定性的不明確性,但是從其他角度,部分成員資格只是成員資格在多個(gè)聚類之中的簡(jiǎn)單分配,如在為兩個(gè)部門工作的雇員例子中那樣。在不確定的情況下,預(yù)期信息狀態(tài)上的變化將改變成員資格分配。 或者,可以簡(jiǎn)單地將部分成員資格作為決定性的接受。將分?jǐn)?shù)作為實(shí)數(shù)接受沒(méi)有成本。當(dāng)部分成員資格表示元素屬于不同聚類的可能性時(shí),部分成員資格總是非負(fù)的, 并且屬于不同聚類的元素的部分成員資格的和應(yīng)該是一。但是,部分成員資格在某些布置中可以是負(fù)的。但是屬于不同聚類的對(duì)象的部分成員資格的和仍必須限制是一。在某些布置中,元素的部分成員資格可以定義為元素和主體之間的距離的函數(shù), 或者元素和主體之間的匹配得分的函數(shù)。如上所述,從模糊分?jǐn)?shù)構(gòu)建部分成員資格的一個(gè)方法是通過(guò)不明確性度量。不同的模糊得分反映出元素和主體之間的不同距離,從而反映出不同的不明確性度量。注意,模糊得分反映出變體和主體之間的相似性,并且經(jīng)常并不和概率相同。(h)模糊數(shù)據(jù)操作(1)存在部分成員資格時(shí)的過(guò)濾將選擇標(biāo)準(zhǔn)應(yīng)用于對(duì)共享公共屬性的記錄的子集進(jìn)行隔離經(jīng)常是有用的。例如, 在國(guó)際記錄的數(shù)據(jù)集合中,來(lái)自特定國(guó)家的記錄可以被選擇。選擇操作(有時(shí)候稱作“過(guò)濾”)不被視為基于關(guān)鍵字,因?yàn)樵诖_定選擇的表達(dá)式中使用的字段無(wú)需是關(guān)鍵字。當(dāng)允許記錄具有多個(gè)聚類中的部分成員資格時(shí),過(guò)濾可能導(dǎo)致某些部分成員要被丟棄。結(jié)果是和跨過(guò)被選擇子集的記錄相關(guān)聯(lián)的總成員資格分配可能小于一(unity)。對(duì)此的解釋是總分配對(duì)照選擇的子集外部的替換來(lái)度量選擇的子集中的成員資格。假設(shè)ACME Services Limited 對(duì)于包含 ACME Services Australia Limited 的組具有0.5個(gè)分配,并且對(duì)于包含ACME Services Canada Limited的組具有0. 5個(gè)分配。 ACME Services Limited跨過(guò)整個(gè)數(shù)據(jù)集合的總分配是1. 0。如果施加過(guò)濾以便只保留與 Canada相關(guān)聯(lián)的記錄,則ACME Services Limited將在作為結(jié)果的數(shù)據(jù)集合中具有總分配 0.5。這指示ACME Services Limited有50%的機(jī)會(huì)在Canada子集中,相對(duì)于不在Canada 子集中的50%的機(jī)會(huì)的替換。(2)按照關(guān)鍵字和部分成員資格的并行分區(qū)在并行處理中,可以基于關(guān)鍵字的值將記錄分配給不同的處理分區(qū)(有時(shí)候稱為 “按關(guān)鍵字分區(qū)”)。當(dāng)允許記錄具有不明確聚類成員資格時(shí),可以關(guān)于與每一個(gè)聚類相關(guān)聯(lián)的關(guān)鍵字來(lái)完成分區(qū)。在這個(gè)分區(qū)方案下,在與給定記錄相關(guān)聯(lián)的分區(qū)內(nèi)的總分配可以小于一。對(duì)其的解釋類似于過(guò)濾其參照不在分區(qū)中的替換來(lái)對(duì)將記錄分配到該分區(qū)進(jìn)行度量。假設(shè)ACME Services Limited對(duì)于包含 ACME Services Australia Limited 的組具有0. 5個(gè)分配,以及對(duì)于包含ACME Services Canada Limited的組具有0. 5個(gè)分配。按照關(guān)鍵字的分區(qū)操作可以將包含ACME Services Australia Limited的組分配到一個(gè)分區(qū),并將 ACME Services Canada Limited 分配到另一分區(qū)。與 ACME Services Limited 記錄相關(guān)聯(lián)的后者分區(qū)中的總分配是0.5,反映其與ACME Services Canada Limited聚類的關(guān)聯(lián),相對(duì)于其在其他分區(qū)中的0. 5的替換。常見(jiàn)數(shù)據(jù)操作的并行版本可以由其在單個(gè)分區(qū)內(nèi)的行為定義,并且不在分區(qū)之間進(jìn)行溝通。當(dāng)針對(duì)一個(gè)記錄的分區(qū)內(nèi)的總分配小于一時(shí),將按這里定義的意義解釋。(3)上卷和部分成員資格上卷操作將來(lái)自各個(gè)記錄層次的數(shù)據(jù)匯集或者匯總到組層次。在精確關(guān)鍵字情況下,關(guān)鍵字組定義為共享公共關(guān)鍵字(值)的記錄的集合。在聚類的情況下,組定義為其成員由比較測(cè)試確定的記錄的集合,具有一個(gè)或多個(gè)記錄可能是一個(gè)或多個(gè)組的成員的可能性。聚類組中的相加(additive)(以及相乘,例如通過(guò)對(duì)數(shù)相加)數(shù)值匯集 (numerical aggregation)(有時(shí)候稱為“計(jì)算相加度量”)作為使用對(duì)于權(quán)重的分配度量的加權(quán)匯集來(lái)完成。通過(guò)計(jì)算替換的(未加權(quán))匯集來(lái)計(jì)算邊界值,其中所有具有對(duì)所述集合的部分分配的記錄或者被包括在該集合中,或者被從該集合排除。下列記錄的列表是基于公司名的聚類組
聚類關(guān)鍵字分配度量公司名稱
cl cl
1.0ACME Services Australia Limited
1.0ACME Services (AUS) Limited
計(jì)數(shù) 80 60 100
cl0.5ACME Services Limited確定聚類中的總計(jì)數(shù)的上卷是加權(quán)和80*1. 0+60*1. 0+100' 0. 5 = 190邊界值為(排他)80*1. 0+60*1. 0+100,0.0 = 140,(包含)80*1. 0+60*1. 0+100' 1. 0 = 240聚類組中的總計(jì)數(shù)的結(jié)果可以被表達(dá)為190(140二40)。通過(guò)考慮具有部分分配的記錄或者被包括或者被從集合排除的極端情況完成非相加匯總。分配度量可以經(jīng)常用于將置信度(confidence)分配給通過(guò)包括部分成員獲取的結(jié)果。例如,記錄可以在聚類組內(nèi)關(guān)于某個(gè)次級(jí)關(guān)鍵字排序,并且上卷可以確定哪個(gè)記錄是排序順序中的第一個(gè)。下列列表關(guān)于計(jì)數(shù)按降序?qū)ο惹暗挠涗浟斜砼判?br>
權(quán)利要求
1.一種用于對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素進(jìn)行聚類的方法,所述方法包括從數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 讀取數(shù)據(jù)元素(120);形成數(shù)據(jù)元素的聚類(122),每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員;將至少一個(gè)數(shù)據(jù)元素與兩個(gè)或多個(gè)聚類相關(guān)聯(lián),所述數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由不明確性度量表示;以及將表示所形成的聚類的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 中。
2.如權(quán)利要求1所述的方法,其中,表示所述數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格的不明確性度量的每一個(gè)值均在零和一之間。
3.如權(quán)利要求2所述的方法,其中,表示所述成員資格的不明確性度量的值與數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的可能性相關(guān)。
4.如權(quán)利要求2所述的方法,其中,表示所述數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格的不明確性度量的每一個(gè)值的和是一。
5.如權(quán)利要求4所述的方法,還包括使用不明確性度量的值來(lái)保持會(huì)計(jì)誠(chéng)信。
6.如權(quán)利要求5所述的方法,其中,通過(guò)利用不明確性度量的值對(duì)數(shù)量進(jìn)行加權(quán)來(lái)實(shí)現(xiàn)對(duì)于給定數(shù)量保持會(huì)計(jì)誠(chéng)信。
7.如權(quán)利要求6所述的方法,還包括執(zhí)行使用表示成員資格的不明確性度量的值的數(shù)據(jù)操作。
8.如權(quán)利要求7所述的方法,其中,所述數(shù)據(jù)操作包括在所述一個(gè)或多個(gè)聚類的第一聚類內(nèi)計(jì)算數(shù)量的加權(quán)子和的上卷,所述數(shù)量與數(shù)據(jù)元素相關(guān)聯(lián),并且通過(guò)在第一聚類內(nèi)對(duì)所述數(shù)量的值和各自的不明確性度量的值的乘積求和來(lái)計(jì)算所述子和,所述數(shù)量的值與第一聚類中的每一數(shù)據(jù)元素相關(guān)聯(lián),所述不明確性度量的值表示第一聚類中的數(shù)據(jù)元素的成員資格。
9.如權(quán)利要求8所述的方法,還包括計(jì)算所述數(shù)量的排他子和和所述數(shù)量的包含子和,通過(guò)在第一聚類中排除與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的數(shù)據(jù)元素來(lái)計(jì)算排他子和,并且通過(guò)在第一聚類中包括與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的數(shù)據(jù)元素來(lái)計(jì)算包含子和。
10.如權(quán)利要求2所述的方法,其中,基于函數(shù)來(lái)建立表示成員資格的不明確性度量的值,所述函數(shù)表示所述數(shù)據(jù)元素和所述兩個(gè)或多個(gè)聚類之間的關(guān)系。
11.如權(quán)利要求10所述的方法,其中,由所述函數(shù)表示的所述關(guān)系與數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的可能性相關(guān)。
12.如權(quán)利要求10所述的方法,其中,由所述函數(shù)表示的所述關(guān)系基于所述數(shù)據(jù)元素和表示所述兩個(gè)或多個(gè)聚類的各自一個(gè)的元素之間的量化的相似性。
13.如權(quán)利要求12所述的方法,其中,表示所述兩個(gè)或多個(gè)聚類的各自一個(gè)的元素是各自聚類的關(guān)鍵字。
14.如權(quán)利要求1所述的方法,其中,屬于所述兩個(gè)或多個(gè)聚類的每一聚類的數(shù)據(jù)元素的不明確性度量的值對(duì)于每一聚類相等。
15.如權(quán)利要求1所述的方法,其中,屬于所述兩個(gè)或多個(gè)聚類的每一聚類的數(shù)據(jù)元素的不明確性度量的值基于觀察到的數(shù)據(jù)元素在基準(zhǔn)集合中的頻率。
16.如權(quán)利要求1所述的方法,其中,所述兩個(gè)或多個(gè)聚類的每一聚類均表示數(shù)據(jù)元素中不同的潛在誤差,并且數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的每一聚類的不明確性度量的值基于由每一聚類表示的數(shù)據(jù)元素中潛在誤差的可能性。
17.如權(quán)利要求1所述的方法,其中,形成數(shù)據(jù)聚類包括形成數(shù)據(jù)元素的多個(gè)超聚類, 并且對(duì)于每一超聚類在該超聚類內(nèi)形成數(shù)據(jù)元素的聚類。
18.如權(quán)利要求17所述的方法,形成每一超聚類包括基于不同數(shù)據(jù)元素中的對(duì)象之間的變體關(guān)系來(lái)確定不同數(shù)據(jù)元素中對(duì)象之間的匹配。
19.如權(quán)利要求18所述的方法,其中,第一對(duì)象和第二對(duì)象之間的變體關(guān)系對(duì)應(yīng)于表示第一對(duì)象和第二對(duì)象之間的距離的函數(shù)的值低于預(yù)先確定的閾值。
20.如權(quán)利要求19所述的方法,其中,所述變體關(guān)系不是等價(jià)關(guān)系。
21.如權(quán)利要求17所述的方法,其中,至少一個(gè)數(shù)據(jù)元素在多于一個(gè)超聚類中。
22.一種用于對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素進(jìn)行聚類的系統(tǒng),所述系統(tǒng)包括用于從數(shù)據(jù)存儲(chǔ)系統(tǒng)(12)讀取數(shù)據(jù)元素(120)的裝置;用于形成數(shù)據(jù)元素的聚類(12 的裝置,每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員;用于將至少一個(gè)數(shù)據(jù)元素與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的裝置,所述數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由不明確性度量表示;以及用于將表示所形成的聚類的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)(12)中的裝置。
23.一種存儲(chǔ)用于對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素進(jìn)行聚類的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)程序包括指令,用于使計(jì)算機(jī)執(zhí)行以下操作從數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 讀取數(shù)據(jù)元素(120);形成數(shù)據(jù)元素的聚類(122),每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員;將至少一個(gè)數(shù)據(jù)元素與兩個(gè)或多個(gè)聚類相關(guān)聯(lián),所述數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由不明確性度量表示;以及將表示所形成的聚類的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 中。
24.一種用于執(zhí)行從數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 接收關(guān)鍵字并返回一個(gè)或多個(gè)數(shù)據(jù)元素的數(shù)據(jù)操作(180)的方法,所述方法包括基于關(guān)鍵字和數(shù)據(jù)元素的一個(gè)或多個(gè)搜索字段的值之間的候選匹配,確定多個(gè)候選數(shù)據(jù)元素;以及基于與搜索字段不同的候選數(shù)據(jù)元素的一個(gè)或多個(gè)比較字段的值對(duì)候選匹配進(jìn)行確證。
25.如權(quán)利要求M所述的方法,其中,所述數(shù)據(jù)操作包括形成數(shù)據(jù)元素的聚類,每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員。
26.如權(quán)利要求25所述的方法,其中,至少一個(gè)數(shù)據(jù)元素與兩個(gè)或多個(gè)聚類相關(guān)聯(lián),所述數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由不明確性度量表示。
27.如權(quán)利要求沈所述的方法,其中,所述數(shù)據(jù)操作包括在所述一個(gè)或多個(gè)聚類的第一聚類內(nèi)計(jì)算數(shù)量的加權(quán)子和的上卷,所述數(shù)量與數(shù)據(jù)元素相關(guān)聯(lián),并且通過(guò)在第一聚類內(nèi)對(duì)所述數(shù)量的值和各自的不明確性度量的值的乘積求和來(lái)計(jì)算所述子和,所述數(shù)量的值與第一聚類中的每一數(shù)據(jù)元素相關(guān)聯(lián),所述不明確性度量的值表示第一聚類中的數(shù)據(jù)元素的成員資格。
28.如權(quán)利要求27所述的方法,還包括計(jì)算所述數(shù)量的排他子和和所述數(shù)量的包含子和,通過(guò)在第一聚類中排除與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的數(shù)據(jù)元素來(lái)計(jì)算排他子和,并且通過(guò)在第一聚類中包括與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)的數(shù)據(jù)元素來(lái)計(jì)算包含子和。
29.如權(quán)利要求沈所述的方法,其中,表示所述數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的相應(yīng)一個(gè)的成員資格的不明確性度量的每一個(gè)值均在零和一之間。
30.如權(quán)利要求四所述的方法,其中,表示所述成員資格的不明確性度量的值和數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的相應(yīng)一個(gè)的可能性相關(guān)。
31.如權(quán)利要求四所述的方法,其中,基于函數(shù)來(lái)建立表示成員資格的不明確性度量的值,所述函數(shù)表示所述數(shù)據(jù)元素和所述兩個(gè)或多個(gè)聚類之間的關(guān)系。
32.如權(quán)利要求31所述的方法,其中,由所述函數(shù)表示的所述關(guān)系和數(shù)據(jù)元素屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的可能性相關(guān)。
33.如權(quán)利要求25所述的方法,還包括基于給定數(shù)據(jù)元素的一個(gè)或多個(gè)比較字段的值確定給定聚類中所述給定數(shù)據(jù)元素的成員資格。
34.一種用于執(zhí)行從數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 接收關(guān)鍵字并返回一個(gè)或多個(gè)數(shù)據(jù)元素的數(shù)據(jù)操作(180)的系統(tǒng),所述系統(tǒng)包括用于基于關(guān)鍵字和數(shù)據(jù)元素的一個(gè)或多個(gè)搜索字段的值之間的候選匹配,確定多個(gè)候選數(shù)據(jù)元素(120)的裝置;以及用于基于與搜索字段不同的候選數(shù)據(jù)元素的一個(gè)或多個(gè)比較字段的值,對(duì)候選匹配進(jìn)行確證的裝置。
35.一種存儲(chǔ)用于執(zhí)行從數(shù)據(jù)存儲(chǔ)系統(tǒng)(12)接收關(guān)鍵字并返回一個(gè)或多個(gè)數(shù)據(jù)元素的數(shù)據(jù)操作(160)的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)程序包括指令,用于使計(jì)算機(jī)執(zhí)行以下操作基于關(guān)鍵字和數(shù)據(jù)元素的一個(gè)或多個(gè)搜索字段的值之間的候選匹配,確定多個(gè)候選數(shù)據(jù)元素;以及基于與搜索字段不同的候選數(shù)據(jù)元素的一個(gè)或多個(gè)比較字段的值對(duì)候選匹配進(jìn)行確證。
36.一種用于對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量進(jìn)行度量的方法,所述方法包括從數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 讀取數(shù)據(jù)元素;對(duì)于數(shù)據(jù)元素的一個(gè)或多個(gè)字段中的一個(gè)或多個(gè)條目中的每一個(gè),計(jì)算所述條目的不明確性度量的值;以及基于不明確性度量的值來(lái)輸出數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示。
37.如權(quán)利要求36所述的方法,其中,計(jì)算所述不明確性度量的值包括將數(shù)據(jù)元素的一個(gè)或多個(gè)字段中的條目與基準(zhǔn)值進(jìn)行比較;對(duì)于不與基準(zhǔn)值精確匹配的至少第一條目,標(biāo)識(shí)一個(gè)或多個(gè)變體;以及基于針對(duì)所述第一條目的變體,計(jì)算所述第一條目的不明確性度量的值。
38.如權(quán)利要求37所述的方法,其中,所述第一條目的不明確性度量的值基于針對(duì)所述第一條目的變體的數(shù)量。
39.如權(quán)利要求38所述的方法,其中,所述數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示包括具有指定的變體數(shù)量的條目的數(shù)量的直方圖。
40.如權(quán)利要求39所述的方法,其中,所述指定的變體數(shù)量被指定為在一個(gè)范圍內(nèi)。
41.如權(quán)利要求38所述的方法,其中,所述數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示包括具有大于預(yù)定的閾值的變體數(shù)量的條目的列表。
42.如權(quán)利要求36所述的方法,其中,計(jì)算不明確性度量的值包括確定一個(gè)或多個(gè)字段中不同條目的各自頻率;以及基于第一條目相較于其他條目的頻率相對(duì)頻率,計(jì)算第一條目的不明確性度量的值。
43.一種用于對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)(12)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量進(jìn)行度量的系統(tǒng),所述系統(tǒng)包括用于從數(shù)據(jù)存儲(chǔ)系統(tǒng)(12)讀取數(shù)據(jù)元素的裝置;用于對(duì)于數(shù)據(jù)元素的一個(gè)或多個(gè)字段中的一個(gè)或多個(gè)條目中的每一個(gè),計(jì)算所述條目的不明確性度量的值的裝置;以及用于基于不明確性度量的值來(lái)輸出數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示的裝置。
44.一種存儲(chǔ)用于對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量進(jìn)行度量的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)程序包括指令,用于使計(jì)算機(jī)執(zhí)行以下操作從數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 讀取數(shù)據(jù)元素;對(duì)于數(shù)據(jù)元素的一個(gè)或多個(gè)字段中的一個(gè)或多個(gè)條目中的每一個(gè),計(jì)算所述條目的不明確性度量的值;以及基于不明確性度量的值來(lái)輸出數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量的表示。
45.一種用于對(duì)來(lái)自存儲(chǔ)在至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(12)中的兩個(gè)或多個(gè)數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接的方法,所述方法包括基于來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的變體關(guān)系,確定來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的匹配;評(píng)價(jià)具有被確定為匹配的各自對(duì)象的各自數(shù)據(jù)元素;以及基于數(shù)據(jù)元素的評(píng)價(jià),對(duì)來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素與來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接。
46.如權(quán)利要求45所述的方法,其中,第一對(duì)象和第二對(duì)象之間的變體關(guān)系對(duì)應(yīng)于表示第一對(duì)象和第二對(duì)象的之間的距離的函數(shù)的值低于預(yù)先確定的閾值。
47.如權(quán)利要求46所述的方法,其中,所述變體關(guān)系不是等價(jià)關(guān)系。
48.如權(quán)利要求46所述的方法,其中,確定來(lái)自第一數(shù)據(jù)集合的第一數(shù)據(jù)元素中的對(duì)象和第二數(shù)據(jù)集合中的第二數(shù)據(jù)元素中的對(duì)象之間的匹配包括確定在第一數(shù)據(jù)元素中的對(duì)象和第二數(shù)據(jù)元素中的對(duì)象之間所述變體關(guān)系有效(hold)。
49.如權(quán)利要求46所述的方法,其中,確定來(lái)自第一數(shù)據(jù)集合的第一數(shù)據(jù)元素中的對(duì)象和第二數(shù)據(jù)集合中的第二數(shù)據(jù)元素中的對(duì)象之間的匹配包括確定在第一數(shù)據(jù)元素中的對(duì)象和第一數(shù)據(jù)集合中的第三數(shù)據(jù)元素中的對(duì)象之間所述變體關(guān)系有效,并且在第三數(shù)據(jù)元素中的對(duì)象和第二數(shù)據(jù)元素中的對(duì)象之間所述變體關(guān)系有效。
50.如權(quán)利要求45所述的方法,其中,評(píng)價(jià)具有被確定為匹配的各自對(duì)象的各自數(shù)據(jù)元素包括在各自數(shù)據(jù)元素中除了被確定為匹配的各自對(duì)象之外的對(duì)象的比較。
51.一種用于對(duì)來(lái)自存儲(chǔ)在至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(12)中的兩個(gè)或多個(gè)數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接的系統(tǒng),所述系統(tǒng)包括用于基于來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的變體關(guān)系,確定來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的匹配的裝置;用于評(píng)價(jià)具有被確定為匹配的各自對(duì)象的各自數(shù)據(jù)元素的裝置;以及用于基于數(shù)據(jù)元素的評(píng)價(jià),對(duì)來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素與來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接的裝置。
52. 一種存儲(chǔ)用于對(duì)來(lái)自存儲(chǔ)在至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(1 中的兩個(gè)或多個(gè)數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)程序包括指令,用于使計(jì)算機(jī)執(zhí)行以下操作基于來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的變體關(guān)系,確定來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象和來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素中的對(duì)象之間的匹配;評(píng)價(jià)具有被確定為匹配的各自對(duì)象的各自數(shù)據(jù)元素;以及基于數(shù)據(jù)元素的評(píng)價(jià),對(duì)來(lái)自第一數(shù)據(jù)集合的數(shù)據(jù)元素與來(lái)自第二數(shù)據(jù)集合的數(shù)據(jù)元素進(jìn)行聯(lián)接。
全文摘要
一種用于對(duì)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)元素進(jìn)行聚類的方法包括從數(shù)據(jù)存儲(chǔ)系統(tǒng)讀取數(shù)據(jù)元素。形成數(shù)據(jù)元素的聚類,其中,每一個(gè)數(shù)據(jù)元素是至少一個(gè)聚類的成員。將至少一個(gè)數(shù)據(jù)元素與兩個(gè)或多個(gè)聚類相關(guān)聯(lián)。該數(shù)據(jù)元素的屬于所述兩個(gè)或多個(gè)聚類的各自一個(gè)的成員資格由不明確性度量表示。將表示所形成的聚類的信息存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)中。
文檔編號(hào)G06N7/02GK102197406SQ200980142344
公開(kāi)日2011年9月21日 申請(qǐng)日期2009年10月23日 優(yōu)先權(quán)日2008年10月23日
發(fā)明者阿倫.安德森 申請(qǐng)人:起元技術(shù)有限責(zé)任公司