檢驗數(shù)據(jù)庫中與人相關(guān)的數(shù)據(jù)的方法
【專利說明】檢驗數(shù)據(jù)庫中與人相關(guān)的數(shù)據(jù)的方法
[0001]本發(fā)明涉及出于標識出存儲在數(shù)據(jù)庫中的數(shù)據(jù)中的輸入錯誤和/或欺詐嘗試的目的而檢驗存儲與人相關(guān)的數(shù)據(jù)的數(shù)據(jù)庫中的內(nèi)容(諸如,名稱、年齡、出生日期、性別、肖像、指紋和/或其他生物統(tǒng)計數(shù)據(jù))。
[0002]發(fā)明概述
[0003]為此,本發(fā)明提供一種自動檢驗數(shù)據(jù)庫中與一組人有關(guān)且包括針對每一個人的諸如年齡、名稱、性別等多個數(shù)據(jù)項的某些項的方法,該方法包括:
[0004].為每一個人確定將該人的某些數(shù)據(jù)項彼此相關(guān)聯(lián)的多個相關(guān)性;
[0005].對于被檢驗的每一數(shù)據(jù)項,至少取決于該被檢驗的數(shù)據(jù)項與同一人的第一其他數(shù)據(jù)項的第一相關(guān)性以及該被檢驗的數(shù)據(jù)項與同一人的第二其他數(shù)據(jù)項的第二相關(guān)性來計算置信分數(shù);以及
[0006].將該分數(shù)與閾值進行比較,以便確定該被檢驗的數(shù)據(jù)項是有效還是無效的步驟。
[0007]本發(fā)明還提供如上定義的方法,其中所存儲的針對每一人的數(shù)據(jù)首先包括性別和出生日期,且其次包括肖像和指紋,并且其中該方法為每一人建立性別和年齡與肖像以及與指紋之間的相關(guān)性。
[0008]本發(fā)明還提供如上定義的方法,其中所存儲的針對每一人的數(shù)據(jù)包括名稱,并且其中該方法為每一人建立與從國家數(shù)據(jù)獲得并表示對于那個人的出生年份而言那個人的名稱的頻率的統(tǒng)計數(shù)據(jù)相對應(yīng)的相關(guān)性。
[0009]本發(fā)明還提供如上定義的方法,允許獲得與從國家數(shù)據(jù)導(dǎo)出的、表示在考慮那個人的出生年份和性別的情況下那個人的名稱的頻率的統(tǒng)計數(shù)據(jù)相對應(yīng)的相關(guān)性值。
[0010]附圖簡述
[0011]圖1是具有用三角形表不男人及用圓形表不女人的人口的點云的圖表,其中每一個體的以年為單位的年齡沿著橫坐標軸繪制,并且以毫米為單位的指紋脊寬在縱坐標軸上繪制;
[0012]圖2是示出分別構(gòu)成針對男性的置信區(qū)和懷疑區(qū)的中間區(qū)域和底部區(qū)域的圖1的圖表;
[0013]圖3是示出分別構(gòu)成針對女性懷疑區(qū)和置信區(qū)的頂部區(qū)域和中間區(qū)域的圖1的圖表;
[0014]圖4是示出構(gòu)成年齡置信區(qū)的中間區(qū)域以及構(gòu)成年齡懷疑區(qū)的頂部區(qū)域和底部區(qū)域的圖1的圖表;以及
[0015]圖5是示出每年美國出生的男孩名稱為Jacob (雅各布)的頻率的圖表,其中出生年份沿著橫坐標軸繪制,且每千人的頻率在縱坐標軸上繪制。
[0016]發(fā)明的詳細描述
[0017]本發(fā)明所基于的概念是:為每一人確定多個相關(guān)性,每一相關(guān)性與關(guān)于該人的某些數(shù)據(jù)項相關(guān)聯(lián);以及組合這些相關(guān)性,以便單獨地并直接地標識出看起來不一致的每一數(shù)據(jù)項,而非只標識出其數(shù)據(jù)看上去不一致的每一人。
[0018]這通過為被檢驗的每一數(shù)據(jù)項(名稱、出生日期或性別)估計其與關(guān)于同一人的至少兩個其他不同數(shù)據(jù)項的一致性來實現(xiàn)。因此,數(shù)據(jù)項的置信分數(shù)通過以下方式來確定:執(zhí)行將該數(shù)據(jù)項的相關(guān)性值與第一其他數(shù)據(jù)項組合以及將該數(shù)據(jù)項的相關(guān)性值與第二其他數(shù)據(jù)項組合的計算。
[0019]隨后,將被檢驗的每一數(shù)據(jù)項的分數(shù)與閾值進行比較,以便確定所檢驗的項應(yīng)該被認為是有效的還是可疑的,以在項目是可疑的情況下生成警報消息。
[0020]在下面的示例中,本發(fā)明用于檢驗數(shù)據(jù)庫中存儲的一組人或個體的性別、年齡和名稱以及附加數(shù)據(jù),該附加數(shù)據(jù)尤其包括每一個人的指紋和肖像。
[0021]具體地,在個體的指紋的各脊的寬度和那個個體的性別之間存在相關(guān)性,并且在正被討論的個體的那些脊的寬度和年齡之間存在另一相關(guān)性。這在Miroslav Kralik和Vladimir Novotny 的名為“Epidermal ridge breadth, an indicator of age and sex in
paleodermatoglyphics (表皮脊寬--古皮膚紋理學(xué)中年齡和性別的指示符)”的論文中詳細描述,該論文可在以下地址獲得:
[0022]http://www.staff, amu.edu.pl/ ?anthro/pdf/ve/vol011/01kralik.pdf
[0023]以類似的方式,存在將個體的肖像和該個體的性別相關(guān)聯(lián)的相關(guān)性以及將該個體的肖像和年齡相關(guān)聯(lián)的另一相關(guān)性。這具體在Andrew Gallagher和Tsuhan Chen的名為“Estimating age, gender, and identity using f irstname pr1rs (預(yù)先使用名稱來估計年齡、性別和身份)”的論文中詳細描述,該論文可從以下地址訪問:
[0024]http://chenlab.ece.Cornell.edu/people/Andy/projectpage_names.html
[0025]如圖1所示,人口中針對男人的指紋脊寬一般來說比針對女人的要大,并且在該人口中指紋脊寬也隨著個體年齡而增大。
[0026]因此,在該圖表中定義與針對男性的置信區(qū)相對應(yīng)的中間區(qū)域以及與針對男性的懷疑區(qū)相對應(yīng)的底部區(qū)域是可能的。
[0027]如圖2所示,男性置信區(qū)對應(yīng)于覆蓋(由三角形表示的)大多數(shù)男人的條帶,且男性懷疑區(qū)是位于男性置信區(qū)下面的區(qū)域并實際上不包括男性個體。
[0028]在圖2中男性置信區(qū)由圓環(huán)中的男性符號標識,并且該男性置信區(qū)可通過以下方式來指定:首先定義男性的值的平均曲線(對應(yīng)于圖1中的較高曲線),并在該平均曲線的任一側(cè)上定義兩條包絡(luò)線,用以包含例如95%的男性人口。
[0029]以類似的方式,如在圖2中由被打叉的男性符號標識的男性懷疑區(qū)可通過以下方式來確定:定義位于針對男性的平均曲線下面但僅在男性個體的2%上面的上限曲線。男性懷疑區(qū)隨后由位于以這種方式定義的曲線下面的任何區(qū)域構(gòu)成。
[0030]因此確定數(shù)據(jù)庫中被記錄為男人的人的性別和那個人的指紋之間的相關(guān)性(寫為Cge)是可能的:一種可能性包括確定由那個人的年齡并由那個人的指紋的脊寬來定義的點位于男性置信區(qū)中還是正相反位于懷疑區(qū)中。
[0031]如果該點位于男性置信區(qū)內(nèi),則可將值I賦予Cge,并且如果該點位于懷疑區(qū)中則可將值O賦予該相關(guān)性。如果該點位于置信區(qū)之外并位于懷疑區(qū)之外,則可賦予中間值(例如 0.5) ο
[0032]另一解決方案可包括計算由年齡和指紋脊寬定義的點與針對男性的平均曲線(圖1中的較高曲線)之間的距離,并賦予Cge位于O到I的范圍內(nèi)的值,該值隨著該距離的值的減小而增大。
[0033]以類似的方式來定義女性置信區(qū)和懷疑區(qū)是可能的。
[0034]如圖3中圖解地示出的,女性置信區(qū)(其由圓環(huán)中的女性符號標識)是位于該圖的中間位置處的條帶,并且包圍針對女人的平均曲線(即圖1中的較低曲線),以覆蓋較大比例(諸如95% )的女性個體。
[0035]由被打叉的女性符號標識的女性懷疑區(qū)是位于該置信區(qū)之上的頂部區(qū)域,以便覆蓋非常小比例(諸如,例如2% )的女性個體。
[0036]至于男性,有可能針對宣稱是女性并落在女性置信區(qū)內(nèi)的所有個體,賦予Cge值I,并且針對被記錄為女人但位于女性懷疑區(qū)中的各個個體,賦予Cge值O。如果點位于置信區(qū)之外并在懷疑區(qū)之外,則中間值(例如,0.5)被賦予Cge。
[0037]再一次,另一可能性可包括:為被記錄為女人的給定個體確定與那個女人的年齡和指紋脊寬相對應(yīng)的點和針對女人的平均曲線(其是圖1中低的曲線)之間的距離。賦予Cge的處于范圍O到I的值隨后隨著該正被討論的距離的值的減小而增大。
[0038]如上所提及的,在所考慮的各個個體的指紋脊寬和年齡之間也存在相關(guān)性(寫為Cae) ο該相關(guān)性使得有可能在圖1的圖表上定義關(guān)于年齡的置信區(qū)以及兩個懷疑區(qū)。
[0039]在圖4中由圓環(huán)中的字母A標識的年齡置信區(qū)是覆蓋所考慮的人口中的大多數(shù)個體(男人和女人)的中間條帶。該中間條帶可通過以下方式來定義:最初計算針對所有個體的平均曲線,該平均曲線對應(yīng)于圖1中的較高曲線和較低曲線間的平均;并隨后確定位于該平均曲線之上和之下的兩條包絡(luò)線,以便覆蓋例如95%的個體。
[0040]由圖4中