專利名稱:用dna推算姓氏家族分支和追溯家譜的方法
技術領域:
本發(fā)明屬于生物技術領域,涉及分子生物學技術,遺傳學和生物信息學。本發(fā)明應 用了 DNA (脫氧核糖核酸)檢測技術和遺傳學的分析方法來追溯姓氏家族的分支和發(fā)展。本 發(fā)明也應用了計算機科學的技術,特別是改進了層次聚類算法來建立家族樹狀示意圖。
背景技術:
家譜和姓氏在中華文化里有重要地位。海內外有很多華人崇尚家譜和尋根尋祖。 追溯家譜可以幫助人們了解自己的祖先和血脈相連的族人,促進人與人的交流和民族的凝 聚力,在歷史學、社會學、民族學、人類學、人口學、優(yōu)生學等方面都很有意義。近年來在國 外,追溯家譜及其相關的社交網絡已成為一項很熱門的服務行業(yè),因此具有很大的商業(yè)價值。姓氏在中國已有超過兩千年的歷史。早在周朝姓氏就開始出現(xiàn)。最初一個姓氏居 住在一個地方,后來逐漸遷移到各地并與當?shù)厝送ɑ椋托纬闪瞬煌姆种?。另外,一個姓 氏也可能因為種種原因引入別的血統(tǒng),比如領養(yǎng)和改姓等等。在歷史上多次民族融合過程 中,又有新的姓氏出現(xiàn),并且很多少數(shù)民族采用漢姓。因此,中國姓氏家族的起源和發(fā)展較 為復雜,追溯家族分支和遷移史非常有助于了解中華民族融合發(fā)展的歷史。家譜和別的歷史資料對于研究這些歷史很有價值。海內外的很多華人家庭都有自 己的家譜,這在南方農村尤其普遍。家譜中記載了一個家族的世系繁衍,人口變遷和居地遷 徙的歷史。很多地方方志也對這些有所記載。然而,并不是每個家族都有自己的家譜的,有 很多家族的歷史,由于沒有記載或文獻失傳,可能已掩埋在千年歲月中。另一方面,家譜對 于近代的家族史的記載比較準確,但對于久遠的年代,家譜記載的可靠性會下降,有時會存 在爭議。因此,使用文字記載的家譜或文獻來了解家族發(fā)展和分支的歷史和尋祖常常會碰 到問題。現(xiàn)在,隨著分子生物學和遺傳學技術的發(fā)展,我們將可能應用生物科技來幫我們 準確地發(fā)現(xiàn)人們的家譜。每個人的DNA(脫氧核糖核酸)都是由祖先傳下來的,同時在繼承 的過程中有一些DNA位點發(fā)生了變異。這就導致了由同一個祖先繁衍而來的后代既有共同 的DNA“遺傳指紋”,又在不同個體或分支之間存在略微的不同。因此,通過比較人的DNA上 的信息可以還原出人們真實的家譜。通過收集比較人的Y染色體,常染色體或線粒體DNA 上一些重要遺傳標記的基因型,人們可以推論出不同類型的家系。Y染色體只存在于男性并 只由父親傳給兒子,而且它是非重組的,所以Y染色體的DNA分析可用于分析與姓氏相關的 家系(常見的家譜)。線粒體DNA是母系遺傳的,它只能由母親傳給下一代,因此它可以用 于母系的家系分析與推導。常染色體是可重組的,它們含有最豐富的遺傳信息,使用常染色 體的遺傳分析能增加基因指紋的特異性,并有利于推斷復雜的家系。家系分析應用的技術手段已在遺傳學、法醫(yī)、古人類學和其他生命科學領域中得 到廣泛應用。在進化遺傳學的研究中,科學家通過比較不同物種的DNA的共同點和差異 可以推導出分子進化樹。法醫(yī)鑒定和親子鑒定中已廣泛采用DNA “遺傳指紋”作為關鍵證據。古人類學家已通過檢測DNA和遺傳學分析揭開了史前人類遷徙和民族融合的許多秘密 (1)。國外有一項專利(US7248970B2,見參考文獻6)提出了通過檢測和比較Y染色體DNA 來預測人的姓氏的方法。一般用于DNA分析的遺傳位點包括短串重復序列(STR)和單核苷 酸多態(tài)性(SNP)這兩種遺傳標記。一般來講,STR比SNP有更高的突變率,由于家譜相關的 研究的時間范圍通常是幾百年至兩千年,STR更適合這方面的研究和應用。近年來,對遺傳 位點進行基因分型的手段發(fā)展迅速。其中,通過熒光標記的引物組進行PCR然后用遺傳分 析儀作檢測的方法非常適合大量迅速地檢測STR位點(2)。另外,用基因芯片大規(guī)模檢測 SNP的技術也日漸成熟,其成本也日趨下降。這些技術使大規(guī)模地采集和分析家譜相關的 DNA數(shù)據成為可能。近年來,可供選擇的STR和SNP遺傳位點大量出現(xiàn),人們對于選擇哪些 遺傳位點能最有效地進行人的身份鑒定作了很多探討。比如說,Butler JM等人報道了一 組適合鑒定歐洲人的20個Y染色體STR位點(3),Kwak KD等人報道了一組11個適合東亞 人的Y染色體STR(2)。盡管這些研究主要是針對法醫(yī)實踐的,他們的結果也對于選擇合適 的遺傳位點來追溯家譜有很大的參考價值。專利內容本發(fā)明的目的在于提供一種用DNA技術結合計算機技術來追溯家譜和家族分支 發(fā)展歷史的方法,通過收集和檢測一個家族的族人的DNA和用專門的算法對DNA數(shù)據進行 分析,推算出表示這個家族的繁衍和分支的樹狀示意圖;數(shù)據分析可以采用層次聚類算法, 并可以采用一種改進的層次聚類算法以得到更接近現(xiàn)實的家族樹狀示意圖;另外,還可以 將文字記載的信息作為"預先知識"定量地與DNA數(shù)據結合來推導家族圖譜。本發(fā)明的目 的是通過以下的措施來達到的首先,從一個姓氏家族的族人獲取DNA樣品和對之進行檢測。樣品的收集可以采 用多種方式,包括抽血、刮取口腔上皮、收取唾液等。對屬于這個家族的不同村落都應收取 DNA樣品,每個村落都要有多個代表。若一個村落已繁衍了數(shù)百年,也應當對這村落的家族 主要分支收取DNA樣品。然后,從這些樣品中抽提和純化DNA,再檢測這些DNA上的遺傳標 記,包括STR和SNP等。為獲得主要與姓氏相關的家族圖譜,可以選擇Y染色體上的DNA遺 傳標記位點。如果是分析華人的姓氏家族,可以選取適合東亞人和中國人的Y染色體STR 位點?,F(xiàn)有的法醫(yī)學文獻(2,3)提供了一組在東亞人和中國人中多態(tài)性較高,對于身份鑒 定含有最豐富信息的一組Y染色體STR位點DYS19,兩個DYS385位點,DYS388,DYS389I/ II,DYS390,DYS391,DYS392,DYS393和DXYS156Y。使用這些關鍵的Y染色體STR來做華人 家族圖譜的分析,可以以較低的成本獲取較多的與家族繁衍分支相關的遺傳學信息。第二步是根據第一步檢測出的屬于一個家族的人的DNA數(shù)據,用專門的建樹算法 進行分析,得出代表家族分支和繁衍歷史的家族樹狀示意圖。本發(fā)明提出了用層次聚類算 法(hierarchical clustering)來做此分析。層次聚類是統(tǒng)計分析和模式識別的一種算 法,它通過分析與每個個體(結點)的相關屬性,將這些個體歸入內部相似的類;層次聚類 的結果是以樹狀圖表示的等級 式的分類。在本發(fā)明相關的應用中,個體(結點)是家族的 族人,其相關屬性是他們DNA數(shù)據。在層次聚類過程中必須計算個體之間的距離,然后以這 個距離為依據依次將最接近的個體或類合并成更大的類,直到最后只剩下一個類。在這步 的分析中,個體的距離是通過比較他們的DNA遺傳標記上的差異來計算的(即遺傳距離), 也就是在所有檢測的遺傳位點中具有不同的遺傳標記的位點總數(shù)。聚類過程中還要計算兩個類之間的距離,這個距離是屬于第一個類的個體與屬于第二個類的個體的所有距離的平 均值。本發(fā)明還對傳統(tǒng)的層次聚類算法作了改進以適于推算家族圖譜。傳統(tǒng)的層次聚類 方法每次將兩個最接近的個體或類并成更大的一類,因此樹中每個結點至多擁有兩個子結 點。這種結構與現(xiàn)實中的家族圖譜并不完全吻合,現(xiàn)實中家族圖譜中的父結點應該可以有 超過兩個的子結點,即一個祖先可傳下兩個以上的后代分支。在本發(fā)明提出的改進的層次 聚類算法中,每個結點可以擁有超過兩個子結點。聚類過程中,在每一輪將兩個最接近的個 體或類合并成一個新的類之后,這個新算法還將檢查剩下的個體和類,如果其中一個個體 或類與這個新形成的類的子結點的距離都足夠小,則將此個體或類加入到這個新形成的類 中。由這個改進了的新算法推算出的家族圖譜將能更直觀和準確地反映現(xiàn)實。本發(fā)明還提供一種方法來將DNA數(shù)據與文字記載中的信息結合起來做層次聚類 以推算家族圖譜。相關文字記載可以是家譜,地方方志或歷史典籍等。這些記載往往會提 供關于某村是從哪遷來的,與另外哪個村是同一個祖宗等等的有用信息。同時,在用DNA數(shù) 據建立家族圖譜時,會碰到幾個分支的距離相同而無法確定與哪個分支合并成更大的分支 的情況。在這情況下,層次聚類算法只能任意挑選其中一對分支來合并。這時如果用文字 記載中的信息來做輔助數(shù)據,就可能可以確定哪兩個分支之間更近,從而使最終得到的家 族圖譜更符合現(xiàn)實。不過,DNA數(shù)據具有完全的客觀性,所以在本發(fā)明中DNA數(shù)據被賦予更 高權威,文字數(shù)據作為輔助。本發(fā)明提出的這個方法的特征為,首先人工閱讀或用軟件比較 家譜等文字記載,找到關于家族各分支親緣遠近的信息,然后對有記載的分支之間給出表 征親緣遠近的“文獻距離”(比如1-100之間的值),使文字記載上顯示越接近的分支具有 越低的“文獻距離”分數(shù);在這步中可以使用文本相似性比較的軟件(如LUCENE)來比較數(shù) 字化的家譜及匹配各地的家譜,從而協(xié)助給出“文獻距離”分數(shù);文獻距離在乘以一個很小 的權重(小于文獻距離最大值的倒數(shù))之后,與基于DNA數(shù)據的遺傳距離相加得出一個復 合距離;這個復合距離將用于上面所述的層次聚類或改進的層次聚類來推算家族圖譜。上面方法推出的家族圖譜采用了樹狀結構表示家族繁衍,分支和相互間親緣關系 (見圖2)。這樹狀示意圖告訴人們一個姓氏家族有哪幾個主要分支,彼此間相距多遠。來 自一個地方的族人可以從這圖譜了解到另外哪個地方的族人與他們是最近的親人。這個結 果還可以用來幫助一個沒有詳細家譜的個人弄清是否來自此家族,以及最可能來自于該家 族的哪個分支。方法是,采用建立該家族圖譜過程中使用的同一組遺傳位點來檢測此受人 的DNA,再用此人的DNA數(shù)據來計算與該家族的各個分支的平均遺傳距離,遺傳距離最小的 那個分支就最可能是與這人同宗的分支。如果這個人與每個分支的距離都很大,那么這人 應該不屬于這個家族。用進化遺傳學上估算最近共同祖先(MRCA)的方法,還可以從以上的家族樹狀示 意圖估算圖中不同分支的祖先生活的年代。祖先生活的年代對于研究一個家族遷移發(fā)展的 歷史是很有幫助的。估算的祖先的年代還可以幫助人們了解兩個分支從血緣上講是否從一 個祖宗傳下來。如果兩分支的DNA相差很大,則估算的最近祖先可能是在很久以前,比如 3000年前,如果已知該姓氏起源于2000年前,那么最有可能的是,這兩個分支不是由2000 年前的一個祖宗傳下來,而是有多個不同起源。這里一個可能的原因是該家族在歷史上發(fā) 生過改姓或領養(yǎng)的事件。另外,在中國歷史上,有很多姓氏出自于小的諸候國,這些小國里可能所有人都有同一個姓氏。這也可能是導致一個姓氏有不同血緣上起源的原因。與單純用文字記載來研究家譜和尋祖的傳統(tǒng)方法相比,本發(fā)明用DNA數(shù)據來追 溯家族繁衍分支的歷史,其使用的數(shù)據資料(DNA)是完全客觀的,這不僅使沒有家譜記 載的人或家族追溯祖先和尋找族人成為可能,而且讓遺傳學上的證據與文字記載信息可 以相互印證,相互補充。同已有的用DNA遺傳信息研究姓氏家族的方法(比如美國專利 US7248970B2,見文獻6)比,主要有以下兩個好處。一、已有方法只是通過比較DNA樣本來 預測姓氏或了解族人之間血緣相近程度,本發(fā)明則從DNA樣本推算出表示家族繁衍分支的 樹狀示意圖,此樹狀圖的根表示共同祖先,中間結點則表示各分支的祖先,樹狀圖中的每一 枝表示一個分支,因此本發(fā)明的結果提供了更豐富的關于家族分支的信息。二、本發(fā)明把文 字記載中的相關信息作為“預先知識”引入到由DNA數(shù)據推算家族樹狀示意圖的過程中,從 而使推算出的家族圖譜捕捉了更全面的信息且更符合歷史,這是已有的方法中沒有的。本 發(fā)明提出的改進的層次聚類算法與傳統(tǒng)的層次聚類算法比的好處是,改進的算法得出的樹 狀圖中一個祖先可以有多個后代分支,而傳統(tǒng)的算法只允許兩個分支,因此由改進的算法 得出的結果更符合現(xiàn)實的情況。
圖Ia和圖Ib顯示了在實施例1(見具體實施方式
)中從Bradley家族獲得的DNA 數(shù)據。這組數(shù)據包含了 32個樣本(個人)和17個Y染色體STR遺傳位點。在圖Ia和圖 Ib中,每一行表示一個樣本,最左邊一欄是樣本代號,左邊第二欄是樣本來自的地區(qū);每一 列表示一個STR位點,最上邊一欄是STR位點的名稱;表中的數(shù)字表示了每個人在每個位點 上的基因型,其中‘X’表示未知。圖2是實施例1中用Bradley家族的DNA數(shù)據(圖Ia和圖lb)推算出的家族分 支樹狀示意圖。在圖2中,最底層(最左邊)表示該家族的現(xiàn)在的后代(32個樣本),上層 表示家族的祖先。圖2中最底層的數(shù)字是樣本代號,它與圖Ia和圖Ib數(shù)據中的樣本代號 是一致的,上層的數(shù)字是假定祖先的代號。圖3是實施例3 (見具體實施方式
)中用Bradley家族的DNA數(shù)據(圖Ia和圖 lb)并引入文字記載的“預先知識”推算出的家族分支樹狀示意圖(圖3)。在圖3中,最底 層(最左邊)表示該家族的現(xiàn)在的后代(32個樣本),上層表示家族的祖先。圖3中最底層 的數(shù)字是樣本代號,與圖Ia和圖Ib數(shù)據中的樣本代號是一致的,上層的數(shù)字是假定祖先的 代號。圖3與圖2大致相同,但在結點11,22,和23周圍的結構有所不同。
具體實施例方式以下結合實施例具體介紹如何實施本發(fā)明首先需要獲取一個同姓家族的族人的DNA樣品。樣品采集的方法有多種, 其中最 簡易可行的是口腔上皮法,該法只需受試人用棉簽在口腔壁涂抹數(shù)次即可。實施例1中的 樣品采集就用了這種方法。然后再對樣品進行DNA抽提和純化。這步可用的方法很多,并 且有很多商業(yè)試劑盒可用,比如BD Biosciences公司的Nuleospin試劑盒。 下一步進行DNA檢測,可以進行包括STR或SNP的多個遺傳位點的檢測。本發(fā)明提 出了使用一組在華人中多態(tài)性高的Y染色體STR位點來做華人家族圖譜的分析以得到高的性價比。當然在實施本發(fā)明時也可在這組STR位點之外加入更多的位點,或選擇別的遺傳 位點組合。如果選擇了一組STR位點,則需要針對這些位點在DNA上的位置設計PCR引物 和熒光標記,具體做法可以參照KwakKD等在國際法醫(yī)學報上的文章(2)。要注意的是,在設 計熒光標記引物時,PCR產物大小結合不同的熒光標記必須能確定所有STR位點的基因型, 即不能有兩種PCR產物是既大小相同又有相同的熒光標記。然后使用這PCR引物組對所有 DNA樣本進行PCR,再收集PCR產物用遺傳分析儀作基因分型(2)。檢測SNP可以用DNA測 序和PCR的方法,近來一些高通量快速檢測SNP的裝置和試劑盒也已出現(xiàn),比如說Beckman 公司的 GenomeLab SNPStream 系統(tǒng)。在以上的樣品采集和檢測之后,就得到了該家族參與測試人的DNA數(shù)據。這組數(shù) 據包括了每個人的各遺傳位點上的基因型,和由這些基因型組成的單體型(haplotypes)。 這樣的DNA數(shù)據的例子可以在在實施例1中找到(圖Ia和圖lb)。實施例1列出了一組通 過STR基因分型檢測得出的一個家族的人們的多個Y染色體STR的基因型數(shù)據。接下來就可以開始進行數(shù)據分析和層次聚類。在聚類算法中,類就是一組個體,類 可以是嵌套的,每一個類可能包含兩個以上的子類(子結點)。為了表示的方便,以下用Xj 表示一個用來進行聚類的個體j,用Cn表示一個類n,Gi(A)表示個體A在位點i上的基因 型,D(A,B)表示兩個個體或類A與B之間的遺傳距離。首先,通過比較每個人在各遺傳位點上的基因型來計算所有參與人之間(每一對 人)的遺傳距離,并得出一個距離矩陣。兩個個人(A和B)之間遺傳距離是這么計算的對于一個遺傳位點i,如果A與B的基因型(Gi)相同,SPGi(A) =Gi⑶,則距離 Di (A,B) = O ;否則 Di (A,B) = 1。A與B的遺傳距離=D (Α, B) = SUM(Di (A,B)),其中i包括所有的遺傳位點,SUM() 表示總和。在以下的聚類過程中也需要計算兩個類(兩組人或兩個分支)之間的距離。這個 距離的計算公式是D(C1, C2) =AVE(D(A,B))其中A是C1中的任何一個個體,B是C2中的 任何一個個體,AVEO表示平均值。接下來,用以上得出的距離矩陣做層次聚類。步驟如下1、一開始,把這組數(shù)據中的每個個體,即該家族的每個人當作一 “類”(結點)。2、根據距離矩陣找到距離最近的兩個類(Ca和Cb),并把它們合并成一個新的類 Cs,使Cs = {Ca,CJ,即讓這兩個類a和b成為這個新類s的子類。3、如果采用改進的層次聚類,則進行此步驟再次檢查這個新的“類” Cs之外的每 個類,若其中任何一個類Cn滿足以下條件Cn不屬于Cs且MAX (D (Cn,Cj))彡MAX (D (Ca,Cb)), 其中 .是Cs中的任何一個子結點(類),(;和Cb也是Cs中的任何一個子結點(類),ΜΑΧ() 表示最大值,則將Cn加入新形成的類Cs中成為Cs的子結點。4、用上面所述的方法計算第2或3步中形成的新類Cs與其他的類之間的距離。5、重復第2步至第4步,直到所有的個體都被歸入一個類。從上面可以看到,改進的層次聚類與傳統(tǒng)的層次聚類相比,增加了一個步驟,即上 面的第3步。在實施例1中,我們用同一家族的一組Y染色體STR數(shù)據進行以上描述的改進的 層次聚類,得到了一個家族樹狀示意圖(圖2)。
如果一個家族擁有相關的文字記載(家譜,地方方志,或歷史典籍等),并且這些 記載記錄了該家族繁衍遷移的有用信息,我們可以將這些“預先知識”用定量的方法引入到 以上的層次聚類中,以使家族圖譜的結果更加符合現(xiàn)實情況.以下是具體做法。首先利用文字記載中關于該家族各分支親緣遠近的信息,給出表征家族各分支間 親緣遠近的“文獻距離”(比如一個1-100之間的值),決定文獻距離值的原則是,文字記載 顯示越接近的分支之間應具有越低的“文獻距離”分數(shù)。下面用DW(A,B)表示村子A的族 人和村子B的族人之間的文獻距離。如果文字記載上無法找到A村與B村是什么樣的關系, 我們可以給出一個中等分數(shù),比如讓DW(A,B) = 50 ;如果文字記載記錄了 C村和D村在近 代才分開的,則可以打很低分,比如讓DW(C,D) = 10 ;如果文字記載表明Y村和Z村的血緣 是不同,則可打高分,如DW(Y,Z) =90。這文獻距離的具體數(shù)值對于后面的聚類分析并不重 要,但它們之間的大小關系是重要的。另外,也可以使用計算機軟件來協(xié)助給出“文獻距離” 分數(shù)。比如,可以使用文本相似性比較的軟件(如LUCENE)來分析已經數(shù)字化的家譜,匹配 各地的家譜,找出類似的家譜,或者找出在兩個不同的家譜中重復出現(xiàn)的關鍵詞或地名。分 析人員可以用軟件分析的初步結果作為關鍵信息來打出文獻距離分數(shù),從而節(jié)省了時間和 減少人為誤差。文獻距離將以一個很小的權重與遺傳距離相加得出一個復合距離。下面用DF(A, B)表示這個復合距離,W表示權重。由于DNA數(shù)據更具有的客觀性,我們讓文獻距離的權重 很小,要滿足以下條件MAX(DW(A,B)) Xff < 1,這樣就保證了文獻距離的影響總是比任何 遺傳距離小。復合距離的計算公式為DF(A,B) = Dff (A, B) Xff+D(A, B)。用這個復合距離 的距離矩陣可以進行以上描述的層次聚類,來推算出考慮了 DNA數(shù)據和文字記載兩種信息 的家族圖譜。在實施例2中,我們舉例說明了怎樣用真實的中國人的家譜來打“文獻距離”分 數(shù)。在實施例3中,我們舉例說明了怎樣加入“文獻距離”的數(shù)據來推算家族圖譜,結果見 圖3。以下再介紹怎樣應用這家族圖譜結果。在得到一個家族樹狀示意圖之后,我們可以從中了解到一個姓氏家族有哪幾個主 要分支和彼此間是什么樣的關系。從圖2和圖3中可以看到,我們得到的家族圖譜是非常 直觀的。在實施例1和3中,我們顯示了如何從這樣的家族圖譜得到有用信息。另外,這個 結果還可以用來幫助個人追溯家譜,弄清自己與此家族的及各分支的淵源?;谝陨系贸龅募易鍢錉钍疽鈭D,我們還可以用進化遺傳學上估算最近共同祖 先(MRCA)的方法估算各分支的祖先生活的年代。在家族樹狀示意圖上,一個亞樹結構表 示一個分支,而這個亞樹頂端的結點表示這分支的祖先。首先我們估計這個祖先的基因 型,常用方法包括采用后代中最常見的基因型作為祖先的基因型,及最大簡約法(Maximal Parsimony),并且有一些現(xiàn)成的程序(如PHYLIP和PAML)可做這種計算。然后,我們可以 計算出由一個共同祖先到該家族或分支的后代累積的遺傳突變總數(shù)(該亞樹內遺傳距離的總和),再用科學文獻中提供的遺傳位點突變率,估算這祖先的距今的年代(4)。通過估 算各分支祖先生活的年代,我們可以了解該姓氏家族是否有同一個的祖宗。如果估算的祖 先生活的年代比記載的該姓氏的起始年代還要早,則說明這個姓氏家族在血緣上有不同起 源。實施例1
以下用從一個愛爾蘭姓氏(Bradley)家族收集的DNA數(shù)據來具體闡述本發(fā)明的實施。我們使用本發(fā)明的方法推算出了表現(xiàn)該家族分支的樹狀示意圖。Bradley姓氏主要分布在愛爾蘭的Ulster、Munster、Leinster等地區(qū)。DNA樣品 是從這些地區(qū)的Bradley家族的男性收集的。樣品采集采用了前面所述的口腔上皮法。DNA 在抽提和純化之后,使用了如前所述的熒光標記引物的PCR方法來進行檢測。在檢測該家 族的人的DNA時,采用了一組較適合歐洲人的Y染色體STR遺傳位點(見圖Ia和圖lb)。檢 測之后得到了該家族的一組包含32個樣本(個人),17個Y染色體STR遺傳位點的DNA數(shù) 據(圖Ia和圖lb)。這組數(shù)據可以從以下網址獲得:http://www. gen. tcd. ie/molpopgen/ resources, php我們用本發(fā)明的提供的分析方法對Bradley家族的DNA數(shù)據進行了分析。我們采 用本發(fā)明提出的改進的層次聚類方法推算出了 Bradley家族的樹狀家族示意圖(圖2)。從這個家族圖譜我們可以了解到Bradley家族是怎么分支的。該家族有一個大的 分支(從結點54往下的亞樹)及兩個較小的分支(結點33往下的亞樹和51往下的亞樹), 而那個大的分支下又有兩個主要的分支(48往下的亞樹和52往下的亞樹)。在該圖譜中有 一些結點具有超過兩個以上的子結點,比如,結點32有6個子結點,結點33有3個子結點。 這表明改進的層次聚類算法可以將多個彼此之間非常接近的類(或個體)聚成一個單個的 類,與此形成對照的是,用傳統(tǒng)的層次聚類算法一次只能將兩個類或個體聚成一類,因此會 把這些彼此非常接近的類或個體分成多個類。用改進的層次聚類算法得出的家族圖譜能更 直觀和合理地表示家族的分支。從上面得到的樹狀家族圖譜我們估算了該家族的最近共同祖先(MRCA)。我們采用 T Saillard J等的方法(4) ^P Zhivotovsky L等估算的Y染色體STR的突變率(5)。我們 估計該家族祖先生活的年代距今約800年。根據記載,愛爾蘭人的姓氏形成的年代一般在 公元900至1200,這與我們估計的Bradley家族祖先的年代一致。因此,本發(fā)明的方法估計 出該姓氏家族很可能是有單個起源的。這與關于愛爾蘭的Bradley姓氏起源于古代居住在 Ulster區(qū)域的一個愛爾蘭宗族(0' Brollachain)的記載是符合的。因此,在此實施例中, 本發(fā)明的方法準確地估算出了家族歷史。以上的DNA樣本檢測采用了一組較適合歐洲人的Y染色體STR遺傳位點。如果分 析華人的姓氏家族,則應該使用一組適合東亞人的遺傳位點。實施例2 這里用一些中國人姓氏家族的文字資料(家譜)來具體說明怎樣估計“文獻距
離”
ο廣東潮州的王氏有如下記載“王審知四傳至王坦,初居泉州開元寺巷,后由泉州 徒居廣東潮州,是為‘王氏潮州祖’?!标P于福建王氏,有以下歷史資料“開閩王氏是指入閩三王廣武王——王潮、武 肅王——王審邦、忠懿王——王審知和福州守城都督——王彥復的后裔家族集團,其先源 是瑯琊王氏流脈,蜚聲于東南沿海和東南亞國家,地區(qū)的一個龐大家族集團的‘開閩王氏’, 而忠懿王王審知又被世人尊稱其為‘開閩第一’,包涵著如此豐富的家族歷史,故瑯琊是其 郡,開閩是其望;其家族的稱謂即是瑯琊郡開閩王氏,堂號——開閩第一。”山東瑯琊王氏有如下記載“離公之長子元公,避禍遷山東瑯琊,是為‘王氏瑯琊祖’。元公四傳至吉公,字子陽,初仕漢昌邑王劉賀,為中尉。昌邑王日以淫亂為樂,不理政 事,吉公屢上疏諫爭。昭、宣二帝時,吉公均被拜為諫議大夫,匡救時弊,裨益甚多。初家于 皋虞,致仕后徒居臨沂都鄉(xiāng)南仁里,是為瑯琊王氏‘臨沂祖’。"以上三種家譜及歷史資料告訴我們,潮州王氏是從福建的開閩王氏(王審知)傳 下的,而開閩王氏是由山東瑯琊王氏分出的一支。根據這些資料我們就可以打出這三地的 王氏之間的“文獻距離”。以下用A代表瑯琊王氏,B代表開閩王氏,C代表潮州王氏。對于 所有沒有相關記載的,我們可以給一個中等“文獻距離”值Dff(I, J) = 50對于以上三地的王氏Dff (A, B) = 40Dff (A, C) = 40Dff (B, C) = 30用這些“文獻距離”的值就可以按本發(fā)明所述的方法,與DNA數(shù)據結合推算出表示 王氏家族的繁衍分支過程的家族樹狀示意圖。這樣的結果是建立在最客觀的DNA證據基礎 上,同時也結合了已有的知識,因此應當是較準確的。實施例3:這里我們舉例說明引入"文獻距離"怎樣能幫助推算家族樹狀圖。由于沒有系統(tǒng) 的華人家族DNA數(shù)據,我們還無法用實施例2得出的“文獻距離”結合DNA數(shù)據來推算王氏 的家族圖譜。我們使用了實施例1中的Bradley家族的DNA數(shù)據(見圖Ia和圖lb)和一 些假定的“文獻距離”來組成一個例子,以闡述此方法。但該方法適于任何有DNA數(shù)據和相 關文字記載的家族。在Bradley家族的例子(圖Ia和圖lb)中,假設我們從文字記載中了解到代號11 的個體(來自Ulster)與23 (來自Ulster)的親緣關系很近,而13與22 (來自Ulster)的 親緣程度及22與23的親緣程度都較遠。而且,在圖Ia和圖Ib中可看到,由11,22與23 之間的遺傳距離無法確定哪兩個之間較接近,因為D (11,22) = D (11,23) = D (22,23) = 1因此,從文字記載中得到的信息可以幫我們確定哪兩個最接近。假設根據從資料 中得到的信息,我們可以以0-100的尺度給出“文獻距離”Dff (22, 23) = 70Dffdl,22) = 70DW (11,23) = 10剩下的文獻距離都設為50。我們再賦予文獻距離一個很小的權重W = 0. 001來 計算遺傳距離與文獻距離合并得到的復合距離,并用此復合距離來做層次聚類,推算出考 慮了文字記載信息的家族圖譜(圖3)。將圖3與圖2比較可以發(fā)現(xiàn),在引入了文字記載的 “預先知識”后,推算出的家族樹狀示意圖的結構做了一些調整,特別是在11,22和23周圍 的亞樹結構。在未引入文字記載的信息前(圖2),11和22在第二層被歸為一類,在引入文 字記載信息之后(圖3),11和23被歸為一類。由此可見,引入文字記載的“預先知識”來 作為DNA數(shù)據之外的輔助信息以推算家族圖譜是有效的。參考文獻
1. Wen B, Li H, Lu Daru, et al. Genetic evidence supports demic diffusion of Han culture. Nature,2004,431 :302_3052.Kwak KD,Jin HJ,Shin DJ,et al.Y-chromosomal STR haplotypes and their applications to forensic and population studies in east Asia. International Journal of Legal Medicine. 2005,119 :195_20L3. Butler JM, Schoske R, Vallone PM, et al. A novel multiplex for simultaneous amplication of 20Y chromosome STR markers.Forensic Science International,2002,129 10-24.4.Saillard J,Forster P,Lynnerup N,Bandelt H,and Norby S. mtDNA Variation among Greenland Eskimos :The Edge of the Beringian Expansion. American Journal of Human Genetics. 67 :718_726,2000.5.Zhivotovsky LA,Underhi11 PA,Cinnioglu C, et al. The effective mutation rate at Y chromosome Short Tandem Repeats, with application to human population-devergence time. American Journal of Human Genetics. 74 :50_61,2004.6Forensic and Genealogical Test,專利號US7248970B2,授權國美國,公布日 期2007年7月24日.
權利要求
一種從一組人的DNA遺傳信息來推導一個家族或姓氏的分支歷史和各分支親緣關系,和用個人的DNA來尋找與其親緣關系最近的家族分支的方法,其特征在于,從一個家族或姓氏的人中采集DNA樣品并檢測他們的DNA遺傳標記,其中包括但不限于短串聯(lián)重復序列(STR)和單核苷酸多態(tài)性(SNP),然后用這些DNA數(shù)據,通過建樹算法,建立起樹狀示意圖來描述這家族的分支(家族圖譜),并可以把個人的DNA信息與此樹狀示意圖的各級亞樹進行比較,以找到與此人最近的分支。
2.如權利要求1所述的方法,其特征在于,采用在中國人中多態(tài)性較高的一組Y染色 體 STR(DYS19,兩個 DYS385 位點,DYS388, DYS389I/II, DYS390, DYS391, DYS392, DYS393 和 DXYS 156Y),來對華人姓氏家族進行檢測分析,以推算家族圖譜。
3.一種利用DNA遺傳信息來建立表示一組人親緣遠近關系的樹狀示意圖的建樹算法, 其特征在于,利用層次聚類方法來建樹,并以兩個體的DNA樣本在一組遺傳標記中差異的 數(shù)目多少(遺傳距離),來決定兩個個體的距離。
4.如權利要求3所述方法,其特征在于,為了使建樹算法更適合于建立家族樹狀示意 圖,改進了層次聚類算法,允許所建的樹中的結點擁有超過兩個子結點,而傳統(tǒng)層次聚類只 允許兩個子結點。
5.如權利要求3或4所述方法,其特征在于,在DNA數(shù)據之外,引入了文字記載信息(包 括但不限于家譜和歷史地理資料)來建立家族樹狀示意圖,根據文字記載信息中描述的家 族各分支的關系遠近給相關個體之間打出“文獻距離”分數(shù),再將“文獻距離”與遺傳距離綜 合起來計算結點間的距離;文獻距離具有比遺傳距離更小的權威性,因此被賦予一個更小 的權重(小于文獻距離最大值的倒數(shù));建樹過程中,在DNA無法確定哪兩個分支更近時, 文字記載信息用來確定誰與誰更接近。
6.如權利要求1或2所述方法,其特征在于,應用權利要求3、4或5所述的建樹算法來 建立表示家族分支的樹狀示意圖。
全文摘要
本發(fā)明提供了一種從一個家族人的DNA遺傳信息來推算該家族的分支歷史和各分支間親緣關系的方法。首先從一個家族的人中采集DNA樣品并檢測他們的DNA遺傳標記,然后用這些DNA數(shù)據,通過建樹算法,建立起樹狀示意圖來描述這家族的分支,并利用這個家族樹狀示意圖幫助個人用DNA來尋找與其親緣關系最近的家族分支。本發(fā)明提出用一種基于層次聚類的建樹算法來建立家族樹狀示意圖,并對傳統(tǒng)的層次聚類算法進行了改進,使之適合于表征一個祖先有多個后代分支的情況。本發(fā)明還提供一種將文字記載的信息定量地與DNA數(shù)據結合來推導家族圖譜的方法。本發(fā)明可以幫助人們用遺傳信息追溯家譜和了解一個姓氏在各地的親源關系,以及幫助家譜記載不詳?shù)娜嘶蚣易鍖びH問祖。
文檔編號G06F19/00GK101988119SQ20091006998
公開日2011年3月23日 申請日期2009年7月31日 優(yōu)先權日2009年7月31日
發(fā)明者劉曉明, 周軍, 孫朝輝 申請人:劉曉明;周軍