專利名稱:基于數(shù)據(jù)庫數(shù)據(jù)匹配、排序的實驗樣品初步鑒定方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物信息學(xué)實驗輔助技術(shù)領(lǐng)域,特別涉及實驗樣品的鑒定。
背景技術(shù):
目前,來自全球各個科研單位的越來越多的實驗數(shù)據(jù)通過國際數(shù)據(jù)庫提供共享。充分利用這些數(shù)據(jù),可以避免無謂重復(fù)他人已經(jīng)做過的實驗。此類實驗最容易出現(xiàn)在研究過程的探索階段,為了鑒定樣品,研究者通常不可避免要進行一系列他人已經(jīng)做過的實驗,為此付出大量時間和經(jīng)費。事實上,與質(zhì)譜鑒定方法類似,僅通過一些簡單、廉價的實驗(例如雙向電泳)就可以取得樣品的某些特征數(shù)據(jù)(例如蛋白質(zhì)的分子量和等電點),與已有資料數(shù)據(jù)進行對比匹配就可能初步判斷樣品的成分,縮小進一步實驗的處理范圍,對接下來的實驗環(huán)節(jié)做出調(diào)整,或預(yù)選出最佳的實驗方案,從而縮短研究、開發(fā)的周期,節(jié)省人力物力。不僅如此,通過這樣的數(shù)據(jù)匹配還可以初步驗證某些假設(shè)推斷,并有助于提出新的假設(shè)推斷。但與質(zhì)譜實驗取得的高精度數(shù)據(jù)不同,一些簡單、廉價的常規(guī)實驗取得的結(jié)果除了定性結(jié)論以外,通常是統(tǒng)計意義上精確度有限的連續(xù)型數(shù)值,對于這類數(shù)據(jù)來說,誤差和精確度的局限性對數(shù)據(jù)與資料數(shù)據(jù)的對比匹配帶來的影響是非常顯著的,因而傳統(tǒng)的鑒定方法始終未能充分利用現(xiàn)有的數(shù)據(jù)資源,需要一種新的方法來達成上述目的。
發(fā)明內(nèi)容
本發(fā)明的目的在于確立一種基于數(shù)據(jù)庫數(shù)據(jù)匹配、排序的實驗樣品初步鑒定方法,從而可以僅付出少量成本就實現(xiàn)對實驗樣品成分的初步鑒定。通過本方法配合其他實驗技術(shù),可快速廉價的鑒定出實驗樣品中是否含有已知成分,初步分析實驗樣品的成分組成,從而縮小進一步實驗的處理范圍,對接下來的實驗環(huán)節(jié)做出調(diào)整,或預(yù)選出最佳的實驗方案。
本發(fā)明采用的技術(shù)方案是首先,根據(jù)需要抓取公共數(shù)據(jù)庫的數(shù)據(jù),準(zhǔn)備完備整齊的資料數(shù)據(jù)。之后,根據(jù)具體目的確定數(shù)據(jù)匹配、排序所依據(jù)的條件。最后,選擇合適的實驗方法測定樣品的特征數(shù)據(jù),通過特征數(shù)據(jù)與資料數(shù)據(jù)的匹配、排序得到初步的鑒定結(jié)論。本發(fā)明所采取的數(shù)據(jù)匹配、排序方法能夠克服誤差和精確度的局限性對樣品數(shù)據(jù)與資料數(shù)據(jù)的對比匹配帶來的影響。
本發(fā)明所采取的數(shù)據(jù)匹配、排序方法將作為對比匹配依據(jù)的實驗數(shù)據(jù)分為兩類,一種是文字描述性的數(shù)據(jù)(稱為描述性條件,descriptive restriction);另一種是數(shù)值型數(shù)據(jù)(稱為數(shù)字條件,numerical restriction),即統(tǒng)計意義上的連續(xù)型數(shù)值(continuous number,度量數(shù)值measurement number),統(tǒng)計意義上的離散型數(shù)值(discrete number,計數(shù)數(shù)值count number)則也被視為文字描述性的數(shù)據(jù)。在進行數(shù)據(jù)對比匹配的過程中,對這兩種條件的處理方式是不同的對于描述性條件通常要進行術(shù)語的標(biāo)準(zhǔn)化,即將所有可能的描述性條件歸納為有限條意義明確的標(biāo)準(zhǔn)術(shù)語。在實際應(yīng)用中通常根據(jù)數(shù)據(jù)內(nèi)容本身的需要借用業(yè)界熟悉的成熟的術(shù)語方案。單獨使用某一條意義明確的標(biāo)準(zhǔn)術(shù)語不能滿足所有的匹配要求,因而本方法提供了用來組合標(biāo)準(zhǔn)化術(shù)語的語法,該語法稱為描述性條件語法。
對于數(shù)字條件的匹配、排序,為了克服誤差或精度局限性帶來的錯誤,返回的是根據(jù)所有參與匹配的數(shù)字條件綜合排序的結(jié)果列表。最可能符合條件者將位于排序結(jié)果列表的頂部,次者次之,依次類推。這樣就有效地包容了因誤差造成的匹配錯誤,即使經(jīng)過驗證位于列表最頂部的并非想要的結(jié)果,但有可能排在第二位的就是,整個列表的參考價值仍然不受影響。
數(shù)字條件通常不止一個。結(jié)果列表給出的是根據(jù)所有參與匹配的數(shù)字條件綜合排序的結(jié)果。一般默認所有參與匹配的數(shù)字條件對于排序結(jié)果的影響(稱為權(quán)重)是均等的,如果根據(jù)實際情況明確認為各數(shù)字條件的權(quán)重不均等,可以另行設(shè)定權(quán)重比例。
匹配、排序條件可繁可簡,操作非常靈活。對于所有條件俱全的情況來說,匹配、排序過程是首先根據(jù)描述性條件給出所有符合條件的數(shù)據(jù)項目,以此作為根據(jù)數(shù)字條件匹配的范圍。然后根據(jù)各項數(shù)據(jù)與數(shù)字條件的目標(biāo)值的接近程度進行綜合排序。對于只使用部分條件的情況,如果放棄了描述性條件,保留數(shù)字條件,則對整個數(shù)據(jù)庫進行根據(jù)數(shù)字條件的匹配、排序;如果放棄了所有數(shù)字條件,只保留描述性條件,則只給出符合描述性條件的結(jié)果列表,不進行排序。
依據(jù)數(shù)字條件匹配的排序過程是這樣實現(xiàn)的(由實驗取得的樣品特征數(shù)值稱為目標(biāo)數(shù)值)(1)取得資料數(shù)據(jù)各數(shù)據(jù)記錄的各個數(shù)字條件的數(shù)值與相應(yīng)目標(biāo)數(shù)值的差的絕對值。
(2)取得資料數(shù)據(jù)各數(shù)據(jù)記錄的某個數(shù)字條件的數(shù)值與相應(yīng)目標(biāo)數(shù)值的差的絕對值中的最大值,以各絕對值除以此最大值,得到資料數(shù)據(jù)各數(shù)據(jù)記錄此數(shù)字條件的排序分數(shù)。
(3)依據(jù)資料數(shù)據(jù)各數(shù)據(jù)記錄的各個數(shù)字條件的排序分數(shù)進行綜合排序。排序原則是①分數(shù)和較小的數(shù)據(jù)記錄排在前面;②分數(shù)和相等的,分數(shù)方差(如果只有兩個數(shù)字條件,實際簡化為分數(shù)差)較小的排在前面。
③對于有權(quán)重要求的排序,分數(shù)先乘上權(quán)重值再參與排序。
本發(fā)明是通過簡單、廉價的常規(guī)實驗取得實驗樣品特征數(shù)據(jù)與公共數(shù)據(jù)資料匹配從而初步鑒定樣品的一種新方法,具有以下優(yōu)點(1)實驗費用低廉。
(2)能充分利用現(xiàn)有數(shù)據(jù)資料。
(3)鑒定過程所用時間短,步驟簡單。
(4)作為初步鑒定,本方法透明可靠,節(jié)省費用同時不損失最終結(jié)論的可靠性。
(6)操作靈活,可適應(yīng)多種需要。
(7)容易開發(fā)出基于本方法的商品化數(shù)據(jù)庫產(chǎn)品。
樣品的初步鑒定對科學(xué)研究非常重要,特別是生命科學(xué)的研究。因此,本方法很有可能成為一種科學(xué)研究的通用方法,具有廣闊的應(yīng)用前景。
圖1在具體實施例《Bound0酵母蛋白Eureka預(yù)選器數(shù)據(jù)庫》(1.1版)中進行放棄描述性條件的匹配、排序的操作界面及返回結(jié)果的計算機屏幕截圖。
具體實施例方式
實施例基于本發(fā)明實現(xiàn)的《Bound0酵母蛋白Eureka預(yù)選器數(shù)據(jù)庫》可以為有關(guān)研究帶來方便。
(1)Bound0酵母蛋白Eureka預(yù)選器數(shù)據(jù)庫的數(shù)據(jù)內(nèi)容整合了SGD數(shù)據(jù)庫(Saccharomyces GenomeDatabase,酵母基因組庫http//www.yeastgenome.org/)中的部分數(shù)據(jù)。共包含6713個蛋白的信息。
(2)在Bound0酵母蛋白Eureka預(yù)選器數(shù)據(jù)庫(1.1版)中,可用的描述性條件是蛋白質(zhì)充當(dāng)?shù)募毎M分、參與的生物過程、分子功能等描述性特征,借用了Gene Ontology(GO)annotation(基因概念體系注釋http//www.geneontology.org)作為標(biāo)準(zhǔn)化術(shù)語方案。描述性條件語法的基本陳述句為GO=GOID(GOID是一個數(shù)字,表示基因產(chǎn)物的某種特征),此外還實現(xiàn)了類似Xpath語言的組合語法和部分函數(shù)。(例如GO=6888or(GO=137and GO=5642)將返回75個符合條件的結(jié)果)(3)在Bound0酵母蛋白Eureka預(yù)選器數(shù)據(jù)庫(1.1版)中,實現(xiàn)了兩個數(shù)字條件蛋白質(zhì)的分子量和等電點。
(4)在Bound0酵母蛋白Eureka預(yù)選器數(shù)據(jù)庫(1.1版)的EurekaPreselector操作窗口內(nèi)將DR(DescriptiveRestriction描述性條件)、NR(Numerical Restriction數(shù)字條件)、MW(分子量)、PI(等電點)四處的復(fù)選框(圖1)都選中時,表示所有的條件都參與匹配、排序。如果取消選中某一個復(fù)選框,表示放棄這個條件。如果取消選中NR復(fù)選框,表示放棄所有的數(shù)字條件。如果放棄了描述性條件,保留數(shù)字條件,則對整個數(shù)據(jù)庫進行根據(jù)數(shù)字條件的匹配、排序;如果放棄了所有數(shù)字條件,只保留描述性條件,則只給出符合描述性條件的結(jié)果列表,不進行排序。
(5)數(shù)字條件后面所乘以的數(shù)字(圖1)表示此項數(shù)字條件的權(quán)重,即此項數(shù)字條件對于按參與的所有數(shù)字條件進行綜合排序的結(jié)果的影響力大小。通常所有數(shù)字條件的權(quán)重均默認為1,如果需要改變各項數(shù)字條件的權(quán)重比例,改變各權(quán)重的數(shù)值即可,數(shù)值越大,表示該項數(shù)字條件對于綜合排序的參考價值越重要。如果權(quán)重值為0,相當(dāng)于放棄該數(shù)字條件。如果權(quán)重值為負,表示該項數(shù)字條件按照相反的原則參與綜合排序,即該項數(shù)字條件與目標(biāo)條件相差越大的,越排在前面。一般來說,沒有明確的理由,無需改變各數(shù)字條件的權(quán)重比例,但有時嘗試改變權(quán)重比例可以得到更為理想的結(jié)果。例如在某項數(shù)字條件的取值比其他數(shù)字條件的被掌握的更為精確時,可以適當(dāng)增加該項的權(quán)重。
(6)比起全條件的匹配、排序,更為常用的情況是放棄描述性條件,只使用數(shù)字條件的匹配、排序。如果不知道或無法明確描述性條件,就可以放棄它。一般經(jīng)過簡單實驗取得或推測出蛋白質(zhì)的分子量(以道爾頓為單位)和等電點后,即可放棄描述性條件,使用這兩個數(shù)字條件進行匹配、排序,將在全數(shù)據(jù)庫6713個蛋白質(zhì)范圍內(nèi)找到最符合條件特征的蛋白質(zhì)(根據(jù)分子量和等電點與目標(biāo)數(shù)值的接近程度對數(shù)據(jù)庫中的蛋白質(zhì)進行綜合排序,排序結(jié)果位于最前的是分子量和等電點與目標(biāo)數(shù)值最為接近的蛋白質(zhì)。)。
排序過程是這樣實現(xiàn)的取得各分子量和分子量目標(biāo)數(shù)值的差的絕對值;取得各等電點和等電點目標(biāo)數(shù)值的差的絕對值;取得各分子量和分子量目標(biāo)數(shù)值的差的絕對值的最大值,以各絕對值除以此最大值,得到各分子量排序分數(shù);取得各等電點和等電點目標(biāo)數(shù)值的差的絕對值的最大值,以各絕對值除以此最大值,得到各等電點排序分數(shù);依據(jù)上述分子量和等電點的分數(shù)進行綜合排序。排序原則是①分子量和等電點的分數(shù)和較小的排在前面;②分子量和等電點的分數(shù)和相等的,分數(shù)差較小的排在前面。
③對于有權(quán)重要求的排序,分數(shù)先乘上權(quán)重值再參與排序。
例如對蛋白質(zhì)樣品進行雙向電泳后,用掃描儀將電泳膠板掃描成圖片,用Amersham公司的imagemaster2d platinum軟件分析圖片,即可估測出目標(biāo)條帶的分子量為25000道爾頓,等電點為4.5。
打開Bound0酵母蛋白Eureka預(yù)選器數(shù)據(jù)庫(1.1版)的Eureka Preselector操作窗口(圖1),輸入數(shù)字條件,取消DR復(fù)選框的選中狀態(tài),點擊“Eureka”按鈕,進行放棄描述性條件的匹配、排序,返回結(jié)果及操作界面如圖1所示,最有可能符合條件的數(shù)據(jù)記錄排在列表最前面(點擊“樹形展開”按鈕,通過瀏覽有關(guān)蛋白質(zhì)在數(shù)據(jù)庫中的更多信息即可確認匹配、排序結(jié)果是否符合要求),從而縮小了進一步實驗的處理范圍。
權(quán)利要求
1.一種基于數(shù)據(jù)庫數(shù)據(jù)匹配、排序的實驗樣品初步鑒定方法。其特征是首先,根據(jù)需要抓取公共數(shù)據(jù)庫的數(shù)據(jù),準(zhǔn)備完備整齊的資料數(shù)據(jù)。之后,根據(jù)具體目的確定數(shù)據(jù)匹配、排序所依據(jù)的條件。最后,選擇合適的實驗方法測定樣品的特征數(shù)據(jù),通過特征數(shù)據(jù)與資料數(shù)據(jù)的匹配、排序得到初步的鑒定結(jié)論。
2.按照權(quán)利要求1所述的實驗樣品初步鑒定方法,其特征在于其所采取的數(shù)據(jù)匹配、排序方法將作為匹配、排序條件的實驗數(shù)據(jù)分為兩類,一種是文字描述性的數(shù)據(jù),作為描述性條件;另一種是數(shù)值型數(shù)據(jù),即統(tǒng)計意義上的連續(xù)型數(shù)值,作為數(shù)字條件。
3.按照權(quán)利要求1所述的實驗樣品初步鑒定方法,其特征是其所采取的數(shù)據(jù)匹配、排序方法對于按照權(quán)利要求2所述的數(shù)字條件的匹配、排序,返回的是根據(jù)所有參與匹配的數(shù)字條件綜合排序的結(jié)果。
4.按照權(quán)利要求1所述的實驗樣品初步鑒定方法,其特征是其所采取的數(shù)據(jù)匹配、排序方法對于按照權(quán)利要求2所述的數(shù)字條件的匹配、排序,通常默認所有參與匹配的數(shù)字條件對于排序結(jié)果的影響(稱為權(quán)重)是均等的,如果根據(jù)實際情況明確認為各數(shù)字條件的權(quán)重不均等,可以另行設(shè)定權(quán)重比例。
5.按照權(quán)利要求1所述的實驗樣品初步鑒定方法,其特征是其所采取的數(shù)據(jù)匹配、排序方法對于按照權(quán)利要求2所述的數(shù)字條件的匹配、排序過程是這樣實現(xiàn)的(由實驗取得的樣品特征數(shù)值稱為目標(biāo)數(shù)值)(1)取得資料數(shù)據(jù)各數(shù)據(jù)記錄的各個數(shù)字條件的數(shù)值與相應(yīng)目標(biāo)數(shù)值的差的絕對值。(2)取得資料數(shù)據(jù)各數(shù)據(jù)記錄的某個數(shù)字條件的數(shù)值與相應(yīng)目標(biāo)數(shù)值的差的絕對值中的最大值,以各絕對值除以此最大值,得到資料數(shù)據(jù)各數(shù)據(jù)記錄此數(shù)字條件的排序分數(shù)。(3)依據(jù)資料數(shù)據(jù)各數(shù)據(jù)記錄的各個數(shù)字條件的排序分數(shù)進行綜合排序。排序原則是①分數(shù)和較小的數(shù)據(jù)記錄排在前面;②分數(shù)和相等的,分數(shù)方差(如果只有兩個數(shù)字條件,實際簡化為分數(shù)差)較小的排在前面。③對于有權(quán)重要求的排序,分數(shù)先乘上權(quán)重值再參與排序。
6.按照權(quán)利要求1所述的實驗樣品初步鑒定方法,其特征是其所采取的數(shù)據(jù)匹配、排序方法對于按照權(quán)利要求2所述的描述性條件通常要進行術(shù)語的標(biāo)準(zhǔn)化,即將所有可能的描述性條件歸納為有限條意義明確的標(biāo)準(zhǔn)術(shù)語(在實際應(yīng)用中通常根據(jù)數(shù)據(jù)內(nèi)容本身的需要借用業(yè)界熟悉的成熟的術(shù)語方案)。并且提供用來組合標(biāo)準(zhǔn)化術(shù)語的語法。
7.按照權(quán)利要求1所述的實驗樣品初步鑒定方法,其特征是其所采取的數(shù)據(jù)匹配、排序方法的匹配、排序條件可繁可簡,操作非常靈活。對于所有條件俱全的情況來說,匹配、排序過程是首先根據(jù)描述性條件給出所有符合條件的數(shù)據(jù)項目,以此作為根據(jù)數(shù)字條件匹配的范圍。然后根據(jù)各項數(shù)據(jù)與數(shù)字條件的目標(biāo)值的接近程度進行綜合排序。對于只使用部分條件的情況,如果放棄了描述性條件,保留數(shù)字條件,則對整個數(shù)據(jù)庫進行根據(jù)數(shù)字條件的匹配、排序;如果放棄了所有數(shù)字條件,只保留描述性條件,則只給出符合描述性條件的結(jié)果列表,不進行排序。
全文摘要
一種基于數(shù)據(jù)庫數(shù)據(jù)匹配、排序的實驗樣品初步鑒定方法。通過本方法配合其他實驗技術(shù),可快速廉價地鑒定出實驗樣品中是否含有已知成分,初步分析實驗樣品的成分組成,從而縮小進一步實驗的處理范圍,對接下來的實驗環(huán)節(jié)做出調(diào)整,或預(yù)選出最佳的實驗方案。本發(fā)明采用的技術(shù)方案是首先,根據(jù)需要抓取公共數(shù)據(jù)庫的數(shù)據(jù),準(zhǔn)備完備整齊的資料數(shù)據(jù)。之后,根據(jù)具體目的確定數(shù)據(jù)匹配、排序所依據(jù)的條件。最后,選擇合適的實驗方法測定樣品的特征數(shù)據(jù),通過特征數(shù)據(jù)與資料數(shù)據(jù)的匹配、排序得到初步的鑒定結(jié)論。本發(fā)明所采取的數(shù)據(jù)匹配、排序方法能夠克服誤差和精確度的局限性對樣品數(shù)據(jù)與資料數(shù)據(jù)的對比匹配帶來的影響。
文檔編號G06F17/30GK1869708SQ20061007798
公開日2006年11月29日 申請日期2006年4月29日 優(yōu)先權(quán)日2006年4月29日
發(fā)明者李明浩 申請人:李明浩