專利名稱:質(zhì)譜分析方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于質(zhì)譜分析方法的。
背景技術(shù):
最近關(guān)于基因組的研究已經(jīng)可以識別與不同疾病相關(guān)的許多種基因。但是,盡管基因組研究可以識別出與遺傳性的對一種疾病有易患體質(zhì)的基因,仍然需要對諸如蛋白質(zhì)等標(biāo)記物進(jìn)行表征和識別。“標(biāo)記物”通常是指一種多肽或其它一些可以區(qū)分不同生物狀態(tài)的分子。在病理狀態(tài)下,蛋白質(zhì)和其它標(biāo)志物是重要的因素。例如,蛋白質(zhì)可隨生物狀態(tài)的改變(例如生病)而改變。它們也可以傳達(dá)疾病、中毒或其它刺激的信息。在生病時,某些蛋白質(zhì)進(jìn)入休眠狀態(tài),而另一些蛋白質(zhì)則激活。例如,前列腺特異性抗原(PSA)是一種循環(huán)性的血清蛋白,其含量增加與前列腺癌有關(guān)。如果蛋白質(zhì)含量的增加能被快速檢測到,醫(yī)生就可以及早診斷疾病并提高療效。
識別出新的標(biāo)志物是診斷學(xué)藥物研發(fā)過程中最早最難的步驟之一。辨別一種物質(zhì)是否是某種疾病的一種方法是,判別相對于沒有這種疾病的病人樣本,它們在表現(xiàn)出這種疾病的病人的生物樣本中,是否被“差別表達(dá)”。例如,圖1(a)顯示了來自一組18個有病患者的樣本的大量互相重疊的質(zhì)譜中的曲線圖100。此患者可能患有例如前列腺癌。圖1(b)所示的另一幅曲線圖102顯示了來自一組18個一般病人的樣本的互相重疊的質(zhì)譜。曲線圖100、102的信號強度都繪成由質(zhì)量-電荷比的函數(shù)。曲線圖100、102中的信號強度與分子量的標(biāo)記物濃度成正比,這些標(biāo)記物與樣本中的質(zhì)量-電荷比A相關(guān)。如曲線圖100、102所示,在質(zhì)量-電荷比A處,兩幅質(zhì)譜中都有若干信號存在。這些信號中的峰值代表了可能的其分子量與質(zhì)量-電荷比A相關(guān)的標(biāo)記物。
將曲線圖100、102中的信號結(jié)合起來看,很明顯有病的患者在質(zhì)量-電荷比A處的平均信號強度比一般患者高。稱質(zhì)量-電荷比A處的標(biāo)記物對有病患者“差別表達(dá)”,因為平均起來,此標(biāo)記物的濃度在有病患者樣本中高于一般患者樣本。
觀察圖1(a)、1(b)中的數(shù)據(jù),一般可以得出結(jié)論,有病患者樣本中質(zhì)量-電荷比A的標(biāo)記物濃度大于一般患者。由于這種標(biāo)記物在有病患者樣本中的濃度高于一般患者,這種標(biāo)記物可對這種疾病表征為“正相關(guān)”。如果有病患者樣本中標(biāo)記物的濃度低于一般患者,此蛋白質(zhì)可稱為“負(fù)相關(guān)”。
標(biāo)記物一旦發(fā)現(xiàn),就可以用作診斷工具。例如,關(guān)于上述例子,一個測試病人的未知樣本可以用質(zhì)譜儀分析并得到一個質(zhì)譜??蓪|(zhì)譜進(jìn)行分析并得到測試病人質(zhì)譜中質(zhì)量-電荷比A處的信號強度。此信號強度可與有病患者和一般患者在質(zhì)量-電荷比A處的平均信號強度相比較。據(jù)此可推斷此測試病人是否已患或?qū)⒁忌习┌Y。例如,如果此未知樣本在質(zhì)量-電荷比A處的信號強度更接近有病患者在此處的平均信號強度,則可以推斷此患者更可能已經(jīng)或?qū)⒁及┌Y。
雖然所述差別表達(dá)分析有效,但是有許多方面可作改進(jìn)。例如,分析患者生物樣本中的一個標(biāo)記物如PSA的量,對監(jiān)護(hù)病癥的發(fā)展常常不夠可靠。PSA被認(rèn)為是目前可用的最好的前列腺癌標(biāo)記物之一。但是,它并不總是能正確區(qū)分良性和惡性前列腺疾病。盡管生物樣本中的一種標(biāo)記物(如PSA)的濃度分析能在一定程度上判斷一個測試病人是否有病,還是需要一個有更大可信度的方法。
而且,當(dāng)分析大量生物樣本的大量質(zhì)譜時,難以分清究竟哪個信號代表可能區(qū)分有病和無病狀態(tài)的標(biāo)記物。典型的生物樣本質(zhì)譜包含有大量潛在的標(biāo)記物信號(例如,大于200)以及大量噪聲,這會使得潛在的重要信號以及平均信號差的識別很困難,因此也就使得識別和量化潛在的標(biāo)記物很困難。除非潛在的標(biāo)記物表現(xiàn)出強正相關(guān)或強負(fù)相關(guān),否則,有病和無病患者的樣本的平均信號差將不易區(qū)分。例如,通常難以直觀看出一組質(zhì)譜中給定質(zhì)量處的一簇信號的平均信號強度比另一組質(zhì)譜中的一簇信號高還是低。另外,很多潛在的重要信號可能強度值較低。譜中的噪聲可能會模糊這些潛在的重要信號。這些信號可能無法被發(fā)現(xiàn)并被無意中從差別表達(dá)分析中忽略掉了。
能有更好的分析質(zhì)譜的方法將是很好的事。例如,它可以提供一個更準(zhǔn)確地發(fā)現(xiàn)潛在有用標(biāo)記物的方法。它也可以提供一個改進(jìn)的分類模型,可以用來判斷一個未知樣本是否與一種特定生物狀態(tài)有關(guān)。
本發(fā)明本身就是用于解決這些以及其它一些問題的。
發(fā)明內(nèi)容
本發(fā)明是關(guān)于質(zhì)譜分析的方法。在本發(fā)明中,利用數(shù)字計算機形成一個分類模型,可用于將與不同生物狀態(tài)關(guān)聯(lián)的樣本分類開。此分類模型可用做預(yù)診斷工具。也可以用來識別相關(guān)于某種生物狀態(tài)的潛在標(biāo)記物。進(jìn)一步,此分類模型可通過諸如回歸分離處理這樣的處理形成。
本發(fā)明的一實施例是關(guān)于使用數(shù)字計算機進(jìn)行質(zhì)譜分析的方法。這個方法包括a)將從大量樣本中得到的質(zhì)譜數(shù)據(jù)集輸入計算機,其中每個樣本都會或?qū)w于一組包含兩個或兩個以上類的類集中的一個類,每一類代表一種不同生物狀態(tài)的特性,其中每個質(zhì)譜包含代表信號強度的數(shù)據(jù),此強度是質(zhì)量-電荷比或由質(zhì)量-電荷比得到的一個數(shù)值的函數(shù);并且b)形成了一個分類模型,可以用來區(qū)分類集中的不同類,模型的形成包括通過執(zhí)行代碼來分析數(shù)據(jù)集,此段代碼實施包含回歸分離處理的分類處理。
本發(fā)明另一實施例包括使用數(shù)字計算機進(jìn)行質(zhì)譜分析的方法。這個方法包括a)將從大量樣本中得到的質(zhì)譜數(shù)據(jù)集輸入數(shù)字計算機,其中每個樣本都會或?qū)w于一組包含兩個或兩個以上類的類集中的一個類,每一類代表一種不同生物狀態(tài)的特性,其中每個質(zhì)譜包含代表信號強度的數(shù)據(jù),此強度是飛行時間或由飛行時間得到的一個數(shù)值的函數(shù);并且b)形成了一個分類模型,可以用來區(qū)分類集中的不同類,模型的形成包括通過執(zhí)行代碼來分析數(shù)據(jù)集,此段代碼實施回歸分離處理。
本發(fā)明還包括一個計算機可讀的媒介。此媒介包括a)將從大量樣本中得到的質(zhì)譜數(shù)據(jù)輸入計算機的代碼,其中每個樣本都會或?qū)w于一組包含兩個或兩個以上類的類集中的一個類,每一類代表一種不同生物狀態(tài)的特性,其中每個質(zhì)譜包含代表信號強度的數(shù)據(jù),此強度是飛行時間或由飛行時間得到的一個數(shù)值的函數(shù),或質(zhì)量-電荷比或由質(zhì)量-電荷比得到的一個數(shù)值的函數(shù);以及b)通過回歸分離程序生成分類模型的代碼,此分類模型可以區(qū)分類集中的類。質(zhì)譜可使用例如激光解析電離過程生成。
本發(fā)明還包括使用數(shù)字計算機將一個未知樣本分類為代表一類生物狀態(tài)特性的方法。此方法包括a)將從未知樣本得到的質(zhì)譜數(shù)據(jù)輸入計算機;以及b)用分類模型處理質(zhì)譜數(shù)據(jù),從而將未知樣本劃分為對應(yīng)于某種生物狀態(tài)特性的類。分類模型可通過回歸分離處理生成。
本發(fā)明還包括估計使用計算機將未知樣本準(zhǔn)確劃分為對應(yīng)于某種生物狀態(tài)特性的類的可能性的方法。此方法包括a)將從未知樣本得到的質(zhì)譜數(shù)據(jù)輸入計算機;以及b)使用分類模型處理質(zhì)譜,以估計未知樣本準(zhǔn)確劃分為對應(yīng)于某種生物狀態(tài)特性的類的可能性。分類模型可通過回歸分離處理生成,且由來自歸應(yīng)于兩個或更多個不同生物狀態(tài)的類的樣本的質(zhì)譜數(shù)據(jù)集生成。
本發(fā)明中,所分析的質(zhì)譜可能是預(yù)先存在的,例如,可能在分類模型生成之前早就存在了?;蛘?,質(zhì)譜數(shù)據(jù)也可能在分類模型生成的同時產(chǎn)生。
本發(fā)明的這些以及其它一些實施例參照圖和詳細(xì)說明來描述。
圖1(A)所示為有病患者樣本的重疊的質(zhì)譜。
圖1(B)所示為一般患者樣本的重疊的質(zhì)譜。
圖2所示為本發(fā)明實施例生成質(zhì)譜的方法的流程圖。
圖3所示為對數(shù)歸一的強度與識別出的峰值簇的函數(shù)圖。圖中顯示了兩組不同樣本的質(zhì)譜的信號強度。
圖4所示為根據(jù)本發(fā)明實施例質(zhì)譜預(yù)處理的首選的流程圖。
圖5所示為根據(jù)本發(fā)明實施例質(zhì)譜預(yù)處理及生成分類模型的首選的流程圖。
圖6所示為本發(fā)明實施例的一個系統(tǒng)框圖。
圖7所示為本發(fā)明實施例的分類和回歸樹。
圖8所示為不同預(yù)測變量可變重要性的表格。
圖9所示為癌癥患者和一般患者不同樣本的凝膠體視圖。
圖10所示為癌癥患者和一般患者不同樣本的譜圖。
具體實施例方式
本發(fā)明中,從質(zhì)譜圖得到的數(shù)據(jù)集輸入數(shù)字計算機并生成分類模型。質(zhì)譜圖則來自己知特性的生物樣本。本發(fā)明中,用于生成分類模型的數(shù)據(jù)集被表征為“已知”數(shù)據(jù)集,因為在這些數(shù)據(jù)集被用來生成分類模型之前,與這些生物樣本有關(guān)的生物狀態(tài)是已知的。作為比較,“未知”數(shù)據(jù)集包含的數(shù)據(jù)來自如下樣本的質(zhì)譜,這些樣本若與質(zhì)譜生成時由分類模型所辨別出的生物狀態(tài)相關(guān),則是不確定的。未知數(shù)據(jù)可從要用這個分類模型進(jìn)行診斷的測試病人的生物樣本得出。有時,已知數(shù)據(jù)集也稱為“訓(xùn)練數(shù)據(jù)”。
作為演示,下述很多例子中都使用已知數(shù)據(jù)集來生成分類模型。但是,在本發(fā)明的某些實施例,用來生成分類模型的數(shù)據(jù)集可能是未知數(shù)據(jù)集。例如,在簇分析中,未知生物樣本的質(zhì)譜如果模式相似,則可能被分到一組。對每組樣本進(jìn)行分析以找出它們是否有共同的生物狀態(tài)。如果有,那么這組樣本就可以劃分為與這種生物狀態(tài)相關(guān)的一類。例如,生成一組有共同模式的質(zhì)譜后,可以確定組內(nèi)的所有譜都來自受輻射的生物樣本。則這組樣本就可以指定為“受輻射”狀態(tài)類。其它組的樣本同樣可以定為具備各組共同生物狀態(tài)特征的類。這樣就可以生成一個分類模型,而未知譜就可以用這個生成好的分類模型進(jìn)行分類。
本發(fā)明中,每個所用樣本都被或?qū)⒈环值胶袃蓚€或更多個類的類集中的一個類,每個類對應(yīng)于一種不同的生物狀態(tài)特性。例如,第一類樣本可能與諸如疾病狀態(tài)的生物狀態(tài)有關(guān)。第二類樣本的質(zhì)譜可能與無病狀態(tài)的生物狀態(tài)有關(guān)。第一類和第二類樣本就可以形成類集。每一類各自的質(zhì)譜都含有可以區(qū)分開這兩類的數(shù)據(jù)。
在本發(fā)明中,所分析的每一個質(zhì)譜都可以包含信號強度數(shù)據(jù),此數(shù)據(jù)可以是飛行時間,由飛行時間得到的值(例如,質(zhì)量-電荷比,分子量,等等),質(zhì)量-電荷比,或由質(zhì)量-電荷比得到的值(例如,分子量)。如本領(lǐng)域所周知的技術(shù),從飛行時間質(zhì)譜儀得到的質(zhì)量-電荷比值由飛行時間值導(dǎo)出。質(zhì)量-電荷比也可以通過其它方式得到。例如,不用飛行時間譜儀來確定質(zhì)量-電荷比,使用四極分析器和磁質(zhì)量分析器的質(zhì)譜儀也可以用來確定質(zhì)量-電荷比。
在較佳實施例中,每個質(zhì)譜都含有信號強度數(shù)據(jù),此數(shù)據(jù)是質(zhì)量-電荷比的函數(shù)。在典型的譜視圖型的質(zhì)譜中,信號強度數(shù)據(jù)作為質(zhì)量-電荷比的函數(shù)在信號強度圖上可能以“峰”的形式存在。每個峰有底部和頂部,峰寬從底部向頂部逐漸變窄。通常與峰相關(guān)的質(zhì)量-電荷比對應(yīng)于峰的頂部。峰的強度通常也與峰的頂部相關(guān)。
通常,質(zhì)量-電荷比與潛在標(biāo)記物的分子量相關(guān)。例如,如果一個潛在標(biāo)記物電荷為+1,則其質(zhì)量-電荷比就等于此信號所代表的潛在標(biāo)記物的分子量。這樣,一些質(zhì)譜圖可能會顯示信號強度為分子量的函數(shù),實際上這里的分子量是由質(zhì)量-電荷比衍生出來的。
由于這里討論的本發(fā)明的許多特定實施例都是關(guān)于質(zhì)量-電荷比的應(yīng)用,可以理解,在所特別討論的作為示例的實施例中的質(zhì)量-電荷比值,可以用飛行時間值或其它衍生自飛行時間值的值代替。
盡管所分析的質(zhì)譜中的每一個質(zhì)譜所包含的信號強度數(shù)據(jù)都可以作為飛行時間,但是這里使用的質(zhì)譜的信號強度數(shù)據(jù)通常是質(zhì)量-電荷比的函數(shù)。離子的飛行時間值會受到儀器的影響,但是質(zhì)量-電荷比值不會受到影響。例如,在飛行時間質(zhì)譜測量過程中,對離子得到的飛行時間值會依賴于此特定質(zhì)譜儀的自由程管道長度。自由程管道長度不同的質(zhì)譜可能會對同一個離子得到不同的飛行時間值。質(zhì)量-電荷比就不會這樣,因為它只是離子的質(zhì)量與電荷之比。用質(zhì)量-電荷比值生成的分類模型也可以不受所使用的特定質(zhì)譜儀的影響。
數(shù)據(jù)集可以包含任何適合的數(shù)據(jù)并可以自動或手動輸入計算機。在計算機上運行的分類程序所處理前的數(shù)據(jù)可能是原始數(shù)據(jù)也可能是預(yù)處理過的數(shù)據(jù)。例如,質(zhì)譜中預(yù)定質(zhì)量-電荷比處的信號原始強度可以用作數(shù)據(jù)集?;蛘?,這些數(shù)據(jù)在分類模型生成之前也可以先進(jìn)行處理。例如,有些實施例中,會使用質(zhì)譜信號強度的對數(shù)值(如行為2)生成數(shù)據(jù)集。
數(shù)據(jù)集輸入計算機。實施分類處理的計算機代碼用數(shù)據(jù)集生成分類模型。示例的分類處理包括分級分類處理,如分類和回歸樹處理,多參量統(tǒng)計分析,如簇分析,非線性處理,如神經(jīng)網(wǎng)絡(luò)分析。在本實施例中,數(shù)據(jù)集使用分類和回歸樹處理進(jìn)行處理,從而生成分類模型,如分類和回歸樹。下面將對這些以及其它一些分類處理和分類模型進(jìn)行更詳細(xì)的闡述。
生成的分類模型可以是預(yù)測性的或描述性的。例如,模型可用來預(yù)測一個未知測試生物樣本是否與一個特定生物狀態(tài)相關(guān)。或者進(jìn)一步,分類模型可用來驗證那些用于區(qū)分所分析的生物狀態(tài)的數(shù)據(jù)的特性。一個特性包括可以區(qū)分所分析的特定類的質(zhì)譜數(shù)據(jù)的任何方面??勺R別的適合的特性包括,但并不僅限于,一個或多個質(zhì)量-電荷比下的信號強度或信號強度范圍、信號形狀(例如,峰的形狀)、信號區(qū)域(例如,峰的區(qū)域)、信號寬度(例如,諸如峰底部的寬度)、每個質(zhì)譜中的信號數(shù)目,等等。典型的情況下,分類模型可指明一個特性,如給定質(zhì)量-電荷比下的特定信號強度,可以區(qū)分有病和無病樣本。而在另一種情況,分類模型可指明幾個不同特性的組合可以將有病樣本和無病樣本區(qū)分開來。例如,不同質(zhì)量-電荷比下的兩個或更多信號的信號強度范圍可用來區(qū)分有病樣本和無病樣本。
還有的情況下,可確定為區(qū)分不同樣本類型的合適特性可能是一類里特定質(zhì)量-電荷比下的信號發(fā)生頻率。例如,對有100個樣本的有病類和有100個樣本的正常類,一個在質(zhì)量-電荷比為X處強度為Y的信號可能在90個有病類樣本的質(zhì)譜中出現(xiàn),而只在10個正常類樣本中出現(xiàn)。即使此信號在有病和無病樣本中的平均強度相同(也就是說,平均強度為Y),由于此信號在癌癥病人類中出現(xiàn)較多,因而此特性可以區(qū)分有病類和無病類。諸如這樣的頻度特性可用此分類模型確定。
任何合適的生物樣本都可以用于本發(fā)明的實施例。生物樣本包括組織(如,活組織切片)、血液、血清、血漿、乳汁、尿、淚、唾液、細(xì)胞、軟硬組織、器官、精液、糞便、尿等等。生物樣本可來自任何適合的有機體,包括真核原核或病毒有機體。
生物樣本可含有生物分子,包括大分子,如多肽、蛋白質(zhì)、核酸、酶、DNA、RNA、多核苷酸、低核苷酸、核酸、碳水化合物、低聚糖、多糖;上述生物大分子片段,如核酸片段、肽片段及蛋白質(zhì)片段;上述生物大分子的聚合物,如核酸聚合物、蛋白質(zhì)-DNA聚合物、受體-配合基聚合物、酶-酶作用物、酶抑制劑、肽聚合物、蛋白質(zhì)聚合物、碳水聚合物及多糖聚合物;小生物分子,如氨基酸、核苷、核苷、糖、類固醇、脂質(zhì)、金屬離子、藥、荷爾蒙、氨基化合物、胺、羧酸、維生素和輔酶、酒精、醛、酮、脂肪酸、卟啉,類胡蘿卜素、植物生長調(diào)節(jié)素、磷酸鹽酯及二磷酸核苷糖,合成小分子,如例如藥物或療法有效劑、單體、肽類體、類固醇類體、抑制劑、誘導(dǎo)劑、抗有絲分裂藥物、抗生素、離子載體、抗代謝物、氨基酸類體、抗菌素、輸運抑制劑、表面激活劑(表面活性劑)、線粒體和葉綠體功能抑制劑、電子釋放物、攜帶物和接收物、合成蛋白酶培養(yǎng)基、磷酸酶培養(yǎng)基、酯酶和脂肪酶和蛋白質(zhì)修正試劑培養(yǎng)基;以及人工聚合體、低聚體和共聚物。上述物質(zhì)任何適當(dāng)?shù)幕旌匣蚧弦部梢园谏飿颖局小?br>
如上面指出的,用于產(chǎn)生數(shù)據(jù)集的生物樣本會分到有兩個或更多類的類集中的一個類。每個類表征了一種不同的生物狀態(tài)。更適宜的情況下,只有兩個類和兩個生物狀態(tài);每類一個生物狀態(tài)。例如,一類具有病態(tài)的生物狀態(tài),而另一生物狀態(tài)具有無病狀態(tài)。
如此處所用的,樣本的“生物狀態(tài)”是指樣本或從中導(dǎo)出樣本的有機體或其它來源的生物狀態(tài)的表征特征。此特征可以是像遺傳特性或顯性特性這樣的生物特性。此特征可以是生理或疾病特性,比如有沒有某種特定疾病,包括傳染性疾病。此特征也可以是樣本所暴露的條件(環(huán)境,社會,生理,時間相關(guān),等等)。
遺傳性特性包括一種特定基因是否存在,一種基因的多種形態(tài),或基因的組合?;蛱匦钥梢员憩F(xiàn)為顯性,或以對其表現(xiàn)易感的形式存在,例如對特定疾病易感(如,對某種癌癥或心臟病的傾向)。
顯性特性包括,諸如外觀,生理特性,物理特性,神經(jīng)狀態(tài),心理狀態(tài)、反應(yīng)特性等等,或者對特定藥物有無反應(yīng)。顯性特性可包括所謂“正?!焙汀安±怼碧匦缘拇嬖谂c否,包括疾病特性。另一種狀態(tài)是一種特定疾病的存在與否。狀態(tài)也可以是特定人或組所具有的狀態(tài),如不同個人、不同家庭、不同年齡狀態(tài)、不同種族以及不同組織類型。
在本發(fā)明的有些實施例中,生理狀態(tài)可以是,比如下面的一個或更多個的組合形式疾病狀態(tài),正常狀態(tài),病理狀態(tài),服藥狀態(tài),未服藥狀態(tài),藥物反應(yīng)狀態(tài),無藥物反應(yīng)狀態(tài),以及良性狀態(tài)。服藥狀態(tài)可包括病人吃過藥的狀態(tài),而未服藥狀態(tài)可包括病人未吃過藥的狀態(tài)。藥物反應(yīng)狀態(tài)是生物樣本對用藥的反應(yīng)的狀態(tài)。疾病狀態(tài)的一些特例包括,如,癌癥、心臟病,自身免疫性疾病、毒感染、Alzheimer病,以及糖尿病。更特殊的癌癥狀態(tài)包括,例如,前列腺癌、膀胱癌、乳癌、結(jié)腸癌以及卵巢癌。生物狀態(tài)還可以包括早期、中期和晚期。例如,不同生物狀態(tài)可包括某種疾病,例如癌癥的早期,中期和晚期。
其它狀態(tài)可能與樣本類所屬于的不同環(huán)境有關(guān)。例如熱療、電磁輻射、鍛煉、食譜地理位置等等中的一個或多個。例如一類生物樣本(如所有的血液樣本)可來自一組受到輻射的病人,而另一類樣本可來自一組未受輻射的病人。輻射源可以是預(yù)期輻射源,如X光機,也可以是未預(yù)期輻射源,如手機。又例,一組人可能使用一種特定食譜,而另一組則用不同的食譜。
在本發(fā)明的另一些實施例中,不同的生物狀態(tài)可能對應(yīng)于與各自不同藥物或藥物類型相關(guān)的樣本。例如,生成一幅來自使用已知療效藥物的病人的樣本的質(zhì)譜圖。這種已知療效藥物的質(zhì)譜圖就可以代表與之同類的藥物。例如,這種已知療效藥物的質(zhì)譜圖可以代表與其相同或相近的特性,結(jié)構(gòu)或同樣的基本效果的藥物。例如,許多不同的止痛化合物都可以緩解病人的疼痛。這種已知療效的藥物以及與之相同或類似的藥物可能在人體內(nèi)控制同樣的生化通道,從而對人體產(chǎn)生同樣的效果。這種生物通道(如上下調(diào)節(jié)蛋白質(zhì))的特性可在質(zhì)譜圖中反映出來。
分類模型可通過與已知療效藥物和幾種不同藥物,或完全不用藥的相關(guān)質(zhì)譜生成。一旦分類模型生成,就可以產(chǎn)生與效用未知的候選藥物相關(guān)的候選樣本的質(zhì)譜。利用此分類模型,就可以對與候選樣本相關(guān)的質(zhì)譜進(jìn)行分類。分類模型可以確定候選樣本是與一種已知效用的藥物相關(guān)還是與另一種不同藥物相關(guān)。如果,比方說,分類模型認(rèn)為候選樣本與已知效用的藥物相關(guān),則候選藥物對人體的作用就可能與這種已知效用的藥物相同。因此,除了其它應(yīng)用,本發(fā)明可用于發(fā)現(xiàn)和/或表征藥物。
I.獲得質(zhì)譜質(zhì)譜可通過任何適當(dāng)?shù)奶幚慝@得。例如,質(zhì)譜可通過可訪問一個或多個質(zhì)譜數(shù)據(jù)庫的本地或遠(yuǎn)端服務(wù)器計算機取到(如下載)。這些數(shù)據(jù)庫會包括與不同生物狀態(tài)相關(guān)的不同生理樣本的質(zhì)譜庫。另外,質(zhì)譜可從生物樣本生成。不管如何得到,用于生成分類模型的質(zhì)譜和樣本更適于在同樣的條件下處理,以確保質(zhì)譜的任何改變都是由于樣本本身,而不是由于處理的差異造成的。質(zhì)譜可通過特定分類處理生成,也可以不通過特定的數(shù)據(jù)分類處理產(chǎn)生。
本發(fā)明實施例中,應(yīng)用氣相離子分光計生成質(zhì)譜。氣相離子分光計是一種儀器,測量可以轉(zhuǎn)化為樣本離子化為氣態(tài)時形成的離子的質(zhì)量-電荷比的參量。這包括,例如,質(zhì)譜儀,離子活性分光計,或總離子流測量設(shè)備。
質(zhì)譜儀可使用任何適當(dāng)?shù)碾婋x技術(shù)。電離技術(shù)包括如電子電離,高速原子/離子轟擊,陣列輔助激光解吸附/電離(MALDI),表面增強激光解吸附/電離(SELDI),或電霧電離。
在一些實施例中,離子活性分光計可用于探測和表征一個標(biāo)記物。離子活性分光計的原理是基于不同離子不同的活動性。特別,電離產(chǎn)生的樣本離子因質(zhì)量、電量或形狀的不同而以不同的速率運動,并在電場的作用下通過一個管道。離子(典型地是以電流的形式)在探測器處記錄下來,探測器的輸出就用來辨別樣本里的標(biāo)記物或其它物質(zhì)。離子活性分光計的優(yōu)點在于,它可以在大氣壓下操作。
在較佳實施例中,使用激光解吸附飛行時間質(zhì)譜儀產(chǎn)生質(zhì)譜。激光解吸附分光計特別適用于分析像蛋白質(zhì)這樣的大分子量的物質(zhì)。例如,MALDI或表面增強激光解吸附/電離處理的實用質(zhì)量量程可達(dá)300,000道爾頓或更多。而且,激光解吸附處理可用于分析復(fù)雜混合物且靈敏度高。進(jìn)一步,在像MALDI或表面增強激光解吸附/電離處理這樣的激光解吸附處理中,蛋白質(zhì)破碎的概率要比在其它質(zhì)譜儀處理低。因此,激光解吸附處理可用于精確表征和量化蛋白質(zhì)這樣的大分子量的物質(zhì)。
在典型的產(chǎn)生質(zhì)譜的處理中,對質(zhì)譜儀的入口系統(tǒng)引入了一個帶有標(biāo)記物的探頭。然后將標(biāo)記物電離。標(biāo)記物離子產(chǎn)生后,產(chǎn)生的離子被一個離子光學(xué)部件收集,然后質(zhì)量分析器使經(jīng)過的離子分散并加以分析。離開質(zhì)量分析器的離子被探測器探測到。在飛行時間質(zhì)量分析器中,離子在一個短的高壓電場中加速并漂移進(jìn)入一個高度真空室。在高度真空室的遠(yuǎn)端,加速過的離子在不同時刻撞擊一個敏感的探測器表面。由于離子的飛行時間是其質(zhì)量-電荷比的函數(shù),電離和沖擊之間消逝的時間可用于識別特定質(zhì)量-電荷比的分子存在與否。
然后飛行時間數(shù)據(jù)就可以轉(zhuǎn)化為質(zhì)量-電荷比來產(chǎn)生一個譜,表示標(biāo)記物的信號強度作為質(zhì)量-電荷比的函數(shù)的情況。圖2顯示了將基于飛行時間數(shù)據(jù)的質(zhì)譜轉(zhuǎn)化為質(zhì)量-電荷比數(shù)據(jù)的一種示例方法的流程圖。首先,采集飛行時間譜(第16步)。然后,對飛行時間譜進(jìn)行平滑濾波(第18步)。典型地,在最初產(chǎn)生的譜中含有大量高頻噪聲。應(yīng)用不同的濾波器以降低噪聲而不損壞其中包含的信號。然后,計算一條基線(第20步)。這樣可以去除特有的向上的漂移,例如MALDI或表面增強激光解吸附/電離處理的特征。
“表面增強”解吸附/電離處理是指一種在其上把樣本暴露于能源的基底在解吸附/電離處理中起積極作用的處理。在這類方法中,基底例如探針,并不僅僅是樣本表達(dá)的一個被動場所。有幾種表面增強基底可應(yīng)用于表面增強解吸附/電離處理。一個例子是,表面含有親和材料,例如陰離子交換組或親水組(例如,二氧化硅),它們會優(yōu)先綁定某類分子。此類親和材料包括如硅烷醇(親水)C8或C16烷基(憎水)、固定金屬螯化物(并列同價物)、陰離子或陽離子交換(離子的)或抗體(生物特效)。樣本暴露于基底綁定吸附物,以根據(jù)特定的吸引力基礎(chǔ)綁定分析物分子。典型的不綁定分子則被沖洗掉。當(dāng)分析物是生物分子時,能量吸收材料例如基質(zhì),會與綁定樣本相關(guān)。然后用激光對探測器探測到的分析物進(jìn)行解吸附和電離。
另一種型式中,基底表面包含有一個能量吸收分子的綁定層,可以避免將樣本和基質(zhì)材料混合,例如在MALDI中。表面增強解吸附/電離方法在諸如U.S.專利5,719,060(Hutchens and Yip)和WO 98/59360(Hutchens and Yip)(U.S.專利6,255,047)中有描述。當(dāng)激光將含有能量吸收材料的基質(zhì)解吸附時,一些基質(zhì)材料會隨所分析的樣本材料一道被解吸附?;€計算調(diào)整譜圖,以補償解吸附的基質(zhì)材料呈現(xiàn)的信號。一旦基線計算出來,飛行時間/質(zhì)量轉(zhuǎn)化就會發(fā)生(第22步)。此步驟中,飛行時間數(shù)據(jù)被轉(zhuǎn)化為質(zhì)量-電荷比。然后計算本地噪聲值(第24步)。在低質(zhì)量-電荷比情況下,由于解吸附的基質(zhì)材料而產(chǎn)生了大量噪聲。在電離解吸附處理中,基質(zhì)材料在高質(zhì)量-電荷比時比時比低質(zhì)量-電荷比時更不易解吸附,因此噪聲在低質(zhì)量-電荷比時比高質(zhì)量-電荷比時更可能存在??蓪ψV進(jìn)行調(diào)整以修正這個效應(yīng)。修正之后,譜更新就完成了(第26步)。通過圖2所示方法處理質(zhì)譜后,質(zhì)譜的信噪比提高了,能更好地量化和比較潛在的標(biāo)記物。
通過標(biāo)記物的解吸附和探測所生成的質(zhì)譜可在生成質(zhì)譜圖前后用數(shù)字計算機進(jìn)行預(yù)處理。數(shù)據(jù)分析可包括確定探測到的標(biāo)記物的信號強度(例如,信號的高度)和去除“逸出值”(偏離預(yù)設(shè)的統(tǒng)計分布的數(shù)據(jù))的步驟。例如,觀察信號可進(jìn)行歸一化。歸一化就是計算每個信號相對于某個參考的高度的處理。例如,參考可以是由儀器和化學(xué)物品(如,能量吸收分子)所產(chǎn)生的背景噪聲,它們在標(biāo)尺中設(shè)為零值。然后,探測到的每個標(biāo)記物或其它物質(zhì)的信號強度可以按需要的尺度(如100)以相對強度的形式顯示出?;蛘?,可對樣本提出一個標(biāo)準(zhǔn),從而符合此標(biāo)準(zhǔn)的信號可以用來作為計算觀察到的每個標(biāo)記物或探測到的其它標(biāo)記物的相對信號強度的參考。
數(shù)字計算機可以將結(jié)果數(shù)據(jù)轉(zhuǎn)化為各種格式顯示。一種格式稱為“譜圖或滯留物圖”,可以顯示標(biāo)準(zhǔn)譜圖。譜圖描述了在不同分子量下到達(dá)探測器的標(biāo)記物的量。另一種格式稱為“峰值圖”,只保留了譜圖中的峰值高度和質(zhì)量信息,使圖更清晰,使代表具有相近分子量的標(biāo)記物的信號更易于觀察。還有一種格式稱為“凝膠體視圖”,將峰值圖中的每個質(zhì)量轉(zhuǎn)化為基于每個峰值高度的灰度圖像,得到的圖看起來很像電泳凝膠體中的條帶。還有一種格式稱為“3-D覆蓋圖”,將幾個譜重疊,以研究相對峰值高度的微小變化。還有一種格式稱為“差別視圖”,比較兩個或多個譜,便于高亮顯示代表標(biāo)記物的信號和代表樣本間上下調(diào)節(jié)的標(biāo)記物的信號。任何兩個樣本的標(biāo)記物形狀(譜)可在一幅圖上可視地比較。用于生成數(shù)據(jù)集的數(shù)據(jù)可從這些及其它一些質(zhì)譜顯示格式中得到。
II.生成數(shù)據(jù)集一旦得到質(zhì)譜,就可以生成一個數(shù)據(jù)集,如已知數(shù)據(jù)集。數(shù)據(jù)集包含從生物樣本類集的質(zhì)譜中得到的數(shù)據(jù)。生成數(shù)據(jù)集的質(zhì)譜數(shù)據(jù)可以是原始的,未處理過的數(shù)據(jù)。例如,質(zhì)譜中已識別質(zhì)量值處的原始信號強度值可用來生成數(shù)據(jù)集。又例如,質(zhì)譜中的原始信號模式也可以用來生成數(shù)據(jù)集。
在另一些實施例中,數(shù)據(jù)在用來生成分類模型之前可以先進(jìn)行預(yù)處理。于是質(zhì)譜可用任何適當(dāng)?shù)姆椒ㄟM(jìn)行處理,然后再生成分類模型。例如,質(zhì)譜中的數(shù)據(jù)可作如下處理取信號強度的對數(shù)值,去除逸出值,去除較不可能與潛在標(biāo)記物有聯(lián)系的信號,去除低強度信號,等等。
在有些實施例中,數(shù)據(jù)集可包含原始數(shù)據(jù)或與每個質(zhì)譜的特定模式相關(guān)的預(yù)處理過的模式數(shù)據(jù)。例如,對一個包含許多信號峰的質(zhì)譜,信號峰的模式可以包含用來生成此質(zhì)譜的生物樣本的獨特特征。分類處理可以根據(jù)模式或模式段區(qū)分不同的譜,這些模式或模式段在分類模型進(jìn)行區(qū)分的各個不同類內(nèi)部對譜是一致的。電腦程序例如神經(jīng)網(wǎng)絡(luò)程序,可以接收與已知生物狀態(tài)關(guān)聯(lián)的已知樣本的多個質(zhì)譜。神經(jīng)網(wǎng)絡(luò)可用質(zhì)譜數(shù)據(jù)進(jìn)行訓(xùn)練,然后就可以區(qū)分屬于各自不同類的質(zhì)譜模式。然后,訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)就可以根據(jù)質(zhì)譜模式對與未知樣本關(guān)聯(lián)的質(zhì)譜進(jìn)行分類。
在其它實施例中,數(shù)據(jù)集包含關(guān)于質(zhì)譜中信號強度的數(shù)據(jù)。在這些實施例中,每個質(zhì)譜中的一些或全部信號都可以用來生成數(shù)據(jù)集。例如,低于譜圖類質(zhì)譜圖中所有信號(如,峰值)的強度可用來生成數(shù)據(jù)集。在優(yōu)選實施例中,先確定質(zhì)量-電荷比,然后用確定的質(zhì)量-電荷比從質(zhì)譜中選擇信號。所選信號的強度可用來生成數(shù)據(jù)集。通過只用每個質(zhì)譜中的部分信號的數(shù)據(jù)來生成數(shù)據(jù)集,所需要處理的數(shù)據(jù)點減少了,因而數(shù)據(jù)處理進(jìn)行得更快。代表可接受的標(biāo)記物的概率低的信號數(shù)據(jù)可從數(shù)據(jù)集中排除出去。
質(zhì)量-電荷比可以通過任何方式確定。例如,可通過比較不同生理狀態(tài)的不同類的質(zhì)譜確定。選擇可能可以區(qū)分這些類的信號的質(zhì)量-電荷比。比較可以手工進(jìn)行(如視覺比較)或由數(shù)字計算機自動進(jìn)行。例如,與樣本中不同類關(guān)聯(lián)的質(zhì)譜可以直觀地互相比較,以確定一個樣本類里-質(zhì)譜中一個質(zhì)量-電荷比處的信號強度是否明顯大于或小于另一個樣本類里同一個質(zhì)量-電荷比處的信號強度,由此指出潛在的區(qū)分表達(dá)。信號有差別處的質(zhì)量-電荷比就可以選擇出來。
例如,圖3顯示了log(2)歸一化的強度對確定的峰簇的曲線。這張圖顯示了以2為底的對數(shù)歸一的強度值。峰簇里的每個強度值都已經(jīng)減去了平均強度值,因此零值代表與均值無差別。Y軸上每單位表示與均值相差兩倍。使用圖3所示這樣的圖可以確定強上下調(diào)節(jié)的蛋白質(zhì)。圖3顯示了對數(shù)歸一化的強度作為不同信號簇函數(shù)的圖。圖中顯示了來自兩組不同樣本的質(zhì)譜的信號強度。例如,圖3中的峰簇22(x軸上)表示組A和組B的數(shù)據(jù)點之間大范圍的變化。這表明與峰簇22關(guān)聯(lián)的這個質(zhì)量-電荷比可確定為一個候選的標(biāo)記物位置。
另外,或進(jìn)一步,某些預(yù)先定義的標(biāo)準(zhǔn)可用來初步選擇某些信號或信號簇。選到的信號簇再用來確定特定的質(zhì)量-電荷比。例如,可自動選擇信號強度或信號強度均值高于或低于信號強度閾值的信號或信號簇。然后就可以確定與所選信號或信號簇關(guān)聯(lián)的質(zhì)量-電荷比。
包括收集質(zhì)譜數(shù)據(jù)、數(shù)據(jù)預(yù)處理以及處理預(yù)處理過的數(shù)據(jù)以生成分類模型的優(yōu)選方法可參考圖4和5描述。參照圖4,收集與不同生理狀態(tài)關(guān)聯(lián)的樣本質(zhì)譜(步驟27)。采集的樣本數(shù)盡量大。例如,在本發(fā)明中,采集的樣本數(shù)在100左右到1000左右(或者大于或小于這些值)。較佳地,所有用來生成譜的樣本都在同一條件下生成,從而樣本間的差別可以在譜中反映出來。
每個譜中相應(yīng)于潛在標(biāo)記物存在的信號都確定出來。每個這樣的信號都指定了一個質(zhì)量值。然后,第一組質(zhì)譜的每個質(zhì)譜中信噪比大于預(yù)設(shè)值的信號都被檢測出來(步驟28)。在典型的例子中,信噪比大于值S的信號都被檢測出來。值S可以是絕對或相對值。質(zhì)譜中這些質(zhì)量-電荷比下的信號聚到一個簇里(步驟30)。然后選出符合預(yù)設(shè)標(biāo)準(zhǔn)的信號簇。例如,在一實施例中,有預(yù)設(shè)數(shù)量信號的信號簇可被選出(步驟32)。少于預(yù)設(shè)值的簇則被丟棄。在典型的例子中,如果一個簇里的信號數(shù)少于質(zhì)譜數(shù)的50%,此信號簇就可以丟棄。在有些實施例中,選擇處理得到從少達(dá)20個到多于200個選出的信號簇。一旦信號簇被選出,這些信號簇的質(zhì)量-電荷比就可以確定(步驟34)。
一旦質(zhì)量-電荷比確定下來,此質(zhì)量-電荷比的“丟失信號”就可以確定。一些質(zhì)譜可能在所確定的質(zhì)量-電荷比處不顯示信號。這組質(zhì)譜或與這組質(zhì)譜關(guān)聯(lián)的樣本可進(jìn)行再分析,以確定在確定的質(zhì)量-電荷比處信號是否確實存在(步驟36)。對丟失信號添加估計值(步驟38)。對于一個簇中找不到任何信號的譜,根據(jù)跡線高度或噪聲值估計一個強度值。這個估計的強度值是使用者可選的。
參照圖5,一旦質(zhì)量-電荷比確定下來,所有質(zhì)譜在確定質(zhì)量值處對每個信號的強度值也確定(步驟46)。每個信號的強度值都?xì)w一化為0到100,以消除絕對幅度的影響(步驟48)。然后,對每個歸一化的信號強度取對數(shù)(如以2為底的) (步驟50)。取信號強度的對數(shù)可以去除測量中的歪斜。
對數(shù)歸一化的數(shù)據(jù)集接著用分類過程處理(步驟52),實施該過程的代碼由數(shù)字計算機執(zhí)行。代碼執(zhí)行后,分類模型就形成了(步驟54)。生成分類模型的進(jìn)一步描述如下。
III.生成分類模型由數(shù)字計算機執(zhí)行的代碼實施的分類過程可處理數(shù)據(jù)集。代碼可由數(shù)字計算機執(zhí)行以產(chǎn)生分類模型。代碼可存儲于任何適合的計算機可讀介質(zhì)。計算機可讀介質(zhì)的實例如磁,電,或光盤,磁帶,記憶棒,芯片,等等。代碼可用任何合適的計算機編程語言書寫,包括C,C++,等等。
數(shù)字計算機可以是微機,小型機或大型機,使用標(biāo)準(zhǔn)或?qū)iT的操作系統(tǒng),比如WindowsTM系列操作系統(tǒng)。另一部分實施例中,數(shù)字計算機可以只是一個或多個微處理器。數(shù)字計算機與用來生成質(zhì)譜的質(zhì)譜儀可以是分離的?;蛘撸瑪?shù)字計算機可以耦合或物理集成到質(zhì)譜儀中。質(zhì)譜數(shù)據(jù)可手工或自動從質(zhì)譜儀傳送到數(shù)字計算機。例如,在一實施例中,可先從大量質(zhì)譜得到一個已知數(shù)據(jù)集。這個已知數(shù)據(jù)集然后被手工輸入執(zhí)行分類過程代碼的數(shù)字計算機中。另一種實施例中,質(zhì)譜數(shù)據(jù)的生成和采集、數(shù)據(jù)預(yù)處理,以及用分類過程處理預(yù)處理過的數(shù)據(jù),都可以用同一個物理計算設(shè)備進(jìn)行。
有些實施例中,已知數(shù)據(jù)集可被定為訓(xùn)練集,可為分類模型或提前形成的分類模型“訓(xùn)練”一個前體。分類模型可像生成那樣被訓(xùn)練并進(jìn)行學(xué)習(xí)。例如,在神經(jīng)網(wǎng)絡(luò)中,已知數(shù)據(jù)集可用來訓(xùn)練神經(jīng)網(wǎng)絡(luò),使之識別輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)類間的差別。初始分類模型生成后,可用更大數(shù)量的樣本來進(jìn)一步訓(xùn)練和提煉分類模型,以使它能更準(zhǔn)確地區(qū)分用來生成分類模型的類。
本發(fā)明中,附加的數(shù)據(jù)可用于生成分類模型。附加數(shù)據(jù)可以相關(guān)于質(zhì)譜也可以不相關(guān)。例如,在有些實施例中,預(yù)存在的標(biāo)記物數(shù)據(jù)可附加用于已知數(shù)據(jù)集來形成分類模型。例如,得到一類前列腺癌病人樣本的質(zhì)譜和一類沒有前列腺癌病人樣本的質(zhì)譜。這些質(zhì)譜可形成一組已知數(shù)據(jù)集。用這組已知數(shù)據(jù)集和預(yù)存在的標(biāo)記物數(shù)據(jù),例如預(yù)存在的PSA診斷數(shù)據(jù)(如,PSA臨床化驗數(shù)據(jù)),可生成分類模型。附加的預(yù)存在的PSA診斷數(shù)據(jù)可用來協(xié)助區(qū)分質(zhì)譜以形成分類模型。例如,可估計每個質(zhì)譜來觀察相應(yīng)于PSA的質(zhì)量-電荷比處的信號是否與前列腺癌病人的信號強度特性更接近,還是與非前列腺癌病人的特性更接近。該信息有助于對前列腺癌病人或非前列腺癌類指定質(zhì)譜及其相應(yīng)的樣本。在其它實施例中,被取生物樣本的人的非質(zhì)譜數(shù)據(jù),如性別、年齡、等等,也可以用來形成分類模型。例如,如果男性比女性更容易患某種特定疾病,則此信息也可以用來幫助區(qū)分樣本并形成分類模型。
任何適合的分類處理都可用于本發(fā)明。例如,分類處理可以是分級分類處理,如分類和回歸樹處理或多變量統(tǒng)計分析。多變量統(tǒng)計分析同時觀察幾個變量間關(guān)系的模式。多變量統(tǒng)計分析的例子包括辨別函數(shù)分析和簇分析等已知處理。辨別函數(shù)分析是基于每組前面的觀察指定組的觀察的分析方法。簇分析是把數(shù)據(jù)間的變化用一系列集合表示的統(tǒng)計方法。例如,生物上,這些集通常以分級形式組織并用一個樹狀圖表示,稱為系統(tǒng)樹圖。一些簇分析類型及其它分類處理在Jain等人的下面文章里有敘述,“Statistical PatternRecognitionA Review”,IEEE Transactions on Pattern Analysis andMachine Intelligence,Vol.22,No.1,January 2000.這篇文章在此處完整引用。
或者,分類處理可以使用非線性分類處理,如人工神經(jīng)網(wǎng)絡(luò)分析。人工神經(jīng)網(wǎng)絡(luò)分析可用已知數(shù)據(jù)集進(jìn)行訓(xùn)練。一般來說,人工神經(jīng)網(wǎng)絡(luò)可以根據(jù)幾個可能影響它的其它輸入變量預(yù)測一個輸出變量的值。此預(yù)測通過從一個已知模式集中選擇一個看起來與一種特定情況最相關(guān)的模式得到。顧名思義,人工神經(jīng)網(wǎng)絡(luò)有幾個神經(jīng)元(單元)和它們之間的聯(lián)系。這些單元根據(jù)功能分類到不同的三個層或組。第一組形成輸入層,接收輸入到系統(tǒng)里的數(shù)據(jù)。第二組形成輸出層,輸出代表輸出模式的輸出數(shù)據(jù)。第三組包括很多中間層,也稱為隱含層,把輸入模式轉(zhuǎn)化為輸出。
作為例子,神經(jīng)網(wǎng)絡(luò)可被訓(xùn)練為區(qū)分與有病狀態(tài)和無病狀態(tài)關(guān)聯(lián)的激光解吸附質(zhì)譜。然后,用激光解吸附處理生成待測生物樣本的質(zhì)譜并把相關(guān)于此質(zhì)譜的數(shù)據(jù)輸入訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)。訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)就可以確定測試生物樣本與有病狀態(tài)還是無病狀態(tài)有關(guān)。
本發(fā)明中,分類處理較佳地包括分級、回歸分類處理,例如分類和回歸樹處理。在本發(fā)明中,分類和回歸樹處理由數(shù)字計算機執(zhí)行。一個可作為例子的分類和回歸樹程序是CART4.0,可從Salford Systems,Inc.購買(www.salford-systems.com)。
二進(jìn)遞歸分類處理是一個特別有效的分類和回歸樹處理。此處理是二進(jìn)的,因為每個父節(jié)點總是恰巧分為兩個子節(jié)點,它是遞歸的,因為此處理可循環(huán)將每個子節(jié)點作為下一個父節(jié)點。為了給一個已知數(shù)據(jù)集分類,對已知數(shù)據(jù)集提問。在本發(fā)明中,待分類的數(shù)據(jù)是相應(yīng)于生物樣本類集的質(zhì)譜。每個質(zhì)譜可當(dāng)作一個待分類的“實例”。可用來對實例進(jìn)行分類的問題可以是“質(zhì)量-電荷比X處的信號強度比Y處大嗎?”每個問題將已知數(shù)據(jù)集分為有更多共性的兩組。一旦找到一個最佳劃分,分類和回歸樹處理對每個子節(jié)點重復(fù)搜索處理,繼續(xù)遞歸,直到無法再進(jìn)行劃分或終止。劃分只有當(dāng)一個特定節(jié)點只有一例或此節(jié)點中所有實例都是同一類型時才會停止。
對數(shù)據(jù)集提出的問題可由使用者決定或由數(shù)字計算機自動決定。在有些實施例中,問題可由數(shù)字計算機任意產(chǎn)生,數(shù)據(jù)劃分質(zhì)量確定此問題是否可接受。例如,可對數(shù)據(jù)提出一個問題。如果分類結(jié)果對此例有統(tǒng)計顯著性,此問題就可以保留并用于生成分類和回歸樹。分類和回歸樹處理找出分類數(shù)據(jù)所需問題的最佳數(shù)目,補償每次樣本觀察時的隨機誤差影響。
分類和回歸樹處理觀察分析中包含的所有預(yù)測變量的所有可能的劃分。例如,對有215個實例和19個預(yù)測變量的數(shù)據(jù)集,處理考慮215乘以19一共是4085種可能的劃分。典型地,在形成分類和回歸樹時,所有這樣的劃分都要考慮。因此,形成的分類和回歸樹處理在生成分類模型時考慮許多不同的預(yù)測參量。例如,在典型實施例中,形成分類模型時,類集的所有質(zhì)譜中超過100個質(zhì)量-電荷比處的信號數(shù)據(jù)都進(jìn)行了考慮。作為比較,前面提到過的微分表達(dá)分析只考慮一個預(yù)測參量。因此,由于在形成分類模型時使用了每個質(zhì)譜中更多的數(shù)據(jù),分類和回歸樹實施例比其它分類方法準(zhǔn)確性更高。
為檢查此模型的準(zhǔn)確性,分類和回歸樹處理可以使用計算機增強技術(shù),稱為交叉確認(rèn)。在典型的交叉確認(rèn)處理中,先生成一棵大樹,然后剪除回去。數(shù)據(jù)集分成10個大致相等的部分,每個部分包含所分析的生物狀態(tài)的相近的分布。數(shù)據(jù)的前9個部分用來建立最大可能樹。剩下的一部分用來獲得所選子樹錯誤率的初始估計。對數(shù)據(jù)的其它9/10重復(fù)同樣的過程(生成最大可能樹),而用另外1/10部分作為測試樣本。此過程一直持續(xù)到數(shù)據(jù)的每一部分都作為測試樣本保留過一次。10個最小測試樣本的結(jié)果接著合起來形成每個可能大小的樹的錯誤率。這些錯誤率應(yīng)用于基于整個數(shù)據(jù)集的樹。交叉確認(rèn)提供了樹的獨立預(yù)測準(zhǔn)確性的可靠估計。即使無法得到獨立測試樣本,也可以預(yù)測樹分類全新數(shù)據(jù)(例如,來自大量未知樣本的數(shù)據(jù))的準(zhǔn)確度。
生成的分類和回歸樹表示了那些預(yù)測參量(如果有的話)對樣本組間的差異有作用。分類和回歸樹可用來分類(預(yù)測一個實例屬于那一組),也可以用來回歸(預(yù)測一個特定值)。也可以用來識別對區(qū)分所分析的類有重要作用的特性。例如,分類模型可能指明特定質(zhì)量-電荷比下一個或多個信號強度值分別或其組合是區(qū)分所分析的類的重要特性。
分類和回歸樹圖示地顯示了數(shù)據(jù)間發(fā)現(xiàn)的關(guān)系。分類和回歸樹處理的一個基本輸出就是樹本身。樹可以作為分類模型的一方面,可由用戶可視地進(jìn)行分析。與神經(jīng)網(wǎng)絡(luò)分析這樣的非線性技術(shù)不同,樹提供的可視表達(dá)使分類分析很易于理解和接受。因此,與訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)特性這樣的“黑箱”分類模型相比,用戶更傾向于相信決定樹的結(jié)果。這使得分類和回歸樹成為更愿意接受的分類模型,無論是對不同的健康監(jiān)護(hù)和常規(guī)人員(如,食品和藥物管理),以及希望對生成分類模型的分析有詳細(xì)理解的病人,都是如此。樹也可以用來發(fā)現(xiàn)所分析的數(shù)據(jù)和生物狀態(tài)間從前不知道的聯(lián)系。
分類和回歸樹處理與神經(jīng)網(wǎng)絡(luò)這樣的分類處理相比還有其它優(yōu)點。例如,分類和回歸樹程序比神經(jīng)網(wǎng)絡(luò)更有效率,因為后者常常需要傳遞大量訓(xùn)練集數(shù)據(jù),有時甚至數(shù)以千計。而建立決定樹所需要的傳遞量不會多于樹的層數(shù)。對樹的層數(shù)沒有預(yù)定限制,雖然由樹的深度和寬度衡量的樹的復(fù)雜性隨預(yù)測參量的數(shù)目增加而增加。
應(yīng)用分類和回歸樹模型,還可識別區(qū)分類的特性。數(shù)據(jù)中識別出的特性可以是所分析的生物狀態(tài)的特性。例如,分類模型可指出特性的一種組合會與特定的生理狀態(tài)相聯(lián)系。例如,模型指明不同質(zhì)量-電荷比下特定的信號強度將有病狀態(tài)和無病狀態(tài)區(qū)分開來。與傳統(tǒng)的差別分析處理相比,本發(fā)明中分析了許多不同的參量。分類模型可以確定用來區(qū)分所分析的生物狀態(tài)一個或多個預(yù)測參量。
IV.使用分類模型分類模型可用來將未知樣本分到一個生物狀態(tài)中。用這種方法,待測樣本的質(zhì)譜與關(guān)聯(lián)于某種特定生理狀態(tài)的分類模型進(jìn)行比較,以確定此樣本是否適合分到此生物狀態(tài)。可得到未知樣本的質(zhì)譜,從此未知樣本的質(zhì)譜得到的數(shù)據(jù)可輸入數(shù)字計算機。輸入的數(shù)據(jù)可用分類模型處理。然后分類模型可以將未知樣本分為某一特定類。此類可能與某一特定生物狀態(tài)相關(guān)聯(lián),而患者就可以診斷為具有那種特定生物狀態(tài)。
此方法特別有臨床應(yīng)用價值。例如,在藥物發(fā)現(xiàn)過程中,人們希望能確定一個候選分子在生物體系統(tǒng)中是否與一種特定藥品或一類藥品(例如,一類seratonin再起抑制劑)產(chǎn)生的生物效果相同。首先產(chǎn)生分類模型,它可區(qū)分暴露于感興趣的藥品或一類藥品的生物系統(tǒng)(如,人或?qū)嶒瀯游?。然后,生物系統(tǒng)置于實驗分子中,產(chǎn)生系統(tǒng)樣本的質(zhì)譜。然后質(zhì)譜分類為屬于或不屬于測試的已知藥品或一類藥品的類。如果候選分子被劃為這一類,此信息對決定是否對此藥物進(jìn)行進(jìn)一步研究很有用。
在其它應(yīng)用中,開發(fā)的分類模型可以區(qū)分不同的毒性和無毒生物狀態(tài)。毒性狀態(tài)可能由于例如暴露于藥物或一類藥物引起。也就是說,可以開發(fā)分類模型來指明一種藥或一類藥是否會在生物系統(tǒng)(如,體內(nèi)或試管內(nèi)模型系統(tǒng),包括肝中毒)中引起中毒反應(yīng)。然后,可對此系統(tǒng)測試研發(fā)中或臨床試驗中的藥物是否有毒。此信息在藥物開發(fā)的毒性研究中有用。
在其它應(yīng)用中,開發(fā)的分類模型可以區(qū)分對某種藥物是否有反應(yīng)的人群。然后,在給不知道是否對藥物有反應(yīng)的人服藥之前,可以用質(zhì)譜儀測試此人的樣本,并且劃分此人為對此藥有反應(yīng)或無反應(yīng)類。
在其它應(yīng)用中,開發(fā)的分類模型可以區(qū)分有沒有某種疾病的人。然后一個接受診斷的人可以提交一個樣本,用于分類此人為有病還是沒病。這樣,此方法在臨床診斷中也有用。
一實施例用來分析癌癥。病理學(xué)家根據(jù)組織表現(xiàn)給癌癥分級。低級癌癥特性有增大的細(xì)胞核,其細(xì)胞核/細(xì)胞質(zhì)比有不太大的增大,有絲分裂數(shù)目少,不太大的細(xì)胞異質(zhì),以及一般正常結(jié)構(gòu)的保持。高級癌癥特性有增大的形狀怪異的細(xì)胞核,其細(xì)胞核/細(xì)胞質(zhì)比很高;有絲分裂數(shù)目增加,其中有些看起來非典型;與正常結(jié)構(gòu)類似很少或沒有。發(fā)展一個分類模型可以區(qū)分一個生物樣本是沒病、低級癌癥,還是高級癌癥是很有用的,因為這種診斷能確定療法,還可以預(yù)測預(yù)后情況。樣本可以是懷疑區(qū)域的固體組織切片或好的針吸樣本。不過,在另一實施例中,樣本可從被測個體組的更簡單的采集源得到,比如尿、血液或其它體液。這對于會分泌細(xì)胞或蛋白質(zhì)到這些液體中的癌癥特別有效,如膀胱癌、前列腺癌和肺癌。當(dāng)這些狀態(tài)的分類模型建立后,就可以用于分類待測病人的樣本作診斷。在其它應(yīng)用中,開發(fā)的分類模型用于區(qū)分個體類別是否有一種非病理的特定物理或生理特性。然后,對此特性未知的樣本可通過測試此個體的一個樣本并將其譜分為在或不在有此特性的類里而進(jìn)行分類。
分類模型也可以用來估計一個未知樣本準(zhǔn)確地分類為屬于對應(yīng)于一個生理狀態(tài)的類別的概率。例如,在分類和回歸樹中,可以確定可能的誤分類的概率。作為例子,用分類和回歸樹模型區(qū)分一個患者的未知樣本是屬于有病態(tài)還是無病態(tài)。此模型可以估計誤分類的概率。例如,如果誤分類概率低于10%,則可以通知患者有90%的概率患有此病。
V.包含計算機可讀介質(zhì)的系統(tǒng)本發(fā)明的一些實施例是關(guān)于包含計算機可讀介質(zhì)的系統(tǒng)。一個包含計算機可讀介質(zhì)和數(shù)字計算機的示例系統(tǒng)的方框圖在圖6中顯示。系統(tǒng)70包括耦合到數(shù)字計算機74的質(zhì)譜儀72。顯示器76如視頻顯示器和計算機可讀介質(zhì)78可操作性地耦合到數(shù)字計算機74。顯示器76可用來顯示數(shù)字計算機74產(chǎn)生的輸出。計算機可讀介質(zhì)78可用來存儲數(shù)字計算機74所執(zhí)行的指令。
質(zhì)譜儀可操作性地耦合到數(shù)字計算機74,而不需要物理上或電耦合。例如,可從質(zhì)譜儀得到數(shù)據(jù)(如上所述),然后數(shù)據(jù)可由操作員手工或自動輸入數(shù)字計算機74。在其它實施例中,質(zhì)譜儀72可自動把數(shù)據(jù)傳送到可被處理的數(shù)字計算機74中。例如,質(zhì)譜儀72可從一個或多個生物樣本產(chǎn)生原始數(shù)據(jù)(如數(shù)據(jù)飛行時間)。然后數(shù)據(jù)傳送到數(shù)字計算機74,在那里進(jìn)行預(yù)處理或處理。處理數(shù)據(jù)的指令可從計算機可讀介質(zhì)78中得到。來自質(zhì)譜儀的數(shù)據(jù)處理過后,輸出在顯示器76上顯示。
計算機可讀介質(zhì)78可以包含任何適于處理來自質(zhì)譜儀72的數(shù)據(jù)的指令。例如,計算機可讀介質(zhì)78可以包含將來自未知生物樣本質(zhì)譜的數(shù)據(jù)輸入數(shù)字計算機74的計算機代碼。然后數(shù)據(jù)可以用分類模型處理。分類模型可以估計此未知樣本被準(zhǔn)確劃分為某一生物狀態(tài)表征的類的概率。
盡管方框圖將質(zhì)譜儀72、數(shù)字計算機74、顯示器76和計算機可讀介質(zhì)78用分開的框圖表示,但可以理解,這些部件中一個或多個可以在同一個或不同的框里表示。例如,在有些實施例里,數(shù)字計算機74和計算機可讀介質(zhì)76可在同一個框里,而質(zhì)譜儀72和顯示器76在另外的框里。還有的實施例中,所有的部件72、74、76、78都可以放在同一個單元里。
例子從一個生物樣本集的一些生物樣本中生成大量質(zhì)譜。此樣本集包括來自一般病人的第一類血清樣本和來自前列腺癌病人的第二類血清樣本。每個病人的血清樣本都通過一個表面增強激光解吸附/電離系統(tǒng),此系統(tǒng)可從Ciphergen Biosystems,Inc.of Fremont,California購得。CiphergenBiosystem的ProtienChip技術(shù)也用于本例。關(guān)于ProtienChip技術(shù)的進(jìn)一步介紹在網(wǎng)站www.ciphergen.com上找到。每個樣本的輸出結(jié)果是信號強度與質(zhì)量-電荷比的質(zhì)譜圖。離散的峰代表了質(zhì)譜中的信號。
特定質(zhì)量-電荷比處的信號強度對應(yīng)于帶有此質(zhì)量-電荷比的蛋白質(zhì)數(shù)量。例如,高信號強度表明高的蛋白質(zhì)濃度。每個質(zhì)譜里的信號都進(jìn)行了定位、定量和選擇。在此例中,如果質(zhì)譜段的強度值至少是背景噪聲的兩倍,則認(rèn)為是可接受的。所有質(zhì)譜中大約在同樣的質(zhì)量-電荷比下的信號被簇集起來。分簇以后,大約共確定了250個信號簇,并標(biāo)記為P1到P250。P1到P250中的每個信號簇都對應(yīng)于一個特定的質(zhì)量-電荷比并被定性為“預(yù)測參量”。
每個質(zhì)譜在確定質(zhì)量-電荷比下的信號強度組成了已知數(shù)據(jù)集。這些信號強度被輸入分類和回歸樹程序CART4.0,可從Salford Systems,Inc.(www.salford-systems.com)購得。程序由數(shù)字計算機執(zhí)行。數(shù)字計算機生成一個分類和回歸樹。利用這些數(shù)據(jù),每個樣本都分類為正常或癌癥。
質(zhì)譜數(shù)據(jù)輸入后,數(shù)字計算機產(chǎn)生一個圖6那樣的樹。此例中,類0是正常類而類1是癌癥類。每個質(zhì)譜都可以定性為一個“實例”,在樹中進(jìn)行分類。
樹中的每個方框代表一個“節(jié)點”。最頂部的節(jié)點1稱為根節(jié)點。決定樹從根節(jié)點開始生長,每層將數(shù)據(jù)分開以形成新的節(jié)點。樹枝連接新節(jié)點。不再分裂的節(jié)點稱為終端節(jié)點。圖6的樹中的終端節(jié)點標(biāo)記為終端節(jié)點1到7。如下面將詳細(xì)解釋的,終端節(jié)點1到7可用來對未知樣本分類并因此用于預(yù)測。
在每個節(jié)點中,大部分設(shè)定了整個節(jié)點的分類。例如,終端節(jié)點1有四個患者。這四個患者都有癌癥。因此終端節(jié)點1就定性為一個癌癥節(jié)點。由于所有的實例都有同樣的值(癌癥),此節(jié)點就定性為“純的”并不再分裂。如果終端節(jié)點1含有三個癌癥患者和一個一般患者,由于其中大部分患者是癌癥患者,此節(jié)點仍會被定性為癌癥節(jié)點。此時,這一個一般患者就認(rèn)為是被誤分類了。
圖6中,每個節(jié)點都含有關(guān)于此節(jié)點的實例數(shù)和生物狀態(tài)癌癥的分布的信息。根結(jié)點(節(jié)點1)的實例是質(zhì)譜數(shù)據(jù)集中所有的實例。節(jié)點1含有194個實例,其中96個正常,98個癌癥。節(jié)點1分裂為兩個新節(jié)點,節(jié)點2和節(jié)點5。數(shù)據(jù)分裂通過確定簇P127的平均信號強度是否小于或等于3.2946確定。平均信號強度以及值3.2946都是相對尺度。如果此問題的答案是對,則相應(yīng)的實例就放到節(jié)點2。如果答案是不,則相應(yīng)的實例就放到節(jié)點5。此例中,85個癌癥患者和11個一般患者的質(zhì)譜在與預(yù)測參量P127關(guān)聯(lián)的質(zhì)量-電荷比處的信號強度小于或等于3.2946,因此被置于節(jié)點2。85個一般患者和13個癌癥患者的質(zhì)譜在與預(yù)測參量P127關(guān)聯(lián)的質(zhì)量-電荷比處的信號強度大于3.2946,置于節(jié)點5。其它節(jié)點處類似地使用不同的分類規(guī)則進(jìn)行操作,從而形成樹。
分類和回歸樹的預(yù)測效果可以參看表1和表2。
分類和回歸樹程序?qū)⒁阎獢?shù)據(jù)集分成兩組。大約90%的數(shù)據(jù)用作學(xué)習(xí)集,大約10%的數(shù)據(jù)用作測試集。分類和回歸樹先用學(xué)習(xí)集數(shù)據(jù)生成。樹生成后,用剩下的10%數(shù)據(jù)進(jìn)行測試,以觀察分類和回歸樹分類數(shù)據(jù)的準(zhǔn)確性。參看表1,用生成的分類和回歸樹,所有的學(xué)習(xí)集數(shù)據(jù)都被正確分類。參看表2,正常情況和癌癥情況測試數(shù)據(jù)的百分?jǐn)?shù)分類錯誤率分別為9.38%和11.22%。反過來,正常情況和癌癥情況的分類成功率分別為90.62%和88.78%。
像這樣的分類成功率表明分類和回歸樹對分類未知生物樣本是高度準(zhǔn)確的模型。在分類處理中,分類機制里考慮了多個預(yù)測參量。質(zhì)譜里可以用比前述差別分析法多得多的數(shù)據(jù)來對與質(zhì)譜關(guān)聯(lián)的樣本進(jìn)行分類,前述方法只使用了單一質(zhì)量-電荷比處的平均信號強度來分類一個測試患者。因而,此分類模型在分類測試患者時比許多傳統(tǒng)模型更為準(zhǔn)確。
樹一旦生成,就可以對未知樣本進(jìn)行分類,從樹根(頂)開始,沿樹枝路徑前進(jìn),直到遇到終端節(jié)點。路徑通過對未知樣本質(zhì)譜中的預(yù)測參量值應(yīng)用分裂規(guī)則確定。例如,如果一個測試病人未知血清樣本的質(zhì)譜在預(yù)測參量P127、P193和P187的質(zhì)量-電荷比處的信號強度分別為1.0、0.05、0.9,則測試病人將被分類到節(jié)點1、節(jié)點2、節(jié)點3,然后最終達(dá)到終端節(jié)點1。終端節(jié)點1是癌癥節(jié)點,于是病人將被分類到癌癥病人。
圖7顯示了一些預(yù)測參量(如信號簇)中每個變量重要性的表格。變量重要性表格通過預(yù)測參量在建構(gòu)分類和回歸樹中的重要性對它們分級。如果一個特定預(yù)測參量可以強烈區(qū)分質(zhì)譜數(shù)據(jù),則它在構(gòu)建分類樹中是重要的。為了計算一個參量的重要性分值,CART觀察了每個參量作為初級分類代替物的改進(jìn)測量屬性。這些改進(jìn)的值在每個節(jié)點處加起來,然后匯總,然后相對于效果最佳的參量標(biāo)定。改進(jìn)最大的參量得分100,所有其它參量都得到一個較低的分?jǐn)?shù),直到0分。
圖7中,分類模型表明在生成分類和回歸樹時,預(yù)測參量P36,P127和P90比其它參量更重要。因此它們在區(qū)分癌癥和無癌癥類時也比其它參量更重要。與這些預(yù)測參量相關(guān)聯(lián)的質(zhì)量-電荷比也與可以將患有前列腺癌和沒有前列腺癌的樣本區(qū)分開的潛在標(biāo)記物相關(guān)。因此,分類模型可用來確定一個或多個可以用來區(qū)分所分析的類的標(biāo)記物。
樹模型的有效性可由圖8和圖9得到確定。圖8中的視圖是凝膠視圖,而圖9中的視圖是軌跡視圖。譜放縮到P127在質(zhì)量-電荷比為5075道爾頓(電量為+1)處代表的信號。圖8和9表明六個前列腺癌患者和六個無前列腺癌的患者樣本中的標(biāo)記物在相應(yīng)于預(yù)測參量P127的質(zhì)量值為5075道爾頓處區(qū)分表達(dá)了。如圖6所示,預(yù)測參量P127是樹中的第一個節(jié)點。又如圖7所示,預(yù)測參量P127能比其它預(yù)測參量更有效地區(qū)分前列腺癌患者和無前列腺癌的患者。
前述都是關(guān)于本發(fā)明的某些優(yōu)選實施例,本發(fā)明的其它及進(jìn)一步的實施例仍可從本發(fā)明的基本范圍中作出。這些改動的實施例也應(yīng)歸于本發(fā)明的范圍內(nèi)。本發(fā)明一個或多個實施例的特性可與本發(fā)明其它實施例的一個或多個特性組合,但仍不離開本發(fā)明的范圍。
本申請中引用的所有出版物(如網(wǎng)站)和專利文件都作為參考整個合并進(jìn)來,以期達(dá)到每個出版物或?qū)@募挤謩e引用至同等程度。通過將它們引用到此申請里并不表示任何特定參考是他們發(fā)明的“原有技術(shù)”。
權(quán)利要求
1.一個用數(shù)字計算機分析質(zhì)譜的方法,其特征在于,此方法包括a)將從來自大量樣本的質(zhì)譜中得到的數(shù)據(jù)集輸入數(shù)字計算機,其中每個樣本被或?qū)⒈恢付橐粋€包含兩個或更多類的類集中的一個類,每類由一個不同的生物狀態(tài)表征,而其中每個質(zhì)譜包含的數(shù)據(jù)代表信號強度作為飛行時間,質(zhì)量-電荷比或由飛行時間或質(zhì)量-電荷比衍生出的值的函數(shù);且b)形成一個分類模型,區(qū)分類集中的類,其中形成包括通過執(zhí)行代碼分析數(shù)據(jù),這些代碼實施含有遞歸劃分處理的分類處理。
2.如權(quán)利要求1所述的方法,其特征在于,所述質(zhì)譜選自一組包括MALDI譜,表面增強激光解吸附/電離譜和電霧電離譜。
3.如權(quán)利要求1所述的方法,其特征在于,所述的類集恰由兩個類組成。
4.如權(quán)利要求1所述的方法,其特征在于,所述樣本包括選自多肽和核酸的生物分子。
5.如權(quán)利要求1所述的方法,其特征在于,所述的樣本來自真核細(xì)胞,原核細(xì)胞或病毒。
6.如權(quán)利要求1所述的方法,其特征在于,所述的不同生物狀態(tài)包括正常狀態(tài)和病理狀態(tài)。
7.如權(quán)利要求1所述的方法,其特征在于,所述的不同生物狀態(tài)包括無病,低級癌癥和高級癌癥。
8.如權(quán)利要求1所述的方法,其特征在于,所述的不同生物狀態(tài)包括給藥狀態(tài)和未給藥狀態(tài)。
9.如權(quán)利要求1所述的方法,其特征在于,所述的不同生物狀態(tài)包括藥物有反應(yīng)狀態(tài)和藥物無反應(yīng)狀態(tài)。
10.如權(quán)利要求1所述的方法,其特征在于,所述的不同生物狀態(tài)包括中毒狀態(tài)和無毒狀態(tài)。
11.如權(quán)利要求10所述的方法,其特征在于,所述的中毒狀態(tài)由于暴露于一種藥物而發(fā)生。
12.如權(quán)利要求1所述的方法,其特征在于,所述的數(shù)據(jù)集是已知數(shù)據(jù)集,數(shù)據(jù)集輸入數(shù)字計算機前,每個樣本都指定到一類中。
13.如權(quán)利要求1所述的方法,其特征在于,所述的生成分類模型包括使用預(yù)先存在的標(biāo)記物數(shù)據(jù)生成分類模型。
14.如權(quán)利要求1所述的方法,其特征在于,所述的數(shù)據(jù)集通過以下方法生成探測質(zhì)譜中的信號,每個質(zhì)譜含有的數(shù)據(jù)代表信號強度作為質(zhì)量-電荷比的函數(shù);把質(zhì)量-電荷比相近的信號集簇為信號簇;選擇帶有至少一個預(yù)定信號數(shù)的信號簇,其信號強度大于一個預(yù)定值;確定對應(yīng)于選定信號簇的質(zhì)量-電荷比;并用確定的質(zhì)量-電荷比處的信號強度生成數(shù)據(jù)集。
15.如權(quán)利要求1所述的方法,其特征在于,所述的形成分類模型包括至少一個可以區(qū)分不同的生物狀態(tài)并學(xué)習(xí)的識別特性。
16.如權(quán)利要求1所述的方法,其特征在于,所述的分類處理是二進(jìn)遞歸劃分處理。
17.如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括c)詢問分類模型以確定一個或多個特性能否區(qū)分不同的生物狀態(tài)。
18.如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括c)用大量樣本重復(fù)a)和b)。
19.如權(quán)利要求1所述的方法,其特征在于,所述的分類處理是一個分類和回歸樹處理。
20.如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括形成數(shù)據(jù)集,其中形成數(shù)據(jù)集包括從質(zhì)譜中獲得原始數(shù)據(jù),然后處理原始數(shù)據(jù)形成數(shù)據(jù)集。
21.如權(quán)利要求1所述的方法,其特征在于,所述不同類選自暴露于藥物、暴露于一類藥物中的一種,和沒有暴露于藥物或一類藥物中的一種。
22.如權(quán)利要求1所述的方法,其特征在于,所述的每個質(zhì)譜包括的數(shù)據(jù)代表信號強度作為質(zhì)量-電荷比或由質(zhì)量-電荷比衍生出的值的函數(shù)。
23.使用數(shù)字計算機將一個未知樣本分為由一種生物狀態(tài)表征的類別的方法,其特征在于,此方法包括a)將從未知樣本質(zhì)譜得到的數(shù)據(jù)輸入數(shù)字計算機;并b)用權(quán)利要求1所述的方法所形成的分類模型處理質(zhì)譜數(shù)據(jù),將此未知樣本分為由一種生物狀態(tài)表征的類別。
23.如權(quán)利要求23所述的方法,其特征在于,所述的類別由疾病狀態(tài)表征。
24.如權(quán)利要求23所述的方法,其特征在于,所述的不同生物狀態(tài)包括無病、低級癌癥和高級癌癥。
25.如權(quán)利要求23所述的方法,其特征在于,所述類別由暴露于一類藥物中的一種藥物表征。
26.如權(quán)利要求23所述的方法,其特征在于,類別由對一種藥的反應(yīng)表征。
27.如權(quán)利要求23所述的方法,其特征在于,所述類別由毒性狀態(tài)表征。
28.用數(shù)字計算機估計一個未知樣本被準(zhǔn)確分類為屬于一種生物狀態(tài)表征的類別的概率的方法,其特征在于,此方法包括a)將從未知樣本質(zhì)譜得到的數(shù)據(jù)輸入數(shù)字計算機;并b)用權(quán)利要求1所述的方法,所形成的分類模型處理質(zhì)譜數(shù)據(jù),估計該未知樣本被準(zhǔn)確分類為由一種生物狀態(tài)表征的類別的概率。
29.計算機可讀介質(zhì),其特征在于,包括a)將從未知樣本質(zhì)譜得到的數(shù)據(jù)輸入數(shù)字計算機的代碼;及b)用權(quán)利要求1所述的方法,所形成的分類模型處理質(zhì)譜數(shù)據(jù),將未知樣本分為一種生物狀態(tài)表征的類別的代碼。
30.一個系統(tǒng),其特征在于,包括氣相離子分光計;適于處理來自氣相離子分光計的數(shù)據(jù)的數(shù)字計算機;以及權(quán)利要求29所述的與數(shù)字計算機協(xié)同運作的計算機可讀介質(zhì)。
31.如權(quán)利要求30所述的系統(tǒng),其特征在于,所述的氣相離子分光計適于執(zhí)行激光解吸附電離處理。
32.計算機可讀介質(zhì),其特征在于,包括a)將從未知樣本質(zhì)譜得到的數(shù)據(jù)輸入數(shù)字計算機的代碼;及b)用權(quán)利要求1所述的方法所形成的分類模型處理質(zhì)譜數(shù)據(jù),估計未知樣本被準(zhǔn)確劃分為由一種生物狀態(tài)表征的類別的概率的代碼。
33.一種系統(tǒng),其特征在于,包括氣相離子分光計;適于處理來自氣相離子分光計的數(shù)據(jù)的數(shù)字計算機;以及權(quán)利要求32所述的與數(shù)字計算機協(xié)同運作的計算機可讀介質(zhì)。
34.如權(quán)利要求33所述的系統(tǒng),其特征在于,所述的氣相離子分光計適于執(zhí)行激光解吸附電離處理。
35.計算機可讀介質(zhì),其特征在于,包括a)輸入從大量樣本質(zhì)譜得到的數(shù)據(jù)的代碼,其中每個樣本被或?qū)⒈恢付橐粋€包含兩個或更多類的類集中的一個類,每類由一個不同的生物狀態(tài)表征,而其中每個質(zhì)譜包含的數(shù)據(jù)代表信號強度作為飛行時間、質(zhì)量-電荷比,或由飛行時間或質(zhì)量-電荷比衍生出的值的函數(shù);且b)用分類處理形成分類模型的代碼,此分類處理包括遞歸劃分處理,其中分類模型區(qū)分類集中的類。
36.如權(quán)利要求35所述的計算機可讀介質(zhì),其特征在于,所述的分類處理是分類和回歸樹處理。
37.一個系統(tǒng),其特征在于,包括氣相離子分光計;適于處理來自氣相離子分光計的數(shù)據(jù)的數(shù)字計算機;以及權(quán)利要求35所述的與數(shù)字計算機協(xié)同運作的計算機可讀介質(zhì)。
38.如權(quán)利要求37所述系統(tǒng),其特征在于,所述的氣相離子分光計適于執(zhí)行激光解吸附電離處理。
全文摘要
本文提出了一種用數(shù)字計算機分析質(zhì)譜的方法。此方法包括將從大量樣本中得到的質(zhì)譜數(shù)據(jù)集輸入數(shù)字計算機的方法。每個樣本都代表了一個包含兩個以上類的類集中的一個類,每個類都對應(yīng)于一種不同的生物狀態(tài)。本文接著提出了一個分類模型。此模型可以區(qū)分類集中的各個類。
文檔編號G06F19/00GK1623091SQ01822050
公開日2005年6月1日 申請日期2001年11月15日 優(yōu)先權(quán)日2000年11月16日
發(fā)明者C·D·保爾瑟, E·J·加文, L·布拉金斯基, W·E·里奇, 馮哲力 申請人:賽弗根生物系統(tǒng)股份有限公司