專利名稱::物質(zhì)的生物學、生物化學、生物物理或藥理學特性的預(yù)測方法
技術(shù)領(lǐng)域:
:本發(fā)明提供一種預(yù)測物質(zhì)的生物學、生物化學、生物物理或藥理學的特性的方法。具體而言,本發(fā)明提供預(yù)測物質(zhì)毒性的方法。
背景技術(shù):
:在當今的生物學研究中,"組學,,技術(shù)(例如代謝組學、毒理基因組學)被廣泛應(yīng)用于研究與實驗干^目關(guān)聯(lián)的分子和生物化學水平的變化。為了能夠?qū)@些干4^目關(guān)的變化進行檢測和數(shù)值分析(NA),通常利用各種預(yù)處理或編碼程序?qū)⒊跏嫉?組學"數(shù)據(jù)轉(zhuǎn)變?yōu)榈葮硕如?。然而,現(xiàn)有技術(shù)的編碼程序只應(yīng)用于特定的實驗沒計,并且只應(yīng)用于一種"組學"技術(shù)。如果考慮到當前新的組合應(yīng)用,則也需要新的適合的編碼程序。與藥物開發(fā)相關(guān)的"組學,,應(yīng)用涉及兩個重要問題(i)從應(yīng)用前景看,對于具有有限的樣本和平行樣本的真實干擾實驗尚沒有優(yōu)化的編碼,以及(ii)更加普遍的是,需要一種使"組學"譜和其它數(shù)據(jù)類型能夠組合數(shù)字編碼的編碼程序。
發(fā)明內(nèi)容本發(fā)明涉及數(shù)據(jù)編碼和整合,例如對"組學"鐠的數(shù)值分析。本發(fā)明提供了一種預(yù)測物質(zhì)的生物學、生物化學、生物物理或藥理學特性的方法,例如物質(zhì)的毒性。所述方法優(yōu)選包括以下步驟(a)提供樣本數(shù)據(jù);(b)通過編碼樣本數(shù)據(jù)來對樣本數(shù)據(jù)定標度(scaling);(c)將編碼的數(shù)據(jù)分類;以及U)提供基于分類結(jié)果的預(yù)測輸出。提供樣本數(shù)據(jù)的步驟優(yōu)選在將所提供的數(shù)據(jù)分區(qū)段的步驟(al)之前。所述數(shù)據(jù)優(yōu)選;l:相對于單位整數(shù)(wisetounitintegral)的歸一4fc才羊本以便將數(shù)據(jù)轉(zhuǎn)換成樣本i普。所述樣本諉是例如核磁共振(NMR)波譜圖,并且該滋潛圖優(yōu)選為NMR波讒數(shù)據(jù)的形式。根據(jù)本發(fā)明的方法,波譜數(shù)據(jù)優(yōu)選排列形成矩陣。所述數(shù)據(jù)優(yōu)選排列在矩陣中,使得對于給定波譜的所有區(qū)段值都位于一行,對于給定區(qū)段或波譜區(qū)域的所有數(shù)值都位于一列。才艮據(jù)優(yōu)選的實施方案,該方法還包括以下步驟在一個或多個與數(shù)據(jù)矩陣的列向量具有相同長度和順序的輔助列向量中排列一個或多個樣本描述符。所述的一個或多個樣;^述符例如選自包括研究編號、動物編號、取樣時間、劑量組、毒性分類和毒理學變量的組。在更優(yōu)選的步驟中,矩陣中缺失的數(shù)據(jù)值被替換。所述缺失的數(shù)據(jù)例如由參考值的中值形成。更詳細地,所述缺失的數(shù)據(jù)由相應(yīng)取樣時間的相應(yīng)對照組的中值形成。編碼數(shù)據(jù)的步驟(c)優(yōu)選包括依據(jù)給定的規(guī)則替換矩陣的所有數(shù)值。更優(yōu)選地,矩陣的數(shù)值用指示與參考區(qū)域偏離的順序的順序數(shù)值所替換。所述替換形成例如n-級順序標度(ordinalscaling)。更優(yōu)選地,使用3-級順序標度,且矩陣的數(shù)值被替換成0、l或2,其根據(jù)所述數(shù)值是否低于、等于或高于相應(yīng)對照組的第x和笫y分位數(shù)間距(inter-quantilerangeJ所限定的范圍。在此,x例如是10,y例如是卯?;蛘?,使用二進制標度。步驟(c)優(yōu)選包括將單獨的編碼數(shù)據(jù)劃歸成組。所述組優(yōu)選與特定化合物的特定劑量給藥水平相對應(yīng)。在步驟(d)中,得到至少一個組的預(yù)測輸出。所述方法及其優(yōu)選步驟將不再詳細描述。炎拔#齡類下表1列出了22項COMET1研究(COMET1項目在Lindon,J.C.etal.Contemporaryissuesintoxicology—TheroleofmetabonomicsintoxicologyanditsevaluationbytheCOMETproject.ToxicologyandAppliedPharmacology187,137-146(2003)中有所描述),其以所討論的實施例中使用的NMR波i普為參考。將正常譜(所有的譜數(shù)值編碼為1,意味著與參考沒有偏離)的模擬集合加入到21項COMET1研究中,因此測試集合包括總共22項明確限定的鐠組合。簡述假定的器官毒性分類和主要的毒性靶。以下的數(shù)字代碼用于器官毒性分類(Tox分類)0=無毒性,1=其它(胰腺、淋巴、免疫毒素、睪丸、過氧化物酶體增生物),2=肝臟,3=腎臟,7=肝臟和肼類,9=肝臟和過氧化物8^增殖激活因子。加入了對主要毒性以及與預(yù)期靶標和機理相關(guān)的診斷的改進。R12是使用HanWistar大鼠進行的唯一研究,所有其它研究都使用SpragueDawley大鼠(Crl:CD(SD)IGSBR)進行。另夕卜,使用了以下縮略語(cc-臨床化學,"-,,無毒性的標識,"+,,=觀察到毒性的標識,histo-組織病理學,prolif.=增生,reg-再生,rco=腎臟4、償作用,sub-亞毒的,只有最小至輕微的不可逆變4t,bil-膽的,r.反應(yīng))表l<table>tableseeoriginaldocumentpage6</column></row><table>簡言之,在這些研究中,收集來自雄性SpragueDawley大鼠的給藥前24小時和給藥后168小時之間的尿樣,并以8、16或24小時為時間間隔。在每組實驗中,各個處理水平上,使用10個重復(fù)動物樣本作為對照組。在本文以下所描述的例子中,僅使用了從對照組和最高劑量氷平組24小時至48小時尿液收集的尿代謝組學譜。根據(jù)給藥48小時后觀察到的病理特征,對來自22個研究的波鐠進行選擇和分組。通過根據(jù)毒性分類將上述研究和譜分組而得到平衡的數(shù)據(jù)集,所述毒性分類包括無毒(分類編碼ntx)、肝(分類編碼l)、腎(分類編碼k)以及其它(分類編碼o),其中所述其它包括肝過氧化物酶體增生物、睪丸、胸腺、血液和胰腺。如果適當?shù)脑?,在這些分類中區(qū)分出觀察到的組織再生(亞分類編碼r)、微弱至輕微的組織損傷(亞分類編碼s)以及明顯的組織損傷(沒有亞分類編碼)的情況。應(yīng)該理解,使用這些特殊數(shù)據(jù)僅作為實施例以幫助理解本發(fā)明,不應(yīng)認為其以任何方式限制本發(fā)明。"#餘^誕#足銷"&s,所述COMET1NMR譜最初優(yōu)選的形式為排除水區(qū)域的、分區(qū)段且歸一化(即縮放到單位整數(shù))的NMR波譜,其具有;f^從9.96ppm至0.24ppm的波鐠范圍的205個0.04ppm寬的區(qū)段(bin)。而且,涉及分泌的天然藥物或其代謝物(藥物相關(guān)化合物或DRCs)的波鐠區(qū)域也優(yōu)選從這些波語中排除(參見Ebbels,T.M.,H.Keun,etal.(2003)."Toxicitiyclassificationfrommetabonomicdatausingadensitysuperpositionapproach:"CLOUDS"."AnalyticaChimicaActa4卯:109-122)。然而,這些鐠仍包括已知的受腸道微生物的活性或成分變化影響的區(qū)段。這些區(qū)段使處理相關(guān)的效果的解釋出現(xiàn)混亂,并且在任何數(shù)據(jù)分析或預(yù)測程序中不予考慮。另外,優(yōu)選從分析和預(yù)測中排除存儲的波鐠圖末端的區(qū)段,因為在先前探索性的數(shù)據(jù)分析中發(fā)現(xiàn)它們具有可變性。^f為Vf和資菊付炎凝矩萍和/^量的;C乂第一步,優(yōu)選將目標波鐠數(shù)據(jù)重排形成矩陣x,其中對于給定波鐠的所有區(qū)段值位于一行,并且對于給定的區(qū)段或波語區(qū)域的所有數(shù)值位于一列<table>tableseeoriginaldocumentpage8</column></row><table>因此,行向量—r代表一個分區(qū)段的波譜,其表征一個樣本,如分區(qū)段的波鐠(樣本1)—=(xw,Xl,2,...,Xl,p)分區(qū)段的波譜(樣本2)—r2=(x",x2,2,...,x2,p)分區(qū)段的波譜(樣本n)—1V-(Xn4,Xn,2,…,Xn,p),并且列向量丄C代表矩陣中所包括的樣本中的固定波鐠區(qū)域或區(qū)段的可變性,如區(qū)段1(樣本1至II)丄d=(Xw,X2力…,)區(qū)段2(樣本1至n)丄C2=(Xl,2,x2,2,…,xn,2)X)區(qū)段p(樣本l至n)丄cp-(Xi,p,X2,p,.樣a述符,尤其是研究編號、動物編號、取樣時間、劑量組、毒性分類和毒理學變量優(yōu)選排列成與向量ic具有相同長度和順序的輔助向量丄ac。研究序號(樣本l至n)|acsno=(snch,...動物序號(樣本l至n)|acano=(anop取樣時間(樣本l至n)丄acsti咖-(stim^,劑量組合(樣本l至n)hcdgr=(dgn,...snon)肌On)..,stimen).,dgrj毒性分類(樣本l至n)jacclass=(y"".,yD)毒理學變量l(樣本l至n)>Cdass-…,vln)這些輔助向量用于波鐠分類,或者如果適當?shù)脑?,根?jù)預(yù)測或估計,作為依賴性變量y或由矩陣X建模的矩陣Y。缺關(guān)炎銜夢換矩陣x的波鐠數(shù)據(jù)優(yōu)選額外進行預(yù)處理。例如,第一步,檢查所有區(qū)段(列向量)的缺失數(shù)值。在矩陣X以及如果適當?shù)脑捲诰仃嘫中檢測到的缺失數(shù)值優(yōu)選替換成相應(yīng)取樣時間的相應(yīng)對照組的中值。更具體而言,這等于查找分配給數(shù)值分析(NA)的研究編號和取樣時間,然后得到具有分最后在該子表中確定中值并替換NA。這種替換程序可以更加正式地寫成區(qū)段a中的NAsno=snoi,stime=stime!,ano=anok<-凈皮替換為區(qū)段a的子表的中值sno=snoi,stime=stime,,dgr=CTRL優(yōu)選該替換是因為它對于以下預(yù)處理步驟是中性的,也就是說增加的信息(替換缺失數(shù)值的數(shù)值)不會造成與對照組的人為的偏離。^/^/g及孖/LO竭竭^"炎凝矩萍x進存#薦竭(7^flttC^為NS炎/《距吝諒;第二步,數(shù)據(jù)矩陣x的所有數(shù)值根據(jù)所述數(shù)值是否低于、等于或高于相應(yīng)對照組的第10和第卯分位數(shù)(分位數(shù)間距或者IQR)限定的范圍,皮替換成0、l或2。因此,2x〉q(卯)隱區(qū)段a中的x為sno=snoi,stime=stime"ano=anok—1其它情況0x<q(10)CTRL其中q(..)cTRL=區(qū)段a中子表的第(..)分位數(shù)為sno=siiOj,stime=stime!,dgr=CTRL例如,與分段線性編碼(模糊編碼)不同,根據(jù)本發(fā)明的IQRHILO編碼方案抵消了分位數(shù)間距(IQR)中的可變性,并強調(diào)IQR以外的可變性。這更好地對應(yīng)了與毒性檢測和預(yù)測相關(guān)的數(shù)據(jù)分析的目的。IQRHILO編碼通過時間和條件匹配的參考范圍將過濾和定標進行整合,由此可以自由定義所述參考范圍和標度。本發(fā)明的IQRHILO編碼因此相當于偏離等級。這為波語數(shù)據(jù)矩陣X的所有數(shù)值保留了信息,即與參考范圍的偏離存在(如果x替換#1)或不存在(如果x替換=1)以及偏離的方向(如果x替換=2則增加,如果x替換-0則減少)。這相當于所有的波譜區(qū)段具有相同的權(quán)重,因此代表波i普的偏離只依賴于波鐠中偏離區(qū)段的編號和方向,而不依賴于單個區(qū)段偏離的大小。根據(jù)本發(fā)明的IQRHILO編碼被認為提高了小的和"短時間"的總體波鐠偏離的靈敏性,同時也將波i普千擾或離雜轉(zhuǎn)化成令人誤解的的偏離指示符的風險保持在最小(特異性和變化穩(wěn)定性的喪失),因此增強基于波語的分組、分類以及預(yù)測,最后使得基于單個尿液樣本的預(yù)測成為可能。另外,再編碼的矩陣XwRHjLo可用于描繪通過輔助列向量和區(qū)段分選出的波鐠變化的熱圖(heatmap)。CZOW)5"為、類器最后,本發(fā)明優(yōu)選使用如COMETl項目(參見Lindon,J.C.etal.)中開發(fā)的CLOUDS分類器(參見Ebbel,T.M.,H.Keum,etal.)。使用CLOUDS分類器需要將單獨的波譜劃歸到組。預(yù)測輸出只針對組產(chǎn)生,通常針對特定的化合物和劑量水平,而不針對單獨的復(fù)制波譜。更精確的是,每組的預(yù)測輸出是指示檢測組與用于標定分類器的訓(xùn)練集(trainingset)的n個參考組中每一個之間的相似性的n個數(shù)值的列表。該列表允許以相似性升序?qū)⒖冀M進行分級,所述參考組代表特定的化合物和劑量水平以及最終代表相關(guān)的毒性分類。最后,檢測組必須根據(jù)確定的規(guī)則分類到與其最相似的參考組所代表的毒性類別。優(yōu)選的預(yù)測規(guī)則為如果符合下列語句之一,則將檢測組歸入到最相似的研究類別或分類為無毒性類笫一命中(firsthit)相似性<0.5第一命中對應(yīng)于類別o第一命中對應(yīng)于具有亞毒性結(jié)果的研究第一命中對應(yīng)于具有僅其自身分類為類別0的再生的研究,考慮下列命中用于解釋,包括預(yù)測質(zhì)量的評估。以下參照附圖對本發(fā)明進行更加詳細的描述,其中圖l提供本發(fā)明的方法的整體示意圖及其如何嵌入預(yù)處理步驟;和圖2顯示分區(qū)段-歸一化波鐠和分區(qū)段-歸一化-IQRHILO編碼鐠的對應(yīng)分析。具體實施例方式本發(fā)明介紹了分位數(shù)間距(IQR)編碼,一種新的數(shù)據(jù)編碼方法,用以克服以上背景部分概述的已知方法的不足。本發(fā)明人首先利用尿的代謝組學鐠和其它來自于COMET1項目(參見Lindon,J.C.)的毒理學數(shù)據(jù)來檢驗IQR編碼。然后,IQR編碼被應(yīng)用于來自其它初步的大鼠的臨床前毒性研究的數(shù)據(jù)。典型地,在后者的研究中,尿液、血清和組織樣本在單次給藥后48小時內(nèi)>^每個劑量水平的5至10個個體中收集,包括對照動物。所得數(shù)據(jù)包括基于尿的1HNMR波譜、臨床化學和組織病理學評估的代謝組學譜。IQR編碼可以在多變量分析和基于代謝組學的毒性分類之前使用。圖1示出根據(jù)本發(fā)明的優(yōu)選實施方案利用IQR編碼進行數(shù)椐預(yù)處理的概要和配置。在頂部指出從數(shù)據(jù)的獲取到解釋的主要步驟。在中間部分,詳細描迷典型的預(yù)處理步驟流程,包括本發(fā)明的IQR編碼。在底部給出各個步驟的目的。所注釋的流程反映出一般的"組學,,數(shù)據(jù)分析方案的主要步驟和目的。該方案以IQR編碼對于代謝組學譜的一個可能應(yīng)用為例。值得注意的是,在該優(yōu)選實施方案中,IQR編碼與其它普遍實施的數(shù)據(jù)預(yù)處理步驟組合,即在圖示的案例中,通過分區(qū)段(成組)及歸一化為單位總和而縮減數(shù)據(jù)。所示的組合并不意味著是唯一的,而是可以改變、減少或增加的,例如在初始數(shù)據(jù)在其它技術(shù)平臺上產(chǎn)生并表征其它實體時??梢姅?shù)據(jù)預(yù)處理在樣本分析和基本的測量值轉(zhuǎn)換成原始數(shù)據(jù)之后進行。這是原始數(shù)據(jù)的多步處理以針對特定問題能夠進行適當?shù)臄?shù)據(jù)解釋,而且這也是數(shù)據(jù)分析的一部分。通過根據(jù)本發(fā)明的IQRHILO編碼進行的數(shù)據(jù)預(yù)處理以及"NA到中間值,,的替換可以應(yīng)用于原始數(shù)據(jù)或與任意(可能是先前的)質(zhì)量的測量值(例如峰匹配、分區(qū)段)和整體數(shù)據(jù)標度(例如定標為單位整數(shù))相結(jié)合。IQRHILO編碼是一步程序,其通過將數(shù)據(jù)再編碼為偏離譜而區(qū)別目標組(樣本)之間明顯的與處理相關(guān)的差異,并且在毒理學實驗或測量的框架中是有效的。二者支持毒理學或藥理學目的,并且不只是"組學",而是所有類型的數(shù)據(jù)。如圖1所示,IQR編碼將初始數(shù)據(jù)或譜(即在所示實施例中縮減并歸一化的波語)轉(zhuǎn)變?yōu)槠x譜,其參照適當?shù)膶φ諗?shù)值^個變量中的每個樣本一個順序偏離值(即順序倍數(shù)變化)或一個二進制偏離指示符(即觀察到或未觀察到偏離)。只有IQR編碼的概念是用以識別和估計偏離的程序,并且隱含相關(guān)的是適當參考的定義。如"IQR編碼,,這個術(shù)語所揭示的,偏離被定義為參考分位數(shù)間距之外的數(shù)值。優(yōu)選適當對照范圍的第10和第90的百分位數(shù)來確定參考IQR。屬于精確相同的實驗條件,即研究、處理方式、取樣時間(年齡、暴露于實驗因素)、世代和遺傳謙系的對照數(shù)值被定義為適當?shù)膶φ諗?shù)值或參考。這意味著在具有重復(fù)樣本和10個對照組的平行樣本的典型數(shù)據(jù)集合的框架中,對于每個取樣事件而言,計算其匹配參考IQR的時間,由此不使用最高和最低的對照數(shù)值。該IQR的規(guī)范易地適用于其它數(shù)據(jù)集合或目的。最后,所有的數(shù)值用指示偏離于參考IQR的順序的順序數(shù)值所替換。例如,數(shù)據(jù)中的所有數(shù)值用0、l或2來替換,從而編碼異常降低(O)、偏離在正常范圍內(nèi)(1)或異常增加(2)。該具有3級順序標度的變量視為根據(jù)本發(fā)明的IQRHILO編碼。優(yōu)選地,可以容易地選擇更精細的或更扭隨的順序標度間隔尺寸。例如,包括二進制的標度,其對分組精簡數(shù)據(jù)和逐個變量計算發(fā)生率和發(fā)生統(tǒng)計尤其有用。根據(jù)本發(fā)明的IQR編碼較之其它數(shù)據(jù)預(yù)處理程序更加適合毒理學研究,因為其過濾掉涉及正常個體間可變性(即在世代或遺傳鐠系內(nèi)和跨越世代或遺傳i普系的可變性)、發(fā)展和繼續(xù)適應(yīng)的易造成混亂的變化。值得注意的是,IQR編碼不需要排除對照中的極值或偏離響應(yīng),而是可將它們作為潛在可解釋的特征處理。這是因為其將與正常分位數(shù)間距的偏離編碼為二進制或順序數(shù)值,強調(diào)性質(zhì)而不是精確的偏離大小。由此,IQR編碼還展示出用于來自不同來源和技術(shù)的數(shù)值積分數(shù)據(jù)(作為順序偏離或發(fā)生率)的易懂策略,以及數(shù)值協(xié)調(diào)不同性質(zhì)的數(shù)據(jù)使之具有最高的共享精度(共享順序標度的最小間隔尺寸)或有用精度的可能性。因為顯著增加和降低的變量的識別和數(shù)值化最經(jīng)常只構(gòu)成NAA的生物學可解釋部分,所以IQRHILO編碼最經(jīng)常與最高有用精確度一致。從統(tǒng)計學的觀點看,IQR編碼可以看作是最優(yōu)穩(wěn)健顯著性過濾器,其可用于替代其它最近提出的、不夠穩(wěn)健或不夠靈敏的方法。而且,IQR編碼是避免如歸一化的"組學"語通常與多變量組分數(shù)據(jù)分析相關(guān)的困難(例如錯誤的相關(guān)性、可解釋的協(xié)方差結(jié)構(gòu)的缺失)的可選方法。最后,IQR編碼對所有的變量變化是同等衡量的。整體的效果是,在IQR編碼后,在相似的變量子組(即數(shù)字和變化變量識別的高度重疊)中具有變化的i昝被認為是相關(guān)的,或換句話說,是相同組的成員。這些特性導(dǎo)致我們產(chǎn)生爭論,即如果應(yīng)用于任何干擾實驗框架中,則IQR編碼提取干^目關(guān)信息并有助于數(shù)值分析(NA),也就是無監(jiān)督和有監(jiān)督的多變量數(shù)據(jù)分析。這得到兩個基于代謝組學的毒性模型實例的支持,其建立施用待測化合物以造成代謝干擾的實驗。實施例1第一實施例對比了分區(qū)段-歸一化與分區(qū)段-歸一化-IQRHILO編碼的波譜圖的無監(jiān)督對應(yīng)分析(CA)(參見圖2)。對應(yīng)分析(CA)的目的是使對應(yīng)于已知樣本組或類別的數(shù)據(jù)集合中的隱藏特征的差異程度可視化。選擇對應(yīng)分析是因為它能夠基于"^-度量"用于對樣本的相似性以及樣本-變量相關(guān)性繪圖,其中"f-度量"對于分區(qū)段-歸一化與分區(qū)段-歸一化-IQRHILO編碼的數(shù)據(jù)是同等適用的。這使得在相同標度的兩種不同預(yù)處理之后對于數(shù)據(jù)集合的結(jié)構(gòu)(樣本的近似度)的適當比較成為可能。前兩個對應(yīng)分析(CA)軸的平面中所得到的圖示于圖2。結(jié)論是IQRHILO編碼強調(diào)與對照的小偏離。而且,值得注意的是,在IQRHILO編碼后大多數(shù)代謝組學^與對照的距離與觀察到的組織學損傷的嚴重性是一致的。因此,與對照的幾何距離具有毒理學意義。這支持了IQRHILO編碼具有毒物學相關(guān)性的主張。概括來說,IQRHILO編碼似乎提高了對代表不同毒性(或干擾)以及不同級別的毒性(或干擾)的樣本組的辨別和識別。圖2示出分區(qū)段-歸一化的波i普(圖2中的左圖,F(xiàn)l-F2顯示總變化的62.1%)以及分區(qū)段-歸一化-IQRHILO編碼的鐠(圖2中的左圖,F(xiàn)l-F2顯示總變化的30.5%)的對應(yīng)分析。上述的圖僅根據(jù)橫向數(shù)值繪制。分析鐠代表在使用公知化合物的22個毒性研究中,從給藥后24小時至48小時的10只SpragueDawley大鼠中收集的215份尿液樣本的1HNMR波譜。綠圏和字母CTRL指示位置和對照。彩色編碼毒性類別綠色-對照和無毒性,黑色-腎臟,紅色=肝臟,黃色-腎亞毒性,灰色=肝亞毒性,洋紅色=再生,青藍色-腎代償,深藍色-其它(胰腺、胸腺、血液),桔紅色-其它亞毒性。標簽指示COMETl研究的編號。為了有助于可視化比較,跨越對照坐標的兩個任意軸被加到圖中。IQRHILO編碼將對照分離,并增加了樣本數(shù)值的整體分布。在樣本組中,可以看到相反的情況,即更好的圓形化(例如L07、L05、SOl、ROl)。除了一些例外(如N15、L05),樣本的相對位置(接近度)保持不變(如SOl、R01、L01、R12、L07、Sll、S04)。IQRJHILO編碼強調(diào)與對照的小的偏離,同時維持和穩(wěn)定整體的離散度。最重要地是,在IQRHILO編碼后,大多數(shù)樣本和對照的距離與觀察到的組織學損傷嚴重性一致(例如L05和N02與對照接近,沒有或僅有輕樹肝損傷,N14與對照距離更遠,具有顯著的肝損傷)。因此,在IQRHILO編碼后,與對照的幾何距離具有毒理學的意義距離越大,干擾越大;或者毒性是代表性的結(jié)果。實施例2第二實施例顯示上述優(yōu)點是如何提高預(yù)測效果的。例如,利用笫一實施例(前面的段落)中使用的樣本集合對如在統(tǒng)計軟件環(huán)境R(Venables,W.N.&Ripley,B.D.ModernAppliedStatisticswithS,Edn.FourthEdition.(Springer,NewYork;2002))下執(zhí)4亍的線性判別法(LD)、k近鄰法(KNN)和支持向量機(SVM)分類器以及CLOUDS分類器(即改造過的模糊神經(jīng)網(wǎng)絡(luò)分類器)進行了檢領(lǐng)'J。首先,對比了使用分區(qū)段-歸一化或分區(qū)段-歸一化-IQRHILO編碼的波譜的LD、KNN和SVM分類器對于"4-類模型"和優(yōu)化的"9-類模型"的預(yù)測結(jié)果,如下表所示<table>tableseeoriginaldocumentpage14</column></row><table>表2表2示出對于4-和9-類毒性模型的預(yù)測出錯率(%),表明在9倍交叉發(fā)iiE計算后,線性判別法(LD)、k近鄰法(KNN)和支持向量機(SVM)分類器的波"^誤分類(假陽性+假陰性)百分比。所述的"4-類模型"區(qū)分無毒性、肝毒性、腎毒性和其它毒性,而"9-類模型"還區(qū)分子類再生肝、再生腎、腎亞毒性變化和其它組織亞毒性變化。使用相同樣本集合的分區(qū)段-歸一化(b-n)或分區(qū)段-歸一化-IQRHILO編碼(IQRHILO)的波譜圖,所有情況下,上述譜代表了215份尿液樣本的1HNMR波鐠,所述樣本從使用熟知的化合物的22項毒性研究中的10只雄性SpragueDawley大鼠中在給藥后24小時至48小時收集。因此,IQRHILO編碼提高了40%的KNN分類器效果和52%的SVM分類器效果,但是降低了LD分類器的效果。使用IQRHTLO編碼的數(shù)據(jù)和SVM分類器得到最低的出錯率(4.2%)。可以預(yù)期地是,IQRHILO編碼的數(shù)據(jù)對LD分類器是不夠的。原則上,從4-類模型得到的結(jié)論也適用于9-類模型。然而,增加了分類數(shù)目降低了預(yù)測的效果。這種降低在KNN分類器中較不明顯,并得到相反的效果排名,即KNN分類器為8.8。/。,而SVM分類器為9.8%。對于向更擴展和更復(fù)雜的數(shù)據(jù)集合轉(zhuǎn)換以及對于向11-類模型(表1的9-類模型加上肝和腎毒性以及亞毒肝和腎)轉(zhuǎn)換也有相同的趨勢(未出示)。在第二獨立評估中,本發(fā)明人z使用以上詳迷的4-類模型的分區(qū)段-歸一化或分區(qū)段-歸一化-IQRHILO編碼的波譜對CLOUDS分類器的效果進行了對比。在組中留出一個交叉驗證后,計算出指示,分類組百分比的出錯率(假陽性+假陰性),由此,通過單獨的研究和條件(即相同的化合物、相同的劑量水平、只取給藥后48小時的樣本的波譜)的10個相同樣本來定義一個組。用分區(qū)段-歸一化波鐠得到27%的出錯率,用附加的IQRHILO編碼得到14%的出錯率。概括地說,使用非線性和非參量分類器如KNN、SVM和CLOUDS,IQRHILO編碼可以使預(yù)測5個器官毒性分類以及兩個嚴重等級的出錯率低至9~14%,甚至在單一樣本場合的約束下也是如此。就本發(fā)明人所知,沒有報道過其它的數(shù)據(jù)預(yù)處理在藥物臨床前毒性檢測中具有類似的有效性和可信度。在毒理學中,類似的效果只在基于更少限制的數(shù)據(jù)集合并具有更加密集的取樣時間系列的分類器或基于2類模型的分類器中有所報道。如上所述,IQR編碼還是一種整合不同來源和技術(shù)的數(shù)據(jù)的方法。值得注意且沒有舉例的是,本發(fā)明人也對用于組合數(shù)值分析(NA)的組織病理學、血清化學、芯片和蛋白質(zhì)組數(shù)據(jù)進行了IQR編碼,并且檢測了利用CCA、CVA和CDA得到的組織病理學分級和血清化學、差異表達的基因、尿液蛋白和代謝物的統(tǒng)計學對應(yīng)性。換言之,IQR編碼用于多表分析的數(shù)據(jù)準備,所述多表分析非常適用于將涉及相同目標的假設(shè)解釋和應(yīng)答變量之間的相關(guān)性量化。IQR或IQRHILO編碼適用于無論生物系統(tǒng)的干擾狀態(tài)通過不同數(shù)據(jù)收集參考對照如何區(qū)分和解釋的情況,其區(qū)分來自正常(例如個體間)的可變性、J^Jl和適應(yīng)(生長、變化環(huán)境M、周期性)的千擾應(yīng)答。權(quán)利要求1.一種用于預(yù)測物質(zhì)的生物學、生物化學、生物物理或藥理學的特性的方法,包括如下步驟a)提供樣本數(shù)據(jù);b)通過編碼所述樣本數(shù)據(jù)對所述樣本數(shù)據(jù)定標度;c)分類所述編碼的數(shù)據(jù);和d)提供基于分類結(jié)果的預(yù)測輸出。2.如權(quán)利要求l所述的方法,還包括在步驟a)之后,將所提供的數(shù)據(jù)分區(qū)段的步驟al)。3.如權(quán)利要求1或2所述的方法,還包括在步驟a)或步驟al)之后,歸一化所述數(shù)據(jù)的步驟。4.如權(quán)利要求3所述的方法,其中所述數(shù)據(jù)是相對于單位整數(shù)的歸一化樣本,以將所述數(shù)據(jù)轉(zhuǎn)化成樣本譜。5.如權(quán)利要求4所述的方法,其中所述樣本諳是核磁共振(NMR)*。其中所述NMR譜是NMR波i普數(shù)據(jù)的形6.式如權(quán)利要求5所述的方法,其中排列所述波谞數(shù)據(jù)以形成矩陣。其中所述數(shù)據(jù)排列成矩陣,使得對于給定而對于給定區(qū)段或波鐠區(qū)域的所有數(shù)值位7.如權(quán)利要求6所述的方法,8.如權(quán)利要求7所述的方法,波譜的所有區(qū)段數(shù)值位于一4亍,于一列。9.如權(quán)利要求8所述的方法,還包括在一個或多個長度和順序與所迷數(shù)據(jù)矩陣的列向量相同的輔助列向量中排列一個或多個樣^述符的步驟。10.如權(quán)利要求9所述的方法,其中所述一個或多個樣#述符選自包括研究編號、動物編號、取樣時間、劑量組、毒性分類、毒理學變量的集合。11.如權(quán)利要求7至10中任一項所述的方法,還包括替換所述矩陣中的缺失lt據(jù)lt值的步驟。12.如權(quán)利要求ll所述的方法,其中所述缺失的數(shù)據(jù)由參考數(shù)值的中值形成。13.如權(quán)利要求12所述的方法,其中所述缺失的數(shù)據(jù)由相應(yīng)取樣時間的相應(yīng)對照組的中值形成。14.如權(quán)利要求7至13中任一項所述的方法,其中所述編碼lt據(jù)的步驟c)包括根據(jù)給定的規(guī)則替換所述矩陣的所有數(shù)值。15.如權(quán)利要求14所述的方法,其中所述矩陣的數(shù)值用指示與參考區(qū)域偏離順序的順序數(shù)值來替換。16.如權(quán)利要求15所述的方法,其中所述替換形成為n-級順序標度。17.如權(quán)利要求16所述的方法,其中使用3-級順序標度,并且所述矩陣的數(shù)值根據(jù)所述數(shù)值是否低于、等于或高于由相應(yīng)對照組的第x和第y分位數(shù)間距所限定的范圍而用0、l或2替換。18.如權(quán)利要求17所述的方法,其中x為10,y為卯。19.如權(quán)利要求16所述的方法,其中使用二進制標度。20.如前述權(quán)利要求中任一項所述的方法,其中步驟c)包括將單獨的編碼數(shù)據(jù)分成組。21.如權(quán)利要求20所述的方法,其中所述組對應(yīng)于特定化合物的特定劑量水平。22.如權(quán)利要求20或21所述的方法,其中在步驟d)中,對至少一個組產(chǎn)生預(yù)測輸出。23.如前述權(quán)利要求中任一項所述的方法,其中所述物質(zhì)的生物學特性是其毒性。全文摘要一種用于預(yù)測物質(zhì)的生物學、生物化學、生物物理或藥理學的特性的方法包括下列步驟提供樣本數(shù)據(jù),通過編碼所述樣本數(shù)據(jù)對所述樣本數(shù)據(jù)定標度,分類所述編碼的數(shù)據(jù),以及提供基于分類結(jié)果的預(yù)測輸出。文檔編號G01N33/48GK101173918SQ20071014607公開日2008年5月7日申請日期2007年9月7日優(yōu)先權(quán)日2006年9月8日發(fā)明者恩德雷·拉茨科申請人:F·霍夫曼-拉·羅奇股份有限公司