亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

高可信度使用數(shù)據(jù)集的方法和系統(tǒng)的制作方法

文檔序號:6122985閱讀:534來源:國知局

專利名稱::高可信度使用數(shù)據(jù)集的方法和系統(tǒng)的制作方法高可信度使用數(shù)據(jù)集的方法和系統(tǒng)
背景技術(shù)
本發(fā)明涉及大規(guī)模數(shù)據(jù)集的高可信度使用的方法和系統(tǒng)。近來,對包括人類的大量基因組的測序、陣列技術(shù)和其他高通量技術(shù)的發(fā)展,導(dǎo)致這些研究生物體范圍數(shù)據(jù)(細(xì)胞、組織、生物體等)的發(fā)展的使用逐漸增加。隨著上述發(fā)展和增加,大規(guī)模、高通量數(shù)據(jù)的輸出增加了以高可信度(也就是減小錯誤的發(fā)現(xiàn))使用數(shù)據(jù)的方法和系統(tǒng)的需求,以達(dá)到為概念、假設(shè)、技術(shù)和產(chǎn)品的進(jìn)一步發(fā)展最優(yōu)地分配資源。上述的許多技術(shù)在最近十年已有所發(fā)展,并且質(zhì)量在不斷地提高,采用的工具也是這樣,以便使用數(shù)據(jù)集并進(jìn)一步完善這些技術(shù)。這里提出一些概念和工具,滿足后面的目的中的一些需要。用于生物體/細(xì)胞狀態(tài)的大規(guī)模測量的許多系統(tǒng)包含對各參數(shù)(例如基因/轉(zhuǎn)錄/蛋白質(zhì)等)的多次獨立測量。這種廣泛應(yīng)用的技術(shù)類型的兩種通常形式是(i)基因芯片(GeneChipR,Affymetrix,CA),其中采用多個獨立探針測量基因組的每個轉(zhuǎn)錄,每個探針都具有對應(yīng)的錯配探針以評估交叉雜交-前者稱為完全配對(PM)探針而后者為錯配(MM)探針-(在專利和文獻(xiàn)中已充分說明,例如第6551784號和第6303301號美國專利)(ii)采用一些變化質(zhì)譜(例如Washburn等人于2001年所著,以及用于直接和對比應(yīng)用中的多種變化)對作為肽段片的蛋白質(zhì)混合物的典型測量。上述對每個參數(shù)的多次獨立測量類型的多種應(yīng)用是目前正在應(yīng)用并且是具有前景的。由于對現(xiàn)有知識(文獻(xiàn)和專利中)和展開的應(yīng)用己有充分記載,這種技術(shù)的使用以及數(shù)據(jù)的產(chǎn)生在此不作說明。利用上述高通量數(shù)據(jù)生成系統(tǒng)的大多數(shù)生物實驗(由于生物和其他資源的限制)是用少量的重復(fù)完成的。如果可能的話,利用統(tǒng)計或數(shù)學(xué)原理分析(例如檢測探究不同條件的數(shù)據(jù)集間的差異)最終數(shù)據(jù),以增加使用的下游步驟的可信度。但是,少量重復(fù)會顯著地降低分析中的統(tǒng)計功效。原則上,采用對每個參數(shù)單獨測量應(yīng)當(dāng)減輕這個問題的很大一部分(至少在相對于過程一例如制造、處理、雜交等的所有步驟的技術(shù)方面增加的功效方面)。采用多次獨立測量中,需要理解系統(tǒng)特定特性和用于上述分析中彼此相關(guān)的不同參數(shù)的作用。反之,理解上述數(shù)據(jù)集的特性將有助于設(shè)計更好的測量技術(shù)。無論是否將類似于上述實例的設(shè)計原理應(yīng)用到數(shù)據(jù)集(在各個條件下對每個參數(shù)的多次測量),不同條件下的數(shù)據(jù)集和可比較的重復(fù)中都是可以得到的。數(shù)據(jù)分析中的這一步驟通常被稱為規(guī)范化(在本申請文件中用于表示預(yù)處理數(shù)據(jù)之后,用于技術(shù)設(shè)計和數(shù)據(jù)采集特定效果,例如背景糾正的步驟)。好的規(guī)范化是對數(shù)據(jù)的所有進(jìn)一步分析和解釋的必要條件。上述主要的
背景技術(shù)
說明了一種需要,也就是經(jīng)常被提出的技術(shù)和新算法,但沒有被接受的統(tǒng)一地、一致的方法,甚至很少的可以被接受且可預(yù)見地用于處理每個參數(shù)的多次獨立測量(而不需要基于
發(fā)明內(nèi)容的統(tǒng)一模式的中間過程)的方法突出了對改進(jìn)的需求,該改進(jìn)將會滿足對高效且高產(chǎn)地使用許多生命科學(xué)和其他領(lǐng)域中生成的大量數(shù)據(jù)時形成的需求,并設(shè)為一種數(shù)據(jù)集的過程作為本發(fā)明一部分。
發(fā)明內(nèi)容在一實施例中,本發(fā)明教導(dǎo)的方法包括選擇用于確定數(shù)據(jù)集中的真陽性和假陽性的實質(zhì)上最優(yōu)化的組合度量的標(biāo)準(zhǔn),應(yīng)用最優(yōu)化技術(shù),從最優(yōu)化技術(shù)的結(jié)果中獲得用于至少一個最優(yōu)化參數(shù)的值,上述用于至少一個最優(yōu)化參數(shù)的值得到真陽性和假陽性的實質(zhì)上最優(yōu)化的組合。真陽性的數(shù)目和假陽性的數(shù)目是一個或多個最優(yōu)化參數(shù)的函數(shù)。根據(jù)真假陽性,系統(tǒng)行為被典型地看作關(guān)鍵參數(shù)的合適的響應(yīng)面。在另一實施例中,本發(fā)明教導(dǎo)的用于概括參數(shù)值的方法包括將數(shù)據(jù)集測量結(jié)果分組成多對測量結(jié)果,為每對測量結(jié)果確定該對測量結(jié)果的預(yù)定測量是否滿足閾值標(biāo)準(zhǔn),如果預(yù)定測量不滿足閾值標(biāo)準(zhǔn),則從多對測量結(jié)果對中分出一對測量結(jié)果作為不變的;如果預(yù)定測量滿足閾值標(biāo)準(zhǔn),則將每一對測量結(jié)果中的其中一個測量結(jié)果與另一個測量結(jié)果進(jìn)行比較,比較后根據(jù)比較的結(jié)果對每一對測量結(jié)果進(jìn)行分類,從已分類的多對測量結(jié)果中選擇測量結(jié)果的通用集,用于數(shù)據(jù)集,以及為使用通用集的參數(shù)提供綜合測量。本發(fā)明公開了參數(shù)估計方法、數(shù)據(jù)規(guī)范化方法和分析質(zhì)量測試方法的各種實施例。此外,本發(fā)明還公開了系統(tǒng)和計算機程序產(chǎn)品的實施例。為了更好的理解本發(fā)明,以及其他的和進(jìn)一步的需要,以附圖和具體實施方式為參考,其保護(hù)范圍在權(quán)利要求中指出。圖1表示本發(fā)明教導(dǎo)的方法的一個實施例的流程圖;圖2a、2b表示本發(fā)明教導(dǎo)的方法的另一個實施例的流程圖;圖3a、3b表示圖2a、2b中表示的本發(fā)明教導(dǎo)的方法的實施例的流程圖;圖4表示圖3a、3b中表示的實施例的一部分的流程圖;圖5表示本發(fā)明教導(dǎo)的方法的另一個實施例的流程圖。圖6和圖7表示本發(fā)明教導(dǎo)的方法的再一個實施例的流程圖;圖8、圖9和圖10以簡略形式表示本發(fā)明教導(dǎo)的方法的一個實施例。圖11表示本發(fā)明教導(dǎo)的方法估計倍數(shù)變化的另一個實施例。圖12表示本發(fā)明教導(dǎo)的方法估計置信度的另一個實施例。圖13表示本發(fā)明教導(dǎo)的方法測試使用的數(shù)據(jù)分析工具質(zhì)量的再一個實施例。圖14表示本發(fā)明教導(dǎo)的方法使數(shù)據(jù)規(guī)范化的另一實施例。圖15表示開發(fā)實現(xiàn)本發(fā)明教導(dǎo)的計算機系統(tǒng)的實施例。圖16表示根據(jù)本發(fā)明教導(dǎo)的方法的實施例的結(jié)果的圖形的圖示表示圖17表示根據(jù)本發(fā)明教導(dǎo)的方法的實施例的結(jié)果的另一圖形的圖示表不;圖18A、18B表示參數(shù)對與本發(fā)明教導(dǎo)的方法的一個實施例有關(guān)的結(jié)果的影響;以及圖19表示上述教導(dǎo)的方法的示例性實施例的結(jié)果。具體實施方式在一實施例中,本發(fā)明的教導(dǎo)包括一組方法和算法,幫助大規(guī)模數(shù)據(jù)集的高可信度使用,也就是(a)研究每個參數(shù)的多次測量表示的數(shù)據(jù)集(特別是使用同樣參數(shù)的獨立方面)并輔助上述測量技術(shù)和方案的設(shè)計的響應(yīng)面輔助策略,(b)用于確定數(shù)據(jù)特定閾值的方法,(c)測試數(shù)據(jù)分析方案中的選擇策略(統(tǒng)計的和/或數(shù)學(xué)的)的效果,以及(d)新的使數(shù)據(jù)集可比的規(guī)范化方案。下面將公開討論的數(shù)據(jù)類型的附加信息和用于說明上述教導(dǎo)的術(shù)語。嘗試說明基因情景分析的教導(dǎo)時,為方便起見,通常將AffymetrixGeneChipR技術(shù)用作實例。該技術(shù)的一些設(shè)計方面用于強調(diào)此處討論的多個測量類型的數(shù)據(jù)集,但不限于此。在基因芯片GeneChipR系統(tǒng)中,每個轉(zhuǎn)錄都由11個或多至25個、與mRNA互補的核苷酸長探針表示,用以探測待研究系統(tǒng)的轉(zhuǎn)錄狀態(tài)。芯片中包括相應(yīng)的錯配探針以表示交叉雜交信號(會被認(rèn)為是特異性探針噪音)。很高的特征密度已達(dá)到并公知,預(yù)定的轉(zhuǎn)錄在用于人類和其他生物體的一個到幾個芯片上排列。包括錯配探針在內(nèi),用以表示交叉雜交或特異性探針的噪聲信號,當(dāng)錯配探針以上述功效在此處說明的實例中使用時,如果任意一部分直接在結(jié)果中翻譯,其他不包括上述MM探針(例如www.dchip.org和Irizarry等在2003年中建議的dCHIP)的變化(和應(yīng)用)可以通過說明的該教導(dǎo)組的一部分方法和優(yōu)點良好使用。由于探針的理化性質(zhì)和雜交性,盡管表示單一的轉(zhuǎn)錄(也就是在具體量子水平表達(dá)的轉(zhuǎn)錄),每個探針都具有不同的雜交強度水平。這導(dǎo)致信號電平的直接利用有難度。一個已被廣泛研究并一直在發(fā)展的普遍方法是利用基于模型的方法將多個探針表示的數(shù)據(jù)歸納到用于每個轉(zhuǎn)錄的單一綜合測量中(參見此處一并作為參考的6571005號美國專利)。該方法的優(yōu)點在于數(shù)據(jù)的用戶友好表示,使得高級的統(tǒng)計和數(shù)學(xué)應(yīng)用在正在研究的系統(tǒng)/過程的知識進(jìn)步中數(shù)據(jù)的使用變得容易(采用圖案辨別,用于診斷的分類,路徑和新過程的識別和研究,有望用于成果發(fā)展等)。以下說明用于本說明書的一些約定。在本說明書和附圖中,術(shù)語"參數(shù)"用于兩種上下文特殊方式(i)描述數(shù)據(jù)集(轉(zhuǎn)錄、蛋白質(zhì)等)中的每個實驗特征,以及(ii)統(tǒng)計學(xué)和數(shù)學(xué)意義上的利用本發(fā)明的過程中使用的閾值和其他計算值。此外,計算值和一組計算/估計或指定閾值之間的差異由上標(biāo)的單引號區(qū)分(例如設(shè)定的距離d用作閾值時為d')。術(shù)語"獨立測量"的使用僅僅意味著采用完全不同的測量標(biāo)準(zhǔn)(例如作為探針的轉(zhuǎn)錄的不同區(qū)域,蛋白-肽片斷的不同區(qū)域,用于測量蛋白的一個以上抗體等)對一個參數(shù)(轉(zhuǎn)錄等)的測量,其中不同的區(qū)域可以具有物理重疊,其可以在相同的條件下具有不同的信號特性。這明顯不同于統(tǒng)計獨立性的觀念。事實上因為該差異才產(chǎn)生了此處研究、提議和改進(jìn)的一些特征。此處說明的實施例不限于這種類型的統(tǒng)計獨立性。對上述教導(dǎo)的方法的一個實施例、用于數(shù)據(jù)集研究的響應(yīng)面輔助策略(也稱作ReSmfx)說明如下,其中利用多次獨立測量對每個參數(shù)進(jìn)行測圖l表示處理數(shù)據(jù)的初期階段的工作流的一個代表性實施例。通常,從測量系統(tǒng)步驟1002和預(yù)處理步驟1004和1008采集數(shù)據(jù)。該預(yù)處理將依賴于數(shù)據(jù)-采集技術(shù)-特性,并被假定為將要執(zhí)行,(如果需要,則在實施此處說明的教導(dǎo)的實施例之前)除非另外提及。這種預(yù)處理數(shù)據(jù)集被表示為起始數(shù)據(jù)集并在本文的其余部分和附圖中用字母D步驟1006表承在圖l表述的概括圖中標(biāo)示出了一些其他的附圖(圖2a-圖4步驟1010,圖8步驟1012和圖9步驟1014)。圖2a至圖4部分標(biāo)示了響應(yīng)面方法,其被提出研究給定數(shù)據(jù)設(shè)計的特性,給定的數(shù)據(jù)設(shè)計將(i)輔助高可信度的數(shù)據(jù)分析,以及(ii)反之,利用實驗和技術(shù)方面的一些原始特性輔助給定系統(tǒng)的設(shè)計原則的發(fā)展。圖14表示由生物不變原理激發(fā)的新的規(guī)范化方案。圖9表示了上述兩個實施例的聯(lián)合應(yīng)用,或僅利用第一方面結(jié)合用在新的綜合方案中的參數(shù)的數(shù)據(jù)特定閾值的方法以及在表示實驗過程或自然過程的不同觀測結(jié)果的數(shù)據(jù)集之間的高可信度差異區(qū)分。一些個別步驟的變化與細(xì)節(jié)在上述附圖和其他帶有適當(dāng)圖號的附圖中被提及。盡管此處表示的許多教導(dǎo)都與大規(guī)模數(shù)據(jù)集相關(guān),該數(shù)據(jù)集具有每個觀察集中的每個參數(shù)的多次測量,許多獨立的步驟,例如正常化方案、用在比較評價中真假陽性的最優(yōu)化選擇的等式,確定數(shù)據(jù)特定閾值和評價用于區(qū)分差異的統(tǒng)計或數(shù)學(xué)標(biāo)準(zhǔn)的方法,都可以用于許多不需要包含每個參數(shù)的多次測量的其它類型的數(shù)據(jù)集。圖2a、2b表示上述教導(dǎo)的方法的實施例。一個實例中具有一個內(nèi)置真假陽性的測試系統(tǒng),步驟1016,或者如下所示,混合適當(dāng)?shù)啬M真假陽性的步驟1020(例如使用在提到的DaST和SCALEIT中描述的發(fā)展方法和算法的技術(shù))。在一實施例中,本發(fā)明教導(dǎo)的方法包括優(yōu)化在最大化真陽性的鑒別的數(shù)據(jù)集與最小化假陽性的鑒別的數(shù)據(jù)集之間差異的鑒別。在一實施例中,利用了度量術(shù)語Neff(用于差異的有效數(shù)目)。在一實例中,利用了下列的方程式(圖2b的步驟1022中同樣使用到)一適合于具體應(yīng)用的交替形式能用來滿足該目的。Neff=TP*TP/(TP+FP)*(1誦FP/TP)在一實例中,包含在參數(shù)的不同N值(獨立采樣的數(shù)目)和對置信度(即對噪聲的差異)的任何適當(dāng)?shù)慕y(tǒng)計的/數(shù)學(xué)的度量的測定F的數(shù)據(jù)集Neff的響應(yīng)面一例如,對學(xué)生的t檢驗數(shù)據(jù)集(具有重復(fù))的成對比較的或者用于比較多組數(shù)據(jù)的Fishers檢驗一是其表面具有多個極大點和極小點的表面面。本發(fā)明的教導(dǎo)不僅限于如下實例,如圖16所示的實例,具有基因芯片⑧數(shù)據(jù)集和在數(shù)據(jù)集之間比較2倍變化的公知的真陽性(TPs)和大量不變量(假陽性一FPs)的成對比較。在圖16中,使用的數(shù)據(jù)集是具有三個重復(fù)的AffymetrixLatinSquare實驗(2到7),每個重復(fù)使用U133A-TAG芯片(見http:〃www.affymetrix.com/support/technical/sample一data/datasets.affk)。在圖16的結(jié)果中使用的規(guī)范是在46000(飽和狀態(tài))和將所有芯片背景(28)調(diào)至500的所有的PM和MM強度值的標(biāo)度的轉(zhuǎn)換平均值。在圖16中所示結(jié)果中的強度測量為各自探針對的PM-MM。圖16所示結(jié)果中的參數(shù)為d'=B'=28;r'=l.l(估算出的作為響應(yīng)面策略原理的證據(jù))。圖16中所示用于結(jié)果中的統(tǒng)計量為學(xué)生的t檢査(t代替文中的縮寫F)。AvgA和AvgB代替圖3a中的最大和最小值。圖16中所示用于結(jié)果中的范圍為N(信息化探針對的最小數(shù))=3-11,遞增量為l,在統(tǒng)計范圍為3-10時,遞增量為0.5;在這里稱為F和F。在圖16中,步驟1022的Neff的響應(yīng)面,指出統(tǒng)計的寬闊范圍并且給出Neff的近最大值的N的范圍(包括獨立測量)。在一實施例中,定義了包括N和F的成本因素(符號F用作貫穿于本文所使用的任和統(tǒng)計的/數(shù)學(xué)的測量置信度的量度標(biāo)準(zhǔn))。給出真假陽性的充分優(yōu)化組合的F和N越低,能檢測到小的變化的靈敏度就越高。在圖示分析中利用多個在其完全形式上(即,沒有歸納成單一值)的獨立測量將導(dǎo)致特異性增加。在這個階段還應(yīng)該注意的是比起真陽性的某些損失(在一些實例中,通過實驗本身的可變性和小部分的重復(fù),其甚至?xí)呛芾硐氲?,假陽性更加猖獗以及更不理想,尤其是在大范圍的數(shù)據(jù)集的分析中。然而,應(yīng)該注意這些教導(dǎo)不僅限于上述的典型實f殊下面的方程式(也用在圖2b的步驟1026中)以統(tǒng)計的附加因素和包含獨立測量的數(shù)量的形式提出了成本形式的實例,名稱CANeff為成本調(diào)整的Neff。CANeff=Neff/(F'+N')如圖2a中所表示的(步驟1028),其它的成本的有效形式是可能的并且在一些實例中可以很理想。圖3描述了F(統(tǒng)計的或者數(shù)學(xué)的置信閾值)和N'的計算以及其中所引用的數(shù)字。下面將描述用于所有涉及數(shù)據(jù)集或者來自同一應(yīng)用程序的數(shù)據(jù)的研究中為每個參數(shù)測量的一組常用N'使用。典型地,本發(fā)明的教導(dǎo)并不僅限于典型的實施例,可以觀察到,一旦用于一個技術(shù)平臺的參數(shù)用良好設(shè)計的真假陽性被計算出來,同一組參數(shù)似乎也適用于此技術(shù)的其它數(shù)據(jù)集(如圖3,步驟1030)。圖6和圖7描述了交替策略,其消除了如上所述對F反復(fù)確定的需要但確定了一個數(shù)據(jù)特定的閾值。在圖6和圖7所示的實施例中,仍需要基于對利用圖3a、3b的起始步驟1032及圖2a2b的步驟1026和1028進(jìn)行的測試案例的認(rèn)識確定對F和N'的充分優(yōu)化的參數(shù)。上述教導(dǎo)的相反應(yīng)用是為每個參數(shù)進(jìn)行多次測量(尤其要多于估計所需的)來收集/擬合初步測量,在一個或多個類似使用那個技術(shù)平臺或者數(shù)據(jù)收集策略的情景中,并基于d'、r'和F的計算值,以及又使用那個應(yīng)用所需的置信度,N的最優(yōu)數(shù)目(多個獨立測量)在本技術(shù)或者數(shù)據(jù)收集策略中被設(shè)計。用于設(shè)計測量的方法的實施例包括,獲得用于數(shù)據(jù)集測量的一個或多個預(yù)選參數(shù)以及一個或多個性能指標(biāo)之間的相關(guān)性,基于至少一個性能指標(biāo)選擇度量,應(yīng)用最優(yōu)化技術(shù),并且從最優(yōu)化技術(shù)結(jié)果中獲得上述一個或多個參數(shù)的一個或多個充分優(yōu)化的數(shù)值。上述一個或多個參數(shù)的一個或多個充分優(yōu)化的數(shù)值用于設(shè)計數(shù)據(jù)集的測量/收集策略。圖3a和圖3b表示研究這些行為以及遍歷參數(shù)以確定充分優(yōu)化的閾值的一種算法。圖3a和圖3b描述的方法包括遍歷N的可能值(包括獨立測量的數(shù)目,步驟1032和1032b)和遍歷為用戶確定的F的置信閾值范圍(當(dāng)有大于一個重復(fù)組時,圖3b^步驟1032b)。在一實施例中,數(shù)據(jù)集可以由兩個或者多個觀測結(jié)果組成,或者表示不同過程狀態(tài)性質(zhì)的重復(fù)數(shù)據(jù)集組。遍歷N(NiJ的增量可為1(當(dāng)其表示測量的數(shù)目時),以及基于計算的和其它資源以及數(shù)據(jù)分析的目的,圖3a和圖3b的步驟1032和1032bF(Fi。。的增量可由用戶分別確定。如下所述,在比較分析的基礎(chǔ)上(即在兩個觀測值之間或者在重復(fù)觀測值分類成各組的集之間),每個參數(shù)(i)被評估以滿足噪聲閾值標(biāo)準(zhǔn)組和置信的測量。在一實施例中,只使用滿足下面提到的噪聲控制標(biāo)準(zhǔn)和圖3a的步驟1036及圖3b的步驟1036和步驟1046的測量。<formula>formulaseeoriginaldocumentpage20</formula>,(應(yīng)該注意其它預(yù)先確定的標(biāo)準(zhǔn)也在本教導(dǎo)的范圍內(nèi)。)其中上面提到的參數(shù)的測量信號XJA和XJB,在兩個指定條件A和B之間評估(x),并且j在參數(shù)i的測量M上執(zhí)行。數(shù)據(jù)集中F應(yīng)用于數(shù)據(jù)集中重復(fù)組的例子(步驟1046)。在圖3a和圖3b中,用在步驟1036的符號max和min表示一般情形,比較單一值時max是指最大值(maximum),min是指最小值(minimum),兩個平均值或者中間值的最大值/最小值或者有較低平均值或中間值的組的最大值/最小值。在說明本文教導(dǎo)的用處的所有實例中,當(dāng)比較組時用到平均值??蛇x擇的,當(dāng)被評估差異的參數(shù)測量j的所有數(shù)據(jù)點低于總體背景噪聲計算值或者估計值時(B'-尤其確定的低于大多數(shù)收集的數(shù)據(jù)表示的參數(shù)低于在使用條件下測量系統(tǒng)的可靠檢測閾值)。從步分析驟1048中將他們排除。這些閾值(d',r'和B')避免了在噪聲區(qū)中的差另lJ-這方面將在以后的部分詳細(xì)的討論。計算數(shù)據(jù)集專用閾值的距離(d')和比值(r')的算法在圖5中描述。當(dāng)測量的評估滿足這些標(biāo)準(zhǔn)時,其被用在分析(步驟1050)的測量中,并且下一個測量被評估。參數(shù)的所有測量值都這樣重復(fù)(步驟1034)。當(dāng)通過上面標(biāo)準(zhǔn)的測量數(shù)目超過重復(fù)的測量的閾值數(shù)目時(步驟1052),在被比較的觀測值(或者組)之間,其參數(shù)被認(rèn)為是有差異的。當(dāng)所有的參數(shù)被評估時,記錄下在重復(fù)中使用的閾值集的結(jié)果(步驟1054),并增加了參數(shù)的閾值,用于下一次重復(fù)(步驟1058)。一旦重復(fù)的范圍被指定增量覆蓋時,如圖3b-(步驟1056)、圖2中描述的一實施例中多個重復(fù)組的情形,所有保存的數(shù)據(jù)被用來使用已知的或擬合的區(qū)別來選擇N'-和F的最佳化組合。圖3b為圖3a的擴充,處理兩個參數(shù)的多重復(fù)組優(yōu)化的情形,參數(shù)的測量數(shù)目(N')和置信測量(F)?;谥貜?fù)觀測結(jié)合多次測量的置信測量的使用充分改進(jìn)了數(shù)據(jù)的對比分析。在這種情況下,類似于圖3a完成了重復(fù),但是對于在選擇范圍內(nèi)的F的每個增量(即,F(xiàn)'為其重復(fù)),如上述圖3a所述的值為通過替換N'的迭代循環(huán)(步驟1032b和1058b)的N的全部范圍計算出。策略的細(xì)節(jié)幾乎是同樣的,除了對于每個測量和每個評價循環(huán),在兩個重復(fù)之間的比較的基礎(chǔ)上計算的置信測量F(步驟1044),同樣應(yīng)該超出閾值F(步驟1046)。圖4(圖3b中可選步驟1040)描述了這樣的策略,其基于這些閾值策略消除了若干組(在多組比較中),以及基于為待評估的每個測量區(qū)分鑒別允許變化組數(shù)目。這種情形下,噪聲閾值是基于遍及G組的平均值的比較(步驟1060的符號AvgT)到每個參數(shù)i的個別組。同前面的情形,平均值可以被圖3中描述的組或全部組的中間值或者最大值和最小值取代。圖17描述了CANeff行為的實例,具有與圖16所示的測量包含的值(N)和統(tǒng)計同一比較的值(這里是t一統(tǒng)計)不同的值。從圖16和表1可以看出,(i)圖16中N^的幾乎平坦表面的響應(yīng)面目前可以減少到幾個明顯的峰,以及(ii)統(tǒng)計的閾值大幅低于常用到P值為0.05的數(shù)據(jù)分析閾值。<table>tableseeoriginaldocumentpage22</column></row><table>表1一在真假陽性(兩倍變化的)鑒別中不同的統(tǒng)計閾值(F')和使用的獨立測量的數(shù)目(N')的效果的實例表l中表示的是,在每個閾值(9個比較中的3個,用于三個各自的比較)處鑒別的兩倍差異的插入數(shù)目。每一例中,最左列表示插入(用pM表示)的濃度,在其它數(shù)據(jù)集中插入的濃度為該值的兩倍(除了下面表示的)。閾值常用統(tǒng)計(F)和有效探針對的數(shù)目(N')在第一行中,表示為(F5N')。FP是假陽性的數(shù)目,PPV是陽性預(yù)測值[TP/(TP+FP)],靈敏度是[TP/(TP+FN)]。傘0pM插入與0.125pM插入比較,以及512pM插入與0pM插入比較,fCR表示插入具有同源性的交叉反應(yīng)的轉(zhuǎn)錄/探針集(9個比較中的3,用于三個各自的比較)。圖16和圖17表示得實例用的數(shù)據(jù)集是同樣(注意,在圖17中,用t代替上面的F,以及N'等于探針對的數(shù)目)。表2中所示的實例表明本發(fā)現(xiàn)的重大優(yōu)勢,即,能夠選擇真陽性而對甚至在較低置信閾值的假陽性的數(shù)目沒有太多影響。此外排除了推測閾值的需要。隨后描述評估數(shù)據(jù)特定閾值的策略(圖5、圖6和圖7)。本發(fā)明的某些應(yīng)用方面,文中關(guān)于用基因芯片(GeneChip)技術(shù)進(jìn)行基因表達(dá)測量的方面在雜志《GenomeBiology》,作者為Gopalan,2004年第5期第14頁有所描述,這里用作參考。1.52343,5928713595l咖l192513,685481103115101l磁74,6755312753l柳7182874,769271033313鄰5154316,674181144415235166777,58588B500174加l柳012,65164899312204135967.71,66634105841411115600表2-數(shù)據(jù)轉(zhuǎn)換策略鑒別響應(yīng)面輔助策略實用性(SCALEIT)的應(yīng)用表2表示在給定的通常閾值統(tǒng)計定點處(F'),探測(在可能的22,301之夕卜)的探針集的數(shù)目(三個獨立比較的平均值)以及滿足F的探針對(N')的最小數(shù)目,如第1列中所表示的(F,N')。為了達(dá)到評估的目的,三次重復(fù)與另外本質(zhì)上在同一個樣本中的三次獨立重復(fù)做比較縮放到給定的差異下(在第一行中表示),表示這樣三次評估的平均值。再次地,圖16及圖17所示實例中用到的數(shù)據(jù)集是相同的。本教導(dǎo)的方法的事實例,使用(被使用在)上述響應(yīng)面輔助閾值策略(ReSurfX),利用數(shù)據(jù)特定閾值差異的鑒別的實施例在下面描述。上述描述的某些實施例利用為此目的特別設(shè)計的數(shù)據(jù)集。許多現(xiàn)有的數(shù)據(jù)集很少用內(nèi)置真假陽性的設(shè)計,或者不具備足夠的數(shù)目和種類。一實施例,沒有足夠的象上面所述的利用測試裝置數(shù)據(jù)集的真假陽性種類的數(shù)目,以確定該生成技術(shù)數(shù)據(jù)類型能使用的閾值。在一些常規(guī)分析方案中已經(jīng)示范了距離和比值閾值的使用,但是,本教導(dǎo)中,披露了確定這些參數(shù)的數(shù)據(jù)專用閾值的算法。這里,下面將介紹確定距離、比值和統(tǒng)計的數(shù)據(jù)專用閾值(DaST)以避免噪聲區(qū)的差異的實施例。不同的數(shù)據(jù)采集平臺、預(yù)處理方案(背景校正、規(guī)范化等)以及實驗系統(tǒng)基于噪聲/可變性(尤其在比較重復(fù)之間的數(shù)據(jù)時觀測),有不同的固有的和其它的處理水平。圖5表示確定距離(d)(即,在兩個值或兩組間的數(shù)值差異)和典型地位于在數(shù)據(jù)噪聲水平內(nèi)的比值(r)的數(shù)據(jù)特定閾值的方案。在一實施例中,為能探測測試裝置數(shù)據(jù)集的真假陽性的充分優(yōu)化結(jié)合,百分位數(shù)被確定于這些最佳的情形下的d和r值,例如,用NeSt步驟1022。為了此目的,收集大量充足的隨機取樣的數(shù)據(jù)一步驟1062(或者步驟1064的全部的數(shù)據(jù)),并為每個挑選出的測量樣例在重復(fù)內(nèi)的最大值和最小值之間確定距離和比值(由此捕獲數(shù)據(jù)的噪聲組成,步驟1066)。計算出的距離和比值(各自)以(d和r的)數(shù)值升序排列,并且根據(jù)數(shù)值的有序集,在不同百分位數(shù)的d和r值被選出作為閾值(d'和r')一步驟1072—以及如在前面部分描述的應(yīng)用中或者為許多數(shù)據(jù)分析方案(亦或是選擇或消除以避免剛好在噪聲區(qū)處理數(shù)據(jù))確定閾值中。訓(xùn)練集試驗不同的閾值,并且選出最佳值(例如通過使用關(guān)于Ncji的方程式)。百分位數(shù)值用來確定步驟1074的d'和r'(選擇出的閾值-DaSTd'andDaSTr')。當(dāng)附加特點或者保障保證放大d'和r'的確定值的放大版本,或者其利用圖5的算法確定的高于最佳值的百分位數(shù)閾值能用來增加置信水平。沿著其分布在不同點的測量值排列的數(shù)據(jù),通過使用相似的策略和假設(shè)分段線性可以確定動態(tài)的閾值。圖6和圖7描述了相似的實施例,但是為了在確定F(使用的置信測量)的數(shù)據(jù)特定閾值以避免主要在噪聲區(qū)內(nèi)(因此在該區(qū)幾乎沒有真陽性)的差異,帶來了額外的復(fù)雜。在這種情況下,步驟1080中,使用大量充足的參數(shù)樣本和所有的重復(fù),并且模擬在由重復(fù)表示的數(shù)值范圍內(nèi)的附加值。步驟1082中,被保證其放大質(zhì)量的,這個范圍能由系數(shù)放大,稱為振動系數(shù)一v(例如,v=r'時,就意味著找到了在r'倍最大值和(l/r')倍最小值之間足夠數(shù)量的隨機數(shù)的值)。僅使用最大值和最小值作為范圍等效于使用1.0的振動系數(shù)。步驟1084中,包含的參數(shù)值和隨機值(包含終點)被排列形成含有適當(dāng)數(shù)目的重復(fù)和步驟1090中計算的置信的測量值的足夠的組。步驟1092中,參數(shù)的多次獨立測量情況下,如本部分的主題,這個過程重復(fù)N'(測量的閾值數(shù))次并將保存最小值作為數(shù)據(jù)集的一個值用來確定充分優(yōu)化的閾值。在步驟1094中,收集到的最小值被降序排列,并且在用戶確定的置信閾值處選擇F值,即DaSTF(例如,95%的置信水平就是第95百分位數(shù)的值)。步驟1096中,可以在用戶確定的置信水平上選擇該值或者使用訓(xùn)練集重復(fù)該值。在之前描述的步驟1036和步驟1048中(本算法中為步驟1086和1088)的噪聲區(qū)消除策略可以選擇性的包括在DaSTd'、DaSTr'和DaSTF的計算中。步驟1092的交替表現(xiàn)可以包括每個參數(shù)N'測量的計算值的中間數(shù)或任何其它百分位數(shù),而不是F的N'值中的最小值。當(dāng)信息化的N大于N'時,使用獨立的基本統(tǒng)計原理(即,pN'=piN),可以緩和統(tǒng)計的閾值(對于更加靈敏的差異的鑒別)。如之前提到的,數(shù)據(jù)類型沒有嚴(yán)格滿足統(tǒng)計的獨立原理,但是在測試?yán)型ㄟ^這種調(diào)整獲得的優(yōu)點似乎并不能以可認(rèn)知的代價計算。上述實施例己經(jīng)應(yīng)用于已公布的指定數(shù)據(jù)集,其具有大量差異和不變參數(shù)而沒有如例1中所示的在N和F值范圍中的重復(fù)(比如,實施例并不僅限于本例中所使用類型的應(yīng)用和數(shù)據(jù)集),,通過使用圖5、圖6和圖7描述的策略以及應(yīng)用圖4的結(jié)果,得以很好的成功(圖16)。為了達(dá)到該目的,基于在先實驗表1和表2所示的實例結(jié)果中應(yīng)用的數(shù)據(jù)(表3),N'值被設(shè)置為所有可用探針集的50%(獨立測量)。<table>tableseeoriginaldocumentpage26</column></row><table>表3—數(shù)據(jù)特定閾值策略的應(yīng)用(圖5—圖7),在大量真假陽性檢驗數(shù)據(jù)集上的BINorm方案(圖14)和ReSurfX(圖3)。這里使用的數(shù)據(jù)集結(jié)合參考"Choe等,[GenomeBiology(2005)6:R16]",使用的參數(shù)為B'=107(計算出的,數(shù)據(jù)沒有表示出來)d'=57(圖5,第50百分位數(shù))r'=1.162(圖5,在第50百分位數(shù))N'=7(估計出的一已知技術(shù))F=1.65(t-統(tǒng)計一圖6)對于每個探針對,用到的強度測量為PM-MM。在每個子集中使用己知插入式不變集的內(nèi)置數(shù)據(jù),用到的規(guī)范為BINorm在25。/。的中間值。AvgA和AvgB用來替換圖3中的max和min。用這兩個應(yīng)用描述多個獨立測量時具有廣泛的用途,甚至在每個參數(shù)用單個值表示的數(shù)據(jù)集中。這可以通過在這兩個例子中設(shè)置N'=1簡單地獲得。本教導(dǎo)總結(jié)參數(shù)值的方法的實施例包括將數(shù)據(jù)集中的測量結(jié)果分組為許多對測量結(jié)果,為每一對測量結(jié)果確定,對一對測量結(jié)果預(yù)先確定的測量是否滿足閾值標(biāo)準(zhǔn),如果預(yù)先確定的測量不滿足閾值標(biāo)準(zhǔn),從測量結(jié)果對中將一對測量結(jié)果對分類為為是不變的;如果預(yù)先確定的測量滿足閾值標(biāo)準(zhǔn),對每對測量結(jié)果中的其中一個測量結(jié)果與每對測量結(jié)果中的另一個測量結(jié)果進(jìn)行比較,比較后,根據(jù)比較結(jié)果分類每一對測量結(jié)果。對于重復(fù)數(shù)據(jù)集,實施例包括對重復(fù)的測量結(jié)果取平均值以及將平均后的測量結(jié)果分組為許多對平均的測量結(jié)果的步驟。本方法的過程類似于前述的實施例,利用平均測量結(jié)果對代替結(jié)果對。下面闡述本發(fā)明教導(dǎo)的這種方法的實施例,當(dāng)用多個獨立測量表示時,總結(jié)參數(shù)值。EMINE(ExplicitModelINdependentExpression):顯式模型獨立表達(dá)測量。如上所述,對于多個獨立測量的常規(guī)總結(jié)值是基于模型的。雖然這種基于常規(guī)使用模型的方法有顯著的進(jìn)步,但可能不是對所有數(shù)據(jù)集都很理想的。如上所述,當(dāng)鑒別數(shù)據(jù)集間的差異時,所有獨立測量的直接使用帶來特異性的顯著優(yōu)勢。但是用于模式識別時等,這種方法學(xué)必須適合于與其它的已建立好的先進(jìn)的統(tǒng)計和數(shù)學(xué)的分析方法一起使用,尤其當(dāng)分類數(shù)據(jù)集中的利觀測和相互作用的維數(shù)變高時。下面闡述顯式模型獨立表達(dá)總結(jié)方法的實施例,其中,使用每個參數(shù)的多次測量的計算成本和適應(yīng)成本沒有超過其缺點。圖9和圖10描述了本發(fā)明教導(dǎo)的使用數(shù)據(jù)組(尤其是數(shù)據(jù)集中觀測的重復(fù))總結(jié)測量的方法的實施例,而圖8和圖10描述了相似的算法,但是將每個觀測作為單個個體處理(尤其是不重復(fù)的觀測)。參數(shù)的每個滿足噪聲閾值標(biāo)準(zhǔn)即步驟1100、1102、1110、1112和1114(如步驟1036和1048中)的獨立測量被分類為不變(NC)、增加(I)或降低(D),艮卩,基于步驟1098的成對比較的步驟1104、1106、1108、1116、1118、1120?;诳赡芤粯佣嗟谋容^(或者當(dāng)大量組合可用時,比較的最小數(shù)目),在每個參數(shù)步驟U22中選擇出、在數(shù)據(jù)集的特殊的閾值之上滿足特定標(biāo)準(zhǔn)的獨立測量與具有為參數(shù)統(tǒng)一分類的獨立測量一樣多的參數(shù)。步驟1128中,當(dāng)為每個參數(shù)選出的獨立測量數(shù)目大于N'值時,基于一個參考芯片或者一組芯片被排序,并且中間的N'測量用作所有數(shù)據(jù)集總結(jié)的表達(dá)的計算?;谀康奶厥獾臉?biāo)準(zhǔn),一些交替的目的/技術(shù)特例包括排序可利用的參數(shù)N(例如,沿著預(yù)測轉(zhuǎn)錄并使用在可選拼接形式中最大化檢測各種感興趣的轉(zhuǎn)錄機會的集合)。當(dāng)選出的測量數(shù)目低于N'并且在成對比較數(shù)目上,閾值沒有質(zhì)量的退化不能被放寬時步驟1124),所有滿足最小值標(biāo)準(zhǔn)的N測量值被使用(步驟1126)、分類以及表示中間N'值的測量被選出。步驟1130中,表達(dá)總結(jié)可以是簡單測量比如具有異常校正的加權(quán)平均或者任何其它已建立或修改的總結(jié)測量。當(dāng)一些測量是有效的這種N'測量在許多比較中有統(tǒng)一特點(通??梢员辉O(shè)置為比較的閾值百分?jǐn)?shù)可以確定該特點),一個可以大多數(shù)很有效的使用或者用于這個步驟的普通的組可以被選擇出并被分類為將來使用。這種用于所有數(shù)據(jù)集的用于每個參數(shù)的統(tǒng)一的測量組的使用,在步驟1122中稱為選擇集(chosenset),與使用所有的或者變化的信息化測量數(shù)相比,總結(jié)值確實具有更好的質(zhì)量。在顯式模型獨立表達(dá)測量(EMINE)后,附加的合適的規(guī)范在一些實例中可能是有利的。EMINE的一個優(yōu)點是最小使用數(shù)字化校正標(biāo)準(zhǔn)。在本文的生物應(yīng)用中,隨著大規(guī)模數(shù)據(jù)集的發(fā)展,可以設(shè)計和使用用于EMINE的統(tǒng)一測量的通用集。上述的設(shè)計策略可以認(rèn)為是直接達(dá)到這種目的的一種方法。這里,下面將披露本發(fā)明教導(dǎo)的方法的實施例,即基于為響應(yīng)面估計倍數(shù)變化置信的差異的估計值的數(shù)據(jù)分析。圖11和圖12描述了當(dāng)使用響應(yīng)面輔助策略時,確定差異的比值的估計值(成對比較)和估計差異置信度相應(yīng)的實施例。在最簡單的方式中,似于步驟1036和1048,通過為每個選出的測量(選擇也是基于噪聲閾值消除策略,步驟1132)取成對比值獲得比值的估計,使用所有N通過閾值消除選擇集策略(步驟1134),或者最接近中間值的N'值(步驟1136),如下所述,以及在步驟1042)的參數(shù)接下來是總結(jié)的度量-步驟1138-(例如,步驟1130中的具有異常校正的權(quán)重平均)。當(dāng)不通過噪聲閾值消除策略的N大于N'時(步驟1140),不通過的部分可以用于總結(jié)測量。當(dāng)需要時,步驟1136中的N'中間比值也可以使用。在使用的測量數(shù)目中,為每一個參數(shù)估計的比值的擴展用于確定和報告比值的估計。置信的測量使用相似的技術(shù)(步驟1114和1116),除了最小值用于給出置信的最保守測量,其它的變量也可以被用到,這些變量是基于出自比較中參數(shù)的信息化測量的所有置信測量的百分位數(shù)。當(dāng)信息化的N大于閾值N'時,可以選擇使用F值的有序排列(降序)的中間N'值-步驟1148。然后,置信測量可以與N'和F的可加測量被用在成本因素上一樣使用(步驟1026),或者從標(biāo)準(zhǔn)的統(tǒng)計法或基于統(tǒng)計學(xué)的自助法(bootstrap)被轉(zhuǎn)換為p值并且以恰當(dāng)?shù)母袷奖硎?圖12的步驟1150提出了一些可用的格式)。在使用EMINE總結(jié)值的情況下,可以應(yīng)用標(biāo)準(zhǔn)的數(shù)學(xué)和/或統(tǒng)計學(xué)-步驟1142和1152。以下將介紹用于檢驗數(shù)據(jù)集的分析中差異選擇方案效果的數(shù)據(jù)轉(zhuǎn)換方法(表示為SCALEIT)的實施例。如在以上部分中已經(jīng)廣泛使用的,設(shè)計良好的檢驗數(shù)據(jù)集在發(fā)展過程中將是極值并且是用在工作流不同步驟的算法的驗證。但是,這樣設(shè)計良好的適合于實驗的情景的檢驗集很少有,或者有時是由于資源的限制。眾多的數(shù)據(jù)分析方案用于拾取來自數(shù)據(jù)集的有用信息。不同的方案不同程度上取得成功(鑒別真的和假的的變化和參數(shù)間的關(guān)系和/或被研究的不同觀測值/條件)。下面構(gòu)思、檢驗和描述了使用存在于整個數(shù)據(jù)集的變化的結(jié)構(gòu)以評價應(yīng)用在特定實驗條件中的數(shù)據(jù)分析方案的效果的模擬方法。圖13描述了上述教導(dǎo)的使用數(shù)據(jù)轉(zhuǎn)換方法(SCALEIT)的實施例,以及提供的實用的例子。簡要來說,該實施例,SCALEIT,包括將全部的數(shù)據(jù)集及其重復(fù)轉(zhuǎn)換到不同程度上(例如,1.2、1.5、2倍等)-步驟1154-以及對數(shù)據(jù)分析/差異鑒別方案的應(yīng)用-步驟-1156。本方法的優(yōu)點在于對固有到系統(tǒng)中的所有可能變化的結(jié)構(gòu)的使用。在不同的閾值處響應(yīng)面輔助方法鑒別差異的內(nèi)容中,本方法的例子見表2-步驟1158。一些數(shù)據(jù)分析方案的形式將由單向轉(zhuǎn)換策略的改進(jìn)更好的檢驗,例如雙向的變化或者這種變化的混合與原始數(shù)據(jù)集恰當(dāng)?shù)慕M合在一起。本教導(dǎo)的規(guī)范化數(shù)據(jù)集數(shù)據(jù)的方法的實施例包括步驟根據(jù)測量值排列數(shù)據(jù)集的數(shù)據(jù),根據(jù)預(yù)先確定的標(biāo)準(zhǔn),參考子集,參考子集至少有一個參考測量值,從排列數(shù)據(jù)中選擇數(shù)據(jù)元素,數(shù)據(jù)元素具有與一個或多個參考測量值充分等同的測量值,排列具有充分等同測量值的數(shù)據(jù)元素,排列的數(shù)據(jù)元素包含充分等同排列的子集,并利用一個或多個參考測量值和充分等同排列的子集規(guī)范化數(shù)據(jù)集。。這里,下面將闡述由生物的不變原理規(guī)范化數(shù)據(jù),以下簡稱為BINorm,激發(fā)的本教導(dǎo)的實施例。同時基于陣列的和許多其他的技術(shù)很大地依賴在平臺內(nèi)部或者交叉平臺的數(shù)據(jù)集間的規(guī)范化或者數(shù)據(jù)的數(shù)值等效的一些形式)。大多數(shù)用于數(shù)據(jù)的規(guī)范化以強度依賴方式依賴于數(shù)據(jù)集的排序和校正系統(tǒng)的變化,此強度依賴方式使用基于全部數(shù)據(jù)的分布,也使用空間分離組作為點樣(print-tip)規(guī)范化(如lowess)。常常地,基于秩的假設(shè)被建在系統(tǒng)內(nèi)包括幾乎精確的數(shù)據(jù)集分布,或者排序全部數(shù)據(jù)集并在參考和目標(biāo)數(shù)據(jù)集間選擇基于秩的不變集(如美國專利No.6571005,在這里聯(lián)合參考),或者更近期提出的后一種方法的變異,其中數(shù)據(jù)集被劃分成表達(dá)值的范圍以及被秩等價選出的不變集(美國專利公布號2005/0038839Al,這里聯(lián)合參考)。其它常用方法的例子包括方差分布原理的廣泛應(yīng)用以及利用轉(zhuǎn)換或者建模嘗試減少系統(tǒng)的組件)。規(guī)范化方案的不正確使用有時能引起數(shù)據(jù)集中的人為偏差和錯誤。如圖14所示,下面闡述由生物系統(tǒng)的基本行激發(fā)的上述教導(dǎo)的方法的實施例。通常,在生物系統(tǒng)中研究在一個或多個實驗條件下所有參數(shù)的變化,在任一給定的數(shù)據(jù)集樣本中,經(jīng)常有隨機分布的不變值。另外,在許多系統(tǒng)中,實驗條件和技術(shù)的變化之間的變化是隨機的、雙向的并隨機分布的。這種具有很少實際差異的系統(tǒng)經(jīng)得起此規(guī)范化方案的檢驗,表示為BINorm-表示生物的不變性激發(fā)的規(guī)范化。該方案需要設(shè)計一個觀測作為參考-步驟1160-以及所有的其它觀測參考此數(shù)據(jù)集進(jìn)行規(guī)范化。循環(huán)的規(guī)范化,即,在一些實例中會將全部規(guī)范為與全部成對方式相逆。步驟1162中,由測量值排序參考數(shù)據(jù),并且在步驟1164中,沿著數(shù)據(jù)的全部分布選擇子集,稱為Iref。步驟1166中,從目標(biāo)數(shù)據(jù)中選出等效于每個子集(即,使用子集中數(shù)據(jù)點的索引)的測量并排列子集,稱為Iraeget。步驟1168中,在其最簡單的形式中,上述狀態(tài)的假設(shè)不能明顯違背目標(biāo)子集中應(yīng)該含有的與參考序列中子集的值等效的值的中間x%,-步驟1168的簡化版本-(例如,Iref和Itarget的100點子集的中間10%)。這樣,Itarget中x值的平均值(或中間值)將等于Iref。利用分段線形功能,這種沿著全部數(shù)據(jù)的方式確定的等值將用于規(guī)范化。在步驟1176中,上述步驟后,或者如下所示的另一個實施例在Itarger的地域等值重復(fù)之后,x值將隨著不變量的百分值變化并進(jìn)行重復(fù)。只要數(shù)據(jù)集間的不變量的百分值大于x,就應(yīng)該沒有質(zhì)的降低,甚至數(shù)據(jù)中比真實的不變量更低的百分?jǐn)?shù)被使用時。當(dāng)數(shù)據(jù)集間出現(xiàn)差異的單向偏態(tài)時,需要不變量的區(qū)域選擇中的變量。步驟1168和步驟1170中表示處理這種情形的一個實施例,通過在排序的數(shù)據(jù)上的不同百分位數(shù)處轉(zhuǎn)換Itarget的有序測量的x%(例如,"/。以第十百分位數(shù)而不是中間值開始),重復(fù)于等效區(qū)域,并將此值轉(zhuǎn)換為Iref的中間x。/。值。內(nèi)置的訓(xùn)練集,大量推定的不變集(見下面的描述)可以用于檢驗規(guī)范化的質(zhì)量致特殊的數(shù)據(jù)集-步驟1172-或者使用合適的檢驗等效的方案。這樣,重復(fù)于有序的Itarget的百分位數(shù)的范圍后,被選出用于轉(zhuǎn)換所有數(shù)據(jù)的等效范圍將是這樣的一個,即在兩個作為確定的數(shù)據(jù)集間,使用已知的/模擬的不變量或者其它的等效檢驗方案進(jìn)行檢驗-步驟1174能給出最好的一致性。當(dāng)保留實驗設(shè)計中的固有變化時,BINorm方案具有系統(tǒng)變化的簡單校正的優(yōu)點,這樣改進(jìn)了分析后結(jié)果推論的使用中的特異性和置信度。具有完全不變集的使用的例子見表3,雖然上述教導(dǎo)并不僅限于這種例子。當(dāng)使用來自多個測量平臺的數(shù)據(jù)或者同樣平臺的測量系統(tǒng)中的變量時,存在足夠多的用于參數(shù)標(biāo)識的常見連接術(shù)語足以使在數(shù)據(jù)集間的測量值為等效的和可比較的。如上所提到的,用于每個有機體和平臺的大規(guī)模數(shù)據(jù)集的可用性,可以選擇和使用足夠大量的推定的不變參數(shù)用于多種類型的一般目的分析。然而不是所有的參數(shù)在所有被檢驗的條件下都是真的不變,大部分是可用的。當(dāng)多數(shù)不可用時,要么規(guī)范化方案不能應(yīng)用于那些數(shù)據(jù)集,要么那種系統(tǒng)是獨特不同的。還應(yīng)該注意的是,盡管在生物系統(tǒng)中這種類型的不變量很普遍,但任何具有這種性質(zhì)的試驗系統(tǒng)或者數(shù)據(jù)集經(jīng)得起規(guī)范化方案的檢驗。下面將描述集成上述教導(dǎo)于目前使用的數(shù)據(jù)集和其他軟件的系統(tǒng)和計算機程序產(chǎn)品。如圖中及上面的描述中所看到的,以上提出的教導(dǎo)和概念以運算法則形式直接呈現(xiàn),是經(jīng)得起計算機軟件發(fā)展的考驗的-步驟-1182-(在任何計算機語言和用戶界面工具中)可以與數(shù)據(jù)集和數(shù)據(jù)倉庫一起集成-步驟1178和1180-在結(jié)合本發(fā)明教導(dǎo)的其他軟件包中,也能利用其他軟件為其他的應(yīng)用作為有效的輸出或者輸入方法/算法使用-步驟1184、1186、1188和1190。計算機可應(yīng)用介質(zhì)1179內(nèi)部體現(xiàn)為計算機可讀編碼,其中,計算機可讀編碼能夠使計算機系統(tǒng)1175執(zhí)行本教導(dǎo)的方法。事實上,上述的一些教導(dǎo)被嵌入0++語言的欽件編碼檢驗過。(然而,本教導(dǎo)的方法和系統(tǒng)不僅限于任何一種計算機語言。)另外,上述概念也可個別地用作集成在其他的程序包內(nèi)的功能。圖15表示本教導(dǎo)的系統(tǒng)的實施例的簡單圖示。這里呈現(xiàn)的教導(dǎo)具有在大多數(shù)情形下有最小的假設(shè)和數(shù)值處理的優(yōu)點,因此增加了趨于大規(guī)模的和許多高通量數(shù)據(jù)的高置信使用的目標(biāo)-步驟1192適用于參數(shù)的多個獨立測量的概念和算法也會應(yīng)用于許多其他的情景(如,某種類型的時間進(jìn)程數(shù)據(jù)的分析,收集元數(shù)據(jù)作為每個參數(shù))。在本
發(fā)明內(nèi)容中,討論了生物環(huán)境中高通量和大規(guī)模生物體(或基因范圍)的數(shù)據(jù)的應(yīng)用,還應(yīng)可以使用到其他各種存在應(yīng)用概念和算法的可能的環(huán)境o為了更好的描述本教導(dǎo),下面給出示范性的實施例,本教導(dǎo)不僅限于此實施例。上述分析中使用的基因芯片表達(dá)數(shù)據(jù)集是來自Affymetrix數(shù)據(jù)集以發(fā)展算法為目的和基于HG-U133A-Tag陣列試驗2到5,重復(fù)Rl到R3(http:〃www.affymetrix.com/support/technical/sample_data/datasets,affk)。通過Affymetrix,使用由已知濃度的特定RNA溶液與來自HeLa細(xì)胞系的全部cRNA混合組成的雜交混合物,產(chǎn)生該數(shù)據(jù)集。為了計算包含在溶液的真假陽性,所有非已知濃度的溶液部分以AFFX開始的探針集被排除掉,因為他們中的一些具有明顯可辨別的差別。據(jù)報告,,,三個探針集具有5個或更多探針對的完全同源'想這樣在數(shù)據(jù)集中為每個比較剩下45個真陽性和22,185個假陽性。除非另外提到,表示的值是基于,其區(qū)別在與具有兩倍濃度差異的溶液試驗之間的三組比較的平均值,即試驗2與3,3與4以及4與5。從細(xì)胞檔案中抽取的探針?biāo)綌?shù)據(jù)(使用平鋪坐標(biāo)定義,由探針序列信息提供給芯片類型-U133A-TagbyAffymetrix)以及所有信號值的平均值在值28(在所使用的芯片中的最低背景值)和46,000的飽和值之間的完全匹配和錯配的)被轉(zhuǎn)換為目標(biāo)值500。b是芯片的背景(例如通過MicroarraySuite5.0確定的)。當(dāng)多于11個探針對表明時,僅數(shù)據(jù)集的前11個探針組被抽取和使用(Affymetrix探針序列檔案中按順序所列的)。每一探針對的完全匹配和錯配間的差異被用于所有進(jìn)一步的估計。O或者負(fù)的差異被設(shè)置到背景中。利用MicroarraySuite5.0(Affymetrix,CA)用截尾均值法為每個陣列抽取具有(頂部和底部的2%信號值被截掉)的信號值轉(zhuǎn)換為目標(biāo)強度50a如圖3所示。用到靈敏度的標(biāo)準(zhǔn)定義和陽性預(yù)測值(positivepredictionvalue,PPT)。靈敏度的計算為sn=TP/(TP+FN);PPV的計算為PPV=TP/(TP+FP),其中,TP是真陽性,F(xiàn)P是假陽性,以及FN是假陰性。特別地,如提到過的,用到方差的加權(quán)平均值。對于生物學(xué)的重復(fù)的初級評估,來自主動脈瓣狹窄的人類病人的數(shù)據(jù)(雜交到U75-Av2芯片上的樣本JB-as—080&JB-as—1504和JB-as—1805與JB-as一2111、JB-as—2604和JB-as—2708進(jìn)行比較),來自心血管發(fā)育、適應(yīng)和重建部位的基因組學(xué)網(wǎng)站NHLBI程序在基因?qū)W的應(yīng)用,哈佛醫(yī)學(xué)院(NHLBIProgramforGenomicApplications,HarvardMedicalSchool.)。引自http:Vwww.cardiogenomics.org[訪問于2004年5月28日}這種芯片由16個探針對組成并且平均背景被用作60。在WindowsXP背景中,用MS-Developer環(huán)境下由C+十完成計算。用于鑒別數(shù)據(jù)集間的差異的基因芯片數(shù)據(jù)的典型分析涉及探針?biāo)綌?shù)據(jù)的抽取,利用統(tǒng)一的表達(dá)索引表明轉(zhuǎn)錄表達(dá)的估計水平,總結(jié)在11個或者更多探針對的信息,接下來規(guī)范化或轉(zhuǎn)換。用于此目的的一些常用方法是dCHIP、RMAandMAS(MicroarraySuite,目前版本為5.0,Affymetrix,CA)。就對高維數(shù)據(jù)集的計算的簡單性和統(tǒng)計方法的易適應(yīng)性來說,統(tǒng)一表達(dá)指數(shù)的利用是先進(jìn)的。但是,由于代表轉(zhuǎn)錄的每個探針內(nèi)部的極其可變的行為,統(tǒng)一表達(dá)索引經(jīng)常不令人滿意。因此,基于有序的統(tǒng)計或其它貝葉斯(Bayesian)方法以降低假陽性的統(tǒng)計方法不能滿意地解決假陽性問題。這方面已經(jīng)被一些檢驗數(shù)據(jù)集評估過,比如這里用到的一個。當(dāng)不斷改進(jìn)上述方面時,直接應(yīng)用到探針?biāo)綌?shù)據(jù)的統(tǒng)計是有明顯變化的。如前面討論的,當(dāng)使用學(xué)生t-檢驗(Student'st-test)時,一些生物的和片斷相關(guān)的問題使統(tǒng)計閾值比如p值的簡單選擇復(fù)雜化。下面的方法是由這樣的事實啟發(fā)的,即表示轉(zhuǎn)錄的表達(dá)水平的測量的多個獨立特征原則上應(yīng)該允許選擇在適合特定數(shù)據(jù)集中噪聲的閾值。在許多表現(xiàn)好的數(shù)據(jù)集中,其閾值應(yīng)該低于普遍可接受的閾值,例如,t代表p〈-0.05。為了研究在探針?biāo)綔y量的不同表達(dá)的性能,靈敏度的響應(yīng)面、陽性預(yù)測值、真陽性的數(shù)目以及假陽性的數(shù)目用有效的探針對數(shù)目和t值范圍(學(xué)生t統(tǒng)計)的函數(shù)進(jìn)行了評價。上述是用在兩數(shù)據(jù)集間濃度范圍(0-512pM)與不同的探針集有兩倍差異的溶液的三個數(shù)據(jù)集完成的。有效的探針對被定義為一個其具有背景上平均信號值的最小差異(完全匹配和錯配信號間的差異),以及平均比值為至少l.l(直觀選擇,但是對于不同的數(shù)據(jù)集,可以被實證確定)并且大于閾值t,以避免在很靠近范圍的數(shù)值。另外,有不多于十五分之一的有相反方向變化的探針集的條件是強制的??偟膩碚f,后面的條件在數(shù)據(jù)集中從來不是差異選擇中的確定因素。選擇標(biāo)準(zhǔn)可以表達(dá)為11f,xj%>=1,1'(Xfe-Xjb》〗>=npRl其中,n是滿足條件的探針對的數(shù)目,t'是t統(tǒng)計的閾值,np是有效探針對數(shù)目的闞值,xie和xib是在實驗和原始芯片中各自探針對i的信號值。上述方程表示探針集的選擇,其中,設(shè)計實驗芯片的芯片比設(shè)計原始芯片的芯片含有更高的值,通過交換xie和xib,用于探針集的方程可以獲得芯片的高值。例如,對于滿足閾值為6的有效探針對并且t值為7.0的探針集,至少6個探針對表示探針集各自具有t統(tǒng)計為7.0或者以上-所有的探針對具有相同的變化方向。如從圖18A所能看到的和期望的,隨著通常閾值和探針對閾值的增加,陽性預(yù)測值(PPV)增加,S卩,越少數(shù)的真陽性被作為差異鑒定。圖18B表示隨著通常閾值和np的增加真假陽性的降低。上述問題原則上可被看作在受試者工作特性(Receiveroperatingcharacteristic,ROC)曲線下的二維面積問題,t閾值作為一維以及有效的探針對數(shù)目為其它維。這種情形中,一種可以預(yù)期涉及二維的多個閾值,其在ROC曲線下將有最佳的面積。可選擇地,上述可以被看作是最優(yōu)化的問題,具有作為許多具有最優(yōu)化組合靈敏度的真陽性和陽性預(yù)測值的檢測目標(biāo)。換句話說,上述可以用數(shù)學(xué)上的書寫,即術(shù)語陽性鑒別的有效數(shù)目(Neff):Neff=TP*TP/(TP+FP)*(1-FP/TP)[4]圖16表示陽性有效數(shù)目的響應(yīng)面作為通常函數(shù)以及有效的探針對數(shù)(np)。從圖中可以看出,通常范圍和np可導(dǎo)致可比較的Neff,頂部的兩個Neff在(t',np)的(7,5)和(6,6),與(真陽性,假陽性)的(91,1)、(89,1)和(87,0),分別的進(jìn)行比較。真陽性和假陽性總的可能的數(shù)目分別為135和66,555。應(yīng)該注意到,被使用的來自數(shù)據(jù)集的最低差異(兩倍),更高的差異將導(dǎo)致更高數(shù)目真陽性的鑒別。在圖16中,跨越通常范圍和np的大部分表面存在有相似的Neff,由此可以想到對個np和t值有可能達(dá)到良好的靈敏度和選擇性,這樣潛在地提高了小差異的檢測靈敏度,并且轉(zhuǎn)錄中的差異表達(dá)在低水平。原則上,上述可以通過定義包括兩個被檢驗參數(shù)的成本因素來達(dá)到。一種定義這種成本調(diào)節(jié)的采集陽性的有效數(shù)目(CANeff)的形式可以是CANeff=Neff/(t'+np)[5]圖17表示作為oft'和np的方程用于CANeff的響應(yīng)面。從CANeff的響應(yīng)面可以看出(圖17),在Neff的接近峰值處的大量平坦的面積(圖16)現(xiàn)在可以降到幾個明顯的窄的峰。(t',np)值產(chǎn)生頂部的三個CANeff分別是(3,7)、(4,6)和(4,7)與(真陽性,假陽性)的(86,2)、(91,5)和(85,0)相對應(yīng)。應(yīng)該突出的是,在上述閾值處選擇出的真假陽性值與之前提到的Neff最大值具有可比性在t表示p^0.05并且六個有效探針對的閾值(真陽性,假陽性)是(85,0)時,進(jìn)行比較。表1中總結(jié)了鑒別的真假陽性的數(shù)目和用于選擇集通常的溶液陽性的濃度范圍和np值。選擇較低的閾值并且仍然能夠保持高選擇性的可能性將特別是令人感興趣的(i)具有一定數(shù)據(jù)集,其中,陽性大幅度增加而閾值少量降低,其中,實驗中指示變化的訓(xùn)練集提示這將導(dǎo)致假陽性的選擇有很少數(shù)目的增力ft并且(ii)用于小差異的靈敏的鑒別而沒有明顯喪失選擇性(下面的部分用一些測試用例說明)。為了響應(yīng)面輔助的參數(shù)化檢驗,以上概述的方法論稱為ResurfP。應(yīng)該注意的是,給出良好選擇性的閾值越低,越能更好的選擇小差異并且在轉(zhuǎn)錄上具有低表達(dá)水平的差異,這樣,通過將用于上述比較中的兩個數(shù)據(jù)集(g卩,如此處概述的萃取的探針?biāo)綌?shù)據(jù))的一個數(shù)據(jù)集轉(zhuǎn)換為變化程度(1.5、2、3和4倍)并且與其它的數(shù)據(jù)集比較,評估低的閾值的優(yōu)點。相對于溶液所表示的變量的變化,這種方法可以使數(shù)據(jù)級的比較具有更的變量的變化。進(jìn)一步來講,這可以揭示在工業(yè)化重復(fù)行為中該方法論的靈敏度,從而揭示了最大可能達(dá)到的靈敏度。在閾值處評價的結(jié)果產(chǎn)生了頂部的兩個CANeff,t表示p《0.05,在表2中表示了詳細(xì)說明頂部Neff的閾值。像預(yù)期的一樣,低閾值使在任何給定水平的檢測有較高的靈敏度。應(yīng)該注意的是,甚至在(t',np)取(3,6)這樣較低的閾值時,檢測的差異(三個比較的平均值與下面定義的鑒別的差異比較)1.5、2、3和4倍僅分別42%>61°/(k81%和86%,更進(jìn)一步強調(diào)了所提方法的必要性和重要性。當(dāng)閾值為(7.71,6)時,上述數(shù)值則顯著減低,艮P,分別為30%、47%、63%和70%。為了鑒別計算差異的百分比,最大可鑒別的差異設(shè)置在21,485,該值是具有轉(zhuǎn)換因子為10的在閾值為(f=4,np=5)處鑒別的差異(三組比較平均)。圖17中增加探針造成閾值急劇下降的曲線(右側(cè)的)結(jié)合表2中展示的結(jié)果表明增加探針對的閾值比增加t統(tǒng)計學(xué)的閾值的損失要大。而且這些數(shù)據(jù)同樣表明適當(dāng)?shù)剡x擇一個低的探針對的閾值可以在不增加假陽性結(jié)果的同時顯著提高真實差別的數(shù)字結(jié)果。為了初步評價此次研究中被選擇或者放棄的探針組/轉(zhuǎn)錄的狀態(tài),這些探針組中的一個在閾值(t',np)分別為(3,7)時的表達(dá)因子的分布展示在圖19中。如從圖19中也可以看到,就像預(yù)期的那樣,探針組的表達(dá)因子的分布中,低表達(dá)因子在高差異比率下可以探測到到較好結(jié)果。反之,幾乎所有的在較高差異比率下未檢測到的探針組都是低表達(dá)因子,這與觀察的一致,即低的檢測范圍內(nèi)具有高的可變性。ResurfP在不同特性的生物學(xué)樣本中最佳應(yīng)用還需要更多的檢測,使用其他技術(shù)進(jìn)行獨立地確定。然而,對初步評估的結(jié)果進(jìn)行檢測是否生物重復(fù)中較低的ResurfP閾值可以導(dǎo)致高的假陽性,將是鼓舞人心的。為了這個目的,從cardiogenomicswebsite(seemethods)得到的一組生物學(xué)重復(fù)樣本在(t',np)閾值分別為(3,6)and(3,8)的情況下檢測。為了這個目的,六個主動脈瓣狹窄病人的數(shù)據(jù)被分成2組(3個重復(fù)),對方法進(jìn)行評估。雖然這個芯片包括了16個最常見的探針組/轉(zhuǎn)錄,但檢測得到的結(jié)果是僅在(3,6)and(3,8)上從12624個探針組中識別出了52和21。需要注意的是以上示例表現(xiàn)為這些教導(dǎo)中的部分現(xiàn)象提供了更好地解釋,既沒有限制這些教導(dǎo)也沒有為所有以上描述的現(xiàn)象提供解釋。以上描述的技術(shù)可以通過在一臺包括處理器,一個可以被處理器讀取(包括,比如,揮發(fā)和非揮發(fā)記憶和/或存儲部件)的儲存媒體,在一些實體中可能還包括至少一個輸入設(shè)備,和/或至少一個輸出設(shè)備的可編程計算機上的一個或者多個計算機程序中實現(xiàn),程序源碼可以用來通過輸入設(shè)備(或者用戶界面)輸入數(shù)據(jù),從而實現(xiàn)預(yù)定的功能并且產(chǎn)生輸出信息。輸出信息可以應(yīng)用到一個或者多個輸出設(shè)備中。這里提到的成分和部件可以被進(jìn)一步分成更多的部件或者整合到一起成為更少的部件但可以實現(xiàn)同樣的功能。每個計算機程序可以被任何程序語言實現(xiàn),比如匯編語言,機器語言,高級過程編程語言,面對對象的程序設(shè)計語言,或者它們的組合。編程語言可以是編制或者解釋的編程語言。每個計算機程序可以在一個計算機程序產(chǎn)品中實現(xiàn),有形地包含在可以被計算機處理器執(zhí)行的計算機可讀存貯設(shè)備中。發(fā)明的方法步驟可以通過計算機處理器執(zhí)行一個儲存在計算機可讀的媒介中的一個有形的程序來履行,從而通過操作輸入設(shè)備和輸出設(shè)備的顯示完成該發(fā)明的功能。其他方法和/或計算機碼可以在基于這里提到的組合部件的基礎(chǔ)上提供對這些程序的輸入,或者從這些部件上的輸出作為輸入來進(jìn)行,輸入和輸出的組合,就是交互和綜合使用這里提到的部件和其他方法或計算機碼也可以實現(xiàn)。通常形式的計算機可讀(計算機可用)媒體包括,比如軟盤,移動硬盤,硬盤,磁帶或其他磁性媒體,CDROM和其他光學(xué)媒體,打孔卡,紙帶,其他帶孔或其他模式的物理性媒介,RAM,,PROM,和EPROM,F(xiàn)LASH-EPROM,任何其他存儲芯片或盒式磁帶,載波,比如電磁射線或者電信號,或者其他形式的計算機可以讀取的媒介。雖然對于該發(fā)明已經(jīng)列舉了多個的實施例,應(yīng)該意識到,還將可能有多種進(jìn)一步和其他實施例包含在本發(fā)明附加的權(quán)利要求的精神和范圍內(nèi),這將落入本發(fā)明的保護(hù)范圍。權(quán)利要求1.一種處理數(shù)據(jù)的方法,該方法包含步驟選擇用于確定數(shù)據(jù)集中真陽性和假陽性的充分最優(yōu)化組合度量的標(biāo)準(zhǔn);應(yīng)用最優(yōu)化技術(shù),并且從最優(yōu)化技術(shù)的結(jié)果中獲得用于至少一個最優(yōu)化參數(shù)的值,所述用于至少一個最優(yōu)化參數(shù)的值得到真陽性和假陽性的充分最優(yōu)化組合;其特征是,真陽性的數(shù)目和假陽性的數(shù)目是至少一個最優(yōu)參數(shù)的函數(shù)。2.根據(jù)權(quán)利要求1所述的方纟去其特征在于所述用于獲得至少一個最優(yōu)化參數(shù)的步驟包含獲得獨立測量數(shù)目的值的步驟以及其中所述的真陽性和假陽性的數(shù)目是獨立測量數(shù)目的函數(shù)。3.根據(jù)權(quán)利要求1所述的方纟去其特征在于所述獲得獨立測量數(shù)目的值的步驟包含獲得至少一個獨立測量數(shù)目的值和用于置信測量的值的組合的步驟;以及其中所述真陽性和假陽性的數(shù)目是至少一個獨立測量數(shù)目和置信測量的組合的函數(shù)。4.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的標(biāo)準(zhǔn)由下式給出Neff=TP*TP/(TP+FP)*(1-FP/TP)其中,TP表示數(shù)據(jù)集里真陽性的值,以及FP表示數(shù)據(jù)集里假陽性的值。5.根據(jù)權(quán)利要求1所述的方、去其特征在于所述的應(yīng)用最優(yōu)化技術(shù)的步驟包含最優(yōu)化成本函數(shù)的步驟。6.根據(jù)權(quán)利要求5所述的方、法其特征在于所述的成本函數(shù)由下式給出CANeff=Neff/(F'+N');其中F是置信閾值測量,N'是用于獨立測量數(shù)目的值的閾值,以及Neff是標(biāo)準(zhǔn)。7.根據(jù)權(quán)利要求2所述的方法,其特征在于進(jìn)一步包含步驟a)為獨立測量數(shù)目的值選擇預(yù)先確定的閾值的原始值;b)選擇數(shù)據(jù)集的一個元素;數(shù)據(jù)集包含較多數(shù)目的元素;c)為選出的一個元素確定至少一個預(yù)定數(shù)量;d)確定所述的至少一個預(yù)定數(shù)量是否滿足閾值標(biāo)準(zhǔn);e)如果所述的至少一個預(yù)定數(shù)量滿足閾值標(biāo)準(zhǔn),增加元素的數(shù)目;f)增加元素的數(shù)目之后,確定元素的數(shù)目是否大于用于獨立測量的數(shù)目的值的閾值;g)用于較大數(shù)目的元素中的每一個元素,經(jīng)由步驟f)重復(fù)步驟b);h)用步驟c)確定用于獨立測量的數(shù)目的值的閾值是否得到真陽性和假陽性的充分最優(yōu)化的組合;8.根據(jù)權(quán)利要求7所述的方纟去其特征在于所述的數(shù)據(jù)集包括用于一個元素的至少兩個參數(shù);以及該方法進(jìn)一步包含對于每一個參數(shù)完成步驟f)前重復(fù)步驟d)和e)的步驟。9.根據(jù)權(quán)利要求7所述的方法,其特征在于所述的數(shù)據(jù)集包括重復(fù);以及該方法進(jìn)一步包含步驟i)在步驟b)之前,選擇預(yù)先確定的置信閾值測量的原始值;j)步驟d)之后,如果所述的至少一個預(yù)先確定的數(shù)量滿足閾值標(biāo)準(zhǔn),為所屬的此個元素計算置信測量;k)確定計算的置信測量是否大于置信閾值測量;1)對較大數(shù)目的元素里的每一個元素進(jìn)行步驟e);m)步驟h)后,在預(yù)先確定的置信閾值范圍內(nèi)的置信閾值測量;以及其中,步驟d)進(jìn)一步包含經(jīng)由步驟l)重復(fù)步驟j);以及其中,步驟h)進(jìn)一步包含對得到真陽性和假陽性充分最優(yōu)化的組合的置信閾值測量的選擇。10.根據(jù)權(quán)利要求9所述的方法,其特征在于所述的數(shù)據(jù)集包括用于至少一些元素的至少兩個參數(shù);以及該方法進(jìn)一步包含在完成步驟f)之前,對各個參數(shù)重復(fù)步驟d)和e)的步驟。11.根據(jù)權(quán)利要求7所述的方法,其特征在于所述的用于預(yù)先確定的數(shù)量的閾值由下列步驟確定-在至少一部分?jǐn)?shù)據(jù)集上評估預(yù)定數(shù)量;以數(shù)值的升序排列評估的預(yù)定數(shù)量;選擇預(yù)定數(shù)量的預(yù)定百分位數(shù)作為用于預(yù)定數(shù)量的閾值。12.根據(jù)權(quán)利要求11所述的方纟去其特征在于所述的預(yù)定數(shù)量是數(shù)據(jù)集的兩個元素之間數(shù)字的差異。13.根據(jù)權(quán)利要求11所述的方法其特征在于所述的預(yù)定數(shù)量是數(shù)據(jù)集的兩個元素間的比值。14.根據(jù)權(quán)利要求11所述的方纟去其特征在于所述的在至少一部分?jǐn)?shù)據(jù)集上評估預(yù)定數(shù)量的步驟包含步驟選擇一部分?jǐn)?shù)據(jù)集;以及在選擇的一部分?jǐn)?shù)據(jù)集上評估預(yù)定數(shù)量;以及其中,為預(yù)定數(shù)量選擇的閾值被用于評估數(shù)據(jù)集的一部分。15.根據(jù)權(quán)利要求14所述的方纟去其特征在于所述的預(yù)定數(shù)量是基于數(shù)據(jù)集的連續(xù)部分通過內(nèi)插法和外插法獲得的。16.根據(jù)權(quán)利要求7所述的方法,其特征在于所述的數(shù)據(jù)集包括重復(fù);其中成本函數(shù)依賴用于置信測量的閾值;以及其中,用于置信測量的閾值由下列步驟確定a)選擇重復(fù)數(shù)據(jù)的預(yù)先確定的組;b)為重復(fù)數(shù)據(jù)的預(yù)先確定組確定最小值和最大值;c)選擇實質(zhì)上在預(yù)先確定的最大值的分?jǐn)?shù)和預(yù)先確定的因數(shù)乘以平均值之間的值的子群;d)經(jīng)由步驟c)重復(fù)步驟a)直到形成所需的組數(shù)。e)為各個組獲得統(tǒng)計測量的值;以及f)從置信測量的有序集中選擇百分位數(shù)值;g)選擇百分位數(shù)值作為閾值。17.根據(jù)權(quán)利要求16所述的方纟去其特征在于所述的數(shù)據(jù)集包括多個獨立測量;以及其中對多個獨立測量的預(yù)定數(shù)目經(jīng)由步驟e)重復(fù)步驟a);以及該方法進(jìn)一步包含步驟為每一個重復(fù)獲得多次測量的預(yù)先數(shù)目的最小值;以及使用上述步驟(f)步驟(g)的選擇值。18.—種總結(jié)參數(shù)值的方法,該方法包含步驟將數(shù)據(jù)集中的測量結(jié)果分組成多對測量結(jié)果;為所述的每對測量結(jié)果確定對所述的每對測量結(jié)果的預(yù)定測量是否滿足閾值標(biāo)準(zhǔn);如果預(yù)定測量不滿足閾值標(biāo)準(zhǔn),則從所述的多對測量結(jié)果中分將一對測量結(jié)果分類為不變的;如果預(yù)定測量滿足閾值標(biāo)準(zhǔn),則對所述的每一對測量結(jié)果中的其中一個測量結(jié)果與所述的每一對測量結(jié)果中的另一個測量結(jié)果進(jìn)行比較;比較后根據(jù)比較的結(jié)果對所述的每一對測量結(jié)果進(jìn)行分類;從已分類的多對測量結(jié)果中選擇測量結(jié)果的通用集,用于數(shù)據(jù)集;并且為使用通用集的參數(shù)提供綜合測量。19.根據(jù)權(quán)利要求18所述的方法,其特征在于進(jìn)一步包含步驟-利用通用集為預(yù)定數(shù)量提供綜合測量。20.根據(jù)權(quán)利要求19所述的方纟去其特征在于一個預(yù)定數(shù)量的為置信21.—種為重復(fù)的數(shù)據(jù)集中的測量結(jié)果總結(jié)參數(shù)值方法,該方法包含步驟對重復(fù)的測量結(jié)果取平均值;將平均測量結(jié)果分組成多對平均測量結(jié)果;為所述的每對平均測量結(jié)果確定所述的每對測量結(jié)果的預(yù)定測量是否滿足包括置信測量的閾值標(biāo)準(zhǔn);如果預(yù)定測量不滿足閾值標(biāo)準(zhǔn),則從所述的多對平均測量結(jié)果中將一對平均測量結(jié)果分類為不變的;如果預(yù)定測量滿足閾值標(biāo)準(zhǔn),則對所述的每一對平均測量結(jié)果中的其中一個平均測量結(jié)果與所述的每一對平均測量結(jié)果中的另一個平均測量結(jié)果進(jìn)行比較;比較后根據(jù)比較的結(jié)果對所述的每一對平均測量結(jié)果進(jìn)行分類;從已分類的多對平均測量結(jié)果中選擇通用集,與數(shù)據(jù)集一起使用;以及為通用集中的參數(shù)提供綜合測量。22.根據(jù)權(quán)利要求21所述的方法,其特征在于進(jìn)一步包含步驟利用通用集提供預(yù)定數(shù)量的綜合測量。23.根據(jù)權(quán)利要求22所述的方、去其特征在于預(yù)定數(shù)量的一個為統(tǒng)計24.—種確定數(shù)據(jù)集分析技術(shù)效果的方法,該方法包含步驟轉(zhuǎn)換數(shù)據(jù)集和數(shù)據(jù)集的重復(fù);以及將轉(zhuǎn)化的數(shù)據(jù)集與原始數(shù)據(jù)集的預(yù)定組比較,以檢驗預(yù)定的分析結(jié)果;其中,效果可以確定。25.—種規(guī)范數(shù)據(jù)集數(shù)據(jù)的方法,該方法包含步驟根據(jù)測量值排列數(shù)據(jù)集的數(shù)據(jù);根據(jù)預(yù)先確定的標(biāo)準(zhǔn)選擇參考子集,參考子集有至少一個參考測量值;從排列數(shù)據(jù)中選擇數(shù)據(jù)元素,數(shù)據(jù)元素具有與所述的至少一個參考測量值充分等同的測量值;排列具有充分等同的測量值的數(shù)據(jù)元素,排列的數(shù)據(jù)元素包含排列的充分等同的子集;以及利用至少一個參考測量值和排列的充分等同的子集規(guī)范數(shù)據(jù)集。26.根據(jù)權(quán)利要求25所述的方fe其特征在于利用至少一個參考測量值對排列的充分等同的子集規(guī)范數(shù)據(jù)集的步驟包含為利用至少一個參考值和排列的充分等同的子集的預(yù)定組合以建立分布曲線的步驟。27.—種根據(jù)權(quán)利要求26述的方纟去其特征在于利用至少一個參考值和排列的充分等同的子集的預(yù)定組合的步驟包含步驟-重復(fù)排列的充分等同的子集的部分以獲得至少一個參考值和排列的充分等同的子集的預(yù)定組合。28.—種計算機程序產(chǎn)品,包含具有包含在其中的計算機可讀編碼的計算機可用介質(zhì);所述的計算機可讀編碼能夠使計算機系統(tǒng)為確定數(shù)據(jù)集中真陽性和假陽性的充分最優(yōu)化的組合選擇標(biāo)準(zhǔn);應(yīng)用最優(yōu)化的技術(shù);以及從最優(yōu)化技術(shù)的結(jié)果中獲得至少一個導(dǎo)致充分最優(yōu)化的真陽性和假陽性的組合的最優(yōu)化參數(shù);其中,真陽性和假陽性的數(shù)目是用最優(yōu)化技術(shù)計算的預(yù)定值的函數(shù)。29.根據(jù)權(quán)利要求28所述的計算機程序產(chǎn)品其特征在于標(biāo)準(zhǔn)由下式給出Neff=TP*TP/(TP+FP)*(1-FP/TP)其中,TP表示數(shù)據(jù)集里真陽性的值,以及FP表示數(shù)據(jù)集里假陽性的值。30.根據(jù)權(quán)利要求28所述的計算機程序產(chǎn)品,其特征在于所述的計算機可讀編碼,能使計算機系統(tǒng)應(yīng)用最優(yōu)化的技術(shù),能使計算機系統(tǒng)最優(yōu)化成本函數(shù)。31.根據(jù)權(quán)利要求30所述的計算機程序產(chǎn)品,其特征在于所述的成本函數(shù)由下式給出CANeff=Neff/(P+N');以及其中F'是置信閾值測量,N'是用于獨立測量數(shù)目的值的閾值,以及Neff是標(biāo)準(zhǔn)。32.—種計算機程序產(chǎn)品,包含具有包含在其中的計算機可讀編碼的計算機可用介質(zhì);所述的計算機可讀編碼使計算機系統(tǒng)確定可用于數(shù)據(jù)集和其它類似的數(shù)據(jù)集上的通用集。33.根據(jù)權(quán)利要求32所述的計算機程序產(chǎn)品其特征在于所述的計算機可讀編碼可以進(jìn)一步使計算機系統(tǒng)利用通用集提供預(yù)定數(shù)量的總結(jié)測量。34.—種計算機程序產(chǎn)品,包含具有包含在其中的計算機可讀編碼的計算機可用介質(zhì);所述的計算機可讀編碼能使計算機系統(tǒng)-轉(zhuǎn)換數(shù)據(jù)集和數(shù)據(jù)集的重復(fù);以及,將轉(zhuǎn)化的數(shù)據(jù)集與原始數(shù)據(jù)集的預(yù)定組比較以檢驗預(yù)定的分析結(jié)果;其中,效果可以被確定。35.—種計算機程序產(chǎn)品,包含具有包含在其中的計算機可讀編碼的計算機可用介質(zhì);其中所述的計算機可讀編碼能使計算機系統(tǒng)-根據(jù)測量值排列數(shù)據(jù)集的數(shù)據(jù);根據(jù)預(yù)先確定的標(biāo)準(zhǔn)選擇參考子集,參考子集有至少一個參考測量值;從排列數(shù)據(jù)中選擇數(shù)據(jù)元素,數(shù)據(jù)元素具有與所述的至少一個參考測量值充分等同的測量值;排列具有充分等同的測量值的數(shù)據(jù)元素,排列的數(shù)據(jù)元素包含排列的充分等同的子集;以及利用至少一個參考測量值和排列的充分等同的子集規(guī)范數(shù)據(jù)集。36.根據(jù)權(quán)利要求28所述的計算機程序產(chǎn)品,其特征在于所述的計算機可讀編碼,能使計算機系統(tǒng)在排列的充分等同的子集上利用至少一個參考測量值以規(guī)范數(shù)據(jù)集,能使計算機系統(tǒng)利用至少一個參考值和排列的充分等同的子集的預(yù)定組合,以建立分布曲線。37.—種計算機程序產(chǎn)品,包含具有包含在其中的計算機可讀編碼的計算機可用介質(zhì);其特征在于所述的計算機可讀編碼使計算機系統(tǒng)在至少一個預(yù)選參數(shù)以及至少一個用于數(shù)據(jù)集測量的性能指標(biāo)之間獲得相關(guān)性;基于至少一個性能指標(biāo),選擇標(biāo)準(zhǔn);應(yīng)用最優(yōu)化的技術(shù);以及從最優(yōu)化技術(shù)的結(jié)果中獲得至少一個參數(shù)的至少一個充分優(yōu)化的值。其中所述的至少一個參數(shù)的至少一個充分優(yōu)化的數(shù)值能用于設(shè)計數(shù)38.根據(jù)權(quán)利要求37所述的計算機程序產(chǎn)品其特征在于所述的至少一個預(yù)選參數(shù)包含獨立測量的數(shù)目的值。39.根據(jù)權(quán)利要求37所述的計算機程序產(chǎn)品,其特征在于所述的至少一個性能指標(biāo)為至少靈敏度、陽性預(yù)測值、真陽性的數(shù)目和假陽性的數(shù)目中的一個。40.根據(jù)權(quán)利要求37所述的計算機程序產(chǎn)品,其特征在于所述的至少一個預(yù)選參數(shù)包含置信測量。41.根據(jù)權(quán)利要求37所述的計算機程序產(chǎn)品其特征在于所述的度量由下式給出Neff=TP*TP/(TP+FP)*(1-FP/TP)其中,TP表示數(shù)據(jù)集里真陽性的值,以及FP表示數(shù)據(jù)集里假陽性的值。42.根據(jù)權(quán)利要求37所述的計算機程序產(chǎn)品,其特征在于所述的計算機可讀編碼,能使計算機系統(tǒng)應(yīng)用最優(yōu)化的技術(shù),能使計算機系統(tǒng)最優(yōu)化成本函數(shù)。43.根據(jù)權(quán)利要求36所述方纟去其特征在于所述的成本函數(shù)由下式給出CANeff=Neff/(P+N,);以及其中F是置信閾值測量,N'是用于獨立測量數(shù)目的值的閾值,以及Neff是度量。44.一種系統(tǒng),包含至少一個處理器;以及具有包含在其中的計算機可讀編碼的計算機可用介質(zhì);所述的計算機可讀編碼能夠使計算機系統(tǒng)為確定數(shù)據(jù)集中真陽性和假陽性的充分最優(yōu)化的組合選擇度量;應(yīng)用最優(yōu)化的技術(shù);以及從最優(yōu)化技術(shù)的結(jié)果中獲得至少一個導(dǎo)致真陽性和假陽性的充分最優(yōu)化的組合的最優(yōu)化參數(shù);其中,真陽性和假陽性的數(shù)目是用最優(yōu)化技術(shù)計算的預(yù)定值的函數(shù)。45.根據(jù)權(quán)利要求44所述的系纟充其特征在于進(jìn)一步包含至少一個數(shù)據(jù)庫。46.—種設(shè)計數(shù)據(jù)集測量的方法,該方法包含步驟在至少一個預(yù)選參數(shù)以及至少一個用于數(shù)據(jù)集測量的性能指標(biāo)之間獲得相關(guān)性;基于至少一個性能指標(biāo),選擇標(biāo)準(zhǔn);應(yīng)用最優(yōu)化的技術(shù);以及從最優(yōu)化技術(shù)的結(jié)果中獲得至少一個參數(shù)的至少一個充分優(yōu)化的數(shù)值。其中所述的至少一個參數(shù)的至少一個充分優(yōu)化的數(shù)值能用于設(shè)計數(shù)47.根據(jù)權(quán)利要求46所述的方纟去其特征在于至少一個預(yù)選參數(shù)包含獨立測量數(shù)目的值。48.根據(jù)權(quán)利要求46所述的方纟去其特征在于至少一個性能指標(biāo)為至少靈敏度、陽性預(yù)測值、真陽性的數(shù)目和假陽性的數(shù)目中的一個。49.根據(jù)權(quán)利要求46所述的方纟去其特征在于至少一個預(yù)選參數(shù)包含置信測量。50.根據(jù)權(quán)利要求46所述的方法,其特征在于所述的度量由下式給出Neff=TP*TP/(TP+FP)*(1-FP/TP)其中,TP表示數(shù)據(jù)集里真陽性的值,以及FP表示數(shù)據(jù)集里假陽性的值。51.根據(jù)權(quán)利要求46所述的方纟去其特征在于應(yīng)用最優(yōu)化的技術(shù)的步驟包含最優(yōu)化成本函數(shù)的步驟。52.根據(jù)權(quán)利要求51所述的方纟去其特征在于所述的成本函數(shù)由下式給出-C^Neff=Neff/(P+N');以及其中F是置信閾值測量,N'是用于獨立測量數(shù)目的值的閾值,以及Neff是標(biāo)準(zhǔn)。全文摘要高可信度使用數(shù)據(jù)集的方法和系統(tǒng)。文檔編號G01L17/00GK101278291SQ200680036951公開日2008年10月1日申請日期2006年8月3日優(yōu)先權(quán)日2005年8月3日發(fā)明者蘇瑞什·格帕蘭申請人:蘇瑞什·格帕蘭
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1