專利名稱::寡核苷酸設(shè)計(jì)和/或核酸檢測的方法和/或裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及寡核苷酸設(shè)計(jì)和/或核酸檢測的領(lǐng)域。本發(fā)明的方法、裝置和/或產(chǎn)物可以用于檢測病原體,例如用于檢測病毒。
背景技術(shù):
:精確而迅速地檢測人類患者和人群中的病毒病原體和細(xì)菌病原體具有極其重要的醫(yī)學(xué)及流行病學(xué)意義。以往,診斷技術(shù)依賴于細(xì)胞培養(yǎng)傳代和多種免疫學(xué)測定法或染色方法。目前精確并靈敏地檢測傳染病因子仍然是困難的,盡管該領(lǐng)域內(nèi)的進(jìn)展相當(dāng)大。培養(yǎng)和基于抗體檢測的常規(guī)方法仍然在微生物學(xué)實(shí)驗(yàn)室中發(fā)揮核心作用,盡管存在疾病表現(xiàn)與診斷間的滯后問題,以及由這些方法可以檢測的生物種類數(shù)目有限的問題。更迅速地診斷感染將降低發(fā)病率和死亡率,例如,通過更早的實(shí)施適宜的抗微生物治療。在過去數(shù)十年間,已經(jīng)提出多種方法以實(shí)現(xiàn)此目的;基于核酸檢測的那些方法,包括基于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)及微陣列的技術(shù),似乎最有前景。尤其是,基于PCR的測定法已經(jīng)得到實(shí)施,這使得能以更高的檢測靈敏度、更迅速地診斷可疑病原體。然而在臨床實(shí)踐中,病因?qū)W因子常常無法確定,以復(fù)雜方式規(guī)避檢測。例如,某些病毒不可培養(yǎng)。而有時(shí)候,患者樣品的質(zhì)量可能很差或?qū)τ谕ㄟ^常規(guī)技術(shù)檢測病原體而言,其滴度不足。此外,基于PCR的方法和基于抗體的方法均僅因天然遺傳多樣性導(dǎo)致了PCR引物結(jié)合位點(diǎn)的改變及抗原漂移可能不能識別可疑病原體。具有同時(shí)檢測多種病原體能力的DNA微陣列和寡核苷酸微陣列已經(jīng)得到描述(Wang等,2002;Urisman等,2005)。然而,未解決的技術(shù)問題妨礙它們在臨床情況下的例行使用。例如,如何根據(jù)擴(kuò)增和交叉雜交的人為產(chǎn)物來選擇提供包含最多病原體"標(biāo)簽"的信息的探針?何種強(qiáng)度的熒光信號及標(biāo)簽探針才構(gòu)成檢測到的病原體?何謂優(yōu)化檢測算法的精確性和靈敏性?(Striebel等,2003;Bodrossy和Sessitsch,2004;Vora等,2004)。因此,本
技術(shù)領(lǐng)域:
內(nèi)需要檢測核酸的替代方法及改良方法。尤其是,需要用于檢測病原體的替代診斷方法和/或改良診斷方法。
發(fā)明內(nèi)容本發(fā)明的目的是為了解決上述問題,并且具體提供設(shè)計(jì)寡核苷酸的方法、裝置和/或產(chǎn)物。尤其是,本發(fā)明提供設(shè)計(jì)寡核苷酸探針和/或引物的方法、裝置和/或產(chǎn)物。還提供核酸檢測的方法、裝置和/或產(chǎn)物。根據(jù)第一方面,本發(fā)明提供了設(shè)計(jì)至少一種用于核酸檢測的寡核苷酸的方法,該方法包括任意順序的以下步驟(1)確定和/或選擇至少一種靶核酸的至少一個(gè)待擴(kuò)增區(qū)域,該區(qū)域的擴(kuò)增效率(AE)高于平均AE;和(n)設(shè)計(jì)至少一種能夠與所選擇的區(qū)域進(jìn)行雜交的寡核苷酸。所述至少一種寡核苷酸可以是至少一種探針和/或引物。尤其是,在步驟(I)中,對全長靶核酸或其至少一個(gè)區(qū)域內(nèi)的每個(gè)位置i確定AE得分,并且隨后得到平均AE得分??梢赃x擇AE得分高于平均AE得分的那些區(qū)域作為靶核酸的待擴(kuò)增區(qū)域。更尤其是,所選區(qū)域的AE可以被計(jì)算為擴(kuò)增效率得分(AES),AES是正向引物ri可能與靶核酸的位置i結(jié)合并且反向引物rj可能在靶核酸的位置j處結(jié)合的概率,|/-/|是靶核酸的想要擴(kuò)增的區(qū)域。區(qū)域|"乂|可以優(yōu)選為^10000bp,更優(yōu)選為^5000bp,或《1000bp,例如^500bp。尤其是,正向引物和反向引物可以是隨機(jī)引物。根據(jù)另一方面,步驟(I)包括確定幾何級擴(kuò)增偏倚對靶核酸內(nèi)每個(gè)位置的影響,和選擇至少一個(gè)待擴(kuò)增區(qū)域作為擴(kuò)增效率高于平均擴(kuò)增效率的區(qū)域。例如,幾何級擴(kuò)增偏倚是PCR偏倚。可以根據(jù)本領(lǐng)域已知的任何寡核苷酸設(shè)計(jì)技術(shù)實(shí)現(xiàn)設(shè)計(jì)至少一種能夠與在步驟(I)中所選擇的區(qū)域雜交的寡核苷酸的步驟(II)。尤其是,可以根據(jù)以下標(biāo)準(zhǔn)中的至少一種選擇和設(shè)計(jì)能夠與所選擇的區(qū)域雜交的寡核苷酸(a)選擇CG含量為40%至60%的寡核苷酸;(b)選擇具有根據(jù)最鄰近模型(Nearest-Neighbormodel)計(jì)算的最高自由能的寡核苷酸;(C)假定寡核苷酸Sa和寡核苷酸Sb分別是靶核酸Va和Vb的子串,則根據(jù)%與長度為W的任意子串Sb之間的漢明距離和/或Sa與寡核苷酸Sb的最長公共子串來選擇Sa。(d)就靶核酸Va特異性的長度為m的任何寡核苷酸Sa而言,若寡核苷酸Sa與異于靶核酸的核酸的任何區(qū)域無任何標(biāo)的(hit),則選擇寡核苷酸Sa;如果長度為m的寡核苷酸Sa與異于靶核酸的核酸有標(biāo)的,則選擇長度為m的具有最小的最大比對長度和/或具有最小標(biāo)的數(shù)的寡核苷酸Sa;和(e)如果預(yù)測Pi能雜交到所述擴(kuò)增的靶核酸的位置i上,則選擇在靶核酸的位置i上的寡核苷酸Pi。尤其是,所述寡核苷酸可以是探針和/或引物。因此,可以采用兩項(xiàng)或多項(xiàng)上述標(biāo)準(zhǔn)設(shè)計(jì)所述寡核苷酸。例如,可以通過應(yīng)用(a)至(e)中所有的標(biāo)準(zhǔn)設(shè)計(jì)所述寡核苷酸。也可以使用在本文中沒有明確地提及但為本領(lǐng)域技術(shù)人員所知的其它標(biāo)準(zhǔn)。尤其是,根據(jù)標(biāo)準(zhǔn)(e),如果戶(Alv。):^,其中X為0.5并且尸(Ak。)為A.雜交到靶核酸va的位置i上的概率,則選擇在靶核酸v。的位置i上的寡核苷酸P,。X更優(yōu)選為0.8。尤其是,<formula>formulaseeoriginaldocumentpage21</formula>其中X為代表Va的全部寡核苷酸的擴(kuò)增效率得分(AES)的隨機(jī)變量,A為va中寡核苷酸的數(shù)目,并且。為值w,的寡核苷酸的數(shù)目。根據(jù)本發(fā)明的另一方面,設(shè)計(jì)如上所述寡核苷酸的方法還包括制備選擇及設(shè)計(jì)的寡核苷酸的步驟??梢愿鶕?jù)本領(lǐng)域已知的任何標(biāo)準(zhǔn)方法,例如通過化學(xué)合成或光蝕刻技術(shù),可以制備可以是至少一種探針和/或引物的寡核苷酸。根據(jù)另一方面,本發(fā)明提供檢測至少一種靶核酸的方法,該方法包括以下步驟(i)提供至少一種生物樣品;(ii)對該生物樣品中包含的核酸進(jìn)行擴(kuò)增;(iii)提供能夠與至少一種假定存在于該生物樣品中的靶核酸進(jìn)行雜交的至少一種寡核苷酸,其中,使用根據(jù)本文中所述的本發(fā)明的任何方面的方法設(shè)計(jì)和/或制備該寡核苷酸;和(iv)使該寡核苷酸接觸擴(kuò)增的核酸和/或檢測與靶核酸雜交的寡核苷酸。尤其是,所述寡核苷酸是探針。擴(kuò)增步驟(ii)可以在隨機(jī)引物的存在下實(shí)施。例如,擴(kuò)增步驟(ii)是在存在至少一種正向隨機(jī)引物和/或至少一種反向隨機(jī)引物的條件下進(jìn)行的??梢允褂帽绢I(lǐng)域已知的任何擴(kuò)增方法。例如,擴(kuò)增方法是逆轉(zhuǎn)錄-聚合酶鏈?zhǔn)椒磻?yīng)(RT-PCR)。尤其是,與靶核酸Va的位置/結(jié)合的正向隨機(jī)引物和與靶核酸Va的位置j結(jié)合的反向隨機(jī)引物選自對耙核酸^的每個(gè)位置Z'具有如下擴(kuò)增效率得分04£&)的引物<formula>formulaseeoriginaldocumentpage22</formula>其中,S尸"("=Pr(i+1)+Pr(i+2)+…,PrG+Z),^(0和r(0為隨機(jī)引物G作為正向引物和反向引物分別與Va的位置i結(jié)合的概率,并且ZqOOOObp是想要擴(kuò)增的Va的區(qū)域。更尤其是,Z可以是《5000bp、《1000bp或^500bp。擴(kuò)增步驟可以包括正向引物和反向引物,并且正向引物和反向引物中的每種引物在5,-3,方向上包含固定的引物頭部和可變的引物尾部,并且其中至少可變的尾部與靶核酸Va的一部分雜交。尤其是,擴(kuò)增步驟可以包括具有SEQIDNO:1所示的核苷酸序列或該核苷酸序列的變體或衍生物的正向隨機(jī)引物和/或反向隨機(jī)引物。生物樣品可以是采自哺乳動(dòng)物的任何樣品,例如來自人類。生物樣品可以是組織、血清、鼻咽沖洗液、唾液、任何其它體液、血液、尿、糞便等。生物樣品可以是在實(shí)施擴(kuò)增步驟前被處理以釋放生物樣品中包含的核酸。靶核酸可以是想要檢測的任何核酸。待檢測的靶核酸可以是至少對生物樣品的核酸為外源的核酸。因此,若生物樣品來自人,則待檢測的外源靶核酸(若其存在于生物樣品中)是非人源的核酸。根據(jù)本發(fā)明的方面,待檢測的靶核酸至少是病原體的基因組或基因組片段。病原體核酸可以是來自病毒、寄生蟲或細(xì)菌的至少一種核酸或核酸片段。因此,本發(fā)明提供檢測假定存在于生物樣品中的至少一種靶核酸的方法。該方法可以是用于檢測生物樣品中病原體存在的診斷方法。例如,若生物樣品從人類得到,則假定存在于生物樣品中的靶核酸為非人源的。根據(jù)本發(fā)明的任何方法所設(shè)計(jì)和/或制備的寡核苷酸可以在溶液中被使用或可以被放置不溶性支持物上。例如,寡核苷酸探針可以根據(jù)本領(lǐng)域已知的任何技術(shù)而涂到、滴到或刷到(print)不溶性支持物上。支持物可以是微陣列、生物芯片、膜/合成性表面、固體支持物或凝膠。隨后將探針與生物樣品的核酸接觸,若靶核酸存在,則它與探針雜交,從而檢測出存在的靶核酸。尤其是,在檢測步驟(iv)中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g的信號強(qiáng)度的均值,則表明生物樣品中存在va。更尤其是,在檢測步驟(iv)中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,并且該方法還包括如下步驟計(jì)算具有高信號強(qiáng)度的探針gVa的比例與在檢測方法內(nèi)所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針Va的信號強(qiáng)度的密度分布比探針gVa的信號強(qiáng)度的密度分布更為正偏,則表明生物樣品中存在Va。例如,在檢測步驟(iv)中,生物樣品中的至少一種靶核酸得到檢測,若靶核酸的探針信號強(qiáng)度的密度分布不是正態(tài)性的,即更為正偏,這是由安德森-塔林(Anderson-Darling)檢驗(yàn)值^0.05和/或t-檢驗(yàn)值s0.1和/或加權(quán)相對熵(WeightedKullback-Leibler,WKL)^1.0、優(yōu)選^5.0表示。最尤其是,t-檢驗(yàn)值20.05。尤其是,檢測步驟(iv)的方法還包括通過計(jì)算加權(quán)相對熵得分的分布,評估在每個(gè)病原體特異性標(biāo)簽探針組(SPS)中的探針對靶核酸va的探測信號<formula>formulaseeoriginaldocumentpage23</formula>其中a(力是在尸。中的探針的信號強(qiáng)度的累積分布函數(shù),且尸。是在組^中找到的;《(;')是在^中的探針的信號強(qiáng)度的累積分布函數(shù),且^是組^中所找到。^是病毒、的探針組并且^=尸-尸。。每個(gè)標(biāo)簽探針組(SPS)具有正態(tài)性分布的信號強(qiáng)度(由安德森-塔林檢驗(yàn)值".05評定)和/或得分小于5的加權(quán)相對熵(WKL"),則表明不存在靶核酸va。每個(gè)標(biāo)簽探針組(SPS)具有正偏的信號強(qiáng)度分布和/或大于5的加權(quán)相對熵得分(WKL〉5),則表明存在至少一種靶核酸va。所述方法還可以包括對WKL得分的分布進(jìn)行安德森-塔林檢驗(yàn),其中,P〉0.05的結(jié)果表示不存在耙核酸,或P0.05的結(jié)果表示存在靶核酸va。此外,還可以進(jìn)行安德森-塔林檢驗(yàn),表明存在其它共感染性靶核酸。根據(jù)另一方面,本發(fā)明提供確定靶核酸Va存在的方法,該方法包括檢測至少一種寡核苷酸探針(該探針是根據(jù)本領(lǐng)域內(nèi)的任何已知方法且不必要限于本發(fā)明方法選擇和設(shè)計(jì)的)與至少一種靶核酸^的雜交,并且,其中與V,雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g^的信號強(qiáng)度的均值,則表明存在Va。尤其是,與雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,并且該方法還包括以下步驟計(jì)算具有高信號強(qiáng)度的探針g^的比例與在檢測方法中所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針Va的信號強(qiáng)度的密度分布比探針g的信號強(qiáng)度的密度分布更為正偏,則表明生物樣品中存在Va。更尤其是,t-檢驗(yàn)值SO.l和/或安德森-塔林檢驗(yàn)值《0.05和/或加權(quán)相對熵^1.0、優(yōu)選^5.0時(shí)表示生物樣品中存在靶核酸。例如,t-檢驗(yàn)值可以是^0.05。根據(jù)另一方面,本發(fā)明提供檢測至少一種靶核酸的方法,該方法包擴(kuò)以下步驟(i)提供至少一種生物樣品;(ii)對該生物樣品中包含的至少一種核酸進(jìn)行擴(kuò)增;(iii)提供能夠與至少一種假定存在于該生物樣品中的靶核酸雜交的至少一種寡核苷酸;和(iv)使所述寡核苷酸與擴(kuò)增的核酸進(jìn)行接觸并且檢測與靶核酸雜交的寡核苷酸,其中,與、雜交的寡核苷酸的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于寡核苷酸g的均值,則表明在生物樣品中存在Va。尤其是,所述寡核苷酸是寡核苷酸探針。在步驟(iv)內(nèi),與雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g^的信號強(qiáng)度的均值,并且該方法還包括以下步驟計(jì)算具有高信號強(qiáng)度的探針gVa的比例與在檢測方法內(nèi)所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針Va的信號強(qiáng)度的密度分布比探針SVa的信號強(qiáng)度的密度分布更為正偏,則表明生物樣品中存在va。尤其是,在步驟(iv)中,t-檢驗(yàn)值^0.1禾口/或安德森-塔林檢驗(yàn)值《0.05和/或加權(quán)相對熵值21.0、優(yōu)選S5.0時(shí)表示生物樣品中存在至少一種靶核酸。t-檢驗(yàn)值可以是^0.05。相對于生物樣品的核酸,待檢測的核酸為外源的核酸。待檢測的靶核酸可以是至少一種病原體基因組或基因組片段。病原體核酸可以是來自病毒、寄生蟲或細(xì)菌的至少一種核酸或核酸片段。尤其是,當(dāng)生物樣品從人類得到時(shí),且如果在該生物樣品中存在靶核酸,則該耙核酸為非人源的基因組。探針可以被置于不溶性支持物上。支持物可以是微陣列、生物芯片或/合成的表面。本發(fā)明提供一種裝置,該裝置包括用于實(shí)施本發(fā)明的方法的裝置。尤其是,所述裝置可以用于設(shè)計(jì)用來檢測和/或擴(kuò)增核酸的寡核苷酸,其中,所述裝置被配置成確定和/或選擇至少一種靶核酸的至少一個(gè)待擴(kuò)增區(qū)域,其中,所述區(qū)域的擴(kuò)增效率(AE)高于平均的AE;并且設(shè)計(jì)能夠與所確定和/或選擇的區(qū)域進(jìn)行雜交的至少一種寡核苷酸。更尤其是,所述裝置可以被配置成檢測至少一種耙核酸,包括以下步驟中的任一步驟提供至少一種生物樣品;擴(kuò)增該生物樣品中包含的核酸;提供至少一種能夠與至少一種假定存在生物樣品中的靶核酸雜交的寡核苷酸,其中寡核苷酸根據(jù)本發(fā)明所配置的裝置進(jìn)行設(shè)計(jì)和/或制備;并使寡核苷酸與擴(kuò)增的核酸進(jìn)行接觸和/或檢測與靶核酸雜交的寡核苷酸。本發(fā)明還提供被配置成用于實(shí)施本發(fā)明的方法的至少一種計(jì)算機(jī)程序產(chǎn)品。本發(fā)明還提供至少一種存貯本發(fā)明裝置的配置的電子存儲(chǔ)介質(zhì)。根據(jù)一個(gè)方面,本發(fā)明提供被配置成包括實(shí)施本發(fā)明方法的軟件的可移動(dòng)的電子存儲(chǔ)介質(zhì)。尤其是,所述可移動(dòng)的電子存儲(chǔ)介質(zhì)可以包含軟件,其中該軟件被配置成確定WKL得分和/或安德森-塔林檢驗(yàn)以便設(shè)計(jì)至少一種寡核苷酸探針和/或引物,和/或檢測至少一種耙核酸。更尤其是,包含軟件編譯程序的可移動(dòng)的電子存儲(chǔ)介質(zhì)可以包含如本發(fā)明定義的WKL、安德森-塔林檢驗(yàn)、探針的設(shè)計(jì)和/或耙核酸的檢測。因此,本發(fā)明還提供被配置成如上所述的設(shè)計(jì)的軟件。圖1表示一對隨機(jī)引物對病毒序列(SEQIDNOS:1至9)的RT-PCR結(jié)合過程。圖1的標(biāo)記如下所示A:逆轉(zhuǎn)錄(RT)。引物與模板結(jié)合。B:生成標(biāo)記的RT產(chǎn)物(具體是用假定的病毒序列模板和假定的特定的隨機(jī)引物)。C:第二鏈合成完成,摻入標(biāo)簽。D:使用PCR引物GTTTCCCAGTCACGATA(SEQIDNO:8)擴(kuò)增標(biāo)記的RT產(chǎn)物;圖2表示用于RSV(呼吸道合胞體病毒)B基因組的擴(kuò)增效率得分(AES)圖3表示實(shí)施例1的寡核苷酸探針對RSVB的信號強(qiáng)度;圖4(A,B)。圖4A表示被測樣品的病毒的信號強(qiáng)度的密度分布。箭頭指出該分布的正偏性。雖然存在噪音,但是也顯著存在真實(shí)信號。圖4B表示樣品中不存在病毒的信號強(qiáng)度的密度分布。該分布是噪音占優(yōu)勢的;圖5表示病原體檢測芯片數(shù)據(jù)的分析流程圖6是寡核苷酸探針設(shè)計(jì)示意圖。該示意圖說明由NC一001781人呼吸道合胞體病毒(RSV)的基因組所產(chǎn)生的嵌搭探針(tilingprobe)。數(shù)字代表每個(gè)探針的起始位置和終止位置。合成了1948個(gè)探針以覆蓋完整的15225bpRSV基因組。該過程重復(fù)用于其余34種病毒的基因組;圖7是(A、B、C)微陣列短線標(biāo)記的檢索表<table>tableseeoriginaldocumentpage27</column></row><table><table>tableseeoriginaldocumentpage28</column></row><table>從SARSSin850-感染的細(xì)胞系(A)或登革病毒I-感染的細(xì)胞系(B)中分離的RNA雜交到病原體微陣列上,隨后分別進(jìn)行SARS-特異性RT-PCR或登革病毒I-特異性RT-PCR。SARS與其它冠狀病毒科基因組交叉雜交(以黑色表示),特別與基因組中高度保守的中央部分交叉雜交(Ruan等,2003)。登革病毒I與探針交叉雜交,其中所述的探針是根據(jù)登革病毒I與黃病毒科和其它基因組序列相似性而從黃病毒科和其它基因組獲得的。通過檢查漢明距離(HD)和最大連續(xù)匹配(MCM)得分,我們建立了預(yù)測交叉雜交是否會(huì)發(fā)生的閾值并利用該信息生成計(jì)算機(jī)模擬(/"w7/co)雜交標(biāo)簽。(C)使用隨機(jī)RT-PCR進(jìn)行擴(kuò)增從診斷患有RSV的臨床患者中分離的RNA并雜交到病原體微陣列上;圖8:探針漢明距離(HD)、探針最大連續(xù)匹配(MCM)與探針信號強(qiáng)度間的關(guān)系。平均探針信號強(qiáng)度隨HD增加及MCM降低而減少。這與可檢測探針的百分?jǐn)?shù)降低相關(guān)(信號強(qiáng)度〉均值+2SD)。在最佳交叉雜交閩值HIK4或MCMS18(陰影部分)上,可以檢測到大于98%的探針。在HD-5或MCM-17上,檢測率下降到85%;圖9(A,B):從RSV感染的患者中分離的RNA雜交到病原體檢測陣列上。(A)全部53,555個(gè)探針的探測信號強(qiáng)度的分布顯示出正態(tài)分布(灰色實(shí)線)。當(dāng)在基因組特異性水平上檢査時(shí),非RSV探針例如副流感病毒-1(灰色點(diǎn)線)也顯示出正態(tài)分布。RSV-特異性探針的信號強(qiáng)度具有正偏性,在分布的尾部具有更高信號強(qiáng)度(黑色實(shí)線)。(B)對35個(gè)SPS的WKL得分的分布頻率,大部分分布在-5與3之間。然而,對RSV基因組的WKL得分是17,因此該分布不是正態(tài)性的(安德森-塔林檢驗(yàn)P<0.05)。排除異常(outlier)基因組產(chǎn)生正態(tài)分布。從該計(jì)算中,得出的結(jié)論是RSV存在于雜交的樣品中;圖10:AES指示探針的擴(kuò)增效率。可在高于超過5個(gè)實(shí)驗(yàn)的信號強(qiáng)度閾值上檢測到更高比例的具有高AES的探針;圖11表示使用微陣列檢測病原體所需的過程的示意圖12:雜交信號強(qiáng)度與擴(kuò)增效率得分(AES)的相關(guān),P=2.2xl0-16。將RSV患者的樣品雜交至微陣列上,并且將每個(gè)探針的信號強(qiáng)度與計(jì)算的AES作圖。用于在一般陣列上高置信度檢測的信號閾值由綠線表示;圖13:使用AES-優(yōu)化的引物標(biāo)簽進(jìn)行隨機(jī)RT-PCR,AES增加10-30倍。預(yù)測優(yōu)化的引物對表現(xiàn)在微陣列上的所有35個(gè)基因組都具有相同性能。大部分患者的樣品使用AES-優(yōu)化的引物A2進(jìn)行擴(kuò)增;<table>tableseeoriginaldocumentpage30</column></row><table>圖14(A,B)是微陣列短線標(biāo)記的檢索表:<table>tableseeoriginaldocumentpage30</column></row><table><table>tableseeoriginaldocumentpage31</column></row><table>在隨機(jī)RT-PCR中引物標(biāo)簽的選擇對PCR效率有顯著影響。熱圖顯示探針與臨床的hMPV樣品雜交,隨后使用Bohlander等1992所述的原始引物(A)或使用根據(jù)PCR建模設(shè)計(jì)的旨在確保高效擴(kuò)增表現(xiàn)在微陣列上的所有基因組(高AES)的引物(B)進(jìn)行RT-PCR;圖15:對RSV患者#412的診斷性PCR結(jié)果證實(shí)該患者沒有被冠狀病毒感染。(A)使用泛冠狀病毒引物的PCR。泳道l:OC43冠狀病毒陽性對照;泳道2:229E冠狀病毒陽性對照;泳道3:RSV患者斜12,泳道4:PCR弓I物和僅作為陰性對照的試劑。lkb序列梯。(B)使用OC43特異性引物的PCR。泳道1:OC43冠狀病毒陽性對照;泳道2:RSV患者#412;泳道3:來自ATCC的純化RSV;泳道4:PCR陰性對照。50bp序列梯。(C)使用229E特異性引物的PCR。泳道1:229E冠狀病毒陽性對照;泳道2:RSV患者弁412,泳道3:PCR陰性對照。lkb序列梯。具體實(shí)施例方式為方便起見,本說明書中提及的參考文獻(xiàn)以參考文獻(xiàn)列表形式列出并附加在實(shí)施例的結(jié)尾。這些參考文獻(xiàn)的完整內(nèi)容引入本文作為參考。本發(fā)明解決了現(xiàn)有技術(shù)的的問題,特別是提供設(shè)計(jì)寡核苷酸的至少一種方法、裝置和/或產(chǎn)物。具體而言,本發(fā)明提供設(shè)計(jì)探針和/或引物的方法、裝置和/或產(chǎn)物。本發(fā)明還提供核酸檢測的方法、裝置和/或產(chǎn)物。盡管已經(jīng)提出了使用寡核苷酸雜交微陣列作為確定病原體存在的工具的概念,然而仍存在明顯的障礙,從而妨礙這些微陣列的常規(guī)使用(Striebel,H.M.,2003)。這些障礙包括探針設(shè)計(jì)和數(shù)據(jù)分析(Striebd,H.M.,2003;Bodrossy,L.&Sessitsch,A.,2004;Vom,G.J.,等,2004)。本發(fā)明的發(fā)明人在一種試驗(yàn)性微陣列中觀察到盡管仔細(xì)選擇探針,然而計(jì)算機(jī)模擬設(shè)計(jì)的最佳探針不一定與患者樣品良好地雜交。本發(fā)明人認(rèn)識到要產(chǎn)生與患者材料始終良好地雜^的探針,必須開發(fā)新的和/或探針設(shè)計(jì)改良的方法以便確定最佳設(shè)計(jì)預(yù)測值。尤其是,如實(shí)施例部分中所述,本發(fā)明人創(chuàng)造了包含重疊性40聚體(mer)探針的微陣列,其中所述探針在35種病毒基因組范圍內(nèi)嵌搭(tiled)。不過,本發(fā)明不限于這種具體應(yīng)用、探針長度和靶核酸類型。根據(jù)本發(fā)明的具體方面,本發(fā)明的發(fā)明人描述如何優(yōu)化支持物,尤其是微陣列平臺(tái),以使該支持物在靶核酸檢測,尤其是病原體檢測中成為可行的工具。本發(fā)明人還確定了探針設(shè)計(jì)預(yù)測值,包括解鏈溫度、探針的GC含量、二級結(jié)構(gòu)、漢明距離、與人基因組的相似性、PCR引物標(biāo)簽在隨機(jī)PCR擴(kuò)增效率方面的影響和/或序列多態(tài)性的影響。將這些結(jié)果視作和/或納入探針和/或引物設(shè)計(jì)方法和標(biāo)準(zhǔn)的開發(fā)中。根據(jù)更具體的方面,本發(fā)明人開發(fā)了可以精確預(yù)測靶核酸存在的數(shù)據(jù)分析算法,其中靶核酸可能是病原體或可能不是病原體。例如病原體可以是,但不限于病毒,細(xì)菌和/或寄生蟲。即使探針不是理想地設(shè)計(jì)的,也可以使用該算法。這種結(jié)合探針設(shè)計(jì)方法學(xué)檢測算法顯著改善預(yù)測的置信度水平(見表6和7)。根據(jù)具體方面,本發(fā)明的方法可以不需要預(yù)測可能的病原體,但是或許能夠以非偏倚方式檢測到大部分已知的人病毒、細(xì)菌和/或寄生蟲,以及一些新物種。將基因組或基因組片段定義為生物染色體中的全部遺傳材料。來源于特定生物染色體的遺傳材料中的DNA是基因組DNA?;蚪M文庫是克隆的集合,其中克隆由一套隨機(jī)生成的代表生物完整基因組的重疊性DNA片段產(chǎn)生的。在本發(fā)明的這種檢測平臺(tái)背后的邏輯基礎(chǔ)是病毒、細(xì)菌和/或寄生蟲的每個(gè)物種在它們基因組的原始序列中均含有獨(dú)特的分子標(biāo)簽。鑒定這些識別性區(qū)域使設(shè)計(jì)的合理的寡核苷酸探針能夠用于特異性地鑒定單個(gè)物種以及(在某些情況下)單個(gè)株。同時(shí)設(shè)計(jì)和/或制備代表科成員及屬成員間最高度保守性區(qū)域的寡核苷酸(寡)探針將能夠檢測并部分表征某些新的病原體。此外,在單個(gè)支持物上包含此類全部探針可以使檢測同時(shí)共感染臨床樣品的多種病毒、細(xì)菌和/或寄生蟲。支持物可以是不溶性支持物,尤其是固體支持物,例如微陣列或生物分析芯片。根據(jù)具體方面,本發(fā)明可以用作診斷工具,這取決于設(shè)計(jì)寡核苷酸探針的方式,和/或如何解讀并分析由微陣列生成的數(shù)據(jù)。擴(kuò)增效率的確定根據(jù)第一方面,本發(fā)明提供設(shè)計(jì)用于核酸檢測的寡核苷酸探針的方法,該方法包括任意順序的以下步驟(i)確定和/或選擇至少一種耙核酸的至少一個(gè)待擴(kuò)增區(qū)域,該區(qū)域的擴(kuò)增效率(AE)高于平均的AE;和(ii)設(shè)計(jì)至少一種能夠與所確定和/或選擇的區(qū)域進(jìn)行雜交的寡核苷酸探針。尤其是,在步驟(I)中,對全長耙核酸上或其區(qū)域內(nèi)的每個(gè)位置i確定AE得分并且獲得平均AE。選擇AE高于平均值的那些區(qū)域作為靶核酸的待擴(kuò)增區(qū)域。尤其是,所選區(qū)域的AE可以被計(jì)算為擴(kuò)增效率得分(AES),其中AES是正向引物ri可能與靶核酸的位置i結(jié)合并且反向引物ij可能在靶核酸的位置j處結(jié)合的概率,l!'-乂l是靶核酸的想要的擴(kuò)增區(qū)域。區(qū)域lb'l可以優(yōu)選為^10000bp,更優(yōu)選為^5000bp或^1000bp,例如^500bp。尤其是,正向引物和減反向引物可以是隨機(jī)引物。根據(jù)另一方面,確定和/或選擇靶核酸的待擴(kuò)增區(qū)域的步驟(i)包含確定幾何級擴(kuò)增偏倚對靶核酸中每個(gè)位置的影響,并且選擇待擴(kuò)增區(qū)域作為擴(kuò)增效率高于平均擴(kuò)增效率的區(qū)域。幾何級擴(kuò)增偏倚可以被定義為核酸內(nèi)某些區(qū)域的擴(kuò)增的能力比其它區(qū)域的擴(kuò)增的能力更高。例如,幾何級擴(kuò)增偏倚是PCR偏倚。擴(kuò)增效率的建模由于不知道何種靶核酸(例如病原體)存在于患者樣品內(nèi),因此可以在擴(kuò)增步驟和/或逆轉(zhuǎn)錄(RT)過程中使用隨機(jī)引物,以確保使存在的全部RNA無偏倚地逆轉(zhuǎn)錄成DNA。本領(lǐng)域已知的任何隨機(jī)擴(kuò)增方法可以用于本發(fā)明的目。在本說明書中,隨機(jī)擴(kuò)增方法可以是RT-PCR。然而,技術(shù)人員將明白本發(fā)明的方法不限于RT-PCR。RT-PCR方法可能易受RT-PCR方法中引物二聚體結(jié)合及較差擴(kuò)增效率所致的信號不精確性的影響(Bustin,S.A.等,2004)。為克服此問題,本發(fā)明人已經(jīng)通過使用隨機(jī)引物對RT-PCR方法建模。根據(jù)本發(fā)明的具體方面,擴(kuò)增步驟包括正向引物和反向引物,并且正向引物和反向引物中的每種引物在5,-3,方向上包含固定的引物頭部和可變的引物尾部,并且其中至少可變的尾部與靶核酸Va的一部分雜交。固定的引物頭部和可變的引物尾部的尺寸可以是以mer為單位的適合本發(fā)明方法的目的任何尺寸。固定的頭部可以是10-30mer,優(yōu)選為5-25mer,例如17mer??勺兾膊靠梢允?-20mer,優(yōu)選為5-15mer,例如9mer。這些正向引物和反向引物的實(shí)例如圖l所示。更尤其是,擴(kuò)增步驟可以包括具有核苷酸序列5'-GTTTCCCAGTCACGATANNNNNNNNN-3,(SEQIDNO:l)的正向隨機(jī)引物和/或反向隨機(jī)引物,其中,N是A、T、C和G及它們的衍生物中的任意一種。根據(jù)具體實(shí)施方案,仍如圖1所示,本發(fā)明的發(fā)明人按照下列方法建立了隨機(jī)RT-PCR方法模型。設(shè)、是樣品中實(shí)際病毒。在RT-PCR方法中所用的隨機(jī)引物優(yōu)選為具有固定的17mer頭部和可變的9mer尾部的26mer引物,艮卩(5,-GTTTCCCAGTCACGATANNNNNNNN-3,)(SEQIDNO:l,尤其為SEQIDNOS:2-7)。然而,對于技術(shù)人員來說,本發(fā)明的引物顯然不限于SEQIDNOS:l-7和圖1的序列。實(shí)際上,引物的核苷酸數(shù),尤其是頭部及可變尾部的核苷酸數(shù),可以變化并且在以上所討論的范圍內(nèi)加以選擇。為在Va的位置z'與_/間的區(qū)域內(nèi)得到RT-PCR產(chǎn)物,本發(fā)明人需要(l)結(jié)合至位置!'的正向引物,(2)^/|《10000以及(3)結(jié)合至位置7'的反向引物。作為靶核酸內(nèi)想要擴(kuò)增區(qū)域的K-j'l優(yōu)選為《5000bp,更優(yōu)選為s1000,例如^500bp。RT-PCR產(chǎn)物的質(zhì)量取決于正向引物和/或反向引物與Va結(jié)合得的情況。一些隨機(jī)引物可以比其它隨機(jī)引物更好地與h結(jié)合。確定此類引物并確定它們在哪里與結(jié)合提示了Va的特定區(qū)域有多大可能被擴(kuò)增。使用這種方法,提供對Va的每個(gè)位置計(jì)算擴(kuò)增效率得分(AES)的擴(kuò)增效率模型。對于靶核酸Va的特定位置/,P、')和pr(0是隨機(jī)引物^作為正向引物和反向引物分別可以與Va的位置/結(jié)合的概率。為簡便起見,假設(shè)隨機(jī)引物僅當(dāng)該隨機(jī)引物的最后9個(gè)核苷酸是Va的反向互補(bǔ)物(正向引物)的子串或是Va(反向引物)的子串時(shí)才可以與Va結(jié)合。這如圖1所示?;诜浅4_定的引物設(shè)計(jì)標(biāo)準(zhǔn)(Wu,D.Y.,等,1991),若。形成明顯的引物二聚體或具有極端的解鏈溫度,則〃(/)被評定為低。另一方面,若。未形成任何明顯的引物二聚體并具有最佳的解鏈溫度,則w(o將被評定為高。需要注意的是,若隨機(jī)引物的頭部與相似,這也可以輔助結(jié)合并因此產(chǎn)生更高的,(/)。類似地,計(jì)算了,(o。隨機(jī)引物。作為正向引物在va的位置z'的結(jié)合影響位置/上游至少10000個(gè)核苷酸的RT-PCR產(chǎn)物的質(zhì)量。隨機(jī)引物n作為反向引物在Va的位置z'的結(jié)合影響位置/下游至少10000個(gè)核苷酸的RT-PCR產(chǎn)物的質(zhì)量。因此,對Va的每個(gè)位置/的擴(kuò)增效率得分^ES,可以通過考慮用于擴(kuò)增位置/的所有正向引物和反向引物對的總效果計(jì)算<formula>formulaseeoriginaldocumentpage36</formula>,其中<formula>formulaseeoriginaldocumentpage36</formula>〃(/)和,(/)是隨機(jī)引物r,作為正向引物和反向引物分別與Va的位置/結(jié)合的概率,并且Z^10000bp是的欲擴(kuò)增的區(qū)域。因此,Z可以是s10000bp、s5000bp、《1000bp或^500bp。為驗(yàn)證由病毒的不同區(qū)域所表現(xiàn)的信號強(qiáng)度上的變異是否與所述區(qū)域的相應(yīng)擴(kuò)增效率得分直接相關(guān),進(jìn)行了幾個(gè)對常見的感染人的病原體即人呼吸道合胞體病毒B(RSVB)的微陣列實(shí)驗(yàn)(在這種具體情況下,總計(jì)5個(gè)微陣列實(shí)驗(yàn))。對擴(kuò)增效率建立RT-PCR模型本發(fā)明的方法是采用引物用于改良的逆轉(zhuǎn)錄的方法(Simg等,2003,CSB),該方法包括固定的寡核苷酸標(biāo)簽(頭部)和隨機(jī)寡核苷酸尾部。理論上,隨機(jī)寡核苷酸尾部應(yīng)當(dāng)不加區(qū)分地與患者樣品內(nèi)的全部核酸結(jié)合,啟動(dòng)第一鏈合成。在第二鏈合成后,全部逆轉(zhuǎn)錄的序列將在兩端具有固定的寡核苷酸標(biāo)簽(頭部)。這些序列使用固定的寡核苷酸標(biāo)簽(頭部)作為引物,通過PCR擴(kuò)增以生成長度至少為10000bp的PCR產(chǎn)物。尤其是,所擴(kuò)增的PCR產(chǎn)物的長度大部分在500-1000bp之間。根據(jù)所述特定實(shí)施方案,用于逆轉(zhuǎn)錄的(RT)26mer引物包含固定的17mer標(biāo)簽和9mer的隨機(jī)尾部5,-GTTTCCCAGTCACGATANNNNNNNNN-3,(SEQIDNO:l)。在我們的模型中,Va代表臨床樣品中的病原體。為了在基因組內(nèi)的任何區(qū)域中生成至少一種由Va的位置/和j'所定義的PCR產(chǎn)物,例如500-1000bp,需要結(jié)合至位置z'的正向引物和以反義方向結(jié)合至位置的反向引物,且使500^'-ygl0000,尤其是500S|H|£1000。引物的結(jié)合親和力由至少兩種因素決定(l)引物二聚體形成,和(2)引物對病毒Va的雜交親和力。通過對如圖1所示的Va的每個(gè)位置計(jì)算擴(kuò)增效率得分04五Q可以預(yù)測在10000個(gè)核苷酸范圍內(nèi),尤其在1000個(gè)或500個(gè)核苷酸范圍內(nèi)因具有理想引物結(jié)合位置而被成功擴(kuò)增的基因組區(qū)域。擴(kuò)增效率得分(AES)對Va的每個(gè)位置/,設(shè)〃(0和F(/)是隨機(jī)引物r作為正向引物和反向引物分別與Va的位置/可能結(jié)合的概率。為簡便起見,我們假設(shè)隨機(jī)引物僅當(dāng)該引物的隨即尾部(例如,如圖1內(nèi)所示隨機(jī)引物的最后9個(gè)核苷酸)是Va的反向互補(bǔ)物(正向引物)的子串或是V"反向引物;圖l)的子串時(shí)才可以與Va結(jié)合?;诜浅4_定的引物設(shè)計(jì)標(biāo)準(zhǔn)(Wu,andUgozzoli,1991),若。形成明顯的引物二聚體或具有極端的解鏈溫度,則我們評定P"/)為低。另一方面,若。未形成任何明顯的引物二聚體并具有最佳的解鏈溫度,則,(/)將被評定為高。若隨機(jī)引物的固定的寡核苷酸標(biāo)簽(頭部)(例如,圖1所示固定的17mer標(biāo)簽)與Va相似,這也可以輔助結(jié)合并且因此產(chǎn)生更高的^(f)。類似地,我們計(jì)算了P^)。隨機(jī)引物r,作為正向引物在Va的位置/的結(jié)合影響位置/上游的核苷酸(例如位置/上游500至1000個(gè)核苷酸)的RT-PCR產(chǎn)物的質(zhì)量。類似地,隨機(jī)引物。作為反向引物在Va的位置Z'的結(jié)合影響位置Z'下游的核苷斷例如位置/下游500至1000個(gè)核苷酸)的RT-PCR產(chǎn)物的質(zhì)量和覆蓋度。假定有位置X。位于位置/和j'內(nèi)的全部有效引物對分別影響在x處的RT-PCR產(chǎn)物的質(zhì)量。需要注意的是并且h^10000。例如,5005i-JSIOOO,因?yàn)槲覀兊腞T-PCR產(chǎn)物的長度是500至1000堿基對。因此,對、的每個(gè)位置x的擴(kuò)增效率得分AESx可以是通過考慮用于擴(kuò)增位置x的全部引物對的總效果計(jì)算<formula>formulaseeoriginaldocumentpage38</formula>預(yù)測成功的RT-PCR的AES閾值用于病毒Va的探針選擇的擴(kuò)增增效率得分的閾值由Va的AES值的累積分布函數(shù)測定。設(shè)Z是代表Va的所有探針的AES值的隨機(jī)變量。設(shè)A:是探針的數(shù)目。隨后,我們指定^S值小于或等于X的概率是P(義^)-《,其中c是具有小于或等于:c的值的探針的數(shù)目。對于在va的位置Z的探針A,設(shè)Xi是該探針的相應(yīng)AES值。由于探針的信號強(qiáng)度與它的」ES值高度相關(guān),我們認(rèn)為戶">。),即A在Va存在下具有高信號強(qiáng)度的概率,是P(X",)。因此,其中Q是^^值小于或等于^的探針的數(shù)目。對于探針的選擇而言,若P(Ak。):^,則選擇探針A。在我們的實(shí)驗(yàn)中,設(shè)定>0.8。在該閾值(AES的最高20%),觀察到多于50%的預(yù)期探針可重復(fù)地與不同臨床樣品雜交。當(dāng)使用具有更高AES(例如,AES的最高10W)的探針將改善可重復(fù)性,與此同時(shí)這將在物種水平上降低對某些基因組仍為獨(dú)特的探針的數(shù)目至<10,因此有損此陣列特異性鑒定病原體的能力。因此使用AES的最高2(P/。。在病原體檢測微陣列上實(shí)驗(yàn)性地測定交叉雜交閾值探針的設(shè)計(jì)設(shè)計(jì)能夠與所選區(qū)域雜交的寡核苷酸探針的步驟(ii)可以選擇為任何一種本領(lǐng)域內(nèi)已知的探針設(shè)計(jì)技術(shù)。以下描述涉及探針設(shè)計(jì),然而,對于技術(shù)人員來說,顯然還可采用相同的原理用于設(shè)計(jì)引物,尤其用于RT-PCR設(shè)計(jì)引物。例如,給定一套靶核酸(例如,病毒基因組)V^Vi,V2,...,vn},對于每個(gè)VieV,可以考慮設(shè)計(jì)一套長度為m的滿足以下條件,例如至少一種以下條件,的探針(其是Vi的子串)(a)已建立的探針設(shè)計(jì)標(biāo)準(zhǔn),即同質(zhì)性、靈敏性和特異性(Simg,W.K.等,2003,CSB);(b)與人基因組無顯著的序列相似性;和(c)使用AE得分高效擴(kuò)增,例如通過如本文中所述的RT-PCR。由交叉雜交人為產(chǎn)物所致的噪音性信號對于解讀微陣列數(shù)據(jù)、特別對鑒定存在于復(fù)雜核酸混合物內(nèi)的稀有病原體序列設(shè)置了巨大障礙。例如,在臨床標(biāo)本中,那些來自宿主組織中的核酸序列等污染的核酸序列,將在序列互補(bǔ)性的某閾值以上與病原體特異性微陣列探針交叉雜交。這可能產(chǎn)生導(dǎo)致錯(cuò)誤結(jié)論的假陽性信號。類似地,病原體序列除了結(jié)合它的特異性探針外,還可以與其它非靶探針(即設(shè)計(jì)旨在檢測其它病原體的探針)交叉雜交。盡管后一現(xiàn)象似乎帶來問題,卻可能為病原體鑒定提供有用信息以可以精確預(yù)測交叉雜交。由于微陣列探針具有評定復(fù)性潛能和序列特異性的諸多優(yōu)點(diǎn),因此通常將它設(shè)計(jì)為確保(對已知靶的)最大的特異性雜交,同時(shí)具有(對非特異性序列的)最小的交叉雜交。然而實(shí)踐中,我們發(fā)現(xiàn)盡管使用最佳計(jì)算機(jī)模擬參數(shù)來設(shè)計(jì),因未知原因,眾多探針未如預(yù)期那樣表現(xiàn)性能。為了系統(tǒng)研究基于陣列的病原體檢測的動(dòng)力學(xué),我們使用寧布勒根(Nimblegen)陣列合成技術(shù)(Nuwaysir等,2002)創(chuàng)造寡核苷酸陣列。使用40mer探針而設(shè)計(jì)的所述陣列檢測多達(dá)35種RNA病毒,其中,所述的探針以平均8個(gè)堿基的解析度在每種基因組全部長度范圍內(nèi)嵌搭(tiled)(53,555個(gè)探針;圖6,表l)。表1在病原體檢測微陣列上代表的基因組列表。(第1列)對微陣列上合成的每種基因組的探針的數(shù)目。(第2列)應(yīng)用探針設(shè)計(jì)篩選程序(filter)后剩下的對每種基因組的探針的數(shù)目。(第3列)對每種基因組的探針的數(shù)目,其中所述探針對所述基因組是獨(dú)特的并且不與人的基因組交叉雜交。<table>tableseeoriginaldocumentpage41</column></row><table><table>tableseeoriginaldocumentpage42</column></row><table>218341032938371716RefS叫NC_005222.1漢坦病毒,全基因組228371889838371727RefSeqNC_005217.1辛諾柏病毒,全基因組234301008623334588RefS叫NC—004294.1淋巴細(xì)胞脈絡(luò)叢腦膜炎病毒片段S,全序列2385345528623334585RefS叫NC一00429U淋巴細(xì)胞脈絡(luò)叢腦膜炎病毒片段L,全序列2414042041229626460RefSeqNC_001437.1日本腦炎病毒,基因組2513702849151850386日本DNA數(shù)據(jù)庫AB189128.1登革病毒病毒3型基因組RNA,全基因組,株-98902890DFDV-32613611305712659201基因銀行(Genbank)AF326573.1登革病毒病毒4型,株814669,全基因組2713701422119744844GenbankAF489932.1登革病毒病毒2型,株BR64022,全基因組28137015252323660GenbankM87512.1DENT1SEQ登革病毒病毒1型,全基因組29944175879626436RefSeqNC_001430.1人腸道病毒D,全基因組309451831229626433RefSeqNC_001428,1人腸道病毒C,全基因組319461961489627719RefS叫NC_001612.1人腸道病毒A,全基因組3294536415421363125RefSeqNC_003986.1致腸細(xì)胞病變?nèi)斯聝翰《緇,全基因組3394494129626677RefSeqNC—001472.1人腸道病毒B,全基因組349132831909627730RefSeqNC-001617.1人鼻病毒89,全基因組359204262919626735RefSeqNC-001490.1人鼻病毒B,全基因組包括對每種病毒探針的7個(gè)重復(fù)探針,和用于陣列合成及雜交(如下所述)的對照序列,該陣列總共含有390,482個(gè)探針。同質(zhì)性、靈敏性和特異性同質(zhì)性需要選擇具有相似解鏈溫度的探針。據(jù)發(fā)現(xiàn)低CG含量的探針不會(huì)產(chǎn)生可靠的雜交信號強(qiáng)度,而高CG含量的探針通過非特異性結(jié)合易于產(chǎn)生高信號強(qiáng)度。因此,可能建立的是所選探針的CG含量應(yīng)當(dāng)是40%至60%。因此,本發(fā)明提供設(shè)計(jì)用于核酸檢測的寡核苷酸探針的方法,該方法包括選擇CG含量為40%至60%的探針。術(shù)語"雜交"是指其中寡探針非共價(jià)地與靶核酸或其部分結(jié)合以形成穩(wěn)定雙鏈的過程。三鏈雜交在理論上也是可能的。雜交探針是能夠以堿基特異性方式與靶核酸的互補(bǔ)鏈結(jié)合的寡核苷酸。特異性雜交是指,當(dāng)序列存在于DNA或RNA的復(fù)雜混合物中(例如總細(xì)胞的)時(shí),在嚴(yán)格條件下分子基本上與或僅與特定的核苷酸序列或序列結(jié)合、形成雙鏈體或雜交。雜交,例如等位基因特異性探針雜交,通常在嚴(yán)格條件下進(jìn)行。例如,其中鹽濃度不高于約1摩爾濃度(M)并且溫度是至少25°C的條件是嚴(yán)格條件,所述鹽濃度為,例如750mMNaCl,50mM磷酸鈉,5mMEDTA,pH7.4(5倍濃度SSPE);所述溫度為約25。C至約30°C。雜交通常在嚴(yán)格條件下進(jìn)行,例如在鹽濃度不高于1M并且溫度至少25°C下。對于嚴(yán)格條件,還可參考,例如,Sambrook禾口Russel,MolecularCloning:ALaboratoryManual,ColdSpringsHarborLaboratory,NewYork(2001),為以上的所有目的將該文獻(xiàn)全部內(nèi)容引入本文作為參考。靈敏性需要選擇不能形成大量的二級結(jié)構(gòu)的探針,以便檢測低豐度的mRNA。因此,根據(jù)最鄰近模型計(jì)算的最高自由能選擇探針(SantaLucia,J.,Jr.等,1996)。因此本發(fā)明提供設(shè)計(jì)至少一種用于核酸檢測的寡核苷酸探針的方法,其中,根據(jù)最鄰近模型計(jì)算的最高自由能選擇探針。特異性需要選擇對病毒基因組最獨(dú)特的探針。這將使探針與其它非靶核酸(例如,病毒基因組)的交叉雜交最小化。假定探針Sa和探針Sb分別是靶核酸Va和Vb的子串,則根據(jù)Sa與來自靶核酸Vb的長度為m的任意子串Sb之間的漢明距離和/或Sa與探針Sb的最長公共子串來選擇Sa。尤其,設(shè)Sa和Sb分別是來自病毒基因組Va和vb的長度為m的子串,其中V#Vb。待設(shè)計(jì)的探針的長度可以是對本發(fā)明的目的有用的任何長度。探針可以小于100mer,例如20至80mer;25至60mer,例如40mer。漢明距離禾口/或最長公共子串也可以變化。根據(jù)凱恩氏(Kane's)標(biāo)準(zhǔn)(Kane,M.D.,等,2000),Sa對Va是特異性的,若(a)Sa與來自病毒基因組Vb的長度為m的任意子串Sb間的漢明距離大于0.25m;(b)Sa和Sb的最長公共子串小于15。用于漢明距離的界限值可以根據(jù)所需的嚴(yán)格性進(jìn)行選擇。對于任何技術(shù)人員來說,如何根據(jù)所需的特定嚴(yán)格性選擇漢明距離界限是顯而易見的。根據(jù)本文中所述的探針設(shè)計(jì)的具體實(shí)例,本發(fā)明人對特異性探針使用相對其它靶核酸的>10的漢明距離界限值,并且對保守性探針使用<10、優(yōu)選<5的漢明距離界限值。對于特異性探針而言,這表示僅與特異性靶核酸雜交的探針,而對于保守性探針而言,這表示可以與靶核酸家族的任何成員雜交的探針。因此,本發(fā)明還提供設(shè)計(jì)用于核酸檢測的寡核苷酸探針的方法,其中,假定探針Sa和探針Sb分別是生物樣品中包含的靶核酸Va和Vb的子串,若Sa與來自靶核酸Vb的長度為m的任意子串Sb間的漢明距離大于0.25m,并且Sa與探針Sb的最長公共子串小于15,則選擇Sa。為了在沒有來自人RNA的交叉雜交復(fù)雜情況下研究陣列雜交動(dòng)力學(xué),將SARS冠狀病毒及登革病毒血清型1的病毒RNA從感染細(xì)胞系的培養(yǎng)基中純化、逆轉(zhuǎn)錄并使用病毒特異性引物進(jìn)行PCR擴(kuò)增(Wong,等,2004)。每種基因組cDNA被完整地?cái)U(kuò)增(通過測序證實(shí)),用Cy3標(biāo)記并在微陣列上分別雜交。SARS樣品很好地與SARS嵌搭探針雜交,全部3,805個(gè)SARS特異性探針顯示遠(yuǎn)高于檢測閾值(檢測閾值由探針信號強(qiáng)度在陣列信號強(qiáng)度均值之上>2標(biāo)準(zhǔn)差而確定;圖7A)的熒光(Cy3)信號。與其它病原體探針組的交叉雜交極少,僅對冠狀病毒科其它成員和微RNA病毒科和副粘病毒科的幾個(gè)物種觀察到交叉雜交,這同SARS與其它已知病毒很少有序列同源性的觀察相一致(Ksiazek等,2003)。另一方面,登革病毒1的雜交模式更為復(fù)雜(圖7B)。首先,由于序列多態(tài)性,我們觀察到與登革病毒1探針組的雜交是局部不完整的(即區(qū)域無信號)。在陣列上雜交的登革病毒1樣品是從1944年的夏威夷分離株(ATCC登記號弁VR-1254)中培養(yǎng)出來,而陣列探針組以1990年在新加坡分離的S275/90株(Fu等,1992)的序列為基礎(chǔ)。未與cDNA靶雜交的登革病毒1探針分別含有對靶序列的至少3個(gè)錯(cuò)配(在15堿基的片段內(nèi))。其次,我們觀察到在某種程度上與陣列上存在的幾乎全部病毒探針組,尤其與其它黃病毒科成員的探針發(fā)生交叉雜交,這與4種登革病毒血清型共享60-70%同源性的事實(shí)相一致。為理解雜交信號輸出與復(fù)性特異性間的關(guān)系,我們使用2種相似性度量即探針漢明距離(HD)與最大連續(xù)匹配(MCM),首先將全部探針序列與每種病毒基因組比較。HD測量兩種序列的整體相似性距離,對相似序列產(chǎn)生低得分(Hamming,1950)。MCM測量完全匹配的連續(xù)堿基數(shù)目,對相似序列產(chǎn)生高得分(Kane等,2000)。我們計(jì)算每個(gè)探針相對于夏威夷登革病毒1分離株的HD和MCM得分并且觀察到這些得分分別反向地并且直接地與探測信號強(qiáng)度相關(guān)。陣列上與夏威夷登革病毒I基因組具有高相似性即HD二2(n-942)或MCM二27(n-627)的所有探針以高于背景3個(gè)對數(shù)值的中等信號強(qiáng)度發(fā)生雜交。雖然98%的探針在0-4的低HD范圍內(nèi)或18-40的高M(jìn)CM范圍內(nèi)是可檢測到的,然而中等探測信號強(qiáng)度隨序列距離的每個(gè)增量而下降。中等信號強(qiáng)度在HD=7和MCM=15急劇下降至背景水平,分別具有43%和46%的可檢測探針。絕大多數(shù)探針(>96%,11>51,000)具有8-21的HD得分和/或0-15的MCM得分,其中可分別檢測到1.23%和1.57%的這些探針。理想的交叉雜交相似性閾值為這樣的值,即其中鑒定特定病原體的所有探針總是具有高于背景噪音的可檢測信號強(qiáng)度,即使在病原體序列內(nèi)存在多態(tài)性時(shí)也是如此。在最佳的相似性閾值HD二4和MCM二18,>98%的探針可以以高于背景2個(gè)對數(shù)值的中等信號強(qiáng)度被檢測到,而調(diào)整閾值下降1級至HD=5和MCM=17將僅產(chǎn)生~85%探針檢測和高于背景1.2個(gè)對數(shù)值的中等信號強(qiáng)度(圖8)。使用這些最佳HD和MCM閾值來預(yù)測交叉雜交,我們將全部探針分成最有可能檢測給定病原體的組。我們將這些組稱作特異性標(biāo)簽探針組(SPSs),并且我們?yōu)殛嚵猩纤淼?5種病原體基因組中的每種基因組定義了SPSs演2)。表2每種病原體標(biāo)簽探針組(SPS)包含具有最高的20。/。的AES的探針[第(l)列]。剔除了GC含量不為40-60%的探針[第(2)列]或與人基因組具有高度相似性的探針[第(3)列]。將來自于其它病原體的、根據(jù)HD和MCM將與該病原體交叉雜交的探針[第(4)列]添加至SPS[第(5)列]。<table>tableseeoriginaldocumentpage47</column></row><table><table>tableseeoriginaldocumentpage48</column></row><table>與人基因組的序列相似性在待檢測的靶核酸從人提取的情況下(例如,含有病毒基因組的人樣品),還應(yīng)當(dāng)避免使用與人基因組具有高度同源性的探針。因此,就對靶核酸va為特異的長度為HI的任何探針Sa而言,若探針Sa與異于靶核酸的核酸的任何區(qū)域無任何標(biāo)的,則選擇探針Sa,若長度為m的探針Sa與異于靶核酸的核酸有標(biāo)的,則選擇長度為m的具有最小的最大比對長度和/或具有最低標(biāo)的數(shù)的探針sa。尤其是,對于任何長度為m的探針sa,用BLAST算法找到sa對人基因組的標(biāo)的(Aitschul,S.R等,1997)。使用BLAST字段大小(W-15)和期望值100來找到全部標(biāo)的。若Sa與人基因組無任何標(biāo)的,則選擇Sa,也就是說,Sa對是特異性的。然而,若Va的長度為m的全部子串與人基因組有標(biāo)的,則選擇具有最小的最大比對長度和具有最低標(biāo)的數(shù)的那些子串。此外由于與人序列的交叉雜交也可能使結(jié)果混亂,我們通過BLAST使用字段大小為15(Altschul等,1997)將全部探針與人基因組裝配物(build17)(InternationalHumanGenomeSequencingConsortium.Initialsequencingandanalysisofthehumangenome.Nature409(6822),860-921(200l).)進(jìn)行比較。從SPS中進(jìn)一步篩選具有期望值為100的探針(見上表2)。因此,本發(fā)明提供設(shè)計(jì)用于核酸檢測的寡核苷酸探針的方法,其中,就對耙核酸Va特異的長度為m的任何探針Sa而言,若探針Sa與異于靶核酸的核酸的任何區(qū)域無任何標(biāo)的,則選擇探針sa,并且若長度為m的探針Sa與異于靶核酸的核酸有標(biāo)的,則選擇長度為m的具有最小的最大比對長度和/或具有最低標(biāo)的數(shù)的探針Sa。此外,寡核苷酸探針設(shè)計(jì)還可以通過本發(fā)明的AES實(shí)施。尤其是,本發(fā)明提供選擇和/或設(shè)計(jì)探針的方法,其中,若預(yù)測Pi與所擴(kuò)增靶核酸的位置i雜交,則選擇在靶核酸的位置i的探針Pi。尤其是,能夠與所選區(qū)域雜交的寡核苷酸探針可以根據(jù)至少一種以下標(biāo)準(zhǔn)進(jìn)行選擇和/或設(shè)計(jì)(a)選擇CG含量為40%至60%的探針;(b)選擇具有根據(jù)最鄰近模型計(jì)算的最高自由能的探針;(C)假定探針Sa和探針Sb分別是靶核酸、和Vb的子串,則根據(jù)Sa與來自靶核酸vb的長度為m的任意子串Sb的漢明距離和/或Sa與探針sb的最長公共子串來選擇Sa;(d)對靶核酸Va特異性長度為m的任何探針Sa而言,若探針Sa與異于靶核酸的核酸的任何區(qū)域無任何標(biāo)的,則選擇探針Sa,并且若長度為m的探針Sa與異于耙核酸的核酸有標(biāo)的,則選擇長度為m的具有最小的最大比對長度和/或具有最低命標(biāo)的數(shù)的探針sa;和/或(e)若預(yù)測pi與所擴(kuò)增靶核酸的位置i雜交,則選擇在靶核酸的位置i的探針Pi。根據(jù)本發(fā)明的具體方面,可以使用以上所述標(biāo)準(zhǔn)中的兩項(xiàng)或多項(xiàng)設(shè)計(jì)寡核苷酸探針。例如,探針可以通過應(yīng)用全部標(biāo)準(zhǔn)(a)至(e)進(jìn)行設(shè)計(jì)。也可以使用在本文中沒有明確提及但本領(lǐng)域技術(shù)人員知道的其它標(biāo)準(zhǔn)。尤其是,根據(jù)標(biāo)銜e),選擇在靶核酸v。的位置i的探針A,若"Aiva)>入,其中X是0.5并且P(a>。)是A應(yīng)當(dāng)與靶核酸va的位置i雜交的概率。更尤其是,X是0.8。根據(jù)另一方面,本發(fā)明提供如上所述的方法,其中,/^,|0*尸(%^,)=&,其中,Z是代表va的所有探針的擴(kuò)增效率得分(AES)值的隨機(jī)變量,tA:是Va中探針的數(shù)目,并且q是其^m值w的探針的數(shù)目。根據(jù)另一方面,AES還可以用來設(shè)計(jì)隨機(jī)引物標(biāo)簽以輔助通過隨機(jī)PCR對樣品進(jìn)行隨機(jī)擴(kuò)增(這種應(yīng)用如檢測病原體、檢測基因表達(dá)、構(gòu)建克隆性DNA文庫,和技術(shù)人員會(huì)采用隨機(jī)PCR的其它應(yīng)用)。在支持物上合成寡核苷酸探針根據(jù)本發(fā)明的另一方面,選擇和/或設(shè)計(jì)如上所述的至少一種寡核苷酸探針的方法還包括制備選擇的和/或設(shè)計(jì)的探針的步驟。設(shè)計(jì)探針包含通過任何合適的手段,例如通過使用軟件,了解該探針的序列和/或設(shè)計(jì)該探針。制備探針的步驟包含實(shí)際地制備探針??梢愿鶕?jù)本領(lǐng)域已知的任何標(biāo)準(zhǔn)方法制備探針。例如,探針可以是化學(xué)合成的或通過克隆法制備的。例如,如Sambrook禾口Russel,2001所述。本發(fā)明還提供根據(jù)本發(fā)明的任何實(shí)施方案所制備的支持物,例如微陣列或生物芯片。根據(jù)本發(fā)明的任何方法所設(shè)計(jì)和制備的探針可以在溶液中使用或可以被置于不溶性支持物上。例如,可以根據(jù)本領(lǐng)域已知的任何技術(shù)將探針施加到、點(diǎn)滴到或刷在不溶性支持物上。支持物可以是固體支持物或凝膠。被施加探針的支持物可以是微陣列或生物芯片。更具體地,本發(fā)明提供用于從PCR擴(kuò)增的cDNA中快速檢測并鑒定病原體(例如病毒和/或細(xì)菌病原體)的基于寡微陣列雜交的方法,其中所述的cDNA是從原始組織樣品中制備的。尤其是,該方法應(yīng)用于從隨機(jī)PCR擴(kuò)增的cDNA中快速檢測并鑒定病原體。在以下描述中,探針的制備具體參考微陣列而進(jìn)行。然而,支持物以及探針可以根據(jù)本申請的全部內(nèi)容中的任何描述制備。尤其是,"陣列"是有目的創(chuàng)造的可以通過合成或生物合成制備的分子集合。陣列中的分子可以是彼此相同或不同的。陣列可以采用多種形式,例如,可溶性分子的文庫;與樹脂珠連接的化合物的文庫、二氧化硅芯片或其它固體支持物。陣列平臺(tái)或平臺(tái)是具有多個(gè)陣列的物體,在該物體上每個(gè)陣列由抗液體通過的物理屏障與其它陣列分隔并形成區(qū)域及空間,稱為"孔"。樣品制備和雜交到微陣列上生物樣品可以是采自哺乳動(dòng)物的任何樣品,例如來自人類。生物樣品可以是血液、體液、唾液、尿、糞便等。生物樣品可以是在實(shí)施擴(kuò)增步驟前被處理以釋放生物樣品中包含的核酸。靶核酸可以是想要檢測的任何核酸。待檢測的靶核酸可以至少是對生物樣品的核酸為外源的核酸。因此,若生物樣品來自人,待檢測的外源靶核酸(若其存在于生物樣品內(nèi))是非人源的核酸。根據(jù)本發(fā)明的方面,待檢測的靶核酸至少是病原體的基因組或基因組片段。病原體核酸可以至少是來自病毒、寄生蟲或細(xì)菌的核酸或核酸片段。根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供靶核酸檢測分析的方法。該方法可以是用于檢測生物樣品內(nèi)病原體存在的診斷方法。來自生物樣品的想要檢測的靶核酸可以是任何靶核酸、RNA和/或DNA。例如,mRNA禾B/或cDNA。更具體地,待檢測的靶核酸可以是病原體或非病原體。例如,它可以是至少一種病毒、至少一種細(xì)菌和/或至少一種寄生蟲的基因組或基因組片段。對于本領(lǐng)域技術(shù)人員來說,可以根據(jù)己知的任何標(biāo)準(zhǔn)技術(shù)將選擇和/或制備的探針放置、施加和/或固定在支持物上。支持物可以是不溶性支持物,例如固體支持物,尤其是微陣列和/或生物芯片。根據(jù)具體實(shí)施例,使用已建立的方法和商業(yè)試劑盒從患者樣品,例如組織、血清、鼻咽沖洗液、糞便,中提取RNA和DNA。例如,可以使用用于提取核酸的QiagenKit?;蛘?,酚/氯仿法也可以用于提取DNA和/或RNA??梢允褂帽绢I(lǐng)域已知的任何技術(shù),例如,如在Sambrook和Russel,2001中所述的技術(shù)。根據(jù)Bohlander等,1992和Wang等,2003描述的方法,使用標(biāo)記的隨機(jī)引物,將RNA逆轉(zhuǎn)錄成cDNA。cDNA隨后通過隨機(jī)PCR進(jìn)行擴(kuò)增。按照Wong等2004所述進(jìn)行樣品的片段化、標(biāo)記以及將樣品雜交至微陣列上。微陣列合成根據(jù)實(shí)施例部分所述的具體實(shí)驗(yàn),本發(fā)明的發(fā)明人選擇了代表在新加坡的病毒疾病中最常見病因的數(shù)種病毒基因組。使用從Genbank下載的全基因組序列,合成在全基因組范圍內(nèi)嵌搭并以5堿基解析度重疊的40mer探針。使用寧布勒根技術(shù)(Nuwaysir,E.F.,等,2002)在微陣列上直接合成每種病毒探針的7個(gè)復(fù)制品。探針在微陣列上隨機(jī)分布,旨在使雜交人為產(chǎn)物的影響最小化。為控制樣品對探針的非特異性雜交,設(shè)計(jì)并在微陣列上合成10,000個(gè)寡核苷酸探針。這10,000個(gè)寡核苷酸與人基因組或與病原體基因組沒有任何序列相似性。它們是具有40-60。/。CG含量的隨機(jī)探針。測量這些探針背景信號強(qiáng)度。作為陽性對照,在陣列上合成針對人基因的400個(gè)寡核苷酸探針,其中所述的人基因在免疫應(yīng)答中具有已知或推測的功能。包含植物病毒PMMV作為對總計(jì)大約380,000個(gè)探針的陰性對照。在以下描述中,本發(fā)明將參考病原體檢測芯片分析(又稱作PDC)進(jìn)行更具體地說明。然而,分析(方法)不限于這種具體實(shí)施方案,但包括在本申請的全部內(nèi)容中所述的本發(fā)明數(shù)個(gè)方面。檢測耙核酸的方法根據(jù)另一方面,本發(fā)明提供檢測至少一種靶核酸的方法,該方法包括以下步驟(i)提供生物樣品;(ii)對該生物樣品中所包含的核酸進(jìn)行擴(kuò)增;(iii)提供能夠與至少一種假定存在于生物樣品中的靶核酸雜交的至少一種寡核苷酸,其中該探針是通過使用本文中所述的本發(fā)明任何方面的方法制備的;(iv)使該探針與擴(kuò)增的核酸接觸和/或檢測與至少一種靶核酸雜交的探針。擴(kuò)增步驟(ii)可以在隨機(jī)引物、部分隨機(jī)引物(即包含固定的部分和隨機(jī)的部分)或特異性引物存在下進(jìn)行。尤其是,擴(kuò)增步驟(ii)可以在至少一種隨機(jī)引物存在下進(jìn)行。更尤其是,在至少一種隨機(jī)正向引物和/或至少一種隨機(jī)反向引物存在下進(jìn)行。例如,擴(kuò)增步驟(ii)可以在多于兩種隨機(jī)引物的存在下進(jìn)行??梢允褂帽绢I(lǐng)域已知的任何擴(kuò)增方法。例如,擴(kuò)增方法是RT-PCR。尤其是,本發(fā)明的發(fā)明人基于擴(kuò)增效率得分(AES)開發(fā)了檢測與靶核酸雜交的探針的方法。在本文中,該方法也可以稱作本發(fā)明的算法。尤其是,與靶核酸Va的位置/結(jié)合的正向隨機(jī)引物和與靶核酸^的位置j結(jié)合的反向隨機(jī)引物選自對耙核酸Va的每個(gè)位置/具有以下擴(kuò)增效率得分04£&)的引物<formula>formulaseeoriginaldocumentpage54</formula>其中<formula>formulaseeoriginaldocumentpage54</formula>,(0和^(/)是隨機(jī)引物。作為正向引物和反向引物分別與Va的位置/結(jié)合的概率,并且ZSlOOOObp是Va內(nèi)欲擴(kuò)增的區(qū)域。更尤其是,Z可以是^5000bp、sl000bp或^500bp。擴(kuò)增步驟可以包含正向引物和反向引物,并且正向引物和反向引物中的每種引物可以在5,-3,方向上包含固定的引物頭部和可變的引物尾部,并且,其中至少可變的尾部與靶核酸Va的一部分雜交。尤其是,擴(kuò)增步驟可以包含具有SEQIDNO:1-7中任意的核苷酸序列或該核苷酸序列的變體或衍生物的正向隨機(jī)引物和/或反向隨機(jī)引物。生物樣品可以采自哺乳動(dòng)物的任何樣品,例如來自人類。生物樣品可以是組織、血清、鼻咽沖洗液、唾液、任何其它體液、血液、尿、糞便等。生物樣品可以在進(jìn)行擴(kuò)增步驟前被處理以釋放生物樣品中包含的核酸。耙核酸可以是想要檢測的任何核酸。待檢測的耙核酸可以至少是對生物樣品的核酸為外源的核酸。因此,若生物樣品來自人,則待檢測的外源靶核酸(若其存在于生物樣品中)是非人源的核酸。根據(jù)本發(fā)明的方面,待檢測的靶核酸至少是病原體的基因組或基因組片段。病原體核酸可以至少是來自病毒、寄生蟲或細(xì)菌的核酸或核酸片段。因此,本發(fā)明提供檢測生物樣品中的至少一種耙核酸(若存在)的方法。該方法可以是用于檢測生物樣品中存在病原體的診斷方法。例如,若生物樣品從人類得到,且如果該生物樣品存在靶核酸,則該耙核酸為非人源的。根據(jù)本發(fā)明的任何方法所設(shè)計(jì)和/或制備的探針可以在溶液中使用或可以被放置在不溶性支持物上。例如,可以根據(jù)本領(lǐng)域己知的任何技術(shù)將探針施加到、點(diǎn)滴到或刷在不溶性支持物上。所述支持物可以是固體支持物或凝膠。尤其是,被施加探針的支持物可以是微陣列或生物芯片。隨后將探針與生物樣品的核酸接觸,并且靶核酸(若存在)與探針雜交,并且檢測靶核酸的存在。尤其是,在檢測步驟(iv)中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g^的信號強(qiáng)度的均值,則表明生物樣品中存在Va。更尤其是,在檢測步驟(iv)中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,并且該方法還包括以下步驟計(jì)算具有高信號強(qiáng)度的探針g^的比例與檢測方法中所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針Va的信號強(qiáng)度的密度分布比探針gVa的信號強(qiáng)度的密度分布更為正偏,則表明生物樣品中存在。例如,在檢測步驟(iv)中,t-檢驗(yàn)值^0.1和/或安德森-塔林檢驗(yàn)值S0.05和/或加權(quán)相對熵S1.0、優(yōu)選S.O時(shí)表示生物樣品中存在靶核酸。尤其是,t-檢驗(yàn)值S0.05。根據(jù)另一方面,本發(fā)明提供確定靶核酸Va存在的方法,該方法包括檢測探針與靶核酸Va的雜交,并且其中與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,則表明存在。尤其是,與^雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,并且該方法還包括以下步驟計(jì)算具有高信號強(qiáng)度的探針gVa的比例與檢測方法中所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針Va的信號強(qiáng)度的密度分布比探針gVa的信號強(qiáng)度的密度分布更為正偏,則表明生物樣品中存在Va。更尤其是,t-檢驗(yàn)值^0.1和域安德森-塔林檢驗(yàn)值^.05和減加權(quán)相對熵21.0、優(yōu)選25.0時(shí)表示生物樣品中存在耙核酸。例如,t-檢驗(yàn)值可以是《0.05。根據(jù)另一方面,本發(fā)明提供檢測至少一種靶核酸方法,該方法包擴(kuò)以下步驟(i)提供至少一種生物樣品;(ii)對該生物樣品中包含的核酸進(jìn)行擴(kuò)增;(iii)提供能夠與至少一種假定存在于該生物樣品中的靶核酸雜交的至少一種寡核苷酸;(iv)使該探針與擴(kuò)增的核酸接觸并且檢測與靶核酸雜交的探針,其中與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,則表明生物樣品中存在^。在步驟(iv)中,與、雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g、的信號強(qiáng)度的均值,并且該方法還包括以下步驟計(jì)算具有高信號強(qiáng)度的探針g^的比例與檢測方法內(nèi)所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針Va的信號強(qiáng)度的密度分布比探針gVa的信號強(qiáng)度的密度分布更為正偏,則表明生物樣品中存在Va。尤其是,在檢測步驟(i力中,t-檢驗(yàn)值H和/或安德森-塔林檢驗(yàn)值《0.05和/或加權(quán)相對熵21.0、優(yōu)選S.O時(shí)表示生物樣品中存在靶核酸。t-檢驗(yàn)值可以是^0.05。待檢測的靶核酸可以至少是對生物樣品的核酸為外源的核酸。待檢測的靶核酸可以至少是病原體的基因組或基因組片段。病原體核酸可以至少是來自病毒、寄生蟲或細(xì)菌的核酸或核酸片段。尤其是,當(dāng)樣品從人類得到時(shí),且該生物樣品中存在靶核酸,則該靶核酸為非人源的基因組。探針可以被放置在不溶性支持物上。支持物可以是微陣列或生物芯片。使用RSVB模板序列的測試為驗(yàn)證在病毒的不同區(qū)域所表現(xiàn)的信號強(qiáng)度上的變異是否與它們相應(yīng)的擴(kuò)增效率得分直接相關(guān),對感染人的常見病原體,人呼吸道合胞體病毒B(RSVB),上進(jìn)行總計(jì)5個(gè)微陣列實(shí)驗(yàn)。其次,將上述的探針設(shè)計(jì)標(biāo)準(zhǔn)應(yīng)用到從NCBI得到的RSVB的模板序列(NC一001781)。這產(chǎn)生了在每個(gè)陣列上點(diǎn)滴的1948個(gè)探針。在實(shí)際實(shí)驗(yàn)前還對RSVB的擴(kuò)增效率圖進(jìn)行計(jì)算并表示在圖2中。該圖表示出具有高于平均AES的AES并顯示具有更高擴(kuò)增概率的RSVB的區(qū)域的峰。使用5種含有人呼吸道合胞體病毒B(RSVB)的樣品,進(jìn)行獨(dú)立的微陣列實(shí)驗(yàn)。將每個(gè)這種實(shí)驗(yàn)得到的信號強(qiáng)度表示在圖3中。對于每一個(gè)實(shí)驗(yàn),將1948個(gè)探針的信號強(qiáng)度以遞減順序排序并與探針的對應(yīng)^ES值建立聯(lián)系。發(fā)現(xiàn)p-值平均〈.2e"6。這表明在RSVB的位置Z的探針的信號強(qiáng)度與間的相關(guān)性并不是隨機(jī)性的。進(jìn)一步研究揭示在全部5個(gè)實(shí)驗(yàn)中始終產(chǎn)生高信號強(qiáng)度的約300個(gè)探針具有第90百分位水平上的擴(kuò)增效率得分。在已經(jīng)說明所述描述的擴(kuò)增效率模型對RSVB基因組工作良好后,還需要說明的是本發(fā)明的模型可以延伸用于其它病毒基因組。對人偏肺炎病毒(HMPV)進(jìn)行另一個(gè)微陣列實(shí)驗(yàn)。此次在微陣列上存在1705個(gè)探針。再次計(jì)算對HMPV的擴(kuò)增效率圖。在本次實(shí)驗(yàn)中,信號強(qiáng)度與擴(kuò)增效率得分的相關(guān)性檢驗(yàn)產(chǎn)生1.335e力的,值。因此,本發(fā)明的擴(kuò)增效率模型能夠預(yù)測在所述的實(shí)驗(yàn)方案中由病毒基因組的不同區(qū)域所產(chǎn)生的信號的相對強(qiáng)度。來自擴(kuò)增效率得分低的區(qū)域中的探針極易于不產(chǎn)生信號強(qiáng)度或產(chǎn)生低信號強(qiáng)度。這將在微陣列上導(dǎo)致假陰性。此類探針將使微陣列數(shù)據(jù)的分析變得復(fù)雜,并且因?yàn)榈托盘枏?qiáng)度的探針可能由于其靶基因組不存在或僅由于該探針未被擴(kuò)增將使微陣列數(shù)據(jù)的分析變得更復(fù)雜。因此,應(yīng)當(dāng)選擇區(qū)域內(nèi)具有合理高的擴(kuò)增效率得分的探針,以便使由于使用隨機(jī)引物的RT-PCR方法所致的不精確性最小化。用于病毒的探針選擇的擴(kuò)增增效率得分閾值由的^五S值的累積分布函數(shù)確定。設(shè)X是代表Va的全部探針的J五S值的隨機(jī)變量。設(shè)A:是Va中探針的數(shù)目。隨后,我們指定J^S"值小于或等于x的概率是P(義^;c)-^,其中,c是具有小于或等于:c的^:S值的探針的數(shù)目。對于在Va的位置Z'的探針A.,設(shè)Xi是該探針的相應(yīng)^^S值。由于探針的信號強(qiáng)度與它的^ES值高度相關(guān),我們估計(jì)P(Alv。),即A在Va存在下具有高信號強(qiáng)度的概率,是a"a)。因此,其中。是其值小于或等于:c,.的探針的數(shù)目。對于探針選擇而言,若P(p,lvJ〉X,則選擇探針A。在本實(shí)驗(yàn)中,將X設(shè)定為人=0.8。因此,本發(fā)明還提供探針設(shè)計(jì)的方法和/或靶核酸檢測的方法,其中,若尸(a|va)>X,其中X是0.75并且P(aIO是A在Va存在下具有高信號強(qiáng)度的概率,則選擇在耙核酸va的位置/上的探針A。更尤其是,<formula>formulaseeoriginaldocumentpage58</formula>,其中義是代表Va的全部探針的擴(kuò)增增效率得分(^幻值的隨機(jī)變量,a是Va的探針的數(shù)目并且。是其值小于或等于a的探針的數(shù)目。靶核酸檢測分析在以下描述中,將參考病原體檢測芯片分析(又稱作PDC)更具體地說明本發(fā)明。然而,分析(方法)不局限于這種具體實(shí)施方案,但包括在本申請全部內(nèi)容中所述的本發(fā)明的數(shù)個(gè)方面。因此,尤其是,假定使用一套長度為m的探針尸={^,/72,W的PDC,其中所述探針設(shè)計(jì)用于一套病毒基因組&{",v},則病原體檢測芯片分析問題將是根據(jù)芯片數(shù)據(jù)檢測樣品中存在的病毒。這里的芯片數(shù)據(jù)是指由PDC上的探針信號提供的綜合信息。因此,芯片數(shù)據(jù)D=W,4,…,4}是PDC上的探針組尸的對應(yīng)信號組。給定一種樣品,不知道何種病原體存在該樣品中,存在多少種不同病原體(如果確實(shí)存在)。然而如果病毒Va確實(shí)存在于樣品內(nèi),則Va的探針的信號強(qiáng)度應(yīng)當(dāng)與來自其它病毒的探針的信號強(qiáng)度明顯不同。具體而言,與其它病毒相比,更高比例的Va的探針應(yīng)當(dāng)具有高信號強(qiáng)度。因此,可以預(yù)測Va的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上應(yīng)當(dāng)高于探針gVa的信號強(qiáng)度的均值。因此,本發(fā)明提供與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g^的信號強(qiáng)度的均值從而可能表示生物樣品中存在Va的方法。然而,具有統(tǒng)計(jì)學(xué)上更高的均值仍可能不足以得出Va存在于樣品中的結(jié)論。優(yōu)選地,可能需要額外的步驟。我們需要計(jì)算具有高信號強(qiáng)度的探針gVa的比例與檢測方法內(nèi)所用的具有高信號強(qiáng)度的探針的比例的相對差異。這是根據(jù)觀察到探針eVa的信號強(qiáng)度的密度分布比探針gVa的信號強(qiáng)度的密度分布更為正偏的現(xiàn)象(見圖4A中的箭頭。為了比較,見圖4B)。基于以上觀察,對病毒存在的芯片數(shù)據(jù)D按照以下分析。對于每種病毒vaeV,我們使用單尾T檢驗(yàn)(Goulden,CH.,1956)來確定探針eva的信號強(qiáng)度的均值是否在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值。因此,計(jì)算t-統(tǒng)計(jì)量<formula>formulaseeoriginaldocumentpage60</formula>其中A、^和分別是探針SVa的信號強(qiáng)度的均值、方差和大小并且^,、<和"。.分別是探針^的信號強(qiáng)度的均值、方差和大小。為檢驗(yàn)差異的顯著性,將顯著性水平設(shè)定為0.05。這意指當(dāng)Z。的;-值<0.05,才可接受探針eVa的信號強(qiáng)度的均值高于探針g、的信號強(qiáng)度的均值的假定。在此情況下,Va有可能存在于樣品內(nèi)。單憑使本發(fā)明人知道病毒的信號強(qiáng)度分布是否不同于其它病毒的信號強(qiáng)度分布的t-檢驗(yàn)可能不足以確定特定的病毒是否存在于樣品內(nèi)。還必須知道兩種分布相似或不同到何種程度。可以用來測量真實(shí)分布與模型分布之間相似性的度量是相對熵(Kullback-Leiber,KL)(Kullback和Leiber,1951)。在本申請中,Va中的探針的信號強(qiáng)度的概率分布是真實(shí)分布,而P中全部探針的信號強(qiáng)度的概率分布是模型分布。設(shè)戶。是Va中的探針組。戶。和P的信號強(qiáng)度的概率分布的相對熵是<formula>formulaseeoriginaldocumentpage60</formula>其中P是戶內(nèi)的探針的信號強(qiáng)度的均值;/"X)是尸。內(nèi)的具有信號強(qiáng)度義的探針的分?jǐn)?shù);并且/(x)是P內(nèi)的具有信號強(qiáng)度;c的探針的分?jǐn)?shù)。接著,若虹(尸。||尸)=0,則尸。的概率分布與戶的概率分布完全相同。否則,它們不相同。由于樣品內(nèi)存在的病毒具有高于群體信號強(qiáng)度的信號強(qiáng)度,這表明若虹(尸。||尸)>0,則Va有可能存在于樣品內(nèi)。因此,XL值CP。II。越大,兩種概率分布差異越大并且Va確實(shí)存在于樣品內(nèi)的可能性越高。值得注意的是,相對熵是在兩種概率分布的全部JC范圍內(nèi)的整體差異(collectivedifference)。因此,盡管相對熵擅長找到概率分布內(nèi)的漂移,但它并非總是善于找到對概率分布的尾部影響更大的發(fā)散。如圖4(A,B)所述,概率分布的尾部提供病毒是否存在于樣品中的最多信息。因此,相對熵統(tǒng)計(jì)量必須進(jìn)行改良以更精確地反映此類觀察。為提高相對熵在尾部上的靈敏性,我們向相對熵中引入穩(wěn)定化或加權(quán)的統(tǒng)計(jì)量即安德森-塔林統(tǒng)計(jì)量(Stephens,M.A.(1974).EDFStatisticsforGoodnessofFitandSomeComparisons,JournaloftheAmericanStatisticalAssociation,第69巻,第730-737頁)。因此加權(quán)相對熵是<formula>formulaseeoriginaldocumentpage61</formula>其中Q(x)是戶內(nèi)探針的信號強(qiáng)度的累積分布函數(shù)。實(shí)驗(yàn)檢測表明在不存在病毒的樣品中,通過顯著水平0.05的t-檢驗(yàn)的病毒具有『虹<5.0。在確實(shí)存在病毒的樣品中,實(shí)際病毒不僅通過顯著水平0.05的t-檢驗(yàn),而且正是具有『虹25.0的病毒。因此,我們對存在于樣品內(nèi)的病毒設(shè)定加權(quán)相對熵閾值為5.0。該分析流程圖如圖5所示。實(shí)施本發(fā)明方法的裝置和/或產(chǎn)品對本領(lǐng)域技術(shù)人員來說,如何配置可以實(shí)施本發(fā)明所提供的算法和/或方法的軟件是熟知的。因此,本發(fā)明還提供被配置成實(shí)施根據(jù)本發(fā)明任何實(shí)施方案的算法和/或方法的軟件和/或計(jì)算機(jī)程序產(chǎn)品。還提供至少一種電子存儲(chǔ)介質(zhì)。電子存儲(chǔ)介質(zhì)可以是計(jì)算機(jī)硬盤驅(qū)動(dòng)器、光盤驅(qū)動(dòng)器(CD-ROM)、閃存裝置(例如,通用串行總線(USB)拇指驅(qū)動(dòng)器(thumbdrive))、軟盤或本領(lǐng)域內(nèi)任何其它電子存儲(chǔ)介質(zhì)。軟件可以在個(gè)人計(jì)算機(jī)、電腦主機(jī)和任何計(jì)算處理單元上運(yùn)行,并且具體的配置是本領(lǐng)域技術(shù)人員公知的。應(yīng)當(dāng)理解的是僅通過舉例的方式描述了本發(fā)明,在設(shè)計(jì)中可以進(jìn)行各種修改并不違背本發(fā)明的宗旨和范圍。在對本發(fā)明進(jìn)行概括地描述后,將通過參考以下以說明方式提供的實(shí)施例使本發(fā)明更容易理解,但這并不是用來限制本發(fā)明的。實(shí)施例本領(lǐng)域內(nèi)已知并且未進(jìn)行具體描述的標(biāo)準(zhǔn)分子生物學(xué)技術(shù)通常遵循如Sambrook禾卩Russel,MolecularCloning:ALaboratoryManual,ColdSpringsHarborLaboratory,NewYork(2001)中所述的內(nèi)容。微陣列合成我們選擇代表在新加坡病毒疾病的最常見病因的35種病毒基因組(見上表l)。全基因組序列從NCBI分類學(xué)數(shù)據(jù)庫(NCBITaxonomyDatabase)(http:〃www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/)下載以產(chǎn)生在全基因組范圍內(nèi)嵌搭的并以平均8堿基解析度重疊的40mer探針序列。使用Nimblegen專利技術(shù)(Nuwaysir,E.F.,等,2002)在微陣列上直接合成每種病毒探針的7個(gè)復(fù)制品。探針在微陣列上隨機(jī)分布,旨在使雜交人為產(chǎn)物的影響最小化。為控制樣品對探針的非特異性雜交并測量背景信號,設(shè)計(jì)并在微陣列上合成10,000個(gè)寡核苷酸探針。它們是具有40-60%CG含量的與人基因組或與病原體基因組無序列相似性的隨機(jī)探針。作為陽性對照,在陣列上合成針對人基因的400個(gè)寡核苷酸探針,其中所述的人基因在免疫應(yīng)答中具有已知或推測的功能。包含植物病毒PMMV作為對總計(jì)390,482個(gè)探針的陰性對照。樣品制備、微陣列雜交和染色登革病毒細(xì)胞系(ATCC^VR-1254)根據(jù)ATCC推薦進(jìn)行培養(yǎng),而Sin850SARS細(xì)胞系如Vega等(Vega等2004)所述進(jìn)行培養(yǎng)。臨床標(biāo)本(鼻咽沖洗液)從印度尼西亞小兒群體中得到并儲(chǔ)存在-80。C的RNAzol中(LeedoMedicalLaboratories,Inc.,Friendswood,TX)。全部疑似肺炎患者的年齡在7至38月齡間,表現(xiàn)呼吸道疾病的特異性臨床征狀。RNA用RNAzol根據(jù)制造商說明書進(jìn)行提取(Smalling等2002;Tang等1999)。提取的RNA重懸于RNA貯藏液(Ambion,USA)中并在-80。C儲(chǔ)存直至需要。根據(jù)Bohlander等和Wang等(Wang等2002;Bohlander等1992)描述的方法,使用標(biāo)記的隨機(jī)引物將RNA逆轉(zhuǎn)錄成cDNA。隨后,cDNA如前所述(Wong等2002)通過隨機(jī)PCR進(jìn)行擴(kuò)增、片段化、用生物素標(biāo)記末端、雜交至微陣列上以及染色。在初始實(shí)驗(yàn)中,我們發(fā)現(xiàn)探針的GC含量可能在信號強(qiáng)度檢測中產(chǎn)生人為現(xiàn)象,即信號的增加直接與探針的GC含量成正比。添加0.82M氯化四甲基銨(TMAC)至Nimblegen的專利TMAC雜交緩沖液內(nèi)則消除這種人為現(xiàn)象。用于RSV和hMPV的實(shí)時(shí)診斷性RT-PCR20jlU反應(yīng)混合物含有2)il純化的患者RNA,5UMuLV逆轉(zhuǎn)錄酶,8U重組RNA酶抑制劑,lO^il無UNG的2X通用PCR主混合物(均來自AppliedBiosystems),0.9引物和0.2探針。實(shí)時(shí)RT-PCR在ABIPrism7900HTSequenceDetectionSystem(AppliedBiosystems)中進(jìn)行。RT在48。C進(jìn)行30分鐘,隨后為激活DNA聚合酶,在95。C維持10分鐘。RT產(chǎn)物的擴(kuò)增通過95°C保持15秒并在60°C保持1分鐘的40個(gè)循環(huán)實(shí)現(xiàn)。每個(gè)PCR測定法內(nèi)包括陰性對照和質(zhì)??寺〉南盗邢♂屛?陽性對照)。擴(kuò)增期間,在每個(gè)熱循環(huán)上監(jiān)測熒光發(fā)射。閾值(CT)代表首次檢測到明顯熒光的循環(huán)。使用濃度已知的對照質(zhì)粒,將CT值轉(zhuǎn)換成拷貝數(shù)。對于RSV,2.61x109個(gè)拷貝具有CT值為11.897,而對于hMPV,7.51xl()9個(gè)拷貝具有CT值為10.51。用于冠狀病毒和鼻病毒的l-步診斷性RT-PCR人冠狀病毒OC43、229E和鼻病毒16的冷凍活培養(yǎng)物從ATCC(貨號VR-1558、VR-740、VR-283)購買,用作陽性對照。使用RNAMiniKit(Qiagen,Germany)根據(jù)制造商說明書從這些培養(yǎng)物中提取RNA。使用以下診斷性引物對泛冠狀病毒(Cor-FW,Cor-RV),OC43(OC43-FW,OC43-RV),229E(229E-FW,229E-RV),鼻病毒(擴(kuò)增引物l(Amplimer1),擴(kuò)增引物2(Amplimer2))(Mogs等2005;Deffernez等2004),如前所述擴(kuò)增樣品。病原體微陣列數(shù)據(jù)的分析我們的病原體微陣列含有一套40mer探針i^{^,;2,…,pj,分組為針對35種病毒基因組K=v2,...,"5}的明顯不同的探針雜交標(biāo)簽。在雜交病原體核酸時(shí),產(chǎn)生與探針組尸對應(yīng)的一組探測信號強(qiáng)度數(shù)據(jù)"="2,...,4}。單尾T檢驗(yàn)若病毒Va存在,則包含病毒的雜交標(biāo)簽的探針(探針eVa)應(yīng)當(dāng)在統(tǒng)計(jì)學(xué)上具有比探針gVa更高的由以下t-統(tǒng)計(jì)量(單尾T檢驗(yàn))所確定的信號強(qiáng)度其中A、<和"。分別是探針eva的信號強(qiáng)度的均值、方差和大小并且&、CT〗,和"。,分別是探針gVa的信號強(qiáng)度的均值、方差和大小。將顯著性水平設(shè)定成0.05。這意味當(dāng)^的/H1〈0.05,我們才會(huì)接受探針SVa的信號強(qiáng)度的均值高于探針SVa的信號強(qiáng)度的均值的假定。在此情況下,、有可能存在于樣品內(nèi)。然而,檢測的T-檢驗(yàn)法產(chǎn)生了許多假陽性信號<formula>formulaseeoriginaldocumentpage65</formula>PDAv.l包含一系列統(tǒng)計(jì)檢驗(yàn),始于加權(quán)相對熵檢驗(yàn)和Z-得分轉(zhuǎn)換(WKL得分),隨后是用于正態(tài)性的安德森-塔林檢驗(yàn)。假定病毒為va。設(shè)尸。是病毒的探針組并且^=P-尸。。設(shè)[r低,r高]是信號強(qiáng)度范圍。我們將信號強(qiáng)度對j=0,1,c-l分成c個(gè)組^cj""八c。未改良的加權(quán)相對熵可以由下式計(jì)算_/=0々、"其中W和"f分別是包含于組~內(nèi)的在尸。內(nèi)探針的數(shù)目和在5內(nèi)探針<formula>formulaseeoriginaldocumentpage65</formula>的數(shù)目。/力')=7^—是在組~中所找到尸。內(nèi)探針的分?jǐn)?shù);和《(力二ra是在組^中所找到A內(nèi)探針的分?jǐn)?shù)。為比較概率分布的尾部的信號差異,我們設(shè)定"低=^,.即《內(nèi)探針的平均信號強(qiáng)度,并且r胃-最大信號強(qiáng)度。我們設(shè)定組的默認(rèn)數(shù)目c=20。為進(jìn)一步穩(wěn)定和/或增加相對熵在概率分布的尾部上的靈敏性,做了兩處改良。首先,我們將安德森-塔林型加權(quán)函數(shù)導(dǎo)入相對熵。這賦予分布的尾部比分布的中間部分更多的權(quán)重。其次,我們對這兩種相應(yīng)的累積分布函數(shù)使用統(tǒng)計(jì)量代替它們的概率密度函數(shù)。我們將改良的相對熵稱作加權(quán)相對熵(附^得分)<formula>formulaseeoriginaldocumentpage66</formula>其中a(力是在組bj中找到Pa內(nèi)的探針的信號強(qiáng)度的累積分布函數(shù);是在組bj中所找到P。內(nèi)的探針的信號強(qiáng)度的累積分布函數(shù)。因此,對于每種雜交的樣品,我們計(jì)算每種病毒vaeV的『虹得分。其次,我們斷言若樣品內(nèi)不存在病毒,則全部病毒vaeV的WKL得分的分布大致是正態(tài)性的。我們通過引導(dǎo)方法(bootstrapingprocess)實(shí)驗(yàn)性驗(yàn)證了我們的斷言是否正確設(shè)"是V內(nèi)病毒的數(shù)目。對于每種病毒VkGV,其中h1,...,",我們從真實(shí)數(shù)據(jù)組D中選擇lvkl探針信號強(qiáng)度hcl以隨機(jī)替換方式形成vk的"擾動(dòng)性"信號強(qiáng)度分布。這種分布可以模擬病毒v&不存在于樣品D中的情況。此后,產(chǎn)生對"個(gè)病毒組的"個(gè)『虹得分。其次,我們通過對正態(tài)性在95%置信度區(qū)間的安德森-塔林檢驗(yàn)核對"個(gè)WKL得分是否服從正態(tài)分布。重復(fù)引導(dǎo)方法100,000次。在大于99。/。的次數(shù)中發(fā)現(xiàn)分布是正態(tài)性的(注意由于在我們的微陣列上代表35種病毒基因組,故"=35)。根據(jù)以上討論,我們通過建立以下無假設(shè)和擇一假設(shè)可以測試樣品是否含有病毒Ho:『XL得分的分布是正態(tài)性的,即病毒不存在于樣品內(nèi)?!汉绲梅值姆植疾皇钦龖B(tài)性的,即至少1個(gè)病毒存在于樣品內(nèi)。H1:定義將安德森-塔林檢驗(yàn)定義為HQ:數(shù)據(jù)服從特定的分布。Ha:數(shù)據(jù)不服從特定的分布。檢驗(yàn)統(tǒng)計(jì)量將安德森-塔林檢驗(yàn)統(tǒng)計(jì)量定義為其中<formula>formulaseeoriginaldocumentpage67</formula>F是特定分布的累積分布函數(shù)。注意K是有序數(shù)據(jù)。顯著水平fl臨界區(qū)安德森-塔林檢驗(yàn)的臨界值取決于被檢驗(yàn)的具體分布。用表格表示的值和公式已經(jīng)發(fā)表(Stephens,1974,1976,1977,1979)用于幾種特定分布(正態(tài)分布、對數(shù)正態(tài)分布、指數(shù)分布、Weibull、對數(shù)分布、1型極值分布)。檢驗(yàn)是單側(cè)檢驗(yàn)并且若檢驗(yàn)統(tǒng)計(jì)量A大于臨界值,則分布具有特定形式的假設(shè)被放棄。我們開始應(yīng)用安德森-塔林檢驗(yàn)驗(yàn)證『虹得分的分布的正態(tài)性以放棄具有95。/。置信度區(qū)間的H。。若『虹得分的分布不是正態(tài)性的,則我們排除具有異常(outlying)W虹得分的病毒,并再次應(yīng)用安德森-塔林檢驗(yàn)。重復(fù)該過程(以鑒定共感染性病原體的存在)直到接受H。為止。我們指定接受H。時(shí)的『虹得分的分布是背景『紅分布。因此,被排除的病毒很有可能存在于樣品中,因?yàn)樗鼈兊摹篫L得分不服從背景『虹分布。在我們的實(shí)驗(yàn)中,觀察到含有病毒的樣品內(nèi)的P,即非正態(tài)分布因隨機(jī)偶然性對給定WKL得分發(fā)生的概率,是極低的,S卩P〈1.0xlO、通過WKL得分的Z-得分轉(zhuǎn)換而得到)。表1顯示用于我們的病毒檢測算法的偽碼。表l:病毒檢測算法給予病毒組V和探針組尸病原體微陣列數(shù)據(jù)Z)設(shè)V存在-F設(shè)D駆是對全部veV的II巧)組;1.以安德森-塔林檢驗(yàn)來驗(yàn)證正態(tài)性以確定ZV^的正態(tài)性。若iVn具有顯著水平0.05的正態(tài)分布,返回V存在。否則,進(jìn)入步驟2。2.從Di中找到具有最高『紅(P。IIA,)的病毒va。設(shè)V存在=廠存在^{};"隱="抓丄—{『虹(戶。li尸"'));進(jìn)入步驟l。3.剔除檢測到的SPS并驗(yàn)證WKL分布是正態(tài)性的。4.若該分布不是正態(tài)性的,返回步驟2以找到共感染性病原體。預(yù)測全基因組的擴(kuò)增偏倚為鑒定臨床標(biāo)本內(nèi)的未知病原體,優(yōu)選采用隨機(jī)引物擴(kuò)增,而不是引物特異性擴(kuò)增。然而,在使用隨機(jī)引發(fā)擴(kuò)增來鑒定已知病原體的初始實(shí)驗(yàn)中,我們經(jīng)常觀察到通過序列多態(tài)性無法解釋的遍及基因組區(qū)域的不完全雜交(圖7C)?;蚪M二級結(jié)構(gòu)、探針二級結(jié)構(gòu)和探針GC含量也無法解釋這些低信號強(qiáng)度的探針。因此,我們假設(shè)不完全雜交可能歸因于PCR偏倚,其中所述的PCR偏倚來源于隨機(jī)引物在逆轉(zhuǎn)錄(RT)步驟中與病毒基因組結(jié)合的差異性能力。我們實(shí)驗(yàn)中所用的隨機(jī)引物是26mer,其包含以固定的17mer序列(5,-GTTTCCCAGTCACGATA)(SEQIDNO:l)為標(biāo)簽的隨機(jī)九聚物(3')(仍見圖1),其中固定的5,標(biāo)簽的目的是為了促進(jìn)RT產(chǎn)物的PCR,產(chǎn)生小于10000bp的PCR片段,尤其是500-1000bpPCR片段(Pang等2005;Wang等2002;Wang等2003)。為研究此現(xiàn)象,我們設(shè)計(jì)一種算法(AES)使用實(shí)驗(yàn)數(shù)據(jù)以模擬RT-PCR方法。成功的RT-PCR取決于引物與模板的結(jié)合。已知引物內(nèi)二級結(jié)構(gòu)的形成,如兩個(gè)模板間形成的二聚體和發(fā)夾,引物內(nèi)二級結(jié)構(gòu)的形成,如標(biāo)簽與九聚體間形成的二聚體和發(fā)夾,及探針的解鏈溫度影響結(jié)合效率(Nguyen和Southern,2000;Ratushna等2005)。假設(shè)隨機(jī)引物混合物內(nèi)的九聚體與病毒基因組序列完美互補(bǔ),則該算法確定可以從基因組內(nèi)每個(gè)可能的起始位置中產(chǎn)生500-1000bp產(chǎn)物的概率。因此,對于1000堿基的滑動(dòng)窗口內(nèi)的每個(gè)核苷酸而言,該核苷酸成功地被擴(kuò)增的概率在它的擴(kuò)增效率得分(AES;見上文"擴(kuò)增效率得分")中被反映出來。為證實(shí)算法的有效性,我們將針對RSV基因組的全部1,948個(gè)SPS探針的雜交信號強(qiáng)度分級,并將SPS探針的雜交信號強(qiáng)度與SPS探針的AES值比較。在整個(gè)RSV基因組范圍內(nèi),我們觀察到AES與雜交信號強(qiáng)度充分相關(guān)(Fisher's精確概率法檢驗(yàn)P=2.2xl(T16),這表明AES與探針檢測間的強(qiáng)相關(guān)性(圖12)。另一個(gè)使用針對偏肺炎病毒的1,705個(gè)SPS探針的比較顯示了類似結(jié)果,P=1.3xl(T9。圖10表示了AES在預(yù)測臨床樣品內(nèi)的SPS探針檢測中的重要性。值得注意的是,我們觀察到更高的AES值與更高比例的可檢測探針相關(guān),尤其是AES值的最高的20%。因此,盡管HD、MCM、%GC及序列獨(dú)特性是探針性能重要的參數(shù),然而它們沒有考慮PCR偏倚,因此在缺少AES下考慮時(shí),它們不能充分預(yù)測探針性能。在選擇病原體SPS中使用最高的第20百分位的AES作為第一篩選程序明顯地改進(jìn)了病原體的預(yù)測,這由更高WKL得分和消除假陽性信號證明(表3)。表3:僅使用平均探針信號強(qiáng)度檢測病原體(T-檢驗(yàn))產(chǎn)生大量的假陽性信號。優(yōu)化的雜交標(biāo)簽和與人基因組交叉雜交的探針的剔除(篩選)減少了假陽性信號,但是這對檢測精確性仍是不充分的。使用完整的未篩選的探針組,PDAv.l能夠作出準(zhǔn)確診斷。若WKL得分〉5,貝'」"檢測"到病毒。使用優(yōu)化的雜交標(biāo)簽(篩選)增加了WKL得分,這與診斷置信度提高相對應(yīng)。病毒CT值檢測到病毒時(shí)的實(shí)時(shí)PCR循環(huán)(見上文)。<table>tableseeoriginaldocumentpage70</column></row><table><table>tableseeoriginaldocumentpage71</column></row><table><table>tableseeoriginaldocumentpage72</column></row><table>*LRTI:下呼吸道感染AES的重要性表明擴(kuò)增效率和隨后的探針檢測可以通過使用優(yōu)化的RT-PCR引物標(biāo)簽被改善。因此,我們使用隨機(jī)生成的17mer標(biāo)簽序列計(jì)算AES得分,并選擇前三位差異最大的導(dǎo)致最全面地增加AES得分的引物(圖13)。使用AES優(yōu)化的引物,我們從臨床樣品中擴(kuò)增了偏肺炎病毒和RSV,具有改良的PCR效率和檢測靈敏性(圖14,表5)。表5:用患者樣品#412和#122比較E-Predict與PDAv.l算法。陣列35179使用在結(jié)果中所述的原始PCR引物進(jìn)行擴(kuò)增。陣列36731和35887使用引物A2進(jìn)行擴(kuò)增,陣列35890使用兩種引物A2和A3進(jìn)行擴(kuò)增。PDAv.l在所有情況下都只反饋了正確的病原體。E-Predict的作者使用PO.01作為其平臺(tái)的顯著性界限值(Urisman等2005)。若使用該算法來分析我們的陣列數(shù)據(jù),則似乎需要更低界限值。使用兩種算法(陣列35179與35887)中的任何一種算法,由PCR建模所設(shè)計(jì)的新引物均產(chǎn)生更好的預(yù)測得分。在PCR過程期間使用了第二種引物在WKL得分和P-值方面表現(xiàn)出增加的改良(陣列36731與35890)。<table>tableseeoriginaldocumentpage73</column></row><table><table>tableseeoriginaldocumentpage74</column></row><table><table>tableseeoriginaldocumentpage75</column></row><table>PDAv.l-用于檢測病原體的算法對基因組擴(kuò)增而言,臨床標(biāo)本往往是次優(yōu)的它們可能具有低病毒滴度,具有與陣列上參考株不同的序列多態(tài)性,或具有共感染性病原體。微陣列還具有來自非特異性雜交和其它人為產(chǎn)物的固有噪音。因此,解讀微陣列數(shù)據(jù)不僅僅是使探測信號強(qiáng)度曲線與SPS匹配,或使用簡單的統(tǒng)計(jì)方法(例如,T-檢驗(yàn),ANOVA等)。為解決此問題,我們建立了加強(qiáng)的統(tǒng)計(jì)軟件PDAv.l,相對于計(jì)算機(jī)模擬預(yù)測的SPS,該軟件分析探針信號強(qiáng)度的分布來鑒定在雜交的樣品內(nèi)存在的病原體(見上文)?;谖覀兊挠^察,即盡管對陣列上全部探針的信號強(qiáng)度處于正態(tài)分布,然而包含存在于樣品內(nèi)的病原體SPS的大部分探針具有非常強(qiáng)烈的產(chǎn)生向右偏斜的分布信號強(qiáng)度;我們推斷通過分析探針信號強(qiáng)度的分布可能檢測到病原體的存在(圖9A)。檢驗(yàn)每個(gè)SPS的信號強(qiáng)度分布的尾部還能夠使我們鑒定樣品內(nèi)共感染性病原體的存在。因此,PDAv.l包含2個(gè)部分(l)用于評估每種病原體SPS內(nèi)探針的探針信號強(qiáng)度的增強(qiáng)的加權(quán)相對熵(WKL;我們的增強(qiáng)相對熵檢驗(yàn)),和(2)用于確定每種SPS的WKL得分的分布是否是正態(tài)的安德森-塔林檢驗(yàn)。原來的相對熵不能可靠地確定概率分布尾部內(nèi)的差異,并且高度依賴探針/基因組的數(shù)目及每個(gè)信號強(qiáng)度組的大小(Kullback和Leibler,1951)。我們通過以下方式克服這些缺陷,即通過引入安德森-塔林統(tǒng)計(jì)量以給予每個(gè)分布的尾部更大權(quán)重,和通過使用累積分布函數(shù)替代原有的概率分布(Anderson和Darling,1952)。我們稱增強(qiáng)的KL發(fā)散度為加權(quán)相對熵(WKL):<formula>formulaseeoriginaldocumentpage76</formula>w,s、yV柳Ll-柳」其中ac/)是在組^中找到P。內(nèi)的探針的信號強(qiáng)度的累積分布函數(shù);《(7')是在組^中所找到P。內(nèi)的探針的信號強(qiáng)度的累積分布函數(shù)。代表無病原體的SPS應(yīng)當(dāng)具有正態(tài)的信號強(qiáng)度分布并且因此具有相對低的WKL得分,而代表有病原體的那些SPS應(yīng)當(dāng)具有高的統(tǒng)計(jì)學(xué)顯著的異常WKL得分(圖9B)。在PDAv.l的第二部分中,使WKL得分的分布接受安德森-塔林檢驗(yàn)處理以評價(jià)正態(tài)性。若P<0.05,認(rèn)為WKL分布不是正態(tài)的,表明具有異常WKL得分的病原體存在。鑒定病原體時(shí),在缺少病原體的WKL得分下進(jìn)行獨(dú)立的安德森-塔林檢驗(yàn)以檢測共感染性病原體的存在。以這種方式,反復(fù)進(jìn)行該過程直至僅剩下正態(tài)分布(即P>0.05;見上表3和表4)。PDAv.l是極其迅速的,能夠在約IO秒內(nèi)從雜交的微陣列中作出診斷。對33份臨床患者樣品的病原體診斷根據(jù)圖11中所示的工作流程,我們通過將33份臨床標(biāo)本雜交至病原體微陣列平臺(tái)上評估我們的平臺(tái)。這些臨床標(biāo)本中的27份標(biāo)本先前已經(jīng)被診斷為感染RSVA、RSVB或偏肺炎病毒。我們的平臺(tái)從21/27樣品中精確地檢測到病原體。沒有檢測到病毒(假陰性)的6份樣品處在通過實(shí)時(shí)PCR(<10個(gè)病毒拷貝/反應(yīng))所確定的檢測界限值上,并且如此低的病毒負(fù)荷不可能成為導(dǎo)致患者嚴(yán)重疾病的病因?qū)W病原。這6份樣品中的2份由微陣列正確地診斷為感染鼻病毒。在另一個(gè)因未知病原體所致的嚴(yán)重呼吸道疾病的6位患者的篩查中,微陣列鑒定出在一份樣品中存在病因?qū)W病原(鼻病毒)(上表4)。這些結(jié)果通過實(shí)時(shí)PCR進(jìn)行驗(yàn)證。如所預(yù)期,當(dāng)我們雜交從無病毒病因?qū)W的肺炎患者中提取的樣品時(shí),未檢測到任何病原體。數(shù)據(jù)分析使用Axon4000b掃描儀和Genepix4軟件(AxonInstruments)以5|am解析度掃描微陣列。使用Nimblescan2.1軟件(NimbleGenSystems)提取信號強(qiáng)度,使用自動(dòng)化腳本,我們從每個(gè)探針的7個(gè)復(fù)制品中計(jì)算出中等信號強(qiáng)度(以消除雜交人為產(chǎn)物)和標(biāo)準(zhǔn)差。探針信號強(qiáng)度根據(jù)基因組進(jìn)行分組并按序列順序排列,隨后再格式化成CDT格式,以便在JavaTreeview(http:/'/;jtreeview.sourceforge.net)中以圖形方式觀察使信號強(qiáng)度。平行地;使用PDAv.l分析探針的中等信號強(qiáng)度來確定哪種病原體存在和相關(guān)的預(yù)測置信度水平。本發(fā)明的發(fā)明人通過實(shí)驗(yàn)來證實(shí)探針設(shè)計(jì)對實(shí)驗(yàn)結(jié)果的影響并隨后顯示本發(fā)明分析算法魯棒性。探針設(shè)計(jì)對實(shí)驗(yàn)結(jié)果的影響將含有來自35種病毒的53555個(gè)40mer探針的PDC用于4個(gè)獨(dú)立的微陣列實(shí)驗(yàn)。這53555個(gè)探針是根據(jù)每種病毒的5-bp嵌搭(tiling)進(jìn)行選擇的并且不經(jīng)過我們的任何探針設(shè)計(jì)標(biāo)準(zhǔn)處理。因此,我們預(yù)期因CG含量、交叉雜交和低效率擴(kuò)增所產(chǎn)生的錯(cuò)誤顯著多于設(shè)計(jì)良好的探針的PDC的錯(cuò)誤。我們將4個(gè)實(shí)驗(yàn)處于這種不利的環(huán)境下測試我們的分析算法。在該實(shí)施例中,具有未知病原體的人樣品使用隨機(jī)探針通過RT-PCR方法進(jìn)行擴(kuò)增并隨后雜交至PDC上。我們使PDC上35種病毒中每種病毒的探針接受顯著水平0.05的單尾T-檢驗(yàn),并計(jì)算探針的信號強(qiáng)度相對于芯片上全部探針的信號強(qiáng)度的加權(quán)相對熵,以對每一個(gè)實(shí)驗(yàn)確定哪種病毒存在于樣品內(nèi)。證實(shí)我們程序的分析精確性是通過增壓艙(wet-lab)PCR以鑒定樣品內(nèi)的實(shí)際病毒實(shí)現(xiàn)。在表6中我們提供了對表6內(nèi)4個(gè)實(shí)驗(yàn)的分析結(jié)果以及它們相應(yīng)的PCR驗(yàn)證結(jié)果。表6:對未應(yīng)用探針設(shè)計(jì)標(biāo)準(zhǔn)的PDC進(jìn)行分析產(chǎn)生的結(jié)果。由我們的分析算法確定是樣品中實(shí)際病毒的病毒用淺灰顏色標(biāo)出,其中所述的樣品對每個(gè)實(shí)驗(yàn)進(jìn)行測試的。<table>tableseeoriginaldocumentpage78</column></row><table><table>tableseeoriginaldocumentpage79</column></row><table>it文病A("tNCOO簡.l(RSV一)NC004148.2(HM一PV)NC00178.1(RS一v)無這些結(jié)身!表明該分析算法精確推斷出前3個(gè)實(shí)驗(yàn)中的所測試樣品內(nèi)的實(shí)際病毒(結(jié)果示表示在上表6內(nèi))。此外,我們能夠推斷在最后一個(gè)實(shí)驗(yàn)中的樣品無病毒。值得注意的是若我們僅使用顯著性水平0.05的t-檢驗(yàn),則在下表7中表示出對每份樣品中檢測存在的病毒的數(shù)目。表7:僅使用t-檢驗(yàn)推斷出的病毒的假陽性檢測樣品名稱35259_32435179—12235253—84135915—111使用T-檢驗(yàn)所檢測的病毒914910假陽性813810最大KL發(fā)散度(>5.0)16.3915.7610.85-使用T-檢驗(yàn)隨后用KL發(fā)散度所1110檢測的病毒對通過t-檢驗(yàn)的病毒使用加權(quán)相對熵,我們能夠剔除全部假陽性病毒并鑒定實(shí)際病毒。因此,我們的分析算法可以在高水平噪音下穩(wěn)定地確定病毒。然后,我們研究使用具有探針設(shè)計(jì)標(biāo)準(zhǔn)的PDC對我們的分析結(jié)果帶來的影響。首先,對35種病毒的每種病毒計(jì)算擴(kuò)增效率圖。隨后,使原始PDC上的實(shí)際53555個(gè)探針經(jīng)受探針設(shè)計(jì)標(biāo)準(zhǔn)處理。從芯片中剔除具有極端水平CG含量、與人和非靶病毒相似性高和擴(kuò)增效率得分低的探針。為第二組實(shí)驗(yàn)留下總計(jì)10955個(gè)探針。使用在第一組實(shí)驗(yàn)內(nèi)所用的樣品,我們用新芯片重復(fù)下表8內(nèi)的4個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果列在表8中。表8:對應(yīng)用探針設(shè)計(jì)標(biāo)準(zhǔn)的PDC分析產(chǎn)生的結(jié)果。由我們的分析算法<table>tableseeoriginaldocumentpage81</column></row><table><table>tableseeoriginaldocumentpage82</column></row><table>無在以下的實(shí)驗(yàn)組中,分析算法正確地檢測到3份樣品內(nèi)的實(shí)際病毒并且還檢測出陰性樣品。在為我們的芯片設(shè)計(jì)優(yōu)異的探針后,實(shí)驗(yàn)l、2和3內(nèi)實(shí)際病毒的加權(quán)相對熵大于無探針設(shè)計(jì)的相應(yīng)實(shí)驗(yàn)的實(shí)際病毒的加權(quán)相對熵。這意味來自實(shí)際病毒的信號強(qiáng)度比PDC內(nèi)的背景噪音相對更高。這證實(shí)我們的探針設(shè)計(jì)標(biāo)準(zhǔn)已經(jīng)從PDC中剔除一些不良探針,這產(chǎn)生更精確的分析。若我們僅使用顯著性水平0.05的T-檢驗(yàn),我們再一次將4個(gè)實(shí)驗(yàn)的結(jié)果列在下表9中。此時(shí),對每份樣品中檢測存在的病毒的數(shù)目列在表9中表9:在具有探針設(shè)計(jì)的PDC中僅使用t-檢驗(yàn)推斷的病毒的假陽性檢測。<table>tableseeoriginaldocumentpage83</column></row><table>從表9中,可以看到探針設(shè)計(jì)已經(jīng)減少由t-檢驗(yàn)對樣品35259—324和35179—122所檢測到的假陽性病毒的數(shù)目。更重要的觀察是實(shí)際病毒的加權(quán)相對熵對全部4個(gè)樣品均增加。這意味當(dāng)探針設(shè)計(jì)標(biāo)準(zhǔn)應(yīng)用于PDC時(shí),實(shí)際病毒的信號比背景信號具有更大差別??傊?,我們證實(shí)使用顯著水平0.05的單尾t-檢驗(yàn),隨后對每種病毒的信號強(qiáng)度計(jì)算加權(quán)相對熵,能夠精確分析PDC上的數(shù)據(jù)并高概率地確定樣品內(nèi)的實(shí)際病原體。盡管該分析算法甚至在高水平噪音下運(yùn)行良好,然而我們證實(shí)該通過使用上述探針設(shè)計(jì)標(biāo)準(zhǔn)為PDC選擇優(yōu)異探針組可以改善分析的精確性。用于探針設(shè)計(jì)和病原體檢測的備選方法非常少的算法可用于預(yù)測微陣列上的交叉雜交,僅1種算法,即E-預(yù)測法(E-predict)已經(jīng)被報(bào)道并被驗(yàn)證在微陣列上檢測病原體的有效性(Urisman等2005;Li等2005)。E-預(yù)測使雜交標(biāo)簽與預(yù)測的標(biāo)簽匹配,其中預(yù)測的標(biāo)簽從對每種微陣列探針的雜交的理論自由能中產(chǎn)生。然而,使用E-預(yù)測法分析我們的微陣列產(chǎn)生許多假陽性信號(見上表5)。例如,E-預(yù)測法在RSV患者412內(nèi)檢測到冠狀病毒(圖15)。使用泛冠狀病毒引物以及OC43和229E冠狀病毒特異性診斷引物的診斷性PCR證實(shí)患者412中無冠狀病毒(見上表4)。我們假設(shè)使用E-預(yù)測法導(dǎo)致的假陽性信號由與人基因組或RSV基因組交叉雜交的冠狀病毒探針中產(chǎn)生。實(shí)際上,預(yù)測85%的具有最高信號強(qiáng)度的50個(gè)冠狀病毒探針與人基因組交叉雜交和65%的所述探針具有相對于RSV的小于17的HD,其中所述HD僅高于我們用于家族的交叉雜交的HD閾值12。此外,優(yōu)化E-預(yù)測法以在含有病毒基因組區(qū)域間高度保守的探針的微陣列上工作,而不是在其中與人基因組交叉雜交將是重要考慮因素的嵌搭(tiling)陣列上工作。因此,有可能這兩種因素——不同的微陣列設(shè)計(jì)策略和與人基因組交叉雜交——造成E-預(yù)測法在我們的平臺(tái)上表現(xiàn)不佳。從我們使用E-預(yù)測法的經(jīng)驗(yàn)來看,將PDAvl與其它算法比較對我們而言是不合理的,因?yàn)楹笳哚槍Σ煌奶结橀L度進(jìn)行設(shè)計(jì)并針對其它的應(yīng)用和平臺(tái)進(jìn)行優(yōu)化的。結(jié)論通過實(shí)驗(yàn)地確定交叉雜交閾值,我們產(chǎn)生了計(jì)算機(jī)模擬的病原體標(biāo)簽探針組,該探針組僅包含與臨床樣品內(nèi)存在的特定病毒良好雜交的探針。AES算法使我們可以設(shè)計(jì)高效擴(kuò)增完整病毒基因組的通用引物標(biāo)簽。連同PDAv.l檢測算法,我們可以確定無疑地鑒定來自于臨床樣品中的由微陣列上所代表的任何病原體。這種方法不需要實(shí)驗(yàn)性驗(yàn)證每種病原體雜交標(biāo)簽的有效性并使含有針對>10000種病原體的探針的其它微陣列成為病原體鑒定的有力診斷性平臺(tái)。我們已經(jīng)優(yōu)化了對病原體檢測微陣列的設(shè)計(jì)和分析,便于它們在醫(yī)院環(huán)境中使用。我們發(fā)現(xiàn)隨機(jī)PCR內(nèi)例行所用的引物標(biāo)簽是偏倚性的,這導(dǎo)致病原體基因組的非均一性擴(kuò)增。這種偏倚可以通過使用我們的AES算法設(shè)計(jì)引物被避免。我們的計(jì)算機(jī)模擬的標(biāo)簽探針組使我們精確預(yù)測哪些探針將與陣列上所代表的任何病原體雜交。連同PDAV.1檢測算法,這種方法不需要實(shí)驗(yàn)性驗(yàn)證每種病原體雜交標(biāo)簽的有效性并使含有針對>10000種病原體的探針的其它微陣列成為病原體鑒定的有力診斷性平臺(tái)。本文中,我們報(bào)道了使用定制設(shè)計(jì)的微陣列平臺(tái)以系統(tǒng)地研究病毒擴(kuò)增效率、雜交信號輸出、靶-探針復(fù)性特異性與病原體檢測的可重復(fù)性間復(fù)雜關(guān)系的結(jié)果。我們的發(fā)現(xiàn)形成了用于計(jì)算機(jī)模擬預(yù)測最佳病原體標(biāo)簽探針組(SPS)的新方法學(xué)的基礎(chǔ),(在微陣列雜交前)揭示決定病毒擴(kuò)增效率的因素并且證實(shí)病毒擴(kuò)增效率得分(AES)與最佳探針選擇間的重要聯(lián)系。最后,我們描述了新的基于統(tǒng)計(jì)的病原體檢測算法(PDA),它可以快速并可重復(fù)地鑒定臨床標(biāo)本中一系列病毒滴度范圍內(nèi)的病原體。我們已經(jīng)證實(shí)當(dāng)存在至少4000個(gè)病毒拷貝時(shí),使用從公眾可用的數(shù)據(jù)庫中得到的病毒基因組序列以高度的確定性檢測臨床樣品內(nèi)病毒的可行性(見上表3)。該算法的靈敏性接近抗原檢測法的靈敏性,從而使本算法成為臨床上有關(guān)的檢測工具(Liu等2005;Marra等2003)。通過計(jì)算機(jī)模擬精確預(yù)測病原體雜交標(biāo)簽的能力的確具有勝過現(xiàn)有微陣列方法的明顯優(yōu)勢,其中現(xiàn)有微陣列方法需要通過首先將陣列與純的病原體樣品雜交而實(shí)驗(yàn)性驗(yàn)證有效性。除了特異性鑒定陣列上所代表的病原體以外,PDAv.l還使對陣列上沒有得到具體代表的那些基因組鑒定病原體的綱、科或?qū)?通過放寬HD和MCM的閾值)。這種信息對于臨床中的治療決策往往是足夠的。使用AES優(yōu)化的標(biāo)簽,我們能夠鑒定在使用非AES優(yōu)化的標(biāo)簽進(jìn)行擴(kuò)增時(shí)從臨床樣品中先前不能檢測到的病毒。因此,選擇AES優(yōu)化的標(biāo)簽提高PCR效率和靈敏性。本發(fā)明的算法可以適用于其它基于標(biāo)簽的PCR應(yīng)用,如生成DNA文庫和富集用于再測序的RNA。參考文獻(xiàn)AltschulSF,MaddenTL,SchafferAA,ZhangJ,ZhangZ,etal.(1997)GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms.NucleicAcidsRes25:3389-3402.AndersonTW,DarlingDA(1952)Asymptotictheoryofcertaingoodnessoffitcriteriabasedonstochasticprocesses.AnnalsofMathematicalStatistic23:192-212.BodrossyL,SessitschA(2004)Oligonucleotidemicroarraysinmicrobialdiagnostics.CurrOpinMicrobiol7:245-254.BohlanderSK,EspinosaI,Rafael,LeBeauMM,RowleyJD,DiazMO(1992)Amethodfortherapidsequence-independentamplificationofmicrodissectedchromosomalmaterial.Genomics13:1322-1324.Bustin,S.A.&Nolan,T.(2004)Pitfallsofquantitativereal-timereverse-transcriptionpolymerasechainreaction.JBiomolTech15,155-166.DeffemezC,WunderliW,ThomasY,YerlyS,PerrinL,etal.(2004)AmpliconSequencingandImprovedDetectionofHumanRhinovirusinRespiratorySamples10.1128/JCM.42.7.3212-3218.2004.JClinMicrobiol42:3212-3218.FuJ,TanBH,YapEH,ChanYC,TanYH(1992)Full-lengthcDNAsequenceofdenguetype1virus(SingaporestrainS275/90).Virology188:953-958.Goulden,C.H.MethodsofStatisticalAnalysis,End,2nd.(JohnWiley&Sons,Inc.,NewYork;1956).HammingRW(1950)ErrorDetectingandErrorCorrectingCodes.BellSystemTechnicalJournal29:147-160.InternationalHumanGenomeSequencingConsortium.Initialsequencingandanalysisofthehumangenome.Nature409(6822),860-921(2001).KaneMD,JatkoeTA,StumpfCR,LuJ,ThomasJD,etal.(2000)Assessmentofthesensitivityandspecificityofoligonucleotide(50mer)microarrays.NucleicAcidsRes28:4552-4557.Kane,M.D.etal.Assessmentofthesensitivityandspecificityofoligonucleotide(50mer)microarrays.NucleicAcidsRes28,4552-4557(2000).KsiazekTG,ErdmanD,GoldsmithCS,ZakiSR,PeretT,etal.(2003)Anovelcoronavirusassociatedwithsevereacuterespiratorysyndrome.NEnglJMed348:1953-1966.KullbackS,LeiblerRA(1951)Oninformationandsufficiency.AnnalsofMathematicalStatistic22:79-86.LiX,HeZ,ZhouJ(2005)Selectionofoptimaloligonucleotideprobesformicroarraysusingmultiplecriteria,globalalignmentandparameterestimation.NuclAcidsRes33:6114-6123.LiuJ,LimSL,RuanY,LingAE,NgLF,etal.(2005)SARStransmissionpatterninSingaporereassessedbyviralsequencevariationanalysis.PLoSMed2(2),162-168.MarraMA,JonesSJ,AstellCR,HoltRA,Brooks-WilsonA,etal.(2003)TheGenomesequenceoftheSARS-associatedcoronavirus.Science300:1399-1404.MaskosU,SouthernEM(1993)Astudyofoligonucleotidereassociationusinglargearraysofoligonucleotidessynthesisedonaglasssupport.NucleicAcidsRes21:4663-4669.MoSsE,VygenL,KeyaertsE,ZlatevaK,LiS,etal.(2005)AnovelpancoronavirusRT-PCRassay:frequentdetectionofhumancoronavirusNL63inchildrenhospitalizedwithrespiratorytractinfectionsinBelgium.BMCInfectDis5:6.NguyenHK,SouthernEM(2000)MinimisingthesecondarystructureofDNAtargetsbyincorporationofamodifieddeoxynucleoside:implicationsfornucleicacidanalysisbyhybridisation.NucleicAcidsRes28:3904-3909.N而aysirEF,HuangW,AlbertTJ,SinghJ,NuwaysirK,etal.(2002)Geneexpressionanalysisusingoligonucleotidearraysproducedbymasklessphotolithography.GenomeRes12:1749-1755.PangXL,PreiksaitisJK,LeeB(2005)MultiplexrealtimeRT-PCRforthedetectionandquantitationofnorovirusgenogroupsIandIIinpatientswithacutegastroenteritis.JClinVirol33:168-171.RatushnaWellerJW,GibasCJ(2005)Secondarystructureinthetargetasaconfoundingfactorinsyntheticoligomermicroarraydesign.BMCGenomics6:31.RuanYJ,WeiCL,EeAL,VegaVB,ThoreauH,etal.(2003)Comparativefbll-lengthgenomesequenceanalysisof14SARScoronavirusisolatesandcommonmutationsassociatedwithputativeoriginsofinfection.Lancet361:1779-1785.SambrookandRussel,(2001)MolecularCloning:ALaboratoryManual,ColdSpringsHarborLaboratory,NewYork.SantaLucia,J.,Jr.,Allawi,H,T.&Seneviratne,P.A.(1996)Improvednearest-neighborparametersforpredictingDNAduplexstability.Biochemistry35,3555-3562.SmallingTW,SefersSE,LiH,TangYW(2002)Molecularapproachestodetectingherpessimplexvirusandenterovirusesinthecentralnervoussystem.JClinMicrobiol40:2317-2322.Stephens,M.A.(1974).EDFStatisticsforGoodnessofFitandSomeComparisons,JournaloftheAmericanStatisticalAssociation,Vol.69,pp.730-737,StriebelHM,Birch曙HirschfeldE,EgererR,F(xiàn)oldes陽PappZ(2003)Virusdiagnosticsonmicroarrays.CurrPharmBiotechnol4:401-415.Sung,W.K.&Lee,W.H.FastandAccurateProbeSelectionAlgorithmforLargeGenomes.CSB(2003).Sung,W.K.&Lee,W.H.(2003)inIEEEComputationalSystemsBioinformaticsConferenceStanfordUniversity,Stanford,CA.UrismanA,F(xiàn)ischerKF,ChiuCY,KistlerAL,BeckS,etal.(2005)E-Predict:acomputationalstrategyforspeciesidentificationbasedonobservedDNAmicroarrayhybridizationpatterns.GenomeBiol6:R78.VegaVB,RuanY,LiuJ,LeeWH,WeiCL,etal.(2004)MutationaldynamicsoftheSARScoronavirusincellcultureandhumanpopulationsisolatedin2003,BMCInfectDis4:32.VoraGJ,MeadorCE,StengerDA,AndreadisJD(2004)NucleicacidamplificationstrategiesforDNAmicroarray-basedpathogendetection.ApplEnvironMicrobiol70:3047-3054.WangD,CoscoyL,ZylberbergM,AvilaPC,BousheyHA,etal.(2002)Microarray-baseddetectionandgenotypingofviralpathogens.ProcNatlAcadSciUSA99:15687-15692.WangD,UrismanA,LiuYT,SpringerM,KsiazekTG,etal.(2003)ViraldiscoveryandsequencerecoveryusingDNAmicroarrays.PLoSBiol1:E2.WongCW,AlbertTJ,VegaVB,NortonJE,CutlerDJ,etal.(2004)TrackingtheEvolutionoftheSARSCoronavirusUsingHigh-Throughput,High-DensityResequencingArrays.GenomeRes14:398-405,Wu,D.Y.,Ugozzoli,L.,Pal,B.K.,Qian,J.&Wallace,R.B.(1991)Theeffectoftemperatureandoligonucleotideprimerlengthonthespecificityandefficiencyofamplificationbythepolymerasechainreaction.DNACellBiol10,233-238.權(quán)利要求1、設(shè)計(jì)至少一種用于核酸檢測的寡核苷酸的方法,該方法包括任意順序的以下步驟(I)確定和/或選擇至少一種靶核酸的至少一個(gè)待擴(kuò)增區(qū)域,該區(qū)域的擴(kuò)增效率高于平均擴(kuò)增效率;和(II)設(shè)計(jì)至少一種能夠與所確定和/或選擇的區(qū)域進(jìn)行雜交的寡核苷酸。2、根據(jù)權(quán)利要求1所述的方法,其中,所選擇的區(qū)域的擴(kuò)增效率被計(jì)算為擴(kuò)增效率得分,該擴(kuò)增效率得分是正向引物ri可能與靶核酸的位置i結(jié)合并且反向引物rj可能在靶核酸的位置j處結(jié)合的概率,|/-yi為靶核酸的想要擴(kuò)增的區(qū)域。3、根據(jù)權(quán)利要求2所述的方法,其中,iHl為^0000bp。4、根據(jù)權(quán)利要求2所述的方法,其中,|i-jl為1000bp。5、根據(jù)權(quán)利要求2所述的方法,其中,1/-yl為^500bp。6、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,步驟(I)包括確定幾何級擴(kuò)增偏倚對靶核酸的每個(gè)位置的影響,并且選擇至少一個(gè)待擴(kuò)增區(qū)域作為擴(kuò)增效率高于平均擴(kuò)增效率的區(qū)域。7、根據(jù)權(quán)利要求6所述的方法,其中,所述幾何級擴(kuò)增偏倚為聚合酶鏈?zhǔn)椒磻?yīng)偏倚。8、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,至少一種能夠與所選擇的區(qū)域進(jìn)行雜交的寡核苷酸是根據(jù)以下標(biāo)準(zhǔn)中的至少一種進(jìn)行選擇和設(shè)計(jì)的(a)選擇CG含量為40%至60%的寡核苷酸;(b)選擇具有根據(jù)最鄰近模型計(jì)算的最高自由能的寡核苷酸;(C)假定寡核苷酸Sa和寡核苷酸Sb分別為靶核酸、和Vb的子串,則根據(jù)Sa與來自靶核酸Vb的長度為W的任意子串Sb之間的漢明距離和威根據(jù)、與寡核苷酸Sb的最長公共子串來選擇sa;(d)就靶核酸Va特異性的長度為m的任何寡核苷酸Sa而言,若寡核苷酸Sa與異于靶核酸的核酸的任何區(qū)域無任何標(biāo)的,則選擇該寡核苷酸Sa;若長度為m的寡核苷酸Sa與異于靶核酸的核酸有標(biāo)的,則選擇長度為m的具有最小的最大比對長度和/或具有最低標(biāo)的數(shù)的寡核苷酸Sa;和(e)如果預(yù)測&雜交到所擴(kuò)增的靶核酸的位置i上,則選擇在靶核酸的位置i上的寡核苷酸pi。9、根據(jù)權(quán)利要求8所述的方法,其中,根據(jù)標(biāo)準(zhǔn)(e),若^A卜。)〉人,其中X為0.5并且"AIv。)為A雜交到靶核酸、的位置i上的概率,則選擇在靶核酸v。的位置i上的寡核苷酸A。10、根據(jù)權(quán)利要求9所述的方法,其中,X為0.8。11、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,&,其中Z為代表Va的全部寡核苷酸的擴(kuò)增效率得分值的隨機(jī)變量,A為Va中的寡核苷酸的數(shù)目,并且。為擴(kuò)增效率得分值",.的寡核苷酸的數(shù)目。12、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,該方法還包括制備所選擇和/或設(shè)計(jì)的寡核苷酸的步驟。13、檢測至少一種靶核酸的方法,該方法包括以下步驟(i)提供至少一種生物樣品;(ii)對該生物樣品中包含的核酸進(jìn)行擴(kuò)增;(m)提供能夠與至少一種假定存在于該生物樣品中的靶核酸進(jìn)行雜交的至少一種寡核苷酸,其中,該寡核苷酸是根據(jù)權(quán)利要求1至12中的任意一項(xiàng)所述的方法進(jìn)行設(shè)計(jì)和/或制備的;和(iv)使該寡核苷酸與擴(kuò)增的核酸進(jìn)行接觸和/或檢測與靶核酸雜交的寡核苷酸。14、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,所述至少一種寡核苷酸為至少一種寡核苷酸探針或引物。15、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,所述擴(kuò)增步驟是在存在至少一種正向隨機(jī)引物和/或至少一種反向隨機(jī)引物的條件下進(jìn)行的。16、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,所述擴(kuò)增步驟為逆轉(zhuǎn)錄-聚合酶鏈?zhǔn)椒磻?yīng)。17、根據(jù)權(quán)利要求2至16中的任意一項(xiàng)所述的方法,其中,與靶核酸Va的位置/結(jié)合的正向隨機(jī)引物和與靶核酸Va的位置j結(jié)合的反向隨機(jī)引物選自對靶核酸Va的每個(gè)位置z'具有如下擴(kuò)增效率得分的引物-<formula>formulaseeoriginaldocumentpage5</formula>其中"鵬0'+1,/+500);^W和^。為隨機(jī)引物。作為正向引物和反向引物分別與va的位置/結(jié)合的概率,并且Z《10000bp為Va的想要擴(kuò)增的區(qū)域。18、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,所述擴(kuò)增步驟包括正向引物和反向引物,并且該正向引物和反向引物中的每種引物在5'-3'方向上包含固定的引物頭部和可變的引物尾部,并且其中至少該可變的尾部與耙核酸、的一部分進(jìn)行雜交。19、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,所述擴(kuò)增步驟包括具有如SEQIDN0:1所示的核苷酸序列、或該核苷酸序列的變體或衍生物的正向隨機(jī)引物和/或反向隨機(jī)引物。20、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,相對于生物樣品的核酸,待檢測的靶核酸為外源的核酸。21、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,所述待檢測的靶核酸至少為病原體基因組或基因組片段。22、根據(jù)權(quán)利要求21所述的方法,其中,病原體核酸至少為來自病毒、寄生蟲或細(xì)菌的核酸或核酸片段。23、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,所述生物樣品從人類得到,并且假定存在于所述生物樣品中的靶核酸為非人源的。24、根據(jù)前述權(quán)利要求中的任意一項(xiàng)所述的方法,其中,所述探針被放置在不溶性支持物上。25、根據(jù)權(quán)利要求24所述的方法,其中,所述不溶性支持物是微陣列。26、根據(jù)權(quán)利要求13至25中的任意一項(xiàng)所述的方法,其中,在檢測步驟(iv)中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針^Va的信號強(qiáng)度的均值,則表明所述生物樣品內(nèi)存在、。27、根據(jù)權(quán)利要求13至25中的任意一項(xiàng)所述的方法,其中,在檢測步驟(iv)中,與、雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,并且該方法還包括以下步驟計(jì)算具有高信號強(qiáng)度的探針gVa的比例與檢測方法中所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針Va的信號強(qiáng)度的密度分布比探針SVa的信號強(qiáng)度的密度分布更正偏,則表明所述生物樣品內(nèi)存在va。28、根據(jù)權(quán)利要求13至25中的任意一項(xiàng)所述的方法,其中,在檢測步驟(iv)中,t-檢驗(yàn)值《0.1和/或安德森-塔林檢驗(yàn)值^0.05和/或加權(quán)相對熵值21.0時(shí),表明所述生物樣品內(nèi)存在至少一種靶核酸。29、根據(jù)權(quán)利要求28所述的方法,其中,t-檢驗(yàn)值^0.05。30、根據(jù)權(quán)利要求28或29所述的方法,其中,加權(quán)相對熵值25.0。31、根據(jù)權(quán)利要求13至25中的任意一項(xiàng)所述的方法,其中,檢測步驟(iv)包括通過計(jì)算加權(quán)相對熵得分的分布而對耙核酸Va評估每個(gè)標(biāo)簽探針組中的探針信號強(qiáng)度<formula>formulaseeoriginaldocumentpage7</formula>其中,2。(力是在組b;中所找到的/>。內(nèi)的探針的信號強(qiáng)度的累積分布函數(shù);《G)是在組b;中所找到的A內(nèi)的探針的信號強(qiáng)度的累積分布函數(shù),尸。為病毒Va的探針組,P。=P-Pa。32、根據(jù)權(quán)利要求31所述的方法,其中,每個(gè)標(biāo)簽探針組具有正態(tài)分布的信號強(qiáng)度和/或小于5的加權(quán)相對熵得分,則表明不存在靶核酸。33、根據(jù)權(quán)利要求32所述的方法,其中,每個(gè)標(biāo)簽探針組具有正偏的信號強(qiáng)度分布和/或大于5的加權(quán)相對熵得分,則表明存在至少一種靶核酸Va。34、根據(jù)權(quán)利要求31至33中的任意一項(xiàng)所述的方法,該方法還包括對加權(quán)相對熵得分的分布進(jìn)行安德森-塔林檢驗(yàn),其中,P>0.05的結(jié)果表示不存在靶核酸va。35、根據(jù)權(quán)利要求31至33中的任意一項(xiàng)所述的方法,該方法還包括對加權(quán)相對熵得分的分布進(jìn)行安德森-塔林檢驗(yàn),其中,P<0.05的結(jié)果表示存在靶核酸va。36、根據(jù)權(quán)利要求35所述的方法,其中,再進(jìn)行安德森-塔林檢驗(yàn),由此表明存在其它共感染性靶核酸。37、確定至少一種靶核酸、的存在的方法,該方法包括檢測至少一種寡核苷酸探針與至少一種靶核酸Va的雜交,其中與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g的信號強(qiáng)度的均值,則表明存在Va。38、根據(jù)權(quán)利要求37所述的方法,其中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g的信號強(qiáng)度的均值,并且該方法還包括以下步驟計(jì)算具有高信號強(qiáng)度的探針g^的比例與檢測方法中所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針、的信號強(qiáng)度的密度分布比探針g^的信號強(qiáng)度的密度分布更為正偏,則表明存在Va。39、根據(jù)權(quán)利要求37或38所述的方法,其中,t-檢驗(yàn)值W.l和/安德森-塔林檢驗(yàn)值^0.05和/或加權(quán)相對熵值21.0時(shí),表明生物樣品中存在至少一種耙核酸。40、根據(jù)權(quán)利要求39所述的方法,其中,t-檢驗(yàn)值^0.05。41、根據(jù)權(quán)利要求39或40所述的方法,其中,加權(quán)相對熵值S.O。42、檢測至少一種靶核酸的方法,該方法包括以下步驟.-(i)提供至少一種生物樣品;(ii)對該生物樣品中包含的至少一種核酸進(jìn)行擴(kuò)增;,(iii)提供能夠與至少一種假定存在于該生物樣品中的靶核酸進(jìn)行雜交(iv)使該探針與擴(kuò)增的核酸進(jìn)行接觸和/或檢測與耙核酸雜交的探針,其中與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,則表明該生物樣品中存在Va。43、根據(jù)權(quán)利要求42所述的方法,其中,在步驟(iv)中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針g^的信號強(qiáng)度的均值,并且該方法還包括以下步驟計(jì)算具有高信號強(qiáng)度的探針gv。的比例與檢測方法中所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針^的信號強(qiáng)度的密度分布比探針gVa的信號強(qiáng)度的密度分布更正偏,則表明所述生物樣品中存在va。44、根據(jù)權(quán)利要求42或43所述的方法,其中,在檢測步驟(iv)中,t-檢驗(yàn)值^0.1和/或安德森-塔林檢驗(yàn)值^0.05和/或加權(quán)相對熵值21.0時(shí),表明所述生物樣品中存在至少一種耙核酸。45、根據(jù)權(quán)利要求44所述的方法,其中,t-檢驗(yàn)值W.05。46、根據(jù)權(quán)利要求44或45所述的方法,其中,加權(quán)相對熵值S.O。47、根據(jù)權(quán)利要求37至46中的任意一項(xiàng)所述的方法,其中,相對于所述生物樣品的核酸,待檢測的耙核酸為外源的核酸。48、根據(jù)權(quán)利要求37至47中的任意一項(xiàng)所述的方法,其中,所述待檢測的靶核酸為至少一種病原體基因組或基因組片段。49、根據(jù)權(quán)利要求48所述的方法,其中,病原體核酸為至少一種來自病毒、寄生蟲或細(xì)菌的核酸或核酸片段。50、根據(jù)權(quán)利要求37至47中的任意一項(xiàng)所述的方法,其中,所述生物樣品從人類得到,并且假定存在于所述生物樣品中的靶核酸為非人源的。51、根據(jù)權(quán)利要求37至48中的任意一項(xiàng)所述的方法,其中,至少一種探針被放置在不溶性支持物上。52、根據(jù)權(quán)利要求51所述的方法,其中,所述支持物為微陣列。53、用于設(shè)計(jì)用于核酸檢測的至少一種寡核苷酸的裝置,該裝置被配置為(I)確定和威選擇至少一種靶核酸的至少一個(gè)待擴(kuò)增區(qū)域,該區(qū)域的擴(kuò)增效率高于平均擴(kuò)增效率;和(n)設(shè)計(jì)能夠與所確定和/或選擇的區(qū)域進(jìn)行雜交的至少一種寡核苷酸。54、根據(jù)權(quán)利要求53所述的裝置,其中,所選擇的區(qū)域的擴(kuò)增效率被計(jì)算為擴(kuò)增效率得分,該擴(kuò)增效率得分是正向引物ri可能與靶核酸的位置i結(jié)合并且反向引物rj可能在靶核酸的位置j處結(jié)合的概率,|/-_/|為靶核酸的想要擴(kuò)增的區(qū)域。55、根據(jù)權(quán)利要求54所述的裝置,其中,|/-」^10000bp、21000bp或,Obp。56、根據(jù)權(quán)利要求53至55中的任意一項(xiàng)所述的裝置,其中,步驟(I)包括確定幾何級擴(kuò)增偏倚對靶核酸的每個(gè)位置的影響,并且選擇至少一個(gè)待擴(kuò)增區(qū)域作為擴(kuò)增效率高于平均擴(kuò)增效率的區(qū)域。57、根據(jù)權(quán)利要求56所述的裝置,其中,所述幾何級擴(kuò)增偏倚為聚合酶鏈?zhǔn)椒磻?yīng)偏倚。58、根據(jù)權(quán)利要求53至57中的任意一項(xiàng)所述的裝置,其中,所述能夠與所選擇的區(qū)域進(jìn)行雜交的寡核苷酸是根據(jù)以下標(biāo)準(zhǔn)中的至少一種進(jìn)行選擇和/或設(shè)計(jì)的(a)選擇CG含量為4(P/。至60。/。的寡核苷酸;(b)選擇具有根據(jù)最鄰近模型計(jì)算的最高自由能的寡核苷酸;(C)假定寡核苷酸Sa和寡核苷酸Sb分別為靶核酸和Vb的子串,則根據(jù)Sa與來自耙核酸Vb的長度為m的任意子串Sb之間的漢明距離和/或根據(jù)Sa與寡核苷酸sb的最長公共子串選擇sa;(d)就靶核酸Va特異性的長度為m的任何寡核苷酸Sa而言,若寡核苷酸Sa與異于靶核酸的核酸的任何區(qū)域無任何標(biāo)的,則選擇寡核苷酸Sa;若長度為m的寡核苷酸Sa與異于靶核酸的核酸有標(biāo)的,則選擇長度為m的具有最小的最大比對長度和/或具有最低標(biāo)的數(shù)的寡核苷酸sa;和(e)若預(yù)測pi雜交到所擴(kuò)增靶核酸的位置i上,則選擇在靶核酸的位置i上的至少一種寡核苷酸pi。59、根據(jù)權(quán)利要求58所述的裝置,其中,根據(jù)標(biāo)準(zhǔn)(e),若P"k)A,其中?i為0.5并且A^》。)為A.雜交到靶核酸Va的位置i上的概率,貝U選擇在靶核酸va的位置i上的寡核苷酸a。60、根據(jù)權(quán)利要求59所述的裝置,其中,人為0.8。61、根據(jù)權(quán)利要求53至60中的任意一項(xiàng)所述的裝置,其中,i^>fl)i^^')=f,其中義為代表va的全部寡核苷酸的擴(kuò)增效率得分值的隨機(jī)變量,A為中的寡核苷酸的數(shù)目,并且C,為擴(kuò)增效率得分值^C,.的寡核苷酸的數(shù)目。62、根據(jù)權(quán)利要求53至61中的任意一項(xiàng)所述的裝置,其中,所述配置還包括制備所選擇和/或設(shè)計(jì)的寡核苷酸的步驟。63、根據(jù)權(quán)利要求53至62中的任意一項(xiàng)所述的裝置,其中,所述至少一種寡核苷酸為至少一種寡核苷酸探針和/或引物。64、配置為檢測至少一種靶核酸的裝置,該裝置包括以下步驟中的任何一步(i)提供至少一種生物樣品;(ii)對該生物樣品中包含的核酸進(jìn)行擴(kuò)增;(iii)提供能夠與至少一種假定存在于該生物樣品中的靶核酸進(jìn)行雜交的至少一種寡核苷酸,其中該寡核苷酸是根據(jù)權(quán)利要求53至63中的任意一項(xiàng)所述的裝置設(shè)計(jì)和/或制備的;和(iv)使寡核苷酸與擴(kuò)增的核酸進(jìn)行接觸和/或檢測與靶核酸雜交的寡核苷酸。65、根據(jù)權(quán)利要求53至64中的任意一項(xiàng)所述的裝置,其中,所述擴(kuò)增步驟是在存在至少一種正向隨機(jī)引物和/或至少一種反向隨機(jī)引物的條件下進(jìn)行的。66、根據(jù)權(quán)利要求53至65中的任意一項(xiàng)所述的裝置,其中,所述擴(kuò)增步驟為逆轉(zhuǎn)錄-聚合酶鏈?zhǔn)椒磻?yīng)。67、根據(jù)權(quán)利要求53至66中的任意一項(xiàng)所述的裝置,其中,與靶核酸Va的位置Z'結(jié)合的正向隨機(jī)引物和與靶核酸的位置j結(jié)合的反向隨機(jī)引物選自對靶核酸Va的每個(gè)位置/具有以下擴(kuò)增效率得分的引物<formula>formulaseeoriginaldocumentpage13</formula>和^為隨機(jī)引物。作為正向引物和反向引物分別與Va的位置/結(jié)合的概率,Z^10000bp為Va的想要擴(kuò)增的區(qū)域。68、根據(jù)權(quán)利要求53至67中的任意一項(xiàng)所述的裝置,其中,所述擴(kuò)增步驟包括正向引物和反向引物,并且該正向引物和反向引物中的每種引物在5,-3,方向上包含固定的引物頭部和可變的引物尾部,其中至少該可變的尾部與靶核酸Va的一部分雜交。69、根據(jù)權(quán)利要求53至68中的任意一項(xiàng)所述的裝置,其中,所述擴(kuò)增步驟包括具有如SEQIDNO:l所示的核苷酸序列或該核苷酸序列的變體或衍生物的正向隨機(jī)引物和/或反向隨機(jī)引物。70、根據(jù)權(quán)利要求任53至69中的任意一項(xiàng)所述的裝置,其中,相對于所述生物樣品的核酸,待檢測的靶核酸為至少一種外源的核酸。71、根據(jù)權(quán)利要求53至69中的任意一項(xiàng)所述的裝置,其中,待檢測的靶核酸為至少一種病原體基因組或基因組片段。72、根據(jù)權(quán)利要求71所述的裝置,其中,病原體核酸為至少一種來自病毒、寄生蟲或細(xì)菌的核酸或核酸片段。73、根據(jù)權(quán)利要求53至72中的任意一項(xiàng)所述的裝置,其中,所述生物樣品從人類得到,并且假定存在于所述生物樣品中的靶核酸為非人源的。74、根據(jù)權(quán)利要求53至73中的任意一項(xiàng)所述的裝置,其中,該裝置包括至少一種不溶性支持物,在該不溶性支持物上放置有至少一種探針。75、根據(jù)權(quán)利要求74所述的裝置,其中,所述不溶性支持物為微陣列。76、根據(jù)權(quán)利要求64至75中的任意一項(xiàng)所述的裝置,其中,在檢測步驟(iv)中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針gVa的信號強(qiáng)度的均值,則表明生物樣品中存在Va。77、根據(jù)權(quán)利要求64至75中的任意一項(xiàng)所述的裝置,其中,在檢測步驟(iv)中,與Va雜交的探針的信號強(qiáng)度的均值在統(tǒng)計(jì)學(xué)上高于探針eVa的信號強(qiáng)度的均值,該裝置被配置為還包含以下步驟計(jì)算具有高信號強(qiáng)度的探針gVa的比例與檢測方法中所用的具有高信號強(qiáng)度的探針的比例的相對差異,探針Va的信號強(qiáng)度的密度分布比探針a的信號強(qiáng)度的密度分布更正偏,則表明所述生物樣品中存在Va。78、根據(jù)權(quán)利要求64至75中的任意一項(xiàng)所述的裝置,其中,在檢測步驟(iv)中,t-檢驗(yàn)值^0.1和/或安德森-塔林檢驗(yàn)值^0.05和/或加權(quán)加權(quán)相對熵值21.0時(shí),表明所述生物樣品中存在靶核酸。79、根據(jù)權(quán)利要求78所述的裝置,其中,t-檢驗(yàn)值《0.05。80、根據(jù)權(quán)利要求78或79所述的裝置,其中,加權(quán)相對熵值S.O。81、根據(jù)權(quán)利要求64至75中的任意一項(xiàng)所述的裝置,其中,檢測步驟(iv)包括通過計(jì)算加權(quán)相對熵得分的分布而對靶核酸評估每個(gè)標(biāo)簽探針組內(nèi)的探針信號強(qiáng)度—wW)log(1^)其中,仏(力為在組b,.中所找到的p。內(nèi)的探針的信號強(qiáng)度的累積分布函數(shù);ft^)為在組b,中所找到的P。內(nèi)的探針的信號強(qiáng)度的累積分布函數(shù),尸。為病毒Va的探針組,P。-戶-尸。。82、根據(jù)權(quán)利要求81所述的裝置,其中,代表不存在靶核酸Va的每個(gè)標(biāo)簽探針組具有正態(tài)分布的信號強(qiáng)度和/或小于5的加權(quán)相對熵得分。83、根據(jù)權(quán)利要求81所述的裝置,其中,代表存在至少一種靶核酸va的每個(gè)標(biāo)簽探針組具有正偏的信號強(qiáng)度分布和/或大于5的加權(quán)相對熵得分。84、根據(jù)權(quán)利要求81至83中的任意一項(xiàng)所述的裝置,該裝置還包括對加權(quán)相對熵得分的分布進(jìn)行安德森-塔林檢驗(yàn),其中P>0.05的結(jié)果表明不存在靶核酸va。85、根據(jù)權(quán)利要求81至83中的任意一項(xiàng)所述的裝置,該裝置還包括對加權(quán)相對熵得分的分布安德森-塔林檢驗(yàn),其中PO.05的結(jié)果表明存在靶核酸Va。86、根據(jù)權(quán)利要求85所述的裝置,其中,再進(jìn)行安德森-塔林檢驗(yàn),由此表明存在其它共感染性靶核酸。87、根據(jù)權(quán)利要求53至86中的任意一項(xiàng)所述的裝置,其中,所述配置被存貯在至少一種電子存儲(chǔ)介質(zhì)上。88、一種計(jì)算機(jī)程序產(chǎn)品,該產(chǎn)品被配置為執(zhí)行權(quán)利要求1至52中的任意一項(xiàng)所述的方法。89、一種包含軟件的計(jì)算機(jī)程序產(chǎn)品,該軟件被配置為確定加權(quán)相對熵得分和/或安德森-塔林檢驗(yàn)以設(shè)計(jì)至少一種寡核苷酸和/或檢測至少一種靶核酸。90、根據(jù)權(quán)利要求89所述的計(jì)算機(jī)程序產(chǎn)品,其中,加權(quán)相對熵、安德森-塔林檢驗(yàn)、寡核苷酸探針的設(shè)計(jì)、寡核苷酸引物的設(shè)計(jì)和/或靶核酸的檢測如權(quán)利要求1至52中的任意一項(xiàng)所限定。91、一種包含軟件的可移動(dòng)的電子存儲(chǔ)介質(zhì),該軟件被配置為執(zhí)行權(quán)利要求1至52中的任意一項(xiàng)所述的方法。92、一種包含軟件的可移動(dòng)的電子存儲(chǔ)介質(zhì),該軟件被配置為確定加權(quán)相對熵得分和/或安德森-塔林檢驗(yàn)以設(shè)計(jì)至少一種寡核苷酸探針、設(shè)計(jì)寡核苷酸引物和/或檢測至少一種靶核酸。93、根據(jù)權(quán)利要求92所述的可移動(dòng)的電子存儲(chǔ)介質(zhì),其中,加權(quán)相對熵、安德森-塔林檢驗(yàn)、寡核苷酸探針的設(shè)計(jì)、寡核苷酸引物的設(shè)計(jì)和/或靶核酸的檢測如權(quán)利要求1至52中的任意一項(xiàng)所限定。全文摘要本發(fā)明提供了設(shè)計(jì)至少一種用于核酸檢測的寡核苷酸的方法,該方法包括任意順序的以下步驟(I)確定和/或選擇至少一種靶核酸的待擴(kuò)增區(qū)域,該區(qū)域的擴(kuò)增效率(AE)高于平均AE;和(II)設(shè)計(jì)至少一種能夠與所選區(qū)域進(jìn)行雜交的寡核苷酸。本發(fā)明還提供了檢測至少一種靶核酸的方法,該方法包括以下步驟(i)提供至少一種生物樣品;(ii)對該生物樣品中所包含的核酸進(jìn)行擴(kuò)增;(iii)提供能夠與至少一種假定存在于該生物樣品中的靶核酸進(jìn)行雜交的至少一種寡核苷酸;和(iv)使所述寡核苷酸與擴(kuò)增的核酸進(jìn)行接觸并檢測與所述靶核酸雜交的寡核苷酸。尤其是,本方法用于檢測在至少一種人生物樣品中存在的至少一種病原體,例如病毒。探針可以被放置在支持物上,例如微陣列上。文檔編號C12Q1/68GK101292044SQ200680036976公開日2008年10月22日申請日期2006年8月8日優(yōu)先權(quán)日2005年8月12日發(fā)明者C·W·C·黃,L·D·米勒,宋永健,李華星申請人:新加坡科技研究局