利用譜測(cè)量法的微生物的鑒定和結(jié)構(gòu)化分類的制作方法
【專利摘要】本發(fā)明涉及用于通過(guò)譜測(cè)量法來(lái)從一組參考物種中鑒定未知微生物的方法,包括以下步驟:第一步驟,用于進(jìn)行對(duì)參考物種進(jìn)行分類的模型的監(jiān)督學(xué)習(xí);第二步驟,用于預(yù)測(cè)要鑒定的未知微生物,其包括:獲取未知微生物的光譜;以及應(yīng)用預(yù)測(cè)模型作為所述光譜和分類模型的函數(shù),從而推斷未知微生物所屬的至少一種微生物類型。利用結(jié)構(gòu)化多類SVM算法來(lái)計(jì)算分類模型,其中將該結(jié)構(gòu)化多類SVM算法應(yīng)用于參考物種在進(jìn)化和/或臨床表型方面的樹(shù)狀層級(jí)表示的節(jié)點(diǎn),并且該結(jié)構(gòu)化多類SVM算法包括包含對(duì)樹(shù)的節(jié)點(diǎn)之間的鄰近性進(jìn)行量化的所謂的“損失”函數(shù)的余量的約束。
【專利說(shuō)明】利用譜測(cè)量法的微生物的鑒定和結(jié)構(gòu)化分類
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及利用譜測(cè)量法進(jìn)行的微生物(特別是細(xì)菌)的鑒定。
[0002]本發(fā)明可以特別應(yīng)用于利用例如MALD1-TOF型(“Matrix-旦ssisted laserdesorpt1n/1nizat1n time of flight (基質(zhì)輔助激光解吸/電離飛行時(shí)間)”)的質(zhì)譜法、振動(dòng)譜測(cè)量法和自體熒光譜測(cè)量法進(jìn)行的微生物的鑒定。
【背景技術(shù)】
[0003]已知使用譜測(cè)量法或光譜法來(lái)鑒定微生物、更特別是細(xì)菌。為此,制備未知微生物的試樣,之后獲取并預(yù)處理該試樣的質(zhì)譜、振動(dòng)光譜或熒光光譜,特別是用以消除基線并消除噪聲。然后利用分類工具將預(yù)處理后的光譜的峰與根據(jù)一組參考光譜而構(gòu)建的知識(shí)庫(kù)中的數(shù)據(jù)進(jìn)行“比較”,其中各參考光譜與所鑒定的微生物相關(guān)聯(lián)。
[0004]更特別地,傳統(tǒng)上通過(guò)分類進(jìn)行的微生物的鑒定包括:
[0005]■第一步驟,用于根據(jù)物種預(yù)先已知的微生物的所謂的“訓(xùn)練”光譜通過(guò)監(jiān)督學(xué)習(xí)來(lái)確定分類模型,其中該分類模型定義在訓(xùn)練光譜之中區(qū)分這些不同物種的一組規(guī)則;
[0006]■第二步驟,用于通過(guò)以下來(lái)鑒定特定的未知微生物:
[0007]〇獲取未知微生物的光譜;以及
[0008]O向所獲取到的光譜應(yīng)用根據(jù)分類模型所構(gòu)建的預(yù)測(cè)模型,以確定未知微生物所屬的至少一個(gè)物種。
[0009]通常,譜測(cè)量法鑒定裝置包括譜儀和接收所測(cè)量到的光譜并實(shí)現(xiàn)上述第二步驟的數(shù)據(jù)處理單元。第一步驟由確定分類模型和預(yù)測(cè)模型并且在消費(fèi)者使用之前將模型集成于機(jī)器中的裝置的制造商來(lái)實(shí)現(xiàn)。
[0010]支持向量機(jī)或SVM型的算法是傳統(tǒng)的監(jiān)督學(xué)習(xí)工具,特別適用于目的在于對(duì)大量物種進(jìn)行分類的高維分類模型的學(xué)習(xí)。
[0011]然而,盡管SVM特別適用于高維,但利用這些算法來(lái)確定分類模型非常復(fù)雜。
[0012]首先,傳統(tǒng)上使用的SVM算法屬于所謂的“扁平”算法,其中這些“扁平”算法等同地考慮要分類的物種,并且作為必然結(jié)果,還將分類錯(cuò)誤視為等同的。因而,從算法的角度來(lái)看,兩個(gè)接近細(xì)菌之間的分類錯(cuò)誤與細(xì)菌和真菌之間的分類錯(cuò)誤具有相同的值。然后,由用戶基于他的用于生成訓(xùn)練光譜的微生物知識(shí)、實(shí)際光譜的結(jié)構(gòu)并且基于他的算法知識(shí)來(lái)修改“扁平” SVM算法,用于使其分類錯(cuò)誤的嚴(yán)重程度減少到最低限度。不考慮修改復(fù)雜算法的難度,這種修改高度依賴于用戶自身。
[0013]然后,盡管針對(duì)各微生物物種將存在用于構(gòu)建分類模型的約十個(gè)或幾十個(gè)不同的訓(xùn)練光譜,但該數(shù)量仍然非常低。不僅訓(xùn)練光譜的種類與物種的全部種類相比可能非常小,而且有限數(shù)量的實(shí)例也導(dǎo)致機(jī)械地惡化了各光譜的特異性。由此,所獲得的分類模型對(duì)于特定物種而言可能不準(zhǔn)確并且使未知微生物的后續(xù)預(yù)測(cè)步驟非常難。這里,再次由用戶來(lái)解釋通過(guò)鑒定所給出的結(jié)果以知曉其相關(guān)程度,從而最終從中推導(dǎo)出可利用的結(jié)果。
【發(fā)明內(nèi)容】
[0014]本發(fā)明的目的在于提供一種基于通過(guò)SVM型監(jiān)督學(xué)習(xí)方法所獲得的分類模型、利用譜測(cè)量法或光譜法來(lái)鑒定微生物的方法,其中該方法使鑒定錯(cuò)誤的嚴(yán)重程度減少到最低限度,由此使得能夠?qū)嵸|(zhì)上更加可靠地鑒定未知微生物。
[0015]為此,本發(fā)明的目的是一種通過(guò)譜測(cè)量法來(lái)從一組參考物種中鑒定未知微生物的方法,包括以下步驟:
[0016]■第一步驟,用于對(duì)參考物種的分類模型進(jìn)行監(jiān)督學(xué)習(xí),包括:
[0017]〇針對(duì)各物種,獲取屬于所述物種的所鑒定微生物的一組訓(xùn)練光譜;
[0018]〇將所獲取到的各訓(xùn)練光譜變換成根據(jù)預(yù)定格式的一組訓(xùn)練數(shù)據(jù)以供多類支持向量機(jī)型算法使用;以及
[0019]〇利用所述多類支持向量機(jī)型算法來(lái)將所述參考物種的所述分類模型確定為所述一組訓(xùn)練數(shù)據(jù)的函數(shù),
[0020]■第二步驟,用于預(yù)測(cè)要鑒定的未知微生物,包括:
[0021]〇獲取所述未知微生物的光譜;以及
[0022]〇根據(jù)所述光譜和所述分類模型來(lái)應(yīng)用預(yù)測(cè)模型,以推斷所述未知微生物所屬的至少一種類型的微生物。
[0023]根據(jù)本發(fā)明:
[0024]■對(duì)所獲取到的各訓(xùn)練光譜進(jìn)行變換包括:
[0025]〇將所述光譜變換成表示所述訓(xùn)練光譜的結(jié)構(gòu)的數(shù)據(jù)矢量;
[0026]〇通過(guò)利用預(yù)定矢量計(jì)算所述數(shù)據(jù)矢量的張量積來(lái)生成根據(jù)所述預(yù)定格式的數(shù)據(jù)的集合,其中所述預(yù)定矢量以雙射方式表示微生物的所述參考物種在所述參考物種的進(jìn)化和/或臨床表型方面的樹(shù)狀層級(jí)表示中的位置;以及
[0027]■所述分類模型是與所述層級(jí)表示的樹(shù)的節(jié)點(diǎn)相對(duì)應(yīng)的類的分類模型,其中所述多類支持向量機(jī)型算法包括通過(guò)對(duì)標(biāo)準(zhǔn)的在包括所謂的“損失函數(shù)”的余量約束下的單一優(yōu)化問(wèn)題進(jìn)行求解來(lái)確定所述分類模型的參數(shù),所述標(biāo)準(zhǔn)根據(jù)所述分類模型的參數(shù)來(lái)表示,所述損失函數(shù)對(duì)樹(shù)節(jié)點(diǎn)之間的鄰近性進(jìn)行量化。
[0028]換句話說(shuō),本發(fā)明在微生物的鑒定所用的分類模型的構(gòu)建時(shí)所使用的監(jiān)督學(xué)習(xí)算法中具體引入了迄今為止尚未考慮的先驗(yàn)信息、即微生物物種在進(jìn)化和/或臨床表型方面的層級(jí)樹(shù)狀表示。這種層級(jí)樹(shù)狀表示例如是分類樹(shù),其中該分類樹(shù)的結(jié)構(gòu)基本通過(guò)物種的進(jìn)化來(lái)引導(dǎo),并且因此該分類樹(shù)本質(zhì)上包含物種之間的相似性或鄰近性的概念。
[0029]因而,SVM算法不再是“扁平”算法,其中物種不再是可互換的。作為必然結(jié)果,該算法不再將分類錯(cuò)誤視為相同的。通過(guò)在要分類的物種之間建立鏈接,根據(jù)本發(fā)明的方法由此明確地和/或隱含地考慮到這些物種具有共同的信息因而還具有非共同信息這一事實(shí),因此有助于對(duì)物種進(jìn)行區(qū)分,并由此使分類錯(cuò)誤以及針對(duì)各物種的小量訓(xùn)練光譜的影響減少到最低限度。
[0030]通過(guò)由于張量積所引起的數(shù)據(jù)和變量的結(jié)構(gòu)化而將這種先驗(yàn)信息引入算法。因而,由于兩個(gè)物種在進(jìn)化和/或臨床表型方面接近,因此與這些物種相關(guān)聯(lián)的算法的數(shù)據(jù)和變量的結(jié)構(gòu)更加相似。由于SVM算法是目的在于在約束下優(yōu)化成本函數(shù)的算法,因而優(yōu)化必然考慮到與這些物種相關(guān)聯(lián)的結(jié)構(gòu)之間的相似性和差異性。
[0031]在某種程度上,可以陳述為通過(guò)數(shù)據(jù)和變量的結(jié)構(gòu)化來(lái)“定性地”考慮物種之間的鄰近性。根據(jù)本發(fā)明,還通過(guò)SVM算法的約束的定義中所涉及的損失函數(shù)的特定選擇“定量地”考慮物種之間的鄰近性。物種的這種“定量”鄰近性例如根據(jù)在參考物種的樹(shù)上所定義的“距離”來(lái)確定、或者可以完全獨(dú)立于該距離(例如,根據(jù)用戶的特定需求)來(lái)確定。由此得到分類錯(cuò)誤的最小化以及相對(duì)極小量的訓(xùn)練光譜的鑒定的魯棒性的增長(zhǎng)。
[0032]最終,分類模型現(xiàn)在涉及層級(jí)表示的樹(shù)(包括根和葉)的節(jié)點(diǎn)的分類,并且不再僅涉及物種。特別地,如果在對(duì)未知微生物的光譜進(jìn)行預(yù)測(cè)期間、難以以最小的確定程度確定微生物所屬的物種,則該預(yù)測(cè)能夠鑒定未知微生物屬于微生物的哪個(gè)更大群(屬、科、目…)。這些寶貴信息例如可用于實(shí)現(xiàn)所述鑒別群所特有的其它類型的微生物鑒定。
[0033]根據(jù)實(shí)施例,與節(jié)點(diǎn)對(duì)相關(guān)聯(lián)的損失函數(shù)等于所述層級(jí)表示的樹(shù)中的使節(jié)點(diǎn)分離的距離。由此,使算法針對(duì)所述樹(shù)優(yōu)化,并且損失函數(shù)不依賴于用戶的技能和知識(shí)。
[0034]根據(jù)實(shí)施例,與節(jié)點(diǎn)對(duì)相關(guān)聯(lián)的損失函數(shù)各自大于所述層級(jí)表示的樹(shù)中的使節(jié)點(diǎn)分離的距離。因而,在分類模型的構(gòu)建中可以引入其它類型的先驗(yàn)信息。特別地,可以通過(guò)選擇函數(shù)值大于樹(shù)中的距離的損失函數(shù)來(lái)強(qiáng)制進(jìn)行算法上物種的可分離性。
[0035]根據(jù)實(shí)施例,通過(guò)以下來(lái)計(jì)算所述損失函數(shù):
[0036]■將所述損失函數(shù)設(shè)置為初始值;
[0037]■實(shí)現(xiàn)包括以下的處理的至少一次迭代:
[0038]〇執(zhí)行所述多類支持向量機(jī)型算法,以根據(jù)所述損失函數(shù)的當(dāng)前值來(lái)計(jì)算分類模型;
[0039]〇根據(jù)所計(jì)算出的分類模型來(lái)應(yīng)用預(yù)測(cè)模型,并且將所述預(yù)測(cè)模型應(yīng)用至屬于所述參考物種的所鑒定微生物的一組校準(zhǔn)光譜,其中所述一組校準(zhǔn)光譜不同于所述一組訓(xùn)練光譜;
[0040]〇根據(jù)通過(guò)將所述預(yù)測(cè)模型應(yīng)用于所述一組校準(zhǔn)光譜所返回的結(jié)果來(lái)針對(duì)各物種計(jì)算分類用性能標(biāo)準(zhǔn);以及
[0041]〇通過(guò)根據(jù)所計(jì)算出的性能標(biāo)準(zhǔn)修改所述損失函數(shù)的當(dāng)前值來(lái)計(jì)算所述損失函數(shù)的新的當(dāng)前值。
[0042]特別地,損失函數(shù)使得能夠設(shè)置與訓(xùn)練光譜和/或所使用的SVM算法有關(guān)的物種的可分離性。特別地,可以檢測(cè)可分離性低的物種并且實(shí)現(xiàn)修改損失函數(shù)以提高該可分離性的算法。
[0043]在第一變形中,
[0044]■所述性能標(biāo)準(zhǔn)的計(jì)算包括計(jì)算混淆矩陣作為通過(guò)應(yīng)用所述預(yù)測(cè)模型所返回的結(jié)果的函數(shù);以及
[0045]■計(jì)算所述損失函數(shù)的新的當(dāng)前值作為所述混淆矩陣的函數(shù)。
[0046]由此,對(duì)引入了層級(jí)表示的樹(shù)中所包含的分類法和/或臨床表型信息的影響進(jìn)行評(píng)估,并且通過(guò)選擇損失函數(shù)作為該影響的函數(shù)來(lái)使其余的錯(cuò)誤或分類缺陷減少到最低限度。
[0047]根據(jù)第二變形,
[0048]■所述性能標(biāo)準(zhǔn)的計(jì)算包括計(jì)算混淆矩陣作為通過(guò)應(yīng)用所述預(yù)測(cè)模型所返回的結(jié)果的函數(shù);以及
[0049]■所述損失函數(shù)的新的當(dāng)前值各自與第一損失矩陣和第二矩陣的組合的分量相對(duì)應(yīng),其中所述第一損失矩陣列出所述層級(jí)表示的樹(shù)中的使所述參考物種分離的距離,以及所述第二矩陣是作為所述混淆矩陣的函數(shù)所計(jì)算出的。
[0050]正如在第一變形中那樣,在將與樹(shù)中物種之間的距離有關(guān)的定量信息保持在損失函數(shù)中的情況下,對(duì)其余的錯(cuò)誤和分類缺陷進(jìn)行校正。
[0051]特別地,根據(jù)以下關(guān)系式來(lái)計(jì)算所述損失函數(shù)的當(dāng)前值:
[0052]Δ (yi7 k) = α X Ω (yi7 k) + (l_a ) X Δ confus1n (yi7 k)
[0053]其中,Δ (yj, k)是針對(duì)所述樹(shù)的節(jié)點(diǎn)對(duì)(y” k)的所述損失函數(shù)的當(dāng)前值,Ω (Yi) k)和A_fustim(yi,k)分別是所述第一損失矩陣和所述第二矩陣,并且α是O?I的標(biāo)量。更特別地,標(biāo)量α為0.25?0.75、尤其是0.25?0.5。
[0054]這種凸組合提供了鑒定的高準(zhǔn)確性和鑒定錯(cuò)誤的嚴(yán)重程度的最小化。
[0055]更特別地,將所述損失函數(shù)的所述初始值針對(duì)不同節(jié)點(diǎn)的對(duì)設(shè)置為0,并且針對(duì)其它情況設(shè)置為I。
[0056]根據(jù)實(shí)施例,根據(jù)以下關(guān)系式來(lái)確定所述層級(jí)表示的樹(shù)中的使兩個(gè)節(jié)點(diǎn)ηι、n2分離的距離Ω:
[0057]0(ιι, ,W2) = Jeptkini) +.depth(n,).- 2 x (kjpth( LCAi,n2))
[0058]其中,depth(Ii1)和 depth (n2)分別是節(jié)點(diǎn) Ii1、n2 的深度,以及 depth (LCAfc1, n2))是所述樹(shù)中的節(jié)點(diǎn)I^n2的最近共同祖先LCAOi1, n2)的深度。這樣定義的距離Ω是在樹(shù)中能夠定義的最小距離。
[0059]根據(jù)實(shí)施例,所述預(yù)測(cè)模型是針對(duì)要鑒定的所述未知微生物所屬的樹(shù)的節(jié)點(diǎn)的預(yù)測(cè)模型。因而,可以預(yù)測(cè)作為與物種相對(duì)應(yīng)的葉的祖先的節(jié)點(diǎn)。
[0060]根據(jù)實(shí)施例,在以下約束下,
[0061]ξ; > 0.Vi e [I,:V|
[0062](w, V(x:1,yt)) > (w, Ψ(Χ(Μ) + f (A(JljIr)Jf), Vi € [I,N], V* € Y\y,
[0063]根據(jù)以下關(guān)系式用公式表示所述優(yōu)化問(wèn)題:
I
[0064]
j...j
[0065]其中,在這些表達(dá)式中:
[0066]■ N是訓(xùn)練光譜的數(shù)量;
[0067]■ K是參考物種的數(shù)量;
[0068].Τ是所述層級(jí)表示的樹(shù)中的節(jié)點(diǎn)的數(shù)量,并且Y= [1,Τ]是用作所述層級(jí)表示的樹(shù)的節(jié)點(diǎn)的標(biāo)記編號(hào)的整數(shù)的集合;
[0069]■ r e是分別與所述樹(shù)的節(jié)點(diǎn)相關(guān)聯(lián)的權(quán)重矢量A、
的串接(W1W2...?Τ)Τ,其中P是表示所述訓(xùn)練光譜的結(jié)構(gòu)的矢量的基數(shù);
[0070]■ C是具有預(yù)定設(shè)置的標(biāo)量;
[0071]_Vi e [1,#],&1是標(biāo)量;
[0072]· X = {xj , i e [I, N]是表示所述訓(xùn)練光譜的矢量A e把的集合;
[0073]· Vi e [I /V] yi是與訓(xùn)練矢量Xi的參考物種相對(duì)應(yīng)的所述層級(jí)表示的樹(shù)中的節(jié)點(diǎn)的標(biāo)記;
[0074]· Ψ(χ, k) = X <S> A{k),其中:
[0075]〇X e 是表示訓(xùn)練光譜的矢量;
[0076]OK{k) e H是以雙射方式表示所述層級(jí)表示的樹(shù)中的參考節(jié)點(diǎn)k e Y的位置的預(yù)定矢量;以及
[0077]O?: X、.)?·'是空間!T和空間之間的張量積;
[0078]· <ff, Ψ >是在空間上的標(biāo)量積;
[0079]· Δ (Yi, k)是與所述層級(jí)表示的樹(shù)中的標(biāo)記分別為Ii和k的節(jié)點(diǎn)對(duì)相關(guān)聯(lián)的損失函數(shù);
[0080]· f(A (Yi,k), D是標(biāo)量L和損失函數(shù)Λ (yi,k)的預(yù)定函數(shù);以及
[0081]·符號(hào)“\”指定排除。
[0082]在第一變形中,根據(jù)以下關(guān)系式來(lái)定義函數(shù)f(A (Yi,k), Ii):
[0083]f(A (Yi, k),ξ,) = Δ (Yi, k)-li0在第二變形中,根據(jù)以下關(guān)系式來(lái)定義函數(shù)
【權(quán)利要求】
1.一種通過(guò)譜測(cè)量法來(lái)從一組參考物種中鑒定未知微生物的鑒定方法,包括以下步驟: ■第一步驟,用于對(duì)參考物種的分類模型進(jìn)行監(jiān)督學(xué)習(xí),包括: 〇針對(duì)各物種,獲取屬于所述物種的所鑒定微生物的一組訓(xùn)練譜; O將所獲取到的各訓(xùn)練譜變換成根據(jù)預(yù)定格式的一組訓(xùn)練數(shù)據(jù)以供多類支持向量機(jī)型算法使用;以及 〇利用所述多類支持向量機(jī)型算法來(lái)將所述參考物種的所述分類模型確定為所述一組訓(xùn)練數(shù)據(jù)的函數(shù), ■第二步驟,用于預(yù)測(cè)要鑒定的未知微生物,包括: 〇獲取所述未知微生物的譜;以及 〇根據(jù)所述譜和所述分類模型來(lái)應(yīng)用預(yù)測(cè)模型,以推斷所述未知微生物所屬的至少一種類型的微生物, 其特征在于: ■對(duì)所獲取到的各訓(xùn)練譜進(jìn)行變換包括: 〇將所述譜變換成表示所述訓(xùn)練譜的結(jié)構(gòu)的數(shù)據(jù)矢量; 〇通過(guò)利用預(yù)定矢量計(jì)算所述數(shù)據(jù)矢量的張量積來(lái)生成根據(jù)所述預(yù)定格式的一組訓(xùn)練數(shù)據(jù),其中所述預(yù)定矢量以雙射方式表示微生物的所述參考物種在所述參考物種的進(jìn)化和/或臨床表型方面的樹(shù)狀層級(jí)表示中的位置;以及 ■所述分類模型是與所述層級(jí)表示的樹(shù)的節(jié)點(diǎn)相對(duì)應(yīng)的類的分類模型,其中所述多類支持向量機(jī)型算法包括通過(guò)對(duì)標(biāo)準(zhǔn)的在包括所謂的“損失函數(shù)”的余量約束下的單一優(yōu)化問(wèn)題進(jìn)行求解來(lái)確定所述分類模型的參數(shù),所述標(biāo)準(zhǔn)根據(jù)所述分類模型的參數(shù)來(lái)表示,所述損失函數(shù)對(duì)樹(shù)節(jié)點(diǎn)之間的鄰近性進(jìn)行量化。
2.根據(jù)權(quán)利要求1所述的鑒定方法,其特征在于,與節(jié)點(diǎn)對(duì)相關(guān)聯(lián)的損失函數(shù)等于所述層級(jí)表示的樹(shù)中的使節(jié)點(diǎn)分離的距離。
3.根據(jù)權(quán)利要求1或2所述的鑒定方法,其特征在于,與節(jié)點(diǎn)對(duì)相關(guān)聯(lián)的損失函數(shù)各自大于所述層級(jí)表示的樹(shù)中的使節(jié)點(diǎn)分離的距離。
4.根據(jù)權(quán)利要求1、2或3所述的鑒定方法,其特征在于,通過(guò)以下步驟來(lái)計(jì)算所述損失函數(shù): ■將所述損失函數(shù)設(shè)置為初始值; ■實(shí)現(xiàn)以下處理的至少一次迭代,該處理包括: O執(zhí)行所述多類支持向量機(jī)型算法,以根據(jù)所述損失函數(shù)的當(dāng)前值來(lái)計(jì)算分類模型;O根據(jù)所計(jì)算出的分類模型來(lái)應(yīng)用預(yù)測(cè)模型,并且將所述預(yù)測(cè)模型應(yīng)用至屬于所述參考物種的所鑒定微生物的一組校準(zhǔn)譜,其中所述一組校準(zhǔn)譜不同于所述一組訓(xùn)練譜; 〇根據(jù)通過(guò)將所述預(yù)測(cè)模型應(yīng)用于所述一組校準(zhǔn)譜所返回的結(jié)果來(lái)針對(duì)各物種計(jì)算分類用性能標(biāo)準(zhǔn);以及 〇通過(guò)根據(jù)所計(jì)算出的性能標(biāo)準(zhǔn)修改所述損失函數(shù)的當(dāng)前值來(lái)計(jì)算所述損失函數(shù)的新的當(dāng)前值。
5.根據(jù)權(quán)利要求4所述的鑒定方法,其特征在于, ■所述性能標(biāo)準(zhǔn)的計(jì)算包括計(jì)算混淆矩陣作為通過(guò)應(yīng)用所述預(yù)測(cè)模型所返回的結(jié)果的函數(shù);以及 ■計(jì)算所述損失函數(shù)的新的當(dāng)前值作為所述混淆矩陣的函數(shù)。
6.根據(jù)權(quán)利要求4所述的鑒定方法,其特征在于, ■所述性能標(biāo)準(zhǔn)的計(jì)算包括計(jì)算混淆矩陣作為通過(guò)應(yīng)用所述預(yù)測(cè)模型所返回的結(jié)果的函數(shù);以及 ■所述損失函數(shù)的新的當(dāng)前值各自與第一損失矩陣和第二矩陣的組合的分量相對(duì)應(yīng),其中所述第一損失矩陣列出所述層級(jí)表示的樹(shù)中的使所述參考物種分離的距離,以及所述第二矩陣是作為所述混淆矩陣的函數(shù)所計(jì)算出的。
7.根據(jù)權(quán)利要求6所述的鑒定方法,其特征在于,根據(jù)以下關(guān)系式來(lái)計(jì)算所述損失函數(shù)的當(dāng)前值:
A(yi,k) = α X Ω (Yi, k) + (l-a ) X Δ confus1n (Yi, k) 其中,Δ (Yi, k)是針對(duì)所述樹(shù)的節(jié)點(diǎn)對(duì)(y” k)的所述損失函數(shù)的當(dāng)前值,Ω (ylt k)和Aconfust1n(Yi, k)分別是所述第一損失矩陣和所述第二矩陣,并且α是O?I的標(biāo)量。
8.根據(jù)權(quán)利要求7所述的鑒定方法,其特征在于,標(biāo)量α為0.25?0.75、特別為0.25 ?0.5。
9.根據(jù)權(quán)利要求4至8中任一項(xiàng)所述的鑒定方法,其特征在于,將所述損失函數(shù)的所述初始值針對(duì)不同節(jié)點(diǎn)的對(duì)設(shè)置為0,并且針對(duì)其它情況設(shè)置為I。
10.根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的鑒定方法,其特征在于,根據(jù)以下關(guān)系式來(lái)確定所述層級(jí)表示的樹(shù)中的使兩個(gè)節(jié)Anpn2分離的距離Ω:
Ω Oi1, n2) = depth (Ii1) +depth (n2) _2 X depth (LCA Oi1, n2)) 其中,depth (Ii1)和depth (n2)分別是節(jié)點(diǎn)Ii1^n2的深度,以及depth (LCA Oi1, n2))是所述樹(shù)中的節(jié)點(diǎn)Ii1、n2的最近共同祖先LCAOi1, n2)的深度。
11.根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的鑒定方法,其特征在于,所述預(yù)測(cè)模型是針對(duì)要鑒定的所述未知微生物所屬的樹(shù)的節(jié)點(diǎn)的預(yù)測(cè)模型。
12.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的鑒定方法,其特征在于,在以下約束下,
ξ,>{r,Λ I) > (W9 ψ(Χ?, k))+ZiMyi,k % 4), w € ρ,ν\ 稱 € r \ Α 根據(jù)以下關(guān)系式用公式表示所述優(yōu)化問(wèn)題: rainijrf+ (:Χ§
; I 其中,在這些表達(dá)式中: ■N是訓(xùn)練譜的數(shù)量; ■K是參考物種的數(shù)量; ■T是所述層級(jí)表示的樹(shù)中的節(jié)點(diǎn)的數(shù)量,并且Y = [1,Τ]是用作所述層級(jí)表示的樹(shù)的節(jié)點(diǎn)的標(biāo)記編號(hào)的整數(shù)的集合; ■r e識(shí)77〃是分別與所述樹(shù)的節(jié)點(diǎn)相關(guān)聯(lián)的權(quán)重矢量『1、w2 '...、『;■ 的串接(W1W2...WT)T,其中P是表示所述訓(xùn)練譜的結(jié)構(gòu)的矢量的基數(shù);C是具有預(yù)定設(shè)置的標(biāo)量; Vi e Li, AJ 5 I i 是標(biāo)量; X = {xj,i e [1,N]是表示所述訓(xùn)練譜的矢量A e f的集合;Vi e [1,Λ],Ji是與訓(xùn)練矢量Xi的參考物種相對(duì)應(yīng)的所述層級(jí)表示的樹(shù)中的節(jié)點(diǎn)的標(biāo)記; Ψ(χ, k) = X? A(A),其中: Oxe沢〃是表示訓(xùn)練譜的矢量; OA(A) e 是以雙射方式表示所述層級(jí)表示的樹(shù)中的參考節(jié)點(diǎn)ke Y的位置的預(yù)定矢量;以及 〇?: 9T X9TxF是空間9T和空間之間的張量積; 〈W, Ψ>是在空間9V F上的標(biāo)量積;Δ (Yi, k)是與所述層級(jí)表示的樹(shù)中的標(biāo)記分別為Ii和k的節(jié)點(diǎn)對(duì)相關(guān)聯(lián)的損失函數(shù); f(A(Yi,k), Ii)是標(biāo)量L和損失函數(shù)A(yi,k)的預(yù)定函數(shù);以及 符號(hào)“\”指定排除。
13.根據(jù)權(quán)利要求12所述的鑒定方法,其特征在于,根據(jù)以下關(guān)系式來(lái)定義函數(shù)f (Δ (Yi, k), ξ i):
f (Δ (yi; k), ξ i) = Δ (yj, k)- ξ i0
14.根據(jù)權(quán)利要求12所述的鑒定方法,其特征在于,根據(jù)以下關(guān)系式來(lái)定義函數(shù)f (Δ (Yi, k), ξ i):
15.根據(jù)權(quán)利要求12、13或14所述的鑒定方法,其特征在于,預(yù)測(cè)步驟包括: 根據(jù)所述多類支持向量機(jī)型算法的所述預(yù)定格式來(lái)將要鑒定的所述未知微生物的譜變換成矢量Xm ; 根據(jù)以下關(guān)系式來(lái)應(yīng)用預(yù)測(cè)模型:
Tident = argmaxk(s (xm, k)) k e [I, T] 其中,Tident是針對(duì)所述未知微生物所鑒定出的所述層級(jí)表示的節(jié)點(diǎn)的標(biāo)記編號(hào), s (xffl, k) =〈W,Ψ (xffl, k)> 并且
16.一種用于通過(guò)質(zhì)譜法來(lái)鑒定微生物的裝置,包括: 譜儀,其能夠生成要鑒定的微生物的質(zhì)譜;以及 計(jì)算單元,其能夠通過(guò)實(shí)現(xiàn)權(quán)利要求1至15任一項(xiàng)中的預(yù)測(cè)步驟,來(lái)鑒定與所述譜儀所生成的譜相關(guān)聯(lián)的微生物。
【文檔編號(hào)】G06K9/62GK104185850SQ201380016386
【公開(kāi)日】2014年12月3日 申請(qǐng)日期:2013年4月2日 優(yōu)先權(quán)日:2012年4月4日
【發(fā)明者】K·沃尼爾, P·馬埃, J-B·沃瑞厄拉斯 申請(qǐng)人:生物梅里埃有限公司