一種標志物相關(guān)性檢測方法以及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物技術(shù)領(lǐng)域,尤其涉及一種標志物相關(guān)性檢測方法以及裝置。
【背景技術(shù)】
[0002] 基因表達譜等生物數(shù)據(jù)往往具有幾萬甚至數(shù)十萬個標志物,其中,標志物反應(yīng)了 生物的一方面化學、生物類物質(zhì)的性質(zhì)。對這些標志物進行相關(guān)性檢測分析是很多研宄的 基礎(chǔ)。在現(xiàn)有技術(shù)中,通常是在二維空間利用相似性矩陣來表達標志物之間的關(guān)系。其中, 相似性矩陣的行坐標a和列坐標b都是標志物,而相似性矩陣中的第a行第b列的元素值, 代表第a個標志物和第b個標志物之間的相似性。相似性的度量往往有很多種,比如相關(guān) 系數(shù),歐拉距離,余弦函數(shù)等。
[0003] 在這種方式下,使用者每次只能觀察兩個標志物之間的相關(guān)性,例如,要觀察第a 個標志物和第b個標志物之間的相似性,可以通過觀察相似性矩陣中的第a行第b列的元 素值。但是,如果要求同時觀察三個或者更多的標志物之間的相關(guān)性,則無法通過二維的 相似矩陣進行觀察,而必須在更高維的空間才能進行觀察。例如,要觀察三個標志物的相 關(guān)性,則必須在三維空間進行觀察;要觀察四個標志物的相關(guān)性,則必須在三維空間進行觀 察,等等。所以,當生物數(shù)據(jù)包含幾萬甚至數(shù)十萬個標志物,空間維數(shù)將復(fù)雜得超乎思維可 以想象的程度。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實施例所要解決的技術(shù)問題在于,提供一種標志物相關(guān)性檢測方法以及裝 置,實現(xiàn)了將所有標志物的相關(guān)性降維至可視化的低維度進行顯示。
[0005] 本發(fā)明第一方面提供了一種標志物相關(guān)性檢測方法,包括:
[0006] 根據(jù)第i個標志物的多個采樣樣本計算所述第i個標志物的費舍爾比率,其中,i 為正整數(shù),i小于或等于M,M為所述標志物的數(shù)量,N為所述采樣樣本的數(shù)量;
[0007] 重復(fù)上一個步驟,直到求出每個的標志物的費舍爾比率;
[0008] 根據(jù)第a個標志物的多個采樣樣本和第b個標志物的多個采樣樣本計算出第a個 標志物和第b個標志物之間的距離,其中,a,b均為正整數(shù),a,b均小于或等于M;
[0009] 重復(fù)上一個步驟,直到求出任意兩個標志物之間的距離;
[0010] 將所有的兩個標志物之間的距離和降維后的維度作為多維標度算法的輸入,從而 獲得每個標志物的坐標值;
[0011] 根據(jù)每個標志物的費舍爾比率獲得每個標志物在散點圖上的大小,并根據(jù)每個標 志物的坐標值獲得每個標志物在散點圖上的坐標。
[0012] 其中,根據(jù)第i個標志物的多個采樣樣本計算所述第i個標志物的費舍爾比率之 前包括:
[0013] 根據(jù)所述第i個標志物的多個采樣樣本進行歸一化計算,以得到多個歸一化后的 采樣樣本;
[0014] 根據(jù)第i個標志物的多個采樣樣本計算所述第i個標志物的費舍爾比率具體為:
[0015] 根據(jù)第i個標志物的多個歸一化后的采樣樣本計算所述第i個標志物的費舍爾比 率。
[0016] 其中,根據(jù)所述第i個標志物的多個采樣樣本進行歸一化計算,以得到多個歸一 化后的采樣樣本具體為:
[0017] 根據(jù)
【主權(quán)項】
1. 一種標志物相關(guān)性檢測方法,其特征在于,包括: 根據(jù)第i個標志物的多個采樣樣本計算所述第i個標志物的費舍爾比率,其中,i為正 整數(shù),i小于或等于M,M為所述標志物的數(shù)量,N為所述采樣樣本的數(shù)量; 重復(fù)上一個步驟,直到求出每個標志物的費舍爾比率; 根據(jù)第a個標志物的多個采樣樣本和第b個標志物的多個采樣樣本計算出第a個標志 物和第b個標志物之間的距離,其中,a,b均為正整數(shù),a,b均小于或等于M; 重復(fù)上一個步驟,直到求出任意兩個標志物之間的距離; 將所有的兩個標志物之間的距離和降維后的維度作為多維標度算法的輸入,從而獲得 每個標志物的坐標值; 根據(jù)每個標志物的費舍爾比率獲得每個標志物在散點圖上的大小,并根據(jù)每個標志物 的坐標值獲得每個標志物在散點圖上的坐標。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)第i個標志物的多個采樣樣本計算所 述第i個標志物的費舍爾比率之前包括: 根據(jù)所述第i個標志物的多個采樣樣本進行歸一化計算,以得到多個歸一化后的采樣 樣本; 根據(jù)第i個標志物的多個采樣樣本計算所述第i個標志物的費舍爾比率具體為: 根據(jù)第i個標志物的多個歸一化后的采樣樣本計算所述第i個標志物的費舍爾比率。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述第i個標志物的多個采樣樣本進 行歸一化計算,以得到多個歸一化后的采樣樣本具體為: 根據(jù)尤=進行歸一化計算,以得到多個歸一化后的采樣樣本,其中,\為所述第 i個標志物的多個采樣樣本所組成的向量,^為所述第i個標志物的多個采樣樣本的平均 值,P所述第i個標志物的多個采樣樣本的標準差,X' 多個歸一化后的采樣樣本所 組成的向量。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)第i個標志物的多個歸一化后的采樣 樣本計算所沭第i個標志物的費舍爾比率具體為: 根振
R出第i個標志物中類別為〇的采樣樣本的平均值,其中,
差,其中,%為第i個標志物中類別為〇的采樣樣本的標準差; j為第i個標志物中采樣樣本的序號,為第i個標志物中第j個采樣樣本的類別,當Yj = 〇時,第j個采樣樣本的類別為〇,當滬=1時,第j個采樣樣本的類別為1,為第i個標 志物的第j個歸一化后的采樣樣本的值,為第i個標志物中類別為0的采樣樣本的平均 值; 根據(jù) R出第i個標志物中類別為〇的采樣樣本的標準 根據(jù)f
求出第i個標志物中類別為1的采樣樣本的平均值,其中, 為第i個標志物中類別為1的采樣樣本的平均值; 根:
:出第i個標志物中類別為1的采樣樣本的標準 差,其中,Vl為第i個標志物中類別為1的采樣樣本的標準差; 根據(jù)Fishe:
.計算第i個標志物的費舍爾比率。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)第a個標志物的多個采樣樣本和第b 個標志物的多個采樣樣本計算出第a個標志物和第b個標志物之間的距離具體為: 根注
^算出第a個標志物和第b個標志物之間的距離,其中,j 為采樣樣本的序號,X;/為所述第a個標志物第j個歸一化后的采樣樣本的值,Xf為所述第b個標志物第j個歸一化后的采樣樣本的值,Dab為第a個標志物和第b個標志物之間的距 離。
6. 根據(jù)權(quán)利要求1至5任一權(quán)利要求所述的方法,其特征在于,所述降維后的維度為2 維或者3維。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,每個標志物的費舍爾比率與每個標志物 在散點圖上的大小成正比例。
8. -種標志物相關(guān)性檢測裝置,其特征在于,包括: 費舍爾比率模塊,用于根據(jù)第i個標志物的多個采樣樣本計算所述第i個標志物的費 舍爾比率,其中,i為正整數(shù),i小于或等于M,M為所述標志物的數(shù)量,N為所述采樣樣本的 數(shù)量; 距離模塊,用于根據(jù)第a個標志物的多個采樣樣本和第b個標志物的多個采樣樣本計 算出第a個標志物和第b個標志物之間的距離,其中,a,b均為正整數(shù),a,b均小于或等于 M; 坐標值模塊,用于將所有的兩個標志物之間的距離和降維后的維度作為多維標度算法 的輸入,從而獲得每個標志物的坐標值; 散點圖模塊,用于根據(jù)每個標志物的費舍爾比率獲得每個標志物在散點圖上的大小, 并根據(jù)每個標志物的坐標值獲得每個標志物在散點圖上的坐標。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括歸一化模塊, 所述歸一化模塊用于根據(jù)所述第i個標志物的多個采樣樣本進行歸一化計算,以得到 多個歸一化后的米樣樣本; 所述費舍爾比率模塊用于根據(jù)第i個標志物的多個歸一化后的采樣樣本計算所述第i個標志物的費舍爾比率。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于, X. -u- 所述歸一化模塊具體用于根據(jù)&~"進行歸一化計算,以得到多個歸一化后的 pi 采樣樣本,其中,\為所述第i個標志物的多個采樣樣本所組成的向量,U,為所述第i個標 志物的多個采樣樣本的平均值,p所述第i個標志物的多個采樣樣本的標準差,X'為 多個歸一化后的采樣樣本所組成的向量。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述費舍爾比率模塊包括: 第一計算單元,用于根_
求出第i個標志物中類別為〇的采樣
的采樣樣本的標準差,其中,%為第i個標志物中類別為〇的采樣樣本的標準差; 樣本的平均值,其中,j為第i個標志物中采樣樣本的序號,為第i個標志物中第j個采 樣樣本的類別,當滬=0時,第j個采樣樣本的類別為0,當1時,第j個采樣樣本的 類別為1,X/為第i個標志物的第j個歸一化后的采樣樣本的值,m(l為第i個標志物中類 別為〇的采樣樣本的平均值? 第二計算單元,用于根彳 R出第i個標志物中類別為〇 第三計算單元,用于根#
-求出第i個標志物中類別為1的采樣 樣本的平均值,其中,mi為第i個標志物中類別為1的采樣樣本的平均值; 第四計算單元,用于相
求出第i個標志物中類別為1 的采樣樣本的標準差,其中,Vl為第i個標志物中類別為1的采樣樣本的標準差; 第五計算單元,用于根據(jù)Fishes
^算第i個標志物的費舍爾比率。
12. 根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述距離模塊具體用于根#
計算出第a個標志物和第b個標志 物之間的距離,其中,j為采樣樣本的序號,為所述第a個標志物第j個歸一化后的采樣 樣本的值,X;/為所述第b個標志物第j個歸一化后的采樣樣本的值,Dab為第a個標志物和 第b個標志物之間的距離。
13. 根據(jù)權(quán)利要求8至12任一權(quán)利要求所述的裝置,其特征在于,所述降維后的維度為 2維或者3維。
14.根據(jù)權(quán)利要求8所述的裝置,其特征在于,每個標志物的費舍爾比率與每個標志物 在散點圖上的大小成正比例。
【專利摘要】本發(fā)明公開了一種標志物相關(guān)性檢測方法以及裝置。所述方法包括:根據(jù)第i個標志物的多個采樣樣本計算第i個標志物的費舍爾比率;重復(fù)上一個步驟,直到求出每個的標志物的費舍爾比率;根據(jù)第a個標志物的多個采樣樣本和第b個標志物的多個采樣樣本計算出第a個標志物和第b個標志物之間的距離;重復(fù)上一個步驟,直到求出任意兩個標志物之間的距離;將所有的兩個標志物之間的距離和降維后的維度作為多維標度算法的輸入,從而獲得每個標志物的坐標值;根據(jù)每個標志物的費舍爾比率獲得每個標志物在散點圖上的大小,并根據(jù)每個標志物的坐標值獲得每個標志物在散點圖上的坐標。采用本發(fā)明,可將標志物的相關(guān)性降維至可視化的低維度進行顯示。
【IPC分類】G06F19-20
【公開號】CN104615913
【申請?zhí)枴緾N201410855625
【發(fā)明人】周豐豐, 孟慶漢
【申請人】深圳先進技術(shù)研究院
【公開日】2015年5月13日
【申請日】2014年12月31日