亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于血小板差異表達(dá)基因標(biāo)記的分類方法、裝置及系統(tǒng)與流程

文檔序號:12669654閱讀:334來源:國知局
基于血小板差異表達(dá)基因標(biāo)記的分類方法、裝置及系統(tǒng)與流程

本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及一種基于血小板差異表達(dá)基因標(biāo)記的分類方法、裝置及系統(tǒng)。



背景技術(shù):

轉(zhuǎn)錄組是細(xì)胞內(nèi)所有基因產(chǎn)生的信使核糖核酸的集合,對細(xì)胞的正常運(yùn)轉(zhuǎn)有重要的作用。在人類或其他生物體內(nèi),幾乎所有的細(xì)胞都含有同樣的一套基因,但是,其表達(dá)的模式卻與細(xì)胞的類型、所屬的器官組織、所處的生理條件或所在的樣本個體密切相關(guān),因此,通過解讀和比較轉(zhuǎn)錄組提供的信息,研究人員能夠鑒別出兩組具有不同屬性的個體之間的差異表達(dá)基因標(biāo)記,并基于差異表達(dá)基因標(biāo)記的表達(dá)模式,對未知的細(xì)胞或組織或個體進(jìn)行準(zhǔn)確的分類。

血小板是血液的重要組成部分,其主要功效是凝聚于血管傷口處止血。血小板細(xì)胞來源于骨髓細(xì)胞,并不含有細(xì)胞核。長期以來,人們普遍理解為血小板內(nèi)核糖核酸的種類和表達(dá)譜比較穩(wěn)定,但最新的一系列研究表明血小板有可能在對于某些疾病包括腫瘤的全身性或局部性反應(yīng)中起重要作用。通過對外界刺激信號的應(yīng)答或者直接吞噬循環(huán)系統(tǒng)內(nèi)的信使核糖核酸,血小板轉(zhuǎn)錄組能夠呈現(xiàn)出特異的表達(dá)譜,因而解讀血小板轉(zhuǎn)錄組的基因標(biāo)記特征在某些疾病早期診斷方面有廣泛的應(yīng)用前景。

目前,現(xiàn)有的差異表達(dá)基因標(biāo)記的鑒定方法靈敏度較差,導(dǎo)致基于差異表達(dá)基因標(biāo)記的未知個體分類結(jié)果精度不夠,造成后續(xù)的應(yīng)用受限。

如何能夠快速、準(zhǔn)確地鑒別出針對特定組群的差異表達(dá)基因標(biāo)記,提高該組群相應(yīng)個體的分類精確度,是本領(lǐng)域技術(shù)人員亟需解決的問題。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供基于血小板差異表達(dá)基因標(biāo)記的分類方法、裝置及系統(tǒng),能夠快速、準(zhǔn)確地鑒別出針對特定組群的差異表達(dá)基因標(biāo)記,提高該組群相應(yīng)個體的分類精確度。

第一方面,本發(fā)明提供一種基于血小板差異表達(dá)基因標(biāo)記的分類方法,該方法包括:

信息獲取步驟:獲取目標(biāo)個體的測序讀取序列;

分析對比步驟:將所述測序讀取序列和預(yù)獲取的人類基因組進(jìn)行對比分別,獲取對比分析結(jié)果;

信息顯示步驟:顯示所述對比分析結(jié)果。

本發(fā)明提供另一種基于血小板差異表達(dá)基因標(biāo)記的分類方法,該方法包括:正負(fù)樣本集構(gòu)建步驟:根據(jù)二元性特征,將預(yù)獲取的目標(biāo)樣本分成正樣本集和負(fù)樣本集,正樣本集和負(fù)樣本集的數(shù)量均滿足預(yù)定數(shù)量要求;

基因測序讀取序列獲取步驟:對正樣本集和負(fù)樣本集進(jìn)行血小板轉(zhuǎn)錄組測序,分別獲取正樣本基因測序讀取序列和負(fù)樣本基因測序讀取序列;

預(yù)處理步驟:將正樣本基因測序讀取序列與預(yù)獲得的測序銜接序列進(jìn)行比對,刪除正樣本基因測序讀取序列中與測序銜接序列比對一致的序列部分,形成初始正樣本測序讀取序列;

檢驗初始正樣本測序讀取序列中的未知堿基比例和低質(zhì)量堿基比例,保留未知堿基比例小于第一閾值,且低質(zhì)量堿基比例小于第二閾值的初始正樣本測序讀取序列,形成正樣本測序讀取序列集合;

將負(fù)樣本基因測序讀取序列與測序銜接序列進(jìn)行比對,刪除負(fù)樣本基因測序讀取序列中與測序銜接序列比對一致的序列部分,形成初始負(fù)樣本測序讀取序列;

檢驗初始負(fù)樣本測序讀取序列中的未知堿基比例和低質(zhì)量堿基比例,保留未知堿基比例小于第一閾值,且低質(zhì)量堿基比例小于第二閾值的初始負(fù)樣本測序讀取序列,形成負(fù)樣本測序讀取序列集合;

基因表達(dá)量估算步驟:根據(jù)后綴陣列搜索算法和序列拆分/搜索/延伸策略,將正樣本測序讀取序列集合和負(fù)樣本測序讀取序列集合分別與預(yù)獲取的人類基因組進(jìn)行比對,分別獲取正樣本測序讀取序列對比結(jié)果和負(fù)樣本測序讀取序列對比結(jié)果;

根據(jù)期望最大化算法和正樣本測序讀取序列對比結(jié)果,確定正樣本基因表達(dá)估計值;

根據(jù)期望最大化算法和負(fù)樣本測序讀取序列對比結(jié)果,確定負(fù)樣本基因表達(dá)估計值;

差異表達(dá)基因標(biāo)記確定步驟:采用線性統(tǒng)計模型和經(jīng)驗貝葉斯方法,將正樣本基因表達(dá)估計值和負(fù)樣本基因表達(dá)估計值進(jìn)行比較,獲取表達(dá)差異值,并將表達(dá)差異值低于第三閾值的基因,作為差異表達(dá)基因標(biāo)記;

超平面表達(dá)式構(gòu)建步驟:獲取每個差異表達(dá)基因標(biāo)記在正樣本集中的正樣本基因表達(dá)估計值,作為正樣本標(biāo)記基因表達(dá)估計值;

獲取每個差異表達(dá)基因標(biāo)記在負(fù)樣本集中的負(fù)樣本基因表達(dá)估計值,作為負(fù)樣本標(biāo)記基因表達(dá)估計值;

根據(jù)正樣本標(biāo)記基因表達(dá)估計值和負(fù)樣本標(biāo)記基因表達(dá)估計值,構(gòu)建超平面表達(dá)式:其中,為系數(shù),b為偏移量,為超平面的變量;

量化分類步驟:根據(jù)超平面表達(dá)式和預(yù)獲取實體的基因表達(dá)量估計值獲取該實體的量化分類結(jié)果,并根據(jù)顯示模式,進(jìn)行顯示。

進(jìn)一步地,根據(jù)正樣本標(biāo)記基因表達(dá)估計值和負(fù)樣本標(biāo)記基因表達(dá)估計值,構(gòu)建超平面表達(dá)式,具體包括:構(gòu)建超平面表達(dá)式:使得其中,為第i個樣本標(biāo)記基因表達(dá)估計值,若yi=1表示第i個樣本標(biāo)記基因表達(dá)估計值為正樣本標(biāo)記基因表達(dá)估計值,若yi=-1表示第i個樣本標(biāo)記基因表達(dá)估計值為負(fù)樣本標(biāo)記基因表達(dá)估計值,m為第i個樣本標(biāo)記基因表達(dá)估計值所在的平面到超平面的距離。

進(jìn)一步地,第一閾值為10%,第二閾值為50%,第三閾值為0.001。

第二方面,本發(fā)明提供一種基于血小板差異表達(dá)基因標(biāo)記的分類裝置,該裝置包括正負(fù)樣本集構(gòu)建模塊、基因測序讀取序列獲取模塊、預(yù)處理模塊、基因表達(dá)量估算模塊、差異表達(dá)基因標(biāo)記確定模塊、超平面表達(dá)式構(gòu)建模塊和量化分類模塊,正負(fù)樣本集構(gòu)建模塊用于根據(jù)二元性特征,將預(yù)獲取的目標(biāo)樣本分成正樣本集和負(fù)樣本集,正樣本集和負(fù)樣本集的數(shù)量均滿足預(yù)定數(shù)量要求;基因測序讀取序列獲取模塊用于對正樣本集和負(fù)樣本集進(jìn)行血小板轉(zhuǎn)錄組測序,分別獲取正樣本基因測序讀取序列和負(fù)樣本基因測序讀取序列;預(yù)處理模塊用于將正樣本基因測序讀取序列與預(yù)獲得的測序銜接序列進(jìn)行比對,刪除正樣本基因測序讀取序列中與測序銜接序列比對一致的序列部分,形成初始正樣本測序讀取序列;檢驗初始正樣本測序讀取序列中的未知堿基比例和低質(zhì)量堿基比例,保留未知堿基比例小于第一閾值,且低質(zhì)量堿基比例小于第二閾值的初始正樣本測序讀取序列,形成正樣本測序讀取序列集合;將負(fù)樣本基因測序讀取序列與測序銜接序列進(jìn)行比對,刪除負(fù)樣本基因測序讀取序列中與測序銜接序列比對一致的序列部分,形成初始負(fù)樣本測序讀取序列;檢驗初始負(fù)樣本測序讀取序列中的未知堿基比例和低質(zhì)量堿基比例,保留未知堿基比例小于第一閾值,且低質(zhì)量堿基比例小于第二閾值的初始負(fù)樣本測序讀取序列,形成負(fù)樣本測序讀取序列集合;基因表達(dá)量估算模塊用于根據(jù)后綴陣列搜索算法和序列拆分/搜索/延伸策略,將正樣本測序讀取序列集合和負(fù)樣本測序讀取序列集合分別與預(yù)獲取的人類基因組進(jìn)行比對,分別獲取正樣本測序讀取序列對比結(jié)果和負(fù)樣本測序讀取序列對比結(jié)果;根據(jù)期望最大化算法和正樣本測序讀取序列對比結(jié)果,確定正樣本基因表達(dá)估計值;根據(jù)期望最大化算法和負(fù)樣本測序讀取序列對比結(jié)果,確定負(fù)樣本基因表達(dá)估計值;差異表達(dá)基因標(biāo)記確定模塊用于采用線性統(tǒng)計模型和經(jīng)驗貝葉斯裝置,將正樣本基因表達(dá)估計值和負(fù)樣本基因表達(dá)估計值進(jìn)行比較,獲取表達(dá)差異值,并將表達(dá)差異值低于第三閾值的基因,作為差異表達(dá)基因標(biāo)記;超平面表達(dá)式構(gòu)建模塊用于獲取每個差異表達(dá)基因標(biāo)記在正樣本集中的正樣本基因表達(dá)估計值,作為正樣本標(biāo)記基因表達(dá)估計值;獲取每個差異表達(dá)基因標(biāo)記在負(fù)樣本集中的負(fù)樣本基因表達(dá)估計值,作為負(fù)樣本標(biāo)記基因表達(dá)估計值;根據(jù)正樣本標(biāo)記基因表達(dá)估計值和負(fù)樣本標(biāo)記基因表達(dá)估計值,構(gòu)建超平面表達(dá)式:其中,為系數(shù),b為偏移量,為超平面的變量;量化分類模塊用于根據(jù)超平面表達(dá)式和預(yù)獲取實體的基因表達(dá)量估計值獲取該實體的量化分類結(jié)果,并根據(jù)顯示模式,進(jìn)行顯示。

進(jìn)一步地,超平面表達(dá)式構(gòu)建模塊在根據(jù)正樣本標(biāo)記基因表達(dá)估計值和負(fù)樣本標(biāo)記基因表達(dá)估計值,構(gòu)建超平面表達(dá)式時,具體用于:構(gòu)建超平面表達(dá)式:使得其中,為第i個樣本標(biāo)記基因表達(dá)估計值,若yi=1表示第i個樣本標(biāo)記基因表達(dá)估計值為正樣本標(biāo)記基因表達(dá)估計值,若yi=-1表示第i個樣本標(biāo)記基因表達(dá)估計值為負(fù)樣本標(biāo)記基因表達(dá)估計值,m為第i個樣本標(biāo)記基因表達(dá)估計值所在的平面到超平面的距離。

進(jìn)一步地,預(yù)處理模塊中第一閾值為10%,預(yù)處理模塊中第二閾值為50%,差異表達(dá)基因標(biāo)記確定模塊中第三閾值為0.001。

第三方面,本發(fā)明提供一種基于血小板差異表達(dá)基因標(biāo)記的分類系統(tǒng),該系統(tǒng)包括處理器和與處理器連接的測序平臺、服務(wù)器和顯示屏,顯示屏上設(shè)有觸摸屏,觸摸屏與處理器連接,測序平臺用于根據(jù)二元性特征,將預(yù)獲取的目標(biāo)樣本分成正樣本集和負(fù)樣本集,對正樣本集和負(fù)樣本集進(jìn)行血小板轉(zhuǎn)錄組測序,分別獲取正樣本基因測序讀取序列和負(fù)樣本基因測序讀取序列,并傳輸至處理器,處理器用于獲取正樣本基因測序讀取序列、負(fù)樣本基因測序讀取序列和實體的基因表達(dá)量估計值根據(jù)基于血小板差異表達(dá)基因標(biāo)記的分類方法,獲取超平面表達(dá)式和該實體的量化分類結(jié)果,并傳送至服務(wù)器和顯示屏,服務(wù)器用于存儲超平面表達(dá)式和實體的量化分類結(jié)果,顯示屏用于根據(jù)顯示模式指令顯示實體的量化分類結(jié)果,觸摸屏用于接收用戶點選的顯示模式指令。

由上述技術(shù)方案可知,本實施例提供的基于血小板差異表達(dá)基因標(biāo)記的分類方法、裝置及系統(tǒng),通過預(yù)處理步驟,能夠有效去除噪音信息,有助于提高數(shù)據(jù)處理的精確度。該方法采用后綴陣列搜索算法和序列拆分/搜索/延伸策略,有助于提高序列對比的精確度。同時,該方法能夠根據(jù)正樣本基因表達(dá)估計值和負(fù)樣本基因表達(dá)估計值獲得超平面表達(dá)式,有助于快速、準(zhǔn)確地處理不同實體的基因表達(dá)量估計值,并獲取準(zhǔn)確、直觀的量化分類結(jié)果。

因此,本實施例基于血小板差異表達(dá)基因標(biāo)記的分類方法、裝置及系統(tǒng),能夠快速、準(zhǔn)確地鑒別出特定群組的差異表達(dá)基因標(biāo)記,且對該群組實體的分類判別準(zhǔn)確、可靠,數(shù)據(jù)處理效率高。

附圖說明

為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹。在所有附圖中,類似的元件或部分一般由類似的附圖標(biāo)記標(biāo)識。附圖中,各元件或部分并不一定按照實際的比例繪制。

圖1示出了本發(fā)明所提供的一種基于血小板差異表達(dá)基因標(biāo)記的分類方法流程圖;

圖2示出了本發(fā)明所提供的一種基于血小板差異表達(dá)基因標(biāo)記的分類裝置的結(jié)構(gòu)框圖;

圖3示出了本發(fā)明所提供的一種基于血小板差異表達(dá)基因標(biāo)記的分類系統(tǒng)的結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合附圖對本發(fā)明技術(shù)方案的實施例進(jìn)行詳細(xì)的描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,因此只是作為示例,而不能以此來限制本發(fā)明的保護(hù)范圍。

需要注意的是,除非另有說明,本申請使用的技術(shù)術(shù)語或者科學(xué)術(shù)語應(yīng)當(dāng)為本發(fā)明所屬領(lǐng)域技術(shù)人員所理解的通常意義。

本發(fā)明實施例所提供的一種基于血小板差異表達(dá)基因標(biāo)記的分類方法,該方法包括:

信息獲取步驟:獲取目標(biāo)個體的測序讀取序列;

分析對比步驟:將所述測序讀取序列和預(yù)獲取的人類基因組進(jìn)行對比分別,獲取對比分析結(jié)果;

信息顯示步驟:顯示所述對比分析結(jié)果。

本發(fā)明實施例提供另一種基于血小板差異表達(dá)基因標(biāo)記的分類方法,結(jié)合圖1,該方法包括:

正負(fù)樣本集構(gòu)建步驟S1:根據(jù)二元性特征,將預(yù)獲取的目標(biāo)樣本分成正樣本集和負(fù)樣本集,正樣本集和負(fù)樣本集的數(shù)量均滿足預(yù)定數(shù)量要求,在此,二元性特征是預(yù)先給定或關(guān)注的特征,并且,正樣本集中的正樣本數(shù)量和負(fù)樣本集中的負(fù)樣本數(shù)量需相同,或相對接近。

基因測序讀取序列獲取步驟S2:對正樣本集和負(fù)樣本集進(jìn)行血小板轉(zhuǎn)錄組測序,分別獲取正樣本基因測序讀取序列和負(fù)樣本基因測序讀取序列。

預(yù)處理步驟S3:將正樣本基因測序讀取序列與預(yù)獲得的測序銜接序列進(jìn)行比對,刪除正樣本基因測序讀取序列中與測序銜接序列比對一致的序列部分,形成初始正樣本測序讀取序列,在此,該方法采用半全局對齊算法的cutadapt程序進(jìn)行比對,該cutadapt程序的版本號為1.8.1。

檢驗初始正樣本測序讀取序列中的未知堿基比例和低質(zhì)量堿基比例,保留未知堿基比例小于第一閾值,且低質(zhì)量堿基比例小于第二閾值的初始正樣本測序讀取序列,形成正樣本測序讀取序列集合,在此,第一閾值為10%,第二閾值為50%,如一個100個堿基長度的初始正樣本測序讀取序列含有超過10個未知堿基,該序列在后續(xù)分析中將不被采用,由于初始正樣本測序讀取序列中的低質(zhì)量堿基,如Q≤10的堿基,代表噪音信息的概率較大,棄用所有含有低質(zhì)量堿基個數(shù)超過50%的初始正樣本測序讀取序列,如果一個100個堿基長度的初始正樣本測序讀取序列含有超過50個低質(zhì)量堿基,該序列在后續(xù)分析中將不被采用。

將負(fù)樣本基因測序讀取序列與測序銜接序列進(jìn)行比對,刪除負(fù)樣本基因測序讀取序列中與測序銜接序列比對一致的序列部分,形成初始負(fù)樣本測序讀取序列。

檢驗初始負(fù)樣本測序讀取序列中的未知堿基比例和低質(zhì)量堿基比例,保留未知堿基比例小于第一閾值,且低質(zhì)量堿基比例小于第二閾值的初始負(fù)樣本測序讀取序列,形成負(fù)樣本測序讀取序列集合。

基因表達(dá)量估算步驟S4:根據(jù)后綴陣列搜索算法和序列拆分/搜索/延伸策略,將正樣本測序讀取序列集合和負(fù)樣本測序讀取序列集合分別與預(yù)獲取的人類基因組進(jìn)行比對,分別獲取正樣本測序讀取序列對比結(jié)果和負(fù)樣本測序讀取序列對比結(jié)果。

根據(jù)期望最大化算法和正樣本測序讀取序列對比結(jié)果,確定正樣本基因表達(dá)估計值。

根據(jù)期望最大化算法和負(fù)樣本測序讀取序列對比結(jié)果,確定負(fù)樣本基因表達(dá)估計值。

差異表達(dá)基因標(biāo)記確定步驟S5:采用線性統(tǒng)計模型和經(jīng)驗貝葉斯方法,將正樣本基因表達(dá)估計值和負(fù)樣本基因表達(dá)估計值進(jìn)行比較,獲取表達(dá)差異值,并將表達(dá)差異值低于第三閾值的基因,作為差異表達(dá)基因標(biāo)記,在此,線性統(tǒng)計模型為limma程序包構(gòu)建的模型,其中,第三閾值為0.001,在此,若某正樣本基因的表達(dá)估計值集合中80%的數(shù)值小于第四閾值,例如第四閾值為5,則該正樣本基因表達(dá)估計值的集合需要刪除,以有利于保證數(shù)據(jù)處理的精確性,且降低噪音信息的干擾。

超平面表達(dá)式構(gòu)建步驟S6:獲取每個差異表達(dá)基因標(biāo)記在正樣本集中的正樣本基因表達(dá)估計值,作為正樣本標(biāo)記基因表達(dá)估計值。

獲取每個差異表達(dá)基因標(biāo)記在負(fù)樣本集中的負(fù)樣本基因表達(dá)估計值,作為負(fù)樣本標(biāo)記基因表達(dá)估計值。

根據(jù)正樣本標(biāo)記基因表達(dá)估計值和負(fù)樣本標(biāo)記基因表達(dá)估計值,構(gòu)建超平面表達(dá)式:其中,為系數(shù),b為偏移量,為超平面的變量。

量化分類步驟S7:根據(jù)超平面表達(dá)式和預(yù)獲取實體的基因表達(dá)量估計值獲取該實體的量化分類結(jié)果,并根據(jù)顯示模式,進(jìn)行顯示。

由上述技術(shù)方案可知,本實施例提供的基于血小板差異表達(dá)基因標(biāo)記的分類方法,通過預(yù)處理步驟,能夠有效去除噪音信息,有助于提高數(shù)據(jù)處理的精確度。該方法采用后綴陣列搜索算法和序列拆分/搜索/延伸策略,有助于提高序列對比的精確度。同時,該方法能夠根據(jù)正樣本基因表達(dá)估計值和負(fù)樣本基因表達(dá)估計值獲得超平面表達(dá)式,有助于快速、準(zhǔn)確地處理不同實體的基因表達(dá)量估計值,并獲取準(zhǔn)確、直觀的量化分類結(jié)果。

因此,本實施例基于血小板差異表達(dá)基因標(biāo)記的分類方法,能夠快速、準(zhǔn)確地鑒別出特定群組的差異表達(dá)基因標(biāo)記,且對該群組實體的分類判別準(zhǔn)確、可靠,數(shù)據(jù)處理效率高。

同時,該方法可以應(yīng)用于醫(yī)療領(lǐng)域,診治醫(yī)生可以針對該方法的量化分類結(jié)果進(jìn)行分析,為判斷檢測對象體內(nèi)是否存在癌癥提供有效的信息支持,且數(shù)據(jù)處理效率高、判斷結(jié)果準(zhǔn)確。同時,檢測對象沒有任何傷害。

具體地,在根據(jù)正樣本標(biāo)記基因表達(dá)估計值和負(fù)樣本標(biāo)記基因表達(dá)估計值,構(gòu)建超平面表達(dá)式時,本實施例基于血小板差異表達(dá)基因標(biāo)記的分類方法的具體實現(xiàn)過程如下:

構(gòu)建超平面表達(dá)式:使得其中,為第i個樣本標(biāo)記基因表達(dá)估計值,若yi=1表示第i個樣本標(biāo)記基因表達(dá)估計值為正樣本標(biāo)記基因表達(dá)估計值,若yi=-1表示第i個樣本標(biāo)記基因表達(dá)估計值為負(fù)樣本標(biāo)記基因表達(dá)估計值,m為第i個樣本標(biāo)記基因表達(dá)估計值所在的平面到超平面的距離。在此,用y的取值表征該樣本標(biāo)記基因表達(dá)估計值的分類狀況。同時,該方法構(gòu)建的超平面表達(dá)式會使得正樣本集和負(fù)樣本集之間的距離最大,以達(dá)到正樣本集和負(fù)樣本集最好的分類效果。此時,要保證所以要最小化:

通過拉格朗日求導(dǎo)后,即要最大化:

其中,n為目標(biāo)樣本總數(shù),c為系數(shù),ci滿足可得并通過網(wǎng)格尋優(yōu)法,獲取最優(yōu)參數(shù)。

第二方面,本發(fā)明實施例提供一種基于血小板差異表達(dá)基因標(biāo)記的分類裝置,結(jié)合圖2,該裝置包括正負(fù)樣本集構(gòu)建模塊1、基因測序讀取序列獲取模塊2、預(yù)處理模塊3、基因表達(dá)量估算模塊4、差異表達(dá)基因標(biāo)記確定模塊5、超平面表達(dá)式構(gòu)建模塊6和量化分類模塊7。

正負(fù)樣本集構(gòu)建模塊1用于根據(jù)二元性特征,將預(yù)獲取的目標(biāo)樣本分成正樣本集和負(fù)樣本集,正樣本集和負(fù)樣本集的數(shù)量均滿足預(yù)定數(shù)量要求。

基因測序讀取序列獲取模塊2用于對正樣本集和負(fù)樣本集進(jìn)行血小板轉(zhuǎn)錄組測序,分別獲取正樣本基因測序讀取序列和負(fù)樣本基因測序讀取序列。

預(yù)處理模塊3用于將正樣本基因測序讀取序列與預(yù)獲得的測序銜接序列進(jìn)行比對,刪除正樣本基因測序讀取序列中與測序銜接序列比對一致的序列部分,形成初始正樣本測序讀取序列;檢驗初始正樣本測序讀取序列中的未知堿基比例和低質(zhì)量堿基比例,保留未知堿基比例小于第一閾值,且低質(zhì)量堿基比例小于第二閾值的初始正樣本測序讀取序列,形成正樣本測序讀取序列集合;將負(fù)樣本基因測序讀取序列與測序銜接序列進(jìn)行比對,刪除負(fù)樣本基因測序讀取序列中與測序銜接序列比對一致的序列部分,形成初始負(fù)樣本測序讀取序列;檢驗初始負(fù)樣本測序讀取序列中的未知堿基比例和低質(zhì)量堿基比例,保留未知堿基比例小于第一閾值,且低質(zhì)量堿基比例小于第二閾值的初始負(fù)樣本測序讀取序列,形成負(fù)樣本測序讀取序列集合。其中,第一閾值為10%,第二閾值為50%。

基因表達(dá)量估算模塊4用于根據(jù)后綴陣列搜索算法和序列拆分/搜索/延伸策略,將正樣本測序讀取序列集合和負(fù)樣本測序讀取序列集合分別與預(yù)獲取的人類基因組進(jìn)行比對,分別獲取正樣本測序讀取序列對比結(jié)果和負(fù)樣本測序讀取序列對比結(jié)果;根據(jù)期望最大化算法和正樣本測序讀取序列對比結(jié)果,確定正樣本基因表達(dá)估計值;根據(jù)期望最大化算法和負(fù)樣本測序讀取序列對比結(jié)果,確定負(fù)樣本基因表達(dá)估計值。

差異表達(dá)基因標(biāo)記確定模塊5用于采用線性統(tǒng)計模型和經(jīng)驗貝葉斯裝置,將正樣本基因表達(dá)估計值和負(fù)樣本基因表達(dá)估計值進(jìn)行比較,獲取表達(dá)差異值,并將表達(dá)差異值低于第三閾值的基因,作為差異表達(dá)基因標(biāo)記。其中,第三閾值為0.001。

超平面表達(dá)式構(gòu)建模塊6用于獲取每個差異表達(dá)基因標(biāo)記在正樣本集中的正樣本基因表達(dá)估計值,作為正樣本標(biāo)記基因表達(dá)估計值;獲取每個差異表達(dá)基因標(biāo)記在負(fù)樣本集中的負(fù)樣本基因表達(dá)估計值,作為負(fù)樣本標(biāo)記基因表達(dá)估計值;根據(jù)正樣本標(biāo)記基因表達(dá)估計值和負(fù)樣本標(biāo)記基因表達(dá)估計值,構(gòu)建超平面表達(dá)式:其中,為系數(shù),b為偏移量,為超平面的變量。

量化分類模塊7用于根據(jù)超平面表達(dá)式和預(yù)獲取實體的基因表達(dá)量估計值獲取該實體的量化分類結(jié)果,并根據(jù)顯示模式,進(jìn)行顯示。

由上述技術(shù)方案可知,本實施例提供的基于血小板差異表達(dá)基因標(biāo)記的分類裝置,通過預(yù)處理步驟,能夠有效去除噪音信息,有助于提高數(shù)據(jù)處理的精確度。該裝置采用后綴陣列搜索算法和序列拆分/搜索/延伸策略,有助于提高序列對比的精確度。同時,該裝置能夠根據(jù)正樣本基因表達(dá)估計值和負(fù)樣本基因表達(dá)估計值獲得超平面表達(dá)式,有助于快速、準(zhǔn)確地處理不同實體的基因表達(dá)量估計值,并獲取準(zhǔn)確、直觀的量化分類結(jié)果。

因此,本實施例基于血小板差異表達(dá)基因標(biāo)記的分類裝置,能夠快速、準(zhǔn)確地鑒別出特定群組的差異表達(dá)基因標(biāo)記,且對該群組實體的分類判別準(zhǔn)確、可靠,數(shù)據(jù)處理效率高。

具體地,超平面表達(dá)式構(gòu)建模塊6在根據(jù)正樣本標(biāo)記基因表達(dá)估計值和負(fù)樣本標(biāo)記基因表達(dá)估計值,構(gòu)建超平面表達(dá)式時,具體用于:構(gòu)建超平面表達(dá)式:使得其中,為第i個樣本標(biāo)記基因表達(dá)估計值,若yi=1表示第i個樣本標(biāo)記基因表達(dá)估計值為正樣本標(biāo)記基因表達(dá)估計值,若yi=-1表示第i個樣本標(biāo)記基因表達(dá)估計值為負(fù)樣本標(biāo)記基因表達(dá)估計值,m為第i個樣本標(biāo)記基因表達(dá)估計值所在的平面到超平面的距離。在此,超平面表達(dá)式構(gòu)建模塊6能夠正樣本集和負(fù)樣本集的樣本標(biāo)記基因表達(dá)估計值,以獲取超平面表達(dá)式,有利于后續(xù)對實體的量化分類處理,得到直觀、準(zhǔn)確的量化表達(dá)結(jié)果。

第三方面,本發(fā)明實施例提供一種基于血小板差異表達(dá)基因標(biāo)記的分類系統(tǒng),結(jié)合圖3,該系統(tǒng)包括處理器31和與處理器31連接的測序平臺32、服務(wù)器33和顯示屏34,顯示屏34上設(shè)有觸摸屏,觸摸屏與處理器31連接,測序平臺32用于根據(jù)二元性特征,將預(yù)獲取的目標(biāo)樣本分成正樣本集和負(fù)樣本集,對正樣本集和負(fù)樣本集進(jìn)行血小板轉(zhuǎn)錄組測序,分別獲取正樣本基因測序讀取序列和負(fù)樣本基因測序讀取序列,并傳輸至處理器31,處理器31用于獲取正樣本基因測序讀取序列、負(fù)樣本基因測序讀取序列和實體的基因表達(dá)量估計值根據(jù)基于血小板差異表達(dá)基因標(biāo)記的分類方法,如預(yù)處理、基因表達(dá)量估算、差異表達(dá)基因標(biāo)記確定、超平面表達(dá)式構(gòu)建和量化分類等步驟,獲取超平面表達(dá)式和該實體的量化分類結(jié)果,并傳送至服務(wù)器33和顯示屏34,服務(wù)器33用于存儲超平面表達(dá)式和實體的量化分類結(jié)果,顯示屏34用于根據(jù)顯示模式指令顯示實體的量化分類結(jié)果,觸摸屏用于接收用戶點選的顯示模式指令。

其中,全血中血小板總RNA的提取及轉(zhuǎn)錄組測序過程如下:

首先,把加過抗凝劑的全血置于離心機(jī)中,在室溫下,以加速度120g的條件離心20分鐘,去除細(xì)胞和其他聚集物,再以加速度360g的條件離心20分鐘分離血小板聚集物,并將離心獲得的血小板聚集物收集到RNAlater試劑盒(Life Technologies);

將RNAlater試劑盒(Life Technologies)置于4℃培養(yǎng)箱中8小時以上,再存放于-80℃冰箱中,以供后續(xù)使用。

在提取RNA時,使用mirVana試劑盒(Life Technologies)承載凍存的血小板聚集物,并將使用mirVana試劑盒(Life Technologies)置于冰上融化。

血小板聚集物融化后,采用SMARTer微量RNA測序試劑盒(Clontech)承載血小板聚集物,獲得血小板聚集物中總RNA,并對總RNA進(jìn)行互補(bǔ)DNA(cDNA)的合成和擴(kuò)增。

選擇能夠檢測到300-7500堿基長度片段的樣品,采用超聲破碎的方法(CovarisInc)將RNA打成測序可用的小片段。

采用Illumina的Trueseq DNA Sample Prep試劑盒進(jìn)行測序樣品的制備,最終采用Hiseq2500測序平臺32(Illumina Inc.)獲取100堿基長度的測序序列,如正樣本基因測序讀取序列、負(fù)樣本基因測序讀取序列和測序銜接序列。

由上述技術(shù)方案可知,本實施例提供的基于血小板差異表達(dá)基因標(biāo)記的分類系統(tǒng),采用測序平臺32測量實體或目標(biāo)樣本的測序讀取序列,觸摸屏接收用戶發(fā)送的顯示模式指令,處理器31根據(jù)提供的基于血小板差異表達(dá)基因標(biāo)記的分類方法,獲取該實體的量化分類結(jié)果,并根據(jù)用戶選擇的顯示模式,在顯示屏34上進(jìn)行直觀顯示。同時,服務(wù)器33能夠存儲處理器31中的數(shù)據(jù),如超平面表達(dá)式和每個實體的量化表達(dá)結(jié)果,以便于后續(xù)進(jìn)行數(shù)據(jù)查詢等。在此,顯示模式可以設(shè)置為數(shù)字顯示模式或顏色顯示模式,其中,數(shù)字顯示模式直接顯示±1的數(shù)字結(jié)果,以便于與其他硬件設(shè)備連接,方便信息傳輸。顏色顯示模塊更直觀,有助于增強(qiáng)用戶體驗。同時,顯示屏34可以是設(shè)置于醫(yī)療設(shè)備上的顯示屏,此時,處理器31與顯示屏34可以采用控制總線連接。同時,顯示屏34也可以用戶移動端的顯示屏,處理器31與顯示屏34通過無線連接方式進(jìn)行信息交互,方便用戶實時獲取量化分類結(jié)果。

因此,本實施例基于血小板差異表達(dá)基因標(biāo)記的分類系統(tǒng),能夠快速、準(zhǔn)確地鑒別出特定群組的差異表達(dá)基因標(biāo)記,且對該群組實體的分類判別準(zhǔn)確、可靠,數(shù)據(jù)處理效率高。

最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1