本申請涉及生物信息技術領域,具體而言,涉及一種心血管系統(tǒng)對應的基因的突變位點的獲取方法及裝置。
背景技術:
隨著醫(yī)學、基因組學和高通量測序技術的發(fā)展和成熟,精準醫(yī)療(Precision Medicine)也在世界各國應用,成為新型的醫(yī)療模式。精準醫(yī)療為將個人基因、環(huán)境與生活習慣差異考慮在內(nèi)的疾病預防與處置的醫(yī)療方法,依據(jù)每個人的遺傳信息,個性化、精準化的去制定醫(yī)療和健康管理方案。
而每個人的遺傳背景是有區(qū)別的,在此過程中,就需要確定每個人的基因組或者某些與相應器官或者位置相關聯(lián)的基因的突變情況,以使能夠根據(jù)該堿基突變情況進一步分析對比,確定最終的患病可能性,以指定相應的醫(yī)療和健康管理方案。
心血管系統(tǒng)是一個封閉的管道系統(tǒng),由心臟和血管所組成。心臟是動力器官,血管是運輸血液的管道。通過心臟有節(jié)律性收縮與舒張,推動血液在血管中按照一定的方向不停地循環(huán)流動,稱為血液循環(huán)。血液循環(huán)是機體生存最重要的生理機能之一。由于血液循環(huán),血液的全部機能才得以實現(xiàn),并隨時調(diào)整分配血量,以適應活動著的器官、組織的需要,從而保證了機體內(nèi)環(huán)境的相對恒定和新陳代謝的正常進行。所以,心血管系統(tǒng)為生物體重要的系統(tǒng),若心血管系統(tǒng)發(fā)生病變,會產(chǎn)生極其嚴重的影響。于是,對心血管系統(tǒng)疾病做一定預防措施,以減小發(fā)病幾率,極其重要。
由于心血管系統(tǒng)疾病的發(fā)病情況與遺傳基因具有一定的聯(lián)系,心血管系統(tǒng)對應的基因的位點堿基突變情況不同,可能使心血管系統(tǒng)的不同心血管系統(tǒng)疾病的發(fā)病情況及發(fā)病幾率不同。于是,可以利用精準醫(yī)療模式,根據(jù)心血管系統(tǒng)對應的基因的堿基突變情況以及其他信息的結合對心血管系統(tǒng)疾病的發(fā)病情況及幾率進行預測,以對心血管系統(tǒng)疾病進行預防是一種有效的預防方式。心血管系統(tǒng)疾病即心血管系統(tǒng)疾病。
現(xiàn)有的對心血管系統(tǒng)基因位點突變情況的確定,通常是通過化學方式獲取待測基因的某一指定位置的基因位點的堿基突變情況,該獲取方式獲取的突變位點的數(shù)量有限,通常只能獲得某一個或某幾個堿基的突變情況,不能同時確定待測基因中與心血管系統(tǒng)對應的基因的盡可能多的多個變異位點的突變情況,使后續(xù)結合其他信息對心血管系統(tǒng)疾病的患病情況的預測結果可能出現(xiàn)較大偏差。
技術實現(xiàn)要素:
有鑒于此,本申請實施例提供了一種心血管系統(tǒng)對應的基因的突變位點的獲取方法及裝置,通過將待測基因的變異位點與心血管系統(tǒng)基因庫中的心血管系統(tǒng)對應的基因的多個變異位點進行比較,從而可以獲得待測基因中的心血管系統(tǒng)對應的基因的多個變異位點的堿基突變情況,以改善上述問題。
為了實現(xiàn)上述目的,本申請采用的技術方案如下:
一種心血管系統(tǒng)對應的基因的突變位點的獲取方法,所述方法包括:將待測基因的多個短序列與參考基因組進行數(shù)據(jù)比對,獲得待測基因的初步變異位點信息,所述初步變異位點信息中包括多個初步變異位點的突變堿基以及每個初步變異位點的位置信息;根據(jù)所述初步變異位點信息,將所述多個初步變異位點中不滿足預設保留條件的變異位點刪除,將刪除后獲得的所述待測基因中的變異位點作為待檢位點;將所述待檢位點與心血管系統(tǒng)基因庫中的心血管系統(tǒng)對應的基因的多個變異位點進行比較,所述心血管系統(tǒng)基因庫中包括心血管系統(tǒng)對應的基因的每個變異位點的突變堿基以及每個變異位點所在位置;當所述待檢位點中存在與所述心血管系統(tǒng)基因庫中位置相同且突變堿基相同的變異位點,獲得所述待測基因中心血管系統(tǒng)對應的基因的位點突變情況。
一種心血管系統(tǒng)對應的基因的突變位點的獲取裝置,所述裝置包括:比對模塊,用于將待測基因的多個短序列與參考基因組進行數(shù)據(jù)比對,獲得待測基因的初步變異位點信息,所述初步變異位點信息中包括多個初步變異位點的突變堿基以及每個初步變異位點的位置信息;過濾模塊,用于根據(jù)所述初步變異位點信息,將所述多個初步變異位點中不滿足預設保留條件的變異位點刪除,將刪除后獲得的所述待測基因中的變異位點作為待檢位點;比較模塊,用于將所述待檢位點與心血管系統(tǒng)基因庫中的心血管系統(tǒng)對應的基因的多個變異位點進行比較,所述心血管系統(tǒng)基因庫中包括心血管系統(tǒng)對應的基因的每個變異位點的突變堿基以及每個變異位點所在位置;突變獲取模塊,當所述待檢位點中存在與所述心血管系統(tǒng)基因庫中位置相同且突變堿基相同的變異位點,用于獲得所述待測基因中心血管系統(tǒng)對應的基因的位點突變情況。
本申請實施例提供的心血管系統(tǒng)對應的基因的突變位點的獲取方法及裝置,在獲得待測基因的變異位點的情況下,將待測基因的變異位點中與心血管系統(tǒng)基因庫中心血管系統(tǒng)對應的基因的多個變異位點進行比較,心血管系統(tǒng)基因庫中包括心血管系統(tǒng)對應的基因的每個變異位點的突變堿基以及每個變異位點所在位置。當待測基因中存在與心血管系統(tǒng)基因庫中位置相同且突變堿基相同的變異位點,可以確定該待測基因中存在心血管系統(tǒng)對應的基因突變。
由于心血管系統(tǒng)基因庫中包括與心血管系統(tǒng)相關的多個變異位點,則本方案可以確定待測基因中與心血管系統(tǒng)相關的多個變異位點,以及該多個變異位點的具體堿基突變情況。
為使本申請的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。
附圖說明
為使本申請實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
圖1示出了本申請實施例提供的計算機的結構示意圖;
圖2示出了本申請第一實施例提供的心血管系統(tǒng)對應的基因的突變位點的獲取方法的一種流程圖;
圖3示出了本申請第一實施例提供的心血管系統(tǒng)對應的基因的突變位點的獲取方法的部分步驟的流程圖;
圖4示出了本申請第二實施例提供的心血管系統(tǒng)對應的基因的突變位點的獲取裝置的功能模塊圖;
圖5示出了本申請第二實施例提供的心血管系統(tǒng)對應的基因的突變位點的獲取裝置的基因庫建立模塊的功能模塊圖;
圖6示出了本申請第二實施例提供的心血管系統(tǒng)對應的基因的突變位點的獲取裝置的過濾模塊的功能模塊圖;
圖7示出了本申請第二實施例提供的心血管系統(tǒng)對應的基因的突變位點的獲取裝置的比對模塊的功能模塊圖。
具體實施方式
下面將結合本申請實施例中附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本申請實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本申請的實施例的詳細描述并非旨在限制要求保護的本申請的范圍,而是僅僅表示本申請的選定實施例?;诒旧暾埖膶嵤├绢I域技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。同時,在本申請的描述中,術語“第一”、“第二”等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。
如圖1所示,是本申請計算機100的方框示意圖。所述計算機100包括心血管系統(tǒng)對應的基因的突變位點的獲取裝置200、存儲器101、存儲控制器102、處理器103、外設接口104、輸入輸出單元105及其他。
所述存儲器101、存儲控制器102、處理器103、外設接口104以及輸入輸出單元105各元件相互之間直接或間接地電性連接,以實現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件相互之間可通過一條或多條通訊總線或信號線實現(xiàn)電性連接。所述心血管系統(tǒng)對應的基因的突變位點的獲取裝置200包括至少一個可以軟件或固件(firmware)的形式存儲于所述存儲器101中或固化在所述計算機100的操作系統(tǒng)(operating system,OS)中的軟件功能模塊。所述處理器103用于執(zhí)行存儲器101中存儲的可執(zhí)行模塊,例如所述心血管系統(tǒng)對應的基因的突變位點的獲取裝置200包括的軟件功能模塊或計算機程序。
其中,存儲器101可以是,但不限于,隨機存取存儲器(Random Access Memory,RAM),只讀存儲器(Read Only Memory,ROM),可編程只讀存儲器(Programmable Read-Only Memory,PROM),可擦除只讀存儲器(Erasable Programmable Read-Only Memory,EPROM),電可擦除只讀存儲器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存儲器101用于存儲程序,所述處理器103在接收到執(zhí)行指令后,執(zhí)行所述程序,前述本申請實施例任一實施例揭示的流過程定義的計算機100所執(zhí)行的方法可以應用于處理器103中,或者由處理器103實現(xiàn)。
處理器103可能是一種集成電路芯片,具有信號的處理能力。上述的處理器103可以是通用處理器,包括中央處理器(Central Processing Unit,簡稱CPU)、網(wǎng)絡處理器(Network Processor,簡稱NP)等;還可以是數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列(FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本申請實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器103也可以是任何常規(guī)的處理器等。
所述外設接口104將各種輸入/輸出裝置耦合至處理器103以及存儲器101。在一些實施例中,外設接口104,處理器103以及存儲控制器102可以在單個芯片中實現(xiàn)。在其他一些實例中,他們可以分別由獨立的芯片實現(xiàn)。
輸入輸出單元105用于提供給用戶輸入數(shù)據(jù)實現(xiàn)用戶與所述計算機的交互。所述輸入輸出單元可以是,但不限于,數(shù)據(jù)讀取裝置、鼠標和鍵盤等。
可以理解的,圖1所示的結構僅為示意,計算機100還可以包括比圖1中所示更多或更少的組件,或者具有與圖1所示不同的配置。圖1中所示的各組件可以采用硬件、軟件或其組合實現(xiàn)。
第一實施例
本申請實施例提供了一種心血管系統(tǒng)對應的基因的突變位點的獲取方法,用于獲取待測基因中與心血管系統(tǒng)相關的基因的變異位點的堿基突變情況。請參見圖2,該方法包括:
步驟S110:將待測基因的多個短序列與參考基因組進行數(shù)據(jù)比對,獲得待測基因的初步變異位點信息,所述初步變異位點信息中包括多個初步變異位點的突變堿基以及每個初步變異位點的位置信息。
首先,獲取待測基因的多個短序列,該短序列可以是通過第二代測序平臺輸出。將待測基因的短序列與參考基因組進行比對。如,若待測基因為人類基因,該參考基因組則為人類參考基因組。
當然,該比對過程可以包括多次比對以及去重等過程,得到比對后的包括多個變異位點的初步變異位點信息。
具體的,如圖3所示,在本實施例中,本步驟中的數(shù)據(jù)比對以獲取初步變異位點信息的過程可以包括:
步驟S111:將所述待測基因的多個短序列與參考基因組進行首次比對,獲得SAM格式的比對結果。
將待測基因的短序列與參考基因組進行數(shù)據(jù)比對,該比對過程可以利用現(xiàn)有的比對軟件進行,如Bowtie2,可以獲得SAM格式的比對結果,該SAM格式的比對結果中存儲有比對后獲得的比對信息??梢岳斫獾?,在該SAM格式的比對結果中,包括了待測基因中各個堿基的信息,如位置信息。
當然,具體使用的比對軟件以及比對結果的表示方式在本實施例中并不作為限制,以能將待測基因的多個短序列與參考基因組進行比對并獲得表示比對結果的比對信息為宜。
步驟S112:對所述比對結果進行去重,使對比到參考基因組的一個位置的短序列個數(shù)小于或等于1。
步驟S111獲得的比對結果中,有一定比例的重復序列和結果,例如,對比到參考基因組的同一位置可能有多個短序列,于是,在本步驟中,將比對結果進行去重。
在本實施例中,可以利用軟件Picard進行去重工作。具體的,利用的可以是Picard的MarkDuplicate工具去重,獲得bam格式的去重結果。
步驟S113:對去重后的對比結果進行本地重比對(local multiple alignment)。
由于獲得的與參考基因組進行比對的短序列很難精確的比對到高度相似的重復區(qū)域,于是在基因組的重復區(qū)域很容易得到假陽性的變異位點,如假陽性的SNPs。可以理解的,假陽性的變異位點即為比對結果錯誤的變異位點。為了降低假陽性變異位點的數(shù)量和比例,在本實施例中,對去重后的對比結果進行本地重比對。
具體的,該本地重比對(local multiple alignment)可以使用GATK中IndelRealigner進行,獲得bam格式的重比對后的比對結果。該比對過程一般有三個步驟,a.檢測到可疑的,需要進行重比對的區(qū)域;b.對這些可疑的區(qū)域進行重比對;c.修復在重比對過程中丟失的mate pairing信息。
步驟S114:重新計算本地重比對后的比對結果中的堿基質量分數(shù)。
在前述處理過程中的步驟S111中,每個單一的堿基都會在數(shù)據(jù)處理過程中被賦予一個質量分數(shù)(Quality scores),用于反映相應的堿基被觀察到的核苷酸的可信度。
由于前述處理過程中獲得的質量分數(shù)沒有較好地和錯誤的分型結果可能性聯(lián)系起來,同時單一堿基的質量分數(shù),沒有和其他參數(shù)相例子聯(lián)系,比如在同一個樣品中不同測序平臺,不同測序循環(huán),不同文庫等進行聯(lián)系。
因此,在本步驟中S114中,將每個堿基的質量分數(shù)與測序過程中的各個因子相聯(lián)系,對每個堿基的質量分數(shù)進行重新計算,生成新的質量分數(shù),以用于判斷每個堿基是否可信。
具體的,在本實施例中,可以使用GATK進行empirical quality score recalibration,獲得bam格式的結果。
步驟S115:根據(jù)所述堿基質量分數(shù),對本地重比對后的對比結果進行SNP和indel分析,獲得初步變異位點信息。
根據(jù)重新計算獲得的堿基質量分數(shù),對本地重比對獲得的比對結果進行SNP和indel的初步判讀,對其進行SNP和indel分型,以獲得包括多個變異位點的變異位點信息,該變異位點信息作為初步變異位點信息,該包括的多個變異位點作為初步變異位點??梢岳斫獾模谠摮醪阶儺愇稽c信息中,包括了多個初步變異位點的突變堿基,以及每個變異位點所在位置。在本實施例中,變異位點為SNP和indel,優(yōu)選的,在本實施例中,變異位點僅為SNP。
具體的,在本步驟中,可以是利用GATK的Unified Genotyper進行分析。因為在完成SNPs的分型后,采用了很多數(shù)據(jù)過濾參數(shù)對數(shù)據(jù)再次進行過濾,以進一步控制數(shù)據(jù)質量,所以在本步驟中將standard minimum confidence thresholds都設置為零。可以理解的,SNPs表示SNP的復數(shù)形式。
當然,該SNP和indel的初步判讀過程也可以用其他方式進行,在本實施例中并不作為限制,也可以是其他,如GATK的HaplotypeCaller進行。
在該步驟中,可以獲得包括初步變異位點信息的vcf文件,該vcf文件中的初步變異位點信息中包括在步驟S110中獲得的各個變異位點以及每個變異位點對應的位置信息,當然,還包括其他,在此不加贅述。
步驟S120:根據(jù)所述初步變異位點信息,將所述多個初步變異位點中不滿足預設保留條件的變異位點刪除,將刪除后獲得的所述待測基因中的變異位點作為待檢位點。
在步驟S110中,獲得的初步變異位點信息中的初步變異位點中,仍可能存在假陽性的變異位點,于是,本步驟對初步變異位點進行進一步過濾,刪除其中假陽性可能性較高的變異位點,以刪除后的結果中的變異位點作為該待測基因中的變異位點,使最后獲得的變異位點更加準確。可以理解的,刪除后的結果中還包括了每個變異位點的位置信息以及其他信息,在此不做贅述。
具體的,在本步驟中,可以包括如下一種或多種刪除不滿足預設保留條件的變異位點的方式:
方式一:去除所述多個初步變異位點中,等位基因的個數(shù)大于預設閾值的變異位點。
等位基因大于預設閾值的變異位點,是假陽性變異位點的可能性較高,對其進行去除。在本實施例中,該預設閾值可以根據(jù)實際需要取值,由于包含大于1個以上等位基因的位點就具有較高的基因分型錯誤,優(yōu)選的,該預設閾值的取值可以為1。
當預設閾值取值為1,即去除獲得的多個初步變異位點中具有1個以上等位基因的變異位點。
方式二:刪除所述多個初步變異位點中,位于每個插入缺失(indel)的上游范圍或者下游范圍內(nèi)的所有變異位點,所述上游范圍和下游范圍包括的堿基個數(shù)為預設個數(shù)。
由于用于數(shù)據(jù)比對的短序列常由二代測向平臺輸出,而二代測序平臺的短序列在靠近插入缺失(indel)的區(qū)域更容易產(chǎn)生錯誤的比對,而上述處理過程中的本地重比對不能完全消除這一錯誤。于是,將插入缺失上游范圍或者下游范圍內(nèi)的所有變異位點刪除,以降低假陽性結果的可能性。
該上游范圍和下游范圍包括的堿基個數(shù)為預設個數(shù),該預設個數(shù)可以由用戶根據(jù)實際需求確定,在本實施例中并不作限制,并且,上游范圍以及下游范圍的預設個數(shù)可以相同或者不同。
在本實施例中,上有范圍包括的堿基個數(shù)優(yōu)選為5個,下游范圍包括的堿基個數(shù)優(yōu)選為5個。即,確定初步變異位點中的所有indel,針對每一個indel,將其上游5bp(5個堿基)之內(nèi)的所有變異位點刪除,或者將其下游5bp之內(nèi)的所有變異位點刪除。
當然,在本實施例中,可以只刪除indel的上游范圍內(nèi)的變異位點或者下游范圍內(nèi)的變異位點,也可以將indel的上游范圍內(nèi)的變異位點以及下游范圍內(nèi)的變異位點都刪除。
優(yōu)選的,在本實施例中,刪除的為插入缺失(indel)的上游范圍或者下游范圍內(nèi)的所有SNPs。
方式三:將所述多個初步變異位點中,彼此之間間隔預設堿基個數(shù)的變異位點刪除。
在本步驟中,將彼此靠近的變異位點刪除,即將彼此之間距離小于一定值的變異位點刪除。
在本實施例中,該預設堿基個數(shù)并不作為限制,可以根據(jù)實際需要設定。
優(yōu)選的,該預設堿基個數(shù)為4個,若存在彼此之間間隔的堿基個數(shù)小于4個的變異位點,將其刪除。也就是說,刪除在彼此上游或下游5bp之內(nèi)的變異位點。
優(yōu)選的,該步驟中,刪除的為彼此之間間隔預設堿基個數(shù)的SNPs。
方式四:將所述多個初步變異位點中,對應的GQ(Genotype quality)值小于預設GQ閾值的變異位點刪除。
GQ(Genotype quality)是一個后驗概率(the phred-scaled probabilities)值,對于每一個位點,GQ值用以表示當前獲得的基因分型結果中該位點不是真實情況的可能性,即表示獲得的在該位點該基因型存在的可能性。計算方式為:
GQ值=-10*log10(P[error]),其中,P[error]表示相應的位點不是真實情況的概率。
優(yōu)選的,在本實施例中,預設GQ閾值為20。經(jīng)驗證,當GQ閾值為20時,理論上的錯誤率為1%。
方式五:將所述多個初步變異位點中,對應的MQ(Mapping quality)值小于預設MQ閾值的變異位點刪除。
MQ表示在比對序列時的專一性(uniqueness)。當同一個短序列可以比對到同一個基因組不同區(qū)域時,第一最好比對區(qū)域(the first best alignment)的比對分數(shù)(alignment's score)與第二最好比對區(qū)域(the second best alignment)的比對分數(shù),兩者差異越大,表明比對的專一性越好,MQ的值就越高。
在本實施例中,認為MQ值小于預設MQ閾值的變異位點具有較高的可能性為假陽性,將其刪除。
優(yōu)選的,在本實施例中,預設MQ閾值取值為30。經(jīng)驗證,MQ取值為30時,P[error]=0.001,即相對于比對到當前位置,比對到另一個位置的可能性最高為0.1%。
在本發(fā)明實施例中,方式一至方式五為可選的執(zhí)行方式,即在本步驟中,可采用其中的某一種方式、某幾種方式或者所有的方式。當使用多種方式進行不滿足預留條件的變異位點的刪除時,該多種方式之間的執(zhí)行順序并不作為限制。當然,該多種方式也可以并行執(zhí)行。
另外,該步驟120中,當有多種方式被順序執(zhí)行時,后續(xù)的步驟可以在前續(xù)步驟的基礎上執(zhí)行。例如,若執(zhí)行方式一的去除所述多個初步變異位點中等位基因的個數(shù)大于預設閾值的變異位點,以及方式三中的,將所述多個初步變異位點中彼此之間間隔預設堿基個數(shù)的變異位點刪除,且先執(zhí)行方式一,再執(zhí)行方式三。則在方式三中,刪除的可以是方式一處理后的變異位點中彼此之間間隔預設堿基個數(shù)的變異位點。
步驟S120對初步變異位點進行刪除過濾后,獲得的最終結果中的變異位點作為待測基因的待檢位點,可以以vcf格式文件表示。
步驟S130:將所述待檢位點與心血管系統(tǒng)基因庫中的心血管系統(tǒng)對應的基因的多個變異位點進行比較,所述心血管系統(tǒng)基因庫中包括心血管系統(tǒng)對應的基因的每個變異位點的突變堿基以及每個變異位點所在位置。
在本發(fā)明實施例中,首先建立心血管系統(tǒng)基因庫,該心血管系統(tǒng)基因庫中包括心血管系統(tǒng)對應的基因的每個變異位點的突變堿基以及每個變異位點所在位置。
該心血管系統(tǒng)基因庫在步驟S130的比較之前建立。具體的,該建立過程可以是,獲取COSMIC基因數(shù)據(jù)庫、NCBI的clivar數(shù)據(jù)庫、其他國際國內(nèi)各大權威學術期刊雜志、基因檢測公司以及政府有關部門公布的基因數(shù)據(jù)庫中,與心血管系統(tǒng)相關的基因位點信息。主要獲取的為包括心血管系統(tǒng)對應的基因的每個變異位點的堿基突變情況以及每個變異位點所在位置的所述基因位點信息。
當然,獲取基因位點信息的數(shù)據(jù)來源也可以是其他,在本實施例中并不作為限制。
進一步的,獲取的基因位點信息中還可以包括心血管系統(tǒng)對應的基因的每個變異位點的每種突變堿基對蛋白質功能的影響,即獲取到某個變異位點的堿基由正常堿基突變到當前的突變堿基,會對相應的蛋白質的功能產(chǎn)生何種影響。
當然,在本實施例中,獲取的基因位點信息中還可以包括:每個突變位點對應的基因名字簡寫、基因名字全稱、此位點在人類基因組中的坐標、對應的組織器官類型、基因突變類型、正?;蛟诖宋稽c的堿基、臨床研究此位點的此種突變是否致病、原始突變發(fā)現(xiàn)的人群、原始突變攜帶者病人的性別、原始突變攜帶者病人的年紀、原始突變記錄的來源中的一種或多種。
再將所述基因位點信息中可信度低于預設標準的以及錯誤的基因位點信息刪除,獲得的基因位點信息形成所述心血管系統(tǒng)基因庫。
在本實施例中,低于預設標準的基因位點信息包括以下至少一種:
1)從非SCI期刊或在業(yè)內(nèi)聲譽很差的期刊獲取到的基因位點信息,該業(yè)內(nèi)聲譽很差的期刊可以是影響因子低于一定值的期刊或其他評判標準下不滿足要求的期刊;2)記載該基因位點信息的原始文獻中所用的樣品數(shù)量低于一定值以至于不足以得出科學的結論的;3)在記載該基因位點的原始文獻中,該基因位點并不是文獻中發(fā)現(xiàn)的最重要基因位點,該最重要的基因位點可以是獲取到的結果中前10%的位點。
錯誤的基因位點信息包括以下至少一種:1)獲取的數(shù)據(jù)庫中記載該基因位點信息的原始文獻在實質上并沒有報道此位點;2)記載該基因位點的原始文獻中,該基因位點的結果在統(tǒng)計學上為非顯著。
當然,預設標準以及基因位點信息錯誤的判定標準,在本實施例中并不作為限制,可以根據(jù)實際情況確定。
進一步的,由于對心血管系統(tǒng)相關的基因研究不斷進行,與心血管系統(tǒng)相關的基因的變異位點的突變情況會處于更新中,且在當前的心血管系統(tǒng)基因庫中并不一定存在所有心血管系統(tǒng)的相關基因的變異位點突變情況,于是,在本發(fā)明實施例中,還包括每隔預設時間段對所述心血管系統(tǒng)數(shù)據(jù)庫進行更新。
具體的更新過程可以是,每隔預設時間段,獲取最新發(fā)表在國際權威學術雜志,如Nature,Nature Genetics等上發(fā)表的與心血管系統(tǒng)相關的研究論文,將獲得的研究論文中最新的與心血管系統(tǒng)相關的基因位點信息,刪除其中可信度低于預設標準的以及錯誤的基因位點信息,加入到心血管系統(tǒng)數(shù)據(jù)庫中以實現(xiàn)更新。
獲得心血管系統(tǒng)基因庫后,將待檢位點與心血管系統(tǒng)數(shù)據(jù)庫中的心血管系統(tǒng)對應的基因的多個變異位點進行比較。
在本實施例中,該比較過程可以是在步驟S120的獲得待檢位點后直接進行,也可以是由用戶觸發(fā)進行。即在接收到用戶觸發(fā)的查詢請求后,執(zhí)行該步驟S130中的比較。
另外,也可以是,用戶輸入步驟S120中獲得的待檢位點中的一個或多個,步驟S130中將用戶輸入的待檢位點與心血管系統(tǒng)基因庫中的心血管系統(tǒng)對應的基因的多個變異位點進行比較。
另外,也可以是,用戶直接從心血管系統(tǒng)基因庫中獲取心血管系統(tǒng)相關的變異位點。具體的,用戶通過輸入輸出單元輸入基因名字、位點在基因組的坐標等信息。在接收到用戶輸入的信息后,根據(jù)用戶輸入的信息在心血管系統(tǒng)基因庫中進行查找,將查找結果,如基因名字、位點坐標、堿基突變類型等各種信息進行顯示。若心血管系統(tǒng)基因庫中查找到用戶輸入的信息,則證明該輸入信息對應的基因位點與心血管系統(tǒng)相關,且存在堿基突變。可以理解的,位點在基因組的坐標即為位點的位置。
步驟S140:當所述待檢位點中存在與所述心血管系統(tǒng)基因庫中位置相同且突變堿基相同的變異位點,獲得所述待測基因中心血管系統(tǒng)對應的基因的位點突變情況。
當比較結果為,待檢位點中存在與心血管系統(tǒng)數(shù)據(jù)庫中相同的變異位點,則可以根據(jù)心血管系統(tǒng)數(shù)據(jù)庫中該相同的變異位點確定該待測基因中有心血管系統(tǒng)對應的基因的位點突變,且突變情況與心血管系統(tǒng)數(shù)據(jù)庫中該相同的變異位點一致。于是,可以獲得待測基因中有哪些與心血管系統(tǒng)相關的基因的變異位點以及每個與心血管系統(tǒng)相關的變異位點的具體突變情況,該突變情況包括在哪個位置的哪一個堿基突變?yōu)槟囊粋€堿基。
可以理解的,相同的變異位點指變異位點的位置相同且堿基突變情況相同,即在同一個位置具有相同的突變堿基,認為是待檢位點中與心血管系統(tǒng)數(shù)據(jù)庫中相同的變異位點。心血管系統(tǒng)對應的基因即與心血管系統(tǒng)相關的基因。
于是,相關人員可以根據(jù)獲得的待測基因中心血管系統(tǒng)對應的基因的位點突變情況,以及其他信息,如心血管系統(tǒng)相關基因的每種突變情況下可能的患病情況,確定該待測基因對應的對象的心血管系統(tǒng)患病情況。
進一步的,在本實施例中,還可以根據(jù)所述待測基因中心血管系統(tǒng)對應的基因的位點突變情況,以及心血管系統(tǒng)數(shù)據(jù)庫中心血管系統(tǒng)對應的基因的每個變異位點的每種突變堿基對蛋白質功能的影響,確定所述待測基因中每個變異位點的突變對蛋白質功能的影響,從而可以確定待測基因對應的對象(如對應的人)的哪些與心血管系統(tǒng)相關的蛋白質功能受到了影響,受到了哪些影響。以使相關專業(yè)人員可以根據(jù)蛋白質功能的影響,結合其他信息,如蛋白質功能改變與器官具體功能的作用關系等,判斷該待測基因對應的對象的心血管系統(tǒng)疾病患病幾率以及可能患哪些心血管系統(tǒng)疾病。
當然,在本發(fā)明實施例中,也可以是直接包括每種變異位點的突變情況對心血管系統(tǒng)疾病的致病情況,如對冠心病心絞痛的影響可能包括致病、可能致病、危險因素、不確定、有沖突的研究結果、良性,其中某個位置某種突變堿基的致病情況為危險因素,表明該位置有該種突變堿基的對象患冠心病心絞痛的幾率非常高,需要注意預防。
第二實施例
本實施例提供了一種心血管系統(tǒng)對應的基因的突變位點的獲取裝置200,請參見圖4,該裝置200包括:
比對模塊210,用于將待測基因的多個短序列與參考基因組進行數(shù)據(jù)比對,獲得待測基因的初步變異位點信息,所述初步變異位點信息中包括多個初步變異位點的突變堿基以及每個初步變異位點的位置信息。
過濾模塊220,用于根據(jù)所述初步變異位點信息,將多個初步變異位點中不滿足預設保留條件的變異位點刪除,將刪除后獲得的所述待測基因中的變異位點作為待檢位點。
比較模塊230,用于將所述待檢位點與心血管系統(tǒng)基因庫中的心血管系統(tǒng)對應的基因的多個變異位點進行比較,所述心血管系統(tǒng)基因庫中包括心血管系統(tǒng)對應的基因的每個變異位點的突變堿基以及每個變異位點所在位置。
突變獲取模塊240,當所述待檢位點中存在與所述心血管系統(tǒng)基因庫中位置相同且突變堿基相同的變異位點,用于獲得所述待測基因中心血管系統(tǒng)對應的基因的位點突變情況。
進一步的,心血管系統(tǒng)基因庫中還包括心血管系統(tǒng)對應的基因的每個變異位點的每種突變堿基對蛋白質功能的影響,本實施例中的突變獲取模塊240還用于根據(jù)所述待測基因中心血管系統(tǒng)對應的基因的位點突變情況,確定所述待測基因中每個變異位點的突變對蛋白質功能的影響。
進一步的,本實施例中,如圖4所示,還包括基因庫建立模塊250,用于建立心血管系統(tǒng)基因庫,所述基因庫建立模塊250包括:數(shù)據(jù)獲取單元251,用于獲取COSMIC基因數(shù)據(jù)庫、NCBI的clivar數(shù)據(jù)庫中與心血管系統(tǒng)相關的基因位點信息,所述基因位點信息中包括心血管系統(tǒng)對應的基因的每個變異位點的突變堿基以及每個變異位點所在位置。數(shù)據(jù)刪除單元252,用于將所述基因位點信息中可信度低于預設標準的以及錯誤的基因位點信息刪除,獲得的基因位點信息形成所述心血管系統(tǒng)基因庫。
進一步的,如圖5所示,該基因庫建立模塊250還包括更新單元253,用于每隔預設時間段對所述心血管系統(tǒng)基因庫進行更新。
進一步的,如圖6所示,在本實施例中,過濾模塊220包括以下一種或多種:第一刪除單元221,用于去除所述多個初步變異位點中,等位基因的個數(shù)大于預設閾值的變異位點。第二刪除單元222,用于刪除所述多個初步變異位點中,位于每個插入缺失的上游范圍或者下游范圍內(nèi)的所有變異位點,所述上游范圍和下游范圍包括的堿基個數(shù)為預設個數(shù)。第三刪除單元223,用于將所述多個初步變異位點中,彼此之間間隔預設堿基個數(shù)的變異位點刪除。第四刪除單元224,用于將所述多個初步變異位點中,對應的GQ值小于預設GQ閾值的變異位點刪除。第五刪除單元225,用于將所述多個初步變異位點中,對應的MQ值小于預設MQ閾值的變異位點刪除。
在本實例中,請參見圖7,比對模塊210可以包括:比對單元211,用于將所述待測基因的多個短序列與參考基因組進行首次比對,獲得SAM格式的比對結果;去重單元212,用于對所述比對結果進行去重,使對比到參考基因組的一個位置的短序列個數(shù)小于或等于1;重比對單元213,用于對去重后的對比結果進行本地重比對;計算單元214,用于重新計算本地重比對后的比對結果中的堿基質量分數(shù);初判單元215,用于根據(jù)所述堿基質量分數(shù),對本地重比對后的對比結果進行SNP和indel分析,獲得初步變異位點信息。
綜上所述,本發(fā)明實施例提供的心血管系統(tǒng)對應的基因的突變位點的獲取方法及裝置,在獲得待測基因的待測位點后,將待測位點與心血管系統(tǒng)基因庫中對應的基因的多個變異位點進行比較,從而可以獲得該待測基因中的變異位點中與心血管系統(tǒng)相關的多個變異位點的突變情況,以用于輔助心血管系統(tǒng)疾病的可能患病情況的判斷。
需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置類實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,也可以通過其它的方式實現(xiàn)。以上所描述的裝置實施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本申請的多個實施例的裝置、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)方式中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個連續(xù)的方框實際上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
另外,在本申請各個實施例中的各功能模塊可以集成在一起形成一個獨立的部分,也可以是各個模塊單獨存在,也可以兩個或兩個以上模塊集成形成一個獨立的部分。
所述功能如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本申請的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器100,或者網(wǎng)絡設備等)執(zhí)行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質。需要說明的是,在本文中,諸如第一和第二、另一等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
以上所述僅為本申請的優(yōu)選實施例而已,并不用于限制本申請,對于本領域的技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本申請的保護范圍之內(nèi)。應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。
以上所述,僅為本申請的具體實施方式,但本申請的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本申請揭露的技術范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本申請的保護范圍之內(nèi)。因此,本申請的保護范圍應所述以權利要求的保護范圍為準。