本發(fā)明涉及一種用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)及其方法,且特別是涉及一種針對單一檢體及跨檢體重復序列進行檢測的用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)及其方法。
背景技術:
隨著生物科技的日益發(fā)展,基因測序的工作越來越完整,對于人體共生菌的研究變得非常重要。目前已知人體身上約100兆的共生菌所組成,這些共生菌的數(shù)量比人體全部的細胞整整多了十倍。此外,人體的腸胃道、皮膚、口腔、呼吸道、生殖道等等地方也有共生菌的存在,統(tǒng)稱為菌相,這些菌相與免疫、代謝、發(fā)育,神經(jīng)系統(tǒng)等等皆息息相關。
其中,科學家們已知利用16S核糖體RNA(16S rRNA)序列的測序,解構出人類腸道菌的種類分布,因此可利用將16S rRNA基因標定并擴增復制序列后,經(jīng)過測序及根據(jù)測序的質量做前處理,再將序列與16S rRNA數(shù)據(jù)庫做組序、貼序的步驟,以區(qū)分出物種。而相似性高的物種將會歸類到同一個可操作性的分類單位體(operational taxonomic unit,OTU),最后統(tǒng)計分析不同檢體的菌向差異。
然而,在傳統(tǒng)上,若要分析多組檢體數(shù)據(jù),則需要耗費的時程及運算量是相當可觀的,因此如何減少系統(tǒng)的運算量,以提升分析檢體數(shù)據(jù)的速度,已成為本領域需要解決的問題之一。
技術實現(xiàn)要素:
為解決上述的問題,本發(fā)明的一個方面提供一種用以分析細菌菌種的測 序數(shù)據(jù)的系統(tǒng)。用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)包含:單一檢體去重復序列模塊、跨檢體重復序列判斷模塊、重復序列記錄模塊以及運算貼序模塊。單一檢體去重復序列模塊用以搜索第一基因樣本序列中的第一保守區(qū)域及特定變異區(qū)域,并將第一保守區(qū)域移除。跨檢體重復序列判斷模塊用以判斷特定變異區(qū)域是否存在與第二基因序列中的另一特定變異區(qū)域相同的跨檢體子序列。重復序列記錄模塊用以當特定變異區(qū)域存在與第二菌體樣本中的另一特定變異區(qū)域相同的跨檢體子序列時,儲存跨檢體子序列至記錄表中。運算貼序模塊用以當存在跨檢體子序列時,將跨檢體子序列與數(shù)據(jù)庫模塊中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
本發(fā)明的另一方面提供一種用以分析細菌菌種的測序方法。分析細菌菌種的測序方法包含:搜索第一基因樣本序列中的特定變異區(qū)域以及搜索第二基因樣本序列中的另一特定變異區(qū)域;判斷特定變異區(qū)域與另一特定變異區(qū)域是否存在相同的跨檢體子序列;當特定變異區(qū)域與另一特定變異區(qū)域存在相同的跨檢體子序列時,儲存跨檢體子序列至記錄表中;當存在跨檢體子序列時,將跨檢體子序列與數(shù)據(jù)庫模塊中的多個已知菌種基因序列進行比對,以分析該第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
綜上所述,本發(fā)明的技術方案與現(xiàn)有技術相比具有明顯的優(yōu)點和有益效果。通過上述技術方案,可達到相當?shù)募夹g進步,并具有產業(yè)上的廣泛利用價值,本公開內容可減少用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)的運算量,以達到提升分析檢體數(shù)據(jù)速度的功效。
附圖說明
為了使本發(fā)明的上述和其他目的、特征、優(yōu)點與實施例能更明顯易懂,提供附圖如下:
圖1是根據(jù)本發(fā)明一實施例繪示的一種用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)的方塊圖;
圖2是根據(jù)本發(fā)明一實施例繪示的一種用以分析細菌菌種的測序數(shù)據(jù)的方法的流程圖;
圖3是根據(jù)本發(fā)明一實施例繪示的一種基因樣本序列的示意圖;
圖4A-4C是根據(jù)本發(fā)明一實施例繪示的一種基因片段的示意圖。
具體實施方式
參照第1圖,圖1是根據(jù)本發(fā)明一實施例繪示的一種用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)100的方塊圖。
用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)100包含:單一檢體去重復序列模塊110、跨檢體重復序列判斷模塊120、重復序列記錄模塊130以及運算貼序模塊140。單一檢體去重復序列模塊110用以搜索第一基因樣本序列中的第一保守區(qū)域及特定變異區(qū)域,并將第一保守區(qū)域移除??鐧z體重復序列判斷模塊120用以判斷特定變異區(qū)域是否存在與第二基因序列中的另一特定變異區(qū)域相同的一跨檢體子序列。重復序列記錄模塊130用以當特定變異區(qū)域存在與第二菌體樣本中的另一特定變異區(qū)域相同的跨檢體子序列時,儲存跨檢體子序列至一記錄表135中。運算貼序模塊140用以當存在跨檢體子序列時,將跨檢體子序列與一數(shù)據(jù)庫模塊150中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
其中,如圖1所示,數(shù)據(jù)庫模塊150可被實作為只讀存儲器、閃存、軟盤、硬盤、光盤、隨身碟、磁帶、可由網(wǎng)絡存取的數(shù)據(jù)庫或本領域技術人員可輕易思及具有相同功能的儲存介質,記錄表135可以為一檔案,被儲存于 具有儲存功能的任何電子裝置中。此外,單一檢體去重復序列模塊110、跨檢體重復序列判斷模塊120、重復序列記錄模塊130以及運算貼序模塊140可分別或合并被實施為例如微控制單元(microcontroller)、微處理器(microprocessor)、數(shù)字信號處理器(digital signal processor)、特殊應用集成電路(application specific integrated circuit,ASIC)或邏輯電路。
由上述可知,用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)100可排除單一檢體中相同或重復的基因區(qū)段,并通過跨檢體地找出相同或重復的跨檢體子序列,將跨檢體子序列及其與菌體樣本之間的關系儲存至記錄表135中,利用記錄表135可將大量具有重復性質的跨檢體子序列建立精簡化的數(shù)據(jù)結構。通過此些方法可避免運算貼序模塊140重復地將單一檢體或跨檢體中相同或重復的大量基因區(qū)段與數(shù)據(jù)庫模塊150中的已知數(shù)據(jù)進行比對,更可減少用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)100的運算量,以提升分析檢體數(shù)據(jù)的速度。
以下進一步說明分析細菌菌種的測序數(shù)據(jù)的方法200。一并參照圖1-3,圖2是根據(jù)本發(fā)明一實施例繪示的一種用以分析細菌菌種的測序數(shù)據(jù)的方法200的流程圖。圖3是根據(jù)本發(fā)明的一實施例繪示的一種基因樣本序列300的示意圖。為了方便說明,圖1所示的用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)100的操作會與用以分析細菌菌種的測序數(shù)據(jù)的方法200及基因樣本序列300一并舉例說明。
在步驟S210中,單一檢體去重復序列模塊110用以搜索第一基因樣本序列中的特定變異區(qū)域以及搜索第二基因樣本序列中的另一特定變異區(qū)域。于一實施例中,第一基因樣本序列中的特定變異區(qū)域以及第二基因樣本序列中的另一特定變異區(qū)域可以分別指第一基因樣本序列和第二基因樣本序列中的任一段變異區(qū)域。
于一實施例中,用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)還包含檢體采樣模 塊(未繪示)及基因測序模塊(未繪示)。檢體采樣模塊用以采樣多個菌體樣本,此些菌體樣本包含第一菌體樣本及第二菌體樣本。基因測序模塊用以將此些菌體樣本分別進行基因測序,以取得對應第一菌體樣本的第一基因樣本序列,及對應第二菌體樣本的第二基因樣本序列。
舉例而言,于某一使用者進行大腸鏡檢查時,可能會發(fā)現(xiàn)其大腸長有息肉,則檢體采樣模塊可將息肉部份進行采樣,并在息肉的附近看起來正常的地方也進行采樣,以取得多個菌體樣本。其中,每一份菌體樣本可能具有30萬筆基因數(shù)據(jù),此些數(shù)據(jù)中通常混雜了多種對人體有害或有益的多種細菌,因此可通過將此些基因樣本序列分別與數(shù)據(jù)庫模塊150中的已知數(shù)據(jù)進行比對,當比對出兩者相同時(例如第一基因樣本序列與數(shù)據(jù)庫模塊150中的某一已知菌種基因序列相同時),則可確認出對應此基因樣本序列的菌種。例如,一共采樣30份菌體樣本后,利用基因測序模塊進行基因測序,此基因測序模塊例如為測序儀,可將每一份菌體樣本的脫氧核醣核酸(DNA)提取出來,并對應每一份菌體樣本各自取得至少一筆基因樣本序列。
此外,于另一實施例中,當基因測序需要測序出基因序列長度為500bp的變異區(qū)域,但測序儀只能測序至100bp的基因序列長度時,測序儀可被設置成大量復制基因序列后,隨機打碎此被大量復制的基因序列,再取得打碎后的各小片段的100bp的基因序列長度以進行測序,最后再將測序后各小片段組合起來,通過此方法可以測序出長度較長的基因序列。
于一實施例中,單一檢體去重復序列模塊110可接收多個基因樣本序列。于一實施例中,單一檢體去重復序列模塊110可接收已完成基因測序的第一基因樣本序列及第二基因樣本序列,且此第一基因樣本序列及第二基因樣本序列來對應至同一份或不同份的檢體樣本。
于一實施例中,第一基因樣本序列可以例如為圖3所示的基因樣本序列300。于圖3中,基因樣本序列300為一條16s rRNA,長度為1600bp(堿基 對)。本領域技術人員可理解圖3中的基因樣本序列300是一基因樣本示意圖。單一檢體去重復序列模塊110可應用既有的基因序列搜索方法,以搜索出此基因樣本序列300所包含的保守區(qū)域C1-C10與變異區(qū)域V1-V10。其中,保守區(qū)域C1-C10是指每個細菌的16s rRNA中相同或類似的基因區(qū)段,變異區(qū)域V1-V10是指每個細菌的16s rRNA中相異的基因區(qū)段。于一實施例中,第一基因樣本序列中可具有第一變異區(qū)域V1、第二變異區(qū)域V2、第三變異區(qū)域V3、第四變異區(qū)域V4…等。于一實施例中,變異區(qū)域V1-V10可各自具有不同的長度。
此外,第二基因樣本序列亦可以例如為圖3所示的基因樣本序列300。于一實施例中,第二基因樣本序列與第一基因樣本序列中的基因排序方式不同。于一實施例中,第二基因樣本序列與第一基因樣本序列中的基因排序方式及基因樣本長度均不同。本領域技術人員可理解第二基因樣本序列中的另一特定變異區(qū)域的搜索方式與前述第一基因樣本序列中的特定變異區(qū)域的搜索方式相同,故此處不再贅述。
通過搜索第一基因樣本序列中的特定變異區(qū)域以及搜索第二基因樣本序列中的另一特定變異區(qū)域,可對樣本檢體序列做前置處理以減低需要查詢貼序的數(shù)量。
另一方面,于一實施例中,由于每一只細菌的16s rRNA都大同小異,可能僅有部分變異區(qū)域不同。因此,數(shù)據(jù)庫模塊150于建立已知菌種基因序列的過程中,可基于既有的次世代測序16s rRNA識別法,摘取出某一已知細菌的部分變異區(qū)域,并將此摘取出的部分變異區(qū)域儲存于數(shù)據(jù)庫模塊150中,以供后續(xù)運算貼序模塊140將此摘取出的部分變異區(qū)域與檢體樣本的基因序列進行比對。
由此,數(shù)據(jù)庫模塊150可對16S rRNA的已知菌種基因序列建構檢索,意即僅摘取出各個已知細菌的部分變異區(qū)域,作為對應各個已知細菌的基因序 列代表,以精簡被搜索或被用來比對的基因序列。
舉例而言,若數(shù)據(jù)庫模塊150于建立已知菌種基因序列時,摘取出圖3所示的第三變異區(qū)域V3-第四變異區(qū)域V4的基因區(qū)段,并將此摘取出的部分變異區(qū)域儲存于數(shù)據(jù)庫模塊150中,以供后續(xù)運算貼序模塊140將此摘取出的部分第三變異區(qū)域V3-第四變異區(qū)域V4與檢體樣本的基因序列進行比對。此外,關于比對方法的細節(jié)技術特征將于步驟S240中詳述。
于一實施例中,部分第三變異區(qū)域V3-第四變異區(qū)域V4的長度例如為500bp,基因樣本序列300全序列長度為1600bp,故于此實施例中,此部分第三變異區(qū)域V3-第四變異區(qū)域V4僅占基因樣本序列300全序列長度的30%。
由此可知,通過此方法可將目前已知的20.3萬種細菌的16s rRNA摘要出差異區(qū)域,并將其儲存于數(shù)據(jù)庫模塊150中,運算貼序模塊140后續(xù)只需將第一基因樣本序列中的特定變異區(qū)域(例如為第一基因樣本序列中的第三變異區(qū)域V3-第四變異區(qū)域V4)及/或第二基因樣本序列中的另一特定變異區(qū)域(例如為第二基因樣本序列中的第三變異區(qū)域V3-第四變異區(qū)域V4)與數(shù)據(jù)庫模塊150中所儲存的已知細菌的部分變異區(qū)域進行比對,當比對出兩者相同時,則可確認出對應此基因樣本序列的菌種。
換言之,通過上述技術特征,于進行基因序列分析或貼序時,只需比對基因樣本序列與數(shù)據(jù)庫模塊150中具代表性的基因序列區(qū)段或基因序列的變異區(qū)域,無需將整個基因樣本序列或整個第二基因樣本序列與數(shù)據(jù)庫模塊150中完整的所有數(shù)據(jù)進行比對,由此可降低運算貼序模塊140于貼序過程中所需耗用的運算量,以提升分析檢體數(shù)據(jù)的速度。
于步驟S220中,跨檢體重復序列判斷模塊120用以判斷特定變異區(qū)域與另一特定變異區(qū)域是否存在相同的一跨檢體子序列。
于一實施例中,當經(jīng)由單一檢體去重復序列模塊110搜索第一基因樣本序列中的特定變異區(qū)域以及搜索第二基因樣本序列中的另一特定變異區(qū)域 后,若第一基因樣本序列與第二基因樣本序列位于不同的菌體樣本中,則可通過跨檢體重復序列判斷模塊120判斷特定變異區(qū)域與另一特定變異區(qū)域是否存在相同的一跨檢體子序列。
例如,于特定變異區(qū)域包含于第一基因樣本序列中,第一基因樣本序列包含于第一菌體樣本,且另一特定變異區(qū)域包含于第二基因樣本序列中,第二基因樣本序列包含于第二菌體樣本的情況下,若特定變異區(qū)域與另一特定變異區(qū)域具有某一相同的基因子序列(substring),則將此部分基因子序列視為跨檢體子序列。
于一實施例中,若檢體重復序列判斷模塊120判斷特定變異區(qū)域與另一特定變異區(qū)域存在相同的一跨檢體子序列,則進入步驟S230。
反之,若檢體重復序列判斷模塊120判斷特定變異區(qū)域與另一特定變異區(qū)域未存在相同的一跨檢體子序列,則運算貼序模塊140直接將第一基因樣本序列中的特定變異區(qū)域與數(shù)據(jù)庫模塊150中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列中對應特定變異區(qū)域的菌種。換句話說,當某個變異區(qū)域只有在某一菌體樣本中出現(xiàn),沒有出現(xiàn)在其他菌體樣本時,例如前述的特定變異區(qū)域與另一特定變異區(qū)域未存在相同的一跨檢體子序列時,則此變異區(qū)域不會被移除,且運算貼序模塊140一定會將此變異區(qū)域與數(shù)據(jù)庫模塊150中的數(shù)據(jù)進行比對。
在步驟S230中,重復序列記錄模塊130用以當特定變異區(qū)域與另一特定變異區(qū)域存在相同的跨檢體子序列時,儲存跨檢體子序列至一記錄表135中。
于一實施例中,重復序列記錄模塊130更用以記錄跨檢體子序列所對應的特定變異區(qū)域、跨檢體子序列所對應的特定變異區(qū)域的所屬的第一菌體樣本、另一特定變異區(qū)域、跨檢體子序列所對應的另一特定變異區(qū)域的所屬的第二菌體樣本。藉由記錄此些數(shù)據(jù),可利于減少后續(xù)貼序時及/或分析可操 作性的分類單位體時所需要的運算量,例如,于分析可操作性的分類單位體時,可透過記錄表13追溯出對應某一跨檢體子序列的某一變異區(qū)域及其所屬的菌體樣本,無須再次重新比對所有基因樣本序列。
在步驟S240中,運算貼序模塊140用以當存在跨檢體子序列時,將跨檢體子序列與數(shù)據(jù)庫模塊150中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
由此,當存在跨檢體子序列時,運算貼序模塊140會將此跨檢體子序列摘取出來,再將此垮檢體子序列與數(shù)據(jù)庫模塊150中的全部數(shù)據(jù)或已知菌種的部分變異區(qū)域進行比對一次,并將比對結果記錄于記錄表135中。因此,當多個菌體樣本中都具有相同的基因子序列(即跨檢體子序列)時,運算貼序模塊140仍只需要將此相同的基因子序列時與已知數(shù)據(jù)比對一次,即可得知基因子序列對應到某一特定的已知菌體,亦可推得此些菌體樣本中都包含此特定的已知菌體,而無須將每一個菌體樣本中所有相關于跨檢體子序列的基因序列都一一進行比對。
此外,于后續(xù)計算環(huán)境基因體比對分析時,運算貼序模塊140可回查記錄表135,以得知此變異區(qū)域在哪些菌種上面,且此些菌種存在于哪幾個菌體樣本中(步驟S230),藉此可減少運算貼序的次數(shù)。
接著,參閱圖4A-4C,圖4A-4C是根據(jù)本發(fā)明一實施例繪示的一種基因片段的示意圖。以下進一步說明于步驟S220及S240中相關于單一檢體去重復的細部方法及其基因序列的比對方法。
于一實施例中,參照圖4A,第一基因樣本序列包含第一基因片段D1及第二基因片段D2。于步驟S210中還包含判斷第一基因片段D1與第二基因片段D2是否完全相同,當?shù)谝换蚱闻c第二基因片段完全相同時,特定變異區(qū)域排除第二基因片段D2。
舉例而言,當?shù)谝换蚱蜠1與第二基因片段D2完全相同時,單一檢 體去重復序列模塊110將第二基因片段D2視為至少第一保守區(qū)域的其中之一,故可將特定變異區(qū)域視為排除(或不包含)第二基因片段D2。此外,運算貼序模塊140將第一基因片段D1與數(shù)據(jù)庫模塊150中的已知菌種基因序列進行比對,以分析對應第一基因片段D1的所屬菌種。
于一實施例中,參照圖4B,第一基因樣本序列包含第一基因片段D1及第二基因片段D2,且當?shù)谝换蚱蜠1長于第二基因片段D2時,于步驟S210中,還包含判斷第二基因片段D2是否完全相同于第一基因片段D1的一部分;當?shù)诙蚱蜠2完全相同于第一基因片段D1的一部分時,特定變異區(qū)域排除第二基因片段D2。
舉例而言,當?shù)谝换蚱蜠1長于第二基因片段D2,且第二基因片段D2完全相同于第一基因片段D1的一部分時,可將特定變異區(qū)域視為排除(或不包含)第二基因片段D2。此外,運算貼序模塊140將第一基因片段D1與數(shù)據(jù)庫模塊150中的已知菌種基因序列進行比對,以分析對應第一基因片段D1的所屬菌種。
于一實施例中,參照圖4C,其中第一基因樣本序列包含第一基因片段D1及第二基因片段D2,當?shù)谝换蚱蜠1長于第二基因片段D2,且第二基因片段D2完全相同于第一基因片段D1的一部分時,運算貼序模塊140將第二基因片段D2儲存至記錄表135中。
此外,于一實施例中,在確認某一基因序列對應至何種菌種及其所屬菌體樣本后,可進一步進行環(huán)境基因體比對分析,以判斷此些分析出來的菌種及所屬菌體樣本中的益菌或壞菌所占的比例;于一實施例中,亦可基于分析結果進一步進行群集分析,以分析細菌分布的情況,例如,癌癥患者的細菌群集中的某些特定菌數(shù)量會較多,由此可分析病患的健康程度;于一實施例中,可基于分析結果進一步進行菌落功能分析,以判斷此些菌種是否具有益生菌或是與某些特定疾病相關的已知菌種,由此以得知病患的健康狀況。
綜上所述,本發(fā)明所示的用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)及其方法,可對樣本檢體序列做前置處理,減低需要查詢貼序的數(shù)量,以精簡需要進行比對的基因序列,可減少用以分析細菌菌種的測序數(shù)據(jù)的系統(tǒng)的運算量,以提升分析檢體數(shù)據(jù)的速度。
雖然本發(fā)明已以實施方式揭露如上,然而其并非用以限定本發(fā)明,任何本領域技術人員,在不脫離本發(fā)明的精神和范圍內,可作各種修改與改變,因此本發(fā)明的保護范圍以所附權利要求書所界定者為準。