一種生物信息學高性能計算平臺的測試方法
【專利摘要】本發(fā)明提出了一種生物信息學高性能計算平臺的測試方法,屬于計算機科學和生物信息學的交叉學科。本發(fā)明主要包括如下流程:搭建生物信息學分析的計算平臺,平臺操作系統(tǒng)安裝,平臺編譯器安裝,平臺應用軟件部署,平臺應用軟件測試,數(shù)據(jù)整理;通過本方法所述測試方法,使生物信息學計算平臺的測試標準,規(guī)范化,為生物信息學計算平臺的性能評估提供參考和依據(jù)。
【專利說明】一種生物信息學高性能計算平臺的測試方法
【技術領域】
[0001]本發(fā)明涉及屬于計算機科學和生物信息學的交叉學科,尤其涉及一種生物信息學高性能計算平臺的測試方法。
【背景技術】
[0002]生物信息學是是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現(xiàn)在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發(fā),分析序列中表達的結構功能的生物信息。在基因組學研究方向,測序技術是重要的研究手段,對于測序數(shù)據(jù)的分析就需要借助高性能計算平臺完成,因此高性能計算平臺的性能對生物信息學研究進展起著至關重要的作用,如何評測一套生物信息學平臺的性能如何,是很多生物信息學專家以及高性能計算專家面臨的問題。因為熟悉生物信息學的專家不熟悉具體的計算系統(tǒng)的配置,高性能計算專家對生物信息分析的流程和資源需求也知之甚少,所以發(fā)展一套標準化的生物信息學計算平臺測試方法十分必要。
【發(fā)明內(nèi)容】
[0003]本發(fā)明針對現(xiàn)有技術的不足之處,提供了一種生物信息學高性能計算平臺的測試方法。
[0004]本發(fā)明所述生物信息學計算平臺的性能測試方法,之前沒有一種方法對生物信息學計算平臺進行標準化的測試和評估;沒有設置標準化測試平臺,軟件和運行算例,以及測試方法;本發(fā)明針對該現(xiàn)狀,整理了一套全面系統(tǒng)的測試方法,涵蓋硬件系統(tǒng)的配置,中間件的配置,系統(tǒng)層的性能測試以及應用層的性能測試.本發(fā)明公開了一種生物信息學高性能計算平臺的測試方法,其解決所述技術問題采用的技術方案如下:該測試方法依據(jù)生物信息學計算的需求,配置適合的硬件環(huán)境進行測試,測試中考慮系統(tǒng)性能是否正常,應用軟件以及算例的選擇是否具有生物信息學軟件的代表性,測試用例的壓力是否足夠大等,并最后給出固定平臺下的資源使用情況;
先確定適用于生物信息學平臺的硬件平臺,搭建測試環(huán)境,如安裝操作系統(tǒng),系統(tǒng)中部署軟件,如intel編譯器,mpi等,安裝生物信息學軟件,選擇具有代表性的測試用例;其中,所述確定的硬件平臺使用于生物信息學的數(shù)據(jù)分析,生物信息學的計算需求一般內(nèi)存容量消耗大,磁盤讀寫頻繁,且存儲占用空間大等,依據(jù)這一特點我們選用了 128GB的內(nèi)存容量,多塊盤做RAID0,存儲空間2TB,以滿足運算的需求;
所述搭建測試環(huán)境是指,在確定硬件配置后,在其上部署系統(tǒng)環(huán)境,安裝編譯器,并行環(huán)境等,并進行系統(tǒng)基礎性能測試,分別測試系統(tǒng)的Linpack效率,測試系統(tǒng)的內(nèi)存帶寬,磁盤順序讀寫等;并對系統(tǒng)測試的指標進行分析,以確保系統(tǒng)性能正常,以便在穩(wěn)定正常的系統(tǒng)環(huán)境下進行應用性能測試; 所述安裝生物信息學軟件是指,進行應用測試時,在搭建測試環(huán)境后,在系統(tǒng)中部署應用軟件,應用軟件是生物信息學分析常用軟件,且計算需求較高,計算耗時,具有代表性,在本發(fā)明中我們選用序列比對軟件BWA和序列拼接軟件VELVET進行測試;對于測試用例的的規(guī)模,要能涵蓋或是代表大部分用戶的生物信息分析的數(shù)據(jù)規(guī)模,我們選用ILLUMIA的測序數(shù)據(jù)進行分析;
選擇具有代表性的測試用例:統(tǒng)計兩款軟件在計算平臺下的運行時間,并監(jiān)控資源消耗情況,最后整理出完成的測試信息。
[0005]本發(fā)明公開的生物信息學高性能計算平臺的測試方法的有益效果是:本方法所述測試環(huán)境適合生物信息學軟件運行,可以為用戶提供配置依據(jù);對于測試平臺進行基本系統(tǒng)性能測試,確保測試環(huán)境正常;測試軟件選擇是生物信息學中常用且計算相對耗時的兩款軟件,在不同生物信息學研究中具有通用性;應用軟件的測試用例規(guī)模足夠大,是人類十倍覆蓋度的測試數(shù)據(jù),數(shù)據(jù)規(guī)?;灸軌蚝w目前生物信息學分析大部分計算規(guī)模。
【專利附圖】
【附圖說明】
[0006]附圖1為本發(fā)明測試方法的流程圖。
【具體實施方式】
[0007]下面通過附圖,對本發(fā)明所述一種生物信息學高性能計算平臺的測試方法做進一步詳細說明,并不造成對本發(fā)明的限制。
[0008]本發(fā)明的目的是設計一種生物信息學計算平臺的標準benchmark測試方法和流程,使生物信息學計算平臺的測試標準,規(guī)范化,為生物信息學計算平臺的性能評估提供參考和依據(jù)。
[0009]本發(fā)明的構思時這樣的:先確定適用于生物信息學平臺的硬件平臺,搭建測試環(huán)境,如安裝操作系統(tǒng),系統(tǒng)中部署軟件,如intel編譯器,mpi等,安裝生物信息學軟件,選擇具有代表性的測試用例;其中,
所述確定的硬件平臺使用于生物信息學的數(shù)據(jù)分析,生物信息學的計算需求一般內(nèi)存容量消耗大,磁盤讀寫頻繁,且存儲占用空間大等,依據(jù)這一特點我們選用了 128GB的內(nèi)存容量,多塊盤做RAID0,存儲空間2TB,以滿足運算的需求;
所述搭建測試環(huán)境是指,在確定硬件配置后,在其上部署系統(tǒng)環(huán)境,安裝編譯器,并行環(huán)境等,并進行系統(tǒng)基礎性能測試,分別測試系統(tǒng)的Linpack效率,測試系統(tǒng)的內(nèi)存帶寬,磁盤順序讀寫等;并對系統(tǒng)測試的指標進行分析,以確保系統(tǒng)性能正常,以便在穩(wěn)定正常的系統(tǒng)環(huán)境下進行應用性能測試;
所述安裝生物信息學軟件是指,進行應用測試時,在搭建測試環(huán)境后,在系統(tǒng)中部署應用軟件,應用軟件是生物信息學分析常用軟件,且計算需求較高,計算耗時,具有代表性,在本發(fā)明中我們選用序列比對軟件BWA和序列拼接軟件VELVET進行測試;對于測試用例的的規(guī)模,要能涵蓋或是代表大部分用戶的生物信息分析的數(shù)據(jù)規(guī)模,我們選用ILLUMIA的測序數(shù)據(jù)進行分析;
選擇具有代表性的測試用例:統(tǒng)計兩款軟件在計算平臺下的運行時間,并監(jiān)控資源消耗情況,最后整理出完成的測試信息。[0010]為了使本發(fā)明的目的、技術方案和優(yōu)勢更加清晰,我們給出具體的實施方式:
1)本次測試我們選擇一臺浪潮NF5280M3雙路計算節(jié)點,CPU選用INTELXeonE5-2670,配 8GB*16=128GB 內(nèi)存,8 塊 300GB 磁盤做 RAID);
2)平臺環(huán)境配置:安裝RHEL6.3 Linux操作系統(tǒng),安裝incomposer_xe_2013.3.163編譯器,intel mpi4.1.0.024,以及配置用戶環(huán)境;
3)平臺系統(tǒng)性能測試:安裝HPL,進行系統(tǒng)的Iinpack測試;編譯安裝stream,進行內(nèi)存帶寬測試,使用DD進行磁盤順序讀寫性能測試;
4)系統(tǒng)性能數(shù)據(jù)分析,比較;系統(tǒng)性能測試值的高低需要參考官方數(shù)據(jù),如出現(xiàn)偏低現(xiàn)象要進行調(diào)試,確保系統(tǒng)性能正常;
5)應用軟件部署,應用軟件我們選擇生物信息領域中計算量大,且常用的軟件,序列比對軟件 Burrows-Wheeler Aligner (BffA),序列拼接軟件 VELVET, indel, snp 查找軟件GATK (the Genome Analysis Tool Kit ;軟件編譯均使用INTEL編譯器完成;
6)應用性能測試,測試用例的選擇,BWA和VELVET的測試用例我們從ILLUMIA的下載,該用例是人類基因組的10倍覆蓋度的測試數(shù)據(jù),下載地址:ftp://ftp.sra.eb1.ac.uk/voIl/fastq/ERR091/ERR091571
分別下載 ERR091571_1.fastq.gz 和 ERR091571_2.fastq.gz;
參考序列使用 GRCh37 (Genome Reference Consortium Human build 37);
測試數(shù)據(jù)整理,利用系統(tǒng)命令收集軟件運行中CPU,磁盤,內(nèi)存使用情況,記錄程序運行的時間。
[0011]以上所述僅為本發(fā)明的實施例而已,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【權利要求】
1.一種生物信息學高性能計算平臺的測試方法,其特征在于,該測試方法依據(jù)生物信息學計算的需求,配置適合的硬件環(huán)境進行測試,測試中考慮系統(tǒng)性能是否正常,應用軟件以及算例的選擇是否具有生物信息學軟件的代表性,測試用例的壓力是否足夠大等,并最后給出固定平臺下的資源使用情況; 該方法主要包括確定適用于生物信息學平臺的硬件平臺,搭建測試環(huán)境,安裝生物信息學軟件,選擇具有代表性的測試用例。
2.根據(jù)權利要求1所述的生物信息學高性能計算平臺的測試方法,其特征在于, 所述硬件平臺使用于生物信息學的數(shù)據(jù)分析,選用了 128GB的內(nèi)存容量,多塊盤做RAIDO,存儲空間為2TB。
3.根據(jù)權利要求2所述的生物信息學高性能計算平臺的測試方法,其特征在于,所述搭建測試環(huán)境是指,在確定硬件平臺配置后,在其上安裝操作系統(tǒng),系統(tǒng)中部署軟件,安裝編譯器,并行環(huán)境。
4.根據(jù)權利要求3所述的生物信息學高性能計算平臺的測試方法,其特征在于,所述系統(tǒng)中部署軟件包括intel編譯器、mpi。
5.根據(jù)權利要求3所述的生物信息學高性能計算平臺的測試方法,其特征在于,所述安裝生物信息學軟件是指,在系統(tǒng)中部署應用軟件,選用序列比對軟件BWA和序列拼接軟件VELVET進行測試;對于測試用例的的規(guī)模,選用ILLUMIA的測序數(shù)據(jù)進行分析。
【文檔編號】G06F19/28GK103984882SQ201410196381
【公開日】2014年8月13日 申請日期:2014年5月12日 優(yōu)先權日:2014年5月12日
【發(fā)明者】金蓮 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司