基于日志的生物基因測序的任務模型構建方法
【專利摘要】本發(fā)明公開了一種基于日志的生物基因測序的任務模型構建方法,首先分析并提取生物基因測序日志中任務在提交時間上具有的工作日周期性和節(jié)假日周期特性;任務并行度在分布上具有的重尾分布特征,任務并行度同任務運行時間之間的重尾分布特征;任務隊列的隊列使用率存在指數(shù)分布,正態(tài)分布,伽馬分布,二項分布特征,同時隊列使用率同隊列的日任務到達數(shù)的期望值之間存在非線性關系的特征。本發(fā)明模擬了任務提交時間上的工作日周期性以及節(jié)假日周期性;然后生成了任務的并行度和任務的運行時間;最后到達數(shù)的期望之間存在的關系生成了任務的隊列號。最終構建的任務模型可以用于更好地分析生物基因測序技術的優(yōu)缺點,優(yōu)化高性能環(huán)境的資源利用率。
【專利說明】基于日志的生物基因測序的任務模型構建方法
【技術領域】
[0001]本發(fā)明涉及高性能計算領域,特別涉及一種基于日志的生物基因測序的任務模型構建方法。
【背景技術】
[0002]自從watson和crick在1953年發(fā)現(xiàn)了 DNA的雙螺旋結構后,生命科學的發(fā)展便翻開了新的篇章。而針對DNA的生物基因測序技術則成為整個生命科學發(fā)展的基礎。另一方面,生物基因測序技術需要海量的計算和存儲資源進行快速的測序,因此如果計算資源和存儲資源調度不合理的話,會導致資源的利用率低下,進而延遲基因測序的速度。而生物基因測序日志是生物基因測序技術在高性能計算環(huán)境下的使用記錄,通過分析生物基因測序日志中任務的各項屬性(任務的到達時間,任務的并行性,任務的運行時間等),可以很好地掌握生物基因測序使用計算資源的情況。而通過這些任務特性構建具有相同特性的任務模型,則有利于提出一種針對這些特性的集群調度策略,進而優(yōu)化集群的資源使用率。高性能環(huán)境下利用任務日志中的任務特性分為兩種:可塑性任務和剛性任務??伤苄匀蝿帐侵溉蝿盏牟⑿卸群腿蝿盏倪\行時間是可變的,而剛性任務則指任務的并行度和任務的運行時間是固定不變的。本發(fā)明主要針對剛性任務的任務特性進行模型構建,因此以下主要介紹剛性任務方向的任務模型構建的研究情況。
[0003]早期針對剛性任務負載的進行建模主要有以下四個特征:任務的并行性(任務使用的CPU數(shù)量)、任務的運行時間、用戶重復提交的任務數(shù)量以及任務的到達時間間隔。首先利用指數(shù)分布來模擬任務的到達時間間隔,通過對日志分析模擬出任務的并行性,再通過任務的并行性產生概率P,然后利用這個概率和高階指數(shù)分布模擬出任務的運行時間。需要指出的是這種方法在進行任務時間間隔模擬時,沒有考慮任務到達的工作日周期性和休息日周期性。本發(fā)明則同時考慮這兩種周期特性。而在最近的研究中,研究人員通過分析上述研究中未解決的問題,例如任務到達時間間隔的日周期特性等,然后分析了任務到達的工作日周期性,將一天分為48個時間槽,每個時間槽(1800s)根據(jù)其平均到達的任務數(shù),獲得正比于任務數(shù)的權重,然后采用伽馬分布對任務的工作日周期性進行模擬。同時研究人員發(fā)現(xiàn)任務的并行性與任務運行時間具有正比關系,且這兩個任務特征的對數(shù)呈伽馬分布,于是,研究人員利用上述信息首先模擬出任務的并行性,然后通過任務的并行性模擬出任務的運行時間。但是并沒有分析任務到達時間間隔的工作日周期性和節(jié)假日周期性,而是將這兩種混合在一起分析了日周期特性。本發(fā)明同時考慮了這兩種特性。
[0004]盡管現(xiàn)有的研究對剛性任務進行了很好的任務模型構建,但是仍然存在待解決的問題,例如任務的工作日周期特性和節(jié)假日周期特性的模型構建。因此,本發(fā)明在現(xiàn)有研究的基礎上針對任務到達時間間隔的工作日周期性和節(jié)假日周期性,任務運行時間,任務的并行度以及任務的隊列使用特性提出了一種基于日志的針對生物基因測序的任務模型構建方法。
【發(fā)明內容】
[0005]本發(fā)明的目的在于克服現(xiàn)有技術的缺點與不足,針對從實際環(huán)境中采集的生物基 因測序日志的任務到達時間間隔,任務的運行時間,任務的并行性,以及任務的隊列特性構 建一種具有這些任務特性的任務模型。
[0006]本發(fā)明的目的通過下述技術方案實現(xiàn):
[0007]一種基于日志的生物基因測序的任務模型構建方法,包括以下步驟:
[0008](1) DCModel模塊構建,主要利用指數(shù)分布和伽馬分布來模擬任務的工作日周期 性,通過指數(shù)分布模擬任務的節(jié)假日周期性,最后通過兩個指數(shù)分布產生任務的時間間隔 T ;
[0009](2) PRModel模塊構建,首先利用伽馬分布模擬出任務并行度P,然后利用生物基 因測序日志中任務并行度與任務運行時間之間存在重尾分布的特征,利用伽馬分布擬合這 種特征,然后模擬出任務的運行時間R ;
[0010](3) QModel模塊構建,首先利用一個偽隨機函數(shù)發(fā)生器對所有要生成的隊列進行 分類,分為四類LOW,MIDDLE, SUBHIGH, HIGH,針對這四種不同的分類分別采用指數(shù)分布,正 態(tài)分布,伽馬分布以及二項分布來生成每個隊列的使用率U,.,然后利用隊列的使用率仏同 隊列日任務到達數(shù)目期望反,之間存在的非線性關系,生成釔,然后通過一個指數(shù)分布產生 Mp最后利用U” M,以及一個偽隨機函數(shù)發(fā)生器來產生隊列號。
[0011]優(yōu)選的,步驟(1)中的DCModel的模型構建,首先判斷輸入的開始時間S是工作 日還是節(jié)假日,如果是工作日則選擇工作日周期性模塊,生成一個符合工作日周期性的任 務到達的時間間隔T ;反之,則生成一個符合節(jié)假日周期性的任務到達時間間隔T,最后用 (S+T)作為該任務的提交時間,并修正開始時間S=S+T。
[0012]優(yōu)選的,DCModel模塊實現(xiàn)的數(shù)學表達式如下:
【權利要求】
1.一種基于日志的生物基因測序的任務模型構建方法,其特征在于,包括以下步驟: (1)DCModel模塊構建,主要利用指數(shù)分布和伽馬分布來模擬任務的工作日周期性,通過指數(shù)分布模擬任務的節(jié)假日周期性,最后通過兩個指數(shù)分布產生任務的時間間隔T ; (2)PRModel模塊構建,首先利用伽馬分布模擬出任務并行度P,然后利用生物基因測序日志中任務并行度與任務運行時間之間存在重尾分布的特征,利用伽馬分布擬合這種特征,然后模擬出任務的運行時間R ; (3)QModel模塊構建,首先利用一個偽隨機函數(shù)發(fā)生器對所有要生成的隊列進行分類,分為四類LOW,MIDDLE, SUBHIGH, HIGH,針對這四種不同的分類分別采用指數(shù)分布,正態(tài)分布,伽馬分布以及二項分布來生成每個隊列的使用率Ui,然后利用隊列的使用率Ui同隊列日任務到達數(shù)目期望Λ?,.之間存在的非線性關系,生成兌,,然后通過一個指數(shù)分布產生Mi,最后利用Ui, Mi以及一個偽隨機函數(shù)發(fā)生器來產生隊列號。
2.根據(jù)權利要求1所述的基于日志的生物基因測序的任務模型構建方法,其特征在于,步驟⑴中的DCModel的模型構建,首先判斷輸入的開始時間S是工作日還是節(jié)假日,如果是工作日則選擇工作日周期性模塊,生成一個符合工作日周期性的任務到達的時間間隔T ;反之,則生成一個符合節(jié)假日周期性的任務到達時間間隔T,最后用(S+T)作為該任務的提交時間,并修正開始時間S=S+T。
3.根據(jù)權利要求2所述的基于日志的生物基因測序的任務模型構建方法,其特征在于,DCModel模塊實現(xiàn)的數(shù)學表達式如下:
4.根據(jù)權利要求1所述的基于日志的生物基因測序的任務模型構建方法,其特征在于,步驟⑵中的PRModel的模型構建,接收由步驟⑴生成的提交時間(S+T)作為觸發(fā),通過偽隨機函數(shù)發(fā)生器選擇任務并行度P所在的區(qū)間,然后利用相應的伽馬分布函數(shù)產生任務的并行度;然后再利用偽隨機函數(shù)發(fā)生器選擇任務運行時間R所在的區(qū)間,然后利用相應的伽馬分布函數(shù)和任務并行度P產生任務的運行時間R。
5.根據(jù)權利要求4所述的基于日志的生物基因測序的任務模型構建方法,其特征在于,PRModel模塊實現(xiàn)的數(shù)學表達式如下:
6.根據(jù)權利要求1所述的基于日志的生物基因測序的任務模型構建方法,其特征在于,步驟(3)中的QModel的模型構建,接收步驟(1)和(2)中生成的(S+T),P,R作為觸發(fā),根據(jù)生物基因測序日志中隊列的分布特性模擬并生成該任務的隊列號Q,最終完成整體任務模型的構建,生成的任務具有任務的提交時間,任務的并行度,任務的運行時間,任務的隊列號。
7.根據(jù)權利要求6所述的基于日志的生物基因測序的任務模型構建方法,其特征在于,QModel的數(shù)學表達式:
【文檔編號】G06F17/50GK103559333SQ201310477025
【公開日】2014年2月5日 申請日期:2013年10月12日 優(yōu)先權日:2013年10月12日
【發(fā)明者】董守斌, 曹志波, 李粵, 張凌 申請人:華南理工大學