技術(shù)總結(jié)
本發(fā)明公開了一種基于Spark算子的序列化存儲優(yōu)化方法,包括以下步驟:S1)使用ganglia檢測應(yīng)用執(zhí)行過程中機器的內(nèi)存使用量,如果檢測到當(dāng)前內(nèi)存值正常,則繼續(xù)監(jiān)測,若檢測到已達到指定閾值,則執(zhí)行步驟S2);S2)計算RDD的執(zhí)行時間和RDD的執(zhí)行效率;S3)根據(jù)公式(5)得到已排序的RDD序列,即序列化候選集合;S4)從序列化候選集合中選擇值最小的進行序列化存儲;S5)繼續(xù)步驟1),直到應(yīng)用執(zhí)行完畢。本發(fā)明實現(xiàn)在應(yīng)用執(zhí)行過程中高效存儲有價值的RDD緩存,從而提高內(nèi)存的使用率。相比與現(xiàn)有的緩存使用方案,本方法應(yīng)用于現(xiàn)有的Spark大數(shù)據(jù)平臺上,能夠在內(nèi)存資源有限時使整個應(yīng)用保持較高的執(zhí)行效率。
技術(shù)研發(fā)人員:熊安萍;楊方方;鄒洋;祝清意
受保護的技術(shù)使用者:重慶郵電大學(xué)
文檔號碼:201710160862
技術(shù)研發(fā)日:2017.03.17
技術(shù)公布日:2017.06.20