1.一種信息查詢方法,其特征在于,包括:
在接收到查詢用戶發(fā)送的查詢統(tǒng)計請求后,對查詢統(tǒng)計請求進行任務(wù)分解,以得到相應(yīng)的map reduce任務(wù);
根據(jù)得到的map reduce任務(wù),從分布式文件系統(tǒng)中相應(yīng)的分布式數(shù)據(jù)存儲節(jié)點讀取數(shù)據(jù);其中在分布式文件系統(tǒng)中的Hive數(shù)據(jù)倉庫中,數(shù)據(jù)存儲采用RcFile格式;
根據(jù)各分布式數(shù)據(jù)存儲節(jié)點讀取的數(shù)據(jù)進行分布式計算;
將各分布式數(shù)據(jù)存儲節(jié)點的計算結(jié)果進行合并,以得到查詢結(jié)果;
將查詢結(jié)果提供給查詢用戶。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
實時采集移動用戶的上網(wǎng)痕跡數(shù)據(jù);
將采集到的上網(wǎng)痕跡數(shù)據(jù)裝載到分布式文件系統(tǒng)中的Hive數(shù)據(jù)倉庫中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,
在將采集到的上網(wǎng)痕跡數(shù)據(jù)裝載到分布式文件系統(tǒng)中的Hive數(shù)據(jù)倉庫中的步驟中,還包括:
在進行Hive數(shù)據(jù)倉庫中數(shù)據(jù)表創(chuàng)建時,根據(jù)查詢統(tǒng)計請求任務(wù)分解個數(shù)和系統(tǒng)能力確定分桶個數(shù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,
利用公式
Buckets=min(data_total_size/dfs.block.size,map_count)
計算分桶個數(shù)Buckets,其中min( )為取最小值函數(shù),data_total_size為上網(wǎng)痕跡數(shù)據(jù)總量,dfs.block.size為分布式文件系統(tǒng)中配置的文件塊大小,map_count為查詢統(tǒng)計請求任務(wù)分解個數(shù)。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,
上網(wǎng)痕跡數(shù)據(jù)包括DPI設(shè)備分類上傳的認證信息和互聯(lián)網(wǎng)訪問信息、WAP網(wǎng)關(guān)分類上傳的認證信息和互聯(lián)網(wǎng)訪問信息、防火墻的SYSLOG日志服務(wù)器上傳的NAT地址轉(zhuǎn)換信息。
6.一種信息查詢系統(tǒng),其特征在于,包括接口單元、查詢驅(qū)動單元、數(shù)據(jù)處理單元和分布式文件系統(tǒng),其中:
接口單元,用于接收查詢用戶發(fā)送的查詢統(tǒng)計請求;
查詢驅(qū)動單元,用于在接口單元接收到查詢用戶發(fā)送的查詢統(tǒng)計請求后,對查詢統(tǒng)計請求進行任務(wù)分解,以得到相應(yīng)的map reduce任務(wù),并將得到的map reduce任務(wù)提供給數(shù)據(jù)讀取單元;
數(shù)據(jù)處理單元,用于根據(jù)得到的map reduce任務(wù),從分布式文件系統(tǒng)中相應(yīng)的分布式數(shù)據(jù)存儲節(jié)點讀取數(shù)據(jù),根據(jù)各分布式數(shù)據(jù)存儲節(jié)點讀取的數(shù)據(jù)進行分布式計算,將各分布式數(shù)據(jù)存儲節(jié)點的計算結(jié)果進行合并,以得到查詢結(jié)果;并指示接口單元將查詢結(jié)果提供給查詢用戶;
分布式文件系統(tǒng),用于存儲分布式數(shù)據(jù),其中在分布式文件系統(tǒng)中的Hive數(shù)據(jù)倉庫中,數(shù)據(jù)存儲采用RcFile格式。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括:采集單元和數(shù)據(jù)裝載單元,其中:
采集單元,用于實時采集移動用戶的上網(wǎng)痕跡數(shù)據(jù);
數(shù)據(jù)裝載單元,用于將采集單元采集到的上網(wǎng)痕跡數(shù)據(jù)裝載到分布式文件系統(tǒng)中的Hive數(shù)據(jù)倉庫中。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,
數(shù)據(jù)裝載單元具體在進行Hive數(shù)據(jù)倉庫中數(shù)據(jù)表創(chuàng)建時,根據(jù)查詢統(tǒng)計請求任務(wù)分解個數(shù)和系統(tǒng)能力確定分桶個數(shù)。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,
數(shù)據(jù)裝載單元利用公式
Buckets=min(data_total_size/dfs.block.size,map_count)
計算分桶個數(shù)Buckets,其中min()為取最小值函數(shù),data_total_size為上網(wǎng)痕跡數(shù)據(jù)總量,dfs.block.size為分布式文件系統(tǒng)中配置的文件塊大小,map_count為查詢統(tǒng)計請求任務(wù)分解個數(shù)。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于,
上網(wǎng)痕跡數(shù)據(jù)包括DPI設(shè)備分類上傳的認證信息和互聯(lián)網(wǎng)訪問信息、WAP網(wǎng)關(guān)分類上傳的認證信息和互聯(lián)網(wǎng)訪問信息、防火墻的SYSLOG日志服務(wù)器上傳的NAT地址轉(zhuǎn)換信息。