亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法

文檔序號(hào):6512844閱讀:272來源:國知局
一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法
【專利摘要】本發(fā)明提供一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其具體分析過程為:構(gòu)建網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)計(jì)算工作集群,客戶機(jī)服務(wù)節(jié)點(diǎn):用于接收來自客戶的計(jì)算指令;任務(wù)調(diào)度服務(wù)節(jié)點(diǎn):用于進(jìn)行節(jié)點(diǎn)管理和任務(wù)追蹤;數(shù)據(jù)倉庫節(jié)點(diǎn):存儲(chǔ)需要參與分析計(jì)算得的原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù);分布式計(jì)算節(jié)點(diǎn):用于進(jìn)行原始數(shù)據(jù)處理和生成目標(biāo)鍵值對(duì);匯聚計(jì)算節(jié)點(diǎn):根據(jù)計(jì)算指令對(duì)數(shù)據(jù)預(yù)處理結(jié)果進(jìn)行匯聚計(jì)算,并返還計(jì)算結(jié)果和注銷調(diào)度任務(wù)。該一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法和現(xiàn)有技術(shù)相比,解決原系統(tǒng)中的性能瓶頸,從而實(shí)現(xiàn)提高海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)的分析計(jì)算效率,實(shí)用性強(qiáng),易于推廣。
【專利說明】一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及稅務(wù)行業(yè)的數(shù)據(jù)分析和數(shù)據(jù)處理技術(shù),具體的說是一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法。
【背景技術(shù)】
[0002]隨著國家金稅三期網(wǎng)絡(luò)發(fā)票項(xiàng)目的推廣,全國納稅人每年可產(chǎn)生以TB為單位的海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù),這些數(shù)據(jù)如何能夠被更高效的分析利用,從而作為管理機(jī)構(gòu)的決策依據(jù),已經(jīng)成為各級(jí)管理部門日益突出的需求。
[0003]在現(xiàn)有的網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)計(jì)算體系中,影響性能的主要有兩大方面的原因: 一是現(xiàn)有的計(jì)算機(jī)組成體系和計(jì)算模式。
[0004]二是現(xiàn)有的網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)在關(guān)系型數(shù)據(jù)庫中的半結(jié)構(gòu)化存儲(chǔ)模式。
[0005]綜合分析以上兩大原因,在進(jìn)行海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分析計(jì)算時(shí),其瓶頸主要體現(xiàn)在:
A、數(shù)據(jù)存儲(chǔ)模式,在進(jìn)行海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分析時(shí),存在傳輸瓶頸,無法線性提高傳輸效率。
[0006]B、按照B樹方式存儲(chǔ)的關(guān)系型數(shù)據(jù)庫,在進(jìn)行海量網(wǎng)絡(luò)發(fā)票數(shù)據(jù)分析時(shí),包含的大量磁盤尋址操作,嚴(yán)重影響計(jì)算效率
C、業(yè)務(wù)邏輯的計(jì)算,無法進(jìn)行單元分割,無法以多線程的方式提高計(jì)算效率。
[0007]D、作為半結(jié)構(gòu)化的網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù),由于行業(yè)的不同、發(fā)票的不同導(dǎo)致存儲(chǔ)格式存在較大差異,無法按照統(tǒng)一數(shù)據(jù)處理模式進(jìn)行處理。
[0008]本發(fā)明所提出的海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,正是基于該背景下提出的。

【發(fā)明內(nèi)容】

[0009]本發(fā)明的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種實(shí)用性強(qiáng)、海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法。
[0010]本發(fā)明的技術(shù)方案是按以下方式實(shí)現(xiàn)的,該一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其具體分析過程為:
1)首先構(gòu)建網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)計(jì)算工作集群,該工作集群包含以下節(jié)點(diǎn):客戶機(jī)服務(wù)節(jié)點(diǎn)、與客戶機(jī)服務(wù)節(jié)點(diǎn)通信連接的任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)、與任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)通信連接的數(shù)據(jù)倉庫節(jié)點(diǎn)、與數(shù)據(jù)倉庫節(jié)點(diǎn)通信連接的分布式計(jì)算節(jié)點(diǎn)、與任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)及分布式計(jì)算節(jié)點(diǎn)均通信連接的匯聚計(jì)算節(jié)點(diǎn);
2)由客戶機(jī)服務(wù)節(jié)點(diǎn)接收來自客戶的計(jì)算指令;
3)根據(jù)計(jì)算指令,任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)管理和任務(wù)追蹤;
4)數(shù)據(jù)倉庫節(jié)點(diǎn)存儲(chǔ)需要參與分析計(jì)算得的原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù);
5)分布式計(jì)算節(jié)點(diǎn)進(jìn)行原始數(shù)據(jù)處理和生成目標(biāo)鍵值對(duì); 6)根據(jù)計(jì)算指令由匯聚計(jì)算節(jié)點(diǎn)對(duì)數(shù)據(jù)預(yù)處理結(jié)果進(jìn)行匯聚計(jì)算,并返還計(jì)算結(jié)果和注銷調(diào)度任務(wù);
7)任務(wù)調(diào)度節(jié)點(diǎn)將返回的最終處理結(jié)果返回到客戶機(jī)服務(wù)節(jié)點(diǎn),反饋給用戶;同時(shí)注銷任務(wù)調(diào)度節(jié)點(diǎn)的任務(wù)調(diào)度清單。
[0011]所述步驟2)的詳細(xì)過程為:客戶機(jī)服務(wù)節(jié)點(diǎn)接收到客戶的數(shù)據(jù)分析指令后,對(duì)分析指令進(jìn)行預(yù)編譯處理,分成數(shù)據(jù)范圍指令和數(shù)據(jù)處理指令,并向任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)提交數(shù)據(jù)處理任務(wù)請(qǐng)求,異步等待處理結(jié)果。
[0012]所述步驟3)的詳細(xì)過程為:任務(wù)調(diào)度節(jié)點(diǎn)接收到來自客戶機(jī)服務(wù)節(jié)點(diǎn)的數(shù)據(jù)處理任務(wù)請(qǐng)求之后,檢查當(dāng)前分布式計(jì)算節(jié)點(diǎn)、匯聚計(jì)算節(jié)點(diǎn)的資源占用情況,如果沒有可分配資源,則向客戶機(jī)服務(wù)節(jié)點(diǎn)返回系統(tǒng)繁忙指令,拒絕其數(shù)據(jù)處理任務(wù)請(qǐng)求;如果有可分配資源,則為該請(qǐng)求分配計(jì)算資源,生成任務(wù)調(diào)度清單,將數(shù)據(jù)范圍指令分配給數(shù)據(jù)倉庫節(jié)點(diǎn),將數(shù)據(jù)處理指令分配給匯聚計(jì)算節(jié)點(diǎn)。
[0013]所述步驟4)的詳細(xì)過程為:數(shù)據(jù)倉庫節(jié)點(diǎn)接收到數(shù)據(jù)范圍指令后,對(duì)原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)根據(jù)其存儲(chǔ)特征值進(jìn)行初步篩查,初步確認(rèn)有效原始數(shù)據(jù);對(duì)原始發(fā)票明細(xì)數(shù)據(jù),按照數(shù)據(jù)文件分配規(guī)則,從結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)儲(chǔ)為非結(jié)構(gòu)化的流式數(shù)據(jù),并進(jìn)行文件分割;分割完成的元數(shù)據(jù)文件,根據(jù)調(diào)度策略依次提交分布式計(jì)算接點(diǎn),進(jìn)行二次數(shù)據(jù)處理。
[0014]所述步驟5)的詳細(xì)過程為:分布式計(jì)算節(jié)點(diǎn)接收到元數(shù)據(jù)文件后,對(duì)元數(shù)據(jù)文件中的數(shù)據(jù)記錄進(jìn)行二次篩查,剔除無效數(shù)據(jù)記錄和異常數(shù)據(jù)記錄,并對(duì)有效地?cái)?shù)據(jù)記錄按照網(wǎng)絡(luò)發(fā)票票面元素組成內(nèi)容,對(duì)需要參加分析計(jì)算的票面元素進(jìn)行提取,生成KEY/VALUE鍵值對(duì),作為下一步的輸出內(nèi)容提交到匯聚計(jì)算節(jié)點(diǎn)。
[0015]所述步驟6)的詳細(xì)過程為:匯聚計(jì)算節(jié)點(diǎn)按照數(shù)據(jù)計(jì)算指令對(duì)接收到的網(wǎng)絡(luò)發(fā)票分析計(jì)算元素鍵值對(duì)進(jìn)行計(jì)算處理,由第一個(gè)處理完成的匯聚計(jì)算節(jié)點(diǎn)作為主節(jié)點(diǎn),通過心跳線向其他節(jié)點(diǎn)發(fā)送命令處理廣播,待所有節(jié)點(diǎn)的計(jì)算任務(wù)完成以后,由該主節(jié)點(diǎn)匯總生成最終處理結(jié)果,并提交到任務(wù)調(diào)度節(jié)點(diǎn)。
[0016]所述工作集群的各節(jié)點(diǎn)在組成數(shù)量上應(yīng)滿足以下要求:客戶機(jī)服務(wù)節(jié)點(diǎn)設(shè)置有I個(gè),任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)設(shè)置有I個(gè),數(shù)據(jù)倉庫節(jié)點(diǎn)設(shè)置有I個(gè),分布式計(jì)算節(jié)點(diǎn)設(shè)置有至少2個(gè),匯聚計(jì)算節(jié)點(diǎn)設(shè)置有至少I個(gè),其中各分布式計(jì)算節(jié)點(diǎn)各自進(jìn)行內(nèi)容計(jì)算,互不干涉,直到所有元數(shù)據(jù)文件被全部處理完成。
[0017]本發(fā)明與現(xiàn)有技術(shù)相比所產(chǎn)生的有益效果是:
本發(fā)明的一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法通過搭建網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)計(jì)算工作集群,將半結(jié)構(gòu)化的網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)利用網(wǎng)絡(luò)存儲(chǔ)文件系統(tǒng)進(jìn)行轉(zhuǎn)儲(chǔ)為流式文件系統(tǒng),并進(jìn)行元數(shù)據(jù)分割,解決傳輸效率低和磁盤尋址操作多的問題;將計(jì)算單元按照分布式任務(wù)進(jìn)行調(diào)度,解決無法以多線程方式進(jìn)行計(jì)算的問題;通過數(shù)據(jù)預(yù)處理,形成標(biāo)準(zhǔn)化的KEY/VALUE鍵值對(duì),解決數(shù)據(jù)格式不統(tǒng)一問題,從而大大提高海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)的分析計(jì)算效率;通過采用網(wǎng)絡(luò)存儲(chǔ)文件系統(tǒng)和重新構(gòu)建MAP/REDUCE鍵值對(duì)分析方法,來實(shí)現(xiàn)半結(jié)構(gòu)化的原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)在該工作集群上的的數(shù)據(jù)轉(zhuǎn)儲(chǔ)、文件分割、并行分析計(jì)算、數(shù)據(jù)結(jié)果處理等海量數(shù)據(jù)高速分析任務(wù),解決原系統(tǒng)中的性能瓶頸,從而實(shí)現(xiàn)提高海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)的分析計(jì)算效率,實(shí)用性強(qiáng),易于推廣。【專利附圖】

【附圖說明】
[0018]附圖1是本發(fā)明的網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)計(jì)算工作集群的聯(lián)機(jī)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019]下面結(jié)合附圖對(duì)本發(fā)明的一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法作詳細(xì)說明。
[0020]本發(fā)明的方法是利用分布式計(jì)算方法和網(wǎng)絡(luò)存儲(chǔ)文件系統(tǒng),解決海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分析計(jì)算中的數(shù)據(jù)傳輸瓶頸、計(jì)算性能瓶頸、數(shù)據(jù)存儲(chǔ)瓶頸等問題,從而提高海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)的計(jì)算效率,達(dá)到海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分析利用的目的,如附圖1所示,現(xiàn)提供一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其具體分析過程為:
1)首先構(gòu)建網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)計(jì)算工作集群,該工作集群包含以下節(jié)點(diǎn):客戶機(jī)服務(wù)節(jié)點(diǎn)、與客戶機(jī)服務(wù)節(jié)點(diǎn)通信連接的任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)、與任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)通信連接的數(shù)據(jù)倉庫節(jié)點(diǎn)、與數(shù)據(jù)倉庫節(jié)點(diǎn)通信連接的分布式計(jì)算節(jié)點(diǎn)、與任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)及分布式計(jì)算節(jié)點(diǎn)均通信連接的匯聚計(jì)算節(jié)點(diǎn);
2)由客戶機(jī)服務(wù)節(jié)點(diǎn)接收來自客戶的計(jì)算指令;
3)根據(jù)計(jì)算指令,任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)管理和任務(wù)追蹤;
4)數(shù)據(jù)倉庫節(jié)點(diǎn)存儲(chǔ)需要參與分析計(jì)算得的原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù);
5)分布式計(jì)算節(jié)點(diǎn)進(jìn)行原始數(shù)據(jù)處理和生成目標(biāo)鍵值對(duì);
6)根據(jù)計(jì)算指令由匯聚計(jì)算節(jié)點(diǎn)對(duì)數(shù)據(jù)預(yù)處理結(jié)果進(jìn)行匯聚計(jì)算,并返還計(jì)算結(jié)果和注銷調(diào)度任務(wù);
7)任務(wù)調(diào)度節(jié)點(diǎn)將返回的最終處理結(jié)果返回到客戶機(jī)服務(wù)節(jié)點(diǎn),反饋給用戶;同時(shí)注銷任務(wù)調(diào)度節(jié)點(diǎn)的任務(wù)調(diào)度清單。
[0021]所述步驟2)的詳細(xì)過程為:客戶機(jī)服務(wù)節(jié)點(diǎn)接收到客戶的數(shù)據(jù)分析指令后,對(duì)分析指令進(jìn)行預(yù)編譯處理,分成數(shù)據(jù)范圍指令和數(shù)據(jù)處理指令,并向任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)提交數(shù)據(jù)處理任務(wù)請(qǐng)求,異步等待處理結(jié)果。
[0022]所述步驟3)的詳細(xì)過程為:任務(wù)調(diào)度節(jié)點(diǎn)接收到來自客戶機(jī)服務(wù)節(jié)點(diǎn)的數(shù)據(jù)處理任務(wù)請(qǐng)求之后,檢查當(dāng)前分布式計(jì)算節(jié)點(diǎn)、匯聚計(jì)算節(jié)點(diǎn)的資源占用情況,如果沒有可分配資源,則向客戶機(jī)服務(wù)節(jié)點(diǎn)返回系統(tǒng)繁忙指令,拒絕其數(shù)據(jù)處理任務(wù)請(qǐng)求;如果有可分配資源,則為該請(qǐng)求分配計(jì)算資源,生成任務(wù)調(diào)度清單,將數(shù)據(jù)范圍指令分配給數(shù)據(jù)倉庫節(jié)點(diǎn),將數(shù)據(jù)處理指令分配給匯聚計(jì)算節(jié)點(diǎn)。
[0023]所述步驟4)的詳細(xì)過程為:數(shù)據(jù)倉庫節(jié)點(diǎn)接收到數(shù)據(jù)范圍指令后,對(duì)原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)根據(jù)其存儲(chǔ)特征值進(jìn)行初步篩查,初步確認(rèn)有效原始數(shù)據(jù);對(duì)原始發(fā)票明細(xì)數(shù)據(jù),按照數(shù)據(jù)文件分配規(guī)則,從結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)儲(chǔ)為非結(jié)構(gòu)化的流式數(shù)據(jù),并進(jìn)行文件分割;分割完成的元數(shù)據(jù)文件,根據(jù)調(diào)度策略依次提交分布式計(jì)算接點(diǎn),進(jìn)行二次數(shù)據(jù)處理。
[0024]所述步驟5)的詳細(xì)過程為:分布式計(jì)算節(jié)點(diǎn)接收到元數(shù)據(jù)文件后,對(duì)元數(shù)據(jù)文件中的數(shù)據(jù)記錄進(jìn)行二次篩查,剔除無效數(shù)據(jù)記錄和異常數(shù)據(jù)記錄,并對(duì)有效地?cái)?shù)據(jù)記錄按照網(wǎng)絡(luò)發(fā)票票面元素組成內(nèi)容,對(duì)需要參加分析計(jì)算的票面元素進(jìn)行提取,生成KEY/VALUE鍵值對(duì),作為下一步的輸出內(nèi)容提交到匯聚計(jì)算節(jié)點(diǎn)。
[0025]所述步驟6)的詳細(xì)過程為:匯聚計(jì)算節(jié)點(diǎn)按照數(shù)據(jù)計(jì)算指令對(duì)接收到的網(wǎng)絡(luò)發(fā)票分析計(jì)算元素鍵值對(duì)進(jìn)行計(jì)算處理,由第一個(gè)處理完成的匯聚計(jì)算節(jié)點(diǎn)作為主節(jié)點(diǎn),通過心跳線向其他節(jié)點(diǎn)發(fā)送命令處理廣播,待所有節(jié)點(diǎn)的計(jì)算任務(wù)完成以后,由該主節(jié)點(diǎn)匯總生成最終處理結(jié)果,并提交到任務(wù)調(diào)度節(jié)點(diǎn)。
[0026]所述工作集群的各節(jié)點(diǎn)在組成數(shù)量上應(yīng)滿足以下要求:客戶機(jī)服務(wù)節(jié)點(diǎn)設(shè)置有I個(gè),任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)設(shè)置有I個(gè),數(shù)據(jù)倉庫節(jié)點(diǎn)設(shè)置有I個(gè),分布式計(jì)算節(jié)點(diǎn)設(shè)置有至少2個(gè),匯聚計(jì)算節(jié)點(diǎn)設(shè)置有至少I個(gè),其中各分布式計(jì)算節(jié)點(diǎn)各自進(jìn)行內(nèi)容計(jì)算,互不干涉,直到所有元數(shù)據(jù)文件被全部處理完成。
[0027]其中任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)具備服務(wù)跟蹤功能。
[0028]數(shù)據(jù)倉庫節(jié)點(diǎn)具備對(duì)不同格式的結(jié)構(gòu)化或者半結(jié)構(gòu)化的原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)的轉(zhuǎn)儲(chǔ)為文本化的流式數(shù)據(jù)的功能。
[0029]分布式計(jì)算節(jié)點(diǎn)具備線性擴(kuò)展功能,即可通過增加節(jié)點(diǎn)的數(shù)量來同倍數(shù)提高對(duì)元數(shù)據(jù)的處理能力。
[0030]分布式計(jì)算節(jié)點(diǎn)可按照網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)組成要素進(jìn)行數(shù)據(jù)分解,提取需要參加分析計(jì)算的組成要素,形成KEY/VALUE鍵值對(duì)。
[0031]匯聚計(jì)算節(jié)點(diǎn)具備分布式計(jì)算調(diào)度功能,可通過心跳線或者心跳信號(hào)來進(jìn)行邏輯主從節(jié)點(diǎn)的計(jì)算工作調(diào)度,并對(duì)計(jì)算結(jié)果進(jìn)行匯總。
[0032]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的公知技術(shù)。
【權(quán)利要求】
1.一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其特征在于,其具體分析過程為: 1)首先構(gòu)建網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)計(jì)算工作集群,該工作集群包含以下節(jié)點(diǎn):客戶機(jī)服務(wù)節(jié)點(diǎn)、與客戶機(jī)服務(wù)節(jié)點(diǎn)通信連接的任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)、與任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)通信連接的數(shù)據(jù)倉庫節(jié)點(diǎn)、與數(shù)據(jù)倉庫節(jié)點(diǎn)通信連接的分布式計(jì)算節(jié)點(diǎn)、與任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)及分布式計(jì)算節(jié)點(diǎn)均通信連接的匯聚計(jì)算節(jié)點(diǎn); 2)由客戶機(jī)服務(wù)節(jié)點(diǎn)接收來自客戶的計(jì)算指令; 3)根據(jù)計(jì)算指令,任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)管理和任務(wù)追蹤; 4)數(shù)據(jù)倉庫節(jié)點(diǎn)存儲(chǔ)需要參與分析計(jì)算得的原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù); 5)分布式計(jì)算節(jié)點(diǎn)進(jìn)行原始數(shù)據(jù)處理和生成目標(biāo)鍵值對(duì); 6)根據(jù)計(jì)算指令由匯聚計(jì)算節(jié)點(diǎn)對(duì)數(shù)據(jù)預(yù)處理結(jié)果進(jìn)行匯聚計(jì)算,并返還計(jì)算結(jié)果和注銷調(diào)度任務(wù); 7)任務(wù)調(diào)度節(jié)點(diǎn)將返回的最終處理結(jié)果返回到客戶機(jī)服務(wù)節(jié)點(diǎn),反饋給用戶;同時(shí)注銷任務(wù)調(diào)度節(jié)點(diǎn)的任務(wù)調(diào)度清單。
2.根據(jù)權(quán)利要求1所述的一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其特征在于,所述步驟2)的詳細(xì)過程為:客戶機(jī)服務(wù)節(jié)點(diǎn)接收到客戶的數(shù)據(jù)分析指令后,對(duì)分析指令進(jìn)行預(yù)編譯處理,分成數(shù)據(jù)范圍指令和數(shù)據(jù)處理指令,并向任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)提交數(shù)據(jù)處理任務(wù)請(qǐng)求,異步等待處理結(jié)果。
3.根據(jù)權(quán)利要求1所述的一種海 量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其特征在于,所述步驟3)的詳細(xì)過程為:任務(wù)調(diào)度節(jié)點(diǎn)接收到來自客戶機(jī)服務(wù)節(jié)點(diǎn)的數(shù)據(jù)處理任務(wù)請(qǐng)求之后,檢查當(dāng)前分布式計(jì)算節(jié)點(diǎn)、匯聚計(jì)算節(jié)點(diǎn)的資源占用情況,如果沒有可分配資源,則向客戶機(jī)服務(wù)節(jié)點(diǎn)返回系統(tǒng)繁忙指令,拒絕其數(shù)據(jù)處理任務(wù)請(qǐng)求;如果有可分配資源,則為該請(qǐng)求分配計(jì)算資源,生成任務(wù)調(diào)度清單,將數(shù)據(jù)范圍指令分配給數(shù)據(jù)倉庫節(jié)點(diǎn),將數(shù)據(jù)處理指令分配給匯聚計(jì)算節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其特征在于,所述步驟4)的詳細(xì)過程為:數(shù)據(jù)倉庫節(jié)點(diǎn)接收到數(shù)據(jù)范圍指令后,對(duì)原始網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)根據(jù)其存儲(chǔ)特征值進(jìn)行初步篩查,初步確認(rèn)有效原始數(shù)據(jù);對(duì)原始發(fā)票明細(xì)數(shù)據(jù),按照數(shù)據(jù)文件分配規(guī)則,從結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)儲(chǔ)為非結(jié)構(gòu)化的流式數(shù)據(jù),并進(jìn)行文件分割;分割完成的元數(shù)據(jù)文件,根據(jù)調(diào)度策略依次提交分布式計(jì)算接點(diǎn),進(jìn)行二次數(shù)據(jù)處理。
5.根據(jù)權(quán)利要求1所述的一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其特征在于,所述步驟5)的詳細(xì)過程為:分布式計(jì)算節(jié)點(diǎn)接收到元數(shù)據(jù)文件后,對(duì)元數(shù)據(jù)文件中的數(shù)據(jù)記錄進(jìn)行二次篩查,剔除無效數(shù)據(jù)記錄和異常數(shù)據(jù)記錄,并對(duì)有效地?cái)?shù)據(jù)記錄按照網(wǎng)絡(luò)發(fā)票票面元素組成內(nèi)容,對(duì)需要參加分析計(jì)算的票面元素進(jìn)行提取,生成KEY/VALUE鍵值對(duì),作為下一步的輸出內(nèi)容提交到匯聚計(jì)算節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求1所述的一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其特征在于,所述步驟6)的詳細(xì)過程為:匯聚計(jì)算節(jié)點(diǎn)按照數(shù)據(jù)計(jì)算指令對(duì)接收到的網(wǎng)絡(luò)發(fā)票分析計(jì)算元素鍵值對(duì)進(jìn)行計(jì)算處理,由第一個(gè)處理完成的匯聚計(jì)算節(jié)點(diǎn)作為主節(jié)點(diǎn),通過心跳線向其他節(jié)點(diǎn)發(fā)送命令處理廣播,待所有節(jié)點(diǎn)的計(jì)算任務(wù)完成以后,由該主節(jié)點(diǎn)匯總生成最終處理結(jié)果,并提交到任務(wù)調(diào)度節(jié)點(diǎn)。
7.根據(jù)權(quán)利要求1-6中任一所述的一種海量網(wǎng)絡(luò)發(fā)票明細(xì)數(shù)據(jù)分布式分析方法,其特征在于,所述工作集群的各節(jié)點(diǎn)在組成數(shù)量上應(yīng)滿足以下要求:客戶機(jī)服務(wù)節(jié)點(diǎn)設(shè)置有I個(gè),任務(wù)調(diào)度服務(wù)節(jié)點(diǎn)設(shè)置有I個(gè),數(shù)據(jù)倉庫節(jié)點(diǎn)設(shè)置有I個(gè),分布式計(jì)算節(jié)點(diǎn)設(shè)置有至少2個(gè),匯聚計(jì)算節(jié)點(diǎn)設(shè)置有至少I個(gè),其中各分布式計(jì)算節(jié)點(diǎn)各自進(jìn)行內(nèi)容計(jì)算,互不干涉,直到所有元數(shù)據(jù)文件被全部處 理完成。
【文檔編號(hào)】G06F17/30GK103455633SQ201310437262
【公開日】2013年12月18日 申請(qǐng)日期:2013年9月24日 優(yōu)先權(quán)日:2013年9月24日
【發(fā)明者】徐兵兵, 于治樓, 王永軍 申請(qǐng)人:浪潮齊魯軟件產(chǎn)業(yè)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1