一種業(yè)務數(shù)據(jù)報表方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種業(yè)務數(shù)據(jù)報表方法與系統(tǒng),包括:生成并存儲生成業(yè)務報表所需的原始數(shù)據(jù);接收所述原始數(shù)據(jù),并對所述原始數(shù)據(jù)進行降維處理;根據(jù)降維處理后的數(shù)據(jù)生成多維數(shù)據(jù)集;根據(jù)所述多維數(shù)據(jù)集生成報表。本發(fā)明通過使用接收原始數(shù)據(jù),進行降維處理,從大量煩亂的原始數(shù)據(jù)中整理出制式化的格式數(shù)據(jù)寫入多維數(shù)據(jù)集,根據(jù)不同角度的要求生成報表的技術(shù)方案,能夠承載大量數(shù)據(jù)的存儲、整理與呈現(xiàn),在業(yè)務數(shù)據(jù)中心的大數(shù)據(jù)環(huán)境下能夠正常工作。
【專利說明】
_種業(yè)務數(shù)據(jù)報表方法與系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及大數(shù)據(jù)處理領(lǐng)域,特別地,涉及一種業(yè)務數(shù)據(jù)報表方法與系統(tǒng)。
【背景技術(shù)】
[0002]數(shù)據(jù)中心是一整套復雜的設(shè)施。它不僅僅包括計算機系統(tǒng)和其它與之配套的設(shè)備(例如通信和存儲系統(tǒng)),還包含冗余的數(shù)據(jù)通信連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置。從應用層面看,包括業(yè)務系統(tǒng)、基于數(shù)據(jù)倉庫的分析系統(tǒng);從數(shù)據(jù)層面看,包括操作型數(shù)據(jù)和分析型數(shù)據(jù)以及數(shù)據(jù)與數(shù)據(jù)的集成/整合流程;從基礎(chǔ)設(shè)施層面看,包括服務器、網(wǎng)絡(luò)、存儲和整體IT運行維護服務。
[0003]報表系統(tǒng)是用于統(tǒng)計報表制作及報表及數(shù)據(jù)填報的企業(yè)級報表分析軟件。報表是企業(yè)管理的基本措施和途徑,是企業(yè)的基本業(yè)務要求,也是實施BI戰(zhàn)略的基礎(chǔ)。報表可以幫助企業(yè)訪問、格式化數(shù)據(jù),并把數(shù)據(jù)信息以可靠和安全的方式呈現(xiàn)給使用者。然而,報表系統(tǒng)能處理的數(shù)據(jù)量遠遠小于數(shù)據(jù)中心所需要處理的數(shù)據(jù)量,企業(yè)業(yè)務系統(tǒng)中不存在業(yè)務數(shù)據(jù)中心可用的完整的報表系統(tǒng)。
[0004]針對現(xiàn)有技術(shù)中不存在業(yè)務數(shù)據(jù)中心可用的完整的報表系統(tǒng)的問題,目前尚沒有有效的解決方案。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明的目的在于提出一種業(yè)務數(shù)據(jù)報表方法與系統(tǒng),能夠?qū)?shù)據(jù)中心中需要進行處理的大量數(shù)據(jù)進行報表,供使用者審核。
[0006]基于上述目的,本發(fā)明提供的技術(shù)方案如下:
[0007]根據(jù)本發(fā)明的一個方面,提供了一種業(yè)務數(shù)據(jù)報表方法,包括:
[0008]生成并存儲生成業(yè)務報表所需的原始數(shù)據(jù);
[0009]接收原始數(shù)據(jù),并對原始數(shù)據(jù)進行降維處理;
[0010]根據(jù)降維處理后的數(shù)據(jù)生成多維數(shù)據(jù)集;
[0011 ]根據(jù)多維數(shù)據(jù)集生成報表。
[0012]其中,對原始數(shù)據(jù)進行降維處理的同時,還進行以下處理,包括:
[0013]收集原始數(shù)據(jù),并提取出有效數(shù)據(jù)和變量;
[0014]識別數(shù)據(jù)中的值、填補空缺值、減少數(shù)據(jù)噪聲、消除數(shù)據(jù)的不一致性;
[0015]將數(shù)據(jù)和變量標準化、離散化。
[0016]并且,生成并存儲原始數(shù)據(jù)的步驟包括以下至少一種方式:
[0017]通過在線業(yè)務產(chǎn)生的數(shù)據(jù),并存儲于業(yè)務數(shù)據(jù)庫中;
[0018]異步生成消息,并存儲于異步消息隊列中;
[0019]使用接口獲取外界平臺生成的高實時性數(shù)據(jù);
[0020]記錄操作生成的事件數(shù)據(jù),并存儲于日志文件中。
[0021 ]并且,通過在線業(yè)務產(chǎn)生的數(shù)據(jù),并存儲于業(yè)務數(shù)據(jù)庫中包括:對業(yè)務數(shù)據(jù)庫進行主從備份,并在業(yè)務數(shù)據(jù)庫的從庫中使用ETL工具采集并接收數(shù)據(jù),其中,業(yè)務數(shù)據(jù)庫的主庫與從庫具有數(shù)據(jù)隔離;
[0022]記錄操作生成的事件數(shù)據(jù),并存儲于日志文件中包括:創(chuàng)建定時任務,并根據(jù)定時任務從日志文件中采集并接收數(shù)據(jù),其中,定時任務中記錄有指定的數(shù)據(jù)采集時間。
[0023]另外,對原始數(shù)據(jù)進行降維處理之后,還存儲降維處理后的數(shù)據(jù);
[0024]根據(jù)降維處理后的數(shù)據(jù)生成多維數(shù)據(jù)集為:獲取存儲的降維處理后的數(shù)據(jù)并使用基于聯(lián)機分析處理技術(shù)的數(shù)學模型對數(shù)據(jù)進行聚類處理,根據(jù)實際業(yè)務需求生成多維數(shù)據(jù)集。
[0025]并且,多維數(shù)據(jù)集包括監(jiān)控業(yè)務數(shù)據(jù)、直播業(yè)務數(shù)據(jù)和點播業(yè)務數(shù)據(jù)。
[0026]并且,根據(jù)多維數(shù)據(jù)集生成報表包括:
[0027]獲取多維數(shù)據(jù)集,并存儲常用數(shù)據(jù)與查詢過的數(shù)據(jù);
[0028]根據(jù)常用數(shù)據(jù)與查詢過的數(shù)據(jù)形成直播業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表;
[0029]使用圖形化分別展示業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表。
[0030]根據(jù)本發(fā)明的另一個方面,提供了一種業(yè)務數(shù)據(jù)報表系統(tǒng),包括:
[0031]數(shù)據(jù)源模塊,數(shù)據(jù)源模塊為業(yè)務數(shù)據(jù)報表系統(tǒng)的起點,數(shù)據(jù)源模塊存儲用于生成業(yè)務報表所需的原始數(shù)據(jù);
[0032]數(shù)據(jù)采集模塊,數(shù)據(jù)采集模塊連接至數(shù)據(jù)源模塊,數(shù)據(jù)采集模塊包括數(shù)據(jù)約簡單元,數(shù)據(jù)約簡單元從數(shù)據(jù)源模塊接收數(shù)據(jù)并進行降維處理;
[0033]數(shù)據(jù)分析模塊,數(shù)據(jù)分析模塊連接至數(shù)據(jù)采集模塊,數(shù)據(jù)分析模塊獲取數(shù)據(jù)采集模塊降維處理后的數(shù)據(jù)并生成多維數(shù)據(jù)集;
[0034]報表模塊,報表模塊連接至數(shù)據(jù)分析模塊,報表模塊獲取數(shù)據(jù)分析模塊生成的多維數(shù)據(jù)集并形成報表。
[0035]其中,數(shù)據(jù)采集模塊還包括數(shù)據(jù)整合單元、數(shù)據(jù)清洗單元和數(shù)據(jù)變換單元,其中:
[0036]數(shù)據(jù)整合單元用于從數(shù)據(jù)源模塊中收集原始數(shù)據(jù),并提取出必要的數(shù)據(jù)和變量;
[0037]數(shù)據(jù)清洗單元連接至數(shù)據(jù)整合單元,用于獲取數(shù)據(jù)整合單元提取的數(shù)據(jù)和變量,并識別數(shù)據(jù)中的值、填補空缺值、減少數(shù)據(jù)噪聲、消除數(shù)據(jù)的不一致性;
[0038]數(shù)據(jù)變換單元連接至數(shù)據(jù)清洗單元,用于獲取數(shù)據(jù)清洗單元處理的數(shù)據(jù)和變量,并將數(shù)據(jù)和變量標準化、離散化。
[0039]并且,數(shù)據(jù)源模塊包括以下至少之一:
[0040]業(yè)務數(shù)據(jù)庫,業(yè)務數(shù)據(jù)庫存儲在線業(yè)務產(chǎn)生的數(shù)據(jù);
[0041 ]消息單元,消息單元使用異步消息隊列發(fā)送數(shù)據(jù);
[0042 ]接口單元,接口單元用于傳輸高實時性數(shù)據(jù);
[0043]日志文件,日志文件用于記錄操作事件。
[0044]并且,數(shù)據(jù)采集模塊從業(yè)務數(shù)據(jù)庫接收數(shù)據(jù)包括:數(shù)據(jù)采集模塊對業(yè)務數(shù)據(jù)庫進行主從備份,并在業(yè)務數(shù)據(jù)庫的從庫中使用ETL工具采集并接收數(shù)據(jù),其中,業(yè)務數(shù)據(jù)庫的主庫與從庫具有數(shù)據(jù)隔離;
[0045]數(shù)據(jù)采集模塊從日志文件接收數(shù)據(jù)包括:數(shù)據(jù)采集模塊創(chuàng)建定時任務,并根據(jù)定時任務從日志文件中采集并接收數(shù)據(jù),其中,定時任務中記錄有指定的數(shù)據(jù)采集時間。
[0046]另外,數(shù)據(jù)采集模塊還包括數(shù)據(jù)倉庫,數(shù)據(jù)采集模塊對原始數(shù)據(jù)進行降維處理之后,還降維處理后的數(shù)據(jù)存儲到數(shù)據(jù)倉庫;
[0047]數(shù)據(jù)分析模塊獲取數(shù)據(jù)倉庫存儲的降維處理后的數(shù)據(jù)并生成多維數(shù)據(jù)集為:數(shù)據(jù)分析模塊獲取數(shù)據(jù)采集模塊降維處理后的數(shù)據(jù)并使用基于聯(lián)機分析處理技術(shù)的數(shù)學模型對數(shù)據(jù)進行聚類處理,根據(jù)實際業(yè)務需求生成多維數(shù)據(jù)集。
[0048]并且,多維數(shù)據(jù)集包括監(jiān)控業(yè)務數(shù)據(jù)、直播業(yè)務數(shù)據(jù)和點播業(yè)務數(shù)據(jù)。
[0049]并且,報表模塊包括:
[0050]緩存單元,緩存單元存儲常用數(shù)據(jù)與查詢過的數(shù)據(jù);
[0051]報表單元,報表單元用于形成直播業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表;
[0052]頁面展示單元,頁面展示單元使用圖形化展示分別業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表。
[0053]從上面所述可以看出,本發(fā)明實施例提供的技術(shù)方案通過使用接收原始數(shù)據(jù),進行降維處理,從大量煩亂的原始數(shù)據(jù)中整理出制式化的格式數(shù)據(jù)寫入多維數(shù)據(jù)集,根據(jù)不同角度的要求生成報表,能夠承載大量數(shù)據(jù)的存儲、整理與呈現(xiàn),在業(yè)務數(shù)據(jù)中心的大數(shù)據(jù)環(huán)境下能夠正常工作。
【附圖說明】
[0054]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0055]圖1為本發(fā)明實施例的業(yè)務數(shù)據(jù)報表方法的流程圖;
[0056]圖2為本發(fā)明實施例的業(yè)務數(shù)據(jù)報表系統(tǒng)的結(jié)構(gòu)圖;
[0057]圖3為本發(fā)明實施例的業(yè)務數(shù)據(jù)報表系統(tǒng)的詳細結(jié)構(gòu)圖。
【具體實施方式】
[0058]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進一步進行清楚、完整、詳細地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0059]根據(jù)本發(fā)明的一個實施例,提供了一種業(yè)務數(shù)據(jù)報表方法。
[0060]如圖1所示,根據(jù)本發(fā)明實施例提供的業(yè)務數(shù)據(jù)報表方法包括:
[0061]步驟SlOl,生成并存儲生成業(yè)務報表所需的原始數(shù)據(jù);
[0062]步驟S102,接收原始數(shù)據(jù),并對原始數(shù)據(jù)進行降維處理;
[0063]步驟S103,根據(jù)降維處理后的數(shù)據(jù)生成多維數(shù)據(jù)集;
[0064]步驟S104,根據(jù)多維數(shù)據(jù)集生成報表。
[0065]其中,對原始數(shù)據(jù)進行降維處理之前,還可進行以下處理,包括:
[0066]收集原始數(shù)據(jù),并提取出有效數(shù)據(jù)和變量;
[0067]識別數(shù)據(jù)中的值、填補空缺值、減少數(shù)據(jù)噪聲、消除數(shù)據(jù)的不一致性;
[0068]將數(shù)據(jù)和變量標準化、離散化。
[0069]并且,生成并存儲原始數(shù)據(jù)的步驟包括以下至少一種方式:
[0070]通過在線業(yè)務產(chǎn)生的數(shù)據(jù),并存儲于業(yè)務數(shù)據(jù)庫中;
[0071 ]異步生成消息,并存儲于異步消息隊列中;
[0072]使用接口獲取外界平臺生成的高實時性數(shù)據(jù);
[0073]記錄操作生成的事件數(shù)據(jù),并存儲于日志文件中。
[0074]并且,通過在線業(yè)務產(chǎn)生的數(shù)據(jù),并存儲于業(yè)務數(shù)據(jù)庫中包括:對業(yè)務數(shù)據(jù)庫進行主從備份,并在業(yè)務數(shù)據(jù)庫的從庫中使用ETL工具采集并接收數(shù)據(jù),其中,業(yè)務數(shù)據(jù)庫的主庫與從庫具有數(shù)據(jù)隔離;
[0075]記錄操作生成的事件數(shù)據(jù),并存儲于日志文件中包括:創(chuàng)建定時任務,并根據(jù)定時任務從日志文件中采集并接收數(shù)據(jù),其中,定時任務中記錄有指定的數(shù)據(jù)采集時間。
[0076]另外,對原始數(shù)據(jù)進行降維處理之后,還存儲降維處理后的數(shù)據(jù);
[0077]根據(jù)降維處理后的數(shù)據(jù)生成多維數(shù)據(jù)集為:獲取存儲的降維處理后的數(shù)據(jù)并使用基于聯(lián)機分析處理技術(shù)的數(shù)學模型對數(shù)據(jù)進行聚類處理,根據(jù)實際業(yè)務需求生成多維數(shù)據(jù)集。
[0078]并且,多維數(shù)據(jù)集包括監(jiān)控業(yè)務數(shù)據(jù)、直播業(yè)務數(shù)據(jù)和點播業(yè)務數(shù)據(jù)。
[0079]并且,根據(jù)多維數(shù)據(jù)集生成報表包括:
[0080]獲取多維數(shù)據(jù)集,并存儲常用數(shù)據(jù)與查詢過的數(shù)據(jù);
[0081]根據(jù)常用數(shù)據(jù)與查詢過的數(shù)據(jù)形成直播業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表;
[0082]使用圖形化分別展示業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表。
[0083 ]根據(jù)本發(fā)明的另一個方面,提供了一種業(yè)務數(shù)據(jù)報表系統(tǒng)。
[0084]如圖2所示,根據(jù)本發(fā)明實施例提供的業(yè)務數(shù)據(jù)報表系統(tǒng)包括:
[0085]數(shù)據(jù)源模塊21,為業(yè)務數(shù)據(jù)報表系統(tǒng)的起點,數(shù)據(jù)源模塊21存儲用于生成業(yè)務報表所需的原始數(shù)據(jù);
[0086]數(shù)據(jù)采集模塊22,連接至數(shù)據(jù)源模塊21,數(shù)據(jù)采集模塊22包括數(shù)據(jù)約簡單元,數(shù)據(jù)約簡單元從數(shù)據(jù)源模塊21接收數(shù)據(jù)并進行降維處理;
[0087]數(shù)據(jù)分析模塊23,連接至數(shù)據(jù)采集模塊22,數(shù)據(jù)分析模塊23獲取數(shù)據(jù)采集模塊22降維處理后的數(shù)據(jù)并生成多維數(shù)據(jù)集;
[0088]報表模塊24,連接至數(shù)據(jù)分析模塊23,報表模塊24獲取數(shù)據(jù)分析模塊23生成的多維數(shù)據(jù)集并形成報表。
[0089]其中,數(shù)據(jù)采集模塊22還包括數(shù)據(jù)整合單元、數(shù)據(jù)清洗單元和數(shù)據(jù)變換單元,其中:
[0090]數(shù)據(jù)整合單元用于從數(shù)據(jù)源模塊21中收集原始數(shù)據(jù),并提取出必要的數(shù)據(jù)和變量;
[0091]數(shù)據(jù)清洗單元連接至數(shù)據(jù)整合單元,用于獲取數(shù)據(jù)整合單元提取的數(shù)據(jù)和變量,并識別數(shù)據(jù)中的值、填補空缺值、減少數(shù)據(jù)噪聲、消除數(shù)據(jù)的不一致性;
[0092]數(shù)據(jù)變換單元連接至數(shù)據(jù)清洗單元,用于獲取數(shù)據(jù)清洗單元處理的數(shù)據(jù)和變量,并將數(shù)據(jù)和變量標準化、離散化。
[0093]并且,數(shù)據(jù)源模塊21包括以下至少之一:
[0094]業(yè)務數(shù)據(jù)庫,業(yè)務數(shù)據(jù)庫存儲在線業(yè)務產(chǎn)生的數(shù)據(jù);
[0095]消息單元,消息單元使用異步消息隊列發(fā)送數(shù)據(jù);
[0096]接口單元,接口單元用于傳輸高實時性數(shù)據(jù);
[0097]日志文件,日志文件用于記錄操作事件。
[0098]并且,數(shù)據(jù)采集模塊22從業(yè)務數(shù)據(jù)庫接收數(shù)據(jù)包括:數(shù)據(jù)采集模塊22對業(yè)務數(shù)據(jù)庫進行主從備份,并在業(yè)務數(shù)據(jù)庫的從庫中使用ETL工具采集并接收數(shù)據(jù),其中,業(yè)務數(shù)據(jù)庫的主庫與從庫具有數(shù)據(jù)隔離;
[0099]數(shù)據(jù)采集模塊22從日志文件接收數(shù)據(jù)包括:數(shù)據(jù)采集模塊22創(chuàng)建定時任務,并根據(jù)定時任務從日志文件中采集并接收數(shù)據(jù),其中,定時任務中記錄有指定的數(shù)據(jù)采集時間。
[0100]另外,數(shù)據(jù)采集模塊22還包括數(shù)據(jù)倉庫,數(shù)據(jù)采集模塊22對原始數(shù)據(jù)進行降維處理之后,還降維處理后的數(shù)據(jù)存儲到數(shù)據(jù)倉庫;
[0101]數(shù)據(jù)分析模塊23獲取數(shù)據(jù)倉庫存儲的降維處理后的數(shù)據(jù)并生成多維數(shù)據(jù)集為:數(shù)據(jù)分析模塊23獲取數(shù)據(jù)采集模塊22降維處理后的數(shù)據(jù)并使用基于聯(lián)機分析處理技術(shù)的數(shù)學模型對數(shù)據(jù)進行聚類處理,根據(jù)實際業(yè)務需求生成多維數(shù)據(jù)集。
[0102]并且,多維數(shù)據(jù)集包括監(jiān)控業(yè)務數(shù)據(jù)、直播業(yè)務數(shù)據(jù)和點播業(yè)務數(shù)據(jù)。
[0103]并且,報表模塊24包括:
[0104]緩存單元,緩存單元存儲常用數(shù)據(jù)與查詢過的數(shù)據(jù);
[0105]報表單元,報表單元用于形成直播業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表;
[0106]頁面展示單元,頁面展示單元使用圖形化展示分別業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表。
[0107]下面根據(jù)具體實施例進一步闡述本發(fā)明的技術(shù)方案。
[0108]圖3示出的是業(yè)務數(shù)據(jù)報表系統(tǒng)的詳細結(jié)構(gòu)圖。
[0109]數(shù)據(jù)源模塊包括業(yè)務數(shù)據(jù)庫、消息單元、接口單元、日志文件等用于生成原始數(shù)據(jù)的單元都可以作為數(shù)據(jù)源模塊。
[0?10] 數(shù)據(jù)采集模塊,通過定時任務采集日志文件、ETL工具(Extract-Transform-Load,中譯數(shù)據(jù)倉庫技術(shù))采集業(yè)務數(shù)據(jù)庫。
[0111]數(shù)據(jù)采集模塊22的數(shù)據(jù)約簡單元的降維處理是一種信源編碼的方法,能夠縮小數(shù)據(jù)的質(zhì)量,降低傳輸成本,而數(shù)據(jù)倉庫可通過暫存數(shù)據(jù)約簡單元降維處理過的數(shù)據(jù)來協(xié)調(diào)傳輸數(shù)據(jù)速度與降維處理數(shù)據(jù)速度的不平衡。同時,數(shù)據(jù)采集模塊的數(shù)據(jù)整合單元、數(shù)據(jù)清洗單元和數(shù)據(jù)變換單元是數(shù)據(jù)約簡單元的前置單元,用于從原始數(shù)據(jù)中提取可用信息并使其標準化、制式化,使數(shù)據(jù)約簡單元能夠?qū)ζ溥M行處理。
[0112]數(shù)據(jù)約簡單元進行降維處理為將數(shù)據(jù)從其高維度狀態(tài)轉(zhuǎn)化到低維度狀態(tài)。在原始的高維空間中,數(shù)據(jù)可能包含有冗余信息與噪音信息,在實際應用一一例如識別一一中造成了誤差,降低了準確率;而通過降維,冗余信息會減少,所造成的誤差也相應減少,提高數(shù)據(jù)的精度。同時,數(shù)據(jù)降維能縮短后續(xù)傳輸與計算小號的時間,另一方面,數(shù)據(jù)約簡單元也能通過降維算法來尋找數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征。
[0113]在一個實施例中,可以使用PCA (主成分分析算法,全稱為Princi pal ComponentAnalysis)進行數(shù)據(jù)降維。PCA的方法是把所有的數(shù)據(jù)點都映射到一起,那么幾乎所有的信息一一如點和點之間的距離關(guān)系一一都丟失了,而如果映射后方差盡可能的大,那么數(shù)據(jù)點則會分散開來,以此來保留更多的信息。可以證明,PCA是丟失原始數(shù)據(jù)信息最少的一種線性降維方式。實際上就是最接近原始數(shù)據(jù),但是并不試圖去探索數(shù)據(jù)內(nèi)在結(jié)構(gòu)。
[0114]PCA追求的是在降維之后能夠最大化保持數(shù)據(jù)的內(nèi)在信息,并通過衡量在投影方向上的數(shù)據(jù)方差的大小來衡量該方向的重要性。但是這樣投影以后對數(shù)據(jù)的區(qū)分作用并不大,反而可能使得數(shù)據(jù)點揉雜在一起無法區(qū)分。這也是PCA存在的最大一個問題,這導致使用PCA在很多情況下的分類效果并不好。
[0115]在另一個實施例中,可以使用LLE(局部線性嵌入算法,全稱為LocalIylinearembedding)進行數(shù)據(jù)降維。LLE算法是針對非線性數(shù)據(jù)的降維方法,處理后的低維數(shù)據(jù)均能夠保持原有的拓撲關(guān)系,廣泛應用于圖像數(shù)據(jù)的分類與聚類、文字識別、多維數(shù)據(jù)的可視化、以及生物信息學等領(lǐng)域中。LLE算法可以歸結(jié)為三步:(I)尋找每個樣本點的k個近鄰點;
(2)由每個樣本點的近鄰點計算出該樣本點的局部重建權(quán)值矩陣;(3)由該樣本點的局部重建權(quán)值矩陣和其近鄰點計算出該樣本點的輸出值。
[0116]數(shù)據(jù)源的業(yè)務數(shù)據(jù)庫為在線數(shù)據(jù)庫,進行主從備份的意義在于數(shù)據(jù)采集模塊對業(yè)務數(shù)據(jù)庫的訪問不會影響業(yè)務數(shù)據(jù)庫本身的正常運轉(zhuǎn)。主從備份相互隔離的情況下,無論數(shù)據(jù)采集模塊22如何訪問從庫,都不會占用主庫的資源或影響主庫提供的服務,另一方面,從庫也不會受到主庫的不良事件影響而繼續(xù)保有有效的在線數(shù)據(jù)。
[0117]數(shù)據(jù)分析模塊獲取數(shù)據(jù)采集模塊的數(shù)據(jù)生成多維數(shù)據(jù)集。多維數(shù)據(jù)集可以通過多個不同維度進行訪問,每一個維度可以代表一個查詢向量或者業(yè)務需求,在不同的維度中多維數(shù)據(jù)庫會顯示出基于該維度的數(shù)據(jù)的投影,該投影即報表的內(nèi)容部分。如,存在生產(chǎn)、運營、資源、用戶等方面的業(yè)務需求時,可以以此為查詢向量在多維數(shù)據(jù)庫中進行檢索,多維數(shù)據(jù)庫會返回數(shù)據(jù),并由報表單元形成針對不同業(yè)務需求的報表,如運營數(shù)據(jù)報表、生產(chǎn)過程數(shù)據(jù)報表、資源利用率報表、用戶行為數(shù)據(jù)報表、媒體信息數(shù)據(jù)報表、性能報表等。運營數(shù)據(jù)報表統(tǒng)計不同用戶和業(yè)務線的上傳、轉(zhuǎn)碼數(shù)據(jù)量,各環(huán)節(jié)成功率、失敗率走勢,上傳用戶地域分布和上傳量地域分布信息;生產(chǎn)過程數(shù)據(jù)報表統(tǒng)計上傳、轉(zhuǎn)碼、分發(fā)各子模塊狀態(tài)數(shù)據(jù)、失敗詳細信息及占比信息;資源利用率報表統(tǒng)計轉(zhuǎn)碼機利用率、轉(zhuǎn)碼容量利用率及各環(huán)節(jié)耗時速度比信息;用戶行為數(shù)據(jù)報表統(tǒng)計上傳視頻的用戶類型以及用戶活躍時間段信息;媒體信息數(shù)據(jù)報表統(tǒng)計視頻碼率分析、時長分析、視頻內(nèi)容分析信息;性能報表統(tǒng)計上傳、轉(zhuǎn)碼、分發(fā)速度數(shù)據(jù)信息。以上報表在生成后由頁面展示單元示出。
[0118]報表模塊的緩存單元從多維數(shù)據(jù)集獲取數(shù)據(jù)供報表單元調(diào)用。對于報表單元經(jīng)常調(diào)用的數(shù)據(jù),緩存單元會進行緩存以減少訪問多維數(shù)據(jù)集,提高響應速度。
[0119]綜上所述,借助于本發(fā)明的上述技術(shù)方案,通過使用接收原始數(shù)據(jù),進行降維處理,從大量煩亂的原始數(shù)據(jù)中整理出制式化的格式數(shù)據(jù)寫入多維數(shù)據(jù)集,根據(jù)不同角度的要求生成報表的技術(shù)方案,能夠承載大量數(shù)據(jù)的存儲、整理與呈現(xiàn),在業(yè)務數(shù)據(jù)中心的大數(shù)據(jù)環(huán)境下能夠正常工作。
[0120]所屬領(lǐng)域的普通技術(shù)人員應當理解:以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種業(yè)務數(shù)據(jù)報表方法,其特征在于,包括: 生成并存儲生成業(yè)務報表所需的原始數(shù)據(jù); 接收所述原始數(shù)據(jù),并對所述原始數(shù)據(jù)進行降維處理; 根據(jù)降維處理后的數(shù)據(jù)生成多維數(shù)據(jù)集; 根據(jù)所述多維數(shù)據(jù)集生成報表。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述原始數(shù)據(jù)進行降維處理前還包括以下步驟: 收集所述原始數(shù)據(jù),并提取出有效數(shù)據(jù)和變量; 識別數(shù)據(jù)中的值,填補空缺值,減少數(shù)據(jù)噪聲,消除數(shù)據(jù)的不一致性; 將數(shù)據(jù)和變量標準化、離散化。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述生成并存儲原始數(shù)據(jù)的步驟包括以下至少一種方式: 通過在線業(yè)務產(chǎn)生的數(shù)據(jù),并存儲于業(yè)務數(shù)據(jù)庫中; 異步生成消息,并存儲于異步消息隊列中; 使用接口獲取外界平臺生成的高實時性數(shù)據(jù); 記錄操作生成的事件數(shù)據(jù),并存儲于日志文件中。4.根據(jù)權(quán)利要求3所述的方法,其特征在于, 所述通過在線業(yè)務產(chǎn)生的數(shù)據(jù),并存儲于業(yè)務數(shù)據(jù)庫中包括:對所述業(yè)務數(shù)據(jù)庫進行主從備份,并在所述業(yè)務數(shù)據(jù)庫的從庫中使用ETL工具采集并接收數(shù)據(jù),其中,所述業(yè)務數(shù)據(jù)庫的主庫與從庫具有數(shù)據(jù)隔離; 所述記錄操作生成的事件數(shù)據(jù),并存儲于日志文件中包括:創(chuàng)建定時任務,并根據(jù)所述定時任務從所述日志文件中采集并接收數(shù)據(jù),其中,所述定時任務中記錄有指定的數(shù)據(jù)采集時間。5.根據(jù)權(quán)利要求2所述的方法,其特征在于,對所述原始數(shù)據(jù)進行降維處理之后,還存儲降維處理后的數(shù)據(jù); 根據(jù)降維處理后的數(shù)據(jù)生成多維數(shù)據(jù)集為:獲取存儲的降維處理后的數(shù)據(jù)并使用基于聯(lián)機分析處理技術(shù)的數(shù)學模型對數(shù)據(jù)進行聚類處理,根據(jù)實際業(yè)務需求生成多維數(shù)據(jù)集。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述多維數(shù)據(jù)集包括監(jiān)控業(yè)務數(shù)據(jù)、直播業(yè)務數(shù)據(jù)和點播業(yè)務數(shù)據(jù)。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,根據(jù)所述多維數(shù)據(jù)集生成報表包括: 獲取多維數(shù)據(jù)集,并存儲常用數(shù)據(jù)與查詢過的數(shù)據(jù); 根據(jù)常用數(shù)據(jù)與查詢過的數(shù)據(jù)形成直播業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表; 使用圖形化分別展示所述業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表。8.一種業(yè)務數(shù)據(jù)報表系統(tǒng),其特征在于,包括: 數(shù)據(jù)源模塊,所述數(shù)據(jù)源模塊為業(yè)務數(shù)據(jù)報表系統(tǒng)的起點,所述數(shù)據(jù)源模塊存儲用于生成業(yè)務報表所需的原始數(shù)據(jù); 數(shù)據(jù)采集模塊,所述數(shù)據(jù)采集模塊連接至所述數(shù)據(jù)源模塊,所述數(shù)據(jù)采集模塊包括數(shù)據(jù)約簡單元,所述數(shù)據(jù)約簡單元從所述數(shù)據(jù)源模塊接收數(shù)據(jù)并進行降維處理; 數(shù)據(jù)分析模塊,所述數(shù)據(jù)分析模塊連接至所述數(shù)據(jù)采集模塊,所述數(shù)據(jù)分析模塊獲取所述數(shù)據(jù)采集模塊降維處理后的數(shù)據(jù)并生成多維數(shù)據(jù)集; 報表模塊,所述報表模塊連接至所述數(shù)據(jù)分析模塊,所述報表模塊獲取所述數(shù)據(jù)分析模塊生成的多維數(shù)據(jù)集并形成報表。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述數(shù)據(jù)采集模塊還包括數(shù)據(jù)整合單元、數(shù)據(jù)清洗單元和數(shù)據(jù)變換單元,其中: 所述數(shù)據(jù)整合單元用于從所述數(shù)據(jù)源模塊中收集所述原始數(shù)據(jù),并提取出必要的數(shù)據(jù)和變量; 所述數(shù)據(jù)清洗單元連接至所述數(shù)據(jù)整合單元,用于獲取所述數(shù)據(jù)整合單元提取的數(shù)據(jù)和變量,并識別數(shù)據(jù)中的值、填補空缺值、減少數(shù)據(jù)噪聲、消除數(shù)據(jù)的不一致性; 所述數(shù)據(jù)變換單元連接至所述數(shù)據(jù)清洗單元,用于獲取所述數(shù)據(jù)清洗單元處理的數(shù)據(jù)和變量,并將數(shù)據(jù)和變量標準化、離散化。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述數(shù)據(jù)源模塊包括以下至少之一: 業(yè)務數(shù)據(jù)庫,所述業(yè)務數(shù)據(jù)庫存儲在線業(yè)務產(chǎn)生的數(shù)據(jù); 消息單元,所述消息單元使用異步消息隊列發(fā)送數(shù)據(jù); 接口單元,所述接口單元用于傳輸高實時性數(shù)據(jù); 日志文件,所述日志文件用于記錄操作事件。11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于, 所述數(shù)據(jù)采集模塊從所述業(yè)務數(shù)據(jù)庫接收數(shù)據(jù)包括:所述數(shù)據(jù)采集模塊對所述業(yè)務數(shù)據(jù)庫進行主從備份,并在所述業(yè)務數(shù)據(jù)庫的從庫中使用ETL工具采集并接收數(shù)據(jù),其中,所述業(yè)務數(shù)據(jù)庫的主庫與從庫具有數(shù)據(jù)隔離; 所述數(shù)據(jù)采集模塊從所述日志文件接收數(shù)據(jù)包括:所述數(shù)據(jù)采集模塊創(chuàng)建定時任務,并根據(jù)所述定時任務從所述日志文件中采集并接收數(shù)據(jù),其中,所述定時任務中記錄有指定的數(shù)據(jù)采集時間。12.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述數(shù)據(jù)采集模塊還包括數(shù)據(jù)倉庫,所述數(shù)據(jù)采集模塊對所述原始數(shù)據(jù)進行降維處理之后,還降維處理后的數(shù)據(jù)存儲到所述數(shù)據(jù)倉庫; 所述數(shù)據(jù)分析模塊獲取所述數(shù)據(jù)倉庫存儲的降維處理后的數(shù)據(jù)并生成多維數(shù)據(jù)集為:所述數(shù)據(jù)分析模塊獲取所述數(shù)據(jù)采集模塊降維處理后的數(shù)據(jù)并使用基于聯(lián)機分析處理技術(shù)的數(shù)學模型對數(shù)據(jù)進行聚類處理,根據(jù)實際業(yè)務需求生成多維數(shù)據(jù)集。13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述多維數(shù)據(jù)集包括監(jiān)控業(yè)務數(shù)據(jù)、直播業(yè)務數(shù)據(jù)和點播業(yè)務數(shù)據(jù)。14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述報表模塊包括: 緩存單元,所述緩存單元存儲常用數(shù)據(jù)與查詢過的數(shù)據(jù); 報表單元,所述報表單元用于形成直播業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表;頁面展示單元,所述頁面展示單元使用圖形化展示分別所述業(yè)務報表、點播業(yè)務報表和監(jiān)控業(yè)務報表。
【文檔編號】G06F17/30GK105843936SQ201610201037
【公開日】2016年8月10日
【申請日】2016年3月31日
【發(fā)明人】楊繼偉, 劉永華, 王孝慶
【申請人】樂視控股(北京)有限公司, 樂視云計算有限公司