一種流量數(shù)據(jù)篩選方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及通信領域中數(shù)據(jù)統(tǒng)計技術領域,具體地,涉及流量數(shù)據(jù)篩選的方法和 裝直。
【背景技術】
[0002] 如圖1所示,現(xiàn)網(wǎng)用戶GPRS話單生成機制為:用戶上網(wǎng)過程中,由SGSN、GGSN設備 生成S-CDR和G-CDR原始話單,內容包含用戶手機號、頂SI、MEI、SGSN、GGSN信息、網(wǎng)絡標 識、運營商標識、上網(wǎng)開始結束時間、時長、流量、位置(初始小區(qū))等內容。原始話單經(jīng)CG進 行格式轉換及部分話單合并后,送至BOSS(BusinessOperationSupportSystem,業(yè)務運 營支撐系統(tǒng))進行計費。話單生成門限一般設置為流量達到2M或上網(wǎng)時長達到15分鐘。
[0003]目前GPRS話單內容中,缺少用戶訪問的網(wǎng)址Url、分級鏈接、網(wǎng)頁流媒體信息,無 法區(qū)分顯示P2P、即時通信類業(yè)務類型,無法基于話單進行精準的用戶行為分析。
[0004]目前GPRS話單中位置信息不準確,所記錄的小區(qū)信息為用戶發(fā)起業(yè)務時所處的 小區(qū),無法展現(xiàn)切換后的小區(qū)信息。
[0005] 各專業(yè)系統(tǒng)相互獨立,分散管理,支撐、網(wǎng)管、客服等系統(tǒng)各自獨立建設,無底層統(tǒng) 一數(shù)據(jù)源,造成端到端業(yè)務質量、用戶行為、業(yè)務類型等現(xiàn)有數(shù)據(jù)沒有有效整合,影響流量 運營支撐。
[0006] 流量數(shù)據(jù)篩選系統(tǒng)具有領先清晰的架構:流量數(shù)據(jù)篩選系統(tǒng)分為適配和xDR預處 理子系統(tǒng)、分布式計算子系統(tǒng)、實時處理子系統(tǒng)、詳單存儲與查詢子系統(tǒng)、數(shù)據(jù)模型分析子 系統(tǒng)、服務精細化平臺、扇區(qū)與流量區(qū)域熱點地圖、應用識別/分類特征庫、網(wǎng)址識別/分類 特征庫、心跳機制負反饋粗細跟蹤深度包檢測、應用軟件心跳機制流量分析數(shù)據(jù)質量檢驗 字典庫、Web應用子系統(tǒng)和系統(tǒng)管理子系統(tǒng)。
【發(fā)明內容】
[0007] 本發(fā)明是為了克服現(xiàn)有技術中對各應用軟件心跳機制流量數(shù)據(jù)缺乏有效篩選的 缺陷,根據(jù)本發(fā)明的一個方面,提出一種流量數(shù)據(jù)篩選方法。
[0008] 根據(jù)本發(fā)明實施例的流量數(shù)據(jù)篩選方法,包括:
[0009]依靠探針通過分析端口獲取各應用軟件心跳機制流量數(shù)據(jù),獲取流量數(shù)據(jù)的標簽 數(shù)據(jù);
[0010] 根據(jù)標簽數(shù)據(jù)對流量數(shù)據(jù)進行半監(jiān)督聚類處理后送入數(shù)據(jù)倉庫;
[0011] 將數(shù)據(jù)倉庫內的各種數(shù)據(jù)實體映射成虛擬數(shù)據(jù)層中的表,進行數(shù)據(jù)加工整合。
[0012] 本發(fā)明是為了克服現(xiàn)有技術中對各應用軟件心跳機制流量數(shù)據(jù)缺乏有效篩選的 缺陷,根據(jù)本發(fā)明的一個方面,提出一種流量數(shù)據(jù)篩選裝置。
[0013] 根據(jù)本發(fā)明實施例的流量數(shù)據(jù)篩選方法,包括:
[0014] 數(shù)據(jù)獲取模塊,用于依靠探針通過分析端口獲取各應用軟件心跳機制流量數(shù)據(jù), 獲取流量數(shù)據(jù)的標簽數(shù)據(jù);
[0015] 數(shù)據(jù)處理模塊,用于根據(jù)標簽數(shù)據(jù)對所述流量數(shù)據(jù)進行半監(jiān)督聚類處理后送入數(shù) 據(jù)倉庫;
[0016] 映射整合模塊,用于將數(shù)據(jù)倉庫內的各種數(shù)據(jù)實體映射成虛擬數(shù)據(jù)層中的表,進 行數(shù)據(jù)加工整合。
[0017] 本發(fā)明的流量數(shù)據(jù)篩選方法和裝置,對基于心跳機制的各應用進行數(shù)據(jù)選取、數(shù) 據(jù)集成、數(shù)據(jù)整理和數(shù)據(jù)規(guī)約,提高了各應用軟件心跳機制流量數(shù)據(jù)篩選的有效性,為后續(xù) 的流量數(shù)據(jù)分析提供了可靠保障。
[0018] 本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變 得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明 書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。
[0019] 下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。
【附圖說明】
[0020] 附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實 施例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:
[0021] 圖1為現(xiàn)有技術中現(xiàn)網(wǎng)用戶GPRS上網(wǎng)話單生成機制示意圖;
[0022] 圖2為本發(fā)明流量數(shù)據(jù)篩選系統(tǒng)示意圖;
[0023] 圖3為本發(fā)明靜態(tài)基線與動態(tài)基線的比較示意圖;
[0024] 圖4為本發(fā)明本發(fā)明為基于DFI和DPI的的應用軟件心跳機制流量分析裝置的結 構示意圖;
[0025] 圖5為本發(fā)明流量識別順序的結構示意圖;
[0026] 圖6為本發(fā)明心跳機制流量識別模塊的具體功能分解圖;
[0027] 圖7為本發(fā)明流量數(shù)據(jù)篩選裝置的結構示意圖。
【具體實施方式】
[0028] 下面結合附圖,對本發(fā)明的【具體實施方式】進行詳細描述,但應當理解本發(fā)明的保 護范圍并不受【具體實施方式】的限制。
[0029] 本發(fā)明研究基于日志的底層流量詳單標準庫,為其他系統(tǒng)提供標準化接口,實現(xiàn) 各類應用。詳單中除現(xiàn)有GPRS話單內容外,能夠詳細展示用戶訪問的一級、二級網(wǎng)址信息、 用戶訪問的業(yè)務類型、流量、時長、位置等信息,按業(yè)務過程、小區(qū)切換截取話單,形成基于 用戶上網(wǎng)日志的標準詳單庫,支撐運營分析、行為分析、客戶服務、用戶投訴、運行維護。
[0030] 本發(fā)明以探針數(shù)據(jù)源為主,保證數(shù)據(jù)的實時性和"每業(yè)務每用戶"的分析粒度;通 過流量詳單系統(tǒng)實現(xiàn)端到端、跨領域和精細化的管理運營,滿足全IP網(wǎng)絡運營需求,并實 現(xiàn)從管理網(wǎng)絡性能轉向管理業(yè)務質量、經(jīng)營能力的提升。
[0031] 本發(fā)明的整個系統(tǒng)內部安全性是按照電信級產(chǎn)品要求設計,從原始信令接入探針 開始,所有的傳輸采取雙平面?zhèn)鬏?,保證在網(wǎng)絡故障時,能夠及時的切換到備用平面進行數(shù) 據(jù)傳輸,確保整個系統(tǒng)的數(shù)據(jù)傳輸準確,不丟失。下面分別介紹探針和SEQ的保障措施:
[0032] 探針的保障措施:探針和SEQ在進行單據(jù)傳輸時,物理鏈路上采用雙平面方式,主 用通信平面發(fā)生故障時,切換到備用通信平面上進行單據(jù)傳輸,確保單據(jù)不丟失。在探針和 SEQ之間,采取TCP可靠連接的方式進行單據(jù)傳輸,TCP連接本身可以保障在傳輸過程丟包 的重傳,通過該方式保障當鏈路不可靠時,傳輸上不丟包。
[0033] 在探針上,當上報鏈路全部發(fā)生故障時,在探針內存中臨時緩存單據(jù),保障未上報 的單據(jù)可以繼續(xù)保留在探針上。
[0034] 在上述描述中,SEQ的含義為是順序、序號、次序,等于該主機選擇本次連接的初始 序號加上報文段中第一個字節(jié)在整個數(shù)據(jù)流中的序號,在連接建立的時候,會隨機選擇一 個初始序號,例如:發(fā)送的數(shù)據(jù)包中的字節(jié)是整個數(shù)據(jù)流中的第256字節(jié)到512字節(jié)。
[0035]SEQ的保障措施:SEQ內部通信采取雙平面方式,當主用通信平面發(fā)生故障時,快 速切換到備用通信平面,保證內部通信的通暢。SEQ接入分發(fā)模塊通過TCP接收到單據(jù)后, 實時向后續(xù)模塊進行分發(fā)。當后續(xù)模塊處于擁塞或內部網(wǎng)絡出現(xiàn)故障時,分發(fā)模塊會先緩 存單據(jù)到內存中。當內存中寫滿單據(jù)時,分發(fā)模塊會把單據(jù)存儲到本地硬盤上,系統(tǒng)擁塞解 除后,繼續(xù)分發(fā)緩存的單據(jù)到后續(xù)模塊,確保數(shù)據(jù)不丟失。
[0036]SEQ其他內部模塊之間通信采用和接入模塊類似的機制,當本模塊處理完成后,后 續(xù)模塊未把單據(jù)取走之前(可以保留2小時),保存這部分單據(jù)在本地硬盤上,確保單據(jù)在內 部傳輸過程中不丟失,直到最終單據(jù)進入數(shù)據(jù)庫,本地保留的單據(jù)才會被刪除。
[0037] 數(shù)據(jù)計算的準確性:數(shù)據(jù)計算基于探針上報的CDR/TDR,系統(tǒng)中各業(yè)務計算結果 準確。SEQAnalyst數(shù)據(jù)源適配可對多種外部數(shù)據(jù)源接入的數(shù)據(jù)格式進行規(guī)整,轉換成統(tǒng)一 格式,用于進行后續(xù)的關聯(lián)分析以及數(shù)據(jù)統(tǒng)計。當前能接入的數(shù)據(jù)源包括探針xDR數(shù)據(jù)、PM 系統(tǒng)性能數(shù)據(jù),支持流式接入以及文件接入。接入格式支持ASCII以及CSV,并能按需要快 速定制接入其他數(shù)據(jù)格式。數(shù)據(jù)質量管理支持WEBService的API開放接口,也支持基于 xDR的開放需求系統(tǒng)數(shù)據(jù)處理。信令采集網(wǎng)關采用分布式部署和計算,并提供匯聚網(wǎng)關,能 夠把采集網(wǎng)關的數(shù)據(jù)匯聚后上傳到共享層處理。
[0038] 圖2中的英文名稱列舉如下:
[0039]WES:Web服務器(WebServer)
[0040]DBS:數(shù)據(jù)庫服務器(DataBaseServer)
[0041]GP-Master服務器是SEQAnalyst解決方案的業(yè)務服務器,用于對xDR預處理子系 統(tǒng)上傳的xDR數(shù)據(jù)分發(fā)到GP-Segment進行分布式計算和存儲。
[0042] GP-Segment服務器是SEQAnalyst解決方案的業(yè)務服務器,用于對xDR數(shù)據(jù)的分 布式計算和存儲,計算結果提供給SybaseIQ集群做KQI計算。
[0043]DSS:數(shù)據(jù)共享服務器(Da