基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)和SVM(Support Vector Machine,支持向量機)分類器領(lǐng)域,具體涉及基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法。
【背景技術(shù)】
[0002]隨著電信網(wǎng)絡(luò)的不斷發(fā)展和普及,網(wǎng)絡(luò)的復(fù)雜度不斷增加,產(chǎn)生了驚人的數(shù)據(jù)量,基于DDN(Data Driven Network,數(shù)據(jù)驅(qū)動網(wǎng)絡(luò))利用大數(shù)據(jù)技術(shù)來分析網(wǎng)絡(luò)大數(shù)據(jù)并發(fā)現(xiàn)其中所暗含的線索和規(guī)律,幫助人們感知和預(yù)測網(wǎng)絡(luò)服務(wù)狀態(tài)。
[0003]網(wǎng)絡(luò)大數(shù)據(jù)按照數(shù)據(jù)類型可分為自媒體數(shù)據(jù)、日志數(shù)據(jù)和富媒體數(shù)據(jù)三類,微博作為一種自媒體數(shù)據(jù),其發(fā)布內(nèi)容簡潔,表達信息明確,具有及時性,近年來成為了最熱門的新型社交媒體和信息交流平臺,產(chǎn)生了海量的數(shù)據(jù)。新浪微博數(shù)據(jù)中心發(fā)布的2014年用戶發(fā)展報告顯示,截止2014年9月30日,新浪微博MAU (monthly active users,月活躍用戶數(shù))已經(jīng)達到1.67億人,日活躍用戶也已經(jīng)達到7660人,每秒鐘數(shù)以千計的新微博發(fā)布數(shù)量,是人們交流信息的一種重要體現(xiàn)。
[0004]然而,這三種類型的網(wǎng)絡(luò)大數(shù)據(jù)規(guī)模巨大、分布廣泛、動態(tài)演變、模態(tài)多樣、關(guān)聯(lián)復(fù)雜、真?zhèn)坞y辨等一系列特性為將其應(yīng)用于網(wǎng)絡(luò)服務(wù)狀態(tài)的獲取帶來了數(shù)據(jù)復(fù)雜性的挑戰(zhàn)。
[0005]因此,急需一種縮小網(wǎng)絡(luò)大數(shù)據(jù)規(guī)模、降低網(wǎng)絡(luò)大數(shù)據(jù)復(fù)雜度的獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法。
【發(fā)明內(nèi)容】
[0006]本發(fā)明所要解決的技術(shù)問題是現(xiàn)有的網(wǎng)絡(luò)大數(shù)據(jù)規(guī)模巨大,應(yīng)用于獲取網(wǎng)絡(luò)服務(wù)狀態(tài)時復(fù)雜度較高的問題。
[0007]為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是提供一種基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法,包括以下步驟:
[0008]步驟Al:獲取微博數(shù)據(jù)集中的一部分微博數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,獲取微博數(shù)據(jù)集中的剩余微博數(shù)據(jù)作為測試數(shù)據(jù)集,對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集分別進行預(yù)處理;
[0009]步驟A2:對訓(xùn)練數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)進行分類標(biāo)記、初始化操作、分詞處理和停詞處理,對訓(xùn)練數(shù)據(jù)集進行特征選擇并獲得特征詞項字典,由特征詞項字典生成訓(xùn)練數(shù)據(jù)的特征向量,并獲得訓(xùn)練數(shù)據(jù)集的特征向量集,對特征向量集進行訓(xùn)練獲得SVM分類器;
[0010]步驟A3:對測試數(shù)據(jù)集中的測試數(shù)據(jù)進行預(yù)分類以及對預(yù)分類失敗的測試數(shù)據(jù)進行初始化操作、分詞處理和停詞處理,根據(jù)上述特征詞項字典生成預(yù)分類失敗的測試數(shù)據(jù)的特征向量,并獲得預(yù)分類失敗的測試數(shù)據(jù)的特征向量集,通過上述SVM分類器對預(yù)分類失敗的測試數(shù)據(jù)進行分類得到分類結(jié)果,并將分類結(jié)果與預(yù)分類的結(jié)果綜合,得到最終的分類結(jié)果。
[0011]在上述技術(shù)方案中,步驟A2具體包括以下步驟:
[0012]步驟A21:對預(yù)處理后的所述訓(xùn)練數(shù)據(jù)集中的所述訓(xùn)練數(shù)據(jù)進行分類標(biāo)記;
[0013]步驟A22:對經(jīng)過分類標(biāo)記的所述訓(xùn)練數(shù)據(jù)進行初始化操作;
[0014]步驟A23:使用分詞工具對經(jīng)過初始化操作的所述訓(xùn)練數(shù)據(jù)進行分詞處理,得到所述訓(xùn)練數(shù)據(jù)集的微博文本詞項集;
[0015]步驟A24:使用停用詞典,對所述訓(xùn)練數(shù)據(jù)集的微博文本詞項集進行停詞處理,得到所述訓(xùn)練數(shù)據(jù)集的微博文本原始特征詞項集;
[0016]步驟A25:對所述微博文本原始特征詞項集進行特征選擇,得到所述訓(xùn)練數(shù)據(jù)集的特征詞項字典;
[0017]步驟A26:根據(jù)所述特征詞項字典生成所述訓(xùn)練數(shù)據(jù)的特征向量,得到所述訓(xùn)練數(shù)據(jù)集的特征向量集;
[0018]步驟A27:使用Libsvm構(gòu)建分類器,輸入所述特征向量集,通過對所述特征向量集的訓(xùn)練,得到所述SVM分類器。
[0019]在上述技術(shù)方案中,步驟A3具體包括以下步驟:
[0020]步驟A31:由所述訓(xùn)練數(shù)據(jù)集獲取預(yù)置關(guān)鍵詞庫;
[0021]步驟A32:使用所述預(yù)置關(guān)鍵詞庫對所述測試數(shù)據(jù)集中的所述測試數(shù)據(jù)進行預(yù)分類,得到預(yù)分類結(jié)果;
[0022]步驟A33:對所述預(yù)分類失敗的測試數(shù)據(jù)進行初始化操作;
[0023]步驟A34:使用分詞工具對所述預(yù)分類失敗的測試數(shù)據(jù)進行分詞處理,得到所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本詞項集;
[0024]步驟A35:使用停用詞典,對所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本詞項集進行停詞處理,得到所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本原始特征詞項集;
[0025]步驟A36:根據(jù)所述特征詞項字典生成所述預(yù)分類失敗的測試數(shù)據(jù)的特征向量,并得到其特征向量集;
[0026]步驟A37:通過所述SVM分類器對所述預(yù)分類失敗的測試數(shù)據(jù)進行分類,將分類結(jié)果與所述預(yù)分類結(jié)果綜合,得到最終的分類結(jié)果。
[0027]在上述技術(shù)方案中,在步驟A21中,將所述訓(xùn)練數(shù)據(jù)標(biāo)記為網(wǎng)絡(luò)服務(wù)狀態(tài)類或非網(wǎng)絡(luò)服務(wù)狀態(tài)類。
[0028]在上述技術(shù)方案中,步驟A25主要包括以下步驟:
[0029]根據(jù)所述微博文本原始特征詞項集中每個微博文本原始特征詞項在所述訓(xùn)練數(shù)據(jù)的各類別中出現(xiàn)的頻率對所述微博文本原始特征詞項進行排序,保留出現(xiàn)頻率高的前N個所述微博文本原始特征詞項作為所述特征詞項字典,所述特征詞項字典按照所述微博文本原始特征詞項的出現(xiàn)頻率由高到低排序,其中N = 1000。
[0030]在上述技術(shù)方案中,步驟A31具體包括以下步驟:
[0031]步驟A311:按照所述訓(xùn)練數(shù)據(jù)的類別提取所述訓(xùn)練數(shù)據(jù)集中的每兩個符號之間的文本內(nèi)容,并對所述文本內(nèi)容進行分詞處理,然后分別統(tǒng)計分詞處理所得微博文本原始特征詞項的詞頻,并將微博文本原始特征詞項按詞頻降序排列;
[0032]步驟A312:從所述訓(xùn)練數(shù)據(jù)的類別中詞頻最高的微博文本原始特征詞項開始,依次檢查微博文本原始特征詞項是否在其它類別中出現(xiàn)過,若該微博文本原始特征詞項在其它類別中出現(xiàn)的次數(shù)占所述訓(xùn)練數(shù)據(jù)集的比例小于等于1%,則將該微博文本原始特征詞項選取為該類別的預(yù)置關(guān)鍵詞,統(tǒng)計完后,得到預(yù)置關(guān)鍵詞庫。
[0033]在上述技術(shù)方案中,步驟A32具體包括以下步驟:
[0034]步驟A321:提取所述測試數(shù)據(jù)集中的所述測試數(shù)據(jù)中每兩個“#”符號之間的文本內(nèi)容,并對文本內(nèi)容進行分詞處理,將分詞處理所得微博文本原始特征詞項與所述預(yù)置關(guān)鍵詞庫相比較,判斷各微博文本原始特征詞項所屬類別,統(tǒng)計各微博文本原始特征詞項在各類別中出現(xiàn)的頻度;
[0035]步驟A322:若屬于某個類別的微博文本原始特征詞項頻度最大,則認為該微博文本原始特征詞項所屬的測試數(shù)據(jù)屬于該類別,其它情況則通過所述SVM分類器對所述測試數(shù)據(jù)進行分類。
[0036]在上述技術(shù)方案中,步驟A26具體包括以下步驟:
[0037]步驟A261:將所述微博文本原始特征詞項集中的每個微博文本原始特征詞項與所述特征詞項字典進行比較;
[0038]步驟A262:若所述微博文本原始特征詞項在所述特征詞項字典中,則采用TF-1DF算法計算所述微博文本原始特征詞項在所述訓(xùn)練數(shù)據(jù)中的特征值;若所述微博文本原始特征詞項不在所述特征詞項字典中,則忽略所述微博文本原始特征詞項;若所述特征詞項字典中的詞項沒有出現(xiàn)在所述微博文本原始特征詞項集中,則所述詞項的特征值為零。
[0039]在上述技術(shù)方案中,所述預(yù)處理即刪除無意義微博,所述無意義微博包括垃圾微博文本和廣告營銷微博文本。
[0040]在上述技術(shù)方案中