基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法_3

文檔序號：9471942閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法

施例中采用TF-1DF算法來生成特征向量，主要做法是先將測試數(shù)據(jù)集中預(yù)分類失敗的測試數(shù)據(jù)的微博文本原始特征詞項(xiàng)集中的每個微博文本原始特征詞項(xiàng)與特征詞項(xiàng)字典進(jìn)行比較，若該微博文本原始特征詞項(xiàng)在特征詞項(xiàng)字典中，則采用TF-1DF算法計(jì)算該微博文本原始特征詞項(xiàng)在對應(yīng)訓(xùn)練數(shù)據(jù)中的特征值；若該微博文本原始特征詞項(xiàng)不在特征詞項(xiàng)字典中，則忽略該博文本原始特征詞項(xiàng)；若某特征詞項(xiàng)字典中的詞項(xiàng)沒有出現(xiàn)在微博文本原始特征詞項(xiàng)集中，則該詞項(xiàng)的特征值為O。在本實(shí)施例中，每條微博的微博文本數(shù)據(jù)被轉(zhuǎn)換成一個維度為1000的特征向量。
[0079]步驟S18、通過SVM分類器對經(jīng)過特征向量化的預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行自動分類，將分類結(jié)果與預(yù)分類結(jié)果綜合，獲取最后的分類結(jié)果。
[0080]本發(fā)明不局限于上述最佳實(shí)施方式，任何人應(yīng)該得知在本發(fā)明的啟示下作出的結(jié)構(gòu)變化，凡是與本發(fā)明具有相同或相近的技術(shù)方案，均落入本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法，其特征在于，包括以下步驟: 步驟Al:獲取微博數(shù)據(jù)集中的一部分微博數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集，獲取微博數(shù)據(jù)集中的剩余微博數(shù)據(jù)作為測試數(shù)據(jù)集，對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集分別進(jìn)行預(yù)處理；步驟A2:對訓(xùn)練數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)進(jìn)行分類標(biāo)記、初始化操作、分詞處理和停詞處理，對訓(xùn)練數(shù)據(jù)集進(jìn)行特征選擇并獲得特征詞項(xiàng)字典，由特征詞項(xiàng)字典生成訓(xùn)練數(shù)據(jù)的特征向量，并獲得訓(xùn)練數(shù)據(jù)集的特征向量集，對特征向量集進(jìn)行訓(xùn)練獲得SVM分類器；步驟A3:對測試數(shù)據(jù)集中的測試數(shù)據(jù)進(jìn)行預(yù)分類以及對預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行初始化操作、分詞處理和停詞處理，根據(jù)上述特征詞項(xiàng)字典生成預(yù)分類失敗的測試數(shù)據(jù)的特征向量，并獲得預(yù)分類失敗的測試數(shù)據(jù)的特征向量集，通過上述SVM分類器對預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行分類得到分類結(jié)果，并將分類結(jié)果與預(yù)分類的結(jié)果綜合，得到最終的分類結(jié)果。2.如權(quán)利要求1所述的方法，其特征在于，步驟A2具體包括以下步驟: 步驟A21:對預(yù)處理后的所述訓(xùn)練數(shù)據(jù)集中的所述訓(xùn)練數(shù)據(jù)進(jìn)行分類標(biāo)記；步驟A22:對經(jīng)過分類標(biāo)記的所述訓(xùn)練數(shù)據(jù)進(jìn)行初始化操作；步驟A23:使用分詞工具對經(jīng)過初始化操作的所述訓(xùn)練數(shù)據(jù)進(jìn)行分詞處理，得到所述訓(xùn)練數(shù)據(jù)集的微博文本詞項(xiàng)集；步驟A24:使用停用詞典，對所述訓(xùn)練數(shù)據(jù)集的微博文本詞項(xiàng)集進(jìn)行停詞處理，得到所述訓(xùn)練數(shù)據(jù)集的微博文本原始特征詞項(xiàng)集；步驟A25:對所述微博文本原始特征詞項(xiàng)集進(jìn)行特征選擇，得到所述訓(xùn)練數(shù)據(jù)集的特征詞項(xiàng)字典；步驟A26:根據(jù)所述特征詞項(xiàng)字典生成所述訓(xùn)練數(shù)據(jù)的特征向量，得到所述訓(xùn)練數(shù)據(jù)集的特征向量集；步驟A27:使用Libsvm構(gòu)建分類器，輸入所述特征向量集，通過對所述特征向量集的訓(xùn)練，得到所述SVM分類器。3.如權(quán)利要求1所述的方法，其特征在于，步驟A3具體包括以下步驟: 步驟A31:由所述訓(xùn)練數(shù)據(jù)集獲取預(yù)置關(guān)鍵詞庫；步驟A32:使用所述預(yù)置關(guān)鍵詞庫對所述測試數(shù)據(jù)集中的所述測試數(shù)據(jù)進(jìn)行預(yù)分類，得到預(yù)分類結(jié)果；步驟A33:對所述預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行初始化操作；步驟A34:使用分詞工具對所述預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行分詞處理，得到所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本詞項(xiàng)集；步驟A35:使用停用詞典，對所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本詞項(xiàng)集進(jìn)行停詞處理，得到所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本原始特征詞項(xiàng)集；步驟A36:根據(jù)所述特征詞項(xiàng)字典生成所述預(yù)分類失敗的測試數(shù)據(jù)的特征向量，并得到其特征向量集；步驟A37:通過所述SVM分類器對所述預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行分類，將分類結(jié)果與所述預(yù)分類結(jié)果綜合，得到最終的分類結(jié)果。4.如權(quán)利要求2所述的方法，其特征在于，在步驟A21中，將所述訓(xùn)練數(shù)據(jù)標(biāo)記為網(wǎng)絡(luò)服務(wù)狀態(tài)類或非網(wǎng)絡(luò)服務(wù)狀態(tài)類。5.如權(quán)利要求2所述的方法，其特征在于，步驟A25主要包括以下步驟: 根據(jù)所述微博文本原始特征詞項(xiàng)集中每個微博文本原始特征詞項(xiàng)在所述訓(xùn)練數(shù)據(jù)的各類別中出現(xiàn)的頻率對所述微博文本原始特征詞項(xiàng)進(jìn)行排序，保留出現(xiàn)頻率高的前N個所述微博文本原始特征詞項(xiàng)作為所述特征詞項(xiàng)字典，所述特征詞項(xiàng)字典按照所述微博文本原始特征詞項(xiàng)的出現(xiàn)頻率由高到低排序，其中N = 1000。6.如權(quán)利要求3所述的方法，其特征在于，步驟A31具體包括以下步驟: 步驟A311:按照所述訓(xùn)練數(shù)據(jù)的類別提取所述訓(xùn)練數(shù)據(jù)集中的每兩個“#”符號之間的文本內(nèi)容，并對所述文本內(nèi)容進(jìn)行分詞處理，然后分別統(tǒng)計(jì)分詞處理所得微博文本原始特征詞項(xiàng)的詞頻，并將微博文本原始特征詞項(xiàng)按詞頻降序排列；步驟A312:從所述訓(xùn)練數(shù)據(jù)的類別中詞頻最高的微博文本原始特征詞項(xiàng)開始，依次檢查微博文本原始特征詞項(xiàng)是否在其它類別中出現(xiàn)過，若該微博文本原始特征詞項(xiàng)在其它類別中出現(xiàn)的次數(shù)占所述訓(xùn)練數(shù)據(jù)集的比例小于等于1%，則將該微博文本原始特征詞項(xiàng)選取為該類別的預(yù)置關(guān)鍵詞，統(tǒng)計(jì)完后，得到預(yù)置關(guān)鍵詞庫。7.如權(quán)利要求3所述的方法，其特征在于，步驟A32具體包括以下步驟: 步驟A321:提取所述測試數(shù)據(jù)集中的所述測試數(shù)據(jù)中每兩個“#”符號之間的文本內(nèi)容，并對文本內(nèi)容進(jìn)行分詞處理，將分詞處理所得微博文本原始特征詞項(xiàng)與所述預(yù)置關(guān)鍵詞庫相比較，判斷各微博文本原始特征詞項(xiàng)所屬類別，統(tǒng)計(jì)各微博文本原始特征詞項(xiàng)在各類別中出現(xiàn)的頻度；步驟A322:若屬于某個類別的微博文本原始特征詞項(xiàng)頻度最大，則認(rèn)為該微博文本原始特征詞項(xiàng)所屬的測試數(shù)據(jù)屬于該類別，其它情況則通過所述SVM分類器對所述測試數(shù)據(jù)進(jìn)行分類。8.如權(quán)利要求2所述的方法，其特征在于，步驟A26具體包括以下步驟: 步驟A261:將所述微博文本原始特征詞項(xiàng)集中的每個微博文本原始特征詞項(xiàng)與所述特征詞項(xiàng)字典進(jìn)行比較；步驟A262:若所述微博文本原始特征詞項(xiàng)在所述特征詞項(xiàng)字典中，則采用TF-1DF算法計(jì)算所述微博文本原始特征詞項(xiàng)在所述訓(xùn)練數(shù)據(jù)中的特征值；若所述微博文本原始特征詞項(xiàng)不在所述特征詞項(xiàng)字典中，則忽略所述微博文本原始特征詞項(xiàng)；若所述特征詞項(xiàng)字典中的詞項(xiàng)沒有出現(xiàn)在所述微博文本原始特征詞項(xiàng)集中，則所述詞項(xiàng)的特征值為零。9.如權(quán)利要求1所述的方法，其特征在于，所述預(yù)處理即刪除無意義微博，所述無意義微博包括垃圾微博文本和廣告營銷微博文本。10.如權(quán)利要求1所述的方法，其特征在于，所述初始化操作和對所述預(yù)分類失敗的測試數(shù)據(jù)的初始化操作包括:刪除話題標(biāo)簽、去除文本信息中的標(biāo)點(diǎn)符號以及非中文字符。
【專利摘要】本發(fā)明公開了基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法，包括：將微博數(shù)據(jù)集的部分微博作為訓(xùn)練數(shù)據(jù)集，剩余微博作為測試數(shù)據(jù)集，對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集進(jìn)行預(yù)處理；對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記、初始化操作、分詞和停詞處理，對訓(xùn)練數(shù)據(jù)集進(jìn)行特征選擇獲得特征詞項(xiàng)字典，由特征詞項(xiàng)字典生成特征向量，獲得特征向量集，對特征向量集進(jìn)行訓(xùn)練獲得SVM分類器；獲取預(yù)置關(guān)鍵詞庫，對測試數(shù)據(jù)進(jìn)行預(yù)分類以及對預(yù)分類失敗的測試數(shù)據(jù)的初始化操作、分詞和停詞，根據(jù)特征詞項(xiàng)字典生成預(yù)分類失敗的測試數(shù)據(jù)的特征向量，獲得特征向量集，通過SVM分類器進(jìn)行分類得到分類結(jié)果，將分類結(jié)果與預(yù)分類結(jié)果綜合。本發(fā)明，有效地降低了網(wǎng)絡(luò)大數(shù)據(jù)的規(guī)模和網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜度。
【IPC分類】G06F17/30, G06K9/62
【公開號】CN105224955
【申請?zhí)枴緾N201510676163
【發(fā)明人】許德瑋, 郝俊瑞, 向智宇, 郭嘉
【申請人】武漢郵電科學(xué)研究院
【公開日】2016年1月6日
【申請日】2015年10月16日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法_3