施例中采用TF-1DF算法來生成特征向量,主要做法是先將測試數(shù)據(jù)集中預(yù)分類失敗的測試數(shù)據(jù)的微博文本原始特征詞項(xiàng)集中的每個微博文本原始特征詞項(xiàng)與特征詞項(xiàng)字典進(jìn)行比較,若該微博文本原始特征詞項(xiàng)在特征詞項(xiàng)字典中,則采用TF-1DF算法計(jì)算該微博文本原始特征詞項(xiàng)在對應(yīng)訓(xùn)練數(shù)據(jù)中的特征值;若該微博文本原始特征詞項(xiàng)不在特征詞項(xiàng)字典中,則忽略該博文本原始特征詞項(xiàng);若某特征詞項(xiàng)字典中的詞項(xiàng)沒有出現(xiàn)在微博文本原始特征詞項(xiàng)集中,則該詞項(xiàng)的特征值為O。在本實(shí)施例中,每條微博的微博文本數(shù)據(jù)被轉(zhuǎn)換成一個維度為1000的特征向量。
[0079]步驟S18、通過SVM分類器對經(jīng)過特征向量化的預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行自動分類,將分類結(jié)果與預(yù)分類結(jié)果綜合,獲取最后的分類結(jié)果。
[0080]本發(fā)明不局限于上述最佳實(shí)施方式,任何人應(yīng)該得知在本發(fā)明的啟示下作出的結(jié)構(gòu)變化,凡是與本發(fā)明具有相同或相近的技術(shù)方案,均落入本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法,其特征在于,包括以下步驟: 步驟Al:獲取微博數(shù)據(jù)集中的一部分微博數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,獲取微博數(shù)據(jù)集中的剩余微博數(shù)據(jù)作為測試數(shù)據(jù)集,對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集分別進(jìn)行預(yù)處理; 步驟A2:對訓(xùn)練數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)進(jìn)行分類標(biāo)記、初始化操作、分詞處理和停詞處理,對訓(xùn)練數(shù)據(jù)集進(jìn)行特征選擇并獲得特征詞項(xiàng)字典,由特征詞項(xiàng)字典生成訓(xùn)練數(shù)據(jù)的特征向量,并獲得訓(xùn)練數(shù)據(jù)集的特征向量集,對特征向量集進(jìn)行訓(xùn)練獲得SVM分類器; 步驟A3:對測試數(shù)據(jù)集中的測試數(shù)據(jù)進(jìn)行預(yù)分類以及對預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行初始化操作、分詞處理和停詞處理,根據(jù)上述特征詞項(xiàng)字典生成預(yù)分類失敗的測試數(shù)據(jù)的特征向量,并獲得預(yù)分類失敗的測試數(shù)據(jù)的特征向量集,通過上述SVM分類器對預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行分類得到分類結(jié)果,并將分類結(jié)果與預(yù)分類的結(jié)果綜合,得到最終的分類結(jié)果。2.如權(quán)利要求1所述的方法,其特征在于,步驟A2具體包括以下步驟: 步驟A21:對預(yù)處理后的所述訓(xùn)練數(shù)據(jù)集中的所述訓(xùn)練數(shù)據(jù)進(jìn)行分類標(biāo)記; 步驟A22:對經(jīng)過分類標(biāo)記的所述訓(xùn)練數(shù)據(jù)進(jìn)行初始化操作; 步驟A23:使用分詞工具對經(jīng)過初始化操作的所述訓(xùn)練數(shù)據(jù)進(jìn)行分詞處理,得到所述訓(xùn)練數(shù)據(jù)集的微博文本詞項(xiàng)集; 步驟A24:使用停用詞典,對所述訓(xùn)練數(shù)據(jù)集的微博文本詞項(xiàng)集進(jìn)行停詞處理,得到所述訓(xùn)練數(shù)據(jù)集的微博文本原始特征詞項(xiàng)集; 步驟A25:對所述微博文本原始特征詞項(xiàng)集進(jìn)行特征選擇,得到所述訓(xùn)練數(shù)據(jù)集的特征詞項(xiàng)字典; 步驟A26:根據(jù)所述特征詞項(xiàng)字典生成所述訓(xùn)練數(shù)據(jù)的特征向量,得到所述訓(xùn)練數(shù)據(jù)集的特征向量集; 步驟A27:使用Libsvm構(gòu)建分類器,輸入所述特征向量集,通過對所述特征向量集的訓(xùn)練,得到所述SVM分類器。3.如權(quán)利要求1所述的方法,其特征在于,步驟A3具體包括以下步驟: 步驟A31:由所述訓(xùn)練數(shù)據(jù)集獲取預(yù)置關(guān)鍵詞庫; 步驟A32:使用所述預(yù)置關(guān)鍵詞庫對所述測試數(shù)據(jù)集中的所述測試數(shù)據(jù)進(jìn)行預(yù)分類,得到預(yù)分類結(jié)果; 步驟A33:對所述預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行初始化操作; 步驟A34:使用分詞工具對所述預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行分詞處理,得到所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本詞項(xiàng)集; 步驟A35:使用停用詞典,對所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本詞項(xiàng)集進(jìn)行停詞處理,得到所述預(yù)分類失敗的測試數(shù)據(jù)的微博文本原始特征詞項(xiàng)集; 步驟A36:根據(jù)所述特征詞項(xiàng)字典生成所述預(yù)分類失敗的測試數(shù)據(jù)的特征向量,并得到其特征向量集; 步驟A37:通過所述SVM分類器對所述預(yù)分類失敗的測試數(shù)據(jù)進(jìn)行分類,將分類結(jié)果與所述預(yù)分類結(jié)果綜合,得到最終的分類結(jié)果。4.如權(quán)利要求2所述的方法,其特征在于,在步驟A21中,將所述訓(xùn)練數(shù)據(jù)標(biāo)記為網(wǎng)絡(luò)服務(wù)狀態(tài)類或非網(wǎng)絡(luò)服務(wù)狀態(tài)類。5.如權(quán)利要求2所述的方法,其特征在于,步驟A25主要包括以下步驟: 根據(jù)所述微博文本原始特征詞項(xiàng)集中每個微博文本原始特征詞項(xiàng)在所述訓(xùn)練數(shù)據(jù)的各類別中出現(xiàn)的頻率對所述微博文本原始特征詞項(xiàng)進(jìn)行排序,保留出現(xiàn)頻率高的前N個所述微博文本原始特征詞項(xiàng)作為所述特征詞項(xiàng)字典,所述特征詞項(xiàng)字典按照所述微博文本原始特征詞項(xiàng)的出現(xiàn)頻率由高到低排序,其中N = 1000。6.如權(quán)利要求3所述的方法,其特征在于,步驟A31具體包括以下步驟: 步驟A311:按照所述訓(xùn)練數(shù)據(jù)的類別提取所述訓(xùn)練數(shù)據(jù)集中的每兩個“#”符號之間的文本內(nèi)容,并對所述文本內(nèi)容進(jìn)行分詞處理,然后分別統(tǒng)計(jì)分詞處理所得微博文本原始特征詞項(xiàng)的詞頻,并將微博文本原始特征詞項(xiàng)按詞頻降序排列; 步驟A312:從所述訓(xùn)練數(shù)據(jù)的類別中詞頻最高的微博文本原始特征詞項(xiàng)開始,依次檢查微博文本原始特征詞項(xiàng)是否在其它類別中出現(xiàn)過,若該微博文本原始特征詞項(xiàng)在其它類別中出現(xiàn)的次數(shù)占所述訓(xùn)練數(shù)據(jù)集的比例小于等于1%,則將該微博文本原始特征詞項(xiàng)選取為該類別的預(yù)置關(guān)鍵詞,統(tǒng)計(jì)完后,得到預(yù)置關(guān)鍵詞庫。7.如權(quán)利要求3所述的方法,其特征在于,步驟A32具體包括以下步驟: 步驟A321:提取所述測試數(shù)據(jù)集中的所述測試數(shù)據(jù)中每兩個“#”符號之間的文本內(nèi)容,并對文本內(nèi)容進(jìn)行分詞處理,將分詞處理所得微博文本原始特征詞項(xiàng)與所述預(yù)置關(guān)鍵詞庫相比較,判斷各微博文本原始特征詞項(xiàng)所屬類別,統(tǒng)計(jì)各微博文本原始特征詞項(xiàng)在各類別中出現(xiàn)的頻度; 步驟A322:若屬于某個類別的微博文本原始特征詞項(xiàng)頻度最大,則認(rèn)為該微博文本原始特征詞項(xiàng)所屬的測試數(shù)據(jù)屬于該類別,其它情況則通過所述SVM分類器對所述測試數(shù)據(jù)進(jìn)行分類。8.如權(quán)利要求2所述的方法,其特征在于,步驟A26具體包括以下步驟: 步驟A261:將所述微博文本原始特征詞項(xiàng)集中的每個微博文本原始特征詞項(xiàng)與所述特征詞項(xiàng)字典進(jìn)行比較; 步驟A262:若所述微博文本原始特征詞項(xiàng)在所述特征詞項(xiàng)字典中,則采用TF-1DF算法計(jì)算所述微博文本原始特征詞項(xiàng)在所述訓(xùn)練數(shù)據(jù)中的特征值;若所述微博文本原始特征詞項(xiàng)不在所述特征詞項(xiàng)字典中,則忽略所述微博文本原始特征詞項(xiàng);若所述特征詞項(xiàng)字典中的詞項(xiàng)沒有出現(xiàn)在所述微博文本原始特征詞項(xiàng)集中,則所述詞項(xiàng)的特征值為零。9.如權(quán)利要求1所述的方法,其特征在于,所述預(yù)處理即刪除無意義微博,所述無意義微博包括垃圾微博文本和廣告營銷微博文本。10.如權(quán)利要求1所述的方法,其特征在于,所述初始化操作和對所述預(yù)分類失敗的測試數(shù)據(jù)的初始化操作包括:刪除話題標(biāo)簽、去除文本信息中的標(biāo)點(diǎn)符號以及非中文字符。
【專利摘要】本發(fā)明公開了基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法,包括:將微博數(shù)據(jù)集的部分微博作為訓(xùn)練數(shù)據(jù)集,剩余微博作為測試數(shù)據(jù)集,對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集進(jìn)行預(yù)處理;對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記、初始化操作、分詞和停詞處理,對訓(xùn)練數(shù)據(jù)集進(jìn)行特征選擇獲得特征詞項(xiàng)字典,由特征詞項(xiàng)字典生成特征向量,獲得特征向量集,對特征向量集進(jìn)行訓(xùn)練獲得SVM分類器;獲取預(yù)置關(guān)鍵詞庫,對測試數(shù)據(jù)進(jìn)行預(yù)分類以及對預(yù)分類失敗的測試數(shù)據(jù)的初始化操作、分詞和停詞,根據(jù)特征詞項(xiàng)字典生成預(yù)分類失敗的測試數(shù)據(jù)的特征向量,獲得特征向量集,通過SVM分類器進(jìn)行分類得到分類結(jié)果,將分類結(jié)果與預(yù)分類結(jié)果綜合。本發(fā)明,有效地降低了網(wǎng)絡(luò)大數(shù)據(jù)的規(guī)模和網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜度。
【IPC分類】G06F17/30, G06K9/62
【公開號】CN105224955
【申請?zhí)枴緾N201510676163
【發(fā)明人】許德瑋, 郝俊瑞, 向智宇, 郭嘉
【申請人】武漢郵電科學(xué)研究院
【公開日】2016年1月6日
【申請日】2015年10月16日