面向微博文本分類的挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種面向微博文本分類的挖掘方法,包括如下步驟:獲取現(xiàn)有的微博數(shù)據(jù);對獲取的微博文本進(jìn)行分析和預(yù)處理;對所述微博文本的詞項集合進(jìn)行搜索遍歷,去除停用詞詞項;對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算,所得出的最高值的N個詞項作為特征詞項集,所述原始特征詞項集合為所有微博文本的詞項集合;對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘,將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中,以提高微博文本分類精度。本發(fā)明還涉及一種面向微博文本分類的挖掘系統(tǒng)。本發(fā)明能夠有效地簡化原始微博文本的關(guān)聯(lián)規(guī)則挖掘復(fù)雜度,且所需要分析的數(shù)據(jù)量大大減少,提高了微博文本分類精度。
【專利說明】面向微博文本分類的挖掘方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種面向微博文本分類的挖掘方法及系統(tǒng)。
【背景技術(shù)】
[0002]微博,已經(jīng)成為人們進(jìn)行社交的一種重要平臺與媒介之一,中國有超過4億的微博用戶,而Twitter用戶更是超過5億,信息日發(fā)送量則超過2億,成為僅次于Facebook的第二大社交網(wǎng)站。近年來,微博成為無數(shù)熱門話題與潮流的發(fā)源地。隨著新浪微博、騰訊微博等社交網(wǎng)站在國內(nèi)的流行,微博等社會化媒體不僅成為了網(wǎng)民發(fā)布、共享、傳播信息的平臺,而且積累了大規(guī)模網(wǎng)民的行為數(shù)據(jù)。2012年5月,新浪微博事業(yè)部副總經(jīng)理蘆義指出,新浪微博注冊用戶已超過3億,其中有60%的活躍用戶通過移動終端登錄,用戶平均每天發(fā)布超過I億條微博內(nèi)容??梢娢⒉┑臄?shù)據(jù)量越來越大,因而對微博數(shù)據(jù)的挖掘具有可行性、創(chuàng)新性以及實用性,并受到國內(nèi)外學(xué)術(shù)界的廣泛關(guān)注。
[0003]在微博文本分類中,關(guān)聯(lián)規(guī)則能夠有效的提高分類的精度。其中,關(guān)聯(lián)規(guī)則在數(shù)據(jù)集中的支持度(support)是數(shù)據(jù)集中事物同時包含X項、Y項的百分比,即概率;置信度(confidence)是數(shù)據(jù)集中事物已經(jīng)包含X項的情況下,包含Y項的百分比,即條件概率。如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。
[0004]現(xiàn)有的關(guān)聯(lián)規(guī)則算法主要有兩類=Apriori算法和FP-樹頻集算法。
[0005]Apriori算法:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項。一旦生成這些規(guī)則,只有那些大于用戶給定的最小可信度的規(guī)則才被留下來,使用遞推的方法生成所有頻集。
[0006]FP-樹頻集算法:采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree),同時依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為I的頻集相關(guān),然后再對這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時候,也可以結(jié)合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,F(xiàn)P-growth對不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較之Apriori算法有巨大的提聞。
[0007]然而,對于微博這樣的短文本而言,Apriori算法產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,大大增加了挖掘復(fù)雜度和挖掘時間。FP-樹頻集算法雖然可以有效提高效率,但是對于短文本而言,效率依然不高。
【發(fā)明內(nèi)容】
[0008]有鑒于此,有必要提供一種面向微博文本分類的挖掘方法及系統(tǒng)。
[0009]本發(fā)明提供一種面向微博文本分類的挖掘方法,該方法包括如下步驟:a.獲取現(xiàn)有的微博數(shù)據(jù);b.對獲取的微博文本進(jìn)行分析和預(yù)處理;c.對所述微博文本的詞項集合進(jìn)行搜索遍歷,去除停用詞詞項;d.對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算,所得出的最高值的N個詞項作為特征詞項集,所述原始特征詞項集合為所有微博文本的詞項集合;e.對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘,將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中,以提高微博文本分類精度。
[0010]其中,所述的微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
[0011]所述的步驟b包括對所述微博文本去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作,得到所述微博文本的詞項集合,并對該微博進(jìn)行人工分類。
[0012]所述的所述特征詞項集按照互信息值的高低排列,其中N為用戶自定義,N小于總詞項數(shù)目。
[0013]所述開發(fā)檢驗CHI值計算方法為:對于每個詞分別計算得到:在這個分類下包含這個詞的微博文本數(shù)量a ;不在該分類下包含這個詞的微博文本數(shù)量b ;在這個分類下不包含這個詞的微博文本數(shù)量c ;不在該分類下,且不包含這個詞的微博文本數(shù)量d ;zl=a*d_b*c ;CHI= (zl*zl*float (N)) / ((a+c) * (a+b) * (b+d) * (c+d)。
[0014]所述的步驟e包括:遍歷獲取的微博數(shù)據(jù)中的每條微博,對每條微博的特征詞項集進(jìn)行二元組化;設(shè)定支持度和置信度的閾值;根據(jù)設(shè)定的支持度和置信度的閾值,取強關(guān)聯(lián)規(guī)則,將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中。
[0015]本發(fā)明還提供一種面向微博文本分類的挖掘系統(tǒng),包括相互電性連接的獲取模塊、預(yù)處理模塊、提取模塊、計算模塊及挖掘模塊,其中:所述獲取模塊用于獲取現(xiàn)有的微博數(shù)據(jù);所述預(yù)處理模塊用于對獲取的微博文本進(jìn)行分析和預(yù)處理;所述提取模塊用于對所述微博文本的詞項集合進(jìn)行搜索遍歷,去除停用詞詞項;所述計算模塊用于對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算,所得出的最高值的N個詞項作為特征詞項集,所述原始特征詞項集合為所有微博文本的詞項集合;所述挖掘模塊用于對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘,將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中,以提高微博文本分類精度。
[0016]其中,所述的微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
[0017]所述預(yù)處理模塊用于對所述微博文本去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作,得到所述微博文本的詞項集合。
[0018]所述的所述特征詞項集按照互信息值的高低排列,其中N為用戶自定義,N小于總詞項數(shù)目。
[0019]本發(fā)明面向微博文本分類的挖掘方法及系統(tǒng),綜合考慮了微博的文本結(jié)構(gòu),針對微博文本短文本的特性和微博文本關(guān)聯(lián)規(guī)則的必要性,提出了一種簡單有效的針對微博文本分類的關(guān)聯(lián)規(guī)則挖掘方法,與先前關(guān)聯(lián)規(guī)則挖掘方法相比,本發(fā)明的時間復(fù)雜度大大降低,需要分析的數(shù)據(jù)量大大減少,微博文本分類精度得到顯著提高。
【專利附圖】
【附圖說明】
[0020]圖1為本發(fā)明面向微博文本分類的挖掘方法的流程圖;
[0021]圖2為本發(fā)明面向微博文本分類的挖掘系統(tǒng)的硬件架構(gòu)圖。
【具體實施方式】[0022]下面結(jié)合附圖及具體實施例對本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0023]參閱圖1所示,是本發(fā)明面向微博文本分類的挖掘方法較佳實施例的作業(yè)流程圖。
[0024]步驟S401,獲取現(xiàn)有的微博數(shù)據(jù)。具體而言,獲取微博網(wǎng)站上現(xiàn)有的數(shù)據(jù)。受限于分析技術(shù),本實施例僅獲取內(nèi)容為中文的微博數(shù)據(jù)。所述微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
[0025]步驟S402,對獲取的微博文本進(jìn)行分析和預(yù)處理。具體而言,對每條微博文本進(jìn)行初始化處理,所述微博文本經(jīng)過去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作后,得到所述微博文本的詞項集合,并對該微博進(jìn)行人工分類。
[0026]步驟S403,對所述微博文本進(jìn)行特征提取,即對所述微博文本的詞項集合進(jìn)行搜索遍歷,去除停用詞詞項。
[0027]步驟S404,對微博數(shù)據(jù)進(jìn)行特征選擇。具體而言,對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算,所得出的最高值的N個詞項作為特征詞項集。其中,所述原始特征詞項集合為所有微博文本的詞項集合。所述特征詞項集按照互信息值的高低排列,其中N為用戶自定義,N小于總詞項數(shù)目。
[0028]所述開發(fā)檢驗CHI值計算方法如下:
[0029]對于每個詞分別計算得到:在這個分類下包含這個詞的微博文本數(shù)量a ;不在該分類下包含這個詞的微博文本數(shù)量b ;在這個分類下不包含這個詞的微博文本數(shù)量c ;不在該分類下,且不包含這個詞的微博文本數(shù)量d。
[0030]zl=a*d_b*c。
[0031 ] CHI= (z l*z l*float (N)) / ((a+c) * (a+b) * (b+d) * (c+d)。
[0032]步驟S405,對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘。具體步驟如下:
[0033]1.遍歷獲取的微博數(shù)據(jù)中的每條微博,對每條微博的特征詞項集進(jìn)行二元組化,將每個二元組加入到MAP〈(詞項X,詞項y), count〉,count為該二元組出現(xiàn)的次數(shù)。
[0034]2.選擇特征過程中已經(jīng)計算了每個詞項出現(xiàn)的次數(shù),設(shè)定支持度和置信度的閾值。
[0035]21.過濾count小于微博數(shù)據(jù)的微博總數(shù)*已設(shè)定support的二元組;
[0036]22.support (x=>y) =count/ 微博數(shù)據(jù)的微博總數(shù);
[0037]23.confidence (x=>y)=count/ (a+b)。
[0038]3.根據(jù)上述設(shè)定的支持度和置信度的閾值,取強關(guān)聯(lián)規(guī)則。將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中,以提高微博文本分類精度。
[0039]參閱圖2所示,是本發(fā)明面向微博文本分類的挖掘系統(tǒng)的硬件架構(gòu)圖。該系統(tǒng)包括相互電性連接的獲取模塊、預(yù)處理模塊、提取模塊、計算模塊及挖掘模塊。
[0040]所述獲取模塊用于獲取現(xiàn)有的微博數(shù)據(jù)。具體而言,所述獲取模塊獲取微博網(wǎng)站上現(xiàn)有的數(shù)據(jù)。受限于分析技術(shù),本實施例僅獲取內(nèi)容為中文的微博數(shù)據(jù)。所述微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
[0041]所述處理模塊用于對獲取的圖像進(jìn)行去噪和增強預(yù)處理,為后期的處理和篩選做準(zhǔn)備。具體而言,所述處理模塊對所述獲取的圖像分別進(jìn)行去噪處理及增強處理,以提高圖像的識別度。[0042]所述預(yù)處理模塊用于對獲取的微博文本進(jìn)行分析和預(yù)處理。具體而言,所述預(yù)處理模塊對每條微博文本進(jìn)行初始化處理,所述微博文本經(jīng)過去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作后,得到所述微博文本的詞項集合,并對該微博進(jìn)行人工分類。
[0043]所述提取模塊用于對所述微博文本進(jìn)行特征提取,即所述提取模塊對所述微博文本的詞項集合進(jìn)行搜索遍歷,去除停用詞詞項。
[0044]所述計算模塊用于對微博數(shù)據(jù)進(jìn)行特征選擇。具體而言,所述計算模塊對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算,所得出的最高值的N個詞項作為特征詞項集。其中,所述原始特征詞項集合為所有微博文本的詞項集合。所述特征詞項集按照互信息值的高低排列,其中N為用戶自定義,N小于總詞項數(shù)目。
[0045]所述計算模塊計算得到所述開發(fā)檢驗CHI值具體如下:
[0046]對于每個詞分別計算得到:在這個分類下包含這個詞的微博文本數(shù)量a ;不在該分類下包含這個詞的微博文本數(shù)量b ;在這個分類下不包含這個詞的微博文本數(shù)量c ;不在該分類下,且不包含這個詞的微博文本數(shù)量d。
[0047]zl=a*d_b*c。
[0048]CHI= (z l*z l*float (N)) / ((a+c) * (a+b) * (b+d) * (c+d)。
[0049]所述挖掘模塊用于對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘。具體如下:
[0050]所述挖掘模塊首先遍歷獲取的微博數(shù)據(jù)中的每條微博,對每條微博的特征詞項集進(jìn)行二元組化,將每個二元組加入到MAP〈(詞項X,詞項y), count〉, count為該二元組出現(xiàn)的次數(shù)。
[0051]而后選擇特征過程中已經(jīng)計算了每個詞項出現(xiàn)的次數(shù),設(shè)定支持度和置信度的閾值:過濾count小于微博數(shù)據(jù)的微博總數(shù)*已設(shè)定support的二元組;support (x=>y) =count/ 微博數(shù)據(jù)的微博總數(shù);conf idence (x=>y) =count/ (a+b)。
[0052]最后根據(jù)上述設(shè)定的支持度和置信度的閾值,取強關(guān)聯(lián)規(guī)則。將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中,以提高微博文本分類精度。
[0053]雖然本發(fā)明參照當(dāng)前的較佳實施方式進(jìn)行了描述,但本領(lǐng)域的技術(shù)人員應(yīng)能理解,上述較佳實施方式僅用來說明本發(fā)明,并非用來限定本發(fā)明的保護(hù)范圍,任何在本發(fā)明的精神和原則范圍之內(nèi),所做的任何修飾、等效替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種面向微博文本分類的挖掘方法,其特征在于,該方法包括如下步驟: a.獲取現(xiàn)有的微博數(shù)據(jù); b.對獲取的微博文本進(jìn)行分析和預(yù)處理; c.對所述微博文本的詞項集合進(jìn)行搜索遍歷,去除停用詞詞項; d.對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算,所得出的最高值的N個詞項作為特征詞項集,所述原始特征詞項集合為所有微博文本的詞項集合; e.對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘,將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中,以提高微博文本分類精度。
2.如權(quán)利要求1所述的方法,其特征在于,所述的微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
3.如權(quán)利要求2所述的方法,其特征在于,所述的步驟b包括對所述微博文本去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作,得到所述微博文本的詞項集合,并對該微博進(jìn)行人工分類。
4.如權(quán)利要求3所述的方法,其特征在于,所述的所述特征詞項集按照互信息值的高低排列,其中N為用戶自定義,N小于總詞項數(shù)目。
5.如權(quán)利要求4所述的方法,其特征在于,所述開發(fā)檢驗CHI值計算方法為: 對于每個詞分別計算得到:在這個分類下包含這個詞的微博文本數(shù)量a ;不在該分類下包含這個詞的微博文本數(shù)量b ;在這個分類下不包含這個詞的微博文本數(shù)量c ;不在該分類下,且不包含這個詞的微博文本數(shù)量d ;
zl=a氺d_b氺c ;
CHI= (z l*z l*f 1at (N)) / ((a+c) * (a+b) * (b+d) * (c+d)。
6.如權(quán)利要求5所述的方法,其特征在于,所述的步驟e包括: 遍歷獲取的微博數(shù)據(jù)中的每條微博,對每條微博的特征詞項集進(jìn)行二元組化; 設(shè)定支持度和置信度的閾值; 根據(jù)設(shè)定的支持度和置信度的閾值,取強關(guān)聯(lián)規(guī)則,將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中。
7.一種面向微博文本分類的挖掘系統(tǒng),其特征在于,該系統(tǒng)包括相互電性連接的獲取模塊、預(yù)處理模塊、提取模塊、計算模塊及挖掘模塊,其中: 所述獲取模塊用于獲取現(xiàn)有的微博數(shù)據(jù); 所述預(yù)處理模塊用于對獲取的微博文本進(jìn)行分析和預(yù)處理; 所述提取模塊用于對所述微博文本的詞項集合進(jìn)行搜索遍歷,去除停用詞詞項; 所述計算模塊用于對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算,所得出的最高值的N個詞項作為特征詞項集,所述原始特征詞項集合為所有微博文本的詞項集合; 所述挖掘模塊用于對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘,將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中,以提高微博文本分類精度。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述的微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述預(yù)處理模塊用于對所述微博文本去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作,得到所述微博文本的詞項集合。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述的所述特征詞項集按照互信息值的高低排列,其中N為用戶自定義,N小于總詞項數(shù)目。
【文檔編號】G06F17/30GK103593454SQ201310591482
【公開日】2014年2月19日 申請日期:2013年11月21日 優(yōu)先權(quán)日:2013年11月21日
【發(fā)明者】羅軍, 章昉 申請人:中國科學(xué)院深圳先進(jìn)技術(shù)研究院