面向微博文本分類的挖掘方法及系統(tǒng)的制作方法

文檔序號：6520066閱讀：512來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向微博文本分類的挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種面向微博文本分類的挖掘方法，包括如下步驟：獲取現(xiàn)有的微博數(shù)據(jù)；對獲取的微博文本進(jìn)行分析和預(yù)處理；對所述微博文本的詞項集合進(jìn)行搜索遍歷，去除停用詞詞項；對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算，所得出的最高值的N個詞項作為特征詞項集，所述原始特征詞項集合為所有微博文本的詞項集合；對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘，將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中，以提高微博文本分類精度。本發(fā)明還涉及一種面向微博文本分類的挖掘系統(tǒng)。本發(fā)明能夠有效地簡化原始微博文本的關(guān)聯(lián)規(guī)則挖掘復(fù)雜度，且所需要分析的數(shù)據(jù)量大大減少，提高了微博文本分類精度。
【專利說明】面向微博文本分類的挖掘方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種面向微博文本分類的挖掘方法及系統(tǒng)。
【背景技術(shù)】
[0002]微博，已經(jīng)成為人們進(jìn)行社交的一種重要平臺與媒介之一，中國有超過4億的微博用戶，而Twitter用戶更是超過5億,信息日發(fā)送量則超過2億,成為僅次于Facebook的第二大社交網(wǎng)站。近年來，微博成為無數(shù)熱門話題與潮流的發(fā)源地。隨著新浪微博、騰訊微博等社交網(wǎng)站在國內(nèi)的流行，微博等社會化媒體不僅成為了網(wǎng)民發(fā)布、共享、傳播信息的平臺，而且積累了大規(guī)模網(wǎng)民的行為數(shù)據(jù)。2012年5月，新浪微博事業(yè)部副總經(jīng)理蘆義指出，新浪微博注冊用戶已超過3億，其中有60%的活躍用戶通過移動終端登錄，用戶平均每天發(fā)布超過I億條微博內(nèi)容?？梢娢⒉┑臄?shù)據(jù)量越來越大，因而對微博數(shù)據(jù)的挖掘具有可行性、創(chuàng)新性以及實用性，并受到國內(nèi)外學(xué)術(shù)界的廣泛關(guān)注。
[0003]在微博文本分類中，關(guān)聯(lián)規(guī)則能夠有效的提高分類的精度。其中，關(guān)聯(lián)規(guī)則在數(shù)據(jù)集中的支持度(support)是數(shù)據(jù)集中事物同時包含X項、Y項的百分比，即概率；置信度(confidence)是數(shù)據(jù)集中事物已經(jīng)包含X項的情況下，包含Y項的百分比，即條件概率。如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。
[0004]現(xiàn)有的關(guān)聯(lián)規(guī)則算法主要有兩類=Apriori算法和FP-樹頻集算法。
[0005]Apriori算法:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則，這些規(guī)則必須滿足最小支持度和最小可信度。然后使用找到的頻集產(chǎn)生期望的規(guī)則，產(chǎn)生只包含集合的項的所有規(guī)則，其中每一條規(guī)則的右部只有一項。一旦生成這些規(guī)則，只有那些大于用戶給定的最小可信度的規(guī)則才被留下來，使用遞推的方法生成所有頻集。
[0006]FP-樹頻集算法:采用分而治之的策略，在經(jīng)過第一遍掃描之后，把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree)，同時依然保留其中的關(guān)聯(lián)信息，隨后再將FP-tree分化成一些條件庫，每個庫和一個長度為I的頻集相關(guān)，然后再對這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時候，也可以結(jié)合劃分的方法，使得一個FP-tree可以放入主存中。實驗表明，F(xiàn)P-growth對不同長度的規(guī)則都有很好的適應(yīng)性，同時在效率上較之Apriori算法有巨大的提聞。
[0007]然而，對于微博這樣的短文本而言，Apriori算法產(chǎn)生大量的候選集，以及可能需要重復(fù)掃描數(shù)據(jù)庫，大大增加了挖掘復(fù)雜度和挖掘時間。FP-樹頻集算法雖然可以有效提高效率，但是對于短文本而言，效率依然不高。

【發(fā)明內(nèi)容】

[0008]有鑒于此，有必要提供一種面向微博文本分類的挖掘方法及系統(tǒng)。
[0009]本發(fā)明提供一種面向微博文本分類的挖掘方法，該方法包括如下步驟:a.獲取現(xiàn)有的微博數(shù)據(jù)；b.對獲取的微博文本進(jìn)行分析和預(yù)處理；c.對所述微博文本的詞項集合進(jìn)行搜索遍歷，去除停用詞詞項；d.對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算，所得出的最高值的N個詞項作為特征詞項集，所述原始特征詞項集合為所有微博文本的詞項集合；e.對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘，將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中，以提高微博文本分類精度。
[0010]其中，所述的微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
[0011]所述的步驟b包括對所述微博文本去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作，得到所述微博文本的詞項集合，并對該微博進(jìn)行人工分類。
[0012]所述的所述特征詞項集按照互信息值的高低排列，其中N為用戶自定義，N小于總詞項數(shù)目。
[0013]所述開發(fā)檢驗CHI值計算方法為:對于每個詞分別計算得到:在這個分類下包含這個詞的微博文本數(shù)量a ;不在該分類下包含這個詞的微博文本數(shù)量b ;在這個分類下不包含這個詞的微博文本數(shù)量c ;不在該分類下，且不包含這個詞的微博文本數(shù)量d ；zl=a*d_b*c ；CHI= (zl*zl*float (N)) / ((a+c) * (a+b) * (b+d) * (c+d)。
[0014]所述的步驟e包括:遍歷獲取的微博數(shù)據(jù)中的每條微博，對每條微博的特征詞項集進(jìn)行二元組化；設(shè)定支持度和置信度的閾值；根據(jù)設(shè)定的支持度和置信度的閾值，取強關(guān)聯(lián)規(guī)則，將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中。
[0015]本發(fā)明還提供一種面向微博文本分類的挖掘系統(tǒng)，包括相互電性連接的獲取模塊、預(yù)處理模塊、提取模塊、計算模塊及挖掘模塊，其中:所述獲取模塊用于獲取現(xiàn)有的微博數(shù)據(jù)；所述預(yù)處理模塊用于對獲取的微博文本進(jìn)行分析和預(yù)處理；所述提取模塊用于對所述微博文本的詞項集合進(jìn)行搜索遍歷，去除停用詞詞項；所述計算模塊用于對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算，所得出的最高值的N個詞項作為特征詞項集，所述原始特征詞項集合為所有微博文本的詞項集合；所述挖掘模塊用于對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘，將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中，以提高微博文本分類精度。
[0016]其中，所述的微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
[0017]所述預(yù)處理模塊用于對所述微博文本去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作，得到所述微博文本的詞項集合。
[0018]所述的所述特征詞項集按照互信息值的高低排列，其中N為用戶自定義，N小于總詞項數(shù)目。
[0019]本發(fā)明面向微博文本分類的挖掘方法及系統(tǒng)，綜合考慮了微博的文本結(jié)構(gòu)，針對微博文本短文本的特性和微博文本關(guān)聯(lián)規(guī)則的必要性，提出了一種簡單有效的針對微博文本分類的關(guān)聯(lián)規(guī)則挖掘方法，與先前關(guān)聯(lián)規(guī)則挖掘方法相比，本發(fā)明的時間復(fù)雜度大大降低，需要分析的數(shù)據(jù)量大大減少，微博文本分類精度得到顯著提高。
【專利附圖】

【附圖說明】
[0020]圖1為本發(fā)明面向微博文本分類的挖掘方法的流程圖；
[0021]圖2為本發(fā)明面向微博文本分類的挖掘系統(tǒng)的硬件架構(gòu)圖。
【具體實施方式】[0022]下面結(jié)合附圖及具體實施例對本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0023]參閱圖1所示，是本發(fā)明面向微博文本分類的挖掘方法較佳實施例的作業(yè)流程圖。
[0024]步驟S401，獲取現(xiàn)有的微博數(shù)據(jù)。具體而言，獲取微博網(wǎng)站上現(xiàn)有的數(shù)據(jù)。受限于分析技術(shù)，本實施例僅獲取內(nèi)容為中文的微博數(shù)據(jù)。所述微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
[0025]步驟S402，對獲取的微博文本進(jìn)行分析和預(yù)處理。具體而言，對每條微博文本進(jìn)行初始化處理，所述微博文本經(jīng)過去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作后，得到所述微博文本的詞項集合，并對該微博進(jìn)行人工分類。
[0026]步驟S403，對所述微博文本進(jìn)行特征提取，即對所述微博文本的詞項集合進(jìn)行搜索遍歷，去除停用詞詞項。
[0027]步驟S404，對微博數(shù)據(jù)進(jìn)行特征選擇。具體而言，對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算，所得出的最高值的N個詞項作為特征詞項集。其中，所述原始特征詞項集合為所有微博文本的詞項集合。所述特征詞項集按照互信息值的高低排列，其中N為用戶自定義，N小于總詞項數(shù)目。
[0028]所述開發(fā)檢驗CHI值計算方法如下:
[0029]對于每個詞分別計算得到:在這個分類下包含這個詞的微博文本數(shù)量a ;不在該分類下包含這個詞的微博文本數(shù)量b ;在這個分類下不包含這個詞的微博文本數(shù)量c ;不在該分類下，且不包含這個詞的微博文本數(shù)量d。
[0030]zl=a*d_b*c。
[0031 ] CHI= (z l*z l*float (N)) / ((a+c) * (a+b) * (b+d) * (c+d)。
[0032]步驟S405，對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘。具體步驟如下:
[0033]1.遍歷獲取的微博數(shù)據(jù)中的每條微博，對每條微博的特征詞項集進(jìn)行二元組化，將每個二元組加入到MAP〈(詞項X,詞項y), count〉，count為該二元組出現(xiàn)的次數(shù)。
[0034]2.選擇特征過程中已經(jīng)計算了每個詞項出現(xiàn)的次數(shù)，設(shè)定支持度和置信度的閾值。
[0035]21.過濾count小于微博數(shù)據(jù)的微博總數(shù)*已設(shè)定support的二元組；
[0036]22.support (x=>y) =count/ 微博數(shù)據(jù)的微博總數(shù)；
[0037]23.confidence (x=>y)=count/ (a+b)。
[0038]3.根據(jù)上述設(shè)定的支持度和置信度的閾值，取強關(guān)聯(lián)規(guī)則。將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中，以提高微博文本分類精度。
[0039]參閱圖2所示，是本發(fā)明面向微博文本分類的挖掘系統(tǒng)的硬件架構(gòu)圖。該系統(tǒng)包括相互電性連接的獲取模塊、預(yù)處理模塊、提取模塊、計算模塊及挖掘模塊。
[0040]所述獲取模塊用于獲取現(xiàn)有的微博數(shù)據(jù)。具體而言，所述獲取模塊獲取微博網(wǎng)站上現(xiàn)有的數(shù)據(jù)。受限于分析技術(shù)，本實施例僅獲取內(nèi)容為中文的微博數(shù)據(jù)。所述微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
[0041]所述處理模塊用于對獲取的圖像進(jìn)行去噪和增強預(yù)處理，為后期的處理和篩選做準(zhǔn)備。具體而言，所述處理模塊對所述獲取的圖像分別進(jìn)行去噪處理及增強處理，以提高圖像的識別度。[0042]所述預(yù)處理模塊用于對獲取的微博文本進(jìn)行分析和預(yù)處理。具體而言，所述預(yù)處理模塊對每條微博文本進(jìn)行初始化處理，所述微博文本經(jīng)過去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作后，得到所述微博文本的詞項集合，并對該微博進(jìn)行人工分類。
[0043]所述提取模塊用于對所述微博文本進(jìn)行特征提取，即所述提取模塊對所述微博文本的詞項集合進(jìn)行搜索遍歷，去除停用詞詞項。
[0044]所述計算模塊用于對微博數(shù)據(jù)進(jìn)行特征選擇。具體而言，所述計算模塊對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算，所得出的最高值的N個詞項作為特征詞項集。其中，所述原始特征詞項集合為所有微博文本的詞項集合。所述特征詞項集按照互信息值的高低排列，其中N為用戶自定義，N小于總詞項數(shù)目。
[0045]所述計算模塊計算得到所述開發(fā)檢驗CHI值具體如下:
[0046]對于每個詞分別計算得到:在這個分類下包含這個詞的微博文本數(shù)量a ;不在該分類下包含這個詞的微博文本數(shù)量b ;在這個分類下不包含這個詞的微博文本數(shù)量c ;不在該分類下，且不包含這個詞的微博文本數(shù)量d。
[0047]zl=a*d_b*c。
[0048]CHI= (z l*z l*float (N)) / ((a+c) * (a+b) * (b+d) * (c+d)。
[0049]所述挖掘模塊用于對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘。具體如下:
[0050]所述挖掘模塊首先遍歷獲取的微博數(shù)據(jù)中的每條微博，對每條微博的特征詞項集進(jìn)行二元組化，將每個二元組加入到MAP〈(詞項X,詞項y), count〉, count為該二元組出現(xiàn)的次數(shù)。
[0051]而后選擇特征過程中已經(jīng)計算了每個詞項出現(xiàn)的次數(shù)，設(shè)定支持度和置信度的閾值:過濾count小于微博數(shù)據(jù)的微博總數(shù)*已設(shè)定support的二元組；support (x=>y) =count/ 微博數(shù)據(jù)的微博總數(shù)；conf idence (x=>y) =count/ (a+b)。
[0052]最后根據(jù)上述設(shè)定的支持度和置信度的閾值，取強關(guān)聯(lián)規(guī)則。將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中，以提高微博文本分類精度。
[0053]雖然本發(fā)明參照當(dāng)前的較佳實施方式進(jìn)行了描述，但本領(lǐng)域的技術(shù)人員應(yīng)能理解，上述較佳實施方式僅用來說明本發(fā)明，并非用來限定本發(fā)明的保護(hù)范圍，任何在本發(fā)明的精神和原則范圍之內(nèi)，所做的任何修飾、等效替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的權(quán)利保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種面向微博文本分類的挖掘方法，其特征在于，該方法包括如下步驟: a.獲取現(xiàn)有的微博數(shù)據(jù)； b.對獲取的微博文本進(jìn)行分析和預(yù)處理； c.對所述微博文本的詞項集合進(jìn)行搜索遍歷，去除停用詞詞項； d.對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算，所得出的最高值的N個詞項作為特征詞項集，所述原始特征詞項集合為所有微博文本的詞項集合； e.對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘，將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中，以提高微博文本分類精度。
2.如權(quán)利要求1所述的方法，其特征在于，所述的微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
3.如權(quán)利要求2所述的方法，其特征在于，所述的步驟b包括對所述微博文本去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作，得到所述微博文本的詞項集合，并對該微博進(jìn)行人工分類。
4.如權(quán)利要求3所述的方法，其特征在于，所述的所述特征詞項集按照互信息值的高低排列，其中N為用戶自定義，N小于總詞項數(shù)目。
5.如權(quán)利要求4所述的方法，其特征在于，所述開發(fā)檢驗CHI值計算方法為: 對于每個詞分別計算得到:在這個分類下包含這個詞的微博文本數(shù)量a ;不在該分類下包含這個詞的微博文本數(shù)量b ;在這個分類下不包含這個詞的微博文本數(shù)量c ;不在該分類下，且不包含這個詞的微博文本數(shù)量d ；
zl=a氺d_b氺c ；
CHI= (z l*z l*f 1at (N)) / ((a+c) * (a+b) * (b+d) * (c+d)。
6.如權(quán)利要求5所述的方法，其特征在于，所述的步驟e包括: 遍歷獲取的微博數(shù)據(jù)中的每條微博，對每條微博的特征詞項集進(jìn)行二元組化；設(shè)定支持度和置信度的閾值；根據(jù)設(shè)定的支持度和置信度的閾值，取強關(guān)聯(lián)規(guī)則，將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中。
7.一種面向微博文本分類的挖掘系統(tǒng)，其特征在于，該系統(tǒng)包括相互電性連接的獲取模塊、預(yù)處理模塊、提取模塊、計算模塊及挖掘模塊，其中: 所述獲取模塊用于獲取現(xiàn)有的微博數(shù)據(jù)；所述預(yù)處理模塊用于對獲取的微博文本進(jìn)行分析和預(yù)處理；所述提取模塊用于對所述微博文本的詞項集合進(jìn)行搜索遍歷，去除停用詞詞項；所述計算模塊用于對原始特征詞項集合中的每個詞項做開發(fā)檢驗CHI值計算，所得出的最高值的N個詞項作為特征詞項集，所述原始特征詞項集合為所有微博文本的詞項集合；所述挖掘模塊用于對所述N個詞項進(jìn)行關(guān)聯(lián)規(guī)則挖掘，將微博文本中的特征詞項的強關(guān)聯(lián)詞項加入到該微博的特征詞項集中，以提高微博文本分類精度。
8.如權(quán)利要求7所述的系統(tǒng)，其特征在于，所述的微博數(shù)據(jù)包括:用戶ID、用戶名、微博文本。
9.如權(quán)利要求8所述的系統(tǒng)，其特征在于，所述預(yù)處理模塊用于對所述微博文本去除標(biāo)點符號等特殊符號、去除非中文字符和分詞操作，得到所述微博文本的詞項集合。
10.如權(quán)利要求9所述的系統(tǒng)，其特征在于，所述的所述特征詞項集按照互信息值的高低排列，其中N為用戶自定義，N小于總詞項數(shù)目。
【文檔編號】G06F17/30GK103593454SQ201310591482
【公開日】2014年2月19日申請日期:2013年11月21日優(yōu)先權(quán)日:2013年11月21日
【發(fā)明者】羅軍, 章昉申請人:中國科學(xué)院深圳先進(jìn)技術(shù)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅軍;章昉
技術(shù)所有人：中國科學(xué)院深圳先進(jìn)技術(shù)研究院
我是此專利的發(fā)明人

上一篇：一種通用設(shè)備故障檢測維修方法
上一篇：筆記本電腦散熱架的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本挖掘相關(guān)技術(shù)

文本挖掘算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向微博文本分類的挖掘方法及系統(tǒng)的制作方法