專利名稱:一種基于微博的數(shù)據(jù)挖掘方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種基于微博的數(shù)據(jù)挖掘方法及系統(tǒng)。
背景技術(shù):
在餐飲行業(yè),目前沒有基于微博數(shù)據(jù)挖掘,為企業(yè)經(jīng)營決策或消費者消費決策提供數(shù)據(jù)支持的產(chǎn)品。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題在于如何提供產(chǎn)品或服務(wù)的評價信息。為了解決以上問題,本發(fā)明實施例提供一種基于微博的數(shù)據(jù)挖掘方法,包括以下過程訓(xùn)練過程依托知識庫體系,對微博樣本數(shù)據(jù)做分詞、特征提取等文本預(yù)處理工作,然后作為機器學(xué)習(xí)算法的輸入,通過機器學(xué)習(xí)算法,創(chuàng)建分類器,并告訴分類器分類判定的標(biāo)準(zhǔn);判斷過程依托知識庫體系,對微博數(shù)據(jù)進(jìn)行文本預(yù)處理,對微博數(shù)據(jù)做分詞、特征提取等預(yù)處理工作,將預(yù)處理后的微博數(shù)據(jù)發(fā)給分類器,并接收分類器返回的好評或差評結(jié)果。進(jìn)一歩,作為優(yōu)選方案,知識體庫體系為多層次的樹形知識庫體系。進(jìn)ー步,作為優(yōu)選方案,機器學(xué)習(xí)算法為擴(kuò)展貝葉斯算法。本發(fā)明實施例還提供了一種基于微博的數(shù)據(jù)挖掘系統(tǒng),包括訓(xùn)練模塊依托知識庫體系模塊,先經(jīng)過第一文本預(yù)處理模塊,對微博樣本數(shù)據(jù)做分詞、特征提取等文本預(yù)處理工作,然后作為機器學(xué)習(xí)模塊的輸入,通過機器學(xué)習(xí)算法,創(chuàng)建分類器模塊,并告訴分類器分類模塊判定的標(biāo)準(zhǔn);判斷模塊依托知識庫體系,先經(jīng)過第二文本預(yù)處理模塊,對微博數(shù)據(jù)進(jìn)行文本預(yù)處理,對微博數(shù)據(jù)做分詞、特征提取等預(yù)處理工作,將預(yù)處理后的微博數(shù)據(jù)發(fā)給分類器模塊,并接收分類器模塊返回的好評或差評結(jié)果在顯示終端顯示;知識庫體系模塊為第一文本預(yù)處理模塊、第二文本預(yù)處理模塊和機器學(xué)習(xí)模塊提供數(shù)據(jù)。由于采用了微博數(shù)據(jù)挖掘技術(shù),提供產(chǎn)品或服務(wù)的評價信息,幫助餐飲企業(yè)發(fā)現(xiàn)自身產(chǎn)品或服務(wù)的優(yōu)缺點,為企業(yè)經(jīng)營決策提供數(shù)據(jù)支持。
當(dāng)結(jié)合附圖考慮時,通過參照下面的詳細(xì)描述,能夠更完整更好地理解本發(fā)明以及容易得知其中許多伴隨的優(yōu)點,但此處所說明的附圖用來提供對本發(fā)明的進(jìn)ー步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定,其中
圖I為本發(fā)明挖掘方法實施例流程圖;圖2為本發(fā)明挖掘系統(tǒng)實施例框圖。
具體實施例方式以下參照圖1-2對本發(fā)明的實施例進(jìn)行說明。如圖I所示,一種基于微博的數(shù)據(jù)挖掘方法,包括以下過程SI、訓(xùn)練過程依托知識庫體系,對微博樣本數(shù)據(jù)做分詞、特征提取等文本預(yù)處理工作,然后作為機器學(xué)習(xí)算法的輸入,通過機器學(xué)習(xí)算法,創(chuàng)建分類器,并告訴分類器分類判定的標(biāo)準(zhǔn); S2、判斷過程依托知識庫體系,對微博數(shù)據(jù)進(jìn)行文本預(yù)處理,對微博數(shù)據(jù)做分詞、特征提取等預(yù)處理工作,將預(yù)處理后的微博數(shù)據(jù)發(fā)給分類器,并接收分類器返回的好評或差評結(jié)果。知識體庫體系為多層次的樹形知識庫體系。機器學(xué)習(xí)算法為擴(kuò)展貝葉斯算法。如圖2所示,一種基于微博的數(shù)據(jù)挖掘系統(tǒng),包括訓(xùn)練模塊I :依托知識庫體系模塊,先經(jīng)過第一文本預(yù)處理模塊11,對微博樣本數(shù)據(jù)做分詞、特征提取等文本預(yù)處理工作,然后作為機器學(xué)習(xí)模塊12的輸入,通過機器學(xué)習(xí)算法,創(chuàng)建分類器模塊13,并告訴分類器分類模塊13判定的標(biāo)準(zhǔn);判斷模塊2 :依托知識庫體系,先經(jīng)過第二文本預(yù)處理模塊21,對微博數(shù)據(jù)進(jìn)行文本預(yù)處理,對微博數(shù)據(jù)做分詞、特征提取等預(yù)處理工作,將預(yù)處理后的微博數(shù)據(jù)發(fā)給分類器模塊13,并接收分類器模塊13返回的好評或差評結(jié)果在顯示終端22顯示;知識庫體系模塊3 :為第一文本預(yù)處理模塊11、第二文本預(yù)處理模塊21和機器學(xué)習(xí)模塊12提供數(shù)據(jù)。如上所述,對本發(fā)明的實施例進(jìn)行了詳細(xì)地說明,但是只要實質(zhì)上沒有脫離本發(fā)明的發(fā)明點及效果可以有很多的變形,這對本領(lǐng)域的技術(shù)人員來說是顯而易見的。因此,這樣的變形例也全部包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于微博的數(shù)據(jù)挖掘方法,其特征在于,包括以下過程訓(xùn)練過程依托知識庫體系,對微博樣本數(shù)據(jù)做分詞、特征提取等文本預(yù)處理工作,然后作為機器學(xué)習(xí)算法的輸入,通過機器學(xué)習(xí)算法,創(chuàng)建分類器,并告訴分類器分類判定的標(biāo)準(zhǔn); 判斷過程依托知識庫體系,對微博數(shù)據(jù)進(jìn)行文本預(yù)處理,對微博數(shù)據(jù)做分詞、特征提取等預(yù)處理工作,將預(yù)處理后的微博數(shù)據(jù)發(fā)給分類器,并接收分類器返回的好評或差評結(jié)果O
2.如權(quán)利要求I所述基于微博的數(shù)據(jù)挖掘方法,其特征在于,所述知識體庫體系為多層次的樹形知識庫體系。
3.如權(quán)利要求I所述基于微博的數(shù)據(jù)挖掘方法,其特征在于,所述機器學(xué)習(xí)算法為擴(kuò)展貝葉斯算法。
4.一種基于微博的數(shù)據(jù)挖掘系統(tǒng),其特征在于,包括 訓(xùn)練模塊依托知識庫體系模塊,先經(jīng)過第一文本預(yù)處理模塊,對微博樣本數(shù)據(jù)做分詞、特征提取等文本預(yù)處理工作,然后作為機器學(xué)習(xí)模塊的輸入,通過機器學(xué)習(xí)算法,創(chuàng)建分類器模塊,并告訴分類器分類模塊判定的標(biāo)準(zhǔn); 判斷模塊依托知識庫體系,先經(jīng)過第二文本預(yù)處理模塊,對微博數(shù)據(jù)進(jìn)行文本預(yù)處理,對微博數(shù)據(jù)做分詞、特征提取等預(yù)處理工作,將預(yù)處理后的微博數(shù)據(jù)發(fā)給分類器模塊,并接收分類器模塊返回的好評或差評結(jié)果在顯示終端顯示; 知識庫體系模塊為第一文本預(yù)處理模塊、第二文本預(yù)處理模塊和機器學(xué)習(xí)模塊提供數(shù)據(jù)。
全文摘要
本發(fā)明提供了一種基于微博的數(shù)據(jù)挖掘方法和系統(tǒng)。涉及餐飲服務(wù)行業(yè)。該方法包括以下過程訓(xùn)練過程依托知識庫體系,對微博樣本數(shù)據(jù)做分詞、特征提取等文本預(yù)處理工作,然后作為機器學(xué)習(xí)算法的輸入,通過機器學(xué)習(xí)算法,創(chuàng)建分類器,并告訴分類器分類判定的標(biāo)準(zhǔn);判斷過程依托知識庫體系,對微博數(shù)據(jù)進(jìn)行文本預(yù)處理,對微博數(shù)據(jù)做分詞、特征提取等預(yù)處理工作,將預(yù)處理后的微博數(shù)據(jù)發(fā)給分類器,并接收分類器返回的好評或差評結(jié)果。本發(fā)明還提供了一種基于微博的數(shù)據(jù)挖掘系統(tǒng)。
文檔編號G06F17/30GK102819576SQ20121025468
公開日2012年12月12日 申請日期2012年7月23日 優(yōu)先權(quán)日2012年7月23日
發(fā)明者郝文, 白昱 申請人:無錫雅座在線科技發(fā)展有限公司