亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于微博文本的個人和機構(gòu)用戶分類方法及系統(tǒng)的制作方法

文檔序號:6628164閱讀:774來源:國知局
一種基于微博文本的個人和機構(gòu)用戶分類方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于微博文本的個人和機構(gòu)用戶分類方法及系統(tǒng),本發(fā)明方法包括以下步驟。S1、根據(jù)微博網(wǎng)站提供的API收集用戶發(fā)表的微博文本,并對收集到的用戶類型進行標注。S2、將標注好的微博文本進行分詞處理后作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本構(gòu)建貝葉斯分類器。S3、根據(jù)所述貝葉斯分類器對待測用戶進行分類,并根據(jù)分類結(jié)果確定用戶類別。本發(fā)明對于微博用戶的自動分類,具有較高的準確性。
【專利說明】一種基于微博文本的個人和機構(gòu)用戶分類方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語言處理和社交網(wǎng)絡(luò)領(lǐng)域,尤其涉及一種基于微博文本的個人和機構(gòu)用戶分類方法及系統(tǒng)。

【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的開放性、虛擬性與共享性使其漸漸成為人們表達觀點、態(tài)度、感覺、情緒等各種情感的公共平臺,并且產(chǎn)生大量的社交網(wǎng)站,同時微型博客(Microblog)也隨之產(chǎn)生,成為又一個跨時代產(chǎn)品。用戶通過微博發(fā)表的文本中蘊含了大量的信息,且越來越多的研究工作開始關(guān)注微博,其中重要的一類研究是微博用戶特征分析。
[0003]所謂微博用戶特征分析,就是通過對微博用戶的信息和關(guān)系數(shù)據(jù)進行決策樹分析、相關(guān)性分析和關(guān)聯(lián)規(guī)則來挖掘用戶特征,并根據(jù)這些特征進行用戶分類、用戶挖掘及影響力探測等。其中微博用戶分類是微博用戶特征分析的一項基本內(nèi)容,具體來講,是將微博用戶劃分為特定類別,比如:名人、媒體、博主、和組織;或者廣播人、一般人和垃圾蟲。然而,由于社交網(wǎng)絡(luò)剛剛起步相關(guān)研究較少,因此關(guān)于用戶類別的研究也比較缺乏。
[0004]但是,已有的研究主要是針對Twitter等外文網(wǎng)站,且利用的信息是網(wǎng)站提供的社交網(wǎng)絡(luò)信息。然而,相對于社交網(wǎng)絡(luò)信息,文本信息,例如,用戶名和所發(fā)微博等,更容易獲取且更具普遍性。
[0005]鑒于上述原因,本發(fā)明提供一種基于微博文本的個人和機構(gòu)用戶分類方法及系統(tǒng)。


【發(fā)明內(nèi)容】

[0006]本發(fā)明提供一種基于微博文本的個人和機構(gòu)用戶分類方法,包括以下步驟。
[0007]S1、根據(jù)微博網(wǎng)站提供的API收集用戶發(fā)表的微博文本,并對收集到的用戶類型進行標注。
[0008]S2、將標注好的微博文本進行分詞處理后作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本構(gòu)建貝葉斯分類器。
[0009]S3、根據(jù)所述貝葉斯分類器對待測用戶進行分類,并根據(jù)分類結(jié)果確定用戶類別。
[0010]優(yōu)選的,在步驟SI中,收集用戶發(fā)表的微博文本過程包括以下步驟。
[0011]S101、構(gòu)建一個用戶列表,并初始化為空;
[0012]S102、隨機選擇一個用戶作為種子用戶,并將所有微博用戶加入用戶列表中。
[0013]S103、從所述用戶列表取出一個用戶,通過微博網(wǎng)站提供的API抓取用戶信息及該用戶發(fā)表過的微博文本,并將關(guān)注用戶和粉絲用戶加入到用戶隊列中。
[0014]S104、重復(fù)S103直到達到所需的用戶規(guī)模。
[0015]優(yōu)選的,在步驟S103中,所述用戶信息包括用戶名、認證類型、關(guān)注用戶和粉絲用戶。
[0016]優(yōu)選的,在步驟SI中,根據(jù)抓取的用戶信息中的認證類型,將用戶標注為個人用戶和機構(gòu)用戶兩種類型。
[0017]優(yōu)選的,在步驟S2中,采用分詞軟件ICTCLAS將標注好的微博文本進行分詞操作,并將所述經(jīng)過分詞操作的微博文本作為訓(xùn)練樣本。
[0018]優(yōu)選的,步驟S2是利用所述訓(xùn)練樣本及Mallet提供的貝葉斯工具包構(gòu)建貝葉斯分類器。
[0019]優(yōu)選的,在步驟S3中,利用貝葉斯分類器對待測用戶進行分類的過程為:
[0020]對于某待測用戶,獲取該用戶發(fā)表的微博文本;
[0021]利用所述貝葉斯分類器,對用戶微博文本進行分類,得到分類結(jié)果。
[0022]本發(fā)明還提供一種基于微博文本的個人和機構(gòu)用戶分類系統(tǒng),包括用戶微博文本獲取模塊、用戶類別標注模塊、訓(xùn)練語料獲取模塊、分類器構(gòu)建模塊及待測用戶分類模塊,所述用戶微博文本獲取模塊連接用戶類別標注模塊,所述用戶類別標注模塊連接訓(xùn)練語料獲取模塊,所述訓(xùn)練語料獲取模塊連接分類器構(gòu)建模塊,所述分類器構(gòu)建模塊連接待測用戶分類模塊。所述用戶微博文本獲取模塊,用于獲取用戶微博文本及認證類型等信息。所述用戶類別標注模塊,用于對獲取的用戶進行極性標注,即將用戶標注為個人用戶和機構(gòu)用戶。所述訓(xùn)練語料獲取模塊,用于獲取已標注類別的用戶的微博,并將其作為訓(xùn)練樣本。所述分類器構(gòu)建模塊,用于利用所述已獲取的微博訓(xùn)練樣本構(gòu)建貝葉斯分類器。所述待測用戶分類模塊,用于利用所述貝葉斯分類器對待測用戶進行分類。
[0023]通過本發(fā)明提供的基于微博文本的個人和機構(gòu)用戶分類方法及系統(tǒng),對收集到的用戶類型進行標注后,將標注好的微博文本進行處理作為訓(xùn)練樣本,并構(gòu)建貝葉斯分類器。最后根據(jù)貝葉斯分類器對待測用戶進行分類,以確定用戶類別。如此,通過對微博文本信息的處理,達到了對個人和機構(gòu)用戶自動分類的效果。

【專利附圖】

【附圖說明】
[0024]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0025]圖1是本發(fā)明較佳實施例提供的基于微博文本的個人和機構(gòu)用戶分類方法流程圖;
[0026]圖2是本發(fā)明較佳實施例提供的基于微博文本的個人和機構(gòu)用戶分類系統(tǒng)示意圖。

【具體實施方式】
[0027]下文中將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0028]圖1是本發(fā)明較佳實施例提供的基于微博文本的個人和機構(gòu)用戶分類方法流程圖。如圖1所示,本發(fā)明較佳實施例提供的基于微博文本的個人和機構(gòu)用戶分類方法包括步驟SI?S3。
[0029]步驟S1:根據(jù)微博網(wǎng)站提供的API收集用戶發(fā)表的微博文本,并對收集到的用戶類型進行標注。
[0030]具體而言,本實施例中,所述微博網(wǎng)站為新浪微博,在其他實施例中,可根據(jù)需要自行設(shè)定,對此本發(fā)明并不作限定。本步驟中,所述API解釋為Applicat1n ProgrammingInterface,即應(yīng)用程序編程接口。其中,對用戶類型進行標注的過程為:根據(jù)抓取的用戶信息中的認證類型,將用戶標注為個人用戶和機構(gòu)用戶兩種類型。
[0031]表1為用戶認證類型說明。如表1所示,藍V用戶標注為機構(gòu)用戶,黃V、微女郎、
達人用戶及普通用戶標注為個人用戶。
[0032]

【權(quán)利要求】
1.一種基于微博文本的個人和機構(gòu)用戶分類方法,其特征在于,包括以下步驟: 51、根據(jù)微博網(wǎng)站提供的API收集用戶發(fā)表的微博文本,并對收集到的用戶類型進行標注; 52、將標注好的微博文本進行分詞處理后作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本構(gòu)建貝葉斯分類器; 53、根據(jù)所述貝葉斯分類器對待測用戶進行分類,并根據(jù)分類結(jié)果確定用戶類別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟SI中,收集用戶發(fā)表的微博文本過程包括以下步驟: 5101、構(gòu)建一個用戶列表,并初始化為空; 5102、隨機選擇一個用戶作為種子用戶,并將所有微博用戶加入用戶列表中; 5103、從所述用戶列表取出一個用戶,通過微博網(wǎng)站提供的API抓取用戶信息及該用戶發(fā)表過的微博文本,并將關(guān)注用戶和粉絲用戶加入到用戶隊列中; 5104、重復(fù)S103直到達到所需的用戶規(guī)模。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在步驟S103中,所述用戶信息包括用戶名、認證類型、關(guān)注用戶和粉絲用戶。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟SI中,根據(jù)抓取的用戶信息中的認證類型,將用戶標注為個人用戶和機構(gòu)用戶兩種類型。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,采用分詞軟件ICTCLAS將標注好的微博文本進行分詞操作,并將所述經(jīng)過分詞操作的微博文本作為訓(xùn)練樣本。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S2是利用所述訓(xùn)練樣本及Mallet提供的貝葉斯工具包構(gòu)建貝葉斯分類器。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S3中,利用貝葉斯分類器對待測用戶進行分類的過程為: 對于某待測用戶,獲取該用戶發(fā)表的微博文本; 利用所述貝葉斯分類器,對用戶微博文本進行分類,得到分類結(jié)果。
8.一種基于微博文本的個人和機構(gòu)用戶分類系統(tǒng),其特征在于,包括用戶微博文本獲取模塊、用戶類別標注模塊、訓(xùn)練語料獲取模塊、分類器構(gòu)建模塊及待測用戶分類模塊,所述用戶微博文本獲取模塊連接用戶類別標注模塊,所述用戶類別標注模塊連接訓(xùn)練語料獲取模塊,所述訓(xùn)練語料獲取模塊連接分類器構(gòu)建模塊,所述分類器構(gòu)建模塊連接待測用戶分類模塊, 所述用戶微博文本獲取模塊,用于獲取用戶微博文本及認證類型等信息; 所述用戶類別標注模塊,用于對獲取的用戶進行極性標注,即將用戶標注為個人用戶和機構(gòu)用戶; 所述訓(xùn)練語料獲取模塊,用于獲取已標注類別的用戶的微博,并將其作為訓(xùn)練樣本; 所述分類器構(gòu)建模塊,用于利用所述已獲取的微博訓(xùn)練樣本構(gòu)建貝葉斯分類器; 所述待測用戶分類模塊,用于利用所述貝葉斯分類器對待測用戶進行分類。
【文檔編號】G06F17/30GK104199981SQ201410495083
【公開日】2014年12月10日 申請日期:2014年9月24日 優(yōu)先權(quán)日:2014年9月24日
【發(fā)明者】李壽山, 薛云霞, 周國棟, 王紅玲 申請人:蘇州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1