專利名稱:微博媒體中的意見領(lǐng)袖識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種微博媒體中的意見領(lǐng)袖識(shí)別方法。
背景技術(shù):
進(jìn)入20世紀(jì),WEB2.0的發(fā)展促生了大量的網(wǎng)絡(luò)社區(qū)和微博這一新生代的信息交流平臺(tái),人們可以在不同社區(qū)和微博平臺(tái)內(nèi)交流信息和傳播思想。在網(wǎng)絡(luò)社區(qū)中同樣存在領(lǐng)域意見領(lǐng)袖,這些意見領(lǐng)袖在某種程度上影響著人們的購買行為、政治觀點(diǎn)。很多人開始研究信息傳播最大化問題,也就是如何從社會(huì)網(wǎng)絡(luò)中選取一部分個(gè)體進(jìn)行信息傳播,以最大化信息的傳播。意見領(lǐng)袖在信息傳播和在市場營銷等等其他各個(gè)方面的應(yīng)用有很大的影響。越來越多的人想從意見領(lǐng)袖角度去影響和促進(jìn)信息的傳播和擴(kuò)大某一方面的或某一信息的影響力。在目前網(wǎng)絡(luò),一方面微博大部分采用實(shí)名認(rèn)證機(jī)制,可以對意見領(lǐng)袖的特征進(jìn)行分析;另一方面微博海量的數(shù)據(jù)為我們的研究提供了真實(shí)的歷史數(shù)據(jù),這些數(shù)據(jù)包括用戶的個(gè)人信息以及用戶在微博中的交互記錄,這些海量的數(shù)據(jù)以及用戶的資料是研究的一個(gè)重要的信息依據(jù)。目前主要的一些識(shí)別技術(shù)對微博用戶影響力進(jìn)行了定義,不同的研究思路有不同衡量標(biāo)準(zhǔn),有的使用粉絲數(shù)量和微博轉(zhuǎn)發(fā)數(shù)量對用戶影響力進(jìn)行了衡量,結(jié)果表明粉絲數(shù)量多的用戶微博不一定會(huì)得到很多的轉(zhuǎn)發(fā)或者評(píng)論,有的是給定一個(gè)主題,用戶的影響力定義為他的所有粉絲的影響力之和,還有一部分和本發(fā)明比較相近的是以入度、轉(zhuǎn)發(fā)數(shù)、提及數(shù)三項(xiàng)為影響力標(biāo)準(zhǔn)現(xiàn)有技術(shù)的缺點(diǎn)如下:I)在統(tǒng)計(jì)微博用戶信息數(shù)據(jù)的時(shí)候,沒有針對微博用戶的發(fā)表的言論的時(shí)間做深入的分析,但其發(fā)文頻率也是評(píng)價(jià)一個(gè)用戶的活躍度的標(biāo)準(zhǔn),活躍度也是意見領(lǐng)袖識(shí)別的一個(gè)重要因素,因而影響了識(shí)別的可靠性。2)在以轉(zhuǎn)發(fā)、提及數(shù)為標(biāo)準(zhǔn)的時(shí)候,將所有的評(píng)論信息都當(dāng)作單一的信息對象處理,這樣極大的混淆了信息的質(zhì)量。意見領(lǐng)袖的影響力從客觀的角度是可分成兩方面的,一種是積極的正面影響,另一種是消極的負(fù)面影響。研究評(píng)論應(yīng)該深入的分析評(píng)論的正負(fù)性以判斷其可靠性和其影響趨勢。如果未能全面的處理將影響意見領(lǐng)袖的判斷。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種從微博中準(zhǔn)確完善的分析用戶并快速準(zhǔn)確的找出意見領(lǐng)袖的識(shí)別方法。為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是:微博媒體中的意見領(lǐng)袖識(shí)別方法,包括以下步驟:一、網(wǎng)絡(luò)意見收集:網(wǎng)絡(luò)意見的收集是通過微博平臺(tái)用戶發(fā)表的言論,通過網(wǎng)絡(luò)的合法的收集下載,下載大量的微博發(fā)文及其評(píng)論信息,并針對相關(guān)的話題比較活躍的進(jìn)行跟蹤的下載,將所有的發(fā)文按照用戶分類進(jìn)行抽取、統(tǒng)計(jì)以提供各方面的分析;二、標(biāo)準(zhǔn)樣本庫標(biāo)注選取一段時(shí)間內(nèi),有發(fā)言的微博作者,由相關(guān)的意見領(lǐng)袖識(shí)別專家對該作者進(jìn)行手工標(biāo)注,給出是否為意見領(lǐng)袖的判定,并從中選取一定量的微博作者放入標(biāo)準(zhǔn)樣本數(shù)據(jù)庫;該樣本數(shù)據(jù)將作為后續(xù)意見領(lǐng)袖判定的標(biāo)注樣本集合;具體選取方法和選取數(shù)量請見具體實(shí)施方式
;三、意見個(gè)體活躍度:I)個(gè)體活躍度由三個(gè)方面構(gòu)成,包括,某一段相關(guān)話題比較活躍的時(shí)間內(nèi),該作者平均每天發(fā)表的原創(chuàng)帖子數(shù)量記為vOTg,每天轉(zhuǎn)發(fā)的帖子數(shù)量,記為VfOT,每天評(píng)論的帖子數(shù)量記為Vm,可以定義下述公式將該指標(biāo)量化;L = WorgVorg+ffforVfor+ffremVrem (I)在(I)式中,Worg為原創(chuàng)帖子所占的活躍度權(quán)重,Wfor為轉(zhuǎn)發(fā)帖子所占的活躍度權(quán)重,WM為評(píng)論帖子所占的活躍度權(quán)重;為了防止具有較大初始值的屬性與具有較小初始值的屬性相比,權(quán)重過大,需要先將上述三種帖子數(shù)量進(jìn)行規(guī)范化后再代入公式進(jìn)行計(jì)算;規(guī)范化和參數(shù)確定具體方法請見具體實(shí)施方式
;四、意見個(gè)體受關(guān)注度:如果意見個(gè)體所發(fā)的微博受關(guān)注程度越高,則越可能是意見領(lǐng)袖,為此定義平均轉(zhuǎn)發(fā)數(shù)、平均瀏覽數(shù)、平均評(píng)論數(shù)三種指標(biāo)如下;I)平均轉(zhuǎn)發(fā)數(shù)M = Tt/N,其中:N為發(fā)文量,Tt為所有發(fā)文轉(zhuǎn)發(fā)總數(shù);2)平均瀏覽數(shù)S = Tc/N,其中:N發(fā)文量,Tc為所有發(fā)文瀏覽數(shù)的總數(shù);3)平均評(píng)論數(shù)P = Td/N,其中:N發(fā)文量,Td為所有發(fā)文評(píng)論數(shù)的總數(shù);4)平均轉(zhuǎn)發(fā)數(shù)的權(quán)重比為Wm,平均瀏覽數(shù)的權(quán)重比為Ws,平均評(píng)論數(shù)的權(quán)重比為Wp ;意見個(gè)體受關(guān)注度C = M*Wm+S*Ws+P*Wp (2)各個(gè)數(shù)量在代入(2)式計(jì)算時(shí)同樣需要做歸一化處理,權(quán)重取值和歸一化處理方法詳見具體實(shí)施方式
;五、意見個(gè)體發(fā)文認(rèn)同度:對于某個(gè)主題或領(lǐng)域的意見領(lǐng)袖,其發(fā)表的微博觀點(diǎn)往往會(huì)得到多數(shù)人的認(rèn)同,
定義意見發(fā)文認(rèn)同度指標(biāo),
權(quán)利要求
1.微博媒體中的意見領(lǐng)袖識(shí)別方法,包括以下步驟: 一、網(wǎng)絡(luò)意見收集: 網(wǎng)絡(luò)意見的收集是通過微博平臺(tái)用戶發(fā)表的言論,通過網(wǎng)絡(luò)的合法的收集下載,下載大量的微博發(fā)文及其評(píng)論信息,并針對相關(guān)的話題比較活躍的進(jìn)行跟蹤的下載,將所有的發(fā)文按照用戶分類進(jìn)行抽取、統(tǒng)計(jì)以提供各方面的分析; 二、標(biāo)準(zhǔn)樣本庫標(biāo)注: 選取一段時(shí)間內(nèi),有發(fā)言的微博作者,由相關(guān)的意見領(lǐng)袖識(shí)別專家對該作者進(jìn)行手工標(biāo)注,給出是否為網(wǎng)絡(luò)水軍的判定,并從中選取一定量的微博作者放入標(biāo)準(zhǔn)樣本數(shù)據(jù)庫;該樣本數(shù)據(jù)將作為后續(xù)意見領(lǐng)袖判定的標(biāo)注樣本集合; 三、意見個(gè)體活躍度: I)個(gè)體活躍度由三個(gè)方面構(gòu)成,包括,在某一段相關(guān)話題比較活躍的時(shí)間內(nèi),該作者平均每天發(fā)表的原創(chuàng)帖子數(shù)量記為VOTg,每天轉(zhuǎn)發(fā)的帖子數(shù)量記為VfOT,每天評(píng)論的帖子數(shù)量記為Vm,可以定義下述公式將該指標(biāo)量化;
全文摘要
本發(fā)明公開了一種微博媒體中的意見領(lǐng)袖識(shí)別方法,包括網(wǎng)絡(luò)意見收集,標(biāo)準(zhǔn)樣本庫標(biāo)注,意見個(gè)體活躍度的分析,意見個(gè)體受關(guān)注度的分析,意見個(gè)體發(fā)文認(rèn)同度的分析,意見領(lǐng)袖的分析和識(shí)別等六個(gè)步驟。本發(fā)明通過收集網(wǎng)絡(luò)意見,對其進(jìn)行意見個(gè)體活躍度、意見個(gè)體關(guān)注度、意見個(gè)體認(rèn)同度三個(gè)方面的分析計(jì)算,以此為基礎(chǔ)進(jìn)行意見領(lǐng)袖的綜合分析和識(shí)別。
文檔編號(hào)G06F17/30GK103150333SQ20131003239
公開日2013年6月12日 申請日期2013年1月26日 優(yōu)先權(quán)日2013年1月26日
發(fā)明者鄭中華, 高威, 帥志虎, 周銀行 申請人:安徽博約信息科技有限責(zé)任公司