Hadoop環(huán)境中基于PageRank的網(wǎng)絡(luò)論壇中意見領(lǐng)袖識別優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明設(shè)及論壇的信息處理,具體地指一種化doop環(huán)境中基于化geRank的網(wǎng)絡(luò)論 壇中意見領(lǐng)袖識別優(yōu)化方法。
【背景技術(shù)】
[0002] BBS(Bulletin Board System,又名論壇)已經(jīng)成為了人們生活中必不可少的一種 發(fā)表自己言論、情緒和獲取信息的一種工具。身處改革開放經(jīng)濟(jì)高速發(fā)展、社會處于轉(zhuǎn)型期 的今天,特別是Web2.0時代巧臨,人人都是一個"自媒體",每個人都要求發(fā)表自己的觀點(diǎn), 有人甚至將自己的生活狀態(tài)中不滿情緒夾雜在言論中發(fā)表到網(wǎng)絡(luò),更有甚者,他們在網(wǎng)絡(luò) 中造謠,攻擊政府和人民,肆意煽動不明真相的人民,從"3.15打砸"到"中日有關(guān)釣魚島主 權(quán)的爭議"等社會熱點(diǎn)問題中初見端倪。因?yàn)榕c傳統(tǒng)的電視、報紙、廣播等媒介相比,BBS是 具備更強(qiáng)的開放性和互動性,用戶只要注冊一個BBS站點(diǎn)的ID就可W發(fā)表言論并參與討論, 還可W獲取多元化信息,而且還能在眾多用戶中找到自己的"知音"。由于用戶注冊的ID本 身具備一定的隱蔽性,正是因?yàn)檫\(yùn)種論壇審核技術(shù)的漏桐,用戶的言論才會大膽、直爽,也 能體現(xiàn)出用戶的真實(shí)觀點(diǎn)。
[0003] 信息網(wǎng)絡(luò)傳播的過程中,由于網(wǎng)絡(luò)的虛擬特征和開放的特點(diǎn),不管你是政府的工 作人員還是普通的網(wǎng)民,他們均可W在網(wǎng)絡(luò)上發(fā)表自己的言論。但是,對于不同的人發(fā)表的 信息在傳播的深度和廣度方面的影響就會不一樣,普通的網(wǎng)民的影響范圍僅僅在自己的朋 友圈之內(nèi)??墒且粋€社會的名人的一個言論的影響力就所能達(dá)到的影響范圍就不一定只是 他的好友圈了,它還會波及好友的朋友圈。運(yùn)里的名人可W看成社會中的意見領(lǐng)袖,互聯(lián)網(wǎng) 網(wǎng)絡(luò)其實(shí)跟社會網(wǎng)絡(luò)一樣,也存在著意見領(lǐng)袖,他們在網(wǎng)絡(luò)上能聚集一大波粉絲,具有很強(qiáng) 的影響力。因此,意見領(lǐng)袖作為一種社會輿論力量,在社會輿論的形成過程中扮演了十分重 要的角色,而且他們的部分意見可W推動輿論的演化方向,意見領(lǐng)袖的影響力能夠滲透到 現(xiàn)實(shí)社會中。
[0004] 在意見領(lǐng)袖的研究過程中,不少專家學(xué)者W及研究人員提出很多研究方法,但是 運(yùn)些算法存在著諸多不足。有些學(xué)者引入社會網(wǎng)絡(luò)學(xué)研究方法中的點(diǎn)度中屯、性、中間中屯、 性W及接近中屯、性等概念,然后根據(jù)節(jié)點(diǎn)中網(wǎng)絡(luò)中的位置計算運(yùn)些指標(biāo),依托運(yùn)些指標(biāo)值 找出意見領(lǐng)袖,運(yùn)種算法對于小型網(wǎng)絡(luò)效果還可W,當(dāng)網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)量達(dá)到一定的范圍,算 法效率受到很大影響,不適合做大型網(wǎng)絡(luò)的節(jié)點(diǎn)分析。還有些研究人員將用戶與用戶之間 互動的次數(shù)作為衡量用戶與用戶之間的關(guān)系強(qiáng)度的唯一標(biāo)準(zhǔn)。運(yùn)些做法都具有一些局限 性,容易對真實(shí)情況產(chǎn)生誤導(dǎo)。在研究網(wǎng)絡(luò)論壇的回復(fù)關(guān)系時,實(shí)際還存在著一種間接回復(fù) 關(guān)系,即B對A的帖子進(jìn)行了回復(fù),C對B的回復(fù)內(nèi)容進(jìn)行了再次回復(fù),按照傳統(tǒng)的研究算法,C 與A之間不存在任何聯(lián)系。但實(shí)際上,C的影響力通過回復(fù)鏈接可W傳遞給A,那么A和C之間 是存在著相關(guān)聯(lián)系。
[0005] 此外,隨著互聯(lián)網(wǎng)技術(shù)飛快發(fā)展,網(wǎng)絡(luò)規(guī)模是越來越大,網(wǎng)絡(luò)論壇中數(shù)據(jù)形式也是 越來越多樣化,傳統(tǒng)的處理技術(shù)已經(jīng)不能完全滿足運(yùn)種海量數(shù)據(jù)處理架構(gòu)。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明目的在于克服上述現(xiàn)有技術(shù)的不足而提供一種Hadoop環(huán)境中基于 化geRank的網(wǎng)絡(luò)論壇中意見領(lǐng)袖識別優(yōu)化方法,該方法依托A和C之間是存在著相關(guān)聯(lián)系, 找出論壇中的意見領(lǐng)袖。
[0007] 實(shí)現(xiàn)本發(fā)明目的采用的技術(shù)方案是一種化doop環(huán)境中基于化geRank的網(wǎng)絡(luò)論壇 中意見領(lǐng)袖識別優(yōu)化方法,該方法包括:
[0008] (1)根據(jù)帖子回復(fù)關(guān)系構(gòu)建回復(fù)關(guān)系網(wǎng)絡(luò)圖,并將影響力初始化為1;
[0009] (2)根據(jù)所述回復(fù)關(guān)系網(wǎng)絡(luò)圖,計算任意兩個節(jié)點(diǎn)之間距離相似度和兩個帖子之 間內(nèi)容相似度;
[0010] (2)根據(jù)步驟(2)的計算結(jié)果,計算兩個回帖的相似度;
[0011] (4)根據(jù)帖子相似度構(gòu)建概率轉(zhuǎn)移矩陣;
[0012] (5)計算每個節(jié)點(diǎn)UserRa址值;
[0013] (6)重復(fù)步驟(2)-巧),直到每個節(jié)點(diǎn)UserRank趨于穩(wěn)定,最大UserRank( j)的用戶 為意見領(lǐng)袖。
[0014] 本發(fā)明具有W下優(yōu)點(diǎn):
[0015] (1)現(xiàn)有的化geRank算法是對互聯(lián)網(wǎng)上的網(wǎng)頁給出了一個全局的重要性排序,然 而重要性與主題無關(guān),沒有區(qū)分頁面內(nèi)的導(dǎo)航鏈接、廣告鏈接和功能鏈接等非內(nèi)容鏈接,容 易對廣告頁面有過高評價。本發(fā)明方法是從用戶的角度回復(fù)內(nèi)容出發(fā),計算內(nèi)容相似度,提 升了最后生成的意見領(lǐng)袖正確率,誤報率降低了 12%,漏報率降低了 10%。
[0016] (2)現(xiàn)有化geRank算法的另一弊端是,舊的頁面等級往往會比新頁面高,因?yàn)樾马?面,即使是非常好的頁面,也不會有很多鏈接。本發(fā)明方法在構(gòu)建回復(fù)關(guān)系網(wǎng)絡(luò)圖中,任意 兩個節(jié)點(diǎn)之間的權(quán)值可能不一樣,運(yùn)個權(quán)值受回帖的情感傾向的影響,給予新的頁面更高 的權(quán)值,使得形成的轉(zhuǎn)移矩陣更加精確,最后實(shí)驗(yàn)時,實(shí)驗(yàn)結(jié)果中錯誤代價減少了 15%。
【附圖說明】
[0017] 圖1為本發(fā)明化doop環(huán)境中基于化geRank的網(wǎng)絡(luò)論壇中意見領(lǐng)袖識別優(yōu)化方法的 流程圖。
【具體實(shí)施方式】
[0018] 下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0019] 本發(fā)明提出了一種基于帖子發(fā)布的先后順序和內(nèi)容相似度的意見領(lǐng)袖識別的方 法,該方法在化geRank算法的基礎(chǔ)上進(jìn)行優(yōu)化,PageRank算法認(rèn)為在網(wǎng)絡(luò)中任意一個節(jié)點(diǎn) 跳轉(zhuǎn)到另外一個節(jié)點(diǎn)的概率大小相等,但是運(yùn)與BBS中回復(fù)關(guān)系網(wǎng)絡(luò)有所差異,網(wǎng)民瀏覽回 帖W及發(fā)表回帖都是根據(jù)自己的興趣愛好隨機(jī)進(jìn)行。因此本文重新定義了一個概率轉(zhuǎn)移矩 陣,該矩陣的每一個元素都受限于影響力的強(qiáng)度,并將該方法部署到化doop平臺。
[0020] 本發(fā)明提出基于化geRank的網(wǎng)絡(luò)論壇中意見領(lǐng)袖識別優(yōu)化方法,是W化geRank算 法為基礎(chǔ)并結(jié)合用戶之間的回復(fù)關(guān)系提出來的具體包括W下步驟:
[0021] SlOO、根據(jù)關(guān)系構(gòu)建回復(fù)關(guān)系網(wǎng)絡(luò)圖模型,并將影響力初始化為1。
[0022] 在BBS論壇中存在上千上萬甚至百萬級的用戶,根據(jù)他們的回復(fù)關(guān)系構(gòu)建一個帖 子的回復(fù)關(guān)系圖G(V,E,W),圖是由頂點(diǎn)和邊組成,其中,V表示頂點(diǎn)的集合,表示用戶發(fā)表的 帖子。E表示連接兩個不同頂點(diǎn)集合的集合,表示用戶之間的互動關(guān)系,信息傳播流向是有 方向的,由回帖人指向發(fā)帖人。W表示兩個節(jié)點(diǎn)之間傳播信息的強(qiáng)度。信息傳播網(wǎng)絡(luò)圖的構(gòu) 建規(guī)則如下:
[0023] (1)-個帖子文本內(nèi)容代表一個節(jié)點(diǎn);
[0024] (2)若用戶i對用戶j的帖子進(jìn)行了回復(fù),那么節(jié)點(diǎn)j和節(jié)點(diǎn)i之間將建立一條由j指 向i的線;
[0025] S200、根據(jù)回復(fù)關(guān)系網(wǎng)絡(luò)圖,計算任意兩個節(jié)點(diǎn)之間距離相似度和兩個帖子之間 內(nèi)容相似度。
[0026] 間接回復(fù)關(guān)系指的是兩個評論之間的相識度,本專利認(rèn)為回帖人如果對發(fā)帖人保 持積極的評價時,那么他的評論在語義上會與帖子內(nèi)容保持高度的一致。因此,本發(fā)明認(rèn)為 回帖和原帖內(nèi)容的相似度決定了回帖人對發(fā)帖人的影響力的強(qiáng)度。間接鏈接的影響力不但 由回帖的內(nèi)容決定,還取決于回帖發(fā)表的先后關(guān)系,在BBS中用戶發(fā)表一個帖子,他可W立 即查收到回帖信息,一個立馬就收到的回帖的影響力要大于一天之后收到的回帖的影響 力。因?yàn)橄仁盏降幕靥麜鸢l(fā)帖人的注意,運(yùn)也從側(cè)面說明了一個問題:最往后發(fā)表回帖 會降低回帖影響力,同樣也減少了其他網(wǎng)民討論該帖子的機(jī)會。
[0027] 本發(fā)明首先使用空間向量模型VSM來表示帖子和回帖如公式(1)所示。
[002引
Π )
[0029] 其中,word康示pj的關(guān)鍵字,W康示特征詞wordi的權(quán)重。
[0030] 兩個帖子內(nèi)容相似度采用表示它們的空間向量的余弦距離表示,則帖子的內(nèi)容相 似度計算方法如公式(2)所示。
[00 川
(·2) 其中,II pj II表不pj的長度,即模的大小。
[0032] 節(jié)點(diǎn)A和B之間的距離越短,那么B對A的影響力就越大。如何將運(yùn)個熟悉的規(guī)律反 應(yīng)到帖子回復(fù)關(guān)系網(wǎng)絡(luò)中呢?我們可W用兩個節(jié)點(diǎn)在關(guān)系網(wǎng)絡(luò)中的邏輯距離來Dis(pi,pj) 表示,其中Dis(pi,pj)計算公式如(3)所示。
[0033] Dis((pi,pj))=xl(Pi'Pj)l (3)
[0034] 其中,x(0<x< 1)為距離相關(guān)系數(shù),|(pi,pj)|表示回復(fù)網(wǎng)絡(luò)圖中的兩個點(diǎn)Pi