亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于矩陣分解對在線論壇用戶影響力進行計算的方法

文檔序號:6603697閱讀:541來源:國知局
專利名稱:一種基于矩陣分解對在線論壇用戶影響力進行計算的方法
技術領域
本發(fā)明涉及一種對在線論壇用戶影響力進行計算和排名的方法,屬于對互聯(lián)網信息進行自動采集和處理的技術。
背景技術
隨著互聯(lián)網用戶的不斷增加,以及各類在線論壇的發(fā)展等,用戶在在線論壇上的各種討論話題也愈加深入和廣泛,因此針對在線論壇的用戶進行影響力的計算和排名具有潛在的科研和商業(yè)價值。特別的,擁有幾萬乃至幾十萬用戶的在線論壇并不鮮見,因此只有基于計算機程序的計算方法才具備實用意義。

發(fā)明內容
本發(fā)明要解決的問題是對在線論壇上每個用戶的觀點影響到他人的可能性(簡稱為影響力)進行自動計算和排名?,F(xiàn)有評價用戶在論壇上影響力的方法是依據(jù)兩項簡單和直觀的數(shù)據(jù)1.發(fā)表文章數(shù);2.文章點擊率。文章發(fā)表數(shù)和文章點擊率這兩項數(shù)據(jù)可以從論壇的數(shù)據(jù)庫中直接獲取,但是用于評價用戶影響力有很大的局限和漏洞。譬如1. 一些用戶雖然發(fā)表的文章總數(shù)不多,但是因為文章質量很高,能吸引很多其他用戶參與討論;因此盡管這類用戶的文章發(fā)表總數(shù)或者點擊率都未必非常高,但是實際上他們很大程度上是可能利用自己的觀點影響其他用戶的;2.在現(xiàn)實中,一些個人或者商業(yè)機構會大量發(fā)表各類廣告貼來提高文章發(fā)表數(shù), 或者通過人為或自動的方式來不斷打開自己發(fā)表的文章(俗稱“刷貼”)來提高自己的文章點擊率;這些用戶雖然有很高的文章發(fā)表數(shù)或者點擊率,但是他們實際上對論壇上其他用戶的影響力是很小的。因此簡單的采用這兩個數(shù)據(jù)是不能夠準確反映用戶的實際影響力的,同時無法避免被一些惡意行為所干擾影響結果。為了解決上述問題,本發(fā)明的一個實施例提供了一種對在線論壇上用戶的影響力進行計算和排名的方法,方法所獲得的影響力取決于三個主要因素1.參與某用戶發(fā)起主題(即通過回帖)的用戶數(shù)量;2.每個參與用戶的回復數(shù)量;3.參與用戶他們本身的影響力。綜合考慮了這三個因素來計算影響力的方法具備兩大優(yōu)點1.更加準確。假設用戶A,和B是具有影響力的用戶,那么如果A和B經常積極參與用戶C發(fā)起的主題討論,那么我們可以推斷用戶C也是具有影響力的,因為他的觀點可能影響到A和B,從而進一步影響到參與A和B發(fā)起主題討論的其他用戶。2.不易被偽造。大量的廣告貼不太可能引起論壇上正常用戶的參與討論,更加不容易引起真正有影響力的用戶來參與討論。而刷屏所帶來的單純點擊率的提升,也不會納入影響力的計算。我們會首先采集特定論壇的數(shù)據(jù),再通過基于矩陣的數(shù)學模型來描述這三個因素,最后通過特征向量分解的算法來得到對每個用戶的影響力的評價。本方法主要由五個子模塊組成第一模塊,論壇數(shù)據(jù)采集。針對論壇,可以編寫相應的正則表達式來解析主題和回復文章的作者,內容。在這個過程中,會同時對所有發(fā)表過文章的用戶進行編號,保證每個用戶有一個唯一對應的編號。并且將主題文章內容和主題文章作者編號,回復文章作者編號保存進數(shù)據(jù)表。第二模塊,針對特定關鍵字進行主題過濾,通過這一步驟,可以對不同話題領域內用戶的影響力進行評估;特別的,也可以略過此步驟,則代表不限話題而在一般意義上對用戶影響力進行評估。第三模塊,根據(jù)用戶間回復關系,生成用戶的鄰接矩陣。鄰接矩陣的每一行和每一列,都對應一個用戶,其用戶編號和行號或者列號相同;鄰接矩陣的每個元素,代表列對應用戶在行對應用戶的主題文章中回復的數(shù)量。第四模塊,對用戶鄰接矩陣進行特征值分解,找到對應最大特征值的特征向量,特征向量的每一個元素對應一個用戶,其下標對應用戶編號,值為對應用戶的影響力數(shù)值。第五模塊,將主特征向量按其值進行從大到小排序,即可得到用戶的影響力排名。下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。


圖1為一個典型的在線論壇主題列表頁面;圖2為一個典型的在線論壇主題文章頁面;圖3論壇主題列表,主題文章和回復文章的樹形結構表示;圖4為用戶間回復關系和鄰接矩陣的示意圖。
具體實施例方式實施例1本實施例提供了一種網絡文檔信息處理方法,包括步驟101,從在線論壇上采集文檔典型的論壇通常都由以下兩個主要元素組成1主題文章列表頁面(見圖幻,其上包含主題文章鏈接通往主題文章頁面,以及翻頁鏈接通往下一個主題文章列表頁面;2主題文章頁面(見圖幻由一系列文章內容組成,包括處于位置頂端的主題文章, 以及以下的回復文章。每一篇文章包含標題(回復文章可能不包含標題),內容,作者,發(fā)表時間。由此可推導,論壇上主題文章列表,主貼文章頁面,以及回復文章可以被表達為一個樹形結構(見圖3),論壇首頁的url是根節(jié)點,每一個主題列表頁面的url是第一級子節(jié)點,每一個主題首頁是第二級子節(jié)點,每一個主題分頁是第三級子節(jié)點,每一篇文章是第四級子節(jié)點。可以通過深度優(yōu)先遍歷樹的算法編寫抓取程序,數(shù)據(jù)結果存放在三張數(shù)據(jù)表中。存放用戶信息的數(shù)據(jù)表T_USERID 主題編號,從0開始按照步進1增長NAME 用戶昵稱存放主題文章的數(shù)據(jù)表T_T0PICID主題編號,從0開始按照步進1增長USER_ID主題作者用戶編號CONTENT 主題內容存放回復文章的數(shù)據(jù)表!^!^卩!^ID主題編號,從0開始按照步進1增長T0PIC_ID 回復文章所針對的主題編號USER_ID 回復作者用戶編號抓取邏輯偽碼如下function collection() {當前主題列表頁面url =論壇首頁urlWhile當前主題列表頁面url上有內容{利用正則表達式解析當前主題列表頁面內容,得到所有主題文章頁面
url ;對于每一個主題文章url {解析主題文章標題,內容,作者; 根據(jù)作者名稱檢查數(shù)據(jù)庫表T_USER中是否存在主題作者,否則存入; 取得回復作者編號; 將當前主題文章編號,回復文章作者編號存入T_REPLY表 解析所有回復文章; 對于每一篇回復文章{ 解析回復文章作者;取得主題作者編號;根據(jù)作者名稱檢查數(shù)據(jù)庫表T_USER中是否存在回復作者,否
則存入 將主題作者編號,主題文章標題,內容存入T_T0PIC表;} }用正則解析下一頁主題頁面列表url ;當前主題列表頁面url =下一頁主題頁面列表url ; } }
關于樹的遍歷算法,可進一步參考《數(shù)據(jù)結構C語言版》(清華大學出版社ISBN: 9787302023685)程序中所使用的正則表達式是在文本中根據(jù)特定模板解析出內容的計算機編程常用技術,可進一步參看《精通正則表達式第3版》(電子工業(yè)出版社出版,ISBN: 9787121046841)步驟102,領域關鍵字過濾如果希望計算用戶在某個特定領域的影響力,則可以預先設定一組領域關鍵字, 對主題文章內容進行匹配,如果任意一個關鍵字在主題文章內容中匹配成功,則保留該篇文章;如果沒有任何關鍵字匹配成功,則該主題文章以及所有對應的回復文章都刪除,不納入后續(xù)分析。關鍵字匹配所使用的字符串查找匹配技術是計算機程序編寫的基本技術,主流計算機語言都有現(xiàn)成的支持,比如C語言中的strstr方法,Java語言中Mring類的karch 方法。需要說明的是,本步驟102可以跳過不執(zhí)行,這表明所有的主題文章都會納入后續(xù)分析,不限領域。步驟103,生成用戶鄰接矩陣在論壇上的用戶之間關系可以用一個有向無環(huán)圖來表示(圖三),每一個節(jié)點代表一個用戶,節(jié)點A指向節(jié)點B的有向邊代表用戶A曾經回復過用戶B的主題文章,邊的權重為A回復B的回復文章數(shù)。用戶自我回復的文章不納入處理。根據(jù)數(shù)據(jù)結構的理論,一個有向無環(huán)圖可以被鄰接矩陣表示。有向圖鄰接矩陣中第i行第j列的元素,表示第編號為j的用戶曾經回復編號為 i的用戶的回復文章數(shù)。
權利要求
1.一種分析在線論壇用戶發(fā)表的文章以及相互間回復關系,對用戶對其他用戶的影響程度(簡稱影響力)進行計算和排名的方法,其特征在于具有采集論壇上的文章內容以及文章的作者用戶名;對用戶進行唯一編號;記錄用戶之間的回復關系;根據(jù)用戶間回復關系建立鄰接矩陣;對鄰接矩陣進行特征向量分解, 求得最大特征向量,其中每個元素對應相應編號用戶的影響力數(shù)值;對用戶按照各自影響力數(shù)值進行排名。
2.根據(jù)權利要求1所述的對在線論壇用戶影響力進行計算和排名的方法,其特征在于在建立鄰接矩陣之前,可以根據(jù)給定的領域關鍵字對文章進行篩選,從而可以計算特定領域內的用戶影響力;此步驟如果略過,則計算一般意義上跨領域的用戶影響力。
3.根據(jù)權利要求1所述的對在線論壇用戶影響力進行計算和排名的方法,其特征在于在對鄰接矩陣A進行特征向量分解時,使用基于修正Gramlchmidt方法的QR算法來迭代鄰接矩陣,直到其收斂得到一個上三角陣A',其對角線為特征值;同時在迭代過程中獲得R矩陣的累計乘積S的每一個列向量為A'矩陣相同列上特征值所對應的特征向量;最大特征值對應的特征向量為鄰接矩陣A的主特征向量,其中每個元素對應相應編號用戶的影響力。
4.根據(jù)權利要求3所述的對在線論壇用戶影響力進行計算和排名的方法,其特征在于在取得鄰接矩陣A的主特征向量后,其每個元素的值是編號為相應相應下標的用戶的影響力指數(shù),對用戶的影響力指數(shù)進行從大到小排序,即可得到他們的影響力排名。
全文摘要
本發(fā)明涉及一種利用計算機基于矩陣特征向量分解對互聯(lián)網論壇(BBS)中用戶的影響力進行自動計算和排名的方法,其中包括采集論壇文章信息,包括每個對話的主題作者和回帖作者,對用戶進行編號;按照領域關鍵字對主題文章內容進行篩選;根據(jù)回復的關系將文章用戶進行關聯(lián),構成有向無環(huán)圖,進一步表示成一個鄰接矩陣;對該鄰接矩陣進行特征向量分解,得到主特征向量,向量每一個元素的值為編號為對應下標的用戶的影響力數(shù)值;對用戶的影響力數(shù)值進行排序,即可得到用戶影響力的排名。通過本發(fā)明,可以對論壇上的用戶在一般意義上或者特定領域上的影響力進行計算和排名,能夠更加準確的反映每個用戶的觀點影響到其他用戶的可能性,同時結果不會被各類廣告貼或者惡意頻繁點擊等行為干擾。
文檔編號G06F17/30GK102270204SQ20101019384
公開日2011年12月7日 申請日期2010年6月2日 優(yōu)先權日2010年6月2日
發(fā)明者王捷 申請人:上海佳艾商務信息咨詢有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1