亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法

文檔序號:6367648閱讀:126來源:國知局
專利名稱:基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法
技術(shù)領(lǐng)域
本發(fā)明屬于海量信息數(shù)據(jù)管理技術(shù)領(lǐng)域,具體涉及一種基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法。
背景技術(shù)
近年來,社交網(wǎng)絡(luò)實(shí)體、信息抽取越來越受到學(xué)術(shù)界關(guān)注。從技術(shù)層面來分析,社交網(wǎng)絡(luò)信息抽取技術(shù)的核心在于實(shí)體抽取和社交關(guān)系抽取,而現(xiàn)有社交網(wǎng)絡(luò)抽取的研究大多側(cè)重于關(guān)系抽取的研究?,F(xiàn)有方法抽取社交關(guān)系的基本思想是將兩個實(shí)體共同出現(xiàn)在網(wǎng)頁中的數(shù)量作為衡量實(shí)體之間關(guān)系強(qiáng)弱的度量。盡管國內(nèi)外眾多學(xué)者已針對基于Web環(huán)境下的社交網(wǎng)絡(luò)實(shí)體以及關(guān)系抽取做了大量的研究工作,大規(guī)模社交網(wǎng)絡(luò)信息抽取任務(wù)對海量計(jì)算所提出的巨大挑戰(zhàn)仍未得到有效解決。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種從網(wǎng)絡(luò)數(shù)據(jù)源中抽取海量實(shí)體時進(jìn)行海量計(jì)算的基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法。本發(fā)明的技術(shù)解決方案是一種基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法,其特征是包括下列步驟(I)首先預(yù)處理新聞?wù)搲W(wǎng)站,抽取其新聞-用戶關(guān)系網(wǎng)絡(luò),使用新聞-用戶列表的元組將新聞-用戶關(guān)系網(wǎng)絡(luò)以文件的形式進(jìn)行存儲,其中每個元組包含了某個新聞及其相關(guān)用戶列表;(2)以步驟(I)新聞-用戶列表元組文件作為輸入,通過兩輪Map/Reduce分布式計(jì)算,當(dāng)用戶調(diào)用程序Map/Reduce函數(shù),要實(shí)現(xiàn)對每個用戶累積評論的新聞數(shù)量統(tǒng)計(jì)的大型文檔文件,通過基于分布式計(jì)算的Map/Reduce來實(shí)現(xiàn)社交網(wǎng)絡(luò)中各個用戶新聞評論的次數(shù)信息抽取,這里的Map操作任務(wù)是對需要處理的那部分?jǐn)?shù)據(jù)的文件進(jìn)行設(shè)置,其輸入?yún)?shù)為〈起始位置,數(shù)據(jù)長度 >,當(dāng)執(zhí)行Map后所輸出的系列中間結(jié)果表示為〈用戶名,評論次數(shù) >,最終輸出每個用戶新聞評論次數(shù)的結(jié)果,還需要Reduce函數(shù)對其中間結(jié)果進(jìn)行操作處理,最后累加相同的用戶所評論新聞的次數(shù)。分別計(jì)算出每個實(shí)體用戶相關(guān)的新聞數(shù)量以及每對用戶之間共同評論的新聞數(shù)量,并分別以相應(yīng)的元組形式儲存為中間結(jié)果文件;(3)以步驟⑵求出的兩個中間結(jié)果文件每個用戶累積評論的數(shù)量文件以及每個用戶對之間共同評論的數(shù)量文件,構(gòu)造用戶新聞表以及用戶新聞共同評論表,掃描這兩張表來得到|N(u) U N(v) I的值,由此根據(jù)Jaccard系數(shù)公式計(jì)算最終的關(guān)系強(qiáng)度;其中新聞-用戶關(guān)系網(wǎng)絡(luò)是由新聞集合(V1)和用戶集合(V2)構(gòu)成的二部網(wǎng)絡(luò),用G(V7E)表示,其中 V = V1 U %,£。/1></2,且對于任意6(1^) e Ejftu e V1 且 v e V2 ;用α (U,V)來表示兩個用戶U,V之間的共同興趣強(qiáng)度,a (u, v)定義為
a (u, V) = IN (U) Π N (ν) | / | N (u) U N (ν)其中,其中N(U)表示點(diǎn)u在新聞-用戶關(guān)系網(wǎng)絡(luò)G中鄰居的數(shù)量。步驟(I)所述預(yù)處理的步驟如下(I)使用網(wǎng)絡(luò)爬蟲程序爬取新聞評論網(wǎng)站的數(shù)據(jù);
(2)通過分析HTML源碼,發(fā)現(xiàn)頁面模式規(guī)律;(3)利用模式設(shè)計(jì)正則表達(dá)式,并利用所設(shè)計(jì)的正則表達(dá)式匹配并識別爬取數(shù)據(jù)中的用戶與新聞;(4)將數(shù)據(jù)存入到新聞-用戶關(guān)系元組列表文件中,作為中間文件進(jìn)行存儲,在文件中,將同一個新聞回復(fù)的所有用戶名存放在一行。步驟(3)所述Map/Reduce分布式計(jì)算過程的步驟如下(I)在第一輪Map/Reduce中,映射函數(shù)Map的輸入鍵值對為〈行數(shù),每行的字符串>,輸出的鍵值對為〈用戶,1>,化簡函數(shù)Reduce以用戶名為key,用戶回復(fù)帖子為value的數(shù)組作為輸入,統(tǒng)計(jì)數(shù)組長度得出回復(fù)帖子數(shù),對相同的鍵值用戶進(jìn)行合并,處理后的輸出鍵值對中,用戶名為鍵,該用戶回復(fù)帖子數(shù)為值;其實(shí)現(xiàn)基于Map/Reduce操作過程如下首先對輸入的大型文檔文件進(jìn)行分割Split,由系統(tǒng)Master來自動完成把文件中的文本內(nèi)容分成若干組;利用編好的Map函數(shù),對文件分割輸出后每一對鍵/值對〈key,value)進(jìn)行處理,輸出新的中間結(jié)果鍵/值對〈key,value)值;執(zhí)行Map任務(wù)的輸出中間結(jié)果,系統(tǒng)對中間結(jié)果進(jìn)行分析合并及自動對用戶進(jìn)行排序輸出;在對中間結(jié)果進(jìn)行排序后,執(zhí)行Reduce任務(wù)完成歸約的操作,最后統(tǒng)計(jì)輸出每個用戶對新聞評論的次數(shù);(2)在第二輪Map/Reduce中,映射函數(shù)Map的輸入鍵值對為〈行數(shù),每行的字符串>,處理后輸出鍵值對中,鍵為兩個用戶名的連接,值為I ;函數(shù)Reduce以兩個用戶名的連接為key,value為兩個用戶共同回復(fù)帖子的數(shù)組作為輸入,統(tǒng)計(jì)數(shù)組長度得到共同回復(fù)帖子數(shù);在處理后的輸出鍵值對中,鍵為兩個用戶名的連接,值為共同回復(fù)帖子數(shù)。所述新聞-用戶關(guān)系網(wǎng)絡(luò)的構(gòu)造的具體步驟如下(I)由中間結(jié)果文件每個用戶累積評論的新聞數(shù)量文件以及每個用戶對之間共同評論的新聞數(shù)量文件構(gòu)造數(shù)據(jù)表,并對兩張數(shù)據(jù)表按照用戶名序列進(jìn)行排序;(2)將第一張較小的表全部載入內(nèi)存,得到當(dāng)前用戶點(diǎn)對(U,ν)每個用戶單獨(dú)的回復(fù)數(shù);(3)按序讀取第二張表中相應(yīng)用戶對共同評論信息;(4)計(jì)算|N(U) U N(v) I的值,并按照J(rèn)accard系數(shù)公式計(jì)算最終的關(guān)系強(qiáng)度。本發(fā)明是針對從網(wǎng)絡(luò)數(shù)據(jù)源中抽取海量實(shí)體時需要進(jìn)行海量計(jì)算的問題,提出一種基于分布式計(jì)算框架的社交網(wǎng)絡(luò)信息抽取方法,得到較好擴(kuò)展性和伸縮性,并且該方法能夠進(jìn)一步應(yīng)用于其它類型的大規(guī)模社交網(wǎng)絡(luò)信息抽取。


下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明。圖I是本發(fā)明基于分布式計(jì)算的Map/Reduce信息抽取示意圖。圖2是分割過程示意圖。圖3是Map執(zhí)行過程示意圖。
圖4是Fo Id執(zhí)行過程示意圖。圖5是Reduce執(zhí)行過程示意圖。
具體實(shí)施例方式給出如下形式化定義定義I :新聞-用戶關(guān)系網(wǎng)絡(luò)。是由新聞集合(V1)和用戶集合(V2)構(gòu)成的二部網(wǎng)絡(luò),用G(V,E)表示,其中V = V1 U V2,fg\Ax/2,且對于任意e(u,v) e E,者有u e V1且ν e V2。定義2:用戶共同興趣強(qiáng)度。對于給定的用戶點(diǎn)對(U,V),我們用α (U,V)來表示兩個用戶u, ν之間的共同興趣強(qiáng)度。a (U, V)可以定義為a (U, ν)=
n(u) η Ν(ν) I/|n(u) u n(v)其中,其中N(U)表示點(diǎn)u在新聞-用戶關(guān)系網(wǎng)絡(luò)G中鄰居的數(shù)量。顯然對于每一對(U,V),可以定義相應(yīng)的用戶共同興趣強(qiáng)度a (U,V)。用戶共同興趣強(qiáng)度表達(dá)了兩個用戶之間興趣相似的程度。定義3 :用戶共同興趣網(wǎng)絡(luò)。用有權(quán)無向圖G(V,E,W)來表示。其中V是節(jié)點(diǎn)集合,每一個節(jié)點(diǎn)代表了新聞-用戶網(wǎng)絡(luò)中的某個用戶。任意的e(u,V) eE表示用戶u,v有著共同的興趣。W是邊集上的權(quán)重函數(shù)在本文中,對于任意邊e(U,V),W(e)定義為用戶點(diǎn)對(U,ν)之間的共同興趣強(qiáng)度。問題定義(構(gòu)建共同興趣網(wǎng)絡(luò))給定一個二部圖新聞-用戶網(wǎng)絡(luò),構(gòu)建共同興趣網(wǎng)絡(luò)。輸入新聞-用戶網(wǎng)絡(luò)G(V,E),其中V = V1 U V2,V1為新聞集合,V2為用戶集合。輸出共同興趣網(wǎng)絡(luò)。一種基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法,其特征是包括下列步 驟(I)首先預(yù)處理新聞?wù)搲W(wǎng)站,抽取其新聞-用戶關(guān)系網(wǎng)絡(luò),使用新聞-用戶列表的元組將新聞-用戶關(guān)系網(wǎng)絡(luò)以文件的形式進(jìn)行存儲,其中每個元組包含了某個新聞及其相關(guān)用戶列表;(2)以步驟(I)新聞-用戶列表元組文件作為輸入,通過兩輪Map/Reduce分布式計(jì)算,當(dāng)用戶調(diào)用程序Map/Reduce函數(shù),要實(shí)現(xiàn)對每個用戶累積評論的新聞數(shù)量統(tǒng)計(jì)的大型文檔文件,通過基于分布式計(jì)算的Map/Reduce來實(shí)現(xiàn)社交網(wǎng)絡(luò)中各個用戶新聞評論的次數(shù)信息抽取,這里的Map操作任務(wù)是對需要處理的那部分?jǐn)?shù)據(jù)的文件進(jìn)行設(shè)置,其輸入?yún)?shù)為〈起始位置,數(shù)據(jù)長度 >,當(dāng)執(zhí)行Map后所輸出的系列中間結(jié)果表示為〈用戶名,評論次數(shù) >,最終輸出每個用戶新聞評論次數(shù)的結(jié)果,還需要Reduce函數(shù)對其中間結(jié)果進(jìn)行操作處理,最后累加相同的用戶所評論新聞的次數(shù)。分別計(jì)算出每個實(shí)體用戶相關(guān)的新聞數(shù)量以及每對用戶之間共同評論的新聞數(shù)量,并分別以相應(yīng)的元組形式儲存為中間結(jié)果文件;其執(zhí)行算法如下子程序 I: Map(^,r){ For each s in PF
Collect(s,l);
}子程序 2: Reduce(7V,Pf){ int count=0; For each w in W count+=w; ColleCt(Ar5Count);
}(3)以步驟⑵求出的兩個中間結(jié)果文件每個用戶累積評論的數(shù)量文件以及每個用戶對之間共同評論的數(shù)量文件,構(gòu)造用戶新聞表以及用戶新聞共同評論表,掃描這兩張表來得到|N(u) U N(v) I的值,由此根據(jù)Jaccard系數(shù)公式計(jì)算最終的關(guān)系強(qiáng)度;其中新聞-用戶關(guān)系網(wǎng)絡(luò)是由新聞集合(V1)和用戶集合(V2)構(gòu)成的二部網(wǎng)絡(luò),用G(V7E)表示,其中 V = V1 U %,£。/1></2,且對于任意6(1^) e Ejftu e V1 且 v e V2 ;用a (u,ν)來表示兩個用戶U,V之間的共同興趣強(qiáng)度,α (U,ν)定義為a (u, ν) = IN (U) Π N (ν) | / | N (u) U N (ν)其中,其中N(U)表示點(diǎn)u在新聞-用戶關(guān)系網(wǎng)絡(luò)G中鄰居的數(shù)量。步驟(I)所述預(yù)處理的步驟如下(I)使用網(wǎng)絡(luò)爬蟲程序爬取新聞評論網(wǎng)站的數(shù)據(jù);(2)通過分析HTML源碼,發(fā)現(xiàn)頁面模式規(guī)律;(3)利用模式設(shè)計(jì)正則表達(dá)式,并利用所設(shè)計(jì)的正則表達(dá)式匹配并識別爬取數(shù)據(jù)中的用戶與新聞;(4)將數(shù)據(jù)存入到新聞-用戶關(guān)系元組列表文件中,作為中間文件進(jìn)行存儲,在文件中,將同一個新聞回復(fù)的所有用戶名存放在一行。步驟(3)所述Map/Reduce分布式計(jì)算過程的步驟如下(I)在第一輪Map/Reduce中,映射函數(shù)Map的輸入鍵值對為〈行數(shù),每行的字符串>,輸出的鍵值對為〈用戶,1>,化簡函數(shù)Reduce以用戶名為key,用戶回復(fù)帖子為value的數(shù)組作為輸入,統(tǒng)計(jì)數(shù)組長度得出回復(fù)帖子數(shù),對相同的鍵值用戶進(jìn)行合并,處理后的輸出鍵值對中,用戶名為鍵,該用戶回復(fù)帖子數(shù)為值;其實(shí)現(xiàn)基于Map/Reduce操作過程如下首先對輸入的大型文檔文件進(jìn)行分割Split,由系統(tǒng)Master來自動完成把文件中的文本內(nèi)容分成若干組,如圖2所示;利用編好的Map函數(shù),對文件分割輸出后每一對鍵/值對〈key,value〉進(jìn)行處理,其Map執(zhí)行過程如圖3所示,輸出新的中間結(jié)果鍵/值對〈key, value)值JARMap任務(wù)的輸出中間結(jié)果,系統(tǒng)對中間結(jié)果進(jìn)行分析合并及自動對用戶進(jìn)行排序輸出,其Fold執(zhí)行過程如圖4所示;在 對中間結(jié)果進(jìn)行排序后,執(zhí)行Reduce任務(wù)完成歸約的操作,其過程如圖5所示,最后統(tǒng)計(jì)輸出每個用戶對新聞評論的次數(shù);(2)在第二輪Map/Reduce中,映射函數(shù)Map的輸入鍵值對為〈行數(shù),每行的字符串>,處理后輸出鍵值對中,鍵為兩個用戶名的連接,值為I ;函數(shù)Reduce以兩個用戶名的連接為key,value為兩個用戶共同回復(fù)帖子的數(shù)組作為輸入,統(tǒng)計(jì)數(shù)組長度得到共同回復(fù)帖子數(shù);在處理后的輸出鍵值對中,鍵為兩個用戶名的連接,值為共同回復(fù)帖子數(shù)。所述新聞-用戶關(guān)系網(wǎng)絡(luò)的構(gòu)造的具體步驟如下(I)由中間結(jié)果文件每個用戶累積評論的新聞數(shù)量文件以及每個用戶對之間共同評論的新聞數(shù)量文件構(gòu)造數(shù)據(jù)表,并對兩張數(shù)據(jù)表按照用戶名序列進(jìn)行排序;(2)將第一張較小的表全部載入內(nèi)存,得到當(dāng)前用戶點(diǎn)對(U,ν)每個用戶單獨(dú)的回復(fù)數(shù);(3)按序讀取第二張表中相應(yīng)用戶對共同評論信息;(4)計(jì)算|N(U) U N(v) I的值,并按照J(rèn)accard系數(shù)公式計(jì)算最終的關(guān)系強(qiáng)度。
權(quán)利要求
1.一種基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法,其特征是包括下列步驟 (1)首先預(yù)處理新聞?wù)搲W(wǎng)站,抽取其新聞-用戶關(guān)系網(wǎng)絡(luò),使用新聞-用戶列表的元組將新聞-用戶關(guān)系網(wǎng)絡(luò)以文件的形式進(jìn)行存儲,其中每個元組包含了某個新聞及其相關(guān)用戶列表; (2)以步驟(I)新聞-用戶列表元組文件作為輸入,通過兩輪Map/Reduce分布式計(jì)算,當(dāng)用戶調(diào)用程序Map/Reduce函數(shù),要實(shí)現(xiàn)對每個用戶累積評論的新聞數(shù)量統(tǒng)計(jì)的大型文檔文件,通過基于分布式計(jì)算的Map/Reduce來實(shí)現(xiàn)社交網(wǎng)絡(luò)中各個用戶新聞評論的次數(shù)信息抽取,這里的Map操作任務(wù)是對需要處理的那部分?jǐn)?shù)據(jù)的文件進(jìn)行設(shè)置,其輸入?yún)?shù)為〈起始位置,數(shù)據(jù)長度 >,當(dāng)執(zhí)行Map后所輸出的系列中間結(jié)果表示為〈用戶名,評論次數(shù)〉,最終輸出每個用戶新聞評論次數(shù)的結(jié)果,還需要Reduce函數(shù)對其中間結(jié)果進(jìn)行操作處理,最后累加相同的用戶所評論新聞的次數(shù)。分別計(jì)算出每個實(shí)體用戶相關(guān)的新聞數(shù)量以及每對用戶之間共同評論的新聞數(shù)量,并分別以相應(yīng)的元組形式儲存為中間結(jié)果文件; (3)以步驟(2)求出的兩個中間結(jié)果文件每個用戶累積評論的數(shù)量文件以及每個用戶對之間共同評論的數(shù)量文件,構(gòu)造用戶新聞表以及用戶新聞共同評論表,掃描這兩張表來得到|N(U) UN(V)I的值,由此根據(jù)Jaccard系數(shù)公式計(jì)算最終的關(guān)系強(qiáng)度; 其中新聞-用戶關(guān)系網(wǎng)絡(luò)是由新聞集合(V1)和用戶集合(V2)構(gòu)成的二部網(wǎng)絡(luò),用G(V,E)表示,其中 V = V1 U且對于任意 e(u,v) e E,都有 u e V1 且 v e V2 ; 用a (u,V)來表示兩個用戶U,V之間的共同興趣強(qiáng)度,a (u,V)定義為 a (u, V) = IN (U) Π N (V) I / IN (U) U N (ν) 其中,其中N(U)表示點(diǎn)u在新聞-用戶關(guān)系網(wǎng)絡(luò)G中鄰居的數(shù)量。
2.根據(jù)權(quán)利要求I所述的基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法,其特征是步驟(I)所述預(yù)處理的步驟如下 (1)使用網(wǎng)絡(luò)爬蟲程序爬取新聞評論網(wǎng)站的數(shù)據(jù); (2)通過分析HTML源碼,發(fā)現(xiàn)頁面模式規(guī)律; (3)利用模式設(shè)計(jì)正則表達(dá)式,并利用所設(shè)計(jì)的正則表達(dá)式匹配并識別爬取數(shù)據(jù)中的用戶與新聞; (4)將數(shù)據(jù)存入到新聞-用戶關(guān)系元組列表文件中,作為中間文件進(jìn)行存儲,在文件中,將同一個新聞回復(fù)的所有用戶名存放在一行。
3.根據(jù)權(quán)利要求I或2所述的基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法,其特征是步驟(3)所述Map/Reduce分布式計(jì)算過程的步驟如下 (I)在第一輪Map/Reduce中,映射函數(shù)Map的輸入鍵值對為〈行數(shù),每行的字符串>,輸出的鍵值對為〈用戶,1>,化簡函數(shù)Reduce以用戶名為key,用戶回復(fù)帖子為value的數(shù)組作為輸入,統(tǒng)計(jì)數(shù)組長度得出回復(fù)帖子數(shù),對相同的鍵值用戶進(jìn)行合并,處理后的輸出鍵值對中,用戶名為鍵,該用戶回復(fù)帖子數(shù)為值;其實(shí)現(xiàn)基于Map/Reduce操作過程如下首先對輸入的大型文檔文件進(jìn)行分割Split,由系統(tǒng)Master來自動完成把文件中的文本內(nèi)容分成若干組;利用編好的Map函數(shù),對文件分割輸出后每ー對鍵/值對〈key,value)進(jìn)行處理,輸出新的中間結(jié)果鍵/值對〈key,value〉值;執(zhí)行Map任務(wù)的輸出中間結(jié)果,系統(tǒng)對中間結(jié)果進(jìn)行分析合并及自動對用戶進(jìn)行排序輸出;在對中間結(jié)果進(jìn)行排序后,執(zhí)行Reduce任務(wù)完成歸約的操作,最后統(tǒng)計(jì)輸出每個用戶對新聞評論的次數(shù);(2)在第二輪Map/Reduce中,映射函數(shù)Map的輸入鍵值對為〈行數(shù),每行的字符串>,處理后輸出鍵值對中,鍵為兩個用戶名的連接,值為I ;函數(shù)Reduce以兩個用戶名的連接為key, value為兩個用戶共同回復(fù)帖子的數(shù)組作為輸入,統(tǒng)計(jì)數(shù)組長度得到共同回復(fù)帖子數(shù);在處理后的輸出鍵值對中,鍵為兩個用戶名的連接,值為共同回復(fù)帖子數(shù)。
4.根據(jù)權(quán)利要求I或2所述的基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法,其特征是所述新聞-用戶關(guān)系網(wǎng)絡(luò)的構(gòu)造的具體步驟如下 (1)由中間結(jié)果文件每個用戶累積評論的新聞數(shù)量文件以及每個用戶對之間共同評論的新聞數(shù)量文件構(gòu)造數(shù)據(jù)表,并對兩張數(shù)據(jù)表按照用戶名序列進(jìn)行排序; (2)將第一張較小的表全部載入內(nèi)存,得到當(dāng)前用戶點(diǎn)對(U,ν)每個用戶單獨(dú)的回復(fù)數(shù); (3)按序讀取第二張表中相應(yīng)用戶對共同評論信息; (4)計(jì)算IN(U)U N(v) I的值,并按照J(rèn)accard系數(shù)公式計(jì)算最終的關(guān)系強(qiáng)度。
全文摘要
本發(fā)明公開了一種基于分布式計(jì)算的大規(guī)模社交網(wǎng)絡(luò)信息抽取方法,首先預(yù)處理新聞?wù)搲W(wǎng)站,抽取其新聞-用戶關(guān)系網(wǎng)絡(luò),使用新聞-用戶列表的元組將新聞-用戶關(guān)系網(wǎng)絡(luò)以文件的形式進(jìn)行存儲,其中每個元組包含了某個新聞及其相關(guān)用戶列表;以新聞-用戶列表元組文件作為輸入,計(jì)算出每個實(shí)體用戶相關(guān)的新聞數(shù)量以及每對用戶之間共同評論的新聞數(shù)量,并分別以相應(yīng)的元組形式儲存為中間結(jié)果文件;以求出的兩個中間結(jié)果文件構(gòu)造用戶新聞表以及用戶新聞共同評論表,掃描這兩張表來得到|N(u)N(v)|的值,由此計(jì)算最終的關(guān)系強(qiáng)度。本發(fā)明提出了一種基于分布式計(jì)算框架的社交網(wǎng)絡(luò)信息抽取方法,得到較好擴(kuò)展性和伸縮性。
文檔編號G06F17/30GK102663083SQ20121009864
公開日2012年9月12日 申請日期2012年4月1日 優(yōu)先權(quán)日2012年4月1日
發(fā)明者丁衛(wèi)平, 何鵬, 施佺, 邵葉秦, 陳建平 申請人:南通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1