亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

博客社區(qū)識別方法_2

文檔序號:9646989閱讀:來源:國知局
于blogjoined的加入,為了得到C的鄰接點集合Adjs(C),首先要把Adjs(C')中的 blogjoined刪除。
[0033] 執(zhí)行算法2第2行,把blogjoined的numVtoC屬性置為0。這是由于blogjoined 已經(jīng)屬于社區(qū)C,因此其和社區(qū)C連接數(shù)numVtoC應該重新置零,以免下一步運算中再次成 為候選頂點。
[0034] 算法第3行到24行的作用是把blogjoined的鄰接點加入到新社區(qū)C的鄰接點 集合中,并且重新調(diào)整其中頂點的社區(qū)連接數(shù)numVtoC的值,如果newAdjs中的元素和 blogjoined有邊進行連接,那么該鄰接點和新社區(qū)C的numVtoC的值增1。
[0035] 得到新社區(qū)的鄰接點集合。

[0038] 〈具體實施例〉
[0039] 圖1示意性地示出了根據(jù)本發(fā)明優(yōu)選實施例的博客社區(qū)識別方法的流程圖。
[0040] 如圖1所示,根據(jù)本發(fā)明優(yōu)選實施例的博客社區(qū)識別方法包括:
[0041] 第一步驟S1 :執(zhí)行初始博客社區(qū)抽取,根據(jù)初始博客社區(qū)中的博客圖中邊的重數(shù) 從博客圖的多個頂點中選擇最適合加入到當前社區(qū)中的候選頂點的集合;
[0042] 例如,第一步驟S1具體包括:對初始博客社區(qū)的鄰接點集合中的頂點按到初始博 客社區(qū)的社區(qū)連接數(shù)從大到小排序;對排過序的鄰接點集合進行過濾以獲取與初始博客社 區(qū)連接數(shù)最大的頂點集合,作為候選頂點集合。
[0043] 第二步驟S2 :將候選頂點集合中滿足預定加入條件的頂點加入初始博客社區(qū)以 得到新博客社區(qū);
[0044] 第三步驟S3 :獲取新博客社區(qū)的鄰接點集合的內(nèi)容,并且調(diào)整新博客社區(qū)的鄰接 點集合中的頂點的屬性。
[0045] 例如,第三步驟S3具體包括:從初始博客社區(qū)的鄰接點集合中刪除在第二步驟中 加入初始博客社區(qū)的頂點;將在第二步驟中加入初始博客社區(qū)的頂點的屬性設置為不能 被選為候選頂點;將在第二步驟中加入初始博客社區(qū)的頂點的鄰接點加入到新博客社區(qū)的 鄰接點集合中。
[0046] 〈技術效果〉
[0047] 本發(fā)明通過實驗對比的方式來討論發(fā)明所達到的效果,實驗所采用的數(shù)據(jù)集是來 自于WWW.metafilter,com網(wǎng)站,下面是這個數(shù)據(jù)集的一些基本信息:
[0048] (1)數(shù)據(jù)集的起始時間為從2004年1月1日到2007年12月31日,總共四年間的 數(shù)據(jù)。
[0049] (2)截至2007年12月31號,從該數(shù)據(jù)集中得到的活動用戶數(shù)量為11902。在這 里,認為在數(shù)據(jù)集開始日期到結束日期四年間至少發(fā)過一篇文章或者做過一次回復的用戶 為活動用戶。
[0050] (3)因為要從回復與被回復的關系構建博客圖,所以這里排除掉沒有回復的文 章,最終總共得到擁有一個或一個以上回復的文章數(shù)量為36377篇,總共得到回復數(shù)量 1058325 條。
[0051] (4)根據(jù)需要以及處理上的方便,對數(shù)據(jù)集進行了按照時間進行劃分。
[0052] (5)為了得到比較接近于實際的數(shù)據(jù),每一組實驗做了十次,然后對取得的數(shù)據(jù)取 平均值。
[0053] (6)對數(shù)據(jù)做了兩種方式的劃分,一種是按照單月進行的劃分,總共得到48組數(shù) 據(jù);另一種是按照雙月進行的劃分,總共得到24組數(shù)據(jù)。在每種劃分上,分別用Kumar的算 法和本發(fā)明的算法進行了實驗,實驗結果表明本發(fā)明的算法相較于Kumar的算法,能夠優(yōu) 先抽取出規(guī)模較大的社區(qū),算法執(zhí)行的穩(wěn)定性強,得到的社區(qū)的聯(lián)系也更加緊密。
[0054] 此處主要考察本發(fā)明的方法和Kumar的方法得到的結果之間的差異,分別從三個 方面來進行考察:
[0055] 博客社區(qū)的規(guī)模;
[0056] (1)博客社區(qū)成員聯(lián)系的緊密型;
[0057] (2)算法的穩(wěn)定性。
[0058] 為了驗證方法在數(shù)據(jù)量增大時仍能在算法穩(wěn)定性、社區(qū)大小和社區(qū)成員聯(lián)系緊密 性上有很大的優(yōu)越性,對48個月數(shù)據(jù)進行了按照兩個月一組進行的劃分,這樣就得到了 24 組數(shù)據(jù),對這24組數(shù)據(jù)同樣進行了上述的實驗驗證,其對應的數(shù)據(jù)量如下表(每兩月數(shù)據(jù) 量)所示。
[0059]
[0060] 在此對比了三種情況:
[0061 ] (1)Kumar方法中邊的重數(shù);
[0062] (2)本發(fā)明的算法方法中不考慮邊的重數(shù)大者優(yōu)先加入社區(qū);
[0063] (3)本發(fā)明的算法方法中邊的重數(shù)大者優(yōu)先加入社區(qū)。
[0064] 在三種情況中,根據(jù)數(shù)據(jù)可知,第一種和第二種情況下所得到的博客社區(qū)邊的重 數(shù)相差并不大,而第三種情況中使用邊重數(shù)大者優(yōu)先加入社區(qū)的方法時,得到的最大社區(qū) 的邊的平均重數(shù)明顯的優(yōu)于第一和第二種情況下得到的社區(qū)的邊的重數(shù)。這充分說明,在 這個社區(qū)里,成員的聯(lián)系比較緊密,在這段時間進行了次數(shù)比較多的接觸。
[0065] 本發(fā)明重點討論了博客社區(qū)的抽取問題。Kumar的社區(qū)抽取方法中,有幾個不利于 社區(qū)研究的缺點,如得到的社區(qū)比較零碎,把許多原本可以歸并到一個社區(qū)的成員歸并到 多個社區(qū);社區(qū)的穩(wěn)定性差,算法運行多次得到的結果不一致;沒有充分考慮成員之間聯(lián) 系的緊密程度,從而導致得到的社區(qū)的內(nèi)聚性比較差。
[0066] 由此,針對上面的缺點,本發(fā)明提出的一種抽取高質(zhì)量社區(qū)的方法具有如下的優(yōu) 點:大社區(qū)優(yōu)先被抽取出來;得到更加穩(wěn)定的社區(qū);得到內(nèi)聚度更高的社區(qū)。
[0067] 需要說明的是,除非特別說明或者指出,否則說明書中的術語"第一"、"第二"、"第 三"等描述僅僅用于區(qū)分說明書中的各個組件、元素、步驟等,而不是用于表示各個組件、元 素、步驟之間的邏輯關系或者順序關系等。
[0068] 可以理解的是,雖然本發(fā)明已以較佳實施例披露如上,然而上述實施例并非用以 限定本發(fā)明。對于任何熟悉本領域的技術人員而言,在不脫離本發(fā)明技術方案范圍情況下, 都可利用上述揭示的技術內(nèi)容對本發(fā)明技術方案作出許多可能的變動和修飾,或修改為等 同變化的等效實施例。因此,凡是未脫離本發(fā)明技術方案的內(nèi)容,依據(jù)本發(fā)明的技術實質(zhì)對 以上實施例所做的任何簡單修改、等同變化及修飾,均仍屬于本發(fā)明技術方案保護的范圍 內(nèi)。
【主權項】
1. 一種博客社區(qū)識別方法,其特征在于包括: 第一步驟:執(zhí)行初始博客社區(qū)抽取,根據(jù)初始博客社區(qū)中的博客圖中邊的重數(shù)從博客 圖的多個頂點中選擇最適合加入到當前社區(qū)中的候選頂點的集合; 第二步驟:將候選頂點集合中滿足預定加入條件的頂點加入初始博客社區(qū)以得到新博 客社區(qū); 第三步驟:獲取新博客社區(qū)的鄰接點集合的內(nèi)容,并且調(diào)整新博客社區(qū)的鄰接點集合 中的頂點的屬性。2. 根據(jù)權利要求1所述的博客社區(qū)識別方法,其特征在于,第一步驟包括:對初始博客 社區(qū)的鄰接點集合中的頂點按到初始博客社區(qū)的社區(qū)連接數(shù)從大到小排序;對排過序的鄰 接點集合進行過濾以獲取與初始博客社區(qū)連接數(shù)最大的頂點集合,作為候選頂點集合。3. 根據(jù)權利要求1或2所述的博客社區(qū)識別方法,其特征在于,第三步驟包括:從初始 博客社區(qū)的鄰接點集合中刪除在第二步驟中加入初始博客社區(qū)的頂點;將在第二步驟中加 入初始博客社區(qū)的頂點的屬性設置為不能被選為候選頂點;將在第二步驟中加入初始博客 社區(qū)的頂點的鄰接點加入到新博客社區(qū)的鄰接點集合中。
【專利摘要】本發(fā)明提供了一種博客社區(qū)識別方法,包括:執(zhí)行初始博客社區(qū)抽取,根據(jù)初始博客社區(qū)中的博客圖中邊的重數(shù)從博客圖的多個頂點中選擇最適合加入到當前社區(qū)中的候選頂點的集合;將候選頂點集合中滿足預定加入條件的頂點加入初始博客社區(qū)以得到新博客社區(qū);獲取新博客社區(qū)的鄰接點集合的內(nèi)容,并且調(diào)整新博客社區(qū)的鄰接點集合中的頂點的屬性。
【IPC分類】G06Q50/00
【公開號】CN105405058
【申請?zhí)枴緾N201510947435
【發(fā)明人】李宇佳
【申請人】上海電機學院
【公開日】2016年3月16日
【申請日】2015年12月16日
當前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1