一種基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法。
【背景技術(shù)】
[0002] 近年來,分析與評估人或事的的影響力是社會關(guān)系網(wǎng)絡(luò)理論與方法應(yīng)用研宄中的 熱點問題。對作者的影響力評估便是其中之一。傳統(tǒng)的方法一般從作者發(fā)文數(shù)量,總被引 用次數(shù),被引用文章篇數(shù)等來度量。這些方法簡單快速,但也十分粗糙,暗藏著不公平、不合 理,使得評估結(jié)果備受爭議。作者發(fā)文的數(shù)量固然能夠在一定程度上反應(yīng)其學(xué)術(shù)能力,然其 發(fā)文質(zhì)量也應(yīng)該加以權(quán)衡。
[0003] 傳統(tǒng)的作者影響力評估方法一般從以下兒個方面來衡量:(1)用影響因子的概念 來評定雜志的影響力,即用某雜志近兩年發(fā)表的論文被引用的次數(shù)和該雜志近兩年發(fā)表的 論文總數(shù)的比值來確定雜志的影響因子,然而,這種通過度量雜志影響因子,從雜志整體質(zhì) 量側(cè)面來度量論文質(zhì)量去評估作者影響力的方法缺乏時效性。(2)將PageRank算法引入到 論文引用網(wǎng)絡(luò)中對論文以及期刊進行影響力評分從而對作者的影響力進行分析。一篇論文 的PageRank值是由所有引用它的其他文章的重要性經(jīng)過遞歸算法得到的,但是,新發(fā)表論 文通常比舊論文應(yīng)該更有創(chuàng)新性,雖然其被引用次數(shù)暫時不會很多,新論文的影響權(quán)重一 般應(yīng)比舊論文的影響權(quán)重更大。PageRank算法忽略了新論文的創(chuàng)新性價值,并且在大規(guī)模 的引用網(wǎng)絡(luò)中以遞歸思想為核心的PageRank算法的時間復(fù)雜度很高。另外,當(dāng)某作者發(fā)表 的論文不僅被與其近關(guān)系作者引用,同時還被與其關(guān)系遠的作者引用,說明其影響力是很 大的。所以,論文的影響力因素還應(yīng)該考慮引用與被引用作者之間的關(guān)系的強弱和關(guān)系遠 近,這些都是以論文為主體的引用網(wǎng)絡(luò)忽略了作者關(guān)系,這是傳統(tǒng)的隨機游走模型算法所 欠缺的。
[0004] 因此,有必要設(shè)計一種基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是提供一種基于引用傳播網(wǎng)絡(luò)的作者影響力計算方 法,該基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法得到的作者影響力指標(biāo)更合理,且易于實 施,計算簡便。
[0006] 發(fā)明的技術(shù)解決方案如下:
[0007] -種基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法,包括以下步驟:
[0008] 步驟1 :建立引用關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò):基于論文公共信息數(shù)據(jù)庫構(gòu)造作者 引用關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò);
[0009] 步驟2 :建立引用傳播網(wǎng)絡(luò):
[0010]引用傳播網(wǎng)絡(luò)為作者引用關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò)的融合網(wǎng)絡(luò);
[0011] 首先以引用關(guān)系網(wǎng)絡(luò)為基礎(chǔ),遍歷分析引用關(guān)系,然后,獲取存在引用關(guān)系的作者 之間存在的同事關(guān)系,按照引用關(guān)系雙方的同事關(guān)系遠近,計算引用傳播網(wǎng)絡(luò)中作者的引 用傳播距離;并整合到引用關(guān)系的屬性值中,得到引用傳播網(wǎng)絡(luò);
[0012] 引用關(guān)系的屬性值包括(1)作者k和j之間的引用傳播距離值、(2)作者k和j 之間的存在的論文引用記錄以及(3)每一次引用的屬性,即該次引用是自引用還是非自引 用;
[0013] 步驟3 :基于引用傳播網(wǎng)絡(luò)計算作者的影響力Influence :
[0014] 計算公式,
【主權(quán)項】
1. 一種基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法,其特征在于,包括以下步驟: 步驟1 :建立引用關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò):基于論文公共信息數(shù)據(jù)庫構(gòu)造作者引用 關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò); 步驟2:建立引用傳播網(wǎng)絡(luò): 引用傳播網(wǎng)絡(luò)為作者引用關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò)的融合網(wǎng)絡(luò); 首先以引用關(guān)系網(wǎng)絡(luò)為基礎(chǔ),遍歷分析引用關(guān)系,然后,獲取存在引用關(guān)系的作者之間 存在的同事關(guān)系,按照引用關(guān)系雙方的同事關(guān)系遠近,計算引用傳播網(wǎng)絡(luò)中作者的引用傳 播距離;并整合到引用關(guān)系的屬性值中,得到引用傳播網(wǎng)絡(luò); 引用關(guān)系的屬性值包括(1)作者k和j之間的引用傳播距離值、(2)作者k和j之間 的存在的論文引用記錄以及(3)每一次引用的屬性,即該次引用是自引用還是非自引用; 步驟3 :基于引用傳播網(wǎng)絡(luò)計算作者的影響力Influence : 計算公式)
其中,Ai為引用變量,若引用關(guān)系為自引用,則記為0.5,反之記為1 ; Dot表示在引用傳播網(wǎng)絡(luò)中作者引用關(guān)系的傳播距離; Dsmax表示在引用傳播網(wǎng)絡(luò)中所有作者引用關(guān)系的傳播距離中的最大值。
2. 根據(jù)權(quán)利要求1所述的基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法,其特征在于,在 論文公共信息數(shù)據(jù)庫中提取論文信息,論文信息包括論文名、作者、作者機構(gòu)、發(fā)表時間和 參考文獻,采用Ne 〇4j圖數(shù)據(jù)庫進行存儲獲取的所述論文信息; 若一篇文章與該文章引用的文章沒有相同的作者,則該次引用為非自引用,若該2篇 文章有共同的作者,即至少有一個作者相同,則該次引用為自引用; 通過以下cypher語句求得A和B兩個作者之間的最短路徑; Start n = node ( ''A"),m = node ( "B")match p = shortestPath (n_ [r : cofforkRelation*. . ]-m)return p ; P為最短路徑; 如果最短路徑P存在,則該2個作者在同事關(guān)系網(wǎng)絡(luò)中的關(guān)系最短路徑距離長度 sprDistance = p. length ; 如果求得的最短路徑不存在,即兩作者之間在同事關(guān)系網(wǎng)絡(luò)中不存在可達路徑,那么 記 sprDistance = -1 ; 最終形成作者關(guān)系距離關(guān)系表; 對作者關(guān)系距離關(guān)系表中的數(shù)據(jù)進行以下修正: 對取值為-1的所有sprDistance進行修正,即將-1修正為Dsmax+1,Dsmax為網(wǎng) 絡(luò)中的最大傳播距離值,修正之后Ds_+1為整個網(wǎng)絡(luò)中的最大傳播距離值;公式
的〇3_為修正后的值。
【專利摘要】本發(fā)明公開了一種基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法,包括以下步驟:步驟1:建立引用關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò):基于論文公共信息數(shù)據(jù)庫構(gòu)造作者引用關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò);步驟2:建立引用傳播網(wǎng)絡(luò):引用傳播網(wǎng)絡(luò)為作者引用關(guān)系網(wǎng)絡(luò)和同事關(guān)系網(wǎng)絡(luò)的融合網(wǎng)絡(luò);步驟3:基于引用傳播網(wǎng)絡(luò)計算作者的影響力Influence:計算公式為該基于引用傳播網(wǎng)絡(luò)的作者影響力計算方法得到的作者影響力指標(biāo)更合理,且易于實施,計算簡便。
【IPC分類】G06F17-30
【公開號】CN104657488
【申請?zhí)枴緾N201510097738
【發(fā)明人】龍軍, 劉旭, 黃芳, 趙貴虎
【申請人】中南大學(xué)
【公開日】2015年5月27日
【申請日】2015年3月5日