本發(fā)明屬于學(xué)術(shù)大數(shù)據(jù)領(lǐng)域,尤其涉及一種基于學(xué)術(shù)大數(shù)據(jù)的學(xué)者影響力評估方法。
背景技術(shù):
科學(xué)研究為人類社會的發(fā)展和進步做出了巨大貢獻,尤其是杰出科學(xué)家的輸出,也正是因為有杰出的科學(xué)家,新的科學(xué)理論不斷產(chǎn)生,推動著社會的發(fā)展進步。隨著時代的發(fā)展,越來越多的研究者加入并活躍在相應(yīng)領(lǐng)域中,并踴躍發(fā)表科研成果,近幾年,文獻數(shù)量更是呈指數(shù)級增長。但是學(xué)者的輸出能力卻良莠不齊,因此在復(fù)雜的學(xué)術(shù)網(wǎng)絡(luò)環(huán)境中,尋找杰出的學(xué)者以及對學(xué)者影響力進行評估就顯得尤為重要。本文以計算機科學(xué)這一領(lǐng)域的學(xué)者作為代表進行深入研究,從發(fā)表的論文入手,將對學(xué)者影響力進行評估。對于科研工作者來說,學(xué)術(shù)論文的產(chǎn)量和質(zhì)量是反映學(xué)者影響力的標(biāo)準(zhǔn),但是對標(biāo)準(zhǔn)如何量化與評估,便是要關(guān)注的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的主要針對上述目前存在的而一些問題,提供了一種基于學(xué)術(shù)大數(shù)據(jù)的學(xué)者影響力評估方法,有效地對學(xué)者影響力進行評估。
本發(fā)明的技術(shù)方案:
(1)建立包含學(xué)者、論文、期刊三種類型的節(jié)點的異構(gòu)網(wǎng)絡(luò);
(2)根據(jù)結(jié)構(gòu)洞理論,使用橋、介數(shù)中心性、信息熵、會議比等指標(biāo),提出用來評估節(jié)點重要性的B2算法,并計算評估指標(biāo)B2的值;
(3)調(diào)整(2)中指標(biāo)的權(quán)重系數(shù),對B2算法進行改進;
(4)在無向異構(gòu)網(wǎng)絡(luò)下對PageRank算法進行改進,提出HnRank算法,并計算評估指標(biāo)HnRank的值;
(5)使用最小-最大規(guī)范化方法,對B2值和HnRank值進行歸一化處理;
(6)結(jié)合B2算法和HnRank算法,形成SWRank算法,并計算評估指標(biāo)SWRank的值;
(7)使用了皮爾遜相關(guān)系數(shù)、學(xué)者排名重合比例、學(xué)者平均被引用次數(shù)三種方法,將本發(fā)明提出的SWRank方法和現(xiàn)有的評估方法PageRank、h指數(shù)進行比較。
進一步地,所述的異構(gòu)網(wǎng)絡(luò),包括學(xué)者-學(xué)者合作網(wǎng)絡(luò)、論文-論文引用網(wǎng)絡(luò)兩種同構(gòu)網(wǎng)絡(luò)和學(xué)者-論文從屬網(wǎng)絡(luò)、論文-期刊從屬網(wǎng)絡(luò)兩種異構(gòu)網(wǎng)絡(luò);
所述的橋指標(biāo)是指,兩個節(jié)點僅僅通過唯一的間接聯(lián)系連在一起,則該間接關(guān)系所對應(yīng)的邊即為橋。
所述的介數(shù)中心性指標(biāo)是指經(jīng)過某節(jié)點最短路徑的數(shù)。
所述的信息熵的計算依據(jù)包括學(xué)者的合作者所發(fā)表論文的關(guān)鍵字集合,和學(xué)者的合作者所在機構(gòu)集合。
所述的會議比是指某學(xué)者發(fā)表的會議文章占總論文的比例。
所述用來評估節(jié)點重要性的B2算法包括BrigeRank算法和BetweenesRank算法;
所述的BrigeRank算法是橋的數(shù)量為指標(biāo)的結(jié)構(gòu)洞理論下節(jié)點重要性評估,這個形式輸入Bridge值、會議論文比、信息熵,輸出BridgeRank值;
所述BetweenesRank是介數(shù)中心性為指標(biāo)的結(jié)構(gòu)洞理論下節(jié)點重要性評估,這個形式輸入Betweeness值、會議論文比、信息熵,輸出BetweenesRank值;
所述的HnRank算法,加入了學(xué)者間,學(xué)者與論文,學(xué)者與期刊,論文間的關(guān)系,通過迭代和加和兩個過程計算出某學(xué)者的HnRank的值。
所述的SWRank算法實現(xiàn)了強聯(lián)系和弱聯(lián)系理論的結(jié)合。
本發(fā)明的有益效果:本發(fā)明能夠結(jié)合弱聯(lián)系和強聯(lián)系,在異構(gòu)網(wǎng)絡(luò)下對學(xué)者的影響力進行評估,打破了傳統(tǒng)單一關(guān)系的評估,具有很強的創(chuàng)新性,和一定的可行性與可靠性。
附圖說明
圖1為社會網(wǎng)絡(luò)中結(jié)構(gòu)洞的示例圖。
圖2為介數(shù)中心性評價節(jié)點重要性示例圖。
具體實施方式
下面結(jié)合具體實施例對本發(fā)明所述技術(shù)方案作進一步的詳細(xì)描述,以使本領(lǐng)域的技術(shù)人員可以更好的理解本發(fā)明并能予以實施,但所舉實施例不作為對本發(fā)明的限定。
一種基于學(xué)術(shù)大數(shù)據(jù)的學(xué)者影響力評估方法,步驟如下:
(1)建立無向異構(gòu)網(wǎng)絡(luò)
根據(jù)數(shù)據(jù)集中的節(jié)點以及節(jié)點間的關(guān)系,建立包含學(xué)者、論文和期刊三種類型節(jié)點的無向異構(gòu)網(wǎng)絡(luò);
(2)根據(jù)結(jié)構(gòu)洞理論提出用來評估節(jié)點重要性的B2算法,并計算評估指標(biāo)B2值
結(jié)構(gòu)洞的示意圖如圖1所示,其中,中心的黑點即為處于結(jié)構(gòu)洞位置的節(jié)點。
B2算法包括BridgeRank算法和BetweenRank算法,分別如下:
1)橋的數(shù)量為指標(biāo)的結(jié)構(gòu)洞理論下節(jié)點重要性評估,也稱作BridgeRank算法。這個形式輸入Bridge值、會議論文比、信息熵,輸出BridgeRank值;
2)介數(shù)中心性為指標(biāo)的結(jié)構(gòu)洞理論下節(jié)點重要性評估,也稱作BetweenesRank算法。這個形式輸入Betweeness值、會議比和信息熵,輸出BetweenesRank值。圖2為介數(shù)中心性評價節(jié)點重要性示例圖,H點的介數(shù)較大,說明其影響力較大。
B2值的計算公式如下:
其中,B2i為學(xué)者i的評估指標(biāo)B2值,n為表示學(xué)者總數(shù),b為橋的數(shù)量/介數(shù)中心性,c為會議論文占總論文比例,e為以關(guān)鍵字和機構(gòu)加和計算的信息熵,α、β、χ三個參數(shù)分別為b、c、e的權(quán)重。
(3)對B2算法進行改進:
根據(jù)B2值、PageRank值以及h指數(shù)對學(xué)者的影響力進行排名,分別計算其排名結(jié)果與學(xué)者引用量之間的相關(guān)系數(shù),并比較大??;不斷調(diào)整α,β和χ,確定通過B2算法所得的相關(guān)系數(shù)最大時,確定α,β和χ;
(4)在無向異構(gòu)網(wǎng)絡(luò)下對PageRank算法進行改進,提出了HnRank算法,并計算評估指標(biāo)HnRank的值:
本方法加入了學(xué)者間、學(xué)者與論文、論文與期刊、論文間的關(guān)系。
第一步進行了6輪計算,根據(jù)PageRank的計算公式得到收斂的論文、學(xué)者、期刊的PageRank值:
(a)論文-論文:初始化論文PageRank值為1/n,n為論文數(shù),根據(jù)論文的引用關(guān)系,得到收斂的每篇論文的PageRank值P1。
(b)學(xué)者-學(xué)者:初始化學(xué)者PageRank值為1/m,m為學(xué)者數(shù),根據(jù)學(xué)者間的合作關(guān)系,得到收斂的每個學(xué)者的PageRank值A(chǔ)1。
(c)論文-學(xué)者:初始化論文和學(xué)者PageRank值分別為P1和A1,根據(jù)學(xué)者與論文之間的關(guān)系,得到收斂的論文和學(xué)者PageRank值P2和A2。
(d)論文-期刊/會議:初始化論文PageRank值為P2,初始化期刊PageRank值為1/k,k為期刊和會議總數(shù),根據(jù)論文與期刊/會議的對應(yīng)關(guān)系,得到收斂的論文和期刊/會議PageRank值P3和V。
(e)論文-論文:返回第一步,初始化論文PageRank值為P3,得到新的收斂的PageRank值P。
(f)學(xué)者-學(xué)者:返回第二步,初始化學(xué)者PageRank值為A2,得到新的收斂的學(xué)者PageRank值A(chǔ)。
第二步是使用第一步得到的值和下述公式,計算各個學(xué)者的HnRank值
其中,Ai表示學(xué)者i的PageRank值,ki表示學(xué)者i的論文總數(shù),Pij表示學(xué)者i的第j篇論文的PageRank值,Vj表示學(xué)者i的第j篇論文所屬期刊的PageRank值。
(5)對B2值和HnRank值進行歸一化處理:
對B2值和HnRank值進行歸一化處理,保證B2值和HnRank值在一個數(shù)量級,使用最小-最大規(guī)范化,對原始數(shù)據(jù)進行線性變換,且都處在0-1之間,保持原始數(shù)據(jù)間的聯(lián)系,如果今后有數(shù)值在原始數(shù)據(jù)域之外,便做越界處理。
(6)結(jié)合B2算法和HnRank算法,形成SWRank算法,并計算評估指標(biāo)SWRank的值:
學(xué)者i的SWRank值的計算公式如下:
其中,n表示學(xué)者總數(shù),B2i表示學(xué)者i的B2值,HRi表示學(xué)者i的HnRank值,參數(shù)α和β分別為B2和HR的權(quán)重。
根據(jù)SWRank值、PageRank值以及h指數(shù)對學(xué)者的影響力進行排名,分別計算其排名結(jié)果與學(xué)者引用量之間的相關(guān)系數(shù),并比較大小;不斷調(diào)整參數(shù)α,β的大小,確定通過SWRank算法所得的相關(guān)系數(shù)最大時,確定α和β。
(7)使用皮爾遜相關(guān)系數(shù)、學(xué)者排名重合比例和學(xué)者平均被引用次數(shù)三種方法,將本方法提出的SWRank方法和現(xiàn)有的評估方法PageRank、h指數(shù)進行比較。皮爾遜相關(guān)系數(shù)、學(xué)者排名重合比例和學(xué)者平均被引用次數(shù)的值越大,說明評估方法的準(zhǔn)確性越高。通過對比發(fā)現(xiàn),由本發(fā)明提出的SWRank算法計算得到的皮爾遜相關(guān)系數(shù)、學(xué)者排名重合比例和學(xué)者平均被引用次數(shù)三個值明顯大于通過PageRank值和h指數(shù)計算得到的值。