亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法

文檔序號:6623289閱讀:215來源:國知局
基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法
【專利摘要】本發(fā)明提供了一種基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法。本發(fā)明針對特定領(lǐng)域,首先提取作者庫中所有作者信息,構(gòu)建初始的作者關(guān)系矩陣,其次建立作者關(guān)系權(quán)值模型,根據(jù)每篇論文的作者信息更新作者關(guān)系矩陣,然后基于作者關(guān)系矩陣確定兩兩作者間最優(yōu)關(guān)系傳遞路徑,構(gòu)建作者關(guān)系圈;并定期更新作者關(guān)系矩陣和作者關(guān)系圈。其中兩兩作者間最優(yōu)關(guān)系傳遞路徑滿足條件:兩者之間經(jīng)過的路徑絕對值長度最短;在所有最短路徑中關(guān)系值和最大;經(jīng)過的最短路徑小于6。本發(fā)明的作者關(guān)系權(quán)值模型體現(xiàn)了一篇文章中不同作者的真實關(guān)系值,構(gòu)建的學(xué)術(shù)關(guān)系網(wǎng)更加合理,符合實際作者關(guān)系最優(yōu)值,并實時反映最新的學(xué)術(shù)關(guān)系。
【專利說明】基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造 方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機應(yīng)用【技術(shù)領(lǐng)域】,涉及基于關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方 法,特別涉及一種基于論文作者信息提取來獲取關(guān)系權(quán)值的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法。

【背景技術(shù)】
[0002] 1967年美國社會心理學(xué)家米爾格倫(Stanley Milgram)提出了一個"六度分 離"(六度區(qū)隔)理論(Six Degrees of Separation)。該理論認為在人際交往的脈絡(luò)中, 任意兩個陌生人都可以通過"親友的親友"建立聯(lián)系,這中間最多只要通過五個朋友就能達 到目的。
[0003] 基于"六度分離"理論,2008年6月28日微軟悄然推出一款能夠直觀顯示被搜索 者人脈關(guān)系的"人立方"關(guān)系搜索引擎。作為一款新型社會化搜索引擎,"人立方"關(guān)系搜索 引擎能從超過十億的中文網(wǎng)頁中自動地抽取出人名、地名、機構(gòu)名以及中文短語,并自動計 算出它們之間存在關(guān)系的可能性。用戶只要隨便輸入一個人物,"人立方"搜索將給出該人 物的關(guān)系、網(wǎng)頁、資訊、簡介等眾多內(nèi)容。
[0004] 然而對于只關(guān)注特定學(xué)術(shù)領(lǐng)域的作者來說,通過現(xiàn)有人際關(guān)系網(wǎng)絡(luò)的搜索方法得 到的人際關(guān)系結(jié)果中,關(guān)系傳遞路徑可能包含非學(xué)術(shù)領(lǐng)域的人員,結(jié)果路徑中公眾影響力 巨大的名人比例較大,對于獲取實際的本學(xué)術(shù)領(lǐng)域內(nèi)的人際關(guān)系和人員信息的幫助甚小。
[0005] 針對學(xué)術(shù)領(lǐng)域的人際圈搜索萬方數(shù)據(jù)庫已經(jīng)有所嘗試,但是目前萬方學(xué)術(shù)圈搜索 只支持對于直接人際關(guān)系的搜索,尚未通過間接人際關(guān)系來建立學(xué)術(shù)關(guān)系網(wǎng)。


【發(fā)明內(nèi)容】

[0006] 本發(fā)明針對現(xiàn)有人際關(guān)系搜索方法對特定學(xué)術(shù)領(lǐng)域的搜索結(jié)果不理想的問題,提 供了一種基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法。
[0007] 基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)建方法,包括如下步驟:
[0008] 步驟1、提取作者庫中所有作者信息,構(gòu)建初始的作者關(guān)系矩陣;
[0009] 所述的作者關(guān)系矩陣的第i行第j列的元素值為第i個作者和第j個作者的關(guān)系 值,用〇表示作者與自己的關(guān)系,-1表示兩位作者之間的關(guān)系不可達;初始的作者關(guān)系矩陣 中,對角線上元素值為0,其余位置元素值為-1 ;
[0010] 步驟2、建立作者關(guān)系權(quán)值模型,根據(jù)每篇論文的作者信息更新作者關(guān)系矩陣;
[0011] 步驟3、基于步驟2得到的作者關(guān)系矩陣確定兩兩作者間最優(yōu)關(guān)系傳遞路徑,根據(jù) 最優(yōu)關(guān)系傳遞路徑構(gòu)建作者關(guān)系圈;
[0012] 所述的兩兩作者間最優(yōu)關(guān)系傳遞路徑需滿足以下幾個條件:
[0013] 1)兩者之間經(jīng)過的路徑絕對值長度最短;
[0014] 2)在所有最短路徑中關(guān)系值和最大;
[0015] 3)經(jīng)過的最短路徑小于6。
[0016] 步驟4、定期更新作者關(guān)系矩陣和作者關(guān)系圈。由于學(xué)術(shù)論文庫是動態(tài)的、不斷更 新的,該方法對學(xué)術(shù)論文庫進行定期掃描以更新作者關(guān)系矩陣和作者關(guān)系圈,保證該方法 建立的作者關(guān)系矩陣和學(xué)術(shù)關(guān)系網(wǎng)能反映最新學(xué)術(shù)界關(guān)系情況。
[0017] 步驟2所述的作者關(guān)系權(quán)值模型定義如下:
[0018] 對于一篇論文P,包括通訊作者在內(nèi)共有N個作者,對于其中任意兩個作者A,B,設(shè) 作者A是論文P的第m作者,作者B是論文P的第η作者,論文P為作者A與B的關(guān)系值貢 獻的參考偵:Rclation<P,<A,B?=

【權(quán)利要求】
1. 一種基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)建方法,其特征在于, 通過如下步驟實現(xiàn): 步驟1、提取作者信息,構(gòu)建初始的作者關(guān)系矩陣;所述的作者關(guān)系矩陣的第i行第j 列的元素值為作者i和作者j的關(guān)系值,用0表示作者與自己的關(guān)系,-1表示兩位作者之 間的關(guān)系不可達;初始的作者關(guān)系矩陣中,對角線上元素值為0,其余位置元素值為-1; 步驟2 :建立作者關(guān)系權(quán)值模型,根據(jù)每篇論文的作者信息更新作者關(guān)系矩陣; 所述的作者關(guān)系權(quán)值模型為:設(shè)一篇論文P,包括通訊作者在內(nèi)共有N個作者,設(shè)作者A 和B分別為論文P的第m作者和第η作者,則論文P為作者A與B的關(guān)系值貢獻的參考值 Relation〈P,<A,B>> =
其中,C為第一作者和通訊作者的關(guān)系加強值;X表示作者機構(gòu)決定的作者關(guān)系的權(quán) 重;當(dāng)A和B屬于同一機構(gòu)或單位時,參數(shù)T的值為1,否則T的值為0 ;S為由作者次序反 映作者關(guān)系遠近信息的分界值;d表示第一作者和作者次序在S+1位之前的非通訊作者的 關(guān)系加強值;e表示第一作者和作者次序在S位之后的非通訊作者的關(guān)系在關(guān)系加強值d 基礎(chǔ)上的削弱值;所得到的參考值四舍五入到整數(shù); 設(shè)k篇論文為作者A和B的關(guān)系值貢獻的參考值分別為a, r2,…,rk,則作者A和B的 關(guān)系值為:π±ι<Α ,Β^ΣΙ ne'用得到的關(guān)系值更新作者關(guān)系矩陣中表示A和B關(guān)系值 的元素值; 步驟3 :基于步驟2更新的作者關(guān)系矩陣確定兩兩作者間最優(yōu)關(guān)系傳遞路徑,最優(yōu)關(guān)系 傳遞路徑需滿足以下幾個條件: 1) 兩者之間經(jīng)過的路徑絕對值長度最短; 2) 在所有最短路徑中關(guān)系值和最大; 3) 經(jīng)過的最短路徑小于6 ; 根據(jù)最優(yōu)關(guān)系傳遞路徑構(gòu)建作者關(guān)系圈; 步驟4、定期更新作者關(guān)系矩陣和作者關(guān)系圈。
2. 根據(jù)權(quán)利要求1所述的基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)建 方法,其特征在于,步驟3中所述的最優(yōu)關(guān)系傳遞路徑,具體獲取方法是: 步驟3. 1、將作者關(guān)系矩陣中作者集合記為W,M表示集合W的元素個數(shù),設(shè)置一個標志 數(shù)組s [v] [1,2···,M]記錄作者v到哪些作者的最優(yōu)關(guān)系傳遞路徑已經(jīng)找到,數(shù)組中1表示 最優(yōu)關(guān)系傳遞路徑已經(jīng)找到,0表示最優(yōu)關(guān)系傳遞路徑未找到; 初始時,S[v] [V] = 1 ;s[v] [i] = 0, i = 1,2···,Μ, i尹V ;lv、i分別為作者關(guān)系矩陣 中的第i作者、第v作者; 步驟3. 2、設(shè)置數(shù)組dist [v] [1,2···,M]記錄作者v到各作者的最優(yōu)關(guān)系傳遞路徑的路 徑長度,其中,dist[v] [i]記錄作者v到作者i的最優(yōu)關(guān)系傳遞路徑的路徑長度;初始時, dist[v][i]根據(jù)標志數(shù)組s來設(shè)置,若s[v][i] = 1,則設(shè)置dist[v][i] = 1,否則設(shè)置 dist[v] [i] = M; 步驟3. 3、設(shè)置數(shù)組path [v] [1,2···,M]記錄作者v到各作者的最優(yōu)關(guān)系傳遞路徑,其 中path[v][i]記錄作者v到作者i的最優(yōu)關(guān)系傳遞路徑;初始時,若s[v][i] = 1,設(shè)置 path[v] [i] = {i},否則,設(shè)置 path[i]為空; 步驟3. 4、利用標志數(shù)組s與作者關(guān)系矩陣,找出所有與作者v關(guān)系值超過閾值 maxRela的作者集合Uv : Uv = {u | u e W,且 u 尹 V,rela [V,u] >maxRela}, 其中,對于 Uv 中的任意 u,置 s[v] [u] = 1,更新 path[v] [u] = {u},更新 dist[v] [u] =1 ; 重復(fù)步驟3. 4M次,找到所有作者與其直接可達的作者; 步驟3. 5、對于步驟3. 4中確定的作者集合Uv,遍歷Uv中各作者u,并進行如下操作: 將作者v到作者u的路徑長度加到作者u到作者r的路徑長度上,得到dist [u] [r] +1, 對應(yīng)作者V通過作者U到達作者r的一條新關(guān)系傳遞路徑; 首先判斷dist [u] [r]+1是否小于6,若否,保持dist [v] [r]的值不變;若是,分如下三 種情況處理: (1) 若加后的長度dist[u] [r]+l小于當(dāng)前作者v到作者r的關(guān)系傳遞路徑長度 dist [v] [r],則將 dist [v] [r]的值替換為 dist [u] [r] +1 ; (2) 若加后的長度dist[u][r]+l等于當(dāng)前作者v到作者r的關(guān)系傳遞路徑長度 dist [v] [r],則比較新關(guān)系傳遞路徑上關(guān)系值的累加值是否大于原來關(guān)系傳遞路徑上關(guān)系 值的累加值,若是,將dist[v] [r]的值替換為dist[u] [r]+l,否則,保持dist[v] [r]的值不 變; (3) 若加后的長度dist[u] [r]+l大于當(dāng)前作者v到作者r的關(guān)系傳遞路徑長度 dist [v] [r],保持 dist [v] [r]的值不變; 若替換dist [v][r]的值,將更新作者v到作者r的關(guān)系傳遞路徑path [v][r]為:作者 v到作者u的關(guān)系傳遞路徑path [v] [u]再加作者u到作者r的關(guān)系傳遞路徑path [u] [r]; 重復(fù)步驟3. 5M次,得到作者關(guān)系矩陣中任意兩作者間的最優(yōu)關(guān)系傳遞路徑; 步驟3. 6、根據(jù)dist數(shù)組更新標志數(shù)組,對于作者關(guān)系矩陣中任意兩個作者i、j,i,j =1,2,…M,更新對應(yīng)的標志數(shù)組s[i] [j]為:
s[i][j] = 1表示作者i到作者j的最優(yōu)關(guān)系傳遞路徑已經(jīng)找到,s[i][j] =0表示作 者i到作者j的最優(yōu)關(guān)系傳遞路徑未找到。
3.根據(jù)權(quán)利要求2所述的基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)建 方法,其特征在于,步驟3. 4中所述的maxRela的取值范圍為1. 5?3. 5。
【文檔編號】G06F17/30GK104156437SQ201410395729
【公開日】2014年11月19日 申請日期:2014年8月13日 優(yōu)先權(quán)日:2014年8月13日
【發(fā)明者】袁偉, 鄧攀, 閆碧瑩, 李玉成 申請人:中科嘉速(北京)并行軟件有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1