基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法

文檔序號：6623289閱讀：215來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法
【專利摘要】本發(fā)明提供了一種基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法。本發(fā)明針對特定領(lǐng)域，首先提取作者庫中所有作者信息，構(gòu)建初始的作者關(guān)系矩陣，其次建立作者關(guān)系權(quán)值模型，根據(jù)每篇論文的作者信息更新作者關(guān)系矩陣，然后基于作者關(guān)系矩陣確定兩兩作者間最優(yōu)關(guān)系傳遞路徑，構(gòu)建作者關(guān)系圈；并定期更新作者關(guān)系矩陣和作者關(guān)系圈。其中兩兩作者間最優(yōu)關(guān)系傳遞路徑滿足條件：兩者之間經(jīng)過的路徑絕對值長度最短；在所有最短路徑中關(guān)系值和最大；經(jīng)過的最短路徑小于6。本發(fā)明的作者關(guān)系權(quán)值模型體現(xiàn)了一篇文章中不同作者的真實關(guān)系值，構(gòu)建的學(xué)術(shù)關(guān)系網(wǎng)更加合理，符合實際作者關(guān)系最優(yōu)值，并實時反映最新的學(xué)術(shù)關(guān)系。
【專利說明】基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機應(yīng)用【技術(shù)領(lǐng)域】，涉及基于關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法，特別涉及一種基于論文作者信息提取來獲取關(guān)系權(quán)值的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法。

【背景技術(shù)】
[0002] 1967年美國社會心理學(xué)家米爾格倫（Stanley Milgram)提出了一個"六度分離"（六度區(qū)隔）理論（Six Degrees of Separation)。該理論認為在人際交往的脈絡(luò)中，任意兩個陌生人都可以通過"親友的親友"建立聯(lián)系，這中間最多只要通過五個朋友就能達到目的。
[0003] 基于"六度分離"理論，2008年6月28日微軟悄然推出一款能夠直觀顯示被搜索者人脈關(guān)系的"人立方"關(guān)系搜索引擎。作為一款新型社會化搜索引擎，"人立方"關(guān)系搜索引擎能從超過十億的中文網(wǎng)頁中自動地抽取出人名、地名、機構(gòu)名以及中文短語，并自動計算出它們之間存在關(guān)系的可能性。用戶只要隨便輸入一個人物，"人立方"搜索將給出該人物的關(guān)系、網(wǎng)頁、資訊、簡介等眾多內(nèi)容。
[0004] 然而對于只關(guān)注特定學(xué)術(shù)領(lǐng)域的作者來說，通過現(xiàn)有人際關(guān)系網(wǎng)絡(luò)的搜索方法得到的人際關(guān)系結(jié)果中，關(guān)系傳遞路徑可能包含非學(xué)術(shù)領(lǐng)域的人員，結(jié)果路徑中公眾影響力巨大的名人比例較大，對于獲取實際的本學(xué)術(shù)領(lǐng)域內(nèi)的人際關(guān)系和人員信息的幫助甚小。
[0005] 針對學(xué)術(shù)領(lǐng)域的人際圈搜索萬方數(shù)據(jù)庫已經(jīng)有所嘗試，但是目前萬方學(xué)術(shù)圈搜索只支持對于直接人際關(guān)系的搜索，尚未通過間接人際關(guān)系來建立學(xué)術(shù)關(guān)系網(wǎng)。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明針對現(xiàn)有人際關(guān)系搜索方法對特定學(xué)術(shù)領(lǐng)域的搜索結(jié)果不理想的問題，提供了一種基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法。
[0007] 基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)建方法，包括如下步驟：
[0008] 步驟1、提取作者庫中所有作者信息，構(gòu)建初始的作者關(guān)系矩陣；
[0009] 所述的作者關(guān)系矩陣的第i行第j列的元素值為第i個作者和第j個作者的關(guān)系值，用〇表示作者與自己的關(guān)系，-1表示兩位作者之間的關(guān)系不可達；初始的作者關(guān)系矩陣中，對角線上元素值為0,其余位置元素值為-1 ;
[0010] 步驟2、建立作者關(guān)系權(quán)值模型，根據(jù)每篇論文的作者信息更新作者關(guān)系矩陣；
[0011] 步驟3、基于步驟2得到的作者關(guān)系矩陣確定兩兩作者間最優(yōu)關(guān)系傳遞路徑，根據(jù) 最優(yōu)關(guān)系傳遞路徑構(gòu)建作者關(guān)系圈；
[0012] 所述的兩兩作者間最優(yōu)關(guān)系傳遞路徑需滿足以下幾個條件：
[0013] 1)兩者之間經(jīng)過的路徑絕對值長度最短；
[0014] 2)在所有最短路徑中關(guān)系值和最大；
[0015] 3)經(jīng)過的最短路徑小于6。
[0016] 步驟4、定期更新作者關(guān)系矩陣和作者關(guān)系圈。由于學(xué)術(shù)論文庫是動態(tài)的、不斷更新的，該方法對學(xué)術(shù)論文庫進行定期掃描以更新作者關(guān)系矩陣和作者關(guān)系圈，保證該方法建立的作者關(guān)系矩陣和學(xué)術(shù)關(guān)系網(wǎng)能反映最新學(xué)術(shù)界關(guān)系情況。
[0017] 步驟2所述的作者關(guān)系權(quán)值模型定義如下：
[0018] 對于一篇論文P，包括通訊作者在內(nèi)共有N個作者，對于其中任意兩個作者A，B，設(shè) 作者A是論文P的第m作者，作者B是論文P的第η作者，論文P為作者A與B的關(guān)系值貢獻的參考偵:Rclation<P,<A，B?=

【權(quán)利要求】
1. 一種基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)建方法，其特征在于，通過如下步驟實現(xiàn)：步驟1、提取作者信息，構(gòu)建初始的作者關(guān)系矩陣；所述的作者關(guān)系矩陣的第i行第j 列的元素值為作者i和作者j的關(guān)系值，用0表示作者與自己的關(guān)系，-1表示兩位作者之間的關(guān)系不可達；初始的作者關(guān)系矩陣中，對角線上元素值為0,其余位置元素值為-1; 步驟2 :建立作者關(guān)系權(quán)值模型，根據(jù)每篇論文的作者信息更新作者關(guān)系矩陣；所述的作者關(guān)系權(quán)值模型為：設(shè)一篇論文P，包括通訊作者在內(nèi)共有N個作者，設(shè)作者A 和B分別為論文P的第m作者和第η作者，則論文P為作者A與B的關(guān)系值貢獻的參考值 Relation〈P，<A，B>> =
其中，C為第一作者和通訊作者的關(guān)系加強值；X表示作者機構(gòu)決定的作者關(guān)系的權(quán) 重；當(dāng)A和B屬于同一機構(gòu)或單位時，參數(shù)T的值為1，否則T的值為0 ;S為由作者次序反映作者關(guān)系遠近信息的分界值；d表示第一作者和作者次序在S+1位之前的非通訊作者的關(guān)系加強值；e表示第一作者和作者次序在S位之后的非通訊作者的關(guān)系在關(guān)系加強值d 基礎(chǔ)上的削弱值；所得到的參考值四舍五入到整數(shù)；設(shè)k篇論文為作者A和B的關(guān)系值貢獻的參考值分別為a, r2,…，rk,則作者A和B的關(guān)系值為：π±ι<Α ,Β^ΣΙ ne'用得到的關(guān)系值更新作者關(guān)系矩陣中表示A和B關(guān)系值的元素值；步驟3 :基于步驟2更新的作者關(guān)系矩陣確定兩兩作者間最優(yōu)關(guān)系傳遞路徑，最優(yōu)關(guān)系傳遞路徑需滿足以下幾個條件： 1) 兩者之間經(jīng)過的路徑絕對值長度最短； 2) 在所有最短路徑中關(guān)系值和最大； 3) 經(jīng)過的最短路徑小于6 ; 根據(jù)最優(yōu)關(guān)系傳遞路徑構(gòu)建作者關(guān)系圈；步驟4、定期更新作者關(guān)系矩陣和作者關(guān)系圈。
2. 根據(jù)權(quán)利要求1所述的基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)建方法，其特征在于，步驟3中所述的最優(yōu)關(guān)系傳遞路徑，具體獲取方法是：步驟3. 1、將作者關(guān)系矩陣中作者集合記為W，M表示集合W的元素個數(shù)，設(shè)置一個標志數(shù)組s [v] [1，2···，M]記錄作者v到哪些作者的最優(yōu)關(guān)系傳遞路徑已經(jīng)找到，數(shù)組中1表示最優(yōu)關(guān)系傳遞路徑已經(jīng)找到，0表示最優(yōu)關(guān)系傳遞路徑未找到；初始時，S[v] [V] = 1 ;s[v] [i] = 0, i = 1，2···，Μ, i尹V ;lv、i分別為作者關(guān)系矩陣中的第i作者、第v作者；步驟3. 2、設(shè)置數(shù)組dist [v] [1，2···，M]記錄作者v到各作者的最優(yōu)關(guān)系傳遞路徑的路徑長度，其中，dist[v] [i]記錄作者v到作者i的最優(yōu)關(guān)系傳遞路徑的路徑長度；初始時， dist[v][i]根據(jù)標志數(shù)組s來設(shè)置，若s[v][i] = 1，則設(shè)置dist[v][i] = 1，否則設(shè)置 dist[v] [i] = M；步驟3. 3、設(shè)置數(shù)組path [v] [1，2···，M]記錄作者v到各作者的最優(yōu)關(guān)系傳遞路徑，其中path[v][i]記錄作者v到作者i的最優(yōu)關(guān)系傳遞路徑；初始時，若s[v][i] = 1，設(shè)置 path[v] [i] = {i},否則，設(shè)置 path[i]為空；步驟3. 4、利用標志數(shù)組s與作者關(guān)系矩陣，找出所有與作者v關(guān)系值超過閾值 maxRela的作者集合Uv : Uv = {u | u e W，且 u 尹 V，rela [V，u] >maxRela}，其中，對于 Uv 中的任意 u，置 s[v] [u] = 1，更新 path[v] [u] = {u}，更新 dist[v] [u] =1 ; 重復(fù)步驟3. 4M次，找到所有作者與其直接可達的作者；步驟3. 5、對于步驟3. 4中確定的作者集合Uv，遍歷Uv中各作者u，并進行如下操作：將作者v到作者u的路徑長度加到作者u到作者r的路徑長度上，得到dist [u] [r] +1，對應(yīng)作者V通過作者U到達作者r的一條新關(guān)系傳遞路徑；首先判斷dist [u] [r]+1是否小于6,若否，保持dist [v] [r]的值不變；若是，分如下三種情況處理： (1) 若加后的長度dist[u] [r]+l小于當(dāng)前作者v到作者r的關(guān)系傳遞路徑長度 dist [v] [r]，則將 dist [v] [r]的值替換為 dist [u] [r] +1 ; (2) 若加后的長度dist[u][r]+l等于當(dāng)前作者v到作者r的關(guān)系傳遞路徑長度 dist [v] [r]，則比較新關(guān)系傳遞路徑上關(guān)系值的累加值是否大于原來關(guān)系傳遞路徑上關(guān)系值的累加值，若是，將dist[v] [r]的值替換為dist[u] [r]+l，否則，保持dist[v] [r]的值不變； (3) 若加后的長度dist[u] [r]+l大于當(dāng)前作者v到作者r的關(guān)系傳遞路徑長度 dist [v] [r]，保持 dist [v] [r]的值不變；若替換dist [v][r]的值，將更新作者v到作者r的關(guān)系傳遞路徑path [v][r]為：作者 v到作者u的關(guān)系傳遞路徑path [v] [u]再加作者u到作者r的關(guān)系傳遞路徑path [u] [r]; 重復(fù)步驟3. 5M次，得到作者關(guān)系矩陣中任意兩作者間的最優(yōu)關(guān)系傳遞路徑；步驟3. 6、根據(jù)dist數(shù)組更新標志數(shù)組，對于作者關(guān)系矩陣中任意兩個作者i、j，i，j =1，2,…M，更新對應(yīng)的標志數(shù)組s[i] [j]為：
s[i][j] = 1表示作者i到作者j的最優(yōu)關(guān)系傳遞路徑已經(jīng)找到，s[i][j] =0表示作者i到作者j的最優(yōu)關(guān)系傳遞路徑未找到。
3.根據(jù)權(quán)利要求2所述的基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)建方法，其特征在于，步驟3. 4中所述的maxRela的取值范圍為1. 5?3. 5。
【文檔編號】G06F17/30GK104156437SQ201410395729
【公開日】2014年11月19日申請日期:2014年8月13日優(yōu)先權(quán)日:2014年8月13日
【發(fā)明者】袁偉, 鄧攀, 閆碧瑩, 李玉成申請人:中科嘉速(北京)并行軟件有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：袁偉;鄧攀;閆碧瑩;李玉成
技術(shù)所有人：中科嘉速(北京)并行軟件有限公司
我是此專利的發(fā)明人

上一篇：一種觸摸屏生產(chǎn)工藝的制作方法
上一篇：一種觸摸屏fpc綁定工藝的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

游戲模型提取工具相關(guān)技術(shù)

游戲模型提取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于論文作者信息提取和關(guān)系權(quán)值模型的學(xué)術(shù)關(guān)系網(wǎng)構(gòu)造方法