專利名稱:一種有效的學(xué)術(shù)合作關(guān)系網(wǎng)絡(luò)協(xié)作構(gòu)建與自適應(yīng)進(jìn)化方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)狀數(shù)據(jù)挖掘與知識(shí)服務(wù)領(lǐng)域,涉及學(xué)術(shù)合作關(guān)系網(wǎng)絡(luò)協(xié)作構(gòu)建、數(shù)據(jù)內(nèi)在關(guān)聯(lián)智能進(jìn)化、數(shù)據(jù)組織存儲(chǔ)與服務(wù),特別涉及一種開放式、智能化的學(xué)術(shù)合作關(guān)系網(wǎng)絡(luò)協(xié)作構(gòu)建與自適應(yīng)進(jìn)化方法。
現(xiàn)有技術(shù)知識(shí)日新月異,信息技術(shù)的發(fā)展為知識(shí)的傳播提供了便捷的手段,學(xué)術(shù)主頁作為一種自主創(chuàng)建、自我管理、低廉高效的研究成果匯聚地,高度濃縮了用戶的研究興趣、研究成果、甚至個(gè)人愛好等信息,成為知識(shí)傳播與共享的有效平臺(tái)。雖然IEEE、SC1、EI等專業(yè)文獻(xiàn)庫(kù)更有體系,但這些數(shù)據(jù)庫(kù)從論文發(fā)表到入庫(kù)歸檔需要相當(dāng)長(zhǎng)的時(shí)間周期,與最新研究進(jìn)展之間存在一定的延遲;另外這些文獻(xiàn)庫(kù)一般需要付費(fèi)后才能使用和下載資源,增加了知識(shí)傳播的成本。而學(xué)術(shù)主頁中資源免費(fèi)開放,且自我管理,最新成果和得意之作可由用戶自主更新和推送,并能加注各種評(píng)論和建議,比冰冷古板的專業(yè)文獻(xiàn)庫(kù)更為靈活和人性化。學(xué)術(shù)主頁對(duì)個(gè)人學(xué)術(shù)影響力的提升及論文引用率的提高具有重要的推動(dòng)作用,其效果得到了廣泛的認(rèn)可,據(jù)初步統(tǒng)計(jì),目前75%的研究者都建有自己的學(xué)術(shù)主頁。但目前學(xué)術(shù)主頁主要以自建自管為主,互不相連,處于信息孤島的原始狀態(tài),雖然也有部分通過人工編制超鏈接的方式與他人進(jìn)行關(guān)聯(lián),但不具備自動(dòng)發(fā)現(xiàn)和維護(hù)的能力,總體呈現(xiàn)出封閉、隔離、冗余的離散狀態(tài),大大制約了知識(shí)的深度挖掘與可用性的提升。
發(fā)明內(nèi)容
本發(fā)明實(shí)現(xiàn)一種向用戶透明的合作關(guān)系智能化協(xié)作構(gòu)建方法,解決目前自建主頁存在的冗余離散問題,構(gòu)建以學(xué)術(shù)主頁為節(jié)點(diǎn),以合作關(guān)系為邊的學(xué)術(shù)合作關(guān)系網(wǎng)絡(luò)。其貢獻(xiàn)在于首先,實(shí)現(xiàn)一種自動(dòng)化、協(xié)作式的學(xué)術(shù)主頁生成與內(nèi)在關(guān)聯(lián)智能化識(shí)別方法;其次,針對(duì)原始關(guān)聯(lián)中存在的錯(cuò)誤,實(shí)現(xiàn)一種自適應(yīng)調(diào)整和進(jìn)化方法,對(duì)關(guān)聯(lián)進(jìn)行切分、挪移、合并;最后,通過多用戶協(xié)作和迭代,使網(wǎng)絡(luò)不斷進(jìn)化,逐步形成一幅連接正確、動(dòng)態(tài)演化的學(xué)術(shù)合作關(guān)系生態(tài)網(wǎng)絡(luò)。本發(fā)明所提出的協(xié)作構(gòu)建方法從網(wǎng)絡(luò)初建到后期進(jìn)化均以智能方式自動(dòng)進(jìn)行,用戶只需按照用戶注冊(cè)、增刪論文等日常操作維護(hù)自己的主頁,系統(tǒng)便可自動(dòng)學(xué)習(xí),自動(dòng)處理同名混淆、關(guān)聯(lián)錯(cuò)誤等問題,逐步向正確狀態(tài)收斂。
附圖1協(xié)作注冊(cè)階段的接口 ;附圖2合作關(guān)系網(wǎng)絡(luò)可視化呈現(xiàn);下面結(jié)合附圖對(duì)本發(fā)明的內(nèi)容作進(jìn)一步詳細(xì)說明。
具體實(shí)施方案
1.協(xié)作注冊(cè)協(xié)作注冊(cè)接口如圖1所示,輸入信息包括有效的email、真實(shí)姓名、密碼以及備選論文。備選論文作為主要輸入源于兩種途徑:已經(jīng)被錄入的論文(系統(tǒng)內(nèi))Sin和外部文獻(xiàn)(如DBLP、CiteSeer等)Sout,這兩部分論文互為補(bǔ)集,即Sin ^ Sout = Φ ,圖1展示的注冊(cè)者“Lin Chen”的相關(guān)論文列表片段。協(xié)作注冊(cè)正是通過作者對(duì)論文的選擇情況,為作者分配合適的ID,并為論文找到合適的歸屬。注冊(cè)的本質(zhì)是為用戶分配合適的賬號(hào)ID。在電子郵箱、電子商務(wù)、實(shí)時(shí)通信等應(yīng)用中,賬號(hào)由自己給定或由系統(tǒng)產(chǎn)生,處理流程非常簡(jiǎn)單,但在學(xué)術(shù)合作關(guān)系網(wǎng)絡(luò)構(gòu)建過程中,賬戶注冊(cè)以創(chuàng)建學(xué)術(shù)主頁、并與他人正確關(guān)聯(lián)為目的,與上述賬號(hào)創(chuàng)建過程截然不同:I) 一個(gè)用戶注冊(cè),將帶入很多合作者,需要同時(shí)考慮注冊(cè)者及合作者的ID產(chǎn)生問題;2)很多人已經(jīng)被“被動(dòng)的”帶入系統(tǒng),當(dāng)再次被其他注冊(cè)者帶入或自己注冊(cè)時(shí),必須從系統(tǒng)中正確識(shí)別出該人,但系統(tǒng)中存在無法預(yù)知的同名現(xiàn)象,正確識(shí)別很有挑戰(zhàn);3)用戶選擇論文時(shí)可能出現(xiàn)多選、少選、錯(cuò)選等失誤,系統(tǒng)必須能夠自我修復(fù),具有一定容錯(cuò)糾錯(cuò)性。4)整個(gè)進(jìn)化過程對(duì)用戶透明,用戶只需進(jìn)行普通的增刪操作,無需費(fèi)時(shí)費(fèi)力的人工溝通與確認(rèn),這種低參與度的進(jìn)化方式大大增加了網(wǎng)絡(luò)構(gòu)建的難度。協(xié)作注冊(cè)根據(jù)注冊(cè)者選擇論文的情況通過“直接新建”、“粘合度計(jì)算”等方法為注冊(cè)者分配合適的ID,并確定論文合適的歸屬。注冊(cè)過程基于以下前提:前提I 后來注冊(cè)者為準(zhǔn)”,意味著如果某篇論文第一次被某個(gè)作者劃入自己名下,但是,后來又有注冊(cè)者認(rèn)為該論文屬于自己,并進(jìn)行了選擇,那么系統(tǒng)將判定該論文屬于后者。前提2 保留現(xiàn)有”,是指如果Sin中已經(jīng)有了某作者的姓名,那么將用該作者的ID去表示Srat中對(duì)應(yīng)的作者。前提3 粘合度大者優(yōu)先”,是指如有賬號(hào)不同的兩個(gè)同名者,那么選擇與本次錄入論文作者集合的粘合度大的作者ID作為該用戶的ID。所謂粘合度是指某個(gè)作者的合作者全集與另一作者集合的交集占合作者全集的比例,計(jì)算公式可表示為:μ ,)=' , y,
I C( ,)l其中C(Ui)表示作者Ui的合作者集合,A(Srat)表示Srat中的作者集合。具體步驟如下:Stepl:以“直接新建”的方式為注冊(cè)者創(chuàng)建ID,并將選中的論文歸入注冊(cè)者名下,即以新建ID表示Sin和Srat作者列表中的注冊(cè)者姓名;“直接新建”在進(jìn)化過程中發(fā)揮著“切分”與“合并”的雙重作用,用來吸納遺漏論文,分離錯(cuò)分論文,是關(guān)聯(lián)關(guān)系是否需要調(diào)整的最終仲裁?!昂髞碜?cè)者為準(zhǔn)”是協(xié)作構(gòu)建的一個(gè)重要前提,正是這種通過這種“爭(zhēng)執(zhí)”使得論文逐步趨于正確狀態(tài)。Step2:為合作者分配ID。從Swt中獲得新帶入的合作者集合,并判斷這些合作者在Sin中是否存在,若不存在,至直接新建ID ;St印3:若存在一個(gè),只直接采用現(xiàn)有ID ;Step4:若有多個(gè),則采用如下“粘合度”判定方法進(jìn)行ID生成;
St印5:“粘合度”算法。設(shè)系統(tǒng)中有m個(gè)同名者# = { ,.}=;
a)計(jì)算獲得每個(gè)同名者的合作者集合C(Ui);b)計(jì)算Swt的作者集合A(Swt);c)計(jì)算作者U1與A(Stjut)的粘合度:
權(quán)利要求
1.一種有效的學(xué)術(shù)合作關(guān)系網(wǎng)絡(luò)協(xié)作構(gòu)建與自適應(yīng)進(jìn)化方法,其特征在于:利用用戶潛在的協(xié)作關(guān)系,建立一種無需用戶人為溝通確認(rèn)、參與度低的合作關(guān)系構(gòu)建方法,其次,針對(duì)數(shù)據(jù)錄入中存在人為失誤及系統(tǒng)失誤,實(shí)現(xiàn)一種可自我修復(fù)、自動(dòng)進(jìn)化的數(shù)據(jù)關(guān)聯(lián)修正方法,最后,通過多用戶協(xié)作,構(gòu)建一種以學(xué)術(shù)主頁為節(jié)點(diǎn),以合作關(guān)系為邊、可動(dòng)態(tài)進(jìn)化的學(xué)術(shù)合作關(guān)系網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的協(xié)作注冊(cè)方法,其特征在于:首先,借助DBLP等公開文獻(xiàn)庫(kù),通過論文認(rèn)領(lǐng)的方式協(xié)助論文條目信息錄入,實(shí)現(xiàn)學(xué)術(shù)主頁的快速建立;其次,根據(jù)注冊(cè)者在系統(tǒng)內(nèi)部以及系統(tǒng)外部文獻(xiàn)庫(kù)的論文選擇情況,基于“后來者為準(zhǔn)”的原則采用“直接新建”的方法為注冊(cè)者新建ID ;最后,基于“盡量保留”與“粘合度”算法為合作者分配ID,并調(diào)整論文歸屬。
3.根據(jù)權(quán)利要求1所述的后期進(jìn)化方法,針對(duì)初建關(guān)聯(lián)時(shí)可能存在的錯(cuò)位、論文歸屬錯(cuò)誤等問題,實(shí)現(xiàn)一種自動(dòng)關(guān)聯(lián)修正和論文歸屬調(diào)整方法。其特征在于,首先,針對(duì)關(guān)聯(lián)錯(cuò)位問題,通過后續(xù)用戶注冊(cè),基于“后來者為準(zhǔn)”原則,對(duì)關(guān)聯(lián)關(guān)系不斷切分、合并、挪移;其次,針對(duì)論文錯(cuò)分問題,通過用戶移除操作,釋放論文,使其重回模糊待領(lǐng)狀態(tài);最后,通過開放式的自由協(xié)作,使得關(guān)聯(lián)關(guān)系不斷進(jìn)化,形成一幅正確、可動(dòng)態(tài)演化的合作關(guān)系網(wǎng)絡(luò)。
全文摘要
本發(fā)明屬于數(shù)據(jù)挖掘與知識(shí)服務(wù)領(lǐng)域,涉及學(xué)術(shù)合作關(guān)系網(wǎng)絡(luò)協(xié)作構(gòu)建、網(wǎng)絡(luò)結(jié)構(gòu)自適應(yīng)進(jìn)化、網(wǎng)絡(luò)存儲(chǔ)與分析等技術(shù),公開了一種無障礙、少干預(yù)的學(xué)術(shù)合作關(guān)系協(xié)作構(gòu)建與自適應(yīng)進(jìn)化方法,用來構(gòu)建一張以學(xué)術(shù)主頁為節(jié)點(diǎn)、以合作關(guān)系為連接的學(xué)術(shù)合作網(wǎng)絡(luò),為后續(xù)網(wǎng)狀數(shù)據(jù)挖掘、社區(qū)發(fā)現(xiàn)與個(gè)性化推薦、全景式協(xié)作學(xué)習(xí)等知識(shí)服務(wù)奠定基礎(chǔ)。
文檔編號(hào)G06F17/30GK103077175SQ20121000950
公開日2013年5月1日 申請(qǐng)日期2012年1月12日 優(yōu)先權(quán)日2012年1月12日
發(fā)明者鄧萬宇, 陳琳 申請(qǐng)人:西安郵電學(xué)院