本發(fā)明涉及電子信息,特別涉及一種基于翻譯機(jī)制的科研合作預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、newman最早將復(fù)雜網(wǎng)絡(luò)分析方法引入科研合作網(wǎng)絡(luò)中,通過研究網(wǎng)絡(luò)的各種聚類系數(shù)、中心度、合作強(qiáng)度和平均距離等特征,以發(fā)現(xiàn)網(wǎng)絡(luò)中高影響力作者。liben-nowell等人則是首次提出了合作網(wǎng)絡(luò)的鏈路預(yù)測(cè)問題,利用jaccard系數(shù)、共同鄰居和simrank等指標(biāo)計(jì)算節(jié)點(diǎn)間相似度,進(jìn)而基于相似度進(jìn)行鏈路預(yù)測(cè)。孫曉玲等結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)屬性提出了一個(gè)以興趣和事件為驅(qū)動(dòng)的合作網(wǎng)絡(luò)演化模型,并利用模型生成網(wǎng)絡(luò)的屬性和模式進(jìn)行無監(jiān)督的鏈路預(yù)測(cè),預(yù)測(cè)了未來可能形成的合作關(guān)系。劉竟等從網(wǎng)絡(luò)的小世界和無標(biāo)度特性出發(fā),通過cosine距離和katz指標(biāo)衡量網(wǎng)絡(luò)中科研人員的研究興趣相似性和連通路徑相似性,在鏈路預(yù)測(cè)的基礎(chǔ)上構(gòu)建加權(quán)預(yù)測(cè)模型。汪志兵等利用作者節(jié)點(diǎn)屬性特征,構(gòu)建了基于合作機(jī)構(gòu)偏好相似性的idf?和?iccr?指標(biāo),并將其與aa、cn、katz和lp等基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似性的指標(biāo)加權(quán)融合,從而形成了8種潛在合作關(guān)系的預(yù)測(cè)指標(biāo),最后利用指標(biāo)進(jìn)行鏈路預(yù)測(cè)。除此之外,部分研究者在合作網(wǎng)絡(luò)的基礎(chǔ)上,引入作者、研究機(jī)構(gòu)、關(guān)鍵詞、參考文獻(xiàn)和期刊等多種特征構(gòu)建異構(gòu)網(wǎng)絡(luò)。張金柱等基于合作關(guān)系和關(guān)鍵詞形成的關(guān)聯(lián)關(guān)系構(gòu)建了作者-關(guān)鍵詞二分網(wǎng)絡(luò),抽取網(wǎng)絡(luò)上的多種路徑來表征作者間的合作關(guān)系,并根據(jù)合作強(qiáng)度的計(jì)算方法形成了多種合作關(guān)系的預(yù)測(cè)指標(biāo)。luong?n?t等在dblp數(shù)據(jù)集上構(gòu)建了作者-文獻(xiàn)-術(shù)語-會(huì)議網(wǎng)絡(luò),使用多種的相似度計(jì)算方法和隨機(jī)游走模型預(yù)測(cè)作者間的潛在合作關(guān)系。張金柱等首先構(gòu)建了文獻(xiàn)-作者二分網(wǎng)絡(luò)并將其投影為合作網(wǎng)絡(luò),然后抽取網(wǎng)絡(luò)中的二階和三階路徑特征,最后利用邏輯回歸模型學(xué)習(xí)不同路徑特征對(duì)合作關(guān)系的貢獻(xiàn)度。艾科等綜合考慮了論文、機(jī)構(gòu)和研究興趣等屬性,從標(biāo)題、發(fā)文數(shù)量、署名順序和時(shí)間等多個(gè)維度構(gòu)造樣本特征,提出了基于集成學(xué)習(xí)的科研合作潛力預(yù)測(cè)模型。
2、隨著表示學(xué)習(xí)技術(shù)在自然語言處理和復(fù)雜網(wǎng)絡(luò)中的發(fā)展和應(yīng)用,科研人員開始將表示學(xué)習(xí)引入科研合作預(yù)測(cè)中。張金柱等利用經(jīng)典的網(wǎng)絡(luò)表示學(xué)習(xí)方法line,將節(jié)點(diǎn)的鄰接信息映射到節(jié)點(diǎn)向量中,并基于節(jié)點(diǎn)向量計(jì)算作者間的相似度,相似度越高的兩個(gè)作者在未來更容易形成合作關(guān)系。余傳明等利用deepwalk和node2vec模型學(xué)習(xí)網(wǎng)絡(luò)整體拓?fù)浣Y(jié)構(gòu)特征,利用line和?sdne模型學(xué)習(xí)網(wǎng)絡(luò)局部的鄰接結(jié)構(gòu)特征,并將兩種特征加權(quán)融合得到節(jié)點(diǎn)的向量表示,最后基于邏輯回歸模型進(jìn)行關(guān)系預(yù)測(cè)。林原等將關(guān)鍵詞共現(xiàn)、作者共現(xiàn)、機(jī)構(gòu)共現(xiàn)、作者-關(guān)鍵詞共現(xiàn)等多種共現(xiàn)特征融入表示學(xué)習(xí)模型中,通過節(jié)點(diǎn)向量間的歐式距離來度量節(jié)點(diǎn)間的關(guān)聯(lián)強(qiáng)度,從而實(shí)現(xiàn)潛在合作對(duì)象的預(yù)測(cè)。然而,上述基于表示學(xué)習(xí)的預(yù)測(cè)方法存在一定不足,如僅僅考慮了節(jié)點(diǎn)特征,忽略了邊上的標(biāo)題、摘要等文本的語義信息,造成數(shù)據(jù)分析的不完整和預(yù)測(cè)的準(zhǔn)確度不夠等問題;并且預(yù)測(cè)任務(wù)往往以合作的可能性為研究目標(biāo),對(duì)科研合作的研究主題缺乏預(yù)判性指導(dǎo)。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中存在的問題,提供了一種基于翻譯機(jī)制的科研合作預(yù)測(cè)方法及系統(tǒng),
2、本發(fā)明第一方面提出了一種基于翻譯機(jī)制的科研合作預(yù)測(cè)方法,包括:
3、構(gòu)建科研合作網(wǎng)絡(luò),其中,將作者或機(jī)構(gòu)實(shí)體作為科研合作網(wǎng)絡(luò)節(jié)點(diǎn),實(shí)體間的合作、隸屬關(guān)系作為科研合作網(wǎng)絡(luò)中的邊;
4、基于科研合作網(wǎng)絡(luò)中節(jié)點(diǎn)的貢獻(xiàn)度生成三元組;
5、抽取實(shí)體隱含的主題信息構(gòu)建實(shí)體向量;
6、結(jié)合翻譯機(jī)制抽取科研合作網(wǎng)絡(luò)中描述文檔的主題信息構(gòu)建關(guān)系向量;
7、根據(jù)兩個(gè)實(shí)體的實(shí)體向量以及兩者之間的關(guān)系向量計(jì)算距離,完成科研合作預(yù)測(cè)。
8、作為一種優(yōu)選方案,所述構(gòu)建科研合作網(wǎng)絡(luò)具體方法為:
9、對(duì)科技文獻(xiàn)進(jìn)行文本分割得到句子集;
10、給定實(shí)體類型列表,利用大語言模型判斷句子文本特征與不同實(shí)體類型的匹配概率,剔除概率小于預(yù)設(shè)閾值的實(shí)體類型,得到科技文獻(xiàn)實(shí)際包含的實(shí)體列表;
11、給定多元關(guān)系類型列表,利用大語言模型判斷并得到實(shí)體列表中實(shí)體的對(duì)應(yīng)關(guān)系類型;
12、將實(shí)體作為節(jié)點(diǎn),實(shí)體間的合作、隸屬關(guān)系作為邊,構(gòu)建科研合作網(wǎng)絡(luò)。
13、作為一種優(yōu)選方案,所述基于科研合作網(wǎng)絡(luò)中節(jié)點(diǎn)的貢獻(xiàn)度生成有效三元組,具體包括:
14、對(duì)于邊,其中,節(jié)點(diǎn) u和 v表示作者或機(jī)構(gòu),邊e表示節(jié)點(diǎn)間的合作或隸屬關(guān)系, e是邊集;
15、計(jì)算科技文獻(xiàn) d中節(jié)點(diǎn) u和節(jié)點(diǎn) v的貢獻(xiàn)度,進(jìn)而得到則節(jié)點(diǎn) u和 v相對(duì)科技文獻(xiàn) d的貢獻(xiàn)度為:
16、
17、
18、若節(jié)點(diǎn) u與 v在n篇科技文獻(xiàn)中同時(shí)出現(xiàn),則定義累加貢獻(xiàn)度,;
19、若,則表示節(jié)點(diǎn)對(duì)關(guān)系的貢獻(xiàn)大于,生成三元組;反之,生成三元組;
20、對(duì)所有節(jié)點(diǎn)生成三元組,得到科研網(wǎng)絡(luò)的三元組集。
21、作為一種優(yōu)選方案,所述節(jié)點(diǎn) u和節(jié)點(diǎn) v的貢獻(xiàn)度,具體為:
22、
23、
24、其中,表示節(jié)點(diǎn)對(duì)應(yīng)實(shí)體在文獻(xiàn)中的出現(xiàn)頻次。
25、作為一種優(yōu)選方案,所述抽取實(shí)體隱含的主題信息構(gòu)建實(shí)體向量,具體包括:
26、將實(shí)體的描述文本輸入lda模型,輸出文本-主題矩陣和主題-單詞矩陣,利用文本-主題矩陣將實(shí)體映射為主題分布向量;
27、利用深度自編碼器建模實(shí)體-主題分布特征,深度自編碼器通過n個(gè)隱層將主題分布向量映射到一個(gè)低維的向量表示空間中得到實(shí)體向量。
28、作為一種優(yōu)選方案,所述抽取科研合作網(wǎng)絡(luò)中描述文檔的主題信息構(gòu)建關(guān)系向量,具體包括:
29、基于翻譯機(jī)制建立實(shí)體向量、關(guān)系向量的翻譯關(guān)系;
30、采用隨機(jī)梯度下降算法對(duì)科研合作網(wǎng)絡(luò)中所有邊對(duì)應(yīng)的關(guān)系向量進(jìn)行學(xué)習(xí)。
31、作為一種優(yōu)選方案,所述基于翻譯機(jī)制建立實(shí)體向量、關(guān)系向量的翻譯關(guān)系,具體包括:
32、對(duì)于任一條邊,將該條邊所對(duì)應(yīng)的關(guān)系向量看作從的實(shí)體向量到的實(shí)體向量的翻譯,形式化為:
33、
34、其中,是與實(shí)體相關(guān)的映射矩陣。
35、作為一種優(yōu)選方案,所述采用隨機(jī)梯度下降算法對(duì)科研合作網(wǎng)絡(luò)中所有邊對(duì)應(yīng)的關(guān)系向量進(jìn)行學(xué)習(xí),具體包括:
36、基于科技文獻(xiàn)的描述文檔集訓(xùn)練lda主題模型,生成文本-主題矩陣,利用文本主題矩陣將實(shí)體映射為主題分布向量;基于深度自編碼器將主題分布向量轉(zhuǎn)換為編碼矩陣,得到初始的實(shí)體向量;
37、在每一次迭代中,從科研合作網(wǎng)絡(luò)生成的三元組集s里隨機(jī)選取小批量三元組,其中每個(gè)正三元組對(duì)應(yīng)生成一個(gè)負(fù)三元組集;在一對(duì)正負(fù)三元組訓(xùn)練中,計(jì)算梯度并更新關(guān)系向量;
38、學(xué)習(xí)過程中,目標(biāo)函數(shù)設(shè)置為:
39、
40、其中,返回 x和0中較大的值,是正三元組和負(fù)三元組間的最大間隔距離,為向量之間的l1或l2距離,為向量之間的l1或l2距離;是科研合作網(wǎng)絡(luò) g生成正三元組集,將中的 u和 v隨機(jī)替換為節(jié)點(diǎn)集中的另一個(gè)不同的節(jié)點(diǎn)得到負(fù)三元集,即:
41、
42、其中,為科研合作網(wǎng)絡(luò)的實(shí)體集。
43、作為一種優(yōu)選方案,所述根據(jù)兩個(gè)實(shí)體的實(shí)體向量以及兩者之間的關(guān)系向量計(jì)算距離,具體包括:
44、距離函數(shù)定義為:
45、
46、其中,為向量之間的l1或l2距離,表示節(jié)點(diǎn)與節(jié)點(diǎn)的邊,為節(jié)點(diǎn)的實(shí)體向量,為節(jié)點(diǎn)的實(shí)體向量,為邊所對(duì)應(yīng)的關(guān)系向量;
47、若小于預(yù)設(shè)閾值,則表示節(jié)點(diǎn) u和節(jié)點(diǎn) v具有科研合作可能。
48、本發(fā)明第二方面提出了一種基于翻譯機(jī)制的科研合作預(yù)測(cè)系統(tǒng),包括存儲(chǔ)器和處理器,在存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器加載并執(zhí)行程序?qū)崿F(xiàn)第一方面所述的方法。
49、與現(xiàn)有技術(shù)相比,采用上述技術(shù)方案的有益效果為:本發(fā)明將科合作網(wǎng)絡(luò)中的邊看作節(jié)點(diǎn)間的翻譯過程,并且通過lda主題模型和深度自編碼器學(xué)習(xí)了邊的主題特征。針對(duì)科研合作網(wǎng)絡(luò)的無向性,基于作者的累加貢獻(xiàn)度確定邊的方向,進(jìn)而生成無干擾的三元組集,大大的地提升了表示向量的效果和預(yù)測(cè)能力。