1.一種基于引用關(guān)系分布式表達(dá)的論文推薦方法,其特征在于,包括以下步驟:
步驟1:基于所有待研究論文生成ID字典,即為每篇論文賦予一個唯一的索引鍵,同時(shí)利用論文的相互引用關(guān)系生成論文引用網(wǎng)絡(luò),并建立論文引用權(quán)重矩陣M,權(quán)重矩陣M是基于論文索引標(biāo)識構(gòu)建的n行n列的矩陣;
步驟2:使用最小化代價(jià)函數(shù)的方法,對權(quán)重矩陣M做矩陣分解,將矩陣M擬合成W*T的形式,其中W是n行m列的矩陣,T是m行n列的矩陣;其中m<n,以達(dá)到降維的作用;用隨機(jī)梯度下降法求出W和T矩陣;其中W的行向量與T的列向量等價(jià)的包含了每篇論文的分布式向量的表達(dá),且互為對偶;使用W的行向量來作為分布式向量,其中第i行表示論文索引鍵i所代表的論文的分布式向量的表達(dá);
步驟3:通過分布式向量之間的內(nèi)積,計(jì)算出兩篇論文之間的基于引用的相似度值;
步驟4:對候選論文按照計(jì)算出的相似度從大到小排序,得到作為論文推薦的排序列表。
2.如權(quán)利要求1所述的方法,其特征在于,步驟1中:獲取所有待研究論文集合S,生成對應(yīng)的ID字典,即為每篇論文賦予一個唯一的索引鍵,索引鍵用于標(biāo)識論文,索引鍵值包括論文的元信息。
3.如權(quán)利要求2所述的方法,其特征在于,步驟1中:使用論文引用的解析器迭代讀取各篇論文的引用,與對應(yīng)在集合S的其他論文建立一致性關(guān)聯(lián),并且建立無向圖,其中每個節(jié)點(diǎn)代表論文,節(jié)點(diǎn)之間的連線代表兩篇論文之間存在引用關(guān)系;該無向圖即為建立的論文引用網(wǎng)絡(luò)。
4.如權(quán)利要求1或3所述的方法,其特征在于,其中步驟1,由論文引用網(wǎng)絡(luò)建立n行n列的連接矩陣L,其中Lij為連接矩陣L中的第i行第j列的元素,Lij表示論文i和論文j之間是否存在引用關(guān)系,由論文引用網(wǎng)絡(luò)中對應(yīng)兩點(diǎn)i和j是否存在連線能夠得出,當(dāng)論文在引用網(wǎng)絡(luò)中對應(yīng)的兩點(diǎn)i和j相互連接時(shí),Lij=1,表示論文i和論文j之間存在引用關(guān)系,Lij=0表示論文i和論文j之間不存在引用關(guān)系;根據(jù)該連接矩陣L生成轉(zhuǎn)移矩陣A;其中轉(zhuǎn)移矩陣A中第i行第j列的元素Aij基于下式確定:
其中Aij表示從節(jié)點(diǎn)i隨機(jī)移動轉(zhuǎn)移到節(jié)點(diǎn)j的概率值,n’表示所有待研究論文的數(shù)量;矩陣A建立起了有直接引用關(guān)系的論文的信息,在此基礎(chǔ)上繼續(xù)構(gòu)建,獲得間接引用的論文之間的聯(lián)系;
由概率論可知,A的t次冪At矩陣的值代表從節(jié)點(diǎn)i出發(fā)隨機(jī)移動,在第t步到達(dá)節(jié)點(diǎn)j的概率,設(shè)討論窗口為w時(shí),那么計(jì)算生成矩陣其矩陣B中的元素Bij代表從節(jié)點(diǎn)i出發(fā)隨機(jī)移動,在w步之內(nèi)到達(dá)節(jié)點(diǎn)j的期望次數(shù);
構(gòu)造論文引用權(quán)重矩陣M中的元素α為常量,且α+min(log(Bij))>0,即調(diào)整M中有值的各項(xiàng),使之大于0,Mij表示節(jié)點(diǎn)i對節(jié)點(diǎn)j的權(quán)重,Mij越高,表示論文之間的聯(lián)系愈緊密。
5.如權(quán)利要求1所述的方法,其特征在于,其中步驟2,使用SGD隨機(jī)梯度下降法最小化代價(jià)函數(shù)其中表示矩陣T的第j列,是矩陣W第i行向量的轉(zhuǎn)置,是一個列向量;通過最優(yōu)化該代價(jià)函數(shù),能夠使W*T擬合矩陣M;f(i,j)表示學(xué)習(xí)權(quán)重函數(shù),表示所有節(jié)點(diǎn)間的關(guān)系對結(jié)果的影響程度不同,設(shè)為:f(i,j)=Mij;SGD隨機(jī)梯度下降法是對于J中的加和項(xiàng)的每一項(xiàng)進(jìn)行迭代,計(jì)算梯度,迭代最小化代價(jià)函數(shù);采用SGD隨機(jī)梯度下降法求解該最小化代價(jià)函數(shù)的無約束最優(yōu)化問題,得到解
W=[w0,w1,w2,…,wn-1]T。
6.如權(quán)利要求5所述的方法,其特征在于,其中步驟3:正則化矩陣W中各個節(jié)點(diǎn)的分布式向量,再采用公式S(i,j)=wi·wj計(jì)算節(jié)點(diǎn)i和節(jié)點(diǎn)j的相似度S(i,j)的,根據(jù)向量夾角計(jì)算公式當(dāng)向量長度正則化為1時(shí),wi·wj的結(jié)果越大,在節(jié)點(diǎn)i和j的分布式向量之間的角度就越小,兩個節(jié)點(diǎn)對應(yīng)的論文就會越相似,反之亦然。