一種基于引用關(guān)系分布式表達(dá)的論文推薦方法與流程

文檔序號：12667213閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于引用關(guān)系分布式表達(dá)的論文推薦方法與流程

技術(shù)特征：

1.一種基于引用關(guān)系分布式表達(dá)的論文推薦方法，其特征在于，包括以下步驟：

步驟1：基于所有待研究論文生成ID字典，即為每篇論文賦予一個唯一的索引鍵，同時(shí)利用論文的相互引用關(guān)系生成論文引用網(wǎng)絡(luò)，并建立論文引用權(quán)重矩陣M，權(quán)重矩陣M是基于論文索引標(biāo)識構(gòu)建的n行n列的矩陣；

步驟2：使用最小化代價(jià)函數(shù)的方法，對權(quán)重矩陣M做矩陣分解，將矩陣M擬合成W*T的形式，其中W是n行m列的矩陣，T是m行n列的矩陣；其中m<n，以達(dá)到降維的作用；用隨機(jī)梯度下降法求出W和T矩陣；其中W的行向量與T的列向量等價(jià)的包含了每篇論文的分布式向量的表達(dá)，且互為對偶；使用W的行向量來作為分布式向量，其中第i行表示論文索引鍵i所代表的論文的分布式向量的表達(dá)；

步驟3：通過分布式向量之間的內(nèi)積，計(jì)算出兩篇論文之間的基于引用的相似度值；

步驟4：對候選論文按照計(jì)算出的相似度從大到小排序，得到作為論文推薦的排序列表。

2.如權(quán)利要求1所述的方法，其特征在于，步驟1中：獲取所有待研究論文集合S，生成對應(yīng)的ID字典，即為每篇論文賦予一個唯一的索引鍵，索引鍵用于標(biāo)識論文，索引鍵值包括論文的元信息。

3.如權(quán)利要求2所述的方法，其特征在于，步驟1中：使用論文引用的解析器迭代讀取各篇論文的引用，與對應(yīng)在集合S的其他論文建立一致性關(guān)聯(lián)，并且建立無向圖，其中每個節(jié)點(diǎn)代表論文，節(jié)點(diǎn)之間的連線代表兩篇論文之間存在引用關(guān)系；該無向圖即為建立的論文引用網(wǎng)絡(luò)。

4.如權(quán)利要求1或3所述的方法，其特征在于，其中步驟1，由論文引用網(wǎng)絡(luò)建立n行n列的連接矩陣L，其中L_ij為連接矩陣L中的第i行第j列的元素，L_ij表示論文i和論文j之間是否存在引用關(guān)系，由論文引用網(wǎng)絡(luò)中對應(yīng)兩點(diǎn)i和j是否存在連線能夠得出，當(dāng)論文在引用網(wǎng)絡(luò)中對應(yīng)的兩點(diǎn)i和j相互連接時(shí)，L_ij＝1，表示論文i和論文j之間存在引用關(guān)系，L_ij＝0表示論文i和論文j之間不存在引用關(guān)系；根據(jù)該連接矩陣L生成轉(zhuǎn)移矩陣A；其中轉(zhuǎn)移矩陣A中第i行第j列的元素A_ij基于下式確定：

$<mrow> <msub> <mi>A</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>L</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>n</mi> <mo>′</mo> </msup> </munderover> <msub> <mi>L</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> </mrow>$

其中A_ij表示從節(jié)點(diǎn)i隨機(jī)移動轉(zhuǎn)移到節(jié)點(diǎn)j的概率值，n’表示所有待研究論文的數(shù)量；矩陣A建立起了有直接引用關(guān)系的論文的信息，在此基礎(chǔ)上繼續(xù)構(gòu)建，獲得間接引用的論文之間的聯(lián)系；

由概率論可知，A的t次冪A^t矩陣的值代表從節(jié)點(diǎn)i出發(fā)隨機(jī)移動，在第t步到達(dá)節(jié)點(diǎn)j的概率，設(shè)討論窗口為w時(shí)，那么計(jì)算生成矩陣其矩陣B中的元素B_ij代表從節(jié)點(diǎn)i出發(fā)隨機(jī)移動，在w步之內(nèi)到達(dá)節(jié)點(diǎn)j的期望次數(shù)；

構(gòu)造論文引用權(quán)重矩陣M中的元素α為常量，且α+min(log(B_ij))＞0，即調(diào)整M中有值的各項(xiàng)，使之大于0，M_ij表示節(jié)點(diǎn)i對節(jié)點(diǎn)j的權(quán)重，M_ij越高，表示論文之間的聯(lián)系愈緊密。

5.如權(quán)利要求1所述的方法，其特征在于，其中步驟2，使用SGD隨機(jī)梯度下降法最小化代價(jià)函數(shù)其中表示矩陣T的第j列，是矩陣W第i行向量的轉(zhuǎn)置，是一個列向量；通過最優(yōu)化該代價(jià)函數(shù)，能夠使W*T擬合矩陣M；f(i,j)表示學(xué)習(xí)權(quán)重函數(shù)，表示所有節(jié)點(diǎn)間的關(guān)系對結(jié)果的影響程度不同，設(shè)為：f(i,j)＝M_ij；SGD隨機(jī)梯度下降法是對于J中的加和項(xiàng)的每一項(xiàng)進(jìn)行迭代，計(jì)算梯度，迭代最小化代價(jià)函數(shù)；采用SGD隨機(jī)梯度下降法求解該最小化代價(jià)函數(shù)的無約束最優(yōu)化問題，得到解

W＝[w₀,w₁,w₂,…,w_n-1]^T。

6.如權(quán)利要求5所述的方法，其特征在于，其中步驟3：正則化矩陣W中各個節(jié)點(diǎn)的分布式向量，再采用公式S(i,j)＝w_i·w_j計(jì)算節(jié)點(diǎn)i和節(jié)點(diǎn)j的相似度S(i,j)的，根據(jù)向量夾角計(jì)算公式當(dāng)向量長度正則化為1時(shí)，w_i·w_j的結(jié)果越大，在節(jié)點(diǎn)i和j的分布式向量之間的角度就越小，兩個節(jié)點(diǎn)對應(yīng)的論文就會越相似，反之亦然。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于引用關(guān)系分布式表達(dá)的論文推薦方法與流程