信息推薦方法和信息推薦系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種信息推薦方法和一種信息推薦系統(tǒng),其中,信息推薦方法的流程包括:根據(jù)服務(wù)器的行為日志數(shù)據(jù)庫中的行為日志,生成鄰接矩陣;將鄰接矩陣轉(zhuǎn)化為超鏈接矩陣;根據(jù)超鏈接矩陣,為服務(wù)器的預(yù)設(shè)PageRank模型訓(xùn)練器選取初始參數(shù);根據(jù)初始參數(shù),通過預(yù)設(shè)PageRank模型訓(xùn)練器計算PageRank向量,并記錄迭代次數(shù);按照從高到低的方式輸出迭代后的PageRank向量;其中,預(yù)設(shè)PageRank模型訓(xùn)練器的計算公式為:通過本發(fā)明的技術(shù)方案,對原經(jīng)典的PageRank算法中的權(quán)威值平均分配問題和僅考慮出鏈的問題進(jìn)行了改進(jìn),使得在實際應(yīng)用中的迭代數(shù)據(jù)更快,并且更能考慮到不同用戶具有不同層次的權(quán)威度,從而在實際的企業(yè)推薦和搜索中具有更高的搜索和推薦質(zhì)量。
【專利說明】信息推薦方法和信息推薦系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,具體而言,涉及一種信息推薦方法和一種信息推 薦系統(tǒng)。
【背景技術(shù)】
[0002] 目前,用戶工作圈中的行為日志包括許多的行為信息,包括用戶和用戶的交互信 息、用戶和圈子的交互信息,但是大量的行為信息處于初始沒有挖掘的狀態(tài),我們希望從行 為信息中挖掘相關(guān)數(shù)據(jù)去改進(jìn)搜索和推薦質(zhì)量?,F(xiàn)有技術(shù)中的搜索和推薦主要采用的是用 戶行為和查詢串分詞與索引匹配的綜合排序的方式。但是,現(xiàn)有技術(shù)中的推薦和搜索存在 如下兩條缺點:
[0003] 第一,對于沒有行為信息的用戶的推薦主要還是采用的是索引匹配的方式,但是 該方式?jīng)]有考慮群體的行為信息或者不能對"行為次數(shù)多、具有人氣、比較權(quán)威"的用戶進(jìn) 行推薦。
[0004] 第二,企業(yè)的數(shù)據(jù)雖然真實度比較高、冗余度小,但是當(dāng)搜索和推薦的數(shù)據(jù)量比較 大的時候,用戶可以在某些字段上采用增加關(guān)鍵詞等冗余的方法進(jìn)行作弊,然后進(jìn)入索引 項,從而欺騙搜索系統(tǒng)。
[0005] 因此需要一種新的技術(shù)方案,可以提升用戶推薦的質(zhì)量。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明正是基于上述問題,提出了一種新的技術(shù)方案,可以提升用戶推薦的質(zhì)量。
[0007] 有鑒于此,本發(fā)明的第一方面的實施例提出了一種信息推薦方法,包括:根據(jù)所述 服務(wù)器的行為日志數(shù)據(jù)庫中的行為日志,生成鄰接矩陣;將所述鄰接矩陣轉(zhuǎn)化為超鏈接矩 陣;根據(jù)所述超鏈接矩陣,為所述服務(wù)器的預(yù)設(shè)PageRank模型訓(xùn)練器選取初始參數(shù);根據(jù) 所述初始參數(shù),通過所述預(yù)設(shè)PageRank模型訓(xùn)練器計算PageRank向量,并記錄迭代次數(shù); 按照從高到低的方式輸出迭代后的所述PageRank向量;其中,所述預(yù)設(shè)PageRank模型訓(xùn)練 器的計算公式為:
【權(quán)利要求】
1. 一種信息推薦方法,其特征在于,包括: 根據(jù)所述服務(wù)器的行為日志數(shù)據(jù)庫中的行為日志,生成鄰接矩陣; 將所述鄰接矩陣轉(zhuǎn)化為超鏈接矩陣; 根據(jù)所述超鏈接矩陣,為所述服務(wù)器的預(yù)設(shè)PageRank模型訓(xùn)練器選取初始參數(shù); 根據(jù)所述初始參數(shù),通過所述預(yù)設(shè)PageRank模型訓(xùn)練器計算PageRank向量,并記錄迭 代次數(shù); 按照從高到低的方式輸出迭代后的所述PageRank向量;其中, 所述預(yù)設(shè)PageRank模型訓(xùn)練器的計算公式為:
其中,PR(A)為被推薦的用戶A的所述PageRank向量,η為推薦所述用戶A的所有用 戶的總數(shù),N為涉及到推薦行為的總?cè)藬?shù),Ti是推薦所述用戶A的任一用戶,C (Ti)表示所述 任一用戶Ti推薦其他用戶的總次數(shù),PR(Ti)為所述任一用戶T i的所述PageRank向量,i = I. f 2 f · · · j η 〇
2. 根據(jù)權(quán)利要求1所述的信息推薦方法,其特征在于,所述根據(jù)所述服務(wù)器的行為日 志數(shù)據(jù)庫中的行為日志,生成鄰接矩陣,具體包括: 從所述行為日志數(shù)據(jù)庫中的所述行為日志中提取所有推薦信息,以所述服務(wù)器的每個 用戶為節(jié)點,以推薦業(yè)務(wù)的使用者為起點,并以被推薦的用戶為終點建立邊,以推薦的次數(shù) 為所述邊的權(quán)值,建立一個有向加權(quán)圖; 將所述有向加權(quán)圖存儲在所述鄰接矩陣中。
3. 根據(jù)權(quán)利要求2所述的信息推薦方法,其特征在于,所述將所述鄰接矩陣轉(zhuǎn)化為超 鏈接矩陣,具體包括: 將所述有向加權(quán)圖轉(zhuǎn)化為所述超鏈接矩陣,其中,進(jìn)行轉(zhuǎn)化的計算公式為:
其中,H(i,j)為所述超鏈接矩陣,i為所述任一用戶,C〇lSum(i)為所述鄰接矩陣中的 所述任一用戶推薦所述其他用戶的總次數(shù),η為涉及到所述推薦行為的總?cè)藬?shù)。
4. 根據(jù)權(quán)利要求1至3中任一項所述的信息推薦方法,其特征在于,在所述通過所述預(yù) 設(shè)PageRank模型訓(xùn)練器計算PageRank向量,并記錄迭代次數(shù)之后,包括: 判斷所述迭代次數(shù)是否超過預(yù)定迭代次數(shù)閾值,并判斷所述PageRank向量與原所述 PageRank向量是否超出預(yù)定迭代精度; 當(dāng)判斷結(jié)果都為是時,繼續(xù)通過所述預(yù)設(shè)PageRank模型訓(xùn)練器進(jìn)行迭代操作,否則, 按照從高到低的方式輸出迭代后的所述PageRank向量。
5. 根據(jù)權(quán)利要求4所述的信息推薦方法,其特征在于,所述初始參數(shù)包括迭代向量、隨 機(jī)跳轉(zhuǎn)因子、所述預(yù)定迭代精度和所述預(yù)定迭代次數(shù)閾值。
6. -種信息推薦系統(tǒng),其特征在于,包括: 信息預(yù)處理單元,根據(jù)所述服務(wù)器的行為日志數(shù)據(jù)庫中的行為日志,生成鄰接矩陣; 矩陣轉(zhuǎn)化單元,將所述鄰接矩陣轉(zhuǎn)化為超鏈接矩陣; 參數(shù)選取單元,根據(jù)所述超鏈接矩陣,為所述服務(wù)器的預(yù)設(shè)PageRank模型訓(xùn)練器選取 初始參數(shù); 訓(xùn)練單元,根據(jù)所述初始參數(shù),通過所述預(yù)設(shè)PageRank模型訓(xùn)練器計算PageRank向 量,并記錄迭代次數(shù); 推薦單元,按照從高到低的方式輸出迭代后的所述PageRank向量;其中, 所述預(yù)設(shè)PageRank模型訓(xùn)練器的計算公式為:
其中,PR(A)為被推薦的用戶A的所述PageRank向量,η為推薦所述用戶A的所有用 戶的總數(shù),N為涉及到推薦行為的總?cè)藬?shù),Ti是推薦所述用戶A的任一用戶,C (Ti)表示所述 任一用戶Ti推薦其他用戶的總次數(shù),PR(Ti)為所述任一用戶T i的所述PageRank向量,i = I. f 2 f · · · j η 〇
7. 根據(jù)權(quán)利要求6所述的信息推薦系統(tǒng),其特征在于,所述信息預(yù)處理單元包括: 有向加權(quán)圖建立單元,從所述行為日志數(shù)據(jù)庫中的所述行為日志中提取所有推薦信 息,以所述服務(wù)器的每個用戶為節(jié)點,以推薦業(yè)務(wù)的使用者為起點,并以被推薦的用戶為終 點建立邊,以推薦的次數(shù)為所述邊的權(quán)值,建立一個有向加權(quán)圖; 存儲單元,將所述有向加權(quán)圖存儲在所述鄰接矩陣中。
8. 根據(jù)權(quán)利要求7所述的信息推薦系統(tǒng),其特征在于,所述矩陣轉(zhuǎn)化單元具體用于: 將所述有向加權(quán)圖轉(zhuǎn)化為所述超鏈接矩陣,其中,進(jìn)行轉(zhuǎn)化的計算公式為:
其中,H(i,j)為所述超鏈接矩陣,i為所述任一用戶,C〇lSum(i)為所述鄰接矩陣中的 所述任一用戶推薦所述其他用戶的總次數(shù),η為涉及到所述推薦行為的總?cè)藬?shù)。
9. 根據(jù)權(quán)利要求6至8中任一項所述的信息推薦系統(tǒng),其特征在于,還包括: 判斷單元,在所述訓(xùn)練單元完成訓(xùn)練之后,判斷所述迭代次數(shù)是否超過預(yù)定迭代次數(shù) 閾值,以及判斷所述PageRank向量與上一次迭代的所述PageRank向量是否超出預(yù)定迭代 精度;以及當(dāng)判斷結(jié)果都為是時,繼續(xù)通過所述預(yù)設(shè)PageRank模型訓(xùn)練器進(jìn)行迭代操作, 否則,按照從高到低的方式輸出迭代后的所述PageRank向量。
10. 根據(jù)權(quán)利要求9所述的信息推薦系統(tǒng),其特征在于,所述初始參數(shù)包括迭代向量、 隨機(jī)跳轉(zhuǎn)因子、所述預(yù)定迭代精度和所述預(yù)定迭代次數(shù)閾值。
【文檔編號】G06F17/30GK104391982SQ201410746660
【公開日】2015年3月4日 申請日期:2014年12月8日 優(yōu)先權(quán)日:2014年12月8日
【發(fā)明者】黃通文, 張俊林 申請人:暢捷通信息技術(shù)股份有限公司