文件推薦系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種文件推薦方法,該方法包括:收集所有用戶在一個時間段內(nèi)的閱讀行為,建立關(guān)聯(lián)分析表;根據(jù)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘演算法對上述關(guān)聯(lián)分析表進行演算,提取不同類別文件之間關(guān)聯(lián)閱讀的關(guān)聯(lián)規(guī)則;根據(jù)用戶當前閱讀文件的類別,查詢包括該文件類別的關(guān)聯(lián)規(guī)則,依據(jù)關(guān)聯(lián)規(guī)則推薦其他類別的文件給用戶。此外,本發(fā)明還提供一種文件推薦系統(tǒng)。
【專利說明】文件推薦系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文字采礦和信息挖掘技術(shù),尤其涉及文件推薦系統(tǒng)及方法。
【背景技術(shù)】
[0002] 借助于互聯(lián)網(wǎng)的快速普及,人們每天通過網(wǎng)絡(luò)可以瀏覽各種信息資訊。然而信息 資訊日益膨脹,龐大的信息量反而會導(dǎo)致人們無法從過多的網(wǎng)頁或文件中快速篩選到符合 個人需求的信息。
[0003] 目前大多數(shù)的新聞門戶網(wǎng)站或是資訊類系統(tǒng),根據(jù)用戶已經(jīng)閱讀的網(wǎng)頁或是文件 中的關(guān)鍵詞,利用關(guān)鍵詞找出該用戶的閱讀需求以推送出相關(guān)新聞或文件。該方法以關(guān)鍵 詞作為推送的依據(jù),推送的新聞或文件是離散的,沒有相關(guān)性。
【發(fā)明內(nèi)容】
[0004] 鑒于上述內(nèi)容,有必要提供一種文件推薦系統(tǒng)及方法,可以挖掘不同文件之間關(guān) 聯(lián)閱讀的規(guī)則,推送相關(guān)聯(lián)的文件給用戶。
[0005] 所述文件推薦系統(tǒng),該系統(tǒng)包括:資料收集模塊,用于收集所有用戶在一個時間段 內(nèi)的閱讀行為,建立關(guān)聯(lián)分析表;規(guī)則提取模塊,用于根據(jù)關(guān)聯(lián)規(guī)則挖掘算法對上述關(guān)聯(lián)分 析表進行演算,提取不同類別文件之間關(guān)聯(lián)閱讀的關(guān)聯(lián)規(guī)則;及文件推薦模塊,用于根據(jù)用 戶當前閱讀文件的類別,查詢包括該文件類別的關(guān)聯(lián)規(guī)則,依據(jù)關(guān)聯(lián)規(guī)則推薦其他類別的 文件給用戶。
[0006] 所述文件推薦方法,該方法包括:收集所有用戶在一個時間段內(nèi)的閱讀行為,建立 關(guān)聯(lián)分析表;根據(jù)關(guān)聯(lián)規(guī)則挖掘算法對上述關(guān)聯(lián)分析表進行演算,提取不同類別文件之間 關(guān)聯(lián)閱讀的關(guān)聯(lián)規(guī)則;根據(jù)用戶當前閱讀文件的類別,查詢包括該文件類別的關(guān)聯(lián)規(guī)則,依 據(jù)關(guān)聯(lián)規(guī)則推薦其他類別的文件給用戶。
[0007] 相比于現(xiàn)有技術(shù),本發(fā)明中所述的文件推薦系統(tǒng)及方法,能夠有效分析所有用戶 的閱讀行為,利用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘演算法提取不同文件之間關(guān)聯(lián)閱讀的規(guī)則,當用戶閱 讀某類文件時,根據(jù)關(guān)聯(lián)規(guī)則推薦該類文件相關(guān)聯(lián)的文件給用戶。
【專利附圖】
【附圖說明】
[0008] 圖1是本發(fā)明所述文件推薦系統(tǒng)的較佳實施例的運行環(huán)境圖。
[0009] 圖2是本發(fā)明所述文件推薦系統(tǒng)的較佳實施例的功能模塊圖。
[0010] 圖3是本發(fā)明所述文件推薦方法的方法流程圖。
[0011] 圖4是本發(fā)明中關(guān)聯(lián)分析表的示意圖。
[0012] 圖5是利用先驗演算法提取出的關(guān)聯(lián)規(guī)則的示意圖。
[0013] 主要元件符號說明
【權(quán)利要求】
1. 一種文件推薦系統(tǒng),運行于服務(wù)器中,其特征在于,該系統(tǒng)包括: 資料收集模塊:用于收集所有用戶在一個時間段內(nèi)的閱讀行為,建立關(guān)聯(lián)分析表; 規(guī)則提取模塊:用于根據(jù)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘演算法對上述關(guān)聯(lián)分析表進行演算,提取 不同類別文件之間關(guān)聯(lián)閱讀的關(guān)聯(lián)規(guī)則;及 文件推薦模塊:用于根據(jù)用戶當前閱讀文件的類別,查詢包括該文件類別的關(guān)聯(lián)規(guī)則, 依據(jù)關(guān)聯(lián)規(guī)則推薦其他類別的文件給用戶。
2. 如權(quán)利要求1所述的文件推薦系統(tǒng),其特征在于,該系統(tǒng)還包括一個定期更新模塊, 用于設(shè)定周期性的關(guān)聯(lián)規(guī)則提取排程,每間隔一定時間周期,抓取該時間周期內(nèi)的所有用 戶的閱讀行為,重新提取該時間周期內(nèi)的不同類別文件之間關(guān)聯(lián)閱讀的關(guān)聯(lián)規(guī)則。
3. 如權(quán)利要求1所述的文件推薦系統(tǒng),其特征在于,所述規(guī)則提取模塊用于提取不同 類別文件之間關(guān)聯(lián)閱讀的關(guān)聯(lián)規(guī)則: 設(shè)定先驗演算法的基本參數(shù),包括最小項目組合數(shù)、最小支持度閥值和最小置信度閥 值; 將關(guān)聯(lián)分析表作為先驗演算法的輸入,指定用戶ID欄位和日期欄位共同作為主鍵,指 定文件類別欄位為關(guān)聯(lián)規(guī)則的數(shù)據(jù)項; 利用先驗演算法對關(guān)聯(lián)分析進行演算,篩選出滿足最小支持度閥值和最小置信度閥值 的項目組合,提取并輸出各數(shù)據(jù)項之間的關(guān)聯(lián)規(guī)則。
4. 一種文件推薦方法,其特征在于,該方法包括: 資料收集步驟:收集所有用戶在一個時間段內(nèi)的閱讀行為,建立關(guān)聯(lián)分析表; 規(guī)則提取步驟:根據(jù)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘演算法對上述關(guān)聯(lián)分析表進行演算,提取不同 類別文件之間關(guān)聯(lián)閱讀的關(guān)聯(lián)規(guī)則;及 文件推薦步驟:根據(jù)用戶當前閱讀文件的類別,查詢包括該文件類別的關(guān)聯(lián)規(guī)則,依據(jù) 關(guān)聯(lián)規(guī)則推薦其他類別的文件給用戶。
5. 如權(quán)利要求4所述的文件推薦方法,其特征在于,該方法還包括定期更新步驟:設(shè)定 周期性的關(guān)聯(lián)規(guī)則提取排程,每間隔一定時間周期,抓取該時間周期內(nèi)的所有用戶的閱讀 行為,重新提取該時間周期內(nèi)的不同類別文件之間關(guān)聯(lián)閱讀的關(guān)聯(lián)規(guī)則。
6. 如權(quán)利要求4所述的文件推薦方法,其特征在于,所述規(guī)則提取步驟包括: 設(shè)定先驗演算法的基本參數(shù),包括最小項目組合數(shù)、最小支持度閥值和最小置信度閥 值; 將關(guān)聯(lián)分析表作為先驗演算法的輸入,指定用戶ID欄位和日期欄位共同作為主鍵,指 定文件類別欄位為關(guān)聯(lián)規(guī)則的數(shù)據(jù)項; 利用先驗演算法對關(guān)聯(lián)分析進行演算,篩選出滿足最小支持度閥值和最小置信度閥值 的項目組合,提取并輸出各數(shù)據(jù)項之間的關(guān)聯(lián)規(guī)則。
【文檔編號】G06F17/30GK104376021SQ201310357844
【公開日】2015年2月25日 申請日期:2013年8月16日 優(yōu)先權(quán)日:2013年8月16日
【發(fā)明者】強振雄, 林奇玲, 李建緯, 李宜臻 申請人:捷達世軟件(深圳)有限公司, 鴻海精密工業(yè)股份有限公司