本發(fā)明涉及新聞個(gè)性化推薦技術(shù),用于新聞?lì)悜?yīng)用軟件服務(wù)器向用戶客戶端進(jìn)行個(gè)性化新聞推薦,特別涉及基于模糊c均值聚類算法的新聞推薦方法。
背景技術(shù):
網(wǎng)絡(luò)的高速發(fā)展帶來了信息爆炸式增長,用戶在面對大量信息時(shí)無法及時(shí)獲取對自己有用的信息,使得對信息的使用效率降低,這就是信息超載問題。
解決信息超載問題的有效辦法是推薦系統(tǒng),它根據(jù)用戶的需求、興趣等,將信息針對性的推薦給用戶。推薦系統(tǒng)通過研究用戶的興趣偏好,進(jìn)行個(gè)性化計(jì)算,發(fā)現(xiàn)用戶的興趣或者需要,從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。
但是當(dāng)前的一些新聞推薦方法仍然存在著諸如只是簡單的給用戶推送單一熱點(diǎn)話題,并不能夠根據(jù)用戶的需求和愛好進(jìn)行個(gè)性化新聞推薦,受到噪音數(shù)據(jù)影響大導(dǎo)致的推薦準(zhǔn)確性差,使用的推薦算法收斂時(shí)間長導(dǎo)致執(zhí)行效率低等不足。
模糊c均值聚類算法在眾多模糊聚類算法中應(yīng)用廣泛,在大規(guī)模數(shù)據(jù)分析、數(shù)據(jù)挖掘、矢量量化、圖像分割、模式識別等領(lǐng)域都能很好的體現(xiàn)它的價(jià)值。它通過優(yōu)化目標(biāo)函數(shù)得到每個(gè)樣本點(diǎn)對所有類中心的隸屬度,從而決定樣本點(diǎn)的類屬以達(dá)到自動(dòng)對樣本數(shù)據(jù)進(jìn)行分類的目的。
本發(fā)明在數(shù)據(jù)采集后進(jìn)行加權(quán),有效減少噪音數(shù)據(jù)對于推薦準(zhǔn)確性的影響。利用模糊c均值聚類算法通過計(jì)算有效的發(fā)現(xiàn)用戶的需求和愛好,能夠給用戶進(jìn)行個(gè)性化新聞推薦,同時(shí)因?yàn)槟:齝均值算法的靈活性,可以根據(jù)需要來調(diào)整目標(biāo)函數(shù)來達(dá)到進(jìn)一步提高推薦準(zhǔn)確性的目的。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是克服現(xiàn)有新聞推薦方法的不足,提供一種基于模糊c均值聚類算法的新聞推薦方法,通過新聞?lì)悜?yīng)用軟件服務(wù)器采集的用戶行為日志對不同的行為分配相應(yīng)的權(quán)重,使得因?yàn)楫惓P袨楫a(chǎn)生的噪音數(shù)據(jù)進(jìn)行有效的過濾處理;本發(fā)明的另一個(gè)目的是采用模糊c均值聚類算法計(jì)算用戶行為樣本的隸屬度并進(jìn)行判斷,以提高新聞推薦效率與準(zhǔn)確性。
為了實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的,提供了一種個(gè)性化新聞推薦方法,用于新聞?lì)悜?yīng)用軟件服務(wù)器向用戶客戶端進(jìn)行個(gè)性化新聞推薦。根據(jù)內(nèi)容的不同將新聞劃分為不同標(biāo)簽新聞,客戶端安裝在用戶終端平臺上,服務(wù)器通過商用網(wǎng)絡(luò)向用戶客戶端推送新聞,用戶打開某一標(biāo)簽新聞后的停留時(shí)間ti、鼠標(biāo)滾動(dòng)次數(shù)sc被記錄在新聞服務(wù)器的用戶行為日志上,停留時(shí)間ti的單位是秒,鼠標(biāo)滾動(dòng)次數(shù)sc的單位是次,服務(wù)器為停留時(shí)間ti分配權(quán)重為0.6、鼠標(biāo)滾動(dòng)次數(shù)sc分配權(quán)重為0.4,設(shè)置閾值為2.2,若用戶在客戶端瀏覽某一標(biāo)簽新聞時(shí)滿足:(0.6×停留時(shí)間ti+0.4×鼠標(biāo)滾動(dòng)次數(shù)sc)≥2.2,則服務(wù)器將用戶在該標(biāo)簽新聞的瀏覽行為標(biāo)識為有效行為,否則為無效行為,并記錄在服務(wù)器端的用戶行為日志上;新聞服務(wù)器端安裝有日志采集工具,獲得用戶的有效行為日志信息,然后采用模糊c均值聚類算法計(jì)算用戶有效行為的隸屬度,設(shè)置隸屬度閾值為0.3,過濾掉低于隸屬度閾值的用戶行為信息,并對剩余的用戶行為所對應(yīng)的標(biāo)簽新聞按比例生成推薦列表,向用戶進(jìn)行個(gè)性化新聞推薦;所述的推薦內(nèi)容比例為:當(dāng)前標(biāo)簽新聞的用戶行為隸屬度與所有滿足隸屬度閾值的標(biāo)簽新聞的用戶行為隸屬度總和的比值。
通常情況下,新聞版塊可根據(jù)新聞內(nèi)容分為多種類型,如體育新聞、財(cái)經(jīng)新聞、軍事新聞等。在本發(fā)明中,新聞?lì)悜?yīng)用軟件客戶端的用戶界面具有用戶自定義感興趣的新聞?lì)愋凸δ?,用戶可根?jù)自己的愛好自主定義推薦新聞標(biāo)簽,自助選擇用戶感興趣內(nèi)容的新聞內(nèi)容,提高了用戶的自主性。
進(jìn)一步的是,在本發(fā)明中,服務(wù)器能夠根據(jù)采集來的用戶日志的歷史瀏覽行為進(jìn)行分析比對。新聞服務(wù)器將用戶的歷史瀏覽行為記錄在行為日志內(nèi),記錄用戶瀏覽標(biāo)簽新聞的瀏覽次數(shù)和瀏覽天數(shù),對于同一天數(shù)次瀏覽同一標(biāo)簽新聞的行為進(jìn)行一次計(jì)數(shù),連續(xù)2天瀏覽同一標(biāo)簽新聞的行為在原有次數(shù)的基礎(chǔ)上瀏覽次數(shù)加1,7天內(nèi)存在瀏覽3次同一標(biāo)簽新聞的行為在原有次數(shù)的基礎(chǔ)上瀏覽次數(shù)加1;服務(wù)器端的日志采集工具獲得用戶有效行為日志信息,根據(jù)獲得的不同標(biāo)簽新聞的瀏覽次數(shù)對標(biāo)簽新聞進(jìn)行排序生成推薦列表,向用戶進(jìn)行個(gè)性化新聞推薦,且根據(jù)用戶歷史記錄生成的推薦等級優(yōu)先于服務(wù)器計(jì)算所得到的新聞推薦。
優(yōu)選的是,在本發(fā)明中,用戶可通過客戶端對所推薦的新聞滿意度進(jìn)行評價(jià),評價(jià)類型包括非常滿意、滿意、不滿意,新聞服務(wù)器端設(shè)置有用戶反饋模塊,用于接收用戶對推薦內(nèi)容的滿意度評價(jià),當(dāng)用戶不滿意推薦內(nèi)容時(shí),該模塊向服務(wù)器發(fā)出重新啟動(dòng)向用戶進(jìn)行新聞個(gè)性化推薦的計(jì)算過程。
本發(fā)明至少包括以下有益效果:由于對客戶端用戶的行為采用分配權(quán)重、濾除低于閾值的相應(yīng)行為日志信息等技術(shù)措施,因此能夠有效過濾因?yàn)楫惓P袨楫a(chǎn)生的噪音數(shù)據(jù)。由于采用模糊c均值聚類算法計(jì)算用戶行為的隸屬度并進(jìn)行判斷,提高了向用戶個(gè)性化新聞推薦的效率與準(zhǔn)確性。
本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對本發(fā)明的研究和實(shí)踐而為本領(lǐng)域的技術(shù)人員所理解。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
(1)與現(xiàn)有個(gè)性化新聞推薦方法的數(shù)據(jù)處理方法不同,本發(fā)明從用戶行為進(jìn)行加權(quán)過濾得到優(yōu)化數(shù)據(jù)集;相比而言,本發(fā)明有效過濾因?yàn)楫惓TL問行為產(chǎn)生的噪音數(shù)據(jù),得到的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理能有效改善因異常數(shù)據(jù)導(dǎo)致的結(jié)果偏差,更能準(zhǔn)確反映用戶當(dāng)前需求和感興趣的信息,提高處理效率。
(2)本發(fā)明提供給用戶高度自主性,允許用戶按照意愿自主設(shè)置興趣,并根據(jù)以往用戶訪問記錄進(jìn)行優(yōu)先推薦,出現(xiàn)用戶不滿意推薦結(jié)果的時(shí)候重新進(jìn)行計(jì)算,具有更大的自主性與靈活性,更大程度上保證了推薦結(jié)果貼合用戶需求。
(3)本發(fā)明針對用戶行為,利用模糊c均值聚類算法計(jì)算用戶樣本的隸屬度,判斷得出用戶當(dāng)前需求和感興趣的信息,提高了推薦準(zhǔn)確性,并且該方法可以通過優(yōu)化目標(biāo)函數(shù)來減少收斂時(shí)間和進(jìn)一步提高準(zhǔn)確性。
附圖說明
圖1是本發(fā)明用戶行為的過濾示意圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。
新聞?lì)悜?yīng)用軟件服務(wù)器通過日志采集工具獲取用戶的行為日志,將用戶訪問行為劃分成多個(gè)行為并分配相應(yīng)的權(quán)重,其中,wi為用戶a各行為對應(yīng)的權(quán)重,0<wi≤1,x1,x2……xk為用戶a對應(yīng)的k種行為,權(quán)重大小設(shè)置可根據(jù)用戶各行為的重要性進(jìn)行相應(yīng)調(diào)整。并設(shè)置閾值,對用戶行為進(jìn)行歸一化處理。所述閾值,可以根據(jù)用戶的單個(gè)操作行為與權(quán)重乘積值或多個(gè)行為與權(quán)重乘積的加和值進(jìn)行調(diào)整。濾除低于有效行為閾值的相應(yīng)行為的日志信息。即用戶行為滿足閾值的,服務(wù)器將用戶在該標(biāo)簽新聞的瀏覽行為標(biāo)識為有效行為,否則為無效行為,并記錄在服務(wù)器端的用戶行為日志上。本發(fā)明根據(jù)用戶行為進(jìn)行過濾篩選的具體實(shí)施如圖1所示。
例如,用戶a進(jìn)入娛樂版塊,在娛樂版塊打開一條新聞后停留的時(shí)間(行為x1)為ti,鼠標(biāo)滾動(dòng)次數(shù)(行為x2)為sc,如果ti大于等于3秒,sc大于等于1次,那么算娛樂版塊成功計(jì)數(shù)一次。設(shè)置打開一條新聞后停留的時(shí)間(行為x1)的權(quán)重wti為0.6,鼠標(biāo)滾動(dòng)次數(shù)(行為x2)的權(quán)重wsc為0.4,則有效行為閾值為f(x1,x2)=w1x1+w2x2,即把2.2設(shè)置為有效行為的閾值。滿足f(x1,x2)≥2.2的行為,服務(wù)器將用戶在該標(biāo)簽新聞的瀏覽行為標(biāo)識為有效行為,否則為無效行為,并記錄在服務(wù)器端的用戶行為日志上??梢酝ㄟ^對用戶一般瀏覽行為的統(tǒng)計(jì)來調(diào)整權(quán)值的設(shè)置以及閾值范圍。本發(fā)明根據(jù)采集的用戶行為日志對不同的行為分配相應(yīng)的權(quán)重及設(shè)置有效行為閾值,使得因?yàn)楫惓P袨楫a(chǎn)生的噪音數(shù)據(jù)進(jìn)行有效的過濾處理。
新聞服務(wù)器端安裝有日志采集工具,獲得用戶的有效行為日志信息,然后采用模糊c均值聚類算法計(jì)算用戶有效行為的隸屬度并進(jìn)行判斷。
服務(wù)器對過濾處理后的用戶行為日志數(shù)據(jù)信息,進(jìn)行數(shù)據(jù)變換。每一個(gè)用戶行為xk可表示為一個(gè)行列式,則用戶的多個(gè)行為日志信息可表示為由多個(gè)行為行列式組成的多維矩陣,為計(jì)算用戶行為的隸屬度做準(zhǔn)備。對于處理過的用戶行為數(shù)據(jù)集x={x1,x2,.....xn},其中n為行為個(gè)數(shù),mj(j=1,2,....t)為每個(gè)用戶行為聚類的中心,t為類別數(shù)目,μj(xi)是第i個(gè)行為樣本對應(yīng)第j類的隸屬度函數(shù),則基于隸屬度函數(shù)的效應(yīng)函數(shù)為:
其中
在這里p是加權(quán)指數(shù),用于找到用戶隸屬各個(gè)類的加權(quán)計(jì)算,p取值不固定,通常取2,可結(jié)合實(shí)際情況調(diào)整。
當(dāng)公式(1)取極小值時(shí),有h對mj和μj(xi)的偏導(dǎo)為0,可推導(dǎo)出
根據(jù)當(dāng)前的聚類中心利用公式(3)計(jì)算隸屬度函數(shù),再用當(dāng)前的隸屬度函數(shù)依據(jù)公式(2)重新計(jì)算出聚類中心。根據(jù)實(shí)際需要設(shè)計(jì)收斂條件,初始化聚類中心。收斂條件可以通過設(shè)置當(dāng)前運(yùn)行環(huán)境下合適的迭代次數(shù)(例如迭代200次設(shè)為收斂)或者當(dāng)隸屬度計(jì)算結(jié)果趨于穩(wěn)定(數(shù)值處于一個(gè)可接受的范圍內(nèi)設(shè)為收斂)。采用迭代的方式求解式(2)和(3),直到隸屬度值趨于穩(wěn)定,滿足收斂條件,就得到了各類的聚類中心和各個(gè)樣本對于各類的隸屬度值。
設(shè)置隸屬度閾值,隸屬度閾值的大小與新聞個(gè)性化推薦成功率有關(guān)。隸屬度閾值越大,則個(gè)性化推薦成功率越高,隸屬度閾值越小,則個(gè)性化推薦成功率越低。通常情況下,隸屬度閾值為0.3。過濾掉隸屬度低于隸屬度閾值的結(jié)果,對于范圍內(nèi)的結(jié)果則進(jìn)行降序排序,根據(jù)排序結(jié)果選擇最好的兩組依據(jù)比例生成推薦列表。當(dāng)前標(biāo)簽新聞的用戶行為隸屬度與所有滿足隸屬度閾值的用戶行為隸屬度總和的比值。即
推薦的內(nèi)容比例可依照公式(4)計(jì)算得到。
pz為當(dāng)前標(biāo)簽新聞在推薦列表里所占的推薦比例,μz為當(dāng)前所求項(xiàng)隸屬度結(jié)果,v為滿足閾值條件的隸屬度個(gè)數(shù),μb為滿足閾值條件的隸屬度結(jié)果,例如:一用戶滿足收斂條件之后的隸屬度結(jié)果經(jīng)過閾值過濾后進(jìn)行排序,滿足閾值的排序結(jié)果是μ1,μ2,μ3,則μ1所占的推薦比例即可經(jīng)過公式(4)計(jì)算得到。根據(jù)結(jié)果得出用戶當(dāng)前需求和感興趣的信息,生成推薦列表,進(jìn)行個(gè)性化新聞推薦。
通常情況下,新聞版塊可根據(jù)新聞內(nèi)容分為多種類型,如體育新聞、財(cái)經(jīng)新聞、軍事新聞等。新聞?lì)悜?yīng)用軟件客戶端的用戶界面,用戶可根據(jù)實(shí)際需求或者是興趣喜好自主定義推薦新聞?lì)愋?,自助選擇興趣內(nèi)容的服務(wù),提高了用戶的自主性。
新聞?lì)悜?yīng)用軟件服務(wù)器通過日志采集工具用戶日志記錄進(jìn)行采集,對服務(wù)器已有的用戶,服務(wù)器能夠根據(jù)采集來的用戶日志的歷史瀏覽行為進(jìn)行分析比對。新聞服務(wù)器將用戶的歷史瀏覽行為記錄在行為日志內(nèi),記錄用戶瀏覽標(biāo)簽新聞的瀏覽次數(shù)和瀏覽天數(shù),對于同一天數(shù)次瀏覽同一標(biāo)簽新聞的行為進(jìn)行一次計(jì)數(shù),連續(xù)2天瀏覽同一標(biāo)簽新聞的行為在原有次數(shù)的基礎(chǔ)上瀏覽次數(shù)加1,7天內(nèi)存在瀏覽3次同一標(biāo)簽新聞的行為在原有次數(shù)的基礎(chǔ)上瀏覽次數(shù)加1;服務(wù)器端的日志采集工具獲得用戶有效行為日志信息,根據(jù)獲得的不同標(biāo)簽新聞的瀏覽次數(shù)對標(biāo)簽新聞進(jìn)行排序生成推薦列表,向用戶進(jìn)行個(gè)性化新聞推薦,且根據(jù)用戶歷史記錄生成的推薦等級優(yōu)先于服務(wù)器計(jì)算所得到的新聞推薦。
新聞?lì)悜?yīng)用軟件服務(wù)器設(shè)置用戶反饋模塊,用于接收用戶對推薦內(nèi)容的滿意度。當(dāng)用戶不滿意推薦內(nèi)容時(shí),向服務(wù)器發(fā)出重新啟動(dòng)向用戶進(jìn)行新聞個(gè)性化推薦的計(jì)算過程。
本發(fā)明利用模糊c均值聚類算法通過計(jì)算有效的發(fā)現(xiàn)用戶的需求和愛好,能夠給用戶進(jìn)行個(gè)性化新聞推薦,同時(shí)因?yàn)槟:齝均值算法的靈活性,可以根據(jù)需要來調(diào)整效應(yīng)函數(shù)來達(dá)到進(jìn)一步提高推薦準(zhǔn)確性的目的。
顯而易見的是,本領(lǐng)域的技術(shù)人員可以從根據(jù)本發(fā)明的實(shí)施方式的各種結(jié)構(gòu)中獲得根據(jù)不麻煩的各個(gè)實(shí)施方式尚未直接提到的各種效果。
盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用。它完全可以被適用于各種適合本發(fā)明的領(lǐng)域。對于熟悉本領(lǐng)域的人員而言,可容易地實(shí)現(xiàn)另外的修改。因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本實(shí)用新型并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。