一種基于用戶行為的信息推薦方法
【專利摘要】本發(fā)明涉及一種基于用戶行為的信息推薦方法,方法步驟為:步驟(1)數(shù)據(jù)來源;通過網(wǎng)絡(luò)爬蟲爬取了網(wǎng)絡(luò)上的網(wǎng)頁信息,并使用最大塊密度算法抽取了網(wǎng)頁中的正文,使用IKAnalyzer進(jìn)行分詞,使用聚類算法將詞進(jìn)行聚類,最終通過多個(gè)類形成了一個(gè)索引網(wǎng);步驟(2)用戶行為處理:系統(tǒng)會(huì)自動(dòng)為用戶分配一個(gè)唯一的用戶號(hào);會(huì)自動(dòng)記錄用戶的搜索內(nèi)容和與搜索結(jié)果的交互情況下來并存入;步驟(3)進(jìn)行推薦:以現(xiàn)有數(shù)據(jù)為基礎(chǔ),用基于內(nèi)容推薦的算法為用戶推薦。本發(fā)明添加相應(yīng)的推薦算法,為用戶推薦感興趣的信息供用戶進(jìn)行選擇,并在一定程度上影響搜索結(jié)果的排名,使得排名更符合不同用戶的興趣。
【專利說明】一種基于用戶行為的信息推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及為使用搜索引擎的用戶進(jìn)行相關(guān)內(nèi)容的推薦,具體涉及推薦用戶感興趣的內(nèi)容并在一定程度上通過用戶的上網(wǎng)行為影響搜索結(jié)果的排序。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,人們正處于一個(gè)信息爆炸的時(shí)代。相對(duì)于過去的信息匱乏,面對(duì)現(xiàn)階段海量的信息數(shù)據(jù),對(duì)信息的篩選和過濾成為了衡量一個(gè)系統(tǒng)好壞的重要指標(biāo)。同時(shí),一個(gè)具有良好用戶體驗(yàn)的系統(tǒng),會(huì)將海量信息進(jìn)行篩選和過濾,并將用戶最感興趣的信息展現(xiàn)在用戶面前。在一定程度上,這大大增加了系統(tǒng)工作的效率,另一方面也節(jié)省了用戶篩選信息的時(shí)間。搜索引擎的出現(xiàn)在一定程度上解決了信息篩選問題,但僅僅是搜索引擎是不夠的。雖然搜索引擎可以幫助用戶在輸入關(guān)鍵詞之后對(duì)海量信息進(jìn)行篩選,從而在搜索結(jié)果中找尋所需的內(nèi)容。以Google、Baidu為代表的搜索引擎已為人們熟知,它們都具有基于關(guān)鍵字、通用性較強(qiáng)等特點(diǎn)。但當(dāng)用戶無法準(zhǔn)確描述自己的需求時(shí),搜索引擎的搜索效果將受到很大影響,而用戶將自己的需求和意圖轉(zhuǎn)化成關(guān)鍵詞的過程本身就是一個(gè)并不輕松的過程。因此,推薦系統(tǒng)在一定程度上具有良好的引導(dǎo)和幫助用戶找到所需內(nèi)容的作用,使得用戶在使用搜索系統(tǒng)的過程中具有良好的體驗(yàn)。
[0003]同時(shí),記錄不同用戶的搜索行為,并根據(jù)不同用戶的行為進(jìn)行推薦將在一定程度上使得推薦內(nèi)容更能滿足不同用戶的需求。不同的用戶行為不僅僅影響了推薦內(nèi)容,也會(huì)影響搜索結(jié)果的排名。例如兩個(gè)不同的用戶都輸入“旅游”一詞進(jìn)行搜索,但一位是想搜索探險(xiǎn)類的旅游,而另一位是想搜索休閑類的旅游,根據(jù)這兩位不同的用戶搜索引擎會(huì)根據(jù)用戶的行為進(jìn)行不同的推薦,否則會(huì)返回相同的結(jié)果讓用戶自行選擇需要的內(nèi)容,在一定程度上使得用戶的體驗(yàn)感下降。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對(duì)以上存在的問題,在已有的搜索引擎中添加相應(yīng)的推薦算法,為用戶推薦感興趣的信息供用戶進(jìn)行選擇,并在一定程度上影響搜索結(jié)果的排名,使得排名更符合不同用戶的興趣。
[0005]本發(fā)明給出的技術(shù)技術(shù)方案:
一種基于用戶行為的信息推薦方法,其特征在于,方法步驟為:
步驟(I)數(shù)據(jù)來源,具體為:
通過網(wǎng)絡(luò)爬蟲爬取了網(wǎng)絡(luò)上的網(wǎng)頁信息,并使用最大塊密度算法抽取了網(wǎng)頁中的正文,使用IKAnalyzer進(jìn)行分詞,使用聚類算法將詞進(jìn)行聚類,最終通過形成了多個(gè)類,同時(shí)在每個(gè)類中都有一個(gè)中心詞用于較好地刻畫這個(gè)類,如此網(wǎng)絡(luò)中的海量詞語就形成了一個(gè)索引網(wǎng)。
[0006]步驟(2)用戶行為處理,具體為:
當(dāng)用戶使用搜索引擎進(jìn)行搜索時(shí),系統(tǒng)會(huì)自動(dòng)為該用戶分配一個(gè)唯一的用戶號(hào)。當(dāng)用戶登錄后,系統(tǒng)會(huì)自動(dòng)把用戶的搜索內(nèi)容和與搜索結(jié)果的交互情況記錄下來,并存入數(shù)據(jù)庫中。所述數(shù)據(jù)庫使用了一維向量來刻畫用戶的搜索行為。當(dāng)用戶登錄系統(tǒng)之后,輸入關(guān)鍵字進(jìn)行搜索,那么就使用向量〈ID, word, num, class〉(ID表示用戶ID, word表示關(guān)鍵詞,num表示搜索該關(guān)鍵詞的次數(shù),class表示該關(guān)鍵詞所屬的類)來記錄用戶的搜索行為。當(dāng)呈現(xiàn)了搜索結(jié)果之后,如果用戶點(diǎn)擊了相應(yīng)的搜索內(nèi)容,則同樣記錄用戶點(diǎn)擊行為,即使用向量〈ID, class, count〉(ID表示用戶ID, class表示點(diǎn)擊內(nèi)容所屬的類,count表示點(diǎn)擊該類的次數(shù))來表示。
[0007]步驟(3)進(jìn)行推薦,具體為:
推薦算法是以現(xiàn)有數(shù)據(jù)為基礎(chǔ),采用基于內(nèi)容推薦的算法為用戶進(jìn)行推薦。在每個(gè)搜索結(jié)果的呈現(xiàn)中都會(huì)展示這個(gè)結(jié)果屬于哪個(gè)類,那么就可以在此基礎(chǔ)上推薦這個(gè)類中的相應(yīng)內(nèi)容和與這個(gè)類有關(guān)的類。在已構(gòu)建的詞關(guān)聯(lián)網(wǎng)上,根據(jù)用戶行為建立的數(shù)據(jù)表,按照某個(gè)類中num (用戶點(diǎn)擊次數(shù))的大小選取前K個(gè)進(jìn)行推薦。而類之間的推薦則根據(jù)count (這個(gè)類被某個(gè)用戶所選擇的次數(shù))的大小取前M個(gè)進(jìn)行推薦。
[0008]與現(xiàn)有的搜索引擎相比,添加了推薦算法在很大程度上滿足了不同用戶的不同搜索需求,同時(shí)也為用戶呈現(xiàn)了更多的適應(yīng)于用戶興趣的信息供用戶選擇,為用戶的不確定搜索和搜索更多所需內(nèi)容提供了方便。本發(fā)明技術(shù)方案創(chuàng)新點(diǎn)體現(xiàn)在:
I)記錄用戶的行為將相應(yīng)的數(shù)據(jù)存入數(shù)據(jù)庫中,并將用戶行為與推薦內(nèi)容進(jìn)行結(jié)合,根據(jù)用戶行為提供給用戶偏愛的某一類的相關(guān)推薦詞。
[0009]2)根據(jù)用戶行為和已記錄的數(shù)據(jù),影響搜索結(jié)果的排序,將用戶偏愛的結(jié)果排在搜索結(jié)果的前面,在一定程度上為用戶使用搜索引擎帶來便利也根據(jù)個(gè)性化。
【專利附圖】
【附圖說明】
[0010]圖1詞關(guān)聯(lián)網(wǎng);
圖2推薦系統(tǒng)流程圖。
【具體實(shí)施方式】
[0011]數(shù)據(jù)來源:通過網(wǎng)絡(luò)爬蟲爬取了網(wǎng)絡(luò)上的網(wǎng)頁信息,并使用最大塊密度算法抽取了網(wǎng)頁中的正文,使用IKAnalyzer進(jìn)行分詞,使用聚類算法將詞進(jìn)行聚類,最終通過形成了多個(gè)類,同時(shí)在每個(gè)類中都有一個(gè)中心詞用于較好地刻畫這個(gè)類。這樣網(wǎng)絡(luò)中的海量詞語就形成了一個(gè)索引網(wǎng),從而詞與詞、類與類之間就存在一定的關(guān)系(如圖1所示)。在圖1中,黑點(diǎn)表示詞,多個(gè)詞通過聚類算法形成了一個(gè)個(gè)類,例如圖1中的ABCD就是形成的類。而類與類之間的關(guān)系通過連線進(jìn)行表示,當(dāng)類與類之間的連線距離越短則表示兩個(gè)類之間的關(guān)系越緊密。
[0012]通過圖2所示可以看到用戶在整個(gè)搜索過程中的具體行為,以及對(duì)于推薦系統(tǒng)的影響。在用戶進(jìn)行搜索之前,所有的數(shù)據(jù)通過網(wǎng)絡(luò)爬蟲爬取了網(wǎng)絡(luò)上的網(wǎng)頁信息,并使用最大塊密度算法抽取了網(wǎng)頁中的正文,使用IKAnalyzer進(jìn)行分詞,使用聚類算法將詞進(jìn)行聚類,最終通過形成了多個(gè)類,同時(shí)在每個(gè)類中都有一個(gè)中心詞用于較好地刻畫這個(gè)類。當(dāng)用戶與搜索引擎進(jìn)行交互之后就形成了用戶行為,當(dāng)達(dá)到一定的使用次數(shù)之后就會(huì)對(duì)搜索引擎的推薦形成影響,下面就具體的步驟進(jìn)行闡述: I獲取用戶行為信息:獲取的用戶行為的信息主要來自于用戶登錄系統(tǒng)之后與系統(tǒng)的一系列交互的過程,通過交互過程中的用戶行為將相應(yīng)的內(nèi)容存入數(shù)據(jù)庫中用于之后的推薦。當(dāng)每次用戶打開搜索引擎開始搜索時(shí),通過每個(gè)用戶的不同的ID號(hào)記錄用戶的搜索內(nèi)容,即搜索詞和查看網(wǎng)頁的類,以方便之后的使用。
[0013]2將用戶信息存入數(shù)據(jù)庫:當(dāng)用戶登錄后,系統(tǒng)會(huì)自動(dòng)把用戶的搜索內(nèi)容和與搜索結(jié)果的交互情況記錄下來,并存入數(shù)據(jù)庫中。在這里使用了一維向量來刻畫用戶的搜索行為。當(dāng)用戶登錄系統(tǒng)之后,輸入關(guān)鍵字進(jìn)行搜索,那么就使用向量〈ID, word, num, class〉(ID表示用戶ID, word表示關(guān)鍵詞,num表示搜索該關(guān)鍵詞的次數(shù),class表示該關(guān)鍵詞所屬的類)來記錄用戶的搜索行為。同時(shí),當(dāng)某個(gè)class被使用之后,相對(duì)應(yīng)的另一個(gè)記錄class的表中的一維向量〈ID, class, count〉中的count值也有所增加。當(dāng)呈現(xiàn)了搜索結(jié)果之后,如果用戶點(diǎn)擊了相應(yīng)的搜索內(nèi)容,則同樣記錄用戶點(diǎn)擊行為,即改變記錄某個(gè)類的信息的表,使用向量〈ID, class, count〉(ID表示用戶ID, class表示點(diǎn)擊內(nèi)容所屬的類,count表示點(diǎn)擊該類的次數(shù))來表示。
[0014]3形成推薦:推薦算法是以現(xiàn)有數(shù)據(jù)為基礎(chǔ),在已有的詞關(guān)聯(lián)網(wǎng)絡(luò)的基礎(chǔ)之上,采用基于內(nèi)容推薦的算法為用戶進(jìn)行推薦。也就是說在這里不是基于用戶間的信息進(jìn)行推薦,而是只是基于單個(gè)用戶進(jìn)行的特定推薦,根據(jù)每個(gè)用戶的搜索行為進(jìn)行相應(yīng)的推薦,使得推薦更加個(gè)性化。根據(jù)某個(gè)用戶在開啟搜索引擎之后的用戶行為,將以保存的用戶行為中的常用搜索詞和常用搜索類進(jìn)行排序,并將這些內(nèi)容排在所有搜索結(jié)果的最前面或者是作為主要推薦內(nèi)容呈現(xiàn)。
[0015]4產(chǎn)生結(jié)果:在每個(gè)搜索結(jié)果的呈現(xiàn)中都會(huì)展示這個(gè)結(jié)果屬于哪個(gè)類,那么就可以在此基礎(chǔ)上推薦這個(gè)類中的相應(yīng)詞和與這個(gè)類有關(guān)的類。在已構(gòu)建的關(guān)聯(lián)詞網(wǎng)的基礎(chǔ)上,根據(jù)用戶行為建立的數(shù)據(jù)表,即用于記錄搜索詞的表格(〈ID, word,num, class〉)和用于記錄類的表格(〈ID, class, count〉),進(jìn)行推薦。簡(jiǎn)單的說,就是推薦詞的推薦按照某個(gè)類中num的大小選取前K個(gè)進(jìn)行推薦。而類之間的推薦則根據(jù)count的大小取前M個(gè)進(jìn)行推薦(K,M的大小根據(jù)實(shí)際情況具體限定)。
【權(quán)利要求】
1.一種基于用戶行為的信息推薦方法,其特征在于,方法步驟為: 步驟(I)數(shù)據(jù)來源,具體為: 通過網(wǎng)絡(luò)爬蟲爬取了網(wǎng)絡(luò)上的網(wǎng)頁信息,并使用最大塊密度算法抽取了網(wǎng)頁中的正文,使用IKAnalyzer進(jìn)行分詞,使用聚類算法將詞進(jìn)行聚類,最終通過形成了多個(gè)類,同時(shí)在每個(gè)類中都有一個(gè)中心詞用于較好地刻畫這個(gè)類,如此網(wǎng)絡(luò)中的海量詞語就形成了一個(gè)索引網(wǎng); 步驟(2)用戶行為處理,具體為: 當(dāng)用戶使用搜索引擎進(jìn)行搜索時(shí),系統(tǒng)會(huì)自動(dòng)為該用戶分配一個(gè)唯一的用戶號(hào);當(dāng)用戶登錄后,系統(tǒng)會(huì)自動(dòng)把用戶的搜索內(nèi)容和與搜索結(jié)果的交互情況記錄下來,并存入數(shù)據(jù)庫中;所述數(shù)據(jù)庫使用了一維向量來刻畫用戶的搜索行為;當(dāng)用戶登錄系統(tǒng)之后,輸入關(guān)鍵字進(jìn)行搜索,那么就使用向量<ID,word,num, class〉(ID表示用戶ID,word表示關(guān)鍵詞,num表示搜索該關(guān)鍵詞的次數(shù),class表示該關(guān)鍵詞所屬的類)來記錄用戶的搜索行為;當(dāng)呈現(xiàn)了搜索結(jié)果之后,如果用戶點(diǎn)擊了相應(yīng)的搜索內(nèi)容,則同樣記錄用戶點(diǎn)擊行為,即使用向量〈ID, class, count〉(ID表示用戶ID, class表示點(diǎn)擊內(nèi)容所屬的類,count表示點(diǎn)擊該類的次數(shù))來表示; 步驟(3)進(jìn)行推薦,具體為: 推薦算法是以現(xiàn)有數(shù)據(jù)為基礎(chǔ),采用基于內(nèi)容推薦的算法為用戶進(jìn)行推薦。
2.在每個(gè)搜索結(jié)果的呈現(xiàn)中都會(huì)展示這個(gè)結(jié)果屬于哪個(gè)類,那么就可以在此基礎(chǔ)上推薦這個(gè)類中的相應(yīng)內(nèi)容和與這個(gè)類有關(guān)的類;在已構(gòu)建的詞關(guān)聯(lián)網(wǎng)上,根據(jù)用戶行為建立的數(shù)據(jù)表,按照某個(gè)類中num(用戶點(diǎn)擊次數(shù))的大小選取前K個(gè)進(jìn)行推薦;而類之間的推薦則根據(jù)count (這個(gè)類被某個(gè)用戶所選擇的次數(shù))的大小取前M個(gè)進(jìn)行推薦。
【文檔編號(hào)】G06F17/30GK103678710SQ201310747338
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】蔣昌俊, 陳閎中, 閆春鋼, 丁志軍, 王鵬偉, 何源, 陳雨忱 申請(qǐng)人:同濟(jì)大學(xué)