基于隱私反饋預(yù)測移動用戶基礎(chǔ)屬性的方法
【專利摘要】本發(fā)明通過分析移動用戶的瀏覽內(nèi)容,預(yù)測用戶的年齡和性別等基礎(chǔ)屬性。從用戶的瀏覽日志出發(fā),將用戶的瀏覽行為分類,得出用戶行為偏好點擊矩陣,采用LFM方法得到用戶的關(guān)系反饋矩陣。分析用戶的瀏覽行為和用戶之間的關(guān)系,從而通過用戶的瀏覽行為預(yù)測用戶的基礎(chǔ)屬性。采用貝葉斯網(wǎng)絡(luò)模型實現(xiàn)對用戶的基礎(chǔ)屬性的分類預(yù)測。本發(fā)明將用戶的性別作為男和女的二分類問題處理,年齡分段之后作為多分類問題處理。本發(fā)明實施例的有益效果是,通過分析移動用戶的瀏覽行為可以對用戶的性別、年齡等基礎(chǔ)屬性做出預(yù)測,其中對年齡的預(yù)測能夠達(dá)到85%以上的準(zhǔn)確率,對性別的預(yù)測能夠達(dá)到92%以上的準(zhǔn)確率。
【專利說明】基于隱私反饋預(yù)測移動用戶基礎(chǔ)屬性的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),具體涉及基于隱私反饋預(yù)測移動用戶基礎(chǔ)屬性的實現(xiàn)方法。
【背景技術(shù)】
[0002]在網(wǎng)絡(luò)應(yīng)用中用戶的基礎(chǔ)屬性扮演著重要的角色,用戶基礎(chǔ)屬性預(yù)測就是通過分析用戶的瀏覽行為和搜索內(nèi)容來預(yù)測用戶的年齡、性別、收入狀況、地理位置、文化程度、宗教信仰等用戶的基礎(chǔ)屬性。隨著web2.0的到來和移動互聯(lián)的飛速發(fā)展,用戶的基礎(chǔ)屬性在網(wǎng)絡(luò)應(yīng)用中越來越重要,而與之相關(guān)的研究內(nèi)容成為研究的一個熱點。例如Google提供的個性化搜索服務(wù),根據(jù)用戶的地理位置信息和用戶的搜索歷史記錄為用戶返回個性化的搜索列表,以為用戶提供個性化的搜索服務(wù)。
[0003]對用戶基礎(chǔ)屬性預(yù)測的研究主要集中在用戶的網(wǎng)絡(luò)日志和用戶的搜索內(nèi)容上。對用戶的網(wǎng)絡(luò)日志的研究主要是通過研究用戶網(wǎng)絡(luò)日志的書寫習(xí)慣和用語習(xí)慣預(yù)測作者的性別和年齡,采取的方法主要是基于文本的分類方法,如SVM文本分類。對用戶的搜索內(nèi)容研究主要是分析用戶的搜索內(nèi)容和用戶的基礎(chǔ)屬性之間的聯(lián)系,已實現(xiàn)對用戶的基礎(chǔ)屬性預(yù)測目的,采取的方法一般是統(tǒng)計分析和關(guān)聯(lián)規(guī)則分析。然而,不管是基于搜索內(nèi)容關(guān)聯(lián)分析和還是基于習(xí)慣的分類預(yù)測都不能達(dá)到理想的效果,召回率和準(zhǔn)確率依然很低。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供基于隱私反饋預(yù)測移動用戶基礎(chǔ)屬性的實現(xiàn)方法。使用本發(fā)明提供的實施例,可以通過分析移動用戶的瀏覽行為對用戶的基礎(chǔ)屬性進(jìn)行預(yù)測。
[0005]本發(fā)明通過分析移動用戶的瀏覽內(nèi)容,預(yù)測用戶的年齡和性別等基礎(chǔ)屬性。從用戶的瀏覽日志出發(fā),根據(jù)用戶瀏覽的網(wǎng)頁的內(nèi)容將網(wǎng)頁歸類,用戶對該類網(wǎng)頁的一次瀏覽視為用戶對該類網(wǎng)頁的一次投票,從而得到用戶的網(wǎng)頁類別點擊矩陣。通過用戶的ID將用戶的基礎(chǔ)屬性和點擊瀏覽請款關(guān)聯(lián)起來,分析用戶的瀏覽行為和用戶之間的關(guān)系,從而通過用戶的瀏覽行為預(yù)測用戶的基礎(chǔ)屬性。本發(fā)明將用戶的性別作為男和女的二分類問題處理,年齡分段之后作為多分類問題處理。本發(fā)明將每一位用戶的瀏覽記錄視為一個文本,采用樸素貝葉斯對用戶的基礎(chǔ)屬性建模,實現(xiàn)對用戶的基礎(chǔ)屬性進(jìn)行預(yù)測。但是,用戶的瀏覽的網(wǎng)頁類別往往是很多的,而用戶的興趣愛好在一段時間內(nèi)是比較穩(wěn)定的,因此為了解決數(shù)據(jù)的稀疏性和用戶興趣為的有限性之間的矛盾,我們采用隱私反饋的方法對我們的方法進(jìn)行改進(jìn)。基于樸素貝葉斯、隱私反饋和鄰居模型算法提出并實現(xiàn)了基于隱私反饋預(yù)測移動用戶基礎(chǔ)屬性的方法。
[0006]該方法的步驟包括:
[0007]1、爬取用戶訪問的URL的內(nèi)容,通過關(guān)鍵字匹配將網(wǎng)頁歸類,得到(用戶ID,網(wǎng)頁類別)值對;
[0008]2、將(用戶ID,網(wǎng)頁類別)值對轉(zhuǎn)化為用戶的點擊矩陣R,用TFIDF統(tǒng)計方法處理矩陣R;
[0009]3、通過關(guān)鍵字用戶ID,將用戶點擊矩陣和用戶的基礎(chǔ)屬性關(guān)聯(lián),將用戶的基礎(chǔ)屬性設(shè)置為類標(biāo);
[0010]4、計算出每個網(wǎng)頁類別的先驗概率;
[0011]5、對矩陣R做行歸一化處理,采用SVD方法分解歸一化之后的矩陣得到用戶的隱私反饋矩陣P和網(wǎng)頁類別的隱私反饋矩陣Q ;
[0012]6、結(jié)合網(wǎng)頁類別的隱私反饋矩陣Q鄰居模型得到網(wǎng)頁類別的前N個鄰居,并用鄰居的先驗概率修正該網(wǎng)頁類別的先驗概率;
[0013]7、利用樸素貝葉斯模型對用戶的基礎(chǔ)屬性做出預(yù)測;
[0014]8、結(jié)合用戶隱私反饋矩陣P和鄰居模型得到用戶的前M個鄰居,用鄰居的后驗概率修正用戶的后驗概率,為測試樣本做出最終預(yù)測;
[0015]9、輸出對測試測試樣本的預(yù)測結(jié)果
[0016]最后,實施本發(fā)明具有以下有益效果:
[0017]本發(fā)明實施例的有益效果是,通過分析移動用戶的瀏覽行為可以對用戶的性別、年齡等基礎(chǔ)屬性做出預(yù)測,其中對性別的預(yù)測能夠達(dá)到80%以上的準(zhǔn)確率,對性別的預(yù)測能夠達(dá)到85%以上的準(zhǔn)確率。
【專利附圖】
【附圖說明】
[0018]附圖是本發(fā)明提出的基于隱私反饋預(yù)測移動用戶基礎(chǔ)屬性的實現(xiàn)方法的算法流程。
【具體實施方式】
[0019]下面結(jié)合附圖對本發(fā)明的【具體實施方式】進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。
[0020]在本實施例中,如圖所示,提供了本發(fā)明提出的方法的算法流程:
[0021]步驟101、爬取用戶訪問的URL的內(nèi)容,通過關(guān)鍵字匹配將網(wǎng)頁歸類,得到(用戶ID,網(wǎng)頁類別)值對;
[0022]經(jīng)過關(guān)鍵字處理,一條訪問記錄轉(zhuǎn)化為一個(用戶ID,網(wǎng)頁類別)值對。
[0023]步驟102、將(用戶ID,網(wǎng)頁類別)值對轉(zhuǎn)化為用戶的點擊矩陣R,用TFIDF統(tǒng)計方法處理矩陣R ;
[0024]統(tǒng)計由訪問日志得到的(用戶ID,網(wǎng)頁類另Ij)值對,得到網(wǎng)頁類別的總數(shù)n,將同一個用戶訪問的網(wǎng)頁類別統(tǒng)計到一行,一次訪問視為對該類網(wǎng)頁的一次投票,多次訪問則為多次投票,最后得到用戶的點擊矩陣,用TFIDF方法對點擊矩陣做統(tǒng)計處理。
[0025]步驟103、通過關(guān)鍵字用戶ID,將用戶點擊矩陣和用戶的基礎(chǔ)屬性關(guān)聯(lián),將用戶的基礎(chǔ)屬性設(shè)置為類標(biāo);
[0026]用戶的性別為男和女兩類,用戶的年齡為青少年(〈18歲)、少年(18-24)、青年(25-34)、中年(35-49)和老年(>50)五類。
[0027]步驟104、計算出每個網(wǎng)頁類別的先驗概率;
[0028]根據(jù)用戶的點擊矩陣和用戶的基礎(chǔ)屬性,計算每個網(wǎng)頁類別被相應(yīng)基礎(chǔ)屬性用戶訪問的概率,即為該網(wǎng)頁類別的先驗概率。
[0029]步驟105、對矩陣R做行歸一化處理,采用SVD方法分解歸一化之后的矩陣得到用戶的隱私反饋矩陣P和網(wǎng)頁類別的隱私反饋矩陣Q ;
[0030]對歸一化之后的點擊矩陣做SVD分解,采用隨機(jī)梯度下降法求解用戶的隱私反饋矩陣P和網(wǎng)頁類別的隱私反饋矩陣Q,在求解的過程中可以根據(jù)需要選著合適的迭代次數(shù)和數(shù)據(jù)維度K。
[0031]步驟106、結(jié)合網(wǎng)頁類別的隱私反饋矩陣Q鄰居模型得到網(wǎng)頁類別的前N個鄰居,并用鄰居的先驗概率修正該網(wǎng)頁類別的先驗概率;
[0032]將SVD分解之后的網(wǎng)頁隱私反饋Q矩陣作為網(wǎng)頁類別的向量模型,采用修正后的余弦相似性計算用戶之間的相似性,得到網(wǎng)頁類別的前T個鄰居,用鄰居的先驗概率修正該網(wǎng)頁類別的先驗概率,用戶樸素貝葉斯預(yù)測。
[0033]步驟107、利用樸素貝葉斯模型對用戶的基礎(chǔ)屬性做出預(yù)測;
[0034]對每一個用戶,根據(jù)訪問的網(wǎng)頁情況,采用貝葉斯公式,計算出用戶屬于各個基礎(chǔ)屬性類別的概率,即為用戶的后驗概率,根據(jù)極大似然思想,選擇概率最大的類為用戶對應(yīng)基礎(chǔ)屬性的類別。
[0035]步驟108、結(jié)合用戶隱私反饋矩陣P和鄰居模型得到用戶的前M個鄰居,用鄰居的后驗概率修正用戶的后驗概率,為測試樣本做出最終預(yù)測;
[0036]用戶的隱私反饋矩陣P是用戶在特定空間的隱私反饋,采用鄰居模型基于用戶的相似性得到用戶的前M個鄰居,根據(jù)鄰居的后驗概率修正自身的后驗概率,為測試樣本做出最終預(yù)測。
[0037]步驟109、輸出對預(yù)測測試樣本的預(yù)測結(jié)果。
[0038]對預(yù)測結(jié)果進(jìn)行輸出。
[0039]盡管上面對本發(fā)明說明性的【具體實施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實施方式】的范圍,對本【技術(shù)領(lǐng)域】的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【權(quán)利要求】
1.基于隱私反饋預(yù)測移動用戶基礎(chǔ)屬性的方法:其特征在于,從手機(jī)用戶瀏覽和搜索的日志出發(fā),根據(jù)瀏覽的URL內(nèi)容,按關(guān)鍵字將其歸類,將一次用戶的訪問轉(zhuǎn)化為(用戶ID,網(wǎng)頁類別)值對;將(用戶ID,網(wǎng)頁類別)轉(zhuǎn)化為點擊矩陣,用TFIDF統(tǒng)計方法處理點擊矩陣;通過用戶ID關(guān)聯(lián)用戶的基礎(chǔ)屬性,將用戶的基礎(chǔ)屬性作為類標(biāo);計算出每個網(wǎng)頁類別的先驗概率;對點擊矩陣做行歸一化,采用SVD分解矩陣得到用戶的隱私反饋矩陣和網(wǎng)頁類別的隱私反饋矩陣;根據(jù)網(wǎng)頁類別的隱私反饋矩陣的到網(wǎng)頁類別的T個鄰居,用鄰居的先驗概率修正網(wǎng)頁類別的先驗概率;利用樸素貝葉斯計算出用戶所屬各類的后驗概率;結(jié)合用戶的隱私反饋矩陣和鄰居模型得出用戶的N個鄰居,根據(jù)鄰居的后驗概率修正用戶所屬各類的后驗概率,將用戶歸類為后延概率最大的類并對用戶基礎(chǔ)屬性做出預(yù)測。
【文檔編號】G06F17/30GK104281635SQ201410092727
【公開日】2015年1月14日 申請日期:2014年3月13日 優(yōu)先權(quán)日:2014年3月13日
【發(fā)明者】程紅蓉, 夏勇, 秦臻 申請人:電子科技大學(xué)