所示,基于先驗知識的人口屬性預測方法,包括如下步驟:
[0056] 基于先驗知識的人口屬性預測方法,包括如下步驟:
[0057] 步驟一,確認需要預測人口屬性的用戶,查看和整理該類用戶的一周訪問記錄; [005引步驟二,獲取熱口網(wǎng)站的人口屬性分布數(shù)據(jù);
[0059] 步驟Ξ,通過已有熱口網(wǎng)站人口屬性分布數(shù)據(jù)推測非熱口網(wǎng)站人口屬性分布,具 體步驟為:
[0060] 針對每個非熱口網(wǎng)站,選取出相似度最高的η個熱口網(wǎng)站,提取選定的每個熱口網(wǎng) 站用戶的一周訪問矩陣Α;
[0061] 進一步地,根據(jù)熱口網(wǎng)站的訪問矩陣Α,計算得出非熱口網(wǎng)站與熱口網(wǎng)站的相似 度,相似度公式為:
[0062]
[0063] 其中,用戶訪問過網(wǎng)站記錄為1,未訪問過網(wǎng)站則記錄為0,sim(i,j)表示非熱口網(wǎng) 站j與熱口網(wǎng)站i的相似度,A康示用戶訪問過熱口網(wǎng)站i的矩陣,A徒示用戶訪問過非熱口 網(wǎng)站j的矩陣,|Ai|表示Ai矩陣中非零元素的個數(shù),?ΑιΠΑ^Ι表示Ai與A巧集矩陣中非零元素 的個數(shù),I Ai U Aj I表示Ai與Aj并集矩陣中非零元素的個數(shù);
[0064] 進一步地,計算每個熱口網(wǎng)站i的人口屬性分布的平均值容,作為熱口網(wǎng)站i的人口 屬性分布;
[00 化]
[006引其中,Ra表示熱口網(wǎng)站i的第a個人口屬性,m表示熱口網(wǎng)站i的人口數(shù)量;
[0067] 進一步地,計算全網(wǎng)的人口屬性分布的平均值系品,作為全網(wǎng)的人口屬性分布;
[006引
[0069] 其中,η表示熱口網(wǎng)站i的數(shù)量;
[0070] 進一步地,根據(jù)非熱口網(wǎng)站與熱口網(wǎng)站的相似度sim(i,j)、熱口網(wǎng)站i的人口屬性 分布的平均值反和全網(wǎng)的人口屬性分布的平均值計算得出非熱口網(wǎng)站j的人口屬性 分布,具體公式如下:
[0071]
[0072] 其中,的表示非熱口網(wǎng)站的人口屬性分布,叫表示非熱口網(wǎng)站的數(shù)量。
[0073] 實施例2:
[0074] 基于先驗知識的人口屬性預測方法,包括如下步驟:
[0075] 圖1是基于先驗知識的人口屬性預測方法的流程圖。
[0076] 如圖1所示,基于先驗知識的人口屬性預測方法,包括如下步驟:
[0077] 基于先驗知識的人口屬性預測方法,包括如下步驟:
[0078] 步驟一,確認需要預測人口屬性的用戶,查看和整理該類用戶的一周訪問記錄;
[0079] 步驟二,獲取熱口網(wǎng)站的人口屬性分布數(shù)據(jù),并且對熱口網(wǎng)站的人口屬性分布值 進行優(yōu)化,具體步驟為:
[0080] (1)將一天中用戶訪問過的網(wǎng)站的行為表示為矩陣A、B,Xd表示熱口網(wǎng)站在維度d 上標注的用戶屬性值,標注的用戶屬性值通過矩陣表示,進而得出網(wǎng)站男女性比例,當用戶 P訪問過網(wǎng)站q,則Ap, q = 1,Bq,P = 1 /nq,nq表示訪問網(wǎng)站q的用戶總數(shù);當表示用戶P未訪問過 網(wǎng)站q ,則Ap, q = 0 ,Bq, P = 0 ,矩陣A中的兀素用Ap, q表不,矩陣B中的兀素用Bq, P表不;
[0081] (2)假設(shè)每個熱口網(wǎng)站中每個維度d上的權(quán)重值為wd,則得出所有用戶在維度d上 的用戶屬性值Rd,具體公式如下:
[0082]
;
[0083] 其中,Dim表示每個網(wǎng)站中包含的維度數(shù)量;
[0084] (3)根據(jù)所有用戶在維度d上的用戶屬性值Rd,預測出該熱口網(wǎng)站的用戶屬性值Rm, 具體公式如下:
[00 化]Rm=BXRd
[0086] 進一步地,計算網(wǎng)站預測的用戶屬性值和網(wǎng)站標注的用戶屬性值的差,即為 I 悼m 乂江!!.量
[0087] (4)為了防止過擬合作用對網(wǎng)站的影響,我們對目標函數(shù)進行優(yōu)化,優(yōu)化的目標函 數(shù)f為:
[008引
[0089]其中,C i表示相鄰維度上標注的屬性值之間的差距值,為優(yōu)化公式的L2正則 項;
[0090] (5)依據(jù)BFGS算法對優(yōu)化的目標函數(shù)f進行求解;
[0091] 首先,設(shè)初始X0為巧,權(quán)重W的初始值W0戈
[oow]目標函數(shù)f的導數(shù)巧為:
[oow]區(qū)/ =化/,...,廬如..,啼訊巧
[0094] 其中,F(xiàn)i/·是目標函數(shù)f對權(quán)重wi變量進行偏導,即:
[0095]
[0096] 然后,根據(jù)相鄰維度權(quán)重值之間的公式W及黃金分割算法計算得出Qk值,具體公 式如下:
[0097]
[009引進一步地,采用BFGS算法,進行循環(huán)往復計算,直至|fk+i-fk| < ε,ε=0.01,求出最 優(yōu)權(quán)重W;
[0099] 其中,心康示用戶在維度k+1上的權(quán)重值,wk表示用戶在維度k上的權(quán)重值,Qk表示 步長,化表示維度k上的上的正定矩陣,17爲是目標函數(shù)f對權(quán)重wk變量進行的偏導,fk+i表示 用戶在維度k+1上的目標函數(shù),fk表示用戶在維度k上的目標函數(shù);
[0100] (6)將最優(yōu)權(quán)重W代入(2)的公式中,求出用戶的最優(yōu)人口屬性值Rm,再將用戶訪問 過該熱口網(wǎng)站的不同維度上的所有用戶的最優(yōu)人口屬性值Rm求取平均值,得到該熱口網(wǎng)站 的優(yōu)化人口屬性分布;
[0101] 步驟Ξ,通過步驟二中熱口網(wǎng)站的優(yōu)化人口屬性分布數(shù)據(jù)推測非熱口網(wǎng)站人口屬 性分布,具體步驟為:
[0102] 針對每個非熱口網(wǎng)站,選取出相似度最高的η個熱口網(wǎng)站,提取選定的每個熱口網(wǎng) 站用戶的一周訪問矩陣A,矩陣A中的元素用Αρ, q表示;
[0103] 進一步地,根據(jù)熱口網(wǎng)站的訪問矩陣A,計算得出非熱口網(wǎng)站與熱口網(wǎng)站的相似 度,相似度公式為:
[0104]
[01化]其中,用戶訪問過網(wǎng)站記錄為1,未訪問過網(wǎng)站則記錄為0,sim(i,j)表示非熱口網(wǎng) 站j與熱口網(wǎng)站i的相似度,A康示用戶訪問過熱口網(wǎng)站i的矩陣,A康示用戶訪問過非熱口 網(wǎng)站j的矩陣,|Ai|表示Ai矩陣中非零元素的個數(shù),lAiflAjl表示Ai與Aj交集矩陣中非零元素 的個數(shù),I Ai U Aj I表示Ai與Aj并集矩陣中非零元素的個數(shù);
[0106] 例如:Ai=(l,0,l),Aj = (l,0,0)
[0107] 貝ij,|Ai| = 2, |Aj| =1,lAiflAjl = I (!,0,0) I =1; lAiUAjI = I (1,0,1) I = 2;
[0108] 進一步地,計算每個熱口網(wǎng)站i的人口屬性分布的平均值長:,作為熱口網(wǎng)站i的人口 屬性分布;
[0109]
[0110] 其中,Ra表示熱口網(wǎng)站i的第a個人口屬性,m表示熱口網(wǎng)站i的人口數(shù)量;
[0111] 進一步地,計算全網(wǎng)的人口屬性分布的平均值是立作為全網(wǎng)的人口屬性分布;
[0112]
[0113] 其中,η表示熱口網(wǎng)站i的數(shù)量;
[0114] 進一步地,根據(jù)非熱口網(wǎng)站與熱口網(wǎng)站的相似度sim(i,j)、熱口網(wǎng)站i的人口屬性 分布的平均值戾和全網(wǎng)的人口屬性分布的平均值1:品L計算得出非熱口網(wǎng)站j的人口屬性 分布,具體公式如下:
[0115]
[0116] 其中,的表示非熱口網(wǎng)站的人口屬性分布,叫表示非熱口網(wǎng)站的數(shù)量;
[0117] 步驟四,根據(jù)熱口網(wǎng)站的人口屬性W及計算出的非熱口網(wǎng)站的人口屬性,計算得 出用戶的平均屬性。
[0118] 對熱口網(wǎng)站的人口屬性值優(yōu)化進行舉例:
[0119] 當用戶1訪問了熱口網(wǎng)站1、2和3,用戶2訪問了熱口網(wǎng)站1和2,用戶3訪問了熱口網(wǎng) 站2和3,用戶4訪問了熱口網(wǎng)站1和3,用戶5訪問了熱口網(wǎng)站3時,熱口網(wǎng)站1,2,3在維度d上 標注的用戶屬性值
表示網(wǎng)站1的男性占比為70 %,女性占比為30 %,網(wǎng)站2 的男性占比為40%,女性占比為60%,網(wǎng)站3的男性占比為50%,女性占比為50%;
[0120] 首先,用戶1-5訪問過熱口網(wǎng)站1