基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,特別設(shè)及基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 人口屬性的信息在互聯(lián)網(wǎng)個(gè)性化服務(wù)中起到重要的作用。在線互聯(lián)網(wǎng)行為定向廣 告通過(guò)獲取用戶行為,分析其用戶屬性,從而實(shí)現(xiàn)定向投放的廣告。然而獲得用戶的屬性非 常困難,例如:獲取用戶的性別、年齡等數(shù)據(jù)往往十分困難。
[0003] 現(xiàn)有技術(shù)主要是通過(guò)用戶瀏覽、點(diǎn)擊和購(gòu)買等行為作為模型預(yù)測(cè)的特征。具體步 驟為:首先,通過(guò)問(wèn)卷調(diào)查或者公司自有數(shù)據(jù)庫(kù)信息,生成已知確定人口屬性的樣本集合; 然后使用邏輯回歸模型對(duì)用戶人口屬性進(jìn)行預(yù)測(cè)。此種方法需要依靠已知人口屬性的樣本 集合才能實(shí)現(xiàn)用戶人口屬性的預(yù)測(cè),由于樣本集合需要花費(fèi)大量的人力、物力,往往很難收 集到;并且由于調(diào)查問(wèn)卷是具有地域性的,導(dǎo)致數(shù)據(jù)經(jīng)常是有偏差的,例如收集的大部分是 上海的數(shù)據(jù),在預(yù)測(cè)全國(guó)用戶的人口屬性時(shí)不具有說(shuō)服力和普遍性,就會(huì)存在很大的偏差。
[0004] 因此,計(jì)算機(jī)技術(shù)領(lǐng)域急需基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法,不需要依賴于任 何具體的已知人口屬性的用戶樣本集合,而是通過(guò)相對(duì)易得的熱口網(wǎng)站人口屬性分布數(shù) 據(jù),W及統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方式,再根據(jù)用戶的網(wǎng)站訪問(wèn)記錄預(yù)測(cè)出非熱口網(wǎng)站的人口屬性; 全自動(dòng)化,無(wú)需人為操作,克服了人為因素、地域因素的影響,更加科學(xué)、可靠。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法,技術(shù)方案如下:
[0006] 基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法,包括如下步驟:
[0007] 步驟一,確認(rèn)需要預(yù)測(cè)人口屬性的用戶,查看和整理該類用戶的一周訪問(wèn)記錄; [000引步驟二,獲取熱口網(wǎng)站的人口屬性分布數(shù)據(jù);
[0009] 步驟Ξ,通過(guò)熱口網(wǎng)站人口屬性分布的數(shù)據(jù)推測(cè)非熱口網(wǎng)站人口屬性分布,具體 步驟為:
[0010] 針對(duì)每個(gè)非熱口網(wǎng)站,選取出相似度最高的η個(gè)熱口網(wǎng)站,提取選定的每個(gè)熱口網(wǎng) 站用戶的一周訪問(wèn)矩陣Α;
[0011] 進(jìn)一步地,根據(jù)熱口網(wǎng)站的訪問(wèn)矩陣Α,計(jì)算得出非熱口網(wǎng)站與熱口網(wǎng)站的相似 度,相似度公式為:
[0012]
[0013] 其中,用戶訪問(wèn)過(guò)網(wǎng)站記錄為1,未訪問(wèn)過(guò)網(wǎng)站則記錄為0,sim(i,j)表示非熱口網(wǎng) 站j與熱口網(wǎng)站i的相似度,A康示用戶訪問(wèn)過(guò)熱口網(wǎng)站i的矩陣,A康示用戶訪問(wèn)過(guò)非熱口 網(wǎng)站j的矩陣,|Ai|表示Ai矩陣中非零元素的個(gè)數(shù),lAiflAjl表示Ai與Aj交集矩陣中非零元素 的個(gè)數(shù),I Ai U Aj I表示Ai與A說(shuō)集矩陣中非零元素的個(gè)數(shù);
[0014] 進(jìn)一步地,計(jì)算每個(gè)熱口網(wǎng)站i的人口屬性分布的平均值取作為熱口網(wǎng)站i的人口 屬性分布;
[0015]
[001 W 其中,Ra表示熱口網(wǎng)站i的第a個(gè)人口屬性,m表示熱口網(wǎng)站i的人口數(shù)量;
[0017]進(jìn)一步地,計(jì)算全網(wǎng)的人口屬性分布的平均值瓦品,作為全網(wǎng)的人口屬性分布;
[001 引
[0019]其中,η表示熱口網(wǎng)站i的數(shù)量;
[0020] 進(jìn)一步地,根據(jù)非熱口網(wǎng)站與熱口網(wǎng)站的相似度sim(i,j)、熱口網(wǎng)站i的人口屬性 分布的平均值露和全網(wǎng)的人口屬性分布的平均值記品.計(jì)算得出非熱口網(wǎng)站j的人口屬性 分布,具體公式如下:
[0021]
[0022] 其中,的表示非熱口網(wǎng)站的人口屬性分布,叫表示非熱口網(wǎng)站的數(shù)量。
[0023] 優(yōu)選的,在上述基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法中,步驟二中還包括:對(duì)獲取的 熱口網(wǎng)站的人口屬性分布數(shù)據(jù)進(jìn)行優(yōu)化,具體步驟為:
[0024] (1)將一天中用戶訪問(wèn)過(guò)的網(wǎng)站的行為表示為矩陣A、B,xd表示熱口網(wǎng)站在維度d 上標(biāo)注的用戶屬性值,標(biāo)注的用戶屬性值通過(guò)矩陣表示,進(jìn)而得出網(wǎng)站男女性比例,當(dāng)用戶 P訪問(wèn)過(guò)網(wǎng)站q,則Ap, q = 1,Bq,P = 1 /nq,nq表示訪問(wèn)網(wǎng)站q的用戶總數(shù);當(dāng)表示用戶P未訪問(wèn)過(guò) 網(wǎng)站q,則Ap,q = 0,Bq,p = 0,矩陣A中的元素用Ap,q表示,矩陣B中的元素用Bq,p表示;
[0025] (2)假設(shè)每個(gè)熱口網(wǎng)站中每個(gè)維度d上的權(quán)重值為Wd,則得出所有用戶在維度d上 的用戶屬性值Rd,具體公式如下:
[0026]
[0027] 其中,Dim表示每個(gè)網(wǎng)站中包含的維度數(shù)量;
[0028] (3)根據(jù)所有用戶在維度d上的用戶屬性值Rd,預(yù)測(cè)出該熱口網(wǎng)站的用戶屬性值Rm, 具體公式如下:
[0029] Rm=BXRd
[0030] 進(jìn)一步地,計(jì)算網(wǎng)站預(yù)測(cè)的用戶屬性值和網(wǎng)站標(biāo)注的用戶屬性值的差,即為 I悼況.…A'dll!;
[0031] (4)為了防止過(guò)擬合作用對(duì)網(wǎng)站的影響,我們對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,優(yōu)化的目標(biāo)函 數(shù)f為:
[0032]
[003引其中,C I!味I!:!表示相鄰維度上標(biāo)注的屬性值之間的差距值,為優(yōu)化公式的L2正則 項(xiàng);
[0034] (5)依據(jù)BFGS算法對(duì)優(yōu)化的目標(biāo)函數(shù)f進(jìn)行求解;
[0035] 首先,設(shè)初始X日為話,權(quán)重W的初始值W日夫
1日表示單位矩陣,即
[0036] 目標(biāo)函數(shù)f的導(dǎo)數(shù)F/為:
[0037] 盡?二化U…萬(wàn)if%.、.,巧執(zhí)mO
[003引其中式:f是目標(biāo)函數(shù)f對(duì)權(quán)重wi變量進(jìn)行偏導(dǎo),即:
[0039]
[0040] 然后,根據(jù)相鄰維度權(quán)重值之間的公式W及黃金分割算法計(jì)算得出ak值,具體公 式如下:
[0041 ]
[0042] 進(jìn)一步地,采用BFGS算法,進(jìn)行循環(huán)往復(fù)計(jì)算,直至|fk+i-fk|含ε,ε=〇.〇1,求出最 優(yōu)權(quán)重W;
[00創(chuàng)其中,康示用戶在維度k+1上的權(quán)重值,^<表示用戶在維度k上的權(quán)重值,Qk表示 步長(zhǎng),化表示維度k上的上的正定矩陣,。發(fā)是目標(biāo)函數(shù)f對(duì)權(quán)重Wk變量進(jìn)行的偏導(dǎo),fk+l表示 用戶在維度k+1上的目標(biāo)函數(shù),fk表示用戶在維度k上的目標(biāo)函數(shù);
[0044] (6)將最優(yōu)權(quán)重W代入(2)的公式中,求出用戶的最優(yōu)人口屬性值Rm,再將用戶訪問(wèn) 過(guò)該熱口網(wǎng)站的不同維度上的所有用戶的最優(yōu)人口屬性值Rm求取平均值,得到該熱口網(wǎng)站 的優(yōu)化人口屬性分布。
[0045] 優(yōu)選的,在上述基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法中,還包括步驟四,根據(jù)熱口網(wǎng) 站的人口屬性W及計(jì)算出的非熱口網(wǎng)站的人口屬性分布數(shù)據(jù),計(jì)算得出用戶的平均屬性。
[0046] 本發(fā)明的有益效果:
[0047] 1、本發(fā)明無(wú)需通過(guò)問(wèn)卷調(diào)查或者公司自有數(shù)據(jù)庫(kù)信息,無(wú)需花費(fèi)大量的人力、物 力;本發(fā)明通過(guò)現(xiàn)有購(gòu)買的熱口網(wǎng)站的人口屬性分布數(shù)據(jù),即可W能夠計(jì)算出非熱口網(wǎng)站 的人口屬性分布數(shù)據(jù),克服了調(diào)查問(wèn)卷所產(chǎn)生的地域性的、數(shù)據(jù)偏差的影響,計(jì)算更加科 學(xué),實(shí)用,經(jīng)濟(jì)型強(qiáng)。
[004引2、本發(fā)明進(jìn)一步地對(duì)購(gòu)買的熱口網(wǎng)站的人口屬性分布數(shù)據(jù)進(jìn)行了優(yōu)化處理,克服 了熱口網(wǎng)站人口屬性分布的誤差,使計(jì)算出來(lái)的非熱口網(wǎng)站的人口屬性分布更加精確、科 學(xué)、可靠。
[0049] 3、本發(fā)明無(wú)需人工操作,實(shí)現(xiàn)了自動(dòng)化,具有深遠(yuǎn)的意義。
【附圖說(shuō)明】
[0050] 下面結(jié)合附圖和【具體實(shí)施方式】來(lái)詳細(xì)說(shuō)明本發(fā)明:
[0051 ]圖1是基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法的流程圖。
【具體實(shí)施方式】
[0052]為了使本發(fā)明技術(shù)實(shí)現(xiàn)的措施、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面將 結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然, 所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施 例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于 本發(fā)明保護(hù)的范圍。
[0化3]實(shí)施例1:
[0054] 圖1是基于先驗(yàn)知識(shí)的人口屬性預(yù)測(cè)方法的流程圖。
[0055] 如圖1