專利名稱::基于海量數(shù)據(jù)的用戶年齡估算方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及海量數(shù)據(jù)處理
技術(shù)領(lǐng)域:
,更具體地說,涉及一種基于海量數(shù)據(jù)的用戶年齡估算方法及系統(tǒng)。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的不斷普及,網(wǎng)絡(luò)已經(jīng)成為人們生活中必不可少的一部分。通過互聯(lián)網(wǎng)可以提供給用戶各種各樣的服務(wù),例如網(wǎng)上購物、信息獲取、游戲娛樂等。用戶年齡是用戶的基本屬性,針對不同年齡的用戶群體,可以為其提供個性化的互聯(lián)網(wǎng)服務(wù)。然而通常情況下,由于網(wǎng)絡(luò)的虛擬性,用戶一般都不會填寫真實準(zhǔn)確的年齡,因此如何準(zhǔn)確估算用戶的真實年齡,已成為互聯(lián)網(wǎng)業(yè)務(wù)急需解決的問題。目前,通常獲取用戶提供的年齡數(shù)據(jù),通過筒單的邊界值過濾來估算用戶年齡。具體地,是根據(jù)經(jīng)驗估計用戶的年齡范圍,將年齡范圍之外的數(shù)值過濾掉,從而估算出用戶年齡。然而,該方法過分依賴用戶提供的年齡,因此準(zhǔn)確度不高。
發(fā)明內(nèi)容基于此,有必要提供一種能提高準(zhǔn)確度的基于海量數(shù)據(jù)的用戶年齡估算方法。此外,還有必要提供一種能提高準(zhǔn)確度的基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng)。所述基于海量數(shù)據(jù)的用戶年齡估算方法包括獲取用戶的基本年齡數(shù)據(jù),并為基本年齡數(shù)據(jù)賦初始權(quán)值;根據(jù)初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;查找基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將年齡權(quán)值最大的年齡作為用戶的初步估算年齡。該設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值的步驟具體是獲取用戶的參考年齡數(shù)據(jù);將基本年齡數(shù)據(jù)與所述參考年齡數(shù)據(jù)進(jìn)行對比,獲耳又基本年齡數(shù)據(jù)的準(zhǔn)確率;根據(jù)準(zhǔn)確率為基本年齡數(shù)據(jù)賦初始權(quán)值。年齡數(shù)據(jù)進(jìn)行兩兩對比;根據(jù)初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶的年齡權(quán)值加分;根據(jù)所述初始斥又值與年齡權(quán)值加分的和確定用戶的年齡權(quán)值。該方法還可包括獲取同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶的初步估算年齡,并根據(jù)所述用戶的初步估算年齡及其年齡權(quán)值調(diào)整所述同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶的初步估算年齡。該方法還可包括比較用戶的初步估算年齡的年齡權(quán)值與初始權(quán)值的大小,根據(jù)比較結(jié)果將用戶的初步估算年齡的年齡權(quán)值劃分為至少如下三個等級權(quán)值為高、權(quán)值為中、權(quán)值為低。該方法還可包括查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù),判斷用戶個數(shù)是否滿足預(yù)設(shè)條件,若是,則將同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡柏J直為低的用戶的年齡調(diào)整為初步估算年齡的年齡權(quán)值為高且年齡相同的用戶的年齡。所述基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng)包括4又值設(shè)置單元,用于獲取用戶的基本年齡數(shù)據(jù),并為基本年齡數(shù)據(jù)賦初始權(quán)值;權(quán)值處理單元,與權(quán)值設(shè)置單元相連,根據(jù)初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;年齡估算單元,與權(quán)值處理單元相連,查找基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將年齡權(quán)值最大的年齡作為用戶的初步估算年齡。該權(quán)值設(shè)置單元還可用于獲取用戶的參考年齡數(shù)據(jù),將基本年齡數(shù)據(jù)與參考年齡數(shù)據(jù)進(jìn)行對比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率,并根據(jù)準(zhǔn)確率為基本年齡凄史據(jù)賦初始4又值。該權(quán)值處理單元還可用于將基本年齡數(shù)據(jù)進(jìn)行兩兩對比,根據(jù)初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶的年齡權(quán)值加分,根據(jù)所述初始權(quán)值與年齡權(quán)值加分的和確定用戶的年齡外又值。該權(quán)值處理單元還可用于比較用戶的初步估算年齡與初始權(quán)值的大小,根據(jù)比較結(jié)果將用戶的初步估算年齡的年齡權(quán)值劃分為至少如下三個等級權(quán)值為高、權(quán)值為中、權(quán)值為低。該年齡估算單元還可用于查找同學(xué)關(guān)系鏈數(shù)凈居中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù),判斷用戶個數(shù)是否滿足預(yù)設(shè)條件,若是,則將同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡權(quán)值為低的用戶的年齡調(diào)整為初步估算年齡的年齡權(quán)值為高且年齡相同的用戶的年齡。另外,該系統(tǒng)還可包括年齡數(shù)據(jù)存儲單元,與權(quán)值i殳置單元、權(quán)值處理單元及年齡估算單元相連,用于存儲基本年齡數(shù)才居和參考年齡數(shù)據(jù);同學(xué)關(guān)系鏈數(shù)據(jù)存儲單元,與年齡估算單元相連,用于存儲同學(xué)關(guān)系鏈數(shù)據(jù)。上述基于海量數(shù)據(jù)的用戶年齡估算方法及系統(tǒng),通過為基本年齡數(shù)據(jù)賦初始權(quán)值,并根據(jù)初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度來獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值,以及取該年齡權(quán)值最高的年齡作為用戶的初步估算年齡。由于對用戶提供的多種基本年齡數(shù)據(jù)進(jìn)行了綜合評價,年齡權(quán)值最高的年齡更符合用戶的真實年齡,因此能提高估算用戶年齡的準(zhǔn)確度。圖l是一個實施例中基于海量數(shù)據(jù)的用戶年齡估算方法的流程圖;圖2是一個實施例中為基本年齡數(shù)據(jù)賦初始權(quán)值的方法流程圖;圖3是一個實施例中獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值的方法流程圖4是一個實施例中利用同學(xué)關(guān)系鏈數(shù)據(jù)估算用戶年齡的方法流程圖;圖5是一個實施例中基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng)的結(jié)構(gòu)示意圖;圖6是另一個實施例中基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng)的結(jié)構(gòu)示意圖。具體實施例方式圖1示出了一個實施例中基于海量數(shù)據(jù)的用戶年齡估算方法流程,該方法流程具體包括以下步驟在步驟S10中,獲取用戶的基本年齡數(shù)據(jù),并為基本年齡數(shù)據(jù)賦初始權(quán)值?;灸挲g數(shù)據(jù)是用戶通過各種網(wǎng)絡(luò)產(chǎn)品填寫資料而才是供的年齡數(shù)據(jù),例如通過即時通訊工具或者SNS社區(qū)服務(wù)等提供的年齡凄史據(jù)等。如圖2所示,在一個實施方式中,為基本年齡數(shù)據(jù)賦初始權(quán)值的過程包括在步驟S100中,獲取用戶的參考年齡數(shù)據(jù)。用戶的參考年齡數(shù)據(jù)可以是通過網(wǎng)絡(luò)進(jìn)行問巻調(diào)查而得到的用戶年齡數(shù)據(jù)。由于問巻調(diào)查所設(shè)置的問題相對嚴(yán)謹(jǐn),通過問巻調(diào)查得到的用戶年齡會比用戶直3姿填寫的年齡更準(zhǔn)確。在步驟S102中,將基本年齡數(shù)據(jù)與參考年齡數(shù)據(jù)進(jìn)行對比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率。在各種基本年齡數(shù)據(jù)中查找與參考年齡相符的用戶年齡個數(shù),該用戶年齡個數(shù)與用戶總數(shù)的比值即為基本年齡數(shù)才居的準(zhǔn)確率。在步驟S104中,根據(jù)所述準(zhǔn)確率為基本年齡翁:據(jù)賦初始權(quán)值。在一個實施方式中,將基本年齡數(shù)據(jù)的準(zhǔn)確率分為三個等級低、中、高。對應(yīng)低、中、高的準(zhǔn)確率分別設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值分別為Pl、P2和P3,優(yōu)選地,設(shè)置Pl-l,P2=5,P3=9。例如,通過即時通信工具獲耳又n個用戶的基本年齡數(shù)據(jù)IM1、IM2.....IMn;通過SNS服務(wù)獲得的n個用戶的基本年齡數(shù)據(jù)為SNS1、SNS2.....SNSn;通過網(wǎng)絡(luò)進(jìn)行問巻調(diào)查而得到的參考年齡數(shù)據(jù)為Rl、R2.....Rn。通過對比IM1、IM2.....IMn和Rl、R2、...、Rn,可以獲得即時通4言工具獲得的基本年齡數(shù)據(jù)的準(zhǔn)確率,假設(shè)該準(zhǔn)確率的等級為低,則通過即時通信工具獲得的基本年齡數(shù)據(jù)的初始權(quán)值為Pl。類似地,可以獲得通過SNS服務(wù)荻得的基本年齡數(shù)據(jù)的準(zhǔn)確率,假設(shè)該準(zhǔn)確率的等級為中,則通過SNS服務(wù)獲得的基本年齡數(shù)據(jù)的初始權(quán)值為P2。在另一個實施方式中,也可根據(jù)基本年齡數(shù)據(jù)的來源類型直接為基本年齡數(shù)據(jù)賦初始權(quán)值。例如,網(wǎng)絡(luò)業(yè)務(wù)如校友錄等的注冊信息相對其它注冊信息獲取的用戶年齡數(shù)據(jù)更準(zhǔn)確,因此可設(shè)置這類基本年齡數(shù)據(jù)的初始權(quán)值比其它類型的基本年齡數(shù)據(jù)的初始權(quán)值高。在步驟S12中,根據(jù)初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值。如圖3所示,在一個實施方式中,獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值的具體過程如下在步驟S120中,將基本年齡數(shù)據(jù)進(jìn)行兩兩對比。對于通過各種方式得到的多種基本年齡數(shù)據(jù),將該用戶在不同基本年齡il據(jù)中的年齡進(jìn)行兩兩對比。在步驟S122中,根據(jù)初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶的年齡權(quán)值加分。在一個實施方式中,用戶在不同基本年齡數(shù)據(jù)中的年齡相似度可分為三類年齡相同、年齡相近、年齡不同。其中,年齡相差在三歲以內(nèi)表示年齡相近,年齡相差大于三歲表示年齡不同。比較不同基本年齡數(shù)據(jù)的初始權(quán)值,得到基本年齡數(shù)據(jù)之間的—又重關(guān)系,該權(quán)重關(guān)系可分為三類權(quán)重相同、權(quán)重相近和權(quán)重不同。其中,4又重相同表示兩種基本年齡數(shù)據(jù)的權(quán)重等竭目同(即權(quán)重同為高、中或低);權(quán)重相近表示兩種基本年齡數(shù)據(jù)的權(quán)重等級僅差一級(即兩者的權(quán)重分別為高與中、或中與低);權(quán)重不同表示兩種基本年齡數(shù)據(jù)的權(quán)重等級相差兩級(即兩者的權(quán)重分別為高與低)。在一個實施例中,設(shè)置用戶的年齡權(quán)值加分如表1所示表1<table>tableseeoriginaldocumentpage9</column></row><table>優(yōu)選地,^殳置A1-1,A2=2,A3=3,A4=4,A5=5,A6=6。在步驟S124中,根據(jù)初始權(quán)值與年齡權(quán)值加分的和確定用戶的年齡權(quán)值。在上述實施方式中,將各種基本年齡數(shù)據(jù)進(jìn)行兩兩對比,對任意一種基本年齡數(shù)據(jù),獲取其與其它基本年齡數(shù)據(jù)之間的權(quán)重關(guān)系,以及在該權(quán)重關(guān)系下用戶年齡之間的相似度,則在基本年齡數(shù)據(jù)中用戶的年齡權(quán)值加分為該基本年齡數(shù)據(jù)與其它基本年齡數(shù)據(jù)進(jìn)行對比后所得到的所有年齡權(quán)值加分的總和。在一個具體的實施例中,獲取到用戶的三種基本年齡數(shù)據(jù)分別為M、N、O。該實施例中,設(shè)置這三種基本年齡數(shù)據(jù)的初始權(quán)值分別為Pl、P2、P3。對其中的三個用戶a、b、c,假設(shè)M數(shù)據(jù)中各用戶的年齡分別為Ma、Mb和Mc,N數(shù)據(jù)中各用戶的年齡分別為Na、Nb、Nc,O彰:據(jù)中各用戶的年齡分別為Oa、Ob和Oc。將M、N、O數(shù)據(jù)進(jìn)行兩兩比較,由M、N、O的初始4又值可知M與N的權(quán)重相近,與O的權(quán)重不同。對于用戶a,假設(shè)Ma-25,Na=25,Oa=23,即Ma與Na年齡相同,Ma與Oa年齡相近,Na與Oa年齡相近。根據(jù)表1所設(shè)置的年齡^又值加分可知,Ma的年齡權(quán)值為P1+A2+A5,Na的年齡權(quán)值為P2+A2+A5,Oa的年齡權(quán)值為P3+A5+A5。同理,用戶b和用戶c的年齡權(quán)值也可按照上述方法原理計算得到。在步驟S14中,獲取基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將所述年齡權(quán)值最大的年齡作為用戶的初步估算年齡。上述實施例中,對于用戶a,則取Ma、Na和Oa的年齡權(quán)值最大的作為用戶a的初步估算年齡。由于年齡權(quán)值最大的年齡最可能接近用戶的真實年齡,因此所得到的初步估算年齡更準(zhǔn)確。在一個實施方式中,得到用戶的初步估算年齡后,比較用戶的初步估算年齡的年齡權(quán)值與初始權(quán)值的大小,根據(jù)比較結(jié)果將用戶的初步估算年齡的年齡權(quán)值劃分為三個等級權(quán)值為高、權(quán)值為中、權(quán)1直為低。在一個實施例中,設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值分別為Pl、P2和P3,當(dāng)初步估算年齡的年齡權(quán)值小于等于P2時,權(quán)值為低;當(dāng)初步估算年齡的年齡權(quán)值大于P2且小于等于P3時,權(quán)值為中;當(dāng)初步估算年齡的年齡權(quán)值大于P3時,權(quán)值為高。圖4示出了一個實施例中利用同學(xué)關(guān)系鏈數(shù)據(jù)估算用戶年齡的方法流程,具體過程如下在步驟S20中,查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù)。同學(xué)關(guān)系鏈數(shù)據(jù)是用戶之間是同學(xué)關(guān)系的一個數(shù)據(jù)集合,具有同學(xué)關(guān)系的用戶年齡通常相同或相近,可通過獲耳又用戶所在的同學(xué)群組成員及用戶的好友分組來獲取同學(xué)關(guān)系鏈數(shù)據(jù)。在步驟S22中,判斷所述用戶個數(shù)是否滿足預(yù)設(shè)條件,若是,則進(jìn)入步驟S24,否則結(jié)束。在一個實施方式中,該預(yù)i殳條件為m>3JLm/n>=l/4,其中,m為同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù),n為同學(xué)關(guān)系鏈中的用戶總數(shù)。在步驟S24中,將同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和為低的用戶的年齡調(diào)整為年齡權(quán)值為高且年齡相同的用戶的年齡。在一個實施例中,當(dāng)查找到同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù)滿足上述預(yù)設(shè)條件時,由于這些用戶的初步估算年齡的年齡權(quán)值為高,相對年齡權(quán)值為低和年齡取值為中的用戶的初步估算年齡更準(zhǔn)確,而同學(xué)關(guān)系鏈數(shù)據(jù)中用戶的年齡通常相同或相近,因此利用年齡權(quán)值為高的用戶的初步估算年齡去調(diào)整年齡權(quán)值為低及為中的用戶年齡,將初步估算年齡的年齡權(quán)值為中和為低的用戶的年齡調(diào)整為年齡權(quán)值為高的用戶年齡,估算得到的用戶年齡更準(zhǔn)確。10圖5示出了一個實施例中基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng),該系統(tǒng)包括權(quán)值設(shè)置單元IO、權(quán)值處理單元20、年齡估算單元30。其中權(quán)值設(shè)置單元10用于獲取用戶的基本年齡數(shù)才居,并設(shè)置所述基本年齡數(shù)據(jù)的^刀始積J直。權(quán)值處理單元20與權(quán)值i殳置單元10相連,沖艮凈居初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值。年齡估算單元30與權(quán)值處理單元20相連,用于查找基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將所述年齡權(quán)值最大的年齡作為用戶的初步估算年齡。圖6示出了另一個實施例中基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng),該系統(tǒng)除了包括上述權(quán)值設(shè)置單元10、權(quán)值處理單元20和年齡估算單元30外,還包括年齡數(shù)據(jù)存儲單元40和同學(xué)關(guān)系鏈數(shù)據(jù)存儲單元50。其中年齡數(shù)據(jù)存儲單元40與權(quán)值設(shè)置單元10、4又值處理單元20及年齡估算單元40相連,用于存儲基本年齡數(shù)據(jù)和參考年齡凄t據(jù)。基本年齡數(shù)據(jù)是用戶通過各種網(wǎng)絡(luò)產(chǎn)品填寫資料而提供的年齡數(shù)據(jù);參考年齡數(shù)據(jù)可以是通過網(wǎng)絡(luò)進(jìn)行問巻調(diào)查得到的用戶年齡數(shù)據(jù)。由于問巻調(diào)查所i殳置的問題相對嚴(yán)謹(jǐn),所得到的參考年齡數(shù)據(jù)比基本年齡數(shù)據(jù)更準(zhǔn)確。同學(xué)關(guān)系鏈數(shù)據(jù)存儲單元50與年齡估算單元30相連,用于存儲同學(xué)關(guān)系鏈數(shù)據(jù)。具有同學(xué)關(guān)系的用戶年齡通常相同或相近,可通過獲取用戶所在的同學(xué)群組成員及用戶的好友分組來獲取同學(xué)關(guān)系鏈凄史據(jù)。在一個實施方式中,權(quán)值設(shè)置單元IO還用于獲取用戶的參考年齡數(shù)據(jù),將基本年齡數(shù)據(jù)與參考年齡數(shù)據(jù)進(jìn)行對比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率,并根據(jù)該準(zhǔn)確率設(shè)置基本年齡的初始權(quán)值??赏ㄟ^在各種基本年齡數(shù)據(jù)中查找與參考年齡相符的年齡個數(shù),基本年齡數(shù)據(jù)的準(zhǔn)確率則為該年齡個數(shù)與用戶總數(shù)的比值。權(quán)值設(shè)置單元IO可將準(zhǔn)確率劃分為三個等級低、中、高,并對應(yīng)不同等級的準(zhǔn)確率設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值。在一個實施方式中,權(quán)值處理單元20還用于將基本年齡數(shù)據(jù)進(jìn)行兩兩對比,根據(jù)初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶的年齡權(quán)值加分,則用戶的年齡權(quán)值為初始權(quán)值與年齡相J直加分的和。權(quán)值處理單元20將各種基本年齡數(shù)據(jù)進(jìn)行兩兩對比,對任意一種基本年齡數(shù)據(jù),獲取其與其它基本年齡數(shù)據(jù)之間的權(quán)重關(guān)系,以及在該權(quán)重關(guān)系下用戶年齡之間的相似度,則在基本年齡數(shù)據(jù)中用戶的年齡權(quán)值加分為該基本年齡數(shù)據(jù)與其它基本年齡數(shù)據(jù)進(jìn)行對比后所得到的所有年齡權(quán)值加分的總和。積J直處理單元20計算得到用戶的年齡權(quán)值后,年齡估算單元30則查找年齡;K值最大的年齡,并將該年齡權(quán)值最大的年齡作為用戶的初步估算年齡。在一個實施方式中,年齡估算單元30得到用戶的初步估算年齡后,權(quán)值處理單元20還比較用戶的初步估算年齡與初始權(quán)〗直的大小,并4艮據(jù)比較結(jié)果將用戶的初步估算年齡的年齡權(quán)值劃分為至少如下三個等級權(quán)值為高、權(quán)值為中、權(quán)值為低。在一個實施方式中,年齡估算單元30還用于查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù),并判斷該用戶個數(shù)是否滿足預(yù)設(shè)條件,若是,則將同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡權(quán)值為低的用戶的年齡調(diào)整為所迷初步估算年齡的年齡權(quán)值為高且年齡相同的用戶的年齡。在一個實施例中,所述預(yù)設(shè)條件為m>3im/n>=l/4,其中,m為同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù),n為同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶總數(shù)。由于同學(xué)關(guān)系鏈凄t才居中的用戶年齡相同或相近,利用年齡權(quán)值為高的用戶的初步估算年齡去調(diào)整年齡權(quán)值為低及為中的用戶年齡,將初步估算年齡的年齡權(quán)值為中和為低的用戶的年齡調(diào)整為年齡權(quán)值為高的用戶年齡,估算得到的用戶年齡更準(zhǔn)確。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求1、一種基于海量數(shù)據(jù)的用戶年齡估算方法,其特征在于,所述方法包括獲取用戶的基本年齡數(shù)據(jù),并為所述基本年齡數(shù)據(jù)賦初始權(quán)值;根據(jù)所述初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;查找基本年齡數(shù)據(jù)中所述年齡權(quán)值最大的年齡,將年齡權(quán)值最大的年齡作為用戶的初步估算年齡。2、根據(jù)權(quán)利要求1所述的基于海量數(shù)據(jù)的用戶年齡估算方法,其特征在于,所述設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值的步驟具體是獲取用戶的參考年齡數(shù)據(jù);將所述基本年齡數(shù)據(jù)與所述參考年齡數(shù)據(jù)進(jìn)行對比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率;根據(jù)所述準(zhǔn)確率為所述基本年齡數(shù)據(jù)賦初始4又值。3、根據(jù)權(quán)利要求1所述的基于海量數(shù)據(jù)的用戶年齡估算方法,其特征在于,所述獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值的步驟具體是將所述基本年齡數(shù)據(jù)進(jìn)行兩兩對比;根據(jù)所述初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶的年齡^又值加分;根據(jù)所述初始權(quán)值與年齡權(quán)值加分的和確定用戶的年齡權(quán)值。4、根據(jù)權(quán)利要求1所述的基于海量數(shù)據(jù)的用戶年齡估算方法,其特征在于,所述方法還包括獲取同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶的初步估算年齡,并根據(jù)所述用戶的初步估算年齡及其年齡權(quán)值調(diào)整所述同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶的初步估算年齡。5、根據(jù)權(quán)利要求1或4所述的基于海量數(shù)據(jù)的用戶年齡估算方法,其特征在于,所述方法還包括述比較結(jié)果將所述用戶的初步估算年齡的年齡權(quán)值劃分為至少如下三個等級權(quán)值為高、權(quán)值為中、權(quán)值為低。6、根據(jù)權(quán)利要求5所述的基于海量數(shù)據(jù)的用戶年齡估算方法,其特征在于,所述方法還包括查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù),判斷所述用戶個數(shù)是否滿足預(yù)設(shè)條件,若是,則將所述同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡權(quán)值為低的用戶的年齡調(diào)整為所述初步估算年齡的年齡權(quán)值為高且年齡相同的用戶的年齡。7、一種基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng),其特征在于,所述系統(tǒng)包括權(quán)值設(shè)置單元,用于獲取用戶的基本年齡數(shù)據(jù),并為所述基本年齡數(shù)據(jù)賦凈刀^會一又H;權(quán)值處理單元,與所述權(quán)值設(shè)置單元相連,才艮據(jù)所述初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;年齡估算單元,與所述權(quán)值處理單元相連,查找基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將所述年齡權(quán)值最大的年齡作為用戶的初步估算年齡。8、根據(jù)權(quán)利要求7所述的基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng),其特征在于,所述權(quán)值設(shè)置單元還用于獲取用戶的參考年齡數(shù)據(jù),將所述基本年齡數(shù)據(jù)與所述參考年齡數(shù)據(jù)進(jìn)行對比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率,并根據(jù)所述準(zhǔn)確率為所述基本年齡數(shù)據(jù)賦初始權(quán)值。9、根據(jù)權(quán)利要求7所述的基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng),其特征在于,所述權(quán)值處理單元還用于將所述基本年齡數(shù)據(jù)進(jìn)行兩兩對比,根據(jù)所述初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶的年齡權(quán)值加分,根據(jù)所述初始權(quán)值與年齡權(quán)值加分的和確定用戶的年齡權(quán)值。10、根據(jù)權(quán)利要求7所述的基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng),其特征在下三個等級權(quán)值為高、權(quán)值為中、權(quán)值為低。11、根據(jù)權(quán)利要求IO所述的基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng),其特征在于,所述年齡估算單元還用于查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶個數(shù),判斷所述用戶個數(shù)是否滿足預(yù)設(shè)條件,若是,則將所述同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡權(quán)值為低的用戶的年齡調(diào)整為所述初步估算年齡的年齡權(quán)值為高且年齡相同的用戶的年齡。12、根據(jù)權(quán)利要求7所述的基于海量數(shù)據(jù)的用戶年齡估算系統(tǒng),其特征在于,所述系統(tǒng)還包括年齡數(shù)據(jù)存儲單元,與所述權(quán)值設(shè)置單元、^U直處理單元及年齡估算單元相連,用于存儲基本年齡數(shù)據(jù)和參考年齡數(shù)據(jù);同學(xué)關(guān)系鏈數(shù)據(jù)存儲單元,與所述年齡估算單元相連,用于存儲同學(xué)關(guān)系鏈數(shù)據(jù)。全文摘要本發(fā)明提供了一種基于海量數(shù)據(jù)的用戶年齡估算方法及系統(tǒng)。所述方法包括獲取用戶的基本年齡數(shù)據(jù),為所述基本年齡數(shù)據(jù)賦初始權(quán)值;根據(jù)所述初始權(quán)值以及用戶在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;查找基本年齡數(shù)據(jù)中所述年齡權(quán)值最大的年齡,將年齡權(quán)值最大的年齡作為用戶的初步估算年齡。采用本發(fā)明提供的基于海量數(shù)據(jù)的用戶年齡估算方法及系統(tǒng),能提高估算用戶年齡的準(zhǔn)確度。文檔編號G06F19/00GK101635009SQ20091004205公開日2010年1月27日申請日期2009年8月21日優(yōu)先權(quán)日2009年8月21日發(fā)明者凌國惠,孫阿利,林樂彬,川陳申請人:騰訊科技(深圳)有限公司