專利名稱:基于用戶性別判別結(jié)果的定向應(yīng)用方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用領(lǐng)域,尤其涉及一種基于用戶性別判別結(jié)果的定向應(yīng)用方法及其系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)應(yīng)用的日益豐富,用戶的需求不斷升級(jí)。網(wǎng)絡(luò)媒體的應(yīng)用模式及營(yíng)銷特點(diǎn)都發(fā)生了巨大的改變,其中,由web 1.0通過(guò)瀏覽器瀏覽1!飽1網(wǎng)頁(yè),向內(nèi)容更豐富、互動(dòng)性和個(gè)性化更強(qiáng)的web2.0模式發(fā)展,已經(jīng)是互聯(lián)網(wǎng)新的發(fā)展趨勢(shì)?;ヂ?lián)網(wǎng)為用戶建立一套完整的User Profile (用戶信息)體系之后,可以識(shí)別用戶的性別和年齡,洞察用戶的行為模式和興趣愛好等。同時(shí),采用該體系支持各類web2.0應(yīng)用,才能真正實(shí)現(xiàn)web2.0應(yīng)用的個(gè)性化,如個(gè)性化搜索、個(gè)性化推薦和廣告定向投放等
坐寸ο但由于互聯(lián)網(wǎng)應(yīng)用具有一定的特殊性,用戶性別信息的收集具有較大困難。絕大部分用戶不愿意填寫或者錯(cuò)填相關(guān)信息,導(dǎo)致大多數(shù)網(wǎng)站無(wú)法完整獲取其用戶的真實(shí)性另U,而例如申請(qǐng)?zhí)枮?00610117050.3和200810226414.0的發(fā)明專利中采用人臉識(shí)別技術(shù)來(lái)判別用戶性別時(shí),具有局限性,因?yàn)椴⒎撬杏脩粼敢馍蟼髯约旱恼掌?。目前,大部分互?lián)網(wǎng)應(yīng)用都具有日志收集機(jī)制,記錄用戶的行為數(shù)據(jù),因此,需要一種采用用戶行為數(shù)據(jù)結(jié)合數(shù)據(jù)挖掘分類算法對(duì)用戶性別進(jìn)行判別的系統(tǒng)及方法,以覆蓋網(wǎng)站大多數(shù)用戶,有效克服用戶不愿填寫或者錯(cuò)填性別信息的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于用戶性別判別結(jié)果的定向應(yīng)用方法及系統(tǒng),能夠較為準(zhǔn)確地計(jì)算出用戶的性別傾向,并有效克服用戶不愿填寫或者錯(cuò)填性別信息而導(dǎo)致無(wú)法準(zhǔn)確獲知其性別的問(wèn)題,提高如基于男女性別不同的個(gè)性化搜索、個(gè)性化推薦和廣告定向投放等定向應(yīng)用的效率。為解決上述問(wèn)題,本發(fā)明提供一種基于用戶性別判別結(jié)果的定向應(yīng)用方法,包括以下步驟:步驟一:收集并整理一互聯(lián)網(wǎng)站的已知真實(shí)性別的樣本用戶的行為數(shù)據(jù);步驟二:根據(jù)所述樣本用戶的行為數(shù)據(jù)和已知真實(shí)性別得到性別傾向與行為數(shù)據(jù)的關(guān)系,并存入所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù);步驟三:收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù);步驟四:根據(jù)所述性別傾向與行為數(shù)據(jù)的關(guān)系和所述全體用戶的行為數(shù)據(jù)得到全體用戶的性別傾向,并存入所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù);步驟五:查詢所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù),輸出待查詢用戶的性別傾向。步驟六:向所述待查詢用戶提供基于輸出的待查詢用戶的性別傾向的信息。進(jìn)一步的,所述步驟一中,收集并整理的樣本用戶的行為數(shù)據(jù)包括:每個(gè)樣本用戶訪問(wèn)所述互聯(lián)網(wǎng)站的內(nèi)容和每個(gè)樣本用戶對(duì)各個(gè)內(nèi)容的訪問(wèn)權(quán)重。進(jìn)一步的,所述步驟一中,收集并整理的樣本用戶的行為數(shù)據(jù)還包括:每個(gè)樣本用戶訪問(wèn)所述互聯(lián)網(wǎng)站的行為時(shí)間和/或行為載體。進(jìn)一步的,所述步驟三中,收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù)包括:每個(gè)用戶訪問(wèn)所述互聯(lián)網(wǎng)站的各個(gè)內(nèi)容和每個(gè)用戶對(duì)各個(gè)內(nèi)容的訪問(wèn)權(quán)重。進(jìn)一步的,所述步驟三中,收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù)還包括:每個(gè)用戶訪問(wèn)所述互聯(lián)網(wǎng)站的行為時(shí)間和/或行為載體。進(jìn)一步的,所述步驟二中,所述性別傾向與行為數(shù)據(jù)的關(guān)系包括:所述互聯(lián)網(wǎng)站整體的性別傾向與所有樣本用戶的行為數(shù)據(jù)的關(guān)系;以及所述互聯(lián)網(wǎng)站的各個(gè)內(nèi)容的性別傾向與訪問(wèn)該內(nèi)容的樣本用戶的行為數(shù)據(jù)的關(guān)系O進(jìn)一步的,所述互聯(lián)網(wǎng)站整體的性別傾向與所有樣本用戶的行為數(shù)據(jù)的關(guān)系的計(jì)算公式為:
權(quán)利要求
1.一種基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,包括: 步驟一:收集并整理一互聯(lián)網(wǎng)站的已知真實(shí)性別的樣本用戶的行為數(shù)據(jù); 步驟二:根據(jù)所述樣本用戶的行為數(shù)據(jù)和已知真實(shí)性別得到性別傾向與行為數(shù)據(jù)的關(guān)系,并存入所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù); 步驟三:收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù); 步驟四:根據(jù)所述性別傾向與行為數(shù)據(jù)的關(guān)系和所述全體用戶的行為數(shù)據(jù)得到全體用戶的性別傾向,并存入所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù); 步驟五:查詢所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù),輸出待查詢用戶的性別傾向; 步驟六:向所述待查詢用戶提供基于輸出的待查詢用戶的性別傾向的信息。
2.如權(quán)利要求1所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟一中,收集并整理的樣本用戶的行為數(shù)據(jù)包括:每個(gè)樣本用戶訪問(wèn)所述互聯(lián)網(wǎng)站的各個(gè)內(nèi)容和和頻次以及每個(gè)樣本用 戶與每個(gè)內(nèi)容間的訪問(wèn)權(quán)重。
3.如權(quán)利要求2所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟一中,收集并整理的樣本用戶的行為數(shù)據(jù)還包括:每個(gè)樣本用戶訪問(wèn)所述互聯(lián)網(wǎng)站的行為時(shí)間和/或行為載體。
4.如權(quán)利要求2所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟三中,收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù)包括:每個(gè)用戶訪問(wèn)所述互聯(lián)網(wǎng)站的各個(gè)內(nèi)容和頻次以及每個(gè)用戶與每個(gè)內(nèi)容間的訪問(wèn)權(quán)重。
5.如權(quán)利要求4所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟三中,收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù)還包括:每個(gè)用戶訪問(wèn)所述互聯(lián)網(wǎng)站的行為時(shí)間和/或行為載體。
6.如權(quán)利要求2所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟二中,所述性別傾向與行為數(shù)據(jù)的關(guān)系包括: 所述互聯(lián)網(wǎng)站整體的性別傾向與所有樣本用戶的行為數(shù)據(jù)的關(guān)系;以及 所述互聯(lián)網(wǎng)站的各個(gè)內(nèi)容的性別傾向與訪問(wèn)該內(nèi)容的樣本用戶的行為數(shù)據(jù)的關(guān)系。
7.如權(quán)利要求6所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述互聯(lián)網(wǎng)站整體的性別傾向與所有樣本用戶的行為數(shù)據(jù)的關(guān)系的計(jì)算公式為:
8.如權(quán)利要求7所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟四中,根據(jù)所述性別傾向與行為數(shù)據(jù)的關(guān)系和所述全體用戶的行為數(shù)據(jù)得到全體用戶的性別傾向的計(jì)算公式為:
9.如權(quán)利要求6所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟二中,所述性別傾向與行為數(shù)據(jù)的關(guān)系還包括:采用決策樹、logistic回歸、神經(jīng)網(wǎng)絡(luò)或支持向量機(jī),處理所述樣本用戶的行為數(shù)據(jù)和已知真實(shí)性別,得到所述用戶個(gè)體行為數(shù)據(jù)與其性別傾向間的關(guān)系。
10.如權(quán)利要求9所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟四中,根據(jù)所述用戶個(gè)體行為數(shù)據(jù)與其性別傾向間的關(guān)系和所述全體用戶的行為數(shù)據(jù)得到全體用戶的性別傾向,并存入所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)。
11.如權(quán)利要求6所述的基于用戶性別判別結(jié)果的定向應(yīng)用方法,其特征在于,所述步驟五中,查詢所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù),輸出待查詢用戶的性別傾向時(shí),若所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)具有所述待查詢用戶的性別傾向,則輸出所述用戶的性別傾向;若所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)無(wú)所述待查詢用戶的性別傾向,則抓取所述待查詢用戶當(dāng)前訪問(wèn)所述互聯(lián)網(wǎng)站的當(dāng)前內(nèi)容,根據(jù)抓取的當(dāng)前內(nèi)容在所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)中查詢所述當(dāng)前內(nèi)容的性別傾向,輸出所述當(dāng)前內(nèi)容的性別傾向作為所述待查詢用戶的性別傾向;若所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)無(wú)所述待查詢內(nèi)容的性別傾向,則輸 出互聯(lián)網(wǎng)站整體的性別傾向作為所述待查詢用戶的性別傾向。
12.一種基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,包括: 樣本用戶數(shù)據(jù)收集單元,用于收集并整理一互聯(lián)網(wǎng)站的已知真實(shí)性別的樣本用戶的行為數(shù)據(jù); 行為數(shù)據(jù)與性別傾向的關(guān)系單元,用于根據(jù)所述樣本用戶的行為數(shù)據(jù)和已知真實(shí)性別得到性別傾向與行為數(shù)據(jù)的關(guān)系,并存入所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù); 全體用戶數(shù)據(jù)收集單元,用于收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù); 性別傾向計(jì)算單元,用于根據(jù)所述性別傾向與行為數(shù)據(jù)的關(guān)系和所述全體用戶的行為數(shù)據(jù)得到全體用戶的性別傾向,并存入所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù); 性別傾向輸出單元,用于查詢所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù),輸出待查詢用戶的性別傾向; 定向應(yīng)用單元,用于根據(jù)所述性別傾向輸出單元輸出的性別傾向,向所述待查詢用戶提供基于所述輸出的性別傾向的信息。
13.如權(quán)利要求12所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述樣本用戶數(shù)據(jù)收集單元收集并整理的樣本用戶的行為數(shù)據(jù)包括:每個(gè)樣本用戶訪問(wèn)所述互聯(lián)網(wǎng)站的內(nèi)容和頻次以及每個(gè)樣本用戶與每個(gè)內(nèi)容間的訪問(wèn)權(quán)重。
14.如權(quán)利要求13所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述樣本用戶數(shù)據(jù)收集單元收集并整理的樣本用戶的行為數(shù)據(jù)還包括:每個(gè)樣本用戶訪問(wèn)所述互聯(lián)網(wǎng)站的行為時(shí)間和/或行為載體。
15.如權(quán)利要求13所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述全體用戶數(shù)據(jù)收集單元收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù)包括:每個(gè)用戶訪問(wèn)所述互聯(lián)網(wǎng)站的各個(gè)內(nèi)容和頻次以及每個(gè)用戶與每個(gè)內(nèi)容間的訪問(wèn)權(quán)重。
16.如權(quán)利要求15所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述全體用戶數(shù)據(jù)收集單元收集并整理所述互聯(lián)網(wǎng)站的全體用戶的行為數(shù)據(jù)還包括:每個(gè)用戶訪問(wèn)所述互聯(lián)網(wǎng)站的行為時(shí)間和/或行為載體。
17.如權(quán)利要求13所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述行為數(shù)據(jù)與性別傾向的關(guān)系單元得到的性別傾向與行為數(shù)據(jù)的關(guān)系包括: 所述互聯(lián)網(wǎng)站整體的性別傾向與所有樣本用戶的行為數(shù)據(jù)的關(guān)系;以及 所述互聯(lián)網(wǎng)站的各個(gè)內(nèi)容的性別傾向與訪問(wèn)該內(nèi)容的樣本用戶的行為數(shù)據(jù)的關(guān)系。
18.如權(quán)利要求17所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述互聯(lián)網(wǎng)站整體的性別傾向與所有樣本用戶的行為數(shù)據(jù)的關(guān)系的計(jì)算公式為:
19.如權(quán)利要求18所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述性別傾向計(jì)算單元根據(jù)所述性別傾向與行為數(shù)據(jù)的關(guān)系和所述全體用戶的行為數(shù)據(jù)得到全體用戶的性別傾向的計(jì)算公式為:
20.如權(quán)利要求17所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述行為數(shù)據(jù)與性別傾向的關(guān)系單元得到的性別傾向與行為數(shù)據(jù)的關(guān)系還包括:采用決策樹、logistic回歸或神經(jīng)網(wǎng)絡(luò)或支持向量機(jī),處理所述樣本用戶的行為數(shù)據(jù)和已知真實(shí)性別,得到所述用戶個(gè)體行為數(shù)據(jù)與其性別傾向間的關(guān)系。
21.如權(quán)利要求20所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述性別傾向計(jì)算單元根據(jù)所述用戶個(gè)體行為數(shù)據(jù)與其性別傾向間的關(guān)系和所述全體用戶的行為數(shù)據(jù)得到全體用戶的性別傾向,并存入所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)。
22.如權(quán)利要求17所述的基于用戶性別判別結(jié)果的定向應(yīng)用系統(tǒng),其特征在于,所述性別傾向輸出單元查詢所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù),輸出待查詢用戶的性別傾向時(shí),若所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)有所述待查詢用戶的性別傾向,則輸出所述用戶的性別傾向,若所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)無(wú)所述待查詢用戶的性別傾向,則抓取所述待查詢用戶當(dāng)前訪問(wèn)所述互聯(lián)網(wǎng)站的當(dāng)前內(nèi)容,根據(jù)抓取的當(dāng)前內(nèi)容在所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)中查詢所述當(dāng)前內(nèi)容的性別傾向,輸出所述當(dāng)前內(nèi)容的性別傾向作為所述待查詢用戶的性別傾向;若所述互聯(lián)網(wǎng)站的數(shù)據(jù)庫(kù)無(wú)所述待查詢內(nèi)容的性別傾向,則輸出互聯(lián)網(wǎng)站整體的性別傾向作為所述待查詢用戶的性別傾向。
全文摘要
本發(fā)明提供一種基于用戶性別判別結(jié)果的定向應(yīng)用方法及系統(tǒng),通過(guò)樣本用戶的行為數(shù)據(jù)和性別,計(jì)算得到性別傾向與行為數(shù)據(jù)的關(guān)系,再根據(jù)收集的各個(gè)用戶的行為數(shù)據(jù)和該性別傾向與行為數(shù)據(jù)的關(guān)系,得到各個(gè)用戶的性別傾向,將用戶真實(shí)、客觀、完整的行為數(shù)據(jù)應(yīng)用于互聯(lián)網(wǎng)用戶性別判別,計(jì)算結(jié)果精確、可靠;在用戶真實(shí)性別信息缺失、虛假的情況下,可以獲得較準(zhǔn)確的用戶性別信息;本發(fā)明的基于用戶性別判別結(jié)果的定向應(yīng)用方法及系統(tǒng)使得如個(gè)性化搜索、個(gè)性化推薦和廣告定向投放等基于用戶男女性別不同的定向應(yīng)用的準(zhǔn)確率和效率大大提高,提高互聯(lián)網(wǎng)個(gè)性化應(yīng)用的效率。
文檔編號(hào)G06F17/30GK103164470SQ20111042255
公開日2013年6月19日 申請(qǐng)日期2011年12月15日 優(yōu)先權(quán)日2011年12月15日
發(fā)明者曹臻, 張秉豪, 鄧愛林 申請(qǐng)人:盛大計(jì)算機(jī)(上海)有限公司