用戶性別分析方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)分析領域,尤其涉及一種用戶性別分析方法和裝置。
【背景技術】
[0002] 在互聯(lián)網(wǎng)環(huán)境下,用戶的性別是一項十分重要的信息。根據(jù)用戶的性別,互聯(lián)網(wǎng)內(nèi) 容提供者可以向不同用戶展現(xiàn)不同的內(nèi)容。例如,男性用戶可能相比女性用戶對電子競技 更感興趣,而女性用戶可能相比男性用戶對時尚服飾更感興趣。在這種情況下,如果用戶的 性別得到識別,互聯(lián)網(wǎng)廣告提供商就可以為男性用戶展示電子競技的廣告,為女性用戶展 示時尚服飾的廣告,從而使得廣告更有針對性,取得更好的廣告效果。
[0003] 對于注冊博客、微博或其他社交網(wǎng)站的用戶來說,很多服務提供商都會在用戶完 成必要的注冊信息后,建議用戶填寫一些用戶本身的屬性,例如性別,年齡,工作狀態(tài),為自 己設置個性域名等,而往往這些屬性中在涉及到用戶隱私的信息注冊事項通常都是選擇性 填寫事項,而非必須填寫事項,這樣,就導致了相當一部分用戶選擇不填寫此類信息,例如 用戶為保護自己的信息不外漏,會選擇不填寫年齡,性別等,那么,對于數(shù)據(jù)分析機構或供 應商本身來說,也就無法直接獲取用戶的性別信息。但對于不涉及隱私的選擇性填寫事項 來說,被填寫的成功率往往很高。例如,個性域名,服務提供商為了增加用戶體驗和親和力, 往往允許用戶為自己的微博或個人空間主頁設置具有代表用戶本身性質(zhì)的虛擬url。用 戶可以將這些域名格式設置為自己的名字,或任意自己喜歡的數(shù)字,或字母組合,即時尚又 方便。然而,出于人類自身的性別差異,在對個性域名的設置上,男性和女性往往本能的去 設置一些代表自身屬性的域名。例如,某用戶可能注冊一個個性域名:http://weibo.com/ basketballfans,其中weibo. com是微博服務提供商的域名,basketballfans部分即用戶 選擇的個性域名。那么,通過具有用戶代表性的個性域名來推算出用戶的性別信息,即不侵 犯用戶又可收集用戶信息。
[0004] 在現(xiàn)有的技術中,最相似的技術是美國專利7,447,996[1]。這一專利提出了一 種軟件模塊,用于在即時通訊系統(tǒng)中根據(jù)不同的用戶名推斷用戶的性別,根據(jù)不同的性別 展示不同的虛擬形象。依賴于特定的人類行為學數(shù)據(jù),即特定語言中的人名和性別之間的 關系。例如,這一專利中提及,針對中文姓名,通過人類行為學數(shù)據(jù)庫的檢索,"Xiuxiu"和 "lili"更可能是女性的名字。
[0005] 人類行為學數(shù)據(jù)庫并不適用于多種網(wǎng)絡應用場景,尤其不適用于個性域名和姓名 關聯(lián)較弱的場合。個性域名的組成通常包括了超出常見姓名范疇的大量成分,這些成分很 難通過人類行為學數(shù)據(jù)分析。例如,個性域名中可能包括"basketball",即籃球;而可能將 籃球放入個性域名的籃球愛好者中,男性可能占主導地位。如果將"籃球?qū)行?這類數(shù) 據(jù)加入數(shù)據(jù)庫,所需的工作將極大增加,并且很難完備。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供了一種用戶性別分析方法和裝置,解決了現(xiàn)有分析方式不適用于個性 域名和姓名關聯(lián)較弱的場合的問題。
[0007] -種用戶性別分析方法,包括:
[0008] 采集樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集包括多對用戶個性域名和對應的用戶性別;
[0009] 統(tǒng)計所述樣本數(shù)據(jù)集中的用戶個性域名中各順位上不同字母和相鄰若干順位上 不同字母組合按照性別出現(xiàn)的概率;
[0010] 以所述樣本數(shù)據(jù)集中男性的比例和所述概率作為參考參數(shù),對未知用戶性別的用 戶個性域名進行分析,判斷所述用戶性別。
[0011] 優(yōu)選的,所述統(tǒng)計所述樣本數(shù)據(jù)集中的用戶個性域名中各順位上不同字母和相鄰 若干順位上不同字母組合按照性別出現(xiàn)的概率的步驟之前,還包括:
[0012] 計算所述樣本數(shù)據(jù)集中男性的比例。
[0013] 優(yōu)選的,統(tǒng)計所述樣本數(shù)據(jù)集中的用戶個性域名中各順位上不同字母和相鄰若干 順位上字母組合按照性別出現(xiàn)的概率包括 :
[0014] 步驟a :取一個用戶個性域名中用戶指定的部分,同時記錄該用戶個性域名對應 的用戶性別;
[0015] 步驟b :對所述指定的部分的各順位上字母出現(xiàn)的次數(shù)和/或相鄰若干順位上不 同字母組合出現(xiàn)的次數(shù)進行計數(shù);
[0016] 步驟c :對所述樣本數(shù)據(jù)集中的全部用戶個性域名進行如步驟a至b的處理,直至 所述樣本數(shù)據(jù)集遍歷完成;
[0017] 步驟d :統(tǒng)計所述用戶個性域名各順位上字母對于不同性別出現(xiàn)的次數(shù)和/或相 鄰若干順位上的字母組合對于不同性別出現(xiàn)的次數(shù),并計算各順位上字母和/或相鄰若干 順位上字母組合對于不同性別出現(xiàn)的概率。
[0018] 優(yōu)選的,統(tǒng)計所述用戶個性域名各順位上字母對于不同性別出現(xiàn)的次數(shù)和/或相 鄰若干順位上的字母組合對于不同性別出現(xiàn)的次數(shù),并計算各順位上字母和/或相鄰若干 順位上字母組合對于不同性別出現(xiàn)的概率具體為 :
[0019] 根據(jù)表達式
[0020]
【主權項】
1. 一種用戶性別分析方法,其特征在于,包括: 采集樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集包括多對用戶個性域名和對應的用戶性別; 統(tǒng)計所述樣本數(shù)據(jù)集中的用戶個性域名中各順位上不同字母和相鄰若干順位上不同 字母組合按照性別出現(xiàn)的概率; W所述樣本數(shù)據(jù)集中男性的比例和所述概率作為參考參數(shù),對未知用戶性別的用戶個 性域名進行分析,判斷所述用戶性別。
2. 根據(jù)權利要求1所述的用戶性別分析方法,其特征在于,所述統(tǒng)計所述樣本數(shù)據(jù)集 中的用戶個性域名中各順位上不同字母和相鄰若干順位上不同字母組合按照性別出現(xiàn)的 概率的步驟之前,還包括: 計算所述樣本數(shù)據(jù)集中男性的比例。
3. 根據(jù)權利要求1所述的用戶性別分析方法,其特征在于,統(tǒng)計所述樣本數(shù)據(jù)集中 的用戶個性域名中各順位上不同字母和相鄰若干順位上字母組合按照性別出現(xiàn)的概率包 括: 步驟a ;取一個用戶個性域名中用戶指定的部分,同時記錄該用戶個性域名對應的用 戶性別; 步驟b ;對所述指定的部分的各順位上字母出現(xiàn)的次數(shù)和/或相鄰若干順位上不同字 母組合出現(xiàn)的次數(shù)進行計數(shù); 步驟C ;對所述樣本數(shù)據(jù)集中的全部用戶個性域名進行如步驟a至b的處理,直至所述 樣本數(shù)據(jù)集遍歷完成; 步驟d ;統(tǒng)計所述用戶個性域名各順位上字母對于不同性別出現(xiàn)的次數(shù)和/或相鄰若 干順位上的字母組合對于不同性別出現(xiàn)的次數(shù)