一種基于特征數(shù)據(jù)庫的性別特征的識別方法、系統(tǒng)及終端的制作方法
【專利摘要】本發(fā)明提供一種基于特征數(shù)據(jù)庫的性別特征的識別方法、系統(tǒng)及終端。該方法包括:抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息;構(gòu)建基于所述基礎(chǔ)特征信息的N?gram模型和決策樹模型;獲取采用投票機(jī)制且分別應(yīng)用所述N?gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率;輸出準(zhǔn)確率高的性別判斷結(jié)果。本發(fā)明提供的一種基于特征數(shù)據(jù)庫的性別特征的識別方法、系統(tǒng)及終端,構(gòu)建了N?gram模型和決策樹模型兩種模型并行方案對電商領(lǐng)域的用戶性別進(jìn)行識別,提高了性別識別的準(zhǔn)確性。
【專利說明】
一種基于特征數(shù)據(jù)庫的性別特征的識別方法、系統(tǒng)及終端
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及電子商務(wù)領(lǐng)域,尤其涉及一種基于特征數(shù)據(jù)庫的性別特征的識別方法、系統(tǒng)及終端。
【背景技術(shù)】
[0002]電子商務(wù)是利用微電腦技術(shù)和網(wǎng)絡(luò)技術(shù)進(jìn)行的商務(wù)活動,通常是指在全球各地廣泛的商業(yè)貿(mào)易活動中,在因特網(wǎng)開放的網(wǎng)絡(luò)環(huán)境下,基于瀏覽器/服務(wù)器應(yīng)用方式,買賣雙方不謀面地進(jìn)行各種商貿(mào)活動,實現(xiàn)消費者的網(wǎng)上購物、商戶之間的網(wǎng)上交易和在線電子支付以及各種商務(wù)活動、交易活動、金融活動和相關(guān)的綜合服務(wù)活動的一種新型的商業(yè)運營模式。各國政府、學(xué)者、企業(yè)界人士根據(jù)自己所處的地位和對電子商務(wù)參與的角度和程度的不同,給出了許多不同的定義。電子商務(wù)分為:六8(:、828、82(:工2(:、821、]\12(:、824(8阽26)、C2A(即C2G)、020電子商務(wù)模式等等。電子商務(wù)的形成與交易離不開以下三方面的關(guān)系:交易平臺、平臺經(jīng)營者和站內(nèi)經(jīng)營者。
[0003]網(wǎng)購的普及使得電子商務(wù)整體市場保持高速增長,目前電子商務(wù)領(lǐng)域的用戶群體數(shù)量龐大,在電商或者社交等以用戶為基礎(chǔ)的相關(guān)行業(yè)中,往往需要了解用戶的真實性別,以對其進(jìn)行分類,方便研究其行為特征及偏好。
[0004]發(fā)明人在研究的過程中發(fā)現(xiàn),網(wǎng)絡(luò)作為一個虛擬世界,用戶在暢游時,本身都有一種警惕性,從而隱藏自己部分真實身份,無法通過消費特征、行為特征等有效區(qū)分用戶群體的性別特征。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的主要目的在于提供一種基于特征數(shù)據(jù)庫的性別特征的識別方法、系統(tǒng)及終端,以克服現(xiàn)有的電子商務(wù)領(lǐng)域的性別特征識別難的技術(shù)問題。
[0006]本發(fā)明一方面提供了一種基于特征數(shù)據(jù)庫的性別特征的識別方法,包括:
[0007]抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息;
[0008]構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型;
[0009]獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率;
[0010]輸出準(zhǔn)確率高的性別判斷結(jié)果。
[0011 ]進(jìn)一步的,所述特征信息庫,包括但不限于:注冊信息、訪問日志數(shù)據(jù)和/或訂單信息。
[0012]更進(jìn)一步的,所述基礎(chǔ)特征信息包括但不限于:
[0013]注冊信息中的用戶名信息、歸屬地域信息和/或性別中的一種或多種;
[0014]訪問日志中的訪問時間、訪問渠道、訪問IP歸屬地域和/或訪問產(chǎn)品分類信息中的一種或多種;
[0015]訂單信息中的下單時間、下單渠道、下單時IP歸屬地域、下單產(chǎn)品分類、下單電話歸屬商和/或付款方式中的一種或多種。
[0016]進(jìn)一步的,構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型,包括:
[0017]基于所述基礎(chǔ)特征信息中順序接收的輸入信息,應(yīng)用如下公式構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型:
[0018]P(T)=P(fflff2ff3ffn)=P(ffl)P(ff2|ffl)P(W3|fflff2)---P(ffn|fflff2---ffn-l);
[0019]其中,P(T)為準(zhǔn)確率,T為性別,W為基礎(chǔ)特征信息中接收的輸入信息,Wl為基礎(chǔ)特征信息中第一個接收的輸入信息,W2為基礎(chǔ)特征信息中第二個接收的輸入信息,W3為基礎(chǔ)特征信息中第三個接收的輸入信息,Wn為基礎(chǔ)特征信息中第η個接收的輸入信息,Wn-1為基礎(chǔ)特征信息中第η-1個接收的輸入信息。
[0020]進(jìn)一步的,構(gòu)建基于所述基礎(chǔ)特征信息的決策樹模型,包括:
[0021]提取所述基礎(chǔ)特征信息中的特征變量作為訓(xùn)練集數(shù)據(jù),所述特征變量包括離散變量和連續(xù)變量;
[0022]將所述訓(xùn)練集數(shù)據(jù)的特征變量輸入至決策樹模型中,決策樹基于信息增益率進(jìn)行變量選擇和分割點選擇之后,輸出規(guī)則集。
[0023]進(jìn)一步的,所述決策樹基于信息增益率進(jìn)行變量選擇,包括:
[0024]所述決策樹基于信息增益率進(jìn)行最佳分類特征屬性的選擇。
[0025]進(jìn)一步的,所述獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率,包括:
[0026]獲取基礎(chǔ)特征信息的原始數(shù)據(jù);
[0027]基于所述原始數(shù)據(jù),提取所述原始數(shù)據(jù)的原始變量特征和衍生變量特征;
[0028]分別應(yīng)用N-gram模型和決策樹模型識別所述原始變量特征和衍生變量特征,獲得N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl,和N-gram準(zhǔn)確率peri ;決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2,和決策樹準(zhǔn)確率per2。
[0029]進(jìn)一步的,所述輸出準(zhǔn)確率高的性別判斷結(jié)果,包括:
[°03°] 判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p er I大于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per 2,則N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果s e x I作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或
[0031 ] 判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p er I小于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或
[0032]判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率per I等于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per 2,則決策樹模型或N-gram模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出。
[0033]本發(fā)明另一方面還提供了一種基于特征數(shù)據(jù)庫的性別特征的識別系統(tǒng),該系統(tǒng)包括:
[0034]抽取單元,用于抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息;
[0035]構(gòu)建單元,用于構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型;
[0036]獲取單元,用于獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別的性別判斷結(jié)果和準(zhǔn)確率;
[0037]輸出單元,用于準(zhǔn)確率高的性別判斷結(jié)果。
[0038]進(jìn)一步的,所述構(gòu)建單元,包括:
[0039]第一構(gòu)建子單元,用于基于所述基礎(chǔ)特征信息中順序接收的輸入信息,應(yīng)用如下公式構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型:
[0040]P(T)=P(WlW2W3Wn)=P(Wl)P(W2|Wl)P(W3|WlW2V..P(Wn|WlW2...Wn-l);
[0041]其中,P(T)為準(zhǔn)確率,T為性別,W為基礎(chǔ)特征信息中接收的輸入信息,Wl為基礎(chǔ)特征信息中第一個接收的輸入信息,W2為基礎(chǔ)特征信息中第二個接收的輸入信息,W3為基礎(chǔ)特征信息中第三個接收的輸入信息,Wn為基礎(chǔ)特征信息中第η個接收的輸入信息,Wn-1為基礎(chǔ)特征信息中第η-1個接收的輸入信息;
[0042]第二構(gòu)建子單元,用于提取所述基礎(chǔ)特征信息中的特征變量作為訓(xùn)練集數(shù)據(jù),所述特征變量包括離散變量和連續(xù)變量;將所述訓(xùn)練集數(shù)據(jù)的特征變量輸入至決策樹模型中,決策樹基于信息增益率進(jìn)行變量選擇和分割點選擇之后,輸出規(guī)則集。
[0043]進(jìn)一步的,所述第二構(gòu)建子單元,包括:
[0044]選擇單元,用于基于信息增益率進(jìn)行最佳分類特征屬性的選擇。
[0045]進(jìn)一步的,所述獲取單元,包括:
[0046]第一獲取子單元,用于獲取基礎(chǔ)特征信息的原始數(shù)據(jù);
[0047]提取單元,用于基于所述原始數(shù)據(jù),提取所述原始數(shù)據(jù)的原始變量特征和衍生變量特征;
[0048]第二獲取子單元,用于分別應(yīng)用N-gram模型和決策樹模型識別所述原始變量特征和衍生變量特征,獲得N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sex I,和N-gram準(zhǔn)確率peri;決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2,和決策樹準(zhǔn)確率per2。
[0049]進(jìn)一步的,所述輸出單元,包括
[0050 ] 第一輸出單元,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率peri大于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或
[OO51 ] 第二輸出單元,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p er I小于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或
[OO52 ] 第三輸出單元,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率peri等于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型或N-gram模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出。
[0053]本發(fā)明另一方面還提供了一種基于特征數(shù)據(jù)庫的性別特征的識別終端,包括所述的系統(tǒng)。
[0054]本發(fā)明通過抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息;構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型;獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率;輸出準(zhǔn)確率高的性別判斷結(jié)果,構(gòu)建了N-gram模型和決策樹模型兩種模型并行方案對電商領(lǐng)域的用戶性別進(jìn)行識別,提高了性別識別的準(zhǔn)確性。
【附圖說明】
[0055]圖1為根據(jù)本發(fā)明的及一種基于特征數(shù)據(jù)庫的性別特征的識別方法的實施例一的流程圖;
[0056]圖2為根據(jù)本發(fā)明的及一種基于特征數(shù)據(jù)庫的性別特征的識別系統(tǒng)的實施例二的結(jié)構(gòu)框圖之一。
【具體實施方式】
[0057]下面結(jié)合附圖對本發(fā)明實施例提供的一種特定群體的識別方法、系統(tǒng)及終端進(jìn)行詳細(xì)描述。
[0058]實施例一
[0059]如圖1所示,本發(fā)明一方面提供了一種基于特征數(shù)據(jù)庫的性別特征的識別方法,包括:
[0060]在步驟SI10中,抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息。
[0061 ]其中,所述特征信息庫,包括但不限于:注冊信息、訪問日志數(shù)據(jù)和/或訂單信息。所述基礎(chǔ)特征信息包括但不限于:注冊信息中的用戶名信息、歸屬地域信息和/或性別中的一種或多種;訪問日志中的訪問時間、訪問渠道、訪問IP歸屬地域和/或訪問產(chǎn)品分類信息中的一種或多種;訂單信息中的下單時間、下單渠道、下單時IP歸屬地域、下單產(chǎn)品分類、下單電話歸屬商和/或付款方式中的一種或多種。不同行業(yè)可以有不同的提取特征。
[0062]—個應(yīng)用實例,提取注冊信息的基礎(chǔ)信息特征:如,注冊用戶名最后一個字(若為英文,則記為空);注冊時填寫的歸屬地域(省級);注冊時填寫的性別(無法判斷真假)。
[0063]另一個應(yīng)用實例,提取訪問日志數(shù)據(jù)的基礎(chǔ)信息特征:如,訪問時間(上午、中午、下午、晚上、凌晨);訪問渠道(PC端、1S、安卓、M站);訪問時IP歸屬地域(北京、上海、廣州等城市);訪問產(chǎn)品分類(如演出行業(yè)的演唱會、話劇歌劇、曲藝相聲等)。
[0064]另一個應(yīng)用實例,提取訂單信息的基礎(chǔ)信息特征:如,下單時間(上午、中午、下午、晚上、凌晨);下單渠道(PC端、1S、安卓、M站);下單時IP歸屬地域(北京、上海、廣州等城市);下單產(chǎn)品分類(如演出行業(yè)的演唱會、話劇歌劇、曲藝相聲等);下單電話歸屬商(移動、聯(lián)通、電信);付款方式(網(wǎng)上銀行、微信支付、支付寶支付等)。
[0065]在步驟S120中,構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型。
[0066]所述基礎(chǔ)特征信息的N-gram模型和決策樹模型為并行建立,基于特征數(shù)據(jù)庫,應(yīng)用N-gram模型,進(jìn)行建模;基于訪問特征、訂單信息,應(yīng)用決策樹模型,進(jìn)行建模;其中,N-Gram是大詞匯連續(xù)語音識別中常用的一種語言模型,對中文而言,又稱之為漢語語言模型。該模型基于這樣一種假設(shè),第η個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。
[0067]構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型的優(yōu)選實施例中,考慮注冊時輸入信息的有序性,將每次輸入(or選擇)的信息假想為第η個詞,因此,第η次輸入的結(jié)果只與前面N-1次輸入相關(guān),整個注冊信息填完的概率就是各個信息填寫概率的乘積。構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型,包括:
[0068]基于所述基礎(chǔ)特征信息中順序接收的輸入信息,應(yīng)用如下公式構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型:
[0069]P(T)=P(fflff2ff3ffn)=P(ffl)P(ff2|ffl)P(W3|fflff2)---P(ffn|fflff2---ffn-l);
[0070]其中,P(T)為準(zhǔn)確率,T為性別,W為基礎(chǔ)特征信息中接收的輸入信息,Wl為基礎(chǔ)特征信息中第一個接收的輸入信息,W2為基礎(chǔ)特征信息中第二個接收的輸入信息,W3為基礎(chǔ)特征信息中第三個接收的輸入信息,Wn為基礎(chǔ)特征信息中第η個接收的輸入信息,Wn-1為基礎(chǔ)特征信息中第η-1個接收的輸入信息,每個序列及性別的出現(xiàn)概率,即為一個N-Gram規(guī)則。
[0071]—個應(yīng)用實施例,Wl為用戶名最后一個字,如“花”,W2為用戶選擇的出生年份,如“1900年”,W3為用戶選擇的地域,如“海外”,T為用戶的真實性別,如“男”。
[0072]M:P(T)=P(ffl)P(W2|ffl)P(ff3|fflff2)
[0073]=P( “花” )P( “1900年” I “花” )P(W3 | “1900年,,*“花”)
[0074]=0.15*0.2*0.3 = 0.009
[0075]其中,上述數(shù)字為示例數(shù)字,具體來源如下:
[0076]0.15:所有訓(xùn)練集用戶中最后一個字為“花”的用戶名數(shù)量占比;
[0077]0.2:所有最后一個字為“花”的訓(xùn)練集用戶中,注冊出生年齡為1900年的用戶占所有最后一個字為“花”的訓(xùn)練集用戶比重;
[0078]0.3:所有訓(xùn)練集用戶中注冊年齡為1900年且最后一個字為“花”的用戶中,選擇地域為“海外”的用戶數(shù)。
[0079]S卩:注冊時依次填寫的信息中,W1、W2、W3的特征為“花”、“1900年”、“海外”時,用戶為男的概率為0.009,即:該序列的概率為0.009。
[0080]其中,構(gòu)建基于所述基礎(chǔ)特征信息的決策樹模型,包括:提取所述基礎(chǔ)特征信息中的特征變量作為訓(xùn)練集數(shù)據(jù),所述特征變量包括離散變量和連續(xù)變量;將所述訓(xùn)練集數(shù)據(jù)的特征變量輸入至決策樹模型中,決策樹基于信息增益率進(jìn)行變量選擇和分割點選擇之后,輸出規(guī)則集。所述決策樹基于信息增益率進(jìn)行變量選擇,包括:所述決策樹基于信息增益率進(jìn)行最佳分類特征屬性的選擇。
[0081]其中,決策樹模型在系統(tǒng)固化中可以直接調(diào)用相關(guān)的算法包進(jìn)行訓(xùn)練,只要調(diào)整好相關(guān)參數(shù),滿足實際要求即可。
[0082]優(yōu)選實施例,構(gòu)建基于所述基礎(chǔ)特征信息的決策樹模型包括:
[0083]提取所述基礎(chǔ)特征信息中的特征變量作為訓(xùn)練集數(shù)據(jù),特征變量包括:訪問特征:最近一次訪問時間(離散變量);常用訪問渠道(離散變量);訪問時常用IP歸屬地域(離散變量);訪問產(chǎn)品分類(離散變量);近一年訪問頻次(連續(xù)變量)O訂單信息:最近一次下單時間(離散變量);常用下單渠道(離散變量);下單時常用IP歸屬地域(離散變量);下單產(chǎn)品分類(離散變量);下單常用電話歸屬商(離散變量);常用付款方式(離散變量)。
[0084]將訓(xùn)練集數(shù)據(jù)(百萬級)的上述特征變量輸入到?jīng)Q策樹模型中,決策樹基于信息增益率進(jìn)行變量選擇(即最佳分類特征屬性的選擇)和分割點選擇。
[0085]利用基礎(chǔ)特征信息如注冊信息、訪問行為、下單行為等行為特征,構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型,預(yù)測用戶的性別,精準(zhǔn)的構(gòu)建用戶畫像,為營銷等場景打下堅實的數(shù)據(jù)基礎(chǔ)。
[0086]在步驟S130中,獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率。
[0087]其中,包括:獲取基礎(chǔ)特征信息的原始數(shù)據(jù);基于所述原始數(shù)據(jù),提取所述原始數(shù)據(jù)的原始變量特征和衍生變量特征;分別應(yīng)用N-gram模型和決策樹模型識別所述原始變量特征和衍生變量特征,獲得N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl,和N-gram準(zhǔn)確率peri ;決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2,和決策樹準(zhǔn)確率per2。
[0088]其中,原始變量特征指的是原始數(shù)據(jù)中就包含的變量,如用戶訪問時間;
[0089]衍生變量特征指的是對原始數(shù)據(jù)進(jìn)行加工后得到的特征變量,如用戶訪問偏好類型(夜貓子型、上班型、下班型等),這種是對原始數(shù)據(jù)進(jìn)行基于業(yè)務(wù)的非常規(guī)定義后得出的,在原始數(shù)據(jù)中并不是直接包含的特征變量。
[0090]在步驟S140中,輸出準(zhǔn)確率高的性別判斷結(jié)果。
[°091 ] 包括:判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率peri大于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,貝IjN-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或
[OO92 ] 判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p er I小于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或
[OO93 ] 判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p er I等于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per 2,則決策樹模型或N-gram模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出。
[0094]本發(fā)明通過抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息;構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型;獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率;輸出準(zhǔn)確率高的性別判斷結(jié)果,構(gòu)建了N-gram模型和決策樹模型兩種模型并行方案對電商領(lǐng)域的用戶性別進(jìn)行識別,提高了性別識別的準(zhǔn)確性。
[0095]實施例二
[0096]如圖2所示,本發(fā)明實施例另一方面還提供了一種基于特征數(shù)據(jù)庫的性別特征的識別系統(tǒng),該系統(tǒng)包括:
[0097]抽取單元21,用于抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息。
[0098]其中,所述特征信息庫,包括但不限于:注冊信息、訪問日志數(shù)據(jù)和/或訂單信息。所述基礎(chǔ)特征信息包括但不限于:注冊信息中的用戶名信息、歸屬地域信息和/或性別中的一種或多種;訪問日志中的訪問時間、訪問渠道、訪問IP歸屬地域和/或訪問產(chǎn)品分類信息中的一種或多種;訂單信息中的下單時間、下單渠道、下單時IP歸屬地域、下單產(chǎn)品分類、下單電話歸屬商和/或付款方式中的一種或多種。不同行業(yè)可以有不同的提取特征。
[0099]—個應(yīng)用實例,提取注冊信息的基礎(chǔ)信息特征:如,注冊用戶名最后一個字(若為英文,則記為空);注冊時填寫的歸屬地域(省級);注冊時填寫的性別(無法判斷真假)。
[0100]另一個應(yīng)用實例,提取訪問日志數(shù)據(jù)的基礎(chǔ)信息特征:如,訪問時間(上午、中午、下午、晚上、凌晨);訪問渠道(PC端、1S、安卓、M站);訪問時IP歸屬地域(北京、上海、廣州等城市);訪問產(chǎn)品分類(如演出行業(yè)的演唱會、話劇歌劇、曲藝相聲等)。
[0101]另一個應(yīng)用實例,提取訂單信息的基礎(chǔ)信息特征:如,下單時間(上午、中午、下午、晚上、凌晨);下單渠道(PC端、1S、安卓、M站);下單時IP歸屬地域(北京、上海、廣州等城市);下單產(chǎn)品分類(如演出行業(yè)的演唱會、話劇歌劇、曲藝相聲等);下單電話歸屬商(移動、聯(lián)通、電信);付款方式(網(wǎng)上銀行、微信支付、支付寶支付等)。
[0102]構(gòu)建單元22,用于構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型。
[0103]其中,所述基礎(chǔ)特征信息的N-gram模型和決策樹模型為并行建立,所述構(gòu)建單元22,包括:
[0104]第一構(gòu)建子單元221,用于基于所述基礎(chǔ)特征信息中順序接收的輸入信息,應(yīng)用如下公式構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型:
[0105]?(!')=?(町¥2¥3恥)=?(町)?(¥2|町)?(¥3|¥1¥2卜中(恥|町¥2..111-1);其中,P(T)為準(zhǔn)確率,T為性別,W為基礎(chǔ)特征信息中接收的輸入信息,Wl為基礎(chǔ)特征信息中第一個接收的輸入信息,W2為基礎(chǔ)特征信息中第二個接收的輸入信息,W3為基礎(chǔ)特征信息中第三個接收的輸入信息,Wn為基礎(chǔ)特征信息中第η個接收的輸入信息,Wn-1為基礎(chǔ)特征信息中第η-1個接收的輸入信息。
[0106]N-Gram是大詞匯連續(xù)語音識別中常用的一種語言模型,對中文而言,又稱之為漢語語言模型。該模型基于這樣一種假設(shè),第η個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。
[0107]構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型的優(yōu)選實施例中,考慮注冊時輸入信息的有序性,將每次輸入(or選擇)的信息假想為第η個詞,因此,第η次輸入的結(jié)果只與前面N-1次輸入相關(guān),整個注冊信息填完的概率就是各個信息填寫概率的乘積。
[0108]—個應(yīng)用實施例,Wl為用戶名最后一個字,如“花”,W2為用戶選擇的出生年份,如“1900年”,W3為用戶選擇的地域,如“海外”,T為用戶的真實性別,如“男”。
[0109]M:P(T)=P(ffl)P(W2|ffl)P(ff3|fflff2)
[0110]=p(“^,)p(“1900^,I “花”)P(W3 “1900年,,*“花”)
[0111]=0.15*0.2*0.3 = 0.009
[0112]其中,上述數(shù)字為示例數(shù)字,具體來源如下:
[0113]0.15:所有訓(xùn)練集用戶中最后一個字為“花”的用戶名數(shù)量占比;
[0114]0.2:所有最后一個字為“花”的訓(xùn)練集用戶中,注冊出生年齡為1900年的用戶占所有最后一個字為“花”的訓(xùn)練集用戶比重;
[0115]0.3:所有訓(xùn)練集用戶中注冊年齡為1900年且最后一個字為“花”的用戶中,選擇地域為“海外”的用戶數(shù)。
[0116]S卩:注冊時依次填寫的信息中,Wl、W2、W3的特征為“花”、“1900年”、“海外”時,用戶為男的概率為0.009,即:該序列的概率為0.009。
[0117]第二構(gòu)建子單元222,用于提取所述基礎(chǔ)特征信息中的特征變量作為訓(xùn)練集數(shù)據(jù),所述特征變量包括離散變量和連續(xù)變量;將所述訓(xùn)練集數(shù)據(jù)的特征變量輸入至決策樹模型中,決策樹基于信息增益率進(jìn)行變量選擇和分割點選擇之后,輸出規(guī)則集。進(jìn)一步的,所述第二構(gòu)建子單元,包括:選擇單元,用于基于信息增益率進(jìn)行最佳分類特征屬性的選擇。
[0118]其中,決策樹模型在系統(tǒng)固化中可以直接調(diào)用相關(guān)的算法包進(jìn)行訓(xùn)練,只要調(diào)整好相關(guān)參數(shù),滿足實際要求即可。
[0119]優(yōu)選實施例,構(gòu)建基于所述基礎(chǔ)特征信息的決策樹模型包括:
[0120]提取所述基礎(chǔ)特征信息中的特征變量作為訓(xùn)練集數(shù)據(jù),特征變量包括:訪問特征:最近一次訪問時間(離散變量);常用訪問渠道(離散變量);訪問時常用IP歸屬地域(離散變量);訪問產(chǎn)品分類(離散變量);近一年訪問頻次(連續(xù)變量)O訂單信息:最近一次下單時間(離散變量);常用下單渠道(離散變量);下單時常用IP歸屬地域(離散變量);下單產(chǎn)品分類(離散變量);下單常用電話歸屬商(離散變量);常用付款方式(離散變量)。
[0121]將訓(xùn)練集數(shù)據(jù)(百萬級)的上述特征變量輸入到?jīng)Q策樹模型中,決策樹基于信息增益率進(jìn)行變量選擇(即最佳分類特征屬性的選擇)和分割點選擇。
[0122]獲取單元23,用于獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別的性別判斷結(jié)果和準(zhǔn)確率。
[0123]所述獲取單元23,包括:第一獲取子單元231,用于獲取基礎(chǔ)特征信息的原始數(shù)據(jù)。
[0124]提取單元232,用于基于所述原始數(shù)據(jù),提取所述原始數(shù)據(jù)的原始變量特征和衍生變量特征。
[0125]其中,原始變量特征指的是原始數(shù)據(jù)中就包含的變量,如用戶訪問時間;
[0126]衍生變量特征指的是對原始數(shù)據(jù)進(jìn)行加工后得到的特征變量,如用戶訪問偏好類型(夜貓子型、上班型、下班型等),這種是對原始數(shù)據(jù)進(jìn)行基于業(yè)務(wù)的非常規(guī)定義后得出的,在原始數(shù)據(jù)中并不是直接包含的特征變量。
[0127]第二獲取子單元233,用于分別應(yīng)用N-gram模型和決策樹模型識別所述原始變量特征和衍生變量特征,獲得N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl,和N-gram準(zhǔn)確率peri ;決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2,和決策樹準(zhǔn)確率per2。
[0128]輸出單元24,用于準(zhǔn)確率高的性別判斷結(jié)果。
[0?29] 所述輸出單元,包括:第一輸出單元241,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率per I大于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或[O13O] 第二輸出單元242,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p er I小于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或
[ΟΙ31] 第三輸出單元243,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p er I等于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型或N-gram模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出。
[0132]本發(fā)明通過抽取單元抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息;并通過構(gòu)建單元構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型;通過獲取單元獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率;最后通過輸出單元輸出準(zhǔn)確率高的性別判斷結(jié)果,構(gòu)建了 N-gram模型和決策樹模型兩種模型并行方案對電商領(lǐng)域的用戶性別進(jìn)行識別,提高了性別識別的準(zhǔn)確性。
[0133]實施例三
[0134]本發(fā)明另一方面還提供了一種基于特征數(shù)據(jù)庫的性別特征的識別終端,包括實施例二所述的系統(tǒng)。
[0135]本發(fā)明通過抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息;構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型;獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率;輸出準(zhǔn)確率高的性別判斷結(jié)果,構(gòu)建了N-gram模型和決策樹模型兩種模型并行方案對電商領(lǐng)域的用戶性別進(jìn)行識別,提高了性別識別的準(zhǔn)確性。
[0136]需要指出,根據(jù)實施的需要,可將本申請中描述的各個步驟/部件拆分為更多步驟/部件,也可將兩個或多個步驟/部件或者步驟/部件的部分操作組合成新的步驟/部件,以實現(xiàn)本發(fā)明的目的。
[0137]上述根據(jù)本發(fā)明的方法可在硬件、固件中實現(xiàn),或者被實現(xiàn)為可存儲在記錄介質(zhì)(諸如CD R0M、RAM、軟盤、硬盤或磁光盤)中的軟件或計算機(jī)代碼,或者被實現(xiàn)通過網(wǎng)絡(luò)下載的原始存儲在遠(yuǎn)程記錄介質(zhì)或非暫時機(jī)器可讀介質(zhì)中并將被存儲在本地記錄介質(zhì)中的計算機(jī)代碼,從而在此描述的方法可被存儲在使用通用計算機(jī)、專用處理器或者可編程或?qū)S糜布?諸如ASIC或FPGA)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫?,計算機(jī)、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機(jī)代碼的存儲組件(例如,RAM、ROM、閃存等),當(dāng)所述軟件或計算機(jī)代碼被計算機(jī)、處理器或硬件訪問且執(zhí)行時,實現(xiàn)在此描述的處理方法。此外,當(dāng)通用計算機(jī)訪問用于實現(xiàn)在此示出的處理的代碼時,代碼的執(zhí)行將通用計算機(jī)轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計算機(jī)。
[0138]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項】
1.一種基于特征數(shù)據(jù)庫的性別特征的識別方法,其特征在于,包括: 抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息; 構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型; 獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率; 輸出準(zhǔn)確率高的性別判斷結(jié)果。2.如權(quán)利要求1所述的方法,其特征在于,所述特征信息庫,包括但不限于:注冊信息、訪問日志數(shù)據(jù)和/或訂單信息。3.如權(quán)利要求1或2所述的方法,其特征在于,所述基礎(chǔ)特征信息包括但不限于: 注冊信息中的用戶名信息、歸屬地域信息和/或性別中的一種或多種; 訪問日志中的訪問時間、訪問渠道、訪問IP歸屬地域和/或訪問產(chǎn)品分類信息中的一種或多種; 訂單信息中的下單時間、下單渠道、下單時IP歸屬地域、下單產(chǎn)品分類、下單電話歸屬商和/或付款方式中的一種或多種。4.如權(quán)利要求1-3之一所述的方法,其特征在于,構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型,包括: 基于所述基礎(chǔ)特征信息中順序接收的輸入信息,應(yīng)用如下公式構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型: P(T)=P(WlW2W3Wn)=P(Wl)P(W2|Wl)P(W3|WlW2>..P(Wn|WlW2...Wn-l); 其中,P (T)為準(zhǔn)確率,T為性別,W為基礎(chǔ)特征信息中接收的輸入信息,Wl為基礎(chǔ)特征信息中第一個接收的輸入信息,W2為基礎(chǔ)特征信息中第二個接收的輸入信息,W3為基礎(chǔ)特征信息中第三個接收的輸入信息,Wn為基礎(chǔ)特征信息中第η個接收的輸入信息,Wn-1為基礎(chǔ)特征信息中第η-1個接收的輸入信息。5.如權(quán)利要求1-4之一所述的方法,其特征在于,構(gòu)建基于所述基礎(chǔ)特征信息的決策樹模型,包括: 提取所述基礎(chǔ)特征信息中的特征變量作為訓(xùn)練集數(shù)據(jù),所述特征變量包括離散變量和連續(xù)變量; 將所述訓(xùn)練集數(shù)據(jù)的特征變量輸入至決策樹模型中,決策樹基于信息增益率進(jìn)行變量選擇和分割點選擇之后,輸出規(guī)則集。6.如權(quán)利要求5所述的方法,其特征在于,所述決策樹基于信息增益率進(jìn)行變量選擇,包括: 所述決策樹基于信息增益率進(jìn)行最佳分類特征屬性的選擇。7.如權(quán)利要求1-6之一所述的方法,其特征在于,所述獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別出的性別判斷結(jié)果和準(zhǔn)確率,包括: 獲取基礎(chǔ)特征信息的原始數(shù)據(jù); 基于所述原始數(shù)據(jù),提取所述原始數(shù)據(jù)的原始變量特征和衍生變量特征; 分別應(yīng)用N-gram模型和決策樹模型識別所述原始變量特征和衍生變量特征,獲得N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sex I,和N-gram準(zhǔn)確率per I;決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2,和決策樹準(zhǔn)確率per2。8.如權(quán)利要求1-7所述的方法,其特征在于,所述輸出準(zhǔn)確率高的性別判斷結(jié)果,包括:判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p e r I大于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,貝ijN-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或 判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p e r I小于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或 判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率p e r I等于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型或N-gram模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出。9.一種基于特征數(shù)據(jù)庫的性別特征的識別系統(tǒng),其特征在于,該系統(tǒng)包括: 抽取單元,用于抽取特征數(shù)據(jù)庫的基礎(chǔ)特征信息; 構(gòu)建單元,用于構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型和決策樹模型; 獲取單元,用于獲取采用投票機(jī)制且分別應(yīng)用所述N-gram模型和決策樹模型識別的性別判斷結(jié)果和準(zhǔn)確率; 輸出單元,用于準(zhǔn)確率高的性別判斷結(jié)果。10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述構(gòu)建單元,包括: 第一構(gòu)建子單元,用于基于所述基礎(chǔ)特征信息中順序接收的輸入信息,應(yīng)用如下公式構(gòu)建基于所述基礎(chǔ)特征信息的N-gram模型: P(T)=P(WlW2W3Wn)=P(Wl)P(W2|Wl)P(W3|WlW2>..P(Wn|WlW2...Wn-l); 其中,P (T)為準(zhǔn)確率,T為性別,W為基礎(chǔ)特征信息中接收的輸入信息,Wl為基礎(chǔ)特征信息中第一個接收的輸入信息,W2為基礎(chǔ)特征信息中第二個接收的輸入信息,W3為基礎(chǔ)特征信息中第三個接收的輸入信息,Wn為基礎(chǔ)特征信息中第η個接收的輸入信息,Wn-1為基礎(chǔ)特征信息中第η-1個接收的輸入信息; 第二構(gòu)建子單元,用于提取所述基礎(chǔ)特征信息中的特征變量作為訓(xùn)練集數(shù)據(jù),所述特征變量包括離散變量和連續(xù)變量;將所述訓(xùn)練集數(shù)據(jù)的特征變量輸入至決策樹模型中,決策樹基于信息增益率進(jìn)行變量選擇和分割點選擇之后,輸出規(guī)則集。11.如權(quán)利要求10所述的系統(tǒng),其特征在于,所述第二構(gòu)建子單元,包括: 選擇單元,用于基于信息增益率進(jìn)行最佳分類特征屬性的選擇。12.如權(quán)利要求9-11之一所述的系統(tǒng),其特征在于,所述獲取單元,包括: 第一獲取子單元,用于獲取基礎(chǔ)特征信息的原始數(shù)據(jù); 提取單元,用于基于所述原始數(shù)據(jù),提取所述原始數(shù)據(jù)的原始變量特征和衍生變量特征; 第二獲取子單元,用于分別應(yīng)用N-gram模型和決策樹模型識別所述原始變量特征和衍生變量特征,獲得N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl,和N-gram準(zhǔn)確率peri;決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2,和決策樹準(zhǔn)確率per2。13.如權(quán)利要求9-12之一所述的系統(tǒng),其特征在于,所述輸出單元,包括第一輸出單元,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率per I大于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則N-gram模型對基礎(chǔ)特征信息的N-gram預(yù)測結(jié)果sexl作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或 第二輸出單元,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率per I小于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果sex2作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出;或 第三輸出單元,用于判斷N-gram模型對基礎(chǔ)特征信息的N-gram準(zhǔn)確率per I等于決策樹模型對基礎(chǔ)特征信息的決策樹準(zhǔn)確率per2,則決策樹模型或N-gram模型對基礎(chǔ)特征信息的決策樹預(yù)測結(jié)果作為對基礎(chǔ)特征信息的預(yù)測結(jié)果進(jìn)行輸出。14.一種基于特征數(shù)據(jù)庫的性別特征的識別終端,包括如權(quán)利要求9-13任一項所述的系統(tǒng)。
【文檔編號】G06Q30/06GK106095798SQ201610373490
【公開日】2016年11月9日
【申請日】2016年5月31日
【發(fā)明人】曹杰, 馮雨暉, 宿曉坤, 李學(xué)超
【申請人】北京紅馬傳媒文化發(fā)展有限公司