亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用戶屬性的預測方法和裝置與流程

文檔序號:12887648閱讀:277來源:國知局
用戶屬性的預測方法和裝置與流程
本發(fā)明涉及計算機
技術(shù)領(lǐng)域
,尤其涉及一種用戶屬性的預測方法和裝置。
背景技術(shù)
:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,基于海量用戶數(shù)據(jù)進行用戶屬性預測越來越重要?,F(xiàn)有的用戶屬性預測方法大多是基于無監(jiān)督模型開發(fā)的,普遍存在覆蓋率低、準確率低等問題。下面以用戶性別預測為例,對現(xiàn)有的屬性預測方法進行介紹。圖1是現(xiàn)有技術(shù)中的用戶性別預測的示意圖。如圖1所示,現(xiàn)有用戶性別預測主要包括兩次迭代過程,步驟如下:s101、定義正則表達式對商品屬性進行多次匹配,確定商品性別概率;s102、判斷商品集中男性商品概率與女性商品概率的差值是否大于等于0.8,且商品性別屬性標記量是否大于等于0.8;s103、若滿足步驟s102中的判斷條件,則基于樸素貝葉斯模型計算用戶性別概率,然后進入步驟s105;s104、若不滿足步驟s102中的判斷條件,則對概率極值數(shù)據(jù)進行質(zhì)量處理,然后進入步驟s103;s105、基于步驟s103中得到的用戶性別概率對無性別標記的商品進行標記,然后進入步驟s101;s106、重復步驟s101至s103,得到用戶的性別預測結(jié)果。在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:現(xiàn)有的用戶屬性預測大多采用單一的無監(jiān)督模型,只能通過商品的某些屬性反推用戶屬性,其準確率、覆蓋率較低。例如,在性別預測中,只能通過商品的性別屬性反推用戶的性別。但是,由于僅能通過商品中特有的性別詞(如男、女等)去判斷商品的性別屬性,并且商品的性別屬性較少,因此造成很多信息的缺失,導致最終性別預測的準確率較低。同時,現(xiàn)有性別預測方法的覆蓋率較低,對相當大的一部分用戶無法識別,且將部分用戶識別為中性,大大影響了用戶性別預測的適用范圍。技術(shù)實現(xiàn)要素:有鑒于此,本發(fā)明實施例提供一種用戶屬性的預測方法和裝置,能夠大幅提高用戶屬性預測的準確率,同時能夠極大提高用戶屬性預測的覆蓋率。為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種用戶屬性的預測方法。本發(fā)明實施例的一種用戶屬性的預測方法,包括:構(gòu)建用于預測用戶屬性的特征數(shù)據(jù);通過訓練得到的并行二分類模型對所述特征數(shù)據(jù)進行處理,生成所述用戶屬性的預測概率值;通過訓練得到的融合二分類模型對所述預測概率值進行處理,生成所述用戶屬性的預測結(jié)果。可選地,所述特征數(shù)據(jù)包括下列數(shù)據(jù)中的至少一項:用戶購買商品的特征數(shù)據(jù)、用戶瀏覽商品的特征數(shù)據(jù)、用戶搜索商品的特征數(shù)據(jù)、用戶將商品加入購物車的特征數(shù)據(jù)??蛇x地,基于訓練得到的并行二分類模型對所述特征數(shù)據(jù)進行處理,包括:將所述特征數(shù)據(jù)輸入第一gbdt分類模型,生成第一預測概率值;將所述特征數(shù)據(jù)輸入隨機森林分類模型,生成第二預測概率值;通過第一gbdt分類模型和隨機森林分類模型從所述特征數(shù)據(jù)中選出重要特征數(shù)據(jù),并將所述重要特征數(shù)據(jù)輸入邏輯回歸分類模型,生成第三預測概率值??蛇x地,所述融合二分類模型為:第二gbdt分類模型。可選地,構(gòu)建用于預測用戶屬性的特征數(shù)據(jù),包括:獲取用戶在電子商務網(wǎng)站上的特征數(shù)據(jù),并對所述特征數(shù)據(jù)進行清洗。為實現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種用戶屬性的預測裝置。本發(fā)明實施例的一種用戶屬性的預測裝置包括:數(shù)據(jù)構(gòu)建模塊,用于構(gòu)建用于預測用戶屬性的特征數(shù)據(jù);并行處理模塊,用于通過訓練得到的并行二分類模型對所述特征數(shù)據(jù)進行處理,生成所述用戶屬性的預測概率值;融合處理模塊,用于通過訓練得到的融合二分類模型對所述預測概率值進行處理,生成所述用戶屬性的預測結(jié)果??蛇x地,所述并行處理模塊基于訓練得到的并行二分類模型對所述特征數(shù)據(jù)進行處理,包括:將所述特征數(shù)據(jù)輸入第一gbdt分類模型,生成第一預測概率值;將所述特征數(shù)據(jù)輸入隨機森林分類模型,生成第二預測概率值;通過第一gbdt分類模型和隨機森林分類模型從所述特征數(shù)據(jù)中選出重要特征數(shù)據(jù),并將所述重要特征數(shù)據(jù)輸入邏輯回歸分類模型,生成第三預測概率值。可選地,所述融合二分類模型為:第二gbdt分類模型。為實現(xiàn)上述目的,根據(jù)本發(fā)明的再一方面,提供了一種電子設(shè)備。本發(fā)明實施例的一種電子設(shè)備包括:一個或多個處理器;以及,存儲器,用于存儲一個或多個程序;當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明實施例所提供的用戶屬性的預測方法。為實現(xiàn)上述目的,根據(jù)本發(fā)明的再一方面,提供了一種計算機可讀介質(zhì)。本發(fā)明實施例的一種計算機可讀介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例所提供的用戶屬性的預測方法。根據(jù)本發(fā)明的技術(shù)方案,上述發(fā)明中的一個實施例具有如下優(yōu)點或有益效果:與采用單一無監(jiān)督模型進行用戶屬性預測相比,本發(fā)明實施例通過采用并行二分類模型對用戶屬性進行初步預測,再通過融合二分類模型對初步預測結(jié)果進行融合處理、生成最終的預測結(jié)果,極大提高了用戶屬性預測的準確率和覆蓋率;通過采用已知用戶屬性的訓練數(shù)據(jù)集對并行二分類模型、融合二分類模型進行訓練,進一步提高了用戶屬性預測的準確率、覆蓋率。上述的非慣用的可選方式所具有的進一步效果將在下文中結(jié)合具體實施方式加以說明。附圖說明附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當限定。其中:圖1是現(xiàn)有技術(shù)中的用戶性別預測方法的示意圖;圖2是根據(jù)本發(fā)明實施例的用戶屬性預測方法的主要步驟示意圖;圖3是根據(jù)本發(fā)明實施例的用戶屬性預測方法的流程示意圖;圖4是根據(jù)本發(fā)明實施例的用戶屬性預測裝置的主要模塊示意圖;圖5是圖4所示主要模塊的內(nèi)部組成示意圖;圖6是用于實現(xiàn)本發(fā)明實施例的電子設(shè)備的計算機系統(tǒng)的結(jié)構(gòu)示意圖。具體實施方式以下結(jié)合附圖對本發(fā)明的示范性實施例做出說明,其中包括本發(fā)明實施例的各種細節(jié)以助于理解,應當將它們認為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應當認識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。針對現(xiàn)有用戶屬性預測方法存在的準確率低、覆蓋率低的問題,本發(fā)明的發(fā)明人提出了一種新的用戶屬性的預測方法和裝置。在本發(fā)明實施例的技術(shù)方案中,采用有監(jiān)督的、集成分類模型對用戶屬性進行預測,具體包括:先通過并行二分類模型對用戶屬性進行初步預測,再通過融合二分類模型對初步預測值進行融合處理,生成最終預測結(jié)果。這樣一來,與現(xiàn)有采用無監(jiān)督的、單一模型進行預測相比,極大提高了用戶屬性預測的準確率、覆蓋率、以及適用性。圖2是根據(jù)本發(fā)明實施例的用戶屬性的預測方法的主要步驟示意圖。如圖2所示,本發(fā)明實施例的一種用戶屬性的預測方法主要包括如下步驟:步驟s201、構(gòu)建用于預測用戶屬性的特征數(shù)據(jù)。其中,所述用戶屬性可以為性別,或者其他可進行二分類的用戶屬性。具體實施時,該步驟主要包括:獲取用戶在電子商務網(wǎng)站上的特征數(shù)據(jù);然后,對所述特征數(shù)據(jù)進行清洗。例如,在一個具體應用場景中,首先選取了近一年有購物行為的用戶作為目標用戶,并從目標用戶中去除風險用戶(比如黃牛商家、機器注冊的用戶)、刷單用戶(比如客單價小于5元,訂單量大于10單)、企業(yè)用戶等異常用戶。然后,獲取用戶的特征數(shù)據(jù),并對用戶的特征數(shù)據(jù)進行清洗。其中,所述數(shù)據(jù)清洗主要包括:排除某些極大值或極小值、補全缺失值、對特征數(shù)據(jù)進行歸一化處理。通過去除風險用戶,提高了預測模型的適用性和健壯性;通過進行數(shù)據(jù)歸一化,能夠避免不同數(shù)量級的特征相差太大,有助于提高模型的收斂速度。在該步驟中,所述特征數(shù)據(jù)包括但不限于下列數(shù)據(jù)中的至少一項:用戶購買商品的特征數(shù)據(jù)、用戶瀏覽商品的特征數(shù)據(jù)、用戶搜索商品的特征數(shù)據(jù)、用戶將商品加入購物車的特征數(shù)據(jù)。在具體實施時,可根據(jù)待預測的用戶屬性的不同選取相應的特征數(shù)據(jù)。比如,待預測的用戶屬性為性別時,用戶購買商品的特征數(shù)據(jù)可包括:用戶在pc端和移動端的購買金額、購買男性商品比例、購買女性商品比列、購買top100三級品類分布;用戶瀏覽商品的特征數(shù)據(jù)可包括:用戶在pc端和移動端的瀏覽時長、瀏覽男性商品比例、瀏覽女性商品比列、瀏覽top100三級品類分布;用戶搜索商品的特征數(shù)據(jù)可包括:用戶在pc端和移動端的搜索中包含男性、女性的關(guān)鍵詞的數(shù)量;用戶將商品加入購物車的特征數(shù)據(jù)可包括:用戶在pc端和移動端加入購物車的男性商品、女性商品的數(shù)量、購物車中三級品類分布。步驟s202、通過訓練得到的并行二分類模型對所述特征數(shù)據(jù)進行處理,生成所述用戶屬性的預測概率值。具體實施時,在步驟s202之前,本發(fā)明實施例中的用戶屬性預測方法還包括:根據(jù)已知所述用戶屬性的訓練樣本集,對所述并行二分類模型進行訓練。步驟s203、通過訓練得到的融合二分類模型對所述預測概率值進行處理,生成所述用戶屬性的預測結(jié)果。其中,所述融合二分類模型可選用gbdt分類模型。具體實施時,在步驟s203之前,本發(fā)明實施例中的用戶屬性預測方法還包括:根據(jù)已知所述用戶屬性的訓練樣本集,對所述融合二分類模型進行訓練。與現(xiàn)有的無監(jiān)督、單一預測模型不同,本發(fā)明實施例采用有監(jiān)督的、集成分類模型對用戶屬性進行預測,包括:采用已知用戶屬性的訓練數(shù)據(jù)集對并行二分類模型、融合二分類模型進行訓練;采用訓練得到的并行二分類模型對用戶屬性進行初步預測,再通過訓練得到的融合二分類模型對初步預測結(jié)果進行融合處理、生成最終的預測結(jié)果。這樣一來,極大提高了用戶屬性預測的準確率和覆蓋率。圖3是根據(jù)本發(fā)明實施例的一種用戶屬性預測方法的流程示意圖。在圖3中,并行二分類模型采用第一gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型,融合二分類模型采用第二gbdt分類模型。在介紹圖3所示流程之前,首先對本發(fā)明實施例中的gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型進行說明。gbdt分類模型:采用迭代的決策樹算法,該算法由多棵決策樹串行組成。與傳統(tǒng)的boost算法的區(qū)別在于,gbdt算法中的每一次迭代是為了減少上一次的殘差。換言之,在gbdt算法中,每個新的模型的建立都是為了使之前模型的殘差往梯度方向減少。隨機森林分類模型:采用決策樹算法構(gòu)建,該算法由多棵決策樹并行組成。其隨機性表現(xiàn)在兩個方面:一是從數(shù)據(jù)集中采用booststrap采樣選出n個樣本,二是從所有屬性中隨機選擇k個屬性,作為多棵決策樹的訓練集,再通過這些決策樹的投票結(jié)果進行分類。邏輯回歸分類模型:是一種廣義的線性模型,其是在線性回歸的基礎(chǔ)上套用了一層邏輯函數(shù)。該邏輯函數(shù)的表達式如下:對于二分類來說,數(shù)據(jù)劃分的邊界類型為線性邊界,線性邊界形式如下:因此,邏輯回歸的預測函數(shù)如下:式中,hθ(x)函數(shù)表示分類結(jié)果取1的概率。故對于輸入x,分類結(jié)果取1和取0的概率為:p(y|x;θ)=(hθ(x))y(1-hθ(x))1-y;式中,x為特征;θ為特征權(quán)重,是邏輯回歸需要求解的參數(shù);y為二分類結(jié)果,y的值取0或者1。如圖3所示,本發(fā)明實施例的一種用戶屬性預測方法的流程如下:步驟s301、構(gòu)建用于預測用戶屬性的特征數(shù)據(jù)。步驟s302、將所述特征數(shù)據(jù)輸入訓練得到的第一gbdt分類模型,生成第一預測概率值。步驟s303、將所述特征數(shù)據(jù)輸入訓練得到的隨機森林分類模型,生成第二預測概率值。步驟s304、通過訓練得到的第一gbdt分類模型和訓練得到的隨機森林分類模型從所述特征數(shù)據(jù)中選出重要特征數(shù)據(jù),并將所述重要特征數(shù)據(jù)輸入訓練得到的邏輯回歸分類模型,生成第三預測概率值。通過將重要特征數(shù)據(jù)輸入邏輯回歸分類模型,而不是將用于預測的全部用戶特征數(shù)據(jù)輸入邏輯回歸分類模型,能夠進一步提高用戶屬性預測的效率。步驟s305、將第一、二、三預測概率值輸入訓練得到的第二gbdt分類模型,生成所述用戶屬性的預測結(jié)果。在具體實施時,可將獲取的第一、二、三預測概率值進行拼接、組合成新的特征數(shù)據(jù),然后將組合成的特征數(shù)據(jù)輸入第二gbdt模型中,從而可得到用戶屬性的預測結(jié)果。在本發(fā)明實施例中,通過選取分類效果好的、有監(jiān)督的第一gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型進行初步預測,并基于初步預測結(jié)果和第二gbdt分類模型進行再次預測,能夠大幅提高用戶屬性預測的準確率、覆蓋率。進一步,通過第一gbdt分類模型和隨機森林分類模型選出重要特征數(shù)據(jù),并將重要特征數(shù)據(jù)輸入邏輯回歸分類模型,能夠減小并行二分類模型要處理的數(shù)據(jù)量,進而提高用戶屬性預測的效率。為了進一步理解本發(fā)明實施例的用戶屬性預測方法,下面給出一個示意性的具體實施例。在該具體實施例中,待預測的用戶屬性為:性別。由于模型測試階段與訓練階段相類似,下面僅就該具體實施例中的模型訓練階段進行說明。該具體實施例中的模型訓練階段包括:步驟s401、選取近一年在某電子商務網(wǎng)站有購物行為的用戶作為目標用戶,并去除異常用戶。步驟s402、對獲取的用戶特征(包括用戶購買、瀏覽、搜索等特征)進行加工。為便于說明,僅給出加工后的部分數(shù)據(jù),如表1所示。其中,用戶真實標簽1代表女性,0代表男性。表1步驟s403、進行數(shù)據(jù)清洗,包括:用箱型圖去除極大值或極小值;對數(shù)據(jù)進行歸一化處理。在清洗之后,得到如下特征數(shù)據(jù),如表2所示。表2步驟s404、將步驟s403中得到的特征數(shù)據(jù)分別輸入第一gbdt分類模型和隨機森林分類模型。并且在第一gbdt分類模型中,迭代次數(shù)設(shè)為10,樹的深度設(shè)為5;在隨機森林分類模型中,設(shè)30顆樹,樹的深度設(shè)為5。進而,得到表3、表4所示輸出結(jié)果。其中,表3示出了第一gbdt分類模型處理得到的第一性別預測概率值、以及隨機森林分類模型處理得到的第二性別預測概率值。表4示出了第一gbdt分類模型處理得到的特征重要值、以及隨機森林分類模型處理得到的特征重要值。表3表4步驟s405、根據(jù)第一gbdt分類模型、隨機森林分類模型得到的特征重要性預測結(jié)果,從7個特征中選取3個最重要的特征,并將這3個最重要的特征組成的數(shù)據(jù)輸入邏輯回歸分類模型,得到第三性別預測概率值。表5步驟s406、將第一gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型得到的性別預測概率值進行拼接,組合成新的特征,從而得到表6所示訓練集;表6步驟s407、將表6所示訓練集數(shù)據(jù)輸入第二gbdt分類模型,從而得到最終性別預測結(jié)果,如表7所示。表7用戶名用戶性別預測結(jié)果pin11pin20pin30pin41pin50pin60pin70pin81pin90pin100在該具體實施例中,采用有監(jiān)督、集成分類模型進行性別預測,包括:采用分類效果好的第一gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型對用戶性別進行初步預測,再通過第二gbdt分類模型對初步預測結(jié)果進行融合。這樣一來,極大提高了用戶性別預測的準確率和覆蓋率,有效解決了現(xiàn)有無監(jiān)督性別預測方法存在的將用戶性別識別為中性、甚至無法識別的問題。進一步,在基于以上具體實施例的方法獲取性別預測結(jié)果之后,可將其應用于精細化營銷、個性化推薦、優(yōu)惠券分發(fā)、老客戶留存等一系列業(yè)務場景中。另一方面,本發(fā)明實施例還提供了一種用戶屬性的預測裝置。圖4是根據(jù)本發(fā)明實施例的用戶屬性預測裝置的主要模塊示意圖。如圖4所示,本發(fā)明實施例的用戶屬性預測裝置400主要包括如下模塊:數(shù)據(jù)構(gòu)建模塊401,用于構(gòu)建用于預測用戶屬性的特征數(shù)據(jù)。其中,所述用戶屬性可以為用戶性別,或者其他可進行二分類的屬性。在一個優(yōu)選實施方式中,所述特征數(shù)據(jù)包括但不限于下列數(shù)據(jù)中的至少一項:用戶購買商品的特征數(shù)據(jù)、用戶瀏覽商品的特征數(shù)據(jù)、用戶搜索商品的特征數(shù)據(jù)、用戶將商品加入購物車的特征數(shù)據(jù)。在具體實施時,可根據(jù)待預測的用戶屬性的不同選取相應的特征數(shù)據(jù)。比如,待預測的用戶屬性為性別時,用戶購買商品的特征數(shù)據(jù)可包括:用戶在pc端和移動端的購買金額、購買男性商品比例、購買女性商品比列、購買top100三級品類分布;用戶瀏覽商品的特征數(shù)據(jù)可包括:用戶在pc端和移動端的瀏覽時長、瀏覽男性商品比例、瀏覽女性商品比列、瀏覽top100三級品類分布;用戶搜索商品的特征數(shù)據(jù)可包括:用戶在pc端和移動端的搜索中包含男性、女性的關(guān)鍵詞的數(shù)量;用戶將商品加入購物車的特征數(shù)據(jù)可包括:用戶在pc端和移動端加入購物車的男性商品、女性商品的數(shù)量、購物車中三級品類分布。并行處理模塊402,用于通過訓練得到的并行二分類模型對所述特征數(shù)據(jù)進行處理,生成所述用戶屬性的預測概率值。進一步,并行處理模塊402中的并行二分類模型可包括第一gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型。通過采用第一gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型進行并行分類,不僅能大幅提高用戶屬性預測的準確率、而且能兼顧用戶屬性預測的效率。融合處理模塊403,用于通過訓練得到的融合二分類模型對所述預測概率值進行處理,生成所述用戶屬性的預測結(jié)果。進一步,融合處理模塊403中的融合二分類模型可選用第二gbdt分類模型。在本發(fā)明實施例的預測裝置中,采用有監(jiān)督的、集成分類模型對用戶屬性進行預測,包括:構(gòu)建并行處理模塊對用戶屬性進行初步預測,構(gòu)建融合處理模塊對初步預測結(jié)果進行融合處理、生成最終的預測結(jié)果。與現(xiàn)有采用無監(jiān)督、單一模型的預測裝置相比,本發(fā)明實施例極大提高了用戶屬性預測的準確率和覆蓋率。圖5是圖4所示主要模塊的內(nèi)部組成示意圖。如圖5所示,在本發(fā)明實施例中,數(shù)據(jù)構(gòu)建模塊401包括:數(shù)據(jù)獲取單元4011,用于獲取用戶在電子商務網(wǎng)站上的特征數(shù)據(jù);數(shù)據(jù)清洗單元4012,用于對所述特征數(shù)據(jù)進行清洗,以得到用于預測用戶屬性的特征數(shù)據(jù)。例如,在一個具體應用場景中,數(shù)據(jù)獲取單元4011選取了近一年有購物行為的用戶作為目標用戶,并從目標用戶中去除風險用戶(比如黃牛商家、機器注冊的用戶)、刷單用戶(比如客單價小于5元,訂單量大于10單)、企業(yè)用戶等異常用戶,以獲取目標用戶的特征數(shù)據(jù)。接下來,數(shù)據(jù)清洗單元4012對用戶的特征數(shù)據(jù)進行清洗。包括:排除某些極大值或極小值、補全缺失值、對特征數(shù)據(jù)進行歸一化處理。通過上述處理,提高了預測模型的適用性和健壯性。并行處理模塊402中的并行二分類模型包括第一gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型。將數(shù)據(jù)構(gòu)建模塊401得到的用于預測用戶屬性的特征數(shù)據(jù)輸入訓練得到的第一gbdt分類模型,生成第一預測概率值,將用于預測用戶屬性的特征數(shù)據(jù)輸入訓練得到的隨機森林分類模型,生成第二預測概率值。并且,通過第一gbdt分類模型和隨機森林分類模型從所述特征數(shù)據(jù)中選出重要特征數(shù)據(jù),并將選出的重要特征數(shù)據(jù)輸入邏輯回歸分類模型,生成第三預測概率值。融合處理模塊403中的融合二分類模型采用第二gbdt分類模型。將并行處理模塊402得到的第一、二、三預測概率值輸入進行拼接、組合成新的特征數(shù)據(jù),然后將組合成的特征數(shù)據(jù)輸入第二gbdt模型中,從而可得到用戶屬性的預測結(jié)果。在本發(fā)明實施例中,通過選取分類效果好的、有監(jiān)督的第一gbdt分類模型、隨機森林分類模型、邏輯回歸分類模型進行初步預測,并選取第二gbdt分類模型進行再次預測,能夠大幅提高用戶屬性預測的準確率、覆蓋率。進一步,通過第一gbdt分類模型和隨機森林分類模型選出重要特征數(shù)據(jù),并將重要特征數(shù)據(jù)輸入邏輯回歸分類模型,能夠減小并行二分類模型要處理的數(shù)據(jù)量,提高了用戶屬性預測的效率。再一方面,本發(fā)明實施例還提供了一種電子設(shè)備。本發(fā)明實施例的電子設(shè)備包括:一個或多個處理器;以及,存儲器,用于存儲一個或多個程序;當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器執(zhí)行本發(fā)明實施例所提供的用戶屬性預測的方法。圖6是用于實現(xiàn)本發(fā)明實施例的電子設(shè)備的計算機系統(tǒng)的結(jié)構(gòu)示意圖。圖6示出的電子設(shè)備僅僅是一個示例,不應對本申請實施例的功能和使用范圍帶來任何限制。如圖6所示,計算機系統(tǒng)600包括中央處理單元(cpu)601,其可以根據(jù)存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。在ram603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。進一步,計算機系統(tǒng)600還包括連接至i/o接口605的以下部件:包括鍵盤、鼠標等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調(diào)制解調(diào)器等網(wǎng)絡接口卡的通信部分609。通信部分x09經(jīng)由諸如因特網(wǎng)的網(wǎng)絡執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至i/o接口605。可拆卸介質(zhì)611,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分608。進一步,根據(jù)本發(fā)明實施例,上文中用戶屬性預測的方法描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本發(fā)明實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行本發(fā)明實施例的用戶屬性預測的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網(wǎng)絡上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。在該計算機程序被中央處理單元(cpu)601執(zhí)行時,執(zhí)行本發(fā)明實施例中的計算機系統(tǒng)限定的上述功能。需要說明的是,在本發(fā)明實施例中,所述計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以是但不限于電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本發(fā)明實施例中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本發(fā)明實施中,計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。所述傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。附圖所示的流程圖和框圖,圖示了根據(jù)本發(fā)明各種實施例的系統(tǒng)、裝置和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這根據(jù)所涉及的功能而定。也要注意的是,框圖或流程圖中的每個方框、以及方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),也可以用專用硬件與計算機指令的組合來實現(xiàn)。本發(fā)明實施例中所涉及到的模塊可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的模塊也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括數(shù)據(jù)構(gòu)建模塊、并行處理模塊、融合處理模塊。其中,這些模塊的名稱在某種情況下并不構(gòu)成對該模塊本身的限定,例如,數(shù)據(jù)構(gòu)建模塊還可以被描述為“構(gòu)建特征數(shù)據(jù)的模塊”。又一方面,本發(fā)明實施例還提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)可以是上述實施例中描述的電子設(shè)備中所包含的;也可以是單獨存在,而未裝配入該設(shè)備中。上述計算機可讀介質(zhì)承載有一個或者多個程序,當上述一個或者多個程序被一個該電子設(shè)備執(zhí)行時,實現(xiàn)上述實施例中的用戶屬性預測方法:構(gòu)建用于預測用戶屬性的特征數(shù)據(jù);通過訓練得到的并行二分類模型對所述特征數(shù)據(jù)進行處理,生成所述用戶屬性的預測概率值;通過訓練得到的融合二分類模型對所述預測概率值進行處理,生成所述用戶屬性的預測結(jié)果。上述產(chǎn)品可執(zhí)行本發(fā)明實施例所提供的方法,具備執(zhí)行方法相應的功能模塊和有益效果。未在本實施例中詳盡描述的技術(shù)細節(jié),可參見本發(fā)明實施例所提供的方法。上述具體實施方式,并不構(gòu)成對本發(fā)明保護范圍的限制。本領(lǐng)域技術(shù)人員應該明白的是,取決于設(shè)計要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進等,均應包含在本發(fā)明保護范圍之內(nèi)。當前第1頁12
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1