本申請涉及通信領(lǐng)域,尤其涉及一種用于確定用戶屬性信息及用戶屬性模型的方法與設(shè)備。
背景技術(shù):
隨著時代的發(fā)展,各類智能移動終端產(chǎn)品進(jìn)入人們的生活,人們對網(wǎng)絡(luò)也越發(fā)依賴。
畫像數(shù)據(jù)指的是對一個人(用戶)、一臺終端設(shè)備或任何一個物體的表述標(biāo)簽信息。其中,在用戶畫像中,包括一些基礎(chǔ)屬性,例如性別、年齡、地域、群組等重要特征。在社交網(wǎng)絡(luò)中,用戶通常能準(zhǔn)確填寫自己的個人信息,但是并不排除偏差的可能性,并且這些用戶信息通常由社交網(wǎng)站掌握且屬于個人隱私,無法獲取。在無法準(zhǔn)確獲取用戶信息的情況下,即使能夠獲得用戶的性別和年齡等的偏向信息,也能為商業(yè)決策提供參考。
目前,利用網(wǎng)絡(luò)和移動終端挖掘用戶屬性的研究成果越來越多。但是這些研究成果,多基于對用戶網(wǎng)頁瀏覽記錄、新聞廣告點擊記錄等大量用戶日志信息進(jìn)行分析,這些信息來源渠道眾多且內(nèi)容復(fù)雜多變。
技術(shù)實現(xiàn)要素:
本申請的一個目的是提供一種用于確定用戶屬性信息及用戶屬性模型的方法與設(shè)備。
根據(jù)本申請的一個方面,提供了一種用于確定用戶屬性信息的方法,該方法包括:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型;
根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量;
將所述設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。
根據(jù)本申請的另一個方面,提供了一種用于確定用戶屬性模型的方法,該方法包括:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個學(xué)習(xí)網(wǎng)絡(luò)的輸入。
根據(jù)本申請的一個方面,提供了一種用于確定用戶屬性信息的設(shè)備,該設(shè)備包括:
第一一裝置,用于基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型;
第一二裝置,用于根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量;
第一三裝置,用于將所述設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。
根據(jù)本申請的另一個方面,提供了一種用于確定用戶屬性模型的設(shè)備,該設(shè)備包括:
第二一裝置,用于基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個學(xué)習(xí)網(wǎng)絡(luò)的輸入。
根據(jù)本申請的一個方面,提供了一種用于確定用戶屬性信息的設(shè)備,其中,該設(shè)備包括:
處理器;以及
被安排成存儲計算機(jī)可執(zhí)行指令的存儲器,所述可執(zhí)行指令在被執(zhí)行時使所述處理器:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型;
根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量;
將所述設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。
根據(jù)本申請的另一個方面,提供了一種用于確定用戶屬性模型的設(shè)備,其中,該設(shè)備包括:
處理器;以及
被安排成存儲計算機(jī)可執(zhí)行指令的存儲器,所述可執(zhí)行指令在被執(zhí)行時使所述處理器:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個學(xué)習(xí)網(wǎng)絡(luò)的輸入。
根據(jù)本申請的一個方面,提供了一種包括指令的計算機(jī)可讀存儲介質(zhì),所述指令在被執(zhí)行時使得系統(tǒng)進(jìn)行以下操作:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型;
根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量;
將所述設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。
根據(jù)本申請的另一個方面,提供了一種包括指令的計算機(jī)可讀存儲介質(zhì),所述指令在被執(zhí)行時使得系統(tǒng)進(jìn)行以下操作:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個學(xué)習(xí)網(wǎng)絡(luò)的輸入。
與現(xiàn)有技術(shù)相比,本申請至少具有以下有益效果:
1)獲取用戶屬性模型,并通過所獲取的用戶屬性模型對用戶的基礎(chǔ)信息進(jìn)行預(yù)測,提高了用戶基礎(chǔ)信息預(yù)測的效率和準(zhǔn)確性;
2)通過獲取設(shè)備信息、應(yīng)用信息以及用戶統(tǒng)計信息建立用戶屬性模型并對用戶基礎(chǔ)信息進(jìn)行預(yù)測,大大減少了信息獲取過程對信息渠道的依賴,并克服了用戶網(wǎng)頁瀏覽日志、社交關(guān)系及新聞廣告瀏覽記錄等信息量大、數(shù)據(jù)動態(tài)不穩(wěn)定和難以獲取等缺點,提高了決策效率和準(zhǔn)確性。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1示出根據(jù)本申請一個實施例的一種用于確定用戶屬性信息的方法流程圖;
圖2示出根據(jù)本申請另一個實施例的一種用于確定用戶屬性信息的方法流程圖;
圖3示出根據(jù)本申請再一個實施例的一種用于確定用戶屬性信息的方法的子步驟流程圖;
圖4示出根據(jù)本申請又一個實施例的一種用于確定用戶屬性信息的方法流程圖;
圖5示出根據(jù)本申請還一個實施例的一種用于確定用戶屬性模型的方法流程圖;
圖6示出根據(jù)本申請一個實施例的一種用于確定用戶屬性信息的設(shè)備結(jié)構(gòu)圖;
圖7示出根據(jù)本申請另一個實施例的一種用于確定用戶屬性信息的設(shè)備結(jié)構(gòu)圖;
圖8示出根據(jù)本申請再一個實施例的一種用于確定用戶屬性信息的設(shè)備的裝置子單元結(jié)構(gòu)圖;
圖9示出根據(jù)本申請又一個實施例的一種用于確定用戶屬性信息的設(shè)備結(jié)構(gòu)圖;
圖10示出根據(jù)本申請還一個實施例的一種用于確定用戶屬性信息的設(shè)備結(jié)構(gòu)圖;
附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實施方式
下面結(jié)合附圖對本申請作進(jìn)一步詳細(xì)描述。
在本申請一個典型的配置中,終端、服務(wù)網(wǎng)絡(luò)的設(shè)備和可信方均包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計算機(jī)可讀介質(zhì)的示例。
計算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機(jī)可讀介質(zhì)不包括非暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
本申請所指設(shè)備包括但不限于用戶設(shè)備、網(wǎng)絡(luò)設(shè)備、或用戶設(shè)備與網(wǎng)絡(luò)設(shè)備通過網(wǎng)絡(luò)相集成所構(gòu)成的設(shè)備。所述用戶設(shè)備包括但不限于任何一種可與用戶進(jìn)行人機(jī)交互(例如通過觸摸板進(jìn)行人機(jī)交互)的移動電子產(chǎn)品,例如智能手機(jī)、平板電腦等,所述移動電子產(chǎn)品可以采用任意操作系統(tǒng),如android操作系統(tǒng)、iOS操作系統(tǒng)等。其中,所述網(wǎng)絡(luò)設(shè)備包括一種能夠按照事先設(shè)定或存儲的指令,自動進(jìn)行數(shù)值計算和信息處理的電子設(shè)備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程邏輯器件(PLD)、現(xiàn)場可編程門陣列(FPGA)、數(shù)字信號處理器(DSP)、嵌入式設(shè)備等。所述網(wǎng)絡(luò)設(shè)備包括但不限于計算機(jī)、網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云;在此,云由基于云計算(Cloud Computing)的大量計算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機(jī)集組成的一個虛擬超級計算機(jī)。所述網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc網(wǎng)絡(luò))等。優(yōu)選地,所述設(shè)備還可以是運行于所述用戶設(shè)備、網(wǎng)絡(luò)設(shè)備、或用戶設(shè)備與網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備、觸摸終端或網(wǎng)絡(luò)設(shè)備與觸摸終端通過網(wǎng)絡(luò)相集成所構(gòu)成的設(shè)備上的程序。
當(dāng)然,本領(lǐng)域技術(shù)人員應(yīng)能理解上述設(shè)備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的設(shè)備如可適用于本申請,也應(yīng)包含在本申請保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
在本申請的描述中,“多個”的含義是兩個或者更多,除非另有明確具體的限定。
圖1示出了根據(jù)本申請一個方面的一種用于確定用戶屬性信息的方法,該方法包括步驟S11、步驟S12和步驟S13。
其中,在步驟S11中,第一設(shè)備1基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型;在步驟S12中,第一設(shè)備1根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量;在步驟S13中,第一設(shè)備1將所述設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。
具體來說,在步驟S11中,第一設(shè)備1基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型是指,基于訓(xùn)練特征向量,不斷調(diào)整對應(yīng)的用戶屬性模型的模型參數(shù),直至得到最終的模型參數(shù),從而得到與所述訓(xùn)練特征向量對應(yīng)的用戶屬性模型。
優(yōu)選地,所述訓(xùn)練特征向量包括設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量,以及根據(jù)它們中的至少一項進(jìn)行統(tǒng)計處理而獲得的屬性統(tǒng)計向量中的至少一種。其中,設(shè)備信息向量與設(shè)備本身的信息相對應(yīng),例如,手機(jī)的品牌、型號、屏幕分辨率、價格區(qū)間等信息;應(yīng)用安裝信息向量與設(shè)備上安裝的應(yīng)用及其類別相對應(yīng);應(yīng)用活躍信息向量與設(shè)備上所安裝應(yīng)用的打開次數(shù)、使用時長、產(chǎn)生流量等信息相對應(yīng)。相對于用戶的社交信息,這些信息較易獲取,對渠道的依賴性低;同時,避免了對用戶網(wǎng)頁瀏覽日志、社交關(guān)系及新聞廣告瀏覽記錄等數(shù)據(jù)量大、數(shù)據(jù)動態(tài)不穩(wěn)定和難以獲取等缺點,提高了決策效率和準(zhǔn)確性。
優(yōu)選地,所述設(shè)備信息向量包括:移動設(shè)備的品牌信息向量、移動設(shè)備的型號信息向量、移動設(shè)備的屏幕分辨率信息向量和移動設(shè)備的價格信息向量中的至少一項。其中,移動設(shè)備的品牌信息向量對應(yīng)該移動設(shè)備的品牌信息。此外,優(yōu)選地,補(bǔ)充參考圖2,在步驟S14中,第一設(shè)備1根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息確定對應(yīng)的訓(xùn)練特征向量,然后在步驟S11’中,第一設(shè)備1基于所述訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型。其中,所述設(shè)備應(yīng)用使用信息可包括但不限于:設(shè)備信息、應(yīng)用安裝信息、應(yīng)用活躍信息。其中進(jìn)一步優(yōu)選地,步驟S14包含子步驟S14a。在子步驟S14a中,第一設(shè)備1根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息中設(shè)備上應(yīng)用安裝信息,以及應(yīng)用安裝向量模型,生成對應(yīng)的應(yīng)用安裝信息向量。用于訓(xùn)練用戶屬性模型的訓(xùn)練特征向量包括相應(yīng)的設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量、根據(jù)其他訓(xùn)練特征向量統(tǒng)計處理并向量化后得到的屬性統(tǒng)計向量中的一個或多個。
例如,以蘋果、三星和華為這三個手機(jī)品牌為例,蘋果設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[1,0,0],三星設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[0,1,0],華為設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[0,0,1]。同樣,移動設(shè)備的型號向量對應(yīng)該移動設(shè)備的型號信息,移動設(shè)備的屏幕分辨率信息向量對應(yīng)該移動設(shè)備的屏幕分辨率信息,各自對應(yīng)的向量與前述品牌信息類似。對于移動設(shè)備的價格信息,可將手機(jī)價格區(qū)間按照一定步長劃分區(qū)間,當(dāng)移動設(shè)備的價格落在某個區(qū)間,向量對應(yīng)位置置1,否則置0,例如某臺移動設(shè)備的價格為1400元,價格區(qū)間的劃分為[0-500,501-1000,1001-1500,1501-2000],則該移動設(shè)備的價格信息對應(yīng)的移動設(shè)備的價格信息向量為[0,0,1,0]。
前述應(yīng)用安裝信息向量對應(yīng)該移動設(shè)備上的應(yīng)用安裝信息。例如,將達(dá)到一定安裝量的應(yīng)用加入一個應(yīng)用庫,該應(yīng)用庫包含用戶所安裝的應(yīng)用名,也可進(jìn)一步包含每個應(yīng)用對應(yīng)的應(yīng)用類別;應(yīng)用安裝信息向量包含應(yīng)用安裝向量和應(yīng)用類別向量。其中,應(yīng)用安裝向量對應(yīng)用戶安裝的應(yīng)用包名,維度對應(yīng)應(yīng)用庫中應(yīng)用的個數(shù);應(yīng)用類別向量對應(yīng)應(yīng)用安裝類別,維度對應(yīng)應(yīng)用庫中應(yīng)用的類別數(shù)。例如,對于一個只包含5個應(yīng)用的應(yīng)用庫,其中包含(應(yīng)用1,應(yīng)用2,應(yīng)用3,應(yīng)用4,應(yīng)用5),分別對應(yīng)類別(社交,運動,社交,視頻,工具),某臺移動設(shè)備上安裝了應(yīng)用1和應(yīng)用5,那么對應(yīng)的應(yīng)用安裝向量為[1,0,0,0,1],應(yīng)用安裝類別向量[1,0,0,1](分別對應(yīng)相應(yīng)的社交類別和工具類別)。
前述應(yīng)用活躍信息向量反映實際使用中,特定用戶對每個應(yīng)用的偏好程度,對每個應(yīng)用而言,打開次數(shù)、使用時長、產(chǎn)生流量等信息可體現(xiàn)用戶之間的差異性。更加優(yōu)選地是,參考圖3,步驟S14還包括子步驟S14b,在子步驟S14b中,第一設(shè)備1根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息中設(shè)備上應(yīng)用被使用信息,以及與所述應(yīng)用安裝向量模型相對應(yīng)的應(yīng)用活躍向量模型,生成對應(yīng)的經(jīng)歸一化的應(yīng)用活躍信息向量。應(yīng)用的活躍信息的來源包括但不限于:用戶打開應(yīng)用的次數(shù),和/或用戶使用的應(yīng)用產(chǎn)生的流量統(tǒng)計信息。以應(yīng)用打開次數(shù)和應(yīng)用產(chǎn)生流量為例,結(jié)合前述應(yīng)用安裝信息產(chǎn)生應(yīng)用活躍信息向量。例如,前述安裝了應(yīng)用1和應(yīng)用5的移動設(shè)備,對應(yīng)的應(yīng)用活躍信息向量為[應(yīng)用1流量/次數(shù),0,0,0,應(yīng)用5流量/次數(shù)],對應(yīng)的活躍類別向量為[社交流量/次數(shù),0,0,工具流量/次數(shù)]。為消除指標(biāo)的量綱的影響,可將各數(shù)據(jù)標(biāo)準(zhǔn)化,例如進(jìn)行歸一化。此外,歸一化操作還可加快訓(xùn)練網(wǎng)絡(luò)的收斂。
設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量對應(yīng)的屬性統(tǒng)計信息對應(yīng)各移動設(shè)備的用戶,是根據(jù)其他訓(xùn)練特征向量進(jìn)行統(tǒng)計處理之后獲得的,可用于獲取相應(yīng)的屬性統(tǒng)計向量。
優(yōu)選地,該屬性統(tǒng)計信息為概率信息。其中,步驟S11包含子步驟S11a(未示出)和子步驟S11b(未示出)。在子步驟S11a中,第一設(shè)備1對設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量按屬性特征進(jìn)行統(tǒng)計處理,以獲得所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息;在子步驟S11b中,第一設(shè)備1基于所述設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量及所述屬性統(tǒng)計信息進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型。其中,用于訓(xùn)練用戶屬性模型的屬性統(tǒng)計信息可以是向量形式,即,將屬性統(tǒng)計信息向量化得到用戶的屬性統(tǒng)計向量,再基于訓(xùn)練特征向量訓(xùn)練用戶屬性模型,其中訓(xùn)練特征向量包括設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量和/或?qū)傩越y(tǒng)計向量。例如,根據(jù)人工標(biāo)記的數(shù)據(jù),或根據(jù)由用戶自愿填寫的相應(yīng)數(shù)據(jù),對用戶的某類特征進(jìn)行統(tǒng)計處理,得出該類特征在不同性別、年齡段、群體之間的概率,即為該訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息;然后,將該屬性統(tǒng)計信息向量化,得到用戶的屬性統(tǒng)計向量,并基于其他訓(xùn)練特征向量和該屬性統(tǒng)計向量調(diào)整參數(shù),得到對應(yīng)的用戶屬性模型。由該模型預(yù)測用戶的性別和年齡取向,即可為商業(yè)決策提供參考信息,并不限于需要準(zhǔn)確獲知用戶的性別和年齡數(shù)據(jù),從而提高了決策效率。以某款手機(jī)男性用戶概率為0.4、女性概率為0.6、年齡分布概率為(0-10:0.05,10-20:0.2,20-30:0.4,30-40:0.25,40-50:0.1)為例,對應(yīng)的用戶屬性統(tǒng)計向量為[0.4,0.6]、[0.05,0.2,0.4,0.25,0.1]。其他屬性統(tǒng)計信息對應(yīng)的統(tǒng)計特征類推,不再贅述。
在步驟S12中,第一設(shè)備1根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量。具體來講,在步驟S12中,第一設(shè)備1根據(jù)對應(yīng)的用戶設(shè)備上安裝的應(yīng)用的相關(guān)信息,例如,應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,確定與應(yīng)用相關(guān)信息相對應(yīng)的設(shè)備應(yīng)用特征向量。其中,設(shè)備應(yīng)用使用信息和訓(xùn)練特征向量相對應(yīng),依據(jù)設(shè)備應(yīng)用使用信息獲得的設(shè)備應(yīng)用特征向量也相對應(yīng)。例如,當(dāng)訓(xùn)練特征向量包含應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,相應(yīng)地,設(shè)備應(yīng)用特征向量也對應(yīng)地包含應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,并且格式相同。在某些情況下,訓(xùn)練特征向量和設(shè)備應(yīng)用特征向量是通過同種方式獲取的,例如都是系統(tǒng)收集設(shè)備上的應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息而獲得的,其中訓(xùn)練特征向量包含人工標(biāo)記;在另一些情況下,訓(xùn)練特征向量和設(shè)備應(yīng)用特征向量是通過不同方式獲取的,例如訓(xùn)練特征向量是根據(jù)由用戶自愿填寫的相應(yīng)數(shù)據(jù)獲得的,而設(shè)備應(yīng)用特征向量是系統(tǒng)收集設(shè)備上的應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息而獲得的。
在步驟S13中,第一設(shè)備1將所述設(shè)備應(yīng)用特征向量作用于所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。具體來講,在步驟S13中,第一設(shè)備1在得到與所述訓(xùn)練特征向量對應(yīng)的用戶屬性模型后,將新的、需要獲取對應(yīng)的用戶屬性信息的設(shè)備所對應(yīng)的設(shè)備應(yīng)用特征向量,作為所述用戶屬性模型的輸入,從而獲得相對應(yīng)的用戶屬性信息,即完成對用戶基礎(chǔ)屬性的預(yù)測。
其中,若在訓(xùn)練用戶屬性模型時,除了設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量等訓(xùn)練特征向量之外,根據(jù)對應(yīng)的屬性統(tǒng)計信息所得到的屬性統(tǒng)計向量也被作為輸入,則相應(yīng)地,在將待預(yù)測用戶的設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型時,也將待預(yù)測用戶的設(shè)備應(yīng)用特征向量所對應(yīng)的用戶屬性統(tǒng)計向量同時作用于該用戶屬性模型,以預(yù)測用戶基礎(chǔ)屬性。
優(yōu)選地,所述訓(xùn)練特征向量的部分或全部為稀疏化向量,例如,在品牌信息向量中,只有與該設(shè)備的品牌相對應(yīng)的維度置1,其余維度均為0;進(jìn)一步地,根據(jù)其他訓(xùn)練特征向量統(tǒng)計處理后獲取的屬性統(tǒng)計向量也為稀疏化向量,例如,用戶的年齡分布特征向量僅將與用戶對應(yīng)的年齡段所對應(yīng)的維度置1,其余維度均為0。稀疏化向量便于生成,且在向量維度較高的情況下,能大大節(jié)省計算資源,例如對于二分查找而言,向量稀疏度越高,相比于遍歷的方法節(jié)省的計算資源就越可觀。
參考圖4,在步驟S11”中,第一設(shè)備1基于訓(xùn)練特征向量及所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息進(jìn)行分階段訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,在初始訓(xùn)練學(xué)習(xí)階段使用adam訓(xùn)練算法,當(dāng)訓(xùn)練過程中的驗證集誤差低于誤差閾值時改用梯度下降算法訓(xùn)練學(xué)習(xí)。例如,擬采用神經(jīng)網(wǎng)絡(luò)對用戶進(jìn)行分類,在訓(xùn)練網(wǎng)絡(luò)參數(shù)時,采用分階段訓(xùn)練法,首先隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重,在開始訓(xùn)練時采用adam訓(xùn)練算法,選取適當(dāng)?shù)挠?xùn)練參數(shù)進(jìn)行訓(xùn)練并更新網(wǎng)絡(luò)參數(shù),并設(shè)置誤差閾值,當(dāng)驗證集的誤差低于該誤差閾值,就認(rèn)為驗證集誤差不再減小,停止訓(xùn)練并保留網(wǎng)絡(luò)參數(shù);隨后改用梯度下降算法,選取適當(dāng)?shù)膶W(xué)習(xí)率在已經(jīng)獲得的網(wǎng)絡(luò)參數(shù)上對網(wǎng)絡(luò)進(jìn)行微調(diào),直至驗證集誤差不再減小,獲得最終的網(wǎng)絡(luò)參數(shù)。分階段訓(xùn)練的好處在于,能夠加快網(wǎng)絡(luò)的收斂速度,并且能夠克服網(wǎng)絡(luò)達(dá)到次優(yōu)解或者最優(yōu)解時網(wǎng)絡(luò)發(fā)散的問題。
除以上所述訓(xùn)練算法之外,還可采用SGD(stochastic gradient descent,隨機(jī)梯度下降)、Momentum、Adagrad、Adadelta等算法。
優(yōu)選地,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個或幾個學(xué)習(xí)網(wǎng)絡(luò)的輸入。例如,以堆疊的深度網(wǎng)絡(luò)為例,其可以輸出多個目標(biāo),下一個深度網(wǎng)絡(luò)堆疊在上一個或幾個深度網(wǎng)絡(luò)上,本網(wǎng)絡(luò)的輸入為上一個或幾個的輸出。這種堆疊的學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)能夠使得網(wǎng)絡(luò)在不同的輸出點擬合不同的目標(biāo)結(jié)果,從而提高了決策效率和用戶基礎(chǔ)信息預(yù)測的準(zhǔn)確性。其中,用于堆疊的學(xué)習(xí)網(wǎng)絡(luò)包括但不限于神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機(jī)森林、支持向量機(jī)、聚類和/或遺傳算法等,或者它們的堆疊/嵌套。
根據(jù)本申請另一個方面,提供了一種用于確定用戶屬性模型的方法,該方法包括步驟S21。
在步驟S21中,第二設(shè)備2基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個學(xué)習(xí)網(wǎng)絡(luò)的輸入。
優(yōu)選地,所述訓(xùn)練特征向量包括設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量,以及根據(jù)它們中的至少一項進(jìn)行統(tǒng)計處理而獲得的屬性統(tǒng)計向量中的至少一種。其中,設(shè)備信息向量與設(shè)備本身的信息相對應(yīng),例如,手機(jī)的品牌、型號、屏幕分辨率、價格區(qū)間等信息;應(yīng)用安裝信息向量與設(shè)備上安裝的應(yīng)用及其類別相對應(yīng);應(yīng)用活躍信息向量與設(shè)備上所安裝應(yīng)用的打開次數(shù)、使用時長、產(chǎn)生流量等信息相對應(yīng)。相對于用戶的社交信息,這些信息較易獲取,對渠道的依賴性低;同時,避免了對用戶網(wǎng)頁瀏覽日志、社交關(guān)系及新聞廣告瀏覽記錄等數(shù)據(jù)量大、數(shù)據(jù)動態(tài)不穩(wěn)定和難以獲取等缺點,提高了決策效率和準(zhǔn)確性。
優(yōu)選地,所述設(shè)備信息向量包括:移動設(shè)備的品牌信息向量、移動設(shè)備的型號信息向量、移動設(shè)備的屏幕分辨率信息向量和移動設(shè)備的價格信息向量中的至少一項。其中,移動設(shè)備的品牌信息向量對應(yīng)該移動設(shè)備的品牌信息。此外,優(yōu)選地,第二設(shè)備2根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息確定對應(yīng)的訓(xùn)練特征向量,然后基于所述訓(xùn)練特征向量及所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型。其中,所述設(shè)備應(yīng)用使用信息可包括但不限于:設(shè)備信息、應(yīng)用安裝信息、應(yīng)用活躍信息。其中進(jìn)一步優(yōu)選地,第二設(shè)備2根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息中設(shè)備上應(yīng)用安裝信息,以及應(yīng)用安裝向量模型,生成對應(yīng)的應(yīng)用安裝信息向量。
例如,以蘋果、三星和華為這三個手機(jī)品牌為例,蘋果設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[1,0,0],三星設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[0,1,0],華為設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[0,0,1]。同樣,移動設(shè)備的型號向量對應(yīng)該移動設(shè)備的型號信息,移動設(shè)備的屏幕分辨率信息向量對應(yīng)該移動設(shè)備的屏幕分辨率信息,各自對應(yīng)的向量與前述品牌信息類似。對于移動設(shè)備的價格信息,可將手機(jī)價格區(qū)間按照一定步長劃分區(qū)間,當(dāng)移動設(shè)備的價格落在某個區(qū)間,向量對應(yīng)位置置1,否則置0,例如某臺移動設(shè)備的價格為1400元,價格區(qū)間的劃分為[0-500,501-1000,1001-1500,1501-2000],則該移動設(shè)備的價格信息對應(yīng)的移動設(shè)備的價格信息向量為[0,0,1,0]。
前述應(yīng)用安裝信息向量對應(yīng)該移動設(shè)備上的應(yīng)用安裝信息。例如,將達(dá)到一定安裝量的應(yīng)用加入一個應(yīng)用庫,該應(yīng)用庫包含用戶所安裝的應(yīng)用名,也可進(jìn)一步包含每個應(yīng)用對應(yīng)的應(yīng)用類別;應(yīng)用安裝信息向量包含應(yīng)用安裝向量和應(yīng)用類別向量。其中,應(yīng)用安裝向量對應(yīng)用戶安裝的應(yīng)用包名,維度對應(yīng)應(yīng)用庫中應(yīng)用的個數(shù);應(yīng)用類別向量對應(yīng)應(yīng)用安裝類別,維度對應(yīng)應(yīng)用庫中應(yīng)用的類別數(shù)。例如,對于一個只包含5個應(yīng)用的應(yīng)用庫,其中包含(應(yīng)用1,應(yīng)用2,應(yīng)用3,應(yīng)用4,應(yīng)用5),分別對應(yīng)類別(社交,運動,社交,視頻,工具),某臺移動設(shè)備上安裝了應(yīng)用1和應(yīng)用5,那么對應(yīng)的應(yīng)用安裝向量為[1,0,0,0,1],應(yīng)用安裝類別向量[1,0,0,1](分別對應(yīng)相應(yīng)的社交類別和工具類別)。
前述應(yīng)用活躍信息向量反映實際使用中,特定用戶對每個應(yīng)用的偏好程度,對每個應(yīng)用而言,打開次數(shù)、使用時長、產(chǎn)生流量等信息可體現(xiàn)用戶之間的差異性。更加優(yōu)選地是,第二設(shè)備2根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息中設(shè)備上應(yīng)用被使用信息,以及與所述應(yīng)用安裝向量模型相對應(yīng)的應(yīng)用活躍向量模型,生成對應(yīng)的經(jīng)歸一化的應(yīng)用活躍信息向量。應(yīng)用的活躍信息的來源包括但不限于:用戶打開應(yīng)用的次數(shù),和/或用戶使用的應(yīng)用產(chǎn)生的流量統(tǒng)計信息。以應(yīng)用打開次數(shù)和應(yīng)用產(chǎn)生流量為例,結(jié)合前述應(yīng)用安裝信息產(chǎn)生應(yīng)用活躍信息向量。例如,前述安裝了應(yīng)用1和應(yīng)用5的移動設(shè)備,對應(yīng)的應(yīng)用活躍信息向量為[應(yīng)用1流量/次數(shù),0,0,0,應(yīng)用5流量/次數(shù)],對應(yīng)的活躍類別向量為[社交流量/次數(shù),0,0,工具流量/次數(shù)]。為消除指標(biāo)的量綱的影響,可將各數(shù)據(jù)標(biāo)準(zhǔn)化,例如進(jìn)行歸一化。此外,歸一化操作還可加快訓(xùn)練網(wǎng)絡(luò)的收斂。
前述設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量對應(yīng)的屬性統(tǒng)計信息對應(yīng)各移動設(shè)備的用戶,是根據(jù)其他訓(xùn)練特征向量進(jìn)行統(tǒng)計處理之后獲得的。
優(yōu)選地,該屬性統(tǒng)計信息為概率信息。其中,第二設(shè)備2對設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量按屬性特征進(jìn)行統(tǒng)計處理,以獲得所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息,再基于所述設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量及所述屬性統(tǒng)計信息進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型。其中,用于訓(xùn)練用戶屬性模型的屬性統(tǒng)計信息可以是向量形式,即,將屬性統(tǒng)計信息向量化得到用戶的屬性統(tǒng)計向量,再基于訓(xùn)練特征向量訓(xùn)練用戶屬性模型,其中訓(xùn)練特征向量包括設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量和/或?qū)傩越y(tǒng)計向量。例如,根據(jù)人工標(biāo)記的數(shù)據(jù),或根據(jù)由用戶自愿填寫的相應(yīng)數(shù)據(jù),對用戶的某類特征進(jìn)行統(tǒng)計處理,得出該類特征在不同性別、年齡段、群體之間的概率,即為該訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息;然后,將該屬性統(tǒng)計信息向量化,得到用戶的屬性統(tǒng)計向量,并基于前述訓(xùn)練特征向量和該屬性統(tǒng)計向量調(diào)整參數(shù),得到對應(yīng)的用戶屬性模型。由該模型預(yù)測用戶的性別和年齡取向,即可為商業(yè)決策提供參考信息,并不限于需要準(zhǔn)確獲知用戶的性別和年齡數(shù)據(jù),從而提高了決策效率。以某款手機(jī)男性用戶概率為0.4、女性概率為0.6、年齡分布概率為(0-10:0.05,10-20:0.2,20-30:0.4,30-40:0.25,40-50:0.1)為例,對應(yīng)的用戶屬性統(tǒng)計向量為[0.4,0.6]、[0.05,0.2,0.4,0.25,0.1]。其他屬性統(tǒng)計信息對應(yīng)的統(tǒng)計特征類推,不再贅述。
參考圖5,優(yōu)選地,本方法還包括步驟S22和步驟S23。其中,在步驟S22中,第二設(shè)備2根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量。具體來講,在步驟S22中,第二設(shè)備2根據(jù)對應(yīng)的用戶設(shè)備上安裝的應(yīng)用的相關(guān)信息,例如,應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,確定與應(yīng)用相關(guān)信息相對應(yīng)的設(shè)備應(yīng)用特征向量。
在步驟S23中,第二設(shè)備2將所述設(shè)備應(yīng)用特征向量作用于所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。具體來講,在步驟S23中,第二設(shè)備2在得到與所述訓(xùn)練特征向量對應(yīng)的用戶屬性模型后,將新的、需要獲取對應(yīng)的用戶屬性信息的設(shè)備所對應(yīng)的設(shè)備應(yīng)用特征向量,作為所述用戶屬性模型的輸入,從而獲得相對應(yīng)的用戶屬性信息,即完成對用戶基礎(chǔ)屬性的預(yù)測。
其中,若在訓(xùn)練用戶屬性模型時,除了設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量等訓(xùn)練特征向量之外,根據(jù)對應(yīng)的屬性統(tǒng)計信息所得到的屬性統(tǒng)計向量也被作為輸入,則相應(yīng)地,在將待預(yù)測用戶的設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型時,也將待預(yù)測用戶的設(shè)備應(yīng)用特征向量所對應(yīng)的用戶屬性統(tǒng)計向量同時作用于該用戶屬性模型,以預(yù)測用戶基礎(chǔ)屬性。
另外,待預(yù)測用戶的設(shè)備應(yīng)用使用信息和訓(xùn)練特征向量相對應(yīng),依據(jù)設(shè)備應(yīng)用使用信息獲得的設(shè)備應(yīng)用特征向量也相對應(yīng)。例如,當(dāng)訓(xùn)練特征向量包含應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,相應(yīng)地,設(shè)備應(yīng)用特征向量也對應(yīng)地包含應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,并且格式相同。在某些情況下,訓(xùn)練特征向量和設(shè)備應(yīng)用特征向量是通過同種方式獲取的,例如都是系統(tǒng)收集設(shè)備上的應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息而獲得的,其中訓(xùn)練特征向量包含人工標(biāo)記;在另一些情況下,訓(xùn)練特征向量和設(shè)備應(yīng)用特征向量是通過不同方式獲取的,例如訓(xùn)練特征向量是根據(jù)由用戶自愿填寫的相應(yīng)數(shù)據(jù)獲得的,而設(shè)備應(yīng)用特征向量是系統(tǒng)收集設(shè)備上的應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息而獲得的。
優(yōu)選地,所述訓(xùn)練特征向量的部分或全部為稀疏化向量,例如,在品牌信息向量中,只有與該設(shè)備的品牌相對應(yīng)的維度置1,其余維度均為0;進(jìn)一步地,根據(jù)其他訓(xùn)練特征向量統(tǒng)計處理后獲取的屬性統(tǒng)計向量也為稀疏化向量,例如,用戶的年齡分布特征向量僅將與用戶對應(yīng)的年齡段所對應(yīng)的維度置1,其余維度均為0。稀疏化向量便于生成,且在向量維度較高的情況下,能大大節(jié)省計算資源,例如對于二分查找而言,向量稀疏度越高,相比于遍歷的方法節(jié)省的計算資源就越可觀。
第二設(shè)備2基于訓(xùn)練特征向量及所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息進(jìn)行分階段訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,在初始訓(xùn)練學(xué)習(xí)階段使用adam訓(xùn)練算法,當(dāng)訓(xùn)練過程中的驗證集誤差低于誤差閾值時改用梯度下降算法訓(xùn)練學(xué)習(xí)。例如,擬采用神經(jīng)網(wǎng)絡(luò)對用戶進(jìn)行分類,在訓(xùn)練網(wǎng)絡(luò)參數(shù)時,采用分階段訓(xùn)練法,首先隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重,在開始訓(xùn)練時采用adam訓(xùn)練算法,選取適當(dāng)?shù)挠?xùn)練參數(shù)進(jìn)行訓(xùn)練并更新網(wǎng)絡(luò)參數(shù),并設(shè)置誤差閾值,當(dāng)驗證集的誤差低于該誤差閾值,就認(rèn)為驗證集誤差不再減小,停止訓(xùn)練并保留網(wǎng)絡(luò)參數(shù);隨后改用梯度下降算法,選取適當(dāng)?shù)膶W(xué)習(xí)率在已經(jīng)獲得的網(wǎng)絡(luò)參數(shù)上對網(wǎng)絡(luò)進(jìn)行微調(diào),直至驗證集誤差不再減小,獲得最終的網(wǎng)絡(luò)參數(shù)。分階段訓(xùn)練的好處在于,能夠加快網(wǎng)絡(luò)的收斂速度,并且能夠克服網(wǎng)絡(luò)達(dá)到次優(yōu)解或者最優(yōu)解時網(wǎng)絡(luò)發(fā)散的問題。
除以上所述訓(xùn)練算法之外,還可采用SGD(stochastic gradient descent,隨機(jī)梯度下降)、Momentum、Adagrad、Adadelta等算法。
優(yōu)選地,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個或幾個學(xué)習(xí)網(wǎng)絡(luò)的輸入。例如,以堆疊的深度網(wǎng)絡(luò)為例,其可以輸出多個目標(biāo),下一個深度網(wǎng)絡(luò)堆疊在上一個或幾個深度網(wǎng)絡(luò)上,本網(wǎng)絡(luò)的輸入為上一個或幾個的輸出。這種堆疊的學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)能夠使得網(wǎng)絡(luò)在不同的輸出點擬合不同的目標(biāo)結(jié)果,從而提高了決策效率和用戶基礎(chǔ)信息預(yù)測的準(zhǔn)確性。其中,用于堆疊的學(xué)習(xí)網(wǎng)絡(luò)包括但不限于神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機(jī)森林、支持向量機(jī)、聚類和/或遺傳算法等,或者它們的堆疊/嵌套。
圖6示出了根據(jù)本申請一個方面的一種用于確定用戶屬性信息的設(shè)備,其中,第一設(shè)備1包括第一一裝置11、第一二裝置12和第一三裝置13。
其中,第一一裝置11基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型;第一二裝置12根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量;第一三裝置13將所述設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。
具體來說,第一一裝置11基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型是指,基于訓(xùn)練特征向量,不斷調(diào)整對應(yīng)的用戶屬性模型的模型參數(shù),直至得到最終的模型參數(shù),從而得到與所述訓(xùn)練特征向量對應(yīng)的用戶屬性模型。
優(yōu)選地,所述訓(xùn)練特征向量包括設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量,以及根據(jù)它們中的至少一項進(jìn)行統(tǒng)計處理而獲得的屬性統(tǒng)計向量中的至少一種。其中,設(shè)備信息向量與設(shè)備本身的信息相對應(yīng),例如,手機(jī)的品牌、型號、屏幕分辨率、價格區(qū)間等信息;應(yīng)用安裝信息向量與設(shè)備上安裝的應(yīng)用及其類別相對應(yīng);應(yīng)用活躍信息向量與設(shè)備上所安裝應(yīng)用的打開次數(shù)、使用時長、產(chǎn)生流量等信息相對應(yīng)。相對于用戶的社交信息,這些信息較易獲取,對渠道的依賴性低;同時,避免了對用戶網(wǎng)頁瀏覽日志、社交關(guān)系及新聞廣告瀏覽記錄等數(shù)據(jù)量大、數(shù)據(jù)動態(tài)不穩(wěn)定和難以獲取等缺點,提高了決策效率和準(zhǔn)確性。
優(yōu)選地,所述設(shè)備信息向量包括:移動設(shè)備的品牌信息向量、移動設(shè)備的型號信息向量、移動設(shè)備的屏幕分辨率信息向量和移動設(shè)備的價格信息向量中的至少一項。其中,移動設(shè)備的品牌信息向量對應(yīng)該移動設(shè)備的品牌信息。此外,優(yōu)選地,補(bǔ)充參考圖7,第一四裝置14根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息確定對應(yīng)的訓(xùn)練特征向量,然后第一一裝置11基于所述訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型。其中,所述設(shè)備應(yīng)用使用信息可包括但不限于:設(shè)備信息、應(yīng)用安裝信息、應(yīng)用活躍信息。其中進(jìn)一步優(yōu)選地,第一四裝置14包含第一四一單元14a。第一四一單元14a根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息中設(shè)備上應(yīng)用安裝信息,以及應(yīng)用安裝向量模型,生成對應(yīng)的應(yīng)用安裝信息向量。用于訓(xùn)練用戶屬性模型的訓(xùn)練特征向量包括相應(yīng)的設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量、根據(jù)其他訓(xùn)練特征向量統(tǒng)計處理并向量化后得到的屬性統(tǒng)計向量中的一個或多個。
例如,以蘋果、三星和華為這三個手機(jī)品牌為例,蘋果設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[1,0,0],三星設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[0,1,0],華為設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[0,0,1]。同樣,移動設(shè)備的型號向量對應(yīng)該移動設(shè)備的型號信息,移動設(shè)備的屏幕分辨率信息向量對應(yīng)該移動設(shè)備的屏幕分辨率信息,各自對應(yīng)的向量與前述品牌信息類似。對于移動設(shè)備的價格信息,可將手機(jī)價格區(qū)間按照一定步長劃分區(qū)間,當(dāng)移動設(shè)備的價格落在某個區(qū)間,向量對應(yīng)位置置1,否則置0,例如某臺移動設(shè)備的價格為1400元,價格區(qū)間的劃分為[0-500,501-1000,1001-1500,1501-2000],則該移動設(shè)備的價格信息對應(yīng)的移動設(shè)備的價格信息向量為[0,0,1,0]。
前述應(yīng)用安裝信息向量對應(yīng)該移動設(shè)備上的應(yīng)用安裝信息。例如,將達(dá)到一定安裝量的應(yīng)用加入一個應(yīng)用庫,該應(yīng)用庫包含用戶所安裝的應(yīng)用名,也可進(jìn)一步包含每個應(yīng)用對應(yīng)的應(yīng)用類別;應(yīng)用安裝信息向量包含應(yīng)用安裝向量和應(yīng)用類別向量。其中,應(yīng)用安裝向量對應(yīng)用戶安裝的應(yīng)用包名,維度對應(yīng)應(yīng)用庫中應(yīng)用的個數(shù);應(yīng)用類別向量對應(yīng)應(yīng)用安裝類別,維度對應(yīng)應(yīng)用庫中應(yīng)用的類別數(shù)。例如,對于一個只包含5個應(yīng)用的應(yīng)用庫,其中包含(應(yīng)用1,應(yīng)用2,應(yīng)用3,應(yīng)用4,應(yīng)用5),分別對應(yīng)類別(社交,運動,社交,視頻,工具),某臺移動設(shè)備上安裝了應(yīng)用1和應(yīng)用5,那么對應(yīng)的應(yīng)用安裝向量為[1,0,0,0,1],應(yīng)用安裝類別向量[1,0,0,1](分別對應(yīng)相應(yīng)的社交類別和工具類別)。
前述應(yīng)用活躍信息向量反映實際使用中,特定用戶對每個應(yīng)用的偏好程度,對每個應(yīng)用而言,打開次數(shù)、使用時長、產(chǎn)生流量等信息可體現(xiàn)用戶之間的差異性。更加優(yōu)選地是,參考圖8,第一四裝置14還包括第一四二單元14b,第一四二單元14b根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息中設(shè)備上應(yīng)用被使用信息,以及與所述應(yīng)用安裝向量模型相對應(yīng)的應(yīng)用活躍向量模型,生成對應(yīng)的經(jīng)歸一化的應(yīng)用活躍信息向量。應(yīng)用的活躍信息的來源包括但不限于:用戶打開應(yīng)用的次數(shù),和/或用戶使用的應(yīng)用產(chǎn)生的流量統(tǒng)計信息。以應(yīng)用打開次數(shù)和應(yīng)用產(chǎn)生流量為例,結(jié)合前述應(yīng)用安裝信息產(chǎn)生應(yīng)用活躍信息向量。例如,前述安裝了應(yīng)用1和應(yīng)用5的移動設(shè)備,對應(yīng)的應(yīng)用活躍信息向量為[應(yīng)用1流量/次數(shù),0,0,0,應(yīng)用5流量/次數(shù)],對應(yīng)的活躍類別向量為[社交流量/次數(shù),0,0,工具流量/次數(shù)]。為消除指標(biāo)的量綱的影響,可將各數(shù)據(jù)標(biāo)準(zhǔn)化,例如進(jìn)行歸一化。此外,歸一化操作還可加快訓(xùn)練網(wǎng)絡(luò)的收斂。
設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量對應(yīng)的屬性統(tǒng)計信息對應(yīng)各移動設(shè)備的用戶,是根據(jù)其他訓(xùn)練特征向量進(jìn)行統(tǒng)計處理之后獲得的,可用于獲取相應(yīng)的屬性統(tǒng)計向量。
優(yōu)選地,該屬性統(tǒng)計信息為概率信息。其中,第一一裝置11包含第一一一單元11a(未示出)和第一一一單元11b(未示出)。第一一一單元11a對設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量按屬性特征進(jìn)行統(tǒng)計處理,以獲得所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息;第一一二單元11b基于所述設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量及所述屬性統(tǒng)計信息進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型。其中,用于訓(xùn)練用戶屬性模型的屬性統(tǒng)計信息可以是向量形式,即,將屬性統(tǒng)計信息向量化得到用戶的屬性統(tǒng)計向量,再基于訓(xùn)練特征向量訓(xùn)練用戶屬性模型,其中訓(xùn)練特征向量包括設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量和/或?qū)傩越y(tǒng)計向量。例如,根據(jù)人工標(biāo)記的數(shù)據(jù),或根據(jù)由用戶自愿填寫的相應(yīng)數(shù)據(jù),對用戶的某類特征進(jìn)行統(tǒng)計處理,得出該類特征在不同性別、年齡段、群體之間的概率,即為該訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息;然后,將該屬性統(tǒng)計信息向量化,得到用戶的屬性統(tǒng)計向量,并基于其他訓(xùn)練特征向量和該屬性統(tǒng)計向量調(diào)整參數(shù),得到對應(yīng)的用戶屬性模型。由該模型預(yù)測用戶的性別和年齡取向,即可為商業(yè)決策提供參考信息,并不限于需要準(zhǔn)確獲知用戶的性別和年齡數(shù)據(jù),從而提高了決策效率。以某款手機(jī)男性用戶概率為0.4、女性概率為0.6、年齡分布概率為(0-10:0.05,10-20:0.2,20-30:0.4,30-40:0.25,40-50:0.1)為例,對應(yīng)的用戶屬性統(tǒng)計向量為[0.4,0.6]、[0.05,0.2,0.4,0.25,0.1]。其他屬性統(tǒng)計信息對應(yīng)的統(tǒng)計特征類推,不再贅述。
第一二裝置12根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量。具體來講,第一二裝置12根據(jù)對應(yīng)的用戶設(shè)備上安裝的應(yīng)用的相關(guān)信息,例如,應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,確定與應(yīng)用相關(guān)信息相對應(yīng)的設(shè)備應(yīng)用特征向量。
第一三裝置13將所述設(shè)備應(yīng)用特征向量作用于所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。具體來講,第一三裝置13在得到與所述訓(xùn)練特征向量對應(yīng)的用戶屬性模型后,將新的、需要獲取對應(yīng)的用戶屬性信息的設(shè)備所對應(yīng)的設(shè)備應(yīng)用特征向量,作為所述用戶屬性模型的輸入,從而獲得相對應(yīng)的用戶屬性信息,即完成對用戶基礎(chǔ)屬性的預(yù)測。
其中,若在訓(xùn)練用戶屬性模型時,除了設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量等訓(xùn)練特征向量之外,根據(jù)對應(yīng)的屬性統(tǒng)計信息所得到的屬性統(tǒng)計向量也被作為輸入,則相應(yīng)地,在將待預(yù)測用戶的設(shè)備應(yīng)用特征向量作用于所述用戶屬性模型時,也將所述設(shè)備應(yīng)用特征向量所對應(yīng)的用戶屬性統(tǒng)計向量同時作用于該用戶屬性模型,以預(yù)測用戶基礎(chǔ)屬性。
優(yōu)選地,所述訓(xùn)練特征向量的部分或全部為稀疏化向量,例如,在品牌信息向量中,只有與該設(shè)備的品牌相對應(yīng)的維度置1,其余維度均為0;進(jìn)一步地,根據(jù)其他訓(xùn)練特征向量統(tǒng)計處理后獲取的屬性統(tǒng)計向量也為稀疏化向量,例如,用戶的年齡分布特征向量僅將與用戶對應(yīng)的年齡段所對應(yīng)的維度置1,其余維度均為0。稀疏化向量便于生成,且在向量維度較高的情況下,能大大節(jié)省計算資源,例如對于二分查找而言,向量稀疏度越高,相比于遍歷的方法節(jié)省的計算資源就越可觀。
參考圖9,在第一設(shè)備1’中,第一一裝置11基于訓(xùn)練特征向量及所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息進(jìn)行分階段訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,在初始訓(xùn)練學(xué)習(xí)階段使用adam訓(xùn)練算法,當(dāng)訓(xùn)練過程中的驗證集誤差低于誤差閾值時改用梯度下降算法訓(xùn)練學(xué)習(xí)。例如,擬采用神經(jīng)網(wǎng)絡(luò)對用戶進(jìn)行分類,在訓(xùn)練網(wǎng)絡(luò)參數(shù)時,采用分階段訓(xùn)練法,首先隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重,在開始訓(xùn)練時采用adam訓(xùn)練算法,選取適當(dāng)?shù)挠?xùn)練參數(shù)進(jìn)行訓(xùn)練并更新網(wǎng)絡(luò)參數(shù),并設(shè)置誤差閾值,當(dāng)驗證集的誤差低于該誤差閾值,就認(rèn)為驗證集誤差不再減小,停止訓(xùn)練并保留網(wǎng)絡(luò)參數(shù);隨后改用梯度下降算法,選取適當(dāng)?shù)膶W(xué)習(xí)率在已經(jīng)獲得的網(wǎng)絡(luò)參數(shù)上對網(wǎng)絡(luò)進(jìn)行微調(diào),直至驗證集誤差不再減小,獲得最終的網(wǎng)絡(luò)參數(shù)。分階段訓(xùn)練的好處在于,能夠加快網(wǎng)絡(luò)的收斂速度,并且能夠克服網(wǎng)絡(luò)達(dá)到次優(yōu)解或者最優(yōu)解時網(wǎng)絡(luò)發(fā)散的問題。
除以上所述訓(xùn)練算法之外,還可采用SGD(stochastic gradient descent,隨機(jī)梯度下降)、Momentum、Adagrad、Adadelta等算法。
優(yōu)選地,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個或幾個學(xué)習(xí)網(wǎng)絡(luò)的輸入。例如,以堆疊的深度網(wǎng)絡(luò)為例,其可以輸出多個目標(biāo),下一個深度網(wǎng)絡(luò)堆疊在上一個或幾個深度網(wǎng)絡(luò)上,本網(wǎng)絡(luò)的輸入為上一個或幾個的輸出。這種堆疊的學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)能夠使得網(wǎng)絡(luò)在不同的輸出點擬合不同的目標(biāo)結(jié)果,從而提高了決策效率和用戶基礎(chǔ)信息預(yù)測的準(zhǔn)確性。其中,用于堆疊的學(xué)習(xí)網(wǎng)絡(luò)包括但不限于神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機(jī)森林、支持向量機(jī)、聚類和/或遺傳算法等,或者它們的堆疊/嵌套。
根據(jù)本申請另一個方面,提供了一種用于確定用戶屬性模型的設(shè)備,其中,第二設(shè)備2包括第二一裝置21。
第二一裝置21基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個學(xué)習(xí)網(wǎng)絡(luò)的輸入。
優(yōu)選地,所述訓(xùn)練特征向量包括設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量,以及根據(jù)它們中的至少一項進(jìn)行統(tǒng)計處理而獲得的屬性統(tǒng)計向量中的至少一種。其中,設(shè)備信息向量與設(shè)備本身的信息相對應(yīng),例如,手機(jī)的品牌、型號、屏幕分辨率、價格區(qū)間等信息;應(yīng)用安裝信息向量與設(shè)備上安裝的應(yīng)用及其類別相對應(yīng);應(yīng)用活躍信息向量與設(shè)備上所安裝應(yīng)用的打開次數(shù)、使用時長、產(chǎn)生流量等信息相對應(yīng)。相對于用戶的社交信息,這些信息較易獲取,對渠道的依賴性低;同時,避免了對用戶網(wǎng)頁瀏覽日志、社交關(guān)系及新聞廣告瀏覽記錄等數(shù)據(jù)量大、數(shù)據(jù)動態(tài)不穩(wěn)定和難以獲取等缺點,提高了決策效率和準(zhǔn)確性。
優(yōu)選地,所述設(shè)備信息向量包括:移動設(shè)備的品牌信息向量、移動設(shè)備的型號信息向量、移動設(shè)備的屏幕分辨率信息向量和移動設(shè)備的價格信息向量中的至少一項。其中,移動設(shè)備的品牌信息向量對應(yīng)該移動設(shè)備的品牌信息。此外,優(yōu)選地,第二設(shè)備2根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息確定對應(yīng)的訓(xùn)練特征向量,然后基于所述訓(xùn)練特征向量及所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型。其中,所述設(shè)備應(yīng)用使用信息可包括但不限于:設(shè)備信息、應(yīng)用安裝信息、應(yīng)用活躍信息。其中進(jìn)一步優(yōu)選地,第二設(shè)備2根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息中設(shè)備上應(yīng)用安裝信息,以及應(yīng)用安裝向量模型,生成對應(yīng)的應(yīng)用安裝信息向量。
例如,以蘋果、三星和華為這三個手機(jī)品牌為例,蘋果設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[1,0,0],三星設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[0,1,0],華為設(shè)備對應(yīng)的移動設(shè)備的品牌信息向量為[0,0,1]。同樣,移動設(shè)備的型號向量對應(yīng)該移動設(shè)備的型號信息,移動設(shè)備的屏幕分辨率信息向量對應(yīng)該移動設(shè)備的屏幕分辨率信息,各自對應(yīng)的向量與前述品牌信息類似。對于移動設(shè)備的價格信息,可將手機(jī)價格區(qū)間按照一定步長劃分區(qū)間,當(dāng)移動設(shè)備的價格落在某個區(qū)間,向量對應(yīng)位置置1,否則置0,例如某臺移動設(shè)備的價格為1400元,價格區(qū)間的劃分為[0-500,501-1000,1001-1500,1501-2000],則該移動設(shè)備的價格信息對應(yīng)的移動設(shè)備的價格信息向量為[0,0,1,0]。
前述應(yīng)用安裝信息向量對應(yīng)該移動設(shè)備上的應(yīng)用安裝信息。例如,將達(dá)到一定安裝量的應(yīng)用加入一個應(yīng)用庫,該應(yīng)用庫包含用戶所安裝的應(yīng)用名,也可進(jìn)一步包含每個應(yīng)用對應(yīng)的應(yīng)用類別;應(yīng)用安裝信息向量包含應(yīng)用安裝向量和應(yīng)用類別向量。其中,應(yīng)用安裝向量對應(yīng)用戶安裝的應(yīng)用包名,維度對應(yīng)應(yīng)用庫中應(yīng)用的個數(shù);應(yīng)用類別向量對應(yīng)應(yīng)用安裝類別,維度對應(yīng)應(yīng)用庫中應(yīng)用的類別數(shù)。例如,對于一個只包含5個應(yīng)用的應(yīng)用庫,其中包含(應(yīng)用1,應(yīng)用2,應(yīng)用3,應(yīng)用4,應(yīng)用5),分別對應(yīng)類別(社交,運動,社交,視頻,工具),某臺移動設(shè)備上安裝了應(yīng)用1和應(yīng)用5,那么對應(yīng)的應(yīng)用安裝向量為[1,0,0,0,1],應(yīng)用安裝類別向量[1,0,0,1](分別對應(yīng)相應(yīng)的社交類別和工具類別)。
前述應(yīng)用活躍信息向量反映實際使用中,特定用戶對每個應(yīng)用的偏好程度,對每個應(yīng)用而言,打開次數(shù)、使用時長、產(chǎn)生流量等信息可體現(xiàn)用戶之間的差異性。更加優(yōu)選地是,第二設(shè)備2根據(jù)用于訓(xùn)練的設(shè)備應(yīng)用使用信息中設(shè)備上應(yīng)用被使用信息,以及與所述應(yīng)用安裝向量模型相對應(yīng)的應(yīng)用活躍向量模型,生成對應(yīng)的經(jīng)歸一化的應(yīng)用活躍信息向量。應(yīng)用的活躍信息的來源包括但不限于:用戶打開應(yīng)用的次數(shù),和/或用戶使用的應(yīng)用產(chǎn)生的流量統(tǒng)計信息。以應(yīng)用打開次數(shù)和應(yīng)用產(chǎn)生流量為例,結(jié)合前述應(yīng)用安裝信息產(chǎn)生應(yīng)用活躍信息向量。例如,前述安裝了應(yīng)用1和應(yīng)用5的移動設(shè)備,對應(yīng)的應(yīng)用活躍信息向量為[應(yīng)用1流量/次數(shù),0,0,0,應(yīng)用5流量/次數(shù)],對應(yīng)的活躍類別向量為[社交流量/次數(shù),0,0,工具流量/次數(shù)]。為消除指標(biāo)的量綱的影響,可將各數(shù)據(jù)標(biāo)準(zhǔn)化,例如進(jìn)行歸一化。此外,歸一化操作還可加快訓(xùn)練網(wǎng)絡(luò)的收斂。
前述設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量對應(yīng)的屬性統(tǒng)計信息對應(yīng)各移動設(shè)備的用戶,是根據(jù)其他訓(xùn)練特征向量進(jìn)行統(tǒng)計處理之后獲得的。
優(yōu)選地,該屬性統(tǒng)計信息為概率信息。其中,第二設(shè)備2對設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量按屬性特征進(jìn)行統(tǒng)計處理,以獲得所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息,再基于所述設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量及所述屬性統(tǒng)計信息進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型。其中,用于訓(xùn)練用戶屬性模型的屬性統(tǒng)計信息可以是向量形式,即,將屬性統(tǒng)計信息向量化得到用戶的屬性統(tǒng)計向量,再基于訓(xùn)練特征向量訓(xùn)練用戶屬性模型,其中訓(xùn)練特征向量包括設(shè)備信息向量和/或應(yīng)用安裝信息向量和/或應(yīng)用活躍信息向量和/或?qū)傩越y(tǒng)計向量。例如,根據(jù)人工標(biāo)記的數(shù)據(jù),或根據(jù)由用戶自愿填寫的相應(yīng)數(shù)據(jù),對用戶的某類特征進(jìn)行統(tǒng)計處理,得出該類特征在不同性別、年齡段、群體之間的概率,即為該訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息;然后,將該屬性統(tǒng)計信息向量化,得到用戶的屬性統(tǒng)計向量,并基于前述訓(xùn)練特征向量和該屬性統(tǒng)計向量調(diào)整參數(shù),得到對應(yīng)的用戶屬性模型。由該模型預(yù)測用戶的性別和年齡取向,即可為商業(yè)決策提供參考信息,并不限于需要準(zhǔn)確獲知用戶的性別和年齡數(shù)據(jù),從而提高了決策效率。以某款手機(jī)男性用戶概率為0.4、女性概率為0.6、年齡分布概率為(0-10:0.05,10-20:0.2,20-30:0.4,30-40:0.25,40-50:0.1)為例,對應(yīng)的用戶屬性統(tǒng)計向量為[0.4,0.6]、[0.05,0.2,0.4,0.25,0.1]。其他屬性統(tǒng)計信息對應(yīng)的統(tǒng)計特征類推,不再贅述。
參考圖10,優(yōu)選地,第二設(shè)備2還包括第二二裝置22和第二三裝置23。其中,第二二裝置22根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量。具體來講,第二二裝置22根據(jù)對應(yīng)的用戶設(shè)備上安裝的應(yīng)用的相關(guān)信息,例如,應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,確定與應(yīng)用相關(guān)信息相對應(yīng)的設(shè)備應(yīng)用特征向量。
第二三裝置23將所述設(shè)備應(yīng)用特征向量作用于所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。具體來講,第二三裝置23在得到與所述訓(xùn)練特征向量對應(yīng)的用戶屬性模型后,將新的、需要獲取對應(yīng)的用戶屬性信息的設(shè)備所對應(yīng)的設(shè)備應(yīng)用特征向量,作為所述用戶屬性模型的輸入,從而獲得相對應(yīng)的用戶屬性信息,即完成對用戶基礎(chǔ)屬性的預(yù)測。
其中,若在訓(xùn)練用戶屬性模型時,除了設(shè)備信息向量、應(yīng)用安裝信息向量、應(yīng)用活躍信息向量等訓(xùn)練特征向量之外,根據(jù)對應(yīng)的屬性統(tǒng)計信息所得到的屬性統(tǒng)計向量也被作為輸入,則相應(yīng)地,在將待預(yù)測用戶的設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型時,也將待預(yù)測用戶的設(shè)備應(yīng)用特征向量所對應(yīng)的用戶屬性統(tǒng)計向量同時作用于該用戶屬性模型,以預(yù)測用戶基礎(chǔ)屬性。
另外,待預(yù)測用戶的設(shè)備應(yīng)用使用信息和訓(xùn)練特征向量相對應(yīng),依據(jù)設(shè)備應(yīng)用使用信息獲得的設(shè)備應(yīng)用特征向量也相對應(yīng)。例如,當(dāng)訓(xùn)練特征向量包含應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,相應(yīng)地,設(shè)備應(yīng)用特征向量也對應(yīng)地包含應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息,并且格式相同。在某些情況下,訓(xùn)練特征向量和設(shè)備應(yīng)用特征向量是通過同種方式獲取的,例如都是系統(tǒng)收集設(shè)備上的應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息而獲得的,其中訓(xùn)練特征向量包含人工標(biāo)記;在另一些情況下,訓(xùn)練特征向量和設(shè)備應(yīng)用特征向量是通過不同方式獲取的,例如訓(xùn)練特征向量是根據(jù)由用戶自愿填寫的相應(yīng)數(shù)據(jù)獲得的,而設(shè)備應(yīng)用特征向量是系統(tǒng)收集設(shè)備上的應(yīng)用的安裝信息、應(yīng)用活躍信息和/或應(yīng)用的類別信息而獲得的。
優(yōu)選地,所述訓(xùn)練特征向量的部分或全部為稀疏化向量,例如,在品牌信息向量中,只有與該設(shè)備的品牌相對應(yīng)的維度置1,其余維度均為0;進(jìn)一步地,根據(jù)其他訓(xùn)練特征向量統(tǒng)計處理后獲取的屬性統(tǒng)計向量也為稀疏化向量,例如,用戶的年齡分布特征向量僅將與用戶對應(yīng)的年齡段所對應(yīng)的維度置1,其余維度均為0。稀疏化向量便于生成,且在向量維度較高的情況下,能大大節(jié)省計算資源,例如對于二分查找而言,向量稀疏度越高,相比于遍歷的方法節(jié)省的計算資源就越可觀。
第二設(shè)備2基于訓(xùn)練特征向量及所述訓(xùn)練特征向量對應(yīng)的屬性統(tǒng)計信息進(jìn)行分階段訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,在初始訓(xùn)練學(xué)習(xí)階段使用adam訓(xùn)練算法,當(dāng)訓(xùn)練過程中的驗證集誤差低于誤差閾值時改用梯度下降算法訓(xùn)練學(xué)習(xí)。例如,擬采用神經(jīng)網(wǎng)絡(luò)對用戶進(jìn)行分類,在訓(xùn)練網(wǎng)絡(luò)參數(shù)時,采用分階段訓(xùn)練法,首先隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重,在開始訓(xùn)練時采用adam訓(xùn)練算法,選取適當(dāng)?shù)挠?xùn)練參數(shù)進(jìn)行訓(xùn)練并更新網(wǎng)絡(luò)參數(shù),并設(shè)置誤差閾值,當(dāng)驗證集的誤差低于該誤差閾值,就認(rèn)為驗證集誤差不再減小,停止訓(xùn)練并保留網(wǎng)絡(luò)參數(shù);隨后改用梯度下降算法,選取適當(dāng)?shù)膶W(xué)習(xí)率在已經(jīng)獲得的網(wǎng)絡(luò)參數(shù)上對網(wǎng)絡(luò)進(jìn)行微調(diào),直至驗證集誤差不再減小,獲得最終的網(wǎng)絡(luò)參數(shù)。分階段訓(xùn)練的好處在于,能夠加快網(wǎng)絡(luò)的收斂速度,并且能夠克服網(wǎng)絡(luò)達(dá)到次優(yōu)解或者最優(yōu)解時網(wǎng)絡(luò)發(fā)散的問題。
除以上所述訓(xùn)練算法之外,還可采用SGD(stochastic gradient descent,隨機(jī)梯度下降)、Momentum、Adagrad、Adadelta等算法。
優(yōu)選地,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個或幾個學(xué)習(xí)網(wǎng)絡(luò)的輸入。例如,以堆疊的深度網(wǎng)絡(luò)為例,其可以輸出多個目標(biāo),下一個深度網(wǎng)絡(luò)堆疊在上一個或幾個深度網(wǎng)絡(luò)上,本網(wǎng)絡(luò)的輸入為上一個或幾個的輸出。這種堆疊的學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)能夠使得網(wǎng)絡(luò)在不同的輸出點擬合不同的目標(biāo)結(jié)果,從而提高了決策效率和用戶基礎(chǔ)信息預(yù)測的準(zhǔn)確性。其中,用于堆疊的學(xué)習(xí)網(wǎng)絡(luò)包括但不限于神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機(jī)森林、支持向量機(jī)、聚類和/或遺傳算法等,或者它們的堆疊/嵌套。
根據(jù)本申請的一個方面,提供了一種用于確定用戶屬性信息的設(shè)備,其中,該設(shè)備包括:
處理器;以及
被安排成存儲計算機(jī)可執(zhí)行指令的存儲器,所述可執(zhí)行指令在被執(zhí)行時使所述處理器:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型;
根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量;
將所述設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。
根據(jù)本申請的另一個方面,提供了一種用于確定用戶屬性模型的設(shè)備,其中,該設(shè)備包括:
處理器;以及
被安排成存儲計算機(jī)可執(zhí)行指令的存儲器,所述可執(zhí)行指令在被執(zhí)行時使所述處理器:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個學(xué)習(xí)網(wǎng)絡(luò)的輸入。
根據(jù)本申請的一個方面,提供了一種包括指令的計算機(jī)可讀存儲介質(zhì),所述指令在被執(zhí)行時使得系統(tǒng)進(jìn)行以下操作:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí),得到對應(yīng)的用戶屬性模型;
根據(jù)設(shè)備應(yīng)用使用信息確定對應(yīng)的設(shè)備應(yīng)用特征向量;
將所述設(shè)備應(yīng)用特征向量輸入所述用戶屬性模型以獲得所述設(shè)備應(yīng)用使用信息對應(yīng)用戶的用戶屬性信息。
根據(jù)本申請的另一個方面,提供了一種包括指令的計算機(jī)可讀存儲介質(zhì),所述指令在被執(zhí)行時使得系統(tǒng)進(jìn)行以下操作:
基于訓(xùn)練特征向量進(jìn)行訓(xùn)練學(xué)習(xí)得到對應(yīng)的用戶屬性模型,其中,所述用戶屬性模型包括多個學(xué)習(xí)網(wǎng)絡(luò),其中,至少一個學(xué)習(xí)網(wǎng)絡(luò)的輸出被作為另一個學(xué)習(xí)網(wǎng)絡(luò)的輸入。
以上詳細(xì)描述了本申請的較佳具體實施例。
需要注意的是,本申請可在軟件和/或軟件與硬件的組合體中被實施,例如,可采用專用集成電路(ASIC)、通用目的計算機(jī)或任何其他類似硬件設(shè)備來實現(xiàn)。在一個實施例中,本申請的軟件程序可以通過處理器執(zhí)行以實現(xiàn)上文所述步驟或功能。同樣地,本申請的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲到計算機(jī)可讀記錄介質(zhì)中,例如,RAM存儲器,磁或光驅(qū)動器或軟磁盤及類似設(shè)備。另外,本申請的一些步驟或功能可采用硬件來實現(xiàn),例如,作為與處理器配合從而執(zhí)行各個步驟或功能的電路。
另外,本申請的一部分可被應(yīng)用為計算機(jī)程序產(chǎn)品,例如計算機(jī)程序指令,當(dāng)其被計算機(jī)執(zhí)行時,通過該計算機(jī)的操作,可以調(diào)用或提供根據(jù)本申請的方法和/或技術(shù)方案。而調(diào)用本申請的方法的程序指令,可能被存儲在固定的或可移動的記錄介質(zhì)中,和/或通過廣播或其他信號承載媒體中的數(shù)據(jù)流而被傳輸,和/或被存儲在根據(jù)所述程序指令運行的計算機(jī)設(shè)備的工作存儲器中。在此,根據(jù)本申請的一個實施例包括一個裝置,該裝置包括用于存儲計算機(jī)程序指令的存儲器和用于執(zhí)行程序指令的處理器,其中,當(dāng)該計算機(jī)程序指令被該處理器執(zhí)行時,觸發(fā)該裝置運行基于前述根據(jù)本申請的多個實施例的方法和/或技術(shù)方案。
對于本領(lǐng)域技術(shù)人員而言,顯然本申請不限于上述示范性實施例的細(xì)節(jié),而且在不背離本申請的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本申請。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本申請的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本申請內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。