本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)處理方法和一種數(shù)據(jù)處理裝置。
背景技術(shù):
應(yīng)用程序(Application,APP)指的是各種客戶端軟件程序,用戶在使用如智能手機、平板電腦以及筆記本電腦等終端時,通??梢园惭b各種應(yīng)用程序,通過應(yīng)用程序執(zhí)行各種操作,如玩游戲、瀏覽網(wǎng)頁、觀看視頻等。
第三方應(yīng)用平臺能夠為用戶提供應(yīng)用,即用戶可以在第三方應(yīng)用平臺中瀏覽應(yīng)用,以及下載應(yīng)用。
技術(shù)實現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的數(shù)據(jù)處理方法和相應(yīng)的數(shù)據(jù)處理裝置。
依據(jù)本發(fā)明實施例的一個方面,提供了一種數(shù)據(jù)處理方法,包括:基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度;以用戶為頂點,以兩個用戶之間的相似度為兩個相鄰頂點的邊長,建立各用戶之間的用戶傳播圖;將已確定屬性標簽的用戶作為源用戶,將所述屬性標簽標注為所述源用戶在所述用戶傳播圖對應(yīng)頂點的傳播屬性;將未確定屬性標簽的用戶作為目標用戶,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相鄰頂點,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽。
可選的,所述基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度,包括:基于用戶對應(yīng)用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度。
可選的,所述操作行為包括:瀏覽行為和下載行為;所述基于用戶對應(yīng) 用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度,包括:基于用戶對應(yīng)用的下載行為確定第一向量,以及基于用戶對應(yīng)用的瀏覽行為確定第二向量;選取兩個用戶,按照操作行為分別計算所述兩個用戶對應(yīng)第一向量之間的第一距離,以及第二向量之間的第二距離;按照權(quán)重對所述第一距離和第二距離進行加權(quán)求和,確定所述兩個用戶之間的相似度。
可選的,還包括:基于用戶對應(yīng)用的操作行為確定所述用戶在每個屬性維度下的屬性傾向信息,其中,所述屬性傾向信息包括:所述屬性維度對應(yīng)的各類別和每個類別的屬性傾向值;按照屬性傾向信息確定所述用戶在每個屬性維度的屬性向量,將各屬性向量作為所述用戶的屬性標簽。
可選的,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相鄰頂點,包括:確定目標用戶在所述用戶傳播圖中對應(yīng)的頂點;在所述用戶傳播圖中查找所述目標用戶對應(yīng)頂點的相鄰頂點,其中,所述相鄰頂點的傳播屬性中標注有屬性標簽。
可選的,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽,包括:按照所述目標用戶對應(yīng)頂點與相鄰頂點之間的相似度,將所述相鄰頂點的屬性標簽傳播給所述目標用戶對應(yīng)頂點,預(yù)測所述目標用戶的屬性標簽。
可選的,還包括:基于所述屬性標簽為用戶推送推薦信息,其中,所述推薦信息包括:與所述屬性標簽匹配的應(yīng)用。
根據(jù)本發(fā)明的另一個方面,還提供了一種數(shù)據(jù)處理裝置,包括:相似度計算模塊,用于基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度;傳播圖建立模塊,用于以用戶為頂點,以兩個用戶之間的相似度為兩個相鄰頂點的邊長,建立各用戶之間的用戶傳播圖;傳播屬性標注模塊,用于將已確定屬性標簽的用戶作為源用戶,將所述屬性標簽標注為所述源用戶在所述用戶傳播圖對應(yīng)頂點的傳播屬性;屬性標簽預(yù)測模塊,用于將未確定屬性標簽的用戶作為目標用戶,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相 鄰頂點,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽。
可選的,所述相似度計算模塊,用于基于用戶對應(yīng)用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度。
可選的,所述操作行為包括:瀏覽行為和下載行為;所述相似度計算模塊,包括:向量確定子模塊,用于基于用戶對應(yīng)用的下載行為確定第一向量,以及基于用戶對應(yīng)用的瀏覽行為確定第二向量;距離計算子模塊,用于選取兩個用戶,按照操作行為分別計算所述兩個用戶對應(yīng)第一向量之間的第一距離,以及第二向量之間的第二距離;相似度確定子模塊,用于按照權(quán)重對所述第一距離和第二距離進行加權(quán)求和,確定所述兩個用戶之間的相似度。
可選的,還包括:屬性標簽預(yù)確定模塊,用于基于用戶對應(yīng)用的操作行為確定所述用戶在每個屬性維度下的屬性傾向信息,其中,所述屬性傾向信息包括:所述屬性維度對應(yīng)的各類別和每個類別的屬性傾向值;按照屬性傾向信息確定所述用戶在每個屬性維度的屬性向量,將各屬性向量作為所述用戶的屬性標簽。
可選的,所述屬性標簽預(yù)測模塊,包括:頂點查找子模塊,用于確定目標用戶在所述用戶傳播圖中對應(yīng)的頂點;在所述用戶傳播圖中查找所述目標用戶對應(yīng)頂點的相鄰頂點,其中,所述相鄰頂點的傳播屬性中標注有屬性標簽。
可選的,所述屬性標簽預(yù)測模塊,包括:預(yù)測子模塊,用于按照所述目標用戶對應(yīng)頂點與相鄰頂點之間的相似度,將所述相鄰頂點的屬性標簽傳播給所述目標用戶對應(yīng)頂點,預(yù)測所述目標用戶的屬性標簽。
可選的,還包括:推薦模塊,用于基于所述屬性標簽為用戶推送推薦信息,其中,所述推薦信息包括:與所述屬性標簽匹配的應(yīng)用。
用戶對應(yīng)用的操作能夠體現(xiàn)出用戶的特征從而確定不同用戶之間的相似度,從而以用戶為頂點以兩個相鄰頂點的邊長構(gòu)建用戶傳播圖,基于用戶傳播圖中已確定屬性標簽的源用戶,預(yù)測相鄰頂點對應(yīng)目標用戶的屬性標簽,采用屬性標簽標注用戶的特征,通過用戶傳播圖提高用戶特征的標注效 率。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了根據(jù)本發(fā)明一個實施例的數(shù)據(jù)處理方法實施例的步驟流程圖;
圖2示出了根據(jù)本發(fā)明另一個實施例的數(shù)據(jù)處理方法實施例的步驟流程圖;
圖3示出了根據(jù)本發(fā)明一個實施例的數(shù)據(jù)處理裝置實施例的結(jié)構(gòu)框圖;
圖4示出了根據(jù)本發(fā)明另一個實施例的數(shù)據(jù)處理裝置實施例的結(jié)構(gòu)框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
實施例一
參照圖1,示出了根據(jù)本發(fā)明一個實施例的數(shù)據(jù)處理方法實施例的步驟流程圖,具體可以包括如下步驟:
步驟102,基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度。
用戶在使用終端,通常會安裝各種應(yīng)用程序(簡稱應(yīng)用)執(zhí)行各種操作,因此會登錄第三方應(yīng)用平臺進行應(yīng)用的下載,第三方應(yīng)用平臺上可以記錄用 戶對應(yīng)用的各種操作行為,例如瀏覽使用應(yīng)用,又如下載應(yīng)用等?;谟脩魧?yīng)用的操作行為計算不同用戶之間的相似度,即按照用戶操作的相似性,如是否下載或瀏覽相同的應(yīng)用,可以確定任意兩個用戶之間的相似度。
步驟104,以用戶為頂點,以兩個用戶之間的相似度為兩個相鄰頂點的邊長,建立各用戶之間的用戶傳播圖。
本實施例中,按照用戶對應(yīng)用的操作行為可能確定出用戶自身的特征,例如用戶的性別、年齡等,這些特征可以通過屬性標簽表示。但不是所有的用戶都已經(jīng)確定了屬性標簽,因此,為了預(yù)測用戶的屬性標簽,可以建立用戶傳播圖以標識不同用戶之間的關(guān)系,從而基于具有屬性標簽的用戶預(yù)測其他用戶的屬性標簽。以用戶為頂點V,對于相鄰兩個頂點之間的邊的邊長E,可以按照相鄰兩個頂點對應(yīng)用戶之間的相似度表示,即將相似度作為邊長從而創(chuàng)建用戶傳播圖G={V,E}。
其中,在創(chuàng)建用戶傳播圖時,確定一個頂點后,可以按照該頂點對應(yīng)用戶與其他用戶之間的相似度確定相鄰頂點,例如設(shè)置一邊長閾值,相似度超過該邊長閾值對應(yīng)用戶可以作為相鄰頂點的用戶,同時可以確定出這兩個相鄰頂點之間的邊長。
步驟106,將已確定屬性標簽的用戶作為源用戶,將所述屬性標簽標注為所述源用戶在所述用戶傳播圖對應(yīng)頂點的傳播屬性。
步驟108,將未確定屬性標簽的用戶作為目標用戶,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相鄰頂點,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽。
在構(gòu)建完用戶傳播圖后,圖中有些頂點對應(yīng)的用戶已確定出屬性標簽,而有些頂點對應(yīng)用戶未確定屬性標簽,將已確定屬性標簽的用戶作為源用戶,未確定屬性標簽的用戶作為目標用戶。
確定源用戶在用戶傳播圖對應(yīng)的頂點,將所述源用戶的屬性標簽標注為所述頂點的傳播屬性。在用戶傳播圖中屬性標簽可以依據(jù)相似度進行傳播,因此對于目標用戶,在用戶傳播圖中查找目標用戶對應(yīng)的頂點及其相鄰頂點,該相鄰頂點對應(yīng)用戶為源用戶,即是屬性標簽已確定的用戶,則可以依 據(jù)相鄰頂點對應(yīng)源用戶的屬性標簽預(yù)測目標用戶的屬性標簽。
綜上,用戶對應(yīng)用的操作能夠體現(xiàn)出用戶的特征從而確定不同用戶之間的相似度,從而以用戶為頂點以兩個相鄰頂點的邊長構(gòu)建用戶傳播圖,基于用戶傳播圖中已確定屬性標簽的源用戶,預(yù)測相鄰頂點對應(yīng)目標用戶的屬性標簽,采用屬性標簽標注用戶的特征,通過用戶傳播圖提高用戶特征的標注效率。
實施例二
在上述實施例的基礎(chǔ)上,本實施例詳細論述基于用戶傳播圖的屬性特征傳播預(yù)測的步驟。
參照圖2,示出了根據(jù)本發(fā)明另一個實施例的數(shù)據(jù)處理方法實施例的步驟流程圖,具體可以包括如下步驟:
步驟202,基于用戶對應(yīng)用的操作行為確定所述用戶在每個屬性維度下的屬性傾向信息。
步驟204,按照屬性傾向信息確定所述用戶在每個屬性維度的屬性向量,將各屬性向量作為所述用戶的屬性標簽。
上述提到用戶的操作行為表征用戶的特征,用戶特征的一種表示方式是人口屬性,即人口所固有的性質(zhì)和特點,包括生物屬性和社會屬性兩個方面。生物屬性是社會屬性的自然條件,并通過社會屬性來實現(xiàn);社會屬性是人口區(qū)別于生物群體的根本標志。依據(jù)劃分方式不同,人口屬性對應(yīng)多種不同的維度,例如上述生物屬性和社會屬性可以是人口屬性的兩個屬性維度,又如生物屬性下可以包括性別維度,而社會屬性下可以包括人生階段維度、職業(yè)維度等,可以依據(jù)需求劃分人口屬性的維度。且每個維度還可以對應(yīng)一定的類別,如性別維度包括男性和女性。
因此不同屬性維度具有不同的類別,由于同一類用戶對應(yīng)用的下載和瀏覽往往存在一定的共性,例如,男性用戶往往會下載軍事類應(yīng)用,而女性通常會下載購物類應(yīng)用,正在上學的用戶通常會下載詞典等工具類因公,而老年用戶多使用養(yǎng)生類應(yīng)用。因此基于用戶對應(yīng)用的操作行為可以識別用戶在 每個屬性維度下的屬性傾向,可以采用屬性傾向信息表示,則屬性傾向信息包括:所述屬性維度對應(yīng)的各類別和每個類別的屬性傾向值。
例如,將人口屬性傾向規(guī)則配置為:標題中包含“武器”的APP的男性傾向分數(shù)為0.9,女性傾向分數(shù)為0.1;標題中包含“美妝”的APP的女性傾向分數(shù)為0.9,男性傾向分數(shù)為0.1;APP的描述信息中包含“經(jīng)期”的APP的女性傾向分數(shù)為0.9,男性傾向分數(shù)為0.1。
本實施例可以提取各種APP的標題以及簡介的各種描述信息,按照該人口屬性傾向規(guī)則對所述描述信息進行分析,可以采用模型訓(xùn)練等各種分析方式,建立相應(yīng)的屬性傾向判別系統(tǒng),該屬性傾向判別系統(tǒng)可以包括上千條領(lǐng)域規(guī)則和APP人口屬性傾向規(guī)則。還可以包括相應(yīng)的判定模型等,從而針對未分析過的應(yīng)用,只需提取其描述信息按照人口屬性傾向規(guī)則進行分析,即可識別該應(yīng)用在在各維度的每個類別下的屬性傾向值。按照屬性傾向信息確定所述用戶在每個屬性維度的屬性向量,將各屬性向量作為所述用戶的屬性標簽。
其中,按照人口屬性傾向規(guī)則不同,人口屬性的維度也存在差別,本實施例中維度包括以下至少一種:性別維度、年齡維度、學歷維度、購買力維度、職業(yè)維度和人生階段維度。每個維度下可以包括至少兩個類別,例如性別維度包括:男性和女性。其中各維度下劃分標準不同,包含的類別也不同,例如人生階段維度包括“正在讀中小學”、“正在讀大學”、“參加工作”、“準備結(jié)婚”、“準備生育”等,年齡維度包括:未成年、成年??梢詫⒁粋€維度下各類別的屬性傾向值的和設(shè)為1,即男性的傾向值加上女性的傾向值為1,又如“正在讀中小學”、“正在讀大學”、“參加工作”、“準備結(jié)婚”和“準備生育”各自的傾向值累加后為1。
第三方應(yīng)用中部分用戶已經(jīng)依據(jù)對應(yīng)用的操作行為確定出了屬性標簽,例如,性別維度有“男性”、“女性”2種,則該性別維度對應(yīng)用戶的屬性標簽通過2維向量[dim1,dim2]表示,每一維依次對應(yīng)“男性”、“女性”,當某用戶的實際向量為[0.9,0.1]時,表示該用戶是男性的分數(shù)為0.9,是女性的分數(shù)為0.1。又如,人生階段維度包括“正在讀中小學”、“正在讀大學”、“參 加工作”、“準備結(jié)婚”、“準備生育”共5種類別,人生階段維度對應(yīng)用戶屬性標簽通過5維向量[dim1,dim2,dim3,dim4,dim5]表示,每一維依次對應(yīng)“正在讀中小學”、“正在讀大學”、“參加工作”、“準備結(jié)婚”、“準備生育”。當某用戶的實際向量為[0,1.0,0,0,0]時,表示該用戶正在讀大學。
步驟206,基于用戶對應(yīng)用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度。
用戶在第三方應(yīng)用平臺中對應(yīng)用進行瀏覽下載等會產(chǎn)生相應(yīng)的操作行為信息,依據(jù)操作行為信息生成相應(yīng)的用戶向量,然后計算兩個用戶對應(yīng)用戶向量之間的距離作為這兩個用戶的相似度,本實施例中相似度可以介于[0,1]之間。
本發(fā)明一個可選實施例中,所述操作行為包括:瀏覽行為和下載行為;所述基于用戶對應(yīng)用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度,包括:基于用戶對應(yīng)用的下載行為確定第一向量,以及基于用戶對應(yīng)用的瀏覽行為確定第二向量;選取兩個用戶,按照操作行為分別計算所述兩個用戶對應(yīng)第一向量之間的第一距離,以及第二向量之間的第二距離;按照權(quán)重對所述第一距離和第二距離進行加權(quán)求和,確定所述兩個用戶之間的相似度。
本實施例中,例如將第三方應(yīng)用平臺中的每個應(yīng)用作為用戶向量中的一位,按照操作行為區(qū)別不同的用戶向量,因此基于用戶對應(yīng)用的下載行為確定第一向量,以及基于用戶對應(yīng)用的瀏覽行為確定第二向量。例如第三方應(yīng)用平臺中包括N個應(yīng)用,N為正整數(shù)。則第一向量和第二向量均為N維向量,如第一向量和第二向量可以表示如(0,1,1,0,0,1……),對于每個用戶,第一向量中各維數(shù)值若為0表征未下載該應(yīng)用,若置為1表征已下載該應(yīng)用;同理,對于第二向量中各維數(shù)值若為0表征未瀏覽該應(yīng)用,若置為1表征已瀏覽該應(yīng)用。本實施例中還可以按照下載次數(shù)進行向量值的配置,如下載兩次則對應(yīng)向量中該維數(shù)值為2,其中下載多次可以是針對一種應(yīng)用卸載后重新安裝的下載,也可以是對應(yīng)用升級更新的下載。
然后選取兩個用戶,按照操作行為進行區(qū)分,即計算兩個用戶對應(yīng)第一 向量之間的第一距離,以及計算兩個用戶對應(yīng)第二向量之間的第二距離,其中對兩個向量之間距離的計算方法有多種,例如采用余弦距離,又如采用歐氏距離,Jaccard距離等,實施例未一一列舉不應(yīng)理解為是對本發(fā)明的限制。
實際處理中,下載行為和瀏覽行為對用戶而言存在區(qū)別的,因此可以對下載行為和瀏覽行為設(shè)置不同的權(quán)重,假設(shè)下載行為設(shè)置第一權(quán)重,瀏覽行為設(shè)置第二權(quán)重,按照權(quán)重對所述第一距離和第二距離進行加權(quán)求和,即按照第一權(quán)重對第一距離進行加權(quán)得到第一加權(quán)值,按照第二權(quán)重對第二距離進行加權(quán)得到第二加權(quán)值,然后將第一加權(quán)值和第二加權(quán)值相加求和確定和值,將該和值作為所述兩個用戶之間的相似度。
以采用余弦距離計算向量之間的距離為例,則兩個用戶之間的相似度為計算公式(1)如下:
similarity(user1,user2)
=cos〈vector_downloaduser1,vector_downloaduser2〉*weightdownload (1)
+cos〈vector_browseuser1,vector_browseuser2〉*weightbrowse
上述公式(1)中:vector_downloaduser1表示網(wǎng)民user1在下載APP行為上的第一向量,向量的每一維對應(yīng)一個APP,取值0表示未下載該APP,取值1表示已下載該APP。vector_downloaduser2類似,表示網(wǎng)民user2在下載APP行為上的第二向量。vector_browseuser1和vector_browseuser2則分別表示網(wǎng)民user1和user2在瀏覽APP行為上的第二向量。運算符”cos〈vector1,vector2〉表示2個向量的夾角余弦。
下載行為的第一權(quán)重通過weightdownload控制,瀏覽行為的第二權(quán)重通過weightbrowse來控制。通??梢哉J為下載行為的意圖更明確,即行為力度更重,數(shù)據(jù)可靠性更好,因此可以設(shè)置weightdownload>。因此,當設(shè)置weightdownload=1,weightbrowse=0時,表征只考慮下載行為,反之,設(shè)置為weightbrowse=0,weightdownload=0則表征只考慮瀏覽行為。
通過上述方式可以基于向量計算任意兩個用戶之間的相似度。
步驟208,以用戶為頂點,以兩個用戶之間的相似度為兩個相鄰頂點的邊長,建立各用戶之間的用戶傳播圖。
本實施例中,按照用戶對應(yīng)用的操作行為可能確定出用戶自身的特征,例如用戶的性別、年齡等,這些特征可以通過屬性標簽表示。但不是所有的用戶都已經(jīng)確定了屬性標簽,因此,為了預(yù)測用戶的屬性標簽,可以建立用戶傳播圖以標識不同用戶之間的關(guān)系,從而基于具有屬性標簽的用戶預(yù)測其他用戶的屬性標簽。以用戶為頂點V,對于相鄰兩個頂點之間的邊的邊長E,可以按照相鄰兩個頂點對應(yīng)用戶之間的相似度表示,即將相似度作為邊長從而創(chuàng)建用戶傳播圖G={V,E}。
其中,在創(chuàng)建用戶傳播圖時,確定一個頂點后,可以按照該頂點對應(yīng)用戶與其他用戶之間的相似度確定相鄰頂點,例如設(shè)置一邊長閾值,相似度超過該邊長閾值對應(yīng)用戶可以作為相鄰頂點的用戶,同時可以確定出這兩個相鄰頂點之間的邊長。
步驟210,將所述屬性標簽標注為所述源用戶在所述用戶傳播圖對應(yīng)頂點的傳播屬性。
本實施例中,將已確定屬性標簽的用戶作為源用戶,將未確定屬性標簽的用戶作為目標用戶。在構(gòu)建完用戶傳播圖后,確定源用戶在用戶傳播圖對應(yīng)的頂點,將所述源用戶的屬性標簽標注為所述頂點的傳播屬性。
步驟212,確定目標用戶在所述用戶傳播圖中對應(yīng)的頂點。
步驟214,在所述用戶傳播圖中查找所述目標用戶對應(yīng)頂點的相鄰頂點,其中,所述相鄰頂點的傳播屬性中標注有屬性標簽。
步驟216,按照所述目標用戶對應(yīng)頂點與相鄰頂點之間的相似度,將所述相鄰頂點的屬性標簽傳播給所述目標用戶對應(yīng)頂點,預(yù)測所述目標用戶的屬性標簽。
在用戶傳播圖中查找目標用戶對應(yīng)的頂點,然后查找該頂點的各相鄰頂點,檢測該相鄰頂點的傳播屬性是否標注有屬性標簽,若相鄰頂點標注有屬性標簽,則該相鄰頂點為目標相鄰頂點,即能夠依據(jù)相似度傳播屬性標簽的相鄰頂點,按照所述目標用戶對應(yīng)頂點與目標相鄰頂點之間的相似度,將所述相鄰頂點的屬性標簽傳播給所述目標用戶對應(yīng)頂點,預(yù)測所述目標用戶的屬性標簽。
本實施例中,每個頂點的屬性標簽?zāi)軌虬凑障嗨贫葌鞑ソo相鄰頂點,在頂點傳播的每一步,每個頂點根據(jù)相鄰頂點的屬性標簽來更新自己的屬性標簽,與該頂點相似度越大,其相鄰頂點對其標注的影響權(quán)值越大,相似頂點的標簽越趨于一致,其標簽就越容易傳播。在標簽傳播過程中,保持已標注數(shù)據(jù)的屬性標簽不變,使其像一個源頭把屬性標簽傳向未標注的頂點。從而當?shù)^程結(jié)束時,相似頂點的概率分布也趨于相似,可以劃分到同一個類別中,從而完成標簽傳播過程。
例如采用如下公式實現(xiàn)屬性標簽在相鄰頂點之間傳播。
上述公式(2)(3)中,V表示用戶傳播圖的頂點集,Vl表示在已標注屬性標簽的頂點集,V\Vl表示在未標注屬性標簽的頂點集,N(ui)表示頂點ui的相鄰頂點集。ωij表示頂點ui和頂點uj之間的邊權(quán)重,即上述相似度。qi表示頂點ui的屬性標簽分布,是上述公式的訓(xùn)練模型需要學習的參數(shù),qi(x)表示頂點ui在屬性標簽x的分數(shù)。ri表示在上述標注好屬性標簽的頂點集中的頂點ui的屬性標簽分布。U表示維度下各屬性標簽的均勻分布。λ是正則項系數(shù)。
上述公式計算的損失函數(shù)Cost(q)由2項組成,前一項用平方損失表示相鄰頂點的屬性標簽分布差異,后一項是正則項,表示屬性標簽分布與均勻分布的差異。因此,上述目標函數(shù)是關(guān)于q的凸函數(shù)。
對于上述公式,可以采用簡單迭代法(simple iterative method)來求解,迭代公式如下:
通過上述各公式可以實現(xiàn)在用戶傳播圖中,按照相鄰頂點的相似度對屬性標簽進行傳播,預(yù)測所述目標用戶的屬性標簽,從而對于第三應(yīng)用平臺中的各用戶,例如新用戶可以基于用戶在該應(yīng)用平臺中的瀏覽、下載的行為確定相似度將其作為頂點加入到用戶傳播圖中,從而依據(jù)其相鄰頂點的屬性標簽預(yù)測該用戶對應(yīng)頂點的屬性標簽,基于該屬性標簽確定用戶的人口屬性。
步驟218,基于所述屬性標簽為用戶推送推薦信息,其中,所述推薦信息包括:與所述屬性標簽匹配的應(yīng)用。
基于所述屬性標簽可以確定用戶屬性傾向信息,從而基于用戶在各應(yīng)用統(tǒng)計的屬性傾向信息可以確定該用戶的人口屬性,如性別、年齡、學歷、購買力、職業(yè)度和人生階段等各種生物和社會特征,從而可以基于該人口屬性統(tǒng)計分析各種數(shù)據(jù),還可以應(yīng)用于各種領(lǐng)域,例如統(tǒng)計分析某一應(yīng)用下載的人口類型分布,又如在用戶的第三方應(yīng)用平臺瀏覽或下載目標應(yīng)用時,可以基于該用戶的人口屬性,為用戶推薦該處于該人口屬性的類別的用戶下載量加大的應(yīng)用,從而使得推薦更加符合用戶需求也更有針對性。還可以基于用戶的人口屬性為其推薦符合用戶需求的廣告數(shù)據(jù)使其更加符合用戶的需求。
用戶使用或下載上述應(yīng)用的過程中通常隱含著一定特征,即同一人口屬性類別的用戶下載應(yīng)用時具有共性上述挖掘用戶的人口屬性以及下載應(yīng)用的人口屬性分布后,可以為APP的推薦提供良好的數(shù)據(jù)基礎(chǔ)。本實施例通過記錄有用戶的瀏覽或下載行為的日志數(shù)據(jù)確定用戶的人口屬性,從而基于人口屬性為用戶推薦APP,提高APP個性化推薦、用戶屬性分析等業(yè)務(wù)的準確性。
對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施 例,所涉及的動作并不一定是本發(fā)明實施例所必須的。
實施例三
在上述實施例的基礎(chǔ)上,本實施例還提供了一種數(shù)據(jù)處理裝置。
參照圖3,示出了根據(jù)本發(fā)明一個實施例的數(shù)據(jù)處理裝置實施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
相似度計算模塊302,用于基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度。
傳播圖建立模塊304,用于以用戶為頂點,以兩個用戶之間的相似度為兩個相鄰頂點的邊長,建立各用戶之間的用戶傳播圖。
傳播屬性標注模塊306,用于將已確定屬性標簽的用戶作為源用戶,將所述屬性標簽標注為所述源用戶在所述用戶傳播圖對應(yīng)頂點的傳播屬性。
屬性標簽預(yù)測模塊308,用于將未確定屬性標簽的用戶作為目標用戶,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相鄰頂點,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽。
綜上,用戶對應(yīng)用的操作能夠體現(xiàn)出用戶的特征從而確定不同用戶之間的相似度,從而以用戶為頂點以兩個相鄰頂點的邊長構(gòu)建用戶傳播圖,基于用戶傳播圖中已確定屬性標簽的源用戶,預(yù)測相鄰頂點對應(yīng)目標用戶的屬性標簽,采用屬性標簽標注用戶的特征,通過用戶傳播圖提高用戶特征的標注效率。
參照圖4,示出了根據(jù)本發(fā)明另一個實施例的數(shù)據(jù)處理裝置實施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
屬性標簽預(yù)確定模塊410,用于基于用戶對應(yīng)用的操作行為確定所述用戶在每個屬性維度下的屬性傾向信息,其中,所述屬性傾向信息包括:所述屬性維度對應(yīng)的各類別和每個類別的屬性傾向值;按照屬性傾向信息確定所述用戶在每個屬性維度的屬性向量,將各屬性向量作為所述用戶的屬性標簽。
相似度計算模塊402,用于基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度。
傳播圖建立模塊404,用于以用戶為頂點,以兩個用戶之間的相似度為兩個相鄰頂點的邊長,建立各用戶之間的用戶傳播圖。
傳播屬性標注模塊406,用于將已確定屬性標簽的用戶作為源用戶,將所述屬性標簽標注為所述源用戶在所述用戶傳播圖對應(yīng)頂點的傳播屬性。
屬性標簽預(yù)測模塊408,用于將未確定屬性標簽的用戶作為目標用戶,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相鄰頂點,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽。
推薦模塊412,用于基于所述屬性標簽為用戶推送推薦信息,其中,所述推薦信息包括:與所述屬性標簽匹配的應(yīng)用。
本發(fā)明一個可選實施例中,所述相似度計算模塊402,用于基于用戶對應(yīng)用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度。
所述操作行為包括:瀏覽行為和下載行為;所述相似度計算模塊402,包括:向量確定子模塊40202,用于基于用戶對應(yīng)用的下載行為確定第一向量,以及基于用戶對應(yīng)用的瀏覽行為確定第二向量;距離計算子模塊40204,用于選取兩個用戶,按照操作行為分別計算所述兩個用戶對應(yīng)第一向量之間的第一距離,以及第二向量之間的第二距離;相似度確定子模塊40206,用于按照權(quán)重對所述第一距離和第二距離進行加權(quán)求和,確定所述兩個用戶之間的相似度。
所述屬性標簽預(yù)測模塊408,包括:
頂點查找子模塊40802,用于確定目標用戶在所述用戶傳播圖中對應(yīng)的頂點;在所述用戶傳播圖中查找所述目標用戶對應(yīng)頂點的相鄰頂點,其中,所述相鄰頂點的傳播屬性中標注有屬性標簽。
預(yù)測子模塊40804,用于按照所述目標用戶對應(yīng)頂點與相鄰頂點之間的相似度,將所述相鄰頂點的屬性標簽傳播給所述目標用戶對應(yīng)頂點,預(yù)測所述目標用戶的屬性標簽。
基于所述屬性標簽可以確定用戶屬性傾向信息,從而基于用戶在各應(yīng)用統(tǒng)計的屬性傾向信息可以確定該用戶的人口屬性,如性別、年齡、學歷、購 買力、職業(yè)度和人生階段等各種生物和社會特征,從而可以基于該人口屬性統(tǒng)計分析各種數(shù)據(jù),還可以應(yīng)用于各種領(lǐng)域,例如統(tǒng)計分析某一應(yīng)用下載的人口類型分布,又如在用戶的第三方應(yīng)用平臺瀏覽或下載目標應(yīng)用時,可以基于該用戶的人口屬性,為用戶推薦該處于該人口屬性的類別的用戶下載量加大的應(yīng)用,從而使得推薦更加符合用戶需求也更有針對性。還可以基于用戶的人口屬性為其推薦符合用戶需求的廣告數(shù)據(jù)使其更加符合用戶的需求。用戶使用或下載上述應(yīng)用的過程中通常隱含著一定特征,即同一人口屬性類別的用戶下載應(yīng)用時具有共性,上述挖掘用戶的人口屬性以及下載應(yīng)用的人口屬性分布后,可以為APP的推薦提供良好的數(shù)據(jù)基礎(chǔ)。本實施例通過記錄有用戶的瀏覽或下載行為的日志數(shù)據(jù)確定用戶的人口屬性,從而基于人口屬性為用戶推薦APP,提高APP個性化推薦、用戶屬性分析等業(yè)務(wù)的準確性。
對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映 的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的數(shù)據(jù)處理方法和裝置設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換 實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
本發(fā)明公開了A1、一種數(shù)據(jù)處理方法,包括:基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度;以用戶為頂點,以兩個用戶之間的相似度為兩個相鄰頂點的邊長,建立各用戶之間的用戶傳播圖;將已確定屬性標簽的用戶作為源用戶,將所述屬性標簽標注為所述源用戶在所述用戶傳播圖對應(yīng)頂點的傳播屬性;將未確定屬性標簽的用戶作為目標用戶,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相鄰頂點,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽。
A2、如A1所述的方法,所述基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度,包括:基于用戶對應(yīng)用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度。
A3、如A2所述的方法,所述操作行為包括:瀏覽行為和下載行為;所述基于用戶對應(yīng)用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度,包括:基于用戶對應(yīng)用的下載行為確定第一向量,以及基于用戶對應(yīng)用的瀏覽行為確定第二向量;選取兩個用戶,按照操作行為分別計算所述兩個用戶對應(yīng)第一向量之間的第一距離,以及第二向量之間的第二距離;按照權(quán)重對所述第一距離和第二距離進行加權(quán)求和,確定所述兩個用戶之間的相似度。
A4、如A1所述的方法,還包括:基于用戶對應(yīng)用的操作行為確定所述用戶在每個屬性維度下的屬性傾向信息,其中,所述屬性傾向信息包括:所述屬性維度對應(yīng)的各類別和每個類別的屬性傾向值;按照屬性傾向信息確定所述用戶在每個屬性維度的屬性向量,將各屬性向量作為所述用戶的屬性標 簽。
A5、如A4所述的方法,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相鄰頂點,包括:確定目標用戶在所述用戶傳播圖中對應(yīng)的頂點;在所述用戶傳播圖中查找所述目標用戶對應(yīng)頂點的相鄰頂點,其中,所述相鄰頂點的傳播屬性中標注有屬性標簽。
A6、如A5所述的方法,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽,包括:按照所述目標用戶對應(yīng)頂點與相鄰頂點之間的相似度,將所述相鄰頂點的屬性標簽傳播給所述目標用戶對應(yīng)頂點,預(yù)測所述目標用戶的屬性標簽。
A7、如A1至A6任一所述的方法,還包括:基于所述屬性標簽為用戶推送推薦信息,其中,所述推薦信息包括:與所述屬性標簽匹配的應(yīng)用。
本發(fā)明實施例還公開了B8、一種數(shù)據(jù)處理裝置,包括:相似度計算模塊,用于基于用戶對應(yīng)用的操作行為計算不同用戶之間的相似度;傳播圖建立模塊,用于以用戶為頂點,以兩個用戶之間的相似度為兩個相鄰頂點的邊長,建立各用戶之間的用戶傳播圖;傳播屬性標注模塊,用于將已確定屬性標簽的用戶作為源用戶,將所述屬性標簽標注為所述源用戶在所述用戶傳播圖對應(yīng)頂點的傳播屬性;屬性標簽預(yù)測模塊,用于將未確定屬性標簽的用戶作為目標用戶,按照所述用戶傳播圖查找所述目標用戶對應(yīng)頂點的相鄰頂點,依據(jù)所述相鄰頂點的傳播屬性預(yù)測所述目標用戶的屬性標簽。
B9、如B8所述的裝置,所述相似度計算模塊,用于基于用戶對應(yīng)用的操作行為確定用戶向量,按照兩個用戶向量之間的距離計算對應(yīng)兩個用戶之間的相似度。
B10、如B9所述的裝置,所述操作行為包括:瀏覽行為和下載行為;所述相似度計算模塊,包括:向量確定子模塊,用于基于用戶對應(yīng)用的下載行為確定第一向量,以及基于用戶對應(yīng)用的瀏覽行為確定第二向量;距離計算子模塊,用于選取兩個用戶,按照操作行為分別計算所述兩個用戶對應(yīng)第一向量之間的第一距離,以及第二向量之間的第二距離;相似度確定子模塊, 用于按照權(quán)重對所述第一距離和第二距離進行加權(quán)求和,確定所述兩個用戶之間的相似度。
B11、如B8所述的裝置,還包括:屬性標簽預(yù)確定模塊,用于基于用戶對應(yīng)用的操作行為確定所述用戶在每個屬性維度下的屬性傾向信息,其中,所述屬性傾向信息包括:所述屬性維度對應(yīng)的各類別和每個類別的屬性傾向值;按照屬性傾向信息確定所述用戶在每個屬性維度的屬性向量,將各屬性向量作為所述用戶的屬性標簽。
B12、如B11所述的裝置,所述屬性標簽預(yù)測模塊,包括:頂點查找子模塊,用于確定目標用戶在所述用戶傳播圖中對應(yīng)的頂點;在所述用戶傳播圖中查找所述目標用戶對應(yīng)頂點的相鄰頂點,其中,所述相鄰頂點的傳播屬性中標注有屬性標簽。
B13、如B12所述的裝置,所述屬性標簽預(yù)測模塊,包括:預(yù)測子模塊,用于按照所述目標用戶對應(yīng)頂點與相鄰頂點之間的相似度,將所述相鄰頂點的屬性標簽傳播給所述目標用戶對應(yīng)頂點,預(yù)測所述目標用戶的屬性標簽。
B14、如B8至B13任一所述的裝置,還包括:推薦模塊,用于基于所述屬性標簽為用戶推送推薦信息,其中,所述推薦信息包括:與所述屬性標簽匹配的應(yīng)用。