用戶屬性的識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種用戶屬性的識別方法及裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的用戶利用網(wǎng)絡(luò)進行各種與多媒體相關(guān)的娛樂活 動,如上網(wǎng)聽歌或看電影等等。而由于信息量的爆炸式增長,使得用戶很難在海量信息中快 速的找到自己感興趣的多媒體文件。
[0003] 為了解決這一問題,很多網(wǎng)絡(luò)服務(wù)提供了推薦功能,如根據(jù)用戶的屬性、偏好等信 息為用戶進行針對性的推薦。在現(xiàn)實生活中,如性別、年齡等屬性的不同會造成用戶對多媒 體文件類型的偏好產(chǎn)生很大差異,因此,用戶屬性可以認為是對推薦準確率的影響較大的 一個因素。
[0004] -般地,用戶屬性可以體現(xiàn)在用戶的個人資料中,然而,在實際使用中,絕大多數(shù) 用戶均不會完善自己的個人資料,使得對這類用戶的推薦準確率較低,間接影響到了用戶 對應(yīng)用的使用觀感,影響網(wǎng)絡(luò)服務(wù)的用戶粘度,因此,亟需一種用戶屬性的識別方法,以解 決現(xiàn)有技術(shù)中出現(xiàn)的問題。
【發(fā)明內(nèi)容】
[0005] 為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實施例提供了一種用戶屬性的識別方法及裝 置。所述技術(shù)方案如下:
[0006] 一方面,本發(fā)明實施例提供了一種用戶屬性的識別方法,所述方法包括:
[0007] 獲取第一樣本用戶集合,所述第一樣本用戶集合中包括在平臺上注冊并保存有屬 性信息的用戶;
[0008] 獲取所述第一樣本用戶集合中用戶的第一播放記錄集合,所述第一播放記錄集合 包括用戶所播放的多媒體文件信息;
[0009] 對所述第一樣本用戶集合以及第一播放記錄集合進行篩選,得到第二樣本用戶集 合和第二播放記錄集合;
[0010] 基于所述第二樣本用戶集合和第二播放記錄集合,生成特征矩陣,所述特征矩陣 包括所述第二樣本用戶集合中每個用戶的特征向量,所述每個用戶的特征向量根據(jù)所述每 個用戶所播放的多媒體文件信息生成;
[0011] 基于所述特征矩陣中的特征向量和所述特征向量的屬性信息,構(gòu)建分類模型;
[0012] 根據(jù)待識別用戶的播放記錄,生成所述待識別用戶的特征向量;
[0013] 將所述待識別用戶的特征向量輸入所述分類模型,輸出所述待識別用戶的用戶屬 性。
[0014] 可選地,獲取所述第一樣本用戶集合中用戶的第一播放記錄集合包括:
[0015] 獲取所述第一樣本用戶集合中各個用戶在預設(shè)時間段內(nèi)所播放的多媒體文件信 息。
[0016] 可選地,所述對所述第一樣本用戶集合以及第一播放記錄集合進行篩選,得到第 二樣本用戶集合和第二播放記錄集合,包括:
[0017] 從所述第一樣本用戶集合中篩選掉預設(shè)時間段內(nèi)播放多媒體文件數(shù)少于第一預 設(shè)閾值的用戶,得到第二樣本用戶集合;
[0018] 從所述第一播放記錄集合中篩選掉所述預設(shè)時間段內(nèi)播放人數(shù)少于第二預設(shè)閾 值的多媒體文件,得到第二播放記錄集合。
[0019] 可選地,基于所述第二樣本用戶集合和第二播放記錄集合,生成特征矩陣包括:
[0020] 對于所述第二樣本用戶集合中的任一個用戶,統(tǒng)計所述用戶播放過的每個多媒體 文件在所述第二播放記錄集合中的詞頻和逆文檔頻率;
[0021] 根據(jù)所述用戶經(jīng)統(tǒng)計得到的每個多媒體文件的詞頻和逆文檔頻率,生成每個多媒 體文件的向量元素;
[0022] 將所述每個多媒體文件的向量元素組合,得到所述用戶的播放分值向量;
[0023] 將所述第二樣本用戶集合中的每個用戶的播放分值向量組合,得到播放分值矩 陣;
[0024] 將所述播放分值矩陣進行降維,按照降維后的特征值從大到小排列,并選取前第 一預設(shè)數(shù)目個向量組成特征矩陣。
[0025] 可選地,基于所述特征矩陣中的特征向量和所述特征向量的屬性信息,構(gòu)建分類 模型包括:
[0026] 基于所述特征矩陣中的第一特征向量和所述第一特征向量的屬性信息進行訓練, 生成初始分類模型,所述第一特征向量為前第二預設(shè)數(shù)目個特征向量;
[0027] 基于所述特征矩陣中的第二特征向量和所述第二特征向量的屬性信息對所述初 始分類模型進行驗證和調(diào)整,得到所述分類模型,所述第二特征向量為所述特征矩陣中除 所述第一特征向量以外的特征向量。
[0028] 另一方面,本發(fā)明實施例提供了一種用戶屬性的識別裝置,所述裝置包括:
[0029] 用戶集合獲取模塊,用于獲取第一樣本用戶集合,所述第一樣本用戶集合中包括 在平臺上注冊并保存有屬性信息的用戶;
[0030] 播放集合獲取模塊,用于獲取所述第一樣本用戶集合中用戶的第一播放記錄集 合,所述第一播放記錄集合包括用戶所播放的多媒體文件信息;
[0031] 篩選模塊,用于對所述第一樣本用戶集合以及第一播放記錄集合進行篩選,得到 第二樣本用戶集合和第二播放記錄集合;
[0032] 矩陣生成模塊,用于基于所述第二樣本用戶集合和第二播放記錄集合,生成特征 矩陣,所述特征矩陣包括所述第二樣本用戶集合中每個用戶的特征向量,所述每個用戶的 特征向量根據(jù)所述每個用戶所播放的多媒體文件信息生成;
[0033] 建模模塊,用于基于所述特征矩陣中的特征向量和所述特征向量的屬性信息,構(gòu) 建分類模型;
[0034] 向量生成模塊,用于根據(jù)待識別用戶的播放記錄,生成所述待識別用戶的特征向 量;
[0035] 識別模塊,用于將所述待識別用戶的特征向量輸入所述分類模型,輸出所述待識 別用戶的用戶屬性。
[0036] 可選地,所述播放集合獲取模塊用于獲取所述第一樣本用戶集合中各個用戶在預 設(shè)時間段內(nèi)所播放的多媒體文件信息。
[0037] 可選地,所述篩選模塊用于從所述第一樣本用戶集合中篩選掉預設(shè)時間段內(nèi)播放 多媒體文件數(shù)少于第一預設(shè)閾值的用戶,得到第二樣本用戶集合;從所述第一播放記錄集 合中篩選掉所述預設(shè)時間段內(nèi)播放人數(shù)少于第二預設(shè)閾值的多媒體文件,得到第二播放記 錄集合。
[0038] 可選地,所述矩陣生成模塊用于對于所述第二樣本用戶集合中的任一個用戶,統(tǒng) 計所述用戶播放過的每個多媒體文件在所述第二播放記錄集合中的詞頻和逆文檔頻率;根 據(jù)所述用戶經(jīng)統(tǒng)計得到的每個多媒體文件的詞頻和逆文檔頻率,生成每個多媒體文件的向 量元素;將所述每個多媒體文件的向量元素組合,得到所述用戶的播放分值向量;將所述 第二樣本用戶集合中的每個用戶的播放分值向量組合,得到播放分值矩陣;將所述播放分 值矩陣進行降維,按照降維后的特征值從大到小排列,并選取前第一預設(shè)數(shù)目個向量組成 特征矩陣。
[0039] 可選地,所述建模模塊用于基于所述特征矩陣中的第一特征向量和所述第一特征 向量的屬性信息進行訓練,生成初始分類模型,所述第一特征向量為前第二預設(shè)數(shù)目個特 征向量;基于所述特征矩陣中的第二特征向量和所述第二特征向量的屬性信息對所述初始 分類模型進行驗證和調(diào)整,得到所述分類模型,所述第二特征向量為所述特征矩陣中除所 述第一特征向量以外的特征向量。
[0040] 本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0041] 通過利用一些已經(jīng)留下屬性信息的用戶對多媒體文件的播放記錄進行建模,可以 得到用于進行屬性識別的分類模型,從而可以基于待識別用戶的歷史播放記錄,預測該待 識別用戶的性別、年齡等屬性信息,以獲取進行用戶服務(wù)的基礎(chǔ),可以提高如多媒體推薦等 用戶服務(wù)的準確性。
【附圖說明】
[0042] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0043] 圖1是本發(fā)明實施例提供的一種用戶屬性的識別方法的流程圖;
[0044] 圖2是本發(fā)明實施例提供的一種用戶屬性的識別方法的流程圖;
[0045] 圖3是本發(fā)明實施例提供的一種用戶屬性的識別裝置結(jié)構(gòu)示意圖;
[0046] 圖4是根據(jù)一示例性實施例示出的一種用于用戶屬性的識別的裝置400的框圖。
【具體實施方式】
[0047] 為使本發(fā)明的目的