本發(fā)明涉及一種網(wǎng)絡(luò)電視用戶預(yù)測技術(shù)領(lǐng)域,尤其是一種面向網(wǎng)絡(luò)電視用戶的時序主題偏好預(yù)測方法。
背景技術(shù):
隨著交互式網(wǎng)絡(luò)電視(Internet Protocol Television,IPTV)產(chǎn)業(yè)的快速發(fā)展,網(wǎng)絡(luò)電視用戶數(shù)不斷增長,電視節(jié)目源隨之增加。把握用戶的節(jié)目偏好,為用戶及時推薦感興趣的電視節(jié)目,有利于網(wǎng)絡(luò)電視運營商提供優(yōu)質(zhì)用戶體驗,吸引用戶資源,防止用戶流失。用戶的節(jié)目主題偏好往往能夠體現(xiàn)出網(wǎng)絡(luò)電視用戶的家庭成員組成結(jié)構(gòu)、家庭成員興趣等特征,通過分析用戶的主題偏好有利于運營商針對用戶的家庭成員組成結(jié)構(gòu)、用戶興趣提供相應(yīng)的增值服務(wù),甚至是為用戶提供第三方服務(wù),有利于提高運營商的經(jīng)濟(jì)效益。
現(xiàn)有的預(yù)測電視用戶觀看節(jié)目行為的方法有:1)、多用戶上下文識別的節(jié)目推薦,2)、基于協(xié)同過濾的電視節(jié)目推薦等,以上方法在一定程度上預(yù)測了用戶的節(jié)目偏好,并進(jìn)行相似節(jié)目的推薦,但其存在一定的缺點,(1)、是用戶在一天中各個時間區(qū)間的節(jié)目偏好不同,即便用戶偏好某一個電視節(jié)目,但是因為推薦的時間點不恰當(dāng);(2)、分析用戶的節(jié)目偏好,預(yù)測用戶可能喜歡的節(jié)目,只能為用戶推薦電視節(jié)目。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種面向網(wǎng)絡(luò)電視用戶的時序主題偏好預(yù)測方法,該方法能夠準(zhǔn)確預(yù)測電視用戶在不同時間段的電視節(jié)目偏好。
本發(fā)明的技術(shù)方案為:一種面向網(wǎng)絡(luò)電視用戶的時序主題偏好預(yù)測方法,其特征在于,包括以下步驟:
1)通過網(wǎng)絡(luò)電視運營商服務(wù)器抓取用戶d天內(nèi)觀看網(wǎng)絡(luò)電視節(jié)目的基本數(shù)據(jù),其中每一天的記錄時間為00:00:00到23:59:59;
2)、針對抓取的基本數(shù)據(jù)設(shè)置電視節(jié)目觀看最小時間tmin、時間區(qū)間長度L、電視節(jié)目的主題Tk(k=1,2,...n)的數(shù)量n;
3)、根據(jù)用戶觀看每條電視節(jié)目的起始時間和結(jié)束時間分別計算出每條電視節(jié)目的觀看時間t,如果t<tmin,則刪除該條電視節(jié)目;
4)、將d天的每一天按照從00:00:00到23:59:59依次等分成N個時間片段,從而得到d天的時間片段集Sj,i={s1,1,s1,2,...s1,i,s2,1,s2,2,...s2,i,...sj,2,...sj,i},其中sj,i表示第i(i=1,2,...d)天的第j(j=1,2,...N)個時間片段,sj={sj,1,sj,2,...sj,i}表示第j(j=1,2,...N)個時間片段,通過時間片段集Sj,i={s1,1,s1,2,...s1,i,s2,1,s2,2,...s2,i,...sj,2,...sj,i}與用戶觀看電視節(jié)目的天數(shù)d構(gòu)建得到每個用戶d天觀看電視節(jié)目集Q={q1,1,q1,2,...q1,j,q2,1,q2,2,...q2,j,...qi,2,...qi,j},其中,qi,j表示該用戶在第i天的第j個時間片段sj,i里觀看的電視節(jié)目集;
5)、利用隱含狄利克雷分布(LDA)模型對電視節(jié)目集Q進(jìn)行分析,得到n個關(guān)于電視節(jié)目的主題Tk(k=1,2,...n),以及每個電視節(jié)目分別落在主題Tk(k=1,2,...n)下的概率TPP={P1,1,…P1,k,…,P1,n,…,Pp,1,…Pp,k,…,Pp,n},其中,Pp,k表示電視節(jié)目p落在主題Tk下的概率;
6)、對每個主題Tk(k=1,2,...n)下的電視節(jié)目按照其在該主題Tk(k=1,2,...n)下的概率TPP從大到小依次進(jìn)行排序,選取該主題Tk(k=1,2,...n)下前5個電視節(jié)目作為該主題Tk(k=1,2,...n)下隱含的偏好電視節(jié)目,并將該偏好電視節(jié)目的特征作為該主題Tk(k=1,2,...n)隱含的特征;
7)、對于步驟4中得到的每個用戶觀看電視節(jié)目集Q的每個元素qi,j中的電視節(jié)目p,根據(jù)其在n個主題Tk(k=1,2,...n)下的概率分布為{Pp,1,…,Pp,n},當(dāng)則將該電視節(jié)目p替換為其對應(yīng)的主題Tk(k=1,2,...n);
8)、根據(jù)得到用戶在各個時間片段中各個主題Tk(k=1,2,...n)的分布比例,其中,Count(Tk|sj)表示主題Tk(k=1,2,...n)在第j個時間片段sj={sj,1,sj,2,...sj,i}出現(xiàn)的總次數(shù);
9)、將步驟9中得到的該用戶在第j個時間片段sj={sj,1,sj,2,...sj,i}里觀看的主題Tk(k=1,2,...n)的分布比例按照從大到小進(jìn)行排序,選取前m個分布比例累加和大于0.8的主題Tk(k=1,2...n)作為用戶在該時間片段sj={sj,1,sj,2,...sj,i}內(nèi)的偏好主題,從而得到每個時間片段的m個偏好主題;
10)、將步驟9中得到的每個時間片段的偏好主題以及該偏好主題下的5個偏好電視節(jié)目、偏好節(jié)目特征作為預(yù)測結(jié)果。
本發(fā)明的有益效果為:通過對提取的數(shù)據(jù)先進(jìn)行清理,清除了一些實用性不強(qiáng)的數(shù)據(jù),從而提高了預(yù)測結(jié)果的可靠性,通過LDA模型能夠獲得若干個主題,得到每一個主題隱含的用戶特征,通過將一天劃分為N個時間片段,細(xì)化了預(yù)測用戶節(jié)目偏好的時間片段,不僅提高了電視節(jié)目偏好預(yù)測在時間上的精準(zhǔn)性,并且結(jié)合電視節(jié)目主題體現(xiàn)的用戶特征可以分析得到用戶家庭成員結(jié)構(gòu)以及興趣特征,有利于電視運營商為用戶提供高質(zhì)量用戶體驗服務(wù),有利于電視運營商結(jié)合用戶特征推廣增值服務(wù)及第三方商業(yè)服務(wù),提高經(jīng)濟(jì)效益。
附圖說明
圖1為本發(fā)明的流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的具體實施方式作進(jìn)一步說明:
如圖1所示,一種面向網(wǎng)絡(luò)電視用戶的時序主題偏好預(yù)測方法,其特征在于,包括以下步驟:
1)通過網(wǎng)絡(luò)電視運營商服務(wù)器抓取用戶d天內(nèi)觀看網(wǎng)絡(luò)電視節(jié)目的基本數(shù)據(jù),其中每一天的記錄時間為00:00:00到23:59:59;
2)、針對抓取的基本數(shù)據(jù)設(shè)置電視節(jié)目觀看最小時間tmin、時間區(qū)間長度L、電視節(jié)目的主題Tk(k=1,2,...n)的數(shù)量n;
3)、根據(jù)用戶觀看每條電視節(jié)目的起始時間和結(jié)束時間分別計算出每條電視節(jié)目的觀看時間t,如果t<tmin,則刪除該條電視節(jié)目;
4)、將d天的每一天按照從00:00:00到23:59:59依次等分成N個時間片段,從而得到d天的時間片段集Sj,i={s1,1,s1,2,...s1,i,s2,1,s2,2,...s2,i,...sj,2,...sj,i},其中sj,i表示第i(i=1,2,...d)天的第j(j=1,2,...N)個時間片段,sj={sj,1,sj,2,...sj,i}表示第j(j=1,2,...N)個時間片段,通過時間片段集Sj,i={s1,1,s1,2,...s1,i,s2,1,s2,2,...s2,i,...sj,2,...sj,i}與用戶觀看電視節(jié)目的天數(shù)d構(gòu)建得到每個用戶d天觀看電視節(jié)目集Q={q1,1,q1,2,...q1,j,q2,1,q2,2,...q2,j,...qi,2,...qi,j},其中,qi,j表示該用戶在第i天的第j個時間片段sj,i里觀看的電視節(jié)目集;
5)、利用隱含狄利克雷分布(LDA)模型對電視節(jié)目集Q進(jìn)行分析,得到n個關(guān)于電視節(jié)目的主題Tk(k=1,2,...n),以及每個電視節(jié)目分別落在主題Tk(k=1,2,...n)下的概率TPP={P1,1,…P1,k,…,P1,n,…,Pp,1,…Pp,k,…,Pp,n},其中,Pp,k表示電視節(jié)目p落在主題Tk下的概率;
6)、對每個主題Tk(k=1,2,...n)下的電視節(jié)目按照其在該主題Tk(k=1,2,...n)下的概率TPP從大到小依次進(jìn)行排序,選取該主題Tk(k=1,2,...n)下前5個電視節(jié)目作為該主題Tk(k=1,2,...n)下隱含的偏好電視節(jié)目,并將該偏好電視節(jié)目的特征作為該主題Tk(k=1,2,...n)隱含的特征;
7)、對于步驟4中得到的每個用戶觀看電視節(jié)目集Q的每個元素qi,j中的電視節(jié)目p,根據(jù)其在n個主題Tk(k=1,2,...n)下的概率分布為{Pp,1,…,Pp,n},當(dāng)則將該電視節(jié)目p替換為其對應(yīng)的主題Tk(k=1,2,...n);
8)、根據(jù)得到用戶在各個時間片段中各個主題Tk(k=1,2,...n)的分布比例,其中,Count(Tk|sj)表示主題Tk(k=1,2,...n)在第j個時間片段sj={sj,1,sj,2,...sj,i}出現(xiàn)的總次數(shù);
9)、將步驟9中得到的該用戶在第j個時間片段sj={sj,1,sj,2,...sj,i}里觀看的主題Tk(k=1,2,...n)的比例按照從大到小進(jìn)行排序,選取前m個比例累加和大于0.8的主題Tk(k=1,2...n)作為用戶在該時間片段sj={sj,1,sj,2,...sj,i}內(nèi)的偏好主題,從而得到每個時間片段的偏好主題;10)、將步驟9中得到的每個時間片段的偏好主題以及該偏好主題下的5個偏好電視節(jié)目、偏好節(jié)目特征作為預(yù)測結(jié)果。
上述實施例和說明書中描述的只是說明本發(fā)明的原理和最佳實施例,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。