專利名稱:基于電視觀看日志挖掘的用戶行為分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種數(shù)據(jù)挖掘領(lǐng)域的方法,具體地說,涉及的是一種基于電視觀看日志挖掘的用戶行為分析方法。
背景技術(shù):
用戶行為的分析和建模在現(xiàn)今的混合網(wǎng)絡(luò),尤其是社會(huì)網(wǎng)絡(luò)的研究中具有重要意義。無處不在的低成本計(jì)算和通信技術(shù)使得人們以前所未有的規(guī)模訪問和共享信息。如此大量的數(shù)據(jù)需要新的基于用戶行為的分析研究以幫助我們理解這些內(nèi)容。此外,受歡迎的網(wǎng)站與復(fù)雜的媒體的分享和通知功能允許用戶和朋友和親人保持聯(lián)系;這些網(wǎng)站和通訊媒體也幫助用戶形成顯性和隱性的社會(huì)團(tuán)體。這些社會(huì)群體是組織和管理多媒體數(shù)據(jù)的一個(gè)重要的信息來源。因此,針對(duì)用戶群體行為的分析研究工作是重要而又必需的。網(wǎng)絡(luò)社交平臺(tái),如國外的Facebook、Twitter、Linkin以及國內(nèi)的騰訊、網(wǎng)易微博、人人網(wǎng)等,容易上傳、標(biāo)簽、分享和互動(dòng)內(nèi)容以及與其他用戶交流;而另一些媒體平臺(tái),如IPTV、SITV、廣播網(wǎng),由媒體單向地向用戶提供信息,用戶之間、用戶與媒體平臺(tái)之間的交互較少或者沒有。雖然各具特點(diǎn),但這 些媒體平臺(tái)都提供了共享和交流的平臺(tái),導(dǎo)致文化以及相應(yīng)的文化現(xiàn)象的迅速出現(xiàn)和傳播,并形成各種社會(huì)群體。從這些社交媒體平臺(tái)而來的信息一關(guān)于用戶個(gè)人、他們?cè)谏缃痪W(wǎng)絡(luò)的交互,以及所屬的社會(huì)結(jié)構(gòu)一是理解復(fù)雜的網(wǎng)絡(luò)社會(huì)現(xiàn)象的寶貴的資源?;谶@些數(shù)據(jù),我們可以提取用戶行為模式,尋找相同用戶,對(duì)用戶進(jìn)行分類,并根據(jù)這些分析結(jié)果加深對(duì)于人類行為和網(wǎng)絡(luò)的理解和認(rèn)識(shí)。在過去幾年中,對(duì)IPTV系統(tǒng)基礎(chǔ)結(jié)構(gòu)建設(shè)和服務(wù)的快速發(fā)展已經(jīng)成為全球范圍的趨勢(shì)。為了優(yōu)化IPTV系統(tǒng),并保持市場(chǎng)的繁榮,基于用戶個(gè)人的行為提供個(gè)性化服務(wù),已經(jīng)越來越重要。大致上講,用戶可以按照他們不同的行為活動(dòng)來分類。一個(gè)合適的用戶活動(dòng)模型可以準(zhǔn)確表現(xiàn)用戶行為,這對(duì)系統(tǒng)的設(shè)計(jì)和仿真很有意義。在關(guān)于社會(huì)網(wǎng)絡(luò)的研究工作中,對(duì)用戶活動(dòng)建模已經(jīng)有一批研究成果。DonaldE.Smith在《IEEE INF0C0M2007proceedings》的第 2546 頁至第 2550 頁發(fā)表的 “ IPTV Bandwidth Demand !Multicast and ChannelSurfing”基于假設(shè)的用戶模型,對(duì)整個(gè)系統(tǒng)的性能進(jìn)行了分析。TongqingQiu等人在《Proceedings of the 9th ACM SIGCOMM conference on Internet measurementconference》的第 430 頁至第 441 頁發(fā)表的“Modeling User Activities in a Large IPTVSystem”針對(duì)IPTV系統(tǒng)進(jìn)行分析。關(guān)于IPTV系統(tǒng),包括頻道訪問頻率,頻道受歡迎程度,機(jī)頂盒的切換頻率等特性,都已經(jīng)被應(yīng)用于分析用戶的特性。以往的方法都遵循了以下思路:用戶觀看電視節(jié)目的行為被作為一種隨機(jī)過程來進(jìn)行建模;通過統(tǒng)計(jì)觀看數(shù)據(jù),從而估計(jì)這個(gè)隨機(jī)過程的分布,然后分析用戶行為;而檢驗(yàn)?zāi)P偷暮侠硇詴r(shí),是通過對(duì)比真實(shí)數(shù)據(jù)和生產(chǎn)模型分別產(chǎn)生的合成數(shù)據(jù)的統(tǒng)計(jì)相似度。這種思路對(duì)系統(tǒng)的時(shí)變性能的建模是有用的,例如駐留時(shí)間,用戶切換電視頻道的頻率,打開電視和關(guān)閉電視的時(shí)間,對(duì)某些電視頻道的偏好等。但是,這些系統(tǒng)的時(shí)變特性不能夠表示用戶個(gè)人的行為。因此,以上的研究工作是針對(duì)于整個(gè)系統(tǒng)的性能的建模,而不是用戶行為的建模。為了分析用戶的行為,而非系統(tǒng)的時(shí)變特性,應(yīng)更多地考慮用戶的特性,并對(duì)用戶穩(wěn)定的特性和變化的特性建模。另一方面,IPTV系統(tǒng)關(guān)于用戶觀看行為的記錄數(shù)據(jù)屬于高維度。對(duì)高維度數(shù)據(jù)進(jìn)行聚類的方法有K-means、RANSAC、稀疏表示等。這些方法都需要事先知道數(shù)據(jù)應(yīng)該被分為幾個(gè)子空間,每個(gè)子空間的維度是多少。Liu等人在《IEEE Transaction on PatternAnalysis and Machine Intelligence》第 35卷第 I 期的第 171 頁至第 184頁發(fā)表的“Robustrecovery of subspace structures by low-rank representation,,提出一種基于低秩的聚類方法,可以達(dá)到對(duì)數(shù)據(jù)的魯棒的和廣義的聚類。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的在于提出一種以用戶觀看電視節(jié)目行為特性為基礎(chǔ)的用戶行為分析方法,該方法根據(jù)用戶觀看電視節(jié)目的時(shí)間冗余和用戶冗余特性,基于多級(jí)低秩模型,通過數(shù)據(jù)挖掘,更好地實(shí)現(xiàn)用戶個(gè)人的行為分析,可用于對(duì)用戶分類、用戶家庭結(jié)構(gòu)分析以及IPTV系統(tǒng)仿真。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:一種基于電視觀看日志挖掘的用戶行為分析方法,包括以下步驟:第一步、根據(jù)節(jié)目類別以及用戶觀看時(shí)間,對(duì)用戶觀看電視記錄的原始數(shù)據(jù)進(jìn)行處理,處理后的數(shù)據(jù)為矩陣形式;第二步、基于低秩模型提取用戶個(gè)人觀看模式,消除用戶觀看行為的時(shí)間冗余。第三步、基于低秩模型提取用戶全局觀看模式,消除用戶觀看行為的用戶冗余。第四步、根據(jù)用戶觀看特性對(duì)觀看模式進(jìn)行分類。第五步、將用戶個(gè)人觀看模式用全局觀看模式線性表示,結(jié)合表示結(jié)果和第四步中的觀看模式分類結(jié)果,建立用戶行為與用戶家庭結(jié)構(gòu)的關(guān)系,并進(jìn)行系統(tǒng)仿真。本發(fā)明的原理是,根據(jù)用戶觀看電視節(jié)目的特性,尤其是時(shí)間冗余性和用戶冗余性,通過多級(jí)低秩模型,首先消除時(shí)間冗余提取用戶個(gè)人觀看模式,再根據(jù)大量用戶個(gè)人觀看模式,消除用戶冗余,提取全局觀看模式。用戶個(gè)人觀看模式可通過全局觀看模式線性表示。表示結(jié)果可用于對(duì)用戶分類以及家庭結(jié)構(gòu)推斷。此外,基于本發(fā)明提出的觀看模式和用戶人口普查數(shù)據(jù),可以仿真IPTV系統(tǒng),合成IPTV系統(tǒng)運(yùn)行參數(shù)。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:本發(fā)明提出多級(jí)低秩模型以分析IPTV系統(tǒng)用戶行為,解決了 IPTV系統(tǒng)中的單個(gè)用戶賬號(hào)是由單個(gè)家庭中的多個(gè)成員共同使用,單個(gè)用戶的行為是由多個(gè)人的行為組合而成這一復(fù)雜問題。本發(fā)明重點(diǎn)建模時(shí)間平穩(wěn)觀看模式及其與IPTV用戶賬號(hào)所代表的家庭的結(jié)構(gòu)和人口特征之間的關(guān)系。根據(jù)本發(fā)明上述的方法,對(duì)于已經(jīng)搭建IPTV系統(tǒng)的地區(qū),通過本發(fā)明所述方法可根據(jù)該地區(qū)IPTV系統(tǒng)的收視情況估計(jì)該地區(qū)的人口信息;對(duì)于未搭建IPTV的地區(qū),可根據(jù)該地區(qū)的人口信息估計(jì)可能的收視情況,對(duì)所需要搭建的系統(tǒng)的帶寬需求,接入速率需求,內(nèi)容設(shè)置等指標(biāo)進(jìn)行評(píng)估,從而更有針對(duì)性地設(shè)計(jì)IPTV系統(tǒng)。本發(fā)明方法的結(jié)果還可以應(yīng)用于人口普查研究領(lǐng)域、IPTV業(yè)務(wù)新市場(chǎng)的開拓和評(píng)估等領(lǐng)域。
通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:圖1是本發(fā)明方法的系統(tǒng)流程圖;圖2是本發(fā)明方法中IPTV用戶數(shù)據(jù)矩陣示意圖;圖3是本發(fā)明方法中觀看模式提取方法流程圖;圖4是系統(tǒng)仿真結(jié)果示意圖。
具體實(shí)施例方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。實(shí)施例:第一步、根據(jù)節(jié)目類別以及用戶觀看時(shí)間,將原始數(shù)據(jù)改寫為矩陣形式。所述的原始數(shù)據(jù)為用戶M天的觀看電視記錄。所述的將原始數(shù)據(jù)改寫為矩陣形式是指,對(duì)用戶i的第m天記錄,將其寫入矩陣dim e Rtxn, m = 1,...,M,T為一天被分割成的時(shí)間段的數(shù)量,N為電視節(jié)目被分類的數(shù)量,dim的元素dim(x,y)取值區(qū)間為
,在數(shù)值上表示在第X個(gè)時(shí)間段內(nèi)用戶觀看第y類電視節(jié)目的時(shí)間占該時(shí)間段時(shí)間的比例。其中,X = 1,…T,y=l,…,N。所述矩陣形式是指,定義L = TXN,將dim寫為向量形式,記為3im,對(duì)用戶i的M天記錄,則有
權(quán)利要求
1.一種基于電視觀看日志挖掘的用戶行為分析方法,其特征在于,包括以下步驟: 第一步、根據(jù)節(jié)目類別以及用戶觀看時(shí)間,對(duì)用戶觀看電視記錄的原始數(shù)據(jù)進(jìn)行處理,處理后的數(shù)據(jù)為矩陣形式; 第二步、基于低秩模型提取用戶個(gè)人觀看模式,消除用戶觀看行為的時(shí)間冗余; 第三步、基于低秩 模型提取用戶全局觀看模式,消除用戶觀看行為的用戶冗余; 第四步、根據(jù)用戶觀看特性對(duì)觀看模式進(jìn)行分類; 第五步、將用戶個(gè)人觀看模式用全局觀看模式線性表示,結(jié)合表示結(jié)果和第四步中觀看模式的分類結(jié)果,建立用戶行為與用戶家庭結(jié)構(gòu)的關(guān)系,并進(jìn)行系統(tǒng)仿真。
2.根據(jù)權(quán)利要求1所述的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,所述第一步,具體實(shí)現(xiàn)為:設(shè)原始數(shù)據(jù)為用戶M天的觀看電視記錄,對(duì)用戶i的第m天記錄,將其寫入矩陣dim e Rtxn, m= I,…,M,T為一天被分割成的時(shí)間段的數(shù)量,N為電視節(jié)目被分類的數(shù)量,dim的元素dim(x,y)取值區(qū)間為[O,I],在數(shù)值上表示在第X個(gè)時(shí)間段內(nèi)用戶觀看第y類電視節(jié)目的時(shí)間占該時(shí)間段時(shí)間的比例,其中,X = I,…T,y = l,…,N; 定義L = TXN,將dim寫為向量形式,記為d 吋用戶i的M天記錄,則有
3.根據(jù)權(quán)利要求2所述 的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,第二步中,所述低秩模型,是指通過求解下述最優(yōu)化問題,得到用戶i的觀測(cè)數(shù)據(jù)的一個(gè)低秩估計(jì),
4.根據(jù)權(quán)利要求3所述的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,第二步中,所述提取個(gè)人觀看模式,消除用戶觀看行為的時(shí)間冗余,是指:對(duì)于秩為&的矩陣4,通過下述方法估計(jì)出Ki個(gè)向量用于表示用戶個(gè)人的觀看模式,所述個(gè)人觀看模式記為
5.根據(jù)權(quán)利要求1所述的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,所述第三步,所述低秩模型,是指通過求解下述最優(yōu)化問題,得到用戶全局觀測(cè)數(shù)據(jù)的一個(gè)低秩估計(jì):
6.根據(jù)權(quán)利要求1所述的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,第四步中,所述用戶觀看特性是指,對(duì)于全局觀看模式
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,第五步中,所述將用戶個(gè)人觀看模式用全局觀看模式線性表示是指:對(duì)于用戶i的個(gè)人觀看模式Pi,提取其主要觀看模式Pil,通過求解下述最優(yōu)化問題,得到其對(duì)應(yīng)的全局觀看模式bs:
8.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,第五步中,所述結(jié)合表示結(jié)果和第四步中的分類結(jié)果,建立用戶行為與用戶家庭結(jié)構(gòu)的關(guān)系是指:根據(jù)用戶的主要觀看模式對(duì)應(yīng)的全局觀看模式,找到用戶觀看行為的特性,如主要的觀看節(jié)目、主要的觀察時(shí)間段,即峰值位置以及用戶的個(gè)人觀看模式的個(gè)數(shù),根據(jù)用戶觀看行為的特性,推斷用戶的家庭結(jié)構(gòu)。
9.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,第五步中,所述系統(tǒng)仿真是指,在建立了用戶主要觀看模式與用戶家庭結(jié)構(gòu)的對(duì)應(yīng)關(guān)系之后,根據(jù)地區(qū)的人口普查結(jié)果,得到該地區(qū)的用戶家庭結(jié)構(gòu)的分布情況,進(jìn)而推斷出用戶的觀看模式,即觀看IPTV的行為,對(duì)系統(tǒng)的特性進(jìn)行仿真。
10.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的基于電視觀看日志挖掘的用戶行為分析方法,其特征是,第五步中,所述系統(tǒng)特性是指,系統(tǒng)中在線用戶數(shù)以及不同節(jié)目的觀看人數(shù)隨時(shí)間變化的曲線。
全文摘要
本發(fā)明提出一種基于電視觀看日志挖掘的用戶行為分析方法,根據(jù)用戶觀看電視節(jié)目的特性,尤其是時(shí)間冗余性和用戶冗余性,通過多級(jí)低秩模型,首先消除時(shí)間冗余提取用戶個(gè)人觀看模式,再根據(jù)大量用戶個(gè)人觀看模式,消除用戶冗余,提取全局觀看模式。用戶個(gè)人觀看模式可通過全局觀看模式線性表示。表示結(jié)果可用于對(duì)用戶分類。我們分析用戶觀看模式從而可推斷出用戶家庭結(jié)構(gòu)。此外,基于本發(fā)明提出的觀看模式和用戶人口普查數(shù)據(jù)們可以仿真IPTV系統(tǒng),合成IPTV系統(tǒng)運(yùn)行參數(shù)。
文檔編號(hào)H04N21/462GK103106615SQ20131003268
公開日2013年5月15日 申請(qǐng)日期2013年1月28日 優(yōu)先權(quán)日2013年1月28日
發(fā)明者羅迪新, 許洪騰, 楊小康, 解蓉, 張文軍 申請(qǐng)人:上海交通大學(xué)