專利名稱:一種基于mds算法的隱性用戶特征提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電視節(jié)目推薦技術(shù),更具體地說,涉及一種隱性用戶特征提取 方法和電一見節(jié)目推薦方法。
背景技術(shù):
當(dāng)4^fr界正處在數(shù)字化浪潮之中,廣播電視也是如此。歐美主要發(fā)達國家
都將廣播電視全面數(shù)字化的時間定在2010年前后,我國也計劃于2015年全面 實現(xiàn)數(shù)字化。2006年底,中國數(shù)字電視用戶已經(jīng)達到1200萬戶,并且,根據(jù) 賽迪顧問的預(yù)測,到2007年,全球數(shù)字電視用戶將達到6.3億戶。
電視數(shù)字化帶來的變革之一就是電視節(jié)目的極大豐富。按照當(dāng)前MPEG2 的視頻編碼方式,有線電視系統(tǒng)將能夠傳輸500套標(biāo)準(zhǔn)清晰度的數(shù)字電視節(jié) 目。如果使用H.264等先進的編碼格式,傳輸?shù)臄?shù)字電視節(jié)目將達到1500套, 在此趨勢下, 一方面電視用戶在很高興地面對日益豐富多彩的電視節(jié)目,而另 一方面他們又在為如何在如此眾多的電視節(jié)目中挑選他們感興趣的內(nèi)容而發(fā) 愁,電視用戶將面臨與互聯(lián)網(wǎng)用戶類似的"信息過載"問題。傳統(tǒng)的印制電視 節(jié)目清單和頻道沖浪方式此時已經(jīng)不能對他們提供幫助。因為對于500個頻 道,如果10個頻道1天的節(jié)目清單印制在一頁紙上,那么全部500個頻道一 個星期的電視節(jié)目清單將是一本350頁的厚書,面對這樣一本書,用戶很難有 耐心來閱讀和查找他所需要的節(jié)目;另外,如果每個頻道瀏覽IO秒鐘,用戶 采用頻道沖浪方法瀏覽完全部500個頻道的內(nèi)容將耗時82.5分鐘,這樣的時 間用戶是難以接受的。目前的電子節(jié)目指南采用基于頻道或類別(例如體育、 財經(jīng)、電影等)的方式顯示節(jié)目清單,此種方式雖然能夠部分解決上述問題, ^f旦仍然沒有徹底解決問題。
要徹底的解決電視信息"過載"的問題,就需要研究用戶的收視行為,判斷用戶的收視喜好以及其他愛好,根據(jù)用戶的興趣、愛好和規(guī)律自動地向用戶 推薦電視節(jié)目和服務(wù)。為實現(xiàn)電視節(jié)目與用戶喜好的自動匹配,現(xiàn)有技術(shù)為電 視節(jié)目預(yù)先定義節(jié)目特征,為用戶定義用戶特征,并使用相同的分量來描述節(jié) 目特征和用戶特征。如此一來,便可通過比較節(jié)目特征和用戶特征的相似度來 將電視節(jié)目與用戶喜好進行匹配,繼而向用戶推薦其喜愛(即與用戶特征相似 度高)的電視節(jié)目。
在現(xiàn)有的電視節(jié)目推薦方案中,節(jié)目特征的內(nèi)容包括節(jié)目的類型、播出時 間、播出頻道等等,與此相對,用戶特征的內(nèi)容包括喜愛的節(jié)目類型、喜愛的 播出時間、喜愛的頻道等等。節(jié)目特征可通過節(jié)目本身的屬性來獲取。而在現(xiàn) 階段,用戶特征則主要通過問巻調(diào)查的方式來獲取,即通過紙件或電子等形式 的調(diào)查問巻來收集用戶特征。由于用戶特征可能經(jīng)常發(fā)生變化,因此問巻調(diào)查 的結(jié)果非常容易過期。同時,由于問巻內(nèi)容過多過細(xì)會使用戶失去耐心,因此 問巻調(diào)查的結(jié)果非常粗略,無法做到十分準(zhǔn)確。此外,對于有線電視運營商而 言,從調(diào)查問巻中提取用戶特征(尤其是以手工方式)也是一項繁重的工作。
因此,需要一種用戶特征提取方案,能夠克服現(xiàn)有技術(shù)存在的缺陷。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對現(xiàn)有技術(shù)通過問巻調(diào)查方式獲取用戶 特征時存在的調(diào)查結(jié)果不夠準(zhǔn)確且容易過期以及任務(wù)繁重的缺陷,提供一種隱 性用戶特征提取方法和電視節(jié)目推薦方法和系統(tǒng)。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是 一種隱性用戶特征提取方 法,包括以下步驟
A. 采集用戶的歷史收4見記錄,并將收^見記錄空間的節(jié)目樣本變換到一種可 用距離度量的歐式空間中的樣本點;
B. 采用聚類算法將可度量歐式空間中的樣本點分成若干聚類簇,確定每簇 的聚類中心;
C. 確定可度量歐式空間中離聚類中心最近的樣本點,并找到所述樣本點對 應(yīng)于收-視記錄空間中的節(jié)目樣本;D.根據(jù)確定的節(jié)目樣本,提取代表用戶收視特征的隱性用戶特征。 所述步驟A采用MDS算法進行所述空間變換,使收視記錄空間和可度量 的歐式空間中的對應(yīng)節(jié)目間兩兩——對應(yīng),其實現(xiàn)包括以下步驟
(1 )求出收視記錄空間中由所述節(jié)目樣本的兩兩差異值構(gòu)成的n x n維的 差異矩陣,其中n是所述收;規(guī)記錄空間中節(jié)目樣本的數(shù)目;
(2 )根據(jù)所述差異矩陣得到一個在所述可度量歐式空間的n x n維的內(nèi)積 矩陣B,其中n是所述收3見記錄空間中節(jié)目樣本的數(shù)目,其中內(nèi)積矩陣B的定 義如下
&=:c/xs, ^是內(nèi)積矩陣B中位于第r行、第s列的元素,xr、 jc,分別表示 可度量歐式空l可中與收視記錄空間中第r、 s個節(jié)目樣本對應(yīng)的樣本點;
(3) 求出所述內(nèi)積矩陣B的n個特征值M,...,入n,及其對應(yīng)的歸一特 征向量Vi,…,vn;
(4) 確定可度量歐式空間的維數(shù)p,使其滿足如下誤差要求
tvE(^iA>0)<7%,其中^是給定的一個誤差閾值;
,=1 A
(5 )求出收視記錄空間中各節(jié)目樣本對應(yīng)在可度量歐式空間各個樣本點 的坐標(biāo)^-;ijv,, (r=l,...,n),其中以r表示第r個特征值及其對應(yīng)的特征向量。
所述步驟A之前包括通過問巻調(diào)查等形式,定義隱性特征各屬性間的 兩兩差異表,所述隱性用戶特征差異表包括
頻道差異表T(c),
主類別差異表T(m),
子類別差異表T(s);
查找上述差異表,求出節(jié)目在各個特征分量上的差異值,包括
頻道差異5 re|c,
主類別差異5
rs!m,
子類別差異5—;
時間差異由兩節(jié)目纟番;改時間點所在時針位置之間的夾角6計算 時間差異5一= sir^;計算兩兩節(jié)目的差異
5 rs = wc 5 re|c +Wm 5 rs|m+Ws 5 rs|s+wt 5 rs|t,其中wc、 wm、 ws、 wt分另'J代表頻
道差異、主類別差異、子類別差異、時間差異的^l重。
本發(fā)明還提供了一種電視節(jié)目推薦方法,包括 依據(jù)每一節(jié)目的節(jié)目特征求得該節(jié)目與隱性用戶特征間的差異值; 對可選節(jié)目按照差異值從小到大進行排序; 發(fā)送排序靠前的可選節(jié)曰的名稱。
所述各個待播節(jié)目與隱性用戶特征的差異值由該節(jié)目的節(jié)目特征和隱性 用戶特征求得,其過程包括
分別求出該節(jié)目的播出時段、所在頻道、所在大類和所在小類與隱性用戶 特征對應(yīng)的喜好時段、喜好頻道、喜好大類和喜好小類的間的差異值
頻道差異5c,
主類別差異5m,
子類別差異5s,
時間差異5t;
計算該節(jié)目與隱性用戶特征間的差異
5 = wc5c +Wm5m+Ws5 S+Wt&t,其中Wc、 Wm、 Ws、 Wt分別代表頻道差異、
主類對差異、子類別差異、時間差異的4又重。
實施本發(fā)明的技術(shù)方案,具有以下有益效果從采集用戶收視記錄到依據(jù) 收視記錄提取用戶特征再到依據(jù)用戶特征向用戶推薦電視節(jié)目,整個過程均自 動完成,無需人工干預(yù),大大節(jié)省人力;依據(jù)用戶收視記錄來提取用戶特征, 可使用戶特征能夠隨收視記錄定期更新,且收視記錄詳實客觀,可確保提取的 結(jié)果細(xì)致準(zhǔn)確;通過從多個角度來綜合比較節(jié)目特征與用戶特征的相似度,可 以使推薦的電視節(jié)目更符合用戶的實際需要。
下面將結(jié)合附圖及實施例對本發(fā)明作進一步說明,附圖中
圖1是依據(jù)本發(fā)明一較佳實施例的隱性用戶特征提取方法的流程圖;圖2是依據(jù)本發(fā)明一較佳實施例的采用MDS算法從收^L記錄空間到一個 可度量歐式空間的空間變換方法的流程圖3是依據(jù)本發(fā)明一較佳實施例的計算兩節(jié)目間差異值的流程圖; 圖4是依照本發(fā)明一較佳實施例的電視節(jié)目推薦方法的流程圖。
具體實施例方式
本發(fā)明提供了 一種電視節(jié)目推薦解決方案,可從用戶收視記錄中提取用戶 特征,并從多個角度來綜合考量節(jié)目是否適合推薦,比較節(jié)目特征與用戶特征 的相似度,下面就結(jié)合附圖和具體實施例對本發(fā)明的技術(shù)方案進行描述。
在執(zhí)行本發(fā)明的所有步驟之前,必須在用戶調(diào)查的基礎(chǔ)上定義各個節(jié)目特 征間的差異表,包括頻道差異表T(c)、主類別差異表T(m)、子類別差異表 T(s)。
圖1是依據(jù)本發(fā)明一較佳實施例的隱性用戶特征提取方法的流程圖。如圖 1所示,方法100開始于步驟102。隨后,在步驟104中,讀取用戶的歷史收看記錄,得到收視記錄空間中各 節(jié)目樣本。
隨后,在步驟106中,利用MDS算法,將收-見記錄空間中各節(jié)曰樣本變 換到一個可用距離度量的歐式空間中的相應(yīng)樣本點。所述MDS算法進行的空 間變換過程可以用上述方法200來實現(xiàn)。
隨后,在步驟108中,利用K均值聚類算法,將可度量歐式空間的樣本 點聚類得到若千個聚類簇。
隨后,在步驟110中,找到每簇的聚類中心,并在其周圍找到最近鄰點。
隨后,將在可度量歐式空間中找到的最近鄰點反向映射回收視記錄空間中 對應(yīng)的節(jié)目樣本。所述節(jié)目樣本的節(jié)目屬性就代表了用戶的隱性用戶特征,包 括播出時間、所在頻道、所在主類、所在子類。
最后,方法100結(jié)束與步驟116。
圖2是依據(jù)本發(fā)明一較佳實施例的采用MDS算法從收—見記錄空間到一個 可度量歐式空間的空間變換方法的流程圖。所述方法開始前,首先定義以下變n,收-見記錄空間中節(jié)目樣本的條數(shù);
xr,可度量歐式空間中對應(yīng)于收視記錄空間中第r條節(jié)目的樣本點,r取 值范圍{1,...,11};
drs,兩樣本點Xr和Xs的距離,可以表示為<formula>formula see original document page 10</formula>
X,可度量歐式空間中對應(yīng)于收視記錄空間中所有節(jié)目樣本的樣本點組成 的矩陣,表示為
<formula>formula see original document page 10</formula>
如圖2所示,方法200開始于步驟202。
隨后,在下一步驟204中,通過采集用戶的歷史收^L記錄,確定在收視記 錄空間兩兩節(jié)目的nxn維差異矩陣5。所述差異矩陣5中位于第r行、第s 列的元素5rs定義為記錄中第r條節(jié)目和第s條節(jié)目之間的差異。則元素5rs 的計算方式如上述方法300所述。
隨后,在下一步驟206中,定義一個在可度量歐式空間的nxn維的內(nèi)積 矩陣B:
<formula>formula see original document page 10</formula>
其中,^是內(nèi)積矩陣B中位于第r行、第s列的元素,;、a分別表示可
度量歐式空間中與收視記錄空間中第r、 s個節(jié)目樣本對應(yīng)的樣本點;其中n
是所述收一見記錄空間中節(jié)目樣本的數(shù)目。 設(shè)置空間變換條件
lX=0 (1-4) 由式(1-1 )可以得到以下三個式子<formula>formula see original document page 10</formula>4tt《2JS" (1-7) 將上述三式代入式(1-1)可以推出
于是,4艮據(jù)步驟204中的差異矩陣5可以確定所述內(nèi)積矩陣B。 注意收視記錄空間和可度量歐式空間中對應(yīng)節(jié)目之間的距離保持一致, 在本實施例中,相應(yīng)距離值M目等,即《=&。 由于存以下的數(shù)學(xué)關(guān)系 將內(nèi)積矩陣B=XXT進行奇異值分解,得到
JT二r八5 5 = FAFr (1-9) 、=A
其中A是由B的特征值組成的對角陣,V是對應(yīng)的特征向量組成的矩陣。 顯然, 義=^八會, (1-10)
也即, xr=A)vr。 (1-11)
很清楚,根據(jù)以上數(shù)學(xué)關(guān)系,可以用式(1-11)確定收視記錄空間第r條 節(jié)目樣本在所述可度量歐式空間中的對應(yīng)樣本點xr。
于是,在隨后步驟208中,求出內(nèi)積矩陣B的n個特征值M,...,入n,及 其對應(yīng)的歸一特征向量Vb...,Vn,滿足v/v尸l。
隨后,在步驟210中,確定可度量歐式空間的維數(shù)p,使其滿足以下誤差 要求
tvS"l義,>0)<7% (1-12)
其中W是給定的一個誤差閾值。
隨后,在步驟212中,根據(jù)式(1-11)確定在p維的可度量歐式空間中各
個樣本點JC,的坐標(biāo)。
最后,方法200結(jié)束于步驟214。
圖3是依據(jù)本發(fā)明一較佳實施例的計算兩個節(jié)目間差異值的方法的流程圖。如圖3所示,方法300開始于步驟302,讀取兩個節(jié)目的節(jié)目特征。
隨后,在下一步驟304中,根據(jù)所述兩個節(jié)目的播放開始時間時針?biāo)谖?置之間的夾角6 ,計算所述兩節(jié)目的時間差異值
5 rS|t = sin昏 (1-13 )
隨后,在下一步驟306中,查找頻道差異表T(c),確定上述兩個節(jié)目間的 頻道差異值5 rs|c。
隨后,在下一步驟308中,查找主類別差異表T(m),確定上述兩個節(jié)目
間的主類別差異值5^m。
隨后,在下一步驟310中,查找子類別差異表T(s),確定上述兩個節(jié)目間 的子類別差異值5蜂。
隨后,才艮據(jù)上述節(jié)目在各個特征分量上的差異,計算兩個節(jié)目的差異 5 re = wc 5 rs|c +wm 5 rs|m+ws 5 re|s+wt 5豐
其中we、 wm、 ws、 Wt分別代表頻道差異、主類別差異、子類別差異、時 間差異的權(quán)重。
最后,方法300結(jié)束于步驟314。
圖4是依照本發(fā)明一較佳實施例的電視節(jié)目推薦方法的流程圖。如圖所 示,方法400開始于步驟402。
隨后,在步驟404中,讀取待播節(jié)目。
隨后,在步驟406中,計算每一待播節(jié)目特征與隱性用戶特征的差異值。 所述差異值的計算步驟可以用方法300來實現(xiàn)。
隨后,在步驟408中,按照步驟406得到的差異值,從小到大對節(jié)目進行 排序。
隨后,在步驟410中,把排序靠前的節(jié)目發(fā)送給用戶。
權(quán)利要求
1、一種隱性用戶特征提取方法,其特征在于,所述方法包括以下步驟A.采集用戶的歷史收視記錄,并將收視記錄空間的節(jié)目樣本變換到一種可用距離度量的歐式空間中的樣本點;B.采用聚類算法將可度量歐式空間中的樣本點分成若干聚類簇,確定每簇的聚類中心;C確定可度量歐式空間中離聚類中心最近的樣本點,并找到所述樣本點對應(yīng)于收視記錄空間中的節(jié)目樣本;D.根據(jù)確定的節(jié)目樣本,提取代表用戶收視特征的隱性用戶特征。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟A采用MDS算 法進行所述空間變換,使收3見記錄空間和可度量的歐式空間中的對應(yīng)節(jié)目間兩 兩——對應(yīng),其實現(xiàn)包括以下步驟求出收一見記錄空間中由所述節(jié)目樣本的兩兩差異值構(gòu)成的n x n維的差異 矩陣,其中n是所述收一見記錄空間中節(jié)目樣本的數(shù)目;根據(jù)所述差異矩陣得到一個在所述可度量歐式空間的n x n維的內(nèi)積矩陣 B,其中n是所述收視記錄空間中節(jié)目樣本的數(shù)目,其中內(nèi)積矩陣B的定義如 下&=x/;cs, ^是內(nèi)積矩陣B中位于第r行、第s列的元素,cr、 a分別表示 可度量歐式空間中與收-見記錄空間中第r、 s個節(jié)目樣本對應(yīng)的樣本點;求所述內(nèi)積矩陣B的n個特征值M,...,入n,及其對應(yīng)的歸一特征向量 vi,…,vn;確定可度量歐式空間的維數(shù)p,使其滿足如下誤差要求(4 K > 0卜7%其中7%是給定的 一個誤差閾值;求出收視記錄空間中各節(jié)目樣本對應(yīng)在可度量歐式空間各個樣本點的坐 標(biāo)x, =;ii、 (r=l,...,n),其中以r表示第r個特征值及其對應(yīng)的特征向量。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟A之前包括通過問巻調(diào)查等形式,定義隱性特征各屬性間的兩兩差異表,包括 頻道差異表T(ch), 主類別差異表T(m), 子類別差異表T(s);查找上述差異表,求出節(jié)目兩兩之間的差異值,包括 頻道差異5rs|c,主類別差異5rs|m,子類別差異5—;時間差異由兩節(jié)目播放時間點所在時針位置之間的夾角e計算 時間差異5呻=sin|;計算兩兩節(jié)目的差異<formula>formula see original document page 0</formula>,其中wc、 wm、 ws、 wt分別4戈表頻 道差異、主類別差異、子類別差異、時間差異的權(quán)重。
4、 一種電視節(jié)目推薦方法,其特征在于,包括依據(jù)每一節(jié)目的節(jié)目特征求得該節(jié)目與隱性用戶特征間的差異值; 對待播節(jié)目按照差異值從小到大進行排序; 發(fā)送排序靠前的可選節(jié)目的名稱。
5、 根據(jù)權(quán)利要求4所述的電視節(jié)目推薦方法,其特征在于,所述各個待 播節(jié)目與隱性用戶特征的差異值由該節(jié)目的節(jié)目特征和隱性用戶特征求得,其 過程包括分別求出該節(jié)目的播出時段、所在頻道、所在大類和所在小類與隱性用戶 特征對應(yīng)的喜好時段、喜好頻道、喜好大類和喜好小類的間的差異值 頻道差異5 c, 主類別差異5m, 子類別差異5s, 時間差異5t;計算該節(jié)目與隱性用戶特征間的差異 <formula>formula see original document page 0</formula>,其中Wc、 Wm、 Ws、 Wt分另'H^4表頻道差異、主類別差異、子類別差異、時間差異的4又重
全文摘要
本發(fā)明涉及電視節(jié)目推薦技術(shù),針對現(xiàn)有技術(shù)通過問卷調(diào)查方式獲取用戶特征時存在的調(diào)查結(jié)果不夠準(zhǔn)確且容易過期的缺陷,提供一種隱性用戶特征提取方法和電視節(jié)目推薦方法。隱性用戶特征提取方法包括采集用戶的歷史收視記錄,并將收視記錄空間的節(jié)目樣本變換到一種可用距離度量的歐式空間中的樣本點;采用聚類算法將可度量歐式空間中的樣本點分成若干聚類簇,確定每簇的聚類中心;確定可度量歐式空間中離聚類中心最近的樣本點,并找到所述樣本點對應(yīng)于收視記錄空間中的節(jié)目樣本;根據(jù)確定的節(jié)目樣本,提取代表用戶收視特征的隱性用戶特征。本發(fā)明還提供了一種電視節(jié)目推薦方法。本發(fā)明可解決現(xiàn)有技術(shù)調(diào)查結(jié)果不夠準(zhǔn)確且容易過期的問題。
文檔編號H04N7/16GK101408944SQ20081021736
公開日2009年4月15日 申請日期2008年11月17日 優(yōu)先權(quán)日2008年11月17日
發(fā)明者徐江山, 疆 陶 申請人:深圳市天威視訊股份有限公司