本發(fā)明涉及用戶觀看電視模式的挖掘,尤其涉及的是基于率失真理論的挖掘電視觀看模式的數(shù)據(jù)處理系統(tǒng)及方法。
背景技術(shù):目前,用戶習(xí)慣在消費品與服務(wù)提供方面起到至關(guān)重要的作用,而想要推廣自己的產(chǎn)品和服務(wù)就必須了解使用該產(chǎn)品和服務(wù)的用戶,針對該問題,現(xiàn)有技術(shù)中有很多解決方案,然而這些解決方案都不是很理想,因為用戶的行為有很強的確定性因素。此外有些技術(shù)方案通過隱性方式研究用戶反饋,比如使用用戶的程序選擇歷史或觀看歷史去發(fā)現(xiàn)觀看者的偏好,然而這種方式過于簡單,不能真正揭示隱藏在用戶行為下更深層次的模式。而在電視領(lǐng)域,對于用戶觀看模式的挖掘也決定了產(chǎn)品的服務(wù)質(zhì)量,決定了電視產(chǎn)業(yè)的發(fā)展,由于一個家庭的組成多樣化、不同家庭成員觀看時間的重疊性特點、不可避免的意外干擾觀看記錄內(nèi)容標(biāo)題之間又存在的微妙聯(lián)系等等,這些問題使得對用戶觀看模式的挖掘變得非常困難。用戶觀看歷史記錄中存在很強的自相關(guān)性,尤其對于穩(wěn)定的家庭,在這種家庭中,電視的觀看模式更易被發(fā)掘。如圖1所示,其中圓形、三角和方形代表關(guān)鍵電視節(jié)目序列,‘X’代表其他非關(guān)鍵節(jié)目,而圓形、方形、三角形所代表的點在一個長時期的統(tǒng)計中呈現(xiàn)出周期反復(fù)性的特點。雖然自相關(guān)性研究被用于各種各樣的數(shù)據(jù)統(tǒng)計分析之中,像如網(wǎng)絡(luò)訪問、音樂和音頻、圖像與視頻等,但還沒有人嘗試將這種方式引入電視觀看歷史學(xué)習(xí)中。自相關(guān)性會被噪聲點所掩蓋(如不可預(yù)料的事)或者同一個家庭的多個模式常常會重疊在一起,而這些都是自相關(guān)性引入該領(lǐng)域所要面臨的困難。也就是說如何在一個帶有噪聲的數(shù)據(jù)中發(fā)現(xiàn)模式和如何在用戶使用歷史相互交叉的記錄中分割重疊模式,是現(xiàn)有技術(shù)人員所要面臨的挑戰(zhàn)。另一方面,在電影、電視節(jié)目、新聞、音樂、游戲等等的大量的用戶數(shù)據(jù)中又存在著復(fù)雜的互相關(guān)聯(lián)的關(guān)系。這些關(guān)系又必需在用戶電視觀看模式挖掘處理過程中予以考慮。因此,現(xiàn)有技術(shù)還有待于改進和發(fā)展。
技術(shù)實現(xiàn)要素:本發(fā)明要解決的技術(shù)問題在于,針對現(xiàn)有技術(shù)的上述缺陷,提供一種挖掘電視觀看模式的數(shù)據(jù)處理系統(tǒng)及方法,通過將電視用戶觀看模式挖掘問題轉(zhuǎn)換為優(yōu)化問題,并采用率失真理論解決該優(yōu)化問題,進而挖掘出最優(yōu)的用戶觀看行為模式。本發(fā)明解決技術(shù)問題所采用的技術(shù)方案如下:一種挖掘電視觀看模式的數(shù)據(jù)處理系統(tǒng),其中,包括數(shù)據(jù)收集模塊,用于收集電視節(jié)目的觀看歷史數(shù)據(jù);數(shù)據(jù)過濾模塊,用于從數(shù)據(jù)收集模塊收集的電視節(jié)目的觀看歷史數(shù)據(jù)中過濾識別出用戶的觀看歷史數(shù)據(jù),將噪聲數(shù)據(jù)濾除;數(shù)據(jù)挖掘與特征分類模塊,用于通過對存儲有用戶觀看歷史和電視節(jié)目信息的內(nèi)容數(shù)據(jù)庫進行數(shù)據(jù)挖掘與數(shù)據(jù)特征分類,找出用戶的觀看信息,并將特征分類后的用戶觀看信息形成一個聚類集;分析模塊,用于分析用戶觀看歷史內(nèi)容特征和從數(shù)據(jù)挖掘與特征分類模塊獲取到的聚類集,從中選擇分類,獲取代表原始用戶行為內(nèi)容歷史的觀看歷史數(shù)據(jù)集;模式挖掘模塊,用于從分析模塊獲取的觀看歷史數(shù)據(jù)集中發(fā)掘出主要的用戶觀看模式集。所述的挖掘電視觀看模式的數(shù)據(jù)處理系統(tǒng),其中,所述模式挖掘模塊包括:用戶觀看模式分析模塊,用于將所述觀看歷史數(shù)據(jù)集進行數(shù)學(xué)模型化,生成用戶的觀看歷史數(shù)據(jù)集,并對觀看歷史數(shù)據(jù)集進行重新架構(gòu);對比模塊,用于對比觀看歷史數(shù)據(jù)集和用戶觀看模式分析模塊重新架構(gòu)的觀看歷史數(shù)據(jù)集,找出最優(yōu)的用戶觀看模式組合。一種挖掘電視觀看模式的數(shù)據(jù)處理方法,其中,包括以下步驟:A、數(shù)據(jù)收集模塊預(yù)先收集電視節(jié)目的觀看歷史數(shù)據(jù),并通過數(shù)據(jù)過濾模塊從中過濾識別出用戶的觀看歷史數(shù)據(jù),濾掉噪聲數(shù)據(jù);B、數(shù)據(jù)挖掘與特征分類模塊通過對存儲有用戶觀看歷史和電視節(jié)目信息的內(nèi)容數(shù)據(jù)庫進行數(shù)據(jù)挖掘與數(shù)據(jù)特征分類,找出用戶的觀看信息,并將特征分類后的用戶觀看信息形成一個聚類集;C、分析模塊通過分析用戶觀看歷史內(nèi)容特征和從上一步獲取到的聚類集,從中選擇分類,獲取代表原始用戶行為內(nèi)容歷史的觀看歷史數(shù)據(jù)集;D、模式挖掘模塊從所述觀看歷史數(shù)據(jù)集中發(fā)掘出主要的用戶觀看模式集,并輸出。所述的挖掘電視觀看模式的數(shù)據(jù)處理方法,其中,所述步驟D具體包括:D1、將所述觀看歷史數(shù)據(jù)集進行如下定義:指定N為用戶特定的時間段的長度,{Vi}(i=0,1,...,N-1)是第i個時間點觀看歷史數(shù)據(jù)集;將用戶觀看模式定義為P(c,s,n,m,p),其中,c表示內(nèi)容類別,s表示用戶觀看模式開始時間點,且s∈{0,1,...,N-1};n是用戶觀看行為發(fā)生周期的長度,且n∈{1,2,...,N/2};m表示周期重復(fù)次數(shù),且m∈{1,...,N/n};p表示模式字符串長度,且p∈{1,...,n};定義{Pr(c,s,n,m,p)}(r=0,1,...,R-1)為用戶觀看模式的結(jié)果集,并通過所述結(jié)果集對觀看歷史數(shù)據(jù)集進行重新架構(gòu),結(jié)果定義為其中,R表示從歷史數(shù)據(jù)中找出來的具有代表性的模式數(shù)量;D2、對比觀看歷史數(shù)據(jù)集{Vi}和重新架構(gòu)的觀看歷史數(shù)據(jù)集找出差異最小的并通過確定最優(yōu)的用戶觀看模式。所述的挖掘電視觀看模式的數(shù)據(jù)處理方法,其中,對比觀看歷史數(shù)據(jù)集{Vi}和重新架構(gòu)的觀看歷史數(shù)據(jù)集的步驟具體還包括:定義觀看歷史數(shù)據(jù)集{Vi}和重新架構(gòu)的觀看歷史數(shù)據(jù)集的差異為失真度,并定義表達式量化衡量失真度,其中,所述的挖掘電視觀看模式的數(shù)據(jù)處理方法,其中,當(dāng)失真度最小時,觀看歷史數(shù)據(jù)集{Vi}和重新架構(gòu)的觀看歷史數(shù)據(jù)集的差異最小,其中失真度最小為滿足R≤RThreshold,RThreshold是模式數(shù)量限制條件。所述的挖掘電視觀看模式的數(shù)據(jù)處理方法,其中,所述步驟D還采用拉格朗日乘子法實現(xiàn),定義拉格朗日函數(shù)其中,λ為拉格朗日乘子,確定一個λ*,使u*=arg[minuJλ(u)],且滿足R(u*)=RThreshold,u*表示滿足R≤RThreshold的最優(yōu)解。所述的挖掘電視觀看模式的數(shù)據(jù)處理方法,其中,所述步驟D還包括:定義決策點向量U,而uk代表第k項決策點向量集(uk={(c,s,n,m,p)k,o}(o代表模式總數(shù)),以及定義代價函數(shù)Gk(uk-q,...,uk),表示第k項的最小代價,而GN(uN-q,...,uN)表示最后一項所需最小代價;根據(jù)給定q+1個決策向量集uk-q-1,...,uk-1計算出到uk-1項的代價函數(shù)Gk-1(uk-q-1,...,uk-1)的值,而到uk項的代價函數(shù)值不依賴u1,u2,...,uk-q-1的向量集,確定最優(yōu)的用戶觀看模式數(shù)量。所述的挖掘電視觀看模式的數(shù)據(jù)處理方法,其特征在于,采用K-means算法對所述內(nèi)容數(shù)據(jù)庫進行數(shù)據(jù)特征分類。所述的挖掘電視觀看模式的數(shù)據(jù)處理方法,其特征在于,通過主成分分析的方法分析用戶觀看歷史內(nèi)容特征。本發(fā)明所提供的挖掘電視觀看模式的數(shù)據(jù)處理方法,由于采用了將用戶觀看模式挖掘問題轉(zhuǎn)換為最優(yōu)化問題,并通過率失真理論解決最優(yōu)化問題,進而挖掘出最優(yōu)的電視用戶觀看模式,在用戶觀看電視時能夠智能給出用戶的電視觀看模式,不僅方便了用戶對電視節(jié)目的觀看,而且還提升了電視產(chǎn)品的服務(wù)質(zhì)量,利于產(chǎn)品的推廣。附圖說明圖1是現(xiàn)有技術(shù)中采用符號顯示的統(tǒng)計觀看歷史的坐標(biāo)圖。圖2是本發(fā)明提供的挖掘電視觀看模式的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)示意圖。圖3是本發(fā)明提供的挖掘電視觀看模式的數(shù)據(jù)處理系統(tǒng)中的模式挖掘模塊的結(jié)構(gòu)示意圖。圖4是本發(fā)明的系統(tǒng)工作流程圖。圖5是本發(fā)明的挖掘電視觀看模式的數(shù)據(jù)處理方法的具體流程圖。具體實施方式為使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚、明確,以下參照附圖并舉實施例對本發(fā)明進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明利用用戶觀看歷史的自相似特點,并將挖掘用戶觀看電視的模式轉(zhuǎn)換到率失真優(yōu)化問題上,利用失真度理論尋找解決方案。使用率失真理論來尋找用戶觀看模式,可以使原始歷史記錄統(tǒng)計信息與由代表觀看模式重構(gòu)統(tǒng)計出的信息達到差距最少化。這種新的用于觀看模式的數(shù)據(jù)挖掘過程包括:內(nèi)容分類、類別的選擇原則和用戶觀看模式識別三部分。同時提出了一種高效的動態(tài)規(guī)劃算法來解決所提出的優(yōu)化問題。這個工作可以很方便用于解決其它具有自相似特點的數(shù)據(jù)統(tǒng)計問題,換句話說,可以容易的將其用于電視和電影節(jié)目推薦、廣告與服務(wù)推薦、用戶/訪問者發(fā)現(xiàn)與識別、家庭與移動設(shè)備個性化、社交活動等等。本發(fā)明目標(biāo)在于通過將挖掘用戶觀看模式問題轉(zhuǎn)換為求解最優(yōu)化問題,將用戶的觀看歷史內(nèi)容建立數(shù)學(xué)模型,并轉(zhuǎn)換為最優(yōu)化求解,進而挖掘出最優(yōu)的用戶觀看模式。參見圖2,圖2是本發(fā)明提供的挖掘電視觀看模式的數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)示意圖,包括:數(shù)據(jù)收集模塊10、用于收集電視節(jié)目的觀看歷史數(shù)據(jù);數(shù)據(jù)過濾模塊20,用于從數(shù)據(jù)收集模塊10收集的電視節(jié)目的觀看歷史數(shù)據(jù)中過濾識別出用戶的觀看歷史數(shù)據(jù),將噪聲數(shù)據(jù)濾除,比如和用戶平時觀看記錄差異較大的數(shù)據(jù);數(shù)據(jù)挖掘與特征分類模塊30,用于通過對存儲有用戶觀看歷史和電視節(jié)目信息的內(nèi)容數(shù)據(jù)庫進行數(shù)據(jù)挖掘與數(shù)據(jù)特征分類,找出用戶的觀看信息,并將特征分類后的用戶觀看信息形成一個聚類集;分析模塊40,用于分析用戶觀看歷史內(nèi)容特征和從數(shù)據(jù)挖掘與特征分類模塊獲取到的聚類集,從中選擇分類,獲取代表原始用戶行為內(nèi)容歷史的觀看歷史數(shù)據(jù)集;模式挖掘模塊50,用于從分析模塊40獲取的觀看歷史數(shù)據(jù)集中發(fā)掘出主要的用戶觀看模式集。其中,如圖3所示,所述模式挖掘模塊50還包括:用戶觀看模式分析模塊51,用于將所述觀看歷史數(shù)據(jù)集進行數(shù)學(xué)模型化,生成用戶的觀看歷史數(shù)據(jù)集,并對觀看歷史數(shù)據(jù)集進行重新架構(gòu);對比模塊52,用于對比觀看歷史數(shù)據(jù)集和用戶觀看模式分析模塊51重新架構(gòu)的觀看歷史數(shù)據(jù)集,并通過找出兩個觀看歷史數(shù)據(jù)集確定最優(yōu)的用戶觀看模式集?;谏鲜鐾诰螂娨曈^看模式的數(shù)據(jù)處理系統(tǒng),本發(fā)明還提供了一種挖掘電視觀看模式的數(shù)據(jù)處理方法,圖4是本發(fā)明的系統(tǒng)工作流程圖,主要包括以下步驟:程序開始后,進行數(shù)據(jù)收集與過濾;對內(nèi)容數(shù)據(jù)庫中的數(shù)據(jù)進行內(nèi)容挖掘與分類;定義類別的選擇原則;用戶觀看模式識別;用戶觀看模式輸出;結(jié)合上述本發(fā)明的系統(tǒng)工作流程圖,如圖5所示,是本發(fā)明的具體方法流程圖,主要包括以下步驟:步驟S10、數(shù)據(jù)收集模塊預(yù)先收集電視節(jié)目的觀看歷史數(shù)據(jù),并通過數(shù)據(jù)過濾模塊從中過濾識別出用戶的觀看歷史數(shù)據(jù),濾掉噪聲數(shù)據(jù);步驟S20、數(shù)據(jù)挖掘與特征分類模塊通過對存儲有用戶觀看歷史和電視節(jié)目信息的內(nèi)容數(shù)據(jù)庫進行數(shù)據(jù)挖掘與數(shù)據(jù)特征分類,找出用戶的觀看信息,并將特征分類后的用戶觀看信息形成一個聚類集;步驟S30、分析模塊通過分析用戶觀看歷史內(nèi)容特征和從上一步獲取到的聚類集,從中選擇分類,獲取代表原始用戶行為內(nèi)容歷史的觀看歷史數(shù)據(jù)集;步驟S40、模式挖掘模塊從所述觀看歷史數(shù)據(jù)集中發(fā)掘出主要的用戶觀看模式集,并輸出。下面結(jié)合具體的實施例對上述步驟進行具體的說明。在步驟S10中,收集并過濾用戶的觀看歷史數(shù)據(jù)主要是為后面的用戶觀看模式識別選出關(guān)鍵點數(shù)據(jù),比如用戶喜歡看的節(jié)目。這些數(shù)據(jù)包括用戶在每天、每周或者每月中在固定時間點收看的節(jié)目的類型、觀看持續(xù)時間、觀看次數(shù)等等。在步驟S20中,內(nèi)容數(shù)據(jù)庫中存儲的是用戶的觀看歷史記錄,還有電視節(jié)目信息,在進行數(shù)據(jù)挖掘與分類時采用K-means算法,也可采用其他的算法,找出有用的用戶觀看信息,并將用戶的觀看歷史內(nèi)容以一個聚類集的形式表示出來,并對這一類別做一綜合描述,方便后續(xù)的處理。在步驟S30中,對用戶觀看歷史內(nèi)容特征和步驟S20中形成的聚類集進行分析,自動從中選擇分類,獲取最能代表原始用戶觀看內(nèi)容歷史的數(shù)據(jù),并采用數(shù)據(jù)集的形式表示。其中對用戶觀看歷史內(nèi)容特征的分析可以采用主成分分析(PCA:PrincipalComponentAnalysis),或者采用主特征分析算法(PFA:PotentialFieldApproach)等等。步驟S40是對觀看歷史數(shù)據(jù)集進行發(fā)掘,發(fā)掘主要的用戶觀看模式,而模式的數(shù)量與分類數(shù)量是密切相關(guān)的,模式識別也是本發(fā)明的重點和難點。因為必須保證模式識別算法的魯棒性,其主要的難點如下所述:1)典型的家庭都是由多個成員所組成,因此所有的家庭成員觀看電視節(jié)目的歷史組成了該家庭的觀看歷史。這樣每個人的歷史都是難以獨立抽離出來;2)當(dāng)前電視用戶識別技術(shù)都不能完全適用于遙控系統(tǒng)與電視系統(tǒng)中,因此如果不通過明確的用戶登錄我們是無法分辨出使用電視的用戶;3)一個用戶也許會有廣泛興趣愛好,他(她)的興趣愛好也會隨著時間而慢慢轉(zhuǎn)移,這也造成了識別用戶模式的難度;4)節(jié)目之間又有著微妙的關(guān)聯(lián),而這些關(guān)聯(lián)之下隱藏著一些模式,但這些模式是很難被發(fā)掘的;5)很多意外的事件發(fā)生,例如大事件的發(fā)生,會改變用戶短期的日常觀看模式,我們?nèi)绾螌⑵渑c噪聲的區(qū)別。為了降低技術(shù)處理復(fù)雜度,本發(fā)明將一個完整的時間劃分成多個時間帶,因為不同年齡段的用戶觀看電視的主要時間帶是不同的,例如大部分的小孩會在下午晚些時候到傍晚早些時候看電視,而有工作的父母會在午夜看電視。當(dāng)然時間帶的劃分可以由家庭來確定,不同的家庭時間帶劃分不同。因此可以很容易的找到適合一個家庭的時間帶劃分。這樣就將一個復(fù)雜的問題用時間帶劃分的方法進行了簡化,并將模式識別的數(shù)據(jù)進行公式化,將模式識別問題轉(zhuǎn)換為最優(yōu)化求解問題。以下對模式識別數(shù)據(jù)的公式化及將模式識別問題轉(zhuǎn)換為最優(yōu)化求解問題的過程進行詳細的說明。本發(fā)明是從用戶的一段歷史數(shù)據(jù)中挖掘出用戶觀看模式,所以用N來代表用戶特定的時間段的長度,{Vi}(i=0,1,...,N-1)表示第i個時間點觀看歷史數(shù)據(jù)集,Vi數(shù)據(jù)集可以為空,代表著這個時間段沒有觀看記錄;如果有記錄則記錄集為Vi={Tij}(j=0,1,...,M-1),其中M代表第i個時間點觀看的節(jié)目總數(shù)量;c(Tij)代表Tij所屬類別,最終從這些數(shù)據(jù)中挖掘出有用的用戶觀看模式數(shù)據(jù)。用戶觀看模式可以被定義為P(c,s,n,m,p)形式的數(shù)學(xué)表達式,c代表內(nèi)容類別,s代表模式開始時間點,且s∈{0,1,...,N-1};n是行為發(fā)生周期長度,且n∈{1,2,...,N/2};m代表周期重復(fù)次數(shù)且m∈{1,2,...,N/n};p表示模式字符串長度,且p∈{1,...,n}。例如,對于P0(愛情,20120206180000,1,3,1),該P0表示,從2012/2/6號開始,在晚上18:00的時候,每隔1天,愛情類型出現(xiàn)一次,己循環(huán)3次,長度為1天;對于P1(p0,20120206180000,2,2,5),該P1表示,從2012/2/6號開始,在18:00的時候,每隔2天,p0類型出現(xiàn)一次,己循環(huán)2次,長度為5天。有了以上的周期性規(guī)律,就可以從p0中推測出每個星期的1,3,5的晚上18:00有較高的概率去看愛情類型節(jié)目。與K-means算法類似,通過集合的形式限定一個輸出集大小,其結(jié)果集定義為{Pr(c,s,n,m,p)}(r=0,1,...,R-1),其中R代表要從歷史數(shù)據(jù)中找出來的具有代表性的模式數(shù)量。下面比較與原始數(shù)據(jù)的相似性:設(shè)經(jīng)過{Pr(c,s,n,m,p)}(r=0,1,...,R-1)重構(gòu)觀看歷史數(shù)據(jù)集通過與原始觀看歷史數(shù)據(jù)集進行比對,兩者之間的差異就是率失真,這里將其稱為失真度,可以通過表達式(1)用來量化衡量失真度。其中,通過表達式(3),可以很容易得出:從觀看模式生成的觀看歷史數(shù)據(jù)集與原始觀看歷史數(shù)據(jù)集中數(shù)據(jù)會有多次不匹配的計算,然而最理想的情況是只計算一次,但是這種情況并不會影響算法的正確性,依然可以找出最優(yōu)的最具代表的用戶觀看模式集,并使失真度最小。由于是由用戶觀看模式集{Pr(c,s,n,m,p)}生成,所以有可能是空或由多個觀看模式數(shù)據(jù)組成,R就是這個模式的組合數(shù)。本發(fā)明最重要的工作是從中找出符合條件的最具代表性的用戶觀看模式,而由這些模式重構(gòu)的觀看歷史數(shù)據(jù)集與原始觀看歷史數(shù)據(jù)集的失真率最小。假設(shè)選擇從最開始就是最優(yōu)的與原始數(shù)據(jù)失真度最小,那么R越大,找出的模式則越多,與原始數(shù)據(jù)集失真度越小,即D越小。因此可以將問題轉(zhuǎn)換成為在條件R下的最優(yōu)化問題求解,其結(jié)果滿足表達式(4):滿足R≤RThreshold(4)其中RThreshold是模式數(shù)量限制條件。而本發(fā)明針對公式(4)所代表的問題,采用拉格朗日乘子法來處理模式限制問題,而整個問題可以由圖論中的最短路徑算法來解決。假定U是所有可能的決策點向量集,而uk代表第k項決策點向量集(uk={(c,s,n,m,p)k,o}(o代表模式總數(shù)))。表達式(5)為拉格朗日函數(shù):λ為拉格朗日乘子。如果存在一個λ*使得u*=arg[minuJλ(u)]表達式成立,且滿足R(u*)=RThreshold,那么u*就是表示表達式(4)的最優(yōu)解。因此表達式(4)的解可以等價轉(zhuǎn)換為解Jλ(u),而Jλ(u)可以通過找到一個適當(dāng)?shù)睦窭嗜粘俗咏獬?。由于每個模式的形成都依賴于該類型對象附近時間段內(nèi)的對象。在不失一般性的前提下,本發(fā)明假設(shè)一個類型對象是否屬于一個己知類型模式,僅與它之前的q個類型對象所包含的模式相關(guān)。為了量化解決最優(yōu)化問題,本發(fā)明定義代價函數(shù)Gk(uk-q,...,uk),它代表到第k項最小的代價,GN(uN-q,...,uN)代表到最后一項所需最小代價。因此可以將表達式(5)的最優(yōu)化問題轉(zhuǎn)化為表達式(6)的解:通過限定依賴集可以大大提高算法的效率,假設(shè)根據(jù)給定q+1個決策向量集uk-q-1,...,uk-1己計算出到uk-1項的代價函數(shù)Gk-1(uk-q-1,...,uk-1)的值,到uk項的代價函數(shù)值不依賴u1,u2,...,uk-q-1等的向量集。上述描述可以被表達成為(7)的數(shù)學(xué)表達形式:其中rk(uk-q,...,uk)代表到uk新增用戶觀看模式數(shù)量,其中不包括在uk-q,...,uk-1的用戶觀看模式數(shù),Rk(uk-q,...,uk)代表到K項用戶觀看模式總數(shù)量。從表達式(7)中可以觀察到用戶模式是可以被疊加的,例如Pr(c,s,n,m,p)可以看成是兩個用戶觀看模式Pr(c,s,n,1,p)和Pr(c,s+n,n,m-1,p)的組合,而與原始記錄集的失真度是這兩個子模式失真度的累記,但不會影響R的值。再做下一次優(yōu)化迭代計算的時候其值是不依賴于前面的過程,這個特點決定了本發(fā)明可以使用動態(tài)規(guī)劃來處理此問題。優(yōu)選地,上述問題還可以圖論中有向無環(huán)圖的最短路徑算法求解。算法的時間復(fù)雜度為O(N*|U|q+1)(|U|為U的基數(shù)),可以看出其時間復(fù)雜度與q的成指數(shù)關(guān)系??偟膩碚f,q是一個小的數(shù)目(一般不會超過14,因為對于一個實時的商用系統(tǒng),短期的用戶行為更加貼切用戶當(dāng)前的使用習(xí)慣),所以本算法的效率要遠完高于窮舉法的指數(shù)級時間復(fù)雜度。本發(fā)明提供的一種挖掘電視觀看模式的數(shù)據(jù)處理系統(tǒng)及方法,將發(fā)掘隱藏在用戶觀看歷史下的用戶觀看模式的問題映射成為可以使用率失真理論的優(yōu)化問題,通過給定用戶觀看歷史記錄,本發(fā)明能夠很高效的找出用戶觀看模式,并且保證由這些用戶觀看模式重構(gòu)出的數(shù)據(jù)與原始數(shù)據(jù)失真率最小,本發(fā)明不僅方便了用戶對電視節(jié)目的觀看,而且還提升了電視產(chǎn)品的服務(wù)質(zhì)量,利于產(chǎn)品的推廣。應(yīng)當(dāng)理解的是,本發(fā)明的應(yīng)用不限于上述的舉例,對本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)上述說明加以改進或變換,所有這些改進和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護范圍。