專利名稱:通過基于節(jié)目特征的聚類來創(chuàng)建原型簡檔的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體涉及生成關(guān)于諸如電視節(jié)目的感興趣的內(nèi)容的建議或推薦,更具體來說,涉及在用戶的購買或收視歷史足夠完備之前無需用戶手工完成簡檔就推薦節(jié)目和其它潛在感興趣的項目的技術(shù)。
在生成指南或關(guān)于與特定活動相聯(lián)系的可用選項的信息中所采用的系統(tǒng),可以為用戶產(chǎn)生建議或推薦。這種系統(tǒng)的例子包括在線購物或信息檢索系統(tǒng)以及用于內(nèi)容的傳送、特別是諸如音頻或視頻節(jié)目、游戲等娛樂內(nèi)容的傳送的系統(tǒng)。在傳送娛樂內(nèi)容的系統(tǒng)的情況中,可以通過一個建議或推薦的生成而觸發(fā)自動的行動,諸如在娛樂內(nèi)容不是正在被用戶利用的期間,高速緩存至少一部分可用娛樂內(nèi)容,供以后向用戶呈現(xiàn)。
隨著電視觀眾可用頻道的數(shù)目的增加,以及這種頻道上可用的節(jié)目內(nèi)容的多樣性,為電視觀眾識別潛在感興趣的節(jié)目已經(jīng)變得越來越富有挑戰(zhàn)性。電子節(jié)目指南(EPG)例如通過標(biāo)題、時間、日期和頻道來識別可用的電視節(jié)目,并通過允許按照個性化的偏好搜索或分類可用的電視節(jié)目而方便對潛在感興趣的節(jié)目的識別。
已經(jīng)有許多推薦工具被提出或采用來推薦潛在感興趣的電視節(jié)目或其它項目。電視節(jié)目推薦工具例如把觀眾偏好應(yīng)用到電子節(jié)目指南,以獲得一組可能對特定觀眾來說感興趣的推薦節(jié)目。這種電視推薦工具所采用的觀眾偏好,一般是通過諸如提示用戶對各種節(jié)目屬性(例如標(biāo)題、種類、演員、導(dǎo)演、頻道等)評級的顯式(explicit)技術(shù)、諸如跟蹤特定觀眾的收視歷史的隱式(implicit)技術(shù)或者這兩種技術(shù)的組合而獲得的。
在所述類型的推薦工具內(nèi),初始化一個新的觀眾(用戶)簡檔(即“冷啟動”)是有問題的。用顯式的措施非常單調(diào)乏味,需要觀眾響應(yīng)詳細(xì)的調(diào)查問題,這些問題粗略地指明他們的偏好,并且一般沒有情境的幫助(即同時觀看具有這種屬性的節(jié)目)。用隱式的措施初始化,是通過觀察收視行為并使他們相互關(guān)聯(lián),這盡管不引人注目,但是需要長時間才能變得準(zhǔn)確,并且也需要一個最小量的收視歷史來開始推薦。
因此,在該技術(shù)領(lǐng)域中需要改善對由推薦工具所采用的用戶簡檔的初始化。
為解決以上討論的現(xiàn)有技術(shù)的缺陷,本發(fā)明的一個主要目的是,提供一種用于在用戶的收視或購買歷史完備得足以生成準(zhǔn)確的推薦之前提供有意義的推薦的技術(shù),以便被采用來向用戶推薦感興趣的項目(諸如電視節(jié)目推薦)的推薦工具。處理第三方收視或購買歷史,以生成反映由代表性觀眾所選擇的項目的典型模式的原型簡檔。為了避免受到與所收視節(jié)目相關(guān)聯(lián)的描述性信息的詞匯的限制,采用圖像內(nèi)容和/或圖像內(nèi)容特征(平均(mean)、標(biāo)準(zhǔn)差(standard deviation)、熵(entropy))來單獨地或者與描述性信息相結(jié)合地作為評估收視歷史的基礎(chǔ)。用戶能從所生成的原型(stereotype)簡檔中選擇最相關(guān)的原型,并由此用最接近他或她的自己興趣的項目來初始化他或她的簡檔,由于在生成原型簡檔的過程中直接采用節(jié)目內(nèi)容,因此準(zhǔn)確度更高。
以上相當(dāng)寬泛地概述了本發(fā)明的特點和技術(shù)優(yōu)點,以便所屬領(lǐng)域的熟練人員可以更好地理解隨后對本發(fā)明的詳細(xì)說明。以下將描述本發(fā)明的其它特點和優(yōu)點,它們構(gòu)成本發(fā)明的權(quán)利要求的主題。所屬領(lǐng)域的熟練人員將認(rèn)識到,他們可以容易地用所公開的構(gòu)思和特定實施例作為基礎(chǔ)來修改本發(fā)明或者設(shè)計用于實現(xiàn)本發(fā)明的相同目的的其它結(jié)構(gòu)。所屬領(lǐng)域的熟練人員也將認(rèn)識到,這種等效的構(gòu)造并不偏離本發(fā)明最廣泛意義上的精神和范圍。
在進行下面的發(fā)明詳細(xì)說明之前,闡明在本專利文獻中使用的某些詞或短語的定義也許是有益的術(shù)語“包括”和“包含”以及它們的衍生詞,意思是沒有限制的包含;術(shù)語“或”是包含性的,意思是和/或;短語“與...相關(guān)聯(lián)的”可以指包括、被包括在...內(nèi)、與...互連、含有、被包含在...內(nèi)、連接到或與...連接、耦合到或與...耦合、可與...通信的、與...合作、交織、并置、接近、被限定于、具有、具有...的屬性等等;術(shù)語“控制器”指控制至少一個操作的任何裝置、系統(tǒng)或其部件,無論這種裝置以硬件、固件、軟件或其中的至少兩個的某種組合。應(yīng)當(dāng)注意的是,與任何特定控制器相關(guān)聯(lián)的功能可以是集中式或分布式的,無論是本地的還是遠程的。本專利文獻中提供對某些詞和短語的定義,所屬技術(shù)領(lǐng)域的熟練人員將明白,這類定義在許多(即使不是大多數(shù))情況下,既適用于如此定義的詞和短語先前的用法,也適用于將來的用法。
為了更徹底地理解本發(fā)明及其優(yōu)點,現(xiàn)在參照以下結(jié)合各附圖的說明,附圖中同樣的附圖標(biāo)記表示同樣的對象,附圖中
圖1表示一種采用按照本發(fā)明的一個實施例初始化的用戶簡檔的電視節(jié)目推薦工具;圖2是一個采用按照本發(fā)明的一個實施例初始化的用戶簡檔的電視節(jié)目推薦工具內(nèi)的節(jié)目數(shù)據(jù)庫中的樣本表;圖3是表示按照本發(fā)明的一個實施例的原型簡檔處理過程的示例性實現(xiàn)方式的高層級流程圖;圖4是表示按照本發(fā)明的一個實施例的聚類(clustering)例程的示例性實現(xiàn)方式的高層級流程圖;圖5是表示按照本發(fā)明的一個實施例的平均計算(meancomputation)例程的示例性實現(xiàn)方式的高層級流程圖;圖6是表示按照本發(fā)明的一個實施例的距離計算例程的示例性實現(xiàn)方式的高層級流程圖;圖7A表示一個含有在按照本發(fā)明一個實施例導(dǎo)出原型簡檔的過程中所采用的類的每個頻道特征值的出現(xiàn)次數(shù)的數(shù)據(jù)集;圖7B表示從圖7A中所示的示例性計數(shù)中計算出的每個特征值對之間的距離;以及圖8是表示按照本發(fā)明一個實施例的用于確定創(chuàng)建群集(cluster)的停止標(biāo)準(zhǔn)何時已經(jīng)被滿足的過程的示例性實現(xiàn)方式的高層級流程圖。
以下討論的圖1至8,以及本專利文獻中被用來說明本發(fā)明原理的各種實施例,僅僅是示例性的,不應(yīng)以任何方式被解釋為對本發(fā)明的限制。所屬技術(shù)領(lǐng)域的熟練人員明白,本發(fā)明的原理可以在任何適當(dāng)安排的裝置中實現(xiàn)。
圖1表示一個采用按照本發(fā)明的一個實施例初始化的用戶簡檔的電視節(jié)目推薦工具。該示例性電視節(jié)目推薦工具可以是駐留在一個視頻記錄裝置、衛(wèi)星、地面或電纜電視接收機、組合的接收機和記錄裝置等等內(nèi)的硬件、軟件或它們的組合。所屬領(lǐng)域的熟練人員將認(rèn)識到,附圖中沒有表示、本文中也沒有描述一個適當(dāng)?shù)慕邮諜C和/或記錄裝置的完整構(gòu)造和操作。相反,為了簡要和清楚,只有對本發(fā)明來說是獨有的或者為理解本發(fā)明所必需的接收機和/或記錄裝置的那些內(nèi)容在本文中被表示和描述。此外,這里所說明的原理還可以應(yīng)用到根據(jù)對用戶行為(例如購買歷史)的評估而自動生成推薦的、用于例如個人電腦或機頂盒等等的其它類型的推薦工具。
此外,推薦工具100可以以分布式的方式實現(xiàn),部分功能由一個系統(tǒng)提供,其結(jié)果被傳送到第二個裝置以供進一步處理或使用。
推薦工具100根據(jù)一個至少部分地以隱式方式被初始化或更新的用戶簡檔,評估一個節(jié)目數(shù)據(jù)庫200(諸如電子節(jié)目指南)內(nèi)的節(jié)目,以識別特定觀眾潛在感興趣的節(jié)目。被推薦節(jié)目集合101在一個顯示器(未予示出)上被呈現(xiàn)給用戶。
在本發(fā)明中,盡管用戶簡檔被至少部分地以隱式方式初始化或更新,推薦工具100能在特定觀眾的收視歷史140或者可用或者完備得足以用于準(zhǔn)確推薦之前,為該觀眾生成合理準(zhǔn)確的節(jié)目推薦。推薦工具100一開始采用用于一個或多個第三方觀眾的收視歷史130或類似的簡檔信息來推薦特定觀眾潛在感興趣的節(jié)目。一般來說,第三方收視歷史130或用戶簡檔信息是根據(jù)該特定觀眾與代表更大人群的一個或多個樣本人群之間的人口統(tǒng)計學(xué)(年齡、收入、性別、教育等)的相似性而選擇的。
如圖1中所示,第三方收視歷史130包括由對應(yīng)的樣本人群觀看過的或未觀看過的節(jié)目的集合。被觀看過的節(jié)目的集合是通過觀察被給定樣本人群實際觀看過的節(jié)目而識別的,而未被觀看過的節(jié)目的集合,則是通過例如從節(jié)目數(shù)據(jù)庫200內(nèi)對未被給定樣本人群觀看過的節(jié)目進行隨機采樣而識別的。
推薦工具100處理第三方收視歷史130,以生成反映代表性樣本人群的典型收視模式的原型簡檔。一個原型簡檔就是以某種方式彼此相似的電視節(jié)目(數(shù)據(jù)點)的群集。因此,一個給定群集或原型簡檔對應(yīng)于第三方收視歷史130中的展現(xiàn)一個特定模式的電視節(jié)目的特定片斷。
按照本發(fā)明處理第三方收視歷史130,以提供展現(xiàn)某特定模式的節(jié)目群集。之后,用戶就可以根據(jù)對應(yīng)的人口統(tǒng)計學(xué)元數(shù)據(jù)(meta-data)或偏好來選擇最相關(guān)的原型,并由此用最接近他或她的自己興趣的節(jié)目來初始化他或她的簡檔。該原型簡檔然后根據(jù)用戶的收視或記錄模式以及被給予節(jié)目的反饋而調(diào)整并向每個個體用戶的特定的個人收視行為發(fā)展。在一個實施例中,在確定一個節(jié)目得分(score)時,可以給予用戶自己收視歷史140中的節(jié)目比第三方收視歷史130中的節(jié)目更高的權(quán)重(weight)。
推薦工具100可以體現(xiàn)為含有諸如中央處理單元(CPU)的處理器115和諸如RAM和/或ROM的存儲器120的任何計算裝置,諸如個人電腦或工作站。電視節(jié)目推薦工具100也可以體現(xiàn)為例如機頂終端或顯示器(未予示出)中的專用集成電路(ASIC)。此外,電視節(jié)目推薦工具100也可以體現(xiàn)為任何可用的電視節(jié)目推薦工具(或體現(xiàn)在其中),諸如位于美國加州Sunnyvale的Tivo公司銷售的TivoTM系統(tǒng),或者其它為實現(xiàn)本發(fā)明的特征和功能而修改了的電視節(jié)目推薦系統(tǒng)。
如圖1中所示并在下文結(jié)合圖2至8所進一步討論的那樣,電視節(jié)目推薦工具100包括一個節(jié)目數(shù)據(jù)庫200、一個原型簡檔處理過程300、一個聚類例程400、一個平均計算例程500、一個距離計算例程600和一個群集性能評估例程800。一般來說,節(jié)目數(shù)據(jù)庫200可體現(xiàn)為一個已知的電子節(jié)目指南,并記錄或含有在給定時段可用的每個節(jié)目的信息。原型簡檔處理過程300(i)處理第三方收視歷史130,以生成反映被代表性觀眾所觀看過的電視節(jié)目的典型模式的原型簡檔;(ii)允許用戶選擇最相關(guān)的原型,由此初始化他或她的簡檔;以及(iii)根據(jù)所選擇的原型生成推薦。
聚類例程400被原型簡檔處理過程300調(diào)用,以把第三方收視歷史130(數(shù)據(jù)集)劃分成群集,使得在一個群集中的點(電視節(jié)目)與該群集的平均(質(zhì)心)(centroid)比任何其它群集的都更接近。聚類例程400調(diào)用平均計算例程500來計算一個群集的符號平均(symbolicmean)。距離計算例程600被聚類例程400調(diào)用,以根據(jù)一個給定電視節(jié)目與一個給定群集的平均之間的距離來評估一個電視節(jié)目與每個群集的接近程度。最后,聚類例程400調(diào)用聚類性能評估例程800來確定創(chuàng)建群集的停止或終止標(biāo)準(zhǔn)何時被滿足。
圖2是一個采用按照本發(fā)明的一個實施例初始化的用戶簡檔的電視節(jié)目推薦工具內(nèi)的節(jié)目數(shù)據(jù)庫中的樣本表,并且其包含該示例性實施例中的圖1的電子節(jié)目指南(EPG)200。如前文所指出的那樣,節(jié)目數(shù)據(jù)庫200記錄在給定時間段可用的每個節(jié)目的信息。如圖2中所示,節(jié)目數(shù)據(jù)庫200含有多個記錄,諸如記錄205至220,每個記錄都與一個給定節(jié)目相關(guān)聯(lián)。對于每個節(jié)目,節(jié)目數(shù)據(jù)庫200分別在字段240和245中指示與節(jié)目相關(guān)聯(lián)的日期/時間和頻道(或頻道調(diào)用符號(channel call sign)或網(wǎng)絡(luò)從屬關(guān)系(network affiliation))。
本發(fā)明試圖用關(guān)于節(jié)目的符號信息來建立原型簡檔。為此可以采用關(guān)于諸如種類、演員、標(biāo)題、語言(英語、西班牙語、法語等)、節(jié)目評級(冒犯性語言、性、暴力、裸體等)之類的節(jié)目描述性數(shù)據(jù)的符號信息。然而,不管所采用的根據(jù)節(jié)目描述性數(shù)據(jù)從符號信息中導(dǎo)出這樣的原型簡檔的技術(shù)(諸如下文進一步詳細(xì)描述的聚類例程)如何復(fù)雜,導(dǎo)出準(zhǔn)確原型簡檔的總體性能將受到節(jié)目描述性數(shù)據(jù)的豐富程度和/或詳細(xì)程度的限制。
例如,如果有些觀眾喜歡板球,而其他觀眾偏愛羽毛球,則有這樣一個期望,即喜歡板球的觀眾被分組在一起,而偏愛羽毛球的觀眾被單獨地分組在一起。然而,除非節(jié)目描述性數(shù)據(jù)包括一個其中可以單獨地規(guī)定或者板球或者羽毛球的類別,否則這種分組是不可能的。結(jié)果,喜歡板球、喜歡羽毛球、或既喜歡板球又喜歡羽毛球的所有觀眾都被分組在一起。
在本發(fā)明中,通過采用直接與演出的內(nèi)容相關(guān)的符號數(shù)據(jù)而不是間接地通過節(jié)目的描述性數(shù)據(jù)來方便在導(dǎo)出原型簡檔過程中對用戶的適當(dāng)分組。因此,在一個或多個字段250至270中標(biāo)識演出的圖像內(nèi)容(或至少是代表所述圖像內(nèi)容的符號數(shù)據(jù))。所存儲或表示的圖像內(nèi)容可以是以下各項之一節(jié)目幀(整個節(jié)目的幀或者被選擇的節(jié)目“剪輯”的幀)的被提取的圖像特征,諸如平均、標(biāo)準(zhǔn)差、熵等等;節(jié)目或所選擇的剪輯中的關(guān)鍵幀、或關(guān)于節(jié)目的宣傳片(trails)或廣告。所述關(guān)鍵幀、宣傳片或廣告可以被直接存儲/表示,或者被采用來如上文所述地導(dǎo)出所提取的平均、標(biāo)準(zhǔn)差或熵的節(jié)目圖像特征。
可選地,在字段250至270中也標(biāo)識每個節(jié)目的諸如標(biāo)題、種類、演員和/或評級(冒犯性語言、性、暴力、裸體等)的節(jié)目描述性數(shù)據(jù)或者代表它們的符號信息。也可將諸如節(jié)目的持續(xù)時間之類的附加的眾所周知的特征(未予示出)包括在或表示在節(jié)目數(shù)據(jù)庫200中。
圖3是表示按照本發(fā)明的一個實施例的原型簡檔處理過程的示例性實現(xiàn)方式的高層級流程圖。如前文所指出的那樣,原型簡檔處理過程300(i)處理第三方收視歷史130,以生成反映由代表性觀眾所觀看的電視節(jié)目的典型模式的原型簡檔;(ii)允許用戶選擇最相關(guān)的原型并由此初始化他或她的簡檔;(iii)根據(jù)所選擇的原型生成推薦。第三方收視歷史130的處理,例如可以在研究機構(gòu)中離線進行,并且可以將電視節(jié)目推薦工具100提供給安裝有所生成的原型簡檔的用戶,以供用戶選擇。
因此如圖3中所示的那樣,原型簡檔處理過程300一開始在步驟310中收集第三方收視歷史130。之后,原型簡檔處理過程300在步驟320中執(zhí)行下文結(jié)合圖4所討論的聚類例程400,以生成對應(yīng)于原型簡檔的節(jié)目的群集。如下文進一步討論的那樣,示例性聚類例程400可對于收視采用無人監(jiān)管的(unsupervised)數(shù)據(jù)聚類算法(諸如K平均群集例程)并處理歷史數(shù)據(jù)集130。如前文所指出的那樣,聚類例程400把第三方收視歷史130(數(shù)據(jù)集)劃分成群集,使得在一個群集中的點(電視節(jié)目)與該群集的平均(質(zhì)心)比任何其它群集的都更接近。
原型簡檔處理過程300然后在步驟330中向每個群集分配表征每個原型簡檔的一個或多個標(biāo)簽(label)。在一個示例性實施例中,群集的平均變成整個群集的代表性電視節(jié)目,并且該平均節(jié)目的特征可以被用來給群集加標(biāo)簽。例如,可以將電視節(jié)目推薦工具100配置得使得種類是每個群集的主導(dǎo)或定義特征。
在步驟340中將被加標(biāo)簽的原型簡檔呈現(xiàn)給每個用戶,用于選擇最接近用戶的興趣的原型簡檔。構(gòu)成每個所選擇群集的節(jié)目可被看作為該原型的“典型收視歷史”,并可用來為每個群集建立一個原型簡檔。這樣,在步驟350中為用戶生成一個由來自所選擇的原型簡檔中的節(jié)目組成的收視歷史。最后,在步驟360中將在前一個步驟中生成的收視歷史應(yīng)用到節(jié)目推薦工具,以獲得節(jié)目推薦。節(jié)目推薦工具可體現(xiàn)為任何常規(guī)節(jié)目推薦工具,諸如在上文中參照的、在本文中修改的、為所述領(lǐng)域的普通技術(shù)人員所熟知的節(jié)目推薦工具。節(jié)目控制在步驟370中終止。
圖4是表示一個合并了本發(fā)明各特征的聚類例程400的示例性實現(xiàn)方式的流程圖。如前文所指出的那樣,聚類例程400在步驟320中被原型簡檔處理過程300調(diào)用,以把第三方收視歷史130(數(shù)據(jù)集)劃分成群集,使得在一個群集中的點(電視節(jié)目)與該群集的平均(質(zhì)心)比任何其它群集的都更接近??偟膩碚f,聚類例程專注于無人監(jiān)管的、在一個樣本集中尋找例子的分組的任務(wù)。本發(fā)明用一種k平均聚類算法把一個數(shù)據(jù)集劃分成k個群集。如下文所討論的那樣,聚類例程400的兩個主要參數(shù)是(i)下文結(jié)合圖6所討論的被利用來尋找特定收視歷史的最接近的群集的每個節(jié)目屬性的符號數(shù)據(jù)的距離量度(metric);和(ii)要創(chuàng)建的群集的個數(shù)k。
示例性聚類例程400采用一個動態(tài)值k,條件是當(dāng)例子數(shù)據(jù)的進一步聚類對分類準(zhǔn)確度不產(chǎn)生任何改善時,就達到了一個穩(wěn)定的k。此外,群集大小被遞增到有一個空群集被記錄的那一點。因此,當(dāng)達到群集的一個自然級別時,聚類停止。
如圖4中所示的那樣,聚類例程400最初在步驟410中建立k個群集。示例性聚類例程400以選擇例如2的一個最小的群集個數(shù)為開始。對于這個固定的數(shù),聚類例程400處理整個收視歷史數(shù)據(jù)集130,以把每個收視歷史放入一個或兩個群集中,并且經(jīng)過幾個迭代,到達兩個可被視為穩(wěn)定的群集(就是說,即使算法經(jīng)過另一個迭代,也不會有節(jié)目從一個群集轉(zhuǎn)移到另一個群集)。在步驟420中用一個或多個節(jié)目初始化當(dāng)前的k個群集。
在一個示例性實現(xiàn)方式中,在步驟420中用從第三方收視歷史130中選擇的一些種子節(jié)目對群集進行初始化。用于初始化群集的節(jié)目,可以被隨機地或順序地選擇。在一個順序?qū)崿F(xiàn)方式中,可以用從收視歷史130中的第一個節(jié)目開始的節(jié)目或者從收視歷史130中的一個隨機的點開始的節(jié)目初始化群集。在另一個變型中,初始化每個群集的節(jié)目的個數(shù)也可以改變。最后,可以用一個或多個由從第三方收視歷史130中的節(jié)目中隨機選擇的特征值構(gòu)成的“假設(shè)的”節(jié)目來初始化群集。
之后,在步驟430中,聚類例程400啟動下文結(jié)合圖5所討論的平均計算例程500,以計算每個群集的當(dāng)前平均。然后,在步驟440中,聚類例程400執(zhí)行下文結(jié)合圖6所討論的距離計算例程600,以確定第三方收視歷史130中每個節(jié)目到每個群集的距離。然后在步驟460中把收視歷史130中的每個節(jié)目分配到最接近的群集。
在步驟470中進行一個測試,以確定是否任何節(jié)目已經(jīng)被從一個群集轉(zhuǎn)移到另一個。如果在步驟470中確定一個節(jié)目已經(jīng)被從一個群集轉(zhuǎn)移到另一個,則節(jié)目控制返回到步驟430,并以上述的方式繼續(xù),直到確定一個穩(wěn)定的群集集合。然而,如果在步驟470中確定沒有節(jié)目已經(jīng)從一個群集被轉(zhuǎn)移到另一個,則節(jié)目控制前進到步驟480。
在步驟480中進行另一個測試,以確定是否一個制定的性能標(biāo)準(zhǔn)已經(jīng)被滿足或者是否已經(jīng)識別一個空群集(共同地稱作“停止標(biāo)準(zhǔn)”)。如果在步驟480確定所述停止標(biāo)準(zhǔn)尚未被滿足,則在步驟485中遞增k的值,節(jié)目控制返回到步驟420,并以上述的方式繼續(xù)。然而,如果在步驟480中確定所述停止標(biāo)準(zhǔn)已經(jīng)被滿足,則節(jié)目控制終止。對停止條件的評估,在下文中結(jié)合圖8作進一步討論。
示例性聚類例程400只把節(jié)目放在一個群集中,因此創(chuàng)建所謂的明確的(crisp)群集。另一個變型則采用模糊(fuzzy)聚類,其允許一個特定的例子(電視節(jié)目)部分地屬于許多群集。在模糊聚類方法中,電視節(jié)目被賦予一個權(quán)重,該權(quán)重代表電視節(jié)目與群集平均的接近程度。該權(quán)重可以取決于電視節(jié)目與群集平均的距離的逆平方(inversesquare)。與一個單一電視節(jié)目相關(guān)聯(lián)的所有群集權(quán)重的和應(yīng)當(dāng)是總計100%。
圖5是表示一個合并了本發(fā)明的特征的平均計算例程500的示例性實現(xiàn)方式的流程圖。如前文所指出的那樣,平均計算例程500被聚類例程400調(diào)用,以計算一個群集的符號平均。對于數(shù)字?jǐn)?shù)據(jù),該平均是最小化方差(variance)的值。把該概念推廣到符號數(shù)據(jù),一個群集的平均可通過尋找最小化群集內(nèi)(intra-cluster)方差Var(J)Var(J)=Σi∈J(xi-xμ)2---(1)]]>的xμ的值和群集半徑(或群集的范圍)R(J)=Var(J)---(2)]]>
而定義。其中J是一個來自相同類(被觀看過的或未被觀看過)的電視節(jié)目的群集,xi是演出i的符號特征,xμ是來自J中的其中一個電視節(jié)目的使Var(J)最小的特征值。
因此,如圖5中所示,在步驟510中,平均計算例程500初始地識別當(dāng)前在給定群集J中的節(jié)目。對于每個可能的符號值xμ,在步驟520中,對所考慮的當(dāng)前符號屬性,用等式(1)計算群集J的方差。在步驟530中,選擇使該方差最小的符號值xμ作為平均值。
在步驟540中進行一個測試,以確定是否有附加的符號屬性要考慮。如果在步驟540中確定有附加的符號屬性要考慮,則節(jié)目控制返回到步驟520,并以上述的方式繼續(xù)。然而,如果在步驟540中確定沒有附加的符號屬性要考慮,則節(jié)目控制返回到聚類例程400。
在計算上,J中的每個符號特征值都被作為xμ嘗試,而使方差最小的符號值變成群集J中所考慮的符號屬性的平均。有兩種可能的平均計算的類型,即基于演出的平均和基于特征的平均。這里所討論的示例性的平均計算例程500是基于特征的,其中所產(chǎn)生的群集平均由從群集J中的例子(節(jié)目)中抽取的特征值組成,因為符號屬性的平均必須是它的可能值的其中之一。
然而重要的是要注意,群集平均可能是一個“假設(shè)的”電視節(jié)目。這個假設(shè)的節(jié)目的特征值可能包括從關(guān)鍵幀或例子(例如EBC)的其中之一中抽取的圖像特征或描述性數(shù)據(jù)項值以及從另一個例子(例如在現(xiàn)實中從不在EBC播出的BBC世界新聞)中抽取的圖像特征或標(biāo)題值。因此,任何展現(xiàn)最小方差的特征值都被選擇來代表該特征的平均。對所有圖像和描述性特征位置,重復(fù)平均計算例程500,直到該過程在步驟540中確定所有的特征(即符號屬性)都被考慮。如此獲得的作為結(jié)果的假設(shè)節(jié)目被用于代表群集的平均。
在另一個變型中,在計算方差的等式(1)中,xi可以是電視節(jié)目i本身的圖像特征和/或節(jié)目描述性數(shù)據(jù),類似地,xμ是群集J中的使群集J中的節(jié)目集合的方差最小的節(jié)目。在這個情況下,節(jié)目之間的距離而非各個單獨的特征值,是要被最小化的相關(guān)量度。此外,在這個情況下生成的平均不是一個假設(shè)的節(jié)目,而是一個就是從集合J中挑出的節(jié)目。從群集J中這樣找出的使群集J中的所有節(jié)目的方差最小的任何節(jié)目,都被用來代表群集的平均。
以上討論的示例性平均計算例程500,用每個可能的特征的一個單一特征值來表征一個群集的平均(無論是在基于特征的還是基于演出的實現(xiàn)方式中)。然而已經(jīng)發(fā)現(xiàn),在平均計算期間僅僅依賴每個特征的一個特征值,常常導(dǎo)致不當(dāng)?shù)木垲?,因為平均不再是該群集的代表性群集中心。換言之,僅用一個節(jié)目來代表一個群集可能是不合意的,相反,可以采用代表該平均或多個平局的多個節(jié)目來代表該群集。因此,在另一個變型中,可以用多個平均或每個可能特征的多個特征值來代表一個群集。因此,在步驟530中,選擇使得方差最小的N個特征(對于基于特征的符號平均來說)或N個節(jié)目(對于基于節(jié)目的符號平均來說),其中N是用來代表一個群集的平均的節(jié)目的個數(shù)。
如前文所指出的那樣,距離計算例程600被聚類例程400調(diào)用,以根據(jù)一個給定電視節(jié)目與一個給定群集的平均之間的距離來評估一個特定電視節(jié)目到每個群集的接近程度。所計算出的距離量度,量化樣本數(shù)據(jù)集中的不同例子之間的差別,以決定一個群集的范圍。為了能夠聚類用戶簡檔,必須計算收視歷史中的任意兩個電視節(jié)目之間的距離??偟膩碚f,互相靠近的電視節(jié)目趨向于落入一個群集中。存在多個相對直截明了的技術(shù),用于計算數(shù)值矢量之間的距離,諸如歐幾里得(Euclidean)距離、曼哈頓(Manhattan)距離以及Mahalanobis距離。
然而,現(xiàn)有的距離計算技術(shù)不能被用于電視節(jié)目矢量的情況中,因為電視節(jié)目主要由符號特征值構(gòu)成。例如,諸如在2002年10月22日下午7點在EBC播放的一集“Fiends”(魔鬼)和在2002年10月25日下午8點在FEX播放的一集“The Simpsons”(辛普森夫婦)的兩個電視節(jié)目,可以用以下的特征矢量表示圖像特征XXX 圖像特征YYY標(biāo)題Fiends 標(biāo)題Simons頻道EBC 頻道FEX播出日期2002-10-22 播出日期2002-10-25播出時間2000播出時間2000顯然,已知的數(shù)字距離量度標(biāo)準(zhǔn)不能用來計算圖像特征值“XXX”和“YYY”或描述性特征值“EBC”和“FEX”之間的距離。值差量度(ValueDifference Metric)(VDM)是現(xiàn)有的一種用于測量以符號特征為值的域中的特征值之間的距離的技術(shù)。VDM技術(shù)考慮每個特征的每個可能值的所有實例的分類的總體相似性。使用這個方法,根據(jù)訓(xùn)練集合中的例子,以統(tǒng)計的方式導(dǎo)出一個定義一個特征的所有值之間的距離的矩陣。關(guān)于計算符合特征值之間的距離的VDM技術(shù)的更詳細(xì)的討論,例如參照Stanfill和Waltz所著的“Toward Memory-Based Reasoning(基于記憶的推理)”,Communications of the ACM,2912,1213-1228(1986)。
本發(fā)明采用VDM技術(shù)或它的一種變型來計算兩個電視節(jié)目或其它感興趣的項目之間的特征值之間的距離。原始的VDM建議在計算兩個特征值之間的距離時采用一個權(quán)重項,這使距離量度不對稱。一種修改的VDM(MVDM)省略該權(quán)重項,以使距離矩陣對稱。關(guān)于計算符號特征值之間的距離的MVDM技術(shù)的更詳細(xì)的討論,例如可參照Cost和Salzberg所著的“A Weighted Nearest Neighbor Algorithm ForLearning With Symbolic Features(用于利用符合特征進行學(xué)習(xí)的加權(quán)最近鄰算法)”,Machine Learning,Vol.10,57-58,Boston,MA,Kluwer Publishers(1993)。
按照MVDM,一個特定特征的兩個值V1和V2之間的距離δ由下式給出δ(V1,V2)=Σ|C1iC1-C2iC2|r---(3)]]>在本發(fā)明的節(jié)目推薦環(huán)境中,這個MVDM等式(3)被變換,以專門處理“被觀看過的”和“未被觀看過的”這兩個類δ(V1,V2)=|C1iwatchedC1watched-C2iwatchedC2watched|+|C1inot_watchedC1not_watched-C2inot_watchedC2not_watched|---(4)]]>在等式(4)中,V1和V2是所考慮的特征的兩個可能的值。
繼續(xù)上面的例子,特征“頻道”的第一個值或值集和V1等于“XXX”(或“XXX”和“EBC”),第二個值或值集和V2等于“YYY”(或“YYY”和“FEX”)。這兩個值之間的距離是對例子所被分類入的所有類的求和。本發(fā)明的示例性節(jié)目推薦工具實施例的相關(guān)類是“被觀看過的”和“未被觀看過的”。C1i是V1(XXX)被分入類i(i等于1意味著“被觀看過的”這一類)的次數(shù),C1(C1total)是V1在數(shù)據(jù)集中出現(xiàn)的總次數(shù)。值“r”是個常數(shù),一般被設(shè)定為1。
如果值在所有的分類中以相同的相對頻率出現(xiàn),則由等式(4)所定義的量度將把這些值標(biāo)識為相似的。術(shù)語C1i/C1代表的是在假定所討論的特征具有值V1時中心殘數(shù)(central residue)將被歸類為i的似然性。因此,如果兩個值對所有可能的分類給出相似的似然性,則這兩個值是相似的。等式(4)通過尋找對所有分類的這些似然性的差異的和而計算兩個值之間的整體相似性。兩個電視節(jié)目之間的距離,是這兩個電視節(jié)目矢量的對應(yīng)特征值之間的距離的和。
圖7A是與特征“頻道”相關(guān)聯(lián)的特征值的距離表的一部分。圖7A內(nèi)的數(shù)據(jù)代表或者設(shè)置對于每個類的每個頻道特征值的出現(xiàn)次數(shù)。圖7A中所示的值是從一個示例性第三方收視歷史130中提取的。
圖7B表示用MVDM等式(4)從圖7A中所示的示例性計數(shù)中計算的每個特征值對之間的距離。直覺上,XXX和YYY應(yīng)當(dāng)是互相“接近的”,因為它們主要出現(xiàn)在“被觀看過的”類中而不是出現(xiàn)在“未被觀看過的”類中(YYY有少量“未被觀看過的”的部分)。圖7B用XXX與YYY之間的一個小的(非零)距離證實了這個直覺。而圖像特征ZZZ主要出現(xiàn)在“未被觀看過的”類中,因此對于這個數(shù)據(jù)集來說,其應(yīng)當(dāng)“遠離”XXX和YYY。圖7B把XXX與ZZZ之間的距離設(shè)置為最大可能距離2.0中的1.895。類似地,YYY與ZZZ之間的距離高達具有值1.828。
因此,如圖6中所示的那樣,在步驟610中,距離計算例程600初始地識別第三方收視歷史130中的節(jié)目。在步驟620中,對于所考慮的當(dāng)前節(jié)目,距離計算例程600用等式(4)來計算每個符號特征值到(由平均計算例程500所確定的)每個群集平均的對應(yīng)特征的距離。
在步驟630中,通過合計對應(yīng)特征值之間的距離,計算當(dāng)前節(jié)目和群集平均之間的距離。在步驟640中進行一個測試,以確定第三方收視歷史130中是否有附加的節(jié)目要考慮。如果在步驟640中確定第三方收視歷史130中有附加的節(jié)目要考慮,則在步驟650中確定下一個節(jié)目,節(jié)目控制前進到步驟620,并按上述的方式繼續(xù)。
然而,如果在步驟640中確定第三方收視歷史130沒有附加的節(jié)目要考慮,則節(jié)目控制返回到聚類例程400。
如前文所討論的那樣,可以用每個可能特征的多個特征值來表征一個群集的平均(無論是在基于特征的還是基于節(jié)目的實現(xiàn)方式中)。多個平均的結(jié)果然后被距離計算例程600的一個變型匯集(pool),以通過投票表決(voting)而達到一個一致決定。例如,現(xiàn)在在步驟620中計算一個節(jié)目的一個給定特征值與不同的平均的對應(yīng)特征值中的每一個之間的距離。將最小的距離結(jié)果匯集起來以用于表決投票,這是例如通過采用多數(shù)投票表決或?qū)<业幕旌蛠磉_到一個一致決定。關(guān)于這樣的技術(shù)的更詳細(xì)的討論,例如參照J(rèn).Kittler等人所著的“Combing Classifiers,(梳理分類器)”(Proc.of the 13th Int’lConf.on Pattern Recognition,Vol.II,897-901,Vienna,Austria,1996)。
如前文所述的那樣,聚類例程400調(diào)用圖8中所示的聚類性能評估例程800來確定創(chuàng)建群集的停止標(biāo)準(zhǔn)何時已經(jīng)被滿足。示例性聚類例程400采用一個動態(tài)值k,條件是,當(dāng)例子數(shù)據(jù)的進一步聚類對分類準(zhǔn)確度不產(chǎn)生任何改善時,就達到了一個穩(wěn)定的k。此外,群集大小可以被遞增到有一個空群集被記錄時的那一點。因此,當(dāng)達到群集的一個自然級別時,聚類停止。
示例性聚類性能評估例程800使用第三方收視歷史130中的一個節(jié)目子集(測試數(shù)據(jù)集)來測試聚類例程400的分類準(zhǔn)確度。對于測試集中的每個節(jié)目,聚類性能評估例程800確定最接近它的群集(哪個群集平均是最接近的),并把該群集的類標(biāo)簽和所考慮的節(jié)目比較。匹配的類標(biāo)簽的百分比被轉(zhuǎn)化為聚類例程400的準(zhǔn)確度。
因此,如圖8中所示的那樣,在步驟810中,聚類性能評估例程800初始地從第三方收視歷史130中收集一個節(jié)目子集,以作為測試數(shù)據(jù)集。之后,在步驟820中,根據(jù)群集中被觀看過的和未被觀看過的節(jié)目的百分比,向每個群集分配一個類標(biāo)簽。例如,如果群集中多數(shù)節(jié)目是被觀看過的,則該群集可被分配一個“被觀看過的”標(biāo)簽。
在步驟830中,識別與測試集中每個節(jié)目最接近的群集,并將用于被分配的群集的類標(biāo)簽與該節(jié)目實際是否被觀看過進行比較。在其中用多個節(jié)目來代表群集的平均的實現(xiàn)方式中,可以采用(到每個節(jié)目的)平均距離或投票方案。在步驟840中,確定匹配的類標(biāo)簽的百分比,然后,節(jié)目控制返回到聚類例程400。如果分類準(zhǔn)確度已經(jīng)達到一個預(yù)定的閥值,則聚類例程400將終止。
本發(fā)明允許以單獨地或與關(guān)于節(jié)目的描述性信息相結(jié)合地直接根據(jù)圖像內(nèi)容建立原型簡檔的方式聚類收視偏好。聚類的性能因此不受作為收視歷史的主題的關(guān)于節(jié)目的描述性信息的詞匯的豐富程度的限制。一旦原型簡檔被生成,就可以用一個代表更大人群的收視興趣的簡檔來為一個一開始缺乏準(zhǔn)確推薦所需的足夠的收視歷史的個人去快速啟動(jump-start)一個推薦工具。
重要的是要注意,盡管在一個完全可工作的系統(tǒng)的上下文中對本發(fā)明作了描述,所屬技術(shù)領(lǐng)域的熟練人員應(yīng)明白,本發(fā)明的至少部分機制,能夠以含有各種形式的指令的機器可用介質(zhì)的形式被分布(distributed),并且不管用來實際執(zhí)行該分布的信號承載介質(zhì)的特定類型如何,本發(fā)明都一樣地適用。機器可用介質(zhì)的例子包括非易失性、硬編碼類型的介質(zhì),諸如只讀存儲器(ROM)或可擦式電可編程只讀存儲器(EEPROM);可記錄類型的介質(zhì),諸如軟盤、硬盤驅(qū)動器和緊致盤只讀存儲器(CD-ROM)或數(shù)字通用盤(DVD);以及傳輸類型的介質(zhì),諸如數(shù)字和模擬通信鏈路。
盡管已經(jīng)詳細(xì)說明了本發(fā)明,但是,所屬領(lǐng)域的熟練人員將會了解,在不脫離本發(fā)明的最廣泛形式的精神和范圍的情況下,本文所公開的本發(fā)明可以有各種改變、替換、變型、增強、微調(diào)、分級、簡化形式、變化、修訂、改善和刪減。
權(quán)利要求
1.一種用來初始化節(jié)目推薦工具的系統(tǒng),包括控制器100,該控制器100采用一個或多個從第三方收視歷史130導(dǎo)出的原型簡檔,其中,第三方收視歷史130對于其中所代表的每個節(jié)目而言包含了直接從相應(yīng)節(jié)目的節(jié)目內(nèi)容中提取的節(jié)目內(nèi)容值,并且其中,原型簡檔至少是部分地根據(jù)節(jié)目內(nèi)容值導(dǎo)出的。
2.按照權(quán)利要求1的系統(tǒng),其中,節(jié)目內(nèi)容值包括節(jié)目的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差和熵的其中一個或多個。
3.按照權(quán)利要求1的系統(tǒng),其中,節(jié)目內(nèi)容值包括節(jié)目的關(guān)鍵幀和關(guān)鍵幀內(nèi)的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差和熵的其中一個或多個。
4.按照權(quán)利要求1的系統(tǒng),其中,節(jié)目內(nèi)容值包括以下各項中的一個或多個節(jié)目的廣告;節(jié)目的宣傳片;廣告內(nèi)的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差、熵;和宣傳片的內(nèi)圖像內(nèi)容的平均、標(biāo)準(zhǔn)差、熵。
5.按照權(quán)利要求1的系統(tǒng),其中,控制器100至少部分地根據(jù)節(jié)目內(nèi)容值從第三方收視歷史中導(dǎo)出一個或多個原型簡檔。
6.按照權(quán)利要求1的系統(tǒng),其中,控制器100采用一個或多個原型簡檔來初始化節(jié)目推薦工具。
7.按照權(quán)利要求1的系統(tǒng),其中,所述一個或多個原型簡檔是根據(jù)節(jié)目內(nèi)容值和有關(guān)節(jié)目的節(jié)目描述性數(shù)據(jù)導(dǎo)出的。
8.一種用于初始化節(jié)目推薦工具的方法,包括采用一個或多個從第三方收視歷史130導(dǎo)出的原型簡檔,其中,第三方收視歷史130對于其中所代表的每個節(jié)目而言包含了直接從相應(yīng)節(jié)目的節(jié)目內(nèi)容中提取的節(jié)目內(nèi)容值,并且其中,原型簡檔至少是部分地根據(jù)節(jié)目內(nèi)容值導(dǎo)出的。
9.按照權(quán)利要求8的方法,其中,節(jié)目內(nèi)容值包括節(jié)目的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差和熵的其中一個或多個。
10.按照權(quán)利要求8的方法,其中,節(jié)目內(nèi)容值包括節(jié)目的關(guān)鍵幀和關(guān)鍵幀內(nèi)的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差和熵的其中一個或多個。
11.按照權(quán)利要求8的方法,其中,節(jié)目內(nèi)容值包括以下各項的其中一個或多個節(jié)目的廣告;節(jié)目的宣傳片;廣告內(nèi)的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差、熵;和宣傳片內(nèi)的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差、熵。
12.按照權(quán)利要求8的方法,進一步包括至少部分地根據(jù)節(jié)目內(nèi)容值從第三方收視歷史中導(dǎo)出一個或多個原型簡檔。
13.按照權(quán)利要求8的方法,進一步包括采用一個或多個原型簡檔來初始化節(jié)目推薦工具。
14.按照權(quán)利要求8的方法,其中,所述一個或多個原型簡檔是根據(jù)節(jié)目內(nèi)容值和有關(guān)節(jié)目的節(jié)目描述性數(shù)據(jù)導(dǎo)出的。
15.一種用于初始化節(jié)目推薦工具的數(shù)據(jù)信號,包括一個或多個從第三方收視歷史130導(dǎo)出的原型簡檔,其中,第三方收視歷史130對于其中所代表的每個節(jié)目而言包含了直接從相應(yīng)節(jié)目的節(jié)目內(nèi)容中提取的節(jié)目內(nèi)容值,并且其中,原型簡檔至少是部分地根據(jù)節(jié)目內(nèi)容值導(dǎo)出的。
16.按照權(quán)利要求15的數(shù)據(jù)信號,其中,節(jié)目內(nèi)容值包括節(jié)目的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差和熵的其中一個或多個。
17.按照權(quán)利要求15的數(shù)據(jù)信號,其中,節(jié)目內(nèi)容值包括節(jié)目的關(guān)鍵幀和關(guān)鍵幀內(nèi)的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差和熵的其中一個或多個。
18.按照權(quán)利要求15的數(shù)據(jù)信號,其中,節(jié)目內(nèi)容值包括以下各項的其中一個或多個節(jié)目的廣告;節(jié)目的宣傳片;廣告內(nèi)的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差、熵;和宣傳片內(nèi)的圖像內(nèi)容的平均、標(biāo)準(zhǔn)差、熵。
19.按照權(quán)利要求15的數(shù)據(jù)信號,其中,所述一個或多個原型簡檔被包含在可以由推薦工具訪問的存儲介質(zhì)內(nèi)。
20.按照權(quán)利要求15的數(shù)據(jù)信號,其中,所述一個或多個原型簡檔是根據(jù)節(jié)目內(nèi)容值和有關(guān)節(jié)目的節(jié)目描述性數(shù)據(jù)導(dǎo)出的。
全文摘要
為了在用戶的收視或購買歷史完備得足以生成準(zhǔn)確的推薦之前推薦用戶感興趣的項目(諸如電視節(jié)目推薦),處理第三方收視或購買歷史,以生成反映由代表性觀眾所選擇的項目的典型模式的原型簡檔。為了避免受到與所收視節(jié)目相關(guān)聯(lián)的描述性信息的詞匯的限制,采用圖像內(nèi)容和/或圖像內(nèi)容特征(平均、標(biāo)準(zhǔn)差、熵)作為單獨地或者與描述性信息相結(jié)合地評估收視歷史的根據(jù)。用戶能從所生成的原型簡檔中選擇最相關(guān)的原型,并由此用最接近他或她的自己興趣的項目來初始化他或她的簡檔,由于在生成原型簡檔的過程中直接采用節(jié)目內(nèi)容,因此準(zhǔn)確度更高。
文檔編號H04N5/445GK1711773SQ200380103490
公開日2005年12月21日 申請日期2003年11月13日 優(yōu)先權(quán)日2002年11月18日
發(fā)明者S·古特塔 申請人:皇家飛利浦電子股份有限公司