面向三網(wǎng)融合的電視節(jié)目?jī)?nèi)容搜索與推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,更具體地,設(shè)及一種面向=網(wǎng)融合的電視節(jié)目 內(nèi)容捜索與推薦方法,通過視頻標(biāo)簽自豐富實(shí)現(xiàn)對(duì)海量電視節(jié)目?jī)?nèi)容的詳細(xì)描述,詳細(xì)收 集用戶行為信息并挖掘用戶偏好,根據(jù)得到的用戶偏好信息為用戶提供電視節(jié)目個(gè)性化捜 索和主動(dòng)推薦兩種個(gè)性化服務(wù)。
【背景技術(shù)】
[0002] 網(wǎng)融合"是指互聯(lián)網(wǎng)、廣播電視網(wǎng)和電信網(wǎng)=網(wǎng)相互滲透、互相兼容并逐步發(fā) 展成為資源共享,能為用戶提供數(shù)據(jù)、廣播電視和數(shù)字語音等多種服務(wù)的統(tǒng)一信息網(wǎng)絡(luò)。近 年來,隨著我國(guó)數(shù)字電視的改造、網(wǎng)融合"業(yè)務(wù)的不斷發(fā)展W及多媒體技術(shù)的持續(xù)進(jìn)步, 電視頻道越來越多,視頻數(shù)據(jù)的生成和處理變得很方便,視頻的數(shù)量呈現(xiàn)爆炸性的增長(zhǎng),用 戶獲取運(yùn)些視頻數(shù)據(jù)的途徑也更多。例如,用戶可W快速地在優(yōu)酷±豆、You化be、騰訊等平 臺(tái)上傳和分享自己喜愛的視頻;與此同時(shí),相較于傳統(tǒng)的線性接收有線電視節(jié)目,如今的用 戶可W隨時(shí)隨地通過互聯(lián)網(wǎng)觀看相應(yīng)的有線電視節(jié)目。然而,雖然用戶獲取視頻數(shù)據(jù)的方 式很多,但一方面視頻數(shù)據(jù)的增長(zhǎng)太快,另一方面人們的工作生活節(jié)奏越來越快,真正用于 觀看視頻的時(shí)間越來越少,越來越零散。面對(duì)大量的電視頻道和海量的互聯(lián)網(wǎng)視頻內(nèi)容,用 戶往往無所適從,僅有的一點(diǎn)娛樂時(shí)間往往消耗在視頻的捜索和選擇上。因此隨著電視頻 道的增加、視頻內(nèi)容的海量增長(zhǎng)、用戶生活節(jié)奏的加快,如何有效組織、管理和獲取運(yùn)些視 頻節(jié)目,使電視節(jié)目觀眾能夠方便有效地在海量電視節(jié)目中獲得自己感興趣的視頻內(nèi)容即 為用戶提供個(gè)性化視頻服務(wù)已經(jīng)成為一種需要。
[0003] 雖然在個(gè)性化服務(wù)方面國(guó)內(nèi)外學(xué)者已經(jīng)進(jìn)行了大量的研究,但是=網(wǎng)融合環(huán)境下 電視節(jié)目?jī)?nèi)容個(gè)性化服務(wù)(個(gè)性化捜索和主動(dòng)推薦)仍然面臨如下幾個(gè)問題:
[0004] 1.=網(wǎng)融合環(huán)境下電視節(jié)目數(shù)據(jù)量呈現(xiàn)海量性,僅靠節(jié)目提供者一一對(duì)視頻內(nèi)容 進(jìn)行詳細(xì)描述是不現(xiàn)實(shí)的,必須依靠其他力量實(shí)現(xiàn)對(duì)視頻內(nèi)容的詳細(xì)描述。
[0005] 2.個(gè)性化服務(wù)對(duì)實(shí)時(shí)性要求很高,如何完整收集用戶行為信息,如何快速且準(zhǔn)確 地構(gòu)建用戶偏好模型,實(shí)現(xiàn)對(duì)偏好模型的實(shí)時(shí)更新W及提供高效的個(gè)性化服務(wù)仍然面臨著 挑戰(zhàn)。
[0006] 3.目前已有的個(gè)性化服務(wù)只關(guān)注點(diǎn)播視頻,或者只關(guān)注直播電視節(jié)目,缺少同時(shí) 對(duì)運(yùn)兩類電視節(jié)目考慮的個(gè)性化服務(wù)即=網(wǎng)融合環(huán)境下電視節(jié)目的個(gè)性化服務(wù)。
【發(fā)明內(nèi)容】
[0007] 針對(duì)現(xiàn)有技術(shù)的W上缺陷或改進(jìn)需求,本發(fā)明提供了一種面向=網(wǎng)融合的電視節(jié) 目?jī)?nèi)容捜索與推薦方法,其目的在于自動(dòng)生成能詳細(xì)描述海量電視節(jié)目?jī)?nèi)容的標(biāo)簽描述文 件,詳細(xì)收集用戶顯式和隱式行為信息挖掘用戶偏好,并通過改進(jìn)的相似度計(jì)算方法,實(shí)現(xiàn) =網(wǎng)融合環(huán)境下海量電視節(jié)目?jī)?nèi)容的個(gè)性化捜索與主動(dòng)推薦服務(wù),能有效提高用戶的檢索 效率,減少用戶的瀏覽時(shí)間。
[000引為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種面向S網(wǎng)融合的電視節(jié)目?jī)?nèi)容捜索與推薦方 法,其特征在于,包括如下步驟:
[0009] (1)生成視頻描述標(biāo)簽;
[0010] (2)收集用戶的顯式行為信息和隱式行為信息;
[0011] 其中,顯式行為信息包括用戶密碼保護(hù)問題答案和個(gè)性化簽名;隱式行為信息包 括用戶播放的點(diǎn)播視頻和直播電視節(jié)目名,播放開始、暫停和結(jié)束信息,檢索關(guān)鍵詞,視頻 評(píng)論信息,W及網(wǎng)頁瀏覽信息; 陽01引 做挖掘用戶偏好,進(jìn)一步包括如下步驟:
[0013] (3-1)從用戶的顯式行為信息和隱式行為信息中提取顯式偏好標(biāo)簽和隱式偏好標(biāo) 簽;
[0014] (3-2)計(jì)算顯式偏好標(biāo)簽的權(quán)重和隱式偏好標(biāo)簽的權(quán)重;
[0015] (3-3)用邏輯回歸衰減函數(shù)
對(duì)顯式偏好標(biāo)簽的權(quán)重和隱式偏好 標(biāo)簽的權(quán)重進(jìn)行衰減,其中,T(i)為用戶Ui的偏好的全衰期,t為時(shí)間;
[0016] (4)計(jì)算用戶的偏好標(biāo)簽與視頻描述標(biāo)簽的相似度,為用戶提供視頻捜索結(jié)果重 排序和視頻主動(dòng)推薦兩種個(gè)性化服務(wù);
[0017] 其中,視頻捜索結(jié)果重排序是指:讀取點(diǎn)播視頻的檢索結(jié)果,根據(jù)用戶的偏好標(biāo)簽 與視頻描述標(biāo)簽的相似度對(duì)檢索結(jié)果進(jìn)行重排序后展示給觀眾;視頻主動(dòng)推薦是指:讀取 待推薦視頻的描述標(biāo)簽,將描述標(biāo)簽與用戶的偏好標(biāo)簽的相似度最大的預(yù)定個(gè)數(shù)的視頻推 薦給觀眾。
[0018] 優(yōu)選地,所述步驟(1)進(jìn)一步包括如下步驟:(1-1)對(duì)視頻初始描述文本進(jìn)行分詞 和過濾,提取有效的分詞結(jié)果作為視頻初始標(biāo)簽;(1-2)由視頻初始標(biāo)簽從同義詞標(biāo)簽集 中得到同義詞標(biāo)簽,從用戶對(duì)視頻的評(píng)論信息中提取視頻評(píng)論標(biāo)簽,根據(jù)用戶的視頻捜索 和播放記錄信息計(jì)算視頻之間的相似度得到視頻相似度標(biāo)簽;(1-3)得到包括視頻初始標(biāo) 簽、同義詞標(biāo)簽、視頻評(píng)論標(biāo)簽和視頻相似度標(biāo)簽在內(nèi)的能詳細(xì)描述視頻內(nèi)容的視頻描述 柄簽。
[0019] 優(yōu)選地,所述步驟(3-1)進(jìn)一步包括如下步驟:(3-1-1)對(duì)用戶的行為信息進(jìn)行過 濾,去除無效的行為信息,得到有效的用戶的行為信息;(3-1-2)將相同連接會(huì)話內(nèi)同一個(gè) 視頻的所有播放記錄中的播放時(shí)間疊加,得到該視頻的累積播放時(shí)間,進(jìn)而將任一視頻的 播放記錄整合為一條,得到視頻播放行為描述標(biāo)簽;(3-1-3)對(duì)有效的用戶的顯式行為信 息進(jìn)行分詞,提取關(guān)鍵詞信息得到顯式偏好標(biāo)簽;對(duì)除已生成描述標(biāo)簽的視頻播放行為信 息之外的有效的用戶的隱式行為信息進(jìn)行分詞,提取關(guān)鍵詞信息,將提取的關(guān)鍵詞信息與 視頻播放行為描述標(biāo)簽一起作為隱式偏好標(biāo)簽。
[0020] 優(yōu)選地,所述步驟(3-2)中,用戶的隱式偏好標(biāo)簽的權(quán)重用該隱式偏好標(biāo)簽出現(xiàn) 的次數(shù)與該用戶的所有有效的行為信息的條數(shù)之商表示;其中,用戶對(duì)同一對(duì)象的一次檢 索、瀏覽和評(píng)論行為算一條行為信息;對(duì)于整合后的視頻播放記錄,計(jì)算總播放時(shí)長(zhǎng)與視頻 總時(shí)長(zhǎng)的比例P,當(dāng)比例P〉= 0. 8時(shí),該條播放記錄的權(quán)重為1,否則為P,在視頻播放記 錄參與隱式偏好標(biāo)簽的權(quán)值的計(jì)算時(shí)另乘W對(duì)應(yīng)的權(quán)重。
[0021] 優(yōu)選地,所述步驟(3-2)中,顯式偏好標(biāo)簽的權(quán)重的計(jì)算方法具體為:設(shè)置所有顯 式偏好標(biāo)簽的權(quán)重為I;對(duì)任一顯式偏好標(biāo)簽,若其未出現(xiàn)在當(dāng)前連接會(huì)話中,則根據(jù)其最 近一次出現(xiàn)的連接會(huì)話距離當(dāng)前連接會(huì)話的次數(shù)n對(duì)其權(quán)重進(jìn)行n次減半操作。
[0022] 優(yōu)選地,所述步驟(3-3)中,用戶Ui的偏好的全衰期T(i)通過如下方法得到:
[002引 (Al)計(jì)算用戶Ui的偏好標(biāo)簽tX對(duì)其偏好挖掘的影響:
[0024]
[0025]其中,P,為刪除偏好標(biāo)簽t,后用戶U1的偏好全衰期為T(i)時(shí)偏好標(biāo)簽t,的預(yù)測(cè) 權(quán)重,q,為偏好標(biāo)簽t,的真實(shí)權(quán)重,N1為用戶U1的偏好標(biāo)簽的個(gè)數(shù);
[0026] (A2)將用戶Ui的平均絕對(duì)誤差表示為:
[0027]
[002引 (A^為所有用戶的偏好的全衰期預(yù)設(shè)一個(gè)范圍化1。,TmJ,在該范圍內(nèi)計(jì)算用戶 Ui的偏好的全衰期T(i),使得MAE燈(i))的值最小。
[0029]