相關(guān)視頻推薦方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種相關(guān)視頻推薦方法及系統(tǒng),該方法包括如下步驟:獲取當(dāng)前視頻;對該當(dāng)前視頻的文本信息進(jìn)行分析,提取該當(dāng)前視頻的關(guān)鍵詞和類別信息,獲得關(guān)鍵詞列表及類別信息;根據(jù)該關(guān)鍵詞列表和類別信息,自動生成若干查詢條件,根據(jù)每個(gè)查詢條件對網(wǎng)站上的所有視頻進(jìn)行索引并合并,獲得第一候選列表,并將其加入到候選視頻集合;對該候選視頻集合中的每個(gè)候選視頻的質(zhì)量進(jìn)行評分;根據(jù)質(zhì)量評分結(jié)果,計(jì)算后該候選視頻集合中各視頻的相關(guān)得分,根據(jù)各視頻的相關(guān)得分獲得該當(dāng)前視頻的相關(guān)推薦列表,通過本發(fā)明,可以更好地為用戶提供高質(zhì)量的視頻,充分滿足用戶的觀看需求。
【專利說明】相關(guān)視頻推薦方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明關(guān)于一種在線視頻技術(shù),特別是涉及一種相關(guān)視頻推薦方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)內(nèi)容的爆炸性增長,尤其是視頻網(wǎng)站和社交網(wǎng)站的快速發(fā)展,每天有 大量的新鮮內(nèi)容被生產(chǎn)和消費(fèi),與此同時(shí),對一個(gè)用戶來說,從大量無關(guān)的內(nèi)容中發(fā)現(xiàn)感興 趣的信息越來越困難。
[0003] 對視頻網(wǎng)站來說,推薦系統(tǒng)是非常重要的組成部分。首先,國內(nèi)各大視頻網(wǎng)站積 累的視頻數(shù)量通常在幾千萬的數(shù)量級,而且對用戶上傳視頻Ugc)來說,視頻的內(nèi)容包羅萬 象,非常發(fā)散和豐富,用戶短時(shí)間內(nèi)很難找到自己真正感興趣的視頻;其次,用戶觀看一部 視頻所花費(fèi)的時(shí)間比較長,加上大多數(shù)網(wǎng)站在播放視頻之前會播放一段廣告,如果推薦的 視頻不合用戶口味,對用戶體驗(yàn)是一個(gè)很大的傷害;再次,良好的推薦系統(tǒng)能夠吸引用戶觀 看更多的視頻,從而為網(wǎng)站增加流量和收益。
[0004] 可見,在線相關(guān)視頻推薦是視頻網(wǎng)站幫助用戶查找并觀看某個(gè)特定領(lǐng)域視頻的方 法和工具。相對于傳統(tǒng)的視頻目錄瀏覽方式或者視頻搜索方式,相關(guān)視頻推薦能夠在用戶 不合適的搜索詞的情況下,通過分析用戶歷史行為,發(fā)現(xiàn)用戶需求的特定領(lǐng)域,在該特定領(lǐng) 域進(jìn)行推薦,避免了搜索詞的輸入和層次目錄的多次點(diǎn)擊過程,使得查找并觀看某個(gè)特定 類型的視頻更加簡單容易。
[0005] 現(xiàn)有的相關(guān)視頻推薦技術(shù),主要包括兩種方法:基于視頻協(xié)同過濾推薦和基于用 戶協(xié)同過濾推薦。前者通過計(jì)算視頻和視頻的相似度,將與觀影記錄視頻最相似的相關(guān)視 頻推薦給用戶,而后者則是基于觀影記錄,計(jì)算用戶相似度,將相似的用戶最近看過的相關(guān) 視頻推薦給用戶。這兩種方式默認(rèn)都是基于用戶的全部觀影記錄進(jìn)行分析,返回的結(jié)果是 與所有歷史視頻均相似的視頻,對于喜好比較單一的用戶,推薦結(jié)果比較好。例如用戶看了 一部或多部動作片,推出最近最熱的動作片,用戶感受會比較好。
[0006] 但是,隨著互聯(lián)網(wǎng)視頻網(wǎng)站的發(fā)展和用戶上網(wǎng)觀看視頻的行為增多,用戶對觀看 視頻類型和特征的需求更為多樣,滿足全部類型和特征的視頻將不存在或者可能質(zhì)量較 差,采用上述方法很可能是包含較多特征但沒有一個(gè)優(yōu)秀特征的視頻,影響用戶的興趣。
【發(fā)明內(nèi)容】
[0007] 為克服上述現(xiàn)有技術(shù)存在的不足,本發(fā)明之目的在于提供一種相關(guān)視頻推薦方法 及系統(tǒng),通過對視頻主題和內(nèi)容進(jìn)行精細(xì)分析,自動發(fā)現(xiàn)內(nèi)容上相關(guān)的其它視頻,并對用戶 的播放記錄進(jìn)行分析,挖掘用戶的偏好,同時(shí)還通過編輯列表推薦模塊整理編輯播放列表, 獲得候選視頻結(jié)合,并結(jié)合視頻的質(zhì)量評分來生成最終的相關(guān)相關(guān)視頻推薦列表,更好地 為用戶提供高質(zhì)量的視頻,充分滿足用戶的觀看需求。
[0008] 為達(dá)上述及其它目的,本發(fā)明提出一種相關(guān)視頻推薦方法,包括如下步驟:
[0009] 步驟一,獲取當(dāng)前視頻;
[0010] 步驟二,對該當(dāng)前視頻的文本信息進(jìn)行分析,提取該當(dāng)前視頻的關(guān)鍵詞和類別信 息,獲得關(guān)鍵詞列表及類別信息;
[0011] 步驟三,根據(jù)該關(guān)鍵詞列表和類別信息,自動生成若干查詢條件,根據(jù)每個(gè)查詢 條件對網(wǎng)站上的所有視頻進(jìn)行索引并合并,獲得第一候選列表,并將其加入到候選視頻集 合;
[0012] 步驟四,對該候選視頻集合中的每個(gè)候選視頻的質(zhì)量進(jìn)行評分;
[0013] 步驟五,根據(jù)質(zhì)量評分結(jié)果,計(jì)算后該候選視頻集合中各視頻的相關(guān)得分,根據(jù)各 視頻的相關(guān)得分獲得該當(dāng)前視頻的相關(guān)推薦列表。
[0014] 進(jìn)一步地,于步驟五中,對該候選視頻集合的所有視頻,按照排名分別賦予一個(gè)權(quán) 重,最后乘上視頻的質(zhì)量得分,得到各視頻的相關(guān)得分,并對各視頻的相關(guān)得分進(jìn)行排序, 選取前N個(gè)結(jié)果作為該當(dāng)前視頻的相關(guān)推薦列表。
[0015] 進(jìn)一步地,于步驟五之后,還包括對計(jì)算得到的相關(guān)推薦列表進(jìn)行緩存的步驟。
[0016] 進(jìn)一步地,當(dāng)請求一個(gè)視頻的推薦列表時(shí),若緩存中已經(jīng)有該視頻的推薦結(jié)果,則 直接返回緩存中的推薦列表。
[0017] 進(jìn)一步地,定期取出播放數(shù)超過一定次數(shù)的視頻,將該視頻的推薦結(jié)果按步驟一 至步驟五重新計(jì)算,并更新緩存。
[0018] 進(jìn)一步地,若某視頻很長時(shí)間沒有被再次播放,推薦結(jié)果將從緩存中清除。
[0019] 進(jìn)一步地,于步驟四之前,還包括如下步驟:挖掘用戶的偏好,獲得該當(dāng)前視頻的 共現(xiàn)視頻,組成第二候選列表,并將其加入到該候選集合中。
[0020] 進(jìn)一步地,獲取當(dāng)前視頻的共現(xiàn)視頻的步驟包括如下步驟:
[0021] 首先,統(tǒng)計(jì)所有與該當(dāng)前視頻有共現(xiàn)的視頻;
[0022] 對每一個(gè)共現(xiàn)的視頻V,計(jì)算count (A,V)/count (V),其中count (A,V)為A和 V共現(xiàn)的次數(shù),count (V)為V的播放總和;
[0023] 取count (A, V)/count (V)值最大的幾個(gè)視頻為該第二候選列表。
[0024] 進(jìn)一步地,于步驟四之前,還包括如下步驟:
[0025] 檢查該當(dāng)前視頻是否在編輯整理的某個(gè)視頻播放列表中;
[0026] 若存在這樣的播放列表,則把與該當(dāng)前視頻相關(guān)的播放列表中的視頻取出,組成 第三候選列表,并加入到候選集合中。
[0027] 進(jìn)一步地,步驟一包括如下步驟:
[0028] 對該當(dāng)前視頻的文本信息進(jìn)行中文分詞,獲得候選詞的列表;
[0029] 然后提取候選詞的詞性、長度、出現(xiàn)次數(shù)、是否是垃圾詞等特征,并根據(jù)該些特征 綜合為每個(gè)候選詞評分或賦予權(quán)重,取分?jǐn)?shù)較高的或權(quán)重值高的候選詞為視頻的關(guān)鍵詞列 表。
[0030] 為達(dá)到上述及其他目的,本發(fā)明還提供一種相關(guān)視頻推薦系統(tǒng),至少包括:
[0031] 內(nèi)容分析模塊,用于對當(dāng)前視頻的文本信息進(jìn)行分析,提取該當(dāng)前視頻的關(guān)鍵詞 和類別信息,獲得關(guān)鍵詞列表及類別信息;
[0032] 視頻搜索模塊,根據(jù)該關(guān)鍵詞列表和類別信息,自動生成若干查詢條件,根據(jù)每個(gè) 查詢條件對網(wǎng)站上的所有視頻進(jìn)行索引并合并,獲得第一候選列表,并將其加入到候選視 頻集合;
[0033] 質(zhì)量評分模塊,用于對候選視頻集合中的每個(gè)候選視頻的質(zhì)量進(jìn)行評分;
[0034] 結(jié)果生成模塊,根據(jù)質(zhì)量評分結(jié)果,計(jì)算后該候選視頻集合中各視頻的相關(guān)得分, 根據(jù)各視頻的相關(guān)得分獲得該當(dāng)前視頻的相關(guān)推薦列表。
[0035] 進(jìn)一步地,該系統(tǒng)還包括一緩存模塊,用于將對計(jì)算得到的相關(guān)推薦列表進(jìn)行緩 存。
[0036] 進(jìn)一步地,該系統(tǒng)還包括一編輯列表推薦模塊,用于檢查當(dāng)前視頻是否在編輯整 理的某個(gè)視頻播放列表,而于存在某個(gè)視頻播放列表時(shí),把該列表中與該當(dāng)前視頻相關(guān)的 視頻取出,組成該第三候選列表。
[0037] 進(jìn)一步地,該系統(tǒng)還包括一共現(xiàn)挖掘模塊,用于挖掘用戶的偏好,獲得該當(dāng)前視頻 的共現(xiàn)視頻,組成該第二候選列表。
[0038] 進(jìn)一步地,該文本信息包括視頻標(biāo)題、描述、用戶標(biāo)簽,該類型信息為視頻上傳者 選擇的分類信息。
[0039] 進(jìn)一步地,該質(zhì)量評分模組對視頻的質(zhì)量評分的依據(jù)包括播放次數(shù)、評論次數(shù)、清 晰度、縮略圖清晰度、標(biāo)題長度、視頻時(shí)長。
[0040] 與現(xiàn)有技術(shù)相比,本發(fā)明一種相關(guān)視頻推薦方法及系統(tǒng),通過內(nèi)容分析模塊對視 頻主題和內(nèi)容進(jìn)行精細(xì)分析,自動發(fā)現(xiàn)內(nèi)容上相關(guān)的其它視頻,并通過共現(xiàn)挖掘模塊對用 戶的播放記錄進(jìn)行分析,挖掘用戶的偏好,同時(shí)還通過編輯列表推薦模塊整理編輯播放列 表,獲得候選視頻結(jié)合,并結(jié)合視頻的質(zhì)量評分來生成最終的相關(guān)相關(guān)視頻推薦列表,可以 更好地為用戶推薦適合每個(gè)用戶自身的視頻。
【專利附圖】
【附圖說明】
[0041] 圖1為本發(fā)明一種相關(guān)視頻推薦方法的步驟流程圖;
[0042] 圖2為本發(fā)明較佳實(shí)施例中提取當(dāng)前視頻關(guān)鍵詞的示意圖;
[0043] 圖3為本發(fā)明一種相關(guān)視頻推薦系統(tǒng)的系統(tǒng)架構(gòu)圖。
【具體實(shí)施方式】
[0044] 以下通過特定的具體實(shí)例并結(jié)合【專利附圖】
【附圖說明】本發(fā)明的實(shí)施方式,本領(lǐng)域技術(shù)人員可 由本說明書所揭示的內(nèi)容輕易地了解本發(fā)明的其它優(yōu)點(diǎn)與功效。本發(fā)明亦可通過其它不同 的具體實(shí)例加以施行或應(yīng)用,本說明書中的各項(xiàng)細(xì)節(jié)亦可基于不同觀點(diǎn)與應(yīng)用,在不背離 本發(fā)明的精神下進(jìn)行各種修飾與變更。
[0045] 圖1為本發(fā)明一種相關(guān)視頻推薦方法的步驟流程圖。如圖1所示,本發(fā)明一種相 關(guān)視頻推薦方法,包括如下步驟:
[0046] 步驟101,獲取當(dāng)前視頻A。
[0047] 步驟102,對視頻A的文本信息進(jìn)行分析,提取視頻A的關(guān)鍵詞和類別信息,獲得關(guān) 鍵詞列表及類別信息。這里,視頻A的文本信息包括視頻標(biāo)題、描述、用戶標(biāo)簽等。分析過 程首先要對文本信息進(jìn)行中文分詞,獲得候選詞的列表;然后提取候選詞的詞性、長度、出 現(xiàn)次數(shù)、是否是垃圾詞等特征,并根據(jù)這些特征綜合評分,也可以根據(jù)這些特征賦予每個(gè)候 選詞權(quán)重,取分?jǐn)?shù)較高的或權(quán)重值高的候選詞為視頻的關(guān)鍵詞列表。圖2為本發(fā)明較佳實(shí) 施例中提取當(dāng)如視頻關(guān)鍵詞的不意圖。例如,當(dāng)如視頻的視頻標(biāo)題為"中國國廣航母上海開 中印航母"暗戰(zhàn)"建設(shè)大提速",描述為"印度國產(chǎn)航母新近下水,解放軍航母瓦良格完成第 三次海試,亞洲的兩個(gè)大國,在航母之路上開始了暗戰(zhàn),兩年打造3航母編隊(duì),如此驚人的 速度是否可以如期實(shí)現(xiàn)",用戶標(biāo)簽為"中國、航母、建設(shè)、開建",步驟102則對上述文本信息 進(jìn)行分析,獲得該視頻的關(guān)鍵詞列表:航母,暗戰(zhàn),中印。由于視頻上傳者上傳視頻時(shí)會為視 頻選擇一個(gè)分類,類別信息可由此獲得。
[0048] 步驟103,根據(jù)獲得的關(guān)鍵詞列表和類別信息,自動生成若干查詢條件,根據(jù)每個(gè) 查詢條件對網(wǎng)站上的所有視頻進(jìn)行索引并合并,獲得第一候選表,并將其加入到最相關(guān)的 候選視頻集合。在本發(fā)明較佳實(shí)施例中,查詢條件為類別信息與關(guān)鍵詞列表中各關(guān)鍵詞的 任意組合,關(guān)鍵詞列表是"航母、暗戰(zhàn)、中印",類別信息是軍事,則查詢條件可以是:
[0049] 1.類別=軍事and查詢詞=航母暗戰(zhàn)
[0050] 2.類別=軍事and查詢詞=航母中印
[0051] 3.類別=軍事and查詢詞=航母
[0052] 對每個(gè)查詢條件,可通過開源的全文檢索引擎Lucene對所有視頻進(jìn)行索引,從 Lucene中獲得返回的視頻列表,并對每個(gè)查詢條件返回的各個(gè)列表中的視頻進(jìn)行合并,得 到第一候選列表C1,加入到候選視頻集合C中。
[0053] 步驟104,對候選視頻集合中的每個(gè)候選視頻的質(zhì)量進(jìn)行評分。在本發(fā)明較佳實(shí)施 例中,視頻的質(zhì)量得分有幾部分組成:播放次數(shù)、評論次數(shù)、清晰度、縮略圖清晰度、標(biāo)題長 度、視頻時(shí)長。播放次數(shù)和評論次數(shù)越多越好,清晰度和縮略圖清晰度越高越好,同時(shí),標(biāo)題 長度和視頻時(shí)長不能太短。
[0054] 步驟105,對候選視頻集合的所有視頻,按照排名分別賦予一個(gè)權(quán)重,最后乘上 視頻的質(zhì)量得分,得到各視頻的相關(guān)得分,并對各視頻的相關(guān)得分進(jìn)行排序,選取前N個(gè) 結(jié)果作為當(dāng)前視頻A的相關(guān)推薦列表。在本發(fā)明較佳實(shí)施例中,獲取各視頻的相關(guān)得分: Relative_score (v) =score_Ci (v) *score_Ri (v) *quality (v),其中 score_Ci (v)根據(jù)視頻 v來自哪一個(gè)候選列表,score_Ri (v)是根據(jù)視頻在候選列表的排名,quality (v)是視頻的 質(zhì)量得分。
[0055] 然后,對視頻的相關(guān)得分Relative_score(v)進(jìn)行排序,選取前N個(gè)結(jié)果作為視頻 的相關(guān)推薦列表。
[0056] 較佳地,在步驟105之后,本發(fā)明還可以如下步驟:對計(jì)算得到的相關(guān)推薦列表進(jìn) 行緩存。當(dāng)請求一個(gè)視頻的推薦列表時(shí),如果緩存中已經(jīng)有這個(gè)視頻的推薦結(jié)果,不需要重 復(fù)計(jì)算,直接返回緩存中的推薦列表即可。
[0057] 同時(shí),因?yàn)椴粩嗟赜杏脩羯蟼餍碌暮唾|(zhì)量更好的視頻,本發(fā)明需要定期地重新計(jì) 算緩存中的視頻的推薦結(jié)果,將這些新的相關(guān)視頻推薦給用戶。因此本發(fā)明會定期(每個(gè)小 時(shí))取出播放數(shù)超過一定次數(shù)的視頻,將這些視頻的推薦結(jié)果重新計(jì)算,并更新緩存。本發(fā) 明也會檢查緩存中的視頻,如果一個(gè)視頻很長時(shí)間都沒有被再次播放,推薦結(jié)果將從緩存 中清除。
[0058] 較佳地,在步驟104之前,本發(fā)明之相關(guān)視頻推薦方法還可以包括如下步驟:檢查 當(dāng)前視頻A是否在編輯整理的某個(gè)視頻播放列表中;如果存在這樣的播放列表,則把與當(dāng) 前視頻A相關(guān)的播放列表中的視頻取出,組成第三候選列表C3,并加入到候選集合C中。
[0059] 為更好地向用戶進(jìn)行相關(guān)視頻推薦,在步驟104之前,本發(fā)明之相關(guān)視頻推薦方 法還可以包括如下步驟:挖掘用戶的偏好,獲得當(dāng)前視頻A的共現(xiàn)視頻,組成第二候選列表 C2,并將其加入到候選結(jié)合C中。在本發(fā)明較佳實(shí)施例中,這里可以通過統(tǒng)計(jì)每天所有用戶 的播放記錄來獲得。如果一個(gè)用戶看完A視頻后,又看了 B、C等視頻,則稱A和B共現(xiàn)了一 次,同理,A和C也共現(xiàn)了一次,B和C也是,記為(A, B),(A, C),(B,C)。
[0060] 因此挖掘用戶看完當(dāng)前視頻A后的偏好,即獲取共現(xiàn)視頻的步驟還包括如下步 驟:
[0061] 1、首先統(tǒng)計(jì)所有與A有共現(xiàn)的視頻。
[0062] 2、對每一個(gè)共現(xiàn)的視頻 V,計(jì)算 count (A, V)/count (V)。其中 count (A, V)即 為A和V共現(xiàn)的次數(shù),count (V)即為V的播放總和。
[0063] 3、取count (A, V)/count (V)值最大的幾個(gè)視頻為第二候選列表C2。
[0064] 可見,本發(fā)明之相關(guān)視頻推薦方法通過對視頻主題和內(nèi)容進(jìn)行精細(xì)分析,自動發(fā) 現(xiàn)內(nèi)容上相關(guān)的其它視頻;同時(shí),也對用戶的播放記錄進(jìn)行分析,挖掘用戶的偏好,即用戶 在看完某一個(gè)視頻后,對哪些視頻最感興趣;另外,對于一些十分熱門的視頻,可以通過編 輯手工整理一些播放列表,進(jìn)一步提高相關(guān)視頻的推薦質(zhì)量,例如"郭德綱相聲集錦"等;最 后,結(jié)合視頻的質(zhì)量評分,來生成最終的相關(guān)相關(guān)視頻推薦列表,本發(fā)明可以更好地為用戶 推薦適合每個(gè)用戶自身的視頻。
[0065] 另外,由于視頻的數(shù)量很多,并且播放量很大,不可能實(shí)時(shí)的為所有視頻生成推薦 列表。當(dāng)計(jì)算出一個(gè)視頻的相關(guān)視頻列表后,本發(fā)明將列表緩存到數(shù)據(jù)庫中,以提高系統(tǒng)的 性能。如果該視頻在一定時(shí)間內(nèi)被大量播放,系統(tǒng)將對其重新結(jié)算得到最近的結(jié)果;相反如 果一段時(shí)間內(nèi)沒有被再次播放,其推薦列表的緩存將從數(shù)據(jù)庫移除。
[0066] 圖3為本發(fā)明一種相關(guān)視頻推薦系統(tǒng)的系統(tǒng)架構(gòu)圖。如圖3所不,本發(fā)明一種相 關(guān)視頻推薦系統(tǒng),至少包括:內(nèi)容分析模塊301、視頻搜索模塊302、質(zhì)量評分模塊303以及 結(jié)果生成模塊304。
[0067] 其中內(nèi)容分析模塊301用于對當(dāng)前播放視頻A的文本信息進(jìn)行分析,提取視頻A 的關(guān)鍵詞和類別信息,獲得關(guān)鍵詞列表及類別信息。這里,當(dāng)前視頻A的文本信息包括視頻 標(biāo)題、描述、用戶標(biāo)簽等。圖2為本發(fā)明較佳實(shí)施例中提取當(dāng)前視頻關(guān)鍵詞的示意圖。例如, 當(dāng)前視頻的視頻標(biāo)題為"中國國產(chǎn)航母上海開中印航母"暗戰(zhàn)"建設(shè)大提速",描述為"印度 國產(chǎn)航母新近下水,解放軍航母瓦良格完成第三次海試,亞洲的兩個(gè)大國,在航母之路上開 始了暗戰(zhàn),兩年打造3航母編隊(duì),如此驚人的速度是否可以如期實(shí)現(xiàn)",用戶標(biāo)簽為"中國、 航母、建設(shè)、開建",內(nèi)容分析模塊301首先對文本信息進(jìn)行中文分詞,獲得候選詞的列表,然 后提取候選詞的詞性、長度、出現(xiàn)次數(shù)、是否是垃圾詞等特征,并根據(jù)這些特征綜合評分,也 可以根據(jù)這些特征賦予每個(gè)候選詞權(quán)重,取分?jǐn)?shù)較高的或權(quán)重值高的候選詞為視頻A的關(guān) 鍵詞列表:航母,暗戰(zhàn),中印。由于視頻上傳者上傳視頻時(shí)會為視頻選擇一個(gè)分類,類別信息 可由此獲得
[0068] 視頻搜索模塊302,根據(jù)內(nèi)容分析模塊301獲得的關(guān)鍵詞列表和類別信息,自動生 成若干查詢條件,根據(jù)每個(gè)查詢條件對網(wǎng)站上的所有視頻進(jìn)行索引并合并,獲得第一候選 列表C1,并將其加入到最相關(guān)的候選視頻集合。在本發(fā)明較佳實(shí)施例中,查詢條件為類別信 息與關(guān)鍵詞列表中各關(guān)鍵詞的任意組合,如關(guān)鍵詞列表是"航母、暗戰(zhàn)、中印",類別信息是 軍事,則查詢條件可以是 :
[0069] 1.類別=軍事and查詢詞=航母暗戰(zhàn)
[0070] 2.類別=軍事and查詢詞=航母中印
[0071] 3.類別=軍事and查詢詞=航母
[0072] 對每個(gè)查詢條件,可通過開源的全文檢索引擎Lucene對所有視頻進(jìn)行索引,從 Lucene中獲得返回的視頻列表,并對每個(gè)查詢條件返回的各個(gè)列表中的視頻進(jìn)行合并,得 到第一候選列表C1,加入到候選視頻集合C中。
[0073] 質(zhì)量評分模塊303,用于對候選視頻集合中的每個(gè)候選視頻的質(zhì)量進(jìn)行評分。在本 發(fā)明較佳實(shí)施例中,視頻的質(zhì)量得分有幾部分組成:播放次數(shù)、評論次數(shù)、清晰度、縮略圖清 晰度、標(biāo)題長度、視頻時(shí)長。播放次數(shù)和評論次數(shù)越多越好,清晰度和縮略圖清晰度越高越 好,同時(shí),標(biāo)題長度和視頻時(shí)長不能太短。
[0074] 結(jié)果生成模塊304,對候選視頻集合的所有視頻,按照排名分別賦予一個(gè)權(quán)重,最 后乘上視頻的質(zhì)量得分,得到各視頻的相關(guān)得分,并對各視頻的相關(guān)得分進(jìn)行排序,選取前 N個(gè)結(jié)果作為當(dāng)前視頻A的相關(guān)推薦列表。在本發(fā)明較佳實(shí)施例中,各視頻的相關(guān)得分: Relative_score (v) =score_Ci (v) *score_Ri (v) *quality (v),其中 score_Ci (v)根據(jù)視頻 v來自哪一個(gè)候選列表,score_Ri (v)是根據(jù)視頻在候選列表的排名,quality (v)是視頻的 質(zhì)量得分。
[0075] 較佳地,本發(fā)明之視頻系統(tǒng)還包括一緩存模塊305,用于將對計(jì)算得到的相關(guān)推薦 列表進(jìn)行緩存。這樣當(dāng)請求一個(gè)視頻的推薦列表時(shí),如果緩存中已經(jīng)有這個(gè)視頻的推薦結(jié) 果,不需要重復(fù)計(jì)算,直接返回緩存中的推薦列表即可。
[0076] 較佳地,本發(fā)明之視頻系統(tǒng)還包括一編輯列表推薦模塊307,用于檢查當(dāng)前視頻A 是否在編輯整理的某個(gè)視頻播放列表,而于存在某個(gè)視頻播放列表時(shí),把該列表中與當(dāng)前 視頻A相關(guān)的視頻取出,組成第三候選列表C3,并加入到候選集合C中。
[0077] 較佳地,本發(fā)明之視頻系統(tǒng)還包括一共現(xiàn)挖掘模塊306,用于挖掘用戶的偏好,獲 得當(dāng)前視頻A的共現(xiàn)視頻,組成第二候選列表C2,并將其加入到候選結(jié)合C中。在本發(fā)明較 佳實(shí)施例中,這里可以通過統(tǒng)計(jì)每天所有用戶的播放記錄來獲得。如果一個(gè)用戶看完A視 頻后,又看了 B、C等視頻,則稱A和B共現(xiàn)了一次,同理,A和C也共現(xiàn)了一次,B和C也是, 記為(A,B),(A,C),(B,C)。具體地說,共現(xiàn)挖掘模塊306首先統(tǒng)計(jì)所有與A有共現(xiàn)的視頻, 然而對每一個(gè)共現(xiàn)的視頻V,計(jì)算count (A,V)/count (V),取count (A,V)/count (V)值 最大的幾個(gè)視頻為第二候選列表C2,其中count (A,V)即為A和V共現(xiàn)的次數(shù),count (V) 即為V的播放總和。
[0078] 綜上所述,本發(fā)明一種相關(guān)視頻推薦方法及系統(tǒng),通過內(nèi)容分析模塊對視頻主題 和內(nèi)容進(jìn)行精細(xì)分析,自動發(fā)現(xiàn)內(nèi)容上相關(guān)的其它視頻,并通過共現(xiàn)挖掘模塊對用戶的播 放記錄進(jìn)行分析,挖掘用戶的偏好,同時(shí)還通過編輯列表推薦模塊整理編輯播放列表,獲得 候選視頻結(jié)合,并結(jié)合視頻的質(zhì)量評分來生成最終的相關(guān)相關(guān)視頻推薦列表,可以更好地 為用戶推薦適合每個(gè)用戶自身的視頻。
[0079] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下幾個(gè)優(yōu)點(diǎn):
[0080] 1、由于推薦過程中綜合考慮了用戶的興趣偏好、視頻的內(nèi)容、編輯的意見、以及視 頻的質(zhì)量得分,不僅保證了推薦結(jié)果是高質(zhì)量的視頻,并且能夠充分滿足用戶的觀看需求。
[0081] 2、無論對一個(gè)從未有過播放記錄的視頻,或者已經(jīng)有大量播放記錄的熱門視頻, 本發(fā)明都能夠生成高質(zhì)量的推薦結(jié)果,因此本發(fā)明具有很好的魯棒性。
[0082] 3、由于本發(fā)明有很好緩存機(jī)制,因此不僅有良好的性能,也能保證對熱門視頻的 及時(shí)更新。
[0083] 上述實(shí)施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何本 領(lǐng)域技術(shù)人員均可在不違背本發(fā)明的精神及范疇下,對上述實(shí)施例進(jìn)行修飾與改變。因此, 本發(fā)明的權(quán)利保護(hù)范圍,應(yīng)如權(quán)利要求書所列。
【權(quán)利要求】
1. 一種相關(guān)視頻推薦方法,包括如下步驟: 步驟一,獲取當(dāng)前視頻; 步驟二,對該當(dāng)前視頻的文本信息進(jìn)行分析,提取該當(dāng)前視頻的關(guān)鍵詞和類別信息,獲 得關(guān)鍵詞列表及類別信息; 步驟三,根據(jù)該關(guān)鍵詞列表和類別信息,自動生成若干查詢條件,根據(jù)每個(gè)查詢條件對 網(wǎng)站上的所有視頻進(jìn)行索引并合并,獲得第一候選列表,并將其加入到候選視頻集合; 步驟四,對該候選視頻集合中的每個(gè)候選視頻的質(zhì)量進(jìn)行評分; 步驟五,根據(jù)質(zhì)量評分結(jié)果,計(jì)算后該候選視頻集合中各視頻的相關(guān)得分,根據(jù)各視頻 的相關(guān)得分獲得該當(dāng)前視頻的相關(guān)推薦列表。
2. 如權(quán)利要求1所述的一種相關(guān)視頻推薦方法,其特征在于:于步驟五中,對該候選視 頻集合的所有視頻,按照排名分別賦予一個(gè)權(quán)重,最后乘上視頻的質(zhì)量得分,得到各視頻的 相關(guān)得分,并對各視頻的相關(guān)得分進(jìn)行排序,選取前N個(gè)結(jié)果作為該當(dāng)前視頻的相關(guān)推薦 列表。
3. 如權(quán)利要求1所述的一種相關(guān)視頻推薦方法,其特征在于,于步驟五之后,還包括對 計(jì)算得到的相關(guān)推薦列表進(jìn)行緩存的步驟。
4. 如權(quán)利要求3所述的一種相關(guān)視頻推薦方法,其特征在于:當(dāng)請求一個(gè)視頻的推薦 列表時(shí),若緩存中已經(jīng)有該視頻的推薦結(jié)果,則直接返回緩存中的推薦列表。
5. 如權(quán)利要求4所述的一種相關(guān)視頻推薦方法,其特征在于:定期取出播放數(shù)超過一 定次數(shù)的視頻,將該視頻的推薦結(jié)果按步驟一至步驟五重新計(jì)算,并更新緩存。
6. 如權(quán)利要求5所述的一種相關(guān)視頻推薦方法,其特征在于:若某視頻很長時(shí)間沒有 被再次播放,推薦結(jié)果將從緩存中清除。
7. 如權(quán)利要求1所述的一種相關(guān)視頻推薦方法,其特征在于,于步驟四之前,還包括如 下步驟:挖掘用戶的偏好,獲得該當(dāng)前視頻的共現(xiàn)視頻,組成第二候選列表,并將其加入到 該候選集合中。
8. 如權(quán)利要求7所述的一種相關(guān)視頻推薦方法,其特征在于,獲取當(dāng)前視頻的共現(xiàn)視 頻的步驟包括如下步驟: 首先,統(tǒng)計(jì)所有與該當(dāng)前視頻有共現(xiàn)的視頻; 對每一個(gè)共現(xiàn)的視頻V,計(jì)算count (A,V)/count (V),其中count (A,V)為A和V共 現(xiàn)的次數(shù),count (V)為V的播放總和; 取count (A,V)/count (V)值最大的幾個(gè)視頻為該第二候選列表。
9. 如權(quán)利要求1所述的一種相關(guān)視頻推薦方法,其特征在于,于步驟四之前,還包括如 下步驟: 檢查該當(dāng)前視頻是否在編輯整理的某個(gè)視頻播放列表中; 若存在這樣的播放列表,則把與該當(dāng)前視頻相關(guān)的播放列表中的視頻取出,組成第三 候選列表,并加入到候選集合中。
10. 如權(quán)利要求1所述的一種相關(guān)視頻推薦方法,其特征在于,步驟一包括如下步驟: 對該當(dāng)前視頻的文本信息進(jìn)行中文分詞,獲得候選詞的列表; 然后提取候選詞的詞性、長度、出現(xiàn)次數(shù)、是否是垃圾詞等特征,并根據(jù)該些特征綜合 為每個(gè)候選詞評分或賦予權(quán)重,取分?jǐn)?shù)較高的或權(quán)重值高的候選詞為視頻的關(guān)鍵詞列表。
11. 一種相關(guān)視頻推薦系統(tǒng),至少包括: 內(nèi)容分析模塊,用于對當(dāng)前視頻的文本信息進(jìn)行分析,提取該當(dāng)前視頻的關(guān)鍵詞和類 別信息,獲得關(guān)鍵詞列表及類別信息; 視頻搜索模塊,根據(jù)該關(guān)鍵詞列表和類別信息,自動生成若干查詢條件,根據(jù)每個(gè)查詢 條件對網(wǎng)站上的所有視頻進(jìn)行索引并合并,獲得第一候選列表,并將其加入到候選視頻集 合; 質(zhì)量評分模塊,用于對候選視頻集合中的每個(gè)候選視頻的質(zhì)量進(jìn)行評分; 結(jié)果生成模塊,根據(jù)質(zhì)量評分結(jié)果,計(jì)算后該候選視頻集合中各視頻的相關(guān)得分,根據(jù) 各視頻的相關(guān)得分獲得該當(dāng)前視頻的相關(guān)推薦列表。
12. 如權(quán)利要求11所述的一種相關(guān)視頻推薦系統(tǒng),其特征在于:該系統(tǒng)還包括一緩存 模塊,用于將對計(jì)算得到的相關(guān)推薦列表進(jìn)行緩存。
13. 如權(quán)利要求11所述的一種相關(guān)視頻推薦系統(tǒng),其特征在于:該系統(tǒng)還包括一編輯 列表推薦模塊,用于檢查當(dāng)前視頻是否在編輯整理的某個(gè)視頻播放列表,而于存在某個(gè)視 頻播放列表時(shí),把該列表中與該當(dāng)前視頻相關(guān)的視頻取出,組成該第三候選列表。
14. 如權(quán)利要求11所述的一種相關(guān)視頻推薦系統(tǒng),其特征在于:該系統(tǒng)還包括一共現(xiàn) 挖掘模塊,用于挖掘用戶的偏好,獲得該當(dāng)前視頻的共現(xiàn)視頻,組成該第二候選列表。
15. 如權(quán)利要求11所述的一種相關(guān)視頻推薦系統(tǒng),其特征在于:該文本信息包括視頻 標(biāo)題、描述、用戶標(biāo)簽,該類型信息為視頻上傳者選擇的分類信息。
16. 如權(quán)利要求11所述的一種相關(guān)視頻推薦系統(tǒng),其特征在于:該質(zhì)量評分模組對視 頻的質(zhì)量評分的依據(jù)包括播放次數(shù)、評論次數(shù)、清晰度、縮略圖清晰度、標(biāo)題長度、視頻時(shí) 長。
【文檔編號】G06F17/30GK104219575SQ201310373572
【公開日】2014年12月17日 申請日期:2013年8月23日 優(yōu)先權(quán)日:2013年5月29日
【發(fā)明者】劉作濤, 陳運(yùn)文, 紀(jì)達(dá)麒, 辛穎偉, 姚璐, 陳冬 申請人:酷盛(天津)科技有限公司