本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù),特別涉及一種基于海量跨屏收視行為數(shù)據(jù)的直播推薦方法。
背景技術(shù):
:
隨著廣電網(wǎng)絡(luò)公司后平移時代的到來,數(shù)字電視業(yè)務(wù)發(fā)展日益成熟,付費頻道、時移回看、VOD點播、其他增值業(yè)務(wù)(股票、電視商城、游戲等)等多種雙向互動新業(yè)務(wù)在不斷的充實廣電網(wǎng)絡(luò)運營商的業(yè)務(wù)服務(wù)內(nèi)容,廣電網(wǎng)絡(luò)運營商的發(fā)展重點逐漸從數(shù)字平臺搭建、雙向網(wǎng)絡(luò)改造轉(zhuǎn)向了更加多元化的業(yè)務(wù)經(jīng)營和盈利模式。
與此同時,內(nèi)容信息量也出現(xiàn)爆發(fā)式增長,面對紛繁蕪雜的各類節(jié)目信息,如何讓用戶從大量的節(jié)目信息中便捷的獲取想要的直播節(jié)目內(nèi)容,成為了運營商丞待解決的問題。
另一方面,現(xiàn)有的直播推薦技術(shù),主要是通過建設(shè)媒資庫,將需要推薦的節(jié)目信息導(dǎo)入到媒資庫,由后臺編輯人員依據(jù)營銷事件或時間點等進行人工推薦,將節(jié)目信息推薦到機頂盒終端的推薦位上,供用戶使用。
這種方式,由于采用千篇一律的推薦方式,每個用戶看到的推薦內(nèi)容都是一樣的,并不能滿足用戶的個性化潛在需求,往往造成用戶對推薦的內(nèi)容不感興趣,不信任,造成業(yè)務(wù)使用率無法提高,并且維護媒資庫需要大量的人力支撐,造成廣電網(wǎng)絡(luò)運營商運營成本增加。
技術(shù)實現(xiàn)要素:
:
有鑒于此,本發(fā)明提供了一種基于海量跨屏收視行為數(shù)據(jù)的直播推薦方法。該方法主要解決的是面對越來越靈活的雙向新媒體業(yè)務(wù),面對百萬級,甚至千萬級用戶的海量行為數(shù)據(jù),將采集到的用戶行為數(shù)據(jù)進行HDFS分布式存儲,經(jīng)過ETL模塊對數(shù)據(jù)進行提取、轉(zhuǎn)換和加載之后,由符合傳媒行業(yè)特點的優(yōu)化組合推薦算法模塊、策略處理模塊,將海量的用戶行為數(shù)據(jù)進行高效的數(shù)據(jù)預(yù)處理,形成線下推薦結(jié)果和線上推薦結(jié)果,并最終形成一系列的內(nèi)容-特征推薦結(jié)果數(shù)據(jù),再通過不同的WEB應(yīng)用程序調(diào)用相關(guān)的內(nèi)容-特征推薦數(shù)據(jù)集,以實現(xiàn)對用戶“千人千面”的偏好洞察,為運營商提供個性化、自動化的直播推薦。
本發(fā)明的具體技術(shù)方案如下:
基于海量跨屏收視行為數(shù)據(jù)的直播推薦方法,包括以下步驟:
(1)設(shè)置終端數(shù)據(jù)采集模塊、HDFS分布式存儲模塊、ETL模塊、推薦模塊、WEB應(yīng)用模塊;
(2)終端數(shù)據(jù)采集模塊用于采集用戶在多媒體信息播放終端的收視行為數(shù)據(jù),并將所采集的數(shù)據(jù)轉(zhuǎn)發(fā)給HDFS分布式存儲模塊負責(zé)存儲;
(3)HDFS分布式存儲模塊除了負責(zé)存儲用戶收視行為數(shù)據(jù),還負責(zé)存儲其他第三方系統(tǒng)異構(gòu)數(shù)據(jù);
(4)ETL模塊負責(zé)從HDFS分布式存儲模塊對所存儲的用戶收視行為數(shù)據(jù)進行提取、轉(zhuǎn)換和加載,并為推薦模塊提供基礎(chǔ)元素數(shù)據(jù);
(5)推薦模塊包括策略處理模塊、算法處理模塊、線下推薦結(jié)果、線上推薦結(jié)果、內(nèi)容-特征推薦結(jié)果數(shù)據(jù);
(6)WEB應(yīng)用模塊為終端內(nèi)嵌的web應(yīng)用程序,用于推薦請求和推薦內(nèi)容的展示。
上述方案中,所述多媒體信息播放終端包括DVB STB(數(shù)字電視機頂盒)、OTT(互聯(lián)網(wǎng)機頂盒)、智能電視、手機、平板電腦。
上述方案中,所述其他第三方系統(tǒng)異構(gòu)數(shù)據(jù)為PV、UV這些頁面瀏覽數(shù)據(jù)。
上述方案中,所述推薦模塊中的策略處理模塊用于為算法處理模塊提供基礎(chǔ)數(shù)據(jù),由用戶標(biāo)簽、內(nèi)容標(biāo)簽、用戶畫像三部分組成;內(nèi)容標(biāo)簽定義了用戶所收看節(jié)目的節(jié)目類型、所屬地區(qū)、節(jié)目狀態(tài)、情感類型等屬性;用戶標(biāo)簽定義了用戶的個人屬性、社會屬性、消費行為屬性、愛好偏向?qū)傩浴⑹找曅袨閷傩缘?;用戶畫像通過內(nèi)容標(biāo)簽和用戶標(biāo)簽的數(shù)據(jù)整合,標(biāo)記了用戶的標(biāo)簽?zāi)P鸵晥D,由此勾勒用戶的整體輪廓和興趣偏好。
上述方案中,所述推薦模塊中的算法處理模塊所采用的推薦算法主要使用協(xié)同過濾(item_base,user_base)、用戶相似度計算、節(jié)目相似度計算、聚類算法、關(guān)聯(lián)規(guī)則、統(tǒng)計等,在自然語言處理上,使用分詞、索引、關(guān)鍵詞和輿情相關(guān)的算法、基于時間序列的預(yù)測,GBDT+LR的排序算法框架等,實現(xiàn)基于用戶畫像的個性化推薦。
上述方案中,所述推薦模塊中的線下推薦結(jié)果是將用戶特征屬性、內(nèi)容特征屬性和業(yè)務(wù)規(guī)則相結(jié)合,融合推薦算法形成的線下推薦結(jié)果集。
上述方案中,所述推薦模塊中的線上推薦結(jié)果是基于用戶實時的收視行為數(shù)據(jù)和頁面瀏覽行為數(shù)據(jù),結(jié)合用戶應(yīng)用場景、條件規(guī)則,形成的實時線上推薦結(jié)果集。
上述方案中,所述推薦模塊中的內(nèi)容-特征推薦結(jié)果數(shù)據(jù)是融合線下推薦結(jié)果和線上推薦結(jié)果,經(jīng)過預(yù)處理、去重、過濾、排名等步驟后形成的最終推薦結(jié)果集。
通過上述本發(fā)明所述方法可使廣電網(wǎng)絡(luò)運營商利用現(xiàn)有的雙向網(wǎng)絡(luò)通道獲取到的海量用戶行為數(shù)據(jù),快速有效的得到真實的、準(zhǔn)確的用戶收視偏好、用戶畫像,實時地為運營商提供運營決策依據(jù),有效的提高用戶業(yè)務(wù)使用率。同時在資源利用率上,較現(xiàn)有的海量數(shù)據(jù)分析技術(shù)可節(jié)省大量的硬件設(shè)備資源及人員成本。
附圖說明:
以下結(jié)合附圖和具體實施方式來進一步說明本發(fā)明。
圖1為本發(fā)明所述基于海量用戶行為數(shù)據(jù)的直播推薦方法的步驟框圖。
具體實施方式:
為了使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結(jié)合具體圖示,進一步闡述本發(fā)明。
如圖1所示,本發(fā)明所述的基于海量跨屏收視行為數(shù)據(jù)的直播推薦方法,首先是設(shè)置終端數(shù)據(jù)采集模塊、HDFS分布式存儲模塊、ETL模塊、推薦模塊、WEB應(yīng)用模塊;其次,終端數(shù)據(jù)采集模塊用于采集用戶在多媒體信息播放終端(包括DVB STB(數(shù)字電視機頂盒)、OTT(互聯(lián)網(wǎng)機頂盒)、智能電視、手機、平板電腦等)的收視行為數(shù)據(jù),并將所采集的數(shù)據(jù)轉(zhuǎn)發(fā)給HDFS分布式存儲模塊負責(zé)存儲;HDFS分布式存儲模塊除了負責(zé)存儲用戶收視行為數(shù)據(jù),還負責(zé)存儲其他第三方系統(tǒng)異構(gòu)數(shù)據(jù)(PV、UV這些頁面瀏覽數(shù)據(jù));ETL模塊負責(zé)從HDFS分布式存儲模塊對所存儲的用戶收視行為數(shù)據(jù)進行提取、轉(zhuǎn)換和加載,并為推薦模塊提供基礎(chǔ)元素數(shù)據(jù);推薦模塊包括策略處理模塊、算法處理模塊、線下推薦結(jié)果、線上推薦結(jié)果、內(nèi)容-特征推薦結(jié)果數(shù)據(jù);WEB應(yīng)用模塊為終端內(nèi)嵌的web應(yīng)用程序,用于推薦請求和推薦內(nèi)容的展示。
需要指出的是推薦模塊中的策略處理模塊用于為算法處理模塊提供基礎(chǔ)數(shù)據(jù),由用戶標(biāo)簽、內(nèi)容標(biāo)簽、用戶畫像三部分組成;內(nèi)容標(biāo)簽定義了用戶所收看節(jié)目的節(jié)目類型、所屬地區(qū)、節(jié)目狀態(tài)、情感類型等屬性;用戶標(biāo)簽定義了用戶的個人屬性、社會屬性、消費行為屬性、愛好偏向?qū)傩?、收視行為屬性等;用戶畫像通過內(nèi)容標(biāo)簽和用戶標(biāo)簽的數(shù)據(jù)整合,標(biāo)記了用戶的標(biāo)簽?zāi)P鸵晥D,由此勾勒用戶的整體輪廓和興趣偏好。
推薦模塊中的算法處理模塊所采用的推薦算法主要使用協(xié)同過濾(item_base,user_base)、用戶相似度計算、節(jié)目相似度計算、聚類算法、關(guān)聯(lián)規(guī)則、統(tǒng)計等,在自然語言處理上,使用分詞、索引、關(guān)鍵詞和輿情相關(guān)的算法、基于時間序列的預(yù)測,GBDT+LR的排序算法框架等,實現(xiàn)基于用戶畫像的個性化推薦。
推薦模塊中的線下推薦結(jié)果是將用戶特征屬性、內(nèi)容特征屬性和業(yè)務(wù)規(guī)則相結(jié)合,融合推薦算法形成的線下推薦結(jié)果集。
推薦模塊中的線上推薦結(jié)果是基于用戶實時的收視行為數(shù)據(jù)和頁面瀏覽行為數(shù)據(jù),結(jié)合用戶應(yīng)用場景、條件規(guī)則,形成的實時線上推薦結(jié)果集。
推薦模塊中的內(nèi)容-特征推薦結(jié)果數(shù)據(jù)是融合線下推薦結(jié)果和線上推薦結(jié)果,經(jīng)過預(yù)處理、去重、過濾、排名等步驟后形成的最終推薦結(jié)果集。
由于上述方法中采用了優(yōu)化組合的算法包及數(shù)據(jù)模型進行海量的數(shù)據(jù)預(yù)處理操作,每次的用戶的推薦請求,只需要從經(jīng)過數(shù)據(jù)預(yù)處理的內(nèi)容-特征推薦結(jié)果數(shù)據(jù)中提取相關(guān)數(shù)據(jù)參與實時運算,不需要從完整的原始海量行為數(shù)據(jù)中進行查詢和運算,分析運算效率由現(xiàn)有技術(shù)所需的幾個小時,十幾個小時的漫長等待時間,提升為秒級,甚至毫秒級的實時響應(yīng),大大提高了推薦運算效率,同時整個推薦運算過程完全采用機器自學(xué)習(xí)算法,只需要普通的PC服務(wù)器資源即可完成,大大節(jié)省了人力資源投入和硬件服務(wù)器資源的投入。
以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內(nèi)。