技術(shù)領(lǐng)域:
本發(fā)明涉及傳媒領(lǐng)域網(wǎng)絡(luò)信息處理技術(shù),特別涉及一種基于海量跨屏收視行為數(shù)據(jù)的用戶標(biāo)簽分類方法。
背景技術(shù):
:
隨著廣電網(wǎng)絡(luò)公司后平移時(shí)代的到來(lái),數(shù)字電視業(yè)務(wù)發(fā)展日益成熟,付費(fèi)頻道、時(shí)移回看、vod點(diǎn)播、其他增值業(yè)務(wù)(股票、電視商城、游戲等)等多種雙向互動(dòng)新業(yè)務(wù)在不斷的充實(shí)廣電網(wǎng)絡(luò)運(yùn)營(yíng)商的業(yè)務(wù)服務(wù)內(nèi)容,廣電網(wǎng)絡(luò)運(yùn)營(yíng)商的發(fā)展重點(diǎn)逐漸從數(shù)字平臺(tái)搭建、雙向網(wǎng)絡(luò)改造轉(zhuǎn)向了更加多元化的業(yè)務(wù)經(jīng)營(yíng)和盈利模式。
隨著用戶群體的不斷增大,粗放式的服務(wù)已不能滿足廣電網(wǎng)絡(luò)運(yùn)營(yíng)商網(wǎng)內(nèi)用戶的精細(xì)化要求,如何了解用戶,獲取精準(zhǔn)、個(gè)性化的用戶標(biāo)簽,為業(yè)務(wù)經(jīng)營(yíng)和企業(yè)發(fā)展提供數(shù)據(jù)支撐,成為了運(yùn)營(yíng)商丞待解決的問(wèn)題。
另一方面,現(xiàn)有的用戶標(biāo)簽分類方法,主要是通過(guò)以抽樣調(diào)查的形式,人工上門獲取終端用戶收視行為數(shù)據(jù),后期分析后,為家庭用戶提供用戶標(biāo)簽,進(jìn)而推及到總體用戶,形成區(qū)域化的用戶標(biāo)簽分類,該種方法存在統(tǒng)計(jì)口徑不一致,干擾因素多、人工成本高等多種問(wèn)題,不能真實(shí)呈現(xiàn)用戶的收視偏好,影響了用戶標(biāo)簽的標(biāo)準(zhǔn)化建立,難以為廣電網(wǎng)絡(luò)運(yùn)營(yíng)商業(yè)務(wù)運(yùn)營(yíng)提供精準(zhǔn)的數(shù)據(jù)支撐。
技術(shù)實(shí)現(xiàn)要素:
:
有鑒于此,本發(fā)明提供了一種基于海量跨屏收視行為數(shù)據(jù)的用戶標(biāo)簽分類方法。該方法主要解決的是面對(duì)越來(lái)越靈活的雙向新媒體業(yè)務(wù),面對(duì)百萬(wàn)級(jí),甚至千萬(wàn)級(jí)用戶的海量收視行為數(shù)據(jù),將采集到的用戶收視行為數(shù)據(jù)進(jìn)行hdfs分布式存儲(chǔ),經(jīng)過(guò)etl模塊對(duì)數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載之后,由符合傳媒行業(yè)特點(diǎn)的優(yōu)化組合算法將海量的用戶收視行為數(shù)據(jù)融合內(nèi)容標(biāo)簽進(jìn)行高效的數(shù)據(jù)預(yù)處理,并最終形成用戶標(biāo)簽,再通過(guò)web應(yīng)用程序調(diào)用相關(guān)的用戶標(biāo)簽,為廣電網(wǎng)絡(luò)運(yùn)營(yíng)商業(yè)務(wù)運(yùn)營(yíng)提供精準(zhǔn)的數(shù)據(jù)支撐。
本發(fā)明的具體技術(shù)方案如下:
基于海量跨屏收視行為數(shù)據(jù)的用戶標(biāo)簽分類方法,包括以下步驟:
(1)設(shè)置終端數(shù)據(jù)采集模塊、hdfs分布式存儲(chǔ)模塊、etl模塊、標(biāo)簽?zāi)K、web應(yīng)用模塊;
(2)終端數(shù)據(jù)采集模塊用于采集用戶在多媒體信息播放終端的收視行為數(shù)據(jù),并將所采集的數(shù)據(jù)轉(zhuǎn)發(fā)給hdfs分布式存儲(chǔ)模塊負(fù)責(zé)存儲(chǔ);
(3)hdfs分布式存儲(chǔ)模塊除了負(fù)責(zé)存儲(chǔ)用戶收視行為數(shù)據(jù),還負(fù)責(zé)存儲(chǔ)其他第三方系統(tǒng)異構(gòu)數(shù)據(jù);
(4)etl模塊負(fù)責(zé)從hdfs分布式存儲(chǔ)模塊對(duì)所存儲(chǔ)的用戶收視行為數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載,并為標(biāo)簽?zāi)K提供基礎(chǔ)元素?cái)?shù)據(jù);
(5)標(biāo)簽?zāi)K包括內(nèi)容標(biāo)簽、用戶屬性、用戶收視行為數(shù)據(jù),算法處理模塊,用戶標(biāo)簽;
(6)web應(yīng)用模塊為終端內(nèi)嵌的web應(yīng)用程序,用于用戶標(biāo)簽的可視化展示和下載。
上述方案中,所述多媒體信息播放終端包括dvbstb(數(shù)字電視機(jī)頂盒)、ott(互聯(lián)網(wǎng)機(jī)頂盒)、智能電視、手機(jī)、平板電腦。
上述方案中,所述其他第三方系統(tǒng)異構(gòu)數(shù)據(jù)為pv、uv這些頁(yè)面瀏覽數(shù)據(jù)。
上述方案中,所述標(biāo)簽?zāi)K中的內(nèi)容標(biāo)簽由終端采集模塊采集epg(電子節(jié)目單)片單數(shù)據(jù)獲得,內(nèi)容標(biāo)簽定義了一級(jí)標(biāo)簽、標(biāo)簽維度、詳細(xì)標(biāo)簽三大維度,為算法處理模塊提供基于節(jié)目信息的標(biāo)簽數(shù)據(jù);所述一級(jí)標(biāo)簽包含:劇集、電影、綜藝、體育、動(dòng)漫、紀(jì)實(shí)、生活、新聞、娛樂(lè)等;所述標(biāo)簽維度包含:地區(qū)、類型、狀態(tài)、搜索熱詞、情感類型、時(shí)間、人群類別等;所述詳細(xì)標(biāo)簽包含:大陸、香港、臺(tái)灣、韓國(guó)、美國(guó)、英國(guó)、泰國(guó)、新加坡、古裝、武俠、警匪、軍事、神話、科幻、搞笑、偶像、懸疑、歷史、兒童、農(nóng)村、都市、家庭、言情、時(shí)裝、更新中、全集、近期上映、僅預(yù)告、搞笑、感動(dòng)、平靜、輕松、溫馨、感情糾葛、緊張、溫暖、好奇、沉重、糾結(jié)、放松、搞笑、輕松、嚴(yán)肅、暖心、新奇、平淡、刺激、勵(lì)志、激動(dòng)、開(kāi)心、感恩、過(guò)癮、有文化、不好看、無(wú)聊、奮斗、好聽(tīng)、糊弄人、熱血、悲憤、矯情、2016、2015、2014、2013、2012、2011、2010、00年代、90年代、80年代、70年代、更早、女性、男性、老人、兒童、全家、青年、中年等。
上述方案中,所述標(biāo)簽?zāi)K中的用戶屬性定義了標(biāo)簽對(duì)象的主體,用戶屬性基本元素?fù)?jù)包含用戶編號(hào)、數(shù)字電視機(jī)頂盒mac地址、所屬區(qū)域這些信息。
上述方案中,所述標(biāo)簽?zāi)K中的用戶收視行為數(shù)據(jù)通過(guò)終端采集模塊獲取的終端設(shè)備收視行為數(shù)據(jù),通過(guò)分析用戶收視行為數(shù)據(jù),獲取用戶收視時(shí)長(zhǎng)、收視次數(shù)、收視頻次這些數(shù)據(jù),為算法處理模塊提供計(jì)算基礎(chǔ)。
上述方案中,所述標(biāo)簽?zāi)K中的算法處理模塊通過(guò)計(jì)算用戶一定周期內(nèi)(如一周)的收視行為數(shù)據(jù),獲取用戶收視節(jié)目類型的不同占比,并形成用戶標(biāo)簽top排序,結(jié)合時(shí)間衰減因子等算法每周對(duì)用戶標(biāo)簽進(jìn)行修正,并按季度進(jìn)行更新,因?yàn)橛脩舻氖找暺糜幸欢ǖ难永m(xù)性,通常情況下,只需要按季度進(jìn)行用戶標(biāo)簽的更新即可。
上述方案中,所述標(biāo)簽?zāi)K中的用戶標(biāo)簽定義了用戶的收視偏好;該用戶標(biāo)簽所有基礎(chǔ)元數(shù)據(jù)來(lái)自于機(jī)器的自動(dòng)采集和處理,采集標(biāo)準(zhǔn)規(guī)范,全程無(wú)人工干預(yù),是一種標(biāo)準(zhǔn)化的用戶標(biāo)簽分類體系;用戶標(biāo)簽包含:體育競(jìng)技、電影、綜藝娛樂(lè)、生活服務(wù)、少兒動(dòng)漫、科教、電視欄目、新聞節(jié)目、紀(jì)錄片、金融財(cái)經(jīng)、電視劇、其他等。
通過(guò)上述本發(fā)明所述方法可使廣電網(wǎng)絡(luò)運(yùn)營(yíng)商利用現(xiàn)有的雙向網(wǎng)絡(luò)通道獲取到的海量用戶行為數(shù)據(jù),快速有效的得到真實(shí)的、準(zhǔn)確的用戶收視偏好和用戶標(biāo)簽,為運(yùn)營(yíng)商提供運(yùn)營(yíng)決策依據(jù)。同時(shí)在資源利用率上,較現(xiàn)有的抽樣調(diào)查技術(shù)可節(jié)省大量的硬件設(shè)備資源及人員成本。
附圖說(shuō)明:
以下結(jié)合附圖和具體實(shí)施方式來(lái)進(jìn)一步說(shuō)明本發(fā)明。
圖1為本發(fā)明所述基于海量跨屏收視行為數(shù)據(jù)的用戶標(biāo)簽分類方法的步驟框圖。
具體實(shí)施方式:
為了使本發(fā)明實(shí)現(xiàn)的技術(shù)手段、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面結(jié)合具體圖示,進(jìn)一步闡述本發(fā)明。
如圖1所示,本發(fā)明所述的基于海量跨屏收視行為數(shù)據(jù)的用戶標(biāo)簽分類方法,首先是設(shè)置終端數(shù)據(jù)采集模塊、hdfs分布式存儲(chǔ)模塊、etl模塊、標(biāo)簽?zāi)K、web應(yīng)用模塊;其次,終端數(shù)據(jù)采集模塊用于采集用戶在多媒體信息播放終端(包括dvbstb(數(shù)字電視機(jī)頂盒)、ott(互聯(lián)網(wǎng)機(jī)頂盒)、智能電視、手機(jī)、平板電腦等)的收視行為數(shù)據(jù),并將所采集的數(shù)據(jù)轉(zhuǎn)發(fā)給hdfs分布式存儲(chǔ)模塊負(fù)責(zé)存儲(chǔ);hdfs分布式存儲(chǔ)模塊除了負(fù)責(zé)存儲(chǔ)用戶收視行為數(shù)據(jù),還負(fù)責(zé)存儲(chǔ)其他第三方系統(tǒng)異構(gòu)數(shù)據(jù)(pv、uv這些頁(yè)面瀏覽數(shù)據(jù));etl模塊負(fù)責(zé)從hdfs分布式存儲(chǔ)模塊對(duì)所存儲(chǔ)的用戶收視行為數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載,并為標(biāo)簽?zāi)K提供基礎(chǔ)元素?cái)?shù)據(jù);標(biāo)簽?zāi)K包括內(nèi)容標(biāo)簽、用戶屬性、用戶收視行為數(shù)據(jù),算法處理模塊,用戶標(biāo)簽;web應(yīng)用模塊為終端內(nèi)嵌的web應(yīng)用程序,用于用戶標(biāo)簽的可視化展示和下載。
需要指出的是標(biāo)簽?zāi)K中的內(nèi)容標(biāo)簽由終端采集模塊采集epg(電子節(jié)目單)片單數(shù)據(jù)獲得,內(nèi)容標(biāo)簽定義了一級(jí)標(biāo)簽、標(biāo)簽維度、詳細(xì)標(biāo)簽三大維度,為算法處理模塊提供基于節(jié)目信息的標(biāo)簽數(shù)據(jù);一級(jí)標(biāo)簽包含:劇集、電影、綜藝、體育、動(dòng)漫、紀(jì)實(shí)、生活、新聞、娛樂(lè)等;標(biāo)簽維度包含:地區(qū)、類型、狀態(tài)、搜索熱詞、情感類型、時(shí)間、人群類別等;詳細(xì)標(biāo)簽包含:大陸、香港、臺(tái)灣、韓國(guó)、美國(guó)、英國(guó)、泰國(guó)、新加坡、古裝、武俠、警匪、軍事、神話、科幻、搞笑、偶像、懸疑、歷史、兒童、農(nóng)村、都市、家庭、言情、時(shí)裝、更新中、全集、近期上映、僅預(yù)告、搞笑、感動(dòng)、平靜、輕松、溫馨、感情糾葛、緊張、溫暖、好奇、沉重、糾結(jié)、放松、搞笑、輕松、嚴(yán)肅、暖心、新奇、平淡、刺激、勵(lì)志、激動(dòng)、開(kāi)心、感恩、過(guò)癮、有文化、不好看、無(wú)聊、奮斗、好聽(tīng)、糊弄人、熱血、悲憤、矯情、2016、2015、2014、2013、2012、2011、2010、00年代、90年代、80年代、70年代、更早、女性、男性、老人、兒童、全家、青年、中年等。
標(biāo)簽?zāi)K中的用戶屬性定義了標(biāo)簽對(duì)象的主體,用戶屬性基本元素?fù)?jù)包含用戶編號(hào)、數(shù)字電視機(jī)頂盒mac地址、所屬區(qū)域這些信息。
標(biāo)簽?zāi)K中的用戶收視行為數(shù)據(jù)通過(guò)終端采集模塊獲取的終端設(shè)備收視行為數(shù)據(jù),通過(guò)分析用戶收視行為數(shù)據(jù),獲取用戶收視時(shí)長(zhǎng)、收視次數(shù)、收視頻次這些數(shù)據(jù),為算法處理模塊提供計(jì)算基礎(chǔ)。
標(biāo)簽?zāi)K中的算法處理模塊通過(guò)計(jì)算用戶一定周期內(nèi)(如一周)的收視行為數(shù)據(jù),獲取用戶收視節(jié)目類型的不同占比,并形成用戶標(biāo)簽top排序,結(jié)合時(shí)間衰減因子等算法每周對(duì)用戶標(biāo)簽進(jìn)行修正,并按季度進(jìn)行更新,因?yàn)橛脩舻氖找暺糜幸欢ǖ难永m(xù)性,通常情況下,只需要按季度進(jìn)行用戶標(biāo)簽的更新即可。
標(biāo)簽?zāi)K中的用戶標(biāo)簽定義了用戶的收視偏好;該用戶標(biāo)簽所有基礎(chǔ)元數(shù)據(jù)來(lái)自于機(jī)器的自動(dòng)采集和處理,采集標(biāo)準(zhǔn)規(guī)范,全程無(wú)人工干預(yù),是一種標(biāo)準(zhǔn)化的用戶標(biāo)簽分類體系;用戶標(biāo)簽包含:體育競(jìng)技、電影、綜藝娛樂(lè)、生活服務(wù)、少兒動(dòng)漫、科教、電視欄目、新聞節(jié)目、紀(jì)錄片、金融財(cái)經(jīng)、電視劇、其他等。
由于上述方法中采用了優(yōu)化組合的算法包及數(shù)據(jù)模型進(jìn)行海量的數(shù)據(jù)預(yù)處理操作,每次的用戶標(biāo)簽的處理,只需要從經(jīng)過(guò)數(shù)據(jù)預(yù)處理的數(shù)據(jù)中提取相關(guān)數(shù)據(jù)參與實(shí)時(shí)運(yùn)算,不需要從完整的原始海量行為數(shù)據(jù)中進(jìn)行查詢和運(yùn)算,分析運(yùn)算效率由現(xiàn)有技術(shù)所需的幾個(gè)小時(shí),十幾個(gè)小時(shí)的漫長(zhǎng)等待時(shí)間,提升為秒級(jí),甚至毫秒級(jí)的實(shí)時(shí)響應(yīng),大大提高了數(shù)據(jù)運(yùn)算效率,同時(shí)整個(gè)數(shù)據(jù)運(yùn)算過(guò)程完全采用機(jī)器自學(xué)習(xí)算法,只需要普通的pc服務(wù)器資源即可完成,大大節(jié)省了人力資源投入和硬件服務(wù)器資源的投入。
以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說(shuō)明書中描述的只是說(shuō)明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。