一種基于智能電視下用戶觀影行為分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能電視領(lǐng)域,尤其涉及一種基于智能電視下用戶觀影行為分類方法。
【背景技術(shù)】
[0002]目前市面上還沒(méi)有一套完整的系統(tǒng)的基于智能電視的用戶觀影行為分類方法,部分采用的人工統(tǒng)計(jì)方法,再此基礎(chǔ)上進(jìn)行分析,部分采用的傳統(tǒng)的樣本方法,再此基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行清洗過(guò)濾,之后再加以分析,雖然這些可以分析出來(lái)用戶觀影行為,但是人工以及維護(hù)成本大,耗時(shí)長(zhǎng),甚至有可能導(dǎo)致分析結(jié)果不盡人意,基于智能電視下用戶觀影行為分類方法不僅提升了分析結(jié)果的準(zhǔn)確性,分析方法的智能化,也減少了人工維護(hù)的成本,同時(shí)通過(guò)用戶觀影行為分類方法能夠?yàn)橛脩魳?biāo)簽,家庭畫(huà)像提供有力的支撐。
【發(fā)明內(nèi)容】
[0003]針對(duì)現(xiàn)有技術(shù)存在的不足之處,本發(fā)明的目的在于提供一種基于智能電視下用戶觀影行為分類方法,該方法在epg信息的獲取,用戶觀影行為分類算法實(shí)現(xiàn),用戶觀影行為標(biāo)簽系統(tǒng)實(shí)現(xiàn)三個(gè)方面實(shí)現(xiàn)了技術(shù)突破,解決了智能電視收視率體系下用戶觀影行為分類方法的問(wèn)題。
[0004]本發(fā)明的目的通過(guò)下述技術(shù)方案實(shí)現(xiàn):
[0005]—種基于智能電視下用戶觀影行為分類方法,方法如下:
[0006]A、用戶觀影行為分類過(guò)程如下:
[0007]Al、查詢?nèi)掌冢?br>[0008]A2、更新天數(shù):對(duì)以前日期計(jì)算的結(jié)果重新計(jì)算,
[0009]A3、數(shù)據(jù)的輸入路徑,該數(shù)據(jù)包括EPG信息中的頻道名、節(jié)目名、標(biāo)簽、節(jié)目開(kāi)始時(shí)間,節(jié)目結(jié)束時(shí)間;
[0010]A4、獲取數(shù)據(jù)的存儲(chǔ)目錄;
[0011 ] B、Mapper函數(shù)處理:遍歷每一條數(shù)據(jù),并對(duì)其進(jìn)行Mapper函數(shù)處理,將相應(yīng)數(shù)據(jù)傳輸并進(jìn)行Reducer函數(shù)處理;
[0012]B1、Mapper啟動(dòng)時(shí),獲取步驟A中的數(shù)據(jù),以及獲取要查詢?nèi)掌诘腅PG信息;
[0013]B2、將Mapper數(shù)據(jù)中頻道ID與EPG中的頻道ID進(jìn)行匹配,如果匹配成功,則將該條數(shù)據(jù)中channe I的名稱替換成channe l_name的名稱,將該條數(shù)據(jù)中的program的名稱替換成program_name的名稱,并獲得該條數(shù)據(jù)的播放開(kāi)始時(shí)間和結(jié)束時(shí)間;如果匹配失敗,則丟棄該條數(shù)據(jù);
[0014]B3、按照〈key value〉格式輸出數(shù)據(jù),所述〈key value〉格式為字符串存儲(chǔ)格式;
[0015]C、ReduCer函數(shù)處理:對(duì)獲得的同一個(gè)電視用戶的所有觀影行為進(jìn)行處理,并將相應(yīng)結(jié)果輸出到HDFS上;
[0016]Cl、獲取步驟B中的相應(yīng)數(shù)據(jù);
[0017]C2、將該電視用戶的觀影數(shù)據(jù)放入List列表中;
[0018]C3、對(duì)List列表按照時(shí)間戳字段進(jìn)行從小到大排序;
[0019]C4、遍歷List 列表;
[0020]C4-1、每次遍歷獲得第i與第1-Ι數(shù)據(jù),
[0021]C4-2、計(jì)算第i條數(shù)據(jù)在不同時(shí)段中的觀影時(shí)間,
[0022]C4-3、分別按照〈key value〉格式輸出全國(guó)和各個(gè)省份的觀影時(shí)間以及全國(guó)頻道收視分鐘數(shù);
[0023]D、AddMR進(jìn)行求和處理,即在同一時(shí)段,且在全國(guó)或省份中觀看同一頻道的分鐘數(shù)進(jìn)行累加求和;
[0024]E、將上述的得到的數(shù)據(jù)運(yùn)用社交網(wǎng)絡(luò)分析算法建立用戶觀影行為標(biāo)簽系統(tǒng);
[0025]F、分類方法實(shí)現(xiàn)后可以對(duì)用戶觀看頻次,觀看時(shí)長(zhǎng)做出定義,為用戶打上標(biāo)簽,標(biāo)識(shí)這個(gè)用戶的觀影行為。
[0026]本發(fā)明所述步驟E的標(biāo)簽主要有:體育、娛樂(lè)、少兒、電影、電視劇、科教、綜合、財(cái)經(jīng);tagsl主要有:專題、互動(dòng)、交友、親子、人文、傳記、健康、偶像、兒童、冒險(xiǎn)、軍事、劇情、動(dòng)作、動(dòng)漫、動(dòng)畫(huà)、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、地理、娛樂(lè)、對(duì)話、影視、情感、戰(zhàn)爭(zhēng)、揭秘、教育、新聞、時(shí)尚、明星、民生、法制、熱點(diǎn)、愛(ài)情、犯罪、理財(cái)、生活、百科、益智、社會(huì)、科學(xué)、科幻、競(jìng)技、紀(jì)實(shí)、紀(jì)錄、經(jīng)濟(jì)、綜藝、美食、股票、自然、警匪、講壇、訪談、談話、財(cái)富、購(gòu)物、資訊、運(yùn)動(dòng)、金融、音樂(lè);tags2主要有:專題、互動(dòng)、親子、人文、健康、兒童、冒險(xiǎn)、軍旅、劇情、動(dòng)作、動(dòng)漫、動(dòng)畫(huà)、勵(lì)志、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、地理、娛樂(lè)、宮廷、家庭、對(duì)話、影視、懸疑、情感、驚悚、戰(zhàn)爭(zhēng)、探險(xiǎn)、揭秘、故事、教育、文化、文物、新聞、時(shí)尚、明星、武俠、民生、氣象、法制、溫情、游戲、潮流、熱點(diǎn)、愛(ài)情、理財(cái)、生活、社會(huì)、科學(xué)、競(jìng)技、紀(jì)錄、經(jīng)濟(jì)、綜藝、美食、自然、警匪、講壇、訪談、談話、諜戰(zhàn)、財(cái)富、資訊、運(yùn)動(dòng)、選秀、金融、音樂(lè);tags3主要有:專題、互動(dòng)、人文、倫理、健康、冒險(xiǎn)、劇情、動(dòng)作、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、娛樂(lè)、家庭、少兒、情感、揭秘、搞笑、教育、新聞、旅游、時(shí)尚、明星、曲藝、槍?xiě)?zhàn)、校園、民生、溫情、游戲、潮流、熱點(diǎn)、犯罪、生活、百科、相親、真人秀、社會(huì)、科學(xué)、競(jìng)技、籃球、紀(jì)實(shí)、紀(jì)錄、經(jīng)濟(jì)、美食、股票、自然、記錄、訪談、談話、財(cái)富、資訊、運(yùn)動(dòng)、金融、革命。
[0027]本發(fā)明所述步驟E包括
[0028]El、數(shù)據(jù)準(zhǔn)備;
[0029]E2、針對(duì)電視劇、電視劇下面的劇情、觀看時(shí)長(zhǎng)、觀看頻次和省份分別建立模型,通過(guò)社交網(wǎng)絡(luò)分析算法得到;
[0030]E3、結(jié)果輸出;通過(guò)社交網(wǎng)絡(luò)分析算法得到并將結(jié)果輸出。
[0031]本發(fā)明較現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn)及有益效果:
[0032]本發(fā)明在epg信息的獲取,用戶觀影行為分類算法實(shí)現(xiàn),用戶觀影行為標(biāo)簽系統(tǒng)實(shí)現(xiàn)三個(gè)方面實(shí)現(xiàn)了技術(shù)突破,解決了智能電視收視率體系下用戶觀影行為分類方法的問(wèn)題。
【附圖說(shuō)明】
[0033]圖1為本發(fā)明的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0034]下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步地詳細(xì)說(shuō)明:
[0035]實(shí)施例一
[0036]如圖1所示,一種基于智能電視下用戶觀影行為分類方法,方法如下:
[0037]A、用戶觀影行為分類過(guò)程如下:
[0038]Al、查詢?nèi)掌冢?br>[0039]A2、更新天數(shù):對(duì)以前日期計(jì)算的結(jié)果重新計(jì)算,
[0040]A3、數(shù)據(jù)的輸入路徑,該數(shù)據(jù)包括EPG信息中的頻道名、節(jié)目名、標(biāo)簽、節(jié)目開(kāi)始時(shí)間,節(jié)目結(jié)束時(shí)間;
[0041]A4、獲取數(shù)據(jù)的存儲(chǔ)目錄;
[0042]B、Mapper函數(shù)處理:遍歷每一條數(shù)據(jù),并對(duì)其進(jìn)行Mapper函數(shù)處理,將相應(yīng)數(shù)據(jù)傳輸并進(jìn)行Reducer函數(shù)處理;
[0043]B1、Mapper啟動(dòng)時(shí),獲取步驟A中的數(shù)據(jù),以及獲取要查詢?nèi)掌诘腅PG信息;
[0044]B2、將Mapper數(shù)據(jù)中頻道ID與EPG中的頻道ID進(jìn)行匹配,如果匹配成功,則將該條數(shù)據(jù)中channe I的名稱替換成channe l_name的名稱,將該條數(shù)據(jù)中的program的名稱替換成program_name的名稱,并獲得該條數(shù)據(jù)的播放開(kāi)始時(shí)間和結(jié)束時(shí)間;如果匹配失敗,則丟棄該條數(shù)據(jù);
[0045]B3、按照〈key value〉格式輸出數(shù)據(jù),所述〈key value〉格式為字符串存儲(chǔ)格式;
[0046]C、ReduCer函數(shù)處理:對(duì)獲得的同一個(gè)電視用戶的所有觀影行為進(jìn)行處理,并將相應(yīng)結(jié)果輸出到HDFS上;
[0047]Cl、獲取步驟B中的相應(yīng)數(shù)據(jù);
[0048]C2、將該電視用戶的觀影數(shù)據(jù)放入List列表中;
[0049]C3、對(duì)List列表按照時(shí)間戳字段進(jìn)行從小到大排序;
[0050]C4、遍歷List 列表;
[0051 ] C4-1、每次遍歷獲得第i與第1-Ι數(shù)據(jù),
[0052]C4-2、計(jì)算第i條數(shù)據(jù)在不同時(shí)段中的觀影時(shí)間,
[0053]C4-3、分別按照〈key value〉格式輸出全國(guó)和各個(gè)省份的觀影時(shí)間以及全國(guó)頻道收視分鐘數(shù);
[0054]D、AddMR進(jìn)行求和處理,即在同一時(shí)段,且在全國(guó)或省份中觀看同一頻道的分鐘數(shù)進(jìn)行累加求和;
[0055]E、將上述的得到的數(shù)據(jù)運(yùn)用社交網(wǎng)絡(luò)分析算法建立用戶觀影行為標(biāo)簽系統(tǒng);
[0056]F、分類方法實(shí)現(xiàn)后可以對(duì)用戶觀看頻次,觀看時(shí)長(zhǎng)做出定義,為用戶打上標(biāo)簽,標(biāo)識(shí)這個(gè)用戶的觀影行為。
[0057]本發(fā)明步驟E的標(biāo)簽主要有:體育、娛樂(lè)、少兒、電影、電視劇、科教、綜合、財(cái)經(jīng);tagsl主要有:專題、互動(dòng)、交友、親子、人文、傳記、健康、偶像、兒童、冒險(xiǎn)、軍事、劇情、動(dòng)作、動(dòng)漫、動(dòng)畫(huà)、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、地理、娛樂(lè)、對(duì)話、影視、情感、戰(zhàn)爭(zhēng)、揭秘、教育、新聞、時(shí)尚、明星、民生、法制、熱點(diǎn)、愛(ài)情、犯罪、理財(cái)、生活、百科、益智、社會(huì)、科學(xué)、科幻、競(jìng)技、紀(jì)實(shí)、紀(jì)錄、經(jīng)濟(jì)、綜藝、美食、股票、自然、警匪、講壇、訪談、談話、財(cái)富、購(gòu)物、資訊、運(yùn)動(dòng)、金融、音樂(lè);tags2主要有:專題、互動(dòng)、親子、人文、健康、兒童、冒險(xiǎn)、軍旅、劇情、動(dòng)作、動(dòng)漫、動(dòng)畫(huà)、勵(lì)志、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、地理、娛樂(lè)、宮廷、家庭、對(duì)話、影視、懸疑、情感、驚悚、戰(zhàn)爭(zhēng)、探險(xiǎn)、揭秘、故事、教育、文化、文物、新聞、時(shí)尚、明星、武俠、民生、氣象、法制、溫情、游戲、潮流、熱點(diǎn)、愛(ài)情、理財(cái)、生活、社會(huì)、科學(xué)、競(jìng)技、紀(jì)錄、經(jīng)濟(jì)、綜藝、美食、自然、警匪、講壇、訪談、談話、諜戰(zhàn)、財(cái)富、資訊、運(yùn)動(dòng)、選秀、金融、音樂(lè);tags3主要有:專題、互動(dòng)、人文、倫理、健康、冒險(xiǎn)、劇情、動(dòng)作、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、娛樂(lè)、家庭、少兒、情感、揭秘、搞笑、教育、新聞、旅游、時(shí)尚、明星、曲藝、槍?xiě)?zhàn)、校園、民生、溫情、游戲、潮流、熱點(diǎn)、犯罪、生活、百科、相親、真人秀、社會(huì)、科學(xué)、競(jìng)技、籃球、紀(jì)實(shí)、紀(jì)錄、經(jīng)濟(jì)、美食、股票、自然、記錄、訪談、談話、財(cái)富、資訊、運(yùn)動(dòng)、金融、革命。
[0058]本發(fā)明步驟E包括
[0059]El、數(shù)據(jù)準(zhǔn)備;
[0060]E2、針對(duì)電視劇、電視劇下面的劇情、觀看時(shí)長(zhǎng)、觀看頻次和省份分別建立模型,通過(guò)社交網(wǎng)絡(luò)分析算法得到;
[0061]E3、結(jié)果輸出;通過(guò)社交網(wǎng)絡(luò)分析算法得到并將結(jié)果輸出。
[0062]本發(fā)明的原理如下:獲取epg信息里面的channel_name , program_name , tags ,start_time,end_time等字段;實(shí)現(xiàn)用戶觀看頻次,觀看時(shí)長(zhǎng)等定義;在分類的基礎(chǔ)之上,為用戶打上標(biāo)簽,標(biāo)識(shí)這個(gè)用戶的觀影行為。具體步驟為:獲取當(dāng)前工作目錄,確定其他參數(shù):查詢?nèi)掌?、更新天?shù)、輸入文件路徑和mapreduce程序結(jié)果的存儲(chǔ)目錄;mapper函數(shù)處理,SP遍歷每一條數(shù)據(jù),并對(duì)其進(jìn)行處理,將相應(yīng)數(shù)據(jù)傳給redece函數(shù);mapper啟動(dòng)時(shí),獲取相應(yīng)參數(shù),以及獲取要查詢?nèi)掌诘膃pg信息,根據(jù)數(shù)據(jù)中channelID與epg中的channel_code進(jìn)行匹配。如果匹配成功,則將該條數(shù)據(jù)中channel ,program替換成epg中的channel_name,program_name,并獲取epg信息里面的tags字段,start_time, end_time,由于tags字段是數(shù)組,需要按照條件獲取數(shù)組中的前4個(gè)值作為用戶觀影行為分類依據(jù),分別記為tags,tags I,tags2,tags3,如果匹配失敗,則丟棄該條數(shù)據(jù),按照〈key value〉格式輸出數(shù)據(jù);redeuce函數(shù)處理,即對(duì)獲得的同一個(gè)mac的所有觀影行為進(jìn)行處理,并將相應(yīng)結(jié)果輸出到HDFS上。(I)獲取相應(yīng)參數(shù),將該mac的觀影數(shù)據(jù)放入List列表中,對(duì)List列表