按照時(shí)間戳字段進(jìn)行從小到大排序,遍歷List列表,每次遍歷獲得第i與1-Ι數(shù)據(jù),計(jì)算第i條數(shù)據(jù)在不同時(shí)段中的觀影時(shí)間,分別按照〈key value〉格式輸出全國(guó)和省份的觀影時(shí)間,將全國(guó)和省份的頻道接觸人數(shù)放入map中,按照〈key value〉格式輸出數(shù)據(jù);addMR進(jìn)行求和處理,S卩在同一時(shí)段,且在全國(guó)或省份中觀看同一頻道的分鐘數(shù)進(jìn)行累加求和;將上述的得到的數(shù)據(jù)運(yùn)用社交網(wǎng)絡(luò)分析算法建立用戶觀影行為標(biāo)簽系統(tǒng)。
[0063]實(shí)施例二
[0064]如圖1所示,一種基于智能電視下用戶觀影行為分類方法,包括獲取epg信息里面的 channe l_name,program_name, tags, start_time, end_time 等字段;實(shí)現(xiàn)用戶觀看頻次,觀看時(shí)長(zhǎng)等定義;在分類的基礎(chǔ)之上,為用戶打上標(biāo)簽,標(biāo)識(shí)這個(gè)用戶的觀影行為。其具體實(shí)現(xiàn)步驟如下:
[0065]步驟1、獲取當(dāng)前工作目錄
[0066]步驟2、確定其他參數(shù):
[0067]2.1查詢?nèi)掌?br>[0068]2.2更新天數(shù):對(duì)以前的日期計(jì)算的結(jié)果重新計(jì)算
[0069]2.3MR輸入文件路徑
[0070 ] 2.4MR結(jié)果的存儲(chǔ)目錄
[0071]步驟3、Mapper函數(shù)處理,S卩遍歷每一條數(shù)據(jù),并對(duì)其進(jìn)行處理,將相應(yīng)數(shù)據(jù)傳給Reducer 函數(shù)。
[0072]3.1Mapper啟動(dòng)時(shí),獲取相應(yīng)參數(shù),以及獲取要查詢?nèi)掌诘腅PG信息
[0073]3.2根據(jù)數(shù)據(jù)中channel_id與EPG中的channel_code進(jìn)行匹配。如果匹配成功,貝丨J將該條數(shù)據(jù)中channe I ,program替換成EPG中的channe l_name,program_name名稱,并獲得其播放開始時(shí)間和結(jié)束時(shí)間,tags,tagsl,tags2,tags3 ;如果匹配失敗,則丟棄該條數(shù)據(jù)
[0074]3.3按照〈key value〉格式輸出數(shù)據(jù):
[0075]key: MAC
[0076]value:province | channel | 時(shí)間戮
[0077]I program|tags|tagsl|tags2|tags3|start_time|end_time|timestamp
[0078]步驟4、ReduCer函數(shù)處理,即對(duì)獲得的同一個(gè)MAC的所有觀影行為進(jìn)行處理,并將相應(yīng)結(jié)果輸出到HDFS上
[0079]4.1獲取相應(yīng)的參數(shù)
[0080]4.2將該MAC的觀影數(shù)據(jù)放入List列表中
[0081]4.3對(duì)List列表按照時(shí)間戳字段進(jìn)行從小到大排序
[0082]4.4 遍歷List 列表:
[0083]4.4.1每次遍歷獲得第i與第1-Ι數(shù)據(jù)
[0084]4.4.2計(jì)算第i條數(shù)據(jù)在不同時(shí)段中的觀影時(shí)間
[0085]4.4.3分別按照〈key value〉格式輸出全國(guó)和省份的觀影時(shí)間全國(guó)頻道收視分鐘數(shù):
[0086]key:O|N|channel
[0087]I program|tags|tagsl|tags2|tags3|start_time|end_time|timestamp
[0088]value: I
[0089]省份頻道收視分鐘數(shù):
[0090]key:0(province|channel
[0091 ] I I program|tags|tagsl|tags2|tags3|start_time|end_time|timestamp
[0092]value: I
[0093]4.4.4將全國(guó)和省份的頻道接觸人數(shù)加入Map中,其中key與上一步驟中的key—樣,但第一位標(biāo)記改為I
[0094]4.5遍歷4.4.4步驟中Map,按照〈key value〉格式輸出數(shù)據(jù)
[0095]步驟6、AddMR進(jìn)行求和處理,即在同一時(shí)段,且在全國(guó)或省份中觀看同一頻道的分鐘數(shù)進(jìn)行累加求和
[0096]步驟7、將上述的得到的數(shù)據(jù)運(yùn)用社交網(wǎng)絡(luò)分析算法建立用戶觀影行為標(biāo)簽系統(tǒng)
[0097]本實(shí)施例的步驟7中,社交網(wǎng)絡(luò)分析算法模型描述:社會(huì)網(wǎng)絡(luò)分析法是一種社會(huì)學(xué)研究方法,社會(huì)學(xué)理論認(rèn)為社會(huì)不是由個(gè)人而是由網(wǎng)絡(luò)構(gòu)成的,網(wǎng)絡(luò)中包含結(jié)點(diǎn)及結(jié)點(diǎn)之間的關(guān)系,社會(huì)網(wǎng)絡(luò)分析法通過對(duì)于網(wǎng)絡(luò)中關(guān)系的分析探討網(wǎng)絡(luò)的結(jié)構(gòu)及屬性特征,包括網(wǎng)絡(luò)中的個(gè)體屬性及網(wǎng)絡(luò)整體屬性,網(wǎng)絡(luò)個(gè)體屬性分析包括:出度、入度、點(diǎn)度中心度、接近中心度等;網(wǎng)絡(luò)的整體屬性分析包括小世界效應(yīng),小團(tuán)體研究,凝聚子群等。
[0098]模型處理流程:a)數(shù)據(jù)準(zhǔn)備;b)針對(duì)電視劇等、電視劇下面的劇情等、觀看時(shí)長(zhǎng)、觀看頻次和省份分別建立模型;c)結(jié)果輸出;
[0099]模型涉及的算法:社交網(wǎng)絡(luò)分析算法
[0100]模型的輸入:用戶觀影行為數(shù)據(jù)
[0101 ]模型的輸出:電視劇,電影等類型,電視劇下劇情,情感等類型(一共三級(jí)標(biāo)簽),觀看時(shí)長(zhǎng),觀看頻次,省份等。
[0102]Tags(即標(biāo)簽)主要有:體育、娛樂、少兒、電影、電視劇、科教、綜合、財(cái)經(jīng);tagsl主要有:專題、互動(dòng)、交友、親子、人文、傳記、健康、偶像、兒童、冒險(xiǎn)、軍事、劇情、動(dòng)作、動(dòng)漫、動(dòng)畫、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、地理、娛樂、對(duì)話、影視、情感、戰(zhàn)爭(zhēng)、揭秘、教育、新聞、時(shí)尚、明星、民生、法制、熱點(diǎn)、愛情、犯罪、理財(cái)、生活、百科、益智、社會(huì)、科學(xué)、科幻、競(jìng)技、紀(jì)實(shí)、紀(jì)錄、經(jīng)濟(jì)、綜藝、美食、股票、自然、警匪、講壇、訪談、談話、財(cái)富、購(gòu)物、資訊、運(yùn)動(dòng)、金融、音樂;tags2主要有:專題、互動(dòng)、親子、人文、健康、兒童、冒險(xiǎn)、軍旅、劇情、動(dòng)作、動(dòng)漫、動(dòng)畫、勵(lì)志、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、地理、娛樂、宮廷、家庭、對(duì)話、影視、懸疑、情感、驚悚、戰(zhàn)爭(zhēng)、探險(xiǎn)、揭秘、故事、教育、文化、文物、新聞、時(shí)尚、明星、武俠、民生、氣象、法制、溫情、游戲、潮流、熱點(diǎn)、愛情、理財(cái)、生活、社會(huì)、科學(xué)、競(jìng)技、紀(jì)錄、經(jīng)濟(jì)、綜藝、美食、自然、警匪、講壇、訪談、談話、諜戰(zhàn)、財(cái)富、資訊、運(yùn)動(dòng)、選秀、金融、音樂;tags3主要有:專題、互動(dòng)、人文、倫理、健康、冒險(xiǎn)、劇情、動(dòng)作、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、娛樂、家庭、少兒、情感、揭秘、搞笑、教育、新聞、旅游、時(shí)尚、明星、曲藝、槍戰(zhàn)、校園、民生、溫情、游戲、潮流、熱點(diǎn)、犯罪、生活、百科、相親、真人秀、社會(huì)、科學(xué)、競(jìng)技、籃球、紀(jì)實(shí)、紀(jì)錄、經(jīng)濟(jì)、美食、股票、自然、記錄、訪談、談話、財(cái)富、資訊、運(yùn)動(dòng)、金融、革命
[0103]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于智能電視下用戶觀影行為分類方法,其特征在于: A、用戶觀影行為分類過程如下: Al、查詢?nèi)掌冢?A2、更新天數(shù):對(duì)以前日期計(jì)算的結(jié)果重新計(jì)算, A3、數(shù)據(jù)的輸入路徑,該數(shù)據(jù)包括EPG信息中的頻道名、節(jié)目名、標(biāo)簽、節(jié)目開始時(shí)間,節(jié)目結(jié)束時(shí)間; A4、獲取數(shù)據(jù)的存儲(chǔ)目錄; B、Mapper函數(shù)處理:遍歷每一條數(shù)據(jù),并對(duì)其進(jìn)行Mapper函數(shù)處理,將相應(yīng)數(shù)據(jù)傳輸并進(jìn)行Reducer函數(shù)處理; B1、Mapper啟動(dòng)時(shí),獲取步驟A中的數(shù)據(jù),以及獲取要查詢?nèi)掌诘腅PG信息; B2、將Mapper數(shù)據(jù)中頻道ID與EPG中的頻道ID進(jìn)行匹配,如果匹配成功,則將該條數(shù)據(jù)中channel的名稱替換成channel_name的名稱,將該條數(shù)據(jù)中的program的名稱替換成program_name的名稱,并獲得該條數(shù)據(jù)的播放開始時(shí)間和結(jié)束時(shí)間;如果匹配失敗,則丟棄該條數(shù)據(jù); B3、按照〈key value〉格式輸出數(shù)據(jù),所述〈key value〉格式為字符串存儲(chǔ)格式; C、ReduCer函數(shù)處理:對(duì)獲得的同一個(gè)電視用戶的所有觀影行為進(jìn)行處理,并將相應(yīng)結(jié)果輸出到HDFS上; C1、獲取步驟B中的相應(yīng)數(shù)據(jù); C2、將該電視用戶的觀影數(shù)據(jù)放入List列表中; C3、對(duì)List列表按照時(shí)間戳字段進(jìn)行從小到大排序; C4、遍歷List列表; C4-1、每次遍歷獲得第i與第i_l數(shù)據(jù), C4-2、計(jì)算第i條數(shù)據(jù)在不同時(shí)段中的觀影時(shí)間, C4-3、分別按照〈key value〉格式輸出全國(guó)和各個(gè)省份的觀影時(shí)間以及全國(guó)頻道收視分鐘數(shù); D、AddMR進(jìn)行求和處理,即在同一時(shí)段,且在全國(guó)或省份中觀看同一頻道的分鐘數(shù)進(jìn)行累加求和; E、將上述的得到的數(shù)據(jù)運(yùn)用社交網(wǎng)絡(luò)分析算法建立用戶觀影行為標(biāo)簽系統(tǒng); F、分類方法實(shí)現(xiàn)后可以對(duì)用戶觀看頻次,觀看時(shí)長(zhǎng)做出定義,為用戶打上標(biāo)簽,標(biāo)識(shí)這個(gè)用戶的觀影行為。2.按照權(quán)利要求1所述的一種基于智能電視下用戶觀影行為分類方法,其特征在于:所述步驟E的標(biāo)簽主要有:體育、娛樂、少兒、電影、電視劇、科教、綜合、財(cái)經(jīng);tagsl主要有:專題、互動(dòng)、交友、親子、人文、傳記、健康、偶像、兒童、冒險(xiǎn)、軍事、劇情、動(dòng)作、動(dòng)漫、動(dòng)畫、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、地理、娛樂、對(duì)話、影視、情感、戰(zhàn)爭(zhēng)、揭秘、教育、新聞、時(shí)尚、明星、民生、法制、熱點(diǎn)、愛情、犯罪、理財(cái)、生活、百科、益智、社會(huì)、科學(xué)、科幻、競(jìng)技、紀(jì)實(shí)、紀(jì)錄、經(jīng)濟(jì)、綜藝、美食、股票、自然、警匪、講壇、訪談、談話、財(cái)富、購(gòu)物、資訊、運(yùn)動(dòng)、金融、音樂;tags2主要有:專題、互動(dòng)、親子、人文、健康、兒童、冒險(xiǎn)、軍旅、劇情、動(dòng)作、動(dòng)漫、動(dòng)畫、勵(lì)志、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、地理、娛樂、宮廷、家庭、對(duì)話、影視、懸疑、情感、驚悚、戰(zhàn)爭(zhēng)、探險(xiǎn)、揭秘、故事、教育、文化、文物、新聞、時(shí)尚、明星、武俠、民生、氣象、法制、溫情、游戲、潮流、熱點(diǎn)、愛情、理財(cái)、生活、社會(huì)、科學(xué)、競(jìng)技、紀(jì)錄、經(jīng)濟(jì)、綜藝、美食、自然、警匪、講壇、訪談、談話、諜戰(zhàn)、財(cái)富、資訊、運(yùn)動(dòng)、選秀、金融、音樂;tags3主要有:專題、互動(dòng)、人文、倫理、健康、冒險(xiǎn)、劇情、動(dòng)作、歷史、古裝、喜劇、國(guó)內(nèi)、國(guó)際、地方、娛樂、家庭、少兒、情感、揭秘、搞笑、教育、新聞、旅游、時(shí)尚、明星、曲藝、槍戰(zhàn)、校園、民生、溫情、游戲、潮流、熱點(diǎn)、犯罪、生活、百科、相親、真人秀、社會(huì)、科學(xué)、競(jìng)技、籃球、紀(jì)實(shí)、紀(jì)錄、經(jīng)濟(jì)、美食、股票、自然、記錄、訪談、談話、財(cái)富、資訊、運(yùn)動(dòng)、金融、革命。3.按照權(quán)利要求1所述的一種基于智能電視下用戶觀影行為分類方法,其特征在于:所述步驟E包括El、數(shù)據(jù)準(zhǔn)備; E2、針對(duì)電視劇、電視劇下面的劇情、觀看時(shí)長(zhǎng)、觀看頻次和省份分別建立模型,通過社交網(wǎng)絡(luò)分析算法得到; E3、結(jié)果輸出;通過社交網(wǎng)絡(luò)分析算法得到并將結(jié)果輸出。
【專利摘要】本發(fā)明公開了一種基于智能電視下用戶觀影行為分類方法,通過獲取epg信息里面的channel_name,program_name,tags,start_time,end_time等字段;實(shí)現(xiàn)用戶觀看頻次,觀看時(shí)長(zhǎng)等定義;在分類的基礎(chǔ)之上,為用戶打上標(biāo)簽,標(biāo)識(shí)這個(gè)用戶的觀影行為。本發(fā)明在epg信息的獲取,用戶觀影行為分類算法實(shí)現(xiàn),用戶觀影行為標(biāo)簽系統(tǒng)實(shí)現(xiàn)三個(gè)方面實(shí)現(xiàn)了技術(shù)突破,解決了智能電視收視率體系下用戶觀影行為分類方法的問題。
【IPC分類】H04N21/45, H04N21/466, H04N21/433
【公開號(hào)】CN105578259
【申請(qǐng)?zhí)枴緾N201510926101
【發(fā)明人】孫永強(qiáng), 周清峰, 唐軍, 蒲文龍, 文藝霖
【申請(qǐng)人】四川長(zhǎng)虹電器股份有限公司
【公開日】2016年5月11日
【申請(qǐng)日】2015年12月14日