一種基于微博熱門話題的視頻聚合方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于微博熱門話題的視頻聚合方法及系統(tǒng),該方法包括以下步驟:從互聯(lián)網(wǎng)抓取視頻元數(shù)據(jù)并保存在數(shù)據(jù)庫中;根據(jù)視頻元數(shù)據(jù)形成視頻特征詞庫,并從各大微博平臺抓取最新微博,針對每條微博提取出多個特征詞代表該條微博,根據(jù)視頻特征詞庫計算出該條微博的視頻特征權(quán)值,篩選出視頻特征權(quán)值超過設(shè)定閾值的微博,并對這些微博進行聚類,提取熱門話題;根據(jù)熱門話題及視頻元數(shù)據(jù)對視頻進行匹配篩選;將篩選出的視頻進行排列聚合,并呈現(xiàn)。該系統(tǒng)包括內(nèi)容采集模塊、熱點分析模塊、視頻聚合模塊、內(nèi)容服務(wù)模塊和視頻聚合門戶。本發(fā)明結(jié)合了網(wǎng)絡(luò)當前最新熱門話題及現(xiàn)有視頻資源提取出熱點詞,最終聚合呈現(xiàn)的視頻更具時效性及吸引力。
【專利說明】一種基于微博熱門話題的視頻聚合方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)視頻聚合領(lǐng)域,特別涉及一種基于微博熱門話題的視頻聚合方法及系統(tǒng)。
【背景技術(shù)】
[0002]近年來網(wǎng)絡(luò)視頻數(shù)量呈爆炸性的增長,各視頻網(wǎng)站之間的競爭越加激烈,視頻聚合門戶隨之誕生。視頻聚合門戶能將用戶所喜愛的分布在不同視頻網(wǎng)站的視頻聚合起來,使得用戶可以進行一站式觀看。但是現(xiàn)有的視頻聚合門戶推薦給用戶的熱點視頻多基于自身網(wǎng)站數(shù)據(jù)中的用戶觀看評論數(shù)量,熱點視頻推薦不夠準確,無法吸引用戶;同時需要等待用戶觀看信息的反饋,推薦不具時效性;而且此種熱點話題均只有單個視頻,用戶選擇余地太小。
[0003]微博是近幾年興起的基于用戶關(guān)系信息分享、傳播以及獲取平臺,在廣大網(wǎng)絡(luò)用戶尤其是年輕的網(wǎng)絡(luò)用戶中非常流行。很多微博用戶都會第一時間將自己所關(guān)心的事物和話題在微博上進行分享,故此其內(nèi)容非常具有時效性。因而,微博的熱點話題可以很好的作為當前網(wǎng)絡(luò)熱門話題動態(tài)的一個代表。故我們對一定數(shù)量的實時微博進行分析,以取得當前的微博熱門話題來代表當前的網(wǎng)絡(luò)熱門話題。根據(jù)網(wǎng)絡(luò)熱門話題來聚合視頻,用戶可以獲得更新更熱門的視頻。但是經(jīng)過實際測試發(fā)現(xiàn),先從微薄分析熱點,再搜索視頻時,分析得到的一些熱點并沒有相關(guān)的熱點,無法進行視頻聚合。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于,為用戶提供與網(wǎng)絡(luò)最新熱點相關(guān)的一系列視頻,熱點具有針對性,視頻聚合門戶呈現(xiàn)的視頻更具時效性及吸引力,同時使得用戶能更加全面的了解所關(guān)注的熱點。
[0005]為實現(xiàn)上述目的,一方面,本發(fā)明提供了一種基于微博熱門話題的視頻聚合方法,該方法包括以下步驟:
[0006]從互聯(lián)網(wǎng)抓取視頻元數(shù)據(jù)并保存在數(shù)據(jù)庫中;根據(jù)視頻元數(shù)據(jù)形成視頻特征詞庫,并從各大微博平臺抓取最新微博,針對每條微博提取出多個特征詞代表該條微博,根據(jù)視頻特征詞庫計算出該條微博的視頻特征權(quán)值,篩選出視頻特征權(quán)值超過設(shè)定閾值的微博,并對這些微博進行聚類,提取熱門話題;根據(jù)所述熱門話題及視頻元數(shù)據(jù)對視頻進行匹配篩選;將篩選出的視頻進行排列聚合,并呈現(xiàn)。
[0007]另一方面,本發(fā)明提供了一種基于微博熱門話題的視頻聚合系統(tǒng),該系統(tǒng)包括內(nèi)容采集模塊、熱點分析模塊、視頻聚合模塊、內(nèi)容服務(wù)模塊和視頻聚合門戶:
[0008]內(nèi)容采集模塊用于從互聯(lián)網(wǎng)抓取視頻元數(shù)據(jù),并保存在數(shù)據(jù)庫中;
[0009]熱點分析模塊根據(jù)視頻元數(shù)據(jù)形成視頻特征詞庫,并從各大微博平臺抓取最新微博,針對每條微博提取出多個特征詞代表該條微博,根據(jù)視頻特征詞庫計算出該條微博的視頻特征權(quán)值,篩選出視頻特征權(quán)值超過設(shè)定閾值的微博,并對這些微博進行聚類,提取熱門話題;
[0010]視頻聚合模塊根據(jù)熱門話題及視頻元數(shù)據(jù)對視頻進行匹配篩選;
[0011]內(nèi)容服務(wù)模塊將視頻聚合模塊篩選出的視頻進行排列聚合,并呈現(xiàn)在視頻聚合門戶上。
[0012]本發(fā)明的優(yōu)點在于:首先,視頻門戶上聚合呈現(xiàn)的視頻相對現(xiàn)有視頻門戶呈現(xiàn)的熱點視頻更具時效性,微博平臺的特點使得當前的大量微博總能代表當前的最新熱門話題,通過微博提取出熱點詞對視頻進行聚合呈現(xiàn),更具時效性。其次,視頻聚合的主題更具針對性,根據(jù)視頻特征詞庫篩選后得到的微博基本都與現(xiàn)有視頻資源相關(guān),聚類得到的熱門話題不會超出現(xiàn)有視頻資源的范圍,聚合主題更具針對性
【專利附圖】
【附圖說明】
[0013]圖1為本發(fā)明實施例提供的一種基于微博熱門話題的視頻聚合系統(tǒng)架構(gòu)示意圖;
[0014]圖2為圖1所示系統(tǒng)中熱點分析模塊提取熱門話題的方法流程圖。
【具體實施方式】
[0015]下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
[0016]圖1為本發(fā)明實施例提供的一種基于微博熱門話題的視頻聚合系統(tǒng)架構(gòu)示意圖。如圖1所示,該系統(tǒng)包括:內(nèi)容采集模塊11、熱點分析模塊12、視頻聚合模塊13、內(nèi)容服務(wù)模塊14和視頻聚合門戶15。
[0017]內(nèi)容采集模塊11用于從互聯(lián)網(wǎng)抓取視頻元數(shù)據(jù)并保存在數(shù)據(jù)庫中;
[0018]熱點分析模塊12用于根據(jù)內(nèi)容采集模塊11抓取的視頻元數(shù)據(jù)形成視頻特征詞庫,并從各大微博平臺抓取最新微博,針對每條微博提取出多個特征詞代表該條微博,根據(jù)視頻特征詞庫計算出該條微博的視頻特征權(quán)值,篩選出視頻特征權(quán)值超過設(shè)定閾值的微博,并對這些微博進行聚類,提取熱門話題;
[0019]視頻聚合模塊13根據(jù)所述熱門話題及視頻元數(shù)據(jù)對視頻進行匹配篩選;
[0020]內(nèi)容服務(wù)模塊14將視頻聚合模塊篩選出的視頻進行排列聚合,并呈現(xiàn)在視頻聚合門戶15上。
[0021]如圖1所示,該系統(tǒng)的執(zhí)行步驟包括步驟101-105:
[0022]在步驟101,內(nèi)容采集模塊11采集視頻元數(shù)據(jù),交由熱點分析模塊12形成視頻特征詞庫。
[0023]在步驟102、熱點分析模塊12從各大微博平臺抓取大量最新微博,根據(jù)視頻特征詞庫篩選微博,并對篩選出的微博進行聚類,得到熱門話題聚類;
[0024]在步驟103、視頻聚合模塊13選出包含微博數(shù)量最多的若干個聚類,每個聚類即為一個熱門話題,計算數(shù)據(jù)庫中各視頻描述信息與各個熱門話題聚類的相似度,每個話題選擇若干個相似度超過一定閾值的視頻,通知內(nèi)容采集模塊11根據(jù)視頻元信息抓取視頻。
[0025]在步驟104、內(nèi)容采集模塊11將采集到的視頻提交給內(nèi)容服務(wù)模塊14。
[0026]在步驟105、內(nèi)容服務(wù)模塊14將視頻聚合,并呈現(xiàn)在視頻聚合門戶15上。
[0027]圖2為圖1所示系統(tǒng)中熱點分析模塊提取熱門話題的方法流程圖。如圖2所示,該方法包括步驟201-210:[0028]在步驟201、熱點分析模塊12向內(nèi)容采集模塊11中的數(shù)據(jù)庫請求視頻描述信息、所述視頻描述信息包括視頻元數(shù)據(jù);
[0029]在步驟202、熱點分析模塊12在獲取到視頻描述信息后,將各視頻描述信息進行分詞去停用詞后計算各視頻描述中各特征詞的文本特征項權(quán)值。取各視頻描述中權(quán)值最大的N個特征詞及其權(quán)值,組成視頻特征詞庫,如果某一視頻描述的特征詞不足N個,則取其中所有的特征詞及其權(quán)值:
[0030]如果某一特征詞只出現(xiàn)在單個視頻描述的權(quán)值最大的N個特征詞中,則其在詞庫中的權(quán)值即為該特征詞在視頻特征詞庫中的權(quán)值;
[0031]如果某一特征詞同時存在于兩個或多個視頻描述的權(quán)值最大的N個特征詞中,則其在詞庫中的權(quán)值為其在這些視頻描述中的權(quán)值的和;
[0032]在步驟203、熱點分析模塊12從各大微博平臺抓取大量最新微博;
[0033]在步驟204、針對每條微博,去噪分詞去停用詞后提取出文本特征項權(quán)值最大的M個特征詞代表該微博,如果某微博的特征詞不足M個,則取其所有的特征詞;
[0034]在步驟205、根據(jù)視頻特征詞庫計算出各條微博的視頻特征權(quán)值:
[0035]微博的視頻特征權(quán)值為,選出的M個特征詞在視頻特征詞庫中對應(yīng)權(quán)值的和;
[0036]如果選出的微博特征詞在視頻特征詞庫中不存在,則其對應(yīng)的權(quán)值為零;
[0037]在步驟206、如果該條微博的視頻特征權(quán)值小于所設(shè)定的閾值,跳轉(zhuǎn)步驟207),如果該條微博的視頻特征權(quán)值大于所設(shè)定的閾值,跳轉(zhuǎn)步驟208);
[0038]在步驟207、丟棄視頻特征權(quán)值小于所設(shè)定的閾值的微博;
[0039]在步驟208、保留視頻特征權(quán)值大于所設(shè)定的閾值的微博,存入微博庫;
[0040]在步驟209、對微博庫中的微博進行聚類;
[0041]在步驟210、選出包含微博數(shù)量最多的若干個聚類,即為熱門話題聚類。
[0042]通過計算各視頻描述信息與各熱門話題聚類的文本相似度,每個話題下可選擇相似度最高的且超過設(shè)定閾值的若干個視頻,即可實現(xiàn)基于熱門話題的視頻聚合。
[0043]本發(fā)明實施例使得當前的大量微博總能代表當前的最新熱門話題,通過微博提取出熱點詞對視頻進行聚合呈現(xiàn),更具時效性。其次,視頻聚合的主題更具針對性,根據(jù)視頻特征詞庫篩選后得到的微博基本都與現(xiàn)有視頻資源相關(guān),聚類得到的熱門話題不會超出現(xiàn)有視頻資源的范圍,聚合主題更具針對性。
[0044]顯而易見,在不偏離本發(fā)明的真實精神和范圍的前提下,在此描述的本發(fā)明可以有許多變化。因此,所有對于本領(lǐng)域技術(shù)人員來說顯而易見的改變,都應(yīng)包括在本權(quán)利要求書所涵蓋的范圍之內(nèi)。本發(fā)明所要求保護的范圍僅由所述的權(quán)利要求書進行限定。
【權(quán)利要求】
1.一種基于微博熱門話題的視頻聚合方法,其特征在于,該方法包括以下步驟: 從互聯(lián)網(wǎng)抓取視頻元數(shù)據(jù)并保存在數(shù)據(jù)庫中; 根據(jù)所述視頻元數(shù)據(jù)形成視頻特征詞庫,并從各大微博平臺抓取最新微博,針對每條微博提取出多個特征詞代表該條微博,根據(jù)所述視頻特征詞庫計算出該條微博的視頻特征權(quán)值,篩選出視頻特征權(quán)值超過設(shè)定閾值的微博,并對這些微博進行聚類,提取熱門話題;根據(jù)所述熱門話題及視頻元數(shù)據(jù)對視頻進行匹配篩選; 將篩選出的視頻進行排列聚合,并呈現(xiàn)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述視頻元數(shù)據(jù)形成視頻特征詞庫步驟包括: 從所述數(shù)據(jù)庫中獲取視頻描述信息,所述的視頻描述信息包括視頻元數(shù)據(jù); 根據(jù)各視頻描述信息計算各視頻描述中各特征詞的文本特征權(quán)值, 提取各視頻描述中特征權(quán)值最大的多個特征詞及權(quán)值,組成視頻特征詞庫。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述熱門話題及視頻元數(shù)據(jù)對視頻進行匹配篩選步驟包括: 選出包含微博數(shù)量最多的若干個聚類,每個聚類為一個熱門話題; 計算所述數(shù)據(jù)庫中各視頻元數(shù)據(jù)與各個熱門話題聚類的相似度,每個熱門話題選擇若干個相似度超過一定閾值的視頻。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述將篩選出的視頻進行排列聚合,并呈現(xiàn)步驟包括: 將篩選出的視頻按相似度進行排列聚合,并呈現(xiàn)在視頻聚合門戶上。
5.一種基于微博熱門話題的視頻聚合系統(tǒng),其特征在于,該系統(tǒng)包括內(nèi)容采集模塊、熱點分析模塊、視頻聚合模塊、內(nèi)容服務(wù)模塊和視頻聚合門戶: 所述內(nèi)容采集模塊從互聯(lián)網(wǎng)抓取視頻元數(shù)據(jù)并保存在數(shù)據(jù)庫中; 所述熱點分析模塊根據(jù)所述視頻元數(shù)據(jù)形成視頻特征詞庫,并從各大微博平臺抓取最新微博,針對每條微博提取出多個特征詞代表該條微博,根據(jù)所述視頻特征詞庫計算出該條微博的視頻特征權(quán)值,篩選出視頻特征權(quán)值超過設(shè)定閾值的微博,并對這些微博進行聚類,提取熱門話題; 所述視頻聚合模塊根據(jù)所述熱門話題及視頻元數(shù)據(jù)對視頻進行匹配篩選; 所述內(nèi)容服務(wù)模塊將所述視頻聚合模塊篩選出的視頻進行排列聚合,并呈現(xiàn)在視頻聚合門戶上。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述內(nèi)容采集模塊具體用于: 從所述數(shù)據(jù)庫中 獲取視頻描述信息,所述的視頻描述信息包括視頻元數(shù)據(jù); 根據(jù)各視頻描述信息計算各視頻描述中各特征詞的文本特征權(quán)值,提取各視頻描述中特征權(quán)值最大的多個特征詞及權(quán)值,組成視頻特征詞庫。
7.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述熱點分析模塊具體用于: 選出包含微博數(shù)量最多的若干個聚類,每個聚類為一個熱門話題; 計算所述數(shù)據(jù)庫中各視頻元數(shù)據(jù)與各個熱門話題聚類的相似度,每個熱門話題選擇若干個相似度超過一定閾值的視頻。
8.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于:所述內(nèi)容服務(wù)模塊具體用于:將篩選出的視頻按 相似度進行排列聚合,并呈現(xiàn)在視頻聚合門戶上。
【文檔編號】G06F17/30GK103577593SQ201310566249
【公開日】2014年2月12日 申請日期:2013年11月14日 優(yōu)先權(quán)日:2013年11月14日
【發(fā)明者】脫立恒, 嚴灝, 江佳偉, 劉學(xué) 申請人:中國科學(xué)院聲學(xué)研究所, 上海尚恩華科網(wǎng)絡(luò)科技股份有限公司