亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種視頻基因的生成方法和裝置與流程

文檔序號:12364424閱讀:245來源:國知局
一種視頻基因的生成方法和裝置與流程

本發(fā)明涉及網(wǎng)頁分析技術(shù)領(lǐng)域,具體而言,涉及一種視頻基因的生成方法和裝置。



背景技術(shù):

網(wǎng)絡(luò)視頻內(nèi)容各式各樣,長短不一,各具特色。面對海量的網(wǎng)絡(luò)視頻內(nèi)容,用戶會出現(xiàn)選擇性困難。當(dāng)用戶耗費大量時間通過APP觀看了一些視頻后,發(fā)現(xiàn)視頻內(nèi)容都不喜歡,此時用戶就對該APP體驗度變低,甚至卸載該APP。

針對上述問題,目前視頻網(wǎng)站通常按照視頻類型對視頻進行分類,例如動作、科幻、劇情等等;該方式對影視作品來講,分類比較粗糙,對視頻獨有特征的描述不準(zhǔn)確,因而不能從根本上反映該視頻內(nèi)容的特點。例如,用戶喜歡某一種動作片,如果該用戶去搜索,視頻網(wǎng)站會展現(xiàn)很多動作片,包括太極拳,詠春拳,跑酷,無影腳等等;然而,該用戶卻搜索不到與其喜好相符的特定一種動作片。

針對上述視頻特征描述粗略且不準(zhǔn)確的問題,目前尚未提出有效的解決方案。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明實施例的目的在于提供一種視頻基因的生成方法和裝置,能夠可以更加細化和精確地描述視頻特征。

第一方面,本發(fā)明實施例提供了一種視頻基因的生成方法,包括:獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù);其中,源數(shù)據(jù)包括與當(dāng)前視頻相關(guān)的網(wǎng)頁文本、當(dāng)前視頻內(nèi)的字幕文本和當(dāng)前視頻對應(yīng)的音頻數(shù)據(jù)中的一種或多種;按照源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù);其中,對于網(wǎng)頁文本和字幕文本,單體數(shù)據(jù)為詞語,對于音頻數(shù)據(jù),單體數(shù)據(jù)為音頻單元;根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞;其中,預(yù)先建立的視頻基因詞庫包括樣本視頻、樣本視頻的特征數(shù)據(jù)和樣本視頻的基因詞;其中,樣本視頻的特征數(shù)據(jù)包括字幕文本的向量化詞語和音頻數(shù)據(jù)的特征數(shù)據(jù)。

結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,上述獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù),包括:從當(dāng)前視頻相關(guān)的網(wǎng)頁中,通過網(wǎng)頁數(shù)據(jù)采集器獲取與當(dāng)前視頻相關(guān)的網(wǎng)頁文本作為源數(shù)據(jù);當(dāng)前視頻相關(guān)的網(wǎng)頁是從預(yù)設(shè)的主流網(wǎng)站中獲取的當(dāng)前視頻的鏈接網(wǎng)頁;或;對當(dāng)前視頻進行分幀處理,獲取當(dāng)前視頻的視頻幀集合;從視頻幀集合中提取當(dāng)前視頻的關(guān)鍵幀,并通過字符識別技術(shù)提取關(guān)鍵幀的字幕文本作為源數(shù)據(jù)。

結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第二種可能的實施方式,其中,上述按照源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù),包括:當(dāng)源數(shù)據(jù)為網(wǎng)頁文本或字幕文本時,對源數(shù)據(jù)進行分詞處理,生成詞語的集合;并對詞語的集合進行詞語過濾操作和詞語頻率統(tǒng)計操作;將頻率大于預(yù)設(shè)閾值的詞語作為當(dāng)前視頻的特征數(shù)據(jù);當(dāng)源數(shù)據(jù)為音頻數(shù)據(jù)時,采用梅爾頻率倒譜系數(shù)MFCC算法計算音頻數(shù)據(jù)中單體數(shù)據(jù)的頻率特征,并將頻率特征作為當(dāng)前視頻的特征數(shù)據(jù)。

結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第三種可能的實施方式,其中,上述根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞,包括:當(dāng)源數(shù)據(jù)為字幕文本或音頻數(shù)據(jù)時,將特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫進行匹配操作,根據(jù)匹配成功的特征數(shù)據(jù)確定特征數(shù)據(jù)對應(yīng)的樣本視頻;將樣本視頻的基因詞確定為當(dāng)前視頻的候選基因詞;將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞。

結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第四種可能的實施方式,其中,上述根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞,還包括:當(dāng)源數(shù)據(jù)為網(wǎng)頁文本或字幕文本時,通過詞語生成工具獲取特征數(shù)據(jù)的同義詞或近義詞;將同義詞或近義詞逐一與預(yù)先建立的視頻基因詞庫進行匹配,并將匹配成功的同義詞或近義詞確定為當(dāng)前視頻的候選基因詞;將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞。

結(jié)合第一方面的第三種可能的實施方式或第一方面的第四種可能的實施方式,本發(fā)明實施例提供了第一方面的第五種可能的實施方式,其中,將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞的步驟之前,方法還包括:對當(dāng)前視頻的候選基因詞中相同的候選基因詞進行頻率統(tǒng)計,根據(jù)統(tǒng)計的結(jié)果對候選基因詞進行篩選,去除候選基因詞中頻率小于預(yù)設(shè)閾值的候選基因詞。

結(jié)合第一方面的第三種可能的實施方式或第一方面的第四種可能的實施方式,本發(fā)明實施例提供了第一方面的第六種可能的實施方式,其中,上述將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞,包括:將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)根據(jù)候選基因詞和視頻基因詞庫中的視頻樣本對應(yīng)的視頻基因確定與當(dāng)前視頻的關(guān)聯(lián)度最高的視頻樣本;根據(jù)關(guān)聯(lián)度最高的視頻樣本的視頻基因和候選基因詞確定當(dāng)前視頻的視頻基因。

第二方面,本發(fā)明實施例提供了一種視頻基因的生成裝置,包括:源數(shù)據(jù)獲取模塊,用于獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù);其中,源數(shù)據(jù)包括與當(dāng)前視頻相關(guān)的網(wǎng)頁文本、當(dāng)前視頻內(nèi)的字幕文本和當(dāng)前視頻對應(yīng)的音頻數(shù)據(jù)中的一種或多種;特征數(shù)據(jù)提取模塊,用于按照源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù);其中,對于網(wǎng)頁文本和字幕文本,單體數(shù)據(jù)為詞語,對于音頻數(shù)據(jù),單體數(shù)據(jù)為音頻單元;基因詞確定模塊,用于根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞;其中,預(yù)先建立的視頻基因詞庫包括樣本視頻、樣本視頻的特征數(shù)據(jù)和樣本視頻的基因詞;其中,樣本視頻的特征數(shù)據(jù)包括字幕文本的向量化詞語和音頻數(shù)據(jù)的特征數(shù)據(jù)。

結(jié)合第二方面,本發(fā)明實施例提供了第二方面的第一種可能的實施方式,其中,上述基因詞確定模塊包括:樣本視頻確定單元,用于當(dāng)源數(shù)據(jù)為字幕文本或音頻數(shù)據(jù)時,將特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫進行匹配操作,根據(jù)匹配成功的特征數(shù)據(jù)確定特征數(shù)據(jù)對應(yīng)的樣本視頻;候選基因詞確定單元,用于將樣本視頻的基因詞確定為當(dāng)前視頻的候選基因詞;第一基因詞生成單元,用于將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞。

結(jié)合第二方面,本發(fā)明實施例提供了第二方面的第二種可能的實施方式,其中,上述基因詞確定模塊還包括:同義詞或近義詞生成單元,用于當(dāng)源數(shù)據(jù)為網(wǎng)頁文本或字幕文本時,通過詞語生成工具獲取特征數(shù)據(jù)的同義詞或近義詞;匹配單元,用于將同義詞或近義詞逐一與預(yù)先建立的視頻基因詞庫進行匹配,并將匹配成功的同義詞或近義詞確定為當(dāng)前視頻的候選基因詞;第二基因詞生成單元,用于將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞。

本發(fā)明實施例提供的一種視頻基因的生成方法和裝置,通過獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù),并按照源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率可以從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù);根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫可以確定當(dāng)前視頻的基因詞;通過上述方式可以更加細化和精確地描述視頻特征,從而提高了視頻檢索和視頻推薦的準(zhǔn)確度。

為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。

附圖說明

為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。

圖1示出了本發(fā)明實施例所提供的一種視頻基因的生成方法的流程圖;

圖2示出了本發(fā)明實施例所提供的一種視頻基因的生成方法中,根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞具體方法的流程圖;

圖3示出了本發(fā)明實施例所提供的一種神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;

圖4示出了本發(fā)明實施例所提供的一種視頻基因的生成裝置的結(jié)構(gòu)示意圖;

圖5示出了本發(fā)明實施例所提供的一種視頻基因的生成裝置中,基因詞確定模塊的結(jié)構(gòu)示意圖。

具體實施方式

為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設(shè)計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例。基于本發(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

考慮到現(xiàn)有的視頻特征描述粗略且不準(zhǔn)確的問題,本發(fā)明實施例提供了一種視頻基因的生成方法和裝置;該技術(shù)可以應(yīng)用于視頻網(wǎng)站的視頻分類、檢索和推薦;該技術(shù)可以采用相關(guān)的軟件和硬件實現(xiàn),下面通過實施例進行描述。

實施例1

參見圖1所示的一種視頻基因的生成方法的流程圖;該方法包括如下步驟:

步驟S102,獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù);其中,該源數(shù)據(jù)包括與當(dāng)前視頻相關(guān)的網(wǎng)頁文本、當(dāng)前視頻內(nèi)的字幕文本和當(dāng)前視頻對應(yīng)的音頻數(shù)據(jù)中的一種或多種;其中,上述視頻基因可以是描述視頻內(nèi)容中包含的情感、情節(jié)、風(fēng)格、角色、發(fā)生時代、發(fā)生地點等因素的詞語,因此該視頻基因中包含了當(dāng)前視頻更為細化的特征;上述的網(wǎng)頁文本包括對當(dāng)前視頻的簡介文本和用戶評價文本等。

步驟S104,按照上述源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù);其中,對于網(wǎng)頁文本和字幕文本,該單體數(shù)據(jù)為詞語,對于音頻數(shù)據(jù),該單體數(shù)據(jù)為音頻單元;

步驟S106,根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞;其中,預(yù)先建立的視頻基因詞庫包括樣本視頻、樣本視頻的特征數(shù)據(jù)和樣本視頻的基因詞;其中,樣本視頻的特征數(shù)據(jù)包括字幕文本的向量化詞語和音頻數(shù)據(jù)的特征數(shù)據(jù)。

對于當(dāng)前視頻,當(dāng)通過網(wǎng)頁文本沒有獲取到符合預(yù)設(shè)標(biāo)準(zhǔn)的基因詞時,可以再通過當(dāng)前視頻內(nèi)的字幕文本獲取基因詞;當(dāng)當(dāng)前視頻沒有字幕或者通過字幕文本沒有獲取到符合預(yù)設(shè)標(biāo)準(zhǔn)的基因詞時,可以再通過當(dāng)前視頻內(nèi)的音頻數(shù)據(jù)獲取基因詞。

本發(fā)明實施例提供的一種視頻基因的生成方法,通過獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù),并按照源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率可以從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù);根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫可以確定當(dāng)前視頻的基因詞;通過上述方式可以更加細化和精確地描述視頻特征,從而提高了視頻檢索和視頻推薦的準(zhǔn)確度。

考慮到與當(dāng)前視頻相關(guān)的源數(shù)據(jù)具有多種形式,上述獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù),包括如下步驟:(1)從當(dāng)前視頻相關(guān)的網(wǎng)頁中,通過網(wǎng)頁數(shù)據(jù)采集器獲取與當(dāng)前視頻相關(guān)的網(wǎng)頁文本作為源數(shù)據(jù);該當(dāng)前視頻相關(guān)的網(wǎng)頁是從預(yù)設(shè)的主流網(wǎng)站中獲取的當(dāng)前視頻的鏈接網(wǎng)頁;或;(2)對當(dāng)前視頻進行分幀處理,獲取當(dāng)前視頻的視頻幀集合;從該視頻幀集合中提取當(dāng)前視頻的關(guān)鍵幀,并通過字符識別技術(shù)提取關(guān)鍵幀的字幕文本作為源數(shù)據(jù)。通過上述方式可以獲取當(dāng)前視頻相關(guān)的網(wǎng)頁文本形式的源數(shù)據(jù)和字幕文本形式的源數(shù)據(jù),提高了當(dāng)前視頻的源數(shù)據(jù)豐富性。

由于當(dāng)前視頻的源數(shù)據(jù)數(shù)據(jù)量較大,且冗余較多,上述按照源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù),包括如下步驟:(1)當(dāng)源數(shù)據(jù)為網(wǎng)頁文本或字幕文本時,對源數(shù)據(jù)進行分詞處理,生成詞語的集合;并對詞語的集合進行詞語過濾操作和詞語頻率統(tǒng)計操作;將頻率大于預(yù)設(shè)閾值的詞語作為當(dāng)前視頻的特征數(shù)據(jù);(2)當(dāng)源數(shù)據(jù)為音頻數(shù)據(jù)時,采用梅爾頻率倒譜系數(shù)MFCC算法計算音頻數(shù)據(jù)中單體數(shù)據(jù)的頻率特征,并將頻率特征作為當(dāng)前視頻的特征數(shù)據(jù)。通過上述方式可以從大量的源數(shù)據(jù)中提取較為關(guān)鍵的特征數(shù)據(jù),降低了后續(xù)處理的計算量。

考慮到上述特征數(shù)據(jù)較為零散,本發(fā)明實施例在實際實現(xiàn)時,上述根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞,如圖2所示,包括如下步驟:

步驟S202,當(dāng)源數(shù)據(jù)為字幕文本或音頻數(shù)據(jù)時,將特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫進行匹配操作,根據(jù)匹配成功的特征數(shù)據(jù)確定特征數(shù)據(jù)對應(yīng)的樣本視頻;

步驟S204,將上述樣本視頻的基因詞確定為當(dāng)前視頻的候選基因詞;

步驟S206,將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞。

通過上述方式可以獲得當(dāng)前視頻的基因詞,該基因詞可以細化和精確地描述視頻特征。

考慮到通過當(dāng)前視頻的特征數(shù)據(jù)可能獲取不到符合預(yù)設(shè)標(biāo)準(zhǔn)的基因詞,上述根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞,還包括如下步驟:(1)當(dāng)源數(shù)據(jù)為網(wǎng)頁文本或字幕文本時,通過詞語生成工具獲取特征數(shù)據(jù)的同義詞或近義詞;(2)將同義詞或近義詞逐一與預(yù)先建立的視頻基因詞庫進行匹配,并將匹配成功的同義詞或近義詞確定為當(dāng)前視頻的候選基因詞;(3)將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞。通過上述方式可以多途徑地獲取當(dāng)前視頻的基因詞。

由于上述候選基因詞的數(shù)據(jù)量可能較大,上述將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞的步驟之前,上述視頻基因的生成方法還包括如下步驟:對當(dāng)前視頻的候選基因詞中相同的候選基因詞進行頻率統(tǒng)計,根據(jù)統(tǒng)計的結(jié)果對候選基因詞進行篩選,去除候選基因詞中頻率小于預(yù)設(shè)閾值的候選基因詞。通過上述方式可以篩選出更為精確的候選基因詞,用于生成最終的基因詞。

考慮到上述候選基因詞精確度較低,上述將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞,包括如下步驟:(1)將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)根據(jù)候選基因詞和視頻基因詞庫中的視頻樣本對應(yīng)的視頻基因確定與當(dāng)前視頻的關(guān)聯(lián)度最高的視頻樣本;(2)根據(jù)關(guān)聯(lián)度最高的視頻樣本的視頻基因和候選基因詞確定當(dāng)前視頻的視頻基因。通過上述方式可以生成對當(dāng)前視頻描述的更加細化和精確的基因詞。

實施例2

對應(yīng)于上述方法實施例,本發(fā)明實施例提供了一種具體的視頻基因生成方法。其中,該視頻基因是對該視頻語義的高度抽象,用若干個詞來反映該視頻的特征,為視頻檢索和推薦提供了新的途徑。

現(xiàn)有的視頻檢索或推薦方法沒有考慮到視頻的細化特征,例如,一句臺詞,某一演員的一個肢體動作,劇情的一種風(fēng)格,用戶喜愛的背景音樂等等。這些都屬于該視頻非常細粒度的特征,這些特征也許不是官方的,但在受眾中廣為流傳,形成口碑關(guān)鍵詞。因此,如何獲得這些真實反映受眾喜好的視頻基因詞,是本發(fā)明實施例需要解決的問題。為了解決該問題,本發(fā)明實施例提供了一種視頻基因提取算法,為每個網(wǎng)絡(luò)視頻計算生成一組基因關(guān)鍵詞。采用這組詞作為標(biāo)簽進行檢索和推薦,最大程度上反映了用戶的喜好,為互聯(lián)網(wǎng)朝著智能化、個性化的方向進一步發(fā)展,奠定基礎(chǔ)。

為了快捷準(zhǔn)確地抽取某網(wǎng)絡(luò)視頻的基因,本發(fā)明實施例采集了互聯(lián)網(wǎng)上已經(jīng)生成視頻基因的視頻的基因詞,與該視頻的基本信息,例如名稱、導(dǎo)演、主演、類型/地區(qū)、上映日期等等,一并進行存儲,生成網(wǎng)絡(luò)視頻基因詞庫。

然后對視頻網(wǎng)站網(wǎng)頁上與該視頻相關(guān)的數(shù)據(jù)進行爬取,再對爬取的文本內(nèi)容進行分析,通常是對影片簡介和用戶評價文本進行分詞;設(shè)置特殊詞庫和常用詞庫,對特殊詞和常用詞進行過濾,判斷過濾后得到的關(guān)鍵詞是否屬于視頻基因詞庫。

如果通過上述步驟沒有獲得基因詞,需要對視頻本身進行分析。首先收集各種已有視頻基因詞對應(yīng)的視頻樣本,把視頻樣本切分為關(guān)鍵幀,可以細分到每一幀,采用光字符識別(OCR)技術(shù)提取視頻關(guān)鍵幀的字幕文本,對該文本進行分詞,并進行向量化,生成樣本庫。采用下述兩種方法來獲得候選視頻基因詞。第一種,對上述分詞集合,過濾特殊詞與常用詞,判斷過濾得到的關(guān)鍵詞是否屬于視頻基因詞庫;第二種,對于檢測視頻,則逐幀分析字幕,并采用和樣本同樣的方法進行向量化,并與樣本庫的向量進行比對,如果匹配,設(shè)定樣本視頻的基因詞為當(dāng)前視頻的候選基因詞。對于上述分詞經(jīng)過濾后沒有精確匹配視頻基因詞庫中基因詞的情況,找出其對應(yīng)的近義詞或同義詞,在基因詞庫中進行二次檢索。

對于沒有字幕的視頻,或上述兩種方法效果不佳的情況,進一步對音頻進行分析。為了提取視頻基因詞,收集視頻基因詞對應(yīng)視頻片段的音頻樣本,對樣本進行預(yù)處理分幀后,采用梅爾頻率倒譜系數(shù)(MFCC)離線提取音頻特征,并保存。對于檢測視頻同樣用MFCC提取特征,把上述特征數(shù)據(jù)與樣本的進行對比,采用最鄰近規(guī)則(KNN)算法進行分類,匹配出當(dāng)前視頻片段的候選視頻基因詞。

對匹配的同一候選視頻基因詞進行計數(shù),按照從多到少排序,把數(shù)目大于門限閾值的關(guān)鍵詞保留下來。最后,通過視頻關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)算法分析上述生成的候選基因詞,生成最終的視頻關(guān)鍵詞。

具體地,本發(fā)明實施例提出的視頻基因生成方法的思路如下:

抓取視頻網(wǎng)站網(wǎng)頁中與視頻相關(guān)的文本,對上述文本進行分詞并過濾得到關(guān)鍵詞,基于關(guān)鍵詞及其近義詞對視頻基因詞庫進行檢索,如果匹配則設(shè)定為該視頻的候選基因詞。

對于網(wǎng)頁中沒有相關(guān)文本內(nèi)容的網(wǎng)絡(luò)視頻,對該視頻進行分幀,采用OCR算法檢測關(guān)鍵幀字幕中的文字,對該文字進行分詞、矢量化并過濾,基于關(guān)鍵詞及其近義詞對視頻基因詞庫進行檢索,如果匹配則設(shè)定為該視頻的候選基因詞。把視頻基因詞對應(yīng)的樣本視頻幀的字幕矢量與檢測視頻幀的字幕矢量進行比對,匹配則把該視頻基因詞設(shè)置為候選基因詞。

對于沒有字幕的視頻,采用MFCC提取音頻特征,然后基于KNN算法進行特征比對分類,獲得所屬類正樣本音頻對應(yīng)的基因詞。

根據(jù)上述思路,首先建立視頻基因詞庫。在設(shè)置了視頻基因的網(wǎng)站,爬取視頻的基因詞,并保存在數(shù)據(jù)庫中。視頻基因詞庫包括視頻的名稱、導(dǎo)演、主演、類型、地區(qū)、上映日期和電影基因等字段。

進一步地,抓取分析全網(wǎng)視頻網(wǎng)站中與某視頻相關(guān)的網(wǎng)頁,一般抓取網(wǎng)絡(luò)視頻網(wǎng)頁的簡介和評論內(nèi)容等等與視頻相關(guān)的文本。然后,采用中文分詞工具對抓取的文本進行分詞。在分詞的集合中過濾掉副詞、助詞、介詞、量詞、代詞、連詞、感嘆詞和擬聲詞等特殊詞;針對常用詞過濾,采用逆文本頻率指數(shù)(TF-IDF)算法建立常用詞的集合。分析全網(wǎng)視頻網(wǎng)站中,IDF大于設(shè)定閾值的詞,則認為是常用詞。經(jīng)過上述兩層過濾后,在剩余分詞的集合中,如果存在爬取的視頻基因詞庫中的基因詞,則設(shè)定該分詞為該視頻的候選基因詞。

對于沒有精確匹配到視頻基因庫中基因詞的分詞,獲取其近義詞或同義詞,再次查找是否與視頻基因詞庫中的正樣本匹配。如果匹配,則設(shè)定為該視頻的候選基因詞。

進一步地,采用OCR提取關(guān)鍵幀字幕中的文本并進行分詞,將過濾后的各個分詞及其近義詞與視頻基因詞庫進行比對,獲得候選基因詞。另外,對分詞進行向量化,設(shè)向量的維度為d,該d為經(jīng)驗值,根據(jù)各個影視字幕的長短做自適應(yīng)的調(diào)整。每一幀的字幕文本向量設(shè)為:

這樣就形成了一個樣本字幕文本向量庫。對于檢測視頻,則逐幀分析字幕,并采用和樣本同樣的方法進行向量化,設(shè)每幀的字幕文本向量為:

上述與樣本庫的向量進行比對,如果向量內(nèi)積大于設(shè)定閾值,則認為兩個向量對應(yīng)元素相同的較多,文本大致匹配,設(shè)定樣本視頻的基因詞為當(dāng)前視頻的候選基因詞。

進一步地,對于沒有網(wǎng)頁文本也沒有字幕的視頻,需要提取視頻片段中的音頻特征。這里非常多的基因詞在簡介和評論里都未出現(xiàn),需要線下學(xué)習(xí)。例如針對“火爆動作”這一基因詞,需要剪切非常多的正樣本視頻,提取音頻,進行預(yù)處理,采用MFCC進行音頻特征提取,保存特征文件。對于檢測視頻,基于KNN進行MFCC特征分類,根據(jù)分類結(jié)果,設(shè)置對應(yīng)樣本的基因詞為候選基因詞。

對某一影視內(nèi)容的候選基因詞進行計數(shù),按照從多到少進行排序,把數(shù)目大于門限閾值θ(一般θ>3)的基因詞作為關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)的輸入進行后處理?;蛟~關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)根據(jù)檢測視頻的屬性,從視頻基因詞庫中檢索出同類的視頻,分析上述同類視頻的基因詞與候選基因詞,提取高相關(guān)的基因詞作為最終的結(jié)果。

參見圖3所示的一種神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;該圖中,a1~an為輸入向量的各個分量;w1~wn為神經(jīng)元各個突觸的權(quán)值;b為偏置系數(shù);f為傳遞函數(shù)。t為神經(jīng)元輸出。該神經(jīng)網(wǎng)絡(luò)可以表述為:

t=f(WA'+b) (公式-3)

其中,W={w1,w2,……wn}為權(quán)向量;A={a1,a2,……an}為輸入向量,A'為A向量的轉(zhuǎn)置;b為偏置系數(shù);f為傳遞函數(shù)??梢?,一個神經(jīng)元的功能是求得輸入向量與權(quán)向量的內(nèi)積后,經(jīng)一個非線性傳遞函數(shù)得到一個標(biāo)量結(jié)果。

設(shè)視頻的屬性元素包括:名稱、導(dǎo)演、主演、類型、地區(qū)、上映日期(精確到年)、長度(分為長視頻和短視頻兩種值)等,對應(yīng)神經(jīng)網(wǎng)絡(luò)的輸入。一般認為名稱存在雷同的視頻的基因應(yīng)該相似,另外,導(dǎo)演和主演相同的內(nèi)容,基因也應(yīng)該大致有所相似?;谏鲜鲞壿嬐评恚O(shè)檢測視頻Vc的屬性為:

AVc={nVc,dVc,sVc,tVc,aVc,tVc,lVc} (公式-4)

對視頻基因詞庫進行二次檢索,第一次按照上式中的名稱nc進行相似(like)檢索,獲得檢索集合:

第二次按照公式-4中的導(dǎo)演和主演進行精確匹配檢索,獲得檢索集合:

集合Sn與Sp中元素的屬性結(jié)構(gòu)與Vc是一致的,這兩個集合的所有元素的屬性分別與AVc進行比較,一致的設(shè)為1,不同的設(shè)為0。這樣就形成了神經(jīng)網(wǎng)絡(luò)的輸入向量A。

而權(quán)值向量wi總和為1,且數(shù)值依次遞減(w1>w2……>w7),wi的一種取值樣例為{0.3,0.25,0.2,0.1,0.05,0.05,0.05}。偏置系數(shù)b的取值范圍為[-0.9,-0.6],根據(jù)實際情況自適應(yīng)。f選取閾值函數(shù),表達式如下:

對于關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)輸出f(x)為1的Sn與Sp中的元素,獲得其視頻基因詞,與Vc的候選基因詞取并集,得到Vc最終的視頻基因詞。

綜上所述,本發(fā)明實施例提供了三種方法提取網(wǎng)絡(luò)視頻的基因詞,包括:

(1)爬取視頻網(wǎng)站網(wǎng)頁相關(guān)文本并分詞過濾,分詞結(jié)果集匹配基因詞庫;

(2)OCR提取關(guān)鍵幀中字幕文本并分詞、矢量化與過濾,首先分詞結(jié)果集匹配基因詞庫;進一步,字幕文本分詞矢量與基因詞樣本視頻的字幕文本分詞矢量進行比對,若匹配則提取樣本視頻基因詞;

(3)MFCC音頻特征比對,獲取樣本視頻的基因詞。

針對上述三種方法獲得的候選基因詞,采用神經(jīng)網(wǎng)絡(luò)進行后處理,基于視頻間的相關(guān)性,進行過濾和補充。獲得了全網(wǎng)視頻基因詞后,就可以采用基因詞做標(biāo)簽,進行細粒度、個性化地視頻檢索和推薦,為網(wǎng)絡(luò)視頻產(chǎn)業(yè)的跨越式發(fā)展奠定技術(shù)基礎(chǔ)。

實施例3

對應(yīng)于上述方法實施例,本發(fā)明實施例提供了一種視頻基因的生成裝置,參見圖4所示的一種視頻基因的生成裝置的結(jié)構(gòu)示意圖;該裝置包括如下部分:

源數(shù)據(jù)獲取模塊400,用于獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù);其中,該源數(shù)據(jù)包括與當(dāng)前視頻相關(guān)的網(wǎng)頁文本、當(dāng)前視頻內(nèi)的字幕文本和當(dāng)前視頻對應(yīng)的音頻數(shù)據(jù)中的一種或多種;

特征數(shù)據(jù)提取模塊402,與上述源數(shù)據(jù)獲取模塊400連接,用于按照源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù);其中,對于網(wǎng)頁文本和字幕文本,該單體數(shù)據(jù)為詞語,對于音頻數(shù)據(jù),該單體數(shù)據(jù)為音頻單元;

基因詞確定模塊404,與上述特征數(shù)據(jù)提取模塊402連接,用于根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫確定當(dāng)前視頻的基因詞;其中,該預(yù)先建立的視頻基因詞庫包括樣本視頻、樣本視頻的特征數(shù)據(jù)和樣本視頻的基因詞;其中,該樣本視頻的特征數(shù)據(jù)包括字幕文本的向量化詞語和音頻數(shù)據(jù)的特征數(shù)據(jù)。

本發(fā)明實施例提供的一種視頻基因的生成裝置,通過獲取與當(dāng)前視頻相關(guān)的源數(shù)據(jù),并按照源數(shù)據(jù)中單體數(shù)據(jù)出現(xiàn)的頻率可以從源數(shù)據(jù)中提取當(dāng)前視頻的特征數(shù)據(jù);根據(jù)提取到的特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫可以確定當(dāng)前視頻的基因詞;通過上述方式可以更加細化和精確地描述視頻特征,從而提高了視頻檢索和視頻推薦的準(zhǔn)確度。

考慮到上述特征數(shù)據(jù)較為零散,本發(fā)明實施例在實際實現(xiàn)時,參見圖5所示的一種視頻基因的生成裝置中,基因詞確定模塊的結(jié)構(gòu)示意圖,該基因詞確定模塊包括如下部分:

樣本視頻確定單元500,用于當(dāng)源數(shù)據(jù)為字幕文本或音頻數(shù)據(jù)時,將特征數(shù)據(jù)和預(yù)先建立的視頻基因詞庫進行匹配操作,根據(jù)匹配成功的特征數(shù)據(jù)確定特征數(shù)據(jù)對應(yīng)的樣本視頻;

候選基因詞確定單元502,與上述樣本視頻確定單元500連接,用于將樣本視頻的基因詞確定為當(dāng)前視頻的候選基因詞;

第一基因詞生成單元504,與上述候選基因詞確定單元502連接,用于將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞。

通過上述方式可以獲得當(dāng)前視頻的基因詞,該基因詞可以細化和精確地描述視頻特征。

考慮到通過當(dāng)前視頻的特征數(shù)據(jù)可能獲取不到符合預(yù)設(shè)標(biāo)準(zhǔn)的基因詞,上述基因詞確定模塊還包括如下部分:(1)同義詞或近義詞生成單元,用于當(dāng)源數(shù)據(jù)為網(wǎng)頁文本或字幕文本時,通過詞語生成工具獲取特征數(shù)據(jù)的同義詞或近義詞;(2)匹配單元,用于將同義詞或近義詞逐一與預(yù)先建立的視頻基因詞庫進行匹配,并將匹配成功的同義詞或近義詞確定為當(dāng)前視頻的候選基因詞;(3)第二基因詞生成單元,用于將候選基因詞輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò),生成當(dāng)前視頻的基因詞。通過上述方式可以多途徑地獲取當(dāng)前視頻的基因詞。

以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準(zhǔn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1