本申請(qǐng)涉及多媒體視頻信息處理技術(shù)領(lǐng)域,尤其涉及一種視頻數(shù)據(jù)的處理方法和裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)通訊技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,越來(lái)越多的多媒體視頻數(shù)據(jù)應(yīng)運(yùn)而生,這些海量的視頻數(shù)據(jù)以豐富的內(nèi)容給人們的生活帶來(lái)了巨大的便利。其中有較大部分的視頻數(shù)據(jù)用于在線教育和在線培訓(xùn),這部分視頻數(shù)據(jù)本身就包含非常豐富的信息量,如視頻中存在培訓(xùn)教師演講的PPT投影內(nèi)容、用于演示的實(shí)驗(yàn)器材、培訓(xùn)教師演講的語(yǔ)音描述等,這些內(nèi)容的信息量包含用戶(hù)所關(guān)心的焦點(diǎn),但是卻以復(fù)雜編碼的方式存在于視頻站點(diǎn)之中,目前并沒(méi)有很精確有效的方法和應(yīng)用,能讓用戶(hù)快速觸達(dá)到其所關(guān)心的視頻內(nèi)容焦點(diǎn)上。
目前而言,對(duì)于多媒體視頻的描述信息,主要還是由人工定義的標(biāo)題、標(biāo)簽、以及視頻文件格式、播放時(shí)長(zhǎng)、分辨率、音頻視頻碼率等視頻元數(shù)據(jù)組成,擁有語(yǔ)義的部分僅限于人工定義的標(biāo)題、標(biāo)簽、內(nèi)容簡(jiǎn)介等。這些描述信息是無(wú)法滿(mǎn)足用戶(hù)更精準(zhǔn)觸達(dá)內(nèi)容的需求。而且,當(dāng)面對(duì)海量視頻文件時(shí),人工定義標(biāo)題、標(biāo)簽等會(huì)有標(biāo)準(zhǔn)較為主觀和處理效率低下的缺點(diǎn)。
因此,目前急需一種視頻數(shù)據(jù)的處理方法,能夠快速和精準(zhǔn)地提取海量視頻數(shù)據(jù),并能夠?qū)A康囊曨l數(shù)據(jù)進(jìn)行場(chǎng)景切分和語(yǔ)義化定義,從而提高在各種視頻應(yīng)用場(chǎng)景中用戶(hù)觸達(dá)的精準(zhǔn)度和效率。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本申請(qǐng)?zhí)峁┮环N視頻數(shù)據(jù)的處理方法和裝置,能夠快速和精準(zhǔn)地提取海量視頻數(shù)據(jù),并能夠?qū)A康囊曨l數(shù)據(jù)進(jìn)行場(chǎng)景切分和語(yǔ)義化定義,從而提高在各種視頻應(yīng)用場(chǎng)景中用戶(hù)觸達(dá)的精準(zhǔn)度和效率。技術(shù)方案如下:
基于本申請(qǐng)的一方面,本申請(qǐng)?zhí)峁┮环N視頻數(shù)據(jù)的處理方法,包括:
獲取待處理的視頻元數(shù)據(jù);
根據(jù)預(yù)設(shè)的視頻轉(zhuǎn)碼規(guī)則和視頻轉(zhuǎn)碼參數(shù),對(duì)所述視頻元數(shù)據(jù)進(jìn)行轉(zhuǎn)碼處理,獲得視頻轉(zhuǎn)換信息;所述視頻轉(zhuǎn)換信息包括轉(zhuǎn)碼后的目標(biāo)視頻文件;
根據(jù)預(yù)設(shè)的提取參數(shù),對(duì)所述目標(biāo)視頻文件進(jìn)行圖像采樣獲得采樣圖像集合信息,對(duì)所述目標(biāo)視頻文件進(jìn)行音頻數(shù)據(jù)提取、切分,獲得音頻片段集合信息;
對(duì)所述采樣圖像集合信息進(jìn)行處理,獲得圖像文本信息和物品信息;
對(duì)所述音頻片段集合信息進(jìn)行處理,獲得語(yǔ)音文本信息;
依據(jù)所述采樣圖像集合信息和所述圖像文本信息,按照?qǐng)D像相似度計(jì)算方法,對(duì)所述采樣圖像集合信息進(jìn)行聚類(lèi)分組,獲得多個(gè)視頻場(chǎng)景;
根據(jù)所述多個(gè)視頻場(chǎng)景、物品信息和語(yǔ)音文本信息,生成語(yǔ)義標(biāo)簽和上下文特征信息。
優(yōu)選地,所述視頻元數(shù)據(jù)包括:視頻名稱(chēng)、用戶(hù)標(biāo)簽和源文件。
優(yōu)選地,預(yù)設(shè)的視頻轉(zhuǎn)碼參數(shù)包括:視頻解碼和編碼參數(shù)、音頻解碼和編碼參數(shù)、轉(zhuǎn)碼分辨率參數(shù)、存儲(chǔ)路徑以及文件系統(tǒng)相關(guān)參數(shù)。
優(yōu)選地,預(yù)設(shè)的提取參數(shù)包括:圖像采樣率參數(shù)、圖像采樣分辨率參數(shù)、音頻提取參數(shù)、音頻切分率參數(shù)、存儲(chǔ)路徑以及文件系統(tǒng)相關(guān)參數(shù)。
優(yōu)選地,所述采樣圖像集合信息包括:采樣圖片文件、采樣圖片對(duì)應(yīng)的視頻幀目、采樣圖片對(duì)應(yīng)的視頻播放時(shí)間;
所述音頻片段集合信息包括:切分音頻文件、切分音頻對(duì)應(yīng)的視頻起始幀目、切分音頻對(duì)應(yīng)的視頻播放起始時(shí)間。
優(yōu)選地,所述對(duì)所述采樣圖像集合信息進(jìn)行處理,獲得圖像文本信息和物品信息包括:
使用光學(xué)識(shí)別技術(shù)逐一對(duì)所述采樣圖像集合信息中,圖像所包含的文本信息進(jìn)行識(shí)別、提取,獲得圖像文本信息;
使用深度學(xué)習(xí)圖像識(shí)別技術(shù)逐一對(duì)所述采樣圖像集合信息中,圖像所包含的特型物品進(jìn)行識(shí)別、提取,獲得物品信息。
優(yōu)選地,所述對(duì)所述音頻片段集合信息進(jìn)行處理,獲得語(yǔ)音文本信息包括:
使用語(yǔ)音識(shí)別技術(shù)逐一對(duì)所述音頻片段集合信息中的人類(lèi)語(yǔ)音信息進(jìn)行識(shí)別、提取,獲得語(yǔ)音文本信息。
優(yōu)選地,所述依據(jù)所述采樣圖像集合信息和所述圖像文本信息,按照?qǐng)D像相似度計(jì)算方法,對(duì)所述采樣圖像集合信息進(jìn)行聚類(lèi)分組,獲得多個(gè)視頻場(chǎng)景包括:
對(duì)所述采樣圖像集合信息中的圖像按固定比率進(jìn)行縮放,并計(jì)算相鄰兩張圖片的漢明距離,獲得所述采樣圖像集合信息進(jìn)行聚類(lèi)分組的第一信息參數(shù);
對(duì)所述圖像文本信息統(tǒng)一編碼,并計(jì)算相鄰圖像文本信息的編輯距離,獲得所述采樣圖像集合信息進(jìn)行聚類(lèi)分組的第二信息參數(shù);
對(duì)所述第一信息參數(shù)、所述第二信息參數(shù)進(jìn)行加權(quán)合并,并采用線性函數(shù)進(jìn)行擬合,按照斜率的變化規(guī)律進(jìn)行分段,獲得多個(gè)視頻場(chǎng)景。
優(yōu)選地,所述物品信息包括:特型物品名稱(chēng)、特型物品標(biāo)簽。
優(yōu)選地,所述根據(jù)所述多個(gè)視頻場(chǎng)景、物品信息和語(yǔ)音文本信息,生成語(yǔ)義標(biāo)簽和上下文特征信息包括:
將特型物品名稱(chēng)和特型物品標(biāo)簽依次進(jìn)行過(guò)濾、聚類(lèi)和編碼,獲得包含所述特型物品的圖像所在幀目的第一語(yǔ)義標(biāo)簽信息和第一上下文特征信息;
根據(jù)所述多個(gè)視頻場(chǎng)景,逐一合并所述視頻場(chǎng)景下所有圖像所在幀目的第一語(yǔ)義標(biāo)簽信息和第一上下文特征信息,獲得所述視頻場(chǎng)景的第一語(yǔ)義信息參數(shù);
對(duì)所述語(yǔ)音文本信息進(jìn)行分詞處理,獲得多個(gè)詞組;
依據(jù)棄用詞庫(kù)和/或停用詞庫(kù),對(duì)所述詞組進(jìn)行過(guò)濾,獲得多個(gè)擁有語(yǔ)義的詞組;
對(duì)所述多個(gè)擁有語(yǔ)義的詞組進(jìn)行聚類(lèi)和編碼,并從中提取第二語(yǔ)義標(biāo)簽信息和第二上下文特征信息,獲得所述視頻場(chǎng)景的第二語(yǔ)義信息參數(shù);
逐一融合所述視頻場(chǎng)景的第一語(yǔ)義信息參數(shù)、第二語(yǔ)義信息參數(shù),獲得所述視頻場(chǎng)景的語(yǔ)義標(biāo)簽信息和上下文特征信息。
基于本申請(qǐng)的另一方面,本申請(qǐng)?zhí)峁┮环N視頻數(shù)據(jù)的處理裝置,包括:
視頻元數(shù)據(jù)獲取單元,用于獲取待處理的視頻元數(shù)據(jù);
轉(zhuǎn)碼處理單元,用于根據(jù)預(yù)設(shè)的視頻轉(zhuǎn)碼規(guī)則和視頻轉(zhuǎn)碼參數(shù),對(duì)所述視頻元數(shù)據(jù)進(jìn)行轉(zhuǎn)碼處理,獲得視頻轉(zhuǎn)換信息;所述視頻轉(zhuǎn)換信息包括轉(zhuǎn)碼后的目標(biāo)視頻文件;
圖像采樣單元,用于根據(jù)預(yù)設(shè)的提取參數(shù),對(duì)所述目標(biāo)視頻文件進(jìn)行圖像采樣獲得采樣圖像集合信息;
音頻數(shù)據(jù)處理單元,用于根據(jù)預(yù)設(shè)的提取參數(shù),對(duì)所述目標(biāo)視頻文件進(jìn)行音頻數(shù)據(jù)提取、切分,獲得音頻片段集合信息;
第一信息處理單元,用于對(duì)所述采樣圖像集合信息進(jìn)行處理,獲得圖像文本信息和物品信息;
第二信息處理單元,用于對(duì)所述音頻片段集合信息進(jìn)行處理,獲得語(yǔ)音文本信息;
視頻場(chǎng)景確定單元,用于依據(jù)所述采樣圖像集合信息和所述圖像文本信息,按照?qǐng)D像相似度計(jì)算方法,對(duì)所述采樣圖像集合信息進(jìn)行聚類(lèi)分組,獲得多個(gè)視頻場(chǎng)景;
關(guān)聯(lián)單元,用于根據(jù)所述多個(gè)視頻場(chǎng)景、物品信息和語(yǔ)音文本信息,生成語(yǔ)義標(biāo)簽和上下文特征信息。
優(yōu)選地,所述視頻元數(shù)據(jù)包括:視頻名稱(chēng)、用戶(hù)標(biāo)簽和源文件。
優(yōu)選地,預(yù)設(shè)的視頻轉(zhuǎn)碼參數(shù)包括:視頻解碼和編碼參數(shù)、音頻解碼和編碼參數(shù)、轉(zhuǎn)碼分辨率參數(shù)、存儲(chǔ)路徑以及文件系統(tǒng)相關(guān)參數(shù)。
優(yōu)選地,預(yù)設(shè)的提取參數(shù)包括:圖像采樣率參數(shù)、圖像采樣分辨率參數(shù)、音頻提取參數(shù)、音頻切分率參數(shù)、存儲(chǔ)路徑以及文件系統(tǒng)相關(guān)參數(shù)。
優(yōu)選地,所述采樣圖像集合信息包括:采樣圖片文件、采樣圖片對(duì)應(yīng)的視頻幀目、采樣圖片對(duì)應(yīng)的視頻播放時(shí)間;
所述音頻片段集合信息包括:切分音頻文件、切分音頻對(duì)應(yīng)的視頻起始幀目、切分音頻對(duì)應(yīng)的視頻播放起始時(shí)間。
優(yōu)選地,所述第一信息處理單元包括:
光學(xué)識(shí)別處理子單元,用于使用光學(xué)識(shí)別技術(shù)逐一對(duì)所述采樣圖像集合信息中,圖像所包含的文本信息進(jìn)行識(shí)別、提取,獲得圖像文本信息;
深度學(xué)習(xí)處理子單元,用于使用深度學(xué)習(xí)圖像識(shí)別技術(shù)逐一對(duì)所述采樣圖像集合信息中,圖像所包含的特型物品進(jìn)行識(shí)別、提取,獲得物品信息。
優(yōu)選地,所述第二信息處理單元包括:
語(yǔ)音識(shí)別處理子單元,用于使用語(yǔ)音識(shí)別技術(shù)逐一對(duì)所述音頻片段集合信息中的人類(lèi)語(yǔ)音信息進(jìn)行識(shí)別、提取,獲得語(yǔ)音文本信息。
優(yōu)選地,所述視頻場(chǎng)景確定單元包括:
第一信息參數(shù)確定單元,用于對(duì)所述采樣圖像集合信息中的圖像按固定比率進(jìn)行縮放,并計(jì)算相鄰兩張圖片的漢明距離,獲得所述采樣圖像集合信息進(jìn)行聚類(lèi)分組的第一信息參數(shù);
第二信息參數(shù)確定單元,用于對(duì)所述圖像文本信息統(tǒng)一編碼,并計(jì)算相鄰圖像文本信息的編輯距離,獲得所述采樣圖像集合信息進(jìn)行聚類(lèi)分組的第二信息參數(shù);
視頻場(chǎng)景確定單元,用于對(duì)所述第一信息參數(shù)、所述第二信息參數(shù)進(jìn)行加權(quán)合并,并采用線性函數(shù)進(jìn)行擬合,按照斜率的變化規(guī)律進(jìn)行分段,獲得多個(gè)視頻場(chǎng)景。
優(yōu)選地,所述物品信息包括:特型物品名稱(chēng)、特型物品標(biāo)簽。
優(yōu)選地,所述關(guān)聯(lián)單元包括:
第一處理子單元,用于將特型物品名稱(chēng)和特型物品標(biāo)簽依次進(jìn)行過(guò)濾、聚類(lèi)和編碼,獲得包含所述特型物品的圖像所在幀目的第一語(yǔ)義標(biāo)簽信息和第一上下文特征信息;
第二處理子單元,用于根據(jù)所述多個(gè)視頻場(chǎng)景,逐一合并所述視頻場(chǎng)景下所有圖像所在幀目的第一語(yǔ)義標(biāo)簽信息和第一上下文特征信息,獲得所述視頻場(chǎng)景的第一語(yǔ)義信息參數(shù);
分詞處理子單元,用于對(duì)所述語(yǔ)音文本信息進(jìn)行分詞處理,獲得多個(gè)詞組;
過(guò)濾子單元,用于依據(jù)棄用詞庫(kù)和/或停用詞庫(kù),對(duì)所述詞組進(jìn)行過(guò)濾,獲得多個(gè)擁有語(yǔ)義的詞組;
第三處理子單元,用于對(duì)所述多個(gè)擁有語(yǔ)義的詞組進(jìn)行聚類(lèi)和編碼,并從中提取第二語(yǔ)義標(biāo)簽信息和第二上下文特征信息,獲得所述視頻場(chǎng)景的第二語(yǔ)義信息參數(shù);
第四處理子單元,用于逐一融合所述視頻場(chǎng)景的第一語(yǔ)義信息參數(shù)、第二語(yǔ)義信息參數(shù),獲得所述視頻場(chǎng)景的語(yǔ)義標(biāo)簽信息和上下文特征信息。
本申請(qǐng)?zhí)峁┑囊曨l數(shù)據(jù)的處理方法,獲取待處理的視頻元數(shù)據(jù)后,根據(jù)預(yù)設(shè)的視頻轉(zhuǎn)碼規(guī)則和視頻轉(zhuǎn)碼參數(shù),對(duì)所述視頻元數(shù)據(jù)進(jìn)行轉(zhuǎn)碼處理,獲得視頻轉(zhuǎn)換信息;所述視頻轉(zhuǎn)換信息包括轉(zhuǎn)碼后的目標(biāo)視頻文件;并根據(jù)預(yù)設(shè)的提取參數(shù),對(duì)所述目標(biāo)視頻文件進(jìn)行圖像采樣獲得采樣圖像集合信息,對(duì)所述目標(biāo)視頻文件進(jìn)行音頻數(shù)據(jù)提取、切分,獲得音頻片段集合信息;對(duì)所述采樣圖像集合信息進(jìn)行處理,獲得圖像文本信息和物品信息;對(duì)所述音頻片段集合信息進(jìn)行處理,獲得語(yǔ)音文本信息;依據(jù)所述采樣圖像集合信息和所述圖像文本信息,按照?qǐng)D像相似度計(jì)算方法,對(duì)所述采樣圖像集合信息進(jìn)行聚類(lèi)分組,獲得多個(gè)視頻場(chǎng)景;最后根據(jù)所述多個(gè)視頻場(chǎng)景、物品信息和語(yǔ)音文本信息,生成語(yǔ)義標(biāo)簽和上下文特征信息。本申請(qǐng)可以自動(dòng)有效地實(shí)現(xiàn)對(duì)海量視頻數(shù)據(jù)的場(chǎng)景切分,并對(duì)視頻數(shù)據(jù)場(chǎng)景關(guān)聯(lián)上語(yǔ)義的功能,彌補(bǔ)了現(xiàn)有技術(shù)中需要對(duì)視頻數(shù)據(jù)采用人工標(biāo)注的方式或只適用于單一場(chǎng)景等模式識(shí)別方式的處理過(guò)程主觀、處理效率低下、無(wú)法涵蓋整個(gè)視頻過(guò)程等眾多缺陷。采用本申請(qǐng)?zhí)峁┑募夹g(shù)方案,可以自動(dòng)且高效而精準(zhǔn)地對(duì)海量視頻數(shù)據(jù)進(jìn)行場(chǎng)景切分和語(yǔ)義關(guān)聯(lián),提高了用戶(hù)觸達(dá)視頻數(shù)據(jù)的精準(zhǔn)度和效率。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本申請(qǐng)?zhí)峁┑囊环N視頻數(shù)據(jù)的處理方法的流程圖;
圖2為本申請(qǐng)?zhí)峁┑囊环N視頻數(shù)據(jù)的處理裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
請(qǐng)參閱圖1,其示出了本申請(qǐng)?zhí)峁┑囊环N視頻數(shù)據(jù)的處理方法的流程圖,包括:
步驟101,獲取待處理的視頻元數(shù)據(jù)。
本實(shí)施例中,視頻元數(shù)據(jù)包括視頻名稱(chēng)uname、用戶(hù)標(biāo)簽utag、源文件src_file等,具體例如,教學(xué)視頻的名稱(chēng)、用戶(hù)主動(dòng)填充的關(guān)聯(lián)知識(shí)點(diǎn)標(biāo)簽、以及源文件MD5值和存儲(chǔ)路徑。在本申請(qǐng)實(shí)際應(yīng)用過(guò)程中,視頻元數(shù)據(jù)信息還可以包括其他參數(shù),例如語(yǔ)言種類(lèi)、視頻種類(lèi)等類(lèi)型參數(shù),由用戶(hù)主動(dòng)填充的關(guān)于視頻內(nèi)容的簡(jiǎn)單語(yǔ)義標(biāo)簽等。
進(jìn)一步可選的,本申請(qǐng)中的視頻元數(shù)據(jù)可以用于視頻后續(xù)的處理流程,視頻元數(shù)據(jù)中用戶(hù)UGC(User Generated Content,指用戶(hù)原創(chuàng)內(nèi)容)的語(yǔ)義標(biāo)簽可以在機(jī)器自動(dòng)生成語(yǔ)義標(biāo)簽的過(guò)程中構(gòu)建機(jī)器學(xué)習(xí)的樣本集合。
步驟102,根據(jù)預(yù)設(shè)的視頻轉(zhuǎn)碼規(guī)則和視頻轉(zhuǎn)碼參數(shù),對(duì)所述視頻元數(shù)據(jù)進(jìn)行轉(zhuǎn)碼處理,獲得視頻轉(zhuǎn)換信息;所述視頻轉(zhuǎn)換信息包括轉(zhuǎn)碼后的目標(biāo)視頻文件。
可選的,所述視頻轉(zhuǎn)換信息還可以包括轉(zhuǎn)碼后的目標(biāo)視頻信息。
其中,轉(zhuǎn)碼后的目標(biāo)視頻文件可用于直接點(diǎn)播播放,也會(huì)應(yīng)用于后文涉及的提取關(guān)鍵幀、提取音頻段等流程上。轉(zhuǎn)碼后的目標(biāo)視頻信息是指,在轉(zhuǎn)碼過(guò)程中產(chǎn)生的中間信息,如轉(zhuǎn)碼后的目標(biāo)視頻文件的大小、時(shí)長(zhǎng)、碼率(影響播放參數(shù)、影響提取關(guān)鍵幀、音頻段的參數(shù))等。
預(yù)設(shè)的視頻轉(zhuǎn)碼參數(shù)可以包括:視頻解碼和編碼參數(shù)、音頻解碼和編碼參數(shù)、轉(zhuǎn)碼分辨率參數(shù)、存儲(chǔ)路徑以及文件系統(tǒng)相關(guān)參數(shù)。
具體在本實(shí)施例中,根據(jù)預(yù)設(shè)的視頻轉(zhuǎn)碼規(guī)則和視頻轉(zhuǎn)碼參數(shù),對(duì)教學(xué)視頻的名稱(chēng)uname、用戶(hù)標(biāo)簽utag、源文件src_file進(jìn)行轉(zhuǎn)碼處理,獲取教學(xué)視頻的視頻轉(zhuǎn)換信息trans_info。在轉(zhuǎn)碼處理完成之后,還可以獲得目標(biāo)視頻MD5值和存儲(chǔ)路徑、文件大小、播放時(shí)長(zhǎng)、封面截圖等參數(shù)。
步驟103,根據(jù)預(yù)設(shè)的提取參數(shù),對(duì)所述目標(biāo)視頻文件進(jìn)行圖像采樣獲得采樣圖像集合信息,對(duì)所述目標(biāo)視頻文件進(jìn)行音頻數(shù)據(jù)提取、切分,獲得音頻片段集合信息。
其中,預(yù)設(shè)的提取參數(shù)包括:圖像采樣率參數(shù)、圖像采樣分辨率參數(shù)、音頻提取參數(shù)、音頻切分率參數(shù)、存儲(chǔ)路徑以及文件系統(tǒng)相關(guān)參數(shù);采樣圖像集合信息包括:采樣圖片文件、采樣圖片對(duì)應(yīng)的視頻幀目、采樣圖片對(duì)應(yīng)的視頻播放時(shí)間;音頻片段集合信息包括:切分音頻文件、切分音頻對(duì)應(yīng)的視頻起始幀目、切分音頻對(duì)應(yīng)的視頻播放起始時(shí)間。
本實(shí)施例中,根據(jù)預(yù)設(shè)的提取參數(shù),對(duì)教學(xué)視頻的視頻轉(zhuǎn)換信息trans_info進(jìn)行圖像采樣,獲得采樣圖像集合信息image_set,對(duì)教學(xué)視頻的視頻轉(zhuǎn)換信息trans_info進(jìn)行音頻數(shù)據(jù)提取和切分,獲得音頻片段集合信息audio_set。本實(shí)施例中,預(yù)設(shè)的提取參數(shù)包括圖像采樣率參數(shù)、圖像采樣分辨率參數(shù)、圖像存儲(chǔ)模式、音頻提取參數(shù)、音頻切分率參數(shù)、音頻存儲(chǔ)模式等。在進(jìn)行圖像采樣和音頻數(shù)據(jù)提取、切分之后,本申請(qǐng)還可以獲得附帶采樣幀目、當(dāng)前播放時(shí)間、圖像分辨率的多張圖像集合,以及特定碼率、聲道數(shù)目的多個(gè)音頻集合。
具體的,本申請(qǐng)中進(jìn)行圖像采樣可以表示為:Y=DownSample(X,n),n為采用時(shí)間。具體例如本實(shí)施例中,教學(xué)視頻按照每秒5張240x240分辨率的圖像進(jìn)行采樣,上述表達(dá)式中n=0.2。
本申請(qǐng)中進(jìn)行音頻數(shù)據(jù)提取、切分可以表示為:Y=FullSplit(X,m),m為分段時(shí)間。具體例如本實(shí)施例中,音頻以單聲道、8k碼率的amr格式標(biāo)準(zhǔn)進(jìn)行提取,提取完成之后按照每60s切分分離的amr音頻,上述表達(dá)式中m=60。
如此,本申請(qǐng)可以獲得待處理的采樣圖像集合信息image_set和音頻片段集合信息audio_set。
步驟104,對(duì)所述采樣圖像集合信息進(jìn)行處理,獲得圖像文本信息和物品信息。
其中,所述物品信息包括:特型物品名稱(chēng)、特型物品標(biāo)簽,還可以包括特型物品位置。
具體的,本申請(qǐng)步驟104包括:
步驟1041,使用光學(xué)識(shí)別技術(shù)逐一對(duì)所述采樣圖像集合信息中,圖像所包含的文本信息進(jìn)行識(shí)別、提取,獲得圖像文本信息。
步驟1042,使用深度學(xué)習(xí)圖像識(shí)別技術(shù)逐一對(duì)所述采樣圖像集合信息中,圖像所包含的特型物品進(jìn)行識(shí)別、提取,獲得物品信息。
需要說(shuō)明的是,本申請(qǐng)對(duì)于步驟1041和步驟1042的執(zhí)行順序不做限定,本申請(qǐng)還可以為先執(zhí)行步驟1042,再執(zhí)行步驟1041,也可以為步驟1041和步驟1042同時(shí)執(zhí)行。
本實(shí)施例中,對(duì)于采樣圖像集合信息中包含文本信息的圖像,逐一使用光學(xué)識(shí)別技術(shù)(Optical Character Recognition,OCR)實(shí)現(xiàn)其圖像上的文本信息的識(shí)別、提取,獲得圖像文本信息。對(duì)于采樣圖像集合信息中包含特型物品的圖像,逐一使用深度學(xué)習(xí)圖像識(shí)別技術(shù)實(shí)現(xiàn)其圖像上的特型物品的識(shí)別、提取,獲得物品信息。
步驟105,對(duì)所述音頻片段集合信息進(jìn)行處理,獲得語(yǔ)音文本信息。
具體地在本實(shí)施例中,使用語(yǔ)音識(shí)別技術(shù)逐一對(duì)所述音頻片段集合信息中的人類(lèi)語(yǔ)音信息進(jìn)行識(shí)別、提取,獲得語(yǔ)音文本信息。
本申請(qǐng)上述步驟104和步驟105可以表示為:Y=RecogniztionService(X),其中,輸入X為請(qǐng)求對(duì)象,輸出Y為響應(yīng)對(duì)象。
對(duì)于OCR識(shí)別技術(shù),請(qǐng)求對(duì)象包括待識(shí)別圖像、圖像相關(guān)參數(shù)、召回參數(shù),響應(yīng)對(duì)象包括提取的光學(xué)文本信息ocr_content(即圖像文本信息);對(duì)于深度學(xué)習(xí)圖像識(shí)別技術(shù),請(qǐng)求對(duì)象包括待識(shí)別圖像、圖像相關(guān)參數(shù)、召回參數(shù),響應(yīng)對(duì)象包括提取的特型物品文本信息vgg_content(即物品信息);對(duì)于語(yǔ)音識(shí)別技術(shù),請(qǐng)求對(duì)象包括待識(shí)別音頻片段、音頻相關(guān)參數(shù)、召回參數(shù),響應(yīng)對(duì)象包括提取的語(yǔ)音對(duì)應(yīng)文本信息hmm_content(即語(yǔ)音文本信息)。
本申請(qǐng)將采樣圖像集合信息image_set中的所有采樣圖像逐一進(jìn)行OCR識(shí)別技術(shù)和深度學(xué)習(xí)圖像識(shí)別技術(shù)處理,獲得每張采樣圖像對(duì)應(yīng)的光學(xué)文本信息ocr_content和特型物品文本信息vgg_content,依據(jù)獲得的每張采樣圖像對(duì)應(yīng)的ocr_content和vgg_content,最終獲得采樣圖像集合信息image_set對(duì)應(yīng)的ocr_content_set和vgg_content_set。
步驟106,依據(jù)所述采樣圖像集合信息和所述圖像文本信息,按照?qǐng)D像相似度計(jì)算方法,對(duì)所述采樣圖像集合信息進(jìn)行聚類(lèi)分組,獲得多個(gè)視頻場(chǎng)景。
本申請(qǐng)根據(jù)所述采樣圖像集合信息及其對(duì)應(yīng)的圖像文本信息,按照?qǐng)D像相似度計(jì)算,輔助以文本相似度計(jì)算,對(duì)所述采樣圖像集合信息進(jìn)行聚類(lèi)分組,將視頻切分為多個(gè)包含起始幀和結(jié)束幀的視頻場(chǎng)景。具體的,本申請(qǐng)步驟106可以采用如下方法實(shí)現(xiàn):
步驟1061,對(duì)所述采樣圖像集合信息中的圖像按固定比率進(jìn)行縮放,并計(jì)算相鄰兩張圖片的漢明距離(haming_distance),獲得所述采樣圖像集合信息進(jìn)行聚類(lèi)分組的第一信息參數(shù)。
步驟1062,對(duì)所述圖像文本信息統(tǒng)一編碼,并計(jì)算相鄰圖像文本信息的編輯距離(levenshtein_distance),獲得所述采樣圖像集合信息進(jìn)行聚類(lèi)分組的第二信息參數(shù)。
本申請(qǐng)中的第一信息參數(shù)和第二信息參數(shù)均為一維相同列數(shù)矩陣。
步驟1063,對(duì)所述第一信息參數(shù)、所述第二信息參數(shù)進(jìn)行加權(quán)合并,并采用線性函數(shù)進(jìn)行擬合,按照斜率的變化規(guī)律進(jìn)行分段,獲得多個(gè)視頻場(chǎng)景。
本實(shí)施例中,第一信息參數(shù)由采樣圖像集合信息image_set計(jì)算得到,第二信息參數(shù)由采樣圖像集合信息對(duì)應(yīng)的光學(xué)文本信息ocr_content_set計(jì)算得到。
具體在本申請(qǐng)實(shí)際應(yīng)用過(guò)程中,對(duì)采樣圖像集合信息image_set中的采樣圖像壓縮成8x8分辨率,進(jìn)而按照采樣順序,逐一比較相鄰兩張圖片的漢明距離,同時(shí)提取相鄰兩張圖片的光學(xué)文本信息,比較其編輯距離。如果相鄰兩張圖片的漢明距離和編輯距離加權(quán)求和之后不大于預(yù)設(shè)閾值T,則將對(duì)應(yīng)的兩張圖片進(jìn)行聚合,如此迭代至完成整個(gè)采樣圖像集合的比較,獲取采樣圖像集合的若干圖像分組image_group。
本申請(qǐng)中涉及的計(jì)算規(guī)則可以表示為:
(1)Hi=hamin g(Xi,Xi+1),Li=levenshtein(Xi,Xi+1),Di=AHi+BLi;
(2)Group(Xi,Xi+1)={1,當(dāng)Di≤T|0,當(dāng)Di〉T};
(3)VGi=[i,j],當(dāng)Di-1〉T﹠Dj〉T;
其中,Hi為第i張圖和相鄰第i+1張圖的漢明距離,Li為第i張圖和相鄰第i+1張圖的OCR編輯距離,Di為第i張圖和相鄰第i+1張圖的加權(quán)距離。當(dāng)Di不大于預(yù)設(shè)閾值T時(shí),第i張圖和相鄰第i+1張圖可以聚合成一組,反之則重新分配新組。
本申請(qǐng)獲得視頻場(chǎng)景分組的具體信息如下:
(4)from_frame(VGi)=i,to_frame(VGi)=j(luò),當(dāng)Di-1〉T﹠Dj〉T;
(5)from_time(VGi)=i*n,to_time(VGi)=j(luò)*n,n為采樣時(shí)間,當(dāng)Di-1〉T﹠Dj〉T。
步驟107,根據(jù)所述多個(gè)視頻場(chǎng)景、物品信息和語(yǔ)音文本信息,生成語(yǔ)義標(biāo)簽和上下文特征信息。
具體的,本申請(qǐng)步驟107可以采樣如下方法實(shí)現(xiàn):
步驟1071,將特型物品名稱(chēng)和特型物品標(biāo)簽依次進(jìn)行過(guò)濾、聚類(lèi)和編碼,獲得包含所述特型物品的圖像所在幀目的第一語(yǔ)義標(biāo)簽信息和第一上下文特征信息。
步驟1072,根據(jù)所述多個(gè)視頻場(chǎng)景,逐一合并所述視頻場(chǎng)景下所有圖像所在幀目的第一語(yǔ)義標(biāo)簽信息和第一上下文特征信息,獲得所述視頻場(chǎng)景的第一語(yǔ)義信息參數(shù)。
步驟1073,對(duì)所述語(yǔ)音文本信息進(jìn)行分詞處理,獲得多個(gè)詞組。
步驟1074,依據(jù)棄用詞庫(kù)和/或停用詞庫(kù),對(duì)所述詞組進(jìn)行過(guò)濾,獲得多個(gè)擁有語(yǔ)義的詞組。
步驟1075,對(duì)所述多個(gè)擁有語(yǔ)義的詞組進(jìn)行聚類(lèi)和編碼,并從中提取第二語(yǔ)義標(biāo)簽信息和第二上下文特征信息,獲得所述視頻場(chǎng)景的第二語(yǔ)義信息參數(shù)。
步驟1076,逐一融合所述視頻場(chǎng)景的第一語(yǔ)義信息參數(shù)、第二語(yǔ)義信息參數(shù),獲得所述視頻場(chǎng)景的語(yǔ)義標(biāo)簽信息和上下文特征信息。
本申請(qǐng)通過(guò)獲得所述視頻場(chǎng)景的語(yǔ)義標(biāo)簽信息和上下文特征信息,從而實(shí)現(xiàn)所述視頻場(chǎng)景和語(yǔ)義的關(guān)聯(lián),獲得所述視頻有語(yǔ)義關(guān)聯(lián)的各個(gè)視頻場(chǎng)景。
需要說(shuō)明的是,本申請(qǐng)上述實(shí)現(xiàn)獲取視頻場(chǎng)景的第一語(yǔ)義信息參數(shù)的步驟1071-步驟1072與實(shí)現(xiàn)獲取視頻場(chǎng)景的第二語(yǔ)義信息參數(shù)的步驟1073-步驟1075間的執(zhí)行順序不做限定,本申請(qǐng)也可先執(zhí)行步驟1073-步驟1075,再執(zhí)行步驟1071-步驟1072,或步驟1071-步驟1072與步驟1073-步驟1075同時(shí)執(zhí)行。
在本申請(qǐng)實(shí)施例中,根據(jù)多個(gè)視頻場(chǎng)景、特型物品信息vgg_content和語(yǔ)音文本信息hmm_content提取場(chǎng)景語(yǔ)義信息。
(6)Tag(VGi)=Category(i,j)。
具體的,本申請(qǐng)中特型物品信息vgg_content包括物品具體類(lèi)別名稱(chēng)、物品在圖像中位置等參數(shù),語(yǔ)義標(biāo)簽可以簡(jiǎn)單的由物品類(lèi)別名稱(chēng)指代;如果包含多個(gè)特型物品,則根據(jù)位置,面積以及物品出現(xiàn)頻率加權(quán)獲得最有代表性的物品名稱(chēng)。語(yǔ)音文本信息hmm_content則通過(guò)分詞和詞性過(guò)濾,獲取指代的語(yǔ)義標(biāo)簽,具體實(shí)施規(guī)則如下:
(7)Wall=WordSegment(hmm_content);
(8)Wreal=TagFilter(Wall,S,D),S、D分別為停用詞和棄用詞集合;
(9)
獲得視頻場(chǎng)景和語(yǔ)義的關(guān)聯(lián):
(10))
應(yīng)用本申請(qǐng)?zhí)峁┑囊曨l數(shù)據(jù)的處理方法,可以準(zhǔn)確地對(duì)視頻數(shù)據(jù)中的視頻場(chǎng)景進(jìn)行切分,并提取視頻場(chǎng)景中光學(xué)文本信息、特型物品信息、視頻場(chǎng)景對(duì)應(yīng)的語(yǔ)音文本信息,進(jìn)而對(duì)提取的信息進(jìn)行處理,得到和視頻場(chǎng)景關(guān)聯(lián)的語(yǔ)音信息。處理過(guò)程可以采用流水線式作業(yè)方式,從而保證處理過(guò)程的快速高效和可控制性;提取的視頻場(chǎng)景和場(chǎng)景語(yǔ)義,能在視頻應(yīng)用場(chǎng)合下提供用戶(hù)更精確的信息。因此,采用本申請(qǐng)?zhí)峁┑囊曨l數(shù)據(jù)處理方法,可以自動(dòng)且高效精準(zhǔn)地對(duì)海量視頻數(shù)據(jù)進(jìn)行場(chǎng)景切分和語(yǔ)義關(guān)聯(lián),從而增加用戶(hù)觸達(dá)視頻內(nèi)容的精準(zhǔn)度和效率。
基于前文本申請(qǐng)?zhí)峁┑囊环N視頻數(shù)據(jù)的處理方法,本申請(qǐng)還提供一種視頻數(shù)據(jù)的處理裝置,如圖2所示,包括:
視頻元數(shù)據(jù)獲取單元100,用于獲取待處理的視頻元數(shù)據(jù);
轉(zhuǎn)碼處理單元200,用于根據(jù)預(yù)設(shè)的視頻轉(zhuǎn)碼規(guī)則和視頻轉(zhuǎn)碼參數(shù),對(duì)所述視頻元數(shù)據(jù)進(jìn)行轉(zhuǎn)碼處理,獲得視頻轉(zhuǎn)換信息;所述視頻轉(zhuǎn)換信息包括轉(zhuǎn)碼后的目標(biāo)視頻文件;
圖像采樣單元300,用于根據(jù)預(yù)設(shè)的提取參數(shù),對(duì)所述目標(biāo)視頻文件進(jìn)行圖像采樣獲得采樣圖像集合信息;
音頻數(shù)據(jù)處理單元400,用于根據(jù)預(yù)設(shè)的提取參數(shù),對(duì)所述目標(biāo)視頻文件進(jìn)行音頻數(shù)據(jù)提取、切分,獲得音頻片段集合信息;
第一信息處理單元500,用于對(duì)所述采樣圖像集合信息進(jìn)行處理,獲得圖像文本信息和物品信息;
第二信息處理單元600,用于對(duì)所述音頻片段集合信息進(jìn)行處理,獲得語(yǔ)音文本信息;
視頻場(chǎng)景確定單元700,用于依據(jù)所述采樣圖像集合信息和所述圖像文本信息,按照?qǐng)D像相似度計(jì)算方法,對(duì)所述采樣圖像集合信息進(jìn)行聚類(lèi)分組,獲得多個(gè)視頻場(chǎng)景;
關(guān)聯(lián)單元800,用于根據(jù)所述多個(gè)視頻場(chǎng)景、物品信息和語(yǔ)音文本信息,生成語(yǔ)義標(biāo)簽和上下文特征信息。
其中,所述視頻元數(shù)據(jù)包括:視頻名稱(chēng)、用戶(hù)標(biāo)簽和源文件。
預(yù)設(shè)的視頻轉(zhuǎn)碼參數(shù)包括:視頻解碼和編碼參數(shù)、音頻解碼和編碼參數(shù)、轉(zhuǎn)碼分辨率參數(shù)、存儲(chǔ)路徑以及文件系統(tǒng)相關(guān)參數(shù)。
預(yù)設(shè)的提取參數(shù)包括:圖像采樣率參數(shù)、圖像采樣分辨率參數(shù)、音頻提取參數(shù)、音頻切分率參數(shù)、存儲(chǔ)路徑以及文件系統(tǒng)相關(guān)參數(shù)。
采樣圖像集合信息包括:采樣圖片文件、采樣圖片對(duì)應(yīng)的視頻幀目、采樣圖片對(duì)應(yīng)的視頻播放時(shí)間;
音頻片段集合信息包括:切分音頻文件、切分音頻對(duì)應(yīng)的視頻起始幀目、切分音頻對(duì)應(yīng)的視頻播放起始時(shí)間。
具體的,第一信息處理單元500包括:
光學(xué)識(shí)別處理子單元501,用于使用光學(xué)識(shí)別技術(shù)逐一對(duì)所述采樣圖像集合信息中,圖像所包含的文本信息進(jìn)行識(shí)別、提取,獲得圖像文本信息;
深度學(xué)習(xí)處理子單元502,用于使用深度學(xué)習(xí)圖像識(shí)別技術(shù)逐一對(duì)所述采樣圖像集合信息中,圖像所包含的特型物品進(jìn)行識(shí)別、提取,獲得物品信息。
第二信息處理單元600包括:
語(yǔ)音識(shí)別處理子單元601,用于使用語(yǔ)音識(shí)別技術(shù)逐一對(duì)所述音頻片段集合信息中的人類(lèi)語(yǔ)音信息進(jìn)行識(shí)別、提取,獲得語(yǔ)音文本信息。
視頻場(chǎng)景確定單元700包括:
第一信息參數(shù)確定單元701,用于對(duì)所述采樣圖像集合信息中的圖像按固定比率進(jìn)行縮放,并計(jì)算相鄰兩張圖片的漢明距離,獲得所述采樣圖像集合信息進(jìn)行聚類(lèi)分組的第一信息參數(shù);
第二信息參數(shù)確定單元702,用于對(duì)所述圖像文本信息統(tǒng)一編碼,并計(jì)算相鄰圖像文本信息的編輯距離,獲得所述采樣圖像集合信息進(jìn)行聚類(lèi)分組的第二信息參數(shù);
視頻場(chǎng)景確定單元703,用于對(duì)所述第一信息參數(shù)、所述第二信息參數(shù)進(jìn)行加權(quán)合并,并采用線性函數(shù)進(jìn)行擬合,按照斜率的變化規(guī)律進(jìn)行分段,獲得多個(gè)視頻場(chǎng)景。
本申請(qǐng)中,物品信息包括:特型物品名稱(chēng)、特型物品標(biāo)簽。
所述關(guān)聯(lián)單元800包括:
第一處理子單元801,用于將特型物品名稱(chēng)和特型物品標(biāo)簽依次進(jìn)行過(guò)濾、聚類(lèi)和編碼,獲得包含所述特型物品的圖像所在幀目的第一語(yǔ)義標(biāo)簽信息和第一上下文特征信息;
第二處理子單元802,用于根據(jù)所述多個(gè)視頻場(chǎng)景,逐一合并所述視頻場(chǎng)景下所有圖像所在幀目的第一語(yǔ)義標(biāo)簽信息和第一上下文特征信息,獲得所述視頻場(chǎng)景的第一語(yǔ)義信息參數(shù);
分詞處理子單元803,用于對(duì)所述語(yǔ)音文本信息進(jìn)行分詞處理,獲得多個(gè)詞組;
過(guò)濾子單元804,用于依據(jù)棄用詞庫(kù)和/或停用詞庫(kù),對(duì)所述詞組進(jìn)行過(guò)濾,獲得多個(gè)擁有語(yǔ)義的詞組;
第三處理子單元805,用于對(duì)所述多個(gè)擁有語(yǔ)義的詞組進(jìn)行聚類(lèi)和編碼,并從中提取第二語(yǔ)義標(biāo)簽信息和第二上下文特征信息,獲得所述視頻場(chǎng)景的第二語(yǔ)義信息參數(shù);
第四處理子單元806,用于逐一融合所述視頻場(chǎng)景的第一語(yǔ)義信息參數(shù)、第二語(yǔ)義信息參數(shù),獲得所述視頻場(chǎng)景的語(yǔ)義標(biāo)簽信息和上下文特征信息。
需要說(shuō)明的是,本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。對(duì)于裝置類(lèi)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上對(duì)本申請(qǐng)所提供的一種視頻數(shù)據(jù)的處理方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。