本發(fā)明涉及視頻描述技術(shù),尤其是一種基于多特征融合的視頻描述方法。
背景技術(shù):
:概念-基本概念:視頻描述是指根據(jù)給定的視頻的視覺(jué)信息,用一個(gè)自然語(yǔ)言的句子將視頻中的語(yǔ)義信息描述出來(lái)。目的和意義:視頻描述的目的是從視頻信息中學(xué)習(xí)到視頻中包含的語(yǔ)義信息,并用自然語(yǔ)言描述出來(lái)。它在許多領(lǐng)域具有廣泛的應(yīng)用價(jià)值,如基于語(yǔ)義內(nèi)容的視頻檢索和視頻標(biāo)注、描述性的視頻服務(wù)、盲人導(dǎo)航和自動(dòng)化視頻監(jiān)控等。近年來(lái),伴隨互聯(lián)網(wǎng)與多媒體等技術(shù)的飛速發(fā)展,視覺(jué)數(shù)據(jù)的數(shù)量呈指數(shù)級(jí)的增長(zhǎng),從視覺(jué)信息中學(xué)習(xí)到語(yǔ)義信息的技術(shù)已經(jīng)逐漸成為一種新的需求。目前從單幅圖像中學(xué)習(xí)到語(yǔ)義信息的技術(shù)已經(jīng)日益成熟,但相對(duì)于圖像而言,視頻中包含有更加復(fù)雜的目標(biāo)、場(chǎng)景和行為,這對(duì)學(xué)習(xí)視頻中的語(yǔ)義信息提出了更高的要求,我們迫切需要一種能夠生成表征視頻內(nèi)容且符合語(yǔ)言規(guī)范的句子的視頻描述方法。方法-基本過(guò)程:盡管視頻描述的方法不同,但基本過(guò)程大致可以分為兩個(gè)部分。第一部分是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)提取視頻的特征。第二部分是根據(jù)提取到的視頻特征采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork,rnn)生成視頻句子描述。方法-視頻特征提?。航陙?lái),隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)研究的發(fā)展,cnn在目標(biāo)識(shí)別、行為識(shí)別、人臉識(shí)別等任務(wù)中都表現(xiàn)出了很好的性能。目前大多數(shù)方法都是采用現(xiàn)有的cnn網(wǎng)絡(luò)模型提取視頻幀的空間特征。關(guān)于時(shí)間特征(運(yùn)動(dòng)特征)提取方面,hom等人提出了光流法來(lái)提取相鄰幀之間的運(yùn)動(dòng)特征。該方法利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性來(lái)找到上一幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系,從而計(jì)算出相鄰之間物體的運(yùn)動(dòng)信息的一種方法。davidlowe等人提出sift流方法提取不同相鄰幀之間的運(yùn)動(dòng)特征。通過(guò)利用圖像的sift特征的局部描述,生成原始圖像對(duì)應(yīng)的sift特征圖,經(jīng)過(guò)時(shí)間的變化,對(duì)應(yīng)的特征之間會(huì)有相對(duì)位置上的變化,這種變化構(gòu)成了流場(chǎng),形成sift流,tran等人提出了3-dcnn模型。該模型通過(guò)在cnn的卷積層進(jìn)行3d卷積,以捕捉在時(shí)間和空間都具有區(qū)分性的特征。方法-視頻句子生成模型:近些年,隨著自然語(yǔ)言處理的發(fā)展,機(jī)器翻譯中的一些思想可以很好地應(yīng)用到視頻句子生成中,donahue等人提出lrcns模型,它使用cnn提取視頻的視覺(jué)特征,再使用疊加的雙層lstm生成圖像的句子描述。yu等人提出h-rnn模型,其中層次rnn包含了句子生成器和段落生成器。pan等人提出了lstm-e的rnn句子生成模型,并結(jié)合3-dcnn構(gòu)成最終的模型。venugopalan等人提出了在文本數(shù)據(jù)集上做遷移學(xué)習(xí),并加入了dcc模型。現(xiàn)有的視頻句子生成模型中單詞的表示大多采用one-hotvector編碼,這種編碼方式比較簡(jiǎn)單,無(wú)法表示出單詞與單詞之間的相關(guān)性。缺陷:就視頻描述而言,主要存在三個(gè)問(wèn)題。1、現(xiàn)有的視頻特征提取方法對(duì)時(shí)空特征表達(dá)能力不足。傳統(tǒng)的視頻特征提取方法主要跟圖像特征提取方法類似,更加側(cè)重于對(duì)空間特征的提取,而忽略了對(duì)時(shí)序特征的提取。視頻中的目標(biāo)隨著物體運(yùn)動(dòng)和攝像頭的移動(dòng)會(huì)出現(xiàn)尺度的變化,光流法雖然可以獲取視頻中的運(yùn)動(dòng)信息,但是無(wú)法獲取尺度不變性的特征表達(dá)。3dcnn在沒(méi)有加入視覺(jué)注意機(jī)制時(shí)對(duì)視頻特征提取性能的提升是有限的,而且3dcnn訓(xùn)練是比較耗時(shí)的。2、視頻描述的句子生成模型不能充分建立視覺(jué)信息與單詞之間的聯(lián)系?,F(xiàn)有的方法在句子生成過(guò)程中大多采用某一幀的特征作為輸入來(lái)建立視覺(jué)信息與單詞之間的聯(lián)系,而視頻幀具有隨機(jī)性,有些幀的特征無(wú)法很好地表現(xiàn)視頻相關(guān)內(nèi)容,而可以表征視頻整體的特征就被忽略了。雖然有方法將句子生成模型的所有輸入均為視頻的整體特征,但是這種方法忽略了視頻每一幀特有的信息。3、視頻描述的句子生成模型中采用的one-hotvector詞表征方式單詞之間相互獨(dú)立,無(wú)法體現(xiàn)單詞與單詞之間的關(guān)聯(lián)性。目前視頻描述領(lǐng)域中大多數(shù)句子生成模型都使用one-hotvector這種單詞表示方法,使得模型在生成單詞階段無(wú)法很好地考慮不同單詞之間的聯(lián)系。技術(shù)實(shí)現(xiàn)要素:本發(fā)明目的是:為了解決現(xiàn)有視頻描述方法中存在的問(wèn)題,而提出一種多特征融合的視頻描述方法,該方法能夠更好提取到更加魯棒的時(shí)空特征,同時(shí)在句子生成模型中加入整體特征,以便視覺(jué)信息與單詞之間建立更多的聯(lián)系,最后采用word2vec詞向量方法替換one-hotvector詞表征,在單詞與單詞之間建立更多的聯(lián)系,從而更好的提高視頻描述的性能。本發(fā)明的技術(shù)方案是:一種基于多特征融合的視頻描述方法,其特征在于:1)視頻時(shí)空特征提取通過(guò)融合傳統(tǒng)的cnn特征和sift流特征提取視頻的深層時(shí)空特征;2)句子描述的生成根據(jù)步驟1)提取到的深層時(shí)空特征,采用加入了視頻整體特征的s2vt句子生成模型生成相應(yīng)的句子描述;3)句子生成模型的優(yōu)化采用word2vec詞向量替換one-hotvector詞表征優(yōu)化句子生成模型。進(jìn)一步的,本發(fā)明的上述步驟1)視頻時(shí)空特征提取,進(jìn)一步包括如下三個(gè)步驟:(1)提取視頻的空間特征利用已有的vgg-16網(wǎng)絡(luò)模型提取原始視頻幀的fc7層特征;(2)提取視頻的時(shí)間特征利用微調(diào)的vgg-16網(wǎng)絡(luò)模型提取視頻的sift流場(chǎng)圖的fc7層特征;(3)特征融合分別對(duì)兩者采用主成份分析(pca)方法降維并采用連接的方式得到4096維的特征向量作為視頻的特征表達(dá),用以輸入到句子生成模型中。更進(jìn)一步的,本發(fā)明中所述步驟1)視頻時(shí)空特征提取的詳細(xì)步驟如下:(1)提取視頻的空間特征采用在imagenet數(shù)據(jù)集上預(yù)訓(xùn)練的vgg-16網(wǎng)絡(luò)模型,將測(cè)試數(shù)據(jù)集msvd中的視頻每隔10幀取一幀,送入到vgg-16網(wǎng)絡(luò)模型中,提取fc7層的4096維輸出作為當(dāng)前幀的特征向量;(2)提取視頻的時(shí)間特征首先在行為識(shí)別數(shù)據(jù)集ucf-101樣本視頻每十幀取第一幀和第三幀,并根據(jù)這兩幀得到一幅sift流場(chǎng)圖,并為它們打上與視頻相同的標(biāo)簽;接著將帶有標(biāo)簽的sift流場(chǎng)圖按照2:1的比例分為訓(xùn)練集和驗(yàn)證集,并送入到vgg-16網(wǎng)絡(luò)模型中進(jìn)行網(wǎng)絡(luò)的微調(diào);然后在測(cè)試數(shù)據(jù)集msvd上提取出sift流場(chǎng)圖,送入到微調(diào)好的vgg-16網(wǎng)絡(luò)模型中,提取fc7層的4096維輸出作為當(dāng)前幀的特征向量;所述的sift流場(chǎng)圖是指采用sift流方法計(jì)算相鄰幀之間的sift流場(chǎng)后再將其可視化而成的圖像;(3)特征融合將提取到的兩個(gè)4096維特征向量分別采用離差標(biāo)準(zhǔn)化min-maxnormalization方法進(jìn)行歸一化,然后將歸一化后的特征向量分別采用主成份分析(pca)方法降維,得到兩個(gè)2048為特征向量,最后采用向量連接的方法,得到最終的4096維特征向量作為句子生成模型的輸入。更進(jìn)一步的,本發(fā)明中所述步驟2)句子描述生成中所述視頻平均池化特征的加入是指在s2vt句子生成模型的編碼階段,當(dāng)完成對(duì)視頻幀的讀取之后輸入視頻的平均池化特征,而所述平均池化特征的提取過(guò)程如下:首先利用vgg-16網(wǎng)絡(luò)模型提取出所有原始視頻幀,也即rgb圖像的fc7層特征,然后對(duì)所有視頻幀的特征采用平均池化方法,按照如下公式:其中vi表示提取的視頻v視頻幀,n表示視頻v提取視頻幀的數(shù)量。最終得到視頻的一個(gè)平均池化特征;與此同時(shí),句子生成模型的解碼階段也開(kāi)始工作,每次生成單詞都會(huì)有視覺(jué)信息輸入進(jìn)來(lái),直到輸出結(jié)束標(biāo)記<eos>表示句子生成結(jié)束,生成的單詞是由softmax函數(shù)確定的,按照如下公式:每個(gè)時(shí)刻t都會(huì)計(jì)算出詞匯表v中每個(gè)單詞在第二層輸出zt條件下的概率分布。其中y表示詞匯表中的單詞。在測(cè)試階段,選擇概率最大的單詞y作為時(shí)刻t的單詞輸出。嚴(yán)格來(lái)講,句子描述的生成步驟中在s2vt編碼階段加入平均池化特征作為視頻整體特征也是對(duì)s2vt句子生成模型的一種優(yōu)化。因此本發(fā)明中也可以說(shuō)對(duì)于句子生成模型采用了兩種優(yōu)化方法,第一個(gè)是在句子生成模型中加入了作為視頻整體特征的平均池化特征,這個(gè)是句子生成模型的一部分,可以理解為提出了一個(gè)新的句子生成模型。而第二個(gè)則是在單詞表示上采用更好的單詞表示方法替換原有的方法,這是在不修改句子生成模型的情況下對(duì)句子生成模型的一個(gè)優(yōu)化過(guò)程,僅僅將單詞表示換成了更加好的word2vec。這兩種方法顯然也存在先后關(guān)系的,即先提出新的句子生成模型,然后再進(jìn)行優(yōu)化。更進(jìn)一步的,本發(fā)明中所述步驟3)句子生成模型的優(yōu)化的詳細(xì)過(guò)程如下:首先將英文wiki語(yǔ)料庫(kù)中xml格式的文件轉(zhuǎn)成txt文件,然后通過(guò)對(duì)txt文件進(jìn)行訓(xùn)練處理得到語(yǔ)料集中所有單詞的詞向量表示,在得到了文本的詞向量之后,將原來(lái)網(wǎng)絡(luò)模型中的one-hotvector表示的單詞向量表示替換成word2vec詞向量。本發(fā)明的優(yōu)點(diǎn)是:本發(fā)明以視頻為研究對(duì)象,設(shè)計(jì)出了一種基于多特征融合的視頻描述方法。通過(guò)多特征融合,本方法能夠更好提取到更加魯棒的時(shí)空特征,同時(shí)在句子生成模型中加入整體特征,以便視覺(jué)信息與單詞之間建立更多的聯(lián)系,最后采用word2vec詞向量方法替換one-hotvector詞表征,在單詞與單詞之間建立更多的聯(lián)系。具體創(chuàng)新點(diǎn)如下:1.為了提取更加魯棒的視頻的時(shí)空特征,本發(fā)明提出了一個(gè)基于傳統(tǒng)cnn特征和sift流特征融合的視頻特征提取方法。本方法首先利用已有的vgg-16網(wǎng)絡(luò)模型提取原始視頻幀的fc7層特征。然后利用微調(diào)的vgg-16網(wǎng)絡(luò)模型提取視頻的sift流場(chǎng)圖的fc7層特征。最后分別對(duì)兩者采用pca降維并采用連接的方式得到4096維的特征向量作為視頻的特征表達(dá)。實(shí)驗(yàn)結(jié)果充分證明了提出的方法可以提高視頻描述的性能。2.為了在視覺(jué)信息和單詞之間建立更多的聯(lián)系,本發(fā)明提出了在經(jīng)典的s2vt句子生成模型上加入視頻的整體特征。本方法在編碼階段視頻幀輸入結(jié)束后,輸入視頻的平均池化特征來(lái)輔助解碼階段,即句子生成階段,使得在生成單詞的過(guò)程中充分利用視頻的視覺(jué)信息。實(shí)驗(yàn)結(jié)果充分證明了再句子生成模型中融入視頻整體特征可以提高視頻描述的性能。3.為了在單詞和單詞之間建立更多的聯(lián)系,本發(fā)明提出了在視頻描述任務(wù)中采用word2vec取代傳統(tǒng)的one-hotvector作為單詞的表示。本方法是在英文維基百科語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練并得到相應(yīng)的詞向量,并將該詞向量加入到句子生成模型中。實(shí)驗(yàn)結(jié)果充分證明了word2vec這種詞向量表示方法可以有效地提高視頻描述的性能。附圖說(shuō)明下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述:圖1為本發(fā)明方法的流程圖;圖2為本發(fā)明方法的框架結(jié)構(gòu)圖;圖3為視頻特征提取方法的框架構(gòu)圖;圖4為msvd數(shù)據(jù)集上一個(gè)視頻樣本的原始視頻幀與sift流場(chǎng)圖;圖5為msvd數(shù)據(jù)集上另一視頻樣本的原始視頻幀與sift流場(chǎng)圖;圖6為采用加入了視頻整體特征的s2vt句子生成模型生成相應(yīng)的句子描述步驟的框架構(gòu)圖;圖7為采用word2vec詞向量替換one-hotvector詞表征優(yōu)化s2vt句子生成模型步驟的框架構(gòu)圖;圖8最終模型生成的句子描述與標(biāo)準(zhǔn)值。具體實(shí)施方式實(shí)施例:下面結(jié)合圖1~圖8對(duì)本發(fā)明提供的這種基于多特征融合的視頻描述方法進(jìn)行具體說(shuō)明如下:本發(fā)明方法的整體流程圖和框架圖分別如圖1和圖2所示,通過(guò)融合傳統(tǒng)的cnn特征和sift流特征提取視頻的深層時(shí)空特征。然后根據(jù)提取到的特征采用加入了整體特征的s2vt句子生成模型生成相應(yīng)的句子描述。最后采用word2vec詞向量替換one-hotvector詞表征優(yōu)化句子生成模型。本實(shí)施例中采用bleu和meteor評(píng)價(jià)視頻描述方法和性能,論證實(shí)驗(yàn)使用數(shù)據(jù)集是:msvd(microsoftresearchvideodescription),也稱之為youtube2text。msvd是目前在視頻描述領(lǐng)域應(yīng)用最多且得到認(rèn)可的數(shù)據(jù)集,它包含有1970個(gè)短視頻,這些視頻均來(lái)自于youtube。每個(gè)短視頻的時(shí)間在10s-25s之間,描述一個(gè)單一的行為,并且該數(shù)據(jù)集涵蓋了多種場(chǎng)景。每個(gè)視頻對(duì)應(yīng)的文本描述有100多條,包含有多種語(yǔ)言。實(shí)驗(yàn)中,本文采用的是語(yǔ)言為english的文本描述,每個(gè)視頻大約有40條文本描述。實(shí)驗(yàn)中,我們選擇1200個(gè)視頻作為訓(xùn)練數(shù)據(jù)集,100個(gè)視頻作為驗(yàn)證數(shù)據(jù)集,670個(gè)視頻作為測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)環(huán)境如下:cpu是intelxeone5-26202.10ghz,gpu為teslak20(5g顯存),內(nèi)存為64g,硬盤(pán)為1t。所使用的操作系統(tǒng)為centos6.7。整個(gè)方法流程具體分為3個(gè)步驟:視頻深層時(shí)空特征提取、句子描述的生成、句子生成模型的優(yōu)化,如圖1所示。下面對(duì)三個(gè)步驟分別具體說(shuō)明:1、視頻時(shí)空特征提取視頻不同于圖像,它的特征提取分為空間特征提取和時(shí)間特征提取。本發(fā)明采用傳統(tǒng)的cnn提取原始視頻幀中的空間特征,采用sift流提取視頻中的時(shí)間特征,最后將兩個(gè)特征進(jìn)行融合作為句子生成模型的輸入。視頻時(shí)空特征提取分為下面3個(gè)步驟,具體的方法框架結(jié)合圖3所示:(1)提取視頻的空間特征在提取視頻的空間特征中,本發(fā)明采用目前比較成熟的在imagenet數(shù)據(jù)集上預(yù)訓(xùn)練的vgg-16網(wǎng)絡(luò)模型。將測(cè)試數(shù)據(jù)集msvd中的視頻每隔10幀取一幀,送入到vgg-16網(wǎng)絡(luò)模型中,提取fc7層的4096維輸出作為當(dāng)前幀的特征向量。(2)提取視頻的時(shí)間特征在提取視頻的時(shí)間特征中,本發(fā)明采用2004年davidlowe等人提出的sift流方法計(jì)算相鄰幀之間的sift流場(chǎng),并將其可視化成sift流場(chǎng)圖。首先在行為識(shí)別數(shù)據(jù)集ucf-101樣本視頻每十幀取第一幀和第三幀,并根據(jù)這兩幀得到一幅sift流場(chǎng)圖,并為它們打上與視頻相同的標(biāo)簽。接著將帶有標(biāo)簽的sift流場(chǎng)圖按照2:1的比例分為訓(xùn)練集和驗(yàn)證集,并送入到vgg-16網(wǎng)絡(luò)模型中進(jìn)行網(wǎng)絡(luò)的微調(diào)(finetuning)。然后在測(cè)試數(shù)據(jù)集msvd上提取出sift流場(chǎng)圖,送入到微調(diào)好的vgg-16網(wǎng)絡(luò)模型中,提取fc7層的4096維輸出作為當(dāng)前幀的特征向量。圖4和圖5分別給出了本實(shí)施例的msvd數(shù)據(jù)集中兩個(gè)樣本的原始視頻幀與提取出來(lái)的sift流場(chǎng)圖對(duì)比示例圖。圖4的視頻中表現(xiàn)的是“amanissinging”,即一個(gè)正在唱歌的男人,圖4上半部分為原始視頻幀,下半部分為提取出來(lái)的sift流場(chǎng)圖。而圖5的視頻中表現(xiàn)的是“thetoytrainaremoving”,即正在行駛的玩具火車,同樣圖5上半部分為原始視頻幀,下半部分為提取出來(lái)的sift流場(chǎng)圖。(3)特征融合以原始視頻幀為輸入得到的特征能夠很好地表征視頻的空間特征,如目標(biāo)和場(chǎng)景,而以sift流場(chǎng)圖為輸入得到的特征能夠很好地表征視頻的時(shí)間特征。兩者之間形成一個(gè)互補(bǔ),組成視頻的時(shí)空深層特征,可以較好地表示視頻的時(shí)空特征。為了將視頻的空間特征和時(shí)間特征進(jìn)行融合,首先將提取到的兩個(gè)4096維特征向量分別采用離差標(biāo)準(zhǔn)化(min-maxnormalization)方法進(jìn)行歸一化。然后將歸一化后的特征向量分別采用主成份分析(pca)方法降維,得到兩個(gè)2048為特征向量。最后采用向量連接的方法,得到最終的4096維特征向量作為句子生成模型的輸入,如圖3所示。2、句子描述的生成本發(fā)明是基于venugopalan等人提出的s2vt句子生成模型來(lái)生成句子描述,經(jīng)典的s2vt句子生成模型的編碼階段當(dāng)視頻幀輸入結(jié)束之后,接著全部輸入的是空的視覺(jué)信息。為了能夠在句子生成階段在視覺(jué)信息和單詞之間建立更多的聯(lián)系,在s2vt句子生成模型完成對(duì)視頻幀的讀取之后輸入視頻的平均池化特征,如圖6所示。為了提取平均池化特征,首先先利用vgg-16網(wǎng)絡(luò)模型提取出所有原始視頻幀(rgb圖像)的fc7層特征,然后對(duì)所有視頻幀的特征進(jìn)行平均池化操作,然后對(duì)所有視頻幀的特征采用平均池化方法,按照如下公式:其中vi表示提取的視頻v視頻幀,n表示視頻v提取視頻幀的數(shù)量。最終得到視頻的一個(gè)平均池化特征作為視頻的整體特征表達(dá)。與此同時(shí),句子生成模型的解碼階段也開(kāi)始工作,每次生成單詞都會(huì)有視覺(jué)信息輸入進(jìn)來(lái),直到輸出結(jié)束標(biāo)記<eos>表示句子生成結(jié)束。生成的單詞是由softmax函數(shù)確定的,按照如下公式:每個(gè)時(shí)刻t都會(huì)計(jì)算出詞匯表v中每個(gè)單詞在第二層輸出zt條件下的概率分布。其中y表示詞匯表中的單詞,在測(cè)試階段,選擇概率最大的單詞y作為時(shí)刻t的單詞輸出。每次在詞匯表v中求出條件概率最大的單詞y,其中zt=ht,表示t時(shí)刻第二層lstm的輸出。實(shí)質(zhì)上在上述s2vt句子生成模型生成句子描述的過(guò)程中,我們?cè)谄渚幋a階段加入視頻整體特征來(lái)增加視覺(jué)信息與單詞之間的聯(lián)系嚴(yán)格來(lái)說(shuō)也是對(duì)于s2vt句子生成模型的一種優(yōu)化,即屬于模型編碼階段的優(yōu)化。3、采用word2vec詞向量表示方法進(jìn)一步優(yōu)化句子生成模型為了能夠更好地獲取單詞與單詞之間的相似性和相關(guān)性,我們提出的基于word2vec的優(yōu)化方法是在英文wiki語(yǔ)料庫(kù)上訓(xùn)練,得到的單詞向量替換one-hotvector,并加入到改進(jìn)的s2vt句子生成模型中,方法框架如圖7所示。本文采用google公司研發(fā)出來(lái)的開(kāi)源工具包word2vec來(lái)生成文本單詞向量。為了訓(xùn)練出性能更好的文本詞向量表示,本方法在英文wiki語(yǔ)料庫(kù)上訓(xùn)練單詞向量。英文wiki語(yǔ)料庫(kù)大小約11g,是xml格式的文本。首先需要將xml格式的文件轉(zhuǎn)成txt文件,其中包含大約375萬(wàn)篇文章。然后通過(guò)對(duì)txt文件進(jìn)行訓(xùn)練處理得到語(yǔ)料集中所有單詞的詞向量表示。在得到了文本的詞向量之后,將原來(lái)網(wǎng)絡(luò)模型中的one-hotvector表示的單詞向量表示替換成word2vec詞向量。如圖8所示是本發(fā)明最終模型生成的句子描述與標(biāo)準(zhǔn)值。圖中可以發(fā)現(xiàn)本文提出的模型可以較好地獲取視頻中重要的信息,尤其是運(yùn)動(dòng)信息。雖然對(duì)于細(xì)節(jié)方面還有不足,但是對(duì)視頻的整體內(nèi)容都能夠較好地描述出來(lái)。接下來(lái)對(duì)每個(gè)方法進(jìn)行實(shí)驗(yàn)驗(yàn)證:1、視頻特征提取方法驗(yàn)證本發(fā)明對(duì)提出的視頻特征提取方法在視頻描述數(shù)據(jù)集msvdc上進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表1所示。表1中呈現(xiàn)了不同的算法在msvdc上多個(gè)指標(biāo)的對(duì)比情況。其中主要包括了經(jīng)典的s2vt的不同變形。該部分句子生成模型部分均采用經(jīng)典的s2vt句子生成模型。實(shí)驗(yàn)結(jié)果表明本發(fā)明提出的方法可以提取更加魯棒的視頻特征,從而有效地提升視頻描述的性能。表1msvd數(shù)據(jù)集上特征提取方法對(duì)比結(jié)果(單位為%)2、s2vt句子生成模型優(yōu)化方法驗(yàn)證本發(fā)明對(duì)提出的句子生成模型優(yōu)化方法在視頻描述數(shù)據(jù)集msvdc上進(jìn)行了對(duì)比實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)結(jié)果如表2和表3所示。表2中呈現(xiàn)了經(jīng)典的s2vt句子生成模型和加入了平均池化(meanpool)特征后的s2vt句子生成模型的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本發(fā)明提出的方法可以在視頻的整體信息與單詞之間建立更多的聯(lián)系,從而有效地提升視頻描述的性能。表3中呈現(xiàn)了在改進(jìn)的句子生成模型的基礎(chǔ)上分別采用one-hotvector詞表征和word2vec詞向量得到的模型的性能對(duì)比。實(shí)驗(yàn)結(jié)果表明word2vec比one-hotvector更加有助于視頻描述性能的提高。表2msvd數(shù)據(jù)集上優(yōu)化方法1的對(duì)比結(jié)果(單位%)方法bleumeteorrgb34.728.8rgb+meanpool35.929.4sift24.724.8sift+meanpool30.126.2rgb+sift37.830.4rgbt+sift+meanpool40.530.8表3msvd數(shù)據(jù)集上優(yōu)化方法2對(duì)比結(jié)果(單位%)方法bleumeteorrgb+one-hotvector35.929.4rgb+word2vec37.029.7sift30.126.2sift+word2vec31.826.6rgb+sift40.530.8rgbt+sift+word2vec41.731.23、最終模型與其他方法的對(duì)比驗(yàn)證表4中呈現(xiàn)了目前現(xiàn)有方法與本發(fā)明最終模型的性能的對(duì)比。用于對(duì)比的方法包括thomason等人2014年提出的fgm方法,venugopalan等人2015年提出的提取視頻的平均池化特征作為輸入的方法,yao等人2015年提出的基于3dcnn和視覺(jué)注意機(jī)制方法,venugopalan等人2015年提出的s2vt方法,pan等人2015年提出的lstm-e方法,yu等人2015年提出的h-rnn方法和venugopalan在2016年提出的基于文本的遷移學(xué)習(xí)和dcc模型的方法。實(shí)驗(yàn)結(jié)果表明,本發(fā)明的最終模型在bleu和meteor兩個(gè)指標(biāo)上比大多數(shù)方法要好,跟最好的方法相比也是具有一定競(jìng)爭(zhēng)力的。表4msvd數(shù)據(jù)集上視頻描述模型對(duì)比結(jié)果(單位為%)方法bleumeteorthomason等人201413.623.9venugopalan等人201531.226.9yao等人201541.929.8venugopalan等人2015-26.2pan等人201543.632.1yu等人201544.331.1venugopalan等人201642.131.4ours41.731.2當(dāng)然上述實(shí)施例只為說(shuō)明本發(fā)明的技術(shù)構(gòu)思及特點(diǎn),其目的在于讓熟悉此項(xiàng)技術(shù)的人能夠了解本發(fā)明的內(nèi)容并據(jù)以實(shí)施,并不能以此限制本發(fā)明的保護(hù)范圍。凡根據(jù)本發(fā)明主要技術(shù)方案的精神實(shí)質(zhì)所做的修飾,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)12