本發(fā)明屬于視頻技術(shù)領(lǐng)域,尤其涉及一種視頻情感內(nèi)容的獲取方法及系統(tǒng)。
背景技術(shù):
隨著視頻數(shù)量的爆炸性增長,自動化的視頻內(nèi)容分析技術(shù)在很多應(yīng)用場景中承擔(dān)著重要的角色,比如視頻檢索、視頻總結(jié)、視頻質(zhì)量評估等。因此,亟需一種能夠自動分析視頻內(nèi)容的技術(shù)來幫助更好地管理和組織視頻,同時通過這些技術(shù)可以幫助用戶更快的找到滿足其期待的視頻集合。傳統(tǒng)的視頻內(nèi)容分析技術(shù)關(guān)注點側(cè)重于視頻的語義內(nèi)容,比如視頻內(nèi)容是關(guān)于運動類別的還是新聞事件的。眾所周知,當(dāng)觀眾觀看視頻的時候,他們的情緒狀態(tài)很容易受到視頻的內(nèi)容影響。比如看恐怖電影的時候,觀眾會感到非常恐怖,相應(yīng)地,看喜劇的時候會感覺到高興。如今越來越多的人在互聯(lián)網(wǎng)上檢索視頻以滿足各種情感需求,比如釋放壓力、打發(fā)無聊。因此有必要去分析視頻內(nèi)容能夠給觀看者帶來怎樣的情緒,以及預(yù)計視頻內(nèi)容對觀眾情緒影響的程度大小。不同于傳統(tǒng)的視頻內(nèi)容分析技術(shù)關(guān)注點是視頻里面發(fā)生的主要事件,視頻情感內(nèi)容分析則是側(cè)重于去預(yù)測視頻可能帶來的情緒反應(yīng)。通過視頻情感內(nèi)容分析技術(shù),電影制作者和導(dǎo)演可以改變其技術(shù)去制作更加符合當(dāng)前用戶情感趨勢的電影,用戶也可以通過輸入其情感需求關(guān)鍵字等去獲取更加符合心意的視頻作品。
視頻情感內(nèi)容分析技術(shù)大致可以分為兩種:一種是直接去分析視頻的內(nèi)容來預(yù)測其可能產(chǎn)生的情緒,另一種是間接的通過一些物理設(shè)備去分析觀看者的情緒響應(yīng)。上述兩種方法均大致可以分成兩個步驟:特征提取、特征映射。本申請的發(fā)明人在實施本申請的過程中發(fā)現(xiàn),在預(yù)測觀眾觀看視頻后可能產(chǎn)生的情緒方面,間接的方法具有較高的預(yù)測準(zhǔn)確率,但是在特征提取這一步,需要用戶穿戴一些傳感器和腦電儀等設(shè)備,無形中干擾了觀眾真實的想法,同時使用該方法收集特征也需要較多的人力和財力去收集生理信號等。而不同于間接的方法需要其他的設(shè)備和全程的人員參與,直接的視頻情感內(nèi)容分析技術(shù)僅僅需要分析視頻內(nèi)容去預(yù)測其可能帶給觀看者的情緒,僅僅在訓(xùn)練階段需要收集用戶的打分,后期預(yù)測完全不需要觀看者的參與。目前關(guān)于直接的視頻情感內(nèi)容分析技術(shù)大多數(shù)關(guān)注于怎樣有效的提取更多的特征用于視頻情感內(nèi)容分析,而沒有通過技術(shù)去分析在大量的高維特征中哪些與情緒相關(guān),同時哪些特征能夠有效地傳播視頻的情感信息。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題在于提供一種視頻情感內(nèi)容的獲取方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)中沒有通過技術(shù)去分析在大量的高維特征中哪些與情緒相關(guān),同時哪些特征能夠有效地傳播視頻的情感信息。
本發(fā)明是這樣實現(xiàn)的,一種視頻情感內(nèi)容的獲取方法,包括:
接收待分析視頻;
獲取所述待分析視頻的音頻和視頻特征及關(guān)鍵幀;
將所述關(guān)鍵幀分割成若干感興趣塊,并提取所述感興趣塊的圖片特征;
根據(jù)所述音頻和視頻特征和所述感興趣塊的圖片特征進行視頻情感內(nèi)容分析,得到所述待分析視頻的視頻情感內(nèi)容。
進一步地,所述將所述關(guān)鍵幀分割成若干感興趣塊,并提取所述感興趣塊的圖片特征包括:
對所述關(guān)鍵幀進行距離順序排序,得到排序后的關(guān)鍵幀序列;
按照預(yù)置提取規(guī)則從所述關(guān)鍵幀序列中提取若干待分割關(guān)鍵幀;
利用尺寸不變特征變換算法檢測所述待分割關(guān)鍵幀的關(guān)鍵點,根據(jù)檢測結(jié)果對所述待分割關(guān)鍵幀進行分割,得到若干所述感興趣塊;
利用卷積神經(jīng)網(wǎng)絡(luò)提取所述感興趣區(qū)域的圖片特征。
進一步地,所述對所述關(guān)鍵幀進行距離順序排序,得到排序后的關(guān)鍵幀序列包括:
獲取每一關(guān)鍵幀的顏色直方圖,并根據(jù)所有所述關(guān)鍵幀的顏色直方圖計算平均顏色直方圖;
計算每一關(guān)鍵幀的顏色直方圖與所述平均顏色直方圖的曼哈頓距離;
按照曼哈頓距離由短到長的順序,對所述關(guān)鍵幀進行排序,得到排序后的關(guān)鍵幀序列。
進一步地,在對所述關(guān)鍵幀進行順序排序,得到排序后的關(guān)鍵幀序列之后,還包括:
對所述關(guān)鍵幀序列中的關(guān)鍵幀進行人臉檢測,根據(jù)檢測結(jié)果得到包含人臉的關(guān)鍵幀和不包含人臉的關(guān)鍵幀;
按照預(yù)置排序規(guī)則構(gòu)成不包含人臉的關(guān)鍵幀的無人臉序列,及包含人臉的關(guān)鍵幀的人臉序列;
則所述按照預(yù)置提取規(guī)則從所述關(guān)鍵幀序列中提取若干待分割關(guān)鍵幀包括;
保留所述無人臉序列和所述人臉序列中的每一關(guān)鍵幀在所述關(guān)鍵幀序列中的相對順序;
根據(jù)所述無人臉序列和所述人臉序列構(gòu)建新的關(guān)鍵幀序列;
從所述新的關(guān)鍵幀序列中順序提取若干關(guān)鍵幀,作為待分割關(guān)鍵幀。
進一步地,所述根據(jù)所述音頻和視頻特征和所述感興趣塊的圖片特征進行視頻情感內(nèi)容分析,得到所述待分析視頻的視頻情感內(nèi)容包括:
將所述音頻和視頻特征和所述感興趣塊的圖片特征進行線性融合,得到特征集合;
以徑向基函數(shù)為核函數(shù),采用支持向量機和支持向量回歸將所述特征集合映射到情感空間中,得到所述待分析視頻的視頻情感內(nèi)容。
本發(fā)明還提供了一種視頻情感內(nèi)容的獲取系統(tǒng),包括:
獲取單元,用于接收待分析視頻,獲取所述待分析視頻的音頻和視頻特征及關(guān)鍵幀;
分割單元,用于將所述關(guān)鍵幀分割成若干感興趣塊,并提取所述感興趣塊的圖片特征;
分析單元,用于根據(jù)所述音頻和視頻特征和所述感興趣塊的圖片特征進行視頻情感內(nèi)容分析,得到所述待分析視頻的視頻情感內(nèi)容。
進一步地,所述分割單元包括:
關(guān)鍵幀排序模塊,用于對所述關(guān)鍵幀進行距離順序排序,得到排序后的關(guān)鍵幀序列;
關(guān)鍵幀提取模塊,用于按照預(yù)置提取規(guī)則從所述關(guān)鍵幀序列中提取若干待分割關(guān)鍵幀;
關(guān)鍵幀分割模塊,用于利用尺寸不變特征變換算法檢測所述待分割關(guān)鍵幀的關(guān)鍵點,根據(jù)檢測結(jié)果對所述待分割關(guān)鍵幀進行分割,得到若干所述感興趣塊;
特征提取模塊,用于利用卷積神經(jīng)網(wǎng)絡(luò)提取所述感興趣區(qū)域的圖片特征。
進一步地,所述關(guān)鍵幀排序模塊具體用于:
獲取每一關(guān)鍵幀的顏色直方圖,并根據(jù)所有所述關(guān)鍵幀的顏色直方圖計算平均顏色直方圖;
計算每一關(guān)鍵幀的顏色直方圖與所述平均顏色直方圖的曼哈頓距離;
按照曼哈頓距離由短到長的順序,對所述關(guān)鍵幀進行排序,得到排序后的關(guān)鍵幀序列。
進一步地,所述關(guān)鍵幀排序模塊還用于:
對所述關(guān)鍵幀序列中的關(guān)鍵幀進行人臉檢測,根據(jù)檢測結(jié)果得到包含人臉的關(guān)鍵幀和不包含人臉的關(guān)鍵幀;
按照預(yù)置排序規(guī)則構(gòu)成不包含人臉的關(guān)鍵幀的無人臉序列,及包含人臉的關(guān)鍵幀的人臉序列;
則所述關(guān)鍵幀提取模塊還用于;
保留所述無人臉序列和所述人臉序列中的每一關(guān)鍵幀在所述關(guān)鍵幀序列中的相對順序;
根據(jù)所述無人臉序列和所述人臉序列構(gòu)建新的關(guān)鍵幀序列;
從所述新的關(guān)鍵幀序列中順序提取若干關(guān)鍵幀,作為待分割關(guān)鍵幀。
進一步地,所述分析單元具體用于:
將所述音頻和視頻特征和所述感興趣塊的圖片特征進行線性融合,得到特征集合;
以徑向基函數(shù)為核函數(shù),采用支持向量機和支持向量回歸將所述特征集合映射到情感空間中,得到所述待分析視頻的視頻情感內(nèi)容。
本發(fā)明與現(xiàn)有技術(shù)相比,有益效果在于:本發(fā)明實施例通過獲取待分析視頻的音頻和視頻特征及關(guān)鍵幀,將該關(guān)鍵幀分割成若感興趣塊并獲取該感興趣塊的圖片特征,最后用待分析視頻的音頻和視頻特征集圖片特征進行視頻情感內(nèi)容的分析,并最終得到該待分析視頻的視頻情感內(nèi)容。本發(fā)明不僅僅利用傳統(tǒng)的音頻和視頻特征,還利用了待分析視頻的圖片特征來進行視頻情感內(nèi)容的分析,相較于傳統(tǒng)的視頻情感內(nèi)容分析方法,本發(fā)明實施例在分類問題上提高了視頻情感內(nèi)容識別的準(zhǔn)確率,在預(yù)測問題上降低了均方誤差。
附圖說明
圖1是本發(fā)明一實施例提供的視頻情感內(nèi)容的獲取方法的流程圖;
圖2是本發(fā)明另一實施例提供的視頻情感內(nèi)容的獲取方法的流程圖;
圖3是本發(fā)明又一實施例提供的視頻情感內(nèi)容的獲取方法的流程圖;
圖4是本發(fā)明又一實施例提供的視頻情感內(nèi)容的獲取系統(tǒng)的結(jié)構(gòu)示意圖;
圖5是本發(fā)明又一實施例提供的分割單元的結(jié)構(gòu)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
圖1示出了本發(fā)明一實施例提供視頻情感內(nèi)容的獲取方法,包括:
s101,接收待分析視頻。
s102,獲取所述待分析視頻的音頻和視頻特征及關(guān)鍵幀。
s103,將所述關(guān)鍵幀分割成若干感興趣塊,并提取所述感興趣塊的圖片特征。
在本步驟中,利用尺度不變特征變換(scale-invariantfeaturetransform,sift)描述子來檢測關(guān)鍵幀中的關(guān)鍵點,并根據(jù)檢測結(jié)果將關(guān)鍵幀分割成一個個的感興趣塊(patch),最后利用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)提取這些感興趣塊的深度特征用于下一步地視頻情感內(nèi)容分析。
s104,根據(jù)所述音頻和視頻特征和所述感興趣塊的圖片特征進行視頻情感內(nèi)容分析,得到所述待分析視頻的視頻情感內(nèi)容。
圖2示出了本發(fā)明提供另一實施例,一種視頻情感內(nèi)容的獲取方法,包括:
s201,接收待分析視頻。
s202,獲取所述待分析視頻的音頻和視頻特征及關(guān)鍵幀。
s203,對所述關(guān)鍵幀進行距離順序排序,得到排序后的關(guān)鍵幀序列。
s204,按照預(yù)置提取規(guī)則從所述關(guān)鍵幀序列中提取若干待分割關(guān)鍵幀。
在本步驟中,提取關(guān)鍵幀序列中的前幾個關(guān)鍵幀用于視頻情感內(nèi)容分析。
s205,利用尺寸不變特征變換算法檢測所述待分割關(guān)鍵幀的關(guān)鍵點,根據(jù)檢測結(jié)果對所述待分割關(guān)鍵幀進行分割,得到若干所述感興趣塊;
s206,利用卷積神經(jīng)網(wǎng)絡(luò)提取所述感興趣區(qū)域的圖片特征。
s207,將所述音頻和視頻特征和所述感興趣塊的圖片特征進行線性融合,得到特征集合。
s208,以徑向基函數(shù)為核函數(shù),采用支持向量機和支持向量回歸將所述特征集合映射到情感空間中,得到所述待分析視頻的視頻情感內(nèi)容。
在上述步驟s203中,獲取每一關(guān)鍵幀的rgb顏色直方圖,并根據(jù)所有所述關(guān)鍵幀的rgb顏色直方圖計算平均顏色直方圖,計算每一關(guān)鍵幀的顏色直方圖與所述平均顏色直方圖的曼哈頓距離,最后按照曼哈頓距離由短到長的順序,對所述關(guān)鍵幀進行排序,得到排序后的關(guān)鍵幀序列。
為了能夠根據(jù)待分析視頻中的關(guān)鍵人物,特別是主角的情緒變化進行視頻情感內(nèi)容分析,在步驟203之后,還包括:對所述關(guān)鍵幀序列中的關(guān)鍵幀進行人臉檢測,根據(jù)檢測結(jié)果得到包含人臉的關(guān)鍵幀和不包含人臉的關(guān)鍵幀;按照預(yù)置排序規(guī)則構(gòu)成不包含人臉的關(guān)鍵幀的無人臉序列,及包含人臉的關(guān)鍵幀的人臉序列,則步驟s204具體包括:保留所述無人臉序列和所述人臉序列中的每一關(guān)鍵幀在所述關(guān)鍵幀序列中的相對順序;根據(jù)所述無人臉序列和所述人臉序列構(gòu)建新的關(guān)鍵幀序列;從所述新的關(guān)鍵幀序列中順序提取若干關(guān)鍵幀,作為待分割關(guān)鍵幀。
下面結(jié)合圖3對本實施例進行進一步地解釋:
本發(fā)明實施例提供的視頻情感內(nèi)容的獲取方法的主要流程如圖3所示,對于進入獲取系統(tǒng)的每一待分析視頻,提取其音頻和視頻特征,以及關(guān)鍵幀等特征。在提取完關(guān)鍵幀后采用人臉檢測的方法提取關(guān)鍵幀中包含人臉的關(guān)鍵幀,利用sift算子將這些帶人臉的關(guān)鍵幀分割成多個的感興趣塊(patch)。對于從同一個視頻中提取的感興趣塊標(biāo)記相同的標(biāo)簽。接下來需要利用卷積神經(jīng)網(wǎng)絡(luò)(cnn)提取感興趣塊對應(yīng)的圖片特征。這里采用之前在imagenet上訓(xùn)練好的模型來初始化整個網(wǎng)絡(luò),從關(guān)鍵幀中提取的感興趣塊則作為網(wǎng)絡(luò)的輸入部分,網(wǎng)絡(luò)fc7層的權(quán)值則作為最終的圖片特征輸出。在獲得了待分析視頻的這些特征(音頻、視頻、圖片)后,采用svm(supportvectormachine,支持向量機)和svr(supportvectorregression,支持向量回歸)進行視頻情感內(nèi)容分析。
以下為各個部分的詳細(xì)介紹:
一、特征提取
在發(fā)明提供的實施例中,采用三種不同的特征來進行情感分析:音頻、視頻和靜態(tài)圖像特征。關(guān)于視頻和音頻特征本實施例采用的有:melfrequencycepstralcoefficents(梅爾頻率倒譜系數(shù))、audioflatness(音頻平整度)、colorfulness(色度)、medianlightness(平均亮度)、normalizednumberofwhiteframes(歸一化白幀數(shù))、numberofscenecutsperframe(每幀鏡頭數(shù))、cutlength(鏡頭長度)、zero-crossingrate(高過零比)、maxsaliencycount(最大顯著數(shù))。
以下介紹靜態(tài)圖像特征的提取過程:
假設(shè)一個待分析視頻v包含n個關(guān)鍵幀,v={f1,f2,...,fn-1,fn},其中fi定義為待分析視頻v中的第i個關(guān)鍵幀,第i個關(guān)鍵幀的rgb顏色直方圖定義為h(fi).兩個關(guān)鍵幀i和j之間的曼哈頓距離d通過下面的公式計算獲得:
d(fi,fj)=|h(fi)-h(fj)|(1)
對應(yīng)的關(guān)鍵幀通過公式(2)計算,它被定義為距離待分析視頻v中所有關(guān)鍵幀的平均rgb顏色直方圖最近的幀。
其中
二、基于主角屬性的視頻情感內(nèi)容分析
而在實際觀影效果中,觀眾在觀看視頻的時候更容易受到關(guān)鍵人物的人臉,特別是主角的吸引進而產(chǎn)生對應(yīng)的情緒,因此在本實施例中還考慮到不能僅僅是將整個關(guān)鍵幀用于視頻情感內(nèi)容分析,而應(yīng)該有所甄別。在上述的關(guān)鍵幀提取中獲得了一個關(guān)鍵幀序列l(wèi)={f1′,f2′,...,f′n-1,fn′}。為了獲得更加強有力的特征用于情感分析,本實施例對上述序列l(wèi)中的關(guān)鍵幀進行人臉檢測,那些不包含人臉的關(guān)鍵幀構(gòu)成一個新的序列l(wèi)a,剩下包含人臉的則構(gòu)成序列l(wèi)b。序列a和b中的關(guān)鍵幀都保留了他們在原始序列l(wèi)中相對的順序。最終得到了一個待分析視頻v中新的所有關(guān)鍵幀的序列l(wèi)'如下:
l′={lb,la}(3)
考慮到一個關(guān)鍵幀不夠用來表征待分析視頻的情感內(nèi)容,本實施例中采用新的所有關(guān)鍵幀的序列l(wèi)′的前幾個關(guān)鍵幀用來進行情感內(nèi)容分析。對于任一個關(guān)鍵幀,并不是所有的部分都能夠用來表征視頻的情感內(nèi)容,因此本實施例采用sift描述子去檢測關(guān)鍵幀中的關(guān)鍵點,然后基于這些關(guān)鍵點將關(guān)鍵幀分割成一個個的感興趣塊。假設(shè)待分析視頻片段v中,x是從待分析視頻v中提取的音頻和視頻特征,經(jīng)過關(guān)鍵幀提取和分割的步驟后獲得了n個感興趣塊,則v={p1,p2,...,pn-1,pn},其中pn是從v中提取的第n個感興趣塊。對于感興趣塊pn,采用一個提前訓(xùn)練好的卷積神網(wǎng)絡(luò)模型,獲得了一個4096維度的特征向量
其中f(pi)被定義為第i個感興趣塊用于視頻情感內(nèi)容分析的特征集合。對于待分析視頻v,最終用于情感計算的特征集合f(v)如下:
經(jīng)過上述幾個特征提取步驟后,待分析視頻v被擴充到n個感興趣塊(patch)用來進行情感分析,在本實施例中,從同一個待分析視頻v中提取的感興趣塊的標(biāo)簽都是相同的。在將這些特征用于情感分析之前,本實施例對所有提取到的特征進行數(shù)據(jù)標(biāo)準(zhǔn)化操作,最后采用svm和svr將特征映射到情感空間中,具體地,本實施例利用libsvm實現(xiàn)svm和svr,其中采用rbf作為核函數(shù),利用網(wǎng)格搜索獲取c,γ和p參數(shù)的值。
對比之前用于視頻情感內(nèi)容分析的方法,本實施例一定程度上提高了視頻情感內(nèi)容識別的準(zhǔn)確率(在分類問題上)、降低了均方誤差(在預(yù)測問題上),這主要得益于以下幾點:
1、在特征提取這一步,不止利用傳統(tǒng)的音頻和視頻等特征,還加入了視頻的靜態(tài)圖像特征,同時提取特征的方法也不是采用簡單的紋理、顏色、形狀等較為底層的特征,而是利用卷積神經(jīng)網(wǎng)絡(luò)去提取更加深層的特征。
2、將關(guān)鍵幀用于情感內(nèi)容分析過程中不是粗暴的直接將整個關(guān)鍵幀用于情感分析,而是利用sift描述子檢測到關(guān)鍵點后再根據(jù)關(guān)鍵點提取感興趣塊并用于最后的結(jié)果分析。
3、傳統(tǒng)的特征提取僅僅考慮提取更多的特征,而忽略了在這些特征中哪些特征是能夠有效地用來傳遞情感信息,本實施例中首次提出并采用基于主角屬性(即人臉)進行視頻情感內(nèi)容分析。
本發(fā)明還提供了如圖4所示的一種視頻情感內(nèi)容的獲取系統(tǒng),包括:
獲取單元401,用于接收待分析視頻,獲取所述待分析視頻的音頻和視頻特征及關(guān)鍵幀;
分割單元402,用于將所述關(guān)鍵幀分割成若干感興趣塊,并提取所述感興趣塊的圖片特征;
分析單元403,用于根據(jù)所述音頻和視頻特征和所述感興趣塊的圖片特征進行視頻情感內(nèi)容分析,得到所述待分析視頻的視頻情感內(nèi)容。
進一步地,如圖5所示,分割單元402包括:
關(guān)鍵幀排序模塊4021,用于對所述關(guān)鍵幀進行距離順序排序,得到排序后的關(guān)鍵幀序列;
關(guān)鍵幀提取模塊4022,用于按照預(yù)置提取規(guī)則從所述關(guān)鍵幀序列中提取若干待分割關(guān)鍵幀;
關(guān)鍵幀分割模塊4023,用于利用尺寸不變特征變換算法檢測所述待分割關(guān)鍵幀的關(guān)鍵點,根據(jù)檢測結(jié)果對所述待分割關(guān)鍵幀進行分割,得到若干所述感興趣塊;
特征提取模塊4024,用于利用卷積神經(jīng)網(wǎng)絡(luò)提取所述感興趣區(qū)域的圖片特征。
進一步地,關(guān)鍵幀排序模塊4021具體用于:
獲取每一關(guān)鍵幀的顏色直方圖,并根據(jù)所有所述關(guān)鍵幀的顏色直方圖計算平均顏色直方圖;
計算每一關(guān)鍵幀的顏色直方圖與所述平均顏色直方圖的曼哈頓距離;
按照曼哈頓距離由短到長的順序,對所述關(guān)鍵幀進行排序,得到排序后的關(guān)鍵幀序列。
進一步地,關(guān)鍵幀排序模塊4021還用于:
對所述關(guān)鍵幀序列中的關(guān)鍵幀進行人臉檢測,根據(jù)檢測結(jié)果得到包含人臉的關(guān)鍵幀和不包含人臉的關(guān)鍵幀;
按照預(yù)置排序規(guī)則構(gòu)成不包含人臉的關(guān)鍵幀的無人臉序列,及包含人臉的關(guān)鍵幀的人臉序列;
則關(guān)鍵幀提取模塊4022還用于;
保留所述無人臉序列和所述人臉序列中的每一關(guān)鍵幀在所述關(guān)鍵幀序列中的相對順序;
根據(jù)所述無人臉序列和所述人臉序列構(gòu)建新的關(guān)鍵幀序列;
從所述新的關(guān)鍵幀序列中順序提取若干關(guān)鍵幀,作為待分割關(guān)鍵幀。
進一步地,分析單元403具體用于:
將所述音頻和視頻特征和所述感興趣塊的圖片特征進行線性融合,得到特征集合;
以徑向基函數(shù)為核函數(shù),采用支持向量機和支持向量回歸將所述特征集合映射到情感空間中,得到所述待分析視頻的視頻情感內(nèi)容。
本發(fā)明提供的上述實施例可用于自動識別、預(yù)測電影可能帶來的情緒響應(yīng),像大型視頻網(wǎng)站可以利用本發(fā)明提供的上述實施例進行視頻分類和標(biāo)注。上述實施例對于構(gòu)造具有情感的機器人具有一定的啟發(fā)作用,機器人通過獲取其所看到的畫面去預(yù)測一個正常人應(yīng)該有的反應(yīng)從而自身(機器人)做出符合人類反應(yīng)的情緒響應(yīng)。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。