亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種跨媒體檢索方法與流程

文檔序號(hào):11950693閱讀:466來源:國(guó)知局
本發(fā)明屬于深度學(xué)習(xí)和多媒體檢索
技術(shù)領(lǐng)域
:,涉及跨媒體檢索方法,尤其涉及一種利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征和FisherVector提取文本特征的跨媒體檢索方法。
背景技術(shù)
::隨著互聯(lián)網(wǎng)的高速發(fā)展,圖像、文本、視頻、音頻等不同類型的多媒體數(shù)據(jù)呈現(xiàn)出爆炸性的增長(zhǎng)。這些多媒體數(shù)據(jù)經(jīng)常會(huì)同時(shí)出現(xiàn),用來描述一個(gè)相同的事物。不同模態(tài)的信息反映了事物的不同屬性,人們需要獲取不同模態(tài)的信息來滿足對(duì)事物不同形式的描述的需求。比如,對(duì)于一副圖像,我們想要找到與其相關(guān)的文字描述;或者對(duì)于一段文本,找到符合這段文本語(yǔ)義的圖像或是視頻。要滿足上述需求,就需要實(shí)現(xiàn)跨媒體檢索的相關(guān)技術(shù)?,F(xiàn)有檢索系統(tǒng)大都是建立在單一模態(tài)文本信息的基礎(chǔ)上,例如谷歌、百度等搜索引擎。通過查詢請(qǐng)求檢索圖像、音頻、視頻的功能本質(zhì)上是對(duì)一個(gè)由文字信息組成的元數(shù)據(jù)庫(kù)上的內(nèi)容匹配,這種檢索仍然屬于傳統(tǒng)的基于關(guān)鍵字的檢索技術(shù)。雖然關(guān)鍵字能夠準(zhǔn)確地描述概念的細(xì)節(jié)信息,但是它很難完整、生動(dòng)地呈現(xiàn)一幅圖片或一段視頻的內(nèi)容,并可能帶有標(biāo)注人的主觀意愿。其固有缺陷使得大批學(xué)者開始轉(zhuǎn)向研究基于內(nèi)容的檢索技術(shù),通過充分挖掘多媒體數(shù)據(jù)的語(yǔ)義關(guān)聯(lián),使計(jì)算機(jī)能夠更準(zhǔn)確地理解多媒體信息表達(dá)的內(nèi)容。然而,基于內(nèi)容的檢索一般只關(guān)注媒體底層特征,且通常針對(duì)單一模態(tài)媒體對(duì)象,使得查詢和檢索結(jié)果必須為相同的模態(tài),無(wú)法實(shí)現(xiàn)跨越各種媒體類型的綜合檢索。因此,跨媒體檢索的概念被提出??缑襟w檢索是不依托于某個(gè)單一模態(tài)的媒體,可以實(shí)現(xiàn)任意模態(tài)媒體之間的相互檢索。輸入任意類型媒體的信息,通過跨媒體檢索即可得到相關(guān)的其他媒體信息在多模態(tài)的巨量數(shù)據(jù)中,更快地檢索出符合要求的結(jié)果?,F(xiàn)有的跨媒體檢索方法主要涉及三個(gè)關(guān)鍵問題:跨媒體度量、跨媒體索引、跨媒體排序。針對(duì)這三個(gè)關(guān)鍵問題的典型方法分別是基于匹配模型的跨媒體度量方法、基于哈希學(xué)習(xí)的跨媒體索引方法和基于排序?qū)W習(xí)的跨媒體排序方法,具體如下:第一,基于匹配模型的跨媒體度量方法,通過已知類別的訓(xùn)練數(shù)據(jù)對(duì)匹配模型進(jìn)行訓(xùn)練,來挖掘不同類型數(shù)據(jù)之間的內(nèi)在聯(lián)系,進(jìn)而對(duì)跨媒體數(shù)據(jù)之間的相似度進(jìn)行計(jì)算,返回相關(guān)性最高的檢索結(jié)果。匹配模型有兩種匹配方法,一種是基于相關(guān)性的匹配,如利用典型相關(guān)性分析(CanonicalCorrelationAnalysis,CCA)的方法;另一種是基于語(yǔ)義的匹配(SemanticMatching,SM),如利用多類邏輯回歸的方法進(jìn)行語(yǔ)義分類。第二,基于哈希學(xué)習(xí)的跨媒體索引方法。由于互聯(lián)網(wǎng)中海量大數(shù)據(jù)的出現(xiàn),使得人們對(duì)檢索速度提出了更高的要求。哈希索引是加快近似近鄰檢索的一種有效方法。該方法通過學(xué)習(xí)到的哈希模型將原始特征數(shù)據(jù)轉(zhuǎn)化為二進(jìn)制哈希碼,同時(shí)盡可能地保持原空間中的近鄰關(guān)系,即保持相關(guān)性。第三,基于排序?qū)W習(xí)的跨媒體排序方法??缑襟w排序的目的是學(xué)習(xí)不同模態(tài)之間的基于語(yǔ)義相似度的排序模型。具體做法是在檢索出語(yǔ)義相關(guān)的跨媒體數(shù)據(jù)之后,對(duì)檢索結(jié)果做一個(gè)更優(yōu)的排序,使得相關(guān)性更高的數(shù)據(jù)更加靠前,不斷迭代優(yōu)化過程,直到收斂得到最優(yōu)檢索。上述這些方法中,所用的圖像和文本特征幾乎都是使用人工定義的傳統(tǒng)特征,如SIFT特征。隨著計(jì)算機(jī)處理性能和計(jì)算能力的不斷提高,傳統(tǒng)的人工特征極大地阻礙了跨媒體檢索性能的提升,近一年,人們開始關(guān)注深度學(xué)習(xí)相關(guān)技術(shù)與跨媒體檢索的結(jié)合。事實(shí)證明,深度學(xué)習(xí)的有效應(yīng)用往往能對(duì)檢索效果帶來突破性的進(jìn)展。技術(shù)實(shí)現(xiàn)要素:為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種新的跨媒體檢索方法,利用VisualGeometryGroup團(tuán)隊(duì)(簡(jiǎn)稱VGG)提出的卷積神經(jīng)網(wǎng)絡(luò)(稱作VGGnet)提取圖像特征,利用基于Word2vec的FisherVector提取文本特征,通過邏輯回歸的方法對(duì)異構(gòu)圖像、文本特征進(jìn)行語(yǔ)義匹配,從而實(shí)現(xiàn)跨媒體檢索;現(xiàn)有跨媒體檢索方法普遍都是基于傳統(tǒng)的人工提取的特征,與人工定義的傳統(tǒng)特征相比,本發(fā)明的特征提取方法能有效地表示圖像和文本的深層語(yǔ)義,可提高跨媒體檢索的準(zhǔn)確度,從而大幅度提升跨媒體檢索效果。本發(fā)明的原理是:將文獻(xiàn)[1](SimonyanK,ZissermanA.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition[J].ComputerScience,2014)記載的VGG卷積神經(jīng)網(wǎng)絡(luò)用來提取圖像特征,使用基于Word2vec的FisherVector(簡(jiǎn)稱,F(xiàn)V)特征作為文本特征,再通過基于邏輯回歸的語(yǔ)義匹配(SemanticMatching,SM)方法找到圖像、文本這兩種異構(gòu)特征之間的關(guān)聯(lián),由此達(dá)到跨媒體檢索的目的。本發(fā)明所提出的特征能更好的對(duì)圖像和文本進(jìn)行表達(dá),可提高跨媒體檢索的準(zhǔn)確度。本發(fā)明提供的技術(shù)方案是:一種跨媒體檢索方法,利用VGG提出的卷積神經(jīng)網(wǎng)絡(luò)(稱作VGGnet)提取圖像特征,利用基于Word2vec的FisherVector提取文本特征,通過邏輯回歸的方法對(duì)異構(gòu)圖像、文本特征進(jìn)行語(yǔ)義匹配,從而實(shí)現(xiàn)跨媒體檢索;包括如下步驟:1)收集含有類別標(biāo)簽的跨媒體檢索數(shù)據(jù)集,設(shè)為D={D1,D2,…,Dn},n表示數(shù)據(jù)集的大?。凰隹缑襟w檢索數(shù)據(jù)集中數(shù)據(jù)的類型包括圖像和文本兩種媒體類型,表示為圖像-文本對(duì)Di(Di∈D),其中表示圖像的原始數(shù)據(jù),表示文本的原始數(shù)據(jù);類別標(biāo)簽設(shè)為L(zhǎng),L=[l1,l2,…,ln],其中l(wèi)i∈[1,2,…,C],C為類別的數(shù)目,li表示第i對(duì)圖像和文本所屬的類別;將所述跨媒體檢索數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù);2)對(duì)于數(shù)據(jù)集D中的所有圖像數(shù)據(jù)DI,其中使用VGG卷積神經(jīng)網(wǎng)絡(luò)方法提取得到圖像特征,將VGG卷積神經(jīng)網(wǎng)絡(luò)中的第七層全連接層fc7通過ReLU激活函數(shù)之后的4096維特征,記作I={I1,I2,…,In},其中Ij∈R4096,j∈[1,n],作為圖像特征;3)對(duì)于數(shù)據(jù)集中的文本特征數(shù)據(jù)DT,其中使用基于Word2vec的FisherVector方法提取文本特征;具體將DT轉(zhuǎn)換成詞向量集合W={W1,W2,…,Wn},W為DT包含的單詞的詞向量集合;將W={W1,W2,…,Wn}中的每個(gè)文本詞向量集合Wi代入式1中的X,求得每個(gè)文本的FisherVector,記作T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i個(gè)文本計(jì)算出來的FisherVector;由此提取得到文本特征;4)使用執(zhí)行步驟2)和步驟3)得到的訓(xùn)練數(shù)據(jù)中的圖像特征和文本特征對(duì)基于邏輯回歸的語(yǔ)義匹配模型進(jìn)行訓(xùn)練,將文本特征T轉(zhuǎn)換成了文本語(yǔ)義特征ПT,c是類別的個(gè)數(shù),也是文本語(yǔ)義特征的維數(shù);將圖像特征Ii轉(zhuǎn)換成后驗(yàn)概率組成的語(yǔ)義特征,后驗(yàn)概率為k∈[1,C],表示圖像Ii屬于類別k的概率;5)利用步驟4)訓(xùn)練好的語(yǔ)義匹配模型,使用步驟2和步驟3得到的測(cè)試數(shù)據(jù)的圖像特征和文本特征,針對(duì)一幅圖片或文本進(jìn)行測(cè)試,得到相關(guān)的文本或圖片,即為跨媒體檢索結(jié)果。針對(duì)上述跨媒體檢索方法,進(jìn)一步地,步驟3)使用基于Word2vec的FisherVector方法提取文本特征,具體包括如下過程:31)將原始文本數(shù)據(jù)DT,其中轉(zhuǎn)換成詞向量集合W={W1,W2,…,Wn},W為DT包含的單詞的詞向量集合;32)將單詞記作w,單詞w所對(duì)應(yīng)的詞向量為fword2vec(w);對(duì)于有fword2vec(w)∈Wi,i∈[1,n],即其中wi,jRdw,j∈1,bi],wi,j為包含單詞所對(duì)應(yīng)的詞向量,dw為詞向量的維度,bi為中包含的單詞個(gè)數(shù);33)用X={x1,x2,…,xnw}表示一個(gè)文本的詞向量集合,nw為詞向量個(gè)數(shù);令混合高斯模型GMM的參數(shù)為λ,λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分別表示GMM中每個(gè)高斯函數(shù)的權(quán)重、均值向量和協(xié)方差矩陣,G表示模型中高斯函數(shù)的個(gè)數(shù);GMM函數(shù)定義為式1:其中,p(xt|λ)表示對(duì)于向量xt(t∈[1,nw]),由GMM產(chǎn)生的概率值p(xt|λ),表示為式2:對(duì)權(quán)重ωi設(shè)置總和為1約束,表示為式3:其中,pi(x|λ)表示GMM中的第i個(gè)高斯函數(shù),由式4給出:其中,dw是向量的維度,|∑i|表示求∑i的行列式;用γt(i)來表示向量xt由第i個(gè)高斯函數(shù)產(chǎn)生的概率,表示為式5:34)對(duì)高斯模型的參數(shù)求偏導(dǎo)即得到FisherVector;所述FisherVector是將所有參數(shù)的求導(dǎo)結(jié)果連接組成的向量;所述高斯混合模型中高斯函數(shù)個(gè)數(shù)為G,向量維度為dw,所述FisherVector的維度為(2×dw+1)×G-1;權(quán)重ω的自由度為N-1;35)將W={W1,W2,…,Wn}中的每個(gè)文本詞向量集合Wi代入式1中的文本的詞向量集合X,求得每個(gè)文本的FisherVector,記作T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i個(gè)文本計(jì)算出來的FisherVector。更進(jìn)一步地,步驟34)所述對(duì)高斯模型的參數(shù)求偏導(dǎo),具體地,對(duì)各個(gè)參數(shù)的求導(dǎo)公式如式6~式8:其中,上標(biāo)d表示向量的第d個(gè)維度。針對(duì)上述跨媒體檢索方法,進(jìn)一步地,步驟4)所述使用訓(xùn)練數(shù)據(jù)中的圖像特征和文本特征對(duì)基于邏輯回歸的語(yǔ)義匹配模型進(jìn)行訓(xùn)練,所述圖像特征為I={I1,I2,…,In},Ij∈R4096;所述文本特征為T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1;相應(yīng)的圖像特征和文本特征具有共同的標(biāo)簽為L(zhǎng)=[l1,l2,…,ln],其中l(wèi)i∈[1,2,…,C];所述訓(xùn)練具體包括:41)將文本特征Ti轉(zhuǎn)換成由后驗(yàn)概率組成的語(yǔ)義特征ПT,c是類別的個(gè)數(shù),也是文本語(yǔ)義特征的維數(shù);表示為式10:其中,上標(biāo)d表示向量中的第d個(gè)維度;后驗(yàn)概率為k∈[1,C],表示文本Ti屬于類別k的概率,通過式9計(jì)算得到其中,是多類別邏輯回歸線性分類器的參數(shù),,表示的轉(zhuǎn)置,對(duì)應(yīng)類別k,其中DT=(2×dw+1)×G-1,DT為文本特征的維度;42)將圖像特征T轉(zhuǎn)換成圖像語(yǔ)義特征ПI,c是類別的個(gè)數(shù),也就是圖像語(yǔ)義特征的維數(shù);表示為式12:其中,上標(biāo)d表示向量中的第d個(gè)維度;后驗(yàn)概率為k∈[1,C],表示圖像Ii屬于類別k的概率,其中的計(jì)算公式如下:其中,是多類別邏輯回歸線性分類器的參數(shù),對(duì)應(yīng)類別k,是一個(gè)DI維的向量,DI為圖像特征的維度。針對(duì)上述跨媒體檢索方法,進(jìn)一步地,步驟5)所述針對(duì)一幅圖片或文本進(jìn)行測(cè)試,得到相關(guān)的文本或圖片;所述相關(guān)性的度量方法包括Kullback–Leiblerdivergence方法、NormalizedCorrelation方法、CenteredCorrelation方法和L2范式方法中的一種或多種。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明使用VGG卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,使用基于Word2vec的FisherVector(FV)特征作為文本特征,圖像和文本都使用了神經(jīng)網(wǎng)絡(luò)提取特征的方法。與傳統(tǒng)的人工特征相比,神經(jīng)網(wǎng)絡(luò)特征更加復(fù)雜,更能表現(xiàn)出圖像和文本的內(nèi)容。所以,使用神經(jīng)網(wǎng)絡(luò)特征來進(jìn)行跨媒體檢索,在檢索效果上會(huì)有較大提升。具體地,本發(fā)明具有如下優(yōu)點(diǎn):第一,本發(fā)明采用神經(jīng)網(wǎng)絡(luò)模擬生物視覺神經(jīng)網(wǎng)絡(luò)系統(tǒng),將像素級(jí)別的特征表示成高層的更加抽象的特征,用來解釋圖像數(shù)據(jù)。第二,本發(fā)明技術(shù)方案得益于計(jì)算機(jī)計(jì)算性能的提升,神經(jīng)網(wǎng)絡(luò)特征經(jīng)過更加復(fù)雜的計(jì)算得到,能夠在通過大規(guī)模數(shù)據(jù)的訓(xùn)練后取得很好的效果。附圖說明圖1是本發(fā)明提供的跨媒體檢索方法的流程框圖。圖2是本發(fā)明實(shí)施例采用wikipedia數(shù)據(jù)集中的圖像和文本實(shí)例;其中,(a)是wikipedia數(shù)據(jù)集中的一副圖像;(b)是該圖像所對(duì)應(yīng)的文本,文本呈現(xiàn)形式為長(zhǎng)段落。圖3是本發(fā)明實(shí)施例采用pascalsentence數(shù)據(jù)集的圖像和文本實(shí)例;其中,(a)是pascalsentence數(shù)據(jù)集中的一副圖像;(b)是該圖像所對(duì)應(yīng)的文本,文本為五個(gè)句子。具體實(shí)施方式下面結(jié)合附圖,通過實(shí)施例進(jìn)一步描述本發(fā)明,但不以任何方式限制本發(fā)明的范圍。本發(fā)明提供一種新的跨媒體檢索方法,利用VisualGeometryGroup團(tuán)隊(duì)(簡(jiǎn)稱VGG)提出的卷積神經(jīng)網(wǎng)絡(luò)(稱作VGGnet)提取圖像特征,利用基于Word2vec的FisherVector提取文本特征,通過邏輯回歸的方法對(duì)異構(gòu)圖像、文本特征進(jìn)行語(yǔ)義匹配,從而實(shí)現(xiàn)跨媒體檢索;現(xiàn)有跨媒體檢索方法普遍都是基于傳統(tǒng)的人工提取的特征,與人工定義的傳統(tǒng)特征相比,本發(fā)明的特征提取方法能有效地表示圖像和文本的深層語(yǔ)義,可提高跨媒體檢索的準(zhǔn)確度,從而大幅度提升跨媒體檢索效果。圖1是本發(fā)明提供的跨媒體檢索方法的流程框圖,包括如下步驟:步驟1,收集含有類別標(biāo)簽的針對(duì)圖像和文本兩種媒體類型的跨媒體檢索數(shù)據(jù)集,分別將圖像和文本劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù);步驟2,對(duì)于數(shù)據(jù)集中的所有圖像數(shù)據(jù),使用VGG卷積神經(jīng)網(wǎng)絡(luò)的方法提取圖像特征。步驟3,對(duì)于數(shù)據(jù)集中的文本特征,使用基于Word2vec的FisherVector方法提取文本特征。步驟4,使用步驟2,3后得到的訓(xùn)練數(shù)據(jù)中的圖像和文本特征對(duì)基于邏輯回歸的語(yǔ)義匹配模型進(jìn)行訓(xùn)練。步驟5,利用訓(xùn)練好的語(yǔ)義匹配模型,使用步驟2,3得到的測(cè)試數(shù)據(jù)的圖像和文本特征進(jìn)行測(cè)試,檢驗(yàn)本發(fā)明的效果。各步驟具體包括如下過程:步驟1,收集含有類別標(biāo)簽(如在pascalsentence數(shù)據(jù)集中,分為20類,有飛機(jī),汽車,鳥等類別)的針對(duì)圖像和文本兩種媒體類型的跨媒體檢索數(shù)據(jù)集,將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。將數(shù)據(jù)集定義為D={D1,D2,…,Dn},其中n表示數(shù)據(jù)集的大小,對(duì)數(shù)據(jù)集中的任一圖像-文本對(duì)Di(Di∈D),可表示為其中表示圖像的原始數(shù)據(jù),表示文本的原始數(shù)據(jù)。L=[l1,l2,…,ln],其中l(wèi)i∈[1,2,…,C],C為類別的數(shù)目,li表示第i對(duì)圖像和文本所屬的類別。步驟2,對(duì)于數(shù)據(jù)集中的所有圖像數(shù)據(jù),使用VGG卷積神經(jīng)網(wǎng)絡(luò)的方法提取圖像特征。VGG卷積神經(jīng)網(wǎng)絡(luò)有A~E五種配置,卷積層數(shù)從8到16遞增。本發(fā)明實(shí)施例中,優(yōu)選地,使用的卷積層數(shù)為16層,再加上3個(gè)全連接層,一共是19層的VGG網(wǎng)絡(luò)。每幅圖像輸入VGG網(wǎng)絡(luò)后,在第七層全連接層(fc7)得到一個(gè)4096維的向量,通過ReLU(RectifiedLinearUnits)激活函數(shù)后,用這個(gè)向量作為圖像特征。具體地,將原始圖像數(shù)據(jù)DI,其中輸入VGG網(wǎng)絡(luò)中并提取圖像特征。圖像特征是第七層全連接層(fc7)通過ReLU(RectifiedLinearUnits)激活函數(shù)之后的4096維特征,記作I={I1,I2,…,In},其中Ij∈R4096,j∈[1,n]。步驟3,對(duì)于數(shù)據(jù)集中的文本特征,使用基于Word2vec的FisherVector方法提取文本特征。將原始文本數(shù)據(jù)DT,其中轉(zhuǎn)換成詞向量集合W={W1,W2,…,Wn},W為DT包含的單詞的詞向量集合。進(jìn)一步地,將單詞記作w,單詞w所對(duì)應(yīng)的詞向量為fword2vec(w),則對(duì)于有fword2vec(w)∈Wi,i∈[1,n]。即其中wi,j∈Rdw,j∈[1,bi],wi,j為包含單詞所對(duì)應(yīng)的詞向量,dw為詞向量的維度,bi為中包含的單詞個(gè)數(shù)。這里先假設(shè)用X={x1,x2,…,xnw}表示一個(gè)文本的詞向量集合,nw為詞向量個(gè)數(shù)。令混合高斯模型(GaussionMixtureModel,GMM)參數(shù)為λ,則λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分別表示GMM中每個(gè)高斯函數(shù)的權(quán)重、均值向量和協(xié)方差矩陣,G表示模型中高斯函數(shù)的個(gè)數(shù)。對(duì)GMM函數(shù)定義如下:其中,p(xt|λ)表示對(duì)于向量xt(t∈[1,nw]),由GMM產(chǎn)生的概率值p(xt|λ),表示為式2:對(duì)權(quán)重ωi有如下約束,總和為1,表示為式3:其中,pi(x|λ)表示GMM中的第i個(gè)高斯函數(shù),由式4給出:其中,dw是向量的維度,|∑i|表示求∑i的行列式用γt(j)來表示向量xt由第i個(gè)高斯函數(shù)產(chǎn)生的概率,表示為式5:對(duì)高斯模型的參數(shù)求偏導(dǎo)即得到FisherVector,對(duì)各個(gè)參數(shù)的求導(dǎo)公式如式6~式8,其中,上標(biāo)d表示向量的第d個(gè)維度:FisherVector就是將上述所有參數(shù)的求導(dǎo)結(jié)果連接組成的向量。因?yàn)楦咚够旌夏P椭懈咚购瘮?shù)個(gè)數(shù)為G,向量維度為dw,所以,F(xiàn)isherVector的維度為(2×dw+1)×G-1;對(duì)于權(quán)重ω,含有總和為1的約束條件,其自由度為G-1;G為高斯模型中高斯函數(shù)的個(gè)數(shù)。最后,將W={W1,W2,…,Wn}中的每個(gè)文本詞向量集合Wi代入式1中的X,求得每個(gè)文本的FisherVector,記作T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i個(gè)文本計(jì)算出來的FisherVector。步驟4,使用執(zhí)行步驟2、3之后得到的訓(xùn)練數(shù)據(jù)中的圖像和文本特征對(duì)基于邏輯回歸的語(yǔ)義匹配模型進(jìn)行訓(xùn)練。得到的圖像特征為I={I1,I2,…,In},Ij∈R4096。得到的文本特征為T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1。對(duì)于相應(yīng)的圖像和文本特征,有著共同的標(biāo)簽,L=[l1,l2,…,ln],其中l(wèi)i∈[1,2,…,C]。我們將文本特征Ti轉(zhuǎn)換成由后驗(yàn)概率組成的語(yǔ)義特征,后驗(yàn)概率為k∈[1,C],表示文本Ti屬于類別k的概率,其中,通過式9計(jì)算得到其中,是多類別邏輯回歸線性分類器(multi-classlogisticregression)的參數(shù),,表示的轉(zhuǎn)置,對(duì)應(yīng)類別k,其中DT=(2×dw+1)×G-1,DT為文本特征的維度。這樣,我們將文本特征T轉(zhuǎn)換成了文本語(yǔ)義特征ПT,c是類別的個(gè)數(shù),也是文本語(yǔ)義特征的維數(shù)。上標(biāo)d表示向量中的第d個(gè)維度,則表示為式10:同理,我們將圖像特征Ii也轉(zhuǎn)換成后驗(yàn)概率組成的語(yǔ)義特征,后驗(yàn)概率為k∈[1,C],表示圖像Ii屬于類別k的概率,其中的計(jì)算公式如下:其中,是多類別邏輯回歸線性分類器(multi-classlogisticregression)的參數(shù),對(duì)應(yīng)類別k,是一個(gè)DI維的向量,DI為圖像特征的維度。這樣,我們將圖像特征T轉(zhuǎn)換成了圖像語(yǔ)義特征ПI,c是類別的個(gè)數(shù),也就是圖像語(yǔ)義特征的維數(shù)。用上標(biāo)d來表示,向量中的第d個(gè)維度,則表示為式12:以上對(duì)圖像和文本語(yǔ)義特征進(jìn)行計(jì)算,訓(xùn)練得到語(yǔ)義匹配模型。步驟5,利用步驟4訓(xùn)練好的語(yǔ)義匹配模型,使用步驟2和步驟3得到的測(cè)試數(shù)據(jù)的圖像和文本特征,針對(duì)一幅圖片(或文本)進(jìn)行測(cè)試,得到相關(guān)的文本(或圖片);并檢驗(yàn)本發(fā)明的效果。對(duì)于圖像檢索文本(Img2Text),計(jì)算圖像語(yǔ)義特征ПI和文本語(yǔ)義特征ПT的相關(guān)性,將文本語(yǔ)義特征ПT按相關(guān)性從大到小排序,則和圖像ПI越相關(guān)的文本越靠前。同理,對(duì)于文本檢索圖像(Text2Img)計(jì)算文本語(yǔ)義特征ПT和圖像語(yǔ)義特征ПI的相關(guān)性,將圖像語(yǔ)義特征ПI按相關(guān)性從大到小排序,則和文本ПT越相關(guān)的圖像越靠前。其中相關(guān)性的度量方法包括Kullback–Leiblerdivergence(KL)、NormalizedCorrelation(NC)、CenteredCorrelation(CC)以及L2范式(L2)。對(duì)于圖像檢索文本(Img2Text)和文本檢索圖像(Text2Img)的結(jié)果,計(jì)算其MAP值(MeanAveragePrecision),衡量檢索結(jié)果。在具體實(shí)施實(shí)驗(yàn)中,實(shí)施例一使用wikipedia的數(shù)據(jù)集,共包括2866對(duì)圖像及其文本,有10個(gè)類別,分別為:Art&architecture(藝術(shù)&建筑)、Biology(生物)、Geography&places(地理&地點(diǎn))、History(歷史)、Literature&theatre(文學(xué)&戲劇)、Media(媒體)、Music(音樂)、Royalty&nobility(皇室&貴族)、Sport&recreation(運(yùn)動(dòng)&娛樂)、Warfare(戰(zhàn)爭(zhēng))。劃分其中的2173個(gè)數(shù)據(jù)為訓(xùn)練數(shù)據(jù),693個(gè)數(shù)據(jù)為測(cè)試數(shù)據(jù)。數(shù)據(jù)集的圖像和文本實(shí)例如圖2所示,每個(gè)圖像對(duì)應(yīng)一段長(zhǎng)文本。通過步驟2和步驟3得到圖像特征和文本特征。其中,文本數(shù)據(jù)先用textteaser(一種開源文本自動(dòng)摘要工具)提取出每個(gè)文本的前兩個(gè)主題句,對(duì)于每個(gè)主題句提取FisherVector特征,然后將這兩句的FisherVector特征連接在一起形成更高維度的特征,作為最終的特征。如一句話的Fishervector特征是d維,兩句話連接后的最終特征是2d維。之后,按照步驟4訓(xùn)練得到語(yǔ)義匹配模型,按照步驟5對(duì)待測(cè)試樣本得到檢索結(jié)果。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明方法在Img2Text和Text2Img兩個(gè)任務(wù)中,都取得了較優(yōu)的結(jié)果。用于對(duì)比的提取傳統(tǒng)人工特征進(jìn)行跨媒體檢索的方法包括CCA[2],LCFS[3],CDLFA[4],HSNN[5]。他們使用的文本特征為10維的隱狄利克雷分布(LatentDirichletAllocation,LDA)特征,圖像特征為128維的SIFT特征。同時(shí)本發(fā)明與最新的利用深度學(xué)習(xí)進(jìn)行跨媒體檢索的論文CVF[6]中的結(jié)果進(jìn)行比較。CVF[6]中文本特征使用100維的LDA特征,圖像特征使用4096維的DeCAF深度網(wǎng)絡(luò)的CNN特征.下表給出了實(shí)驗(yàn)結(jié)果,Proposed表示的是本發(fā)明的結(jié)果,通過對(duì)比可知,本發(fā)明較CCA[2],LCFS[3],CDLFA[4],HSNN[5]中的方法效果有很大提升,和最新的CVF[6]中的方法效果相近,使用CC相關(guān)性度量的方法較CVF[6]效果有一定的提升。表1Wikipedia數(shù)據(jù)集實(shí)驗(yàn)結(jié)果第二個(gè)實(shí)施例使用PascalSentence數(shù)據(jù)集,該數(shù)據(jù)集包含1000對(duì)圖像-文本數(shù)據(jù),分為20類(對(duì)應(yīng)類別標(biāo)簽),包括飛機(jī)、汽車、鳥等類別,如表2所示;每類包含50對(duì)圖像和文本。表2PascalSentence數(shù)據(jù)集的20個(gè)類別aeroplane飛機(jī)diningtable飯桌bicycle自行車dog狗boat船house房子bird鳥motorbike摩托車bottle瓶子person人bus公交車pottedplant盆栽car汽車sheep羊cat貓sofa沙發(fā)chair椅子train火車cow牛tvmonitor電視圖像和文本數(shù)據(jù)實(shí)例如圖3所示,每個(gè)圖像對(duì)應(yīng)5個(gè)句子。從每類中隨機(jī)抽取30對(duì)圖像和文本,共600對(duì)作為訓(xùn)練數(shù)據(jù),其余的400對(duì)作為測(cè)試數(shù)據(jù)。通過步驟2和步驟3提取出相應(yīng)的圖像特征和文本特征,其中,由于PascalSentence中的文本數(shù)據(jù)已經(jīng)是句子,不需要做文本摘要處理,可直接提取FisherVector特征,一句話的Fishervector特征是d維,然后,按照步驟4訓(xùn)練得到語(yǔ)義匹配模型,按照步驟5對(duì)待測(cè)試樣本得到檢索結(jié)果。由于文獻(xiàn)[2]~[5]中記載的方法沒有使用本數(shù)據(jù)集做評(píng)測(cè),我們直接與CVF[6]的結(jié)果進(jìn)行比較,結(jié)果如表3:表3PascalSentence數(shù)據(jù)集實(shí)驗(yàn)結(jié)果從實(shí)驗(yàn)結(jié)果可以看出,我們的方法對(duì)于PascalSentence數(shù)據(jù)集的檢索正確率有較大提升。需要注意的是,公布實(shí)施例的目的在于幫助進(jìn)一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實(shí)施例所公開的內(nèi)容,本發(fā)明要求保護(hù)的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。當(dāng)前第1頁(yè)1 2 3 當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1