專利名稱:基于線性泛化回歸模型的跨媒體檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及模式識別領(lǐng)域,特別涉及一種基于線性泛化回歸模型的跨媒體檢索方 法。
背景技術(shù):
人類如今生活在信息大爆炸時代,人類可以通過互聯(lián)網(wǎng)搜索引擎如谷歌(http://WWW. google, com)、百度(http://www. baidu. com)等搜尋自己想要的文章、圖片、音樂和電影等。然而,目前互聯(lián)網(wǎng)用戶主要還是通過關(guān)鍵字搜索得到所需要的信息,這個限制主要是歸結(jié)于搜索引擎無法理解異構(gòu)模態(tài)媒體之間的相互關(guān)系,從而限制了搜索引擎的發(fā)展。眾所周知,互聯(lián)網(wǎng)搜索引擎具有巨大的市場價值,如何增強(qiáng)搜索引擎的性能,以吸引更多的用戶和客戶,將是下一代搜索引擎發(fā)展的關(guān)鍵和生存之道。跨媒體搜索引擎研究得到了國際學(xué)術(shù)界的重視,我國近年來也開始重點(diǎn)關(guān)注該項(xiàng)技術(shù)的發(fā)展,設(shè)立973計(jì)劃和國家支撐計(jì)劃對該領(lǐng)域的相關(guān)技術(shù)進(jìn)行研發(fā)。目前國際上提出的一些方法雖然可以被用于建立不同模態(tài)之間的關(guān)系,但是仍然存在很多的不合理和不足之處,如信息傳遞的泄漏問題和信息傳遞的不均衡問題。其中一種主流方法是基于關(guān)聯(lián)子空間恒等同構(gòu)的方法?;陉P(guān)聯(lián)子空間的典型方法如典型相關(guān)分析(CanonicalCorrelation Analysis, CCA),它通過對偶綜合變量之間的相關(guān)性聯(lián)合降維的方法,將不同模態(tài)的數(shù)據(jù)降到相同維數(shù)的關(guān)聯(lián)子空間,這種方法在壓縮模態(tài)的同時不可避免地造成了原始模態(tài)信息的泄漏,從而丟掉了原始模態(tài)特征描述中的一些細(xì)節(jié)信息;另外,該方法在模態(tài)轉(zhuǎn)換時在恒等子空間直接進(jìn)行信息交互,并沒有考慮子空間映射的合理關(guān)系,只是運(yùn)用了子空間映射的特殊情況。后續(xù)工作還提出了一些與CAA組合的方法來建立CCA投影子空間映射之間的關(guān)系,這些組合方法的明顯不足之處在于,在運(yùn)用CCA方法時就已經(jīng)產(chǎn)生了信息的泄漏;此外這些方法并不能從理論上給出有效的子空間關(guān)聯(lián)性的解釋,因此無法估計(jì)需要運(yùn)用多少次組合的方法,也無法估計(jì)組合方法產(chǎn)生的冗余性。利用基于線性泛化回歸模型的跨媒體檢索方法可以有效和合理改進(jìn)之前方法存在的問題,其基本思想是利用最小二乘的原理在模態(tài)關(guān)聯(lián)投影子空間建立回歸關(guān)系,然后映射到原始空間建立回歸關(guān)系,從理論上解釋了模態(tài)直接轉(zhuǎn)換的關(guān)系。在子空間建立回歸關(guān)系在一定程度上可以消除不同模態(tài)變量交叉噪聲的干擾,在原始空間建立回歸關(guān)系可以保留一些細(xì)節(jié)信息的傳遞,從而提高不同模態(tài)之間信息的轉(zhuǎn)換有效性和魯棒性,進(jìn)而保證了下一步分類器的分類精度和最終的識別效果。該方法的提出有效地實(shí)現(xiàn)了不同模態(tài)媒體之間的語義鴻溝的跨越,進(jìn)而使得搜索引擎返回的結(jié)果更加準(zhǔn)確和更趨于人性化,在商業(yè)用途上,它可以滿足更廣大互聯(lián)網(wǎng)用戶不同的喜好和需求,進(jìn)而吸引更多的互聯(lián)網(wǎng)用戶和客戶,因此具有良好的運(yùn)用前景和可觀的市場價值。
發(fā)明內(nèi)容
為了解決現(xiàn)有跨媒體搜索引擎技術(shù)存在的問題,特別是為了解決現(xiàn)階段不同多媒體模態(tài)信息傳遞的有效性問題,本發(fā)明提供一種基于線性泛化回歸模型的跨媒體檢索方法,該方法包括以下步驟步驟1,搜集不同模態(tài)的樣本,建立跨模態(tài)檢索數(shù)據(jù)庫,并提取數(shù)據(jù)庫中不同模態(tài)樣本的特征向量;步驟2,利用線性泛化回歸模型來估計(jì)不同模態(tài)樣本特征向量之間的關(guān)聯(lián)矩陣;步驟3,估計(jì)數(shù)據(jù)庫中各個樣本 的特征向量屬于某一個類別的后驗(yàn)概率;步驟4,用戶輸入待檢索對象,并根據(jù)待檢索對象的類型進(jìn)行相應(yīng)的特征提??;步驟5,使用所述關(guān)聯(lián)矩陣對提取到的待檢索對象的特征進(jìn)行特征轉(zhuǎn)換;步驟6,計(jì)算待檢索對象轉(zhuǎn)換后的特征與數(shù)據(jù)庫中對應(yīng)類別的樣本對象的特征之間的相似度;步驟7,根據(jù)所述步驟6計(jì)算得到的相似度對數(shù)據(jù)庫中對應(yīng)類別的樣本對象進(jìn)行排序,并返回其中最相似的幾個樣本對象作為跨媒體檢索結(jié)果。與傳統(tǒng)方法相比較,本發(fā)明利用最小ニ乘的原理在模態(tài)關(guān)聯(lián)投影子空間建立回歸關(guān)系,然后映射到原始空間建立回歸關(guān)系,從理論上解釋了模態(tài)直接轉(zhuǎn)換的關(guān)系,在子空間建立回歸關(guān)系在一定程度上可以消除不同模態(tài)變量交叉噪聲的干擾,在原始空間建立回歸關(guān)系可以保留一些細(xì)節(jié)信息的傳遞,從而提高不同媒體模態(tài)之間轉(zhuǎn)換的有效性和魯棒性,進(jìn)而保證分類器的分類精度和最終的識別效果。該方法有效地跨越了不同模態(tài)媒體之間的語義鴻溝,進(jìn)而使得跨媒體搜索引擎返回的結(jié)果更加準(zhǔn)確。
圖I是本發(fā)明方法的流程圖;圖2是本發(fā)明方法的實(shí)現(xiàn)示意圖;圖3是根據(jù)本發(fā)明的從文本到圖像的跨媒體檢索效果示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖對本發(fā)明進(jìn)一歩詳細(xì)說明。本發(fā)明通過線性泛化回歸模型來學(xué)習(xí)不同模態(tài)對象之間的語義關(guān)系,獲得不同模態(tài)對象特征之間進(jìn)行轉(zhuǎn)換的關(guān)聯(lián)矩陣,從而建立不同模態(tài)對象之間的轉(zhuǎn)換途徑,然后利用獲得的關(guān)聯(lián)矩陣對待檢索對象進(jìn)行轉(zhuǎn)換,再用相似性度量的方法來尋找數(shù)據(jù)庫中與轉(zhuǎn)換后的待檢索對象最為相似的樣本對象,最終實(shí)現(xiàn)跨媒體檢索的目的。圖I是本發(fā)明方法的流程圖,圖2是本發(fā)明方法的實(shí)現(xiàn)示意圖,如圖I和圖2所示,本發(fā)明所提出的一種基于線性泛化回歸模型的跨媒體檢索方法包括以下幾個步驟步驟1,搜集不同模態(tài)的樣本,建立跨模態(tài)檢索數(shù)據(jù)庫,并提取數(shù)據(jù)庫中不同模態(tài)樣本的特征向量。所述不同模態(tài)的樣本之間為對應(yīng),比如可以是對應(yīng)的圖像和文本,本發(fā)明中以圖像和文本這兩種模態(tài)對象為例來描述所述跨媒體檢索方法。本發(fā)明中,分別使用尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)算法和隱狄雷克雷分布(Latent Dirichlet Allocation, LDA)算法對圖像和文本進(jìn)行特征的提取。具體地,SIFT算法首先找到圖像樣本中以某關(guān)鍵點(diǎn)為中心的局部區(qū)域,然后對該區(qū)域進(jìn)行梯度濾波,得到梯度響應(yīng),最后統(tǒng)計(jì)各方向的梯度信息作為該圖像樣本的特征向量。LDA算法是ー個包含詞、主題和文檔三層結(jié)構(gòu)的概率混合模型,LDA算法將每個文檔表示為ー個主題混合,其中每個主題是固定詞表上的一個多項(xiàng)式分布。LDA算法假設(shè)詞由一個主題混合產(chǎn)生,同時每個主題是在固定詞表上的一個多項(xiàng)式分布,這些主題被集合中的文檔所共享,每個文檔從狄雷克雷分布中抽樣產(chǎn)生ー個特定的主題作為特征向量。步驟2,利用線性泛化回歸模型來估計(jì)不同模態(tài)樣本特征向量之間的關(guān)聯(lián)矩陣。本發(fā)明利用線性泛化回歸模型來估計(jì)圖像的SIFT特征向量X和文本的LDA特征向量Y之間的關(guān)聯(lián)矩陣,從而建立兩種模態(tài)對象之間的語義關(guān)系。所述線性泛化回歸模型為利用最小ニ乘的原理在模態(tài)關(guān)聯(lián)投影子空間建立回歸關(guān)系,然后再映射到原始模態(tài)空間建立回歸關(guān)系,其用公式可表示為Y = XB+E (I)其中,B為本發(fā)明建立模態(tài)關(guān)聯(lián)的回歸系數(shù)矩陣,即兩個不同模態(tài)之間的關(guān)聯(lián)矩陣,E為殘差矩陣。如果數(shù)據(jù)庫中含有多個模態(tài)對象,則需要估計(jì)兩兩模態(tài)對象之間的關(guān)聯(lián)矩陣。步驟3,估計(jì)數(shù)據(jù)庫中各個樣本的特征向量屬于某一個類別的后驗(yàn)概率。每個樣本的特征向量中的數(shù)據(jù)屬于多個類別中的ー個,多個樣本的特征向量中的數(shù)據(jù)有可能屬于共同的某ー類。因此,本發(fā)明首先采用多類Logistic回歸算法來估計(jì)數(shù)據(jù)庫中各個樣本的特征向量屬于某一個類別i的后驗(yàn)概率,以用于后續(xù)的相似度計(jì)算
權(quán)利要求
1.一種基于線性泛化回歸模型的跨媒體檢索方法,其特征在于,該方法包括以下步驟 步驟1,搜集不同模態(tài)的樣本,建立跨模態(tài)檢索數(shù)據(jù)庫,并提取數(shù)據(jù)庫中不同模態(tài)樣本的特征向量; 步驟2,利用線性泛化回歸模型來估計(jì)不同模態(tài)樣本特征向量之間的關(guān)聯(lián)矩陣; 步驟3,估計(jì)數(shù)據(jù)庫中各個樣本的特征向量屬于某一個類別的后驗(yàn)概率; 步驟4,用戶輸入待檢索對象,并根據(jù)待檢索對象的類型進(jìn)行相應(yīng)的特征提?。? 步驟5,使用所述關(guān)聯(lián)矩陣對提取到的待檢索對象的特征進(jìn)行特征轉(zhuǎn)換; 步驟6,計(jì)算待檢索對象轉(zhuǎn)換后的特征與數(shù)據(jù)庫中對應(yīng)類別的樣本對象的特征之間的相似度; 步驟7,根據(jù)所述步驟6計(jì)算得到的相似度對數(shù)據(jù)庫中對應(yīng)類別的樣本對象進(jìn)行排序,并返回其中最相似的幾個樣本對象作為跨媒體檢索結(jié)果。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟I中,所述不同模態(tài)的樣本之間為對應(yīng)。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,分別使用尺度不變特征變換算法和隱狄雷克雷分布算法對圖像和文本進(jìn)行特征的提取。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述線性泛化回歸模型表示為Y= XB+E, 其中,X和Y分別代表兩個不同模態(tài)的特征向量,B為X和Y之間的關(guān)聯(lián)矩陣,E為殘差矩陣。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟3中,采用多類Logistic回歸算法來估計(jì)數(shù)據(jù)庫中各個樣本的特征向量屬于某一個類別i的后驗(yàn)概率exp(n';x) /7(/ x;w)=—~ /,Z7exP(nZx) 其中,I表示類別,X是特征向量,W是特征向量X的權(quán)重,通過最大似然估計(jì)法學(xué)習(xí)得至|J。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟5中,使用所述關(guān)聯(lián)矩陣對提取到的待檢索對象的特征進(jìn)行特征轉(zhuǎn)換表示為Y= XB , 其中,交為待檢索對象的特征,B為關(guān)聯(lián)矩陣, 為轉(zhuǎn)換后得到的特征。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,若數(shù)據(jù)庫中含有多個模態(tài)對象,則根據(jù)相應(yīng)的關(guān)聯(lián)矩陣對待檢索對象特征進(jìn)行轉(zhuǎn)換。
8.根據(jù)權(quán)利要求I所述的方法,其特征在干,所述步驟5中進(jìn)ー步包括,利用多類Logistic回歸算法估計(jì)轉(zhuǎn)換后的待檢索對象特征屬于某ー個類別的后驗(yàn)概率。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述相似度使用相關(guān)系數(shù)來表征 π' π' —}— し IWlM VfTiVfz.;2 其中,P?!橄嚓P(guān)系數(shù),和JI '表示兩個待比較對象特征的后驗(yàn)概率。
10.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟7中返回的檢索結(jié)果的數(shù)量由用戶根據(jù)需要自行設(shè)定。
全文摘要
本發(fā)明公開了一種基于線性泛化回歸模型的跨媒體檢索方法。該方法首先提取不同模態(tài)對象的語義特征,再利用線性泛化回歸模型建立各個模態(tài)特征之間的回歸關(guān)系,實(shí)現(xiàn)不同模態(tài)特征的相互轉(zhuǎn)換,接著利用多類Logistic回歸算法估計(jì)轉(zhuǎn)換后模態(tài)對象的后驗(yàn)概率分布,最后利用距離度量的方法來計(jì)算測試樣本和數(shù)據(jù)庫樣本之間的距離,從而輸出檢索得到的最相似的前N個數(shù)據(jù)庫中的樣本。本發(fā)明在跨越不同模態(tài)的語義鴻溝時,可以最大限度地防止不同模態(tài)媒體在轉(zhuǎn)換時有效信息的泄露,從而保證不同模態(tài)信息傳遞的有效性,進(jìn)一步提高跨媒體搜索的魯棒性和準(zhǔn)確性,具有良好的運(yùn)用前景和可觀的市場價值。
文檔編號G06F17/30GK102693316SQ201210171539
公開日2012年9月26日 申請日期2012年5月29日 優(yōu)先權(quán)日2012年5月29日
發(fā)明者王亮, 譚鐵牛, 陳永明 申請人:中國科學(xué)院自動化研究所