專利名稱:基于互訓(xùn)練的流形對圖像資源和文字進行融合的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像檢索和模式識別技術(shù),具體涉及基于互訓(xùn)練的流形對圖 像資源和文字特征進行融合的方法。
背景技術(shù):
互聯(lián)網(wǎng)(Internet)的爆炸式發(fā)展使互聯(lián)網(wǎng)上的數(shù)據(jù)以驚人的速度增長。 同時,如何有效的檢索和分類這些海量數(shù)據(jù)集合成為了工程上和研究上的一 個難題與挑戰(zhàn)。與傳統(tǒng)的信息檢索方式不同,基于內(nèi)容的多媒體信息檢索 (Content-based Multimedia Retrieval)從這個需求角度出發(fā),成為了一個有效 的解決辦法?;趦?nèi)容的圖像檢索(Content-based Image Retrieval,簡稱CBIR) 是基于圖像或區(qū)域的顏色、紋理或形狀等特征以及這些特征的組合來檢索圖 像,能從數(shù)據(jù)庫中查找到具有指定特征或含有特定內(nèi)容的圖像?;趦?nèi)容的 圖像檢索區(qū)別于傳統(tǒng)的基于關(guān)鍵字的檢索手段,其融合了圖像處理、模式識 別、計算機視覺、圖像理解等領(lǐng)域的知識。但是基于內(nèi)容的圖像檢索固有的 缺陷體現(xiàn)在了底層視覺信息和高層語義信息的巨大差距,稱之為"語義鴻溝"。
然而在過去的十年中,由于語義鴻溝的存在使得在這方面的發(fā)展遇到了 很大的問題。到目前為止,已經(jīng)有很多方法針對于這個問題提出,包括引入 相關(guān)反饋,多示例學(xué)習等方法。這些方法融合了多媒體基于內(nèi)容 (Content-based)和關(guān)鍵字(Keyword-based)并互相補充,從而提高了檢索精 度,成為了最近這些年的研究中熱點。這些方法從用戶的高層語義與低層語 義結(jié)合的角度,在一定程度上較好的解決了 "語義鴻溝"的問題,但是現(xiàn)有 的方法都不能很好的近似兩種特征空間中的變換,因此,找到一種行之有效 并且具有理論意義的方法,對于"語義鴻溝"的解決,具有很重要的意義。
發(fā)明內(nèi)容
本發(fā)明的目的是為解決現(xiàn)有的圖像檢索方法存在的檢索精度較差的問 題,提供一種基于互訓(xùn)練的流形對圖像資源和文字進行融合的方法。
本發(fā)明的步驟為
步驟一、根據(jù)圖像資源和文字特征構(gòu)建原始流形;步驟二、通過ISOMAP方法對原始流形進行降維處理,得到低維拓撲結(jié) 構(gòu)以及相似性度量"X,少」,/的初始值為0;
步驟三、對相似性度量進行相似度迭代,得到兩幅圖像間的相似度
其中,W" W表示第/次迭代和第W次迭代在所對應(yīng)的視覺特征空間中 的L2距離,//為控制歸一化的常數(shù);
步驟四、根據(jù)圖像/和圖像_/的相似度得到兩幅圖像樣本點之間的收縮
率
小W
步驟五、根據(jù)步驟四得到的收縮率,使用下面的公式對流形進行收縮調(diào)
<formula>formula see original document page 4</formula>
其中《,表示圖像/在特征空間中所對應(yīng)的特征向量;Z表示在步驟二中 得到的拓撲結(jié)構(gòu)上與圖像/所對應(yīng)點鄰接的圖像集合,則A(卜l)表示的是在 t-l次迭代時與之相鄰接的圖像在特征空間中的特征向量;
步驟六、若得到的流形收斂,則融合結(jié)束;若得到的流形不收斂,則令 ~"/,并返回執(zhí)行步驟二。
本發(fā)明的有益效果是可以去除掉圖像的文字描述信息中的冗余信息以 及噪聲,并且能通過最后的結(jié)果評價出語義概念之間的關(guān)系,比如同義詞, 單復(fù)數(shù),錯寫,語義層次等關(guān)系,從而,提高了檢索的精確程度,大大增強 了基于關(guān)鍵字的圖像檢索的實用性。另一方面,也可以從語義的角度上評價 圖像的相似程度,而不是單單的評價其在視覺內(nèi)容上的或者是文字描述上的 相似性。
具體實施例方式
具體實施方式
一1、基于互訓(xùn)練的流形對圖像資源和文字進行融合的方法,其特征在于它 的步驟為-
步驟一、根據(jù)圖像資源和文字特征構(gòu)建原始流形;
步驟二、通過ISOMAP方法對原始流形進行降維處理,得到低維拓撲結(jié) 構(gòu)以及相似性度量/"W , ^的初始值為0;
步驟三、對相似性度量進行相似度迭代,得到兩幅圖像間的相似度
其中,dYx,力表示第f次迭代和第汁7次迭代在所對應(yīng)的視覺特征空間中 的L2距離,//為控制歸一化的常數(shù);
步驟四、根據(jù)圖像/和圖像y的相似度得到兩幅圖像樣本點之間的收縮
率
六/,"=邵〈^^"」-/,
得到的收縮率為正時,說明兩幅圖像之間的相似性應(yīng)該增大;相反收縮 率為負時,說明兩幅圖像之間的相似性應(yīng)該減小;
步驟五、根據(jù)步驟四得到的收縮率,使用下面的公式對流形進行收縮調(diào)
A (卜1) + S (卜1) _《G -1)) , a力]Z > 1 《 f = 0
其中i,表示圖像/在特征空間中所對應(yīng)的特征向量;Z表示在步驟二中
得到的拓撲結(jié)構(gòu)上與圖像/所對應(yīng)點鄰接的圖像集合,則i,(卜i)表示的是在
t-l次迭代時與之相鄰接的圖像在特征空間中的特征向量;
這個收縮調(diào)整過程將每個圖像所代表的特征點與其相鄰的各樣本點之間 的距離按照一定的權(quán)值進行調(diào)整,并反映在其在特征空間的坐標上,從而達 到通過迭代形式近似擬合流形映射的逆映射的目的。
步驟六、若得到的流形收斂,則融合結(jié)束;若得到的流形不收斂,則令 f = "7,并返回執(zhí)行步驟二。由于語義鴻溝的存在,不能單純的使用線性映射將語義概念與視覺特征 之間建立聯(lián)系。因此,定義原始的文字特征空間為流形空間,使用非線性的
流形降維方法,如IsoMap將原始的文字特征空間降維為具有隱含語義層次 的拓撲結(jié)構(gòu),進而在這樣的結(jié)構(gòu)上和圖像所對應(yīng)的視覺特征空間中進行互訓(xùn) 練,并使用流形逆映射過程將融合結(jié)果映射回原始的流形空間中。
權(quán)利要求
1、基于互訓(xùn)練的流形對圖像資源和文字進行融合的方法,其特征在于它的步驟為步驟一、根據(jù)圖像資源和文字特征構(gòu)建原始流形;步驟二、通過ISOMAP方法對原始流形進行降維處理,得到低維拓撲結(jié)構(gòu)以及相似性度量st(x,y),t的初始值為0;步驟三、對低維拓撲結(jié)構(gòu)進行相似度迭代,得到兩幅圖像間的相似度其中,d2(x,y)表示第t次迭代和第t+1次迭代在所對應(yīng)的視覺特征空間中的L2距離,μ為控制歸一化的常數(shù);步驟四、根據(jù)圖像i和圖像j的相似度得到兩幅圖像樣本點之間的收縮率步驟五、根據(jù)步驟四得到的收縮率,使用下面的公式對流形進行收縮調(diào)整其中表示圖像i在特征空間中所對應(yīng)的特征向量;X表示在步驟二中得到的拓撲結(jié)構(gòu)上與圖像i所對應(yīng)點鄰接的圖像集合,則表示的是在t-1次迭代時與之相鄰接的圖像在特征空間中的特征向量;步驟六、若得到的流形收斂,則融合結(jié)束;若得到的流形不收斂,則令t=t+1,并返回執(zhí)行步驟二。
全文摘要
基于互訓(xùn)練的流形對圖像資源和文字進行融合的方法,涉及圖像檢索和模式識別技術(shù)。它解決了現(xiàn)有的圖像檢索方法存在的檢索精度較差的問題。本發(fā)明的步驟為步驟一、根據(jù)圖像資源和文字特征構(gòu)建原始流形;步驟二、通過ISOMAP方法對原始流形進行降維處理,得到低維拓撲結(jié)構(gòu)以及相似性度量s<sup>t</sup>(x,y),t的初始值為0;步驟三、對低維拓撲結(jié)構(gòu)進行相似度迭代,得到兩幅圖像間的相似度;步驟四、根據(jù)兩幅圖像的相似度得到兩幅圖像樣本點之間的收縮率;步驟五、根據(jù)步驟四得到的收縮率,對流形進行收縮調(diào)整;步驟六、若得到的流形收斂,則融合結(jié)束;若得到的流形不收斂,則令t=t+1,并返回執(zhí)行步驟二。本發(fā)明適用于圖像處理和圖像檢索領(lǐng)域。
文檔編號G06F17/30GK101430690SQ200810137509
公開日2009年5月13日 申請日期2008年11月12日 優(yōu)先權(quán)日2008年11月12日
發(fā)明者劉先明, 劉天強, 姚鴻勛, 孫曉帥, 紀榮嶸, 許鵬飛 申請人:哈爾濱工業(yè)大學(xué)