專利名稱:一種Web圖像搜索引擎及其實現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種Web檢索,尤其涉及一種Web圖像搜索引擎及其實現(xiàn)方法。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)和圖像處理技術(shù)的發(fā)展,在互聯(lián)網(wǎng)上積累了海量的數(shù)字圖像,并且其數(shù)量還在高速增長。例如,在線照片分享網(wǎng)站奮flickr. com僅運作了 4年,便達(dá)到每月4千萬人的訪問量,總共已上傳20億張圖片,平均每天上傳幾百萬張。人們迫切需要利用有效的自動圖像檢索技術(shù)來幫助他們從巨大的、實時擴(kuò)展變化的網(wǎng)絡(luò)圖像數(shù)據(jù)庫中快速準(zhǔn)確地獲取所需信息。已有圖像檢索方法可分為基于文本的圖像檢索(Text Based Image Retrieval, TBIR)和基于內(nèi)容的圖像檢索(Content Based Image Retrieval, CBIR)兩大類?;谖谋镜膱D像檢索方法利用人工標(biāo)注的圖像概念或圖像所在網(wǎng)頁中的文本信息來實現(xiàn)圖像的關(guān)鍵詞檢索。基于內(nèi)容的圖像檢索方法則利用圖像視覺信息來理解圖像高層語義,進(jìn)而實現(xiàn)圖例或關(guān)鍵詞檢索?;谖谋镜膱D像檢索方法相對比較成熟,是目前主流Web圖像搜索引擎所采用的技術(shù)。相對而言,TB^僅僅根據(jù)外部文本信息來索引和檢索圖像,沒有有效利用圖像本身的視覺特性。因此,對于TBI R技術(shù)來說,目前Web圖像搜索引擎返回結(jié)果并不理想。為了得到更好的檢索效果,需要在TB^中引入CB^技術(shù)。但是,單純依靠視覺信息實現(xiàn)圖像語義理解也存在一定的困難,主要在于以下兩方面。一者,目前在一般概念圖像識別問題上還沒有找到足夠理想的方法,實用性不足;二者,有些語義難以通過視覺特征表達(dá),比如打破紀(jì)錄的時刻之類的抽象概念。綜合上述兩方面的因素,通過將圖像視覺內(nèi)容與文本描述信息相融合來提高圖像檢索效果是較為可行的解決途徑。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種改進(jìn)的圖像搜索方法,將圖像視覺內(nèi)容與文本描述信息相融合來提高圖像檢索效果。為此,本發(fā)明提供一種圖像搜索方法,包括用戶用關(guān)鍵詞進(jìn)行圖像搜索,其中,所述關(guān)鍵詞表示圖像的待檢索語義;在搜索到的圖像集合中,得到與所述待檢索語義相對應(yīng)的分類器;利用所述分類器來計算所述圖像集合中每幅圖像與所述待檢索語義之間的相關(guān)度;以及,按照所述相關(guān)度對所述圖像集合進(jìn)行排序,并且將排序后的圖像集合返回給用戶。針對諸如Google的圖像搜索引擎,對本發(fā)明提出的方法進(jìn)行了實驗。實驗結(jié)果表明通過使用本發(fā)明方法,可以有效改善基于文本的圖像檢索效果。
本發(fā)明的示例性實施例將從下文中給出的詳細(xì)說明和本發(fā)明不同實施例的附圖中被更完全地理解,然而這不應(yīng)該被視為將本發(fā)明限制于具體的實施例,而應(yīng)該只是為了解釋和理解。圖1是根據(jù)本發(fā)明的一個實施方案的流程圖;圖2是根據(jù)本發(fā)明的一個實施方案的流程圖;圖3(a)_(e)是不同高斯成分個數(shù)下三種自動改進(jìn)方法與原始Google方法在檢索準(zhǔn)確率上的比較的示意圖;圖4是采用原始Google方法得到的圖像檢索結(jié)果;圖5是采用本發(fā)明的自動改進(jìn)方法所得到的圖像檢索結(jié)果;圖6是在不同高斯成分個數(shù)下,三種反饋改進(jìn)方法與原始Google方法在檢索準(zhǔn)確率上的比較的示意圖;圖7和圖8分別顯示了當(dāng)輸入關(guān)鍵詞“北京公交線路圖”后,Google返回的前10 幅圖像以及在4個高斯成分下,第一種反饋改進(jìn)模式得到的前10幅圖像。
具體實施例方式本領(lǐng)域的普通技術(shù)人員將意識到,所述示例性實施例的下述詳細(xì)說明僅僅是說明性的,并且不是意在以任何方式加以限制。其他實施例將容易地呈現(xiàn)給受益于本公開的這類技術(shù)人員?,F(xiàn)在,將詳細(xì)地參考如若干附圖中所示的示例性實施例的實施。遍及附圖并且在后面的詳細(xì)說明中將使用相同的附圖標(biāo)記來指出相同或類似的部分。本發(fā)明提出了一種根據(jù)圖像內(nèi)容對圖像搜索引擎返回結(jié)果進(jìn)行改進(jìn)的方法。將用戶輸入的待檢索關(guān)鍵詞作為一種語義類別,從圖像搜索引擎返回的圖像集合中選擇待檢索語義對應(yīng)的正、反樣本,采用諸如判別學(xué)習(xí)方法得到區(qū)分相關(guān)與不相關(guān)圖像的分類器。利用該分類器,計算圖像與待檢索語義之間的相關(guān)度,按照相關(guān)度對圖像進(jìn)行重新排序,以提高檢索準(zhǔn)確率。1.圖像相關(guān)性度量本發(fā)明采用基于后驗偽概率的統(tǒng)計分類器來計算圖像與用戶輸入的待檢索語義之間的相關(guān)度,其中,后驗偽概率是對后驗概率的模擬。設(shè)X為圖像特征矢量,ω表示待檢索語義,則后驗偽概率計算公式如下f(p (χ ω)) = 1-exp (-λρμ (χ ω)), (1)其中,ρ(χ| ω)為類條件概率密度,λ和μ為兩個正系數(shù)。由公式⑴可知,后驗偽概率正比于類條件概率密度P (χ I ω),且值域為W,1],因此適于度量圖像與待檢索語義之間的相關(guān)度。在應(yīng)用公式(1)之前,需要首先確定圖像特征矢量以及類條件概率密度函數(shù) P (χ ω)的形式??梢蕴崛D像的顏色特征、紋理特征、形狀特征、局部特征中的一個或一些作為圖像特征矢量,來描述圖像內(nèi)容。在一個實施例中,可以提取圖像的顏色特征和紋理特征來描述圖像內(nèi)容。具體來說,可以通過分別在圖像HSV顏色空間的3個通道上提取1-3 階顏色矩,組成9維顏色特征;通過對圖像進(jìn)行6個方向4個尺度的Gabor變換,獲得M個系數(shù)矩陣,從中提取71維紋理特征。然后,依次排列上述顏色特征和紋理特征,從而得到表示圖像的80維特征矢量。ρ(χ|ω)的形式可以采用高斯混合模型、有限混合模型、高斯模型等。下文以采用高斯混合模型(Gaussian Mixture Model, GMM)為例。GMM能夠逼近具有有限間斷點的任意連續(xù)密度,是模式識別領(lǐng)域中經(jīng)常采用的統(tǒng)計模型之一。例如,設(shè)K為GMM中高斯成分個數(shù),wk, uk,E k分別為GMM中第k個高斯成分的權(quán)重、均值矢量和方差矩 陣,wk滿足
權(quán)利要求
1.一種圖像搜索方法,包括用戶用關(guān)鍵詞進(jìn)行圖像搜索,其中,所述關(guān)鍵詞表示圖像的待檢索語義;在搜索到的圖像集合中,得到與所述待檢索語義相對應(yīng)的分類器;利用所述分類器來計算所述圖像集合中每幅圖像與所述待檢索語義之間的相關(guān)度;以及按照所述相關(guān)度對所述圖像集合進(jìn)行排序,并且將排序后的圖像集合返回給用戶。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述在搜索到的圖像集合中得到與所述待檢索語義相對應(yīng)的分類器的步驟包括通過基于支持向量機(jī)的分類法或k近鄰分類法學(xué)習(xí)得到所述分類器。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述在搜索到的圖像集合中得到與所述待檢索語義相對應(yīng)的分類器的步驟包括通過基于后驗偽概率的分類法得到所述分類器。
4.根據(jù)權(quán)利要求3所述的方法,其中,在搜索到的圖像集合中,得到與所述待檢索語義相對應(yīng)的分類器的步驟包括在搜索到的圖像集合中,選擇與所述待檢索語義相對應(yīng)的正、反樣本; 根據(jù)所述正、反樣本,通過機(jī)器學(xué)習(xí)得到與所述待檢索語義相對應(yīng)的分類器。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述選擇正、反樣本的步驟包括將搜索到的圖像集合中的前面一部分圖像選擇為正樣本,將搜索返回的圖像集合中的后面一部分圖像選擇為反樣本;或者由用戶指定搜索到的圖像集合中的一部分圖像為正樣本,另一部分圖像為反樣本;或者對搜索到的圖像集合進(jìn)行聚類以得到正、反樣本; 或者利用圖像相關(guān)度從搜索到的圖像集合中選擇正、反樣本。
6.根據(jù)權(quán)利要求3所述的方法,其中所述在搜索到的圖像集合中,得到與所述待檢索語義相對應(yīng)的分類器的步驟包括采用期望最大化算法得到初始參數(shù)集;利用最大最小后驗偽概率算法獲得最終參數(shù)集,以此構(gòu)建分類器。
7.根據(jù)權(quán)利要求6所述的方法,其中所述在搜索到的圖像集合中,得到與所述待檢索語義相對應(yīng)的分類器的步驟包括利用最大最小后驗偽概率算法獲得參數(shù)集,利用該參數(shù)集構(gòu)成的后驗偽概率函數(shù)計算樣本集中每個圖像對應(yīng)的后驗偽概率值;按照后驗偽概率值對圖像進(jìn)行降序排列,選擇排序靠前的圖像作為正樣本,選擇排序靠后的圖像作為反樣本;然后迭代執(zhí)行下一輪的利用最大最小后驗偽概率算法獲得最終參數(shù)集的步驟。
8.根據(jù)權(quán)利要求3所述的方法,其中,所述后驗偽概率與類條件概率密度有關(guān),將所述類條件概率密度的形式設(shè)置為高斯混合模型、有限混合模型或高斯模型。
9.根據(jù)權(quán)利要求1所述的方法,其中,分類器是基于下列特征中的一個或多個圖像特征的分類器顏色特征、紋理特征、形狀特征和局部特征。
10.如權(quán)利要求1所述的方法,其中,計算相關(guān)度的步驟包括X為圖像特征矢量,ω表示待檢索語義,λ和μ是一個正系數(shù);wk,μ k,Σ k分別為GMM 中第k個高斯成分的權(quán)重、均值矢量和方差矩陣,Wk滿足Σ ·. = 全文摘要
本發(fā)明提供一種圖像搜索方法。該方法包括用戶用關(guān)鍵詞進(jìn)行圖像搜索,其中,所述關(guān)鍵詞表示圖像的待檢索語義;在搜索到的圖像集合中,通過判別學(xué)習(xí)得到與所述待檢索語義相對應(yīng)的分類器;利用所述分類器來計算所述圖像集合中每幅圖像與所述待檢索語義之間的相關(guān)度;以及,按照所述相關(guān)度對所述圖像集合進(jìn)行排序,并且將排序后的圖像集合返回給用戶。實驗結(jié)果表明,通過使用本發(fā)明方法可以有效改善基于文本的圖像檢索效果。
文檔編號G06F17/30GK102262642SQ20111003047
公開日2011年11月30日 申請日期2011年1月28日 優(yōu)先權(quán)日2011年1月28日
發(fā)明者萬玉釵, 劉峽壁, 楊阿麗, 陳云鵬 申請人:北京理工大學(xué)