基于圖像動態(tài)分割的手繪草圖圖像檢索方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像檢索技術(shù)領(lǐng)域,具體涉及一種基于圖像動態(tài)分割的手繪草圖圖像 檢索方法與系統(tǒng)。
【背景技術(shù)】
[0002] 在過去的十多年中,隨著網(wǎng)絡(luò)的不斷發(fā)展以及電子照相機(jī)等數(shù)碼設(shè)備的流行,無 論是在線上或者線下,圖片數(shù)據(jù)均有著爆發(fā)式的增長。舉例而言,圖片分享網(wǎng)站Flickr每 天擁有超過百萬規(guī)模的圖片上傳量。那么如果用戶想從如此龐大的圖片數(shù)據(jù)集合中尋找特 定的圖片,僅僅通過簡單的瀏覽方式來進(jìn)行圖片檢索將耗費(fèi)大量的時(shí)間和精力。在這樣的 情況下,用戶需要一種更加有效的圖片檢索方式。
[0003] 基于文本的圖片檢索(Text-Based Image Retrieval)是一種常見的圖片檢索方 式,已被google、baidu、yahoo、bing等網(wǎng)絡(luò)搜索引擎所使用。用戶可以通過輸入待檢索圖 片的關(guān)鍵字來進(jìn)行相關(guān)圖片的檢索。但是,該類方法通常需要事先知道圖片中的語義信息, 但是并非所有圖片都擁有與之相關(guān)的語義信息。使用人工標(biāo)注這些信息無疑是巨大的工作 量,而基于圖片上下文提取關(guān)鍵字或者自動標(biāo)注等方式則存在一定的局限性 [1]。另一方面, 對于一些非常復(fù)雜的圖片,很難使用簡單的文本來進(jìn)行描述。除了基于文本的方式來進(jìn)行 圖片檢索以外,還有一些網(wǎng)絡(luò)搜索引擎如google、baidu、tineye等提供了相似圖片檢索或 者以圖找圖的功能,用戶可以提供一張圖片來檢索與該圖片相似的圖片。盡管用戶可以通 過提供圖片的網(wǎng)絡(luò)地址或者自行從本地上傳圖片等多種方式來進(jìn)行檢索,但是其仍存在一 定的不足。因?yàn)樵谀承┣闆r下,用戶可能無法提供可供檢索使用的圖片。
[0004] 手繪草圖檢索(Sketch-Based Image Retrieval) [2'3'4]的目的在于通過用戶提供 的手繪草圖,檢索出與之相關(guān)的圖片。不同于上述基于文本的圖片檢索和相似圖片檢索的 方式,手繪草圖檢索擁有更大的靈活性。因?yàn)橛脩艨梢酝ㄟ^自行繪制草圖來決定待檢索圖 片的輪廓分布、大小以及位置等信息。而且伴隨著觸摸式輸入設(shè)備如平板電腦、觸屏手機(jī)等 的流行,用戶可以隨時(shí)隨地方便的繪制草圖。實(shí)際上,人類在很早以前就已經(jīng)開始使用草圖 來記述信息,不少古代象形文字則是由現(xiàn)實(shí)生活中對應(yīng)物體的形狀演化而來。一般而言,用 戶所繪制的草圖主要包含了物體內(nèi)部和外部的輪廓信息,而許多物體所對應(yīng)的輪廓中包含 了足夠的信息可以讓人識別出該物體具體的類別。Eitz [5]等研宄了人類對于手工繪制的草 圖的識別情況,在其實(shí)驗(yàn)中,對于生活中常見的物體,手工繪制其所對應(yīng)的草圖。在使用這 些草圖進(jìn)行物體識別時(shí),實(shí)驗(yàn)人員可以達(dá)到76%左右的準(zhǔn)確率。這說明手繪草圖可以在一 定程度上描述物體的結(jié)構(gòu)與輪廓信息,那么如果可以充分的利用這些信息,則可以通過手 繪草圖的來進(jìn)行相關(guān)圖片的檢索。
[0005] 盡管基于內(nèi)容的圖像檢索在近些年來受到了越來越多的關(guān)注,但是其中專門針對 于手繪草圖檢索的研宄并不是非常的豐富。手繪草圖檢索首先需要解決的問題是如何衡量 一張草圖與一張圖片之間的相似程度。對于該問題,目前主要的方法是基于區(qū)域之間的匹 配方法和基于邊界點(diǎn)之間的匹配方法。而對于如何提高手繪草圖檢索效率這一問題,目前 主要是通過建立反向索引及通過對特征進(jìn)行聚類以減少搜索量等方式來進(jìn)行優(yōu)化。在手繪 草圖檢索當(dāng)中,手工所繪制的草圖所表示的物體與待檢索圖片中存在的對應(yīng)物體的位置、 大小、角度等都有可能有存在一定得差異 [5,6]。比如用戶在草圖的中心繪制了一個(gè)花瓶,而 在實(shí)際圖片中,花瓶可能出在圖片中的任何一個(gè)位置,并且大小可能有一定得差異,輪廓也 無法完全與手繪草圖中的內(nèi)容保持一致。那么,在計(jì)算一張草圖與一張圖片之間的相似度 的時(shí)候,應(yīng)當(dāng)考慮到這類由仿射變換所導(dǎo)致的差異。
[0006] 根據(jù)是否對圖像進(jìn)行分割可以把手繪草圖檢索方法分為基于全局匹配(不對圖 像進(jìn)行分割)的檢索算法和基于分割的檢索算法。視覺詞袋模型(Bag-of-Visual-Word)被 廣泛應(yīng)用在基于全局匹配的檢索框架中 [7'8]。借鑒于文本檢索中所使用的Bag of Words模 型,視覺詞袋模型嘗試將圖片描述為視覺單詞的集合。但是與文本檢索不同:(1)對于圖片 而言,單個(gè)像素點(diǎn)通常無法像文本中的單詞那樣具有特定的含義;(2)在圖片中,邊界是很 模糊的概念,無法與文本中的詞、語句、段落等相對應(yīng)。因此,視覺單詞(visual word)通常 由特征描述符聚類得出。在一個(gè)典型的視覺詞袋的框架中,首先對所有圖片提取計(jì)算某種 特征描述符(如SIFT [9]、!1(?[1°]等),然后使用無監(jiān)督的聚類如kmeans等方法將特征聚為k 個(gè)類,稱之為codebook。然后對于每一張圖片,都可以根據(jù)codebook來統(tǒng)計(jì)出視覺單詞的 直方圖分布。那么在檢索時(shí),對于輸入的草圖可以計(jì)算其視覺單詞的直方圖分布,然后通過 比較直方圖之間的差異來進(jìn)行相關(guān)圖片的檢索。視覺詞袋方法雖然可以在一定程度上提高 檢索的速度,但是對于精確度會造成一定的損失,這是由于對于特征進(jìn)行聚類所導(dǎo)致的。如 果在聚類中codebook選的過大,則對于速度的提升不夠顯著。反之,如果codebook選取的 過小,則可能無法充分的描述待檢索圖片特征的中心點(diǎn)分布。目前對于codebook的選取, 在手繪草圖檢索的部分研宄工作中主要是通過經(jīng)驗(yàn)以及實(shí)驗(yàn)對比來進(jìn)行選擇。
[0007] 在視覺詞袋模型中選擇何種特征描述符表示圖像和手繪草圖很大程度上決定了 最后的檢索精度,在計(jì)算機(jī)視覺領(lǐng)域中已經(jīng)存在著許多經(jīng)典的特征描述符用來表征圖像并 取得了良好的效果,比如顏色分布直方圖 [11]、邊緣直方圖、SIFT特征、HOG特征,然而手繪 草圖和自然圖像之間存在著非常明顯的區(qū)別,手繪草圖僅僅由一些簡單的黑白線條組成, 其包含的信息非常少,直接把自然圖像中的特征描述符應(yīng)用到手繪草圖上往往不能取得很 好的檢索效果。基于此,許多研宄致力于尋找更優(yōu)的特征描述符,這種更優(yōu)的特征描述符 不僅能很好的表征自然圖像同時(shí)也能很好的表征手繪草圖,如Hu [12]等提出了一種新的特 征描述符Gradient Field HOG (GF-HOG)并把它用在了視覺詞袋模型中,這種新的特征 描述符是HOG特征描述符的變體,在Hu等的工作中,其對于每張圖像,首先計(jì)算其梯度場 (Gradient Field)分布,然后再使用HOG方法來提取特征進(jìn)行匹配計(jì)算。其中圖像的梯度 場是由圖像原始的邊界分布估算所得的,GF-HOG中使用了 Poisson filling方法進(jìn)行估 算。由于是對于梯度場的分布未知信息,因此該方法的結(jié)果很大程度上依賴于該未知信息 的估算。根據(jù)Hu等的實(shí)驗(yàn)表明,在手繪草圖檢索當(dāng)中,該方法相比于直接應(yīng)用方向梯度直 方圖的方法可以取得更好的效果。
[0008] 視覺詞袋模型應(yīng)用在手繪草圖檢索系統(tǒng)中最大的缺點(diǎn)是視覺詞袋模型只是統(tǒng)計(jì) 了每個(gè)視覺單詞在圖像中出現(xiàn)的頻率而完全忽略了視覺單詞在圖像中出現(xiàn)的空間位置 [8],然而由于手繪草圖僅有一些黑白線條組成,這些線條的相對位置確定了手繪草圖的形 狀,因此視覺單詞的空間位置信息對于手繪草圖非常重要,丟失視覺單詞的空間位置信息 將會很大程序上降低檢索精度?;诖?,很多研宄致力于把圖像分割成若干個(gè)區(qū)域,然后 從這些區(qū)域中分別提取特征描述符并按一定的順序串聯(lián)在一起作為圖像的全局特征描述 符。在圖像和手繪草圖的匹配過程中,只有相同區(qū)域中的特征描述符才會進(jìn)行比較。如 Chalechale t13]等提出的Angular Radial Partitioning (ARP)方法將圖像分為若干個(gè)扇 形區(qū)域,然后統(tǒng)計(jì)圖像中落在每個(gè)區(qū)域中的邊界點(diǎn)的數(shù)量,用邊界點(diǎn)的數(shù)量來表征每個(gè)區(qū) 域。Eit Z[14]等提出的EHD描述符把圖像分為了若干個(gè)cell,對cell中的邊界點(diǎn)計(jì)算其梯 度方向并進(jìn)行量化,在匹配時(shí)分別計(jì)算每個(gè)對應(yīng)cell之間的距離,然后求和。Eitz等提出 的Tensor描述符和EHD描述符非常相似,區(qū)別是對于每個(gè)cell中特征的計(jì)算兩則采用了 不同的算法。基于圖像分割的檢索算法雖然彌補(bǔ)了視覺詞袋模型丟失特征空間位置信息的 缺點(diǎn),但同時(shí)也引出了一些問題,其中最主要的問題是如何處理圖像的旋轉(zhuǎn)、平移、尺度縮 放等問題,因?yàn)橐话闱闆r下用戶手繪的草圖和實(shí)際想要得到的檢索圖像之間會存在著一定 的偏差,基于圖像分割的檢索算法需要尋找一個(gè)合適的分割算法使得分割后的區(qū)域的大小 能很好的處理上述問題,而尋找這樣一種算法是不容易的。
[0009] 由以上分析可看出,當(dāng)前已有的手繪草圖檢索方法主要通過尋找一種合適的特征 描述符來表征圖像 [15'16],之后尋找一種匹配算法計(jì)算自然圖像和手繪草圖之間的相似性, 基于視覺詞袋模型的檢索方法和基于分割的檢索方法都是如此?;谑掷L草圖的圖像檢索 系統(tǒng)要能取得優(yōu)異的檢索性能必須要盡可能的保留特征的空間位置信息,并且能較好的處 理圖像的旋轉(zhuǎn)、平移、尺度縮放。然而,這些方法往往只能實(shí)現(xiàn)其中一個(gè)方面,要么丟失了特 征的空間位置信息,要么不能較好的處理圖像的旋轉(zhuǎn)、平移、尺度縮放,雖然這些方法也已 取得了一定的效果,但檢索精度有待提高。然而,所有這些方法均仍未充分考慮以下三個(gè)方 面所帶來的影響: (1)大多數(shù)現(xiàn)有的檢索方法都把經(jīng)過簡單邊緣提取后得到的邊界圖像當(dāng)做