專利名稱:基于語義分析的網(wǎng)絡(luò)圖像檢索方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,涉及一種基于語義分析的網(wǎng)絡(luò)圖像檢索方法。
背景技術(shù):
隨著信息技術(shù)的迅猛發(fā)展,多媒體信息急劇膨脹。圖像作為一種內(nèi)涵豐富、表現(xiàn)
直觀的多媒體信息,長期以來一直受到人們的關(guān)注。但是由于網(wǎng)絡(luò)上的圖像與日劇增,以
Google圖像檢索引擎為例,其可檢索的圖像已經(jīng)超過IO億張。如何在浩如煙海的圖像中,
通過有效的檢索,找到最符合用戶需求的圖像已經(jīng)成為當前迫切需要解決的問題。目前,圖
像檢索的技術(shù)主要有兩種基于文本的圖像檢索和基于內(nèi)容的圖像檢索。 基于文本的圖像檢索系統(tǒng)將網(wǎng)絡(luò)圖像周圍的文本信息如圖像標題、鏈接文本、內(nèi)
容描述等建立索引,對于用戶輸入的查詢詞,使用關(guān)鍵字匹配技術(shù)進行檢索,找到語義上相
關(guān)的圖像返回給用戶。然而,由于語義的多義性,同一關(guān)鍵字在不同的語義環(huán)境下代表不同
的含義,僅僅用關(guān)鍵字匹配的方式往往并不能返回給用戶理想的結(jié)果。 基于內(nèi)容的圖像檢索旨在從圖像數(shù)據(jù)庫中找出與查詢圖像內(nèi)容相似的圖像。它利用從圖像中自動抽取出來的底層特征,如顏色、紋理、輪廓和形狀等特征,進行計算和比較,檢索出符合用戶需求的結(jié)果圖像集。然而,由于圖像底層特征和高層語義之間的"語義鴻溝",視覺上相似的圖像往往在語義層面上存在著較大的差異性,這與用戶的檢索需求相違背,極大地制約了基于內(nèi)容的圖像檢索技術(shù)的發(fā)展。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的缺陷,本發(fā)明目的是提出一種基于語義分析的網(wǎng)絡(luò)圖像檢索方法。 為達成所述目的,本發(fā)明提出基于語義分析的網(wǎng)絡(luò)圖像檢索方法,該方法包括步驟如下 步驟1 :對于用戶輸入的查詢圖像,提取多種底層特征; 步驟2 :針對每種特征分別進行基于內(nèi)容的圖像檢索,找到視覺上相似的網(wǎng)絡(luò)圖像集; 步驟3 :用網(wǎng)絡(luò)圖像集中各圖像所對應(yīng)的相關(guān)文本信息進行語義學(xué)習(xí),得到查詢圖像的語義表示; 步驟4 :判斷各種特征所對應(yīng)檢索圖像集在文本信息上的語義一致性,以語義一致性衡量各種特征的描述能力,并賦予不同的置信度; 步驟5 :使用查詢圖像的語義和語義一致性在圖像庫中進行基于文本的圖像檢索,得到圖像庫中每幅圖像與查詢圖像的語義相關(guān)性;使用查詢圖像的底層特征對圖像庫中的圖像進行基于內(nèi)容的圖像檢索,得到圖像庫中每幅圖像與查詢圖像視覺上的相關(guān)性;然后通過一個線性函數(shù)把語義相關(guān)性和視覺相關(guān)性融合,最終返回給用戶的圖像在語義層面上和視覺層面上都具有相似性。
優(yōu)選的實施例,所述多種底層特征是顏色特征、紋理特征和形狀特征。
優(yōu)選的實施例,所述的語義學(xué)習(xí)通過以下步驟來實現(xiàn)首先,對于網(wǎng)絡(luò)圖像集中的
每幅圖像抽取其中的文本信息,然后,過濾文本信息,去掉其中的無用詞語;最后,將文本信
息中所有的有意義詞語作為候選,使用TF-IDF策略進行排序,選取排名靠前的幾個詞語作
為查詢圖像的語義表示。 優(yōu)選的實施例,所述的線件函數(shù)為Sfinai = STBIK+a *SCBIK Sfinal表示圖像庫中圖像與查詢圖像的相似程度,STBIK為圖像庫中的圖像與查詢圖像的語義相關(guān)性,S^為圖像庫中的圖像與查詢圖像的視覺相關(guān)性,a是一個參數(shù),根據(jù)用戶不同的需求調(diào)整語義相關(guān)性和視覺相關(guān)性重要性的比例;如果用戶希望檢索得到語義上更相關(guān)的圖像,則調(diào)小a ,反之如果用戶更需要視覺上相似的圖像,則相應(yīng)的調(diào)大a 。
本發(fā)明的有益效果本發(fā)明基于語義分析的網(wǎng)絡(luò)圖像檢索方法在傳統(tǒng)的基于內(nèi)容的圖像檢索技術(shù)基礎(chǔ)上融入語義分析,返回給用戶的結(jié)果與查詢圖像不僅在視覺上有較大的一致性,更重要的是,它們在語義上還具有極大的相關(guān)性。這更符合用戶的檢索需求。
圖1為本發(fā)明整體構(gòu)架流程圖; 圖2為基于內(nèi)容的網(wǎng)絡(luò)圖像檢索方法和基于語義分析的網(wǎng)絡(luò)圖像檢索方法實驗對比圖。
具體實施例方式
下面結(jié)合附圖詳細說明本發(fā)明技術(shù)方案中所涉及的各個細節(jié)問題。應(yīng)指出的是,
所描述的實施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。 本發(fā)明通過對用戶輸入的查詢圖像進行語義分析,得到它的語義特性,并結(jié)合圖
像的視覺特性進行聯(lián)合檢索,返回給用戶語義和內(nèi)容上都相似的圖像。如圖l示出本發(fā)明
整體構(gòu)架流程圖包括的五個部分(l)提取圖像的底層特征,如顏色特征,紋理特征,形狀
特征。(2)對每一種特征使用基于內(nèi)容的圖像檢索找出視覺上相似的圖像集。(3)對上面
得到的視覺相似的圖像集進行語義學(xué)習(xí),得到幾個關(guān)鍵字來表述查詢圖像。(4)通過語義一
致性來衡量各個特征的描述能力,描述能力強的特征給與更高的置信度。(5)使用學(xué)習(xí)到的
圖像語義和圖像的底層特征進行聯(lián)合檢索,找出語義和視覺上都相似的圖像。 顏色特征、紋理特征和形狀特征被廣泛的應(yīng)用在基于內(nèi)容的圖像檢索中。顏色是
彩色圖像的重要特征,也是彩色圖像給人的第一印象。紋理是物體表面某種變化或分布規(guī)
律的表現(xiàn),在圖像中表現(xiàn)為顏色或明暗的某種規(guī)律變化。圖像中物體的形狀是圖像的重要
特征,根據(jù)物體的形狀可以大致判斷物體的類型。 基于內(nèi)容的圖像檢索常用來尋找與查詢圖像視覺上相似的圖像。它首先提取圖像的底層視覺特征,并將圖像的底層特征映射為高維空間的一個點。然后,使用空間點的距離函數(shù)來衡量查詢圖像與圖像庫中的圖像視覺上的相關(guān)性,排序得到與查詢圖像最相似的圖像。但在實際應(yīng)用中,圖像的底層特征通常具有較高的維數(shù),計算圖像庫中每幅圖像與查詢圖像之間的相似性并進行排序是一項費時的工作,這對于實時性要求較高的海量網(wǎng)絡(luò)圖像
4檢索來說是不現(xiàn)實的。本發(fā)明使用局部敏感性哈希算法(LSH)來加速這一檢索過程。LSH是一種相似性度量的近似方法,它能在線性時間完成相似性度量。LSH將空間劃分為若干個小區(qū)域,對圖像庫中的每幅圖像,提取得到它的底層視覺特征,然后通過一組哈希函數(shù)將這些圖像都映射到小區(qū)域內(nèi),相似的圖像映射到同一個區(qū)域或者相鄰區(qū)域內(nèi)。這樣,對于用戶輸入的查詢圖像,通過同樣的哈希函數(shù)映射到某個區(qū)域內(nèi),與它位于同一區(qū)域內(nèi)或者相鄰
區(qū)域內(nèi)的圖像就是我們要找的相似圖像。本發(fā)明所用到的哈希函數(shù)為
其中V是圖像的d維底層視覺特征,m是一個d維的隨機向量,W為歸一化參數(shù),n是[O,W]中的一個隨機數(shù)。 語義學(xué)習(xí)用于從每個特征得到的視覺相似的網(wǎng)絡(luò)圖像集尋找他們在語義上的共性,并抽取幾個關(guān)鍵字來描述檢索圖像。首先,對于圖像集中的每幅圖像,我們抽取其中的文本信息,如圖像標題、圖像鏈接文本、圖像描述等。然后,將文本信息中的無用詞語過濾。網(wǎng)絡(luò)圖像周圍的文本信息往往包含較多的噪聲,許多詞對描述圖像沒有任何意義,我們對文本信息進行詞性分析,將對描述圖像沒有意義的副詞、介詞、連詞、助詞、擬聲詞和嘆詞等濾除。最后,將文本信息中的有意義詞語作為候選,使用TF-IDF策略進行排序,選取排名靠前的幾個詞語作為檢索圖像的文本表示。TF-IDF是一種統(tǒng)計方法,常用來評估字或者詞語對于一個文檔集的重要程度。在一份給定的文檔里,詞頻(term frequency, TF)指的是某一個給定的詞語在該文檔中出現(xiàn)的次數(shù)。逆向文檔頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文檔數(shù)目除以包含該詞語之文檔的數(shù)目,再將得到的商取對數(shù)得到。某一特定文檔內(nèi)的高詞語頻率,以及該詞語在整個文檔集合中的低文檔頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。 在使用基于內(nèi)容的圖像檢索尋找視覺相似的圖像過程中,考慮到不同的特征在不同的環(huán)境下描述能力不同,使用了多個特征分別進行檢索。這樣就需要對各個特征的描述能力進行判斷。對于描述能力強的特征,我們應(yīng)該給與更高的置信度,它學(xué)習(xí)得到的圖像語義更可信,在最后的聯(lián)合檢索中該特征應(yīng)給與更高的權(quán)值。這里使用語義一致性來衡量各種特征的描述能力。對于某種特征得到的視覺相似圖像集,如果它們之間在語義上也有較大的相關(guān)性,表明該特征能較好的描述圖像,檢索得到的結(jié)果能更好地滿足用戶的需求。也就是說圖像集的語義一致性越高,則該特征描述能力越強。我們將圖像集中每幅圖像周圍的文本信息表示成語義向量,并映射到語義空間上的一個點,這樣如果圖像集的點的分布越集中,表示它們的語義一致性越高,相應(yīng)地就給與該特征更高的置信度。
使用查詢圖像的語義和語義一致性在圖像庫中進行基于文本的圖像檢索,得到圖像庫中每幅圖像與查詢圖像的語義相關(guān)性;使用查詢圖像的底層特征對圖像庫中的圖像進行基于內(nèi)容的圖像檢索,得到圖像庫中每幅圖像與查詢圖像視覺上的相關(guān)性。然后通過一個線性函數(shù)把兩者融合,排名靠前的圖像與查詢圖像語義和視覺上都有相似性。線性函數(shù)的定義如下 Sfinal = STBIK+ a *SCBIK 其中Sfiw表示圖像庫中圖像與查詢圖像的相似程度,ST,表示圖像庫中圖像和查詢圖像在語義上的相似性,S^表示圖像庫中圖像與查詢圖像在視覺上的相似性。a是一個參數(shù),根據(jù)用戶需求調(diào)整語義相關(guān)性和視覺相關(guān)性重要性的比例。如果用戶需要語義上更相關(guān)的圖像,則調(diào)小a ,反之如果用戶更需要視覺上相似的圖像,則相應(yīng)的調(diào)大a。
ST^是圖像庫中圖像和查詢圖像在語義上的相似性。但在本發(fā)明中,使用了多個特征進行檢索,且每個特征都學(xué)習(xí)到了幾個關(guān)鍵字代表查詢圖像。因此,St,定乂如下 5畫=2 q、 其中,Cj表示第j個特征的語義一致性,^^表示用第j個特征學(xué)習(xí)到的關(guān)鍵字作
為查詢文本,圖像庫中的所有圖像和它的語義相關(guān)性。
相應(yīng)地,SeBIK定義如下 SCSM = ^ 。.5"力 其中,S勺表示使用第j個特征描述時,圖像庫中的所有圖像與查詢圖像的視覺相似性。 為了驗證方法的有效性,我們分別搭建一個基于內(nèi)容的網(wǎng)絡(luò)圖像檢索平臺和基于語義分析的網(wǎng)絡(luò)圖像檢索平臺做實驗。實驗中所有的數(shù)據(jù)都從Google和Flickr上爬取,圖像庫一共包含八百萬幅圖像。 我們邀請了多個測試人員在這兩個平臺上實驗,并對檢索結(jié)果進行評估。平均準確率MAP (Mean Average Precision)是信息檢索的常用評價指標,常被用來衡量檢索結(jié)果的好壞,它是檢索出的每幅圖像的準確率的平均值。系統(tǒng)檢索出來的相關(guān)圖像越靠前(rank越高),MAP就可能越高。結(jié)果表明,基于語義分析的網(wǎng)絡(luò)圖像檢索方法(MAP = 0.27)要遠好于基于內(nèi)容的圖像檢索方法(MAP = 0. 18)。圖2為基于內(nèi)容的網(wǎng)絡(luò)圖像檢索方法和基于語義分析的網(wǎng)絡(luò)圖像檢索方法實驗對比圖。 其中,左邊第一列是用戶輸入的查詢圖像,右邊的五列是查詢結(jié)果。第1,3,5行為基于內(nèi)容的網(wǎng)絡(luò)圖像檢索方法的實驗結(jié)果,2,4,6行為基于語義分析的網(wǎng)絡(luò)圖像檢索方法的實驗結(jié)果。 以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護范圍應(yīng)該以權(quán)利要求書的保護范圍為準。
權(quán)利要求
一種基于語義分析的網(wǎng)絡(luò)圖像檢索方法,其特征在于,該方法包括步驟如下步驟1對于用戶輸入的查詢圖像,提取多種底層特征;步驟2針對每種特征分別進行基于內(nèi)容的圖像檢索,找到視覺上相似的網(wǎng)絡(luò)圖像集;步驟3用網(wǎng)絡(luò)圖像集中各圖像所對應(yīng)的相關(guān)文本信息進行語義學(xué)習(xí),得到查詢圖像的語義表示;步驟4判斷各種特征所對應(yīng)檢索圖像集在文本信息上的語義一致性,以語義一致性衡量各種特征的描述能力,并賦予不同的置信度;步驟5使用查詢圖像的語義和語義一致性在圖像庫中進行基于文本的圖像檢索,得到圖像庫中每幅圖像與查詢圖像的語義相關(guān)性;使用查詢圖像的底層特征對圖像庫中的圖像進行基于內(nèi)容的圖像檢索,得到圖像庫中每幅圖像與查詢圖像視覺上的相關(guān)性;然后通過一個線性函數(shù)把語義相關(guān)性和視覺相關(guān)性融合,最終返回給用戶的圖像在語義層面上和視覺層面上都具有相似性。
2. 根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于,所述多種底層特征是顏色特征、紋理特征和形狀特征。
3. 根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于,所述的語義學(xué)習(xí)通過以下步驟來實現(xiàn)首先,對于網(wǎng)絡(luò)圖像集中的每幅圖像抽取其中的文本信息,然后,過濾文本信息,去掉其中的無用詞語;最后,將文本信息中所有的有意義詞語作為候選,使用TF-IDF策略進行排序,選取排名靠前的幾個詞語作為查詢圖像的語義表示。
4. 根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于,所述的線性函數(shù)為Sfinal — STBIR+ Ct *SCBIRsfinal表示圖像庫中圖像與查詢圖像的相似程度,sTBIK為圖像庫中的圖像與查詢圖像的語義相關(guān)性,Sc,為圖像庫中的圖像與查詢圖像的視覺相關(guān)性,a是一個參數(shù),根據(jù)用戶不同的需求調(diào)整語義相關(guān)性和視覺相關(guān)性重要性的比例;如果用戶希望檢索得到語義上更相關(guān)的圖像,則調(diào)小a ,反之如果用戶更需要視覺上相似的圖像,則相應(yīng)的調(diào)大a 。
全文摘要
本發(fā)明涉及基于語義分析的網(wǎng)絡(luò)圖像檢索方法,對用戶輸入的查詢圖像提取底層特征。對每種特征進行基于內(nèi)容的圖像檢索找到視覺上相似的網(wǎng)絡(luò)圖像集。用網(wǎng)絡(luò)圖像集中各圖像所對應(yīng)的相關(guān)文本信息進行語義學(xué)習(xí)得到查詢圖像的語義表示。判斷各種特征所對應(yīng)檢索圖像集在文本信息上的語義一致性,以語義一致性衡量各種特征的描述能力,并賦予不同的置信度。用查詢圖像的語義和語義一致性在圖像庫中進行基于文本的圖像檢索得到圖像庫中每幅圖像與查詢圖像的語義相關(guān)性;用底層特征對圖像庫基于內(nèi)容的圖像檢索,得到圖像庫中每幅圖像與查詢圖像視覺上的相關(guān)性;由線性函數(shù)把語義和視覺相關(guān)性融合,返回給用戶的圖像在語義層面上和視覺層面上都具有相似性。
文檔編號G06F17/30GK101751447SQ20091008953
公開日2010年6月23日 申請日期2009年7月22日 優(yōu)先權(quán)日2009年7月22日
發(fā)明者劉靜, 盧漢清, 桂創(chuàng)華 申請人:中國科學(xué)院自動化研究所