從檢索圖像中篩選有用圖像的方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種從檢索圖像中篩選有用圖像的方法,主要用于解決當(dāng)前圖像檢索排序結(jié)果準(zhǔn)確率低的問(wèn)題。其主要實(shí)現(xiàn)步驟為:(1)提取數(shù)據(jù)庫(kù)圖像視覺(jué)詞袋特征和語(yǔ)義屬性特征;(2)離線訓(xùn)練學(xué)習(xí)視覺(jué)詞袋特征和語(yǔ)義屬性的映射字典;(3)根據(jù)用戶(hù)給出待搜索圖像,檢索得到初始圖像排序列表;(4)根據(jù)用戶(hù)給出待搜索圖像,分析視覺(jué)單詞語(yǔ)義重要性;(5)根據(jù)用戶(hù)給出待搜索圖像,分析視覺(jué)單詞上下文重要性;(6)結(jié)合視覺(jué)單詞的語(yǔ)義和上下文重要性,重新計(jì)算待排序圖像相關(guān)性分?jǐn)?shù),完成對(duì)初始結(jié)果的重新排序,以供用戶(hù)篩選出有用的相關(guān)圖像。本發(fā)明明顯提高最終圖像檢索的準(zhǔn)確率,可用于圖像檢索。
【專(zhuān)利說(shuō)明】從檢索圖像中篩選有用圖像的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息檢索【技術(shù)領(lǐng)域】,具體的說(shuō)是一種從檢索圖像中篩選有用圖像的方法,該方法可用于改善互聯(lián)網(wǎng)上圖像檢索結(jié)果的準(zhǔn)確率。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,Flicker,人人網(wǎng),Facebook,新浪微博等基于web2.0環(huán)境的社交媒體日益興起,這就使得圖像、視頻等海量多媒體數(shù)據(jù)的共享成為可能。現(xiàn)在互聯(lián)網(wǎng)上每時(shí)每刻,都有大量的圖像、視頻上傳。與此同時(shí),人們?cè)絹?lái)越習(xí)慣在互聯(lián)網(wǎng)上進(jìn)行圖像、文字等各種信息的搜索查詢(xún)。在此背景下,如何實(shí)現(xiàn)符合用戶(hù)搜索意圖的高效圖像搜索就變得非常重要。當(dāng)前互聯(lián)網(wǎng)背景下,諸如Google、Baidu、Bing等商用搜索引擎都在致力于開(kāi)發(fā)更加智能的能符合用戶(hù)搜索意圖的圖像搜索系統(tǒng)。傳統(tǒng)的圖像搜索主要以用戶(hù)輸入的文本關(guān)鍵字作為查詢(xún),搜索引擎根據(jù)離線建好的語(yǔ)料庫(kù)對(duì)用戶(hù)輸入的關(guān)鍵字進(jìn)行擴(kuò)展,構(gòu)建用戶(hù)查詢(xún)的文本特征,搜索時(shí),主要根據(jù)圖像所在網(wǎng)頁(yè)中的標(biāo)簽文字,例如圖像文件名,圖像標(biāo)注標(biāo)簽,網(wǎng)頁(yè)URL等,構(gòu)建圖像的文本特征,根據(jù)用戶(hù)的查詢(xún)文本特征和圖像的文本特征計(jì)算相似度,以此返回給用戶(hù)圖像搜索的結(jié)果。由于當(dāng)前互聯(lián)網(wǎng)基于文本的搜索技術(shù)已經(jīng)相當(dāng)成熟,基于文本特征的圖像搜索可以很方便實(shí)現(xiàn),然而,問(wèn)題在于圖像周?chē)奈淖謽?biāo)簽很可能和圖像的視覺(jué)內(nèi)容并不相一致。另一方面,隨著當(dāng)前互聯(lián)網(wǎng)不斷地往社交性、商業(yè)性上發(fā)展,近些年,直接以圖像作為查詢(xún)的以圖搜圖系統(tǒng)得到很多用戶(hù)的青睞。當(dāng)前的直接以圖像作為查詢(xún)的搜索技術(shù)主要利用圖像的底層視覺(jué)特征來(lái)進(jìn)行相似性的計(jì)算,然而,由于圖像的低層視覺(jué)特征和高層的語(yǔ)義概念之間存在語(yǔ)義鴻溝,低層視覺(jué)特征相似的圖像并不一定意味著圖像之間擁有著相似的語(yǔ)義內(nèi)容。這樣,無(wú)論以文本作為查詢(xún)還是直接以圖像作為查詢(xún),搜索引擎對(duì)于圖像的直接搜索結(jié)果常常很難令人滿(mǎn)意。
[0003]在此背景下,結(jié)合圖像內(nèi)容對(duì)初始搜索結(jié)果重新排序就成為了一項(xiàng)非常重要的工作。隨著圖像搜索技術(shù)的不斷發(fā)展,目前已經(jīng)提出了很多圖像重排序方法。經(jīng)典的方法包括聚類(lèi),分類(lèi)等技術(shù),將圖像的排序問(wèn)題轉(zhuǎn)變成經(jīng)典的半監(jiān)督學(xué)習(xí)問(wèn)題,以實(shí)現(xiàn)噪音圖像的過(guò)濾?;跈C(jī)器學(xué)習(xí)的方法根據(jù)初始的搜索結(jié)果去自主的學(xué)習(xí)用戶(hù)的搜索意圖,以此來(lái)改善最終圖像搜索的結(jié)果。結(jié)合當(dāng)前圖像重排序技術(shù),當(dāng)前的圖像搜索結(jié)果性能已經(jīng)得到相當(dāng)大程度的提高。然而,傳統(tǒng)的經(jīng)典圖像重排序技術(shù)往往沒(méi)有考慮圖像的語(yǔ)義內(nèi)容信息。圖像語(yǔ)義鴻溝的問(wèn)題還是沒(méi)有很好的得到解決。目前的研究趨勢(shì)正是如何結(jié)合圖像的語(yǔ)義內(nèi)容信息,針對(duì)圖像的語(yǔ)義鴻溝問(wèn)題研究算法以實(shí)現(xiàn)更高性能的圖像重排序。
[0004]盡管現(xiàn)今基于多特征融合的圖像重排序方法可以在一定程度上改善圖像搜索排序結(jié)果的準(zhǔn)確率,但是本質(zhì)的問(wèn)題依然存在。一方面,基于偽相關(guān)反饋策略選擇的標(biāo)注樣例不一定總是正確的。另一方面,在圖像的視覺(jué)一致性上,挖掘每一個(gè)標(biāo)注樣本的每一個(gè)視覺(jué)元素并不能很好地反映用戶(hù)的查詢(xún)目的。這些問(wèn)題將詳述如下:
[0005]基于偽相關(guān)反饋策略,一個(gè)基本的假設(shè)是初始排在最前面的樣本往往是和查詢(xún)相關(guān)的,因此可以被作為學(xué)習(xí)排序函數(shù)的正樣例。然而,實(shí)際中一些與查詢(xún)無(wú)關(guān)的圖像也會(huì)在初始排序結(jié)果中排在靠前的位置,從而影響挑選的正樣本的純度。另一方面,不止要求用戶(hù)標(biāo)注正樣本不僅效率低下,而且在實(shí)際系統(tǒng)中令人無(wú)法接受。即使排在初始結(jié)果前面的樣本可以被準(zhǔn)確的標(biāo)記,實(shí)際中也無(wú)法保證可以獲得足夠多數(shù)量的正樣本。因此,有選擇的對(duì)待噪音樣本方法就很有必要。比如文獻(xiàn)W.Liu, Y.Jiang, J.Luo, and S.-F.Chang, “Noiseresistant graph ranking for improved web image search,,,in Proc.1EEE Int.Conf.Comput.Vis.Pattern Recognit., 2011, pp.849 - 856.利用一些排在初始結(jié)果前面的圖像做為偽標(biāo)記樣本,進(jìn)一步通過(guò)正則化圖拉普拉斯算子選擇一部分特征基來(lái)過(guò)濾噪聲樣本。
[0006]視覺(jué)一致性方面,在傳統(tǒng)定義下,彼此相似的圖像應(yīng)該被排列在最終排序結(jié)果前面的位置。這一策略的缺陷在于如果兩幅圖像缺乏足夠的相似性,判斷兩幅圖像是否和查詢(xún)相關(guān)就會(huì)變的相當(dāng)困難。另一方面,純粹圖像級(jí)別的監(jiān)督算法并不能很好的捕獲標(biāo)注樣本的語(yǔ)義信息,很多情況下,用戶(hù)很難通過(guò)文本關(guān)鍵字描述其查詢(xún)意圖的語(yǔ)義內(nèi)容。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于提出一種從檢索圖像中篩選有用圖像的方法,以解決現(xiàn)有排序過(guò)程中噪音樣本影響排序準(zhǔn)確度的問(wèn)題,以及因缺乏視覺(jué)上的一致性而造成無(wú)法關(guān)聯(lián)兩幅圖像的問(wèn)題,提高初排序中正樣本的純凈度,增強(qiáng)圖像之間的查詢(xún)相關(guān)性,更準(zhǔn)確地獲取符合用戶(hù)意圖的圖像。
[0008]實(shí)現(xiàn)本發(fā)明目的技術(shù)方案是:采用用戶(hù)查詢(xún)圖像之間的相關(guān)性的方法來(lái)編碼圖像間的相似性,利用圖像的底層視覺(jué)特征和高層語(yǔ)義屬性的聯(lián)合,最終通過(guò)重排序能夠更精確的獲取對(duì)用戶(hù)有用的圖像,具體步驟包括如下:
[0009](I)根據(jù)視覺(jué)詞袋詞頻特征BOW和語(yǔ)義屬性的概率分布生成視覺(jué)語(yǔ)義字典:
[0010](Ia)對(duì)數(shù)據(jù)庫(kù)中的初始搜索結(jié)果圖像分別提取8192維視覺(jué)詞袋詞頻特征;
[0011](Ib)通過(guò)離線訓(xùn)練學(xué)習(xí),針對(duì)2659種基本語(yǔ)義屬性,分別訓(xùn)練2659種語(yǔ)義屬性的分類(lèi)器,在做圖像搜索時(shí),對(duì)每幅圖像用這2659種分類(lèi)器做預(yù)測(cè),將每一幅圖像對(duì)應(yīng)于2659維特征得到的預(yù)測(cè)分?jǐn)?shù)向量作為圖像的屬性特征,每一維對(duì)應(yīng)一種特定的語(yǔ)義屬性;
[0012](Ic)用映射函數(shù)sigmoid將訓(xùn)練圖像的語(yǔ)義屬性特征映射到0_1范圍,視作語(yǔ)義概率分布,把數(shù)據(jù)庫(kù)中所用圖像的集合用Τ={1,2,...?.,.η}表示,η表示數(shù)據(jù)庫(kù)中圖片的數(shù)量大小,i表示數(shù)據(jù)庫(kù)中的任意一幅圖片,分別提取第i幅圖像的視覺(jué)詞袋詞頻特征Vi和語(yǔ)義屬性的概率分布A1:
[0013]Vi= {p ⑴(V1),P ⑴(V2),...P ⑴(Vj),...P ⑴(Vk)},
[0014]Ai= {p ⑴(?),P ⑴(a2),…p⑴(a」)....p⑴(an)}
[0015]其中,Vj代表一個(gè)視覺(jué)單詞,ρω (Vj)為第i幅圖像在Vj這個(gè)視覺(jué)單詞的概率分布值,k表示視覺(jué)詞袋詞頻特征的維數(shù),Bj代表一種語(yǔ)義屬性,P⑴(Bj)為第i幅圖像在a」這個(gè)語(yǔ)義屬性的概率分布值,η表示語(yǔ)義屬性的維數(shù);
[0016](Id)用BOW的概率分布和語(yǔ)義屬性的概率分布生成視覺(jué)語(yǔ)義映射字典D ;
[0017](2)初始圖像檢索排序:
[0018](2a)根據(jù)視覺(jué)詞袋詞頻特征Vi,利用下式計(jì)算兩幅圖像之間的相似性距離F(t):
【權(quán)利要求】
1.一種從檢索圖像中篩選有用圖像的方法,包括如下步驟: (1)根據(jù)視覺(jué)詞袋詞頻特征BOW和語(yǔ)義屬性的概率分布生成視覺(jué)語(yǔ)義字典: (Ia)對(duì)數(shù)據(jù)庫(kù)中的初始搜索結(jié)果圖像分別提取8192維視覺(jué)詞袋詞頻特征; (Ib)通過(guò)離線訓(xùn)練學(xué)習(xí),針對(duì)2659種基本語(yǔ)義屬性,分別訓(xùn)練2659種語(yǔ)義屬性的分類(lèi)器,在做圖像搜索時(shí),對(duì)每幅圖像用這2659種分類(lèi)器做預(yù)測(cè),將每一幅圖像對(duì)應(yīng)于2659維特征得到的預(yù)測(cè)分?jǐn)?shù)向量作為圖像的屬性特征,每一維對(duì)應(yīng)一種特定的語(yǔ)義屬性; (Ic)用映射函數(shù)sigmoid將訓(xùn)練圖像的語(yǔ)義屬性特征映射到0-1范圍,視作語(yǔ)義概率分布,把數(shù)據(jù)庫(kù)中所用圖像的集合用Τ={1,2,...?.,.η}表示,η表示數(shù)據(jù)庫(kù)中圖片的數(shù)量大小,i表示數(shù)據(jù)庫(kù)中的任意一幅圖片,分別提取第i幅圖像的視覺(jué)詞袋詞頻特征Vi和語(yǔ)義屬性的概率分布Ai:
V1= {p(1) (V1),P(1) (V2),…P(1) (Vj),…P(1) (Vk) I,
A1= {p(1) (a^,P(1) (a2),...p(1) (a」)——p(1) (an)} 其中,' 代表一個(gè)視覺(jué)單詞,P⑴(Vj)為第i幅圖像在 ' 這個(gè)視覺(jué)單詞的概率分布值,k表示視覺(jué)詞袋詞頻特征的維數(shù),Bj代表一種語(yǔ)義屬性,P⑴(Bj)為第i幅圖像在a」這個(gè)語(yǔ)義屬性的概率分布值,η表示語(yǔ)義屬性的維數(shù); (Id)用BOW的概率分布和語(yǔ)義屬性的概率分布生成視覺(jué)語(yǔ)義映射字典D ; (2)初始圖像檢索排序: (2a)根據(jù)視覺(jué)詞袋詞頻特征Vi,利用下式計(jì)算兩幅圖像之間的相似性距離F(t):
2.根據(jù)權(quán)利要求1所述的從檢索圖像中篩選有用圖像的方法,其中步驟(Id)所述的生成視覺(jué)語(yǔ)義映射字典D,按如下步驟進(jìn)行: (Idl)用每一個(gè)視覺(jué)單字和每一種語(yǔ)義屬性的關(guān)聯(lián)性來(lái)表示映射值,根據(jù)每一幅圖像的詞袋詞頻概率特征矩陣B和每一幅圖像的語(yǔ)義屬性概率分布A,構(gòu)建語(yǔ)義映射字典D的目標(biāo)函數(shù)為:
【文檔編號(hào)】G06F17/30GK103778227SQ201410032416
【公開(kāi)日】2014年5月7日 申請(qǐng)日期:2014年1月23日 優(yōu)先權(quán)日:2014年1月23日
【發(fā)明者】鄧成, 王東旭, 楊延華, 王嘉龍, 李潔, 高新波 申請(qǐng)人:西安電子科技大學(xué)