一種基于眼動的提取圖像興趣區(qū)域的交互式圖像檢索方法
【技術領域】
[0001] 本發(fā)明屬于信息檢索領域(基于內(nèi)容的圖像檢索),涉及眼動數(shù)據(jù)的獲取及應用 到基于內(nèi)容的圖像檢索內(nèi)容,尤其是基于眼動數(shù)據(jù)在基于內(nèi)容圖像檢索如何提高檢索效果 和改善用戶體驗的方法。
【背景技術】
[0002] 圖像,作為一種內(nèi)容豐富,表現(xiàn)直觀的多媒體信息,一直以來受到人們的青睞。隨 著多媒體技術、計算機技術、通信技術以及互聯(lián)網(wǎng)的迅速發(fā)展,各種各樣的圖像信息不斷的 涌進人們的生活和工作。各種應用不斷地產(chǎn)生,使得圖像信息的檢索成為迫切需要解決的 問題。對于圖像的管理,在早期都是采用檔案文件管理的方式。到上世紀70、80年代,對圖 像數(shù)據(jù)賦予屬性信息,并且在圖像信息中把這些信息格式化,再利用這些格式化的信息管 理和查詢圖像。但是這些方法存在著一些無法克服的缺點:(1)圖像的內(nèi)容廣泛,涉及到的 各個領域,對于圖像屬性信息的自動生成對于目前的技術來說是不可行的。(2)人工生成的 圖像屬性信息由于不同的人對圖像信息的含義解釋不同就會造成主觀誤差。即使相同的人 在不同的環(huán)境下也會有不同的理解。(3)圖像承載的信息量比語言文字要大得多,寥寥數(shù)語 是不能完全表達圖像的含義的。大型數(shù)據(jù)庫的出現(xiàn),上述問題變得更加嚴重了。于是人們 提出了基于內(nèi)容的圖像檢索技術(Content-BasedImageRetrieve,CBIR),認為表示可視 化的信息最直觀最有效的方法是用圖像中隱藏的特征來表示,并且把計算機視覺、數(shù)據(jù)庫 管理、人機交互和信息查找的綜合研究引入了該領域。簡單的說基于內(nèi)容圖像檢索技術就 是對圖像的內(nèi)容進行語義分析,從中抽取其顏色、紋理、形狀、對象空間關系以及對象語義 等特征,在此基礎上,利用圖像相似度量函數(shù)(similaritymetric)計算或評價圖像之間的 相似性,評價的準則是預先定義的,并將最相似的一些圖像作為檢索結果返回給用戶。由于 利用了圖像本身的物理內(nèi)容標注或索引圖像,避免了人工描述圖像的主觀性,大大增加了 圖像?目息的檢索效率,解決了基于文本檢索中存在的問題。
[0003] 特征(內(nèi)容)提取是基于內(nèi)容檢索的基礎。目前圖像的特征有底層特征和高層語 義特征。人們期望計算機在能夠接受人類用自然語言對圖像內(nèi)容的描述(即語義特征或高 層特征)后,可自動檢索出期望的圖像。但由于計算機對圖像信息的理解跟人類對圖像信 息理解存在不一致性,導致底層特征和語義特征存在差距,g卩"語義鴻溝"。因此具有高智能 的圖像檢索系統(tǒng)目前還沒有實現(xiàn)。
[0004] 研究發(fā)現(xiàn)圖像的主要信息往往集中在圖像的少數(shù)區(qū)域中,并且往往這些少數(shù)區(qū)域 更能夠吸引人們更多注意力,這些少數(shù)區(qū)域即是興趣區(qū)域。在圖像檢索過程中如果能夠有 效提取這些興趣區(qū)域,就能夠很好的提取到圖像的關鍵語義,進一步有效提升檢索的效果。
[0005] 在觀察外界對象過程中,人們往往通過頻繁的注視來表達對對象的關注和興趣。 人眼的運動傳遞了大量反應人體心理活動的信息。因此通過眼動儀采集用戶觀察圖像過程 中注視點的分布,可以實現(xiàn)興趣區(qū)域的獲取,進一步縮小語義鴻溝。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明旨在克服現(xiàn)有的基于內(nèi)容的圖像檢索方法的不足,主要是對傳統(tǒng)的基于內(nèi) 容的圖像檢索方法的低召回率、低準確率以及不具有更好的人機交互性能的缺點進行改 進?;谘矍蜃粉櫟膱D像內(nèi)容檢索方法能夠很好的結合用戶的注視興趣區(qū)域來進行最大程 度上的抓取用戶的檢索興趣,從而最大程度上預測用戶的檢索意圖,根據(jù)用戶在瀏覽圖片 過程中對不同圖片不同區(qū)域的注視時長、次數(shù)等眼球運動特征進行對用戶搜索意圖建模, 根據(jù)該模型來解決傳統(tǒng)的基于內(nèi)容的圖像檢索的方法的不足,尤其是解決檢索過程中更好 的人機交互性能,從而促進召回率和準確率的提高。
[0007] 為了解決上述技術問題,本發(fā)明提出的一種基于眼動的提取圖像興趣區(qū)域的交互 式圖像檢索方法,包括以下步驟:
[0008] 步驟一、讓用戶坐于眼動儀前,并使用戶的眼睛到眼動儀屏幕之間的距離在 60-75cm之間,將圖片庫加載到與眼動儀連接的計算機中,保證圖片隨機在眼動儀屏幕上 顯示,同時,眼動儀屏幕上有一個跳動的小圓點來輔助用戶矯正,所述眼動儀的采樣率為 300HZ;
[0009] 步驟二、用戶在瀏覽圖片的過程中,利用眼動儀收集用戶的眼動數(shù)據(jù),將用戶的離 散的注視點聚集為注視點簇,將注視點簇中時長少于150ms的點去掉,對收集到的眼動數(shù) 據(jù)進行降噪,得到了每幅圖像的所有有效注視點;
[0010] 步驟三、將注視點的屏幕坐標轉換為注視點的圖像坐標;
[0011] 步驟四、利用JSEG圖像分割算法將圖像分割成若干區(qū)域,然后根據(jù)注視點的圖像 坐標,判斷哪些區(qū)域有注視點的分布,將有注視點的區(qū)域標記為興趣區(qū)域,并且興趣區(qū)域的 興趣值與該興趣區(qū)域的注視點數(shù)目成正比;
[0012] 步驟五、提取興趣區(qū)域的底層圖像特征,至少包括HSV顏色直方圖和sift特征;
[0013] 步驟六、用戶通過人機交互方式從圖片庫中選取查詢圖像,利用迭代匹配的方法 計算查詢圖像的興趣區(qū)域與圖片庫中待匹配圖像的興趣區(qū)域之間的相似度,根據(jù)注視時間 長度計算區(qū)域相似度的加權平均值作為圖像間的相似度;將得到的相似度值進行降序排 序,并按照該順序展示給用戶相應的圖像。
[0014] 進一步講,實現(xiàn)步驟二的具體的偽代碼如下:
[0015]
[0016]
[0017] 其中:用戶在瀏覽圖片的過程中的所有注視點的集合記為:EYEDATA= (Gi,G2,… Gn),注視點G1=(XpYj,(XyYj為注視點在屏幕上的X坐標和Y坐標;注視點聚集的最小 閾值為Κ,即每個注視點簇J中至少有Κ個注視點;每個圖片分割為若干個區(qū)域,記為:
[0018]
\表示圖片I被分割為Ν個區(qū)域之后的第i個區(qū)域;設兩個注 視點簇融合為一個新的注視點簇之間的最大閾值為L,即若兩個注視點簇之間的距離小于 L,則將這兩個注視點簇融合為一個新的注視點簇;
[0019] 兩個注視點簇之間的距離采用歐氏距離,即:
[0020]
[0021]其中,&和G,分別代表注視點(Xρ幻和(X,,Y,),降噪之后的注視點集合記為
得聚集之后的注視點簇記為降噪之后的注視點;兩個注視點簇的融合過 程如下:定義一個注視點簇中心點函數(shù)F(Gi,G1+1),并且中心點記做1? :=
[0022]
[0023] 步驟三中:將注視點的屏幕坐標轉換為注視點的圖像坐標的過程如下;
[0024] 設:圖像I在屏幕中的相對于屏幕左上角的位置為(輯,#),的屏幕坐標為 If 轉換之后的注視點的圖像坐標記為級=有:
[0025]
[0026]
[0027]步驟四中:記每個興趣區(qū)域^的對應興趣值為C i
[0028]
[0029] 其中,山為每個分割區(qū)域r#對應的注視點的時長,即r#J啲累加和,即
[0030]
〇·
[0031] 步驟六的具體過程如下:
[0032]圖像的特征的打分函數(shù)為fT(P),根據(jù)步驟四得到的用戶在每幅圖像上的每個興 趣區(qū)域的興趣值為Q,則對應的每幅圖像I的興趣值為:
[0033]
[0034]給定一個查詢圖像q和圖片庫中任意的一幅圖像d,該兩幅圖像的特征打分函數(shù) 為:
[0035]
[0036] 其中,#和縛分別代表興趣區(qū)域和的重要性值,即興趣值;狹·^和|龍,分 另|J代表查詢圖像q和圖片庫中任意的一幅圖像d的興趣區(qū)域的數(shù)量;最后,查詢圖像q和圖 片庫中任意的一幅圖像d的綜合打分函數(shù)戈
根據(jù)打分函數(shù)的 分值進行降序排序,得到了與用戶查詢圖像相關的圖像列表。
[0037] 與現(xiàn)有技術相比