專利名稱:基于標(biāo)注語(yǔ)義的個(gè)性化圖像瀏覽與推薦方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于多媒體信息檢索技術(shù)領(lǐng)域,具體涉及圖像這種特定媒體的數(shù)據(jù)檢索、瀏覽與推薦方法及系統(tǒng)。
背景技術(shù):
隨著Internet和信息化的發(fā)展,數(shù)字圖像的容量和數(shù)量在高速增長(zhǎng),每天都有海量圖像數(shù)據(jù)產(chǎn)生。就目前研究情況來(lái)看,訪問(wèn)圖像數(shù)據(jù)的檢索與瀏覽算法已成為圖像信息發(fā)展的瓶頸。如何快速而準(zhǔn)確地查找、訪問(wèn)滿足用戶需求的圖像,并有效利用這些圖像信息,就成為當(dāng)前迫切需要解決的問(wèn)題,即圖像檢索與瀏覽技木。該技術(shù)分為以下幾個(gè)發(fā)展方向I)基于文本的圖像檢索(Text-based Image Retrieval, TBIR)與瀏覽技術(shù),其主要是將圖像通過(guò)文本標(biāo)注形成標(biāo)簽,基于圖像和標(biāo)簽之間的對(duì)應(yīng)關(guān)系來(lái)實(shí)現(xiàn)檢索與瀏覽過(guò)程[1,2’ 3] ;2)基于內(nèi)容的圖像檢索(Content-based Image Retrieval, CBIR)與瀏覽于20世紀(jì)90年代開(kāi)始在研究和應(yīng)用領(lǐng)域得到長(zhǎng)足發(fā)展,其主要是基于圖像本身的內(nèi)容特征或者紋理特征來(lái)進(jìn)行檢索和匹配,查詢與瀏覽具有相關(guān)和相近特征圖像的過(guò)程[4’ 5’ 6] ;3)此后發(fā)展起來(lái)的檢索與瀏覽算法有基于語(yǔ)義的模式(即提供語(yǔ)義方面的擴(kuò)展)、基于反饋的模式(即考慮到用戶交互,并將用戶交互的結(jié)果信息作為系統(tǒng)的輸入反饋給系統(tǒng),從而讓系統(tǒng)學(xué)習(xí)到用戶的偏好特征,獲得個(gè)性化的檢索結(jié)果)以及基于知識(shí)的模式(即主要是構(gòu)建知識(shí)庫(kù),使得用戶能夠基于知識(shí)庫(kù)的信息得到更好的檢索結(jié)果)[7' 8' 9]?;谖谋镜膱D像檢索與瀏覽作為ー種早期技術(shù),十分依賴于圖像的標(biāo)注結(jié)果,這也是它的缺點(diǎn),但基于文本的圖像檢索與瀏覽作為ー種較為成熟的技術(shù),其快速可靠的特點(diǎn)在當(dāng)今相關(guān)研究領(lǐng)域仍然十分突出[ια η' 12]。因此,基于文本的圖像檢索與瀏覽仍是ー個(gè)值得研究的主題,若能吸取其它方法的一些特點(diǎn)或是和其它幾種方法交互使用,將會(huì)產(chǎn)生不錯(cuò)的效果。如何把用戶所需要的檢索和瀏覽結(jié)果呈現(xiàn)給用戶,快速而準(zhǔn)確地定位所需要的圖像資源,一直是圖像檢索、瀏覽和推薦領(lǐng)域的ー個(gè)重大問(wèn)題[13,14]。當(dāng)用戶輸入查詢需求吋,總是希望能夠及時(shí)檢索出和瀏覽到最想獲得的結(jié)果,并使這些結(jié)果能夠排在檢索結(jié)果的最前面,或者獲得最滿足需求的推薦結(jié)果,這就涉及到不同的瀏覽和推薦方式16]。首先是圖像瀏覽算法,基于查詢的方式進(jìn)入數(shù)據(jù)庫(kù)檢索,并將檢索結(jié)果的內(nèi)容直接返回給用戶,這是ー種查詢關(guān)鍵詞_>圖像結(jié)果的直接圖像檢索和瀏覽過(guò)程。其次是關(guān)于推薦算法,著重考慮用戶模型,根據(jù)用戶的歷史行為習(xí)慣推薦具有用戶偏好的圖像,但這種方法不具有發(fā)散性,每個(gè)人關(guān)于用戶的需求和體驗(yàn)不同,所以建立用戶模型是必要的解決手段。因此,如果能夠綜合上述瀏覽與推薦算法的長(zhǎng)處,在查詢基礎(chǔ)上添加用戶模型并對(duì)查詢進(jìn)行優(yōu)化,提供語(yǔ)義擴(kuò)展功能,使檢索和瀏覽內(nèi)容更加豐富并建立具有用戶偏好的用戶反饋模型,將檢索、瀏覽和推薦的結(jié)果綜合返回給用戶,為用戶瀏覽提供個(gè)性化的推薦和檢索,以使結(jié)果更符合用戶需求,同時(shí)達(dá)到更好的圖像檢索和瀏覽質(zhì)量。在研究如何對(duì)用戶的瀏覽進(jìn)行個(gè)性化推薦的過(guò)程中,可從心理學(xué)中的人類聯(lián)想模型得到啟發(fā)& 18]。我們期望能夠提供語(yǔ)義上連貫的圖像瀏覽服務(wù),而這種連貫又必須為用戶所能夠認(rèn)可[19’ 2°]。在理想情況下,最好能夠提供或者推薦出用戶在選擇上一幅瀏覽圖像時(shí)所聯(lián)想到的另一幅圖像。如果能夠在用戶瀏覽圖像的過(guò)程中,為用戶推薦出用戶當(dāng)時(shí)聯(lián)想到的圖像,那么這個(gè)具有人類“聯(lián)想記憶”能力的圖像瀏覽和推薦系統(tǒng)將提供十分吸引人的用戶體驗(yàn)。然而,人腦的聯(lián)想機(jī)制沒(méi)有界限,聯(lián)想的具體方式多種多祥,沒(méi)有辦法真正讓機(jī)器猜測(cè)到人類具體的聯(lián)想結(jié)果[21’22]。但退ー步設(shè)想,如果難以設(shè)計(jì)ー種精確算法來(lái)猜測(cè)用戶的聯(lián)想,而不妨按照某種合理的機(jī)器邏輯,結(jié)合用戶建模,向用戶提出下一步瀏覽的建議,使得用戶可在一種個(gè)性化推薦的機(jī)制下選擇自己瀏覽的方向,也仍將是一種不錯(cuò)的體驗(yàn)。盡管并不期望機(jī)器能夠真正模擬人類聯(lián)想,但人類聯(lián)想方式對(duì)于設(shè)計(jì)個(gè)性化瀏覽與推薦算法非常有啟發(fā)。圖I描述人類的一般聯(lián)想過(guò)程,可從該圖中可看到聯(lián)想過(guò)程主要是兩個(gè)部分,即比較搜索過(guò)程和語(yǔ)境分析過(guò)程[23]。前者是ー個(gè)根據(jù)大量不同關(guān)系發(fā)散的過(guò)程,由輸入的語(yǔ)言文字或者圖像等信息,觸發(fā)人類記憶中的相關(guān)信息;而后者是權(quán)衡不同信息的篩選決策過(guò)程,結(jié)合場(chǎng)景、經(jīng)驗(yàn)、語(yǔ)境等限制,從大量被觸發(fā)的信息中篩選出最適宜的反應(yīng)。如果從計(jì)算機(jī)的角度來(lái)詮釋,前者的作用相當(dāng)于語(yǔ)義(以及其它各種關(guān)系)擴(kuò)展和檢索,用于收集相關(guān)信息;而后者的作用相當(dāng)于分析各種歷史的與當(dāng)前的信息,對(duì)收集到的結(jié)果進(jìn)行排序,篩選出比較重要的信息。基于以上原因,構(gòu)建語(yǔ)義概念網(wǎng)絡(luò)就顯得十分重要,本體(Ontology)是目前應(yīng)用十分廣泛的方法。本體(ontology)是起源于古希臘的ー個(gè)哲學(xué)詞匯,而在計(jì)算機(jī)科學(xué)與信息科學(xué)領(lǐng)域中,本體是“對(duì)于ー個(gè)領(lǐng)域中的知識(shí)使用ー個(gè)概念集合進(jìn)行形式化表達(dá)的方法” [24],一個(gè)更為理論化的定義為“共享概念的形式化明確規(guī)范”(“Fonml,explicitspecification of a shared conceptualization ^ )[25] 本體的構(gòu)成主要包括實(shí)例(Instance/Individual)、概念(Concept/Class)、屬性(Attribute)和關(guān)系(Relation),更完整的本體還會(huì)包括限制(Restriction)和定理(Axioms)等[26]。實(shí)例描述領(lǐng)域中的相關(guān)個(gè)體;概念則是實(shí)例的類別和集合,歸類領(lǐng)域中的個(gè)體類別;屬性則用于描述實(shí)例和類別的特征;而關(guān)系用于描述實(shí)例或類別與其它實(shí)例或類別之間的關(guān)聯(lián)。廣義的本體包括從簡(jiǎn)單到復(fù)雜多種形式的知識(shí)描述系統(tǒng)。分類系統(tǒng)(Taxonomy)是ー種最簡(jiǎn)單的本體,所有的概念依據(jù)is-a關(guān)系構(gòu)成一個(gè)樹(shù)狀(或者森林)結(jié)構(gòu),比如生物的分類系統(tǒng),門綱目屬種中的生物類別根據(jù)is-a構(gòu)成所有己知生物的關(guān)系樹(shù)[27]。如果概念之間不只通過(guò)is-a關(guān)系進(jìn)行關(guān)聯(lián),還有ー些其它的關(guān)系,那么本體的結(jié)構(gòu)就不再是簡(jiǎn)單的樹(shù)狀結(jié)果,義類詞典(Thesaurus)就是這種本體的代表。WordNet可被看做是ー個(gè)非常經(jīng)典的英語(yǔ)義類詞典,其中用于代表英語(yǔ)語(yǔ)義的同義詞集(Synset)從義類詞典的角度看就是英語(yǔ)領(lǐng)域中的概念,而這些概念之間不只有is-a關(guān)系(如“cai ” is_a”),還有part_of等其它關(guān)系(t匕如“wheel” part-of “car”)。更加復(fù)雜的本體則包含定理(Axioms),可從實(shí)例或者概念的現(xiàn)有關(guān)系或者屬性根據(jù)定義好的規(guī)則進(jìn)行推理,得出隱含的知識(shí)[28]。最基本的推理是分類系統(tǒng)中都有的根據(jù)is-a關(guān)系的傳遞性所得出,比如“is-a “B”而且“B” is-a “び’,則I” is-a “C”。在構(gòu)建不同領(lǐng)域的本體時(shí),可能出現(xiàn)非常復(fù)雜的推理規(guī)則,而這往往也是構(gòu)建本體需要領(lǐng)域?qū)<业脑蛑?。本體的構(gòu)建為計(jì)算機(jī)聯(lián)想提供邏輯上的支持,因?yàn)槁?lián)想具有關(guān)聯(lián)性??紤]到本體自身的特點(diǎn),通過(guò)本體(Ontology)去尋找這種關(guān)聯(lián)更加符合語(yǔ)義邏輯關(guān)系和聯(lián)想的過(guò)程。目前已有的圖像檢索、瀏覽與推薦算法通常源于文本檢索,雖然基本脫于現(xiàn)已較、成熟的文本檢索技術(shù),但如果照搬其中某些不適用的技術(shù),會(huì)給圖像檢索、瀏覽與推薦帶來(lái)負(fù)面影響[29,3°]。一般的面向文本的檢索、瀏覽或者推薦模型不可能對(duì)面向圖像的檢索、瀏覽與推薦都有效,并且由于圖像自身的特點(diǎn),單純的檢索技術(shù)也無(wú)法滿足用戶的需求和體驗(yàn)[31]。另ー方面,針對(duì)圖像瀏覽方式在可視化(Visualization)領(lǐng)域雖然已有較多研究成果[32’ 33],如文獻(xiàn)[3]與[11]中的圖像瀏覽系統(tǒng),但它們都比較強(qiáng)調(diào)使用可視化方法,將大量圖像按照一定的聚合規(guī)則呈現(xiàn)給用戶,目的在于能夠與用戶進(jìn)行實(shí)時(shí)的互動(dòng),讓用戶能夠方便地對(duì)大量圖像進(jìn)行瀏覽訪問(wèn)。因此,針對(duì)圖像領(lǐng)域的檢索、瀏覽和推薦方法的研究還有待加強(qiáng)和深化,促進(jìn)基于文本的圖像檢索技術(shù)的發(fā)展,建立ー個(gè)適合于圖像檢索、瀏覽和推薦自身特點(diǎn)的模型。本發(fā)明在這個(gè)問(wèn)題上試圖嘗試ー種不同的思路,希望采用推薦的方式,并非呈現(xiàn)給用戶大量圖像,而是推薦十分有限且具有顯著差異性的ー組圖像,作為提供用戶繼續(xù)瀏覽的建議。本發(fā)明就是由此激發(fā),借鑒“心理學(xué)聯(lián)想過(guò)程”的思想,設(shè)計(jì)ー種新穎的個(gè)性化推薦瀏覽框架。框架包含以下幾個(gè)模塊一是語(yǔ)義概念網(wǎng)絡(luò)的構(gòu)建,其核心是本體(Ontology)的構(gòu)建方法;ニ是基于本體(Ontology)的語(yǔ)義擴(kuò)展算法,宮在提供符合語(yǔ)義 邏輯的擴(kuò)展來(lái)實(shí)現(xiàn)聯(lián)想過(guò)程;三是基于語(yǔ)義擴(kuò)展的圖像瀏覽,通過(guò)文本關(guān)鍵詞的檢索技術(shù)提供更加優(yōu)化的檢索結(jié)果;四是對(duì)檢索和瀏覽結(jié)果的排序和推薦,其在于為用戶提供最優(yōu)的推薦結(jié)果;五是基于用戶反饋的用戶模型,實(shí)驗(yàn)個(gè)性化的瀏覽推薦結(jié)果。上述五個(gè)核心算法構(gòu)成本發(fā)明的核心內(nèi)容。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種能夠符合用戶偏好的個(gè)性化圖像瀏覽與推薦方法及系統(tǒng)。本發(fā)明提出的個(gè)性化圖像瀏覽與推薦方法,是基于心理學(xué)關(guān)于人類聯(lián)想的過(guò)程而提出。其核心思想是按照某種合理的機(jī)器邏輯,結(jié)合用戶建摸,向用戶提出下一步瀏覽的建議,使得用戶可以在一種推薦的機(jī)制下選擇自己偏好的瀏覽方向。具體步驟為
(1)基于圖像標(biāo)注的本體(Ontology)構(gòu)建,即基于本體理論方法的語(yǔ)義概念網(wǎng)絡(luò)構(gòu)建,實(shí)現(xiàn)本發(fā)明所需求邏輯關(guān)聯(lián)的基礎(chǔ);
(2)基于本體(Ontology)的語(yǔ)義擴(kuò)展,即基于圖像標(biāo)注本體的語(yǔ)義概念網(wǎng)絡(luò),對(duì)源語(yǔ)義進(jìn)行相關(guān)擴(kuò)展,從而擴(kuò)展出合理的語(yǔ)義描述;
(3)基于擴(kuò)展語(yǔ)義的圖像檢索,即基于文本關(guān)鍵詞的檢索技木,進(jìn)ー步提供優(yōu)化的查詢結(jié)果;
(4)檢索結(jié)果的排序和推薦,這是圖像瀏覽的關(guān)鍵模塊,在保證語(yǔ)義連貫和反映用戶偏好的基礎(chǔ)上,從圖像檢索的候選圖像集中選擇最優(yōu)解返回給用戶,其中包括圖模型構(gòu)建算法和隨機(jī)游走算法等核心算法;
(5)用戶偏好建模,針對(duì)不同用戶的聯(lián)想方式和興趣的不同,搜集用戶偏好信息,提供給不同用戶個(gè)性化的推薦結(jié)果。與傳統(tǒng)的圖像檢索、瀏覽與推薦方法相比,本發(fā)明方法在圖像的個(gè)性化瀏覽和推薦領(lǐng)域具有明顯優(yōu)勢(shì),主要體現(xiàn)在以下兩個(gè)方面推薦結(jié)果的好壞能夠不完全依賴于圖像標(biāo)注的準(zhǔn)確性;圖像聯(lián)想系統(tǒng)通過(guò)瀏覽和推薦算法的結(jié)合,能夠盡量滿足用戶的合理聯(lián)想,從而實(shí)現(xiàn)用戶對(duì)于圖像瀏覽的個(gè)性化需求??偠灾?,本發(fā)明主要立足于通過(guò)個(gè)性化的用戶建模方法,基于本體中所蘊(yùn)含的合理邏輯關(guān)聯(lián),帶給用戶更好的圖像瀏覽體驗(yàn)。對(duì)應(yīng)于上述的個(gè)性化圖像瀏覽與推薦方法,本發(fā)明還提供個(gè)性化圖像瀏覽與推薦系統(tǒng)。該系統(tǒng)框圖見(jiàn)圖2所示,它包括以下五個(gè)核心模塊(I)本體構(gòu)建模塊;(2)為源語(yǔ)義提供查詢擴(kuò)展模塊;(3)基于語(yǔ)義擴(kuò)展的圖像檢索模塊;(4)檢索候選圖像集排序和推薦模塊;(5)面向用戶偏好的用戶模型模塊。這五模塊分別對(duì)應(yīng)于上述方法的五個(gè)步驟,并包含五個(gè)核心算法
(1)基于本體理論的語(yǔ)義概念網(wǎng)絡(luò)構(gòu)建算法;
(2)基于本體的語(yǔ)義擴(kuò)展相關(guān)算法;
(3)基于語(yǔ)義擴(kuò)展的圖像檢索算法;
(4)候選圖像集的排序算法,包括圖模型構(gòu)建算法和隨機(jī)游走算法等核心算法; (5)面向用戶偏好的用戶模型算法。在整個(gè)系統(tǒng)框架中,每個(gè)模塊都包含相關(guān)的關(guān)鍵核心算法,將在后文中詳細(xì)闡述。此外,在該應(yīng)用框架的各個(gè)模塊中,還將運(yùn)用ー些目前已經(jīng)比較成熟的算法和技木。(I)本體構(gòu)建模塊本體是ー種常用的組織領(lǐng)域知識(shí)的方法,具有一整套的規(guī)范和工具。在本發(fā)明中,“領(lǐng)域知識(shí)”是指“圖像數(shù)據(jù)庫(kù)中出現(xiàn)的所有概念”,由此將所關(guān)心的所有語(yǔ)義概念組織為ー個(gè)“本體”,就可方便地描述圖像語(yǔ)義概念和概念間的關(guān)系,并為語(yǔ)義連貫的目標(biāo)評(píng)價(jià)和用戶建模提供可能性。下文將詳細(xì)介紹本體在本發(fā)明中的應(yīng)用,包括所使用的描述本體的語(yǔ)言和工具、以及如何構(gòu)建圖像標(biāo)注領(lǐng)域本體的基本方法。(2)為源語(yǔ)義所提供的查詢擴(kuò)展模塊在設(shè)計(jì)整個(gè)圖像瀏覽推薦系統(tǒng)時(shí),借助于人類聯(lián)想模型中兩個(gè)比較獨(dú)立的模塊設(shè)計(jì)。第一個(gè)模塊的任務(wù)是根據(jù)輸入進(jìn)行發(fā)散,觸發(fā)大量相關(guān)概念,為后續(xù)決策提供候選。在上一個(gè)過(guò)程中,已提供定義好的本體,就可以用本體中的語(yǔ)義概念關(guān)系作為這里需要觸發(fā)的相關(guān)概念。該觸發(fā)過(guò)程的第一部分是語(yǔ)義擴(kuò)展,即基于圖像標(biāo)注語(yǔ)義,按照本體所定義好的語(yǔ)義關(guān)系進(jìn)行擴(kuò)展,所得到的概念稱為擴(kuò)展概念。(3)基于語(yǔ)義擴(kuò)展的圖像檢索模塊基于文本關(guān)鍵詞的檢索技術(shù)是已廣泛使用的成熟技術(shù),其實(shí)現(xiàn)非常簡(jiǎn)單,可滿足海量圖像數(shù)據(jù)庫(kù)檢索在性能和效率上的要求。本發(fā)明使用基于文本的檢索技術(shù)作為工具實(shí)現(xiàn)圖像檢索,并為后續(xù)的排序和推薦提供候選圖像集。在使用基于文本的檢索進(jìn)行圖像檢索吋,查詢輸入是從用戶選擇的圖像(源圖像)所包含的標(biāo)注文本中獲得,這些標(biāo)注在本體中匹配得到的語(yǔ)義經(jīng)過(guò)語(yǔ)義擴(kuò)展得到若干擴(kuò)展語(yǔ)義。由此,將每一擴(kuò)展語(yǔ)義的描述詞與源圖像標(biāo)注中的標(biāo)注詞結(jié)合形成ー個(gè)查詢需求,將其提交至基于文本的檢索系統(tǒng),由此獲得若干檢索結(jié)果列表。然后,將這些檢索列表合并成ー個(gè)候選圖像集,并輸出至排序推薦模塊。以上步驟構(gòu)成圖像檢索模塊的核心算法實(shí)現(xiàn)過(guò)程。(4)檢索候選圖像集的排序和推薦模塊排序模塊的任務(wù)是從候選圖像集中選擇一部分圖像作為推薦結(jié)果呈現(xiàn)給用戶,其中需要考慮以下因素(I)能夠保持語(yǔ)義上的連續(xù)性——我們所設(shè)想的圖像瀏覽過(guò)程是ー個(gè)語(yǔ)義連續(xù)的過(guò)程,瀏覽前后圖像之間應(yīng)該存在為用戶所認(rèn)可的語(yǔ)義關(guān)系,這也是瀏覽過(guò)程語(yǔ)義連貫的前提;(2)能夠反映用戶偏好——對(duì)于不同用戶應(yīng)推薦不同結(jié)果,以滿足不同用戶的需求;(3)能夠?qū)崿F(xiàn)推薦多樣化的結(jié)果——瀏覽者希望擁有更多選擇或驚喜,少量具有代表性的圖像是推薦系統(tǒng)應(yīng)該呈現(xiàn)的結(jié)果。基于以上考慮,首先使用一個(gè)超圖來(lái)描述候選集圖像和源圖像以及候選集圖像之間的關(guān)系,然后在該超圖所對(duì)應(yīng)的普通圖上使用從源圖像出發(fā)的隨機(jī)游走算法來(lái)確定每幅候選圖的重要性,最后根據(jù)局部最優(yōu)準(zhǔn)則選擇圖像作為推薦結(jié)果。(5)針對(duì)用戶的偏好所建立的用戶模型模塊用戶建模一般分為基于模型(Model-based)和基于記憶(Memory-based),這兩種建模方式都需要顯式或隱式地收集用戶對(duì)于不同數(shù)據(jù)信息的喜好程度。其不同之處在于,基于模型的用戶建模會(huì)使用這些收集到的數(shù)據(jù)來(lái)建立用戶模型,在實(shí)際應(yīng)用中參與的只是用戶模型而非原始的用戶數(shù)據(jù);而基于記憶的用戶建模則在算法中直接使用用戶數(shù)據(jù)進(jìn)行計(jì)算。另外,協(xié)同過(guò)濾方法也是ー種對(duì)用戶建模的方式,只不過(guò)更加關(guān)注于用戶之間和數(shù)據(jù)信息之間的相關(guān)度或潛在規(guī)律。盡管在協(xié)同過(guò)濾的推薦算法中直接考慮是用戶之間的相關(guān)度,在計(jì)算用戶相關(guān)度時(shí),用戶對(duì)內(nèi)容的偏好仍然是經(jīng)常使用到的一種計(jì)算依據(jù)。在本發(fā)明中,為用戶提供所感興趣的圖像推薦結(jié)果,用戶對(duì)不同類別圖像的偏好顯然會(huì)影響其瀏覽興趣,因此對(duì)用戶偏好建模的研究在本發(fā)明中十分必要。
圖I、人類的一般聯(lián)想過(guò)程。圖2、基于標(biāo)注語(yǔ)義的個(gè)性化瀏覽與推薦系統(tǒng)的基本流程框架。圖3、面向基于標(biāo)注語(yǔ)義的個(gè)性化瀏覽與推薦的語(yǔ)義概念網(wǎng)絡(luò)構(gòu)建。圖4、“cai”的語(yǔ)義擴(kuò)展結(jié)果示例。圖5、基于推薦的圖像瀏覽系統(tǒng)的推薦結(jié)果示例。圖6、候選圖像集排序推薦算法的基本流程框架。圖7、使用重要性最高準(zhǔn)則和局部最優(yōu)準(zhǔn)則的結(jié)果示例。圖8、有關(guān)概念偏好直方圖平滑函數(shù)的曲線圖示例。圖9、有關(guān)概念關(guān)系偏好直方圖平滑函數(shù)的曲線圖示例。圖10、基于標(biāo)注語(yǔ)義的個(gè)性化圖像瀏覽與推薦演示示例。
具體實(shí)施例方式下面結(jié)合附圖,詳細(xì)介紹本發(fā)明基于標(biāo)注語(yǔ)義的個(gè)性化圖像瀏覽與推薦方法及系統(tǒng)。一、圖像標(biāo)注本體的構(gòu)建方法
首先,描述本發(fā)明中本體(Ontology)的描述語(yǔ)言與工具。既然本體描述的知識(shí)是基于形式化表達(dá),必然有一整套形式化規(guī)則作為描述語(yǔ)言來(lái)說(shuō)明如何描述這些知識(shí)。本體的描述語(yǔ)言有很多,這里介紹ー種在本發(fā)明工作中所使用的由World Wide Web組織支持的OWL語(yǔ)言。OWL語(yǔ)言基于RDF Scheme,支持增量式和分布式的描述。OWL包括OWL-Lite、0WL_DL及OWL-Full這三種不同的子語(yǔ)言,三者描述能力逐漸增強(qiáng)。OffL-Lite提供基本的分類架構(gòu)和描述屬性,而OWL-DL則對(duì)推理進(jìn)行支持。描述能力最強(qiáng)的OWL-Full提供基于RDF的完全描述能力,但不能夠保證在復(fù)雜描述下推理的計(jì)算完整性。在本發(fā)明中,所使用的本體描述語(yǔ)目正是OWL-DL。
本體的描述語(yǔ)言具有嚴(yán)格的格式要求,對(duì)本體數(shù)據(jù)進(jìn)行完全的人工維護(hù)費(fèi)時(shí)費(fèi)カ和容易出錯(cuò)。對(duì)于0WL,這里選擇Prot6g6軟件作為本體管理軟件。它是基于Java的免費(fèi)開(kāi)源軟件,對(duì)OWL提供比較完整的支持,并提供Java語(yǔ)言API對(duì)本體進(jìn)行批量處理。
下面描述本發(fā)明中關(guān)于圖像標(biāo)注本體的構(gòu)建方法。所構(gòu)造的“本體”主要包含兩部分,即概念和關(guān)系,描述如下。 (I)概念
所構(gòu)造本體中的概念用于代表圖像數(shù)據(jù)庫(kù)中出現(xiàn)的語(yǔ)義概念。為使問(wèn)題的規(guī)模有限,這里只關(guān)注于圖像中比較經(jīng)常出現(xiàn)的概念。因此,所選用的概念主要取自以下兩個(gè)來(lái)源
(a)Flickr圖像標(biāo)注中的高頻詞;
(b)計(jì)算機(jī)視覺(jué)中常用的開(kāi)放圖像庫(kù)的標(biāo)注詞,即Caltech256中的類別名稱。上述這些詞項(xiàng)(英語(yǔ))被選擇作為本體中的基本詞匯。然而,考慮到多義詞問(wèn)題,則通過(guò)WordNet查詢這些詞的不同語(yǔ)義,通過(guò)人工進(jìn)行篩選,保留那些適用于圖像標(biāo)注的語(yǔ)義,去除那些不大可能作為圖像標(biāo)注的語(yǔ)義,并將篩選出來(lái)的語(yǔ)義作為本體構(gòu)建的基本概念。(2)關(guān)系
概念關(guān)系用于將概念組織在一起,描述不同概念間的不同關(guān)聯(lián)?;谶@些關(guān)聯(lián)的描述,才可進(jìn)一歩探討語(yǔ)義的連貫性。以下是所考慮的概念關(guān)系及其獲得方式
上義(Hypernym)、下義(Hyponym)、兄弟(Sibling)概念來(lái)自 WordNet 詞典,由 is-a關(guān)系派生而來(lái)。其中,上義和下義互為逆關(guān)系,代表is-a關(guān)系的不同方向。兄弟關(guān)系(Sibling)代表共有某個(gè)祖先結(jié)點(diǎn)的概念之間的關(guān)系,典型的例子如“cai”和“obg”這兩個(gè)概念,它們各自的父結(jié)點(diǎn)共有一個(gè)父結(jié)點(diǎn)。(a)整體局部關(guān)系來(lái)自 WordNet 詞典,比如“Ζο/ /ο/7” part-of “England” \
(b)反義關(guān)系(Antonym):來(lái)自WordNet 詞典,t ヒ如 “white” and “black” ;
(c)共現(xiàn)關(guān)系(Co-Occurrence):通過(guò)統(tǒng)計(jì)圖像數(shù)據(jù)庫(kù)(如Flickr)中的標(biāo)注詞項(xiàng)詞頻而得到的兩個(gè)標(biāo)注詞項(xiàng)的共現(xiàn)概率;
(d)WordNet是普林斯頓大學(xué)所提供的英語(yǔ)義類詞典,通過(guò)同義詞集(Synset)為基本元素,將英語(yǔ)中所涉及到的大量單詞通過(guò)各種語(yǔ)義關(guān)系組織成一個(gè)語(yǔ)義概念網(wǎng)絡(luò)。使用WordNet,我們獲取概念之間ー些基本的語(yǔ)義關(guān)系,并用于構(gòu)建本體概念之間的關(guān)系。需要注意的是,為使整個(gè)本體比較完整,在使用WordNet添加關(guān)系的同時(shí),也新加入ー些概念,主要是基本概念的上義概念,使得本體能夠從is-a關(guān)系的角度構(gòu)成樹(shù)結(jié)構(gòu),方便兄弟結(jié)點(diǎn)關(guān)系的定義以及后續(xù)的語(yǔ)義擴(kuò)展。構(gòu)建本體往往需要領(lǐng)域?qū)<抑R(shí),使用WordNet這樣比較專業(yè)的本體中的關(guān)系定義使得所構(gòu)建的本體更加可靠。WordNet描述的語(yǔ)義關(guān)系是ー種所有人都能夠接受的語(yǔ)義關(guān)聯(lián),可用來(lái)作為本體中所承載的“常識(shí)”。另ー個(gè)需要說(shuō)明的問(wèn)題是,為什么不直接使用WordNet來(lái)描述概念和進(jìn)行語(yǔ)義擴(kuò)展,而是要重新構(gòu)造ー個(gè)本體?對(duì)于這個(gè)問(wèn)題,主要考慮本發(fā)明所使用本體的目的在于描述圖像標(biāo)注這個(gè)特定領(lǐng)域,而WordNet用于描述整個(gè)英語(yǔ)單詞領(lǐng)域的語(yǔ)義,因此直接使用WordNet會(huì)帶來(lái)如下問(wèn)題1)僅涉及到WordNet中很小比例的內(nèi)容,大部分信息并未使用,而由此帶來(lái)系統(tǒng)資源的消耗;2) WordNet有關(guān)單詞概念的定義對(duì)于圖像標(biāo)注領(lǐng)域過(guò)于精細(xì),容易帶來(lái)不必要的歧義問(wèn)題。如圖像標(biāo)注“ な·ぽ”對(duì)于絕大部分情況來(lái)說(shuō),表示圖像出現(xiàn)“老虎”,而通過(guò)WordNet查詢“ii供ず”還會(huì)有很多其它含義,包括語(yǔ)言上各種擬人的用法等,這將給后續(xù)語(yǔ)義擴(kuò)展帶來(lái)不必要的問(wèn)題,也是在選擇本體基本概念時(shí)需要人工篩選符合圖像標(biāo)注語(yǔ)義的原因。圖3表明圖像概念本體(Ontology)的整體構(gòu)成。
另外,還需要考慮標(biāo)注的共現(xiàn)關(guān)系。某些概念如果常常被標(biāo)注到同一幅圖像上,那么即使他們沒(méi)有明顯的語(yǔ)義關(guān)系,仍然容易被聯(lián)系在一起,如“猴子”和“香蓮”。因此,通過(guò)以下公式計(jì)算兩兩概念在圖像數(shù)據(jù)庫(kù)中的共現(xiàn)概率
權(quán)利要求
1.一種基于標(biāo)注語(yǔ)義的個(gè)性化圖像瀏覽與推薦方法,其特征在于具體步驟如下 (1)圖像標(biāo)注本體的構(gòu)建,利用本體理論生成概念語(yǔ)義網(wǎng)絡(luò),構(gòu)成本發(fā)明所需求的邏輯關(guān)聯(lián)基礎(chǔ); (2)基于本體的語(yǔ)義擴(kuò)展,基于所構(gòu)建的圖像標(biāo)注本體——概念語(yǔ)義網(wǎng)絡(luò),對(duì)源語(yǔ)義進(jìn)行關(guān)聯(lián)擴(kuò)展,從而擴(kuò)展出符合邏輯的擴(kuò)展語(yǔ)義; (3)基于擴(kuò)展語(yǔ)義的圖像檢索,基于文本關(guān)鍵詞的檢索技術(shù)提供優(yōu)化的查詢結(jié)果,包含兩個(gè)核心要素,即查詢構(gòu)成的設(shè)計(jì)和候選圖像集的選擇; (4)檢索結(jié)果排序和推薦,在保證語(yǔ)義連貫和反映用戶偏好的基礎(chǔ)上,從圖像檢索的候選圖像集中選擇最優(yōu)解返回給用戶,其中包括三個(gè)核心算法(a)圖模型構(gòu)建算法,(b)隨機(jī)游走算法,及(c)基于局部最優(yōu)原則的推薦算法; (5)用戶偏好建模,針對(duì)不同用戶聯(lián)想方式和偏好的不同,搜集用戶的偏好信息,提供給不同用戶個(gè)性化的推薦結(jié)果,用戶模型主要作用于步驟⑶即圖像檢索和步驟⑷即檢索結(jié)果排序和推薦。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于所述的基于圖像標(biāo)注本體構(gòu)建步驟中,建立一種健壯性很強(qiáng)的概念語(yǔ)義網(wǎng)絡(luò)以供整個(gè)個(gè)性化圖像瀏覽與推薦系統(tǒng)的語(yǔ)義擴(kuò)展所使用,考慮標(biāo)注的共現(xiàn)關(guān)系,通過(guò)以下公式計(jì)算兩兩概念在圖像數(shù)據(jù)庫(kù)中的共現(xiàn)概率
3.根據(jù)權(quán)利要求2所述的方法,其特征在于所述的基于本體的語(yǔ)義擴(kuò)步驟中,建立一種合理的擴(kuò)展邏輯;所采用的語(yǔ)義擴(kuò)展是將與源語(yǔ)義具有任何關(guān)系的語(yǔ)義都作為擴(kuò)展語(yǔ)義,語(yǔ)義擴(kuò)展的結(jié)果中只保留屬于有效概念的語(yǔ)義;因此,上文統(tǒng)計(jì)語(yǔ)義關(guān)系時(shí)僅包括屬于有效概念的部分,非有效概念的語(yǔ)義在語(yǔ)義擴(kuò)展中不會(huì)得到結(jié)果;然而,在計(jì)算語(yǔ)義關(guān)系吋,即使不是有效概念也不會(huì)被忽視; 對(duì)圖像語(yǔ)義進(jìn)行語(yǔ)義擴(kuò)展時(shí),先對(duì)圖像標(biāo)注中的語(yǔ)義根據(jù)is-a關(guān)系進(jìn)行聚類,以避免重復(fù)的語(yǔ)義擴(kuò)展結(jié)果;聚類方法是將每個(gè)圖像標(biāo)注在本體中能夠匹配得到的語(yǔ)義作為結(jié)點(diǎn),然后根據(jù)本體將由is-a關(guān)系的結(jié)點(diǎn)用一條邊連接起來(lái),最后將每個(gè)連通分支作為ー個(gè)聚類。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于所述的基于語(yǔ)義擴(kuò)展的圖像檢索步驟中,實(shí)現(xiàn)滿足需求的檢索結(jié)果,包含兩個(gè)核心算法; 首先,關(guān)注于查詢構(gòu)成的設(shè)計(jì),查詢需求表達(dá)根據(jù)用戶所點(diǎn)擊的圖像可發(fā)散得到的相關(guān)圖像可能的標(biāo)注情況,其構(gòu)成包括擴(kuò)展語(yǔ)義和源圖像標(biāo)注語(yǔ)義,這樣的查詢需求設(shè)計(jì)主要是考慮語(yǔ)義連貫的要求;“語(yǔ)義連貫”的要求是,發(fā)散得到的相關(guān)圖像必須包含與源圖像標(biāo)注具有一定語(yǔ)義關(guān)系的標(biāo)注,這種語(yǔ)義關(guān)系定義于所構(gòu)建的本體;使用擴(kuò)展語(yǔ)義作為查詢需求的一部分保證這一點(diǎn)要求,使得所返回的圖像至少包含一個(gè)與源圖像中某個(gè)標(biāo)注具有語(yǔ)義關(guān)系的標(biāo)注; 另外,還必須考慮這種語(yǔ)義連貫是否能足夠明顯,以至于用戶可比較容易地認(rèn)可他/她點(diǎn)擊的圖像與推薦給他/她的圖像之間的這種關(guān)系;有關(guān)候選圖像集合的構(gòu)成,在根據(jù)上述查詢向搜索引擎查詢結(jié)果之后,則根據(jù)用戶偏好建模,即當(dāng)前用戶對(duì)不同概念和不同概念關(guān)系的偏好程度,將這些根據(jù)一系列查詢檢索得到的若干個(gè)結(jié)果列表,裁剪合并成ー個(gè)候選圖像集;候選集的大小可預(yù)先由系統(tǒng)設(shè)定,其構(gòu)成比例按照用戶偏好程度和源圖像的標(biāo)簽聚類來(lái)確定; 然后,對(duì)圖像標(biāo)注中的概念進(jìn)行聚類,使得當(dāng)多個(gè)標(biāo)注描述圖像中同一個(gè)物體時(shí),不至于在檢索這個(gè)環(huán)節(jié)完全淹沒(méi)其它標(biāo)注結(jié)果; 在構(gòu)成候選圖像集的時(shí)候,按照以下幾個(gè)步驟確定該集合的構(gòu)成 Ca)按照不同的源圖像標(biāo)注聚類,平均分配候選圖像集的構(gòu)成份額; (b)按照語(yǔ)義關(guān)系,根據(jù)用戶對(duì)不同語(yǔ)義關(guān)系的偏好程度,進(jìn)ー步分配構(gòu)成份額; (c)按照擴(kuò)展語(yǔ)義概念,根據(jù)用戶對(duì)不同語(yǔ)義概念偏好的程度,進(jìn)ー步分配構(gòu)成份額; (d)每個(gè)查詢中必然包括一個(gè)擴(kuò)展語(yǔ)義的描述詞,該詞也必然從屬于某個(gè)源圖像標(biāo)注聚類的標(biāo)注語(yǔ)義,通過(guò)某種本體中所定義的語(yǔ)義關(guān)系擴(kuò)展得到;按照步驟(a)、步驟(b)、步驟(C)三個(gè)步驟,對(duì)這里的具體標(biāo)注聚類、語(yǔ)義關(guān)系和擴(kuò)展語(yǔ)義計(jì)算而得到構(gòu)成配額數(shù)值&使用當(dāng)前查詢從檢索引擎中返回最匹配的S個(gè)結(jié)果; e)所有的查詢按照配額所返回的檢索結(jié)果構(gòu)成候選圖像集。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于所述的基于檢索結(jié)果排序和推薦步驟中,為用戶提供最優(yōu)的推薦結(jié)果,包含三個(gè)核心算法 (I)構(gòu)造超圖構(gòu)造超圖{K,E},V= {κI K e CandsSet],其中,將每個(gè)有效概念定義為一條邊,將任何包括這個(gè)概念作為標(biāo)注的候選圖像集中的圖像連接到這條邊上,邊的權(quán)重由用戶對(duì)這個(gè)概念的偏好U(t)決定,S卩萬(wàn)=レ|e e⑵,C= {Cl, c2,…,ら84}為本體中的概念集合;后面的過(guò)程需要將超圖等價(jià)的轉(zhuǎn)換為普通圖,其中邊的權(quán)重將由以下公式計(jì)算
6.根據(jù)權(quán)利要求5所述的方法,其特征在于所述的基于用戶建模步驟中,建立符合用戶偏好的模型,為系統(tǒng)提供準(zhǔn)確的個(gè)性化推薦結(jié)果; 下面給出用戶瀏覽過(guò)程中每次點(diǎn)擊圖像時(shí),系統(tǒng)所記錄的用戶建模數(shù)據(jù)(I)源圖像ID——上次點(diǎn)擊圖像在數(shù)據(jù)庫(kù)中的ID; (2)點(diǎn)擊圖像的ID;(3)擴(kuò)展概念——該被點(diǎn)擊的圖像是根據(jù)哪些擴(kuò)展概念捜索而來(lái);(4)源概念——相關(guān)擴(kuò)展概念是根據(jù)源圖像中哪些概念擴(kuò)展得到;(5)概念關(guān)系——該指標(biāo)是ー個(gè)直方圖,包括反義關(guān)系、共現(xiàn)關(guān)系、整體-部分關(guān)系、兄弟關(guān)系、上義關(guān)系、下義關(guān)系6種關(guān)系的數(shù)值,代表當(dāng)前被點(diǎn)擊圖像即當(dāng)前源圖像與前一幅源圖像之間的語(yǔ)義關(guān)系;(6)瀏覽深度——用戶已連續(xù)瀏覽多少幅圖像;(7)決策時(shí)間——用戶花費(fèi)多少時(shí)間來(lái)決定要點(diǎn)擊哪幅圖像;(8)時(shí)間戳;通過(guò)統(tǒng)計(jì)用戶所選擇圖像中出現(xiàn)的概念(第(3)項(xiàng))、及這些概念與源圖像概念之間的關(guān)系(第(5)項(xiàng)),可將用戶的概念偏好與關(guān)系偏好表達(dá)為兩個(gè)直方圖,這兩個(gè)直方圖就是用來(lái)描述用戶偏好的用戶模型,將直接影響檢索和排序結(jié)果; 由于涉及到大量語(yǔ)義概念和概念關(guān)系,系統(tǒng)能夠收集到的用戶交互數(shù)據(jù)相對(duì)來(lái)說(shuō)比較稀缺,從而導(dǎo)致數(shù)據(jù)稀疏問(wèn)題;針對(duì)這ー問(wèn)題,采用以下兩種解決策略 使用平滑函數(shù)對(duì)直方圖進(jìn)行平滑化處理,使得即使某個(gè)概念或關(guān)系在用戶瀏覽記錄數(shù)據(jù)中沒(méi)有出現(xiàn),用戶模型也不會(huì)將用戶對(duì)相應(yīng)的概念或關(guān)系的偏好設(shè)置為O,而是具有ー個(gè)最低閾值; 對(duì)于概念偏好直方圖,原始直方圖統(tǒng)計(jì)用戶瀏覽歷史中,所點(diǎn)擊圖像中各種概念的出現(xiàn)次數(shù);對(duì)于用戶歷史中未出現(xiàn)過(guò)的概念,其重要性也保持一個(gè)大于O的值,以免推薦算法完全忽略這個(gè)概念;對(duì)于大量出現(xiàn)的概念,則希望其重要性并不會(huì)隨著其統(tǒng)計(jì)量的増加一直増大下去,而是趨近于1,因此,使用如下平滑函數(shù)
7.對(duì)應(yīng)于權(quán)利要求6所述方法的基于標(biāo)注語(yǔ)義的個(gè)性化圖像瀏覽與推薦系統(tǒng),其特征在于包括以下五個(gè)核心模塊及其按順序構(gòu)成的個(gè)性化圖像瀏覽與推薦流程(I)本體構(gòu)建模塊;(2)源語(yǔ)義查詢擴(kuò)展模塊;(3)基于語(yǔ)義擴(kuò)展的圖像檢索模塊;(4)檢索候選圖像集排序和推薦模塊;(5)面向用戶偏好的用戶模型模塊;這五模塊分別對(duì)應(yīng)于所述方法的五個(gè)步驟,并包含五個(gè)核心算法 (1)基于本體理論的語(yǔ)義概念網(wǎng)絡(luò)構(gòu)建算法; (2)基于本體的語(yǔ)義擴(kuò)展相關(guān)算法; (3)基于語(yǔ)義擴(kuò)展的圖像檢索算法; (4)候選圖像集的排序算法,包括圖模型構(gòu)建算法和隨機(jī)游走算法等核心算法; (5)面向用戶偏好的用戶模型算法。
全文摘要
本發(fā)明屬于多媒體信息檢索技術(shù)領(lǐng)域,具體為一種基于標(biāo)注語(yǔ)義的個(gè)性化圖像瀏覽與推薦方法及系統(tǒng)。本發(fā)明包含算法框架和五個(gè)模塊及相關(guān)算法,即基于本體理論的概念語(yǔ)義網(wǎng)絡(luò)構(gòu)建算法、基于本體的語(yǔ)義擴(kuò)展相關(guān)算法、基于語(yǔ)義擴(kuò)展的圖像檢索算法、對(duì)候選圖像集進(jìn)行排序的算法(包括圖模型構(gòu)建算法和隨機(jī)游走算法)、以及基于用戶偏好的用戶建模算法等。本發(fā)明基于心理學(xué)的模型,提出新的個(gè)性化圖像瀏覽方式,即綜合圖像檢索和圖像推薦兩種模式。在大規(guī)模圖像數(shù)據(jù)集的檢索和推薦領(lǐng)域,能夠提供更加符合用戶需求的圖像瀏覽與推薦方式,在跨語(yǔ)言跨媒體檢索領(lǐng)域具有廣泛的應(yīng)用價(jià)值。
文檔編號(hào)G06F17/30GK102663010SQ20121007429
公開(kāi)日2012年9月12日 申請(qǐng)日期2012年3月20日 優(yōu)先權(quán)日2012年3月20日
發(fā)明者岑磊, 張玥杰, 李楊, 薛向陽(yáng), 金城 申請(qǐng)人:復(fù)旦大學(xué)