亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

大規(guī)模圖像注釋的統(tǒng)計(jì)方法

文檔序號(hào):6594445閱讀:202來源:國知局
專利名稱:大規(guī)模圖像注釋的統(tǒng)計(jì)方法
大規(guī)模圖像注釋的統(tǒng)計(jì)方法背景隨著廉價(jià)的數(shù)碼相機(jī)、照相機(jī)電話和其他成像設(shè)備的出現(xiàn),拍攝并張貼到因特網(wǎng) 上的數(shù)字圖像的數(shù)量顯著地增長。然而,為了使用這些圖像,必須標(biāo)識(shí)和組織它們從而使得 可以瀏覽、搜索或檢索這些圖像。一個(gè)解決方案是手動(dòng)圖像注釋,其中人在拍攝、上傳或登記圖像時(shí)手動(dòng)地輸入描 述性文本或關(guān)鍵詞。雖然手動(dòng)圖像注釋一般非常準(zhǔn)確(例如,人們一般選擇準(zhǔn)確描述),但 手動(dòng)圖像注釋是耗時(shí)的且因此許多數(shù)字圖像未被注釋。另外,手動(dòng)圖像注釋可能是主觀的, 因?yàn)樽⑨寛D像的人可能不考慮圖像的關(guān)鍵特征(例如,人們通?;趫D像中的人、圖像被 拍攝的時(shí)間、或圖像的位置來注釋圖像)。另一個(gè)解決方案是用關(guān)鍵詞自動(dòng)地注釋圖像的自動(dòng)圖像注釋。一般而言,自動(dòng)圖 像注釋是基于分類的或基于概率模型的?;诜诸惖姆椒ㄔ噲D通過學(xué)習(xí)分類器(例如,貝 葉斯點(diǎn)機(jī)、支持矢量機(jī)等等)來將詞或概念進(jìn)行關(guān)聯(lián)。而概率模型方法試圖推斷圖像和注 釋之間的相關(guān)或聯(lián)合概率(例如,翻譯模型、跨媒體相關(guān)性模型、連續(xù)相關(guān)性模型等等)。雖然基于分類的和基于概率的圖像注釋算法能夠注釋小規(guī)模的圖像數(shù)據(jù)庫,但它 們一般不能注釋具有真實(shí)圖像(例如,數(shù)字圖片)的大規(guī)模數(shù)據(jù)庫。此外,這些圖像注釋算法一般不能夠注釋所有不同類型的真實(shí)圖像。例如,許多個(gè) 人圖像不包含文本信息,而web圖像可以包含不完整的或錯(cuò)誤的文本信息。雖然當(dāng)前的圖 像注釋算法能夠注釋個(gè)人圖像或web圖像,但這些算法通常不能夠同時(shí)注釋這兩種類型的 圖像。此外,在真實(shí)圖像的大規(guī)模集合中,可以作為注釋標(biāo)記來跨多個(gè)圖像應(yīng)用的概念 的數(shù)量幾乎是無限的,并且取決于注釋策略。因此,為了注釋大規(guī)模的真實(shí)圖像集合,注釋 方法應(yīng)該能夠處理多個(gè)圖像中可能出現(xiàn)的無限的概念和主題。最后,鑒于每天正在生成的相當(dāng)大的數(shù)量的圖像,注釋方法必須既快速又高效。例 如,每一天幾乎有一百萬幅數(shù)字圖像被上傳到FLICKR 圖像共享網(wǎng)站上。為了每天注釋 一百萬幅圖像,必須每秒注釋十幅左右的圖像。因?yàn)樽罴褕D像注釋算法大約在1.4秒內(nèi)注 釋一幅圖像,所以無法注釋每天生成的大量圖像。因此,需要一種可以注釋包含無限數(shù)量的視覺概念的所有類型的真實(shí)生活圖像并 可以幾乎實(shí)時(shí)地注釋圖像的大規(guī)模圖像注釋技術(shù)。概述提供本概述以便介紹將在以下詳細(xì)描述中進(jìn)一步描述的與自動(dòng)化圖像注釋有關(guān) 的簡化概念。本概述并不旨在標(biāo)識(shí)所要求保護(hù)的主題的必要特征,也不旨在用于確定所要 求保護(hù)的主題的范圍。在一方面,一種注釋圖像的方法可以包括編譯來自多個(gè)圖像的視覺特征和文本信 息、散列圖像視覺特征、并基于其散列值對(duì)圖像聚類。隨后從所聚類的圖像中構(gòu)建統(tǒng)計(jì)語言 模型,并使用統(tǒng)計(jì)語言模型中的一個(gè)來注釋圖像。在另一方面,一種包括在由處理器執(zhí)行時(shí)可以執(zhí)行一種方法的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該方法包括爬行大規(guī)模圖像數(shù)據(jù)庫來收集圖像及其相應(yīng)的文本信 息。隨后使用灰塊方法從圖像中提取視覺信息,并且通過采用投影矩陣來縮減所提取的圖 像。散列經(jīng)縮減的視覺信息,并根據(jù)其散列值對(duì)圖像聚類。從所聚類的圖像中構(gòu)建一個(gè)或 多個(gè)統(tǒng)計(jì)語言模型,并且使用統(tǒng)計(jì)語言模型中的一個(gè)或多個(gè)來注釋查詢圖像。在又一方面,一種項(xiàng)記錄數(shù)據(jù)結(jié)構(gòu)具體化在計(jì)算機(jī)可讀介質(zhì)上,該數(shù)據(jù)結(jié)構(gòu)由數(shù) 字圖像和對(duì)應(yīng)于該數(shù)字圖像的文本注釋構(gòu)成。通過編譯來自多個(gè)圖像的視覺特征和文本信 息、散列圖像視覺特征、并基于散列值對(duì)圖像聚類來將文本注釋與數(shù)字圖像相關(guān)聯(lián)。隨后基 于所聚類的圖像構(gòu)建統(tǒng)計(jì)語言模型,并使用統(tǒng)計(jì)語言模型中的一個(gè)來注釋圖像。雖然單獨(dú)地描述上述各方面,但它們不是相互排斥的,并且給定實(shí)現(xiàn)中可以出現(xiàn) 任意數(shù)量的方面。附圖簡述參考附圖闡述詳細(xì)描述。在附圖中,附圖標(biāo)記中最左邊的數(shù)字標(biāo)識(shí)該附圖標(biāo)記首 次出現(xiàn)的附圖。在不同附圖中使用相同的附圖標(biāo)記指示相似或相同的項(xiàng)。

圖1是示出大規(guī)模圖像注釋技術(shù)的一個(gè)實(shí)現(xiàn)的框圖。圖2是示出可以如何使用web爬行器來收集圖像及其附隨注釋并將其存檔到數(shù)據(jù) 庫中的圖示。圖3是示出可以如何縮減數(shù)字圖像的視覺特征、如何將經(jīng)縮減的特征分組成各個(gè) 聚類、并且隨后基于聚類開發(fā)統(tǒng)計(jì)語言模型的框圖。圖4是描繪了注釋個(gè)人圖像的說明性方法的框圖。圖5是描繪了注釋web圖像的說明性方法的流程圖。詳細(xì)描述在理論上的理想情形中,給定無限規(guī)模的注釋良好的圖像數(shù)據(jù)庫,圖像注釋是相 對(duì)直接的。對(duì)于給定查詢圖像,在圖像數(shù)據(jù)庫中找到準(zhǔn)確的復(fù)制品并將該圖像的注釋傳播 到該查詢圖像。然而,在“真實(shí)世界”中,圖像數(shù)據(jù)庫一般在規(guī)模上是有限的并且包含許多不準(zhǔn)確 的描述。因此,“真實(shí)世界圖像數(shù)據(jù)庫”中的圖像通常根據(jù)圖像的相似性被分組成各個(gè)聚類。 隨后對(duì)于給定查詢圖像,選擇最相似的圖像聚類并選擇與該圖像聚類相關(guān)聯(lián)的“最佳描述” 來注釋該查詢圖像。雖然這些常規(guī)成像注釋算法能夠注釋大部分圖像,但仍然存在很大的 改進(jìn)空間。本公開涉及大規(guī)模圖像注釋的各種統(tǒng)計(jì)方法。這些統(tǒng)計(jì)方法可以注釋一般具有有 限注釋或沒有注釋的個(gè)人圖像以及一般具有噪聲和不完整注釋的基于web的圖像。在一個(gè) 實(shí)現(xiàn)中,圖像注釋技術(shù)充分利用大規(guī)?;趙eb的圖像數(shù)據(jù)庫來對(duì)幾乎無限數(shù)量的語義概 念進(jìn)行建模。圖1示出大規(guī)模圖像注釋技術(shù)的一個(gè)實(shí)現(xiàn)100。首先,爬行大規(guī)模數(shù)據(jù)庫102,并 且提取視覺特征和文本信息兩者并將其作為結(jié)構(gòu)數(shù)據(jù)(即,訓(xùn)練集)來索引104。通過將高 維圖像特征投影到具有低維度的子空間中來降低圖像數(shù)據(jù)的復(fù)雜性,同時(shí)保持大部分的圖 像信息106。隨后將高效的基于散列的聚類算法應(yīng)用于訓(xùn)練集并將帶有相同散列代碼的圖 像分組成“聚類” 108。一旦圖像被聚類成組110之后,開發(fā)統(tǒng)計(jì)語言模型(SLM)來對(duì)來自 每一聚類中的圖像的文本信息建模112。
為了注釋圖像,選擇查詢圖像114并且提取其視覺特征(例如,色彩、紋理、幾何特 征等等)和文本特征(例如,標(biāo)題、關(guān)鍵詞、URL、環(huán)繞文本等等)116。對(duì)查詢圖像的特征進(jìn) 行散列118并基于具有與查詢圖像的最大聯(lián)合概率的詞來選擇120語言模型。隨后基于與 所選語言模型122相關(guān)聯(lián)的文本、標(biāo)題、注釋、和/或關(guān)鍵詞來注釋122圖像。從web收集圖像參考圖2,在一個(gè)實(shí)現(xiàn)中,使用web爬行器從因特網(wǎng)收集圖像202連同其文本、標(biāo) 題、注釋、和/或關(guān)鍵詞204并將其存檔到數(shù)據(jù)庫206中。一般而言,可以收集盡可能多的圖 像,因?yàn)榇蟮臉颖敬笮〈_保視覺模型和查詢圖像之間的良好相關(guān)性。例如,在一個(gè)實(shí)現(xiàn)中, 從在線照片論壇(例如,僅舉幾個(gè)例子,GOOGLE IMAGES 、YAHOO IMAGE SEARCH 、和華盛頓 大學(xué)圖像數(shù)據(jù)集)收集240萬幅左右?guī)в杏幸饬x描述的高質(zhì)量web圖像?;蛘?,可以隨機(jī)地從因特網(wǎng)或其他源收集經(jīng)注釋的圖像并將其匯集成圖像集合。 一般而言,只要任何類型的圖像用某種形式的文本、標(biāo)題、注釋、或關(guān)鍵詞來注釋,便可以收 集這些圖像。隨后可以在數(shù)據(jù)庫中索引圖像及相關(guān)聯(lián)的文本或關(guān)鍵詞。存在可以索引圖像202 和文本204的許多方式(例如,僅舉幾個(gè)例子,按關(guān)鍵詞、文本串、圖像特征)。在一個(gè)實(shí)現(xiàn) 中,圖像根據(jù)關(guān)鍵詞或與圖像202相關(guān)聯(lián)的文本204來排序和分組。例如,如果存在包含日 落的多個(gè)圖像,則這些圖像可以被索引和分組在一起208。維數(shù)縮減傳統(tǒng)的聚類算法是耗時(shí)的并且在計(jì)算上是低效的,因?yàn)閿?shù)字圖像一般是復(fù)雜的 (例如,高維度)。因此,本示例性技術(shù)采用了所收集的圖像的緊湊表示來實(shí)現(xiàn)快速且高效 的圖像聚類。維數(shù)縮減的一個(gè)目的是降低圖像數(shù)據(jù)的復(fù)雜性同時(shí)保持盡可能多的原始信息。維 數(shù)縮減的第二個(gè)目的是通過略去最低有效的維數(shù)來減少噪聲和值漂移。在以下說明性技術(shù) 中實(shí)現(xiàn)這兩個(gè)目的。參考圖3,圖像的視覺特征一般應(yīng)該表示其內(nèi)容、其結(jié)構(gòu),并且對(duì)于圖像本身的變 型(例如,僅舉幾個(gè)例子,縮放、色彩、存儲(chǔ)格式)是穩(wěn)健的。因此,可以采用灰塊方法。灰 塊特征可以表現(xiàn)為原始圖像的小的縮略圖?;覊K方法保持圖像主要內(nèi)容和結(jié)構(gòu),并且對(duì)于 比例改變是不變的。每一特征向量是許多單獨(dú)像素的平均,所以該方法對(duì)于像素值的變化 是穩(wěn)健的。此外,因?yàn)槊恳幌蛄刻卣魇腔趫D像的亮度的,所以該方法對(duì)色彩變化也是穩(wěn)健 的。在一個(gè)實(shí)現(xiàn)中,在框302處,將每一收集的圖像分成8x8的像素塊并且為每一塊計(jì) 算平均亮度“L”。每一特征的第K維數(shù)值可以被計(jì)算為Λ =17- Σ 1^i'J^k = \,2,...,n2 門)
Νk IJeBkV '其中4對(duì)應(yīng)于塊k,Nk是4中的像素?cái)?shù)量,而L(i,j)是坐標(biāo)i,j處的像素亮度。 因此,圖像由向量Fi= (f1;f2,f3,…,fnJT表示。在替換實(shí)現(xiàn)中,圖像可以被劃分成7x 7 的灰塊、9x 9的灰塊、或任何其他合適數(shù)量的特征向量。隨后在框304處可以將高維特征投影到帶有低得多的維數(shù)的子空間中,同時(shí)保持 大部分圖像信息。在一個(gè)實(shí)現(xiàn)中,圖像的維數(shù)通過采用投影矩陣“A”來縮減。
Gi=AFi(2)為了確定投影矩陣A,對(duì)足夠大的圖像集合的特征矩陣執(zhí)行主分量分析(PCA)。隨 后可以對(duì)圖像向量排序并且保留對(duì)應(yīng)于最大本征值的向量來形成投影矩陣A。應(yīng)該注意,投 影矩陣對(duì)于大部分灰塊圖像一般是相同的。雖然通過該技術(shù)圖像可能丟失某些信息,但已 經(jīng)證明,實(shí)現(xiàn)了高精度和快速的聚類分組。通過散列來聚類聚類是基于對(duì)象成員之間的高度相似性將對(duì)象分類到各類、各類別、或分區(qū)中。在 一個(gè)實(shí)現(xiàn)中,在框306處將基于散列的聚類算法應(yīng)用于訓(xùn)練集。這種散列代碼生成本質(zhì)上 是向量量化過程。因?yàn)樽詈罅炕南蛄烤哂蠯位,所以將位分配到每一維度的方法是重要 的。在一個(gè)實(shí)現(xiàn)中,對(duì)于具有大于“平均k”的值的圖像向量,該圖像向量具有值“1”,而對(duì)于 具有小于“平均k”的值的圖像向量,圖像向量具有值“0” Hijk = 1 如果 Gik > / =平均 k(3)= 0 如果 Gik <平均 k其中平均k是維數(shù)K的平均值。通過采用這種技術(shù),K維特征向量被轉(zhuǎn)換成K位二 進(jìn)制串,即變成了圖像散列代碼。在一個(gè)實(shí)現(xiàn)中,K位串被約束為不超過32位,但也可以采用其他位串大小,諸如64 位。隨后在框308處將具有相同32位散列代碼的圖像分組成“聚類”。構(gòu)建統(tǒng)計(jì)語言模型一旦圖像被聚類成各個(gè)組之后,可以在框310處開發(fā)統(tǒng)計(jì)語言模型(SLM)來對(duì)來 自每一聚類中的圖像的文本信息建模??梢詷?gòu)造單元語法模型和經(jīng)修改的雙元語法模型來 為圖像聚類中的每一個(gè)計(jì)算單個(gè)詞概率和條件詞概率。一般而言,個(gè)人圖像可能缺少文本信息或注釋,并因此通過采用概率方法來注釋。 具體而言,查詢圖像可以通過選擇具有與該查詢(即目標(biāo))圖像的最大聯(lián)合概率的關(guān)鍵詞、 短語、或文本來注釋,如以下等式(4)所示。單元語法模型假定特定文本段或關(guān)鍵詞由每一術(shù)語獨(dú)立地生成。因此,單元語法 模型計(jì)算特定關(guān)鍵詞、短語或文本與查詢圖像相關(guān)聯(lián)的概率。w* = arg maxw{p(w, I)}(4)= arg maxw{ Σ cp (w/c) ρ (I/c) ρ (c)}在等式(4)中,p(w/c)是單元語法詞概率(即,關(guān)鍵詞、短語或術(shù)語“W”出現(xiàn)在圖 像聚類“C”中的概率),p(I/c)是查詢圖像“I”和圖像聚類“C”之間的視覺相似性,而p(c) 是聚類“C”的先驗(yàn)概率,該先驗(yàn)概率常常在預(yù)先不知道先驗(yàn)信息的情況下被統(tǒng)一初始化。例如,如果聚類中有十個(gè)圖像并且兩個(gè)關(guān)鍵詞與該聚類相關(guān)聯(lián)。如果第一關(guān)鍵詞 出現(xiàn)在五個(gè)圖像中而第二關(guān)鍵詞出現(xiàn)在兩個(gè)圖像中;則第二關(guān)鍵詞應(yīng)該與查詢圖像相關(guān)聯(lián) 的概率為2/7( %)而第一關(guān)鍵詞應(yīng)該與查詢圖像相關(guān)聯(lián)的概率為5/7(71%)。因此,與 第二關(guān)鍵詞相比,因?yàn)榈谝魂P(guān)鍵詞具有與查詢圖像相關(guān)聯(lián)的更大概率(即,71%對(duì)四%); 所以使用第一關(guān)鍵詞來注釋該查詢圖像。在一替換實(shí)現(xiàn)中,選擇其視覺特征與查詢圖像最相似的圖像聚類,并且使用其關(guān) 鍵詞、短語和/或術(shù)語來注釋查詢圖像。一般而言,由于聚類中的圖像的數(shù)量少,所以聚類中的詞的數(shù)量是有限的。因此,
7當(dāng)存在有限數(shù)量的詞時(shí),單元語法模型可以使用貝葉斯模型使用狄利克雷(Dirichlet)先 驗(yàn)來平滑。(5)此處,p(w/C)是指定關(guān)鍵詞“W”出現(xiàn)在標(biāo)準(zhǔn)語料庫“C”中的的單元語法概率。一般而言,典型的web圖像包含噪聲和不完整的文本信息。因此,可以采用兩步概 率模型來注釋web圖像。首先,使用等式(6)來排序可用文本“n”,并且丟棄可能是噪聲的排序最低的詞。 隨后將排序最高的詞用作候選注釋“η*”。η* = arg maxn{p(n, I)}(6)= arg maxn { Σ cp (n/c) ρ (I/c) ρ (c)}在等式(6)中,ρ (η, I)是關(guān)鍵詞、短語和/或術(shù)語“η”與web圖像“I”相關(guān)聯(lián)的 概率,p(n/c)是術(shù)語“η”與圖像聚類“C”相關(guān)聯(lián)的概率,而p(I/c)是web圖像“I”與圖像 聚類“C”相關(guān)聯(lián)的概率。接著,獲得新的注釋“7”并且通過確定每一候選注釋的平均條件概率ρ (w, I/n*) 來將注釋排序。隨后可以選擇具有最高平均條件概率的候選注釋來注釋web圖像。w* = arg maxw {ρ (w, I/n*)}(7)w* = arg maxn{ Σ cp (w/c)p (n*/w, c)p (I/c)p (n*/I, c)p (c)}在等式(7)中,p(n7w, c)是雙元語法詞概率(即,給定 ”已經(jīng)與圖像聚類“C” 相關(guān)聯(lián)的情況下,每一關(guān)鍵詞、術(shù)語或注釋“η*”與圖像聚類“C”相關(guān)聯(lián)的平均條件概率)。例如,如果web圖像是帶有云的天空的圖片并用“天空”來注釋。帶有注釋“天空” 和“云”的聚類將具有這些注釋與該圖像相關(guān)的高概率。而帶有注釋“水”和“天空”的聚類 將具有較低的概率并因此被丟棄。注釋圖像因?yàn)橥ǔV皇褂蒙倭康木垲惸P蛠碛?jì)算聯(lián)合概率,所以本示例性圖像注釋技術(shù)是 高效的并且不會(huì)引入噪聲信息。對(duì)于個(gè)人圖像注釋,選擇在視覺上與圖像相似的聚類模型。因此,基于最接近的視 覺圖像模型來注釋個(gè)人圖像而不考慮文本相似性。圖4示出根據(jù)一個(gè)實(shí)現(xiàn)的用于注釋個(gè)人圖像的說明性方法400。術(shù)語“個(gè)人圖像” 應(yīng)該被寬泛地解釋并且一般是不具有諸如關(guān)鍵詞、標(biāo)簽、文本信息等文本信息的任何圖像。 在框402處,個(gè)人圖像可以從網(wǎng)站下載、從計(jì)算設(shè)備(例如,僅舉幾個(gè)例子,個(gè)人計(jì)算機(jī)、數(shù) 碼相機(jī)、電視電話、個(gè)人數(shù)字助理)檢索、從硬拷貝掃描、或從任何其他數(shù)字圖像的源獲得。—旦選擇了個(gè)人圖像(即,查詢圖像),在框404處可以使用灰塊技術(shù)提取其視覺 特征。在一個(gè)實(shí)現(xiàn)中,查詢圖像被分成8x 8的塊并且為每一塊計(jì)算平均亮度“L”。查詢圖 像隨后基于平均亮度值Fi = (fi;f2,f3,…,表示為K階向量。在一替換實(shí)現(xiàn)中,圖 像可以被劃分成7x 7的灰塊、9x 9的灰塊、或任何其他合適數(shù)量的灰塊。向量圖像隨后可以通過采用投影矩陣來縮減。投影矩陣“A”通過對(duì)特征矩陣執(zhí)行 主分量分析(PCA)來確定。隨后對(duì)圖像向量排序并且保留對(duì)應(yīng)于最大本征值的向量來形成 投影矩陣A。
接著在框406處,可以對(duì)查詢圖像執(zhí)行高效的基于散列的聚類算法。在一個(gè)實(shí)現(xiàn) 中,計(jì)算圖像向量的平均值“平均k”并且對(duì)值大于平均k的圖像向量賦值1而對(duì)值小于平 均k的圖像向量賦值0。這將K維圖像向量變換成K位二進(jìn)制串,即變成了查詢圖像散列代 碼。隨后將查詢圖像的散列代碼與各圖像聚類的散列代碼進(jìn)行比較。在框408處,選 擇具有與查詢圖像相同的散列代碼的聚類。最后在框410處,使用所選聚類的注釋來注釋查詢圖像。對(duì)于web圖像,可以選擇既在文本上與web圖像文本信息相似又在視覺上與web 圖像相似的聚類模型。圖5示出根據(jù)一個(gè)實(shí)現(xiàn)的用于注釋web圖像的說明性方法500。術(shù) 語“web圖像”應(yīng)該被寬泛地解釋并且一般是具有諸如關(guān)鍵詞、標(biāo)簽、文本信息等文本信息 的任何圖像。在框502處,像個(gè)人圖像一樣,web圖像可以從因特網(wǎng)網(wǎng)站下載、從計(jì)算設(shè)備 (例如,僅舉幾個(gè)例子,個(gè)人計(jì)算機(jī)、數(shù)碼相機(jī)、電視電話、個(gè)人數(shù)字助理)檢索、從硬拷貝掃 描、或從任何其他數(shù)字圖像的源獲得。一旦選擇了 web圖像(即,查詢圖像),在框504處使用灰塊技術(shù)提取圖像的視覺 特征并且通過采用投影矩陣縮減向量圖像。相關(guān)聯(lián)的文本特征被記錄在數(shù)據(jù)庫中或其他形 式的檔案中。通過使用圖像向量的平均值“平均k”來計(jì)算查詢圖像的散列值,并且對(duì)值大于平 均k的圖像向量賦值1而對(duì)值小于平均k的圖像向量賦值0。在框506處,這將K維圖像向 量變換成K位二進(jìn)制串,即變成了查詢圖像散列代碼。使用兩步概率模型來注釋web圖像。首先,可以基于查詢圖像“I”與圖像聚類“C” 相關(guān)聯(lián)的概率(即,P (I/c))以及文本η與聚類C相關(guān)聯(lián)的概率(即,ρ (n/c))來對(duì)可用文 本“η”排序。在框508處,丟棄排序最低的詞并將排序最高的詞用作候選注釋?duì)?。獲得新的候選注釋“7”并且通過計(jì)算每一候選注釋的平均條件概率P (w,Ι/η;) 來將候選注釋排序。在框510處,選擇具有最大平均條件概率的候選注釋?,來注釋web 圖像。結(jié)論盡管用結(jié)構(gòu)特征和/或方法動(dòng)作專用的語言描述了各個(gè)實(shí)現(xiàn),但可以理解,所附 權(quán)利要求書中定義的發(fā)明不必限于上述具體特征或動(dòng)作。相反,這些具體特征和動(dòng)作是作 為實(shí)現(xiàn)權(quán)利要求的本發(fā)明的說明性形式而公開的。
權(quán)利要求
1.一種注釋圖像的方法,包括編譯來自多個(gè)圖像的視覺特征和文本信息(104,504);散列所述多個(gè)視覺特征,并且基于所述散列值對(duì)所述多個(gè)圖像聚類(108,306,308);基于所聚類的圖像構(gòu)建一個(gè)或多個(gè)統(tǒng)計(jì)語言模型(110,112);以及使用所述統(tǒng)計(jì)語言模型中的一個(gè)或多個(gè)來注釋所述圖像(122)。
2.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述多個(gè)圖像通過爬行一個(gè)或 多個(gè)大規(guī)模圖像數(shù)據(jù)庫來收集。
3.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,散列所述多個(gè)視覺特征包括向 量量化過程,其中所述視覺特征被轉(zhuǎn)換成二進(jìn)制串。
4.如權(quán)利要求1所述的注釋圖像方法,其特征在于,將帶有相同散列代碼的圖像分組 成各個(gè)聚類。
5.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述一個(gè)或多個(gè)統(tǒng)計(jì)語言模型 是單元語法模型。
6.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述一個(gè)或多個(gè)統(tǒng)計(jì)語言模型 是雙元語法模型。
7.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述圖像是個(gè)人圖像,并且所述 圖像通過選擇帶有所述圖像和所聚類的圖像之間的最大聯(lián)合概率的詞來注釋。
8.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述圖像是web圖像,并且所述 圖像通過兩步概率建模技術(shù)來注釋。
9.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,還包括通過使用灰塊方法從所 述多個(gè)圖像中提取視覺信息。
10.如權(quán)利要求9所述的注釋圖像的方法,其特征在于,所述灰塊方法包括將所述圖像劃分成相等大小的塊,測(cè)量每一塊的平均亮度,以及將所述圖像表示為向量。
11.如權(quán)利要求9所述的注釋圖像的方法,其特征在于,還包括通過采用投影矩陣來縮 減所述多個(gè)圖像的視覺信息。
12.一種包括在由處理器執(zhí)行時(shí)執(zhí)行如權(quán)利要求1-11所述的方法的計(jì)算機(jī)可執(zhí)行指 令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
13.一種具體化在計(jì)算機(jī)可讀介質(zhì)上的表示項(xiàng)目錄中的項(xiàng)的數(shù)據(jù)結(jié)構(gòu),所述數(shù)據(jù)結(jié)構(gòu) 包括數(shù)字圖像O02);以及對(duì)應(yīng)于所述數(shù)字圖像的文本注釋004),所述文本注釋通過以下動(dòng)作與所述數(shù)字圖像 相關(guān)聯(lián)編譯來自多個(gè)圖像的視覺特征和文本信息(104,504);散列所述多個(gè)視覺特征,并且基于所述散列值對(duì)所述多個(gè)圖像聚類(108,306,308);基于所聚類的圖像構(gòu)建一個(gè)或多個(gè)統(tǒng)計(jì)語言模型(110,112);以及使用所述統(tǒng)計(jì)語言模型中的一個(gè)或多個(gè)來注釋所述圖像(122)。
14.如權(quán)利要求13所述的具體化在計(jì)算機(jī)可讀介質(zhì)上的表示項(xiàng)目錄中的項(xiàng)的數(shù)據(jù)結(jié)構(gòu),其特征在于,所述多個(gè)圖像通過爬行一個(gè)或多個(gè)大規(guī)模圖像數(shù)據(jù)庫來收集。
15.如權(quán)利要求13所述的具體化在計(jì)算機(jī)可讀介質(zhì)上的表示項(xiàng)目錄中的項(xiàng)的數(shù)據(jù)結(jié) 構(gòu),其特征在于,還包括通過使用灰塊方法從所述多個(gè)圖像中提取視覺信息。
全文摘要
描述了大規(guī)模圖像注釋的統(tǒng)計(jì)方法。一般而言,注釋技術(shù)包括編譯來自多個(gè)圖像的視覺特征和文本信息、散列圖像視覺特征、并基于其散列值對(duì)圖像聚類。一個(gè)示例系統(tǒng)從所聚類的圖像中構(gòu)建統(tǒng)計(jì)語言模型,并且通過應(yīng)用統(tǒng)計(jì)語言模型中的一個(gè)來注釋圖像。
文檔編號(hào)G06F17/00GK102112987SQ200980131159
公開日2011年6月29日 申請(qǐng)日期2009年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者M·李, X·芮 申請(qǐng)人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1