專利名稱:基于橢圓顏色模型的混合的圖像分類的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及成像領(lǐng)域。更具體而言,本發(fā)明涉及改進(jìn)的成像分類。
背景技術(shù):
存在若干種比較圖像的方式。另外,對于比較圖像,存在許多不同的 實現(xiàn)方式。 一種實現(xiàn)方式是基于圖像的內(nèi)容而不是關(guān)鍵字來進(jìn)行搜索。
基于內(nèi)容的圖像檢索系統(tǒng)是這樣一種圖像檢索系統(tǒng),其通過利用圖像 的內(nèi)容而不是文本標(biāo)簽來對來自數(shù)字庫(通常是數(shù)據(jù)庫)的圖像進(jìn)行分 類、檢測和檢索。
傳統(tǒng)的基于內(nèi)容的圖像和視頻檢索系統(tǒng)利用已被補(bǔ)充了與圖像相關(guān)聯(lián) 的諸如標(biāo)題、關(guān)鍵字或字幕之類的文本的圖像或視頻幀。用戶例如通過利 用這些關(guān)鍵字向系統(tǒng)提交文本查詢來從圖像數(shù)據(jù)庫中檢索所需的圖像。與 所輸入的關(guān)鍵字相匹配的圖像被檢索出來。但是,對于較大的圖像數(shù)據(jù)集 合,是不可能在每個圖像有文本索引與之相對應(yīng)的情況下存儲所有圖像 的。手工地向每個圖像賦予特定的標(biāo)題、關(guān)鍵字和字幕也是非常麻煩的。 另外,基于文本的搜索也具有其固有的缺陷。
一些基于內(nèi)容的系統(tǒng)利用指定的形狀或?qū)ο髞頇z索圖像。例如,為了 找到狗的圖像,這種系統(tǒng)將會被提供以狗的形狀的規(guī)格。但是,由于狗有 著多種形狀和大小,因此這限于找出與指定的形狀相匹配的狗。
發(fā)明內(nèi)容
一種基于橢圓顏色模型來對圖像分類的方法被用在若干種應(yīng)用中。從
具有所關(guān)注區(qū)域(region of interest)的圖像集合生成一個或多個顏色模 型。然后,多個圖像集合被用于訓(xùn)練。 一個圖像集合具有所關(guān)注區(qū)域,另 一圖像集合不具有所關(guān)注區(qū)域。通過利用這兩個圖像集合,實現(xiàn)了集合之間的最大差異,從而使得顏色模型最大程度地代表所需的對象。然后,利 用最優(yōu)顏色模型,能夠搜索一組圖像,并且基于這些圖像包含所需對象的 概率來檢索圖像。
在一個方面中, 一種對圖像分類的方法包括從一個或多個第一圖像 生成一個或多個顏色模型;從所述一個或多個顏色模型中選擇一個或多個 最優(yōu)顏色模型,其中所述一個或多個最優(yōu)顏色模型代表所述一個或多個第 一圖像中的顏色;以及將來自一個或多個第二圖像的一個或多個顏色分布 與所述一個或多個最優(yōu)顏色模型進(jìn)行比較。所述一個或多個顏色模型是橢 圓的。所述一個或多個顏色模型是在色相、飽和度、值顏色空間中生成 的。該方法還包括利用具有一個或多個所關(guān)注區(qū)域的一個或多個第三圖像 和不具有所關(guān)注區(qū)域的一個或多個第四圖像來訓(xùn)練所述一個或多個顏色模 型。訓(xùn)練還包括使所述具有一個或多個所關(guān)注區(qū)域的一個或多個第三圖像 與所述不具有所關(guān)注區(qū)域的一個或多個第四圖像之間的差異最大化。該方 法還包括基于與所述一個或多個最優(yōu)顏色模型的相似度來檢索所述一個或 多個第二圖像。所述一個或多個最優(yōu)顏色模型與所述一個或多個顏色分布 之間的距離越小,則相似度就越高。關(guān)鍵字被用于選擇所述一個或多個第 一圖像。所述一個或多個第一圖像是由用戶選擇的。所述一個或多個最優(yōu) 顏色模型和所述一個或多個顏色分布是在因特網(wǎng)上被比較的。或者,所述 一個或多個最優(yōu)顏色模型和所述一個或多個顏色分布是在從由以下各項構(gòu) 成的組中選擇出來的計算設(shè)備上被比較的個人計算機(jī)、膝上型計算機(jī)、 數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)備、iPod⑧和家庭娛樂系統(tǒng)。
在另一個方面中, 一種對圖像分類的方法包括從具有所關(guān)注區(qū)域的 第一圖像集合生成一個或多個顏色模型;利用具有一個或多個所關(guān)注區(qū)域 的第二圖像集合和不具有所關(guān)注區(qū)域的第三圖像集合來訓(xùn)練所述一個或多 個顏色模型;將所述一個或多個顏色模型與來自第四圖像集合的一個或多 個顏色分布進(jìn)行比較;以及基于所述一個或多個顏色模型與所述一個或多 個顏色分布之間的比較來從所述第四圖像集合中檢索一個或多個圖像。所 述一個或多個顏色模型是橢圓的。所述一個或多個顏色模型是在色相、飽 和度、值顏色空間中生成的。訓(xùn)練還包括使所述具有一個或多個所關(guān)注區(qū)域的第二圖像集合與所述不具有所關(guān)注區(qū)域的第三圖像集合之間的差異最 大化。所述一個或多個顏色模型與所述一個或多個顏色分布之間的距離越 小,則相似度就越高。關(guān)鍵字被用于選擇所述第一圖像集合。所述第一圖 像集合是由用戶選擇的。所述一個或多個顏色模型和所述一個或多個顏色 分布是在因特網(wǎng)上被比較的?;蛘撸鲆粋€或多個顏色模型和所述一個 或多個顏色分布是在從由以下各項構(gòu)成的組中選擇出來的計算設(shè)備上被比 較的個人計算機(jī)、膝上型計算機(jī)、數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)
備、iPod⑧和家庭娛樂系統(tǒng)。
在另一方面中, 一種優(yōu)化用于對圖像分類的顏色模型的方法包括為 一個或多個第一圖像中的每一個生成顏色模型;搜索用于使所述一個或多 個第一圖像和一個或多個第二圖像之間的統(tǒng)計距離最大化的顏色模型;通 過將用于使所述統(tǒng)計距離最大化的顏色模型添加到顏色模型集合來更新該 顏色模型集合;以及重復(fù)搜索和更新,直到所述統(tǒng)計距離被最大化為止。 所述一個或多個第一圖像包含一個或多個所關(guān)注區(qū)域,并且所述一個或多 個第二圖像不具有一個或多個所關(guān)注區(qū)域。所述顏色模型是橢圓的。所述 顏色模型是在色相、飽和度、值顏色空間中生成的。對顏色模型的優(yōu)化是 在從由以下各項構(gòu)成的組中選擇出來的計算設(shè)備上執(zhí)行的個人計算機(jī)、 膝上型計算機(jī)、數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)備、iPod⑧和家庭娛樂 系統(tǒng)。
在另一個方面中, 一種用于比較多個圖像的系統(tǒng)包括 一個或多個第 一圖像;從所述一個或多個第一圖像生成的一個或多個顏色模型;具有一 個或多個所關(guān)注區(qū)域的一個或多個第二圖像,用于訓(xùn)練所述一個或多個顏 色模型;不具有所關(guān)注區(qū)域的一個或多個第三圖像,用于訓(xùn)練所述一個或 多個顏色模型; 一個或多個第四圖像;從所述一個或多個第四圖像生成的 一個或多個顏色分布;以及用于將所述一個或多個顏色模型與所述一個或 多個顏色分布進(jìn)行比較的程序。所述一個或多個顏色模型是橢圓的。所述 一個或多個顏色模型是在色相、飽和度、值顏色空間中生成的。所述一個 或多個第四圖像是基于所述一個或多個顏色模型與所述一個或多個顏色分 布的相似度來檢索的。所述一個或多個顏色模型與所述一個或多個顏色分布之間的距離越小,則相似度就越高。關(guān)鍵字被用于選擇所述一個或多個 第一圖像。所述一個或多個第一圖像是由用戶選擇的。所述一個或多個顏 色模型和所述一個或多個顏色分布是在因特網(wǎng)上被比較的?;蛘撸鲆?個或多個顏色模型和所述一個或多個顏色分布是在從由以下各項構(gòu)成的組 中選擇出來的計算設(shè)備上被比較的個人計算機(jī)、膝上型計算機(jī)、數(shù)字照 相機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)備、iPod⑧和家庭娛樂系統(tǒng)。
在另一個方面中, 一種捕捉和顯示設(shè)備包括接收單元,用于接收圖 像數(shù)據(jù);耦合到所述接收單元的顯示單元,用于顯示圖像數(shù)據(jù);以及耦合 到所述接收單元和所述顯示單元的程序,用于通過以下步驟來比較所述圖 像數(shù)據(jù)從一個或多個所選圖像生成一個或多個顏色模型;從所述一個或 多個顏色模型中選擇一個或多個最優(yōu)顏色模型,其中所述一個或多個最優(yōu) 顏色模型代表所述一個或多個所選圖像中的顏色;以及將來自所述圖像數(shù) 據(jù)的一個或多個顏色分布與所述一個或多個最優(yōu)顏色模型進(jìn)行比較。所述 一個或多個顏色模型是橢圓的。所述一個或多個顏色模型是在色相、飽和 度、值顏色空間中生成的。所述捕捉和顯示設(shè)備從由以下各項構(gòu)成的組中 選擇出來的個人計算機(jī)、膝上型計算機(jī)、數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手
持設(shè)備、iPod⑧和家庭娛樂系統(tǒng)。
圖1A-C圖示出了 HSV顏色空間的不同表示。 圖1D圖示出了示例性的橢圓顏色模型。
圖2圖示出了確定使U(T)最大化的顏色模型集合T的過程的流程圖。 圖3圖示出了比較圖像的過程的流程圖。
圖4圖示出了根據(jù)本發(fā)明工作的具有外部控制器的媒體存儲設(shè)備的框圖。
圖5圖示出了示出在處理內(nèi)容流以生成索引數(shù)據(jù)庫期間控制器和媒體 存儲設(shè)備所實現(xiàn)的步驟的流程圖。
圖6圖示出了示出在內(nèi)容流的重放期間控制器和媒體存儲設(shè)備所實現(xiàn) 的步驟的流程圖。圖7圖示出了實現(xiàn)這里描述的方法的示例性系統(tǒng),
具體實施例方式
對于諸如對象檢測、圖像分割和基于內(nèi)容的檢索之類的應(yīng)用,顏色經(jīng) 常被用作對象或區(qū)域的特性。對于皮膚顏色檢測應(yīng)用,已經(jīng)開發(fā)出許多基 于顏色的圖像分類算法?;陬伾膱D像分類一般使用諸如高斯模型和貝 葉斯分類器之類的顏色建模。
這里描述了一種基于訓(xùn)練的統(tǒng)計顏色建模方法。具有所關(guān)注的區(qū)域的 圖像的集合被用于為每個圖像生成橢圓顏色模型。然后,兩個訓(xùn)練圖像集 合被用于訓(xùn)練顏色模型。 一個圖像集合包含具有所關(guān)注區(qū)域的圖像,另一 圖像集合包含不具有所關(guān)注區(qū)域的圖像。然后通過使兩個訓(xùn)練集合之間的 統(tǒng)計距離最大化,來從顏色模型集合中選擇最優(yōu)顏色模型的集合。
為了從給定圖像生成顏色模型,使用色相、飽和度、值(Hue, Saturation, Value,簡稱為HSV)顏色空間。在HSV顏色空間內(nèi),色相也 是顏色類型(例如紅色、藍(lán)色或綠色)。 一般地,色相的范圍是0至360 或者0-100%。飽和度是顏色的活躍性(vibrancy),其中范圍是從0-100%。顏色的飽和度越低,就存在越多的灰色,并且顏色看起來就越暗 淡。值也被稱為顏色的亮度(brightness),其范圍是從0-100%。圖1A-C 圖示出了 HSV顏色空間的不同表示。圖1A示出了輪盤形式的HSV顏色 空間。圖1B將其示為圓柱,圖1C將顏色空間示為圓錐。對于所關(guān)注區(qū)域 中的每個像素,顏色值被投射在極坐標(biāo)系統(tǒng)中的HS平面上。為了確定橢 圓模型,HS平面被轉(zhuǎn)換成笛卡兒坐標(biāo),其中坐標(biāo)x = (Xl, x2)T,以計算平 均值和協(xié)方差矩陣。假定所選擇的顏色在該平面上具有二元正態(tài)分布,其 平均值為
,M、
〃
并且協(xié)方差矩陣為
i7 =
《 《:
V《2 S
(1)
(2)
二元正態(tài)密度在以下橢圓上是恒定的<formula>formula see original document page 12</formula> (3)
所選擇的顏色的分布被估計處于通過在式(3)中取c = 1.5而確定的橢圓 內(nèi)。整個圖像中的橢圓模型內(nèi)的像素的百分比被用于估計圖像具有所需顏 色的總概率。
圖1D圖示出了示例性的橢圓顏色模型。如上所述,圖像的像素的顏 色表示102被映射在顏色空間上。然后,利用式(1-3),確立最優(yōu)的橢圓 100,該最優(yōu)橢圓IOO被用作稍后的比較的顏色模型。
以下式子被用來判定給定的圖像與顏色模型的匹配程度。對于被測試
的給定圖像/, /與顏色模型r之間的距離被定義為
<formula>formula see original document page 12</formula> (4) 其中f是顏色橢圓模型中的像素的量,f是在同一顏色模型內(nèi)/的像素的 量。?和f都被表示為整個圖像中的像素的百分比。使用百分比而不是絕對 數(shù)字,以允許比較不同大小的圖像。如果在/中有比顏色橢圓模型中更多
的像素,則距離d(/,7)能夠為負(fù)。如果圖像包含大量所需的顏色像素,則 距離d(/, T)趨向于較小,因此確定此圖像是相似的圖像。如果圖像不包含 許多所需顏色像素,則距離d(/,7)較大,因此確定此圖像不是相似圖像。 假定存在多個顏色模型的集合
<formula>formula see original document page 12</formula> (5)
圖像/和顏色模型集合T之間的顏色匹配函數(shù)被定義為
<formula>formula see original document page 12</formula>(6) 問題在于選擇代表性顏色模型集合來對圖像分類。模型選擇過程開始
于具有所關(guān)注區(qū)域的圖像的集合Ia和不具有所關(guān)注區(qū)域的圖像的集合Ib。 對于顏色模型集合T,假定針對Ia e I J勺D(Ia, T)具有均值Ma和標(biāo)準(zhǔn)偏差
da;針對Ib e I b的D(Ib, T)具有均值;/fe和標(biāo)準(zhǔn)偏差(7b。與顏色模型集合T相
對應(yīng)的圖像集合Ia和Ib之間的統(tǒng)計距離被定義為
<formula>formula see original document page 12</formula>(7)
優(yōu)化過程是要找到使統(tǒng)計距離U(T)最大化的顏色模型集合T。
圖2圖示出了確定使U(T)最大化的顏色模型集合T的過程的流程圖。 在步驟200中,集合T的值被設(shè)定為等于》。在步驟202中,生成針對每個/a e I a的顏色模型ra。在步驟204中,搜索使統(tǒng)計距離U(T)最大化的顏 色模型ra: ra = argmax U({ra} u T)。在步驟206中,利用T — {ra} u T 來更新集合T。重復(fù)步驟204和206,直到統(tǒng)計距離U(T)達(dá)到最大為止。 在步驟204中,已經(jīng)處于集合T中的顏色模型能夠再次被選擇。如果發(fā)生 這種情況,則在步驟206中重復(fù)的顏色模型被添加到集合T。在步驟208 中,隨后判定統(tǒng)計距離U(T)是否已達(dá)到最大。如果判定統(tǒng)計距離U(T)己 經(jīng)達(dá)到最大,則該過程結(jié)束。否則,該過程返回到步驟204,以搜索使統(tǒng) 計距離U(T)最大化的顏色模型。
如果圖像集合Ia和Ib包含大量圖像,則對統(tǒng)計距離U(T)的計算變得很 耗時。在這種情形下,圖像集合Ia和Ib的子集能夠被選擇用于每次迭代。
當(dāng)為每次迭代選擇子集時,選擇子集的方法能夠是隨機(jī)的或者有序的。
在最優(yōu)顏色模型集合被獲得后,式(6)的顏色匹配函數(shù)被用于評估 圖像具有所需顏色的對象的概率。圖像分類的閾值設(shè)定取決于特定的應(yīng) 用。對于諸如皮膚顏色、藍(lán)天和綠樹之類的所關(guān)注區(qū)域中的顏色具有高斯 或近高斯分布的情形,顏色模型匹配方法的效果最好。
如果圖像中的所關(guān)注區(qū)域具有多種顏色,例如紅花加綠葉,則該區(qū)域 被分割成多個對象并被分別分類。然后分類結(jié)果被組合以便最終輸出。例 如,如果需要玫瑰的圖像,則花的部分具有不同的顏色(例如紅色),莖 和葉具有不同的顏色(例如綠色),而圖像的其余部分包含其他顏色。為 了正確地確定要搜索的顏色模型,圖像被分解成不同的片段?;ǖ牟糠直?剪切,并且莖和葉被剪切,并被放到其自己的單獨的圖像中。每個片段具 有其自己的使用上述式子的顏色模型。 一旦確立了針對玫瑰的兩個顏色模 型,就能將它們與其他顏色模型相比較以確定圖像之間的相似度。顏色模 型能夠被用于任何能夠受益于這種信息的應(yīng)用,例如通過將一個或多個顏 色模型與數(shù)據(jù)庫內(nèi)的圖像相比較來進(jìn)行搜索的搜索引擎。優(yōu)選地,與顏色 模型相匹配的圖像被找到并按相似度的順序被顯示。例如,利用玫瑰的示 例,具有很高的紅和綠濃度的圖像首先被顯示,而缺乏這種顏色的圖像最 后被顯示,或者根本不被顯示。另外,由于紅色不是所使用的唯一顏色, 因此紅色的汽車不應(yīng)該出現(xiàn)在列表中很靠前的位置,因為很有可能它缺乏來自玫瑰的莖的綠色。因此,通過為圖像的每個不同的方面使用多個顏色 模型,提高了搜索的精確度。如果需要,多個顏色模型能夠被用于提供更 高的精度,例如紅玫瑰和綠莖和藍(lán)天。在這種場景中,存在三種很不相同 的顏色,并且很有可能每種顏色有足夠數(shù)目的像素。因此,能夠?qū)崿F(xiàn)三個 顏色模型。
圖3圖示出了這里描述的方法的流程圖。在步驟300中,從具有所關(guān) 注區(qū)域的第一圖像集合生成一個或多個橢圓顏色模型。例如,提供玫瑰圖 像的集合,其中以花的部分作為所關(guān)注區(qū)域。從該玫瑰圖像集合生成專注
于花的部分的顏色模型。然后,在步驟302中,利用具有一個或多個所關(guān)
注區(qū)域的第二圖像集合和不具有所關(guān)注區(qū)域的第三圖像集合來訓(xùn)練該一個
或多個顏色模型。在步驟304中,使具有一個或多個所關(guān)注區(qū)域的第二圖 像集合與不具有所關(guān)注區(qū)域的第三圖像集合之間的差異最大化,從而選擇 最佳的一個或多個顏色模型。 一旦確立了最佳顏色模型,在步驟306中就 將該一個或多個顏色模型與第四圖像集合相比較。在一些實施例中,基于 與該一個或多個顏色模型的比較,來自第四圖像集合的一個或多個圖像被 檢索出來。
這里描述的方法能夠被用于的應(yīng)用之一是也稱為按圖像內(nèi)容查詢 (QBIC)的基于內(nèi)容的圖像檢索(CBIR),以及基于內(nèi)容的可視信息檢 索(CBVIR) 。 CBIR是計算機(jī)視覺在搜索大數(shù)據(jù)庫中的數(shù)字圖像的圖像 檢索問題中的應(yīng)用。"基于內(nèi)容"是指該搜索使用圖像的內(nèi)容本身,而不 依賴于諸如標(biāo)題、字幕或關(guān)鍵字之類的元數(shù)據(jù)。CBIR之所以被需要和有 用,是因為基于元數(shù)據(jù)的系統(tǒng)的局限,以及因特網(wǎng)的帶寬和處理力的增 大。關(guān)于圖像的文本信息很容易利用當(dāng)前技術(shù)來搜索,但是要求這些描述 被某人輸入,而當(dāng)應(yīng)對極大量的數(shù)據(jù)時這是很麻煩且不可行的。另外,對 文本的關(guān)鍵字搜索具有其自己的缺陷,例如要求用戶準(zhǔn)確地表達(dá)其搜索, 否則搜索的結(jié)果可能是什么也沒找到。
CBIR系統(tǒng)是以若干種不同方式來實現(xiàn)的。 一種示例允許用戶類似于 關(guān)鍵字搜索那樣作出請求,例如"兔子",并且任何兔子的圖像會被檢索 出來。但是,與搜索單詞"兔子"的關(guān)鍵字搜索不同,該搜索尋找具有兔子的圖像的匹配顏色。此外,在搜索的文本輸入版本中能夠包括顏色標(biāo) 簽,例如"白兔",以進(jìn)一步指定需要哪類兔子,因為兔子有多種顏色。 其他系統(tǒng)按用戶提供的樣本圖像來進(jìn)行搜索。如上所述,搜索開始于所提 供的樣本圖像的集合。然后搜索檢索相似的圖像。結(jié)果以多種方式被返 回,并且在一些實施例中它們按照基于最近匹配的升序被排序。另一種返 回結(jié)果的方法僅返回具有落在指定的可接受范圍內(nèi)的相似度的那些圖像。
或者,不是在因特網(wǎng)上進(jìn)行搜索,實現(xiàn)這里描述的方法的CBIR是在 局部內(nèi)聯(lián)網(wǎng)上或者甚至是在用戶的計算設(shè)備(例如個人計算機(jī)、膝上型計 算機(jī)、數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)備、iPod⑧和家庭娛樂系統(tǒng))上 執(zhí)行的。例如,如果用戶希望找到計算機(jī)上其孩子的所有圖片,則它們能 夠使用上述技術(shù)并且檢索出像孩子的所有圖片。
這里描述的方法的另 一個應(yīng)用是內(nèi)容識別系統(tǒng)。用于對音頻/視頻內(nèi)容 數(shù)據(jù)流內(nèi)對象的出現(xiàn)編制索引的內(nèi)容識別系統(tǒng)處理數(shù)據(jù)流以生成與內(nèi)容流 相對應(yīng)的內(nèi)容索引數(shù)據(jù)庫。通過把利用這里描述的圖像分類技術(shù)的識別技 術(shù)應(yīng)用到內(nèi)容流內(nèi)的內(nèi)容以標(biāo)識對象并對所標(biāo)識的對象編制索弓i ,來對內(nèi) 容流進(jìn)行處理。在一個實施例中,內(nèi)容流是在其被存儲在媒體存儲設(shè)備之 內(nèi)時被處理的?;蛘撸瑑?nèi)容流是在其被存儲在媒體存儲設(shè)備之后被處理 的。在處理期間通過識別技術(shù)動態(tài)標(biāo)識索引數(shù)據(jù)庫內(nèi)包括的對象。在內(nèi)容 流被處理時,針對每個對象的條目在索引數(shù)據(jù)庫內(nèi)被生成。在一些實施例 中,每個條目包括對象標(biāo)識符和該對象的相應(yīng)位置。位置涉及特定內(nèi)容存 儲在媒體存儲設(shè)備內(nèi)何處。 一旦內(nèi)容索引數(shù)據(jù)庫被生成,其隨后就能夠被 用于迅速地定位和導(dǎo)航到內(nèi)容流內(nèi)的內(nèi)容和對象的具體出現(xiàn)。能夠被標(biāo)識 和編入索引的對象包括內(nèi)容流內(nèi)的任何可標(biāo)識的信息,包括形狀、對象、 事件和視頻流內(nèi)的運(yùn)動。在一些實施例中,內(nèi)容索引數(shù)據(jù)庫與內(nèi)容流被存 儲在同一媒體存儲設(shè)備上。
具有外部控制器的媒體存儲設(shè)備在圖4中圖示出。媒體存儲設(shè)備400 包括接口電路402,用于向耦合到媒體存儲設(shè)備400的其他設(shè)備發(fā)送通信 和從中接收通信。接口電路402耦合到緩沖控制器404。緩沖控制器404 還耦合到RAM 406和讀/寫通道電路408。讀/寫通道電路408耦合到媒體存儲設(shè)備400內(nèi)存儲數(shù)據(jù)的介質(zhì)410。讀/寫通道電路408控制介質(zhì)410上 的存儲操作,包括從介質(zhì)410讀取數(shù)據(jù)和向介質(zhì)410寫入數(shù)據(jù)。外部控制 器420耦合到緩沖控制器404,用于對存儲在介質(zhì)410上的數(shù)據(jù)流的處 理、分類和索引編制進(jìn)行控制。
在流被處理時,控制器420內(nèi)的識別引擎分析內(nèi)容流內(nèi)的內(nèi)容以標(biāo)識 出內(nèi)容流內(nèi)的適當(dāng)對象。如上所述,適當(dāng)?shù)膶ο笤谔幚砥陂g被識別引擎動 態(tài)標(biāo)識。在內(nèi)容流內(nèi)的適當(dāng)對象被標(biāo)識時,這些所標(biāo)識的對象在內(nèi)容流內(nèi) 的出現(xiàn)于是被記錄在索弓I數(shù)據(jù)庫內(nèi)。 一旦內(nèi)容流被處理并且索弓i數(shù)據(jù)庫被 生成,用戶隨后就能夠跳到內(nèi)容流內(nèi)所需對象出現(xiàn)的位置,以便査看或編 輯內(nèi)容流。
在圖5中圖示出了一流程圖,該流程圖示出在一些實施例中在處理內(nèi) 容流以生成索引數(shù)據(jù)庫期間控制器420和媒體存儲設(shè)備400所實現(xiàn)的步 驟。該過程開始于步驟500。在步驟502,標(biāo)識將要被編入索引并被包括 在索引數(shù)據(jù)庫中的對象。如上所述,該標(biāo)識是由用戶手工執(zhí)行的,或者是 由識別技術(shù)在處理期間動態(tài)執(zhí)行的。在步驟504,識別引擎或識別技術(shù)于 是被應(yīng)用到內(nèi)容流,以分析內(nèi)容流并確定所標(biāo)識的對象在內(nèi)容流內(nèi)的出 現(xiàn)。
在步驟506,判定內(nèi)容流內(nèi)當(dāng)前正被分析的內(nèi)容是否包括所標(biāo)識的對 象。如果當(dāng)前正被分析的內(nèi)容包括所標(biāo)識的對象,那么在步驟508,為索 引數(shù)據(jù)庫生成條目,其中包括對象類別內(nèi)的對象標(biāo)識符條目和標(biāo)識出內(nèi)容 在位置類別內(nèi)的相應(yīng)位置的條目。當(dāng)在步驟508為索引數(shù)據(jù)庫生成條目之 后,或者如果在步驟506判定當(dāng)前正被分析的內(nèi)容不包括所標(biāo)識的對象, 則在步驟510判定在內(nèi)容流內(nèi)是否有更多內(nèi)容或者這是否是內(nèi)容流的末 尾。如果判定內(nèi)容流尚未被完全處理,則該過程跳回步驟504,以繼續(xù)處 理內(nèi)容流。如果在步驟510判定內(nèi)容流己全被處理,則該過程在步驟512 結(jié)束。
在圖6中圖示出了一流程圖,該流程圖示出在一些實施例中在具有相 應(yīng)索引數(shù)據(jù)庫的內(nèi)容流的重放期間控制器420和媒體存儲設(shè)備400所實現(xiàn) 的步驟。該過程開始于步驟600。在步驟602,用戶標(biāo)識出其希望在內(nèi)容流內(nèi)定位的對象。在步驟604,利用來自對象類別和位置類別的條目,在 索引數(shù)據(jù)庫內(nèi)定位與所標(biāo)識的對象相對應(yīng)的條目并且對準(zhǔn)對象的第一次出
現(xiàn)的位置。在步驟606,在內(nèi)容流內(nèi)定位對象的第一次出現(xiàn)。在步驟 608,對象的該次出現(xiàn)于是被重放給用戶。在步驟610,隨后判定用戶是否 希望定位和重放對象的下一次出現(xiàn)。如果用戶希望定位和重放對象的下一 次出現(xiàn),則在步驟612定位對象的下一次出現(xiàn)。然后該過程跳到步驟608 以重放該下一次出現(xiàn)。如果在步驟610判定用戶不希望定位和重放對象的 下一次出現(xiàn),則該過程在步驟614結(jié)束。
作為本發(fā)明的內(nèi)容識別系統(tǒng)和索引數(shù)據(jù)庫的操作的示例,用戶將其孩 子生日的視頻記錄在視頻記錄器內(nèi)的磁帶上。該視頻包括音頻和視頻成 分。視頻隨后被從磁帶記錄到媒體存儲設(shè)備400。在控制器420結(jié)合媒體 存儲設(shè)備400的控制之下,通過向視頻成分應(yīng)用識別技術(shù)以確定所標(biāo)識的 對象在內(nèi)容流內(nèi)的每次出現(xiàn)來處理視頻以生成索引數(shù)據(jù)庫。如上所述,這 種處理或者發(fā)生在視頻被記錄在媒體存儲設(shè)備400上時(如果用戶的系統(tǒng) 具有在線執(zhí)行處理的處理能力的話),或者發(fā)生在視頻被記錄在媒體存儲 設(shè)備400之后。在處理期間,視頻被分析,以確定所標(biāo)識的對象的每次出 現(xiàn)。當(dāng)在視頻內(nèi)找到所標(biāo)識的對象的一次出現(xiàn)時,于是就將與該出現(xiàn)相對 應(yīng)的條目添加到索引數(shù)據(jù)庫。例如,如果用戶標(biāo)識出其希望視頻內(nèi)生曰蛋 糕的每次出現(xiàn)被編入索引,那么識別技術(shù)被應(yīng)用到視頻內(nèi)容流以確定視頻 內(nèi)生日蛋糕的每次出現(xiàn)。這些出現(xiàn)被標(biāo)識并且被編入索引數(shù)據(jù)庫內(nèi),如上 所述。如果用戶隨后希望查看這些出現(xiàn)或者基于這些出現(xiàn)來編輯視頻,則 系統(tǒng)將利用索引數(shù)據(jù)庫來重放視頻內(nèi)生日蛋糕的這些出現(xiàn)或者基于視頻內(nèi) 生日蛋糕的出現(xiàn)來編輯視頻。
或者,搜索系統(tǒng)不是生成索引數(shù)據(jù)庫,而是被如下實現(xiàn)用戶能夠請 求搜索某個事物,例如生日蛋糕,系統(tǒng)搜索視頻,并且涉及生日蛋糕的圖 像/視頻被排隊以被查看。
圖7圖示出了實現(xiàn)這里描述的方法的示例性系統(tǒng)。 一個或多個第一圖 像700包含將要被比較的圖像。在該示例中,具有綠莖的紅玫瑰是所需的 圖像。從該一個或多個第一圖像700,生成一個或多個橢圓顏色模型702和702'。顏色模型702來自紅玫瑰,顏色模型702,來自圖像700的綠莖。 一個或多個第二圖像704包含用于訓(xùn)練該一個或多個顏色模型702的一個 或多個所關(guān)注區(qū)域。在這里,具有紅花的圖像被用來訓(xùn)練顏色模型702。 同樣地,具有與花莖相似的綠色的圖像將被用于訓(xùn)練顏色模型702,。 一個 或多個第三圖像706不包含所關(guān)注區(qū)域,例如具有白云和藍(lán)水的圖像。這 種圖像提供了對比,并且?guī)椭?xùn)練顏色模型702和702,,以選擇匹配圖 像。在訓(xùn)練之后選擇一個或多個最優(yōu)顏色模型。該一個或多個最優(yōu)顏色模 型提供了對該一個或多個第一圖像700的最佳表示。 一個或多個第四圖像 708是將要與該一個或多個第一圖像700相比較的圖像。從該一個或多個 第四圖像708生成一個或多個顏色分布710和710,?;谠撘粋€或多個顏 色分布710和710'與該一個或多個顏色模型702和702'的相似度來比較該 一個或多個第四圖像。 一種程序能夠利用上述顏色模型來比較圖像并檢索 相似的圖像。
基于橢圓顏色模型來對圖像分類的方法被用于若干種應(yīng)用中。從具有 所關(guān)注區(qū)域的圖像集合生成一個或多個顏色模型。然后,多個圖像集合被 用于訓(xùn)練。 一個圖像集合具有所關(guān)注區(qū)域,另一圖像集合不具有所關(guān)注區(qū) 域。通過使用這兩個圖像集合,利用以上式子,達(dá)到集合之間的最大差 異,使得顏色模型最大程度地代表所需的對象。然后,利用最優(yōu)顏色模 型,收集一組圖像,并且基于這些圖像包含所需對象的概率來檢索圖像。
在操作中,這里描述的圖像比較方法能夠最初基于具有或者不具有所 關(guān)注區(qū)域的指定圖像來確定最佳橢圓顏色模型。在一些實施例中,使用 HSV顏色空間。然后,利用所確定的顏色模型,其他圖像被比較,其中最 相似的圖像被選擇、檢索或以指定的方式使用。例如,如果該方法工作在 圖像搜索和檢索系統(tǒng)內(nèi),則與顏色模型最相符的圖像按照基于相似度的順 序被檢索出來。
任何受益于基于顏色的圖像匹配的改進(jìn)方法的應(yīng)用都能夠?qū)崿F(xiàn)這里描 述的方法。除了上述應(yīng)用之外,另一種應(yīng)用包括具有自動對焦的數(shù)字照相 機(jī),以使得自動對焦能夠?qū)乖谄つw顏色上。其他應(yīng)用包括但不限于畫廊 和博物館管理、建筑圖像和設(shè)計、室內(nèi)設(shè)計、地球資源的遙感和管理、地理信息系統(tǒng)、科學(xué)數(shù)據(jù)庫管理、天氣預(yù)報、零售、織物和時尚設(shè)計、商標(biāo) 和著作權(quán)數(shù)據(jù)庫管理、法律實施和罪案調(diào)查以及圖片歸檔、通信系統(tǒng)、以 及檢査系統(tǒng)(包括電路檢查系統(tǒng))。
己經(jīng)就包括幫助理解本發(fā)明的構(gòu)造和操作的原理的細(xì)節(jié)的具體實施例 描述了本發(fā)明。這里對具體實施例及其細(xì)節(jié)的這種提及并不是想要將所附 權(quán)利要求的范圍限制于此。本領(lǐng)域的技術(shù)人員很容易明白,在選擇用來舉 例說明的實施例中可以進(jìn)行各種其他修改,而不脫離權(quán)利要求所限定的本 發(fā)明的精神和范圍。
權(quán)利要求
1. 一種對圖像分類的方法,包括a. 從一個或多個第一圖像生成一個或多個顏色模型;b. 從所述一個或多個顏色模型中選擇一個或多個最優(yōu)顏色模型,其中所述最優(yōu)顏色模型代表所述一個或多個第一圖像中的顏色;以及c. 將來自一個或多個第二圖像的一個或多個顏色分布與所述一個或多個最優(yōu)顏色模型進(jìn)行比較。
2. 如權(quán)利要求1所述的方法,其中,所述一個或多個顏色模型是橢圓的。
3. 如權(quán)利要求1所述的方法,其中,所述一個或多個顏色模型是在色 相、飽和度、值顏色空間中生成的。
4. 如權(quán)利要求1所述的方法,還包括利用具有一個或多個所關(guān)注區(qū)域 的一個或多個第三圖像和不具有所關(guān)注區(qū)域的一個或多個第四圖像來訓(xùn)練 所述一個或多個顏色模型。
5. 如權(quán)利要求4所述的方法,其中,訓(xùn)練還包括使所述具有一個或多 個所關(guān)注區(qū)域的一個或多個第三圖.像與所述不具有所關(guān)注區(qū)域的一個或多 個第四圖像之間的差異最大化。
6. 如權(quán)利要求1所述的方法,還包括基于與所述一個或多個最優(yōu)顏色 模型的相似度來檢索所述一個或多個第二圖像。
7. 如權(quán)利要求6所述的方法,其中,所述一個或多個最優(yōu)顏色模型與 所述一個或多個顏色分布之間的距離越小,則相似度就越高。
8. 如權(quán)利要求1所述的方法,其中,關(guān)鍵字被用于選擇所述一個或多 個第一圖像。
9. 如權(quán)利要求1所述的方法,其中,所述一個或多個第一圖像是由用 戶選擇的。
10. 如權(quán)利要求1所述的方法,其中,所述一個或多個最優(yōu)顏色模型 和所述一個或多個顏色分布是在因特網(wǎng)上被比較的。
11. 如權(quán)利要求1所述的方法,其中,所述一個或多個最優(yōu)顏色模型和所述一個或多個顏色分布是在從由以下各項構(gòu)成的組中選擇出來的計算 設(shè)備上被比較的個人計算機(jī)、膝上型計算機(jī)、數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)備、iPod⑧和家庭娛樂系統(tǒng)。
12. —種對圖像分類的方法,包括a. 從具有所關(guān)注區(qū)域的第一圖像集合生成一個或多個顏色模型;b. 利用具有一個或多個所關(guān)注區(qū)域的第二圖像集合和不具有所關(guān)注區(qū) 域的第三圖像集合來訓(xùn)練所述一個或多個顏色模型;C.將所述一個或多個顏色模型與來自第四圖像集合的一個或多個顏色 分布進(jìn)行比較;以及d.基于所述一個或多個顏色模型與所述一個或多個顏色分布之間的比 較來從所述第四圖像集合中檢索一個或多個圖像。
13. 如權(quán)利要求12所述的方法,其中,所述一個或多個顏色模型是橢圓的。
14. 如權(quán)利要求12所述的方法,其中,所述一個或多個顏色模型是在 色相、飽和度、值顏色空間中生成的。
15. 如權(quán)利要求12所述的方法,其中,訓(xùn)練還包括使所述具有一個或 多個所關(guān)注區(qū)域的第二圖像集合與所述不具有所關(guān)注區(qū)域的第三圖像集合 之間的差異最大化。
16. 如權(quán)利要求12所述的方法,其中,所述一個或多個顏色模型與所 述一個或多個顏色分布之間的距離越小,則相似度就越高。
17. 如權(quán)利要求12所述的方法,其中,關(guān)鍵字被用于選擇所述第一圖 像集合。
18. 如權(quán)利要求12所述的方法,其中,所述第一圖像集合是由用戶選 擇的。
19. 如權(quán)利要求12所述的方法,其中,所述一個或多個顏色模型和所 述一個或多個顏色分布是在因特網(wǎng)上被比較的。
20. 如權(quán)利要求12所述的方法,其中,所述一個或多個顏色模型和所 述一個或多個顏色分布是在從由以下各項構(gòu)成的組中選擇出來的計算設(shè)備 上被比較的個人計算機(jī)、膝上型計算機(jī)、數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)備、iPod⑧和家庭娛樂系統(tǒng)。
21. —種優(yōu)化用于對圖像分類的顏色模型的方法,包括a. 為一個或多個第一圖像中的每一個生成顏色模型;b. 搜索用于使所述一個或多個第一圖像和一個或多個第二圖像之間的 統(tǒng)計距離最大化的顏色模型;c. 通過將用于使所述統(tǒng)計距離最大化的顏色模型添加到顏色模型集合 來更新該顏色模型集合;以及d. 重復(fù)對顏色模型的搜索和對顏色模型的更新,直到所述統(tǒng)計距離被 最大化為止。
22. 如權(quán)利要求21所述的方法,其中,所述一個或多個第一圖像包含 一個或多個所關(guān)注區(qū)域,并且所述一個或多個第二圖像不具有一個或多個 所關(guān)注區(qū)域。
23. 如權(quán)利要求21所述的方法,其中,所述顏色模型是橢圓的。
24. 如權(quán)利要求21所述的方法,其中,所述顏色模型是在色相、飽和 度、值顏色空間中生成的。
25. 如權(quán)利要求21所述的方法,其中,對顏色模型的優(yōu)化是在從由以 下各項構(gòu)成的組中選擇出來的計算設(shè)備上執(zhí)行的個人計算機(jī)、膝上型計 算機(jī)、數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)備、iPod⑧和家庭娛樂系統(tǒng)。
26. —種用于比較多個圖像的系統(tǒng),包括a. —個或多個第一圖像;b. 從所述一個或多個第一圖像生成的一個或多個顏色模型;c. 具有一個或多個所關(guān)注區(qū)域的一個或多個第二圖像,用于訓(xùn)練所述 一個或多個顏色模型;d. 不具有所關(guān)注區(qū)域的一個或多個第三圖像,用于訓(xùn)練所述一個或多 個顏色模型;e. —個或多個第四圖像;f. 從所述一個或多個第四圖像生成的一個或多個顏色分布;以及g. 用于將所述一個或多個顏色模型與所述一個或多個顏色分布進(jìn)行比 較的程序。
27. 如權(quán)利要求26所述的系統(tǒng),其中,所述一個或多個顏色模型是橢 圓的。
28. 如權(quán)利要求26所述的系統(tǒng),其中,所述一個或多個顏色模型是在 色相、飽和度、值顏色空間中生成的。
29. 如權(quán)利要求26所述的系統(tǒng),其中,所述一個或多個第四圖像是基 于所述一個或多個顏色模型與所述一個或多個顏色分布的相似度來檢索 的。
30. 如權(quán)利要求29所述的系統(tǒng),其中,所述一個或多個顏色模型與所 述一個或多個顏色分布之間的距離越小,則相似度就越高。
31. 如權(quán)利要求26所述的系統(tǒng),其中,關(guān)鍵字被用于選擇所述一個或 多個第一圖像。
32. 如權(quán)利要求26所述的系統(tǒng),其中,所述一個或多個第一圖像是由 用戶選擇的。
33. 如權(quán)利要求26所述的系統(tǒng),其中,所述一個或多個顏色模型和所 述一個或多個顏色分布是在因特網(wǎng)上被比較的。
34. 如權(quán)利要求26所述的系統(tǒng),其中,所述一個或多個顏色模型和所 述一個或多個顏色分布是在從由以下各項構(gòu)成的組中選擇出來的計算設(shè)備 上被比較的個人計算機(jī)、膝上型計算機(jī)、數(shù)字照相機(jī)、數(shù)字?jǐn)z像機(jī)、手 持設(shè)備、iPod⑧和家庭娛樂系統(tǒng)。
35. —種捕捉和顯示設(shè)備,包括a. 接收單元,用于接收圖像數(shù)據(jù);b. 耦合到所述接收單元的顯示單元,用于顯示圖像數(shù)據(jù);以及c. 耦合到所述接收單元和所述顯示單元的程序,用于通過以下步驟來比較所述圖像數(shù)據(jù)i. 從一個或多個所選圖像生成一個或多個顏色模型;ii. 從所述一個或多個顏色模型中選擇一個或多個最優(yōu)顏色模型, 其中所述一個或多個最優(yōu)顏色模型代表所述一個或多個所選圖像中的顏 色;以及iii. 將來自所述圖像數(shù)據(jù)的一個或多個顏色分布與所述一個或多個最優(yōu)顏色模型進(jìn)行比較。
36. 如權(quán)利要求35所述的系統(tǒng),其中,所述一個或多個顏色模型是橢 圓的。
37. 如權(quán)利要求35所述的系統(tǒng),其中,所述一個或多個顏色模型是在 色相、飽和度、值顏色空間中生成的。
38. 如權(quán)利要求35所述的系統(tǒng),其中,所述捕捉和顯示設(shè)備是從由以 下各項構(gòu)成的組中選擇出來的個人計算機(jī)、膝上型計算機(jī)、數(shù)字照相 機(jī)、數(shù)字?jǐn)z像機(jī)、手持設(shè)備、iPod⑧和家庭娛樂系統(tǒng)。
全文摘要
一種基于橢圓顏色模型來對圖像分類的方法被用在若干種應(yīng)用中。從具有所關(guān)注區(qū)域的圖像集合生成一個或多個顏色模型。然后,多個圖像集合被用于訓(xùn)練。一個圖像集合具有所關(guān)注區(qū)域,另一圖像集合不具有所關(guān)注區(qū)域。通過利用這兩個圖像集合,實現(xiàn)了集合之間的最大差異,從而使得顏色模型最大程度地代表所需的對象。然后,利用最優(yōu)顏色模型,能夠搜索一組圖像,并且基于這些圖像包含所需對象的概率來檢索圖像。
文檔編號G06K9/00GK101421746SQ200780013363
公開日2009年4月29日 申請日期2007年4月2日 優(yōu)先權(quán)日2006年4月11日
發(fā)明者李平山 申請人:索尼株式會社;索尼電子有限公司