亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用攝影者身份來分類圖像的制作方法

文檔序號(hào):6567628閱讀:267來源:國知局

專利名稱::利用攝影者身份來分類圖像的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及圖像處理,更特別地涉及對在數(shù)字圖像或視頻的集合中感興趣的人的辨i人或識(shí)別。
背景技術(shù)
:隨著數(shù)字?jǐn)z影的出現(xiàn),用戶正在積聚大量的數(shù)字圖像和視頻。每個(gè)攝影者利用數(shù)字照相機(jī)拍攝的圖像的平均數(shù)量每年仍在增長。因此,對于典型用戶來說,對圖像和視頻的組織和檢索已經(jīng)是一個(gè)問題。目前,典型用戶的數(shù)字圖像集合所跨越的時(shí)間長度只有幾年。隨著平均數(shù)字圖像和視頻集合所跨越的時(shí)間長度增加,組織和檢索的問題及其復(fù)雜性將繼續(xù)增長。諸如生物測定數(shù)據(jù)之類的攝影者描述符可以在諸如數(shù)字照相機(jī)之類的圖像捕獲裝置中進(jìn)行檢測或記錄。美國專利申請公布US2003/235411A1公開了一種成像裝置,其中生物記錄裝置記錄攝影者的生物信息,并且隨后使用該信息來控制該成像裝置。美國專利No.6,433,818描述了一種具有內(nèi)置裝置的照相機(jī),該內(nèi)置裝置用于采集所測得的潛在用戶的生物測定數(shù)據(jù),把該數(shù)據(jù)與在照相機(jī)中所輸入的相應(yīng)生物測定特征數(shù)據(jù)進(jìn)行比較,并且只有當(dāng)匹配時(shí)才允許照相機(jī)操作。這一功能提供了安全性,并且防止對在照相機(jī)上存儲(chǔ)的數(shù)據(jù)的未經(jīng)授權(quán)的訪問,從而阻止偷竊。美國專利申請公布US2002/0080256A1描述了一種具有內(nèi)置裝置的數(shù)字照相機(jī),該內(nèi)置裝置用于對攝影者進(jìn)行生物測定標(biāo)識(shí),并且用于記錄圖像的攝影者的標(biāo)識(shí)。此外,該特征可被用來阻止對照相機(jī)的偷竊或盜版。優(yōu)選地,攝影者虹膜的圖像被捕獲以便確定攝影者的身份。攝影的最普遍的圖像內(nèi)容對象之一是人。此外,在數(shù)字圖像和視頻的給定集合中,某些人往往會(huì)頻繁地出現(xiàn)。例如,新父母所拍攝的大多數(shù)圖像包含他們的新生嬰兒是常見的。用戶期望具有從他們的集合中找到包含特定人的全部圖像的能力。
發(fā)明內(nèi)容本發(fā)明的目的在于利用這樣的事實(shí),即特定攝影者已經(jīng)捕獲集合中的圖像,以便在該集合中找到感興趣的對象。該目的通過一種用于在隨著時(shí)間而拍攝的數(shù)字圖像的集合中識(shí)別至少一個(gè)感興趣的特定人的方法來實(shí)現(xiàn),該方法包括提供數(shù)字圖像的所述集合,其中每幅數(shù)字圖像包含一個(gè)或多個(gè)人;在數(shù)字?jǐn)?shù)據(jù)庫中存儲(chǔ)具有與感興趣的特定人相關(guān)的一組特征的表觀模型以及感興趣的人出現(xiàn)在由特定攝影者拍攝的圖像中的先驗(yàn)概率;并且將表觀模型與從數(shù)字圖像集合的數(shù)字圖像中提取的特征進(jìn)行比較,并利用先驗(yàn)概率和表觀模型來確定感興趣的特定人是否在數(shù)字圖像集合的一幅或多幅數(shù)字圖像內(nèi)。本發(fā)明的一個(gè)優(yōu)點(diǎn)在于,當(dāng)已知的攝影者已經(jīng)拍攝了集合中的圖像時(shí),則該事實(shí)可被用來找到感興趣的圖像。因?yàn)楦信d趣的對象在一幅圖像中出現(xiàn)的可能性與攝影者的身份有關(guān),所以使得這成為可能。本發(fā)明的另一優(yōu)點(diǎn)在于,關(guān)于圖像的特定攝影者身份的知識(shí)可被用于確定所捕獲的圖像的取向以及確定圖像是在室內(nèi)還是在室外捕獲的。通過參考下面結(jié)合附圖所作的對本發(fā)明實(shí)施例的描述,本發(fā)明的上述和其它特征和目的以及實(shí)現(xiàn)它們的方式將變得更加顯而易見,并且本發(fā)明本身將被更好地理解,其中圖1是可以實(shí)施本發(fā)明的計(jì)算機(jī)系統(tǒng)的示意圖2是本發(fā)明的一個(gè)實(shí)施例的流程圖3A和3B是具有不同關(guān)聯(lián)時(shí)間的感興趣的人的表觀模型;圖4是本發(fā)明的一個(gè)實(shí)施例的更詳細(xì)的流程圖;圖5是本發(fā)明的一個(gè)可選實(shí)施例的流程圖;以及圖6A-6D說明四個(gè)不同的圖像取向。具體實(shí)施方式在下面的描述中,本發(fā)明的一些實(shí)施例將被描述為軟件程序和/或算法流程圖。本領(lǐng)域技術(shù)人員將容易認(rèn)識(shí)到,這樣的軟件的等同物也能以硬件來構(gòu)造。因?yàn)閳D像處理算法和系統(tǒng)是公知的,所以當(dāng)前的描述將特別針對形成根據(jù)本發(fā)明的方法的一部分、或者與根據(jù)本發(fā)明的方法更直接地協(xié)作的算法和系統(tǒng)。在此未被專門示出或描述的、這種算法和系統(tǒng)的其它方面以及用于產(chǎn)生并以別的方式處理隨其涉及的圖像信號(hào)的硬件和/或軟件,可以從本領(lǐng)域公知的這樣的系統(tǒng)、算法、部件和單元中進(jìn)行選擇。給定如在下面的說明書中所闡述的描述,其所有的軟件實(shí)施都是常規(guī)的,并且在這種領(lǐng)域的普通技術(shù)手段之內(nèi)。本發(fā)明能夠被實(shí)施在計(jì)算機(jī)硬件和計(jì)算機(jī)化的設(shè)備中。例如,該方法可以在數(shù)字照相機(jī)或其他數(shù)字圖像捕獲裝置、數(shù)字打印機(jī)、因特網(wǎng)服務(wù)器、信息亭和個(gè)人計(jì)算機(jī)上執(zhí)行。參考圖1,說明了一個(gè)用于實(shí)施本發(fā)明的計(jì)算機(jī)系統(tǒng)。盡管為了說明優(yōu)選實(shí)施例的目的而示出該計(jì)算機(jī)系統(tǒng),但是本發(fā)明不限于所示的計(jì)算機(jī)系統(tǒng),而是可被用于例如在數(shù)字照相機(jī)、蜂窩電話、便攜式計(jì)算裝置、家用計(jì)算機(jī)、信息亭、零散或批量的相片洗印加工中發(fā)現(xiàn)的任何電子處理系統(tǒng)上,或者被用于任何其它用于處理數(shù)字圖像的系統(tǒng)上。該計(jì)算機(jī)系統(tǒng)包括一個(gè)基于微處理器的單元20(在此也被稱為數(shù)字圖像處理器)以用于接收和處理軟件程序以及用于執(zhí)行其它處理功能。數(shù)字圖像處理器20處理來自諸如照相機(jī)、掃描儀或計(jì)算機(jī)圖像生成軟件之類的圖像捕獲裝置10的圖像。數(shù)字圖像處理器20可被用來處理數(shù)字圖像,以便通過使圖像輸出裝置產(chǎn)生一個(gè)好看的圖像的方式來對數(shù)字圖像的整體亮度、色階、圖像結(jié)構(gòu)等進(jìn)行調(diào)整。數(shù)字圖像處理器20與總控計(jì)算機(jī)40(也是一個(gè)基于微處理器的單元)連接以用于交換數(shù)據(jù)和命令??偪赜?jì)算機(jī)40和數(shù)字圖像處理器20可以是兩個(gè)不同的微處理器,或者每一個(gè)的功能可被一個(gè)單獨(dú)的物理微處理器來執(zhí)行。數(shù)字圖像處理器20常常向圖像輸出裝置30(例如打印機(jī))輸出圖像以用于顯示該圖像。顯示裝置50被電連接到數(shù)字圖像處理器20以用于顯示與該軟件有關(guān)的用戶相關(guān)信息,比如通過圖形用戶接口。鍵盤60也經(jīng)由總控計(jì)算機(jī)40被連接到基于微處理器的單元20來允許用戶向該軟件輸入信息。作為對使用鍵盤60進(jìn)行輸入的替代,鼠標(biāo)也可被用于移動(dòng)在顯示裝置50上的選擇器并選擇該選擇器置于其上的一個(gè)項(xiàng)目,這是本領(lǐng)域所^^知的。為了提供一種向總控計(jì)算機(jī)40和數(shù)字圖像處理器20輸入軟件程序和其它信息的手段,一個(gè)通常包含軟件程序的光盤只讀存儲(chǔ)器(CD-ROM)被插入總控計(jì)算機(jī)40。另外,軟盤也可以包含軟件程序,并被插入總控計(jì)算機(jī)40來輸入軟件程序。更進(jìn)一步,正如本領(lǐng)域所公知的,總控計(jì)算機(jī)40可被編程以在內(nèi)部存儲(chǔ)軟件程序??偪赜?jì)算機(jī)40可以具有到外部網(wǎng)絡(luò)(例如局域網(wǎng)或因特網(wǎng))的網(wǎng)絡(luò)連接,例如電話線或無線連接。圖像也可以經(jīng)由個(gè)人計(jì)算機(jī)卡(PC卡)被顯示于顯示裝置50上,例如,正如先前所公知的,一個(gè)包含以電子的方式體現(xiàn)在該卡中的數(shù)字化圖像的PCMCIA卡(基于個(gè)人計(jì)算機(jī)存儲(chǔ)卡國際協(xié)會(huì)的規(guī)范)。圖像輸出裝置30提供最終圖像。該輸出裝置30可以是打印機(jī)或其它提供紙張或其它硬拷貝的最終圖像的輸出裝置。該輸出裝置30也可以是提供作為數(shù)字文件的最終圖像的輸出裝置。圖像輸出裝置30也可以包括輸出(例如打印的圖像和存儲(chǔ)單元(比如CD或DVD)上的數(shù)字文件)的組合。數(shù)字圖像和其他數(shù)據(jù)被存儲(chǔ)在諸如外部硬盤驅(qū)動(dòng)器、閃存介質(zhì)、對CD-ROM或DVD介質(zhì)進(jìn)行寫入的驅(qū)動(dòng)器等等之類的離線存儲(chǔ)器裝置70上。一幅數(shù)字圖像包含一個(gè)或多個(gè)數(shù)字圖像通道或顏色分量。每個(gè)數(shù)字圖像通道都是像素的一個(gè)二維陣列。每個(gè)像素值涉及由成像捕獲裝置接收到的與像素的物理區(qū)域相對應(yīng)的光量。對于彩色成像應(yīng)用,一幅數(shù)字圖像通常將由紅色、綠色和藍(lán)色數(shù)字圖像通道組成。運(yùn)動(dòng)成像應(yīng)用可以被認(rèn)為是數(shù)字圖像的序列。本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,本發(fā)明可被應(yīng)用于(但不限于)任何這里提到的應(yīng)用的數(shù)字圖像通道。雖然數(shù)字圖像通道被描述為以行和列排列的像素值的二維陣列,但是本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,本發(fā)明可被應(yīng)用于具有同等效果的非直線陣列。本領(lǐng)域技術(shù)人員還將認(rèn)識(shí)到,下文描述為用處理后的像素值代替原始像素值的數(shù)字圖像處理步驟在功能上等同于,把相同的處理步驟描述為用處理后的像素值生成新的數(shù)字圖像,同時(shí)保留原始像素值。應(yīng)當(dāng)注意,本發(fā)明可在軟件和/或^e更件的組合中實(shí)施,并且不限于物理連接的和/或位于相同的物理位置內(nèi)的裝置。圖1所示的一個(gè)或多個(gè)裝置可以位于遠(yuǎn)方并可經(jīng)由網(wǎng)絡(luò)連接。一個(gè)或多個(gè)裝置可以直接或經(jīng)由網(wǎng)絡(luò)無線連4妄,例如通過射頻鏈^各。本發(fā)明可以被用于各種用戶背景和環(huán)境中。示例'性的背景和環(huán)境包括但不限于批量數(shù)字相片洗印加工(其包括諸如拍攝、數(shù)字處理、打印輸出之類的示例性處理步驟或階段)、零散數(shù)字相片洗印加工(拍攝、數(shù)字處理、打印輸出)、家庭打印(家用掃描膠片或數(shù)字圖像、數(shù)字處理、打印輸出)、桌面軟件(對數(shù)字印刷品應(yīng)用算法以使其更好或甚至僅使其改變的軟件)、數(shù)字實(shí)現(xiàn)(來自介質(zhì)或經(jīng)由web的數(shù)字圖像輸入,數(shù)字處理,在介質(zhì)上以數(shù)字形式、經(jīng)由web以數(shù)字形式、或者在硬拷貝印刷品上打印的圖像輸出)、信息亭(數(shù)字或掃描輸入、數(shù)字處理、數(shù)字或硬拷貝輸出)、移動(dòng)裝置(例如可用作處理單元、顯示單元、或給出處理指令的單元的PDA或蜂窩電話)、以及作為通過萬維網(wǎng)提供的服務(wù)。在所有情況下,本發(fā)明可以是獨(dú)立的,或者可以是一個(gè)更大的系統(tǒng)解決方案的一個(gè)部件。而且,人機(jī)接口(例如掃描或輸入,數(shù)字處理,對用戶的顯示(如果需要的話),用戶請求或處理指令的輸入(如果需要的話),輸出)均可處于相同或不同的裝置和物理位置上,并且這些裝置和位置之間的通信可以經(jīng)由公共或?qū)S玫木W(wǎng)絡(luò)連接,或者是基于介質(zhì)的通信。在與本發(fā)明的前述公開相一致的情況下,本發(fā)明的方法可以是全自動(dòng)的,可以具有用戶輸入(全部或部分手動(dòng)),可以具有用戶或操作者的檢查來接收或拒絕結(jié)果,或者可以由元數(shù)據(jù)(可以由用戶提供的、由測量裝置(例如在照相機(jī)中)提供的、或者由算法確定的元數(shù)據(jù))加以輔助。此外,所述算法可以與多種工作流用戶接口方案相連。本發(fā)明包含在此描述的實(shí)施例的組合。提到"一個(gè)特定實(shí)施例"等等是指存在于本發(fā)明的至少一個(gè)實(shí)施例中的特征。單獨(dú)提到"一個(gè)實(shí)施例"或"特定實(shí)施例"等等不一定是指相同的一個(gè)或多個(gè)實(shí)施例;然而,這樣的實(shí)施例不是互斥的,除非被指明如此或者對本領(lǐng)域技術(shù)人員來說顯然如此。在圖2中說明該方法的第一實(shí)施例。分析數(shù)字圖像和視頻集合104以識(shí)別其中的人的身份。對數(shù)字圖像或^L頻104的集合中的人的識(shí)別允許建立一個(gè)數(shù)據(jù)庫120,該數(shù)據(jù)庫使數(shù)字圖像或視頻104和在數(shù)字圖像或視頻104中的人的身份相關(guān)。因此,可以查詢數(shù)據(jù)庫120,以找到那些包含所查詢的感興趣的人的圖像和浮見頻。數(shù)據(jù)庫120可以采取任何形式。例如通過把個(gè)人分類118插入到數(shù)字圖像或視頻104的文件頭中,數(shù)據(jù)庫120可以分布在許多文件上。例如,一個(gè)對"Jim"的圖像的查詢122返回包含一組含有感興趣的人"Jim"的數(shù)字圖像或視頻104的查詢結(jié)果124。接著查詢結(jié)果124可以被返回。查詢結(jié)果124是一組含有所查詢的感興趣的人的數(shù)字圖像或視頻104。查詢結(jié)果124的數(shù)字圖像和視頻104可以被顯示在如圖1所示的顯示裝置50上以供用戶檢查。在該系統(tǒng)中,數(shù)字圖像或視頻104被傳送到捕獲信息提取器108。捕獲信息提取器108確定與集合的數(shù)字圖像和視頻104的捕獲有關(guān)的捕獲信息112,并輸出所得到的信息,其中與特定數(shù)字圖像或視頻104有關(guān)的捕獲信息112與該特定數(shù)字圖像或視頻104相關(guān)聯(lián)。捕獲信息112可以是捕獲特定數(shù)字圖像或視頻104的時(shí)間、捕獲圖像或視頻的位置、焦距、對象距離、像素的行和列的數(shù)目、放大倍數(shù)、是否開啟了閃光燈、是否激活了自拍器等。特定圖像或視頻104的捕獲信息112由捕獲信息提取器108通過幾種方法中的一種來確定。時(shí)常地,捕獲信息112被嵌入數(shù)字圖像或視頻104的文件頭中。例如,EXIF圖像格式(描述于www.exif.org)允許圖像或視頻捕獲裝置在文件頭中存儲(chǔ)與該圖像或視頻相關(guān)聯(lián)的信息。"日期\時(shí)間"條目與圖像被捕獲的日期和時(shí)間相關(guān)聯(lián)。在一些情況下,數(shù)字圖像或視頻由掃描膠片產(chǎn)生,并且圖像捕獲時(shí)間通過對打印在圖像區(qū)域(通常在圖像的左下角)中的日期(在捕獲時(shí)常常這樣做)的檢測來確定。一幅照片被打印的日期常常被打印在打印材料的背面??蛇x擇地,一些膠片系統(tǒng)在膠片上含有磁性層來存儲(chǔ)諸如捕獲日期之類的信息。捕獲信息提取器108使用最適當(dāng)?shù)姆椒▉硖崛D像的捕獲信息112。優(yōu)選地,數(shù)字圖像和視頻的來源是數(shù)字照相機(jī),并且捕獲信息提取器108從圖像文件信息中提取捕獲信息。攝影者確定器138還對該集合的圖像和視頻進(jìn)行分析,以便確定每幅圖像和視頻的特定攝影者的身份。當(dāng)使用EXIF文件格式時(shí),攝影者的身份例如可以被存儲(chǔ)在"照相機(jī)所有者"、"圖像創(chuàng)建者"、"攝影者"或"版權(quán),,標(biāo)簽中。圖像或視頻的攝影者的身份可以在捕獲視頻之前、期間或之后被手動(dòng)輸入。此外,已經(jīng)描述了包含下述裝置的幾種照相機(jī)(例如在美國專利申請公布US2002/0080256A1中),所述裝置用于從攝影者提取生物測定信息,識(shí)別攝影者,并且然后利用攝影者的身份來對圖像作注釋。無論如何,攝影者確定器138發(fā)現(xiàn)攝影者132的身份,并將該信息傳送給個(gè)人識(shí)別分類器114。在一些情況下,攝影者132可能無法被攝影者確定器138識(shí)別。在這種情況下,攝影者U2是"未知的,,。例如,當(dāng)擁有照相機(jī)的人正在度假并且要求陌生人利用她的(正度假的照相機(jī)所有者)照相機(jī)在標(biāo)志性建筑的前面捕獲她的圖像時(shí),可能會(huì)出現(xiàn)這種情況。諸如在美國專利申請US2002/0080256A1中描述的照相機(jī)只能可行地識(shí)別來自潛在照相機(jī)用戶的小集合(例如主要用戶可能是照相機(jī)所有者,而次要用戶是照相機(jī)所有者的朋友和家人)的攝影者,所述潛在照相機(jī)用戶的筒檔是照相機(jī)已知的。在這種情況下,陌生人利用照相機(jī)所捕獲的圖像將被攝影者確定器138簡單地識(shí)別為"未知的"攝影者132。圖像捕獲時(shí)間可以被包含在捕獲信息112中,并且可以在時(shí)間上精確到分鐘,例如2004年3月27日10:17AM?;蛘邎D像捕荻時(shí)間可以不大精確,例如2004年或2004年3月。圖像捕獲時(shí)間可以采取概率分布函數(shù)的形式,例如具有95。/。的置信度的2004年3月27日+/-2天。圖像捕獲時(shí)間被輸入到個(gè)人識(shí)別分類器14。個(gè)人查找器(finder)106識(shí)別在數(shù)字視頻或數(shù)字圖像中的一個(gè)或多個(gè)人。優(yōu)選地,人通過面部檢測被找到。檢測人臉的方法在數(shù)字圖像處理的領(lǐng)域中是公知的。例如,一種用于找到圖像中的人臉的面部檢測方法在下列文章中被描述Jones,MJ.;Viola,P.,"FastMulti-viewFaceDetection",IEEEConferenceonComputerVisionandPatternRecognition(CVPR),June2003。而且,一旦面部被檢測出來,面部特征(例如眼睛、鼻子、嘴等)也可以使用公知的方法來定位,例如由Yuille等人在"FeatureExtractionfromFacesUsingDeformableTemplates",Int.JournalofComp.Vis.,Vol.8,Iss.2,1992,pp.99-111中所描述的方法。作者描述了一種使用具有模板匹配的能量最小化來定位嘴、眼睛和虹膜/鞏膜邊界的方法。面部特^正也可以1吏用由T.F.Cootes和C.J.Taylor的"ConstrainedActiveAppearanceModels",8thInternationalConferenceonComputerVision,volume1,pages748-754.IEEEComputerSocietyPress,July2001描述的主動(dòng)表觀模型來找到。可選擇地,也可以4吏用不同的面部特征。例如,一個(gè)實(shí)施例可以基于由M.Turk和A.Pentland在"EigenfacesforRecognition"JournalofCognitiveNeuroscience.Vol3,No.1.71-86,1991中描述的面部相似性量度。通過把面部的圖像投影到一組描述面部表觀的可變性的主成分函數(shù)來獲得面部描述符。任何兩張臉之間的相似性通過計(jì)算把每張臉投影到相同的一組函數(shù)所獲得的多個(gè)特征的歐氏距離來測量。在這種情況下,表觀模型可描述同一張臉的多幅圖像在這些主成分函數(shù)上的投影的均值和協(xié)方差。相似性量度(例如通過圖4的比較器140來計(jì)算)可以計(jì)算一張新臉到該模型的均值的Mahalonobis距離。表觀才莫型和相似性測量可以包括諸如本征臉、面部測量、顏色/紋理信息、小波特征等之類的幾個(gè)不同特征類型的組合。個(gè)人查找器106輸出作為被個(gè)人查找器106檢測到的人的定量描述的個(gè)人特征IIO。優(yōu)選地,個(gè)人查找器106為每個(gè)被檢測到的人輸出一組個(gè)人特征IIO。優(yōu)選地,個(gè)人特征是與特定面部特征相關(guān)聯(lián)的82個(gè)特征點(diǎn)的位置,這是使用與前述Cootes等人的主動(dòng)表觀模型類似的方法找到的。一幅面部圖像的面部特征點(diǎn)的可視表示作為說明被示出在圖3A和3B中??蛇x擇地,個(gè)人特征110可以另外利用諸如眼睛顏色、皮膚顏色、臉型等之類的可定量描述符來表示。個(gè)人特征IIO也可以是特定特征點(diǎn)之間的距離或者由連接各組特定特征點(diǎn)的線形成的角。一旦人和面部特征被個(gè)人查找器106定位,顏色提示就容易地從數(shù)字圖像或視頻104中被提取出來。個(gè)人特征IIO被輸入到個(gè)人識(shí)別分類器114。M個(gè)感興趣的人的表觀模型集合116,-116m從所存儲(chǔ)的數(shù)字?jǐn)?shù)據(jù)庫被輸入到個(gè)人識(shí)別分類器114,以確定被個(gè)人查找器106檢測到并用個(gè)人特征110表示的每個(gè)人的身份。表觀模型116廣116M包含與感興趣的特定人相關(guān)聯(lián)的一組特征。感興趣的個(gè)人的每個(gè)表觀模型包括多個(gè)子模型,例如描述感興趣的人在不同年齡的表觀的模型,正如在上面引用的同時(shí)待審的申請即順序號(hào)為11/116,729的美國專利申請中所述的那樣。或者,子模型可以描述具有不同表觀的感興趣的人的表觀(例如一個(gè)子模型表示感興趣的人具有臉毛的表觀,另一個(gè)子模型表示感興趣的人沒有臉毛的表觀)。表觀模型將在下面被更詳細(xì)地討論。感興趣的人是對在數(shù)字圖像和視頻104的集合中進(jìn)行識(shí)別來說重要的人。例如,在一個(gè)有小孩的家庭中,每個(gè)孩子都可能會(huì)是感興趣的人,因?yàn)閷τ诩议L來說,識(shí)別在數(shù)字媒體集合的每個(gè)照片和視頻104中各個(gè)孩子的出現(xiàn)將是有用的和有價(jià)值的。作為主要攝影者的前述照相機(jī)所有者可以是可作為任何次要攝影者(即照相機(jī)所有者的朋友和家人)的感興趣的人。個(gè)人識(shí)別分類器114的目的是使用表觀模型116廣116M、圖像捕荻信息112和個(gè)人特征110中的一個(gè)或多個(gè)來確定由個(gè)人查找器106檢測到的人是否就是感興趣的特定人。這通過將檢測到的人的個(gè)人特征110與感興趣的特定人的表觀模型116的特征進(jìn)行比較來實(shí)現(xiàn)。個(gè)人識(shí)別分類器114輸出個(gè)人分類118。典型地,當(dāng)與檢測到的人相關(guān)聯(lián)的個(gè)人特征110類似于與感興趣的特定人m相關(guān)聯(lián)的表觀模型116m時(shí),個(gè)體識(shí)別分類器輸出由個(gè)人查找器106檢測到的人是感興趣的特定人m的高概率。優(yōu)選地,個(gè)人分類118是個(gè)人查找器106檢測到的人正是感興趣的人的可能性(概率)。個(gè)人分類118可以是二進(jìn)制指示符(例如真或假),其指示該分類器對與個(gè)人特征110相關(guān)聯(lián)的人是否就是感興趣的人的判定。通過對在集合的每個(gè)數(shù)字圖像或視頻104中檢測到的每個(gè)人重復(fù)應(yīng)用個(gè)人識(shí)別分類器U4,所有被個(gè)人查找器106檢測到的人都被按照各自正是感興趣的特定人的可能性進(jìn)行分類。個(gè)人分類118然后可以與包含檢測到的人的數(shù)字圖像或視頻相關(guān)聯(lián)。例如,在數(shù)據(jù)庫120中圖像可以被標(biāo)記或者注釋為包含感興趣的人"Mary"。此外,個(gè)人分類118信息可以與個(gè)人特征110相關(guān)聯(lián)。此外,圖像還可以利用由個(gè)人查找器106檢測到的人在數(shù)字圖像或視頻內(nèi)的位置來標(biāo)記,其中所述檢測到的人被個(gè)人識(shí)別分類器114確定為感興趣的人。此外,個(gè)人分類118的可能性或概率也可以被添加到數(shù)據(jù)庫120的注釋中。當(dāng)對包含感興趣的特定人的數(shù)字圖像或視頻104進(jìn)行查詢122時(shí),搜索數(shù)據(jù)庫120,并且將適當(dāng)?shù)牟樵兘Y(jié)果124通過諸如圖1的顯示裝置50之類的用戶接口返回給用戶。個(gè)人識(shí)別分類器如下使用攝影者132信息當(dāng)圖像捕獲信息112表明照相機(jī)的自拍器被用來捕獲特定圖像或視頻時(shí),那么個(gè)人識(shí)別分類器114輸出個(gè)人分類118,所述個(gè)人分類U8表明數(shù)字圖像或視頻104包含攝影者132的高的可能性(概率)。例如,該概率在0.75至1.0的范圍內(nèi),這取決于特定攝影者132。這由下述事實(shí)引起,在大多數(shù)時(shí)間,照相機(jī)自拍器被用來提供這樣的時(shí)間,即允許攝影者132激活照相機(jī),然后奔跑以便被包括在由照相機(jī)在特定數(shù)字圖像或視頻104中所捕獲的場景中。同樣,當(dāng)圖像捕獲信息112表明照相機(jī)的圖像或視頻捕獲經(jīng)由遠(yuǎn)程控制被激活時(shí),那么個(gè)人識(shí)別分類器114輸出個(gè)人分類118,所述個(gè)人分類118表明數(shù)字圖像或視頻104包含攝影者132的中等可能性(概率)。這由下述事實(shí)引起,時(shí)常地,利用遠(yuǎn)程控制來激活照相機(jī)的圖像或視頻捕獲,以便提供這樣的時(shí)間,即允許攝影者132處于由照相機(jī)在特定數(shù)字圖像或視頻104中所捕獲的場景中。然而,照相機(jī)捕獲程序的遠(yuǎn)程激活還可以被用來避免使照相機(jī)抖動(dòng)。為此,與表明攝影者132位于數(shù)字圖像或視頻104中的個(gè)人分類118相關(guān)聯(lián)的概率在0.5至0.9的范圍內(nèi),這取決于特定攝影者132。圖4示出個(gè)人識(shí)別分類器114的更詳細(xì)的視圖。對于由個(gè)人查找器]06所提取的每組個(gè)人特征110,比較器140都將所述個(gè)人特征110與表示M個(gè)感興趣的個(gè)人的M個(gè)表觀才莫型116i-M的每一個(gè)進(jìn)行比較,并輸出M個(gè)分?jǐn)?shù)的分?jǐn)?shù)集合142,所述分?jǐn)?shù)表明由個(gè)人查找器找到的特定人是第m個(gè)感興趣的人的可能性或概率。比較器140例如可以計(jì)算在個(gè)人特征110和M個(gè)表觀模型中每一個(gè)之間的歐氏距離。或者,比較器140可以計(jì)算距M個(gè)表觀模型的每一個(gè)的Mahalanobis距離,以便產(chǎn)生分?jǐn)?shù)集合142。此外,比較器140可以是任何分類器,例如但不限于高斯最大似然、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等等。優(yōu)選地,分?jǐn)?shù)集合142的第m個(gè)條目表明與該組個(gè)人特征110相對應(yīng)的特定面部是第m個(gè)感興趣的人的概率。分?jǐn)?shù)集合142被傳送給分?jǐn)?shù)調(diào)節(jié)器144,以便根據(jù)與攝影者132和捕獲信息112有關(guān)的信息來調(diào)節(jié)分?jǐn)?shù),產(chǎn)生調(diào)節(jié)后的分?jǐn)?shù)集合。分?jǐn)?shù)調(diào)節(jié)器144考慮到分?jǐn)?shù)集合的可能性或概率,并且如下改進(jìn)分?jǐn)?shù)。根據(jù)捕獲信息U2來調(diào)節(jié)分?jǐn)?shù)集合142中的分?jǐn)?shù)。當(dāng)捕獲信息112表明自拍器標(biāo)志被用來捕獲數(shù)字圖像或視頻104時(shí),那么如果第m個(gè)人是數(shù)字圖像或視頻104的攝影者132,則增加第m個(gè)感興趣的人的分?jǐn)?shù)。以這種方式,當(dāng)自拍器被用來捕獲數(shù)字圖像或視頻104時(shí),分?jǐn)?shù)調(diào)節(jié)器144考慮攝影者132出現(xiàn)在數(shù)字圖像或視頻104中的先驗(yàn)概率(即事件A的先驗(yàn)概率是在沒有任何其他數(shù)據(jù)的情況下A出現(xiàn)的概率)。同樣,當(dāng)捕獲信息112表明數(shù)字圖像或視頻104是利用激活照相機(jī)的捕獲機(jī)構(gòu)的遠(yuǎn)程信號(hào)被捕獲的時(shí),那么如果第m個(gè)人是數(shù)字圖像或視頻104的攝影者132,則增加第m個(gè)感興趣的人的分?jǐn)?shù)。分?jǐn)?shù)調(diào)節(jié)器144輸出由個(gè)人查找器106檢測到的人的個(gè)人分類118。個(gè)人分類118可以是由分?jǐn)?shù)調(diào)節(jié)器144進(jìn)行調(diào)節(jié)之后的分?jǐn)?shù)集合142?;蛘?,假如分?jǐn)?shù)大于閾值TO,則個(gè)人分類118可以是在調(diào)節(jié)后的分?jǐn)?shù)集合中具有最高相應(yīng)分?jǐn)?shù)的感興趣的人的身份。在概念上,為了產(chǎn)生個(gè)人分類118,個(gè)人識(shí)別分類器114優(yōu)選地計(jì)P(x=m|f),即在給定個(gè)人特征110f的證據(jù)的情況下由個(gè)人查找器106檢測到的人是人m的概率。按照貝葉斯法則,對m個(gè)感興趣的人的每一個(gè)都可以利用下述公式來計(jì)算該量P(x=m|f)=P(f|x=m)P(x=m)/P(f)項(xiàng)P(fIx=m)是在已知所述人是第m個(gè)感興趣的人時(shí)個(gè)人特征f的觀測概率。這可以通過考慮第m個(gè)感興趣的人的表觀模型ll6來得到,其中所述表觀模型116描述了第m個(gè)感興趣的人的表觀的變化。項(xiàng)P(x=m)是先驗(yàn)概率,并且是圖像或視頻中的人是感興趣的人m的概率。先驗(yàn)概率作為攝影者132的身份的函數(shù)來變化。例如,妻子和丈夫共享一部照相機(jī)。在妻子是攝影者的圖像中所出現(xiàn)的人中,60%是嬰兒,20%是丈夫,以及20%是其他。當(dāng)丈夫是攝影者時(shí),照片中所出現(xiàn)的人的40%是嬰兒,20%是妻子,5%是丈夫,以及35%是其他。因此,當(dāng)個(gè)人識(shí)別分類器U4知道攝影者132的身份時(shí),與該攝影者132相關(guān)聯(lián)的攝影者內(nèi)容簡檔130可以由分?jǐn)?shù)調(diào)節(jié)器144用來以適當(dāng)?shù)姆绞秸_地調(diào)節(jié)分?jǐn)?shù)集合142。在該優(yōu)選實(shí)施例中,攝影者內(nèi)容簡檔130包含感興趣的人出現(xiàn)在特定攝影者的圖像和視頻中的先驗(yàn)概率。優(yōu)選地,分?jǐn)?shù)集合142包含概率P(flx-m),并且分?jǐn)?shù)調(diào)節(jié)器144通過利用在攝影者內(nèi)容簡檔130中規(guī)定的先驗(yàn)概率P(x二m)進(jìn)行乘法加權(quán)來調(diào)節(jié)分?jǐn)?shù)。攝影者捕獲的圖像i視頻集合^的人的身份來生成的。然后',計(jì)算先驗(yàn)概率并將其存儲(chǔ)在攝影者內(nèi)容簡檔130中。先驗(yàn)概率可以考慮捕獲信息112。例如,攝影者132具有一組先驗(yàn)概率和第二組先驗(yàn)概率,所述第一組先驗(yàn)概率描述了當(dāng)捕獲信息112表明自拍器功能開啟時(shí)一個(gè)人是第m個(gè)感興趣的人的概率,所述第二組先驗(yàn)概率描述了當(dāng)捕獲信息112表明自拍器功能關(guān)閉時(shí)一個(gè)人是第m個(gè)感興趣的人的概率。例如,下表給出了圖像或視頻中的給定人對于兩個(gè)不同攝影者以及當(dāng)自拍器功能關(guān)閉和開啟時(shí)是第m個(gè)感興趣的人的先驗(yàn)概率。<table>tableseeoriginaldocumentpage15</column></row><table>因此,數(shù)字圖像或視頻104的攝影者132連同與數(shù)字圖像或視頻104有關(guān)的捕獲信息112—起被識(shí)別。與攝影者132相對應(yīng)的攝影者內(nèi)容簡檔130被用來確定數(shù)字圖像或視頻104中的人的身份。圖5示出一個(gè)利用攝影者132的身份來識(shí)別數(shù)字圖像或視頻104內(nèi)的對象或分類數(shù)字圖像或視頻本身的可選實(shí)施例。來自集合的數(shù)字圖像或視頻104被傳送給特征提取器152以便提取特征160,所述特征被傳送給對象分類器164。另外,感興趣的對象117hM的表觀模型被傳送給對象分類器。比較器140將從圖像或視頻中提取的特征160與感興趣的對象117i-M的表觀模型進(jìn)行比較,從而產(chǎn)生分?jǐn)?shù)集合142。優(yōu)選地,分?jǐn)?shù)集合142包括特征160與感興趣的特定對象m有關(guān)的概率。攝影者132的身份和捕荻信息112被傳送給分?jǐn)?shù)調(diào)節(jié)器144。分?jǐn)?shù)調(diào)節(jié)器144加載攝影者內(nèi)容簡檔130,所述攝影者內(nèi)容簡檔130描述了特定對象m處于圖像或視頻中的先驗(yàn)概率,并且相應(yīng)地調(diào)節(jié)分?jǐn)?shù)集合142以便產(chǎn)生調(diào)節(jié)后的分?jǐn)?shù)集合,從而生成分類118,所述分類118被存儲(chǔ)在數(shù)據(jù)庫120中,以備如前所述的查詢??蛇x擇地,攝影者內(nèi)容筒檔130描述了圖像是感興趣的對象的先驗(yàn)概率。與攝影者132相關(guān)聯(lián)的攝影者內(nèi)容簡檔130描述了圖像表示感興趣的對象的概率。例如,對象分類器164可以具有確定圖像是"室內(nèi)的"還是"室外的"圖像的目標(biāo)。然而,不同的攝影者捕獲了其室內(nèi)與室外圖像的不同比例。例如,攝影者0捕獲30%的室內(nèi)圖像和70%的室外圖像,而攝影者1捕獲30%的室內(nèi)圖像和70%的室外圖像。該信息由與攝影者132的身份相對應(yīng)的攝影者內(nèi)容簡檔130來提供。因此,關(guān)于特定攝影者的先驗(yàn)概率的知識(shí)允許分?jǐn)?shù)調(diào)節(jié)器144充分地考慮先驗(yàn)概率并改善對象分類器164的綜合性能。該實(shí)例中的對象分類器164將圖像的狀態(tài)分類為室內(nèi)或室外圖像。其他對象分類器164可被用來確定圖像是自然場景還是人工場景。此外,對象分類器164可被用來確定圖像是日落圖像或者不是日落圖像。對象分類器164還可以被用來查找圖像內(nèi)的特定對象。例如,個(gè)人識(shí)別分類器U4是被用來識(shí)別場景內(nèi)的各個(gè)對象的對象分類器的一個(gè)實(shí)例。在另一個(gè)實(shí)施例中,對象分類器164被用來檢測紅眼缺陷的存在(其在單幅圖像中可能發(fā)生0次、l次或者多次)。對象分類器164確定圖像是否表示感興趣的對象。此外,除攝影者132的身份之外,攝影者內(nèi)容簡檔130還可以依賴于捕獲信息112。例如,下表是攝影者內(nèi)容筒檔130,并且示出基于在捕獲信息112中包含的圖像捕獲的月份由給定攝影者捕獲的給定圖像或視頻是"室內(nèi)的"或者"室外的"的概率。在這種情況下,"室內(nèi)的"和"室外的"是這樣的感興趣對象,其利用由對象分類器164用來將圖像分類為室內(nèi)圖像或室外圖像的表觀模型來描述。<table>tableseeoriginaldocumentpage16</column></row><table>攝影者內(nèi)容簡檔130已經(jīng)顯示出包括單個(gè)圖像或視頻的分類的先驗(yàn)概率信息。另外,假定先前的圖像例如是室外的,那么攝影者內(nèi)容簡檔130可以包含與特定圖像(或視頻)是室外的概率有關(guān)的信息。該信息可以被存儲(chǔ)為狀態(tài)轉(zhuǎn)移矩陣,正如在馬爾可夫鏈和隱藏馬爾可夫模型的研究中通常所用的那樣。因?yàn)闋顟B(tài)轉(zhuǎn)移矩陣與攝影者的照相行為有關(guān),所以狀態(tài)轉(zhuǎn)移矩陣依賴于攝影者的身份識(shí)別。例如,攝影者2的狀態(tài)轉(zhuǎn)移矩陣對于攝影者2而言,圖像或視頻n+l是下述的概率<table>tableseeoriginaldocumentpage17</column></row><table>一旦校正的攝影者內(nèi)容簡檔130是已知的,則隱藏馬爾可夫模型就可以連同狀態(tài)轉(zhuǎn)移矩陣一起被用來確定圖像的狀態(tài)(在這種情況下,確定圖像是室內(nèi)的還是室外的。)捕獲信息112和攝影者132的身份被用來選擇正確的攝影者內(nèi)容簡檔130,從而輸入到對象分類器164中。在另一個(gè)實(shí)施例中,知道攝影者的身份還允許更精確的圖像取向檢測。通常,矩形圖像以四種可能的觀察取向來適當(dāng)?shù)赜^察。Luo在美國專利申請公布US2003/0152289A1中教導(dǎo)了這樣一種方法基于語義對象和場景布局檢測并且采用估計(jì)圖像取向的判優(yōu)方法,自動(dòng)地確定對于圖像而言這四個(gè)取向中的哪一個(gè)是正確的。水平、垂直1、垂直2和倒置水平的先驗(yàn)概率被記錄為70%-14%-14%-2%。圖6A示出圖像以橫向取向的實(shí)例。圖6B-6D示出分別具有垂直l、垂直2和倒置水平的取向的圖像。通常,攝影者捕獲水平取向的橫向場景(即攝影者在拍攝場景時(shí)很少使照相機(jī)倒置)。然而,對于具有高度大于寬度的寬高比的垂直或縱向場景而言,存在兩種可能的照相機(jī)取向。大多數(shù)攝影者僅利用這些位置之一來拍攝"垂直的,,照片。知道攝影者的身份確定了攝影者的個(gè)人行為,因此改善了其在確定圖像取向時(shí)的性能。以下示出示例的取向概率與攝影者矩陣(圖5的攝影者概率筒檔130):<table>tableseeoriginaldocumentpage18</column></row><table>已改善的圖像取向確定性能改善了隨后的利用了取向的先驗(yàn)知識(shí)的圖像理解算法的性能。關(guān)于其他攝影者的特定捕獲特性(場景的類型、照相機(jī)設(shè)置、捕獲的典型位置和時(shí)間)的知識(shí)提供了這樣的附加信息,其可以改善隨后的圖像增強(qiáng)、圖像組織以及圖像管理算法的性能。例如,知道攝影者是否不具有穩(wěn)定的手(導(dǎo)致在圖像捕獲期間過度的照相機(jī)運(yùn)動(dòng))可以向隨后的圖像增強(qiáng)算法發(fā)信通知以便更積極地校正圖像的模糊。又一個(gè)實(shí)例是,如果攝影者趨向于不保持照相機(jī)與地平線相齊,則知道攝影者的身份可以向圖像增強(qiáng)算法發(fā)信通知使圖像水平。附圖標(biāo)記列表10圖像捕獲裝置20基于微處理器的單元(aka數(shù)字圖像處理器)30圖像輸出裝置40總控計(jì)算機(jī)50顯示裝置60鍵盤70離線存儲(chǔ)器裝置104數(shù)字圖像或視頻106個(gè)人查找器108信息提取器110個(gè)人特征112捕獲信息U4個(gè)人識(shí)別分類器116感興趣的人的表觀沖莫型117感興趣的對象118個(gè)人分類120數(shù)據(jù)庫122查詢或已查詢124查詢結(jié)果130攝影者內(nèi)容筒檔132攝影者138攝影者確定器140比較器142分?jǐn)?shù)集合144分?jǐn)?shù)調(diào)節(jié)器160特征164對象分類器權(quán)利要求1.一種在隨著時(shí)間而拍攝的數(shù)字圖像的集合中識(shí)別至少一個(gè)感興趣的特定人的方法,包括提供數(shù)字圖像的所述集合,其中每幅數(shù)字圖像包含一個(gè)或多個(gè)人;在數(shù)字?jǐn)?shù)據(jù)庫中存儲(chǔ)具有一組與所述感興趣的特定人相關(guān)聯(lián)的特征的表觀模型以及所述感興趣的人出現(xiàn)在由特定攝影者拍攝的圖像中的先驗(yàn)概率;并且將表觀模型與從數(shù)字圖像的所述集合的數(shù)字圖像中提取的特征進(jìn)行比較,并利用先驗(yàn)概率和表觀模型來確定所述感興趣的特定人是否在數(shù)字圖像的所述集合的一幅或多幅數(shù)字圖像內(nèi)。2.權(quán)利要求1所述的方法,其中,所述感興趣的特定人是攝影者,并且還包括提供與特定攝影者所使用的照相機(jī)設(shè)置有關(guān)的圖像捕獲信息來改變特定攝影者在數(shù)字圖像的所述集合內(nèi)的先驗(yàn)概率。3.權(quán)利要求2所述的方法,其中,所述圖像捕獲信息還包括照相機(jī)自拍器的模式。4.權(quán)利要求3所述的方法,其中,當(dāng)感興趣的人是攝影者并且照相機(jī)自拍器的模式開啟時(shí),增加所述先驗(yàn)概率。5.權(quán)利要求3所迷的方法,其中,當(dāng)感興趣的人是攝影者并且照相機(jī)自拍器的模式關(guān)閉時(shí),降低所述先驗(yàn)概率。6.權(quán)利要求3所述的方法,其中,當(dāng)感興趣的人不同于特定攝影者時(shí),增加所述先驗(yàn)概率。7.—種分類圖像的方法,包括提供由特定攝影者所拍攝的數(shù)字圖像的集合;在數(shù)字?jǐn)?shù)據(jù)庫中存儲(chǔ)具有一組與感興趣的對象相關(guān)聯(lián)的特征的表觀模型;提供與所述攝影者相關(guān)聯(lián)的攝影者內(nèi)容筒檔,所述攝影者內(nèi)容簡檔描述了圖像表示感興趣的對象的概率;并且利用表觀模型和攝影者內(nèi)容簡檔來分類所述集合中的數(shù)字圖像。8.權(quán)利要求7所述的方法,還包括提供與特定攝影者所使用的照相機(jī)設(shè)置有關(guān)的圖像捕獲信息。9.權(quán)利要求7所述的方法,其中,所述攝影者內(nèi)容簡檔包括與攝影者所拍攝的數(shù)字圖像的數(shù)字圖像取向的分布有關(guān)的信息。10.權(quán)利要求9所述的方法,其中,感興趣的數(shù)字圖像中的圖像內(nèi)容和攝影者內(nèi)容簡檔被用來確定感興趣的數(shù)字圖像的取向。11.權(quán)利要求7所述的方法,其中,所述攝影者內(nèi)容簡檔包括與在攝影者進(jìn)行拍攝時(shí)數(shù)字圖像是在室內(nèi)還是在室外被捕獲的分布有關(guān)的信息。12.權(quán)利要求ll所述的方法,其中,感興趣的數(shù)字圖像中的圖像內(nèi)容和攝影者內(nèi)容簡檔被用來確定感興趣的數(shù)字圖像是室內(nèi)的圖像還是室外的圖像。全文摘要一種在隨著時(shí)間而拍攝的數(shù)字圖像的集合中識(shí)別至少一個(gè)感興趣的特定人的方法包括提供數(shù)字圖像的所述集合,其中每幅數(shù)字圖像包含一個(gè)或多個(gè)人;在數(shù)字?jǐn)?shù)據(jù)庫中存儲(chǔ)具有一組與感興趣的特定人相關(guān)聯(lián)的特征的表觀模型以及感興趣的人出現(xiàn)在由特定攝影者拍攝的圖像中的先驗(yàn)概率;并且將表觀模型與從數(shù)字圖像的所述集合的數(shù)字圖像中提取的特征進(jìn)行比較,并利用先驗(yàn)概率和表觀模型來確定感興趣的特定人是否在數(shù)字圖像的所述集合的一幅或多幅數(shù)字圖像內(nèi)。文檔編號(hào)G06K9/00GK101189621SQ200680019291公開日2008年5月28日申請日期2006年5月30日優(yōu)先權(quán)日2005年6月2日發(fā)明者A·C·加拉赫爾,J·A·維爾迪申請人:伊斯曼柯達(dá)公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1