專利名稱:攝像裝置的制作方法
技術領域:
本發(fā)明涉及對被攝物體的光學像進行拍攝的攝像裝置。
背景技術:
近年來,隨著數(shù)碼照相機的廣泛普及,在各種攝影場景或用途中使用。在這種數(shù)碼 照相機中除了具備通常攝影模式以外還具備各種攝影模式,作為其中的一個例子,有判斷 被攝物體的狀態(tài)并在該被攝物體處于滿足規(guī)定條件的狀態(tài)時自動拍攝的攝影模式。例如,某一現(xiàn)有攝像裝置形成為,可獲取被攝物體朝向攝像裝置方向的圖像、即照 相機視線的圖像。在該攝像裝置中,從包括臉圖像的一個或多個人物的圖像中檢測人物的 視線方向,來判斷視線是否朝向攝像裝置方向,并在判斷出視線朝向攝像裝置方向的情況 下進行圖像的攝影及保存。但是,例如也設想拍攝孩子或動物等被攝物體的情況、及被攝物體不容易處于照 相機視線的情況。這種情況下,攝影者必須等到被攝物體處于照相機視線才可執(zhí)行,因此成 為負擔。
發(fā)明內容
本發(fā)明所涉及的攝像裝置,其特征在于,具備被攝物體檢測部,從預覽 (preview)圖像中檢測特定被攝物體;狀態(tài)判別部,判別由所述被攝物體檢測部檢測出的 所述特定被攝物體的狀態(tài);聲音輸出部,在判別出所述特定被攝物體的狀態(tài)不是第1狀態(tài) 的情況下,向所述特定被攝物體輸出聲音;以及攝影部,在判別出所述特定被攝物體的狀態(tài) 是所述第1狀態(tài)的情況下,進行對象圖像的攝影。
圖1是表示本發(fā)明第1實施方式所涉及的攝像裝置的構成概略的框圖。圖2是表示本發(fā)明所涉及的攝像裝置在拍攝運動圖像時的基本動作概略的流程 圖。圖3是表示圖1示出的特定被攝物體檢測部的內部構成及特定被攝物體檢測部的 周邊部的概略的框圖。圖4是表示由圖3的縮小圖像生成部獲得的階層圖像的一例的圖解圖。圖5是表示被攝物體檢測處理的處理動作的圖解圖。圖6是表示攝像裝置捕捉到的攝影區(qū)域的一例的圖解圖。圖7是表示表結構的一例的圖解圖。圖8是表示本發(fā)明第1實施方式所涉及的正臉攝影模式的處理動作的流程圖。
3
圖9是表示本發(fā)明第1實施方式所涉及的正臉攝影處理的處理動作的流程圖。圖10是表示本發(fā)明第2實施方式所涉及的攝像裝置的構成概略的框圖。圖11是表示臉檢測處理的處理動作的圖解圖。圖12是表示圖10示出的相似度判定部的內部構成概略的框圖。圖13是表示本發(fā)明第2實施方式所涉及的正臉攝影模式的處理動作的流程圖。圖14是表示在時間序列上排列的多個輸入圖像的圖。
具體實施例方式〈第1實施方式〉參照附圖,對本發(fā)明實施于可拍攝靜止圖像的數(shù)碼照相機等攝像裝置的第1實施 方式進行說明。該攝像裝置只要能拍攝靜止圖像即可,也可拍攝運動圖像。在所參考的各 圖中,給同一部分賦予同一符號,原則上省略了與同一部分相關的重復性說明(即使在后 述的第2實施方式中也同樣)。(攝像裝置的構成)圖1是表示本實施方式所涉及的攝像裝置的構成概略的框圖。攝像裝置具備將 入射來的光變換成電信號的 CCD (Charge Coupled Device)或 CMOS (Complementary Metal Oxide Semiconductor)傳感器等的固體攝像元件(圖像傳感器)1、透鏡部3。透鏡部3具 有將被攝物體的光學像成像于圖像傳感器1的變焦透鏡、改變變焦透鏡的焦點距離、即改 變光學變焦倍率的電機、用于使變焦透鏡的焦點對焦于被攝物體的電機。另外,圖1的攝像裝置還具備將從圖像傳感器1輸出的模擬的圖像信號變換成數(shù) 字的圖像信號的AFE (Analog Front End) 5、對來自AFE5的數(shù)字圖像信號實施灰度修正等 各種圖像處理的圖像處理部7、實施壓縮編碼處理的壓縮處理部9。在拍攝靜止圖像的情況 下,壓縮處理部9利用JPEG(Joint Photographic Experts Group)壓縮方式等,對來自圖 像處理部7的圖像信號實施壓縮編碼處理。在拍攝運動圖像的情況下,壓縮處理部9利用 MPEG (Moving Picture Experts Group)壓縮方式等,對來自圖像處理部7的圖像信號和從 包括集音麥克風的聲音處理部(未圖示)輸出的聲音信號(sound signal)實施壓縮編碼 處理。另外,圖1的攝像裝置還具備將被壓縮處理部9壓縮編碼后的壓縮編碼信號記錄到 SD存儲卡(SD Memory Card)等的記錄介質27的驅動器部四、對通過驅動器部四從記錄 介質27讀取出的壓縮編碼信號進行擴展、解碼的擴展處理部11、以及具有基于被擴展處理 部11解碼所得到的圖像信號進行圖像顯示的LCD(Liquid Crystal Display)等的顯示部 13。另外,本實施方式所涉及的攝像裝置還具備輸出用于使攝像裝置內的各模塊 的動作定時一致的定時控制信號的定時發(fā)生器(TG) 15、控制攝像裝置內整體驅動動作的 CPU (Central Processing Unit) 17、存儲用于各動作的各程序并且臨時保管程序執(zhí)行時的 數(shù)據的存儲器19、包括靜止圖像攝影用的快門按鈕21s的、輸入來自用戶指示的操作部21、 以及包括揚聲器(未圖示)等的、輸出聲音的聲音輸出部31。另外,本實施方式所涉及的攝像裝置還具備用于在CPU17和攝像裝置內的各模 塊之間進行數(shù)據交換的總線23、以及用于在存儲器19和攝像裝置內的各模塊之間進行數(shù) 據交換的總線25。
CPU17根據圖像處理部7檢測出的圖像信號來驅動透鏡部3內的電機,由此進行焦 點或光圈的控制。另外,圖像處理部7具備特定被攝物體檢測部7a,該特定被攝物體檢測部 7a從與AFE5輸出的圖像信號相應的圖像中檢測特定被攝物體(例如,人物或動物)。圖1的攝像裝置能夠以規(guī)定的幀周期周期性地拍攝被攝物體。將通過從AFE5輸 出的1幀周期份的圖像信號所表示的1枚圖像(靜止圖像)稱為幀圖像。也可認為對從 AFE5輸出的1幀周期份的圖像信號實施規(guī)定圖像處理所得到的1枚圖像(靜止圖像)是幀 圖像。此外,記錄介質27也可以是DVD (Digital Versatile Disc)等光盤或HDD (Hard disk drive)等磁記錄介質。(攝像裝置的基本動作攝影時)接著,參照圖2,利用流程圖,對圖1的攝像裝置在拍攝靜止圖像時的基本動作進 行說明。當用戶將攝像裝置的電源接通時,攝像裝置的驅動模式、即圖像傳感器1的驅動模 式被設定成預覽模式(步驟Si)。所謂預覽模式是不記錄攝影對象的攝影圖像而顯示于顯 示部13的模式。為了規(guī)定攝影對象、確定取景,可使用預覽模式。然后處于攝影模式的輸 入等待狀態(tài),選擇適合人物攝影的模式、適合移動物體攝影的模式、適合在逆光下攝影的模 式等、與攝像裝置的功能或攝影場景相應的模式。在未輸入攝影模式的情況下,也可選擇通 常攝影模式。在圖2的例子中,選擇了通常攝影模式(步驟S3)。在預覽模式中,通過圖像傳感器1的光電變換動作所得到的模擬圖像信號被AFE5 變換成數(shù)字圖像信號,所得到的數(shù)字圖像信號被圖像處理部7實施色分離、白平衡調整、 YUV變換等的圖像處理之后,被寫入到存儲器19。寫入到存儲器19的圖像信號,依次被顯 示到顯示部13。結果,表示每個規(guī)定期間(例如,每1/30秒或每1/60秒)的攝影區(qū)域的幀 圖像作為預覽圖像被依次顯示到顯示部13。所謂攝影區(qū)域是指攝像裝置中的攝影區(qū)域。接著,用戶對作為攝影對象的被攝物體設定光學變焦下的變焦倍率,以成為期 望視角(換言之,以用期望視角拍攝作為攝影對象的被攝物體)(步驟S5)。此時,CPU17 基于輸入到圖像處理部7的圖像信號來控制透鏡部3。CPU17對透鏡部3的控制包括 AE (Automatic Exposure)控制及 AF (Automatic Focus)控制(步驟 S7)。通過 AE 控制實 現(xiàn)曝光的最優(yōu)化,通過AF控制實現(xiàn)對焦焦點的最優(yōu)化。在用戶確定攝影視角及取景并半按 下操作部21的快門按鈕21s時(步驟S9 是),進行AE調整(步驟Sll),然后進行AF最 優(yōu)化處理(步驟S13)。然后,當全按下快門按鈕21s時(步驟S15 是),自TG15向圖像傳感器1、AFE5、 圖像處理部7及壓縮處理部9分別給予定時控制信號,由此這些動作定時被同步。在全按 下快門按鈕21s之后,將圖像傳感器1的驅動模式設定成靜止圖像攝影模式(步驟S17),通 過AFE5將從圖像傳感器1輸出的模擬圖像信號變換成數(shù)字圖像信號,然后寫入到圖像處理 部7內的幀存儲器(步驟S19)。從上述幀存儲器中讀取該數(shù)字圖像信號,并在圖像處理部 7中實施生成亮度信號及色差信號的信號變換處理等各種圖像處理。實施了該圖像處理后 的數(shù)字圖像信號,在壓縮處理部9中被壓縮成JPEG(Joint Photographic Experts Group) 形式(步驟S21)。通過該壓縮所得到的壓縮圖像(通過壓縮后的數(shù)字圖像信號所表示的圖 像)被寫入到記錄介質27 (步驟S2!3),從而靜止圖像的攝影完成。然后,返回到預覽模式。(攝像裝置的基本動作圖像再生時)
當通過操作部21指示攝像裝置再生被記錄到記錄介質27的圖像(靜止圖像或運 動圖像)時,作為再生對象所選擇的圖像的壓縮信號被驅動器部四讀取,給予到擴展處理 部11。給予到擴展處理部11的壓縮信號在擴展處理部11中基于壓縮編碼方式被擴展解 碼,從而獲取到圖像信號。然后,所得到的圖像信號被給予到顯示部13,從而進行作為再生 對象所選擇的圖像的再生。即、基于記錄介質27記錄的壓縮信號再生了圖像。(被攝物體檢測處理)對圖1的攝像裝置的被攝物體檢測處理進行說明。本實施方式所涉及的攝像裝置 具備特定被攝物體檢測部7a,能從所輸入的圖像信號中檢測人物的臉或動物的臉等特定被 攝物體,實現(xiàn)該檢測的處理是被攝物體檢測處理。在以下的說明中,被攝物體檢測處理也被 稱為特定被攝物體檢測處理。既可以將人物的臉或動物的臉作為特定被攝物體捕捉,也可 以將人物本身或動物本身作為特定被攝物體捕捉。雖然也可認為人物是動物的一種,但是 在此認為人物不包括在動物中。能夠將任意的幀圖像的圖像信號輸入到特定被攝物體檢測 部7a,特定被攝物體檢測部7a能夠從幀圖像的圖像信號中檢測特定被攝物體。以下,也將 能成為被攝物體檢測處理的對象的幀圖像特別稱為輸入圖像。在此,舉出檢測人物的臉的 例子,以下說明特定被攝物體檢測部7a的構成及動作。圖3是表示特定被攝物體檢測部7a的構成概略的框圖。特定被攝物體檢測部7a 具備縮小圖像生成部71、被攝物體判定部72及判定結果輸出部73??s小圖像生成部71基 于由AFE5得到的圖像信號來生成1個或多個縮小圖像(即、生成一個或多個縮小了輸入圖 像后的圖像即縮小圖像)。被攝物體判定部72利用由輸入圖像及輸入圖像的縮小圖像構成 的多個階層圖像、和存儲器19存儲的特定被攝物體檢測用的權重表即被攝物體檢測詞典 DIC,來判定在輸入圖像中是否存在特定被攝物體。判定結果輸出部73將被攝物體判定部 72的判定結果輸出到CPU17等中。此外,也可預先將被攝物體檢測詞典DIC存儲到記錄介 質27中。在存儲器19存儲的被攝物體檢測詞典DIC中,定義了多個邊緣特征圖像(包含多 個邊緣特征圖像)。所謂邊緣特征圖像是指僅僅提取了圖像的邊緣部分的圖像。多個邊緣 特征圖像例如包括僅僅提取了水平方向的邊緣部分的水平方向邊緣圖像、和僅僅提取了 垂直方向的邊緣部分的垂直方向邊緣圖像。各邊緣特征圖像具有與為了從輸入圖像中檢測 特定被攝物體而使用的判定區(qū)域相同的大小。被攝物體檢測詞典DIC按照邊緣特征圖像的 每個種類,用邊緣特征圖像的各像素的行序號及列序號,來定義邊緣特征圖像的各像素的 像素位置。這樣的被攝物體檢測詞典DIC是根據大量的教師樣本(例如,在是檢測臉的詞 典的情況下,為臉及非臉的樣本圖像等)求出的。這樣的被攝物體檢測詞典DIC例如能 夠用被稱為Adaboost的公知的學習方法作成(Yoav Freund, Robert Ε. Schapire, “ A decision-theoretic generalization of on-line learning and an application to boosting" ,European Conference on Computational Learning Theory, September 20, 1995.)。例如,也能預先個別作成用于檢測正臉的正臉詞典、用于檢測側臉的側臉詞典等, 并包括在被攝物體檢測詞典DIC中。另外,并不限定于人物,例如也能預先作成用于檢測狗或貓等動物的詞典、用于檢 測汽車等的詞典,并包括在被攝物體檢測詞典DIC中。
此外,Adaboost是自適應推進(Boosting)學習方法之一,是基于大量的教師樣本 從多個弱識別器候補中選擇多個可有效識別的弱識別器,通過加權合并選擇出的弱識別器 來實現(xiàn)高精度識別器的學習方法。在此,所謂弱識別器是指與全部偶然相比識別能力高、越 滿足充分的精度越不是高精度的識別器。在選擇弱識別器時,在存在已經選擇出的弱識別 器的情況下,能夠通過已經選擇出的弱識別器對會誤識別的教師樣本進行重點學習。由此, 能夠從剩余的弱識別器候補中選擇效果最高的弱識別器。圖4示出由縮小圖像生成部71得到的階層圖像的一例。階層圖像包括以任意的 縮小率R縮小攝像裝置獲取到的圖像所得到的圖像,利用值不同的多個縮小率R能夠生成 多個階層圖像。在此,優(yōu)選O < R < 1成立,在理想上對縮小率R設定0. 8或0. 9等與1接 近的值。在圖4中,符號Pl表示輸入圖像,符號P2、P3、P4、P5分別表示將輸入圖像縮小成 R倍、R2倍、R3倍、R4倍的縮小圖像。圖像Pl P5作為5枚階層圖像起作用。符號F 1表 示判定區(qū)域。判定區(qū)域例如被設定為具有縱向M像素、橫向M像素的大小。在輸入圖像 及其縮小圖像中,判定區(qū)域的大小彼此相同。被攝物體檢測處理是利用各階層圖像設定的 判定區(qū)域所對應的多個邊緣特征圖像和被攝物體檢測詞典DIC包含的各個詞典進行的。在本實施方式中,如圖4的各箭頭所示,在各階層圖像上使判定區(qū)域從左向右移 動(在后述的圖5中也同樣)。通過從圖像的上方向下方進行判定區(qū)域的水平方向掃描, 同時進行圖案匹配,來檢測特定被攝物體。其中,掃描順序并不限定于上述的順序?;?各判定區(qū)域(各判定區(qū)域內的圖像)和被攝物體檢測詞典DIC內的各詞典之間的相似度 (similarity measure),來進行該判定區(qū)域是否是臉區(qū)域的檢測。臉區(qū)域是臉的圖像存在 的圖像區(qū)域(換言之,是臉的圖像信號存在的圖像區(qū)域)。除了生成輸入圖像Pl之外還生成多個縮小圖像P2 P5,是用于檢測大小不同的 多個臉的緣故。圖5是用于說明被攝物體檢測處理的圖。對階層圖像的被攝物體檢測處理包括從 階層圖像中檢測臉(臉區(qū)域)的臉檢測處理。雖然由被攝物體判定部72執(zhí)行的被攝物體 檢測處理是針對各階層圖像進行的,但因為被攝物體檢測處理的方法在所有階層圖像之間 是共同的,故在此僅僅對輸入圖像Pl進行的被攝物體檢測處理加以說明。圖5示出輸入圖像Pl和在輸入圖像Pl內設定的判定區(qū)域F1。按每個階層圖像進 行的臉檢測處理,是通過使用了在圖像內設定的判定區(qū)域Fl所對應的圖像和被攝物體檢 測詞典DIC的圖案匹配進行的。所謂圖案匹配是指,檢測在輸入圖像Pl中是否存在與被攝 物體檢測詞典DIC所設定的圖案相同的圖案、或者是否存在與其相近的圖案。例如,在圖案 匹配過程中,將被攝物體檢測詞典DIC疊加在輸入圖像Pl上,同時進行移動來調查2個圖 像(詞典DIC定義的圖像和判定區(qū)域Fl內的圖像)是否具有像素數(shù)據等級的相關(相關 性)。輸入圖像Pl和被攝物體檢測詞典DIC之間的相關,例如通過相似度判定來調查。相 似度判定,例如使用“Digital Image Processing"(CG-ARTS協(xié)會出版,第2版,2007年3月 1日発行)記載的相似度的計算方法進行的。例如使用SSD(Sum of Squared Difference), SAD (Sum of Absolute Difference)或 NCC (Normalized Cross-Correlation)能夠導出相 似度。在使用SSD或SAD的情況下,對比圖像彼此越相似,其相似度的值就越小,只要相似 度的值在規(guī)定閾值以下,即可判定出所對應的判定區(qū)域Fl是臉區(qū)域。另外,在使用NCC的 情況下,NCC相應的向量所成角的余弦越接近1,其相似度變得越高,只要從相似度的值中減去1之后的值的絕對值在規(guī)定閾值以下,即可判定出所對應的判定區(qū)域Fl是臉區(qū)域。被攝物體檢測處理由從粗略判定依次移行至精細判定的多個判定步驟構成,在某 一判定步驟中,在未檢測出特定被攝物體的情況下,不移行至下一判定步驟,而判定出在該 判定區(qū)域中不存在特定被攝物體。在所有判定步驟中,只在檢測出特定被攝物體的情況下, 判定出在該判定區(qū)域中存在作為特定被攝物體的臉,然后掃描判定區(qū)域,移行至下一判定 區(qū)域中的判定。此外,關于這樣的被攝物體檢測處理,在日本特開2007-257358號公報中詳 細公開了,且可將該公報記載的方法應用于本實施方式。以上,舉出檢測人物的臉的例子,說明了特定被攝物體的檢測方法,但是通過上述 方法也可檢測人物的臉以外的特定被攝物體(例如,動物的臉、動物本身、汽車)。此外,本實施方式所涉及的攝像裝置(被攝物體檢測詞典DIC)如圖3所示,具備 用于檢測人物的臉的人物檢測詞典、和用于檢測狗的臉的狗檢測詞典。另外,人物檢測詞典 及狗檢測詞典的每一個都具備用于檢測朝向正面的臉即正臉的正臉詞典、用于檢測朝向 側面的臉即側臉的側臉詞典、用于檢測朝向后方的臉即后側臉的后側臉詞典、用于檢測傾 斜的臉即斜臉的斜臉詞典、用于檢測轉動后的臉即轉向臉的轉向臉詞典。在輸入圖像上的臉的圖像是從臉的正面、臉的側方、臉的后方觀看時所觀測到的 臉的圖像的情況下,輸入圖像上的臉分別是正臉、側臉、后側臉。在輸入圖像上的臉的中心 線(連結眉間和口的中心的線)的方向自輸入圖像上的基準方向傾斜了規(guī)定角度以上的情 況下,輸入圖像上的臉是斜臉。在輸入圖像中,基準方向通常是垂直方向,但也可是水平方 向。在輸入圖像上的臉的圖像是使正臉轉動至特定方向的圖像的情況下,輸入圖像上的臉 是轉向臉。另外,將通過正臉詞典檢測出特定被攝物體的狀態(tài)稱為狀態(tài)ST1,將通過側臉詞典 檢測出特定被攝物體的狀態(tài)稱為狀態(tài)ST2,將通過后側臉詞典檢測出特定被攝物體的狀態(tài) 稱為狀態(tài)ST3,將通過斜臉詞典檢測出特定被攝物體的狀態(tài)稱為狀態(tài)ST4,將通過轉向臉詞 典檢測出的特定被攝物體的狀態(tài)稱為狀態(tài)ST5。能夠將狀態(tài)STl ST5的每一個作為特定 被攝物體的狀態(tài)捕捉。輸入圖像Pl中的特定被攝物體的臉,在狀態(tài)ST1、ST2、ST3、ST4、ST5 下,分別為正臉、側臉、后側臉、斜臉、轉向臉。(正臉攝影模式)本實施方式所涉及的攝像裝置具有通過輸出聲音來引導處于攝影區(qū)域內的人物 或動物等的被攝物體朝向攝像裝置存在的方向的功能。在人物或動作即特定被攝物體的臉 朝向攝像裝置存在的方向時,能夠認為該特定被攝物體的臉是正臉,攝像裝置具備自動記 錄該特定被攝物體的臉成為正臉的瞬間的圖像、所謂的正臉攝影模式。正臉攝影模式例如如下實現(xiàn)。用戶通過操作操作部21,將攝影模式設定成正臉攝 影模式,當半按下快門按鈕21s時,攝像裝置1與通常攝影模式時同樣地,進行AE調整及AF 最優(yōu)化處理。然后,當攝影者全按下快門按鈕21s時,對包括該瞬間的圖像在內的一個以上的 輸入圖像進行特定被攝物體檢測處理,判定結果被輸出到CPU17。在該判定結果、即特定被 攝物體檢測處理的檢測結果中含有表示有無特定被攝物體的第1信息,另外在檢測出特定 被攝物體的情況下,還含有表示該特定被攝物體的狀態(tài)(ST1、ST2、ST3、ST4或SI^)的第2 信息。在全按下快門按鈕21s之后,將實施了特定被攝物體檢測處理的輸入圖像特別稱為
8評價輸入圖像。評價輸入圖像可能是預覽圖像。對評價輸入圖像的特定被攝物體檢測處理 是基于評價輸入圖像的圖像信號進行的,通過對評價輸入圖像的特定被攝物體檢測處理得 到了對該評價輸入圖像的上述第1及第2信息。特定被攝物體的檢測意味著從輸入圖像中檢測特定被攝物體。其中,也可解釋為 特定被攝物體的檢測意味著從攝影區(qū)域中檢測特定被攝物體。上述第1信息可以說是表示 是否從評價輸入圖像或攝影區(qū)域中檢測出特定被攝物體的信息,上述第2信息可以說是指 代從評價輸入圖像或攝影區(qū)域中檢測出的特定被攝物體的狀態(tài)是狀態(tài)STl ST5的哪個狀 態(tài)的信息。此外,特定被攝物體是人物還是狗這一特定被攝物體的種類的特定、以及特定被 攝物體的狀態(tài)(STl ST5的任意一個)的特定,能夠通過由哪個臉詞典檢測出特定被攝物 體來實現(xiàn)。例如,在由人物檢測詞典檢測出特定被攝物體的情況下,特定被攝物體的種類為 人,在由狗檢測詞典檢測出特定被攝物體的情況下,特定被攝物體的種類為狗。而且,例如 在由正臉詞典檢測出特定被攝物體的情況下,特定被攝物體的狀態(tài)為狀態(tài)ST1,在由側臉詞 典檢測出特定被攝物體的情況下,特定被攝物體的狀態(tài)為狀態(tài)ST2。在圖6所示的預覽圖像 是評價輸入圖像的情況下,人物的側臉被檢測出,并判斷出作為特定被攝物體的人物的狀 態(tài)為狀態(tài)ST2。在全按下快門按鈕21s之后,在未檢測出特定被攝物體的情況下,能夠直接進行 圖像攝影,將該圖像的圖像信號(圖像數(shù)據)記錄到記錄介質27中。另一方面,在檢測出特定被攝物體的情況下,CPU17根據所檢測出的特定被攝物體 是人物還是狗,來確定所輸出的聲音。聲音(聲音的聲音信號)也可預先存儲到存儲器19, 也可預先存儲到記錄介質27。聲音例如圖7所示的表來管理,根據特定被攝物體檢測處理 的檢測結果來確定所輸出的聲音。在通過特定被攝物體檢測處理檢測出人物的情況下,從聲音輸出部31輸出用于 引起人物的注意、使人物轉向攝像裝置存在的方向的聲音A,在檢測出狗的情況下,從聲音 輸出部31輸出用于使狗轉向攝像裝置存在的方向的聲音B。能預先將聲音A及B以及后 述的聲音C及D設為彼此不同的聲音。特定被攝物體檢測部7a使用從按規(guī)定周期生成的 各幀圖像(預覽圖像)檢測出的被攝物體相應的檢測詞典(在特定被攝物體是人物的情 況下使用人物檢測詞典,在特定被攝物體是狗的情況下使用狗檢測詞典),來進行特定被攝 物體檢測處理。反復執(zhí)行聲音輸出及特定被攝物體檢測處理直至檢測出特定被攝物體的正 臉為止,在此反復操作中,在特定被攝物體的狀態(tài)遷移到狀態(tài)STl的情況下,進行圖像的記 錄。當將狀態(tài)STl的圖像記錄到記錄介質27時,結束攝影。將記錄介質27記錄的輸入圖 像(幀圖像)、且內含狀態(tài)STl的特定被攝物體的圖像信號的輸入圖像(幀圖像),也特別 稱為對象圖像。此外,在特定被攝物體是狗的情況下,從聲音輸出部31輸出的聲音變?yōu)槁曇鬊,所 使用的特定被攝物體檢測用的詞典變?yōu)楣窓z測詞典。除了這些點之外,特定被攝物體是狗 的情況下的處理動作,在特定被攝物體是人物的情況下,是與上述的處理動作相同的。圖8是表示攝影模式為正臉攝影模式時的攝影裝置的處理動作的流程圖。此外, 在圖8中,在賦予了與圖2所示的流程圖相同符號的步驟中,由于進行了與上述的通常攝影 模式下的動作相同的處理動作,因此省略了這些說明。在正臉攝影模式下,當全按下快門按 鈕21s時,進行步驟S80的處理。作為全按下快門按鈕21s后的表示時刻的記號,導入ti(i為整數(shù))。時刻‘工是在時刻、后的時亥lj。如圖14所示,通過記號IMi,表示由在時刻、的 攝影所得到的輸入圖像。在步驟S80中,進行正臉攝影處理。圖9是表示步驟S80的正臉攝影處理的處理 動作的流程圖。正臉攝影處理按照自步驟S90起的下一子程序執(zhí)行。在正臉攝影處理中,首先在步驟S90中,將輸入圖像IM1作為評價輸入圖像捕捉, 通過對評價輸入圖像IM1的被攝物體檢測處理,來判別從評價輸入圖像IM1中(從時刻、 的攝影區(qū)域中)是否檢測出特定被攝物體。在檢測出特定被攝物體的情況下,進入到步驟 S92。在未檢測出特定被攝物體的情況下進入到步驟S19,對輸入圖像IM1進行步驟S19、S21 及S23的處理。結果,輸入圖像IM1 (更具體地說,輸入圖像IM1的壓縮圖像)被記錄到記錄 介質27。在步驟S92中,將在此時間點得到的最新的輸入圖像IMi作為評價輸入圖像捕捉, 通過對評價輸入圖像IMi的被攝物體檢測處理,來判別評價輸入圖像IMi中的特定被攝物體 的狀態(tài)(換言之,時刻、的特定被攝物體的狀態(tài))是否是狀態(tài)STl (正臉)。在特定被攝物 體的狀態(tài)是狀態(tài)STl的情況下進入到步驟S19,在不是狀態(tài)STl的情況下進入到步驟S94。 在判斷出評價輸入圖像IMi中的特定被攝物體的狀態(tài)是狀態(tài)STl的情況下,對輸入圖像IMi 或IMi+1進行步驟S19、S21及S23的處理。結果,輸入圖像IMi或IMi+1 (更具體地說,輸入圖 像IMi或IMi+1的壓縮圖像)作為對象圖像被記錄到記錄介質27。在步驟S94中,根據在步驟S90檢測出的特定被攝物體的種類來確定所輸出的聲 音,并從聲音輸出部31輸出所確定的聲音。在輸出聲音之后,返回到步驟S92。在第i次的 步驟S92的處理中,能夠將輸入圖像IMi設定成評價輸入圖像。在上述的步驟S90及S92中進行了被攝物體檢測處理的輸入圖像IMi也作為預覽 圖像發(fā)揮作用,被依次顯示到顯示部13。預覽圖像也能認為是通過在拍攝對象圖像之前的 攝影所得到的、應該檢測特定被攝物體的輸入圖像。在判斷出特定被攝物體的狀態(tài)是狀態(tài) STl之后,由于最新的輸入圖像(幀圖像)作為對象圖像被記錄,因此也可以說在判斷出特 定被攝物體的狀態(tài)是狀態(tài)STl的情況下攝像裝置中的攝像部進行對象圖像的攝影。攝像部 構成為至少包括圖像傳感器1及透鏡部3。另外,也可以說圖像處理部7 (例如,特定被攝 物體檢測部7a)內含從輸入圖像(例如,預覽圖像)中檢測特定被攝物體的被攝物體檢測 部、判別由被攝物體檢測部檢測出的特定被攝物體的狀態(tài)的狀態(tài)判別部、以及判別輸入圖 像上的特定被攝物體的種類的被攝物體種類判別部,這些功能通過特定被攝物體檢測處理 來實現(xiàn)。另外,在攝像裝置(例如,CPU17)中,也具備根據被攝物體種類判別部的判別結果 來確定從聲音輸出部31輸出的聲音的種類的聲音種類確定部。此外,在上述的實施方式中,在全按下了快門按鈕21s后的特定被攝物體檢測處 理中未檢測出特定被攝物體的情況下,直接記錄圖像,但是也可代替此,例如在全按下快門 按鈕21s之后,在規(guī)定期間反復執(zhí)行特定被攝物體檢測處理,在該期間內檢測出特定被攝 物體的情況下,進行上述的正臉攝影處理。在本說明書中,既可以解釋為在單表現(xiàn)為記錄的 情況下是將其記錄到記錄介質27的記錄,也可以解釋為圖像記錄這一表現(xiàn)意味著輸入圖 像、幀圖像或對象圖像向記錄介質27記錄。在上述的實施方式中,雖然僅僅記錄特定被攝物體的狀態(tài)是狀態(tài)STl時的圖像, 但是也可在直至特定被攝物體成為正臉為止的期間,按規(guī)定定時進行圖像的記錄。例如,既可以在直至特定被攝物體成為正臉為止的期間,按規(guī)定時間進行圖像的記錄,也可以在特 定被攝物體的狀態(tài)不同的狀態(tài)期間,每當遷移時進行圖像的記錄。另外,也可將與規(guī)定的被攝物體的臉相關的信息和規(guī)定的聲音D預先存儲到存儲 器19或記錄介質27。并且,也可在檢測出特定被攝物體的情況下,在通過相似度判定而判 定出該特定被攝物體與預先記錄的規(guī)定的被攝物體相似時,輸出聲音D。另外,在上述的實施方式中,雖然在直至對象圖像的攝影完成為止的期間,持續(xù)進 行狀態(tài)判別,但是,例如也可每隔10幀等斷續(xù)進行狀態(tài)判別??傊?,能夠按規(guī)定期間反復執(zhí) 行評價輸入圖像IMi上的特定被攝物體的狀態(tài)的判別(能夠以規(guī)定間隔反復執(zhí)行)。在后 述的第2實施方式中也相同。聲音輸出的執(zhí)行定時也與狀態(tài)判別的情況相同,既可以持續(xù) 輸出聲音,也可以斷續(xù)輸出聲音。即、直至攝影部進行的對象圖像的攝影完成為止(直至在 步驟S92中判斷出特定被攝物體的狀態(tài)是狀態(tài)STl為止),既可以持續(xù)輸出聲音(在本實施 方式中為聲音A或B),也可以斷續(xù)輸出聲音。在后述的第2實施方式中也同樣。另外,在從攝影區(qū)域中檢測出多個特定被攝物體的情況下,既可以記錄所有特定 被攝物體成為正臉的瞬間的圖像,也可以記錄任意一個特定被攝物體成為正臉的瞬間的圖 像?;蛘?,預先對各特定被攝物體設定優(yōu)先度,在從攝影區(qū)域中檢測出多個特定被攝 物體的情況下,既可以記錄優(yōu)先度高的特定被攝物體朝向正面的瞬間的圖像,又可以記錄 在攝影區(qū)域的中央部附近的位置處存在的特定被攝物體成為正臉的瞬間的圖像。另外,攝影者能夠任意選擇、設定記錄上述圖像的定時。另外,在從攝影區(qū)域中檢測出人物和狗的雙方的情況下,既可以同時輸出聲音A 和聲音B,也可以交替輸出聲音A和聲音B?;蛘?,也可在檢測出人物和狗的雙方的情況下,另行準備輸出的聲音。另外,利用與上述的例子同樣的方法,例如也能夠可靠地拍攝側臉或后側臉等。另外,在上述的例子中,記錄了特定被攝物體的狀態(tài)為狀態(tài)STl (正臉)的圖像,但 是例如也可記錄特定被攝物體的狀態(tài)為狀態(tài)ST2 (側臉)、狀態(tài)ST4 (斜臉)或狀態(tài)ST5 (轉 向臉)的圖像,并在該時間點上結束攝影。另外,用戶也可任意設定記錄了特定被攝物體為哪個狀態(tài)的圖像。<第2實施方式>接著,利用附圖,對本發(fā)明實施于可拍攝靜止圖像的數(shù)碼照相機等攝像裝置的第2 實施方式進行說明。只要該攝像裝置能拍攝靜止圖像即可,也可拍攝運動圖像。第2實施 方式是以第1實施方式為基礎的實施方式,關于在第2實施方式中沒有特別敘述的事項,只 要沒有矛盾,就可將第1實施方式的記載應用于第2實施方式。圖10是表示本發(fā)明的第2實施方式所涉及的攝像裝置的構成概略的框圖。此外, 在圖10中,由于賦予了與圖1示出的框圖相同符號的部件進行與上述說明相同的處理動 作,因此省略其說明。攝像裝置具備檢測人物的臉的臉檢測部7b、和判定由臉檢測部7b檢測出的臉 與哪個動物相似的相似度判定部7c。另外,攝像裝置還具備用于檢測動物的動物檢測詞典 (未圖示)。在本實施方式中,作為動物檢測詞典,具備有用于檢測狗的狗檢測詞典及用于 檢測貓的貓檢測詞典。如圖10所示,也可預先將臉檢測部7b及相似度判定部7c設置在圖像處理部7中。第2實施方式所涉及的攝像裝置具備圖1示出的各部位,且雖然未在圖10 中示出,但也可在第2實施方式所涉及的圖像處理部7中預先設置圖1的特定被攝物體檢 測部7a。也可認為在特定被攝物體檢測部7a中內含臉檢測部7b及相似度判定部7c。圖11示出攝像裝置捕捉到的攝影區(qū)域。用戶通過操作操作部21,將攝影模式設 定成正臉攝影模式,當半按下快門按鈕21s時,攝像裝置進行AE調整、AF最優(yōu)化處理。然 后,當全按下快門按鈕21s時,對預覽圖像進行臉檢測處理,將該檢測結果輸出到相似度判 定部7c。例如,對圖11所示的預覽圖像進行了臉檢測處理的情況下,通過側臉詞典檢測出 人物的側臉,該檢測結果被輸出到相似度判定部7c。臉檢測部7b基于預覽圖像的圖像信號 能夠進行臉檢測處理。圖12是表示相似度判定部7c的內部構成概略的框圖。相似度判定部7c具備相 似度導出部74、相似度比較部75及比較結果輸出部76。如圖12所示,在本實施方式所涉及 的被攝物體檢測詞典DIC中,除了具備人物檢測詞典及狗檢測詞典之外,還具備貓檢測詞 典。相似度導出部74導出部分圖像和用于檢測動物的動物檢測詞典的相似度,將導出的相 似度輸出到相似度比較部75。所謂部分圖像是指通過臉檢測部7b作為特定被攝物體所檢 測出的人物的臉的圖像、即通過臉檢測處理檢測出人物的臉的預覽圖像的一部分。相似度 的導出,是基于檢測出人物的臉的預覽圖像的圖像信號按照每個動物檢測詞典進行的。在 本實施方式中,導出了部分圖像和狗檢測詞典的相似度、及、部分圖像和貓檢測詞典的相似 度。相似度比較部75通過比較由相似度導出部74導出的多個相似度,來判定由臉檢 測處理檢測出的臉與哪個動物最相似。即、基于由相似度導出部74導出的多個相似度,來 判定作為特定被攝物體的人物與哪個動物最相似(在本實施方式中,與狗或貓的哪個相 似)。比較結果輸出部76將相似度比較部75的比較結果(及判定結果)輸出到CPU17。CPU17基于從比較結果輸出部76輸出的比較結果(及判定結果),來確定所輸出 的聲音。聲音(聲音的聲音信號)既可以預先存儲到存儲器19中,也可以預先存儲到記錄 介質27中。然后,在判斷出由臉檢測處理檢測出的人物的臉與狗相似的情況下,從聲音輸出 部31輸出“汪、汪”這樣的狗的叫聲等、與狗關聯(lián)的聲音B,在判斷出由臉檢測處理檢測出的 人物的臉與貓相似的情況下,從聲音輸出部31輸出“喵、喵”這樣的貓的叫聲等、與貓關聯(lián) 的聲音C(參照圖7)。特定被攝物體檢測部7a或臉檢測部7b對按規(guī)定時間生成的預覽圖 像的每一個進行臉檢測處理,在所檢測出的特定被攝物體是人物的情況下,使用人物檢測 詞典來判別特定被攝物體的臉的狀態(tài)是否是狀態(tài)STl ( S卩、正臉),在所檢測出的特定被攝 物體是狗的情況下,使用狗檢測詞典來判別特定被攝物體的臉的狀態(tài)是否是狀態(tài)STl (即、 正臉),在所檢測出的特定被攝物體是貓的情況下,使用貓檢測詞典來判別特定被攝物體的 臉的狀態(tài)是否是狀態(tài)STl (即、正臉)。該判別方法如在第1實施方式中說明的那樣。并且, 在判斷出特定被攝物體的臉的狀態(tài)是狀態(tài)STl時,將其瞬間的圖像記錄到記錄介質27,結 束聲音輸出。反復執(zhí)行聲音輸出、臉檢測處理及用于判別特定被攝物體的臉的狀態(tài)的處理, 直至檢測出狀態(tài)STl為止。圖13是表示本發(fā)明第2實施方式所涉及的、在攝影模式是正臉攝影模式時的攝像 裝置的處理動作的流程圖。此外,在圖13中,在賦予了與圖2所示的流程圖相同符號的步驟中,由于進行與上述通常攝影模式下的動作相同的處理動作,因此省略了這些說明。在正 臉攝影模式下,當全按下快門按鈕21s時,進行步驟S130的處理。在步驟S130中,將輸入圖像IM1作為評價輸入圖像捕捉(參照圖14),通過對評價 輸入圖像IM1的臉檢測處理,來判別從評價輸入圖像IM1中(從時刻、的攝影區(qū)域中)是 否檢測出人物的臉。能夠將應該檢測的人物本身或該人物的臉作為特定被攝物體捕捉。并 且,在檢測出人物的臉的情況下,進入步驟S132。在未檢測出人物的臉的情況下進入到步驟 S19,對輸入圖像IM1進行步驟S19、S21及S23的處理。結果,輸入圖像IM1 (更具體地說,輸 入圖像IM1的壓縮圖像)被記錄到記錄介質27中。在步驟S132中,導出在步驟S130檢測出的臉和各動物檢測詞典的相似度,在步驟 S134中,基于在步驟S132導出的相似度,判定在步驟S130檢測出的臉與哪個動物最相似。 在后續(xù)的步驟S136中,根據步驟S134的判定結果來確定所輸出的聲音,然后從聲音輸出部 31輸出聲音。例如,在判定出在步驟S130檢測出的臉與狗最相似的情況下,在步驟S136中 輸出聲音B,在判定出在步驟S130檢測出的臉與貓最相似的情況下,在步驟S136中輸出聲 首Co在步驟S136后續(xù)的步驟S138中,將此時間點得到的最新的輸入圖像IMJt為評價 輸入圖像捕捉,通過對評價輸入圖像IMi的被攝物體檢測處理,來判別評價輸入圖像IMi中 的特定被攝物體的臉的狀態(tài)(換言之,時刻、的臉的狀態(tài))是否是狀態(tài)STl。在特定被攝 物體的臉的狀態(tài)是狀態(tài)STl的情況下進入到步驟S19,在不是狀態(tài)STl的情況下進入到步 驟S136。在判斷出評價輸入圖像IMi中的特定被攝物體的臉的狀態(tài)是狀態(tài)STl的情況下, 對輸入圖像IMi或IMi+1進行步驟S19、S21及S23的處理。結果,輸入圖像IMi或IMi+1 (更 具體地說,輸入圖像IMi或IMi+1的壓縮圖像)作為對象圖像被記錄到記錄介質27中。在上述的步驟S130及S138中進行了臉檢測處理及被攝物體檢測處理后的輸入圖 像IMi也作為預覽圖像發(fā)揮作用,被依次顯示到顯示部13。相似度判定部7c,也可以說是 從多個種類的動物中選擇具有與由臉檢測處理檢測出的人物的臉相似的臉的動物,或者也 可以說是判定具有與由臉檢測處理檢測出的人物的臉相似的臉的動物的判定部。在上述的例子中,持續(xù)輸出聲音,直至特定被攝物體的臉的狀態(tài)變?yōu)闋顟B(tài)STl為 止,但是即使經過了規(guī)定期間特定被攝物體的臉的狀態(tài)也未變?yōu)闋顟B(tài)STl的情況下,也可 結束聲音輸出,中止正臉攝影處理(圖13的動作)。另外,也可根據由臉檢測處理檢測出的臉的狀態(tài),來控制在相似度導出中使用的 詞典。即、例如只要由臉檢測處理檢測出的臉的狀態(tài)是狀態(tài)ST2,就只使用側臉詞典導出相 似度,只要臉的狀態(tài)是狀態(tài)ST4,就只使用斜臉詞典導出相似度。這樣一來,能夠減少相似度 判定的處理量,能夠以更短的時間進行相似度判定。另外,在本實施方式中,判定檢測出的人物的臉與哪個動物檢測詞典的動物最相 似,但也可準備用于檢測動物以外的物體的詞典,來判定該詞典和檢測出的人物的臉的相 似性。另外,在本實施方式中,由于直至被攝物體的臉成為狀態(tài)STl為止即直至成為正 臉為止,都不進行對象圖像的攝影,因此不是在臉檢測后判別該臉的狀態(tài),而是只使用正臉 詞典進行臉檢測,并在檢測出臉時進行對象圖像的攝影。另外,與第1實施方式同樣地,也可將與規(guī)定被攝物體的臉相關的信息和規(guī)定的聲音D預先存儲到存儲器19或記錄介質27中。并且,在檢測出特定被攝物體的情況下,在 通過相似度判定而判定出該特定被攝物體與預先記錄的規(guī)定的被攝物體相似時,輸出聲音 D。另外,在從攝影區(qū)域中檢測出多個特定被攝物體的情況下,既可以記錄所有特定 被攝物體成為正臉的瞬間的圖像,也可以記錄任意一個特定被攝物體成為正臉的瞬間的圖像。或者,在預先對各特定被攝物體設定優(yōu)先度,且從攝影區(qū)域中檢測出多個特定被 攝物體的情況下,既可以記錄優(yōu)先度高的特定被攝物體朝向正面的瞬間的圖像,也可以記 錄在攝影區(qū)域的中央部附近的位置處存在的特定被攝物體成為正臉的瞬間的圖像。另外,攝影者也可任意選擇、設定記錄上述圖像的定時。另外,在從攝影區(qū)域中檢測出多個人物,且判定出所檢測出的人物與分別不同的 動物相似的情況下,既可以同時輸出與各判定結果對應的聲音,也可以交替輸出與多個動 物對應的聲音,還也可輸出另行準備的聲音。以上,對本發(fā)明的實施方式的例子進行了說明,但是本發(fā)明并不限定于這些實施 方式的例子,在其宗旨的范圍內可進行變形及變更。在上述的各實施方式中,從攝影區(qū)域內檢測特定被攝物體,輸出引導該特定被攝 物體處于照相機視線的聲音。此時,也可根據該特定被攝物體的種類來確定所輸出的聲音。 然后,拍攝特定被攝物體處于照相機視線的瞬間的圖像。因此,在不給攝影者帶來負擔的情 況下,可拍攝被攝物體處于照相機視線的圖像。
權利要求
1.一種攝像裝置,其特征在于,具備被攝物體檢測部,從預覽圖像中檢測特定被攝物體;狀態(tài)判別部,判別由所述被攝物體檢測部檢測出的所述特定被攝物體的狀態(tài); 聲音輸出部,在判別出所述特定被攝物體的狀態(tài)不是第1狀態(tài)的情況下,向所述特定 被攝物體輸出聲音;以及攝影部,在判別出所述特定被攝物體的狀態(tài)是所述第1狀態(tài)的情況下,進行對象圖像 的攝影。
2.根據權利要求1所述的攝像裝置,其特征在于,所述狀態(tài)判別部按規(guī)定期間反復執(zhí)行所述特定被攝物體的狀態(tài)的判別。
3.根據權利要求1所述的攝像裝置,其特征在于,所述聲音輸出部持續(xù)進行所述聲音的輸出,直至所述攝影部進行的所述對象圖像的攝 影完成為止。
4.根據權利要求1所述的攝像裝置,其特征在于,所述聲音輸出部斷續(xù)進行所述聲音的輸出,直至所述攝影部進行的所述對象圖像的攝 影完成為止。
5.根據權利要求1所述的攝像裝置,其特征在于,還具備 被攝物體種類判別部,判別所述特定被攝物體的種類;以及聲音種類確定部,根據所述被攝物體種類判別部的判別結果,來確定從所述聲音輸出 部輸出的所述聲音的種類。
6.根據權利要求1所述的攝像裝置,其特征在于, 所述被攝物體檢測部具備臉檢測部,從所述預覽圖像中檢測作為所述特定被攝物體的人物的臉;以及 選擇部,從多個種類的動物中選擇與檢測出的所述人物的臉相似的動物, 所述聲音輸出部作為所述聲音而輸出與選擇出的動物相應的聲音。
全文摘要
本發(fā)明提供一種攝像裝置。該攝像裝置具備從預覽圖像中檢測特定被攝物體的被攝物體檢測部、判別由所述被攝物體檢測部檢測出的所述特定被攝物體的狀態(tài)的狀態(tài)判別部、在判別出所述特定被攝物體的狀態(tài)不是第1狀態(tài)的情況下向所述特定被攝物體輸出聲音的聲音輸出部、及在判別出所述特定被攝物體的狀態(tài)是所述第1狀態(tài)的情況下進行對象圖像的攝影的攝影部。
文檔編號H04N5/232GK102148931SQ201110035058
公開日2011年8月10日 申請日期2011年1月30日 優(yōu)先權日2010年2月9日
發(fā)明者小島和浩, 畑中晴雄 申請人:三洋電機株式會社