圖像捕獲裝置、圖像處理裝置及其控制方法

文檔序號：7773051閱讀：248來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

圖像捕獲裝置、圖像處理裝置及其控制方法
【專利摘要】一種圖像處理裝置，包括：特定聲音檢測部分，其檢測在由圖像組中包括的對象的特定運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
【專利說明】CN 103533285 A
書
明
說
1/36 頁
圖像捕獲裝置、圖像處理裝置及其控制方法
[0001]本申請是申請日為2010年11月22日、申請?zhí)枮?01010554066. 7、發(fā)明名稱為“圖
像捕獲裝置、圖像處理裝置及其控制方法”的專利申請的分案申請。
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及圖像捕獲裝置，并且更具體地，涉及用于處理以時間序列方式連續(xù)的多個圖像的圖像捕獲裝置、圖像處理裝置及其控制方法。
【背景技術(shù)】
[0003]近年來，廣泛使用如數(shù)字相機、數(shù)字攝像機(例如，集成相機記錄器）等的圖像捕獲裝置，其通過成像如人的對象生成圖像數(shù)據(jù)，并且將生成的圖像數(shù)據(jù)記錄為如圖像文件、運動圖像文件等的內(nèi)容。此外，廣泛地使用這樣的圖像捕獲裝置記錄例如高爾夫、棒球等的運動的圖像作為內(nèi)容。以此方式記錄的內(nèi)容(例如，運動圖像內(nèi)容）可以用于例如檢查運動中的動作(例如，高爾夫揮桿或擊球(棒球)）。
[0004]例如，在確認運動動作(例如，高爾夫揮桿或擊球(棒球)）的情況下，已經(jīng)提出一種合成圖像生成方法，其生成表示運動轉(zhuǎn)變的圖像作為合成圖像，使得可以容易地掌握運動轉(zhuǎn)變。例如，提出了一種圖像捕獲裝置，其從以預(yù)定間隔連續(xù)拍攝的圖像中選擇多個圖像，并且使用選擇的多個圖像生成合成圖像(例如，參照日本未審專利申請公開No. 2009-44573(圖 9))。

【發(fā)明內(nèi)容】

[0005]根據(jù)上述現(xiàn)有技術(shù)，可能生成代表例如進行高爾夫揮桿的人的運動轉(zhuǎn)變的合成圖像。
[0006]在該方面中，例如，因為在相對短時間內(nèi)進行高爾夫揮桿或擊球(棒球）的運動，所以當生成代表運動轉(zhuǎn)變的合成圖像時，重要的是適當?shù)剡x擇形成合成圖像的圖像。然而，在上述現(xiàn)有技術(shù)中，參照由用戶開始操作的時間確定用于選擇生成合成圖像的多個圖像的范圍。因此，例如，在用戶不習慣于拍攝或是新手的情況下，可能難以適當?shù)貙τ谠谙鄬Χ虝r間內(nèi)進行的高爾夫揮桿或擊球(棒球)執(zhí)行開始操作。在沒有以此方式適當?shù)貓?zhí)行開始操作的情況下，如果使用參照開始操作時間確定的范圍中包括的多個圖像生成合成圖像，則不可能生成適當?shù)暮铣蓤D像。在此情況下，用于生成合成圖像的處理時間變長，并且可能喪失拍攝適當?shù)暮铣蓤D像的機會。
[0007]因此，希望提供一種技術(shù)，其可以適當?shù)厣纱碛赡繕藢ο筮M行的特定運動的轉(zhuǎn)變的合成圖像。
[0008]根據(jù)本發(fā)明的實施例，提供一種圖像處理裝置、其控制方法和用于使得該方法在計算機上執(zhí)行的程序，所述圖像捕獲裝置包括：特定聲音檢測部分，其檢測在由圖像組中包括的目標對象進行的特定運動的運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，
5使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；確定范圍設(shè)置部分，其基于用戶操作，設(shè)置用于關(guān)于所述合成圖像的生成的確定的所述時間軸上的范圍作為確定范圍；以及控制部分，在設(shè)置的確定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在設(shè)置的確定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。因此，可能基于關(guān)于依靠圖像捕獲部分的圖像捕獲操作的用戶操作，設(shè)置確定范圍，并且在設(shè)置的確定范圍中檢測到特定聲音的情況下，控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在設(shè)置的確定范圍中沒有檢測到特定聲音的情況下，控制所述合成圖像生成部分不生成合成圖像。
[0009]在該實施例中，用戶操作可以是當終止特定運動時接收的特定操作，或者用于特定運動的終止時間變?yōu)闀r間計數(shù)器的終止時間這樣的設(shè)置的定時器設(shè)置操作，并且其中在用戶操作是特定操作的情況下，所述確定范圍設(shè)置部分可以參照接收特定操作的時間軸上的位置設(shè)置確定范圍，并且在用戶操作是定時器設(shè)置操作的情況下，所述確定范圍設(shè)置部分可以參照依靠定時器設(shè)置操作的時間計數(shù)器的終止時間設(shè)置確定范圍。因此，在用戶操作是特定操作的情況下，可以參照接收特定操作的位置設(shè)置確定范圍，并且在用戶操作是定時器設(shè)置操作的情況下，可以參照依靠定時器設(shè)置操作的時間計數(shù)器的終止時間設(shè)置確定范圍。
[0010]在該實施例中，與在用戶操作是定時器設(shè)置操作的情況下設(shè)置的確定范圍相比，所述確定范圍設(shè)置部分可以使得在用戶操作是特定操作的情況下設(shè)置的確定范圍變窄。因此，與在用戶操作是定時器設(shè)置操作的情況下設(shè)置的確定范圍相比，可以使得在用戶操作是特定操作的情況下設(shè)置的確定范圍變窄。
[0011]在該實施例中，所述裝置還可以包括:對象距離計算部分，其計算到目標對象的距離；以及延遲時間計算部分，其基于計算的距離計算檢測到的特定聲音的延遲時間，并且所述控制部分可以基于計算的延遲時間校正時間軸上檢測到的特定聲音的檢測位置，并且根據(jù)校正的檢測位置是否存在于設(shè)置的確定范圍中來確定是否允許所述合成圖像生成部分生成合成圖像。因此，可能計算到目標對象的距離，基于計算的距離計算檢測到的特定聲音的延遲時間，基于計算的延遲時間校正檢測到的特定聲音的檢測位置，并且根據(jù)校正的檢測位置是否存在于設(shè)置的確定范圍中確定是否允許所述合成圖像生成部分生成合成圖像。
[0012]在該實施例中，所述裝置還可以包括確定部分，在校正的檢測位置存在于設(shè)置的確定范圍中的情況下，所述確定部分參照校正的檢測位置確定選擇范圍。因此，在校正的檢測位置存在于設(shè)置的確定范圍中的情況下，可能參照校正的檢測位置確定選擇范圍。
[0013]在該實施例中，所述合成圖像生成部分相對于選擇范圍中的預(yù)定數(shù)目的圖像的選擇間隔，可以使得比具有時間軸上的特定聲音的檢測位置作為中心位置的選擇范圍更窄的范圍中的選擇間隔與其它選擇間隔相比更緊密。因此，相對于選擇范圍中的預(yù)定數(shù)目的圖像的選擇間隔，可以使得比具有特定聲音的檢測位置作為中心位置的選擇范圍更窄的范圍中的選擇間隔與其它選擇間隔相比更緊密。
[0014]在該實施例中，所述裝置還可以包括:存儲部分，其存儲關(guān)于多個類型的特定運動的特定聲音和確定范圍；以及操作接收部分，其接收用于從其中存儲了特定聲音和確定范圍的多個類型的特定運動中指定希望的特定運動的指定操作。這里，所述特定聲音檢測部分可以檢測關(guān)于指定的特定運動的特定聲音，并且所述確定范圍設(shè)置部分可以基于用戶操作設(shè)置關(guān)于指定的特定運動的確定范圍。因此，如果接收用于從多個類型的特定運動中指定希望的特定運動的指定操作，則可以檢測關(guān)于指定的特定運動的特定聲音，并且可以基于用戶操作設(shè)置關(guān)于指定的特定運動的確定范圍。
[0015]根據(jù)本發(fā)明的另一實施例，提供一種圖像捕獲裝置、其控制方法和用于使得方法在計算機上執(zhí)行的程序，所述圖像捕獲裝置包括:圖像捕獲部分，其成像對象以便生成以時間序列方式連續(xù)的多個圖像；特定聲音檢測部分，其檢測在由包括多個圖像的圖像組中包括的目標對象進行的特定運動的運動期間生成的特定聲音；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；確定范圍設(shè)置部分，其基于關(guān)于依靠圖像捕獲部分的圖像捕獲操作的用戶操作，設(shè)置用于關(guān)于所述合成圖像的生成的確定的所述時間軸上的范圍作為確定范圍；以及控制部分，在設(shè)置的確定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在設(shè)置的確定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
[0016]根據(jù)本發(fā)明的另一實施例，提供一種圖像處理裝置、其控制方法和用于使得方法在計算機上執(zhí)行的程序，所述圖像處理裝置包括:特定聲音檢測部分，其檢測在由圖像組中包括的目標對象進行的特定運動的運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；確定改變檢測部分，其在形成圖像組的各個圖像之間檢測時間軸上的確定改變；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；確定范圍設(shè)置部分，其基于其中檢測到確定改變的時間軸上的位置，設(shè)置用于關(guān)于所述合成圖像的生成的確定的所述時間軸上的范圍作為確定范圍；以及控制部分，在設(shè)置的確定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在設(shè)置的確定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。因此，可能基于其中檢測到確定改變的位置，設(shè)置確定范圍，并且在設(shè)置的確定范圍中檢測到特定聲音的情況下，控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在設(shè)置的確定范圍中沒有檢測到特定聲音的情況下，控制所述合成圖像生成部分不生成合成圖像。
[0017]根據(jù)本發(fā)明的另一實施例，提供一種圖像捕獲裝置、其控制方法和用于使得方法在計算機上執(zhí)行的程序，所述圖像捕獲裝置包括:圖像捕獲部分，其成像對象以便生成以時間序列方式連續(xù)的多個圖像；特定聲音檢測部分，其檢測在由圖像組中包括的目標對象進行的特定運動的運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；確定改變檢測部分，其在形成圖像組的各個圖像之間檢測時間軸上的確定改變；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；確定范圍設(shè)置部分，其基于其中檢測到確定改變的時間軸上的位置，設(shè)置用于關(guān)于所述合成圖像的生成的確定的所述時間軸上的范圍作為確定范圍；以及控制部分，在設(shè)置的確定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定CN 103533285 A
書
明
說
4/36 頁
聲音生成合成圖像，并且在設(shè)置的確定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
[0018]在該實施例中，所述確定改變檢測部分可以使用從形成圖像組的每個圖像提取的特征量和基于關(guān)于形成圖像組的每個圖像的聲音提取的特征量的至少一個，檢測所述確定改變。因此，可以從形成圖像組的每個圖像提取的特征量和基于關(guān)于形成圖像組的每個圖像的聲音提取的特征量的至少一個，檢測所述確定改變。
[0019]根據(jù)本發(fā)明的另一實施例，提供一種圖像處理裝置，包括：特定聲音檢測部分，其檢測在由圖像組中包括的對象的特定運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
[0020]根據(jù)本發(fā)明的另一實施例，提供一種圖像捕獲裝置，包括：圖像捕獲部分，其成像對象以便生成以時間序列方式連續(xù)的多個圖像；特定聲音檢測部分，其檢測在由包括多個圖像的圖像組中包括的對象的特定運動期間生成的特定聲音；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
[0021]根據(jù)本發(fā)明的另一實施例，提供一種圖像處理裝置，包括：特定聲音檢測部分，其檢測在由圖像組中包括的對象進行的特定運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；確定改變檢測部分，其在形成圖像組的各個圖像之間檢測時間軸上的確定改變；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
[0022]根據(jù)本發(fā)明的另一實施例，提供一種圖像捕獲裝置，包括：圖像捕獲部分，其成像對象以便生成以時間序列方式連續(xù)的多個圖像；特定聲音檢測部分，其檢測在由圖像組中包括的對象進行的特定運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；確定改變檢測部分，其在形成圖像組的各個圖像之間檢測時間軸上的確定改變；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
8[0023]根據(jù)本發(fā)明的另一實施例，提供一種圖像處理裝置的控制方法，包括以下步驟:執(zhí)行控制，使得在預(yù)定范圍中檢測到特定聲音的情況下，所述特定聲音在由包括以時間序列方式連續(xù)的多個圖像的圖像組中包括的對象進行的特定運動期間生成，參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像，并且使得在預(yù)定范圍中沒有檢測到特定聲音的情況下，不生成合成圖像。
[0024]根據(jù)本發(fā)明的實施例，可以適當?shù)厣纱碛赡繕藢ο筮M行的特定運動的轉(zhuǎn)變的合成圖像。
【專利附圖】

【附圖說明】
[0025]圖1是圖示根據(jù)本發(fā)明的第一實施例的圖像捕獲裝置的功能配置的示例的框圖。
[0026]圖2是圖示根據(jù)本發(fā)明的第二實施例的選擇部分和層處理部分的功能配置的示例的框圖。
[0027]圖3A、3B和3C是示意性圖示根據(jù)本發(fā)明的第一實施例、圖像捕獲裝置和作為圖像捕獲目標的人之間的位置關(guān)系以及從該位置關(guān)系生成的運動圖像之間的關(guān)系的圖。
[0028]圖4A和4B是圖示根據(jù)本發(fā)明的第一實施例、由合成目標圖像選擇部分選擇的合成目標圖像和由層處理部分生成的合成圖像的示例的圖。
[0029]圖5A、5B和5C是不意性圖不根據(jù)本發(fā)明的第一實施例、通過有效聲音范圍設(shè)置部分的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分的合成目標圖像選擇范圍的確定方法的圖。
[0030]圖6A和6B是圖示根據(jù)本發(fā)明的第一實施例、在顯示部分上顯示的顯示屏幕的轉(zhuǎn)換示例的圖。
[0031]圖7A、7B和7C是示意性圖示根據(jù)本發(fā)明的第一實施例、通過有效聲音范圍設(shè)置部分的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分的合成目標圖像選擇范圍的確定方法的圖。
[0032]圖8A、8B、8C和8D是示意性圖示根據(jù)本發(fā)明的第一實施例、通過選擇部分的合成目標圖像的選擇處理和通過層處理部分的合成圖像的生成處理的流程的示例的圖。
[0033]圖9A和9B是示意性圖示根據(jù)本發(fā)明的第一實施例、通過層分離部分的合成目標圖像的分離方法的圖。
[0034]圖10AU0B和IOC是示意性圖示根據(jù)本發(fā)明的第一實施例、作為通過層修改部分的修改處理的目標的圖像和通過層修改裝置修改的圖像的圖。
[0035]圖1lA和IlB是示意性圖示根據(jù)本發(fā)明的第一實施例、通過層合成部分的合成方法的圖。
[0036]圖12A和12B是示意性圖示根據(jù)本發(fā)明的第一實施例、通過層合成部分的合成目標圖像的合成方法的圖。
[0037]圖13是圖示根據(jù)本發(fā)明的第一實施例、通過層處理部分生成的合成圖像的示例的圖。
[0038]圖14是圖示根據(jù)本發(fā)明的第一實施例、通過圖像捕獲裝置的合成圖像生成處理的處理過程的示例的流程圖。[0039]圖15是圖示根據(jù)本發(fā)明的第一實施例、通過圖像捕獲裝置的合成圖像生成處理的處理過程的示例的流程圖。
[0040]圖16A和16B是圖示根據(jù)本發(fā)明的第二實施例、圖像捕獲裝置和目標對象之間的距離以及撞擊聲音的生成位置和其到達位置之間的關(guān)系的圖。
[0041]圖17是圖示根據(jù)本發(fā)明的第二實施例的圖像捕獲裝置的功能配置的示例的框圖。
[0042]圖18A和18B是示意性圖示根據(jù)本發(fā)明的第二實施例、作為通過圖像捕獲部分的圖像捕獲目標的圖像捕獲范圍和在顯示部分上顯示的捕獲圖像的圖。
[0043]圖19是示意性圖示根據(jù)本發(fā)明的第二實施例、作為通過圖像捕獲部分的圖像捕獲目標的圖像捕獲范圍和在顯示部分上顯示的捕獲圖像之間的位置關(guān)系的頂視圖。
[0044]圖20A和20B是示意性圖示根據(jù)本發(fā)明的第二實施例、通過有效聲音范圍設(shè)置部分的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分的合成目標圖像選擇范圍的確定方法的圖。
[0045]圖21是圖示根據(jù)本發(fā)明的第二實施例的顯示部分中的顯示示例的圖。
[0046]圖22是圖示根據(jù)本發(fā)明的第二實施例、通過圖像捕獲裝置的合成圖像生成處理的處理過程的示例的流程圖。
[0047]圖23是圖示根據(jù)本發(fā)明的第三實施例的圖像捕獲裝置的功能配置的示例的框圖。
[0048]圖24是圖示根據(jù)本發(fā)明的第三實施例的目標對象信息存儲部分的存儲內(nèi)容的示例的圖。
[0049]圖25是圖示根據(jù)本發(fā)明的第三實施例的顯示部分的顯示示例(顯示屏幕)的圖。
[0050]圖26A和26B是圖示根據(jù)本發(fā)明的第三實施例、通過層處理部分生成的合成圖像的示例的圖。
[0051]圖27是圖示根據(jù)本發(fā)明的第四實施例的圖像處理裝置的功能配置的示例的框圖。
[0052]圖28是圖示根據(jù)本發(fā)明的第四實施例的目標對象信息存儲部分的存儲內(nèi)容的示例的圖。
[0053]圖29A和29B是示意性圖示根據(jù)本發(fā)明的第四實施例、通過有效聲音范圍設(shè)置部分的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分的合成目標圖像選擇范圍的確定方法的圖。
[0054]圖30A和30B是示意性圖示根據(jù)本發(fā)明的第四實施例、通過有效聲音范圍設(shè)置部分的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分的合成目標圖像選擇范圍的確定方法的圖。
【具體實施方式】
[0055]下文中，將以以下順序描述用于執(zhí)行本發(fā)明的實施例。
[0056]1.第一實施例(合成圖像生成控制:基于用戶操作的有效聲音范圍的設(shè)置示例)
[0057]2.第二實施例(合成圖像生成控制:計算對象距離和校正撞擊聲音檢測位置的示例)CN 103533285 A
書
明
說
7/36 頁
[0058]3.第三實施例(合成圖像生成控制：從多個對象中指定期望的對象并且生成與該對象有關(guān)的合成圖像的示例）
[0059]4.第四實施例(合成圖像生成控制：在記錄的圖像內(nèi)容中生成合成圖像的示例）
[0060]I.第一實施例
[0061][圖像捕獲裝置的配置]
[0062]圖I是圖示根據(jù)本發(fā)明的第一實施例的圖像捕獲裝置100的功能配置的示例的框圖。圖像捕獲裝置100包括圖像捕獲部分111、對象信息生成部分120、捕獲圖像保持部分115、聲音輸入部分131、特定聲音檢測部分132、操作接收部分140和定時器設(shè)置部分150。此外，圖像捕獲裝置100包括有效聲音范圍設(shè)置部分160、選擇部分170、層處理部分180、合成圖像保持部分185、顯示控制部分190、顯示部分191和合成圖像存儲部分200。例如，圖像捕獲裝置100可以通過數(shù)字攝像機實現(xiàn)，該數(shù)字攝像機可以成像對象以生成捕獲圖像(圖像數(shù)據(jù))，通過圖像分析對于圖像數(shù)據(jù)提取每個特征量，并且使用每個提取的特征量執(zhí)行多種圖像處理。
[0063]圖像捕獲部分111包括圖像捕獲元件(例如，圖19所示的圖像捕獲元件112)和信號處理部分(未示出），圖像捕獲元件將通過鏡頭(未示出）入射的對象的光轉(zhuǎn)換為電信號，信號處理部分處理圖像捕獲元件的輸出信號以生成捕獲圖像（圖像數(shù)據(jù))。也就是說，在圖像捕獲部分111中，在圖像捕獲元件的成像表面上形成通過鏡頭入射的對象的光學圖像，圖像捕獲元件在此狀態(tài)下執(zhí)行圖像捕獲操作，并且信號處理部分對于成像信號執(zhí)行信號處理，因此生成捕獲圖像?；趶牟僮鹘邮詹糠?40或定時器設(shè)置部分150輸出的圖像捕獲操作的開始指令信息生成捕獲圖像。此外，生成的捕獲圖像提供并保持在捕獲圖像保持部分115中。此外，生成的捕獲圖像提供到顯示控制部分190，然后在顯示部分191上顯示。此外，生成的捕獲圖像和在生成捕獲圖像時每個鏡頭(例如，聚焦鏡頭和變焦鏡頭）的位置和聚焦位置提供到對象信息生成部分120。
[0064]捕獲圖像保持部分115是用于將由圖像捕獲部分111生成的捕獲圖像保持預(yù)定時間的環(huán)形緩沖器，并且將保持的捕獲圖像提供到選擇部分170。此外，捕獲圖像保持部分115保持與由圖像捕獲部分111生成的捕獲圖像相關(guān)的由對象信息生成部分120生成的對象信息。這里，當捕獲圖像保持在捕獲圖像保持部分115時的預(yù)定時間例如可以是3到10秒。也就是說，由圖像捕獲部分111生成的最新捕獲圖像和由對象信息生成部分120生成的對象信息在捕獲圖像保持部分115中保持3到10秒。
[0065]對象信息生成部分120基于由圖像捕獲部分111生成的捕獲圖像和在生成捕獲圖像時的每條信息(例如，鏡頭的位置和聚焦位置)，生成與捕獲圖像有關(guān)的對象信息。此外，對象信息生成部分120將生成的對象信息提供到捕獲圖像保持部分115，并且允許它保持在其中。例如，對象信息例如是用于從由圖像捕獲部分111生成的捕獲圖像中包括的對象中辨別目標對象區(qū)域和其背景區(qū)域的信息。例如，生成深度圖作為對象信息。這里，深度圖是指示從圖像捕獲位置(例如，圖像捕獲裝置100的位置）到捕獲圖像中包括的圖像的距離的數(shù)據(jù)。作為生成深度圖的技術(shù)，例如，可以使用如TOF(飛行時間)、散焦深度等的技術(shù)。例如，TOF技術(shù)是用于基于從光源發(fā)射的光從對象反射并且到達傳感器期間的延遲時間和光的速度計算到對象的距離的技術(shù)。
[0066]聲音輸入部分131獲得圖像捕獲裝置100周圍的聲音，并且將獲得的聲音(聲音數(shù)
11據(jù))輸出到特定聲音檢測部分132。例如，通過多個麥克風等實現(xiàn)聲音輸入部分131。
[0067]特定聲音檢測部分132基于從聲音輸入部分131輸出的聲音檢測特定聲音，并且在檢測到特定聲音的情況下，將其輸出到選擇部分170。在本發(fā)明的第一實施例中，示例了在高爾夫揮桿期間高爾夫球桿與高爾夫球接觸的時刻生成的聲音(撞擊聲音)的情況。例如，特定聲音檢測部分132將與特定聲音有關(guān)的特征量預(yù)先存儲為特定聲音識別信息(參考數(shù)據(jù))。然后，特定聲音檢測部分132從由聲音輸入部分131輸出的聲音提取特征量，并且比較提取的特征量與特定聲音識別信息以計算相似度。在計算的相似度超過閾值的情況下，特定聲音檢測部分132確定從聲音輸入部分131輸出的聲音是特定聲音。具體地，從聲音輸入部分131輸出的聲音數(shù)據(jù)通過AD (模擬到數(shù)字)轉(zhuǎn)換處理采樣，并且轉(zhuǎn)換為數(shù)字數(shù)據(jù)。此外，以適當?shù)臅r間間隔對數(shù)字數(shù)據(jù)執(zhí)行如頻率分析的處理，使得數(shù)字數(shù)據(jù)轉(zhuǎn)換為指示聲音的頻譜或其它聲學特征的參數(shù)。因此，提取聲音的時間序列特征量。此外，使用保持的參考數(shù)據(jù)執(zhí)行與提取的時間序列特征量的匹配處理，然后聲音識別結(jié)果輸出為匹配處理的結(jié)果?？梢允褂酶鞣N其它現(xiàn)有方法執(zhí)行聲音分析和識別。
[0068]操作接收部分140接收通過用戶操作的操作內(nèi)容，并且輸出基于接收的操作內(nèi)容的操作信號到圖像捕獲部分111、定時器設(shè)置部分150、有效聲音范圍設(shè)置部分160和顯示控制部分190。例如，當接收指示用于生成合成圖像的合成圖像記錄模式的設(shè)置的合成圖像記錄模式設(shè)置操作時，操作接收部分140輸出用于指令開始圖像捕獲操作的控制信號到圖像捕獲部分111。然后，操作接收部分140輸出用戶指令捕獲圖像的顯示開始的控制信號到顯示控制部分190。例如，通過合成圖像記錄模式的設(shè)置按鈕的按壓操作執(zhí)行合成圖像記錄模式的設(shè)置操作。此外，例如，當接收用于指令合成圖像記錄模式的解除的合成圖像記錄模式解除操作時，操作接收部分140輸出用于停止圖像捕獲操作的控制信號到圖像捕獲部分111。例如，通過合成圖像記錄模式的解除按鈕執(zhí)行合成圖像記錄模式解除操作。此夕卜，例如，當在設(shè)置合成圖像記錄模式的情況下接收合成圖像的記錄指令操作時，操作接收部分140輸出指示接收到合成圖像的記錄指令操作的控制信號到有效聲音范圍設(shè)置部分160。然后，操作接收部分140輸出用于停止圖像捕獲操作的控制信號到圖像捕獲部分111。例如，通過視頻記錄按鈕(REC按鈕)執(zhí)行合成圖像的記錄指令操作。此外，例如，當接收用于通過定時器設(shè)置在合成圖像記錄模式中執(zhí)行圖像捕獲操作的定時器設(shè)置操作時，操作接收部分140輸出用于指令定時器設(shè)置的控制信號到定時器設(shè)置部分150。例如，通過定時器設(shè)置按鈕執(zhí)行定時器設(shè)置操作。此外，當按壓定時器設(shè)置按鈕時，可以執(zhí)行計數(shù)器值(例如，8到17秒的設(shè)置)的設(shè)置操作。可以使用如提供在圖像捕獲裝置100上的按鈕的操作部件輸入這些操作，并且可以通過遙控器操作等由無線通信執(zhí)行這些操作。
[0069]定時器設(shè)置部分150設(shè)置用于在合成圖像記錄模式中執(zhí)行圖像捕獲操作的定時器(例如，自定時器功能)。具體地，如果通過操作接收部分140接收定時器設(shè)置操作，則定時器設(shè)置部分150輸出用于指令開始圖像捕獲操作的控制信號到圖像捕獲部分111。此外，定時器設(shè)置部分150輸出用于指令捕獲圖像的顯示開始的控制信號和由于定時器設(shè)置的計數(shù)值到顯示控制部分190。此外，在計數(shù)值的顯示開始之后，定時器設(shè)置部分150根據(jù)設(shè)置的內(nèi)容順序輸出計數(shù)值到顯示控制部分190。因此，如圖6A和6B所示，由圖像捕獲部分111生成的捕獲圖像顯示在顯示部分191上，并且計數(shù)值重疊并且顯示在捕獲圖像上。例如，對于每秒一個接一個計數(shù)的計數(shù)值顯示在顯示部分191上。此外，在設(shè)置的定時器的計數(shù)值是“零”的情況下，定時器設(shè)置部分150輸出指示該事實的控制信號到有效聲音范圍設(shè)置部分160。此外，定時器設(shè)置部分150輸出用于停止圖像捕獲操作的控制信號到圖像捕獲部分111。
[0070]在設(shè)置合成圖像記錄模式的情況下，有效聲音范圍設(shè)置部分160設(shè)置用于確定由特定聲音檢測部分132檢測到的特定聲音是否有效的有效聲音范圍。此外，有效聲音范圍設(shè)置部分160輸出關(guān)于設(shè)置的有效聲音范圍(有效聲音范圍和在設(shè)置該范圍時用作參考的時間軸上的位置)的信息到選擇部分170。具體地，在通過操作接收部分140接收合成圖像的記錄指令操作的情況下，或者在通過定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值變?yōu)椤傲恪钡那闆r下，有效聲音范圍設(shè)置部分160設(shè)置有效聲音范圍。這里，在通過操作接收部分140接收合成圖像的記錄指令操作的情況下，接收合成圖像的記錄指令操作的時間軸上的位置變?yōu)閰⒖嘉恢?。此外，由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值變?yōu)椤傲恪保嫈?shù)值變?yōu)椤傲恪钡臅r間軸上的位置變?yōu)閰⒖嘉恢?。將參照圖5A到7C等詳細描述有效聲音范圍的這些設(shè)置方法。此外，有效聲音范圍設(shè)置部分160是權(quán)利要求中公開的確定范圍設(shè)置部分的示例。
[0071]選擇部分170從捕獲圖像保持部分115中保持的捕獲圖像中，依靠層處理部分180選擇在合成圖像的生成處理中使用的合成目標圖像。此外，選擇部分170輸出關(guān)于選擇的合成目標圖像的信息(例如，合成目標圖像、關(guān)于這些圖像的對象信息、以及在合成圖像的生成處理中使用的坐標)到層處理部分180。將參照圖2詳細描述選擇部分170的內(nèi)部配置。此外，選擇部分170是在權(quán)利要求中公開的控制部分的示例。
[0072]層處理部分180使用由選擇部分170選擇的合成目標圖像生成合成圖像，然后將生成的合成圖像存儲在合成圖像存儲部分200中。將參照圖2詳細描述層處理部分180的內(nèi)部配置。此外，層處理部分180是權(quán)利要求中公開的合成圖像生成部分的示例。
[0073]合成圖像保持部分185在依靠層處理部分180的合成圖像的生成處理時的合成處理期間保持合成圖像(歷史圖像)，并且將保持的合成圖像提供到層處理部分180。將參照圖2詳細描述合成圖像保持部分185。
[0074]顯示控制部分190根據(jù)由操作接收部分140接收的操作輸入，在顯示部分191上顯示合成圖像存儲部分200中存儲的合成圖像或從圖像捕獲部分111輸出的捕獲圖像。此夕卜，顯示控制部分190將由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值與要在顯示部分191上顯示的捕獲圖像重疊。
[0075]顯示部分191在顯示控制部分190的控制下顯示每個圖像。
[0076]合成圖像存儲部分200存儲由層處理部分180生成的合成圖像，并且將存儲的合成圖像提供到顯示控制部分190。
[0077]圖2是圖示根據(jù)本發(fā)明的第二實施例的選擇部分170和層處理部分180的功能配置的示例的框圖。選擇部分170包括合成目標圖像選擇范圍確定部分171、合成目標圖像選擇部分172、坐標計算部分173和計數(shù)器部分174。此外，層處理部分180包括層分離部分181、層修改部分182和層合成部分183。
[0078]合成目標圖像選擇范圍確定部分171在捕獲圖像保持部分115中保持的捕獲圖像中，確定用于選擇在依靠層處理部分180的合成圖像的生成處理中使用的合成目標圖像的范圍(合成目標圖像選擇范圍)。具體地，合成目標圖像選擇范圍確定部分171基于由特定CN 103533285 A
書
明
說
10/36 頁
聲音檢測部分132檢測到的特定聲音的檢測位置(時間軸上的位置)和由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍確定合成目標圖像選擇范圍。例如，在特定聲音的檢測位置包括在有效聲音范圍內(nèi)的情況下，合成目標圖像選擇范圍確定部分171基于特定聲音的檢測位置確定合成目標圖像選擇范圍。另一方面，在特定聲音的檢測位置不包括在有效聲音范圍內(nèi)的情況下，合成目標圖像選擇范圍確定部分171基于設(shè)置有效聲音范圍時變?yōu)閰⒖嫉臅r間軸上的位置確定合成目標圖像選擇范圍。這里，在由操作接收部分140接收合成圖像的記錄指令操作的情況下，接收合成圖像的記錄指令操作的時間軸上的位置變?yōu)閰⒖嘉恢?。此外，在由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值變?yōu)椤傲恪钡那闆r下，計數(shù)值變?yōu)椤傲恪钡臅r間軸上的位置變?yōu)閰⒖嘉恢?。此外，合成目標圖像選擇范圍確定部分171輸出關(guān)于確定的合成目標圖像選擇范圍的信息(例如，合成目標圖像選擇范圍和關(guān)于包括在該范圍中的圖像的對象信息）到合成目標圖像選擇部分172。合成目標圖像選擇范圍確定部分171是權(quán)利要求中公開的確定部分的示例。
[0079]合成目標圖像選擇部分172從由合成目標圖像選擇范圍確定部分171確定的合成目標圖像選擇范圍中包括的各個圖像中，選擇在依靠層處理部分180的合成圖像的生成處理中使用的合成目標圖像。例如，合成目標圖像選擇部分172從由合成目標圖像選擇范圍確定部分171確定的合成目標圖像選擇范圍中包括的各個圖像(在捕獲圖像保持部分115中保持的捕獲圖像沖，選擇以預(yù)定的時間間隔的圖像作為合成目標圖像。此外，例如，可以選擇合成目標圖像以具有適于可視化目標對象的運動轉(zhuǎn)變的間隔。此外，合成目標圖像選擇部分172輸出關(guān)于選擇的合成目標圖像的信息(例如，合成目標圖像、關(guān)于這些圖像的對象信息）到坐標計算部分173和層分離部分181。
[0080]坐標計算部分173對于從合成目標圖像選擇部分172輸出的每個合成目標圖像計算在通過層處理部分180的合成圖像的生成處理中使用的坐標，并且將計算的坐標輸出到層修改部分182。在該坐標計算中，計算要與和作為計算目標的合成目標圖像有關(guān)的合成圖像合成的像素位置。也就是說，在該坐標計算中，計算對應(yīng)于作為最終生成的合成圖像(例如，圖8D中示出的合成圖像402)中的計算目標的合成目標圖像的像素范圍(例如，圖8D中示出的包括H)和FlO的范圍）。
[0081]計數(shù)器部分174提供在通過合成目標圖像選擇范圍確定部分171的合成目標圖像選擇范圍確定時使用的計數(shù)器(撞擊聲音檢測計數(shù)器）的值到合成目標圖像選擇范圍確定部分171。這里，計數(shù)器部分174連續(xù)增加撞擊聲音檢測計數(shù)器。此外，在從特定聲音檢測部分132檢測到的特定聲音輸出到合成目標圖像選擇范圍確定部分171的事實的情況下，通過合成目標圖像選擇范圍確定部分171將撞擊聲音檢測計數(shù)器的值重置為“零”。類似地，在重置后，計數(shù)器部分174還連續(xù)增加撞擊聲音檢測計數(shù)器。此外，合成目標圖像選擇范圍確定部分171在合成目標圖像選擇范圍的確定時使用撞擊聲音檢測計數(shù)器的值估計撞擊聲音檢測位置。也就是說，在合成目標圖像選擇范圍的確定時，估計領(lǐng)先確定時間撞擊聲音檢測計數(shù)器的值的位置(在時間軸上的領(lǐng)先位置）為撞擊聲音檢測位置。
[0082]層分離部分181對于由合成目標圖像選擇部分172選擇的合成目標對象使用相應(yīng)的對象信息執(zhí)行層分離。這里，術(shù)語“層”指對于每個圖像(幀)通過分離目標對象部分和背景部分獲得的每個圖像。此外，層分離部分181輸出每個分離的層圖像到層修改部分182。
[0083]層修改部分182使用通過坐標計算部分173計算的坐標，執(zhí)行多種修改處理，用于
14生成從層分離部分181輸出的各個層圖像作為合成圖像。作為該修改處理，執(zhí)行如剪切、縮放、旋轉(zhuǎn)和坐標移動的幾何算術(shù)處理。例如，縮放具有根據(jù)合成目標圖像的數(shù)目、合成圖像的尺寸等確定的其處理內(nèi)容。此外，作為修改處理，可以執(zhí)行如對于目標對象的運動部分的強調(diào)的圖像處理。此外，層修改部分182輸出處理的層圖像到層合成部分183。
[0084]層合成部分183對于從層修改部分182輸出的層圖像執(zhí)行圖像合成處理，并且將生成的合成圖像存儲到合成圖像存儲部分200。具體地，層合成部分183合成各個層圖像，使得從層修改部分182輸出的層圖像安排在相應(yīng)的像素范圍內(nèi)。此外，層合成部分183合成緊接在合成目標之前的層圖像，然后將合成圖像(歷史圖像)順序保持在合成圖像保持部分185中。此外，當執(zhí)行變?yōu)橄乱粋€合成目標的層圖像的合成處理時，層合成部分183從合成圖像保持部分185獲得在合成圖像保持部分185中保持的合成圖像(歷史圖像)，并且在合成處理中使用它們。
[0085]合成圖像保持部分185順序保持由層合成部分183生成的合成圖像(歷史圖像)，并且將保持的合成圖像提供到層合成部分183。也就是說，由層合成部分183生成的合成圖像被順序更新，并保持在合成圖像保持部分185中。
[0086][合成圖像生成處理的轉(zhuǎn)變的示例]
[0087]接下來，將簡要描述在生成合成圖像的情況下的生成處理的轉(zhuǎn)變的示例。
[0088]圖3A到3C是示意性圖示根據(jù)本發(fā)明的第一實施例、圖像捕獲裝置100和作為圖像捕獲目標的人300之間的位置關(guān)系以及以該位置關(guān)系生成的運動圖像的關(guān)系的圖。
[0089]圖3A示意性圖示圖像捕獲裝置100和作為相對于圖像捕獲裝置100的圖像捕獲目標的人300之間的位置關(guān)系。例如，人300在高爾夫練習場中練習揮桿高爾夫球桿301。隨著人300從圖3A所示的姿勢揮動高爾夫球桿301，人300用高爾夫球桿301擊打高爾夫球302以在希望的方向驅(qū)動高爾夫球302。
[0090]圖3B以矩形形狀示意性圖示由圖像捕獲部分111生成的運動圖像310。此外，在圖3B中，以對應(yīng)于運動圖像310的矩形形狀，沿著時間軸排列用于形成運動圖像310的各幀中的一些幀(圖像311到313等)。此外，運動圖像310是通過由圖3A所示的狀態(tài)下的圖像捕獲裝置100成像人300的高爾夫練習揮桿的外觀獲得的運動圖像。這里，圖像311是通過成像人300準備好高爾夫揮桿的狀態(tài)所獲得的圖像，并且圖像312是通過成像人300觀察完成高爾夫揮桿之后高爾夫球302飛行的方向的狀態(tài)所獲得的圖像。此外，圖像313是通過成像當人300進行高爾夫揮桿時高爾夫球桿301與高爾夫球302接觸時的瞬間的狀態(tài)所獲得的圖像。這里，當人300進行高爾夫揮桿時，在高爾夫球桿301與高爾夫球302接觸的瞬間生成特定聲音(撞擊聲音)。生成撞擊聲音的運動圖像310中的位置表不為撞擊聲音生成位置315。
[0091]在使用如此生成的運動圖像310生成指示人300的高爾夫揮桿的轉(zhuǎn)變的合成圖像的情況下，例如，選擇用于選擇合成目標圖像的預(yù)定范圍(合成目標圖像選擇范圍)。合成目標圖像選擇范圍是這樣的范圍，其中包括例如從高爾夫揮桿開始到其結(jié)束的一系列運動轉(zhuǎn)變。此外，在預(yù)定范圍中，選擇和合成作為合成目標的圖像。在圖4B中示出該合成示例。
[0092]例如，如圖3B所示，在運動圖像310中確定合成目標圖像選擇范圍320，并且在合成目標圖像選擇范圍320中包括的各個巾貞中,確定滿足預(yù)定條件的巾貞作為合成目標圖像。
[0093]在圖3C中，沿著時間軸排列在圖3B所不的運動圖像310中確定的合成目標圖像選擇范圍320中包括的各個幀中的一些幀(圖像321到326)。這里，運動圖像321是當人300開始高爾夫揮桿時成像的圖像，而圖像326是當人300結(jié)束高爾夫揮桿時成像的圖像。此外，圖像323是對應(yīng)于圖3B中示出的圖像313的圖像。此外，圖像322、324和325是在圖像321和326之間通過以時間序列方式成像進行高爾夫揮桿的人300的運動轉(zhuǎn)變所獲得的圖像。
[0094]圖4A和4B是圖示根據(jù)本發(fā)明的第一實施例、由合成目標圖像選擇部分172選擇的合成目標圖像和由層處理部分180生成的合成圖像的示例的圖。在圖4A中，以時間序列方式排列在圖3B所示的運動圖像310中的合成目標圖像選擇范圍320中包括的各個幀中選擇作為合成目標圖像的24個圖像。在圖4A中所示的24個圖像中包括與圖3C中所示的圖像321到326相同對象的圖像給出相同的參考標號。這里，例如用于選擇處于預(yù)定間隔的幀作為合成目標圖像的選擇方法可以用作合成目標圖像的選擇方法。此外，例如，在一些情況下可以考慮精密地確認在高爾夫球桿301與高爾夫球302接觸時的時間左右的運動變換。在此情況下，當生成撞擊聲音時的圖像(例如，圖像323)的相鄰圖像的間隔可以比用于選擇合成目標圖像的其它間隔更緊密。
[0095]圖4B示意性圖示通過層處理部分180生成的合成圖像330。以此方式，確定其中包括從人300的高爾夫揮桿的開始到其結(jié)束的運動轉(zhuǎn)變的合成目標圖像選擇范圍，并且在該合成目標圖像選擇范圍中選擇合成目標圖像用于合成。因此，可以生成指示人300的高爾夫揮桿的運動轉(zhuǎn)變的合成圖像。
[0096]如上所述，在從運動圖像310生成合成圖像的情況下，重要的是適當?shù)剡x擇用于合成目標圖像的選擇的合成目標圖像選擇范圍。然而，因為在相對短時間內(nèi)進行高爾夫揮桿，所以可能難以從運動圖像310適當?shù)剡x擇合成目標圖像選擇范圍。也就是說，可能難以從運動圖像310選擇合成目標圖像選擇范圍，所述運動圖像310包括從人300的高爾夫揮桿的開始之前的狀態(tài)的圖像到包括高爾夫揮桿的結(jié)束之后的狀態(tài)的圖像范圍內(nèi)的圖像。
[0097]這里，如上所述，在高爾夫揮桿中間生成撞擊聲音。以此方式，因為在高爾夫揮桿期間在預(yù)定位置頻繁生成撞擊聲音，所以可以基于撞擊聲音選擇合成目標圖像選擇范圍。然而，在人300在存在很多其它人的高爾夫練習場練習時，在人300準備好高爾夫揮桿等時，很可能由不同于人300的人的高爾夫揮桿生成撞擊聲音。也就是說，在適當?shù)赜涗浥c導(dǎo)致撞擊聲音有關(guān)的瞬時運動的情況下，如果檢測到的撞擊聲音總是有效，則很可能錯誤地檢測來自不同于檢測目標的人的撞擊聲音。為此，在生成與人300有關(guān)的合成圖像的情況下，重要的是當基于撞擊聲音選擇合成目標圖像選擇范圍時，適當?shù)貦z測由人300的高爾夫揮桿生成的撞擊聲音。因此，在本發(fā)明的第一實施例中，提供設(shè)置有效聲音范圍以減少撞擊聲音錯誤檢測的示例，其中僅僅基于用戶操作的拍攝觸發(fā)左右的鄰近定時有效。僅使用在有效聲音范圍中檢測到的撞擊聲音設(shè)置合成目標圖像選擇范圍，從而選擇適當?shù)暮铣赡繕藞D像。
[0098][基于視頻記錄按鈕操作的合成目標圖像選擇范圍的確定示例]
[0099]圖5A、5B和5C是不意性圖不根據(jù)本發(fā)明的第一實施例、通過有效聲音范圍設(shè)置部分160的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分171的合成目標圖像選擇范圍的確定方法的圖。
[0100]圖5A以矩形形狀示意性圖示通過圖像捕獲部分111生成的運動圖像350。此外，CN 103533285 A
書
明
說
13/36 頁
以類似于圖3B所示的示例的方法，運動圖像350是通過由圖像捕獲裝置100成像人(例如，Koda Goro)的高爾夫練習揮桿所獲得的運動圖像。這里，假設(shè)Koda Goto要他的朋友(例如,Otogawa Rokuro)拍攝他的高爾夫揮桿。在此情況下,Otogawa Rokuro用他的手把持圖像捕獲裝置100，其中圖像捕獲裝置100的光軸方向朝向Koda Goro0如果通過操作接收部分140接收到按壓操作，則通過圖像捕獲部分111生成捕獲圖像，并且生成的捕獲圖像順序地保持在成像圖像保持部分115中。此外，顯示控制部分190在顯示部分191上順序顯示生成的捕獲圖像(所謂通過圖像（through image))。以此方式,在Otogawa Rokuro使用其中設(shè)置合成圖像記錄模式的圖像捕獲裝置100執(zhí)行拍攝的狀態(tài)下，Koda Goro進行高爾夫揮桿。就在Koda Goro完成高爾夫揮桿之后,Otogawa Rokuro迅速按壓視頻記錄按鈕。如果通過操作接收部分140接收到按壓操作，則有效聲音范圍設(shè)置部分160設(shè)置有效聲音范圍。
[0101]例如，假設(shè)由Otogawa Rokuro按壓視頻記錄按鈕的位置（時間軸上的位置）是圖5A所示的運動圖像350的時間軸上的視頻記錄按鈕的按壓位置(視頻記錄按鈕按壓位置351)。在此情況下，有效聲音范圍設(shè)置部分160基于視頻記錄按鈕按壓位置351設(shè)置有效聲音范圍352。具體地，有效聲音范圍設(shè)置部分160在時間軸上設(shè)置領(lǐng)先視頻記錄按鈕按壓位置351時間LI的范圍作為有效聲音范圍352。在該示例中，因為可以在一系列高爾夫揮桿運動的結(jié)束之后生成視頻記錄按鈕的按壓(拍攝觸發(fā))，所以撞擊聲音的生成位置可能存在于拍攝觸發(fā)的定時之前。因此，該示例是其中在視頻記錄按鈕的按壓之前設(shè)置有效聲音范圍的示例。
[0102]這里，例如，時間LI可以是I. O秒。基于在以此方式設(shè)置的有效聲音范圍中檢測到的撞擊聲音確定合成目標圖像選擇范圍。將參照圖5B描述合成目標圖像選擇范圍的確定方法。此外，在以此方式設(shè)置的有效聲音范圍中沒有檢測到撞擊聲音的情況下，基于視頻記錄按鈕按壓位置351確定合成目標圖像選擇范圍。將參照圖5C描述合成目標圖像選擇范圍的確定方法。
[0103]圖5B示意性圖示在通過有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍352中檢測到撞擊聲音的情況下，合成目標圖像選擇范圍的確定方法。在圖5B中，通過特定聲音檢測部分132檢測到撞擊聲音的位置(時間軸上的位置)表示為撞擊聲音檢測位置353。如圖5B所示，在通過有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍352中檢測到撞擊聲音的情況下，合成目標圖像選擇范圍確定部分171基于撞擊聲音檢測位置353確定合成目標圖像選擇范圍。也就是說，合成目標圖像選擇范圍確定部分171參照撞擊聲音檢測位置353，確定在時間軸上的撞擊聲音檢測位置353前后的預(yù)定范圍作為合成目標圖像選擇范圍354。具體地，合成目標圖像選擇范圍確定部分171在時間軸上確定范圍L4，其包括領(lǐng)先撞擊聲音檢測位置353時間L2的范圍和超過撞擊聲音檢測位置353時間L3的范圍作為合成目標圖像選擇范圍354。
[0104]這里，考慮高爾夫球桿的旋轉(zhuǎn)速度，在高爾夫球桿與高爾夫球接觸之后的高爾夫揮桿期間的時間比高爾夫球桿與高爾夫球接觸之前的時間短。也就是說，在生成撞擊聲音之后的高爾夫揮桿期間的時間比生成撞擊聲音之前的時間短。因此，確定合成目標圖像選擇范圍354，使得撞擊聲音檢測位置353之前的時間L2比其后的時間L3長。例如，時間L2可以是I. 5秒，而時間L3可以是O. 5秒。以此方式，由于基于在有效聲音范圍中檢測到的
17撞擊聲音確定合成目標圖像選擇范圍，所以可以確定適當?shù)暮铣赡繕藞D像選擇范圍。
[0105]這里，假設(shè)在不同于由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍352的位置(例如，由圖5B所示的箭頭358和359指示的位置)中檢測到撞擊聲音。在不同于有效聲音范圍352的位置檢測到撞擊聲音的情況下,撞擊聲音不用于合成目標圖像選擇范圍的確定。在不使用撞擊聲音的情況下，可以基于視頻記錄按鈕的按壓位置確定合成目標圖像選擇范圍。此外，在不同于有效聲音范圍352的位置檢測到撞擊聲音的情況下,撞擊聲音不用于合成目標圖像選擇范圍的確定，但是可以用于下一個合成圖像的生成處理。
[0106]圖5C示意性圖示在通過有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍352中沒有檢測到撞擊聲音的情況下，合成目標圖像選擇范圍的確定方法。在圖5C中，以與圖5A的情況類似的方式，按壓視頻記錄按鈕的位置表示為視頻記錄按鈕按壓位置351。如圖5C所示，在有效聲音范圍352中沒有檢測到撞擊聲音的情況下，合成目標圖像選擇范圍確定部分171基于視頻記錄按鈕按壓位置351確定合成目標圖像選擇范圍。也就是說，合成目標圖像選擇范圍確定部分171參照視頻記錄按鈕按壓位置351,確定時間軸上在視頻記錄按鈕按壓位置351之前的預(yù)定范圍作為合成目標圖像選擇范圍355。具體地，合成目標圖像選擇范圍確定部分171確定時間軸上領(lǐng)先撞擊聲音檢測位置353時間L7 (L5+L6)的范圍作為合成目標圖像選擇范圍355。以此方式，在有效聲音范圍352中沒有檢測到撞擊聲音的情況下，將時間軸上領(lǐng)先視頻記錄按鈕的按壓位置時間L6的位置當作撞擊聲音檢測位置，以確定合成目標圖像選擇范圍355。也就是說，時間L5和L6對應(yīng)于圖5B所示的時間L2和L3。這里，例如，以與圖5B的情況類似的方式，時間L7可以是2.0秒。也就是說，時間L5是
1.5秒，而時間L6是0.5秒。然而，在基于視頻記錄按鈕按壓位置確定合成目標圖像選擇范圍的情況下，因為基于用戶操作確定合成目標圖像選擇范圍，所以與圖5B所示的合成目標圖像選擇范圍354相比可能降低了精度。因此，在基于視頻記錄按鈕按壓位置確定合成目標圖像選擇范圍的情況下，例如，時間L7可以長于時間L4，以確定合成目標圖像選擇范圍。
[0107]此外，可以通過用戶操作改變這些時間LI到L7。
[0108][基于定時器的合成目標圖像選擇范圍的確定示例]
[0109]圖6A和6B是圖示根據(jù)本發(fā)明的第一實施例、在顯示部分191上顯示的顯示屏幕的轉(zhuǎn)換示例的圖。圖6A圖示在人300的高爾夫揮桿開始之前的顯示示例(顯示屏幕370)，其中由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值“17” (372)與由圖像捕獲部分111生成的圖像重疊。圖6B圖示在人300的高爾夫揮桿結(jié)束時的顯示示例(顯示屏幕371)，其中由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值“O”(373)與由圖像捕獲部分111生成的圖像重疊。
[0110]在該示例中，假設(shè)人300 (例如，Koda Goro)由他自己拍攝他的高爾夫練習揮桿的外觀。在此情況下，例如，正在練習的Koda Goro安裝圖像捕獲裝置100，使得其光軸指向他自己，如圖3A所示，然后按壓定時器設(shè)置按鈕。通過該按壓操作，通過圖像捕獲部分111生成捕獲圖像，并且顯示控制部分190在顯示部分191上顯示生成的捕獲圖像(所謂通過圖像)。此外，定時器設(shè)置部分150通過定時器設(shè)置按鈕的按壓操作設(shè)置定時器，并且顯示控制部分190將對應(yīng)于該設(shè)置內(nèi)容的計數(shù)值(例如，17秒)與要在顯示部分191上顯示的通過圖像重疊。例如，如圖6A所示，在按壓定時器設(shè)置按鈕之后，顯示顯示屏幕370，其中由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值“17” (372)與包括準備高爾夫揮桿的人300的捕CN 103533285 A
書
明
說
15/36 頁
獲圖像重疊。此后，類似地，在顯示部分191上顯示顯示屏幕，其中定時器的計數(shù)值(例如，以一秒的間隔從17秒減小的值)與包括人300的捕獲圖像重疊。在觀看以此方式在顯示部分191上顯示的顯示屏幕的同時，人300進行高爾夫揮桿，使得在定時器的計數(shù)值變?yōu)椤癘”時的時間左右終止高爾夫揮桿。此外，在定時器的計數(shù)值是“O”的情況下，有效聲音范圍設(shè)置部分160設(shè)置有效聲音范圍。然后，在預(yù)定時間之后停止成像運動。將參照圖7A、7B和7C詳細描述有效聲音范圍的設(shè)置方法。
[0111]隨著如上所述執(zhí)行定時器設(shè)置，例如，即使在朋友沒有執(zhí)行拍攝的情況下，人300也可以容易地拍攝他自己的高爾夫揮桿的外觀。
[0112]圖7A、7B和7C是示意性圖示根據(jù)本發(fā)明的第一實施例、通過有效聲音范圍設(shè)置部分160的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分171的合成目標圖像選擇范圍的確定方法的圖。這里，第一實施例提供其中基于由定時器設(shè)置部分150設(shè)置的定時器設(shè)置有效聲音范圍的示例。
[0113]圖7A以矩形形狀示意性圖示由圖像捕獲部分111生成的運動圖像380。以與圖3B所示的示例類似的方式，運動圖像380是通過由圖像捕獲裝置100成像人300 (例如，KodaGoro)的高爾夫練習揮桿的外觀所獲得的運動圖像。例如，如圖6A和6B所示，在人300(例如,Koda Goro )由他自己拍攝他的高爾夫練習揮桿的外觀時，假設(shè)由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值是“O”。在此情況下，如上所述，有效聲音范圍設(shè)置部分160設(shè)置有效聲音范圍。
[0114]例如，假設(shè)由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值是“O”的位置是圖7A所示的運動圖像380的時間計數(shù)器“O”在時間軸上的位置（時間計數(shù)器“O”位置381)。在此情況下，有效聲音范圍設(shè)置部分160基于時間計數(shù)器“O”位置381設(shè)置有效聲音范圍382。具體地，有效聲音范圍設(shè)置部分160參照時間計數(shù)器“O”位置381，設(shè)置在時間軸上時間計數(shù)器“O”位置381前后的預(yù)定范圍作為有效聲音范圍382。例如，有效聲音范圍設(shè)置部分160在時間軸上設(shè)置包括領(lǐng)先時間計數(shù)器“O”位置381時間Lll的范圍和超過時間計數(shù)器“O”位置381時間L12的范圍的范圍L13作為有效聲音范圍382。
[0115]這里，人300進行高爾夫揮桿以便在時間計數(shù)器“O”的定時終止該系列高爾夫揮桿運動可能是困難的。因此，在該示例中，生成撞擊聲音的瞬間可以對應(yīng)于時間計數(shù)器“O”的位置，并且有效聲音范圍設(shè)為覆蓋時間計數(shù)器“O”的位置前后的范圍。以此方式，基于視頻記錄按鈕的按壓位置設(shè)置有效聲音范圍的情況和基于時間計數(shù)器“O”的位置設(shè)置有效聲音范圍的情況可以具有不同設(shè)置內(nèi)容。隨著根據(jù)多個拍攝觸發(fā)特性設(shè)置有效聲音范圍，可能降低錯誤地檢測不同于要檢測的撞擊聲音的聲音的風險。
[0116]在該方面，例如，時間LI I可以是O. 5秒,而時間L12可以是O. 5秒。也就是說，例如，有效聲音范圍382的時間L13可以是I. O秒。在觀看在顯示部分191上顯示的顯示屏幕的同時，人300進行高爾夫揮桿，使得在定時器的計數(shù)值變?yōu)椤癘”時的時間附近終止高爾夫揮桿。為此，與基于按壓視頻記錄按鈕的位置設(shè)置有效聲音范圍的情況相比，可能降低精度。因此，基于定時器設(shè)置操作的有效聲音范圍可能比基于視頻記錄按鈕按壓操作的有效聲音范圍相對更寬。也就是說，基于視頻記錄按鈕按壓操作的有效聲音范圍可能比基于定時器設(shè)置操作的有效聲音范圍更短。基于以此方式在有效聲音范圍中檢測到的撞擊聲音確定合成目標圖像選擇范圍。將參照圖7B描述合成目標圖像選擇范圍的確定方法。此外，
19CN 103533285 A
書
明
說
16/36 頁
在以此方式?jīng)]有在有效聲音范圍中檢測到的撞擊聲音的情況下，基于時間計數(shù)器“O”位置381確定合成目標圖像選擇范圍。將參照圖7c描述合成目標圖像選擇范圍的確定方法。
[0117]圖7B示意性圖示在由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍382中檢測到撞擊聲音的情況下的合成目標圖像選擇范圍的確定方法。在圖7B中，其中由特定聲音檢測部分132檢測到撞擊聲音的位置(時間軸上的位置)表示為撞擊聲音檢測位置383。如圖7B所示，在由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍382中檢測到撞擊聲音的情況下，合成目標圖像選擇范圍確定部分171基于撞擊聲音檢測位置383確定合成目標圖像選擇范圍。也就是說，合成目標圖像選擇范圍確定部分171參照撞擊聲音檢測位置383，確定在時間軸上撞擊聲音檢測位置383前后的預(yù)定范圍作為合成目標圖像選擇范圍384。具體地，確定在時間軸上包括領(lǐng)先撞擊聲音檢測位置383時間L14的范圍和超過撞擊聲音檢測位置383時間L15的范圍的范圍L16作為合成目標圖像選擇范圍384。
[0118]這里，如上所述，在高爾夫球桿與高爾夫球接觸之后的高爾夫揮桿期間的時間比高爾夫球桿與高爾夫球接觸之前的時間短。因此，確定合成目標圖像選擇范圍384，使得撞擊聲音檢測位置383之前的時間L14比其后的時間L15長。例如，時間L14可以是I. 5秒，而時間L15可以是O. 5秒。以此方式，由于基于在有效聲音范圍中檢測到的撞擊聲音確定合成目標圖像選擇范圍，所以可以確定適當?shù)暮铣赡繕藞D像選擇范圍。
[0119]假設(shè)在不同于由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍382的位置(例如，由圖7B所示的箭頭388和389指示的位置)中檢測到撞擊聲音。以與圖5B所示的示例類似的方式，在以此方式在不同于有效聲音范圍382的位置檢測到撞擊聲音的情況下,撞擊聲音不用于合成目標圖像選擇范圍的確定。在不使用撞擊聲音的情況下，如圖7C所示，可以基于時間計數(shù)器“O”位置確定合成目標圖像選擇范圍。此外，在不同于有效聲音范圍382的位置檢測到撞擊聲音的情況下，撞擊聲音不用于合成目標圖像選擇范圍的確定，但是可以用于下一個合成圖像的生成處理。
[0120]圖7C示意性圖示在通過有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍382中沒有檢測到撞擊聲音的情況下，合成目標圖像選擇范圍的確定方法。在圖7C中，以與圖7A的情況類似的方式，其中由定時器設(shè)置部分150設(shè)置的定時器的計數(shù)值的為“O”的位置表示為時間計數(shù)器“O”位置381。如圖7C所示，在有效聲音范圍382中沒有檢測到撞擊聲音的情況下，合成目標圖像選擇范圍確定部分171基于時間計數(shù)器“O”位置381確定合成目標圖像選擇范圍。也就是說，合成目標圖像選擇范圍確定部分171參照時間計數(shù)器“O”位置381，確定時間軸上在時間計數(shù)器“O”位置381前后的預(yù)定范圍作為合成目標圖像選擇范圍385。具體地，有效聲音范圍設(shè)置部分160設(shè)置范圍L19作為合成目標圖像選擇范圍385，范圍L19包括時間軸上領(lǐng)先時間計數(shù)器“O”位置381時間L17的范圍和超過時間計數(shù)器“O”位置381時間L18的范圍。
[0121]這里，在觀看顯示部分191上顯示的顯示屏幕的同時，人300進行高爾夫揮桿，使得在定時器的計數(shù)值變?yōu)椤癘”時的時間左右終止高爾夫揮桿。為此，如圖5C所示，與基于按壓視頻記錄按鈕的位置確定合成目標圖像選擇范圍的情況相比，可能降低精度。因此，在有效聲音范圍382中沒有檢測到有效聲音的情況下，考慮時間軸上定時器的計數(shù)值是“O”的位置（時間計數(shù)器“O”位置381)作為撞擊聲音檢測位置，以便確定合成目標圖像選擇范圍 385。
20[0122]此外，時間L17和L18對應(yīng)于圖7B所示的時間L14和L15。此外，例如，以類似于圖7B的示例的方式，時間L17是1.5秒，而時間L18是0.5秒。如上所述，在基于定時器的計數(shù)值是“O”的位置確定合成目標圖像選擇范圍的情況下，基于由于用戶的感覺的動作確定合成目標圖像選擇范圍。為此,與圖7B所示的合成目標圖像選擇范圍384相比,可能降低精度。因此，在基于定時器的計數(shù)值是“O”的位置確定合成目標圖像選擇范圍的情況下，例如，時間L19可以比時間L16更長，以便確定合成目標圖像選擇范圍。
[0123]此外，各個時間Lll到L19可以通過用戶操作改變。
[0124][合成圖像的生成示例]
[0125]接下來，將參照附圖詳細描述使用確定的合成目標圖像選擇范圍中包括的每個幀生成合成圖像的示例。在本發(fā)明的第一實施例中，將描述生成靜態(tài)圖像的合成圖像的情況作為示例。
[0126]圖8A、8B、8C和8D是示意性圖示根據(jù)本發(fā)明的第一實施例、通過選擇部分170的合成目標圖像的選擇處理和通過層處理部分180的合成圖像的生成處理的流程的示例的圖。
[0127]圖8A示意性圖示由圖像捕獲部分111生成的運動圖像400和在運動圖像400中由合成目標圖像選擇范圍確定部分171確定的合成目標圖像選擇范圍401。運動圖像400是以與圖3B等所示的示例類似的方式，通過由圖像捕獲裝置100成像人的高爾夫練習揮桿的外觀所獲得的運動圖像。此外，假設(shè)合成目標圖像選擇范圍401是以與圖5B和5C以及圖7B和7C所示的示例類似的方式，由合成目標圖像選擇范圍確定部分171確定的合成目標圖像選擇范圍。
[0128]圖8B示意性圖示運動圖像400中的合成目標圖像選擇范圍401中包括的各個中貞。在圖SB中，以矩形形狀示出合成目標圖像選擇范圍401中包括的各個幀。這里，以矩形形狀給出指示各個幀的Fl到F90。
[0129]合成目標圖像選擇部分172基于預(yù)定條件從合成目標圖像選擇范圍401中包括的各個幀中選擇合成目標圖像。例如，合成目標圖像選擇部分172在幀F(xiàn)l到F90中選擇處于預(yù)定間隔(例如，10幀間隔)的幀作為合成目標圖像。在此情況下，例如，包括在檢測到撞擊聲音的位置周圍的預(yù)定范圍(例如，0.05秒)內(nèi)的各幀的間隔可以比要選擇的其它間隔更緊密。因此，可以使用在要觀察的運動轉(zhuǎn)變周圍選擇的圖像生成合成圖像。在圖SC是示出以此方式選擇的合成目標圖像。在該示例中，為了描述的簡化，以相對少量幀為示例。
[0130]圖8C示意性圖示從合成目標圖像選擇范圍401中包括的各個巾貞中選擇作為合成目標圖像的多個合成目標圖像(幀HKFlO等)。在圖SC中，以矩形形狀示出合成目標圖像。這里，以矩形形狀給出指示每個合成目標圖像的HKFlO等。在該示例中，為了描述的簡化，以相對少量巾貞(例如，10巾貞)為示例。
[0131]圖8D示意性圖示由合成目標圖像(多個幀RKFlO等)生成的合成圖像402。在圖8D中，以矩形形狀示出合成目標圖像。這里，以矩形形狀給出指示每個合成目標圖像的H)、FlO 等。
[0132]層處理部分180通過修改處理合成由合成目標圖像選擇部分172選擇的合成目標圖像(幀F(xiàn)0、FlO等)，從而生成合成圖像。例如，層處理部分180對于由合成目標圖像選擇范圍確定部分171選擇的10個合成目標圖像執(zhí)行用于合成的修改處理(例如，相對端的剪CN 103533285 A
書
明
說
18/36 頁
切)，從而以時間序列方式合成修改之后的合成目標圖像。例如，層處理部分180從左上端部分起以時間序列方式合成要排列的5個合成目標圖像（FO、FlO、F20、F30和F40)，并且從左下端部分起以時間序列方式合成要排列的5個合成目標圖像（F50、F60、F70、F80和F90)?；谟勺鴺擞嬎悴糠?73的計算結(jié)果確定合成目標圖像的合成位置。因此，如圖4B所示，生成指示練習高爾夫揮桿的人的運動轉(zhuǎn)變的合成圖像。
[0133]在圖8A、8B、8C和8D中，已經(jīng)描述了其中容易執(zhí)行圖像合成的示例(其中在合成目標圖像的相對端的剪切之后執(zhí)行圖像合成)。下文中，將描述其中合成目標圖像分為目標圖像層和背景層以生成合成圖像的示例。
[0134][合成目標圖像的層分離示例]
[0135]圖9A和9B是示意性圖示根據(jù)本發(fā)明的第一實施例、通過層分離部分181的合成目標圖像的分離方法的圖。在該示例中，基于由對象信息生成部分120生成的對象信息，將由合成目標圖像選擇部分172選擇的合成目標圖像分為兩層。
[0136]圖9A圖示合成目標圖像410和為合成目標圖像410生成的對象信息412。合成目標圖像410是包括人411的圖像。此外，作為由對象信息生成部分120生成的對象信息，例如，生成指示“I”給到對應(yīng)于目標對象區(qū)域的像素并且“O”給到對應(yīng)于不同于目標對象的區(qū)域(例如，背景區(qū)域）的像素的信息。在圖9A中，對應(yīng)于人411的區(qū)域（目標對象區(qū)域）是白色區(qū)域413，并且不同于人411的區(qū)域(背景區(qū)域)是黑色區(qū)域，從而示意性圖示對象信息412。
[0137]如上所述，在捕獲圖像保持部分115中，順序保持由圖像捕獲部分111生成的捕獲圖像，并且與捕獲圖像相關(guān)地存儲由對象信息生成部分120生成的對象信息。此外，合成目標圖像選擇部分172輸出選擇的合成目標圖像和為合成目標圖像生成的對象信息到層分離部分181。然后，層分離部分181使用相應(yīng)的目標信息，將從合成目標圖像選擇部分172輸出的合成目標圖像分為兩層。
[0138]圖9B圖示由層分離部分181分離的目標對象層420和背景層422。目標對象層420通過在圖9A所示的合成目標圖像410中提取目標對象區(qū)域(也就是說，給出“I”作為目標信息412的像素區(qū)域)所獲得的圖像。也就是說，提取合成目標圖像410中包括的對應(yīng)于人411的區(qū)域421。此外，背景層422是通過在圖9A所示的合成目標圖像410中提取背景區(qū)域(也就是說，給出“O”作為目標信息412的像素區(qū)域)所獲得的圖像。也就是說，提取對應(yīng)于不同于合成目標圖像410中包括的人411的區(qū)域(背景區(qū)域）的區(qū)域(不同于區(qū)域423的區(qū)域)。
[0139]對于以此方式分離的各個層圖像，通過層修改部分182執(zhí)行多種修改處理。將參照圖IOA到IOC詳細描述該修改示例。
[0140][合成目標圖像的修改示例]
[0141]圖10AU0B和IOC是示意性圖示根據(jù)本發(fā)明的第一實施例、作為通過層修改部分182的修改處理的目標的圖像和通過層修改裝置182修改的圖像的圖。這里，將描述為以站立姿勢執(zhí)行的運動（如高爾夫）生成合成圖像的情況作為示例。此外，在圖10A、10B和IOC中，為了描述的簡化，示出使用層分離之前的狀態(tài)的合成目標圖像執(zhí)行修改處理的情況作為示例。
[0142]圖IOA圖示依靠層修改部分182的修改之前的合成目標圖像430。此外，圖IOB和
22IOC圖示依靠層修改部分182的修改之后的合成目標圖像432和433。進行高爾夫揮桿的人431包括在合成目標圖像430、432和433中。
[0143]圖1OA所示的合成目標圖像430例如具有寬度Wl和高度Hl的圖像尺寸。合成目標圖像430的圖像尺寸例如可以是VGA尺寸(640像素X480像素)。也就是說，寬度Wl可以是640，而高度Hl可以是480。
[0144]圖1OB所示的合成目標圖像432是對應(yīng)于圖1OA所示的合成目標圖像430中的轉(zhuǎn)變運動有效區(qū)域的圖像，并且例如，具有寬度W2和高度H2的圖像尺寸。這里，轉(zhuǎn)變運動有效區(qū)域是用于從修改之前的合成目標圖像中包括的對象剪切目標對象的區(qū)域。例如，合成目標圖像432的圖像尺寸可以是320像素X480像素。也就是說，寬度W2可以是320，而高度H2可以是480。
[0145]圖1OC所示的合成目標圖像433是對應(yīng)于圖1OA所示的合成目標圖像430中的剩余背景區(qū)域的圖像，并且例如，具有寬度W3和高度H3的圖像尺寸。剩余背景區(qū)域是用作合成處理中的背景圖像的區(qū)域。例如，合成目標圖像433的圖像尺寸可以是160像素X480像素。也就是說，寬度W3可以是160,而聞度H3可以是480。
[0146]假設(shè)轉(zhuǎn)變運動有效區(qū)域和剩余背景區(qū)域之間的中心位置和合成目標圖像的中心位置重合。此外，轉(zhuǎn)變運動有效區(qū)域的尺寸(W2XH2)和剩余背景區(qū)域的尺寸(W3XH3)可以根據(jù)目標對象的轉(zhuǎn)變方向在它們的尺寸上相同(寬度和高度的至少一個)。例如，目標對象的轉(zhuǎn)變方向是其中當圖像表示為運動轉(zhuǎn)變圖像時圖像以時間方式進行的方向。
[0147]例如，在對于以站立姿勢執(zhí)行的運動(如高爾夫)的運動轉(zhuǎn)變生成合成圖像的情況下，如圖4B所示，很可能在橫向方向轉(zhuǎn)變每個目標對象。為此，如圖1OB和IOC所示，可能優(yōu)選的是轉(zhuǎn)變運動有效區(qū)域和剩余背景區(qū)域的高度H2和H3是與合成目標圖像的高度Hl相同的。另一方面，在對于在水平方向狀態(tài)下執(zhí)行的運動的運動轉(zhuǎn)變生成合成圖像的情況下，每個目標對象圖像可以在縱向方向轉(zhuǎn)變。在此情況下，可能優(yōu)選的是轉(zhuǎn)變運動有效區(qū)域和剩余背景區(qū)域的寬度W2和W3是與合成目標圖像的寬度Wl相同的。例如，在柔道中的場地工作變?yōu)槟繕藢ο蟮那闆r下，很可能在縱向方向執(zhí)行運動轉(zhuǎn)變。
[0148]圖10AU0B和IOC示出的這樣的示例，其中優(yōu)選的根據(jù)對象的尺寸或運動對于轉(zhuǎn)變運動有效區(qū)域和剩余背景區(qū)域的寬度和高度執(zhí)行適當?shù)脑O(shè)置，以便剪切圖像作為用于合成處理的圖像。
[0149][圖像合成示例]
[0150]圖1lA和IlB是示意性圖示根據(jù)本發(fā)明的第一實施例、通過層合成部分183的合成方法的圖。這里，本實施例提供這樣的示例，其中對于以時間序列方式連續(xù)的兩個合成目標圖像執(zhí)行合成處理。
[0151]圖1lA示意性圖示通過層分離部分181分離和通過層修改部分182修改的合成目標圖像(以時間序列方式連續(xù)的兩個合成目標圖像)。如上所述，合成目標圖像通過層分離部分181分離為目標對象層和背景層。此外，層修改部分182對于通過層分離部分181分離的目標對象層和背景層執(zhí)行修改處理。以此方式，隨著對以時間序列方式連續(xù)的兩個合成目標圖像執(zhí)行分離和修改，如圖1lA所示，生成四層(第一優(yōu)先級圖像441到第四優(yōu)先級圖像444)。
[0152]假設(shè)第一優(yōu)先級圖像441是時間軸上較晚進入的合成目標圖像的目標對象層，并且第三優(yōu)先級圖像443是合成目標圖像的背景層。此外，假設(shè)第二優(yōu)先級圖像442是時間軸上較早進入的合成目標圖像的目標對象層，并且第四優(yōu)先級圖像444是合成目標圖像的背景層。此外，在合成這些圖像的情況下，執(zhí)行合成使得覆蓋具有較高優(yōu)先級的圖像。
[0153]圖1lB圖示基于各個層圖像的優(yōu)先級生成的合成圖像450。也就是說，層合成部分183基于優(yōu)先級合成四層(第一優(yōu)先級圖像441到第四優(yōu)先級圖像444)，從而生成合成圖像450。合成圖像450是通過合成第一優(yōu)先級圖像441中包括的人圖像445和第二優(yōu)先級圖像442中包括的人圖像446以覆蓋在通過第三優(yōu)先級圖像443和第四優(yōu)先級圖像444合成的背景區(qū)域上所獲得的圖像。在此情況下，合成第三優(yōu)先級圖像443以覆蓋在第四優(yōu)先級圖像444上。此外，合成第一優(yōu)先級圖像中包括的人圖像445以覆蓋在第二優(yōu)先級圖像442中包括的人圖像446上。
[0154]如圖12A和12B所示，在順序合成三個或更多合成目標圖像以生成合成圖像的情況下，以時間序列方式順序合成合成目標圖像，從而生成合成圖像。此外，在以時間序列方式連續(xù)的兩個合成目標圖像中，在時間軸上較早進入的合成目標圖像保持在合成圖像保持部分185中，直到較晚進入的合成目標圖像的合成處理時間。
[0155]圖12A和12B是示意性圖示根據(jù)本發(fā)明的第一實施例、依靠層合成部分183的合成目標圖像的合成方法的圖。這里，示出直到生成圖12B所示的合成圖像460的合成目標圖像的合成示例。
[0156]圖12A圖示在直到生成圖12B所示的合成圖像460的某一時間點的合成狀態(tài)。例如，假設(shè)圖12A所示的狀態(tài)是在對合成對象圖像462 (2個層圖像)執(zhí)行合成處理時的時間點的狀態(tài)。也就是說，圖12A示出對應(yīng)于合成目標圖像462的轉(zhuǎn)變運動有效區(qū)域E10，以及其中對于正好之前進入的合成目標圖像463執(zhí)行合成處理的合成圖像461。在該示例中，緊接在合成目標之前的各個層圖像保持在合成圖像保持部分185中。
[0157]這里，在合成目標圖像462的區(qū)域Ell中，在鄰近合成目標圖像463和合成目標圖像462之間不存在重疊區(qū)域。為此，在合成目標圖像462與合成圖像461合成的情況下，相對于合成目標圖像462中的區(qū)域ElI，合成目標圖像462的轉(zhuǎn)變運動有效區(qū)域的像素被合成為照原樣作為新的合成圖像覆蓋在合成圖像461上。
[0158]然而，合成目標圖像462的區(qū)域E12重疊有鄰近合成目標圖像463的一部分。因此，如圖1lA和IlB所示，各個層圖像根據(jù)優(yōu)先級在合成目標圖像462的區(qū)域E12中合成。
[0159]也就是說，層合成部分183使用作為當前合成目標的合成目標圖像462的各個層圖像和合成圖像保持部分185中保持的相鄰合成目標圖像463，根據(jù)對于區(qū)域E12的優(yōu)先級合成各個層圖像。通過這樣的合成，從合成目標圖像462和463生成區(qū)域E11+E12的合成圖像。此外，層合成部分183合成以此方式生成的區(qū)域E11+E12的合成圖像，以便與合成圖像保持部分185中保持的合成圖像(與鄰近合成目標圖像463合成的合成圖像)覆蓋。也就是說，層合成部分183執(zhí)行粘貼通過這樣的合成生成的區(qū)域E11+E12的合成圖像到對應(yīng)于合成圖像保持部分185中保持的合成圖像的區(qū)域El上的處理。
[0160]此外，變?yōu)楫斍昂铣赡繕说暮铣赡繕藞D像462 (兩層圖像)和通過當前合成處理生成的合成圖像保持在合成圖像保持部分185中，并且用于下一個合成處理。以此方式生成的合成圖像的示例在圖12B中示出。
[0161]以此方式，隨著根據(jù)優(yōu)先級合成各個層圖像，相對于在合成處理中連續(xù)圖像之間CN 103533285 A
書
明
說
21/36 頁
重疊的區(qū)域(例如，區(qū)域E12)，可以生成合成圖像而不損害一部分目標圖像。因此，在使用多個合成目標圖像生成合成圖像的情況下，也可能生成能夠適當?shù)乇憩F(xiàn)目標圖像的運動的運動轉(zhuǎn)變圖像。
[0162]以此方式，由層合成部分183生成的合成圖像460存儲在合成圖像存儲部分200中。此外，例如，根據(jù)用戶操作在顯示部分191上顯示合成圖像460。此外，例如，只要通過層合成部分183生成合成圖像，就可以在顯示部分191上自動顯示。圖13圖示以此方式生成的合成圖像的示例。
[0163][合成圖像示例]
[0164]圖13是圖示根據(jù)本發(fā)明的第一實施例、通過層處理部分180生成的合成圖像的示例的圖。圖13所示的合成圖像470指示練習高爾夫揮桿的人的運動轉(zhuǎn)變。在合成圖像470中，由箭頭471指示的區(qū)域是包括對應(yīng)于生成撞擊聲音的位置的圖像的區(qū)域。
[0165][圖像捕獲裝置的操作示例]
[0166]圖14是圖示根據(jù)本發(fā)明的第一實施例、通過圖像捕獲裝置100的合成圖像生成處理的處理過程的示例的流程圖。
[0167]首先，確定是否進行合成圖像記錄模式的設(shè)置操作(步驟S901)。例如，確定是否執(zhí)行合成圖像記錄模式的設(shè)置按鈕或定時器設(shè)置按鈕的按壓操作。在沒有執(zhí)行合成圖像記錄模式的操作的設(shè)置的情況下(步驟S901)，繼續(xù)監(jiān)控直到執(zhí)行合成圖像記錄模式的操作的設(shè)置。在執(zhí)行合成圖像記錄模式的設(shè)置操作的情況下(步驟S901)，圖像捕獲部分111執(zhí)行捕獲圖像的生成處理(步驟S902)，并且生成的捕獲圖像保持在捕獲圖像保持部分115中（步驟S903)。也就是說，執(zhí)行緩沖處理。步驟S902是權(quán)利要求中公開的成像過程的示例。
[0168]隨后，確定是否執(zhí)行視頻記錄按鈕的按壓操作(步驟S904)。在執(zhí)行視頻記錄按鈕的按壓操作的情況下，有效聲音范圍設(shè)置部分160基于按壓位置設(shè)置有效聲音范圍（步驟
5905)。例如，如圖5A所示，基于視頻記錄按鈕按壓位置351設(shè)置有效聲音范圍352。另一方面，在沒有執(zhí)行視頻記錄按鈕的按壓操作的情況下(步驟S904)，確定由定時器設(shè)置部分設(shè)置的定時器的計數(shù)值是否是“O”（步驟S906)。在定時器的計數(shù)值是“O”的情況下(步驟
5906)，有效聲音范圍設(shè)置部分160基于定時器的計數(shù)值是“O”的位置設(shè)置有效聲音范圍(步驟S907)。例如，如圖7A所示，基于時間計數(shù)器“O”位置381設(shè)置有效聲音范圍382。此外，在定時器的計數(shù)值不是“O”或者沒有通過定時器設(shè)置部分150執(zhí)行定時器設(shè)置的情況下(步驟S906)，過程返回到步驟S902。步驟S904到S907代表權(quán)利要求中公開的確定范圍設(shè)置步驟的示例。
[0169]接下來，執(zhí)行緩沖終止處理(步驟S908)，并且確定在設(shè)置的有效聲音范圍中是否檢測到撞擊聲音(步驟S909)。在設(shè)置的有效聲音范圍中檢測到撞擊聲音的情況下(步驟S909),合成目標圖像選擇范圍確定部分171基于檢測到撞擊聲音的位置確定合成目標圖像選擇范圍（步驟S910)。例如，如圖5C所示，基于撞擊聲音檢測位置353確定合成目標圖像選擇范圍355。此外,例如,如圖7C所不,基于撞擊聲音檢測位置353確定合成目標圖像選擇范圍385。
[0170]此外，在設(shè)置的有效聲音范圍中沒有檢測到撞擊聲音的情況下(步驟S909)，合成目標圖像選擇范圍確定部分171基于當設(shè)置有效聲音范圍時作為參照的位置確定合成目標圖像選擇范圍(步驟S911)。也就是說，在基于視頻記錄按鈕的按壓位置設(shè)置有效聲音范
25圍的情況下，基于按壓位置確定合成目標圖像選擇范圍。例如，如圖5C所示，基于視頻記錄按鈕按壓位置351確定目標圖像選擇范圍355。另一方面，在基于定時器的計數(shù)值是“O”的位置設(shè)置有效聲音范圍的情況下，基于該位置確定合成目標圖像選擇范圍。例如，如圖7C所示，基于時間計數(shù)器“O”位置381確定合成目標圖像選擇范圍385。
[0171]隨后，合成目標圖像選擇部分172從確定的合成目標圖像選擇范圍中包括的各個圖像選擇合成目標圖像(步驟S912)。然后，使用選擇的合成目標圖像執(zhí)行合成圖像的生成處理(步驟S913)。
[0172]接下來，確定是否執(zhí)行合成圖像記錄模式的解除操作(步驟S194)。在不執(zhí)行合成圖像記錄模式的解除操作的情況下，過程返回到步驟S902，并且順序執(zhí)行與下一個合成圖像有關(guān)的圖像合成處理。另一方面，在執(zhí)行合成圖像記錄模式的解除操作的情況下(步驟S194)，終止合成圖像生成處理的操作。
[0173]以此方式，在本發(fā)明的第一實施例中，設(shè)置其中變?yōu)闄z測目標的撞擊聲音可能存在的時間跨度作為有效時間范圍，因此可能減少不同于變?yōu)闄z測目標的撞擊聲音的聲音的錯誤檢測。因此，在生成使用導(dǎo)致撞擊聲音的極快運動(如高爾夫揮桿)作為目標的合成圖像的情況下，可能用高精確度檢測撞擊聲音的生成位置。此外，可能在強調(diào)撞擊聲音的精確生成位置周圍的情況下生成合成圖像，并且生成具有高可見度的合成圖像。在此情況下，因為撞擊聲音的生成位置的檢測不需要用戶的手工工作，所以可能減少對于用戶的不便。
[0174]此外，如上所述，可能根據(jù)在有效聲音范圍中是否檢測到撞擊聲音，確定是否生成合成圖像。
[0175]圖15是圖示根據(jù)本發(fā)明的第一實施例、通過圖像捕獲裝置100的合成圖像生成處理的處理過程的示例的流程圖。該示例是圖14所示的合成圖像生成處理的處理過程的修改示例，其中省略了步驟S911。因此，相同的參考標號給到如圖14所示的相同處理步驟，并且將省略其描述。
[0176]確定在步驟S905或S907中設(shè)置的有效聲音范圍中是否檢測到撞擊聲音(步驟S909)。在設(shè)置的有效聲音范圍中沒有檢測到撞擊聲音的情況下(步驟S909)，過程進到步驟S914。也就是說，在設(shè)置的有效聲音范圍中沒有檢測到撞擊聲音的情況下，使用下一個視頻記錄按鈕的按壓位置或定時器的計數(shù)值為“O”的位置執(zhí)行合成圖像的生成處理，而不生成合成圖像。也就是說，在有效聲音范圍中檢測到撞擊聲音的情況下，選擇部分170執(zhí)行控制使得在層處理部分180中使用特定聲音生成合成圖像，并且在有效聲音范圍中沒有檢測到撞擊聲音的情況下，執(zhí)行控制使得在層處理部分180中不生成合成圖像。步驟S909、S910、S912和S913是權(quán)利要求中公開的控制步驟的示例。
[0177]以此方式，在有效聲音范圍中不能檢測到撞擊聲音的情況下，通過返回到下一個可拍攝狀態(tài)而不生成合成圖像，可能減少用于拍攝機會的損失。此外，因為可以使用精確的撞擊聲音生成合成圖像，所以可能生成適當?shù)暮铣蓤D像。
[0178]隨著以此方式生成合成圖像，即使不習慣于圖像捕獲裝置的操作的初學者也可以容易地生成適當?shù)暮铣蓤D像。
[0179]在通過圖像捕獲部分111生成的捕獲圖像記錄為圖像內(nèi)容(例如，運動圖像文件或連續(xù)靜態(tài)圖像文件)的情況下，撞擊聲音檢測位置可以記錄為幀的元數(shù)據(jù)。因此，例如，在顯示圖像內(nèi)容的列表的情況下，對應(yīng)于撞擊聲音檢測位置的幀可以用作代表性縮略圖。[0180]2.第二實施例
[0181]在本發(fā)明的第一實施例中，已經(jīng)通過示例描述了圖像捕獲裝置和目標對象(練習高爾夫揮桿的人)之間的距離相對短的情況。然而，圖像捕獲裝置可能位于距目標對象的距離相對長的位置，并且可以依靠圖像捕獲裝置的變焦功能拍攝目標對象。在這種圖像捕獲裝置和目標對象之間的距離相對長的情況下，直到撞擊聲音到達圖像捕獲裝置的時間根據(jù)距離的長度變長。在此情況下，在生成撞擊聲音的時間和撞擊聲音到達圖像捕獲裝置的時間之間出現(xiàn)延遲。因此，本發(fā)明的第二實施例提供這樣示例，其中在圖像捕獲裝置和目標對象之間的距離相對長的情況下，根據(jù)距離的長度校正時間軸上撞擊聲音的檢測位置。
[0182]圖16A和16B是圖示根據(jù)本發(fā)明的第二實施例、圖像捕獲裝置500和目標對象之間的距離以及撞擊聲音的生成位置和其到達位置之間的關(guān)系的圖。圖16A示意性圖示圖像捕獲裝置500和變?yōu)橥ㄟ^圖像捕獲裝置500的圖像捕獲目標的人540之間的位置關(guān)系。這里，圖像捕獲裝置500和人540之間的距離稱為距離d。圖像捕獲裝置500和人540之間的關(guān)系與如3A所示的示例大致相同，除了距離d是不同的，因此可以省略其描述。
[0183]圖16B示意性圖示形成由圖17所示的圖像捕獲部分111生成的運動圖像的各個圖像和人540的運動轉(zhuǎn)變之間的關(guān)系。圖像組550代表在圖16A所示的狀態(tài)下人540的運動轉(zhuǎn)變，其中在時間軸上排列形成圖像組550的各個圖像。圖像組560代表形成在圖16A所示的狀態(tài)下由圖像捕獲部分111生成的運動圖像的各個圖像，其中在時間軸上排列形成圖像組560的各個圖像。這里，通過人540的高爾夫揮桿生成撞擊聲音的位置(時間軸上的位置)表不為撞擊聲音生成位置555。
[0184]在這方面，空氣中的音速為大約340米/秒。因此，在圖像捕獲裝置500和人540之間的距離d相對長的情況下，直到撞擊聲音到達圖像捕獲裝置500的時間變長，因此在生成撞擊聲音的時間和撞擊聲音輸入圖像捕獲裝置500的時間之間出現(xiàn)延遲。
[0185]例如，假設(shè)在形成圖16B所示的圖像組550的各圖像中的圖像551的位置是撞擊聲音生成位置555。在此情況下，例如，在距離d相對短(例如幾米)的情況下，如由箭頭552所指示的，對應(yīng)于生成撞擊聲音的位置的圖像551和當撞擊聲音輸入圖像捕獲裝置500時生成的圖像561近似相互相同。另一方面，在距離d相對長(例如，340米或更長)的情況下，如由箭頭553所指示的，對應(yīng)于生成撞擊聲音的位置的圖像551和當撞擊聲音輸入圖像捕獲裝置500時生成的圖像562相互不同，從而導(dǎo)致延遲。在這方面，即使在距離d相對長的情況下，可能以與距離d相對短的情況下近似相同的視角觀看在顯示部分191上顯示的顯示屏幕上的圖像。為此，可能難以通過用戶的手動操作校正撞擊時間的延遲。因此，下文中，示出了其中根據(jù)圖像捕獲裝置和目標對象之間的距離校正生成的撞擊聲音的延遲的示例。
[0186][圖像捕獲裝置的配置示例]
[0187]圖17是圖示根據(jù)本發(fā)明的第二實施例的圖像捕獲裝置500的功能配置的示例的框圖。圖像捕獲裝置500不同于圖1所示的圖像捕獲裝置100在于添加了對象距離計算部分510，并且安裝選擇部分520代替選擇部分170。除了這些組件外的配置與圖像捕獲裝置100中大致相同。因此，相同的參考標號給予共同組件，并且將省略這部分的描述。
[0188]對象距離計算部分510計算與由圖像捕獲部分111生成的捕獲圖像中包括的對象的距離(對象距離)，并且將計算的對象距離輸出到選擇部分520。例如，對象距離計算部分510檢測由圖像捕獲部分111生成的捕獲圖像中包括的人的面部，并且使用檢測到的面CN 103533285 A
書
明
說
24/36 頁
部和生成捕獲圖像時的成像信息(例如，每個鏡頭的位置和聚焦位置）計算目標對象的對象距離。例如，通過模板和內(nèi)容圖像的匹配的面部檢測方法(例如，見日本未審專利申請公開No. 2004-133637)可以用作捕獲圖像中包括的面部的檢測方法，在所述模板中記錄面部的亮度分布信息。此外，可以使用基于捕獲圖像中包括的膚色部分或人面部的特征量的面部檢測方法。通過這樣的面部檢測方法，可以計算捕獲圖像中的人的面部的位置和大小。
[0189]選擇部分520基于從對象距離計算部分510輸出的對象距離估計撞擊聲音的延遲時間，并且考慮延遲時間選擇合成目標圖像。具體地，選擇部分520的合成目標圖像選擇范圍確定部分171 (圖2中示出）基于從對象距離計算部分510輸出的對象距離，校正由特定聲音檢測部分132檢測到的特定聲音的檢測位置（時間軸上的位置)。此外，合成目標圖像選擇范圍確定部分171基于校正之后的位置(校正的位置)和由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍，確定合成目標圖像選擇范圍。選擇部分520是權(quán)利要求中公開的控制部分的示例。此外，合成目標圖像選擇范圍確定部分171是權(quán)利要求中公開的延遲時間計算部分的示例。
[0190][對象距離的計算配置]
[0191]接下來，將參照附圖詳細描述用于計算圖像捕獲裝置500和目標對象之間的距離的距離計算方法。這里，將描述用于使用普通人面部的大小(參考值)估計圖像捕獲裝置500和面部之間的距離的距離計算方法。
[0192]圖18A和18B是示意性圖示根據(jù)本發(fā)明的第二實施例、作為通過圖像捕獲部分111的圖像捕獲目標的圖像捕獲范圍和在顯示部分191上顯示的捕獲圖像的圖。圖18A是示意性圖示以高爾夫球場為背景成像人571的情況下的圖像捕獲范圍570的圖，并且圖18B是示意性圖示對應(yīng)于圖18A所示的圖像捕獲范圍570的捕獲圖像575的顯示部分191的顯示示例的圖。
[0193]例如，如圖18A所示，在以高爾夫球場為背景成像人571作為對象的情況下，根據(jù)圖像捕獲裝置500的位置、變焦鏡頭的位置等確定其中成像人571的范圍（圖像捕獲范圍570)。此外，如圖18B所示，從圖像捕獲范圍570中包括的對象入射的光通過圖像捕獲部分111轉(zhuǎn)換為捕獲圖像，并且在顯示部分191上顯示捕獲圖像(所謂通過圖像)。
[0194]這里，在圖18A所示的圖像捕獲范圍570中，在左邊和右邊方向上圖像捕獲裝置500的寬度表示為圖像捕獲范圍寬度Wa，并且在左邊和右邊方向上圖像捕獲范圍570中包括的人570的面部572的寬度表示為面部寬度Wref。面部寬度Wref對應(yīng)于普通人面部的大小，而不是人571的實際面部寬度。此外，圖18B所示的捕獲圖像575的左邊和右邊方向上的寬度表示為圖像寬度Ww，并且左邊和右邊方向上捕獲圖像575中包括的人576的面部577的寬度表示為面部圖像寬度Wf。在此情況下，圖像捕獲范圍寬度Wa與面部寬度Wref的比率通常和圖像寬度Ww與面部圖像寬度Wf的比率相同。
[0195]圖19是示意性圖示根據(jù)本發(fā)明的第二實施例、作為通過圖像捕獲部分111的圖像捕獲目標的圖像捕獲范圍和在顯示部分上191顯示的捕獲圖像之間的位置關(guān)系的頂視圖。在圖19所示的示例中，示意性示出圖18A所示的人571與圖像捕獲裝置500中提供的圖像捕獲元件112和顯示部分191之間的位置關(guān)系。如圖19所示，從圖像捕獲裝置500到面部572的距離表示為對象距離Df ;圖像捕獲裝置500中的焦距表示為焦距f ;并且圖像捕獲元件112的寬度表示為圖像捕獲元件寬度Wi。圖像捕獲范圍寬度Wa和面部寬度Wref與圖
2818A所示的那些相同。
[0196]如圖19所示，如果從圖像捕獲范圍570中包括的對象入射的光進入圖像捕獲元件112，則生成對應(yīng)于圖像捕獲范圍570中包括的對象的捕獲圖像，然后在顯示部分191上顯示生成的捕獲圖像575。此外，在從人571的面部572入射的光進入圖像捕獲元件112的情況下在圖像捕獲元件112上的面部寬度是在圖像捕獲元件上的面部寬度Wb。
[0197]這里，從具有平行線的比例關(guān)系建立以下兩個等式。
[0198]Df/ffref=f/ffb等式1 [0199]fff/ffw=ffb/ffi等式 2
[0200]這里，等式I變?yōu)镈f=f XWref/Wb，并且等式2變?yōu)閃b=Wf XWi/Ww。然后，將通過變化等式2獲得的Wb=WfXWi/Ww帶入等式1，從而計算以下等式3?；阽R頭的基本物理定律計算該等式3。
[0201]Df=WrefX (f/ffi) X (ffw/fff) 等式 3
[0202]這里，Wi (圖像捕獲元件寬度)和Ww (圖像寬度)是常數(shù)，并且普通人面部的大小用作Wref。在此情況下，隨著檢測到Wf (面部圖像寬度)，可以使用等式3計算Df (到面部的估計距離)。
[0203]例如，如圖18A所示，在一個人的面部572包括在圖像捕獲范圍570的情況下，通過對象距離計算部分510從對應(yīng)于圖像捕獲范圍570的捕獲圖像575檢測到面部577。以此方式，在檢測到面部的情況下，對象距離計算部分510基于等式3使用檢測到的面部的寬度(面部圖像寬度)計算對象距離Df。
[0204]本發(fā)明的第二實施例提供了其中使用一個參考值作為普通人面部大小計算對象距離的示例。這里，變?yōu)閳D像捕獲對象的人可能根據(jù)人的屬性(例如，年齡和性別)具有不同面部大小。例如，在兒童面部與成人面部比較的情況下，面部大小可能相互不同。此外，在女性面部與男性面部比較的情況下，面部大小可能相互不同。因此，根據(jù)人的屬性的多個參考值可以保持在對象距離計算部分510中。然后，對象距離計算部分510可以檢測從捕獲圖像檢測到的面部的屬性，并且對象距離計算部分510可以使用根據(jù)屬性的參考值計算距離d。為了檢測屬性，例如，可以使用由使用面部圖像中兩個點之間亮度的差別值的弱學習者(weak learner)檢測各個屬性的檢測方法(例如，見日本未審專利申請公開N0.2009-118009)ο
[0205][延遲時間的校正示例]
[0206]圖20A和20B是示意性圖示根據(jù)本發(fā)明的第二實施例、通過有效聲音范圍設(shè)置部分160的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分171的合成目標圖像選擇范圍的確定方法的圖。因為該示例是圖5A和5B的修改示例，所以將省略共同組件部分的描述。
[0207]圖20A以矩形形狀示意性圖示由圖像捕獲部分111生成的運動圖像580。此外，假設(shè)按壓視頻記錄按鈕的位置是圖20A所示的運動圖像580的時間軸上視頻記錄按鈕的按壓位置(視頻記錄按鈕按壓位置581)。在此情況下，有效聲音范圍設(shè)置部分160基于視頻記錄按鈕按壓位置581設(shè)置有效聲音范圍582。具體地，有效聲音范圍設(shè)置部分160設(shè)置時間軸上領(lǐng)先視頻記錄按鈕按壓位置581時間L21的范圍作為有效聲音范圍582。這里，例如，以類似于圖5A所示的時間LI的方式，時間L21可以是1.0秒。此外，時間L21可以長于時間LI，并且可以根據(jù)由對象距離計算部分510計算的對象距離的大小改變。
[0208]圖20B示意性圖示在由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍582中檢測到撞擊聲音的情況下的合成目標圖像選擇范圍的確定方法。在圖20B中，由特定聲音檢測部分132檢測到的撞擊聲音的位置(時間軸上的位置)表不為撞擊聲音檢測位置583。
[0209]在本發(fā)明的第二實施例中，在確定有效聲音范圍582中是否檢測到撞擊聲音之前，合成目標圖像選擇范圍確定部分171基于由對象距離計算部分510估計的對象距離d(米)估計聲音的延遲時間。具體地，合成目標圖像選擇范圍確定部分171基于由對象距離計算部分510估計的對象距離d (米)估計聲音的延遲時間。如上所述，因為聲音的速度是340(米/秒)，可以使用以下等式4計算直到撞擊聲音到達圖像捕獲裝置500的時間x(秒)。
[0210]x=d/340 等式 4
[0211]合成目標圖像選擇范圍確定部分171在時間軸上將撞擊聲音檢測位置583移動使用等式4計算的時間X。移動之后的位置表示為校正位置584。
[0212]隨后，合成目標圖像選擇范圍確定部分171確定校正位置584是否包括在由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍582中。如圖20B所示，在校正位置584包括在由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍582中的情況下，合成目標圖像選擇范圍確定部分171基于校正位置584確定合成目標圖像選擇范圍。也就是說，合成目標圖像選擇范圍確定部分171參照校正位置584確定時間軸上校正位置584前后的預(yù)定范圍作為合成面部圖像選擇范圍585。具體地，合成目標圖像選擇范圍確定部分171確定時間軸上包括領(lǐng)先校正位置584時間L22的范圍和超過校正位置584時間L23的范圍的范圍L24作為合成目標圖像選擇范圍585。
[0213]這里，時間L22到L24例如可以是與圖5B所示的時間L2到L4相同的值。此外，時間L24可以長于時間L4，并且可以根據(jù)由基于由對象距離計算部分510計算的對象距離的大小改變。
[0214]此外，例如，在圖像捕獲裝置500和人540之間的距離相對遠的情況下，可以通過遙控器操作執(zhí)行定時器設(shè)置。因此，在基于通過定時器設(shè)置部分150設(shè)置的定時器計數(shù)值設(shè)置有效聲音范圍，并且使用有效聲音范圍確定合成目標圖像選擇范圍的情況下，類似地，可以估計聲音的延遲時間并且可以基于延遲時間執(zhí)行校正。
[0215]以此方式，即使在圖像捕獲裝置500和人540之間的距離相對遠的情況下，也校正撞擊聲音的檢測位置，以便基于校正之后的位置確定合成目標圖像選擇范圍。因此，可能確定合適的合成目標圖像選擇范圍。
[0216]這里，校正位置可能不存在于由有效聲音范圍設(shè)置部分160設(shè)置的有效聲音范圍582中。在此情況下，以類似于圖5C的示例的方式，不使用撞擊聲音。此外，在不使用撞擊聲音的情況下，如圖5C所示，可以基于視頻記錄按鈕的按壓位置確定合成目標圖像選擇范圍。
[0217]在圖18A、18B和圖19中，示出了使用人的面部的大小計算目標距離的示例，但是如圖21所示，可以通過不同于面部的部分的大小計算對象距離。
[0218][對象距離的計算示例]
[0219]圖21是圖示根據(jù)本發(fā)明的第二實施例的顯示部分191中的顯示示例的圖。在圖21所示的顯示屏幕590中，顯示用于將進行高爾夫揮桿的人591安排在合適的位置的操作CN 103533285 A
書
明
說
27/36 頁
支持圖像592和593，以重疊在捕獲圖像上。該示例是圖18A、18B和圖19所示的對象距離的計算方法的修改示例，并且是其中基于由顯示屏幕590中的對象占據(jù)的區(qū)域的大小(垂直方法的長度）計算對象距離的示例。
[0220]操作支持圖像592和593表示其中要在顯示屏幕590中安排進行高爾夫揮桿的人591的推薦區(qū)域。操作支持圖像592由顯示屏幕590中的黑線指示，并且表示在左邊和右邊方向上進行高爾夫揮桿的人591的推薦區(qū)域。此外，操作支持圖像593由顯示屏幕590中的虛線黑框指示，表示在上面和下面方向上進行高爾夫揮桿的人591的推薦區(qū)域。這里，由操作支持圖像593指定的在上面和下面方向上的推薦區(qū)域可以是在垂直方向上顯示屏幕590的長度的預(yù)定比率(例如，70%)的值Hl I。
[0221]例如，在使用圖像捕獲裝置500通過設(shè)置合成圖像記錄模式執(zhí)行拍攝的情況下，拍攝者確認顯示屏幕590中包括的操作支持圖像592和593，并且執(zhí)行調(diào)整，使得目標對象的人包括在操作支持圖像592和593中。此外，在執(zhí)行變焦操作等的情況下，類似地，拍攝者執(zhí)行調(diào)整，使得目標對象的人包括在操作支持圖像592和593中。
[0222]以此方式，通過基于如上所述的與面部有關(guān)的參考值和捕獲圖像中包括的面部的大小應(yīng)用用于計算對象距離的對象距離計算方法，可能計算對象距離。也就是說，因為在圖21所示的示例中捕獲圖像中包括的人的大小可能是預(yù)定值H11，所以可以基于與打高爾夫的人的普通高度有關(guān)的參考值(例如，170cm)和預(yù)定值Hll計算對象距離。
[0223]在圖18A、18B、圖19和圖21所示的示例中，使用人的每個部分的大小計算對象距離，但是可以使用其它對象距離計算方法。例如，可以生成與捕獲圖像有關(guān)的深度圖，并且可以使用該深度圖來計算對象距離。此外，在圖像捕獲裝置500中可以安裝距離測量傳感器，并且可以使用由距離測量傳感器測量的對象距離。此外，可以使用聚焦位置信息計算對象距離。
[0224]此外，可以根據(jù)拍攝情況選擇使用聚焦位置的對象距離計算方法和使用變焦位置信息的對象距離計算方法的任一用于使用。例如，在寬邊緣的變焦位置形成聚焦的情況下，可能聚焦位置信息比變焦位置信息具有更高精度。為此，在寬邊緣的變焦位置中形成聚焦的情況下，可以選擇使用聚焦位置信息的對象距離計算方法。此外，可以通過特定方法估計對象距離，并且可以確定是否使用估計結(jié)果或參照估計結(jié)果通過其它方法來執(zhí)行重新估計。
[0225][圖像捕獲裝置的操作示例]
[0226]圖22是圖示根據(jù)本發(fā)明的第二實施例、通過圖像捕獲裝置500的合成圖像生成處理的處理過程的示例的流程圖。該示例是圖14所示的合成圖像生成處理的處理過程的修改示例，其中添加步驟S921并且執(zhí)行步驟S922和S923的處理過程代替步驟S910。因此，相同的參考標號給到如圖14所示的相同處理過程，并且將省略其描述。
[0227]在執(zhí)行緩沖終止處理之后（步驟S908)，對象距離計算部分510計算對象距離（步驟 S921)。
[0228]此外，在設(shè)置的有效聲音范圍中檢測到撞擊聲音的情況下(步驟S909)，合成目標圖像選擇范圍確定部分171基于計算的對象距離校正撞擊聲音檢測位置(步驟S922)。具體地，合成目標圖像選擇范圍確定部分171基于對象距離計算延遲時間，并且從計數(shù)器部分174提供的計數(shù)值減去計算的延遲時間以計算校正值。然后，合成目標圖像選擇范圍確
31CN 103533285 A
書
明
說
28/36 頁
定部分171基于校正值指定撞擊聲音檢測位置的校正之后的位置。例如，如圖20B所示，將撞擊聲音檢測位置583運動校正值X以計算校正位置584。
[0229]隨后，合成目標圖像選擇范圍確定部分171基于校正之后的位置(校正位置）確定合成目標圖像選擇范圍（步驟S923)。例如,如圖20B所示,基于校正位置584確定合成目標圖像選擇范圍585。
[0230]以此方式，根據(jù)本發(fā)明的第二實施例，可能用高精度檢測撞擊聲音的生成位置，而不依賴于由于變焦操作的圖像捕獲裝置500和目標對象之間距離的改變。因此，可能生成具有高可見度的合成圖像，而不依賴于由于變焦操作的圖像捕獲裝置500和目標對象之間距離的改變。此外，因為不需要用戶的手動工作，所以可能減少用戶的不便。
[0231]此外，例如，在記錄通過圖像捕獲部分111生成的捕獲圖像作為圖像內(nèi)容的情況下，當與圖像內(nèi)容相關(guān)地記錄元數(shù)據(jù)時，可能記錄校正之后的撞擊聲音檢測位置。因此，因為在再現(xiàn)圖像文件的情況下可以使用校正之后的撞擊聲音檢測位置，所以可能檢測撞擊聲音的正確生成位置。此外，例如，在顯示圖像內(nèi)容的列表的情況下，對應(yīng)于校正之后的撞擊聲音檢測位置的幀可以用作代表性縮略圖。
[0232]3.第三實施例
[0233]本發(fā)明的第一和第二實施例主要提供其中生成進行高爾夫揮桿的人的運動轉(zhuǎn)變作為合成圖像的示例。這里，例如，在不同于高爾夫的運動(如擊球游戲或?qū)ο笈鲎灿螒?的情況下，在游戲者擊球或?qū)ο笙嗷ヅ鲎矔r的瞬間生成特征聲音。此外，例如，在焰火的情況下，在華麗地爆炸瞬間生成爆炸聲音。由于使用這些特定聲音確定合成目標圖像選擇范圍，可以生成適當?shù)暮铣蓤D像。在這方面中，本發(fā)明的第三實施例提供了根據(jù)用戶的偏好容易地生成這種合成圖像的示例。
[0234][圖像捕獲裝置的配置示例]
[0235]圖23是圖示根據(jù)本發(fā)明的第三實施例的圖像捕獲裝置600的功能配置的示例的框圖。圖像捕獲裝置600不同于圖17所示的圖像捕獲裝置500在于添加了目標對象信息存儲部分610，并且修改了一部分的其它組件。也就是說，代替圖像捕獲裝置500中的特定聲音檢測部分132、有效聲音范圍設(shè)置部分160和選擇部分520，圖像捕獲裝置600提供有特定聲音檢測部分620、有效聲音范圍設(shè)置部分630和選擇部分640。不同于這些組件的配置與圖像捕獲裝置500大致相同。因此，相同的參考標號給予共同組件，并且將省略這部分的描述。
[0236]下文中，將描述適于根據(jù)本發(fā)明的實施例的合成目標圖像的選擇處理的特定運動(例如，體育運動等)的條件(例如，第一條件和第二條件)的示例。第一條件是目標對象的身體部分貫穿整個運動基本存在于相同位置。此外，第二條件是在一系列運動中存在涉及撞擊聲音的快速運動。作為不同于高爾夫的滿足這些條件的體育運動的示例，可以以棒球的擊球、網(wǎng)球發(fā)球、破瓦等為示例。此外，可以以不同于體育運動的對象（如焰火）為示例。因此，本發(fā)明的第三實施例提供其中這種對象或體育運動變?yōu)槟繕藢ο蟮氖纠?br> [0237]目標對象信息存儲部分610存儲關(guān)于特定聲音的信息和相對于多種類型的目標對象的特定運動的有效聲音范圍，并且將各個存儲的信息提供到特定聲音檢測部分620、有效聲音范圍設(shè)置部分630和選擇部分640。將參照圖24詳細描述目標對象信息存儲部分610的存儲內(nèi)容。目標對象信息存儲部分610是權(quán)利要求中公開的存儲部分的示例。
32[0238]特定聲音檢測部分620基于從聲音輸入部分131輸出的聲音檢測特定聲音，并且在檢測到特定聲音的情況下輸出該事實到選擇部分640。此外，特定聲音檢測部分620檢測與網(wǎng)球(發(fā)球)和破瓦有關(guān)的特定值或更高的聲音。在這方面中，本發(fā)明的第三實施例提供這樣的示例，其中處理與高爾夫揮桿有關(guān)的撞擊聲音外，圖24中的撞擊聲音611中所示的每個撞擊聲音變?yōu)樘囟曇簟＠?，在棒?擊球)和網(wǎng)球(發(fā)球)中，在運動中球棒或球拍與球接觸時的瞬間生成的聲音變?yōu)樽矒袈曇?。此外，例如，在破瓦時，在手與瓦接觸時的瞬間生成的聲音變?yōu)樽矒袈曇簟４送?，在焰火時，在焰火在空中爆炸時的瞬間生成的聲音變?yōu)樽矒袈曇?。為了檢測這些聲音，可以使用根據(jù)本發(fā)明的第一實施例的特定聲音檢測方法。
[0239]此外，在多種類型的目標對象的特定運動中，特定聲音檢測部分620、有效聲音范圍設(shè)置部分630和選擇部分640從目標對象信息存儲部分610獲取關(guān)于由用戶操作指定的特定運動的目標對象信息。然后，特定聲音檢測部分620、有效聲音范圍設(shè)置部分630和選擇部分640使用獲取的目標對象信息執(zhí)行各個處理。在這些各個處理中，該示例與本發(fā)明的第一和第二實施例中示出的示例大致相同，除了撞擊聲音的值和有效聲音范圍等不同，因此將省略其描述。有效聲音范圍設(shè)置部分630是權(quán)利要求中公開的確定范圍設(shè)置部分的示例。此外，選擇部分640是權(quán)利要求中公開的控制部分的示例。
[0240][目標對象信息存儲部分的存儲示例]
[0241]圖24是圖示根據(jù)本發(fā)明的第三實施例的目標對象信息存儲部分610的存儲內(nèi)容的示例的圖。在目標對象信息存儲部分610中存儲撞擊聲音611、高速運動范圍612、有效聲音范圍613和合成目標圖像選擇范圍614。
[0242]用于通過特定聲音檢測部分620檢測特定聲音(撞擊聲音)的特定聲音識別信息(參考數(shù)據(jù))存儲在撞擊聲音611中。圖24所不的撞擊聲音611僅僅公開了指不相應(yīng)的特定聲音的詞語。
[0243]在高速運動范圍612中，存儲合成目標圖像選擇范圍中具有比用于合成目標圖像的選擇的其它間隔更緊密的間隔的范圍。例如，在由于目標對象是棒球(擊球)的特定運動的情況下，可能考慮精密地確認當棒球棒與球接觸時的瞬間左右的運動轉(zhuǎn)變。因此，在合成目標圖像選擇范圍中，設(shè)置高速運動范圍，其中該瞬間左右的圖像的間隔可以比用于合成目標圖像的選擇的其它間隔更緊密。在該高速運動范圍中，例如設(shè)置撞擊聲音周圍的預(yù)定范圍。
[0244]有效聲音范圍613存儲通過有效聲音范圍設(shè)置部分630變?yōu)樵O(shè)置目標的有效聲音范圍。本發(fā)明的第三實施例提供其中視頻記錄按鈕的按壓操作用作拍攝觸發(fā)的示例。以與本發(fā)明的第一和第二實施例所示示例類似的方式，在高爾夫和棒球(擊球)時，可以在作為目標的運動終止之后生成拍攝觸發(fā)。在焰火的情況下，可以在焰火在空中爆炸時的瞬間生成拍攝觸發(fā)。此外，以與本發(fā)明的第一和第二實施例所示示例類似的方式，在高爾夫、棒球(擊球)和焰火中，在拍攝觸發(fā)之前的特定范圍可以設(shè)為有效聲音范圍。
[0245]此夕卜,在網(wǎng)球(發(fā)球)的情況下,可以在球員抬高(turn up)預(yù)定時間時的瞬間生成拍攝觸發(fā)。在破瓦時，可以在破瓦的人的面部充滿戰(zhàn)斗精神時的瞬間生成拍攝觸發(fā)。此外，在網(wǎng)球(發(fā)球)和破瓦時，從拍攝觸發(fā)最初檢測到特定值或更高的聲音之前的特定范圍可以設(shè)為有效聲音范圍。以此方式，在網(wǎng)球(發(fā)球)和破瓦的情況下，設(shè)置有效聲音范圍的后邊緣對應(yīng)于檢測到特定值或更高的聲音時的時間。然而，經(jīng)過預(yù)定時間沒有檢測到聲音的情況下，聲音檢測可能變?yōu)闊o效，然后可以設(shè)置新的有效聲音范圍。對于該新的有效聲音范圍，重新生成拍攝觸發(fā)。因此，可能減少撞擊聲音的錯誤檢測。在這方面中，通過特定聲音檢測部分620檢測網(wǎng)球(發(fā)球)和破瓦時特定值或更高的聲音。
[0246]在合成目標圖像選擇范圍614中存儲通過合成目標圖像選擇范圍確定部分171確定的合成目標圖像選擇范圍。本發(fā)明的第三實施例提供了這樣的示例，其中參照在有效聲音范圍中檢測到的撞擊聲音的特定范圍設(shè)為合成目標圖像選擇范圍。
[0247][目標對象的指定屏幕的顯示示例]
[0248]圖25是圖示根據(jù)本發(fā)明的第三實施例的顯示部分191的顯示示例(顯示屏幕660)的圖。顯示屏幕660提供有高爾夫(揮桿)按鈕661、棒球(擊球)按鈕662、網(wǎng)球(發(fā)球)按鈕663、破瓦按鈕664和焰火按鈕665。此外，顯示屏幕660提供有返回按鈕666和確定按鈕667。
[0249]按壓高爾夫(揮桿)按鈕661、棒球(擊球)按鈕662、網(wǎng)球(發(fā)球)按鈕663、破瓦按鈕664和焰火按鈕665，以便指定當對于運動轉(zhuǎn)變生成合成圖像時作為目標的運動類型。例如，在由觸摸面板制成顯示部分191的情況下，可以通過希望按鈕的按壓操作執(zhí)行指定。
[0250]按壓確定按鈕667以在用于指定作為合成圖像的目標的運動類型的按壓操作之后確定指定。通過該按壓，設(shè)置合成目標圖像記錄模式。
[0251]按壓返回按鈕666以返回例如正好之前顯示的顯示屏幕。
[0252]例如，在顯示屏幕660中，在按壓希望的按鈕(例如，網(wǎng)球(發(fā)球)按鈕663)并且按壓確定按鈕667的情況下，指示該事實的操作信號從操作接收部分140輸出到各個部分。然后，特定聲音檢測部分620、有效聲音范圍設(shè)置部分630和選擇部分640從目標對象信息存儲部分610獲取指定的運動類型的目標對象信息(例如，關(guān)于網(wǎng)球(發(fā)球)的目標對象信息)。然后，特定聲音檢測部分620、有效聲音范圍設(shè)置部分630和選擇部分640使用獲取的目標對象信息執(zhí)行各個處理。
[0253][合成圖像示例]
[0254]圖26A和26B是圖示根據(jù)本發(fā)明的第三實施例、通過層處理部分180生成的合成圖像的示例的圖。
[0255]圖26A圖示成像進行棒球擊球的人的情況下的合成圖像671。也就是說，合成圖像671是使用通過在按壓圖25所示的棒球(擊球)按鈕662和按壓確定按鈕667之后開始的圖像捕獲操作所獲得的運動圖像生成的合成圖像。
[0256]圖26B圖示成像進行網(wǎng)球發(fā)球的人的情況下的合成圖像672。也就是說，合成圖像672是使用通過在按壓圖25所示的網(wǎng)球(發(fā)球)按鈕663和按壓確定按鈕667之后開始的圖像捕獲操作所獲得的運動圖像生成的合成圖像。
[0257]以此方式，在不同于高爾夫揮桿的特定運動期間，其中變?yōu)闄z測目標的撞擊聲音可能存在的時間跨度設(shè)為有效聲音范圍，因此，可能減少不同于變?yōu)闄z測目標的撞擊聲音的聲音的錯誤檢測。因此，在使用導(dǎo)致撞擊聲音的極快運動作為目標生成合成圖像的情況下，可能用高精確度檢測撞擊聲音的生成位置。此外，可能在強調(diào)撞擊聲音的精確生成位置周圍的情況下生成合成圖像，并且生成具有高可視性的合成圖像。在此情況下，因為撞擊聲音的生成位置的檢測不需要用戶的手工工作，所以可能減少對于用戶的不便。隨著以此方式生成合成圖像，即使不習慣于圖像捕獲裝置的操作的初學者也可以容易地根據(jù)用戶的偏CN 103533285 A
書
明
說
31/36 頁
好生成適當?shù)暮铣蓤D像。
[0258]4.第四實施例
[0259]本發(fā)明的第一到第三實施例提供了這樣的示例，其中通過圖像捕獲裝置執(zhí)行圖像捕獲操作，并且使用在圖像捕獲操作時生成的撞擊聲音生成合成圖像。這里，在對于由圖像捕獲裝置記錄的內(nèi)容(例如，運動圖像內(nèi)容）生成合成圖像的情況下，可以使用內(nèi)容中包括的撞擊聲音生成合成圖像。此外，例如，在高爾夫比賽的情況下，可以生成不同于撞擊聲音的特征聲音，如高爾夫揮桿之后的巨大歡呼。為此，可以使用特征聲音作為觸發(fā)代替視頻記錄按鈕的按壓操作或定時器設(shè)置來設(shè)置有效聲音范圍。因此，本發(fā)明的第四實施例提供了這樣的示例，其中使用特征聲音代替視頻記錄按鈕的按壓操作或定時器設(shè)置來設(shè)置有效聲音范圍，并且對于由圖像捕獲裝置記錄的運動圖像內(nèi)容生成合成圖像。
[0260][圖像捕獲裝置的配置示例]
[0261]圖27是圖示根據(jù)本發(fā)明的第四實施例的圖像捕獲裝置700的功能配置的示例的框圖。圖像處理裝置700不同于圖23所示的圖像捕獲裝置600在于省略了聲音輸入部分161和定時器設(shè)置部分150，并且修改了一些其它組件。也就是說，圖像處理裝置700提供有目標對象信息存儲部分710、輸入部分720和對象信息生成部分730，代替圖像捕獲裝置600中的目標對象信息存儲部分610、圖像捕獲部分111和對象信息生成部分120。此外，圖像捕獲裝置700提供有特定聲音檢測部分740、有效聲音范圍設(shè)置部分750和選擇部分760，代替圖像捕獲裝置600中的特定聲音檢測部分620、有效聲音范圍設(shè)置部分630和選擇部分640。不同于這些組件的配置與圖像捕獲裝置600大致相同。因此，相同的參考標號給予共同組件，并且將省略這部分的描述。
[0262]目標對象信息存儲部分710存儲關(guān)于特定聲音或多種類型的目標對象的特定運動的有效聲音范圍的信息，并且將各個存儲的信息提供到特定聲音檢測部分740、有效聲音范圍設(shè)置部分750和選擇部分760。將參照圖28詳細描述目標對象信息存儲部分710的存儲內(nèi)容。
[0263]輸入部分720是這樣的輸入部分，通過其輸入由如數(shù)字攝像機的圖像捕獲裝置記錄的圖像內(nèi)容(例如，運動圖像文件)。假設(shè)圖像內(nèi)容是這樣的內(nèi)容，例如其中與運動圖像的圖像捕獲操作時的各個幀有關(guān)的元數(shù)據(jù)(例如，聲音信息、變焦信息或聚焦位置信息）或連續(xù)靜態(tài)圖像與各個幀相關(guān)地記錄。輸入部分720以預(yù)定間隔提供用于形成輸入圖像內(nèi)容的各個圖像(幀）到捕獲圖像保持部分115、顯示控制部分190和特定聲音檢測部分740。此外，輸入部分720輸出用于形成輸入圖像內(nèi)容的各個圖像和關(guān)于圖像的屬性信息(例如，鏡頭位置和聚焦位置）到對象距離計算部分510和對象信息生成部分730。
[0264]對象信息生成部分730基于從輸入部分720提供的各個圖像和關(guān)于圖像的屬性信息生成關(guān)于各個圖像的對象信息。此外，對象信息生成部分730將生成的對象信息提供到捕獲圖像保持部分115，以便將對象信息保持在其中，并且還提供對象信息到有效聲音范圍設(shè)置部分750和選擇部分760。例如，作為對象信息，除了用于辨別目標對象的區(qū)域和其背景區(qū)域的信息外，生成用于檢測各個圖像之間時間軸上的特定變化的信息。例如，檢測圖像中包括的面部，并且生成關(guān)于面部的表情、方向等的屬性信息。例如，可以檢測如喜、怒、哀、樂表情、緊張、面部方向、嘴部表情(張開/閉上)、眼部表情(例如，眨眼)等的屬性，并且可以基于檢測結(jié)果生成屬性信息。作為屬性檢測方法，例如，可以使用基于從與變?yōu)闄z測目標的
35屬性有關(guān)的面部圖像提取特征量的識別方法。也就是說，預(yù)先存儲從與變?yōu)闄z測目標的屬性有關(guān)的面部圖像提取的特征量作為識別庫。此外，從包括檢測到的面部的面部圖像提取特征量，并且將提取的特征量與識別庫中包括的特征量進行比較，從而計算這些特征量之間的相似度。此外，在計算的相似度超過閾值的情況下，確定檢測到的面部是對應(yīng)于識別庫的屬性，其變?yōu)槌^閾值的類似度的計算目標。此外，例如，可以使用上述屬性檢測方法(例如，參照日本未審專利申請公開N0.2009-118009)。
[0265]有效聲音范圍設(shè)置部分750基于以此方式生成的屬性信息，檢測各個圖像之間時間軸上的特定改變。作為該特定改變，例如，可以檢測到面部改變。例如，在喜、怒、哀、樂或緊張時表情的改變、面部方向的改變(例如，在面部方向從向下改變?yōu)榍胺降那闆r下)、在張開或閉上嘴部時的改變、或者在眨眼時眼睛的改變可以檢測為面部改變。此外，人的面部出現(xiàn)在屏幕或人的面部離開屏幕的情況可以檢測為各個圖像之間時間軸上的特定改變。此夕卜，作為用于檢測各個圖像之間時間軸上的特定改變的信息，可以生成指示整個圖像的亮度的亮度信息和指示圖像中照度值的分布狀態(tài)的照度值分布信息。然后，可以檢測信息中的特定改變作為各個圖像之間時間軸上的特定改變。
[0266]特定聲音檢測部分740基于從輸入部分720提供的圖像內(nèi)容中包括的聲音檢測特定聲音，然后在檢測到特定聲音的情況下將該事實輸出到有效聲音范圍設(shè)置部分750和選擇部分760。通過特定聲音檢測部分740變?yōu)闄z測目標的撞擊聲音與本發(fā)明的第三實施例中的相同。此外，在本發(fā)明的第四實施例中，當檢測到各個圖像之間時間軸上的特定改變時，使用由特定聲音檢測部分740檢測到的特定聲音。例如，在舉行高爾夫或棒球比賽的情況下的觀眾的巨大歡呼(瘋狂鼓掌)，或在戰(zhàn)斗精神投入到破瓦時的瞬間的呼喊檢測為特定聲音。此外，例如，吹笛人的吹笛生或水的飛濺聲(例如，在目標對象與水有關(guān)的情況下)可以檢測為特定聲音。此外，有效聲音范圍設(shè)置部分750檢測特定聲音中的改變作為各個圖像之間時間軸上的特定改變。例如，當從幾乎不存在聲音的狀態(tài)檢測到巨大歡呼的時間，或者從檢測到巨大歡呼的狀態(tài)到幾乎不存在聲音的時間可以檢測為各個圖像之間時間軸上的特定改變。作為特定聲音檢測方法，可以使用本發(fā)明第一實施例中示出的特定聲音檢測方法。也就是說，有效聲音范圍設(shè)置部分750可以使用從各個圖像提取的特征量和基于與各個圖像有關(guān)的聲音提取的特征量的至少一個檢測特定聲音。有效聲音范圍設(shè)置部分750是權(quán)利要求中公開的特定改變檢測部分的示例。
[0267]特定聲音檢測部分740、有效聲音范圍設(shè)置部分750和選擇部分760從目標對象信息存儲部分710獲取關(guān)于多種類型的目標對象的特定運動中由用戶操作指定的特定運動的目標對象信息。此外，特定聲音檢測部分740、有效聲音范圍設(shè)置部分750和選擇部分760使用獲取的目標對象信息執(zhí)行各個處理。各個處理與本發(fā)明的第一到第三實施例中所示的不例大致相同，除了設(shè)置撞擊聲音時的觸發(fā)、撞擊聲音、有效聲音范圍的值等不同，因此，將省略其描述。有效聲音范圍設(shè)置部分750是權(quán)利要求中公開的確定范圍設(shè)置部分的示例。此外，選擇部分760是權(quán)利要求中公開的控制部分的示例。
[0268][目標對象信息存儲部分的存儲示例]
[0269]圖28是圖示根據(jù)本發(fā)明的第四實施例的目標對象信息存儲部分710的存儲內(nèi)容的示例的圖。在目標對象信息存儲部分710中存儲撞擊聲音711、高速運動范圍712、用于確定有效聲音范圍的觸發(fā)713、有效聲音范圍714和合成目標圖像選擇范圍715。撞擊聲音711、高速運動范圍712和合成目標圖像選擇范圍715與圖24所示的撞擊聲音611、高速運動范圍612和合成目標圖像選擇范圍614大致相同，因此，將省略其描述。
[0270]用于確定有效聲音范圍的觸發(fā)713存儲當由有效聲音范圍設(shè)置部分750設(shè)置有效聲音范圍時的觸發(fā)。例如，在高爾夫和棒球(擊球)的情況下，觸發(fā)可以是在從輸入部分720輸入的內(nèi)容中檢測到觀眾的巨大歡呼時的瞬間生成?；谟商囟曇魴z測部分740檢測到的特定聲音，由有效聲音范圍設(shè)置部分750執(zhí)行觀眾的巨大歡呼的檢測。此外，在焰火的情況下，可以在屏幕中的黑暗狀態(tài)轉(zhuǎn)變?yōu)閺妮斎氩糠?20輸入的內(nèi)容中的明亮狀態(tài)時的瞬間生成觸發(fā)。基于由對象信息生成部分730生成的屬性信息，通過有效聲音范圍設(shè)置部分750執(zhí)行當屏幕中的黑暗狀態(tài)轉(zhuǎn)變?yōu)槊髁翣顟B(tài)時的瞬間的檢測。此外，在網(wǎng)球(發(fā)球)的情況下，可以在從輸入部分720輸入的內(nèi)容中球員抬高預(yù)定時間時的瞬間生成觸發(fā)?；谟蓪ο笮畔⑸刹糠?30生成的屬性信息，通過有效聲音范圍設(shè)置部分750執(zhí)行球員抬高預(yù)定時間時的瞬間的檢測。此外，在破瓦的情況下，可以在從輸入部分720輸入的內(nèi)容中執(zhí)行破瓦的人的面部充滿戰(zhàn)斗精神時的瞬間生成觸發(fā)。基于由對象信息生成部分730生成的屬性信息或者由特定聲音檢測部分740檢測到的特定聲音，通過有效聲音范圍設(shè)置部分750執(zhí)行當執(zhí)行破瓦的人的面部充滿戰(zhàn)斗精神時的瞬間的檢測。
[0271]有效聲音范圍714存儲通過有效聲音范圍設(shè)置部分750變?yōu)樵O(shè)置目標的有效聲音范圍。本發(fā)明的第四實施例提供這樣的示例，其中用于確定有效時間范圍的觸發(fā)713中存儲的特定改變的檢測時間是有效聲音范圍的觸發(fā)。該有效聲音范圍與圖24所示的有效聲音范圍613大致相同，除了用于確定有效時間范圍的觸發(fā)713中存儲的特定改變的檢測時間是有效聲音范圍的觸發(fā)，因此，將省略其描述。
[0272][合成目標圖像的選擇范圍的確定示例]
[0273]圖29A和29B是示意性圖示根據(jù)本發(fā)明的第四實施例、通過有效聲音范圍設(shè)置部分750的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分171的合成目標圖像選擇范圍的確定方法的圖。這是在指定圖28所示的棒球(擊球)的情況下，確定合成目標圖像選擇范圍的示例。此外，該示例是圖5A和5B中的修改示例，因此，將省略一部分共同組件的描述。
[0274]圖29A以矩形形狀示意性圖示通過輸入部分720輸入的運動圖像800。例如，運動圖像800是其中記錄棒球比賽的外觀的運動圖像。此外，在用于形成運動圖像800的各個圖像中，由特定聲音檢測部分740檢測到的觀眾的巨大歡呼的位置表示為圖29A所示的運動圖像800的時間軸上的巨大歡呼檢測位置801。在此情況下，有效聲音范圍設(shè)置部分750基于巨大歡呼檢測位置801設(shè)置有效聲音范圍802。具體地，有效聲音范圍設(shè)置部分750設(shè)置時間軸上領(lǐng)先巨大歡呼檢測位置801時間L31的范圍作為有效聲音范圍802。這里，例如，以與圖5A所示的時間LI類似的方式，時間L3可以是1.0秒。此外，時間L31可以長于時間LI。
[0275]例如，考慮當球員在高爾夫錦標賽中打出漂亮一桿時的撞擊聲音的生成位置出現(xiàn)在觀眾的巨大歡呼之前。因此，有效聲音范圍設(shè)置在觀眾的具有歡呼之前(在時間軸上的領(lǐng)先位置)，從而可能適當?shù)貦z測撞擊聲音。
[0276]圖29B示意性圖示在通過有效聲音范圍設(shè)置部分750設(shè)置的有效聲音范圍802中檢測到撞擊聲音的情況下的合成目標圖像選擇范圍的確定方法。在圖29B中，通過特定聲CN 103533285 A
書
明
說
34/36 頁
音檢測部分740檢測到撞擊聲音的位置（時間軸上的位置）表不為撞擊聲音檢測位置803。
[0277]例如，合成目標圖像選擇范圍確定部分171確定撞擊聲音檢測位置803是否包括在由有效聲音范圍設(shè)置部分750設(shè)置的有效聲音范圍802中。如圖29B所示，在撞擊聲音檢測位置803包括在有效聲音范圍802中的情況下，合成目標圖像選擇范圍確定部分171基于撞擊聲音檢測位置803確定合成目標圖像選擇范圍。也就是說，合成目標圖像選擇范圍確定部分171參照撞擊聲音檢測位置803，確定時間軸上撞擊聲音檢測位置803前后的特定范圍作為合成目標圖像選擇范圍804。具體地，包括在時間軸上領(lǐng)先撞擊聲音檢測位置803時間L32的范圍和超過撞擊聲音檢測位置803時間L33的范圍的范圍L34確定為合成目標圖像選擇范圍804。
[0278]這里，時間L32到L34例如可以是與圖5B所示的時間L2到L4相同的值。此外，時間L34可以長于時間L4。
[0279]圖30A和30B是示意性圖示根據(jù)本發(fā)明的第四實施例、通過有效聲音范圍設(shè)置部分175的有效聲音范圍的設(shè)置方法和通過合成目標圖像選擇范圍確定部分171的合成目標圖像選擇范圍的確定方法的圖。這是在指定圖28中的網(wǎng)球(發(fā)球）的情況下確定合成目標圖像選擇范圍的示例。此外，該示例是圖5A和5B所示的修改示例，因此,將省略一部分共同組件的描述。
[0280]圖30A以矩形形狀示意性圖示通過輸入部分720輸入的運動圖像810。例如，運動圖像810是其中記錄網(wǎng)球比賽的外觀的運動圖像。此外，在用于形成運動圖像810的各個圖像中，由對象信息生成部分730檢測到網(wǎng)球球員的面部抬高預(yù)定時間或更長的位置表示為時間軸上運動圖像810的面部抬高狀態(tài)檢測位置811。此外，由特定聲音檢測部分740檢測到特定值或更高的聲音的位置（時間軸上的位置）表示為特定值或更高的聲音檢測位置812。在此情況下，有效聲音范圍設(shè)置部分750基于面部抬高狀態(tài)檢測位置811和特定值或更高的聲音檢測位置812設(shè)置有效聲音范圍813。具體地，有效聲音范圍設(shè)置部分750參照面部抬高狀態(tài)檢測位置811和特定值或更高的聲音檢測位置812，設(shè)置時間軸上的有效聲音范圍813 (時間L41)。這里，時間L41例如是面部抬高狀態(tài)檢測位置811是起點并且特定值或更高的聲音檢測位置812是終點的范圍。
[0281]在這方面中，在與網(wǎng)球(發(fā)球）有關(guān)的有效聲音范圍的終點，特定值或更高的聲音的檢測是設(shè)置條件。這里，在對于預(yù)定時間或更長從有效聲音范圍的期間沒有檢測到特定值或更高的聲音的情況下，有效聲音范圍設(shè)置部分750使得關(guān)于起點的有效聲音范圍無效，并且可以等待用于確定有效聲音范圍的新的觸發(fā)。因此，可以減少撞擊聲音的錯誤檢測。此外，與破瓦有關(guān)的有效聲音范圍的終點可以類似地應(yīng)用。
[0282]圖30B示意性圖示在由有效聲音范圍設(shè)置部分750設(shè)置的有效聲音范圍813中檢測到撞擊聲音的情況下合成目標圖像選擇范圍的確定方法。在圖30B中，由特定聲音檢測部分740檢測到撞擊聲音的位置（時間軸上的位置）表不為撞擊聲音檢測位置814。
[0283]例如，合成目標圖像選擇范圍確定部分171確定撞擊聲音檢測位置814是否包括在由有效聲音范圍設(shè)置部分750設(shè)置的有效聲音范圍813中。如圖30B所示，在撞擊聲音檢測位置814包括在有效聲音范圍813中的情況下，合成目標圖像選擇范圍確定部分171基于撞擊聲音檢測位置814確定合成目標圖像選擇范圍。也就是說，合成目標圖像選擇范圍確定部分171參照撞擊聲音檢測位置814，確定時間軸上撞擊聲音檢測位置814前后的特
38定范圍作為合成目標圖像選擇范圍815。具體地，包括在時間軸上領(lǐng)先撞擊聲音檢測位置814時間L42的范圍和超過撞擊聲音檢測位置814時間L43的范圍的范圍L44確定為合成目標圖像選擇范圍815。
[0284]這里，如圖28所示，時間L42例如可以是2.5秒；并且時間L43例如可以是0.5秒。也就是說，時間L44可以是3.0秒。時間L42到L44的設(shè)置內(nèi)容可以根據(jù)用戶的偏好改變。
[0285]此外，在圖29A、29B和圖30A和30B所示的示例中，如本發(fā)明的第二實施例所示，在有效聲音范圍中是否檢測到撞擊聲音的確定之前，可以估計聲音的延遲時間，并且可以基于估計結(jié)果校正撞擊聲音檢測位置。以此方式，校正撞擊聲音的檢測位置，從而使得可能基于校正之后的位置確定合成目標圖像選擇范圍。此外，在作為有效聲音范圍的觸發(fā)的特定聲音(例如，觀眾的巨大歡呼)中，可以估計聲音延遲時間，并且可以基于估計結(jié)果校正檢測位置。例如，在特定聲音是觀眾的巨大歡呼的情況下，使用與各個幀有關(guān)的元數(shù)據(jù)(例如，變焦信息或聚焦位置信息)計算到目標對象的背景的對象距離，并且可以基于對象距離估計觀眾的巨大歡呼的延遲時間。因此，即使在目標對象相對遠的運動圖像內(nèi)容通過變焦功能變?yōu)閳D像捕獲目標時，也可以確定適當?shù)暮铣赡繕藞D像選擇范圍。
[0286]此外，在圖29A、29B和圖30A和30B所示的示例中，可能在由有效聲音范圍設(shè)置部分750設(shè)置的有效聲音范圍中沒有檢測到撞擊聲音。在此情況下，不使用撞擊聲音生成合成圖像，并且可以執(zhí)行下一個合成圖像處理。
[0287]以此方式，對于由如數(shù)字攝像機等的圖像捕獲裝置記錄的圖像內(nèi)容，可以使用各個圖像之間時間軸上的特定改變設(shè)置有效聲音范圍。因此，在生成導(dǎo)致撞擊聲音的極快運動作為目標的合成圖像的情況下，可能用高精確度檢測撞擊聲音的生成位置。此外，可能在強調(diào)撞擊聲音的精確生成位置周圍的情況下生成合成圖像，并且生成具有高可見度的合成圖像。此外，因為撞擊聲音的生成位置的檢測也不需要用戶的手工工作，所以可能減少對于用戶的不便。隨著以此方式生成合成圖像，即使不習慣于圖像捕獲裝置的操作的初學者也可以根據(jù)用戶的偏好容易地生成適當?shù)暮铣蓤D像。
[0288]用于使用各個圖像之間的時間軸上的特定改變設(shè)置有效聲音范圍的設(shè)置方法可以用于本發(fā)明的第一到第三實施例中示出的圖像捕獲裝置。
[0289]此外，在本發(fā)明的實施例中，由合成目標圖像選擇部分172選擇的合成目標圖像可以用于作為靜態(tài)圖像的合成圖像的生成合理。這里，例如，選擇的合成目標圖像可以用于其中生成合成圖像的處理顯示為運動圖像的合成圖像生成處理。此外，選擇的合成目標圖像可以用作合成目標，此外，可以用作指示特定運動的轉(zhuǎn)變的多個圖像(例如，在幻燈片顯示中使用的圖像)。
[0290]本發(fā)明可以應(yīng)用于圖像處理裝置，如具有成像功能的移動電話、個人計算機、視頻系統(tǒng)、編輯裝置等。此外，本發(fā)明的實施例中的處理過程還可以在處理程序中提供。
[0291]本發(fā)明的實施例示例了用于實現(xiàn)本發(fā)明的示例。這里，如在本發(fā)明的實施例中顯而易見，本發(fā)明的實施例的公開內(nèi)容分別對應(yīng)于權(quán)利要求中的公開內(nèi)容。類似地，權(quán)利要求中的公開內(nèi)容分別對應(yīng)于具有相同參考標號的本發(fā)明的實施例的公開內(nèi)容。這里，本發(fā)明不限于實施例，可以在不背離本發(fā)明的精神的范圍內(nèi)進行各種修改。
[0292]此外，在本發(fā)明實施例中描述的處理過程可以提供為具有一系列過程的方法。此夕卜，處理過程可以提供為用于允許該系列過程在計算機和記錄程序的記錄介質(zhì)上執(zhí)行的程序。⑶(致密盤)、MD (迷你盤)、DVD (數(shù)字多功能盤)、存儲卡、藍光盤(注冊商標)等可以用作該記錄介質(zhì)。
[0293]本申請包含涉及于2009年11月20日向日本專利局提交的日本優(yōu)先權(quán)專利申請JP2009-264617中公開的主題，在此通過引用并入其全部內(nèi)容。
[0294]本領(lǐng)域技術(shù)人員應(yīng)當理解，依賴于設(shè)計需求和其他因素可以出現(xiàn)各種修改、組合、子組合和更改，只要它們在權(quán)利要求或其等效物的范圍內(nèi)。
【權(quán)利要求】
1.一種圖像處理裝置，包括：特定聲音檢測部分，其檢測在由圖像組中包括的對象的特定運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
2.如權(quán)利要求1所述的裝置，還包括：確定范圍設(shè)置部分，其設(shè)置用于關(guān)于所述合成圖像的生成的確定的所述時間軸上的預(yù)定范圍。
3.如權(quán)利要求1所述的裝置，還包括：對象距離計算部分，其計算到目標對象的距離；以及延遲時間計算部分，其基于計算的距離計算檢測到的特定聲音的延遲時間，其中所述控制部分基于計算的延遲時間校正時間軸上檢測到的特定聲音的檢測位置，并且根據(jù)校正的檢測位置是否存在于預(yù)定范圍中來確定是否允許所述合成圖像生成部分生成合成圖像。
4.如權(quán)利要求3所述的裝置，還包括確定部分，在校正的檢測位置存在于預(yù)定范圍中的情況下，所述確定部分參照校正的檢測位置確定選擇范圍。
5.如權(quán)利要求1所述的裝置，其中所述合成圖像生成部分相對于選擇范圍中的預(yù)定數(shù)目的圖像的選擇間隔，使得比具有時間軸上的特定聲音的檢測位置作為中心位置的選擇范圍更窄的范圍中的選擇間隔，與選擇范圍中的預(yù)定數(shù)目的圖像的選擇間隔中的其它選擇間隔相比更緊密。
6.如權(quán)利要求1所述的裝置，還包括：存儲部分，其存儲關(guān)于多個類型的特定運動的特定聲音和確定范圍；以及操作接收部分，其接收用于從其中存儲了特定聲音和確定范圍的多個類型的特定運動中指定希望的特定運動的指定操作，其中所述特定聲音檢測部分檢測關(guān)于指定的特定運動的特定聲音，并且其中所述確定范圍設(shè)置部分基于用戶操作設(shè)置關(guān)于指定的特定運動的確定范圍。
7.一種圖像捕獲裝置，包括：圖像捕獲部分，其成像對象以便生成以時間序列方式連續(xù)的多個圖像；特定聲音檢測部分，其檢測在由包括多個圖像的圖像組中包括的對象的特定運動期間生成的特定聲音；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
8.如權(quán)利要求7所述的裝置，還包括: 確定范圍設(shè)置部分，其設(shè)置用于關(guān)于所述合成圖像的生成的確定的所述時間軸上的預(yù)定范圍。
9.一種圖像處理裝置，包括: 特定聲音檢測部分，其檢測在由圖像組中包括的對象進行的特定運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；確定改變檢測部分，其在形成圖像組的各個圖像之間檢測時間軸上的確定改變；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
10.如權(quán)利要求9所述的裝置，還包括: 確定范圍設(shè)置部分，其設(shè)置用于關(guān)于所述合成圖像的生成的確定的所述時間軸上的預(yù)定范圍。
11.一種圖像捕獲裝置，包括: 圖像捕獲部分，其成像對象以便生成以時間序列方式連續(xù)的多個圖像；特定聲音檢測部分，其檢測在由圖像組中包括的對象進行的特定運動期間生成的特定聲音，所述圖像組包括以時間序列方式連續(xù)的多個圖像；確定改變檢測部分，其在形成圖像組的各個圖像之間檢測時間軸上的確定改變；合成圖像生成部分，其參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像；以及控制部分，在預(yù)定范圍中檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分使用檢測到的特定聲音生成合成圖像，并且在預(yù)定范圍中沒有檢測到特定聲音的情況下，所述控制部分控制所述合成圖像生成部分不生成合成圖像。
12.如權(quán)利要求11所述的裝置，還包括: 確定范圍設(shè)置部分，其設(shè)置用于關(guān)于所述合成圖像的生成的確定的所述時間軸上的預(yù)定范圍。
13.如權(quán)利要求11所述的裝置，其中所述確定改變檢測部分使用從形成圖像組的每個圖像提取的特征量和基于關(guān)于形成圖像組的每個圖像的聲音提取的特征量的至少一個，檢測所述確定改變。
14.一種圖像處理裝置的控制方法，包括以下步驟: 執(zhí)行控制，使得在預(yù)定范圍中檢測到特定聲音的情況下，所述特定聲音在由包括以時間序列方式連續(xù)的多個圖像的圖像組中包括的對象進行的特定運動期間生成，參照在時間軸上檢測到的特定聲音的檢測位置，使用在所述時間軸上的圖像組的選擇范圍中包括的預(yù)定數(shù)目的圖像，生成代表特定運動的轉(zhuǎn)換的合成圖像，并且使得在預(yù)定范圍中沒有檢測到特定聲音的情況下，不生成合成圖像。
【文檔編號】H04N5/92GK103533285SQ201310466818
【公開日】2014年1月22日申請日期:2010年11月22日優(yōu)先權(quán)日:2009年11月20日
【發(fā)明者】河井哲郎, 中尾大輔申請人:索尼公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：河井哲郎;中尾大輔
技術(shù)所有人：索尼公司
我是此專利的發(fā)明人

上一篇：圖像處理裝置以及操作事件判別方法
上一篇：手持式通訊裝置與手持式通訊裝置的閃光模塊的調(diào)整方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

圖像處理裝置相關(guān)技術(shù)

圖像處理控制器相關(guān)技術(shù)

數(shù)字圖像處理相關(guān)技術(shù)

圖像處理相關(guān)技術(shù)

圖像處理軟件相關(guān)技術(shù)

圖像處理算法相關(guān)技術(shù)

圖像處理算法工程師相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

圖像捕獲裝置、圖像處理裝置及其控制方法

圖像捕獲裝置、圖像處理裝置及其控制方法