專利名稱:信息處理方法和信息處理設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于響應(yīng)于聲音開始拍攝圖像的技術(shù)。
背景技術(shù):
已知 一種具有在檢測到大于 一 定水平的音量時(shí)執(zhí)行圖像 拍攝的功能(以下稱為音量檢測快門功能)的照相機(jī)(日本特開
平11-194392號公報(bào))。利用該功能使得能夠在發(fā)音時(shí)拍攝圖像。 此外,已知 一 種具有在識別出用于拍攝圖像的語音命令時(shí) 執(zhí)行圖像拍攝的功能(以下稱為語音識別快門功能)的照相機(jī) (曰本特開2006-184589號公報(bào))。利用該功能使得能夠在用戶期 望拍攝圖像且發(fā)音時(shí)拍攝圖像。這里,當(dāng)利用具有語音識別快 門功能的照相機(jī)拍攝圖像時(shí),即使用戶發(fā)出了用于拍攝圖像的 語音命令,在用戶完全發(fā)出用于拍攝圖像的語音命令之前也不 執(zhí)行照相機(jī)的攝像操作。因此,可能錯(cuò)失期望拍攝圖像的時(shí)機(jī)。 相反,當(dāng)利用具有現(xiàn)有的音量檢測快門功能的照相機(jī)拍攝 圖像時(shí),可以響應(yīng)于發(fā)出語音的時(shí)刻執(zhí)行攝像操作。然而,在 這種情況下,即使當(dāng)檢測到例如除期望的語音以外的大的噪聲 等聲音時(shí),也執(zhí)行攝像操作。因此,存在可能存儲不期望的圖 像的情況。
例如,通過使照相4幾進(jìn)行下面的處理可以解決上述問題 根據(jù)用戶說出的單詞"Shoot"(拍攝)在用戶期望的時(shí)刻拍攝圖像 的處理和根據(jù)語音命令"Delete"(刪除)刪除拍攝到的圖像的處 理。然而,輸入兩個(gè)不同的語音命令導(dǎo)致效率不高。
根據(jù)現(xiàn)有的例子做出了本發(fā)明。根據(jù)本發(fā)明,按照單個(gè)語 音命令,高效地對在反映輸入了特定聲音的時(shí)刻的時(shí)刻拍攝的且作為用戶期望的圖像的圖像進(jìn)行存儲。
發(fā)明內(nèi)容
為了高效地存儲這種圖像,例如,根據(jù)本發(fā)明的數(shù)據(jù)轉(zhuǎn)換 設(shè)備具有下面的結(jié)構(gòu)。
根據(jù)本發(fā)明的實(shí)施例, 一種信息處理方法包括檢測滿足 預(yù)先設(shè)置的標(biāo)準(zhǔn)的第 一 聲音的開始,并且響應(yīng)于檢測到所述第 一聲音的開始,獲得圖像數(shù)據(jù),或者檢測所述第一聲音的結(jié)束, 并且響應(yīng)于檢測到所述第一聲音的結(jié)束,獲得圖像數(shù)據(jù);將獲 得的所述圖像數(shù)據(jù)存儲在存儲器中;以及根據(jù)所述第 一 聲音的 內(nèi)容,判斷所述圖像數(shù)據(jù)是否是要存儲的數(shù)據(jù)。
根據(jù)本發(fā)明的另一實(shí)施例, 一種信息處理設(shè)備包括第一 檢測單元,用于檢測滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的聲音的開始;第一 獲得單元,用于響應(yīng)于檢測到所述聲音的開始,獲得第一圖像 數(shù)據(jù);第一存儲控制單元,用于將所述第一圖像數(shù)據(jù)存儲在存 儲器中;第二檢測單元,用于檢測所述聲音的結(jié)束;第二獲得 單元,用于響應(yīng)于檢測到所述聲音的結(jié)束,獲得第二圖像數(shù)據(jù); 第二存儲控制單元,用于將所述第二圖像數(shù)據(jù)存儲在所述存儲
器中;以及確定單元,用于根據(jù)所述聲音的內(nèi)容,將所述第一 圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的 一 個(gè)確定為是要存儲的數(shù) 據(jù),并且將所述第 一 圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的另 一 個(gè) 確定為是要?jiǎng)h除的數(shù)據(jù)。
根據(jù)本發(fā)明的另一實(shí)施例, 一種信息處理方法包括檢測 滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的聲音的開始;響應(yīng)于檢測到所述聲音的 開始,獲得第一圖像數(shù)據(jù);存儲所述第一圖像數(shù)據(jù);檢測所述 聲音的結(jié)束;響應(yīng)于檢測到所述聲音的結(jié)束,獲得第二圖像數(shù) 據(jù);存儲所述第二圖像數(shù)據(jù);以及根據(jù)所述聲音的內(nèi)容,將所述第 一 圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的 一 個(gè)確定為是要存儲 的數(shù)據(jù),并且將所述第 一 圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的另 一個(gè)確定為是要?jiǎng)h除的數(shù)據(jù)。
根據(jù)本發(fā)明的另一實(shí)施例, 一種信息處理設(shè)備包括攝像 單元,用于響應(yīng)于聲音的輸入來拍攝圖像,其中,所述圖像是 要存儲的圖像的候選圖像;存儲控制單元,用于將拍攝到的所 述圖像存儲在存儲器中;以及確定單元,用于根據(jù)所述聲音的 內(nèi)容,從存儲在所述存儲器中的圖像中確定作為要存儲的圖像 的圖像。
通過以下參考附圖對典型實(shí)施例的說明,本發(fā)明的其它特 征將變得明顯。
圖1是示出根據(jù)本發(fā)明第 一 實(shí)施例的信息處理設(shè)備的結(jié)構(gòu) 的例子的功能框圖2A和2B是本發(fā)明第 一 實(shí)施例所使用的數(shù)字照相機(jī)的外 視圖3是示出通過語音檢測單元所確定的狀態(tài)的例子的圖4是示出語音檢測單元的操作的例子的概略圖5是由語音檢測單元進(jìn)行的處理操作的流程圖6是示出在通過語音命令拍攝圖像時(shí)由數(shù)字照相機(jī)進(jìn)行
的處理的例子的第一流程圖7是示出在通過語音命令拍攝圖像時(shí)由數(shù)字照相機(jī)進(jìn)行
的處理的例子的第二流程圖8是示出在通過語音命令拍攝圖像時(shí)由數(shù)字照相機(jī)進(jìn)行
的處理的例子的第三流程圖9是示出本發(fā)明第一實(shí)施例所利用的語音識別語法的例子的圖10是示出識別結(jié)果控制表的例子的圖ll是示出利用根據(jù)本發(fā)明第 一 實(shí)施例的數(shù)字照相機(jī)通過語音命令"Shoot"來拍攝圖像的情況下的操作的圖12是示出利用根據(jù)本發(fā)明第 一 實(shí)施例的數(shù)字照相機(jī)通過語音命令"Cheese"(笑 一 笑)來拍攝圖像的情況下的操作的圖13是僅在檢測到的發(fā)音開始的時(shí)刻拍攝圖像的情況下的流程圖14A和14B是示出由信息處理設(shè)備進(jìn)行的處理操作的例子的第一流程圖15是示出由信息處理設(shè)備進(jìn)行的處理操作的例子的第二流程圖16是示出根據(jù)本發(fā)明第二實(shí)施例的信息處理設(shè)備的結(jié)構(gòu)的例子的功能框圖。
具體實(shí)施例方式
下面,參考
根據(jù)本發(fā)明的實(shí)施例。
圖1是示出作為根據(jù)第 一 實(shí)施例的信息處理設(shè)備的結(jié)構(gòu)的
例子的數(shù)字照相機(jī)的功能框圖。
在圖l中,數(shù)字照相機(jī)200包括控制單元101、才喿作單元102、
攝像單元103、存儲器(用于存儲圖像)110和存儲介質(zhì)(用于存儲
圖像)lll。
此外,數(shù)字照相機(jī)200包括麥克風(fēng)112、存儲器(用于存儲語音識別數(shù)據(jù))113、存儲器(用于存儲識別結(jié)果控制表)114和顯示器115。下面,將對上述單元進(jìn)行具體說明。
控制單元101對操作單元102、攝像單元103、存儲器(用于存儲圖像)IIO、存儲介質(zhì)(用于存儲圖像)lll、麥克 112、存儲器(用于存儲語音識別數(shù)據(jù))113、存儲器(用于存儲識別結(jié)果控制表)114和顯示器115的操作進(jìn)行控制。
這里,將在后面說明由控制單元101進(jìn)4亍的處理。
此外,控制單元101包括中央處理單元(CPU)、只讀存儲器(ROM)和隨機(jī)存取存儲器(RAM)等。
此外,控制單元101包括作為軟件模塊的操作控制單元122、攝像控制單元123、圖像存儲控制單元104、語音輸入單元105、語音檢測單元106、語音識別單元107、識別結(jié)果處理單元108和顯示控制單元109。
操作控制單元122是用于檢測用戶對操作單元102進(jìn)行的操作的單元。
攝像控制單元123是用于使攝像單元103執(zhí)行攝像操作的單元。
圖像存儲控制單元10 4控制將數(shù)據(jù)寫入存儲器(用于存儲圖像)110和存儲介質(zhì)(用于存儲圖像)lll,并且控制從存儲器(用于存儲圖像)110和存儲介質(zhì)(用于存儲圖像)lll讀取數(shù)據(jù)和刪除數(shù)據(jù)等。
語音輸入單元105是用于將通過麥克風(fēng)112輸入的聲音轉(zhuǎn)換成數(shù)字音頻信號并輸出該數(shù)字音頻信號的單元。
語音檢測單元106以一幀為單位,連續(xù)處理從語音輸入單元10 5提供的數(shù)字音頻信號,并且檢測滿足標(biāo)準(zhǔn)的對象聲音。
也就是說,語音^r測單元106從所接收到的音頻信號中識別與對象聲音相對應(yīng)的時(shí)間卓殳。具體地,語音才企測單元106以一幀為單位,連續(xù)處理音頻信號,并且將從檢測到滿足開始條件的音頻信號起直到檢測到滿足結(jié)束條件的音頻信號為止的音頻信號的區(qū)間識別為對象聲音。這里,對象聲音為例如發(fā)音、鼓掌聲或口哨聲。以下,將說明對象聲音是發(fā)音的情況。另外,"檢測到發(fā)音開始"意為檢測到滿足開始條件的音頻信號,并且"檢測到發(fā)音結(jié)束"意為檢測到滿足結(jié)束條件的音頻信號。
這里,發(fā)音期間包括在用戶發(fā)音的期間(時(shí)間段)內(nèi),并且是從檢測到發(fā)音開始時(shí)起直到檢測到發(fā)音結(jié)束時(shí)為止的時(shí)間段。
這里,幀是用于將隨著時(shí)間改變的音頻信號分割成各自具
有固定時(shí)間長度(例如,25.6毫秒)的區(qū)間的處理單位。這里,可以使用相應(yīng)數(shù)量的幀表示時(shí)間。
語音識別單元107包括作為軟件模塊的聲學(xué)分析單元和搜索單元,并且識別包括在用戶發(fā)音的時(shí)間段中的命令(稱之為語音命令)。
這里,命令是可以由語音識別單元107識別的聲音的組合。該命令的例子有"Shoot"。
聲學(xué)分析單元以一幀為單位分析音頻信號,并且輸出例如梅爾頻率倒"i普系凄t(Mel frequency cepstrum coefficient, MFCC)
等特征數(shù)據(jù)。
搜索單元使用維特比(Viterbi)算法等現(xiàn)有算法進(jìn)行搜索處理,并且輸出預(yù)定數(shù)量的命令和相應(yīng)的識別得分,作為識別結(jié)果。
此外,在執(zhí)行搜索處理時(shí),搜索單元使用包括在存儲器(用于存儲語音識別數(shù)據(jù))113中的聲學(xué)模型和語言模型。這里,將在后面具體說明聲學(xué)模型和語言模型。這里,識別得分可以是表示聲學(xué)相似度的現(xiàn)有聲學(xué)得分、從語言模型獲得的現(xiàn)有語言得分、或加權(quán)聲學(xué)得分和加權(quán)語言
得分的總和。此外,識別得分可以是表示識別結(jié)果的置信度的現(xiàn)有置信度得分。這里,可以通過使用不同得分或多種得分對各種聲音執(zhí)行適當(dāng)?shù)乃阉魈幚怼?br>
識別結(jié)果處理單元108獲得由語音識別單元107輸出的識別結(jié)果,并且通過參考存儲在存儲器(用于存儲識別結(jié)果控制表)114中的識別結(jié)果控制表,確定與包括在識別結(jié)果中的命令相對應(yīng)的控制。
這里,將在后面說明第 一 實(shí)施例中所使用的識別結(jié)果控制表的例子。
顯示控制單元109控制顯示在顯示器115上的顯示內(nèi)容。
操作單元102是用戶手動(dòng)操作數(shù)字照相機(jī)200的單元。
這里,操作單元102包括按鈕或開關(guān)等。
攝像單元103生成通過鏡頭所形成的圖像的攝像信號,并且對所生成的攝像信號進(jìn)行模擬-數(shù)字(A/D)轉(zhuǎn)換等圖像處理。
這里,攝像單元103包括鏡頭和攝像傳感器等。
存儲器(用于存儲圖像)110臨時(shí)存儲由攝像單元103所拍攝的圖像的圖像數(shù)據(jù)。這里,存儲器(用于存儲圖像)110是RAM等。
在數(shù)字照相機(jī)200所進(jìn)行的處理結(jié)束時(shí),存儲介質(zhì)(用于存儲圖像)111存儲由攝像單元103所拍攝的圖像的圖像數(shù)據(jù)。這里,存儲介質(zhì)(用于存儲圖像)lll是非易失性存儲器。
存儲器(用于存儲圖像)110用作第一存儲器,并且存儲介質(zhì)(用于存儲圖像)lll用作第二存儲器。
麥克風(fēng)112接收輸入的用戶語音,并將輸入的語音數(shù)據(jù)輸出至語音輸入單元105。
這里,麥克風(fēng)112是現(xiàn)有的單聲道麥克風(fēng)或現(xiàn)有的立體聲麥克風(fēng)等。
存儲器(用于存儲語音識別數(shù)據(jù))113存儲用以執(zhí)行語音識別的數(shù)據(jù)、例如隱馬爾可夫模型(hidden Markov model, HMM)等現(xiàn)有聲學(xué)模型和N-gram或隨機(jī)語法等現(xiàn)有語言模型。
這里,N-gram是通過使用N個(gè)單詞鏈概率來計(jì)算語言概率 的語言模型。
此外,可以使用寫入了能在語音識別中識別出的特定單詞 和單詞之間的連接j見則的語音識別語法,作為語言才莫型。這里,
將在后面說明第 一 實(shí)施例所使用的語音識別語法的例子。
此外,存儲器(用于存儲語音識別數(shù)據(jù))113是非易失性存儲 器等。
存儲器(用于存儲識別結(jié)果控制表)114存儲識別結(jié)果控制 表。此外,存儲器(用于存儲識別結(jié)果控制表)114是非易失性存儲器。
這里,將在后面說明第一實(shí)施例所使用的識別結(jié)果控制表 的例子。
這里,這種非易失性存儲器可以是現(xiàn)有的硬盤、現(xiàn)有的緊 湊型閃存卡或安全凄t字(Secure Digital, SD)卡等。
此外,這種非易失性存儲器還可以是緊湊型光盤(CD)或數(shù) 字多功能光盤(DVD)。
此外,這種非易失性存儲器還可以是能通過局域網(wǎng)(LAN) 適配器或通用串行總線(USB)適配器等接口連接至信息處理設(shè) 備的外部存儲介質(zhì)。
顯示器115顯示由攝像單元103所拍攝的圖像以及存儲在 信息處理設(shè)備和存儲介質(zhì)(用于存儲圖像)lll等中的圖像。
此外,顯示器115為例如液晶顯示器(LCD)或有機(jī)電致發(fā)光 (electroluminescence, EL)顯示器等。
圖2 A和2 B是根據(jù)本發(fā)明第 一 實(shí)施例的數(shù)字照相機(jī)的外視 圖。這里,圖2A是數(shù)字照相機(jī)200的正面的外視圖。圖2B是數(shù) 字照相機(jī)200的背面的外#見圖。這里,通過相同的附圖標(biāo)記表示與圖1所示的組件相同的 組件,并且將省略對其的說明。
在圖2A和2B中,數(shù)字照相機(jī)200包括快門按鈕201、語音快 門on-off(打開-關(guān)閉)開關(guān)202、模式撥盤203、四向選擇按鈕204、 確定按鈕205、電源按4丑206和記錄按4丑207。這些組件對應(yīng)于圖 l所示的操作單元102。
下面,將說明數(shù)字照相機(jī)200的各種單元。 快門按鈕201是用于發(fā)出拍攝圖像的命令的快門按鈕。 語音快門on-off開關(guān)202是對于是否使用用于根據(jù)語音命 令執(zhí)行攝像操作的功能進(jìn)行切換的開關(guān)。
模式撥盤203是用于通過旋轉(zhuǎn)將數(shù)字照相機(jī)200的操作模 式切換成現(xiàn)有的拍攝模式和現(xiàn)有的重放模式等中的一個(gè)的模式 撥盤。
四向選擇按鈕204是用于輸入垂直或水平移動(dòng)某物的命令 的四向選擇4要4丑。
確定按鈕205是用于執(zhí)行特定操作的按鈕。
電源按鈕206是用于打開/關(guān)閉數(shù)字照相機(jī)200的電源的電 源按鈕。
記錄按鈕207是用于手動(dòng)輸入輸入語音的開始和結(jié)束的按鈕。
接著,將具體說明語音檢測單元106的功能。 語音檢測單元106檢測滿足第 一預(yù)定標(biāo)準(zhǔn)(開始條件)的聲
音。當(dāng)語音檢測單元10 6檢測到滿足第 一 預(yù)定標(biāo)準(zhǔn)(開始條件)
的聲音時(shí),語音檢測單元106進(jìn)行用于檢測滿足第二預(yù)定標(biāo)準(zhǔn)的
聲音的檢測操作。
在從檢測到滿足第 一預(yù)定標(biāo)準(zhǔn)(開始條件)的聲音時(shí)開始過
去了預(yù)先設(shè)置的時(shí)間之后,語音檢測單元10 6判斷為檢測到的聲音是滿足第二預(yù)定標(biāo)準(zhǔn)的聲音。
語音檢測單元10 6根據(jù)輸入的音頻信號的變化,判斷為檢 測到的聲音不是滿足第 一 預(yù)定標(biāo)準(zhǔn)(開始條件)的聲音。也就是 說,語音檢測單元10 6取消用于檢測滿足第 一 預(yù)定標(biāo)準(zhǔn)的聲音的 檢測操作。
類似地,語音纟企測單元10 6檢測不滿足第二預(yù)定標(biāo)準(zhǔn)(結(jié)束 條件)的聲音。當(dāng)語音檢測單元10 6檢測到不滿足第二預(yù)定標(biāo)準(zhǔn) (結(jié)束條件)的聲音時(shí),語音檢測單元10 6進(jìn)行用于檢測不滿足第 二預(yù)定標(biāo)準(zhǔn)的聲音的檢測操作。
在從檢測到不滿足第二預(yù)定標(biāo)準(zhǔn)(結(jié)束條件)的聲音時(shí)開始 過去了預(yù)先設(shè)置的時(shí)間之后,語音檢測單元106判斷為檢測到的 聲音不是滿足第二預(yù)定標(biāo)準(zhǔn)的聲音。
語音檢測單元10 6根據(jù)輸入的音頻信號的變化,判斷為檢 測到的聲音是滿足第二預(yù)定標(biāo)準(zhǔn)(結(jié)束條件)的聲音。也就是說, 語音檢測單元106取消用于檢測不滿足第二預(yù)定標(biāo)準(zhǔn)的聲音的 檢測纟喿作。
圖3是示出由語音檢測單元106所確定的檢測狀態(tài)的例子的圖。
語音檢測單元106根據(jù)音頻信號的檢測狀況,從所處的四 種狀態(tài)中的一種狀態(tài)改變成另 一狀態(tài)。
第 一狀態(tài)301是緊挨在開始輸入聲音之后進(jìn)入的狀態(tài),即 沒有檢測到發(fā)音的狀態(tài)(以下將該狀態(tài)稱為無聲(SILENCE))。
第二狀態(tài)302是進(jìn)行了用于檢測滿足預(yù)定標(biāo)準(zhǔn)的發(fā)音的開 始的檢測操作但是未設(shè)置發(fā)音開始的狀態(tài)(以下將該狀態(tài)稱為 可能語音(POSSIBLE SPEECH))。
第三狀態(tài)303是設(shè)置了滿足預(yù)定標(biāo)準(zhǔn)的發(fā)音的開始的狀態(tài) (以下將該狀態(tài)稱為語音(SPEECH))。第四狀態(tài)3 04是進(jìn)行了用于檢測滿足預(yù)定標(biāo)準(zhǔn)的發(fā)音的結(jié) 束的檢測操作的狀態(tài)但未設(shè)置發(fā)音結(jié)束的狀態(tài)(以下將該狀態(tài) 稱為可能無聲(POSSIBLE SILENCE))。
這里,在第一實(shí)施例中說明了將發(fā)音的檢測狀況(以下簡稱 為"聲音檢測狀況,,)分成四種狀態(tài)的例子。然而,即使組合第二 狀態(tài)302和第四狀態(tài)304,將聲音檢測狀況分成三種狀態(tài),并且 判斷為聲音檢測狀況是三種狀態(tài)中的 一種,也獲得與第 一 實(shí)施 例的效果相同的效果。
在第一狀態(tài)301下,如果進(jìn)行了用于才企測發(fā)音開始的^r測 操作(如果進(jìn)行了用于檢測從麥克風(fēng)112輸入的且滿足預(yù)定標(biāo)準(zhǔn) 的發(fā)音的輸入開始的檢測操作),則檢測狀態(tài)改變成第二狀態(tài) 302。以附圖標(biāo)記305表示該操作。
在第二狀態(tài)302下,如果取消用于檢測發(fā)音開始的檢測操 作,則4僉測狀態(tài)改變成第一狀態(tài)301。以附圖標(biāo)記306表示該操: 作。
此外,在第二狀態(tài)302下,如果設(shè)置了發(fā)音開始,則檢測 狀態(tài)改變成第三狀態(tài)303。以附圖標(biāo)記307表示該」操作。
在第三狀態(tài)303下,如果進(jìn)行了用于^r測發(fā)音結(jié)束的檢測 操作(如果進(jìn)行了結(jié)束從麥克風(fēng)112輸入的且滿足預(yù)定標(biāo)準(zhǔn)的發(fā) 音的輸入),則檢測狀態(tài)改變成第四狀態(tài)304。以附圖標(biāo)記308 表示該操作。
在第四狀態(tài)304下,如果取消用于檢測發(fā)音結(jié)束的檢測操 作,則檢測狀態(tài)改變成第三狀態(tài)303。以附圖標(biāo)記309表示該操作。
此外,在第四狀態(tài)304下,如果設(shè)置了滿足預(yù)定標(biāo)準(zhǔn)的發(fā) 音的結(jié)束,則結(jié)束用于檢測發(fā)音的檢測操作。以附圖標(biāo)記310 表示該操作。當(dāng)在第四狀態(tài)304下設(shè)置了發(fā)音結(jié)束時(shí),結(jié)束用于檢測發(fā) 音的檢測操作。因此,在進(jìn)行后面將說明的語音識別處理時(shí), 可以抑制用于進(jìn)行語音檢測處理的計(jì)算量和功耗等。
這里,在第四狀態(tài)304下設(shè)置了發(fā)音結(jié)束的情況下,檢測 狀態(tài)可以改變成第一狀態(tài)301。
檢測狀態(tài)從第四狀態(tài)304改變成第 一狀態(tài)30H吏得能夠連 續(xù)進(jìn)行用于檢測下一發(fā)音的檢測操作。
圖4是示出由語音檢測單元106進(jìn)行的處理的例子的概略圖。
圖4示出用戶說出單詞"Shoot"的情況。
這里,"Shoot"是用于開始拍攝圖像的命令的例子。下面將 說明命令的內(nèi)容。
在圖4中,以附圖標(biāo)記420表示音頻信號。
此外,以附圖標(biāo)記421表示音頻信號420的區(qū)間。區(qū)間421 中的音頻信號不是用戶發(fā)音的音頻信號,而是檢測到的噪聲的 音頻信號。
此外,以附圖標(biāo)記422表示音頻信號420的區(qū)間。區(qū)間422 中的音頻信號表示由用戶說出的"Shoot"的聲音。
根據(jù)第 一 實(shí)施例的語音檢測單元10 6進(jìn)行用于檢測發(fā)音音 量的檢測操作,其中,在判斷發(fā)音是否滿足預(yù)定標(biāo)準(zhǔn)時(shí)使用該 音量。
這里,如果發(fā)音的音量變得大于或等于預(yù)定閾值,則進(jìn)行 用于檢測發(fā)音開始的檢測操作,并且如果該音量變得小于預(yù)定 閾值,則進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作。也就是說,發(fā)音 滿足開始條件的狀態(tài)意為發(fā)音的音量變得大于或等于預(yù)定閾值 的狀態(tài)。同時(shí),發(fā)音滿足結(jié)束條件的狀態(tài)意為發(fā)音的音量變得 小于預(yù)定閾值的狀態(tài)。在圖4中,以附圖標(biāo)記401表示利用現(xiàn)有方法從音頻信號 420獲得的音量(E(t))。以附圖標(biāo)記402表示進(jìn)行用于檢測發(fā)音開 始的檢測操作所使用的閾值(T H1)。以附圖標(biāo)記403表示進(jìn)行用 于檢測發(fā)音結(jié)束的檢測操作所使用的閾值(TH2)。
這里,E(t)表示在時(shí)刻t開始的幀處的音量。
也就是說,如果在第一狀態(tài)301下音量E(t)^THl,則進(jìn)行用 于檢測發(fā)音開始的檢測操作,并且如果在第三狀態(tài)303下音量 E(t) <TH2,則進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作。
此外,可以4吏用相同的閾值(TH1 = TH2)來進(jìn)4亍用于4企測發(fā) 音開始和發(fā)音結(jié)束的檢測操作。
此外,如果預(yù)定數(shù)量的幀滿足進(jìn)行用于檢測發(fā)音開始的檢 測操作所使用的條件(E(t)^THl),則設(shè)置發(fā)音開始。
類似地,如果預(yù)定數(shù)量的幀滿足進(jìn)行用于檢測發(fā)音結(jié)束的 檢測操作所使用的條件(E(t) < TH2),則設(shè)置發(fā)音結(jié)束。
在第一實(shí)施例中,以D1(例如,4個(gè)幀)表示用以設(shè)置發(fā)音開 始的幀的數(shù)量,并且以D2(例如,6個(gè)幀)表示用以設(shè)置發(fā)音結(jié)束 的幀的數(shù)量。
因此,如果在檢測狀態(tài)改變成第二狀態(tài)302之后一企測到Dl 個(gè)幀滿足E(t)^THl,則設(shè)置發(fā)音開始,并且檢測狀態(tài)改變成第 三狀態(tài)303。
此外,如果在4企測狀態(tài)改變成第二狀態(tài)302之后且在4企測 到Dl個(gè)幀之前音量變成E(t) < TH1,則檢測狀態(tài)改變成第一狀 態(tài)301。
這里,用于將^r測狀態(tài)從第二狀態(tài)302改變成第一狀態(tài)301 的處理對應(yīng)于取消用于檢測發(fā)音開始的檢測操作的處理。
類似地,如果在檢測狀態(tài)改變成第四狀態(tài)304之后檢測到 D2個(gè)幀滿足E(t)〈TH2,則設(shè)置發(fā)音結(jié)束,并且結(jié)束語音檢測。此外,如果在檢測狀態(tài)改變成第四狀態(tài)304之后且在檢測 到D2個(gè)幀之前音量變成E(t)^TH2,則^r測狀態(tài)改變成第三狀態(tài) 303。
這里,用于將檢測狀態(tài)從第四狀態(tài)304改變成第三狀態(tài)303 的處理對應(yīng)于取消用于檢測發(fā)音結(jié)束的檢測操作的處理。
這里,作為用以設(shè)置發(fā)音開始的幀的數(shù)量的D1通常小于作 為用以設(shè)置發(fā)音結(jié)束的幀的數(shù)量的D2;然而,它們可以是相同 的(D1-D2)。
以附圖標(biāo)記43 0表示對于音頻信號42 0的語音4全測單元10 6 的檢測狀態(tài)。
第 一 狀態(tài)3 01是開始語音輸入之后的狀態(tài)。
在音量401變得大于或等于閾值TH1的時(shí)刻tl開始的幀處, 進(jìn)行用于檢測發(fā)音開始的檢測操作。以附圖標(biāo)記404表示該操 作。檢測狀態(tài)改變成第二狀態(tài)302。
在檢測狀態(tài)已改變成第二狀態(tài)302之后幀的數(shù)量變成D1之 前的時(shí)刻t2開始的幀處,音量401變得小于閾值TH1。因此,取 消用于檢測發(fā)音開始的檢測操作。以附圖標(biāo)記40 5表示該操作。 檢測狀態(tài)改變成第 一 狀態(tài)3 01 。
然后,在時(shí)刻t3開始的幀處,音量401再次變得大于或等于 閾值TH1。因此,進(jìn)行用于檢測發(fā)音開始的檢測操作。以附圖 標(biāo)記406表示該操作。檢測狀態(tài)改變成第二狀態(tài)302。
在檢測狀態(tài)已改變成第二狀態(tài)302之后音量401大于或等 于閾值TH1的幀的數(shù)量變成D1的時(shí)刻t4,將發(fā)音開始確定為時(shí) 刻t3。以附圖標(biāo)記407表示該操作。檢測狀態(tài)改變成第三狀態(tài) 303。
在第三狀態(tài)303下,在音量401變得小于進(jìn)行用于檢測發(fā)音 結(jié)束的檢測,燥作所4吏用的閾值TH2的時(shí)刻t5開始的幀處,進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作。以附圖標(biāo)記408表示該操作。檢 測狀態(tài)改變成第四狀態(tài)304。
由于在時(shí)刻t6開始的幀處音量401變得大于或等于閾值 TH2,因而取消用于檢測發(fā)音結(jié)束的檢測操作。以附圖標(biāo)記409 表示該操作。檢測狀態(tài)改變成第三狀態(tài)303。
由于在時(shí)刻t7開始的幀處音量401再次變得小于閾值TH2, 因而進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作。以附圖標(biāo)記410表示該 操作。檢測狀態(tài)改變成第四狀態(tài)304。
此后,在4企測狀態(tài)已改變成第四狀態(tài)304之后音量401變得 小于閾值TH2的幀的數(shù)量變成D2的時(shí)刻t8,將發(fā)音結(jié)束確定為 時(shí)刻t7。以附圖標(biāo)記411表示該操作。
此外,代替幀的數(shù)量,可以根據(jù)音量大于或等于閾值的狀 態(tài)和音量小于閾值的狀態(tài)是否分別保持預(yù)定時(shí)間段,來設(shè)置發(fā) 音開始和發(fā)音結(jié)束。
也就是說,如果在與用以設(shè)置發(fā)音開始的幀的數(shù)量D1(例 如,4個(gè)幀)相對應(yīng)的時(shí)間段S1(40毫秒)內(nèi),4企測到音量大于或 等于閾值(TH1),則設(shè)置發(fā)音開始。
類似地,如果在與用以設(shè)置發(fā)音結(jié)束的幀的數(shù)量D2(例如, 6個(gè)幀)相對應(yīng)的時(shí)間段S1(60毫秒)內(nèi),檢測到音量小于或等于 閾值(TH2),則設(shè)置發(fā)音結(jié)束。
這里,即使當(dāng)檢測到間歇檢測到預(yù)定音量的時(shí)間段時(shí),也 可以使用該時(shí)間段來判斷是否應(yīng)該設(shè)置發(fā)音開始或發(fā)音結(jié)束。
利用這 一 結(jié)構(gòu),即使在呼吸的瞬間沒有檢測到要檢測的聲 音,并且與該瞬間相對應(yīng)的幀的音量較低,語音檢測單元106 也可以在該瞬間之后不久再次4企測到聲音的情況下,扭J亍適當(dāng) 的處理。
圖5是由語音檢測單元106進(jìn)行的處理操作的流程圖。在步驟S501,當(dāng)進(jìn)行用于^r測發(fā)音開始的^r測操作時(shí),初 始化幀編號。
以下,以一幀為單位進(jìn)行用于檢測語音的4企測操作。
也就是說,當(dāng)語音檢測單元10 6以 一 幀為單位進(jìn)行處理時(shí),
語音檢測單元106以一幀為單位計(jì)算音量。
這里,例如通過利用現(xiàn)有方法根據(jù)音頻信號計(jì)算對數(shù)冪等
的關(guān)于信號強(qiáng)度的值來獲得音量。
這里,例如通過下面的表達(dá)式計(jì)算短時(shí)間段的對數(shù)冪。 E(t) = log (x(t, i)A2)/N} (12 i S N) 公式(l) 這里,N表示每幀的音頻信號的樣本數(shù)量,i表示幀中的音
頻信號的樣本的索引。
此外,x(t, i)表示在時(shí)刻t開始的幀中的音頻信號的第i個(gè)樣本。
此外,x(t, i廣2意為x(t, i)的平方。
接著,在步驟S502,開始第一狀態(tài)301下的處理。
接著,在步驟S503,判斷在時(shí)刻t開始的幀處的音量E(t)是
否大于或等于進(jìn)行用于檢測發(fā)音開始的檢測操作所使用的閾值
TH1。
如果音量E(t)大于或等于閾值THl(步驟S503為"是"),則在 步驟S505,檢測狀態(tài)改變成第二狀態(tài)302。
如果音量E(t)小于閾值TH1 (步驟S 5 03為"否"),則對于下一 幀再次執(zhí)行處理(步驟S504)。
接著,在步驟S506,將檢測狀態(tài)改變成第二狀態(tài)302的幀 設(shè)置為發(fā)音開始幀Ts。
接著,在步驟S507,判斷音量E(t)是否小于閾值THl。
如果音量E(t)小于閾值TH1 (步驟S 507為"是"),則檢測狀態(tài) 改變成第一狀態(tài)301。如果音量E(t)大于或等于閾值THl(步驟S507為"否"),則在 步驟S508繼續(xù)該處理,在步驟S508,判斷在檢測狀態(tài)已改變成 第二狀態(tài)302之后所獲得的幀的數(shù)量是否小于D1。
如果在檢測狀態(tài)已改變成第二狀態(tài)302之后所獲得的幀的 數(shù)量小于D1(步驟S508為"是"),則對于下一幀再次執(zhí)行處理(步 驟S509)。
如果在檢測狀態(tài)已改變成第二狀態(tài)3 02之后所獲得的幀的 數(shù)量大于或等于D1(步驟S508為"否"),則在步驟S510,檢測狀 態(tài)改變成第三狀態(tài)303。
接著,在步驟S512,判斷音量E(t)是否小于進(jìn)行用于檢測 發(fā)音結(jié)束的檢測操作所使用的閾值T H 2 。
如果音量E(t)小于閾值TH2(步驟S512為"是"),則在步驟 S514, 4企測狀態(tài)改變成第四狀態(tài)304。
如果E(t)大于或等于闊值TH2(步驟S512為"否"),則在步驟 S513進(jìn)行下一幀的處理。
接著,在步驟S515,將檢測狀態(tài)改變成第四狀態(tài)304的幀 設(shè)置為發(fā)音結(jié)束幀Te。
接著,在步驟S516,判斷音量E(t)是否大于或等于閾值TH2。
如果音量E(t)大于或等于閾值TH2(步驟S516為"是"),則檢 測狀態(tài)改變成第三狀態(tài)303。
如果音量E(t)小于閾值TH2(步驟S516為"否"),則在步驟 S517繼續(xù)該處理,在步驟S517,判斷在檢測狀態(tài)已改變成第四 狀態(tài)304之后所獲得的幀的數(shù)量是否小于D2 。
如果在檢測狀態(tài)已改變成第四狀態(tài)304之后所獲得的幀的 數(shù)量小于D2(步驟S517為"是"),則在步驟S518進(jìn)行下一幀的處 理。
如果在檢測狀態(tài)已改變成第四狀態(tài)3 04之后所獲得的幀的數(shù)量大于或等于D2(步驟S517為"否"),則在步驟S519繼續(xù)該處 理,在步驟S519,判斷是否應(yīng)該結(jié)束語音^r測。
如果應(yīng)該結(jié)束語音檢測(步驟S519為"是"),則在步驟S520 終止語音纟全測。
如果不應(yīng)該結(jié)束語音檢測(步驟S519為"否"),則在要進(jìn)行 下 一 發(fā)音的檢測操作的情況下,檢測狀態(tài)改變成第 一 狀態(tài)3 01 。
通過進(jìn)行上述處理,語音#r測單元10 6 #r測,人幀Ts開始到幀 Te為止的發(fā)音期間。
語音識別單元107通過處理在由語音檢測單元106#企測到 的發(fā)音期間(從幀Ts到幀Te)所獲得的音頻信號,來獲得語音識 別結(jié)果。
這里,使用圖5的流程圖,在上述說明中根據(jù)音量的變化, 檢測發(fā)音期間;然而,用于檢測發(fā)音的檢測操作不局限于此。
此外,在進(jìn)行語音檢測時(shí),可以使用零交叉次數(shù)、音高 (pitch)、從語音模型輸出的似然比或從非語音模型輸出的似然 比等的已知特征或者通過組合這些特征所獲得的特征。
使用這種特征使得即使在例如輸入的周圍聲音響度大的 環(huán)境下也能夠高效地檢測發(fā)音開始和發(fā)音結(jié)束。
這里,如下所述,設(shè)置發(fā)音開始和發(fā)音結(jié)束所使用的條件 可以是除關(guān)于幀的數(shù)量的條件以外的條件。
例如,設(shè)置預(yù)定閾值TH3,其中預(yù)定閾值TH3大于進(jìn)行用 于檢測發(fā)音開始的檢測操作所使用的閾值TH1。在進(jìn)行用于檢 測發(fā)音開始的檢測操作之后,在音量達(dá)到預(yù)定闞值T H 3的幀處, 可以將發(fā)音開始確定為進(jìn)行用于檢測發(fā)音開始的檢測操作的時(shí) 刻。
此外,為了設(shè)置發(fā)音結(jié)束,設(shè)置小于進(jìn)行用于檢測發(fā)音結(jié) 束的檢測操作所使用的閾值TH2的預(yù)定閾值TH4。在進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作之后,在音量變得小于預(yù)定閾值TH4 的幀處,可以將發(fā)音結(jié)束確定為進(jìn)行用于檢測發(fā)音結(jié)束的檢測 操作的時(shí)刻。
使用這種條件可以縮短用于設(shè)置發(fā)音開始和發(fā)音結(jié)束的 時(shí)間段。
接著,將說明下面的情況在具有上述結(jié)構(gòu)的數(shù)字照相機(jī) 200中,根據(jù)語音命令執(zhí)行攝像操作。
下面參考圖3說明通過語音4企測單元106 、 l聶像控制單元 123和圖像存儲控制單元104所進(jìn)行的處理的例子。
在圖3中,如果進(jìn)行以附圖標(biāo)記305所表示的用于檢測發(fā)音 開始的檢測操作,則攝像控制單元123使得攝像單元103執(zhí)行攝 像操作。
這里,進(jìn)行用于檢測發(fā)音開始的檢測操作(305)的情況對應(yīng) 于在圖5的步驟S503中判斷為"是"的情況。
此外,如果進(jìn)行以附圖標(biāo)記308所表示的用于檢測發(fā)音結(jié) 束的檢測操作,則攝像控制單元123使得攝像單元103執(zhí)行攝像 操作。
這里,進(jìn)行用于^r測發(fā)音結(jié)束的檢測^:作(308)的情況對應(yīng) 于在圖5的步驟S512中判斷為"是"的情況。
也就是說,當(dāng)語音4企測處理的內(nèi)部狀態(tài)從第 一狀態(tài)301改 變成第二狀態(tài)302時(shí),或者當(dāng)語音檢測處理的內(nèi)部狀態(tài)從第三狀 態(tài)303改變成第四狀態(tài)304時(shí),攝像單元103拍攝圖像。
此外,如果取消以附圖標(biāo)記306表示的用于檢測發(fā)音開始 的檢測操作,或者如果取消以附圖標(biāo)記3 09表示的用于檢測發(fā)音 結(jié)束的檢測操作,則圖像存儲控制單元104刪除拍攝到的圖像。
這里,取消用于檢測發(fā)音開始的檢測才喿作(306)的情況對應(yīng) 于在圖5的步驟S507中判斷為"是"的情況。此外,取消用于檢測發(fā)音結(jié)束的檢測操作(3 0 9)的情況對應(yīng) 于在圖5的步驟S516中判斷為"是"的情況。
也就是說,當(dāng)在圖3中取消用于檢測發(fā)音開始的檢測操作 時(shí),如果進(jìn)行用于檢測發(fā)音開始的檢測操作(305),則圖像存儲 控制單元10 4刪除拍攝到的圖像。
類似地,當(dāng)取消用于檢測發(fā)音結(jié)束的檢測操作時(shí),如果進(jìn) 行用于檢測發(fā)音結(jié)束的檢測操作(308),則圖像存儲控制單元 104刪除拍攝到的圖像。
也就是it,當(dāng)內(nèi)部狀態(tài)乂人第二狀態(tài)302改變成第 一狀態(tài) 301,或者當(dāng)內(nèi)部狀態(tài)從第四狀態(tài)304改變成第三狀態(tài)303時(shí),刪 除緊挨在內(nèi)部狀態(tài)改變之前所拍攝到的圖像。
圖9是示出第一實(shí)施例中所使用的語音識別語法的例子的圖。
在該例子中,語音識別語法900包括描述規(guī)則的部分901和 描述可識別命令和發(fā)音的部分902 。
在描述可識別命令和發(fā)音的部分902中,描述了單詞的ID 903、關(guān)于單詞的命令904和單詞的發(fā)音905。部分902的每一行 具有其中一個(gè)單詞的ID903、關(guān)于該單詞的命令904和該單詞的 發(fā)音905。
這里,在描述^L則的部分901中,以語音識別單元107可讀 取的程序代碼來描述用于識別部分902中所描述的9個(gè)單詞的方法。
"Shoot"、 "Go"(拍了)、 "Cheese"、 "Say Cheese"(笑一下) 和"Five Four Three"(五四三)是用于開始下面所述的攝像操作 的語音命令。
"Spot Metering"(點(diǎn)測光)、"Center Metering"(中央重點(diǎn)測 光)、"Use a Flash"(啟動(dòng)閃光燈)和"No Flash"(禁用閃光燈)是用于設(shè)置拍攝條件的語音命令。
在下面的說明中,使用圖9所示的語音識別語法900作為根 據(jù)第一實(shí)施例的數(shù)字照相機(jī)200中的語言模型。
這里,在第一實(shí)施例中,作為例子說明了語音命令;然而, 本發(fā)明不局限于這些。例如,代替語音命令,可以使用能被解 釋為表示語音命令的聲音。
例如,可以使用笑聲或火車經(jīng)過時(shí)發(fā)出的聲音等。這里, 在這種情況下,代替語音識別技術(shù),使用檢測聲音內(nèi)容的已知 技術(shù)。
利用這種結(jié)構(gòu),即使在通過麥克風(fēng)112不僅輸入語音而且 輸入特征聲音的情況下,用戶也可以獲得在與各種特征聲音中 的 一 個(gè)相對應(yīng)的時(shí)刻所拍攝的圖像。
識別結(jié)果控制表是表格式的數(shù)據(jù),在該數(shù)據(jù)中,描述了與 識別結(jié)果相對應(yīng)的用于拍攝圖像的處理、用于啟動(dòng)測光的處理 和用于啟動(dòng)閃光燈的處理。識別結(jié)果處理單元108在確定與識別 結(jié)果相對應(yīng)的照相機(jī)控制時(shí),參考該識別結(jié)果控制表。
這里,以識別結(jié)果處理單元10 8可讀取的程序代碼的形式, 將識別結(jié)果控制表存儲在存儲器(用于存儲識別結(jié)果控制 表)114中。
圖IO是示出識別結(jié)果控制表的例子的圖。 在圖IO中,以附圖標(biāo)記1000表示識別結(jié)果處理數(shù)據(jù)。 以附圖標(biāo)記904表示語音識別所使用的命令,并且描述了 數(shù)字照相機(jī)200的以附圖標(biāo)記904表示的命令中的相應(yīng)一個(gè)命令 的控制內(nèi)容,其中,以附圖標(biāo)記1002表示該控制內(nèi)容。
圖6~圖8是示出在通過語音命令拍攝圖像時(shí)由數(shù)字照相 機(jī)200所進(jìn)行的處理的例子的流程圖。
首先,使用圖6的流程圖來說明處理。在步驟S601,判斷是否啟動(dòng)了聲音啟動(dòng)功能。
如果啟動(dòng)了聲音啟動(dòng)功能(步驟S601為"是"),則在步驟
S602繼續(xù)該處理,在步驟S602,判斷是否按下了記錄按鈕207
和是否進(jìn)行用于開始語音(發(fā)音)輸入的操作。
如果沒有啟動(dòng)聲音啟動(dòng)功能(步驟S601為"否"),則在步驟
S699中進(jìn)行除關(guān)于聲音啟動(dòng)功能的處理以外的處理(即,其它照
相機(jī)控制)。
這里,用戶操作包括在操作單元102中的語音快門on-off開 關(guān)202以在啟動(dòng)和禁用聲音啟動(dòng)功能之間進(jìn)行切換。
此外,控制單元101判斷應(yīng)該啟動(dòng)還是禁用聲音啟動(dòng)功能。
如果進(jìn)行用于開始接收語音的操作(步驟S602為"是"),則 在步驟S603,語音輸入單元105開始用于4妄收語音的處理,并 且語音#r測單元10 6開始語音檢測處理。
如果進(jìn)行除用于開始接收語音的操作以外的操作(步驟 S602為"否"),則在步驟S699進(jìn)行除關(guān)于聲音啟動(dòng)功能的處理以 外的處理(即,其它照相機(jī)控制)。
這里,可以通過除按下記錄按鈕207以外的操作來進(jìn)行用 于開始接收語音的操作。
例如,如果半按下快門按鈕201,則設(shè)置有自動(dòng)調(diào)焦功能 的數(shù)字照相機(jī)進(jìn)行調(diào)焦。
這里,可以與自動(dòng)調(diào)焦功能的操作相關(guān)聯(lián)地開始用于接收 語音的處理。也就是說,如果用戶半按下快門按鈕201,則可以 開始用于接收語音的處理和用于檢測語音的處理。
利用這種結(jié)構(gòu),簡化了手動(dòng)操作。因此,用戶可以快速地 開始用于輸入語音的處理。
此外,當(dāng)向語音輸入單元105輸入音頻信號時(shí),可以在無
需手動(dòng)開始語音檢測的情況下,開始語音檢測。利用這種結(jié)構(gòu),可以快速地開始用于^r測語音的處理。此 外,即使用戶不能手動(dòng)操作照相機(jī),用戶也可以開始語音檢測。 因此,可以在監(jiān)^L照相才幾、安全用照相才幾或置于高處的照相機(jī) 等中使用這種結(jié)構(gòu)。
在步驟S604,判斷語音檢測單元106是否進(jìn)行了用于檢測 發(fā)音開始的檢測操作。
這里,在步驟S604,才艮據(jù)語音4全測單元106是否已4丸行用 于將內(nèi)部狀態(tài)從第一狀態(tài)301改變成第二狀態(tài)302的處理,判斷 語音檢測單元106是否進(jìn)行了用于檢測發(fā)音開始的檢測操作。
如果語音檢測單元106進(jìn)行了用于纟企測發(fā)音開始的檢測操 作(步驟S604為"是"),則在步驟S605,:攝像單元103執(zhí)行攝像操 作。
在步驟S606,圖^f象存儲控制單元104將在前一步驟S605中 拍攝到的圖像的第 一 圖像數(shù)據(jù)存儲在存儲器(用于存儲圖 像)110中。
這里,將在步驟S605拍攝到的圖像,即在語音檢測單元106 進(jìn)行用于檢測發(fā)音開始的檢測操作時(shí)所拍攝的圖像稱為圖像 A。
如果語音檢測單元106沒有進(jìn)行用于檢測發(fā)音開始的檢測 操作(步驟S604為"否"),則再次判斷語音檢測單元106是否進(jìn)行 了用于檢測發(fā)音開始的檢測操作。
在步驟S607,判斷語音檢測單元106是否應(yīng)該取消用于檢 測發(fā)音開始的檢測操作。
這里,在步驟S607,根據(jù)語音檢測單元106是否已執(zhí)行用 于將內(nèi)部狀態(tài)從第二狀態(tài)302改變成第一狀態(tài)301的處理,判斷 語音檢測單元106是否應(yīng)該取消用于檢測發(fā)音開始的檢測操作。
如果取消用于檢測發(fā)音開始的檢測操作(步驟S607為"是"),則在步驟S608繼續(xù)該處理,圖像存儲控制單元104刪除 存儲在存儲器(用于存儲圖像)110中的圖像A。
如果沒有取消用于檢測發(fā)音開始的檢測操作(步驟S607為 "否"),則在步驟S609,判斷語音檢測單元106是否設(shè)置了發(fā)音 開始。
這里,在步驟S609,根據(jù)語音檢測單元106是否執(zhí)行了用 于將內(nèi)部狀態(tài)從第二狀態(tài)302改變成第三狀態(tài)303的處理,判斷 是否設(shè)置/確定發(fā)音開始。
如果設(shè)置/確定了發(fā)音開始(步驟S609為"是"),則在步驟 S610,語音識別單元107開始語音識別處理。
如果沒有設(shè)置/確定發(fā)音開始(步驟S609為"否"),則再次判 斷是否應(yīng)該取消用于檢測發(fā)音開始的檢測操作。
將參考圖7的流程圖說明下面的處理。
在步驟S711,語音檢測單元106判斷是否進(jìn)行了用于檢測 發(fā)音結(jié)束的檢測操作。
這里,在步驟S711,根據(jù)語音^r測單元106是否執(zhí)行了用 于將內(nèi)部狀態(tài)從第三狀態(tài)303改變成第四狀態(tài)304的處理,判斷 是否進(jìn)行了用于檢測發(fā)音結(jié)束的檢測操作。
如果進(jìn)行了用于檢測發(fā)音結(jié)束的檢測操作(步驟S711為 "是"),則在步驟S712,攝像單元103拍攝圖像。
接著,在步驟S713,圖像存儲控制單元104將在前一步驟 S 712拍攝到的圖像的第二圖像數(shù)據(jù)存儲在存儲器(用于存儲圖 像)110中。這里,將在步驟S712拍攝到的圖像,即在語音檢測 單元106進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作時(shí)所拍攝的圖像稱 為圖像B。
這里,存在這樣一種情況通常,在說出了 " Cheese" 等后(發(fā)出/z/的音后)過去特定時(shí)間段(例如,0.5秒)之后,拍攝圖像。
考慮到該情況,在第一實(shí)施例中,在語音檢測單元106進(jìn) 行了用于檢測"Say Cheese"發(fā)音結(jié)束的4企測操作后過去預(yù)定延 遲時(shí)間之后,攝像單元103拍攝圖像。
利用這種結(jié)構(gòu),可以增加用戶期望的攝像時(shí)刻的種類數(shù)量。
接著,在步驟S715,語音檢測單元106判斷是否應(yīng)該取消 用于檢測發(fā)音結(jié)束的檢測操作。
這里,在步驟S715, #>據(jù)語音才企測單元106是否執(zhí)行了用 于將內(nèi)部狀態(tài)從第四狀態(tài)304改變成第三狀態(tài)303的處理,判斷 是否應(yīng)該取消用于檢測發(fā)音結(jié)束的檢測操作。
如果取消了用于檢測發(fā)音結(jié)束的;^測操作(步驟S715為 "是"),則在步驟S714繼續(xù)該處理,在步驟S714,圖像存儲控制 單元104刪除存儲在存儲器(用于存儲圖像)110中的圖像B。
接著,在步驟S716,判斷語音檢測單元106是否應(yīng)該設(shè)置/ 確定發(fā)音結(jié)束。
這里,在步驟S716,根據(jù)語音檢測單元106是否結(jié)束了內(nèi) 部狀態(tài)的改變并且保持內(nèi)部狀態(tài)處于第四狀態(tài)3 04 ,判斷是否應(yīng) 該設(shè)置/確定發(fā)音結(jié)束。
如果設(shè)置/確定了發(fā)音結(jié)束(步驟S716為"是"),則在步驟 S717,結(jié)束由語音輸入單元105和語音檢測單元106所進(jìn)行的處 理。
如果沒有設(shè)置/確定發(fā)音結(jié)束(步驟S716為"否),則再次判 斷是否應(yīng)該取消用于檢測發(fā)音結(jié)束的檢測操作。
接著,在步驟S718,在結(jié)束語音4企測之后,語音識別單元 107進(jìn)行語音識別處理,直到處理了在語音檢測單元106所檢測 到的發(fā)音期間所獲得的所有音頻信號為止。如果語音識別處理結(jié)束(步驟S718為"是"),則在步驟S719, 識別結(jié)果處理單元10 8獲得由語音識別單元10 7所獲得的識另ij結(jié)果。
將參考圖8的流程圖說明下面的處理。
在步驟S 8 21,識別結(jié)果處理單元10 8判斷是接收還是丟棄 與所獲得的識別結(jié)果中的識別得分相對應(yīng)的命令。
這里,接收命令意為控制單元101判斷為進(jìn)4亍與識別出的 命令相對應(yīng)的控制。此外,丟棄命令意為控制單元101判斷為不 進(jìn)行與識別出的命令相對應(yīng)的控制。
如果所獲得的識別得分大于或等于預(yù)定閾值,并且接收了 相應(yīng)命令(步驟S821為"是"),則在步驟S822,參考識別結(jié)果控 制表確定數(shù)字照相機(jī)200的控制,其中,該控制對應(yīng)于包括在識 別結(jié)果中的命令。
如果識別出的命令是作為用于在發(fā)音開始時(shí)拍攝圖像的 命令的單詞("Shoot"或"Go")(步驟S822為"是"),則在步驟S823, 圖像存儲控制單元104將圖像A的圖像數(shù)據(jù)存儲在存儲介質(zhì)(用 于存儲圖像)lll上,其中,圖像A被存儲在存儲器(用于存儲圖 像)110中。
這里,步驟S823中的處理是根據(jù)識別結(jié)果處理單元108的 判斷所進(jìn)行的處理。
接著,在步驟S824,顯示控制單元109以用戶可以檢查拍 攝到的圖像的方式將圖像A顯示在顯示器115上。
如果識別出的命令不是作為用于在發(fā)音開始時(shí)拍攝圖像 的命令的單詞("Shoot"或"Go")(步驟S822為"否"),則在步驟 S826,判斷識別出的命令是否是作為用于在發(fā)音結(jié)束時(shí)拍攝圖 像的命令的單詞("Cheese")。
如果識別出的命令是作為用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令的單詞("Cheese")(步驟S826為"是"),則在步驟S827繼續(xù)該 處理,在步驟S827,圖像存儲控制單元104將圖像B的圖像數(shù)據(jù) 存儲在存儲介質(zhì)(用于存儲圖像)lll上。
這里,步驟S827中的處理是根據(jù)識別結(jié)果處理單元108的 判斷所進(jìn)行的處理。
在步驟S828,顯示控制單元109以用戶可以纟企查拍才聶到的 圖像的方式將圖像B顯示在顯示器115上。
如果識別出的命令是除作為用于拍攝圖像的命令的單詞 以外的單詞("Spot Metering"等)(步驟S826為"否"),則在步驟 S829繼續(xù)該處理,在步驟S829,識別結(jié)果處理單元108以進(jìn)4亍 除用于拍攝圖像的控制以外的控制的方式,通過參考識別結(jié)果 控制表,控制數(shù)字照相機(jī)200。
在步驟S825,圖像存儲控制單元104刪除存儲在存儲器(用 于存儲圖像)110中的所有圖像(圖像A和B)的圖像數(shù)據(jù)。
也就是說,如果沒有識別出預(yù)定命令并且丟棄了識別結(jié) 果,則攝像單元103刪除拍攝到的圖像。
該處理丟棄與周圍噪聲有關(guān)的識別結(jié)果、識別對象以外的 單詞的發(fā)音、以及用戶以外的人的語音等不是想要操作照相機(jī) 的語音,并且自動(dòng)刪除由于錯(cuò)誤檢測到這種聲音而拍攝的圖像。
這里,在步驟S821,判斷所使用的閾值可以是預(yù)先設(shè)置的 固定值或者是通過將識別得分乘以r(O < r)所獲得的值,其中, 利用廢料模型(garbage model)輸出識別得分。
廢料模型是使用包括語音以外的噪聲的噪聲或多個(gè)估計(jì) 的未知單詞(識別對象以外的單詞)所生成的聲學(xué)模型,并且被
包括在存儲器(用于存儲語音識別數(shù)據(jù))113中。
這里,在步驟S822 S829的處理中,根據(jù)識別結(jié)果,將在 發(fā)音開始時(shí)所拍攝的圖像和在發(fā)音結(jié)束時(shí)所拍攝的圖像中的一個(gè)確定為是要存儲的圖像。
因此,用戶可以根據(jù)發(fā)音內(nèi)容,自由改變要存儲的圖像的 攝像時(shí)刻。
這里,在上述說明中,在步驟S825之后處理結(jié)束。然而, 該過程可以進(jìn)入步驟S602中的處理,以繼續(xù)進(jìn)行下一語音的接 收。
利用這種結(jié)構(gòu),如果通過半按下快門按鈕201開始語音接
語音來進(jìn)行照相機(jī)控制。
例如,在半按下快門按鈕201時(shí),"Center Metering"等的發(fā) 音可以設(shè)置拍攝條件,并且可以通過下一發(fā)音來拍攝圖像。
圖11是示出使用根據(jù)第 一 實(shí)施例的數(shù)字照相機(jī)200利用語 音命令"Shoot"來拍攝圖像的情況下的操作的圖。
在圖11中,水平軸1150表示時(shí)間,并且時(shí)間乂人左向右推移。 附圖標(biāo)記tl t7均表示時(shí)刻。
附圖標(biāo)記1110表示由語音輸入單元105進(jìn)行了 A/D轉(zhuǎn)換的 音頻信號。
附圖標(biāo)記1111表示用戶說出"Shoot"期間的音頻信號(音頻 波形)。
附圖標(biāo)記1120表示音量。示出了與音頻信號1110相對應(yīng)的 音量1120的變化。
附圖標(biāo)記1121表示進(jìn)行用于檢測發(fā)音開始的檢測操作所 使用的且由語音4企測單元106所使用的閾值(TH1)。附圖標(biāo)記 1122表示進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作所使用的且由語音 檢測單元106所使用的閾值(TH2)。
附圖標(biāo)記1130表示由語音檢測單元106識別出的狀態(tài)。可 視地示出了狀態(tài)1130的變化。附圖標(biāo)記1140表示數(shù)字照相機(jī)200的操作的細(xì)節(jié)。 接著,將沿著從時(shí)刻11至?xí)r刻17的時(shí)間來說明數(shù)字照相機(jī) 200的操作。 時(shí)刻tl
在音量1120變得大于或等于閾值TH1的時(shí)刻tl開始的幀 處,語音檢測單元106進(jìn)行用于檢測發(fā)音開始的檢測操作。該操 作對應(yīng)于用于檢測滿足上述第一預(yù)定標(biāo)準(zhǔn)(開始條件)的聲音的 處理。
這里,語音檢測單元106執(zhí)行用于將檢測狀態(tài)從第 一狀態(tài) 301改變成第二狀態(tài)302的處理,以時(shí)刻tl處的附圖標(biāo)記1130表 示該處理。
在進(jìn)行了用于檢測發(fā)音開始的檢測操作的時(shí)刻,攝像單元 103拍攝被攝體的圖像(IMG003)。然后,圖像存儲控制單元104 將拍攝到的圖像的圖像數(shù)據(jù)存儲在存儲器(用于存儲圖像)IIO 中。以附圖標(biāo)記1141表示這些4乘作。
時(shí)刻t2
在時(shí)刻t2開始的且作為從在時(shí)刻tl開始的幀算起的第Dl個(gè) 幀的幀處,語音檢測單元106將發(fā)音開始確定為時(shí)刻tl,其中在 時(shí)刻tl,進(jìn)行了用于檢測發(fā)音開始的檢測操作。
同時(shí),開始由語音識別單元10 7所進(jìn)行的語音識別處理。 以附圖標(biāo)記1142表示這些操作。
這里,語音4企測單元106執(zhí)行用于將^r測狀態(tài)從第二狀態(tài) 302改變成第三狀態(tài)303的處理,以時(shí)刻t2處的附圖標(biāo)記1130表 示該處理。
時(shí)刻t3
接著,在音量1120變得小于閾值TH2的時(shí)刻t3開始的幀處, 語音檢測單元106進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作。在該操作中,檢測滿足上述預(yù)定標(biāo)準(zhǔn)(結(jié)束條件)的聲音。
這里,語音纟全測單元106執(zhí)行用于將才企測狀態(tài)乂人第三狀態(tài) 303改變成第四狀態(tài)304的處理,以時(shí)刻t3處的附圖標(biāo)記1130表 示該處理。
在語音檢測單元10 6進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作的 時(shí)刻t3,攝像單元103拍攝被攝體的圖像(IMG005)。然后,圖像 存儲控制單元10 4將拍攝到的圖像的圖像數(shù)據(jù)存儲在存儲器(用 于存儲圖像)110中。以附圖標(biāo)記1143表示這些操作。
時(shí)刻t4
如果在時(shí)刻t4開始的幀處,音量1120變得大于或等于閾值 TH2,則語音檢測單元106取消用于檢測發(fā)音結(jié)束的檢測操作, 其中在時(shí)刻t4開始的幀是作為從在時(shí)刻t3開始的幀算起的第D2 個(gè)幀的幀之前的幀,并且在時(shí)刻t3,語音纟企測單元106進(jìn)行了用 于檢測發(fā)音結(jié)束的檢測操作。
這里,語音4企測單元106執(zhí)行用于將4企測狀態(tài)/人第四狀態(tài) 304改變成第三狀態(tài)303的處理,以時(shí)刻t4處的附圖標(biāo)記1130表 示該處J里。
在取消用于檢測發(fā)音結(jié)束的檢測操作的時(shí)刻t4,圖像存儲 控制單元104從存儲器(用于存儲圖像)110刪除在進(jìn)行用于檢測 發(fā)音結(jié)束的檢測操作的時(shí)刻t3所拍攝的圖像IMG005的圖像數(shù) 據(jù)。以附圖標(biāo)記1144表示這些操作。
時(shí)刻t5
在時(shí)刻t5開始的幀處,音量1120變得小于閾值TH2,因此 語音檢測單元10 6進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作。
這里,語音4企測單元106執(zhí)行用于將4僉測狀態(tài)從第三狀態(tài) 303改變成第四狀態(tài)304的處理,以時(shí)刻t5處的附圖標(biāo)記1130表 示該處理。此外,攝像單元103在時(shí)刻t5拍攝被攝體的圖像(IMG006), 并且圖像存儲控制單元104將拍攝到的圖像的圖像數(shù)據(jù)存儲在 存儲器(用于存儲圖像)110中。以附圖標(biāo)記1145表示這些操作。
時(shí)刻t6
在進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作的時(shí)刻15開始的幀和 在時(shí)刻t6開始的且作為從在時(shí)刻t5開始的幀算起的第D2個(gè)幀的 幀之間,音量1120未變得大于或等于閾值TH2。在時(shí)刻t6開始 的幀處,語音^r測單元106將發(fā)音結(jié)束確定為時(shí)刻t5。以附圖標(biāo) 記1146表示該操作。
這里,如上所述,語音檢測單元106可以執(zhí)行用于將^r測 狀態(tài)從第四狀態(tài)304改變成第一狀態(tài)301的處理,或者語音檢測 單元106可以結(jié)束用于改變檢測狀態(tài)的處理。
時(shí)刻t7
此后,在結(jié)束由語音識別單元107所進(jìn)4于的處理的時(shí)刻t7, 識別結(jié)果處理單元108確定數(shù)字照相機(jī)200的控制方法。以附圖 標(biāo)記1147表示該4喿作。
這里,如果獲得"Shoot"作為識別結(jié)果,則參考識別結(jié)果控 制表,確定與"Shoot"相對應(yīng)的處理。
如圖10所示,"Shoot"是與在檢測到的發(fā)音開始的時(shí)刻所進(jìn) 行的攝像操作相關(guān)的命令。
根據(jù)識別結(jié)果處理單元10 8的判斷,圖像存儲控制單元10 4 將在作為檢測到的發(fā)音開始的時(shí)刻的時(shí)刻tl拍攝到的圖像 (IMG003)的圖像數(shù)據(jù)存儲在存儲介質(zhì)(用于存儲圖像)lll中。
同時(shí),圖像存儲控制單元104從存儲器(用于存儲圖像)IIO 刪除在發(fā)音結(jié)束時(shí)所拍攝到的圖像(IMG006),而不存儲該圖 像。
圖12是示出使用根據(jù)第 一 實(shí)施例的數(shù)字照相機(jī)200利用語音命令"Cheese"拍攝圖像的情況下的操作的圖。
類似于圖ll,附圖標(biāo)記1250表示時(shí)間,附圖標(biāo)記1210表示 音頻信號,附圖標(biāo)記1220表示音量,附圖標(biāo)記1230表示由語音 檢測單元106識別出的狀態(tài),附圖標(biāo)記1240表示數(shù)字照相機(jī)200
的操作。
附圖標(biāo)記1211表示在用戶發(fā)音之前碰巧輸入的噪聲。附圖 標(biāo)記1212表示由用戶說出的語音"Cheese"等。
附圖標(biāo)記1221表示進(jìn)行用于檢測發(fā)音期間的檢測操作所 使用的閾值(TH1),其中語音外全測單元1064吏用該閾值TH1。
這里,在圖12中,使用相同的閾值TH1來4企測發(fā)音開始和 發(fā)音結(jié)束。
下面,將沿著時(shí)間來說明數(shù)字照相沖幾200的才喿作。 時(shí)刻tl
在時(shí)刻tl開始的幀處,如果語音4企測單元106進(jìn)行用于4企測 發(fā)音開始的檢測操作,則攝像單元10 3拍攝與在時(shí)刻11開始的幀 相對應(yīng)的被攝體的圖像(IMGOOl)。此外,圖像存儲控制單元104 將拍攝到的圖像的圖像數(shù)據(jù)臨時(shí)存儲在存儲器(用于存儲圖 ^象)110中。以附圖標(biāo)記1241表示這些才乘作。
時(shí)刻t2
在時(shí)刻t2開始的且處于作為從進(jìn)行用于檢測發(fā)音開始的檢 測操作的幀算起的第Dl個(gè)幀的幀之前的幀處,音量1220變得小 于閾值TH1 ,因此語音檢測單元106取消用于檢測發(fā)音開始的檢 測操作。
這里,圖像存儲控制單元104刪除在操作1241中拍攝到的 圖像(IMGOOl)。以附圖標(biāo)記1242表示這些操作。 時(shí)刻t3
在時(shí)刻t3開始的幀處,如果語音纟企測單元106再次進(jìn)行用于檢測發(fā)音開始的檢測操作,則攝像單元10 3拍攝與在時(shí)刻13開始 的幀相對應(yīng)的被攝體的圖像(IMG003)。此外,圖像存儲控制單 元10 4將拍攝到的圖像的圖像數(shù)據(jù)臨時(shí)存儲在存儲器(用于存儲 圖像)110中。以附圖標(biāo)記1243表示這些才喿作。 時(shí)刻t4
在時(shí)刻t4開始的幀處,如果語音檢測單元106將發(fā)音開始確 定為時(shí)刻t3,則語音識別單元107開始語音識別處理。以附圖標(biāo) 記1244表示這些纟喿作。
時(shí)刻t5
在時(shí)刻t5開始的幀處,如果語音檢測單元106進(jìn)行用于檢測 發(fā)音結(jié)束的檢測操作,則攝像單元103拍攝與在時(shí)刻t5開始的幀 相對應(yīng)的被攝體的圖像(IMG005)。此外,然后,圖像存儲控制 單元104將拍攝到的圖像的圖像數(shù)據(jù)臨時(shí)存儲在存儲器(用于存 儲圖像)110中。以附圖標(biāo)記1245表示這些#:作。
時(shí)刻t6
在時(shí)刻16開始的幀處,語音檢測單元10 6將發(fā)音結(jié)束確定為 時(shí)刻t5。以附圖標(biāo)記1246表示該:操作。 時(shí)刻t7
在將發(fā)音結(jié)束確定為時(shí)刻t5之后,在結(jié)束由語音識別單元 107所進(jìn)行的語音識別處理的時(shí)刻t7,識別結(jié)果處理單元108根 據(jù)識別結(jié)果確定照相機(jī)控制。以附圖標(biāo)記1247表示這些操作。
這里,如圖10所示,"Cheese"是與在檢測到的發(fā)音結(jié)束的 時(shí)刻所進(jìn)行的攝像操作相關(guān)的命令。
因此,圖像存儲控制單元10 4將在作為檢測到的發(fā)音結(jié)束 的時(shí)刻的時(shí)刻t5所拍攝的圖像(IMG005)的圖像數(shù)據(jù)存儲在存儲 介質(zhì)(用于存儲圖像)lll中。圖像存儲控制單元104刪除在作為 檢測到的發(fā)音開始的時(shí)刻的時(shí)刻t3所拍攝的圖像(IMG003)的圖像數(shù)據(jù),而不存儲該圖像數(shù)據(jù)。
如以上使用圖ll和圖12所述,如果要使用第一實(shí)施例中所 述的數(shù)字照相機(jī)200拍攝發(fā)音開始時(shí)的圖像,則僅要說出 "Shoot"(或"Go")。
此外,如果要使用第 一實(shí)施例中所述的數(shù)字照相才幾200拍 攝發(fā)音結(jié)束時(shí)的圖像,則僅需說出"Cheese"。
此外,如果要拍攝從發(fā)音開始的時(shí)刻起過去了特定時(shí)間段 的時(shí)刻的圖像,則僅需說出"Five Four Three",其中該特定時(shí)間 段對應(yīng)于說出"Two One Zero"(二一零)的時(shí)間段。
此外,如果要拍攝從發(fā)音結(jié)束的時(shí)刻起過去了特定時(shí)間段 (例如,0.5秒)的時(shí)刻的圖像,則僅需說出"Say Cheese"。
如果說出"Shoot"(或"Go"),則在結(jié)束語音識別之前拍攝圖 像。因此,這適合于拍攝車輛等運(yùn)動(dòng)被攝體的圖像的情況。
此外,如果說出"Cheese"(或"Say Cheese"),則在發(fā)音結(jié)束 之后拍攝圖像。因此,這適合于在通知被攝體拍攝時(shí)刻之后拍 攝圖像的情況,如合影或留念照等。
此外,如果說出"Five Four Three",則可以在從發(fā)音開始 的時(shí)刻起過去了特定時(shí)間段之后的時(shí)刻拍攝圖像,其中該特定 時(shí)間段對應(yīng)于說出"Two One Zero"的時(shí)間段。
因此,可以根據(jù)拍攝場景,在任意拍攝時(shí)刻拍攝圖像,并
且提高了用戶操作的方便性。
此外,在拍攝圖像之后,用戶可以不必刪除在不希望的時(shí)
刻所拍攝的圖像。
也就是說,如使用圖12所述,即使在根據(jù)當(dāng)輸入語音時(shí)碰 巧輸入的周圍噪聲而錯(cuò)誤地拍攝了圖像的情況下,如果不設(shè)置 語音開始,則自動(dòng)刪除該圖像。
此外,即使在利用噪聲或不想拍攝圖像的發(fā)音觸發(fā)了圖像拍攝的情況下,如果在圖8的步驟S821的處理中識別出不想觸 發(fā)圖像拍攝的發(fā)音,則丟棄該識別結(jié)果,并刪除錯(cuò)誤拍攝的圖 像。
因此,在利用語音命令觸發(fā)拍攝開始的情況下,第一實(shí)施 例具有減少由于周圍噪聲而導(dǎo)致的誤操作發(fā)生的效果。
在第一實(shí)施例中,可以在進(jìn)行用于檢測發(fā)音開始的檢測操 作的時(shí)刻拍攝圖像,或者可以在進(jìn)行用于檢測發(fā)音結(jié)束的檢測 操作的時(shí)刻拍攝圖像。
圖13是僅在檢測到的發(fā)音開始的時(shí)刻拍攝圖像的情況下 的流程圖。
圖13所示的流程圖示出了與使用圖6 ~圖8的流程圖所述 的處理不同的步驟S711和其后步驟中的處理。
此外,以相同的附圖標(biāo)記表示與圖7和圖8中的處理相同的 處理。在下面,將僅說明圖13與圖7和圖8之間的不同。
在圖13所示的流程圖中,不進(jìn)行圖7的流程圖中的以下處 理用于在進(jìn)行用于檢測發(fā)音結(jié)束的檢測操作的時(shí)刻拍攝圖像 的處理(步驟S712和S713)和用于刪除拍攝到的圖像的處理(步 驟S714)。
此外,在圖13所示的流程圖中,不進(jìn)行圖8的流程圖中的 以下處理在識別出作為用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令的 單詞的情況下,由識別結(jié)果處理單元108所進(jìn)行的處理(步驟 S826、 S827和S828)。
其它處理與使用圖6~圖8所述的處理相同。
這里,在僅在檢測到的發(fā)音開始的時(shí)刻拍攝圖像的情況 下,從圖9所示的語音識別語法中刪除作為用于在發(fā)音結(jié)束時(shí)拍 攝圖像的命令的單詞("Cheese"或"Say Cheese"等)。
如果不改變語音識別語法,則改變圖IO所示的識別結(jié)果控制數(shù)據(jù)。將在識別出"Cheese"或"Say Cheese"等時(shí)所進(jìn)行的處理 改變成用于在檢測到的發(fā)音開始的時(shí)刻拍攝圖像的處理。
結(jié)果,如果用戶說出"Cheese"或"Say Cheese",則將在發(fā)音 開始的時(shí)刻所拍攝的圖像的圖像數(shù)據(jù)存儲在存儲介質(zhì)(用于存 儲圖像)lll中。
在僅在檢測到的發(fā)音結(jié)束的時(shí)刻拍攝圖像的情況下,可以 類似地進(jìn)行改變。在這種情況下,省略了下面的處理在進(jìn)行 用于檢測發(fā)音開始的檢測操作時(shí)拍攝圖像的處理(步驟S 6 0 5和 S 606)和在取消用于檢測發(fā)音開始的檢測操作時(shí)所進(jìn)行的處理 (步驟S608)。
此外,省略由識別結(jié)果處理單元108所進(jìn)行的處理中的步 驟S822 S824。
這里,如果在步驟S821接收到識別結(jié)果(步驟S821為"是"), 則進(jìn)行步驟S826和其后步驟中的處理。
此外,從語音識別語法900中刪除作為用于在發(fā)音開始時(shí) 拍攝圖像的命令的單詞,或者改變在識別結(jié)果控制數(shù)據(jù)中描述 的處理的細(xì)節(jié)。
在第一實(shí)施例中,可以將數(shù)字照相4幾200配置成^f艮據(jù)識 別結(jié)果,將在檢測到的發(fā)音開始的時(shí)刻和在檢測到的發(fā)音結(jié)束 的時(shí)刻所拍攝到的圖像的圖像數(shù)據(jù)存儲在存儲介質(zhì)(用于存儲 圖像)lll中。
例如,如果以在下面的兩個(gè)時(shí)刻拍纟聶圖4象的方式描述識別 結(jié)果控制數(shù)據(jù),則將這兩個(gè)時(shí)刻處的圖像的圖像數(shù)據(jù)存儲在存 儲介質(zhì)(用于存儲圖像)lll中檢測到的"Say Cheese"發(fā)音開始 的時(shí)刻和檢測到的"Say Cheese"發(fā)音結(jié)束的時(shí)刻。
利用這種結(jié)構(gòu),可以增加用戶期望的攝像時(shí)刻的種類數(shù) 量,并且提高了用戶操作的方便性。在第一實(shí)施例中,如果在由識別結(jié)果處理單元108所進(jìn)行 的處理中丟棄識別結(jié)果(步驟S821為"否"),則用戶可以檢查是 否應(yīng)該刪除存儲在存儲器(用于存儲圖像)110中的圖像A和B(步 驟S825)。
此外,用戶可以選擇要被存儲在存儲介質(zhì)(用于存儲圖 像)lll中的圖像。
此外,如果丟棄識別結(jié)果,則可以將圖像A和B均存儲在存 儲介質(zhì)(用于存儲圖像)lll中。
例如,將圖^象A和B顯示在顯示器115上,并且可以^使用四 向選擇按鈕204來選擇是否應(yīng)該刪除圖像數(shù)據(jù)。
此外,用戶使用四向選擇按鈕204選擇要存儲的圖像,并 且將在按下確定按鈕205時(shí)所選擇的圖像的圖像數(shù)據(jù)存儲在存 儲介質(zhì)(用于存儲圖像)lll中。
如果識別出除作為用于拍攝圖像的命令的單詞以外的單 詞(步驟S826為"否"),則類似地,用戶可以4企查是否應(yīng)該刪除 圖像,并且選擇要存儲在存儲介質(zhì)(用于存儲圖像)lll中的圖 像。
此外,可以將圖像A和B的圖像數(shù)據(jù)存儲在存儲介質(zhì)(用于 存儲圖像)lll中。
利用這種結(jié)構(gòu),在語音識別性能劣化的環(huán)境下應(yīng)用使用語 音命令的攝像功能的情況下,可以防止由于錯(cuò)誤識別的語音而
錯(cuò)誤地刪除圖像,并且提高了用戶操作的方便性。
這里,可以根據(jù)存儲器(用于存儲圖像)110的存儲容量來確
定 一 個(gè)語音識別處理中所保持的圖像的數(shù)量。
利用這種結(jié)構(gòu),可以考慮存儲器(用于存儲圖像)110的存儲
容量,盡可能多地將用戶期望的候選圖像臨時(shí)存儲在存儲器(用
于存儲圖像)110中。如果在識別結(jié)果處理單元108所進(jìn)行的處理中,作為用于 在某 一 時(shí)刻拍攝圖像的命令的單詞的識別得分和作為用于在不 同時(shí)刻拍攝圖像的命令的另 一 單詞的識別得分之間的差小于預(yù) 定閾值,則可以將在發(fā)音開始的時(shí)刻和發(fā)音結(jié)束的時(shí)刻所拍攝 到的圖像都存儲在存儲介質(zhì)(用于存儲圖像)lll中。
例如,如果作為用于在發(fā)音開始時(shí)拍攝圖像的命令的 "Shoot"的識別得分和作為用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令 的"Cheese"的識別得分之間的差小于預(yù)定值,則將在發(fā)音開始 時(shí)和發(fā)音結(jié)束時(shí)所拍攝到的圖像都存儲在存儲介質(zhì)(用于存儲 圖像)lll中。
可選地,將這兩個(gè)圖像顯示在顯示器115上,并且用戶可 以選擇其中一個(gè)圖像或這兩個(gè)圖像。
利用這種結(jié)構(gòu),在語音識別性能可能劣化的環(huán)境下應(yīng)用使 用語音命令的攝像功能的情況下,可以防止由于錯(cuò)誤識別的語 音而錯(cuò)誤地刪除圖像,并且提高了用戶操作的方便性。
在第一實(shí)施例中,對于下面的情況進(jìn)行了說明將拍攝到 的圖像的圖像數(shù)據(jù)臨時(shí)存儲在存儲器(用于存儲圖像)110中,并 且在設(shè)置識別結(jié)果之后,將圖像的圖像數(shù)據(jù)存儲在存儲介質(zhì)(用 于存儲圖像)lll中。然而,可以將圖像的圖像數(shù)據(jù)直接存儲在 存儲介質(zhì)(用于存儲圖像)lll中。
在這種情況下,步驟S608和S714中的用于刪除圖像數(shù)據(jù)的 處理意為刪除存儲在存儲介質(zhì)(用于存儲圖像)lll中的圖像數(shù) 據(jù)。
此外,不進(jìn)行步驟S823和S827中的處理。
此外,如果丟棄識別結(jié)果(步驟S821為"否"),或者如果識 別結(jié)果不是作為用于拍攝圖像的命令的單詞(步驟S826為 "否"),則刪除存儲在存儲介質(zhì)(用于存儲圖像)lll中的圖像A和B的圖像數(shù)據(jù)。
此外,如果識別結(jié)果是作為用于在發(fā)音開始時(shí)拍攝圖像的 命令的單詞,則刪除圖像B的圖像數(shù)據(jù)。如果識別結(jié)果是作為 用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令的單詞,則刪除圖像A的圖 像數(shù)據(jù)。
例如,在馬路邊等易受到周圍噪聲影響的地方使用根據(jù)第 一實(shí)施例的數(shù)字照相機(jī)200的情況下,語音測單元10 6的內(nèi)部 狀態(tài)可能在短時(shí)間段內(nèi)頻繁改變。
如果在短時(shí)間段內(nèi)重復(fù)進(jìn)行圖像的拍攝和圖像數(shù)據(jù)的刪 除,則當(dāng)啟動(dòng)數(shù)字照相機(jī)200的連續(xù)拍攝功能時(shí),數(shù)字照相機(jī)200 可能不能在刪除圖像數(shù)據(jù)之后立即適當(dāng)?shù)嘏臄z圖像,并且不能 將圖像存儲在存儲器(用于存儲圖像)110中。
為了解決上述問題,例如,在取消用于檢測發(fā)音開始的檢 測操作的時(shí)刻,在步驟S608不刪除拍攝到的圖像A的圖像數(shù)據(jù), 并且可以將圖像A的圖像數(shù)據(jù)存儲在存儲器(用于存儲圖像)110 中,直到進(jìn)行用于檢測下一發(fā)音開始的檢測操作的時(shí)刻為止。
在這種情況下,在進(jìn)行用于檢測下一發(fā)音開始的檢測操作 的時(shí)刻,刪除圖像A的圖像數(shù)據(jù),或者利用新拍攝的圖像的圖 像數(shù)據(jù)覆蓋圖像A的圖像數(shù)據(jù)。
類似地,在步驟S715取消用于檢測發(fā)音結(jié)束的檢測操作的 情況下,可以不刪除圖像B的圖像數(shù)據(jù),并且可以將其存儲在 存儲器(用于存儲圖像)110中,直到進(jìn)行用于檢測下一發(fā)音結(jié)束 的檢測操作為止。
利用這種結(jié)構(gòu),即使在進(jìn)行連續(xù)拍攝的速度不快于語音檢 測狀態(tài)的改變速度的情況下,也可以至少存儲連續(xù)拍攝中第一 次拍攝的圖像。
這里,在第一實(shí)施例中,對于照相機(jī)進(jìn)行了說明。然而,本發(fā)明可應(yīng)用于攝像機(jī)等其它攝像設(shè)備。
在第一實(shí)施例中,使用已知的立體聲麥克風(fēng)作為麥克風(fēng)
112。
此外,語音識別單元107可以使用通過左麥克風(fēng)112輸入的 音頻信號的音量和通過右麥克風(fēng)112輸入的音頻信號的音量之 間的關(guān)系、或這兩個(gè)音頻信號的音高之間的關(guān)系等,作為上述 的特征。
通過使用這種特4正,例如,可以區(qū)分來自數(shù)字照相才幾200 右側(cè)的聲源和來自數(shù)字照相機(jī)200左側(cè)的聲源。也就是說,識別 拍攝圖像時(shí)的狀況,并且可以拍攝圖像。
在第一實(shí)施例中,代替作為包括在識別結(jié)果控制表中的命 令的例子所示出的"Cheese",可以將用于在發(fā)音結(jié)束時(shí)拍攝圖 像的處理分配給命令"Say Cheese"。
此外,代替作為包括在識別結(jié)果控制表中的命令的例子所 示出的"Go",可以將用于在發(fā)音開始時(shí)拍攝圖像的處理分配給 命令"Now"(好了)。
圖16是示出根據(jù)本發(fā)明第二實(shí)施例的信息處理設(shè)備1600 的結(jié)構(gòu)的例子的功能框圖。
這里,將以相同的附圖標(biāo)記表示與圖l所示的組件相同的 組件,并且省略對其的說明。
可以將信息處理設(shè)備16 00連接到輸入設(shè)備1602 、攝像設(shè)備 1603、存儲器設(shè)備(用于存儲圖像)1610、存儲設(shè)備(用于存儲圖 像)1611和聲音收集器1612。
此外,信息處理設(shè)備1600可以連接到存儲器設(shè)備(用于存儲 語音識別數(shù)據(jù))1613、存儲器設(shè)備(用于存儲識別結(jié)果控制 表)1614和顯示設(shè)備1615。
這里,輸入設(shè)備1602具有與操作單元102相對應(yīng)的功能。攝像設(shè)備1603具有與攝像單元103相對應(yīng)的功能。存儲器設(shè)備 (用于存儲圖像)1610具有與存儲器(用于存儲圖像)110相對應(yīng)的 功能。存儲設(shè)備(用于存儲圖像)1611具有與存儲介質(zhì)(用于存儲 圖像)lll相對應(yīng)的功能。
此外,聲音收集器1612具有與麥克風(fēng)112相對應(yīng)的功能。 存儲器設(shè)備(用于存儲語音識別數(shù)據(jù))1613具有與存儲器(用于 存儲語音識別數(shù)據(jù))113相對應(yīng)的功能。
此外,存儲器設(shè)備(用于存儲識別結(jié)果控制表)1614具有與 存儲器(用于存儲識別結(jié)果控制表)114相對應(yīng)的功能。顯示控制 單元1609具有與顯示控制單元109相對應(yīng)的功能。
信息處理設(shè)備1600的例子為微處理器等。
圖14A和14B以及圖15是示出由信息處理設(shè)備1600所進(jìn)行 的處理操作的例子的流程圖。
首先,使用圖14A和14B的流程圖來說明處理。
在步驟S1400,語音輸入單元105判斷是否輸入了音頻信號。
如果沒有輸入音頻信號(步驟S1400為"否"),則該過程返回 到步驟S1楊。
如果輸入了音頻信號(步驟S1400為"是"),則在步驟S1401, 語音檢測單元106初始化幀f(f = 0)。
接著,在步驟S1402,語音檢測單元106將音頻信號的檢測 狀態(tài)設(shè)置為第一狀態(tài)301。
接著,在步驟S1403,語音檢測單元106設(shè)置作為檢測對象 的幀。
接著,在步驟S1404,語音4企測單元106存<諸與輸入至語音 輸入單元105的音頻信號有關(guān)的特征數(shù)據(jù)。
這里,特征數(shù)據(jù)是在語音識別單元107進(jìn)行語音識別時(shí)所使用的數(shù)據(jù)。
接著,在步驟S1405,語音檢測單元106將語音的4企測狀態(tài)判斷為第一狀態(tài)~第四狀態(tài)中的一個(gè)。
在步驟S1405,如果語音檢測單元106將^r測狀態(tài)判斷為第一狀態(tài)301,則在步驟S1406,語音;f企測單元106判斷作為第一檢測是否檢測到大于或等于閾值T H1的音量。
如果檢測到大于或等于閾值TH1的音量(步驟S1406為"是"),則在步驟S1407,語音檢測單元106將檢測狀態(tài)改變成第二狀態(tài)3 02 (將該時(shí)刻稱為第 一 時(shí)刻)。
接著,在步驟S1408,攝像控制單元123輸出用于使得攝像設(shè)備16 0 3執(zhí)行攝像操作的信號。
這里,根據(jù)在步驟S140 8輸出的信號所拍攝到的圖像是圖像A。
接著,在步驟S1409,圖像存儲控制單元104輸出下面的信號該信號使得存儲器設(shè)備(用于存儲圖像)1610存儲在前一步驟S1408中所拍攝到的圖像A的圖像數(shù)據(jù),作為第 一獲取。
接著,在步驟S1410,作為第一存儲,語音檢測單元106存儲正,皮處理的幀f,作為發(fā)音開始幀F(xiàn)s。
接著,該過程返回至步驟S1403,并且語音纟全測單元106設(shè)
置作為下 一 檢測對象的幀。
此外,在步驟S1406,如果沒有檢測到大于或等于閾值TH1的音量(步驟S1406為"否"),則該過程同樣返回至步驟S1403,并且語音檢測單元106設(shè)置作為下一語音檢測對象的幀。
此外,在步驟S1405,如果語音^r測單元106將檢測狀態(tài)判斷為第二狀態(tài)302,則在步驟S1411,判斷正被處理的幀f是否是從發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀或從發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀之后的幀。此外,如果正被處理的幀f在從發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀之前(步驟S1411為"是"),則在步驟S1413,判斷語音檢測單元106是否檢測到小于閾值TH1的音量。
如果沒有檢測到小于閾值TH1的音量(步驟S1413為"否"),則在步驟S1414,語音4企測單元106初始化計(jì)凄t器Fa的計(jì)數(shù)值。
接著,該過程返回至步驟S1403,并且語音檢測單元106設(shè)
置作為下 一 語音檢測對象的幀。
這里,使用計(jì)數(shù)器Fa來判斷是否應(yīng)該復(fù)位發(fā)音開始幀F(xiàn)s。
此外,如果檢測到小于閾值TH1的音量(步驟S1413為"是"),則在步驟S1415,語音檢測單元106將計(jì)數(shù)器Fa的計(jì)數(shù)值增大l。
接著,在步驟S1416,語音檢測單元106判斷計(jì)數(shù)器Fa的計(jì)數(shù)值是否大于或等于N1。
如果計(jì)數(shù)器Fa的計(jì)數(shù)值大于或等于Nl(步驟S1416為"是"),則在步驟S1417,圖像存儲控制單元104輸出下面的信號該信號用于刪除存儲在存儲器設(shè)備(用于存儲圖像)1610中的圖像A的圖像數(shù)據(jù)。
這里,步驟S1417中的處理對應(yīng)于相對用于在進(jìn)行語音識別之后刪除圖像數(shù)據(jù)的處理的第二刪除。
接著,在步驟S1418,語音檢測單元106將4企測狀態(tài)改變成第 一 狀態(tài)3 01 ,以再次進(jìn)行用于檢測發(fā)音開始的第 一 檢測操作。
接著,該過程返回至步驟S1403,并且語音檢測單元106設(shè)置作為下 一 語音檢測對象的幀。
此外,如果計(jì)數(shù)器Fa的計(jì)數(shù)值小于Nl(步驟S1416為"否"),則該過程同樣返回至步驟S1403,并且語音檢測單元106設(shè)置作為下 一語音4企測對象的幀。
此外,在步驟S1411,如果正纟皮處理的幀f是^人發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀或從發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀之后的幀(步驟S1411為"否"),則在步驟S1412,語音檢測單元106將檢測狀態(tài)改變成第三狀態(tài)303。
此外,在步驟S1405,如果語音^r測單元106將^r測狀態(tài)判斷為第三狀態(tài)303,則在步驟S1419,語音4全測單元106判斷作為第二檢測是否檢測到小于或等于閾值TH2的音量。
如果檢測到小于或等于閾值TH2的音量(步驟S1419為"是"),則在步驟S1420,語音檢測單元106將纟僉測狀態(tài)改變成第四狀態(tài)304(將該時(shí)刻稱為第二時(shí)刻)。
接著,在步驟S1421,攝像控制單元123輸出用于使得攝像設(shè)備1603執(zhí)行攝像操作的信號。
這里,根據(jù)步驟S14 21中輸出的信號所拍攝到的圖像是圖像B。
接著,在步驟S1422,圖像存儲控制單元104輸出下面的信號該信號用于使得存儲器設(shè)備(用于存儲圖像)1610存儲在前一步驟S1421所拍攝到的圖像B的圖像數(shù)據(jù),作為第二獲取。
接著,在步驟S1423,作為第二存儲,語音檢測單元106存儲正被處理的幀f,作為發(fā)音結(jié)束幀F(xiàn)e。
接著,該過程返回至步驟S1403,并且語音檢測單元106設(shè)置作為下 一 語音檢測對象的幀。
此外,在步驟S1419,如果沒有檢測到小于或等于閾值TH2的音量(步驟S1419為"否"),則該過程同樣返回至步驟S1403,并且語音檢測單元10 6設(shè)置作為下 一 語音4全測對象的幀。
此外,在步驟S1405,如果語音檢測單元106將檢測狀態(tài)判斷為第四狀態(tài)304,則在步驟S1424,判斷正纟皮處理的幀f是否是從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀或從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀之后的幀。
此外,如果正被處理的幀f是從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀之前的幀(步驟S1424為"是"),則在步驟S1426,判斷語音檢測單元10 6是否檢測到大于閾值T H 2的音量。
如果沒有檢測到大于閾值TH2的音量(步驟S1426為"否"),則在步驟S1427,語音檢測單元106初始化計(jì)數(shù)器Fb的計(jì)數(shù)值。
接著,該過程返回至步驟S1403,并且語音4企測單元106設(shè)置作為下 一 語音檢測對象的幀。
這里,使用計(jì)數(shù)器Fb來判斷是否應(yīng)該復(fù)位發(fā)音結(jié)束幀F(xiàn)e。
此外,如果檢測到大于閾值TH2的音量(步驟S1426為"是"),則在步驟S1428,語音檢測單元106將計(jì)數(shù)器Fb的計(jì)數(shù)值增大l。
接著,在步驟S1429,語音檢測單元106判斷計(jì)數(shù)器Fb的計(jì)數(shù)值是否大于或等于N2。
如果計(jì)數(shù)器Fb的計(jì)數(shù)值大于或等于N2(步驟S1429為"是"),則在步驟S1430,圖像存儲控制單元104輸出用于刪除存儲在存儲器設(shè)備(用于存儲圖像)1610中的圖像B的圖像數(shù)據(jù)的信號。
這里,步驟S1430中的處理對應(yīng)于相對用于在進(jìn)行語音識別之后刪除圖像數(shù)據(jù)的處理的第三刪除。
接著,在步驟S1431,語音4企測單元106將4企測狀態(tài)改變成第三狀態(tài)303,以再次進(jìn)行用于檢測發(fā)音結(jié)束的第二檢測操作。
接著,該過程返回至步驟S1403,并且語音4企測單元106設(shè)置作為下 一 語音檢測對象的幀。
此外,如果計(jì)數(shù)器Fb的計(jì)數(shù)值小于N2(步驟S1429為"否"),則該過程同樣返回至步驟S1403,并且語音檢測單元106設(shè)置作為下一語音檢測對象的幀。
此外,如果在步驟S1424中正被處理的幀f是從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀或從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀之后的幀(步驟S1424為"否"),則在步驟S1425,語音纟企測單元106結(jié)束語音檢測。然后該過程進(jìn)入步驟S1532。接著,將使用圖15的流程圖來說明處理。
在步驟S1532,語音識別單元107根據(jù)在步驟S1504所獲得的幀的特征數(shù)據(jù)和語音識別數(shù)據(jù),進(jìn)行語音識別。
接著,在步驟S1533,結(jié)束由語音識別單元107所進(jìn)行的語音識別。
這里,在語音識別單元107獲得語音識別結(jié)果之后,執(zhí)行步驟S1533中的處理。
接著,在步驟S1534,識別結(jié)果處理單元108判斷識別結(jié)果是否表示用于在發(fā)音開始時(shí)拍攝圖像的命令。
如果識別結(jié)果表示用于在發(fā)音開始時(shí)拍攝圖像的命令(步驟S1534為"是"),則在步驟S1535,輸出用于刪除圖像B的信號。
如果識別結(jié)果不表示用于在發(fā)音開始時(shí)拍攝圖像的命令(步驟S1534為"否"),則在步驟S1536,識別結(jié)果處理單元108判斷語音識別結(jié)果是否表示用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令。
如果識別結(jié)果表示用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令(步驟S1536為"是"),則在步驟S1537,輸出用于刪除圖像A的信號。
如果識別結(jié)果不表示用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令(步驟S1536為"否"),則在步驟S1538,輸出用于刪除圖像A和B的信號。
接著,在步驟S1539,識別結(jié)果處理單元108判斷識別結(jié)果是否表示用于在從發(fā)音開始的時(shí)刻起過去了特定時(shí)間段的時(shí)刻拍攝圖像的命令。
如果識別結(jié)果表示用于在從發(fā)音開始的時(shí)刻起過去了特定時(shí)間段的時(shí)刻拍攝圖像的命令(步驟S1539為"是"),則在步驟S1540,攝像控制單元123輸出下面的信號該信號用于使得攝像設(shè)備1603在過去了特定時(shí)間段之后執(zhí)行攝像操作(將該時(shí)刻稱為第三時(shí)刻)。這里,根據(jù)在步驟S15 40中輸出的信號拍攝到的圖像是圖像C。
接著,在步驟S1541,圖像存儲控制單元104輸出下面的信號該信號用于使得存儲器設(shè)備(用于存儲圖像)1610存儲在前一步驟S1540所拍攝到的圖像C的圖像數(shù)據(jù),作為第三獲取,并且結(jié)束該過程。
此外,如果識別結(jié)果不表示用于在從發(fā)音開始的時(shí)刻起過去了特定時(shí)間段的時(shí)刻拍攝圖像的命令(步驟S15 3 9為"否"),則結(jié)束該過程。
利用這種結(jié)構(gòu),在發(fā)音期間,可以獲得作為第一關(guān)系的在發(fā)音開始時(shí)所拍攝的第 一 圖像(圖像A)和作為第二關(guān)系的在發(fā)音結(jié)束時(shí)所拍攝的第二圖像(圖像B)。
此外,在發(fā)音期間可以獲得作為第三關(guān)系的在從發(fā)音開始起過去了特定時(shí)間段的時(shí)刻所拍攝到的第三圖像(圖像C)。
此外,根據(jù)發(fā)音期間內(nèi)的語音內(nèi)容,可以從多個(gè)圖像中選擇在用戶期望的時(shí)刻所拍攝到的圖像。
此外,利用這種結(jié)構(gòu),通過與根據(jù)第二實(shí)施例的信息處理設(shè)備1600同步地操作外部裝置,可以高效獲得在用戶期望的時(shí)刻所拍攝到的圖像。
此外,根據(jù)按照第二實(shí)施例的信息處理設(shè)備1600,即使在輸入斷續(xù)語音的情況下,也可以將這種斷續(xù)語音識別為 一 個(gè)命令。因此,即使在使用發(fā)音期間長的單詞作為命令的情況下,也降低了識別錯(cuò)誤的可能性。
這里,還可以通過向系統(tǒng)或設(shè)備提供存儲有實(shí)現(xiàn)上述實(shí)施例所述功能的軟件的程序代碼的存儲介質(zhì),并且通過由該系統(tǒng)或設(shè)備的計(jì)算機(jī)讀取并執(zhí)行該程序代碼,來實(shí)現(xiàn)本發(fā)明。
這里,計(jì)算機(jī)可以是中央處理單元(CPU)或微處理器單(MPU)等。
在這種情況下,作為計(jì)算機(jī)可讀的且從存儲介質(zhì)讀取的程 序代碼實(shí)現(xiàn)上述實(shí)施例所述的功能。存儲該程序代碼的存儲介 質(zhì)為本發(fā)明。
用于提供程序代碼的存儲介質(zhì)的例子有軟盤、硬盤、光盤、 磁光盤、緊湊型光盤只讀存儲器(CD-ROM)、可記錄緊湊型光 盤(CD-R)、磁帶、非易失性存儲卡和只讀存儲器(ROM)等。
此外,不是必須僅通過執(zhí)行由計(jì)算機(jī)所讀取的程序代碼才 能實(shí)現(xiàn)上述實(shí)施例所述的功能。操作系統(tǒng)(OS)等可以根據(jù)程序 代碼的內(nèi)容進(jìn)行用于實(shí)現(xiàn)上述實(shí)施例所述功能的部分或全部實(shí) 際處理。
這里,本發(fā)明還包括通過該處理實(shí)現(xiàn)上述實(shí)施例所述的功 能的情況。
這里,OS運(yùn)行在計(jì)算機(jī)上。
此外,將從存儲介質(zhì)讀取的程序代碼寫入包括在插入計(jì)算 機(jī)的功能擴(kuò)展板內(nèi)的存儲器中或?qū)懭氚ㄔ谂c計(jì)算機(jī)連接的功 能擴(kuò)展單元內(nèi)的存儲器中。
本發(fā)明還包括下面的情況此后,包括在功能擴(kuò)展板或功 能擴(kuò)展單元中的C P U根據(jù)程序代碼的內(nèi)容,進(jìn)行部分或全部實(shí) 際處理,并且通過該處理實(shí)現(xiàn)上述實(shí)施例所述的功能。
盡管已經(jīng)參考典型實(shí)施例說明了本發(fā)明,但是應(yīng)該理解, 本發(fā)明不局限于所公開的典型實(shí)施例。所附權(quán)利要求書的范圍 符合最寬的解釋,以包含所有這類修改、等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種信息處理方法,包括檢測滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的第一聲音的開始,并且響應(yīng)于檢測到所述第一聲音的開始,獲得圖像數(shù)據(jù);或者檢測所述第一聲音的結(jié)束,并且響應(yīng)于檢測到所述第一聲音的結(jié)束,獲得圖像數(shù)據(jù);將獲得的所述圖像數(shù)據(jù)存儲在存儲器中;以及根據(jù)所述第一聲音的內(nèi)容,判斷所述圖像數(shù)據(jù)是否是要存儲的數(shù)據(jù)。
2. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于,還 包括從所述存儲器刪除被判斷為是要?jiǎng)h除的數(shù)據(jù)的所述圖像數(shù)據(jù)。
3. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于, 在檢測到的所述第 一聲音的開始的時(shí)刻或在檢測到的所述第一聲音的結(jié)束的時(shí)刻,執(zhí)行所述圖像數(shù)據(jù)的獲得。
4. 根據(jù)權(quán)利要求3所述的信息處理方法,其特征在于,還 包括在檢測到所述第一聲音的開始時(shí),獲得圖像數(shù)據(jù),并且在 檢測到的所述第 一聲音的開始的時(shí)刻之后所述第 一聲音沒有持 續(xù)預(yù)先設(shè)置的時(shí)間段的情況下,從所述存儲器刪除獲得的所述 圖像數(shù)據(jù);檢測滿足所述預(yù)先設(shè)置的標(biāo)準(zhǔn)的第二聲音的開始;以及 響應(yīng)于檢測到所述第二聲音的開始,再次獲得圖像數(shù)據(jù)作 為第一圖像數(shù)據(jù)。
5. 根據(jù)權(quán)利要求3所述的信息處理方法,其特征在于,還 包括在檢測到所述第一聲音的結(jié)束時(shí),獲得圖像數(shù)據(jù),并且在檢測到的所述第 一 聲音的結(jié)束的時(shí)刻之后的預(yù)先設(shè)置的時(shí)間段 內(nèi)存在滿足所述預(yù)先設(shè)置的標(biāo)準(zhǔn)的第二聲音的情況下,從所述存儲器刪除獲得的所述圖像數(shù)據(jù);檢測所述第二聲音的結(jié)束;以及響應(yīng)于檢測到所述第二聲音的結(jié)束,獲得圖像數(shù)據(jù)作為第 二圖像數(shù)據(jù)。
6. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于, 在從檢測到的所述第 一聲音的開始的時(shí)刻起過去了預(yù)先設(shè)置的延遲時(shí)間段時(shí),或者在從檢測到的所述第 一聲音的結(jié)束的 時(shí)刻起過去了預(yù)先設(shè)置的延遲時(shí)間段時(shí),執(zhí)行所述圖像數(shù)據(jù)的 獲得。
7. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于, 所述預(yù)先設(shè)置的標(biāo)準(zhǔn)為音量大于一定水平。
8. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于,通過對所述第 一 聲音進(jìn)行語音識別,指定所述第 一 聲音的 內(nèi)容。
9. 一種信息處理設(shè)備,包括第一檢測單元,用于檢測滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的聲音的開始;第一獲得單元,用于響應(yīng)于檢測到所述聲音的開始,獲得 第一圖像數(shù)據(jù);第一存儲控制單元,用于將所述第一圖像數(shù)據(jù)存儲在存儲 器中;第二檢測單元,用于檢測所述聲音的結(jié)束; 第二獲得單元,用于、響應(yīng)于檢測到所述聲音的結(jié)束,獲得 第二圖像數(shù)據(jù);第二存儲控制單元,用于將所述第二圖像數(shù)據(jù)存儲在所述存儲器中;以及確定單元,用于根據(jù)所述聲音的內(nèi)容,將所述第一圖像數(shù) 據(jù)和所述第二圖像數(shù)據(jù)中的 一 個(gè)確定為是要存儲的數(shù)據(jù),并且 將所述第一圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的另一個(gè)確定為是 要?jiǎng)h除的數(shù)據(jù)。
10. —種信息處理方法,包括檢測滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的聲音的開始; 響應(yīng)于檢測到所述聲音的開始,獲得第一圖像數(shù)據(jù); 存儲所述第一圖像數(shù)據(jù); 檢測所述聲音的結(jié)束;響應(yīng)于檢測到所述聲音的結(jié)束,獲得第二圖像數(shù)據(jù); 存儲所述第二圖像數(shù)據(jù);以及根據(jù)所述聲音的內(nèi)容,將所述第一圖像數(shù)據(jù)和所述第二圖 像數(shù)據(jù)中的 一個(gè)確定為是要存儲的數(shù)據(jù),并且將所述第 一 圖像 數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的另 一個(gè)確定為是要?jiǎng)h除的數(shù)據(jù)。
11. 一種信息處理設(shè)備,包括攝像單元,用于響應(yīng)于聲音的輸入來拍攝圖像,其中,所 述圖像是要存儲的圖像的候選圖像;存儲控制單元,用于將拍攝到的所述圖像存儲在存儲器中;以及確定單元,用于根據(jù)所述聲音的內(nèi)容,從存儲在所述存儲 器中的圖像中確定作為要存儲的圖像的圖像。
全文摘要
本發(fā)明涉及一種信息處理方法和信息處理設(shè)備。該信息處理方法包括檢測滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的第一聲音的開始,并且響應(yīng)于檢測到所述第一聲音的開始,獲得圖像數(shù)據(jù);或者檢測所述第一聲音的結(jié)束,并且響應(yīng)于檢測到所述第一聲音的結(jié)束,獲得圖像數(shù)據(jù);將獲得的所述圖像數(shù)據(jù)存儲在存儲器中;以及根據(jù)所述第一聲音的內(nèi)容,判斷所述圖像數(shù)據(jù)是否是要存儲的數(shù)據(jù)。
文檔編號G10L15/00GK101640042SQ200910162220
公開日2010年2月3日 申請日期2009年7月29日 優(yōu)先權(quán)日2008年7月29日
發(fā)明者山本寬樹 申請人:佳能株式會社