本公開的技術(shù)總體涉及生活記錄(lifelog)照相機,更具體地涉及一種響應(yīng)于語音觸發(fā)器而被控制進(jìn)行拍照的生活記錄照相機。
背景技術(shù):
生活記錄照相機是,通常由用戶佩戴且用于捕捉服務(wù)發(fā)生在用戶附近的事件的照相存儲器的相片的照相機裝置。傳統(tǒng)生活記錄照相機被配置為在定時基礎(chǔ)上捕捉圖像。在一些裝置中,例如,每30秒捕捉圖像。如果被使得在數(shù)小時或一整天的過程期間拍照,則生活記錄照相機可能以預(yù)定時間間隔拍攝數(shù)百或數(shù)千照片。在該方法下,由傳統(tǒng)生活記錄照相機捕捉的圖像中的許多不是非常有趣。因此,生活記錄照相機的存儲器可能變得充滿著用戶不感興趣的相片。更引人注目的時刻可能相當(dāng)快速地發(fā)生在用于拍照的定時增量之間。然而,難以確定這些引人注目的時刻何時發(fā)生。
提高所存儲圖像的吸引力的一種提出的方式是,評價用于值得保持的視覺內(nèi)容的相片,諸如含有人或特定類型的對象的圖像??梢詣h除剩余圖像。該方法的問題是,該方法是處理器密集型且消耗電力,這降低電池壽命。
另一種提出的技術(shù)是,將相片的拍攝同步到裝置的位置,諸如被預(yù)定為具有感興趣的位置或用戶之前尚未行進(jìn)到的位置。但這形成可能不產(chǎn)生用戶生活事件的感興趣描繪的、關(guān)于位置的假定。即,在該方法中,產(chǎn)生的圖像可能不完全“講述”用戶的故事。同樣,一些新位置(例如,停車場)可能相當(dāng)尋常。
另一種方法是,降低捕捉相片之間的時間間隔,但這導(dǎo)致在錯誤的場合捕捉太多的數(shù)據(jù)。拍攝大量不感興趣的相片可能騷擾用戶,并且消耗電池壽命和數(shù)據(jù)存儲空間。
技術(shù)實現(xiàn)要素:
用于控制生活記錄照相機的操作的所公開技術(shù)包括:檢測作為用于拍攝一個或更多個相片的觸發(fā)器的語音事件。檢測語音觸發(fā)器充當(dāng)用于識別可能含有相片的感興趣主題的代理者(proxy)。隨著在興趣方面相片主題的增加,利用生活記錄照相機產(chǎn)品對用戶體驗的有利性也將提高。因此,所公開技術(shù)被設(shè)計為,嘗試捕捉具有感興趣主題的圖像,或捕捉比僅使用基于時間方法時至少更高比例的感興趣圖像。
根據(jù)公開的一個方面,提供了一種用生活記錄照相機來捕捉并存儲數(shù)字圖像的方法,該生活記錄照相機被配置為在沒有命令捕捉數(shù)字圖像的用戶輸入的情況下捕捉數(shù)字圖像,該方法包括以下步驟:檢測由存在于生活記錄照相機處的麥克風(fēng)輸出的音頻信號中的、基于聲音的觸發(fā)器,該基于聲音的觸發(fā)器指示用戶或靠近用戶的另一個人的活動;用生活記錄照相機的照相機模塊捕捉數(shù)字圖像,由對基于聲音的觸發(fā)器的檢測來觸發(fā)所述捕捉;以及將數(shù)字圖像存儲在存儲器中。
根據(jù)方法的一個實施方式,基于聲音的觸發(fā)器包括人的語音。
根據(jù)方法的一個實施方式,基于聲音的觸發(fā)器包括:在沒有講話的預(yù)定時間段之后對講話者的檢測。
根據(jù)方法的一個實施方式,基于聲音的觸發(fā)器包括:在對話已經(jīng)在進(jìn)行中時對新講話者的檢測。
根據(jù)方法的一個實施方式,基于聲音的觸發(fā)器包括:對語音的特性的變化的檢測。
根據(jù)方法的一個實施方式,語音的特性是如下各項中的至少一個:音高(pitch)、音調(diào)(tone)、聲調(diào)(intonation)、音量、講話速度、選詞、語言結(jié)構(gòu)、語言、情感的表達(dá)、情緒或討論的主題。
根據(jù)方法的一個實施方式,基于聲音的觸發(fā)器包括:對姓名或問候的檢測。
根據(jù)方法的一個實施方式,基于聲音的觸發(fā)器包括人生成的聲音。
根據(jù)方法的一個實施方式,基于聲音的觸發(fā)器包括笑、喝彩、喘息、歡呼或歌唱中的至少一個。
根據(jù)本公開的另一個方面,提供了一種生活記錄照相機,該生活記錄照相機被配置為在沒有命令捕捉數(shù)字圖像的用戶輸入的情況下捕捉數(shù)字圖像,該生活記錄照相機包括:控制電路,該控制電路被配置為,檢測由存在于生活記錄照相機處的麥克風(fēng)輸出的音頻信號中的、基于聲音的觸發(fā)器,該基于聲音的觸發(fā)器指示用戶或靠近用戶的另一個人的活動;照相機模塊,該照相機模塊響應(yīng)與對基于聲音的觸發(fā)器的檢測在控制電路的控制下捕捉數(shù)字圖像;以及存儲器,數(shù)字圖像存儲在該存儲器中。
根據(jù)生活記錄照相機的一個實施方式,基于聲音的觸發(fā)器包括人的語音。
根據(jù)生活記錄照相機的一個實施方式,基于聲音的觸發(fā)器包括如下各項中的一個:在沒有講話的預(yù)定時間段之后對講話者的檢測,或在對話已經(jīng)在進(jìn)行中時對新講話者的檢測。
根據(jù)生活記錄照相機的一個實施方式,基于聲音的觸發(fā)器包括:對語音的特性的變化的檢測。
根據(jù)生活記錄照相機的一個實施方式,語音的特性為如下各項中的至少一個:音高、音調(diào)、聲調(diào)、音量、講話速度、選詞、語言結(jié)構(gòu)、語言、情感的表達(dá)、情緒、或討論的主題。
根據(jù)生活記錄照相機的一個實施方式,基于聲音的觸發(fā)器包括:對姓名或問候的檢測。
根據(jù)生活記錄照相機的一個實施方式,基于聲音的觸發(fā)器包括呈如下各項中的至少一個的形式的人生成的聲音:笑、喝彩、喘息、歡呼、或歌唱。
根據(jù)生活記錄照相機的一個實施方式,生活記錄照相機還包括麥克風(fēng)。
根據(jù)生活記錄照相機的一個實施方式,生活記錄照相機還包括:具有與和生活記錄照相機分離的另一個電子裝置的接口,并且麥克風(fēng)是另一個電子裝置的一部分。
根據(jù)本公開的另一個方面,提供一種用生活記錄照相機來捕捉并存儲數(shù)字圖像的方法,該生活記錄照相機被配置為,在沒有命令捕捉數(shù)字圖像的用戶輸入的情況下捕捉數(shù)字圖像,該方法包括以下步驟:用生活記錄照相機的照相機模塊捕捉數(shù)字圖像,由用于捕捉圖像的時間表來觸發(fā)該捕捉;分析由存在于用于基于聲音的觸發(fā)器的生活記錄照相機處的麥克風(fēng)輸出的音頻信號,該基于聲音的觸發(fā)器指示用戶或靠近用戶的另一個人的活動,并且在數(shù)字圖像的捕捉之前的預(yù)定時間量內(nèi)發(fā)生,或在數(shù)字圖像的捕捉之后的預(yù)定時間量內(nèi)發(fā)生;以及如果檢測到基于聲音的觸發(fā)器,則將數(shù)字圖像存儲在存儲器的圖像儲存器中用于稍后顯示或遞送到與生活記錄照相機分離的電子裝置;否則不將數(shù)字圖像保持在生活記錄照相機中用于稍后顯示或遞送到與生活記錄照相機分離的電子裝置。
附圖說明
圖1是采用語音事件作為用于拍攝一個或更多個相片的觸發(fā)器的生活記錄照相機的示意框圖。
圖2是由生活記錄照相機進(jìn)行的照相機控制功能的流程圖。
具體實施方式
現(xiàn)在將參照附圖來描述實施方式,在附圖中,類似的附圖標(biāo)記用于自始至終提及類似的元件。將理解的是,附圖不必是等比例。關(guān)于一個實施方式描述的和/或例示的特征可以以相同方式或類似方式用于一個或更多個其他實施方式中,和/或與其他實施方式的特征組合或代替其他實施方式的特征來使用。
下面結(jié)合附圖來描述電子裝置和控制電子裝置拍照的方法的各種實施方式。電子裝置通常是但不必須是專用生活記錄照相機。在其他實施方式中,電子裝置可以為某一其他便攜式電子裝置,諸如但不限于移動電話、平板計算裝置、游戲裝置、數(shù)字傻瓜相機或媒體播放器。
初始參照圖1,其例示了被配置為生活記錄照相機10的示例性電子裝置的示意框圖。生活記錄照相機10可以用針或夾子固定到用戶所穿戴的衣服。在其他結(jié)構(gòu)中,生活記錄照相機10被配置為手鐲或表帶、戒指、頭巾、眼鏡、衣服、穿孔(piercing)等。
生活記錄照相機10包括照相機模塊12。照相機模塊12包括用于成像場景以生成靜止圖像(并且在一些情況下生成視頻)的適當(dāng)光學(xué)器件和傳感器。由照相機模塊12捕捉的圖像和視頻可以存儲在存儲器16的圖像儲存器14中。
生活記錄照相機10包括控制電路18,該控制電路18負(fù)責(zé)生活記錄照相機10的整體操作,包括控制何時用照相機模塊12捕捉圖像。在一個實施方式中,控制電路18包括執(zhí)行操作指令的處理器20。在一個實施方式中,對是否捕捉并存儲圖像的控制,作為成像引擎22的一部分來具體實施。成像引擎22也可以存儲在存儲器16中。
成像引擎22可以以可執(zhí)行邏輯例程(例如,代碼行、軟件程序、固件等)的形式來具體實施,可執(zhí)行邏輯例程存儲在生活記錄照相機10的永久計算機可讀介質(zhì)(例如,存儲器16)上,并且由控制電路18來執(zhí)行。所述操作可以被認(rèn)為是由生活記錄照相機10執(zhí)行的方法。
控制電路18的處理器20可以是:執(zhí)行代碼以便進(jìn)行生活記錄照相機10的操作的中央處理單元(CPU)、微控制器或微處理器。存儲器16例如可以為緩沖器、閃存、硬件驅(qū)動器、可移動介質(zhì)、易失性存儲器、非易失性存儲器、隨機存取存儲器(RAM)、或其他合適裝置中的一個或更多個。在典型結(jié)構(gòu)中,存儲器16包括用于長期數(shù)據(jù)存儲的非易失性存儲器和起用于控制電路18的系統(tǒng)存儲器作用的易失性存儲器。存儲器16可以通過數(shù)據(jù)總線與控制電路18交換數(shù)據(jù)。存儲器16與控制電路18之間的伴隨控制線和地址總線也可以存在。存儲器16被認(rèn)為是永久計算機可讀介質(zhì)。
生活記錄照相機10可以包括用于與另一個裝置(諸如計算機、移動電話、用于建立因特網(wǎng)訪問的無線路由器等)建立通信的接口。示例接口為:用于使用電纜建立到另一個裝置的連接的電連接器和接口電路形式的輸入/輸出(I/O)接口24。典型I/O接口24為USB端口??梢酝ㄟ^I/O接口24來接收操作電力和/或?qū)ι钣涗浾障鄼C10的電池(未示出)進(jìn)行充電的電力。電池可以在不存在外部電源時提供操作生活記錄照相機10的電力。另一個示例接口為無線接口26。無線接口26例如可以為根據(jù)藍(lán)牙標(biāo)準(zhǔn)、WiFi標(biāo)準(zhǔn)或另一個無線標(biāo)準(zhǔn)操作的接口26。另一個無線接口26可以為個人內(nèi)部局域網(wǎng)(intrapersonal area network)(諸如人體局域網(wǎng)(BAN))??梢源嬖诙鄠€無線接口26,以通過多個標(biāo)準(zhǔn)(例如,BAN、藍(lán)牙以及WiFi中的兩個或更多個)操作。
生活記錄照相機10可以包括用于顯示所捕捉圖像且用于幫助用戶調(diào)節(jié)設(shè)置的顯示器。然而,預(yù)期的是生活記錄照相機10將不包括顯示器,并且使用連接的裝置或在將圖像從生活記錄照相機遞送到另一個裝置之后來觀看圖像。
在一個實施方式中,存在麥克風(fēng)28來捕捉音頻。所捕捉的聲音可以充當(dāng)用于由生活記錄照相機10捕捉的視頻的音頻成分。如將描述的,生活記錄照相機10可以監(jiān)測針對語音事件(還被稱為語音觸發(fā)器)由麥克風(fēng)28輸出的音頻信號,如果被檢測到,則語音事件用于啟動照相機模塊12來捕捉相片。在一些實施方式中,觸發(fā)語音事件使得捕捉多于一個相片或使得捕捉視頻。如由處理器20執(zhí)行的成像引擎22可以具有監(jiān)測由麥克風(fēng)28輸出的音頻信號的責(zé)任。
在所例示的實施方式中,麥克風(fēng)28是生活記錄照相機10的一部分,并且由生活記錄照相機10來進(jìn)行語音觸發(fā)器的監(jiān)測。在另一個實施方式中,輸出針對語音觸發(fā)器監(jiān)測的音頻信號的麥克風(fēng)是另一個裝置(諸如由生活記錄照相機10的用戶攜帶的移動電話)的一部分。在該實施方式中,音頻信號諸如通過無線接口26而傳達(dá)到生活記錄照相機10,以便處理。在仍然另一個實施方式中,輸出針對語音觸發(fā)器監(jiān)測的音頻信號的麥克風(fēng)是另一個裝置(諸如移動電話)的一部分,并且另一個裝置還處理音頻信號,以檢測語音觸發(fā)器。如果另一個裝置檢測到語音觸發(fā)器,則諸如通過無線接口26來向生活記錄照相機10傳達(dá)用于捕捉指示語音觸發(fā)器的檢測的相片或消息的命令。
雖然未例示,但生活記錄照相機10可以包括或接收來自其他傳感器的信號,該其他傳感器生成也可以在圖像捕捉中起作用的各輸出。示例傳感器包括但不限于:加速計或其他動作傳感器、全球定位系統(tǒng)(GPS)接收器、電場傳感器、磁力計、羅盤、生物傳感器(例如,皮膚電反應(yīng)(GSR:galvanic skin response)傳感器、脈搏率監(jiān)測儀、瞳孔擴張和/或眼睛移動傳感器、腦波活動傳感器、血壓傳感器、體溫傳感器、肌肉收縮傳感器等中的一個或更多個)。
另外參照圖2,其例示了表示可以由生活記錄照相機10進(jìn)行以控制圖像的捕捉和存儲的步驟的流程圖。雖然以邏輯進(jìn)行來例示,但所例示塊可以以其他順序,和/或在兩個或更多個塊之間同時進(jìn)行。因此,所例示流程圖可以被改變(包括忽略步驟),和/或可以以面向?qū)ο蠓绞交蛎嫦驙顟B(tài)方式來實施。
邏輯流可以在塊30中開始。在塊30中,可以針對是否應(yīng)捕捉基于時間的圖像進(jìn)行確定。在一個實施方式中,即使生活記錄照相機10還被配置為捕捉基于其他準(zhǔn)則的圖像,但生活記錄照相機10也可以被配置為以預(yù)定間隔(例如,每20秒一次或每30秒一次)來捕捉圖像??梢杂捎脩魜黹_啟或關(guān)閉基于時間的圖像的捕捉。因此,塊30中的確定可以包括確定是否開啟定時圖像捕捉功能,如果是,則確定圖像捕捉之間的預(yù)定時間間隔是否已經(jīng)經(jīng)過來實施用于捕捉圖像的、基于時間的時間表。
如果在塊30中進(jìn)行肯定確定,則邏輯流可以進(jìn)行到塊32。在塊32中,使用照相機模塊12來捕捉圖像,并且緩沖對應(yīng)的數(shù)字照片。自動且在沒有命令圖像的拍攝的用戶參與(例如,沒有用戶輸入(諸如觸摸快門按鈕))的情況下拍攝在塊32中捕捉的圖像。
在塊32之后,可以在塊34中針對是否在從塊32中圖像的捕捉開始的預(yù)定時間量內(nèi)檢測到語音觸發(fā)器進(jìn)行確定。預(yù)定時間量可以為短于如塊30中所確定的連續(xù)圖像捕捉之間的時間間隔的任意時間量。同樣,引起塊34中的肯定確定的語音觸發(fā)器可以在塊32中的圖像捕捉之前或之后。圖像捕捉之前的、用于語音觸發(fā)器的預(yù)定時間量不需要與在圖像捕捉之后的、用于語音觸發(fā)器的預(yù)定時間量相同。示例性預(yù)定時間大約為塊32中的圖像捕捉之前的五秒,和塊32中的圖像捕捉之后的15秒。另外一組示例性預(yù)定時間大約為塊32中的圖像捕捉之前的兩秒,和塊32中的圖像捕捉之后的5秒。將理解,可以采用其他預(yù)定時間。
如果未在定時圖像捕捉之前或之后預(yù)定時間量中檢測到語音觸發(fā)器,那么邏輯流可以進(jìn)行到塊36。在塊36中,不保持圖像(例如,從存儲器16刪除圖像)。另選地,如果在定時圖像捕捉之前或之后預(yù)定時間量內(nèi)檢測到語音觸發(fā)器,那么邏輯流可以進(jìn)行到塊38。在塊38中,將圖像保持在圖像儲存器14中,以便隨后遞送到另一個裝置和/或觀看。在塊36或塊38中適當(dāng)?shù)囊粋€之后,邏輯流可以返回到塊30。
如將針對塊40討論的,生活記錄照相機10可以被配置為檢測包括語音觸發(fā)器,該語音觸發(fā)器指示由用戶或另一個人進(jìn)行的活動的語音事件。預(yù)期的是,從這些時刻捕捉和/或保持相片將引起:比在不關(guān)于用戶或靠近用戶的人的活動的情況下在定期基礎(chǔ)上拍攝的圖像更感興趣的圖像的收集。
在一個實施方式中,可以在塊38中對被識別以便存儲的圖像進(jìn)行額外的后處理。比如,可以進(jìn)行圖像分析,以搜索感興趣的特性,諸如圖像中的物體或人。如果確定圖像具有感興趣特性,那個它可以被保持;如果圖像不含有感興趣的特性,則可以刪除圖像。其他后處理可以包括通過比較圖像的特性來確定圖像是否是更早存儲的圖像的冗余。如果確定圖像是冗余的,則可以刪除圖像,并且如果圖像不是冗余的,則可以保持圖像。在一個實施方式中,獨立但具有不同面部表情,或處于不同設(shè)置的兩個圖像不被認(rèn)為是冗余的。
如果在塊30中進(jìn)行否定確定,則邏輯流可以進(jìn)行到塊40。在塊40中,針對所監(jiān)測音頻信號(例如,來自麥克風(fēng)28的輸出)是否含有語音觸發(fā)器進(jìn)行確定。如果是,則邏輯流進(jìn)行到捕捉并存儲圖像的塊42。自動且在沒有命令圖像的拍攝的用戶參與(例如,沒有用戶輸入(諸如觸摸快門按鈕))的情況下拍攝在塊42中捕捉的圖像。在塊42之后或在塊40中的否定確定之后,邏輯流可以返回到塊30。
在由圖2的流程圖表示的方法的一個實現(xiàn)實施方式中,生活記錄照相機10連續(xù)監(jiān)測語音觸發(fā)器。如果檢測到語音觸發(fā)器,那么用照相機模塊12捕捉至少一個圖像或視頻,并存儲在存儲器16中。
在一個實施方式中,在塊42中捕捉多于一個圖像。比如,可以以半秒、一秒或兩秒的間隔來捕捉兩個、三個、四個或五個圖像。這可以提高捕捉一個或更多個感興趣的相片(例如,諸如含有講話者或用戶講話的人的圖像的相片)的機會。在其他情況下,生活記錄照相機10可以響應(yīng)于塊40中語音觸發(fā)器的檢測而捕捉視頻??梢葬槍︻A(yù)定的時間量(諸如五秒或十秒)來捕捉視頻。要捕捉的圖像的數(shù)量,或代替或除了捕捉一個或更多個圖像之外捕捉視頻的確定,可以基于被檢測的語音觸發(fā)器的類型和/或被檢測語音觸發(fā)器的強度(例如,講話者被確定為惱怒的相對于非常生氣,或講話者以低語或提高的音量講話相對于正常音量)。
現(xiàn)在將討論各種類型的語音觸發(fā)器。語音觸發(fā)器可以應(yīng)用于在麥克風(fēng)28范圍內(nèi)的任意講話者,包括用戶或另一個個人。其他個人不需要將他的/她的講話指向用戶??梢圆捎脼V波器來忽略來自電視或收音機的音頻,該濾波器可以包括生活記錄照相機10與另一個電子裝置之間的電子協(xié)調(diào),以區(qū)分和電視或收音機關(guān)聯(lián)的講話者與在出現(xiàn)生活記錄照相機10時的講話者。
一個語音觸發(fā)器是:在預(yù)定時間段內(nèi)(例如,30秒或一分鐘)內(nèi)沒有講話時講話者的檢測。例如,如果用戶在計算機處安靜地工作,并且另一個人講話以引起用戶的注意力,則可以由另一個人的語音的聲音來檢測語音觸發(fā)器。在一個實施方式中,繼續(xù)的對話(諸如用戶在電話呼叫期間或與另一個位于相同位置的人講話)將不引起語音觸發(fā)器的檢測。同樣,較安靜的講話(諸如后臺對話)將不引起語音觸發(fā)器的檢測。
另一個語音觸發(fā)器是:在對話已經(jīng)在進(jìn)行中時對新講話者的檢測(例如,當(dāng)?shù)谌思尤雰蓚€人的現(xiàn)有對話時)。為此,可以追蹤講話者的語音特性來確定新講話者或話語是否是從現(xiàn)有方到對話。同樣,語音識別和/或講話識別可以用于該目的。
另一個語音觸發(fā)器是:對講話者語音的一個或更多個特性的變化的檢測。成像引擎22可以被配置為,檢測講話者講話時講話者語音的一個或更多個特性的變化。同樣,在講話者與一個或更多個其他人交談的情況下,成像引擎22可以被配置為,檢測對話期間講話者語音的一個或更多個特性的變化。例如,在對話期間,講話者將具有與來自一個或更多個其他講話者的敘述間插的連續(xù)敘述。如果講話者的當(dāng)前敘述在形成對話的敘述的交換期間,在來自同一講話者緊接之前的敘述(或其他更早之前的敘述)的特性方面變化,那么可以檢測到語音觸發(fā)器。
針對變化可以被監(jiān)測的示例性特性包括先不限于:音高、音調(diào)、聲調(diào)、音量、講話速度(例如,被定義為包括話語產(chǎn)生速率和講話期間的暫停長度的講話速度)、選詞和/或語言結(jié)構(gòu)(例如,所用詞的類型,諸如常見對話詞語、俚語或非正式詞語或語言結(jié)構(gòu)、正式詞語或語言結(jié)構(gòu)、臟話等)、情緒、情感表達(dá)(例如,悲傷、高興、興奮、平和、喜愛、害怕、憤怒等)、所講的語言或方言以及討論的主題。
監(jiān)測這些特性中的一些(諸如選詞和/或語言結(jié)構(gòu)、特定情感表達(dá)、所講語言或方言以及所討論主題)可以包括將講話者的語音轉(zhuǎn)換成文本的講話識別。該文本可以與具有用于不同詞句、語言結(jié)構(gòu)等的預(yù)定分類的語言和語法數(shù)據(jù)庫進(jìn)行比較。用于檢測人所講的語言,和/或用戶所講方言的示例性技術(shù)可以在美國第6061646號專利、美國第2013/00300789號專利申請公報以及歐洲第2494546號專利中找到,但可以采用如在各種其他源中描述的其他技術(shù)。用于檢測對話主題的示例性技術(shù)可以在美國第2013/007137號專利申請公報中找到,但可以采用如在各種其他源中描述的其他技術(shù)。
可以使用用于檢測如在講話或語音特性中表明的情感的已知技術(shù)來完成監(jiān)測情緒。這可以包括:監(jiān)測相對于講話者的正常(或“基線(baseline)”)講話語音,在用戶的講話中找到的特性(例如,音高、音調(diào)、聲調(diào)、音量、選詞等)的組合。情緒可以包括例如高興、悲傷、憤怒等,各情緒可與講話者的基線講話語音區(qū)分。在一個實施方式中,基于語音特性(例如,音高、音調(diào)、聲調(diào)、音量、選詞、選詞和/或語言結(jié)構(gòu)等)來對用于被識別講話者的不同情緒進(jìn)行分類。分類可以存儲(例如,存儲器16中),并用于與當(dāng)前檢測的講話比較,以確定情緒的變化是否發(fā)生。用于檢測語音信號中的情感的示例性技術(shù)的更詳細(xì)描述可以在美國第7940914號和第7222075號專利中找到,但可以采用如在各種其他源中描述的其他技術(shù)。
在一個實現(xiàn)實施方式中,成像引擎22可以包括:用于各被監(jiān)測特性的過渡檢測模塊。過渡檢測模塊被配置為,檢測被監(jiān)測音頻信號中的對應(yīng)狀態(tài)過渡,并且如果檢測到狀態(tài)過渡,那么可以在塊40中進(jìn)行肯定確定。
另一個語音觸發(fā)器可以是:不必是講話的人所生成的聲音(諸如笑、喝彩(例如,鼓掌)、喘息、歡呼、歌唱等)的檢測。另一個語音觸發(fā)器可以為:具體的詞語或短語。比如,問候詞(英語中的“hello(喂)”或“hi”(嗨),或瑞典語中的“hej”(嘿))可以觸發(fā)拍照(因為這些詞語在遇見另一個人時經(jīng)常說)??梢杂米髡Z音觸發(fā)器的其他示例性詞語或短語包括:用戶定義的詞(例如,用于生活記錄照相機10捕捉圖像的命令詞)、人的姓名、短語“早上好”等。
在又一個實施方式中,除了語音觸發(fā)器之外的聲音觸發(fā)器可以用于提示拍照。聲音觸發(fā)器可以是不由人產(chǎn)生且通常不頻繁發(fā)生的聲音。這些非語言表達(dá)的聲音觸發(fā)器可以包括:例如火警、車禍、加速馬達(dá)、突然的大噪聲(例如,“突然巨響”)、狗叫或某一其他聲音。
在一個實施方式中,可以對塊42中捕捉的圖像進(jìn)行額外的后處理。比如,可以進(jìn)行圖像分析來搜索感興趣的特性,諸如圖像中的物體或人。如果確定圖像具有感興趣的特性,則可以保持圖像,并且如果圖像不含有感興趣的特性,則可以刪除圖像。這樣,作為語音觸發(fā)器的檢測結(jié)果而捕捉的、但不含有講話者或其他感興趣特性的相片將不出現(xiàn)在圖像儲存器中。這在特定環(huán)境中(諸如在用戶看電視時或在不在照相機模塊12的視場內(nèi)的一個人打電話給用戶時(例如,在用戶忙于計算機時用戶的配偶給用戶打電話但未直接出現(xiàn)))可以是有利的。在這些示例性情況下,圖像中人的不存在將引起圖像的刪除。在圖像中所捕捉的、在顯示器或電視上的人可以通過識別人周圍的顯示器或電視的圖像特性來忽略。
其他后處理可以包括:通過比較圖像的特性來確定圖像是否是更早存儲圖像的冗余。如果確定圖像是冗余的,則可以刪除圖像,并且如果圖像不是冗余的,則可以保持圖像。在一個實施方式中,單獨但具有不同面部表情,或處于不同設(shè)置中的兩張圖像不被認(rèn)為是冗余的。
雖然已經(jīng)示出并描述了特定實施方式,但理解的是,本領(lǐng)域其他技術(shù)人員在閱讀并理解本說明書時,將想到落在所附權(quán)利要求范圍內(nèi)的等同物和修改。