本申請要求于2014年6月9日提交的日本優(yōu)先權(quán)專利申請JP 2014-118607的權(quán)益,其全部內(nèi)容通過引用被并入到本文中。
技術(shù)領(lǐng)域
本公開內(nèi)容涉及一種信息處理器、信息處理方法以及程序。
背景技術(shù):
近年來,不僅利用相關(guān)技術(shù)領(lǐng)域的成像裝置例如數(shù)字攝像機來拍攝照片和運動圖像,而且還利用例如安裝在信息通信終端例如智能電話上以及可穿戴終端例如頭戴式顯示裝置上的攝像機來拍攝照片和運動圖像。
引文列表
專利文獻
PTL 1:US 2013/0044042A
技術(shù)實現(xiàn)要素:
技術(shù)問題
同時,當觀看運動圖像時,除使用固定的顯示裝置和投影機、智能電話、平板電腦終端等以外,越來越廣泛地使用可穿戴終端。特別地,由于可以在任何時間容易地利用可穿戴終端執(zhí)行拍攝,則預(yù)計拍攝要被執(zhí)行很長一段時間。注意,由于裝置的配置和使用裝置的方式,所以在可穿戴終端中難以充分地提供一種用于輸入操作的功能單元。因此,當觀看冗長的運動圖像時,預(yù)計指定期望的運動圖像的操作將是困難的。因此,在可穿戴終端等中,期待一種使得用戶能夠容易地指定期望的圖像的技術(shù)。
問題的解決方案
根據(jù)本公開內(nèi)容的實施方式,提供了一種信息處理器,該信息處理器包括:電路,該電路被配置成響應(yīng)于用戶的可聽見的聲音輸入來識別運動圖像的部分,其中,運動圖像通過附接至用戶的成像單元的捕獲來生成。
根據(jù)本公開內(nèi)容的另一實施方式,提供了一種信息處理方法,該信息處理方法包括:通過附接至用戶的成像單元的捕獲來生成運動圖像;以及響應(yīng)于用戶的可聽見的聲音輸入來識別運動圖像的部分。
根據(jù)本公開內(nèi)容的另一實施方式,提供了一種其上包含有程序的非暫態(tài)計算機可讀介質(zhì),該程序在被計算機執(zhí)行時使計算機執(zhí)行下述方法,所述方法包括:通過附接至用戶的成像單元的捕獲來生成運動圖像;以及響應(yīng)于用戶的可聽見的聲音輸入來識別運動圖像的部分。
根據(jù)本公開內(nèi)容的一方面,通過將幀指定信息添加至與基于有聲聲音(vocal sound)被設(shè)置的特定命令信息具有高度相關(guān)性的幀,并且通過記錄該幀,用戶可以通過使用幀指定信息容易地指定所期望的圖像。
本發(fā)明的有益效果
如上所述,本公開內(nèi)容使用戶能夠容易地指定所期望的圖像。注意,未必限定于上述效果,并且連同上述效果或替代上述效果,可以呈現(xiàn)出期望被引入本說明書中的任何效果或可以根據(jù)本說明書預(yù)期的其他效果。
附圖說明
圖1是示出了拍攝運動圖像的用戶的示例性狀態(tài)的說明圖。
圖2是示出了由用戶持有以拍攝運動圖像的成像終端的示例性配置的示意性立體圖。
圖3是示出了由用戶穿戴以拍攝運動圖像的成像終端的示例性配置的示意性立體圖。
圖4是示出了根據(jù)本公開內(nèi)容的第一實施方式的成像終端和服務(wù)器的功能配置的功能框圖。
圖5是示出了根據(jù)第一實施方式的服務(wù)器的計算單元的功能配置的功能框圖。
圖6是示出了記錄在存儲單元中的信息的示例的說明圖。
圖7是示出了通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)第一實施方式的特定幀信息添加處理的流程圖。
圖8是示出了特定命令和利用特定命令從圖像數(shù)據(jù)中提取的內(nèi)容的示例的說明圖。
圖9是用于描述利用特定命令執(zhí)行的幀提取處理的說明圖。
圖10是用于描述對圖像數(shù)據(jù)的幀執(zhí)行的位置指定處理和個人指定處理的說明圖。
圖11是示出了通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)本公開內(nèi)容的第二實施方式的特定幀信息添加處理的流程圖。
圖12是示出了特定命令信息和特定命令信息的特定示例的示例的說明圖。
圖13是示出了根據(jù)本公開內(nèi)容的第三實施方式的指示用戶在觀看的圖像的主窗口以及幀檢查窗口的示例的說明圖。
圖14是示出了幀檢查窗口的示例性配置的說明圖。
圖15是示出了在幀檢查窗口中確定幀提取的起始點時的畫面內(nèi)容的說明圖。
圖16是示出了在幀檢查窗口中確定幀提取的結(jié)束點時的畫面內(nèi)容的說明圖。
圖17是示出了在利用特定命令進行命令時采取的特定動作的說明圖。
圖18是根據(jù)圖17繼續(xù)地示出了在利用特定命令進行命令時采取的特定動作的說明圖。
圖19是示出了在通過有聲聲音而不是特定命令進行命令時采取的特定動作的說明圖。
圖20是示出了根據(jù)本公開內(nèi)容的實施方式的成像終端的硬件配置的示例的硬件配置圖。
圖21是示出了使用GUI來設(shè)置特定命令信息的示例性情況的說明圖。
具體實施方式
在下文中,將參照附圖來詳細地描述本公開內(nèi)容的實施方式。注意,在該說明書和附圖中,使用相同的附圖標記來表示具有基本上相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件,并且省略對這些結(jié)構(gòu)元件的重復(fù)的說明。
注意,將按下面的順序來給出描述。
0.概述
1.第一實施方式(特定命令)
1.1.運動圖像的獲取
1.2.功能配置
1.3.通過使用有聲聲音對運動圖像執(zhí)行的特定幀信息添加處理
2.第二實施方式(隨意講出的有聲聲音的輸入)
2.1.通過使用有聲聲音對運動圖像執(zhí)行的特定幀信息添加處理
3.第三實施方式(由用戶執(zhí)行的幀指定處理)
3.1.由使用顯示裝置的用戶執(zhí)行的幀指定處理
3.2.特定示例
4.示例性硬件配置
<0.概述>
首先將描述根據(jù)本公開內(nèi)容的實施方式的信息處理器的功能的概述。根據(jù)本實施方式的信息處理器是基于特定命令信息來提取與設(shè)定在運動圖像中的特定命令信息具有高度相關(guān)性的單個幀或多個幀的裝置,其中,該特定命令信息基于輸入的有聲聲音已被設(shè)定。然后,信息處理器將用作標記的信息(在下文中,也被稱為“幀指定信息”)添加至所提取的幀,以使得該幀可以稍后被容易地指定。通過添加幀指定信息,可以在例如編輯或觀看圖像時通過使用幀指定信息容易地指定所期望的運動圖像。
在由信息處理器執(zhí)行的這樣的處理中,特定命令信息基于輸入的有聲聲音來設(shè)定。特定命令信息包括預(yù)設(shè)特定命令和通過分析隨意講出的有聲聲音獲得的信息。
例如,當特定命令被設(shè)定為特定命令信息時,可以假設(shè)在下面的情況下使用所述技術(shù):
a1)利用成像終端拍攝運動圖像。
b1)用戶說出特定命令(例如“記錄那個”/“如果XX則記錄”)。
c1)利用信息處理器來提取與特定命令對應(yīng)的幀(例如,提取從當發(fā)出特定命令時起后退預(yù)定時間的幀/提取XX先生/XX女士出現(xiàn)的場景的幀)。
d1)利用信息處理器將幀指定信息添加至所提取的幀并且記錄該幀。
e1)在編輯運動圖像的情況下或在創(chuàng)建場景的列表作為提示的情況下,當用戶稍后要調(diào)用被指定的幀時,用戶使用幀指定信息。
另一方面,當通過分析輸入的有聲聲音獲得的信息被設(shè)定為特定命令信息時,可以假設(shè)在下面的情況下使用所述技術(shù)。
a2)利用成像終端拍攝運動圖像。
b2)用戶講話(例如,“順便說一句,剛才在那里那個很棒!”)。
c2)利用信息處理器提取與輸入的有聲聲音對應(yīng)的幀(例如通過對指示與具體的時間、地點、以及人物、對象等相關(guān)聯(lián)的內(nèi)容的詞語和短語例如“剛才”、“在那里”、“那個”等進行解釋來指定相關(guān)的幀)。
d2)利用信息處理器將幀指定信息添加至所提取的幀并且記錄該幀。
e2)在編輯運動圖像的情況下或在創(chuàng)建場景的列表作為提示的情況下,當用戶稍后要調(diào)用被指定的幀時,用戶使用幀指定信息。
在下文中,將詳細地描述被提供有這樣的技術(shù)的信息處理器的配置和特定處理。
<1.第一實施方式>
(1.1.運動圖像的獲取)
參照圖1至圖3,首先將描述由具有根據(jù)本公開內(nèi)容的信息處理器的功能的裝置處理的運動圖像的獲取。注意,圖1是示出了拍攝運動圖像的用戶的示例性狀態(tài)的說明圖。圖2是示出了由用戶持有以拍攝運動圖像的成像終端10的示例性配置的示意性立體圖。圖3是示出了由用戶穿戴以拍攝運動圖像的成像終端20的示例性配置的示意性立體圖。
由具有根據(jù)本公開內(nèi)容的信息處理器的功能的裝置處理的運動圖像不限于特定的運動圖像,并且在對通過利用成像終端連續(xù)地并且隨機地拍攝運動圖像所獲取的冗長的運動圖像進行處理的情況下,可以更有效地使用幀指定信息。例如,圖1所示的用戶通過在手中持有第一成像終端10來拍攝運動圖像并且還通過在頭部上穿戴第二成像終端20來拍攝運動圖像。此外,通過將第三成像終端30附接至背部上的包,用戶在拍攝運動圖像,并且攝像機40被設(shè)置在由用戶戴著的眼鏡上。
如圖2所示,例如,在第一成像終端10中,鏡頭12被設(shè)置在圓柱形殼體11的端面上。在鏡頭12上入射的光在被設(shè)置在殼體11內(nèi)的成像元件(未示出)上形成圖像并且被轉(zhuǎn)化成電信號。獲取有聲聲音的麥克風(fēng)13被設(shè)置在第一成像終端10上,以使得可以在拍攝運動圖像時同時獲取有聲聲音。除上述部件以外,第一成像終端10例如包括:操作部14,其具有用于操作該終端的第一按鈕14a、第二按鈕14b和電源按鈕14c;顯示裝置15;連接部16,其用于將第一成像終端10連接至其他裝置;以及通信單元(未示出),其傳輸并且接收信息。
此外,如圖3所示,例如,三個鏡頭22a、22b和22c被設(shè)置在第二成像終端20的球形殼體21的上部和彎曲表面上。各自與鏡頭22a、22b和22c中的一個鏡頭對應(yīng)的成像元件(未示出)被設(shè)置在殼體21內(nèi)部;因此,可以在多個方向上同時地拍攝圖像。此外,獲取有聲聲音的麥克風(fēng)23被設(shè)置在第二成像終端20上,以使得可以在拍攝運動圖像時同時獲取有聲聲音。除上述部件以外,第二成像終端20例如包括電源按鈕24;連接部26,其用于將第二成像終端20連接至其他裝置;以及通信單元(未示出),其傳輸并且接收信息。
注意,第三成像終端30可以具有與第一成像終端10或第二成像終端20的配置類似的配置,或者可以具有與第一成像終端10和第二成像終端20的配置不同的配置。此外,終端的控制可以每終端執(zhí)行或者可以通過通信上連接至所述終端的另一終端或服務(wù)器來執(zhí)行。
如上所述,用戶可以同時利用多個成像終端10至30和攝像機40來拍攝運動圖像。此外,因為第二成像終端20、第三成像終端30和攝像機40在被用戶穿戴的情況下使用,所以用戶例如可以在不關(guān)注操作成像終端的情況下持續(xù)拍攝運動圖像。
注意,當用戶隨后編輯或觀看已被拍攝很長一段時間的運動圖像時,因為運動圖像的拍攝時間變得較長,所以對于用戶而言將更難以找到所期望的圖像被記錄在何處。因此,利用具有根據(jù)本公開內(nèi)容的信息處理器的功能的裝置,在用戶稍后可能想要檢查的時間位置處將用作標記的信息添加至拍攝的運動圖像。利用上述方式,使用相關(guān)信息的用戶稍后可以容易地指定所期望的圖像。
(1.2.功能配置)
接下來將描述由具有根據(jù)本公開內(nèi)容的信息處理器的功能的裝置執(zhí)行的對運動圖像的處理。在本實施方式中,給出根據(jù)本公開內(nèi)容的信息處理器的功能被提供在成像終端中的描述;然而,例如,由成像終端獲得的運動圖像被上傳到其中的服務(wù)器可以被提供有所述功能。在圖4中將描述成像終端100和服務(wù)器200的示例性功能配置。
(1)成像終端
根據(jù)本實施方式的成像終端100例如是圖1所示的成像終端10至30和攝像機40中的任意一個。如圖4所示,成像終端100包括:成像單元110、有聲聲音獲取單元120、顯示裝置130、控制器140、計算單元150、通信單元160、存儲單元170和電池180。成像終端100被供給有來自電池180的驅(qū)動電力和運行功能單元中的每個功能單元。
成像單元110是獲取圖像數(shù)據(jù)的功能單元并且包括成像元件、鏡頭等。作為成像元件,例如可以使用電荷耦合器件(CCD)圖像傳感器或互補金屬氧化物半導(dǎo)體(CMOS)圖像傳感器??刂破?40將利用成像元件以及通過鏡頭獲取的圖像數(shù)據(jù)記錄在存儲單元170中。
有聲聲音獲取單元120是獲取有聲聲音數(shù)據(jù)的功能單元并且例如可以使用麥克風(fēng)等。有聲聲音獲取單元120是由控制器140控制的,從而以與成像單元110聯(lián)鎖的方式運行;因此,可以獲取與由成像單元110獲取的圖像數(shù)據(jù)對應(yīng)的有聲聲音數(shù)據(jù)。有聲聲音獲取單元120可以單獨地運行,并且在這樣的情況下,成像終端100僅獲取有聲聲音數(shù)據(jù)。控制器140將利用有聲聲音獲取單元120獲取的有聲聲音數(shù)據(jù)記錄在存儲單元170中。
顯示裝置130是顯示信息的功能單元并且例如可以使用液晶顯示裝置或有機EL顯示裝置。顯示裝置130的顯示由控制器140控制,以及在顯示裝置130上顯示所獲取的圖像數(shù)據(jù)、成像終端100的各種設(shè)定畫面等。
控制器140是控制成像終端100的整體功能的功能單元??刂破?40例如控制成像單元110和有聲聲音獲取單元120并且獲取圖像數(shù)據(jù)和有聲聲音數(shù)據(jù),以及將所獲取的圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)記錄在存儲單元170中。此外,控制器140將記錄在存儲單元170中的圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)通過通信單元160傳輸至服務(wù)器200。此外,控制器140執(zhí)行運算處理以將幀指定信息添加至圖像數(shù)據(jù)并且執(zhí)行其他各種類型的運算處理、對電池180的管理等。
由控制器140處理的各條信息可以在被緩存在成像終端100的存儲單元170中之后被傳輸至服務(wù)器200。此外,在圖像數(shù)據(jù)是運動圖像時,控制器140可以根據(jù)需要使圖像數(shù)據(jù)傳輸至服務(wù)器。在這樣的情況下,控制器140可以在存儲在存儲單元170中的圖像數(shù)據(jù)中刪除在預(yù)先設(shè)定的預(yù)定時間段之前取得的記錄內(nèi)容。在上面的情況下,可以減少成像終端100的存儲單元170的記錄能力被折中的情況。
計算單元150是執(zhí)行成像終端100中的各種類型的運算處理的功能單元。在接收來自控制器140的命令的情況下,計算單元150執(zhí)行運算處理并且將計算結(jié)果返回至控制器140。就此而言,根據(jù)本實施方式的成像終端100的計算單元150執(zhí)行運算處理以將幀指定信息添加至圖像數(shù)據(jù)。因此,如圖5所示,計算單元150包括特定命令信息提取單元152、幀提取單元154和幀指定信息添加單元156。
特定命令信息提取單元152分析有聲聲音數(shù)據(jù)并且提取特定命令信息。特定命令信息是用于提取圖像數(shù)據(jù)中用戶稍后要檢查的圖像(幀)的信息。在本實施方式中,預(yù)設(shè)特定命令被提取為特定命令信息。特定命令例如被預(yù)先存儲在存儲單元170中。特定命令信息提取單元152從有聲聲音數(shù)據(jù)中提取特定命令以及將有聲聲音數(shù)據(jù)輸出至幀提取單元154。
幀提取單元154從圖像數(shù)據(jù)中提取與特定命令信息相關(guān)的單個幀或多個幀。在本文中,當有聲聲音命令“10分鐘之前”被輸入為特定命令信息時,與特定命令信息相關(guān)的幀是例如10分鐘長的幀。例如,當有聲聲音命令與位置和個人有關(guān)時,幀提取單元154可以對位置和個人的相關(guān)性的程度進行量化。在這樣的情況下,幀提取單元154可以基于預(yù)先設(shè)定的預(yù)定閾值來確定相關(guān)性有多高。幀提取單元154從圖像數(shù)據(jù)中提取與由用作特定命令信息的特定命令指定的內(nèi)容具有強相關(guān)性的幀,以及將該幀輸出至幀指定信息添加單元156。
幀指定信息添加單元156將幀指定信息添加至由幀提取單元154提取的幀,以用于指定該幀。幀指定信息是在圖像數(shù)據(jù)中指定用戶稍后要檢查的圖像(幀)的時間位置的信息??刂破?40將已被幀指定信息添加單元156添加幀指定信息的圖像數(shù)據(jù)記錄在存儲單元170中。
例如,控制器140和計算單元150是具有根據(jù)本公開內(nèi)容的實施方式的信息處理器的功能的功能單元,并且各自利用CPU來實現(xiàn)。
返回參照圖4,通信單元160是將信息傳輸至服務(wù)器等以及接收來自服務(wù)器等的信息的功能單元,服務(wù)器等例如經(jīng)由網(wǎng)絡(luò)或線纜通信上連接至通信單元160。成像終端100的通信單元160將記錄在存儲單元170中的圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)傳輸至服務(wù)器200。此外,成像終端100可以通過通信單元160接收來自服務(wù)器200的各種類型的信息。
存儲單元170存儲由成像單元110和有聲聲音獲取單元120獲取的圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)。在圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)同時被獲取的情況下,圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)在彼此相關(guān)聯(lián)的情況下被存儲。例如,如圖6所示,除由成像單元110獲取的圖像數(shù)據(jù)的運動圖像文件和由有聲聲音獲取單元120獲取的有聲聲音數(shù)據(jù)的有聲聲音文件以外,記錄在存儲單元170中的信息包括元數(shù)據(jù)文件、幀指定信息、外部信息等。
元數(shù)據(jù)文件包括在圖像數(shù)據(jù)被獲取時的信息例如GPS位置信息和記錄時間、通過分析圖像數(shù)據(jù)獲取的場景信息、與圖像數(shù)據(jù)的內(nèi)容有關(guān)的信息例如面部識別信息等。幀指定信息是被添加用于指定圖像數(shù)據(jù)中的預(yù)定幀的信息,并且例如包括指示該幀為被指定的幀的標記信息、作為標記信息被添加的時鐘時間的標記命令時間信息等。此外,幀指定信息可以包括指示用戶對幀的內(nèi)容感興趣的程度的準確度信息以及指示特定命令信息與被指定的幀之間的相關(guān)性的程度的信息。此外,通過外部服務(wù)獲取的信息例如由SNS服務(wù)提供的登記信息等可以被存儲為外部信息。
此外,存儲單元170將對于將幀指定信息添加至圖像數(shù)據(jù)必需的數(shù)據(jù)等存儲在計算單元150中。由計算單元150使用的數(shù)據(jù)包括特定命令等。特定命令是預(yù)先存儲在存儲單元170中的信息;然而,特定命令可以根據(jù)需要被更新。注意,圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)以及預(yù)先存儲的信息例如特定命令可以被存儲在單獨的存儲介質(zhì)中。可以利用控制器140通過通信單元160將存儲在存儲單元170中的數(shù)據(jù)傳輸至服務(wù)器200。
(2)服務(wù)器
服務(wù)器200是管理由成像終端100獲取的圖像數(shù)據(jù)并且保存從成像終端100接收的圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)的信息處理器。如圖4所示,服務(wù)器200包括通信單元210、控制器220、計算單元230和存儲單元240。
通信單元210是將信息傳輸至成像終端100等并且接收來自成像終端100等的信息的功能單元,成像終端100等例如經(jīng)由網(wǎng)絡(luò)或線纜通信上連接至通信單元210。服務(wù)器200的通信單元210接收來自成像終端100的圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)并且通知控制器220。此外,服務(wù)器200可以將各種類型的信息通過通信單元210傳輸至成像終端100。
控制器220是控制服務(wù)器200的整體功能的功能單元。例如,控制器220將從成像終端100接收的圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)記錄在存儲單元240中。此外,控制器220使得計算單元230執(zhí)行各種類型的運算處理。
計算單元230是在服務(wù)器200中執(zhí)行各種類型的運算處理的功能單元。在接收到來自控制器220的命令的情況下,計算單元230執(zhí)行運算處理以及將計算結(jié)果返回至控制器220。例如,控制器220和計算單元230是功能單元并且各自利用CPU來實現(xiàn)。注意,當服務(wù)器200側(cè)包括具有根據(jù)本公開內(nèi)容的實施方式的信息處理器的功能的功能單元時,計算單元230將包括上面所描述的特定命令信息提取單元、幀提取單元和幀指定信息添加單元。存儲單元240存儲圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)。
注意,當服務(wù)器200側(cè)包括具有根據(jù)本公開內(nèi)容的實施方式的信息處理器的功能的功能單元時,在計算單元230中將幀指定信息添加至圖像數(shù)據(jù)所必需的數(shù)據(jù)例如特定命令也被存儲在存儲單元240中。
(1.3.通過使用有聲聲音對運動圖像進行的特定幀信息添加處理)
參照圖6至圖9,將描述利用成像終端100通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)本實施方式的特定幀信息添加處理。注意,圖6是示出了記錄在存儲單元中的信息的示例的說明圖。圖7是示出了通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)本實施方式的特定幀信息添加處理的流程圖。圖8是示出了特定命令和利用特定命令從圖像數(shù)據(jù)中提取的內(nèi)容的示例的說明圖。圖9是用于描述利用特定命令執(zhí)行的幀提取處理的說明圖。
例如,開始通過使用有聲聲音對運動圖像執(zhí)行特定幀信息添加處理的定時是在利用成像終端100執(zhí)行對運動圖像的獲取時。當成像單元110開始拍攝運動圖像時,計算單元150接收來自控制器140的命令,利用特定命令信息提取單元152來分析有聲聲音數(shù)據(jù)以及提取特定命令(S100)。在步驟S100中,特定命令信息提取單元152從有聲聲音數(shù)據(jù)中提取被存儲在存儲單元170中的特定命令。
圖8中示出了特定命令的示例。在圖8所示的示例中,例如通過使用特定命令“記錄……”,可以指定用戶要提取的幀的時間位置的標示或者要被提取的特定的個人、對象、位置等。就此而言,特定命令信息提取單元152至少對在“記錄”之后的有聲聲音內(nèi)容進行檢查并且從圖像數(shù)據(jù)中識別已由有關(guān)的特定命令指定的內(nèi)容。此外,存在其他的特定命令例如用于停止先前的特定命令的“停止記錄”。特定命令可以包括與指定幀的方式、裝置的操作等有關(guān)的命令例如“捕獲”、“再現(xiàn)”、“移動”和“選擇”。
特定命令信息提取單元152繼續(xù)分析有聲聲音數(shù)據(jù)直至從有聲聲音數(shù)據(jù)中提取出特定命令為止(S110)。然后,當提取出特定命令時,由幀提取單元154從圖像數(shù)據(jù)中提取包括與特定命令相關(guān)的信息的幀(S120)。
例如,當時間信息被輸入為特定命令時,提取與被指定的時間信息對應(yīng)的幀。作為特定示例,考慮特定命令“記錄那個”被輸入的情況。在輸入特定命令“記錄那個”的情況下,幀提取單元154執(zhí)行從當前點到較早的點的幀提取或者執(zhí)行對較早的點的幀提取。換言之,如圖9所示,在使與提前被設(shè)定的“較早的點”對應(yīng)的預(yù)定時間作為基準點的情況下,幀提取單元154提取從基準點之前到基準點之后的預(yù)定時間(時段A)的幀或者提取具有從基準點之后到當前點的時段(時段B)的幀。
換言之,例如,當與“較早的點”對應(yīng)的預(yù)定時間為10分鐘并且在用作參考的基準點之前與基準點之后的時間為10分鐘時,發(fā)出特定命令之前10分鐘被設(shè)定為基準點,并且提取具有從基準點之前5分鐘到基準點之后5分鐘的時段的幀或具有從當前點之前10分鐘到當前點的時段的幀。可替選地,幀提取單元154可以連續(xù)地將基準點之后的幀設(shè)定為提取目標(時段C)直至存在命令為止??梢钥蛇x地設(shè)定與“較早的點”對應(yīng)的預(yù)定時間和用作參考的基準點之前與基準點之后的時間。
此外,例如,當位置或攝影對象例如個人或?qū)ο蟊恢付樘囟顣r,幀提取單元154基于預(yù)先被添加至圖像數(shù)據(jù)的附加信息、作為機器學(xué)習(xí)的結(jié)果獲得的估計信息等來提取幀。預(yù)先被添加至圖像數(shù)據(jù)的附加信息例如包括與預(yù)先登記的面部圖像匹配的個人信息和位置信息(在獲取運動圖像時的GPS位置信息、從SNS服務(wù)提供的登記信息等)。通過使用這樣的附加信息,可以提取包括由用戶指定的位置或攝影對象的圖像數(shù)據(jù)的幀。附加信息可以是從另一裝置或服務(wù)中獲取并且被同步化的信息。
例如,假設(shè)利用有聲聲音命令“記錄五反田站”已經(jīng)指定五反田站。就此而言,如圖10所示,幀提取單元154通過對包括在圖像數(shù)據(jù)中的五反田站的標示牌310中的字符信息執(zhí)行識別或通過執(zhí)行與五反田站的預(yù)先登記的圖像信息的匹配處理來提取與五反田站具有高度相關(guān)性的幀??商孢x地,幀提取單元154可以根據(jù)與五反田站的距離來提取與五反田站具有相關(guān)性的幀。換言之,由與被指定的對象的距離來表示相關(guān)性的程度。例如,幀提取單元154確定在相對于五反田站的預(yù)定范圍內(nèi)獲取的幀是與五反田站具有相關(guān)性的幀并且提取該幀。
此外,假設(shè)利用有聲聲音命令“記錄XX先生/XX女士”已經(jīng)指定五反田站。就此而言,幀提取單元154執(zhí)行預(yù)先被登記的XX先生/XX女士的面部圖像與在圖像數(shù)據(jù)的幀中的每個幀中識別的面部圖像之間的匹配,以及如圖10所示,幀提取單元154指定包括XX先生/XX女士的面部圖像320的幀。
此外,作為附加信息,可以使用信息例如時刻表信息、與利用日志收集終端收集的用戶的動作有關(guān)的活動信息以及通過對活動信息執(zhí)行動作識別處理所獲得的動作識別信息。此外,在購物期間以及在開車兜風(fēng)時拍攝運動圖像時的場景(環(huán)境)信息可以被添加至圖像數(shù)據(jù)以作為附加信息。場景信息是在基于例如已經(jīng)拍攝的運動圖像的改變和附加信息的改變來確定場景的改變的可能性的情況下生成的信息。場景信息使得能夠例如提取由有聲聲音指定的特定場景的幀并且提取場景已經(jīng)改變的情況下的幀。此外,要被提取的幀可以通過用戶的手勢來指定。例如,當記錄作為當前拍攝對象的攝影對象時,在確認用戶已經(jīng)執(zhí)行將手指指向攝影對象的手勢時,幀提取單元154提取包括攝影對象的幀。
當利用幀提取單元154從圖像數(shù)據(jù)中提取包括與特定命令對應(yīng)的信息的幀時,幀指定信息添加單元156將幀指定信息添加至所提取的幀(S130)。幀指定信息是在與圖像數(shù)據(jù)相關(guān)聯(lián)以利于隨后執(zhí)行對所提取的幀的指定的情況下被記錄的信息。添加幀指定信息使得用戶隨后將能夠使用幀指定信息來容易地指定所期望的幀。幀指定信息包括要被指定的幀的信息并且例如包括信息例如指示幀是指定的幀的標記信息以及作為在添加了標記信息時的時間的標記命令時間信息。例如,標記信息可以是信息例如由“0”或“1”表示的標志。注意,幀指定信息不必在記錄幀的同時被記錄。
注意,被添加幀指定信息的幀是在步驟S120中的處理中已被估計和提取的幀??梢栽趲付ㄐ畔⒅邪ㄖ甘居脩魧λ崛〉膸年P(guān)注程度即用戶稍后想要觀看幀的信息的程度的準確度信息。例如,可以基于有聲聲音命令與運動圖像的幀中的每個幀之間的相關(guān)性來確定準確度信息。通過將準確度信息包括在幀指定信息中,可以在用戶隨后使用幀指定信息來搜索所期望的幀時利用準確度信息來指定僅用戶對其表示出強烈的興趣的幀。
重復(fù)地執(zhí)行步驟S110至S130中的處理例如直至由成像單元110執(zhí)行的拍攝結(jié)束為止(S140)。當控制器140停止由成像單元110執(zhí)行的拍攝時,控制器還結(jié)束對添加幀指定信息至圖像數(shù)據(jù)的處理。
上面描述了通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)第一實施方式的特定幀信息添加處理。在本實施方式中,根據(jù)有聲聲音數(shù)據(jù)將特定命令指定為特定命令信息,從圖像數(shù)據(jù)中提取與由特定命令指定的信息具有高度相關(guān)性的幀以及將幀指定信息添加至該幀。利用上述方式,用戶稍后可以通過使用幀指定信息來容易地指定所期望的幀。例如,用戶可以指定、回放以及觀看與幀指定信息對應(yīng)的幀或在與幀指定信息對應(yīng)的幀之前與之后預(yù)定時間的幀。
<2.第二實施方式>
接下來參照圖11至圖12,將描述通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)本公開內(nèi)容的第二實施方式的特定幀信息添加處理。根據(jù)本實施方式的處理與第一實施方式的處理不同之處在于:用于提取幀的特定命令信息是基于由用戶自由講出的有聲聲音數(shù)據(jù)來設(shè)定。在下文中,主要關(guān)于與第一實施方式的不同來描述通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)第二實施方式的特定幀信息添加處理。注意,成像終端100和服務(wù)器200的配置與圖4所示的成像終端100和服務(wù)器200的配置類似;因此,本文中省略對成像終端100和服務(wù)器200的配置的描述。
(2.1.通過使用有聲聲音對運動圖像執(zhí)行的特定幀信息添加處理)
參照圖11至圖12,將描述利用成像終端100通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)本實施方式的特定幀信息添加處理。注意,圖11是示出了通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)本實施方式的特定幀信息添加處理的流程圖。圖12是示出了特定命令信息和特定命令信息的特定示例的示例的說明圖。
例如,開始通過使用有聲聲音對運動圖像執(zhí)行根據(jù)本實施方式的特定幀信息添加處理的定時也是在利用成像終端100執(zhí)行對運動圖像的獲取時。當成像單元110開始拍攝運動圖像時,計算單元150接收來自控制器140的命令,利用特定命令信息提取單元152來分析有聲聲音數(shù)據(jù)以及提取特定命令信息(S200)。在步驟S200中,特定命令信息提取單元152對用戶的已被獲取為有聲聲音數(shù)據(jù)的語音內(nèi)容、環(huán)境聲音等進行分析以及提取要成為特定命令信息的有聲聲音內(nèi)容。
圖12中示出了要成為特定命令信息的有聲聲音內(nèi)容的示例。如圖12所示,特定命令信息包括例如時間、位置、攝影對象、動作、環(huán)境和變成觸發(fā)器的有聲聲音。注意,時間包括定量信息例如“x分鐘以前”和非定量信息例如“剛才”。對于非定量信息而言,可以對非定量信息預(yù)設(shè)預(yù)定時間寬度,并且可以基于預(yù)定時間寬度指定要提取的幀。對于位置和攝影對象而言,對應(yīng)的明確信息可以針對非定量信息預(yù)先被設(shè)定。
此外,對于動作而言,還可以通過參照附加信息例如“走路”、“跑動”、“在火車上”和“睡覺”來分析圖像數(shù)據(jù)以提取指示可識別的行為的有聲聲音內(nèi)容。對于環(huán)境而言,從例如場景信息例如“正在下雨”和“正在就餐”中提取指示可以被指定的環(huán)境的有聲聲音內(nèi)容。
同時,除與“哪個幀將被指定”有關(guān)的上述信息例如時間、位置、個人和動作以外,特定命令信息還包括用于確定“是否開始指定幀”的開始確定信息。開始確定信息是以二進制的方式(應(yīng)該、不應(yīng)該)來設(shè)定是否在接收有聲聲音時執(zhí)行指定幀的處理的信息,例如如圖12所示的信息,例如,該信息成為觸發(fā)器。因此,特定命令信息提取單元152使幀提取單元154僅在檢測到與信息“應(yīng)該開始指定幀”相關(guān)聯(lián)的用戶的語音時執(zhí)行幀指定處理。因為幀提取單元154基于成為觸發(fā)器的有聲聲音在確定用戶感興趣之后開始指定幀,則特定命令信息提取單元152提取這樣的有聲聲音作為特定命令信息。利用特定命令信息提取單元152提取出的這樣的有聲聲音內(nèi)容被預(yù)設(shè)在存儲單元170中。
特定命令信息提取單元152繼續(xù)分析有聲聲音數(shù)據(jù)直至從有聲聲音數(shù)據(jù)中提取出成為特定命令信息的有聲聲音內(nèi)容為止(S210)。然后,當提取出成為特定命令信息的有聲聲音內(nèi)容時,特定命令信息提取單元152對由有聲聲音內(nèi)容指定的特定提取目標進行設(shè)定(S220)。如上所述,因為非定量信息也被包括在有聲聲音內(nèi)容中,所以有聲聲音內(nèi)容按原樣不允許與有聲聲音內(nèi)容對應(yīng)的幀從圖像數(shù)據(jù)被適當?shù)刂付?。因此,對于如果按原樣不允許幀根據(jù)其被提取的提取的有聲聲音內(nèi)容,則特定命令信息提取單元152從存儲單元170中獲取與預(yù)設(shè)的非定量信息對應(yīng)的明確信息以使提取目標明確。
然后,利用幀提取單元154從圖像數(shù)據(jù)中提取包括與有聲聲音內(nèi)容對應(yīng)的信息的幀(S230)。在接收開始確定信息時,幀提取單元154開始指定幀。對于開始確定信息而言,例如可以使用在步驟S200中提取的成為觸發(fā)器的有聲聲音或者用戶的行為估計結(jié)果例如用戶要停下來或用戶凝視一定時間?;谟脩舻男袨楣烙嫿Y(jié)果來確定用戶感興趣的幀提取單元154可以開始指定幀。與第一實施方式類似,通過分析圖像數(shù)據(jù)來執(zhí)行對包括與有聲聲音內(nèi)容對應(yīng)的信息的幀的提取。此外,根據(jù)需要參考被添加至圖像數(shù)據(jù)的附加信息以從圖像數(shù)據(jù)中提取幀。
當利用幀提取單元154從圖像數(shù)據(jù)中提取包括與特定命令對應(yīng)的信息的幀時,幀指定信息添加單元156將幀指定信息添加至所提取的幀(S240)。添加幀指定信息使得用戶能夠稍后通過使用幀指定信息來容易地指定所期望的幀。準確度信息可以被包括在幀指定信息中。
重復(fù)地執(zhí)行從步驟S210至步驟S240的處理例如直至由成像單元110執(zhí)行的拍攝結(jié)束為止(S250)。當控制器140停止由成像單元110執(zhí)行的拍攝時,控制器還結(jié)束將幀指定信息添加至圖像數(shù)據(jù)的處理。
上面描述了通過使用有聲聲音對運動圖像執(zhí)行的根據(jù)第二實施方式的特定幀信息添加處理。在本實施方式中,將包括在有聲聲音數(shù)據(jù)中的用戶的語音內(nèi)容和包括在環(huán)境有聲聲音中的預(yù)定有聲聲音內(nèi)容指定為特定命令信息,從圖像數(shù)據(jù)中提取與由有聲聲音內(nèi)容指定的信息具有高度相關(guān)性的幀以及將幀指定信息添加至該幀。利用上述方式,用戶稍后可以通過使用幀指定信息來容易地指定所期望的幀。
注意,在本實施方式中,描述了包括在有聲聲音數(shù)據(jù)中的用戶的語音內(nèi)容和包括在環(huán)境有聲聲音中的預(yù)定有聲聲音內(nèi)容被用作特定命令信息的情況;然而,除上述信息以外,也可以包括在第一實施方式中使用的特定命令。
<3.第三實施方式>
(3.1.由使用顯示裝置的用戶執(zhí)行的幀指定處理)
在上述實施方式中,基于有聲聲音數(shù)據(jù)來設(shè)定特定命令信息并且通過提取與特定命令信息具有高度相關(guān)性的幀來設(shè)定幀指定信息。就此而言,可以在用戶檢查幀的內(nèi)容時使得能夠設(shè)定幀指定信息。在下文中,參照圖13至圖16,將描述由使用顯示裝置的用戶執(zhí)行的根據(jù)本公開內(nèi)容的第三實施方式的幀指定處理。圖13是示出了指示用戶在觀看的圖像的主窗口400和幀檢查窗口500的示例的說明圖。圖14至圖16是示出了由用戶使用幀檢查窗口500執(zhí)行的幀指定處理的說明圖。
例如,假設(shè)用戶穿戴著可穿戴終端例如頭戴式顯示裝置并且在觀看由攝像機拍攝作為整個圖像(through image)的外部圖像。整個圖像也被記錄。在這樣的情況下,當應(yīng)用根據(jù)上面所描述的實施方式的處理時,通過講出特定命令等,用戶將能夠?qū)付ㄐ畔⑻砑又帘挥涗浀恼麄€圖像的圖像數(shù)據(jù)。此外,在本實施方式中,用于對被添加幀指定信息的幀進行設(shè)定的畫面可以被顯示以使得用戶能夠設(shè)定該幀。
接收來自用戶的命令的控制器140在顯示整個圖像的主窗口400的部分中顯示幀檢查窗口500。例如當通過用戶的有聲聲音發(fā)出顯示幀檢查窗口500的命令時,用戶可以使用圖8所示的特定命令。例如,如圖13所示,幀檢查窗口500被顯示在主窗口400的左上角的局部區(qū)域中。例如,幀檢查窗口500被顯示成具有不明顯干擾整個圖像的顯示的尺寸。
當顯示幀檢查窗口500時,用戶例如通過有聲聲音來命令候選場景的顯示,候選場景包括要添加幀指定信息的幀。接收來自用戶的命令的控制器140使計算單元150從圖像數(shù)據(jù)中提取有關(guān)的候選場景并且將被包括在候選場景中的幀中的一些幀顯示在顯示裝置160的幀檢查窗口500中。例如,如圖14所示,當用戶命令顯示例如當前之前的10分鐘的場景時,從圖像數(shù)據(jù)指定作為基準點的當前之前具有10分鐘的預(yù)定時間內(nèi)的場景。然后,由場景的代表性幀的縮略圖52A至52C形成的縮略圖組520被顯示在幀檢查窗口500中。
除場景中的代表性幀以外,幀檢查窗口500中顯示的縮略圖可以是通過對場景進行的時間劃分生成的多個縮略圖、場景的起始點的縮略圖和結(jié)束點的縮略圖等。
此外,如圖14所示,時間線指示器510和選擇操作對象530等被顯示在幀檢查窗口500中。指示時間基準的時間線512和指示整體圖像數(shù)據(jù)中的場景的位置的條514被顯示在時間線指示器510中。選擇操作對象530包括:第一對象532,其用于向過去移動特定場景;第二對象534,其用于朝向當前移動特定場景;以及添加對象536,其用于添加幀指定信息。
用戶能夠例如通過上述“移動”命令或通過沿視線操作選擇操作對象530來改變特定場景的位置和特定場景的長度。例如,如圖15所示,當執(zhí)行從圖14中所指定的場景移動到過去的場景的操作時,過去較遠的預(yù)定時間被拍攝的場景被指定,并且所指定的場景的縮略圖52D至52F被顯示。
此外,在用戶通過按有聲聲音或沿視線操作選擇操作對象530來選擇與要被添加幀指定信息的幀對應(yīng)的縮略圖之后,當選擇添加對象536時,幀指定信息被添加至與縮略圖對應(yīng)的幀。例如,在圖15中的示例中,選擇縮略圖52D并且在此時,選擇幀被添加至縮略圖52D,以使得可以看到所選的狀態(tài)。當在以上狀態(tài)中選擇添加對象536時,幀指定信息被添加至與縮略圖52D對應(yīng)的幀。此外,在上述情況下,可以顯示用于選擇場景的起始點的消息以使用戶選擇包括某個場景的預(yù)定時期的幀是否被選擇。
注意,當顯示縮略圖組的特定場景的長度改變時,構(gòu)成縮略圖組520的縮略圖的顯示內(nèi)容也根據(jù)新設(shè)定的特定場景的長度改變。例如,如圖16所示,當特定場景的長度被縮短時,構(gòu)成縮略圖組520的縮略圖52D1至52D3可以詳細地被顯示,如同逐幀地前進一樣。利用上述方式,可以準確地指定要添加幀指定信息的位置。
當用戶輸入添加幀指定信息的命令時,控制器140使幀指定信息與圖像數(shù)據(jù)相關(guān)并且將該幀記錄在存儲單元170中。
上面描述了由使用顯示裝置的用戶執(zhí)行的根據(jù)第三實施方式的幀指定處理。在根據(jù)本實施方式的幀指定處理的情況下,用戶可以準確地將幀指定信息添加至預(yù)期的幀。注意,可以在結(jié)合上述的第一實施方式或第二實施方式的處理的情況下應(yīng)用由使用顯示裝置的用戶執(zhí)行的根據(jù)本實施方式的幀指定處理。利用上述方式,用戶可以基于已被自動地指定的要添加幀指定信息的幀來執(zhí)行校正;因此,用戶的操作負荷被減少。
(3.2.特定示例)
(1)當利用特定命令進行命令時采取的特定動作
作為根據(jù)第三實施方式的處理的特定示例,參照圖17和圖18,首先將描述當利用特定命令進行命令時采取的特定動作。在本示例中,將描述利用時間和個人來提取幀的情況。
如圖17所示,假設(shè)特定命令“記錄那個”首先通過有聲聲音被輸入。在接收這樣的有聲聲音的輸入時,計算單元150自動地檢測基于已被設(shè)定為與“那個”對應(yīng)的預(yù)定時間的15分鐘之前的場景,并且將代表性縮略圖52A至52C顯示在幀檢查窗口500上。注意,可以可選地設(shè)定所顯示的縮略圖的數(shù)目。接下來,假設(shè)用戶通過有聲聲音來輸入特定命令“后退10分鐘”。在接收到上述命令時,計算單元150顯示進一步后退10分鐘的場景的代表性縮略圖52D至52F。
隨后,如圖18所示,假設(shè)通過有聲聲音來輸入特定命令“記錄XX先生/XX女士”。在接收到這樣的語音命令的輸入時,計算單元150提取與XX先生/XX女士相關(guān)聯(lián)的縮略圖52D。然后,當通過有聲聲音輸入特定命令“選擇之前的”時,計算單元150依次顯示從縮略圖52D起過去的縮略圖52D1、52D2、52D3、……直至存在命令為止。隨后,當預(yù)期的縮略圖52Di出現(xiàn)時并且當用戶輸入特定命令“好的”時,然后計算單元150將幀指定信息添加至與縮略圖52Di對應(yīng)的幀并且記錄該幀。
(2)當通過有聲聲音而不是特定命令進行命令時采取的特定動作
作為根據(jù)第三實施方式的處理的特定示例,參照圖19,將描述當通過有聲聲音而不是特定命令進行命令時采取的特定動作。
如圖19所示,假設(shè)用戶例如說“當我們剛才在五反田吃拉面時XX的臉是令人驚奇的!!”?;谏鲜鲇新暵曇簦嬎銌卧?50提取下面的有聲聲音內(nèi)容作為特定命令信息。
時間信息:“剛才”、“吃拉面時”
位置信息:“五反田”
攝影對象信息:“XX”
觸發(fā)器有聲聲音信息:“令人驚奇?。 ?/p>
具有所提取的有聲聲音內(nèi)容作為特定命令信息的計算單元150對包括來自圖像數(shù)據(jù)的內(nèi)容的場景進行指定。例如,通過將特定命令信息設(shè)定為下面的提取條件來執(zhí)行對場景的指定。
時間信息:“剛才”、“吃拉面時”
“剛才”:例如,優(yōu)先考慮直至3小時之前為止,并且如果未找到,則另外對上述時間之前進行搜索
“吃拉面時”:優(yōu)先考慮在出現(xiàn)拉面的幀之前以及之后
位置信息:“五反田”
“五反田”:使用作為位置信息的GPS信息或者通過圖像識別
識別圖像中的建筑物和標示牌,并且優(yōu)先考慮在五反田拍攝的幀
攝影對象信息:“XX”
“XX”:利用面部識別對具有個人XX的場景進行指定
隨后,分析被指定的場景中的幀以提取與觸發(fā)器有聲聲音信息“令人驚奇??!”對應(yīng)的候選并且對在其中具有被預(yù)期為“令人驚奇??!”的對象的單個或多個縮略圖52A至52C進行指定。在本實施方式中,縮略圖52A至52C被顯示在幀檢查窗口500中。然后,當用戶選擇縮略圖并且輸入特定命令“好的”時,計算單元150將幀指定信息添加至與所選的縮略圖對應(yīng)的幀并且記錄該幀。
<4.示例性硬件配置>
最后,將描述根據(jù)實施方式的成像終端100和服務(wù)器200的示例性硬件配置。因為在本文中裝置可以以類似的方式被配置,所以將給出成像終端100的描述作為示例。圖20是示出了根據(jù)實施方式的成像終端100的硬件配置的硬件配置圖。
如上所述,根據(jù)實施方式的成像終端100可以利用處理裝置例如計算機來實現(xiàn)。如圖20所示,成像終端100包括:中央處理單元(CPU)901、只讀存儲器(ROM)902、隨機存取存儲器(RAM)903和主機總線904a。此外,成像終端100包括:橋接器904、外部總線904b、接口905、輸入裝置906、輸出裝置907、存儲裝置908、驅(qū)動器909、連接端口911和通信裝置913。
CPU 901用作運算處理單元和控制器并且根據(jù)各種程序來控制成像終端100中的整體操作。此外,CPU 901可以是微處理器。ROM 902存儲CPU 901使用的程序、操作參數(shù)等。RAM 903暫時地存儲用于CPU 901的執(zhí)行的程序以及在執(zhí)行期間適當?shù)馗淖兊膮?shù)等。上述裝置與由CPU總線構(gòu)成的主機總線904a互連。
主機總線904a通過橋接器904連接至外部總線904b例如外圍部件互連/接口(PCI)總線。注意,主機總線904a、橋接器904和外部總線904b不需要分別地被配置,并且主機總線904a、橋接器904和外部總線904b的功能可以在單條總線中被實現(xiàn)。
輸入裝置906包括用于由用戶輸入信息的輸入裝置和輸入控制電路,其中,輸入裝置例如為鼠標、鍵盤、觸摸面板、按鈕、麥克風(fēng)、開關(guān)和控制桿,該輸入控制電路基于由用戶執(zhí)行的輸入來生成輸入信號并且將輸入信號輸出至CPU 901。輸出裝置907例如包括顯示裝置例如液晶顯示(LCD)裝置、有機發(fā)光二極管(OLED)裝置或照射器以及語音輸出裝置例如揚聲器。
存儲裝置908是成像終端100的存儲單元的示例并且是用于存儲數(shù)據(jù)的裝置。存儲裝置908可以包括:記錄介質(zhì)、將數(shù)據(jù)記錄在記錄介質(zhì)中的記錄裝置、從記錄介質(zhì)中讀出數(shù)據(jù)的讀出裝置以及刪除被記錄在記錄介質(zhì)中的數(shù)據(jù)的刪除裝置。存儲裝置908驅(qū)動硬盤并且將CPU 901執(zhí)行的程序和各種類型的數(shù)據(jù)存儲在存儲裝置908中。
驅(qū)動器909是針對記錄介質(zhì)的讀取器/寫入器,并且被內(nèi)置在成像終端100中或者外部地被附接至成像終端100。驅(qū)動器909讀出被記錄在安裝至驅(qū)動器909的磁盤、光盤或磁光盤或者可移除存儲介質(zhì)例如半導(dǎo)體存儲器中的信息,并且將該信息輸出至RAM 903。
連接端口911是連接至外部裝置的接口并且是用于連接外部裝置的端口,該外部裝置能夠通過例如通用串行總線(USB)進行數(shù)據(jù)傳輸。此外,通信裝置913是由例如用于連接至通信網(wǎng)絡(luò)的通信裝置等構(gòu)成的通信接口。此外,通信裝置913可以是與局域網(wǎng)(LAN)對應(yīng)的通信裝置、與無線USB對應(yīng)的通信裝置或通過導(dǎo)線進行通信的有線通信裝置。
本領(lǐng)域技術(shù)人員應(yīng)當理解的是,只要在所附權(quán)利要求或所附權(quán)利要求的等同物的范圍內(nèi),則可以取決于設(shè)計要求和其他因素進行各種修改、組合、子組合和改變。
例如,雖然在上述實施方式中,在成像終端100中執(zhí)行對圖像數(shù)據(jù)的分析處理和對幀指定信息的添加處理,但本技術(shù)不限于這樣的示例,并且可以在服務(wù)器200側(cè)執(zhí)行分析處理和添加處理。在這樣的情況下,當由成像終端100獲取圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)時,以預(yù)定的定時將數(shù)據(jù)傳輸至服務(wù)器200。數(shù)據(jù)傳輸?shù)亩〞r可以是例如當成像終端100通過用戶操作連接至服務(wù)器200時或者可以是預(yù)定的時間間隔??商孢x地,可以實時地將數(shù)據(jù)從成像終端100傳輸至服務(wù)器200。當服務(wù)器200接收圖像數(shù)據(jù)和有聲聲音數(shù)據(jù)時,控制器220命令計算單元230執(zhí)行將特定幀信息添加至圖像數(shù)據(jù)的處理。
此外,在上述實施方式中,基于輸入的有聲聲音來設(shè)定特定命令信息;然而,例如,當不允許通過有聲聲音輸入時,可以允許使用顯示在顯示裝置上的GUI來設(shè)定特定命令信息。例如,如圖21所示,具有與時間信息、位置信息、個人信息相關(guān)聯(lián)的固定形式的選擇標記(selection tab)610、620和630可以被顯示成使得用戶可以選擇性地設(shè)定特定命令信息。例如,在時間選擇標記610的情況下,存在“一小時之前”的標記611、“30分鐘之前”的標記612、“10分鐘之前”的標記613、“五分鐘之前”的標記614以及“一分鐘之前”的標記615。用戶選擇任一標記并且設(shè)定與時間有關(guān)的特定命令信息。
使用這樣的GUI的設(shè)定可以單獨地用于設(shè)定特定命令信息,以及可以用作對有聲聲音命令的輔助例如有聲聲音命令之前命令大的幀例如時間和位置以及在有聲聲音命令之后對候選場景的展示(例如,展示多個縮略圖等)。
此外,在上述實施方式中,未特別地提及在添加幀指定信息之后對圖像數(shù)據(jù)的處理;然而,例如,當在拍攝運動圖像之后已經(jīng)過去預(yù)定時間時,可以刪除除了與幀指定信息對應(yīng)的幀以外的幀或者在與幀指定信息對應(yīng)的幀之前或之后的預(yù)定時間內(nèi)的幀。
此外,本說明書中所描述的效果僅是說明性的和示范性的,并且不是限制性的。換言之,連同基于本說明書的效果或替代基于本說明書的效果,根據(jù)本公開內(nèi)容的技術(shù)可以呈現(xiàn)出對于本領(lǐng)域技術(shù)人員而言明顯的其他效果。
此外,本技術(shù)還可以如下地配置。
(1)
一種信息處理器,包括:
電路,所述電路被配置成:
響應(yīng)于用戶的可聽見的聲音輸入來識別運動圖像的部分,
其中,通過附接至所述用戶的成像單元的捕獲來生成所述運動圖像。
(2)
根據(jù)(1)所述的信息處理器,其中,
所述電路還被配置成基于命令信息,識別所述運動圖像的所述部分,以及
基于所述可聽見的聲音確定所述命令信息。
(3)
根據(jù)(1)或(2)所述的信息處理器,其中,
通過分析已經(jīng)輸入的所述可聽見的聲音來確定所述命令信息。
(4)
根據(jù)(1)至(3)中任一項所述的信息處理器,其中,
所述可聽見的聲音是與所述運動圖像的獲取一起被獲取的被發(fā)出的聲音。
(5)
根據(jù)(1)至(4)中任一項所述的信息處理器,其中,
所述可聽見的聲音是有聲命令。
(6)
根據(jù)(1)至(5)中任一項所述的信息處理器,其中,
所述命令信息包括預(yù)設(shè)的特定命令。
(7)
根據(jù)(1)至(6)中任一項所述的信息處理器,其中,
所述命令信息包括時間信息。
(8)根據(jù)(1)至(7)中任一項所述的信息處理器,其中,
所述命令信息包括位置信息。
(9)
根據(jù)(1)至(8)中任一項所述的信息處理器,其中,
所述電路還被配置成分析所述運動圖像的部分中的每個部分與所述命令信息之間的相關(guān)性。
(10)
根據(jù)(1)至(9)中任一項所述的信息處理器,其中,
所述電路還被配置成識別所述相關(guān)性高于預(yù)定相關(guān)性時所述運動圖像的所述部分。
(11)
根據(jù)(1)至(10)中任一項所述的信息處理器,其中,
通過使用被添加至所述運動圖像的附加信息并且基于與所述命令信息的相關(guān)性,識別所述運動圖像的所述部分。
(12)
根據(jù)(1)至(11)中任一項所述的信息處理器,其中,
所述附加信息包括已獲取所述運動圖像時的位置信息、與預(yù)先登記的面部圖像匹配的個人信息以及場景信息中至少之一。
(13)
根據(jù)(1)至(12)中任一項所述的信息處理器,其中,
所述電路基于作為對所述運動圖像執(zhí)行機器學(xué)習(xí)的結(jié)果而獲得的估計信息,識別所述運動圖像的與所述命令信息相關(guān)的所述部分。
(14)
根據(jù)(1)至(13)中任一項所述的信息處理器,其中,
所述電路還被配置成從所述運動圖像中提取所識別的部分。
(15)
根據(jù)(1)至(14)中任一項所述的信息處理器,其中,
所述電路還被配置成基于命令信息,發(fā)起對所述運動圖像的被提取的部分的顯示。
(16)
根據(jù)(1)至(15)中任一項所述的信息處理器,其中,
所述電路還被配置成發(fā)起對以下信息的顯示:所述信息指示所述運動圖像的被提取的部分與基于所述可聽見的聲音的信息之間的相關(guān)性。
(17)
根據(jù)(1)至(16)中任一項所述的信息處理器,其中,
所述電路還被配置成基于與所述用戶的動作有關(guān)的活動信息,識別所述運動圖像的被提取的部分。
(18)
根據(jù)(1)至(17)中任一項所述的信息處理器,其中,所述信息處理器還包括所述成像單元。
(19)
根據(jù)(1)至(18)中任一項所述的信息處理器,其中,
所述電路還被配置成發(fā)起以下信息和指定信息一起在存儲單元中的記錄:所述信息指示所述運動圖像的部分中的每個部分與所述命令信息之間的相關(guān)性的程度。
(20)
根據(jù)(1)至(19)中任一項所述的信息處理器,其中,
所識別的部分與所述運動圖像的一個或更多個幀相關(guān)。
(21)
根據(jù)(1)至(20)中任一項所述的信息處理器,其中,
所述可聽見的聲音是由所述用戶給出的語音命令。
(22)
根據(jù)(1)至(21)中任一項所述的信息處理器,其中,
所述運動圖像是視頻。
(23)
根據(jù)(1)至(22)中任一項所述的信息處理器,其中,
通過附接至所述用戶的攝像機裝置的捕獲來生成所述運動圖像。
(24)
根據(jù)(1)至(23)中任一項所述的信息處理器,其中,
所述可聽見的聲音是包括以下信息的語音輸入:所述信息與包括在所述運動圖像中的圖像的內(nèi)容或?qū)ο笥嘘P(guān)。
(25)
根據(jù)(1)至(24)中任一項所述的信息處理器,其中,
所述電路還被配置成基于所述可聽見的聲音,識別記錄的結(jié)束點。
(26)
根據(jù)(1)至(25)中任一項所述的信息處理器,其中,
所述電路還被配置成發(fā)起以下指定信息到存儲單元的存儲:所述指定信息指定所述運動圖像的響應(yīng)于所述可聽見的聲音被識別的部分。
(27)
根據(jù)(1)至(26)中任一項所述的信息處理器,其中,
所述成像單元被附加至所述用戶。
(28)
一種信息處理方法,包括:
通過附接至用戶的成像單元的捕獲來生成運動圖像;以及
響應(yīng)于所述用戶的可聽見的聲音輸入,識別所述運動圖像的部分。
(29)
一種其上包含有程序的非暫態(tài)計算機可讀介質(zhì),所述程序在被計算機執(zhí)行時使所述計算機執(zhí)行下述方法,所述方法包括:
通過附接至用戶的成像單元的捕獲來生成運動圖像;以及
響應(yīng)于所述用戶的可聽見的聲音輸入,識別所述運動圖像的部分。
(30)
一種信息處理器,包括:
處理單元,所述處理單元被配置成基于根據(jù)已經(jīng)輸入的有聲聲音設(shè)定的特定命令信息來提取運動圖像的單個幀或多個幀,并且被配置成使存儲單元存儲幀指定信息,所述幀指定信息指定被提取的所述單個幀或所述多個幀。
(31)
根據(jù)(30)所述的信息處理器,其中,
所述特定命令信息通過分析已經(jīng)輸入的有聲聲音來設(shè)定。
(32)
根據(jù)(31)所述的信息處理器,其中,
所述有聲聲音是與所述運動圖像的獲取一起被獲取的有聲聲音。
(33)
根據(jù)(30)至(32)中任一項所述的信息處理器,其中,
所述特定命令信息是預(yù)設(shè)的特定命令。
(34)
根據(jù)(30)至(33)中任一項所述的信息處理器,其中,
所述特定命令信息包括時間信息。
(35)
根據(jù)(30)至(34)中任一項所述的信息處理器,其中,
所述處理單元分析所述運動圖像的所述單個幀或所述多個幀中的每個幀與所述特定命令信息之間的相關(guān)性。
(36)
根據(jù)(35)所述的信息處理器,其中,
所述處理單元提取所述相關(guān)性高于預(yù)定相關(guān)性時的所述單個幀或所述多個幀。
(37)
根據(jù)(35)所述的信息處理器,其中,
所述處理單元使用被添加至所述運動圖像的附加信息,從所述運動圖像中提取與所述特定命令信息相關(guān)的單個幀或多個幀。
(38)
根據(jù)(37)所述的信息處理器,其中,
所述附加信息包括:已獲取所述運動圖像時的位置信息、與預(yù)先登記的面部圖像匹配的個人信息以及場景信息中的至少之一。
(39)
根據(jù)(35)所述的信息處理器,其中,
所述處理單元基于作為對所述運動圖像執(zhí)行機器學(xué)習(xí)的結(jié)果獲得的估計信息,從所述運動圖像中提取與所述特定命令信息相關(guān)的單個幀或多個幀。
(40)
根據(jù)(30)至(39)中任一項所述的信息處理器,其中,
所述處理單元將基于所述特定命令信息提取的單個幀或多個幀顯示在顯示裝置上。
(41)
根據(jù)(30)至(40)中任一項所述的信息處理器,還包括:
成像單元,所述成像單元被配置成獲取運動圖像。
(42)
根據(jù)(30)至(41)中任一項所述的信息處理器,其中,
所述處理單元使所述存儲單元記錄以下信息和所述幀指定信息:所述信息指示所述運動圖像的所述單個幀或所述多個幀中的每個幀與所述特定命令信息之間的相關(guān)性的程度的。
(43)
根據(jù)(30)至(42)中任一項所述的信息處理器,其中,
所述處理單元在所述顯示裝置上呈現(xiàn)被提取的所述單個幀或所述多個幀以作為候選幀。
(44)
一種信息處理方法,包括:
基于根據(jù)已經(jīng)輸入的有聲聲音設(shè)定的特定命令信息來提取運動圖像的單個幀或多個幀,以及使存儲單元存儲幀指定信息,所述幀指定信息指定已經(jīng)提取的所述單個幀或所述多個幀。
(45)
一種用于使得計算機執(zhí)行以下處理的程序:
基于根據(jù)已經(jīng)輸入的有聲聲音設(shè)定的特定命令信息來提取運動圖像的單個幀或多個幀,以及使存儲單元存儲幀指定信息,所述幀指定信息指定已經(jīng)提取的所述單個幀或所述多個幀。
附圖標記列表
100 成像終端
110 成像單元
120 有聲聲音獲取單元
130 顯示裝置
140,220 控制器
150,230 計算單元
152 特定命令信息提取單元
154 幀提取單元
156 幀指定信息添加單元
160,210 通信單元
170,240 存儲單元
180 電池
200 服務(wù)器