亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息處理裝置和信息處理方法與流程

文檔序號:12696191閱讀:193來源:國知局
信息處理裝置和信息處理方法與流程

本發(fā)明涉及一種信息處理裝置和信息處理方法。



背景技術(shù):

迄今為止,用于聲音檢測和語音識別的技術(shù)被應(yīng)用于各種領(lǐng)域并且正在被使用。例如,已經(jīng)提出了作為控制接口的應(yīng)用,例如,移動電話、個人計算機(PC)或汽車導(dǎo)航系統(tǒng)。日本特開2014-137323號公報描述了一種異常診斷裝置,其被構(gòu)造為,根據(jù)對象物的圖像和收集到的聲壓信號計算分布并將聲壓圖(sound pressure map)疊加在圖像上,以診斷異常區(qū)域。

然而,在諸如語音識別等的技術(shù)中,需要適當?shù)貙嵤┲T如收集聲音的麥克風(fēng)的音量增益等的設(shè)置,并且,用戶需要調(diào)整麥克風(fēng)的設(shè)置。例如,在用戶期望在特定區(qū)域中進行語音識別的情況下,用戶需要提取該區(qū)域的代表點,并且在代表點處生成測試聲音,以進行諸如音量增益等的設(shè)置。即使當進行上述調(diào)整時,用戶期望進行語音識別的區(qū)域也可能會偏離實際上能夠進行適當語音識別的區(qū)域,結(jié)果是,在一些情況下不能獲得用戶期待的語音識別的精度等。



技術(shù)實現(xiàn)要素:

為了支持用于進行用戶的聲音檢測處理的設(shè)置操作,例如,一種信息處理裝置包括以下結(jié)構(gòu)。

也就是說,根據(jù)本發(fā)明的一個方面的一種信息處理裝置包括:獲得單元,其被構(gòu)造為獲得由攝像單元拍攝的圖像;檢測單元,其被構(gòu)造為根據(jù)由聲音收集單元獲得的音頻數(shù)據(jù)檢測與檢測目標相對應(yīng)的目標聲音;區(qū)域估計單元,其被構(gòu)造為基于所述聲音收集單元的方向性和與產(chǎn)生目標聲音的目標聲源的位置相距的距離中的至少一者,估計由拍攝圖像表示的區(qū)域中的能夠檢測到所述目標聲音的可檢測區(qū)域;以及生成單元,其被構(gòu)造為生成表示所述可檢測區(qū)域的區(qū)域圖像。

根據(jù)下面參照附圖對示例性實施例的描述,本發(fā)明的其他的特征將變得清楚。

附圖說明

圖1示出監(jiān)視系統(tǒng)的硬件結(jié)構(gòu)。

圖2示出信息處理裝置的軟件結(jié)構(gòu)。

圖3A和圖3B是用于描述坐標系的說明圖。

圖4是用于描述特性信息和安裝信息的說明圖。

圖5是示出檢測異常聲音的設(shè)置處理的流程圖。

圖6A至圖6C示出顯示畫面的示例。

圖7示出根據(jù)變形例的監(jiān)視系統(tǒng)。

圖8示出根據(jù)第二示例性實施例的信息處理裝置的軟件結(jié)構(gòu)。

圖9是示出級別比估計值梯度估計處理的流程圖。

圖10示出根據(jù)第三示例性實施例的信息處理裝置的軟件結(jié)構(gòu)。

圖11示出區(qū)域圖像的示例。

圖12A至圖12C是用于更詳細地描述可檢測區(qū)域的說明圖。

圖13A和圖13B示出可檢測區(qū)域的其它顯示示例。

具體實施方式

在下文中,將參照附圖描述本發(fā)明的示例性實施例。

第一示例性實施例

圖1示出根據(jù)第一示例性實施例的監(jiān)視系統(tǒng)100的硬件結(jié)構(gòu)。監(jiān)視系統(tǒng)100是被構(gòu)造為進行監(jiān)視以便檢測異常聲音的系統(tǒng)。在監(jiān)視區(qū)域中產(chǎn)生諸如尖叫或吼叫的異常聲音的情況下,監(jiān)視系統(tǒng)100將該聲音檢測為異常聲音,并向諸如監(jiān)視代理的用戶通知該事件。監(jiān)視系統(tǒng)100包括與攝像裝置的示例相對應(yīng)的照相機110、以及信息處理裝置120。

照相機110拍攝監(jiān)視區(qū)域的視頻,并將該視頻發(fā)送到信息處理裝置120。照相機110還收集聲音并將音頻數(shù)據(jù)發(fā)送到信息處理裝置120。信息處理裝置120顯示接收到的視頻。另外,信息處理裝置120根據(jù)音頻數(shù)據(jù)確定異常聲音的存在或不存在。在產(chǎn)生了異常聲音的情況下,信息處理裝置120進行通知用戶產(chǎn)生了異常聲音的處理。信息處理裝置120還估計可以進行異常聲音的檢測的區(qū)域,并將估計的可檢測區(qū)域疊加在要顯示的視頻上。

照相機110包括攝像單元111、圖像處理單元112、麥克風(fēng)113、CPU 114、ROM 115、RAM 116和通信單元117。攝像單元111包括由被構(gòu)造為將光學(xué)圖像轉(zhuǎn)換為電信號的CCD或CMOS元件構(gòu)成的圖像拾取元件、透鏡組、快門等,并且拍攝監(jiān)視區(qū)域的視頻。圖像處理單元112進行諸如像素插值處理或顏色轉(zhuǎn)換處理的圖像處理。麥克風(fēng)113包括放大電路和控制單元,并且收集環(huán)境聲音。

CPU 114讀出存儲在ROM 115中的控制程序,并執(zhí)行各種處理。RAM 116用作臨時存儲區(qū)域,例如,CPU 114的主存儲器或工作區(qū)域。應(yīng)當注意,當CPU 114讀出存儲在ROM 115中的程序并執(zhí)行該程序時,實現(xiàn)將在下面描述的照相機110的功能和處理。通信單元117經(jīng)由網(wǎng)絡(luò)與諸如信息處理裝置120等的外部裝置進行通信。

信息處理裝置120包括CPU 121、ROM 122、RAM 123、HDD 124、顯示單元125、輸入單元126和通信單元127。CPU 121、ROM 122、RAM 123和通信單元127分別類似于CPU 114、ROM 115、RAM 116和通信單元117。HDD 124存儲諸如圖像數(shù)據(jù)和各種程序等的各種信息。顯示單元125顯示各種信息。輸入單元126包括鍵盤和鼠標并且接受用戶的各種操作。

圖2示出信息處理裝置120的軟件結(jié)構(gòu)。通信處理單元200控制與外部裝置的通信。通信處理單元200從照相機110接收例如音頻數(shù)據(jù)、視頻數(shù)據(jù)和攝像信息。攝像信息包括搖攝角、傾斜角和視角。特征量提取單元201(檢測單元)基于從照相機110輸入的音頻數(shù)據(jù)來提取聲音的特征量。這里,將聲音的基本頻率、共振峰頻率、頻譜、根據(jù)倒譜獲得的梅爾頻率倒譜系數(shù)(MFCC)、零交叉、子帶能量等表示為特征量。關(guān)于各個聲學(xué)模型的各個特征量的概率分布被登記在特征量數(shù)據(jù)庫(DB)202中。這里,聲學(xué)模型是通過對與目標聲音相對應(yīng)的尖叫、吼叫、其它背景聲音(例如商店的環(huán)境聲音)等進行學(xué)習(xí)和建模而獲得的。

似然度計算單元203計算輸入音頻數(shù)據(jù)的特征量向量相對于在特征量DB 202中登記的各個聲學(xué)模型的各個特征量向量的似然度。隨后,似然度計算單元203將包括檢測結(jié)果的模型候選的N最佳結(jié)果和似然度計算的得分發(fā)送到異常聲音確定單元204。異常聲音確定單元204選擇在似然度計算單元203中獲得的最高候選(top candidate)作為檢測結(jié)果。在所選擇的候選是被登記為異常聲音的聲音并且其得分超過預(yù)定閾值的情況下,異常聲音判斷單元204確定發(fā)生了異常,并將表示發(fā)生了異常的事件發(fā)送到顯示處理單元205(顯示控制單元)。顯示處理單元205顯示各種信息。當顯示處理單元205接收到事件時,例如,顯示處理單元205為用戶在顯示單元125上顯示表示發(fā)生了異常的信息。

麥克風(fēng)數(shù)據(jù)庫(DB)206存儲表示照相機110的麥克風(fēng)113(聲音收集單元)的靈敏度方向性的特性信息和與麥克風(fēng)113的安裝位置相關(guān)的安裝信息。特性信息是在如下情況下以1度為單位表示各個位置的相對靈敏度值的信息:在原點被設(shè)置于麥克風(fēng)113的中心上的三維球面坐標系中,對于關(guān)于垂直軸的傾斜角θ和在水平面內(nèi)的傾斜角的最高靈敏度被設(shè)置為1。通常,笛卡爾坐標系和三維極坐標系之間的比例因子關(guān)系由式(1)表示。

圖3A示出三維笛卡爾坐標系和三維極坐標系之間的關(guān)系。如圖3B所示,特性信息的θ和對應(yīng)于這樣的坐標系,其中,將具有最佳靈敏度特性的平面設(shè)置為xy平面,并且將平面中具有最佳靈敏度特性的方向設(shè)置為x軸。在下文中,將該坐標系稱為麥克風(fēng)相對坐標系。這里,圖3B中右側(cè)的圖中的虛線圓D1_1是其中相對靈敏度值為作為最大值的1的圓,并且,閉合曲線D1_2表示在由傾斜角θ=θ0切割的平面上的相對麥克風(fēng)靈敏度值。如圖4所示,參照圖3B描述的相對麥克風(fēng)靈敏度值作為麥克風(fēng)的特性信息登記在麥克風(fēng)DB 206中。

另一方面,這樣定義笛卡爾坐標系,其中,攝像單元111的中心位于原點,照相機110的光軸被設(shè)置為x軸,在平行于攝像平面的平面中垂直于x軸的軸被設(shè)置為y軸,并且,垂直于上述x軸和y軸的軸被設(shè)置為z軸。在下文中,將該坐標系稱為照相機絕對坐標系。麥克風(fēng)113的安裝信息包括如從照相機絕對坐標系觀看的麥克風(fēng)相對坐標系的原點的位置和麥克風(fēng)相對坐標系中的x軸、y軸和z軸的方向上的單位向量。因此,在使用安裝信息的同時,可以實現(xiàn)從麥克風(fēng)相對坐標系到照相機絕對坐標系的變換。

根據(jù)本示例性實施例,麥克風(fēng)113內(nèi)置在照相機110中,并且,將麥克風(fēng)113的安裝信息和特性信息預(yù)先登記在麥克風(fēng)DB 206中。然而,應(yīng)當注意,代替麥克風(fēng)113,可以使用外部麥克風(fēng)來檢測異常聲音。在這種情況下,輸入單元126接受該外部麥克風(fēng)的安裝信息和特性信息的用戶輸入,并且CPU 121將該外部麥克風(fēng)的安裝信息和特性信息登記在麥克風(fēng)DB 206中。

將再次參照圖2給出描述。檢測概率數(shù)據(jù)庫(DB)207(存儲單元)存儲聲壓與檢測概率相關(guān)聯(lián)的對應(yīng)表。這里,聲壓是在預(yù)定聲源中產(chǎn)生的聲音的聲壓。根據(jù)本示例性實施例,聲壓是來自位于與麥克風(fēng)113相距10m遠的位置處的聲源的聲音的聲壓。檢測概率是在檢測相應(yīng)聲壓的聲音的嘗試次數(shù)中的成功檢測的比率。應(yīng)當注意,隨著聲壓越高,檢測概率越高。因此,更高的檢測概率與更高的聲壓相關(guān)聯(lián)。

聲壓估計單元208經(jīng)由通信處理單元200從照相機110獲得視頻數(shù)據(jù)(拍攝圖像)。聲壓估計單元208還經(jīng)由通信處理單元200從照相機110獲得攝像信息,并且還從麥克風(fēng)DB 206獲得麥克風(fēng)113的特性信息和設(shè)置信息。聲壓估計單元208基于這些信息來計算拍攝圖像中的各點的聲壓估計值。在下文中,將各點的聲壓估計值的集合稱為聲壓估計值梯度。下面將詳細描述聲壓估計單元208的處理。

轉(zhuǎn)換單元209參照檢測概率DB 207,并且,將由聲壓估計單元208獲得的各點的聲壓估計值轉(zhuǎn)換為檢測概率。區(qū)域估計單元210將檢測概率高于或等于閾值的區(qū)域估計為異常聲音的可檢測區(qū)域。區(qū)域圖像生成單元211(生成單元)生成表示可檢測區(qū)域的區(qū)域圖像。應(yīng)當注意,區(qū)域圖像由顯示處理單元205疊加在視頻數(shù)據(jù)上并顯示在顯示單元125上。接受單元212接受經(jīng)由輸入單元126從用戶輸入的指令。

圖5是示出由信息處理裝置120進行的異常聲音檢測的設(shè)置處理的流程圖。在S501中,聲壓估計單元208經(jīng)由通信處理單元200獲得拍攝圖像(由獲得單元進行的獲得處理)。接下來,在S502中,聲壓估計單元208計算聲壓估計值梯度。這里,聲壓估計值梯度是拍攝圖像中的各點的聲壓估計值的集合。聲壓估計單元208獲得照相機絕對坐標中的光軸的取向和攝像視角作為攝像信息。然后,聲壓估計單元208基于照相機絕對坐標中的光軸的取向、攝像視角和麥克風(fēng)113的安裝信息,將攝像視角變換為照相機絕對坐標系中的坐標值(x,y)。具體地,聲壓估計單元208通過式(2)進行坐標變換。應(yīng)該注意,l表示焦距。

此外,聲壓估計單元208基于麥克風(fēng)113的安裝信息將照相機絕對坐標系中的坐標值變換為麥克風(fēng)相對坐標系中的坐標值。隨后,聲壓估計單元208參照麥克風(fēng)113的特性信息,并且在如下情況下計算拍攝圖像中的各點的聲壓估計值:在預(yù)定方向上與麥克風(fēng)113相距10m遠的位置處產(chǎn)生聲壓為85dB[SPL(sound pressure level,聲壓級)]的聲音。這里,拍攝圖像中的各點是與麥克風(fēng)113相距10m遠的多個位置。本處理是對拍攝圖像中的與麥克風(fēng)113相距預(yù)定距離的區(qū)域中的多個位置處的聲壓進行估計的聲壓估計處理的示例。聲壓估計單元208將各點的坐標處的聲壓估計值彼此相關(guān)聯(lián)以記錄在HDD 124等中。應(yīng)當注意,麥克風(fēng)113的位置和聲壓不限于例舉的實施例。

接著,在S503中,轉(zhuǎn)換單元209參照檢測概率DB 207,并將在S502中獲得的各聲壓估計值轉(zhuǎn)換為檢測概率(轉(zhuǎn)換處理)。接下來,在S504中,區(qū)域估計單元210估計可檢測區(qū)域(區(qū)域估計處理)。具體地,區(qū)域估計單元210將檢測概率高于或等于閾值的區(qū)域估計為可檢測區(qū)域。根據(jù)本示例性實施例,閾值被設(shè)置為90%,但是,對閾值沒有特別的限制。

接下來,在S505中,區(qū)域圖像生成單元211生成表示可檢測區(qū)域的區(qū)域圖像(生成處理)。區(qū)域圖像生成單元211生成例如以黃色著色的可檢測區(qū)域的圖像作為區(qū)域圖像。接下來,在S506中,顯示處理單元205將區(qū)域圖像疊加在視頻數(shù)據(jù)上,并將其顯示在顯示單元125上(顯示控制處理)。顯示處理單元205生成區(qū)域圖像例如以α=0.3的比率進行了α混合的疊加圖像,并將該圖像顯示在顯示單元125上。

圖6A示出在S506中在顯示單元125上顯示的顯示畫面600的示例。顯示畫面600顯示疊加圖像610以及操作條621和622。在疊加圖像610上顯示表示可檢測區(qū)域的邊界線613。在邊界線613的外側(cè)顯示視頻數(shù)據(jù)(拍攝圖像)612。區(qū)域圖像疊加在邊界線613的內(nèi)側(cè)上的視頻數(shù)據(jù)612上。也就是說,在邊界線613的內(nèi)側(cè)示出的區(qū)域是當在與麥克風(fēng)113相距10m遠的距離處產(chǎn)生85dB[SPL(聲壓級)]的異常聲音時以90%的概率可檢測到異常聲音的區(qū)域。用戶通過視覺檢查疊加圖像610,使得可以檢查與異常聲音的檢測目標相對應(yīng)的區(qū)域是否被包括在可檢測區(qū)域中。

操作條621是用于輸入與麥克風(fēng)113相距的距離(投影距離)的用戶界面,并且,操作條622是用于輸入用于估計可檢測區(qū)域的檢測概率的閾值的用戶界面。當調(diào)整操作條621和622的按鈕時,用戶可以向信息處理裝置120輸入投影距離和檢測概率的閾值的改變指令。

表示可檢測區(qū)域的邊界線613根據(jù)變焦倍率而改變。圖12A示出變焦倍率為遠攝時的狀態(tài),并且,圖12B示出變焦倍率為廣角時的狀態(tài)。這里,將遠攝時的變焦倍率設(shè)置為Z1,并將廣角時的變焦倍率設(shè)置為Z2。如圖12C所示,可以通過包括x'=x×(Z1/Z2)和y'=y(tǒng)×(Z1/Z2)的兩個式子變換廣角時的邊界線613中的各個坐標(x,y)來獲得遠攝時的邊界線中的各個坐標值(x',y')。

將再次參照圖5給出描述。在S506中的處理之后,CPU 121使處理進入S507。在S507中,聲壓估計單元208檢查攝像信息是否改變。在攝像信息改變的情況下(S507:是),聲壓估計單元208使處理進入S501。在攝像信息沒有改變的情況下(S507:否),聲壓估計單元208使處理進入S508。在S508中,接受單元212檢查是否接受了投影距離的改變指令(接受處理)。在接受投影距離的改變指令的情況下(S508:是),接受單元212使處理進入S509。在沒有接受投影距離的改變指令的情況下(S508:否),接受單元212使處理進入S511。

在S509中,區(qū)域估計單元210基于與改變指令相關(guān)的投影距離來改變可檢測區(qū)域。根據(jù)本示例性實施例,接受單元212通過式(3)將可檢測區(qū)域的邊界線的坐標(x,y)變換為坐標(x',y')。也就是說,坐標(x',y')是變換后的坐標。另外,z表示改變之后的距離。

接下來,在S510中,區(qū)域圖像生成單元211生成表示改變之后的可檢測區(qū)域的區(qū)域圖像。本處理類似于S505中的處理。此后,CPU 121使處理進入S506。

在S511中,接受單元212檢查是否接受了檢測概率的閾值的改變指令(接受處理)。在接受閾值的改變指令的情況下(S511:是),接受單元212使處理進入S512。在沒有接受閾值的改變指令的情況下(S511:否),接受單元212使處理進入S514。在S512中,區(qū)域圖像生成單元211基于與改變指令相關(guān)的閾值來改變可檢測區(qū)域。接下來,在S513中,區(qū)域估計單元210生成表示改變之后的可檢測區(qū)域的區(qū)域圖像。本處理類似于S505中的處理。此后,CPU 121使處理進入S506。在S514中,接受單元212檢查是否接受了根據(jù)用戶輸入的結(jié)束指令。在接受結(jié)束指令的情況下(S514:是),接受單元212結(jié)束處理。在沒有接受結(jié)束指令的情況下(S514:否),接受單元212使處理進入S507。

圖6B示出在投影距離改變?yōu)殚L于10m的距離的情況下的疊加圖像610。在圖6B的示例中,可檢測區(qū)域變小。圖6C示出在檢測概率的閾值改變?yōu)檩^低值的情況下的疊加圖像610。在圖6C的示例中,可檢測區(qū)域613變大。以這種方式,根據(jù)本示例性實施例的信息處理裝置120可以根據(jù)檢測概率的閾值和投影距離來顯示可檢測區(qū)域。

根據(jù)本示例性實施例,由于監(jiān)視系統(tǒng)100如上所述顯示可檢測區(qū)域,因此可以簡化用戶的設(shè)置操作并減少設(shè)置錯誤。此外,由于用戶可以在進行了適當?shù)脑O(shè)置之后進行異常聲音檢測,所以可以提高異常聲音檢測的檢測精度。

作為第一示例性實施例的第一變形例,與信息處理裝置120的檢測目標相對應(yīng)的目標聲音不限于異常聲音。目標聲音可以是具有預(yù)定頻率的聲音。另外,目標聲音可以是特定詞或短語被可聽地識別的這樣的聲音。也就是說,在這種情況下,在信息處理裝置120通過語音識別檢測到特定詞或短語時就足夠了。

作為第二變形例中,區(qū)域估計單元210可設(shè)置多個檢測概率作為閾值,例如,90%的檢測概率,80%的檢測概率和60%檢測概率,并且,區(qū)域估計單元210可估計對應(yīng)于各個閾值的多個可檢測區(qū)域。另外,區(qū)域圖像生成單元211可生成表示可檢測區(qū)域的多個區(qū)域圖像。

作為第三變形例中,表示可檢測區(qū)域的區(qū)域圖像并不限于示例性實施例。例如,區(qū)域圖像可以是三維地表示可檢測區(qū)域的圖像。

作為第四變形例中,信息處理裝置120的處理可以通過多個裝置來執(zhí)行。例如,信息處理裝置120的處理可以由圖7所示的管理裝置700和客戶端裝置710執(zhí)行。應(yīng)當注意,圖7所示的管理裝置700和客戶端裝置710的硬件結(jié)構(gòu)與參照圖1描述的信息處理裝置120的硬件結(jié)構(gòu)類似。然而,應(yīng)當注意,管理裝置700可以省略顯示單元125。

管理裝置700包括通信處理單元200、特征量提取單元201、特征量DB 202、似然度計算單元203、異常聲音確定單元204、麥克風(fēng)DB 206、檢測概率DB 207、聲壓估計單元208、轉(zhuǎn)換單元209和區(qū)域估計單元210。各個單元的功能類似于根據(jù)第一示例性實施例描述的各個單元的功能。管理裝置700還包括元數(shù)據(jù)生成單元701。根據(jù)本示例性實施例,由異常聲音確定單元204生成的事件被發(fā)送到通信處理單元200。隨后,通信處理單元200(發(fā)送單元)將該事件發(fā)送到客戶端裝置710。

元數(shù)據(jù)生成單元701生成表示由區(qū)域估計單元210估計出的可檢測區(qū)域的元數(shù)據(jù)。具體地,元數(shù)據(jù)生成單元701生成檢測概率高于或等于閾值的坐標組作為元數(shù)據(jù)。隨后,通信處理單元200將該元數(shù)據(jù)發(fā)送到客戶端裝置710。

客戶端裝置710包括通信處理單元711、顯示處理單元712、區(qū)域圖像生成單元713和接受單元714。通信處理單元711控制與外部裝置的通信。例如,通信處理單元711從管理裝置700接收視頻數(shù)據(jù)、上述元數(shù)據(jù)、事件等。區(qū)域圖像生成單元713基于元數(shù)據(jù)生成區(qū)域圖像。這里生成的區(qū)域圖像是與由根據(jù)第一示例性實施例的區(qū)域圖像生成單元211生成的區(qū)域圖像相同的圖像。

顯示處理單元712以如下方式進行控制,將由區(qū)域圖像生成單元713生成的區(qū)域圖像疊加在經(jīng)由通信處理單元711從管理裝置700接收到的視頻數(shù)據(jù)(拍攝圖像)上來顯示。在通信處理單元711接收到事件的情況下,顯示處理單元712基于該事件控制,以顯示表示已經(jīng)產(chǎn)生異常聲音的信息。

與根據(jù)第一示例性實施例的接受單元212中類似,接受單元714接受投影距離的改變指令和檢測概率的改變指令。這些指令經(jīng)由通信處理單元711發(fā)送到管理裝置700。隨后,區(qū)域估計單元210根據(jù)改變指令改變可檢測區(qū)域。然后,元數(shù)據(jù)生成單元701生成表示改變之后的可檢測區(qū)域的元數(shù)據(jù)。生成的元數(shù)據(jù)被發(fā)送到客戶端裝置710。區(qū)域圖像生成單元713生成表示與改變指令相關(guān)的可檢測區(qū)域的區(qū)域圖像,并且,顯示處理單元712顯示包括改變之后的區(qū)域圖像的疊加圖像。

第二示例性實施例

接下來,將描述根據(jù)第二示例性實施例的監(jiān)視系統(tǒng)。在根據(jù)第二示例性實施例的監(jiān)視系統(tǒng)中,信息處理裝置基于由麥克風(fēng)113收集的音頻數(shù)據(jù)生成區(qū)域圖像。在下文中,將描述根據(jù)第二示例性實施例的監(jiān)視系統(tǒng)與根據(jù)第一示例性實施例的監(jiān)視系統(tǒng)100的不同方面。圖8示出根據(jù)第二示例性實施例的信息處理裝置130的軟件結(jié)構(gòu)。信息處理裝置130包括通信處理單元200、特征量提取單元201、特征量DB 202、似然度計算單元203、異常聲音確定單元204和麥克風(fēng)DB 206。信息處理裝置130還包括區(qū)域估計單元210、區(qū)域圖像生成單元211和接受單元212。各個單元的功能類似于根據(jù)第一示例性實施例描述的各個單元的功能。

信息處理裝置130還包括級別計算單元800、平均級別計算單元801、距離估計單元802、級別比估計單元803、檢測概率數(shù)據(jù)庫(DB)804(存儲單元)和轉(zhuǎn)換單元805。根據(jù)本示例性實施例,當確定已經(jīng)產(chǎn)生異常聲音時,異常聲音確定單元204不僅將該事件發(fā)送到顯示處理單元205,而且還將其發(fā)送到平均級別計算單元801和距離估計單元802。級別計算單元800接收音頻數(shù)據(jù)的輸入,并計算音頻數(shù)據(jù)的振幅數(shù)據(jù)的平方和作為聲壓級。

平均級別計算單元801對由級別計算單元800(識別單元)計算出的聲壓級應(yīng)用濾波器以獲得平均級別。然后,平均級別計算單元801存儲該平均級別。具體地,在從異常聲音確定單元204接收到事件通知的情況下,平均級別計算單元801進行目標聲音平均化濾波器(主IIR)的應(yīng)用。具體地,在從異常聲音確定單元204沒有接收到事件通知的情況下,平均級別計算單元801進行背景聲音平均化濾波器(主IIR)的應(yīng)用。這里,例如,目標聲音平均化濾波器的系數(shù)被設(shè)置為0.96,背景聲音平均化濾波器的系數(shù)被設(shè)置為0.96。

距離估計單元802獲得視頻數(shù)據(jù)(拍攝圖像),并將該視頻數(shù)據(jù)與先前存儲在HDD 124等中的聲源圖像進行比較,以識別例如聲源的安裝位置。為了識別聲源,距離估計單元802使用模板匹配。距離估計單元802還控制照相機110。距離估計單元802控制照相機110以拍攝其中聚焦在識別的位置上的圖像,并且根據(jù)此時的攝像條件估計識別的位置和照相機110之間的距離。

級別比估計單元803經(jīng)由通信處理單元200從照相機110獲得視頻數(shù)據(jù)(拍攝圖像)。聲壓估計單元208還經(jīng)由通信處理單元200從照相機110獲得攝像信息,并且還從麥克風(fēng)DB 206獲得麥克風(fēng)113的特性信息和設(shè)置信息。聲壓估計單元208基于這些信息,計算拍攝圖像中的各點處的背景聲音和目標聲音的平均級別的比率的估計值(級別比估計值)。在下文中,將各點的級別比估計值的集合稱為級別比估計值梯度。下面將詳細描述聲壓估計單元208的處理。檢測概率DB 804存儲聲壓的級別比與檢測概率相關(guān)聯(lián)的對應(yīng)表。轉(zhuǎn)換單元805參照檢測概率DB 804,并且,將由級別比估計單元803獲得的各點的級別比估計值轉(zhuǎn)換為檢測概率。

根據(jù)本示例性實施例的信息處理裝置130進行級別比估計值梯度估計處理,而不是根據(jù)第一示例性實施例描述的聲壓估計值梯度估計處理(S502)。圖9是示出級別比估計值梯度估計處理的流程圖。在S901中,級別計算單元800計算音頻數(shù)據(jù)的振幅數(shù)據(jù)的平方和作為聲壓級。本處理是識別聲壓級的識別處理的示例。接下來,在S902中,平均級別計算單元801檢查是否產(chǎn)生異常聲音。在產(chǎn)生異常聲音的情況下(S902:是),平均級別計算單元801使處理進入S903。在沒有產(chǎn)生異常聲音的情況下(S902:否),平均級別計算單元801使處理進入S906。在S903中,距離估計單元802識別目標聲源并估計識別的聲源與照相機110之間的距離。接下來,在S904中,平均級別計算單元801通過使用目標聲音平均化濾波器對被確定為異常聲音(目標聲音)的音頻數(shù)據(jù)的聲壓級進行平均。

接下來,在S905中,級別比估計單元803通過使用在S904中計算出的目標聲音的平均聲壓級和麥克風(fēng)113的特性信息,計算拍攝圖像中的各點處的目標聲音的聲壓級估計值。在下文中,目標聲音的聲壓級估計值將被稱為目標聲級估計值。另外,將各點的目標聲級估計值的集合稱為目標聲級估計值梯度。級別比估計單元803將目標聲級估計值梯度記錄在諸如RAM 123的存儲單元中。具體地,級別比估計單元803基于麥克風(fēng)113的安裝信息將拍攝圖像的各點的坐標變換為照相機絕對坐標系的坐標以進一步變換為麥克風(fēng)相對坐標系的坐標,并估計圖像中的聲壓級梯度。隨后,基于聲壓級梯度,由目標聲音的平均聲壓級計算拍攝圖像中的各個點處的目標聲級估計值。此時,級別比估計單元803在聲源坐標被設(shè)置為(x,y)=(0,0)且聲源距離被設(shè)置為Z的三維空間上切斷Z常數(shù)平面時,計算與畫面中的所有區(qū)域的聲源區(qū)域的距離。

此外,例如,級別比估計單元803基于式(4)估計在與聲源區(qū)域相距該距離的位置處產(chǎn)生目標聲音的情況下的聲壓級。

其中,L表示目標聲級估計值,L0表示目標聲音的平均聲壓級,Z表示離聲源的距離,并且(x,y)表示在聲源坐標被設(shè)置為原點(0,0)的情況下畫面中的坐標。此外,級別比估計單元803在目標聲級估計值上乘以例如Z2/100,以轉(zhuǎn)換成在10m的距離處的聲壓級。級別比估計單元803通過在上述估計的聲壓級上乘以圖像中的聲壓級梯度來計算目標聲音估計值。

另一方面,在S906中,平均級別計算單元801通過使用背景聲音平均化濾波器對被確定為背景聲音的音頻數(shù)據(jù)的聲壓級進行平均。接下來,在S907中,級別比估計單元803通過使用在S1006中計算出的背景聲音的平均聲壓級和麥克風(fēng)113的特性信息,計算拍攝圖像中的各點處的背景聲音的聲壓級估計值。在下文中,背景聲音的聲壓級估計值將被稱為背景聲級估計值。這里,在拍攝圖像中的靈敏度最高的區(qū)域中接收到平均聲壓級的同時,級別比估計單元803計算背景聲級估計值。應(yīng)當注意,級別比估計單元803假設(shè)背景聲音恒定不變且不依賴于距離,并且,使用麥克風(fēng)113的特性信息通過乘以聲壓級梯度來計算背景聲級估計值,而不進行距離相關(guān)計算。在下文中,在各個點處的背景聲級估計值的集合將被稱為背景聲級估計值梯度。例如,平均級別估計單元801將背景聲級估計值梯度記錄在諸如RAM 123的存儲單元中。

接下來,在S908中,級別比估計單元803檢查是否獲得了目標聲級估計值梯度和背景聲級估計值梯度。在獲得目標聲級估計值梯度和背景聲級估計值梯度的情況下(S908:是),級別比估計單元803使處理進入S909。在沒有獲得目標聲級估計值梯度和背景聲級估計值梯度的情況下(S908:否),級別比估計單元803使處理進入S901。也就是說,在S908中,級別比估計單元803待機直到獲得了目標聲級估計值梯度和背景聲級估計值梯度。應(yīng)當注意,在S901至S907被重復(fù)的情況下,如果信息處理裝置130僅進行在處理時尚未獲得的級別估計值梯度的估計則足夠了。另外,作為另一個例子,信息處理裝置130可以再次進行級別估計值梯度的估計,以被新獲得的級別估計值梯度覆蓋。

在S909中,級別比估計單元803計算在各個點處的目標聲級估計值與背景聲級估計值的比率。在下文中,目標聲級估計值與背景聲級估計值的比率將被稱為級別比估計值。另外,將在各點處的級別比估計值的集合稱為級別比估計值梯度。在S909中的處理之后,CPU 121使處理進入S503。應(yīng)當注意,根據(jù)本示例性實施例中,在S503中,轉(zhuǎn)換單元805參照檢測概率DB 804并將在各點處的級別比估計值轉(zhuǎn)換為檢測概率(轉(zhuǎn)換處理)。結(jié)果是,級別比估計值梯度計算處理結(jié)束。應(yīng)當注意,根據(jù)第二示例性實施例的信息處理裝置130的其他結(jié)構(gòu)和處理類似于根據(jù)第一示例性實施例的監(jiān)視系統(tǒng)100的結(jié)構(gòu)和處理。

如上所述,在根據(jù)第二示例性實施例的監(jiān)視系統(tǒng)100中,用戶也通過視覺檢查疊加圖像610,使得可以檢查與異常聲音的檢測目標相對應(yīng)的區(qū)域是否被包含在可檢測區(qū)域中。結(jié)果是,可以簡化用戶的設(shè)置操作和減少設(shè)置錯誤。此外,由于用戶在進行了適當?shù)脑O(shè)置之后進行異常聲音檢測,所以可以提高異常聲音檢測的檢測精度。

將描述第二示例性實施例的變形例。類似地,如根據(jù)第一示例性實施例所述的,信息處理裝置130可基于異常聲音的聲壓估計檢測概率,而不是基于級別比估計值來估計異常聲音。

第三示例性實施例

接下來,將描述根據(jù)第三示例性實施例的監(jiān)視系統(tǒng)。在根據(jù)第三示例性實施例的監(jiān)視系統(tǒng)中,信息處理裝置生成其中可檢測區(qū)域被投影于地面上的區(qū)域圖像。在下文中,將描述根據(jù)第三示例性實施例的監(jiān)視系統(tǒng)與根據(jù)第二示例性實施例的監(jiān)視系統(tǒng)100的不同方面。圖10示出根據(jù)第三示例性實施例的信息處理裝置140的軟件結(jié)構(gòu)。區(qū)域估計單元1000基于檢測概率的多個閾值估計多個可檢測區(qū)域。根據(jù)本示例性實施例中,區(qū)域估計單元1000估計4個可檢測區(qū)域。具體地,區(qū)域估計單元1000使用對于在目標聲源中產(chǎn)生的參照聲音的檢測概率來估計可檢測區(qū)域。在下文中,對于基準聲音的檢測概率將被稱為基準檢測概率。區(qū)域估計單元1000還通過分別使用比基準檢測概率低10%和20%的檢測概率和比基準檢測概率高10%的檢測概率來估計可檢測區(qū)域。

信息處理裝置140還包括水平面檢測單元1001(提取單元)。水平面檢測單元1001基于拍攝圖像的顏色信息或邊緣信息來檢測地面,并從拍攝圖像提取地面區(qū)域(提取處理)。應(yīng)當注意,相關(guān)領(lǐng)域的技術(shù)可用于地面檢測處理,并且,處理方法不限于示例性實施例。

麥克風(fēng)DB 206存儲麥克風(fēng)113的高度信息作為麥克風(fēng)113的安裝信息。另外,作為另一個例子,麥克風(fēng)113的高度可以由用戶輸入。區(qū)域圖像生成單元1002基于從麥克風(fēng)113到聲源的距離和由麥克風(fēng)113的安裝信息表示的麥克風(fēng)113的高度信息來識別從麥克風(fēng)113到各可檢測區(qū)域的邊界的水平距離。

區(qū)域圖像生成單元1002(投影單元)還基于聲源的位置信息識別聲源的位置到地面上的垂直投影位置(點P)。此外,區(qū)域圖像生成單元1002識別等距線作為其中可檢測區(qū)域被投影到地面區(qū)域上的區(qū)域的邊界線,并將該等距線設(shè)置為等距線L0,利用該等距線,離麥克風(fēng)113的水平距離等于從麥克風(fēng)113到地面上的點P的水平距離。此外,區(qū)域圖像生成單元1002識別檢測概率降低10%的水平距離、檢測概率降低20%的水平距離以及檢測概率增加10%的水平距離,并且,將各個水平距離設(shè)置為等距線L1、L2和L3。本處理是將可檢測區(qū)域投影到地面區(qū)域的投影處理的一個示例。

此外,區(qū)域圖像生成單元1002例如以R=16、G=16且B=16的顏色著色比等距線L3更靠近麥克風(fēng)113的地面區(qū)域。區(qū)域圖像生成單元1002還例如以R=32、G=32且B=32的顏色著色夾于等距線L0和等距線L3之間的地面區(qū)域。區(qū)域圖像生成單元1002還例如以R=64、G=64且B=64的顏色對夾于等距線L1和等距線L0之間的地面區(qū)域著色。區(qū)域圖像生成單元1002還例如以R=128、G=128且B=128的顏色對夾于等距線L2和等距線L1之間的地面區(qū)域著色。區(qū)域圖像生成單元1002以R=255、G=255且B=255的顏色對遠離等距線L2的區(qū)域著色。通過上述處理,區(qū)域圖像生成單元1002生成地面著色圖像(區(qū)域圖像)。圖11示出區(qū)域圖像的示例。

顯示處理單元205將地面著色圖像疊加在視頻數(shù)據(jù)上。顯示處理單元205生成例如以α=0.3的比率進行了α混合的疊加圖像,并將該圖像顯示在顯示單元125上。應(yīng)當注意,根據(jù)第三示例性實施例的信息處理裝置140的除此以外的結(jié)構(gòu)和處理類似于根據(jù)第二示例性實施例的信息處理裝置130的結(jié)構(gòu)和處理。

如上所述,根據(jù)本示例性實施例的信息處理裝置140可以將與檢測概率對應(yīng)的區(qū)域投影到要顯示的地面上。因此,用戶可以更容易地理解檢測概率和距離之間的關(guān)系。結(jié)果是,可以簡化用戶的設(shè)置操作和減少設(shè)置錯誤。此外,由于用戶在進行了適當?shù)脑O(shè)置之后進行異常聲音檢測,所以可以提高異常聲音檢測的檢測精度。

到此為止,已經(jīng)詳細地描述了本發(fā)明的示例性實施例,但是,本發(fā)明并不限于上述的特定的示例性實施例,并且,可以在權(quán)利要求部分中所述的本發(fā)明的要旨內(nèi)進行各種修改和替換。

例如,如圖13A中所示,表示可檢測區(qū)域613等的線可以被疊加在表示其中可通過在搖攝方向或傾斜方向上移動攝像單元111來進行攝像的整個范圍的全景圖像上。全景圖像是通過相互合成在搖攝方向和傾斜方向上順序地移動攝像單元111的同時拍攝的多個圖像而創(chuàng)建的。在麥克風(fēng)113能夠收集在大于或等于攝像單元111的視角的大小的范圍內(nèi)產(chǎn)生的聲音的情況下,本示例是有效的。

例如,如圖13B所示,將考慮通過以角度和相互合成在攝像單元111的攝像方向的水平方向上分別具有角度和的三個圖像而獲得的全景圖像,其中,預(yù)定位置被設(shè)置為基準。此時,當其中麥克風(fēng)113具有最高的靈敏度的方向被設(shè)置為A4時,選擇在其中A4被包括在攝像范圍中的全景合成之前的圖像(在這種情況下,從到的范圍中的圖像,其中A2被設(shè)置為中心),并且,在A4被設(shè)置為中心的情況下在該圖像內(nèi)確定可檢測區(qū)域613。接著,突出部可以被疊加在其它圖像的一部分上。

其他示例性實施例

本發(fā)明也可以通過以如下方式的處理來實現(xiàn):用于實現(xiàn)上述示例性實施例的一個或更多個功能的程序經(jīng)由網(wǎng)絡(luò)或存儲介質(zhì)被供給到系統(tǒng)或裝置,并且,在系統(tǒng)或裝置的計算機中的一個或更多個處理器讀出該程序并執(zhí)行處理它。另外,本發(fā)明可以通過實現(xiàn)一個或更多個功能的電路(例如,ASIC)來實現(xiàn)。

根據(jù)上述的各個示例性實施例中,可以支持用于由用戶進行聲音檢測處理的設(shè)置操作。

還可以通過讀出并執(zhí)行記錄在存儲介質(zhì)(也可更完整地稱為“非暫時性計算機可讀存儲介質(zhì)”)上的計算機可執(zhí)行指令(例如,一個或更多個程序)以執(zhí)行上述實施例中的一個或更多個的功能、并且/或者包括用于執(zhí)行上述實施例中的一個或更多個的功能的一個或更多個電路(例如,專用集成電路(ASIC))的系統(tǒng)或裝置的計算機,來實現(xiàn)本發(fā)明的實施例,并且,可以利用通過由系統(tǒng)或裝置的計算機例如讀出并執(zhí)行來自存儲介質(zhì)的計算機可執(zhí)行指令以執(zhí)行上述實施例中的一個或更多個的功能、并且/或者控制一個或更多個電路以執(zhí)行上述實施例中的一個或更多個的功能的方法,來實現(xiàn)本發(fā)明的實施例。計算機可以包括一個或更多個處理器(例如,中央處理單元(CPU),微處理單元(MPU)),并且可以包括分開的計算機或分開的處理器的網(wǎng)絡(luò),以讀出并執(zhí)行計算機可執(zhí)行指令。計算機可執(zhí)行指令可以例如從網(wǎng)絡(luò)或存儲介質(zhì)被提供給計算機。存儲介質(zhì)可以包括例如硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、分布式計算系統(tǒng)的存儲器、光盤(諸如壓縮光盤(CD)、數(shù)字通用光盤(DVD)或藍光光盤(BD)TM)、閃存裝置以及存儲卡等中的一個或更多個。

本發(fā)明的實施例還可以通過如下的方法來實現(xiàn),即,通過網(wǎng)絡(luò)或者各種存儲介質(zhì)將執(zhí)行上述實施例的功能的軟件(程序)提供給系統(tǒng)或裝置,該系統(tǒng)或裝置的計算機或是中央處理單元(CPU)、微處理單元(MPU)讀出并執(zhí)行程序的方法。

雖然針對示例性實施例描述了本發(fā)明,但是,應(yīng)該理解,本發(fā)明不限于公開的示例性實施例。下述權(quán)利要求的范圍應(yīng)當被賦予最寬的解釋,以便涵蓋所有這類修改以及等同的結(jié)構(gòu)和功能。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1