本發(fā)明涉及一種基于云基礎(chǔ)架構(gòu)平臺(tái)的二維聲源跟蹤系統(tǒng)及其工作方法與應(yīng)用,屬于聲源跟蹤的技術(shù)領(lǐng)域。
背景技術(shù):
在視頻會(huì)議、家庭防盜等系統(tǒng)中,往往因?yàn)閿z像頭的位置和方向是固定的,而使得監(jiān)控存在盲區(qū)。而人的活動(dòng)往往伴隨著一定的聲音存在。如果能夠利用這一特征,讓攝像頭實(shí)時(shí)跟蹤聲源,就會(huì)使得攝像頭的盲區(qū)變小甚至消除,從而讓攝像頭實(shí)時(shí)跟蹤聲源(人),使聲源實(shí)時(shí)處于視頻畫面中。
傳統(tǒng)的視頻跟蹤系統(tǒng)往往價(jià)格昂貴,在高昂的價(jià)格面前,更多的人選擇手動(dòng)來控制攝像頭。而在家庭防盜中,不法分子往往通過事先踩點(diǎn),尋找攝像頭的盲區(qū)進(jìn)行作案。所以就非常迫切的需要這樣一套能根據(jù)聲音的發(fā)源地進(jìn)行自動(dòng)轉(zhuǎn)向的系統(tǒng),去實(shí)時(shí)的跟蹤拍攝,及時(shí)做數(shù)據(jù)分析的工作,并且價(jià)格更容易被推廣。
中國專利文獻(xiàn)CN205490942U一種基于語音識(shí)別的攝像機(jī)自動(dòng)定位系統(tǒng),包括:麥克風(fēng)陣列、攝像裝置和處理工作站;麥克風(fēng)陣列,用于對目標(biāo)區(qū)域聲源進(jìn)行探測,獲得聲源目標(biāo)的位置信息,并根據(jù)所述位置信息,向攝像裝置和處理工作站發(fā)出控制信號(hào);攝像裝置,與所述麥克風(fēng)陣列和處理工作站連接,用于根據(jù)麥克風(fēng)陣列輸出的位置信息調(diào)整位置并進(jìn)行攝像;處理工作站,用于根據(jù)所述麥克風(fēng)陣列輸出的位置信息,存儲(chǔ)接收所述攝像裝置輸入的數(shù)據(jù),同時(shí)輸出所存儲(chǔ)的聲音、影像數(shù)據(jù),通過本系統(tǒng)解決了現(xiàn)有技術(shù)中無法及時(shí)錄制發(fā)言這視頻的問題。
中國專利文獻(xiàn)CN103002250A公開了一種聲源監(jiān)視系統(tǒng)及其方法,聲源監(jiān)視系統(tǒng)包括收音模塊、聲音檢測模塊、聲源定位模塊與攝影模塊。收音模塊用以接收多個(gè)聲音信號(hào)。聲音檢測模塊用以將收音模塊所接收的聲音信號(hào)相加且正規(guī)化而形成的整合信號(hào)或每一聲音信號(hào)切割成多個(gè)子頻帶,計(jì)算每一子頻帶與背景噪聲的信噪比,據(jù)以決定是否輸出收音模塊所接收的聲音信號(hào)至聲源定位模塊。
中國專利文獻(xiàn)CN102572282A公開一種智能追蹤裝置,應(yīng)用于一終端,且該終端放置在匹配的動(dòng)力裝置中,該智能追蹤裝置包括聲音輸入單元、控制單元、攝像單元、驅(qū)動(dòng)單元和包括人臉識(shí)別模塊、人臉追蹤模塊和聲音信號(hào)處理模塊的追蹤控制單元。人臉追蹤模塊根據(jù)人臉識(shí)別模塊識(shí)別的攝像單元捕捉的人臉圖像信息產(chǎn)生識(shí)別信號(hào),控制單元根據(jù)該識(shí)別信號(hào)控制驅(qū)動(dòng)單元以驅(qū)動(dòng)動(dòng)力裝置相應(yīng)運(yùn)動(dòng)。
通過現(xiàn)有專利文獻(xiàn)可知,上述的視頻跟蹤系統(tǒng)并不適用于音視頻會(huì)議中,因?yàn)橐曨l房間通常較小,容易產(chǎn)生多個(gè)音頻矩陣,如采用多個(gè)視頻跟蹤系統(tǒng),則占據(jù)空間較大影響美觀。在舞臺(tái)和視頻會(huì)議中,聲源定位跟蹤技術(shù)相對于其他技術(shù)具有很多優(yōu)點(diǎn)。聲源定位跟蹤可實(shí)現(xiàn)全自動(dòng)的工作模式,工作過程中不需要人為控制操縱。與相同功能的紅外跟蹤定位系統(tǒng)相比,跟蹤目標(biāo)身上不需要攜帶紅外發(fā)射裝置,不必考慮紅外發(fā)射的角度,頻率等問題。與采用圖像識(shí)別實(shí)現(xiàn)跟蹤的方法相比,其系統(tǒng)結(jié)構(gòu)、算法等各方面更為簡單。同時(shí)若將攝像頭換成聚光燈,也可實(shí)現(xiàn)燈管的自動(dòng)跟蹤控制?,F(xiàn)有的設(shè)計(jì)中,如果要確定一個(gè)二維平面的點(diǎn),至少需要三個(gè)麥克風(fēng)作為傳感器接收信號(hào)。本設(shè)計(jì)采用兩個(gè)麥克風(fēng)作為系統(tǒng)傳感器,使用卡爾曼濾波算法和三角定位算法相結(jié)合的方法實(shí)現(xiàn)定位操作。比現(xiàn)有的設(shè)計(jì)減少一個(gè)麥克風(fēng),使系統(tǒng)體積更小,同時(shí)也降低了麥克風(fēng)安放的要求,使麥克風(fēng)可以根據(jù)具體環(huán)境更加靈活的放置。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于云基礎(chǔ)架構(gòu)平臺(tái)的二維聲源跟蹤系統(tǒng)。本發(fā)明根據(jù)多個(gè)音頻矩陣特性,同時(shí)結(jié)合人的雙耳結(jié)構(gòu)設(shè)計(jì)了二維聲源跟蹤系統(tǒng),根據(jù)需要結(jié)合不同傳感器對聲源目標(biāo)進(jìn)行監(jiān)測數(shù)據(jù),并將所述監(jiān)測數(shù)據(jù)實(shí)時(shí)上傳到云端,供云端服務(wù)器分析并提取聲音特征信號(hào),供以后系統(tǒng)根據(jù)該聲音特征信號(hào)提取更精確的參數(shù)。
本發(fā)明還提供一種上述系統(tǒng)的工作方法。
該系統(tǒng)還可應(yīng)用于多種跟蹤領(lǐng)域。
本發(fā)明的技術(shù)方案如下:
一種基于云基礎(chǔ)架構(gòu)平臺(tái)的二維聲源跟蹤系統(tǒng),包括受舵機(jī)控制的云臺(tái)、在所述云臺(tái)上設(shè)置有針對聲源目標(biāo)進(jìn)行監(jiān)測的監(jiān)測部、在所述監(jiān)測部的兩側(cè)對稱設(shè)置有聲音傳感器和控制模塊;所述控制模塊用于采集所述聲音傳感器的聲音參數(shù)并通過處理所述聲音參數(shù)確定聲源目標(biāo)位置,然后控制舵機(jī)、旋轉(zhuǎn)云臺(tái)使所述監(jiān)測部最大限度采集聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)。
根據(jù)本發(fā)明優(yōu)選的,所述監(jiān)測部為攝像機(jī),對應(yīng)的,所述聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)為實(shí)時(shí)影像數(shù)據(jù)。
根據(jù)本發(fā)明優(yōu)選的,所述控制模塊還通過網(wǎng)絡(luò)與云端服務(wù)器連接:實(shí)現(xiàn)將所述聲源音頻、聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)與時(shí)間、地點(diǎn)參數(shù)打包后上傳至云端服務(wù)器儲(chǔ)存和/或特征分析、信息提取。
根據(jù)本發(fā)明優(yōu)選的,所述控制模塊為Intel Galileo GEN2開發(fā)板。本發(fā)明根據(jù)聲波的特點(diǎn),在攝像機(jī)的兩側(cè)對稱設(shè)置2個(gè)聲音傳感器,通過使用Intel GalileoGEN2開發(fā)板對聲音采集的時(shí)間差、波形,分析并計(jì)算出攝像機(jī)需要旋轉(zhuǎn)的角度,從而實(shí)現(xiàn)攝像機(jī)的實(shí)時(shí)跟蹤。
一種上述系統(tǒng)的工作方法,包括:
其中,所述監(jiān)測部為攝像機(jī),對應(yīng)的,所述聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)為實(shí)時(shí)影像數(shù)據(jù);
1)所述兩個(gè)聲音傳感器各采集N組聲音數(shù)據(jù);
2)對所述聲音數(shù)據(jù)進(jìn)行卡爾曼濾波,形成聲音波形;形成穩(wěn)定波形;
3)用一側(cè)采集到的聲音波形的波峰減去另一側(cè)采集到的聲音數(shù)據(jù)形成波形的波峰,獲取時(shí)間差的平均值;所述時(shí)間差的平均值表示聲波達(dá)到兩側(cè)聲音傳感器的時(shí)間差;
4)通過建立數(shù)學(xué)模型,確定聲源目標(biāo)位置,計(jì)算攝像頭旋轉(zhuǎn)的角度,并控制攝像頭的旋轉(zhuǎn);
5)通過網(wǎng)絡(luò)將收集到的將聲音波形和攝像視頻傳輸?shù)皆贫朔?wù)器,以供云端服務(wù)器進(jìn)行特征分析和信息提取。
根據(jù)本發(fā)明優(yōu)選的,在步驟5)中,在網(wǎng)絡(luò)不暢通的情況下,將所述聲音波形和攝像視頻自動(dòng)保存到本地,待網(wǎng)絡(luò)暢通后,再通過TCP/IP協(xié)議上傳到云端服務(wù)器。
如上述系統(tǒng)的應(yīng)用方法:
所述監(jiān)測部為攝像機(jī),對應(yīng)的,所述聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)為實(shí)時(shí)影像數(shù)據(jù)。
本發(fā)明的優(yōu)勢在于:
本發(fā)明所述的一種基于云基礎(chǔ)架構(gòu)平臺(tái)的二維聲源跟蹤系統(tǒng)及其工作方法與應(yīng)用,其根據(jù)多個(gè)音頻矩陣特性,同時(shí)結(jié)合人的雙耳結(jié)構(gòu)設(shè)計(jì)了二維聲源跟蹤系統(tǒng),根據(jù)需要結(jié)合不同傳感器對聲源目標(biāo)進(jìn)行監(jiān)測數(shù)據(jù),并將所述監(jiān)測數(shù)據(jù)實(shí)時(shí)上傳到云端,供云端服務(wù)器分析并提取聲音特征信號(hào),供以后系統(tǒng)根據(jù)該聲音特征信號(hào)提取更精確的參數(shù)。當(dāng)本系統(tǒng)應(yīng)用于精確采集聲源目標(biāo)的視頻信息數(shù)據(jù)時(shí),本發(fā)明將采集到的聲音波形和視頻傳輸?shù)皆贫?,以供云端服?wù)器進(jìn)行特征分析和信息提取。本發(fā)明創(chuàng)新點(diǎn)是系統(tǒng)可以很好地應(yīng)用在空間小音頻矩陣多的環(huán)境下,并且歷史數(shù)據(jù)被上傳到云端,不占用本地存儲(chǔ)空間。同時(shí),本發(fā)明還能進(jìn)行更精準(zhǔn)的分析和攝像頭的跟蹤,并且錄制的視頻也打上時(shí)間標(biāo)簽,方便根據(jù)時(shí)間查閱。
附圖說明
圖1、本發(fā)明所述系統(tǒng)的整體框架圖;
圖2、本發(fā)明中所述確定聲源目標(biāo)位置的數(shù)學(xué)模型建立圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明做詳細(xì)的說明,但不限于此。
如圖1、2所示。
實(shí)施例1、
一種基于云基礎(chǔ)架構(gòu)平臺(tái)的二維聲源跟蹤系統(tǒng),包括受舵機(jī)控制的云臺(tái)、在所述云臺(tái)上設(shè)置有針對聲源目標(biāo)進(jìn)行監(jiān)測的監(jiān)測部、在所述監(jiān)測部的兩側(cè)對稱設(shè)置有聲音傳感器和控制模塊;所述控制模塊用于采集所述聲音傳感器的聲音參數(shù)并通過處理所述聲音參數(shù)確定聲源目標(biāo)位置,然后控制舵機(jī)、旋轉(zhuǎn)云臺(tái)使所述監(jiān)測部最大限度采集聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)。
所述監(jiān)測部為攝像機(jī),對應(yīng)的,所述聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)為實(shí)時(shí)影像數(shù)據(jù)。
所述控制模塊還通過網(wǎng)絡(luò)與云端服務(wù)器連接:實(shí)現(xiàn)將所述聲源音頻、聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)與時(shí)間、地點(diǎn)參數(shù)打包后上傳至云端服務(wù)器儲(chǔ)存和/或特征分析、信息提取。
所述控制模塊為Intel Galileo GEN2開發(fā)板。
圖1所示為二維聲源跟蹤系統(tǒng)的整體架構(gòu)圖,整個(gè)過程包括對聲源的定位,接收,過濾,計(jì)算,數(shù)據(jù)上傳等功能。整個(gè)模塊實(shí)現(xiàn)的流程如下:
硬件設(shè)計(jì)與實(shí)現(xiàn)部分主要包括:2個(gè)高靈敏度麥克風(fēng)傳感器、1個(gè)舵機(jī)、1個(gè)USB攝像頭、1個(gè)Intel的伽利略開發(fā)板。2個(gè)高靈敏度麥克風(fēng)傳感器主要用來拾取聲源發(fā)出的聲波。采用的傳感器是進(jìn)口MEMS傳感器,這個(gè)傳感器輸出功率是40mw,常用檢測頻率范圍是100hz-15khz,這個(gè)很接近人聲,信噪比是-62dB,靈敏度是-42dB。比較適合本次系統(tǒng)使用。舵機(jī)采用的是輝盛MG995,無負(fù)載速度0.17秒/60度(4.8V);0.13秒/60度(6.0V),工作死區(qū):4微秒,工作扭矩:13KG/cm。主要用來作為云臺(tái)動(dòng)力,帶動(dòng)攝像頭轉(zhuǎn)動(dòng)。攝像頭是羅技C170免驅(qū)USB攝像頭,500萬象素,最大分辨率是1024*768。感光元件是CMOS。Galileo板是基于Quark SoC X1000應(yīng)用處理器的微控制器板,它也是一個(gè)32位品牌的片上系統(tǒng)(SoC)。它是第一款基于架構(gòu)且設(shè)計(jì)為與用于Arduino Uno*R3的防護(hù)實(shí)現(xiàn)硬件和軟件引腳兼容的板。此處,英特爾Galileo板與Arduino軟件開發(fā)環(huán)境存在軟件兼容性,便于使用。除了Arduino硬件和軟件兼容性之外,英特爾Galileo板還有多個(gè)計(jì)算機(jī)行業(yè)標(biāo)準(zhǔn)I/O端口和功能,可用于擴(kuò)大Arduino防護(hù)生態(tài)系統(tǒng)以外的本地使用及功能。全尺寸小型PCI Express*插槽,100 Mb以太網(wǎng)端口、微型SD卡插槽、RS-232串行端口、USB主機(jī)端口、USB客戶端端口和8 MB NOR Flash*是該板的標(biāo)配。用這個(gè)板子主要是因?yàn)樗嫒軦rduino,而且自帶網(wǎng)卡,內(nèi)存也足夠大,同時(shí)計(jì)算性能也很好,功耗比較低,能夠滿足項(xiàng)目的需求。
所述控制模塊中的英特爾Galileo板用的是C語言開發(fā),但是由于本程序建立在Arduino擴(kuò)展卡的基礎(chǔ)上而來,所以在讀取模擬數(shù)據(jù)的時(shí)候每個(gè)引腳要超過10ms的反應(yīng)時(shí)間,這個(gè)嚴(yán)重影響了數(shù)據(jù)精度,所以我們采用了改進(jìn)方法讀取數(shù)據(jù),將讀取速度,達(dá)到10us一次的讀取速度就能滿足如何采集的需求了。數(shù)據(jù)采集是間隔采集的,但是總是先采集左邊,后采集右邊的方式,采集100組數(shù)據(jù),并且對每一個(gè)數(shù)據(jù)標(biāo)定采集的時(shí)間。迅速將這100組數(shù)據(jù)進(jìn)入卡爾曼濾波函數(shù)中,整定波形,刪掉前10組和后10組的數(shù)據(jù),因?yàn)檎〞?huì)影響原數(shù)據(jù),而在前10組整定的時(shí)候,卡爾曼濾波產(chǎn)生的數(shù)據(jù)可讀性太差了,后10組濾波后的數(shù)據(jù)又由于濾波函數(shù)的作用太接近了,所以決定采用中間80組的波形數(shù)據(jù)。將這些采集到的數(shù)據(jù)去噪后,分析,得到時(shí)間差。
實(shí)施例2、
如實(shí)施例1所述系統(tǒng)的工作方法,包括:
其中,所述監(jiān)測部為攝像機(jī),對應(yīng)的,所述聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)為實(shí)時(shí)影像數(shù)據(jù);
1)所述兩個(gè)聲音傳感器各采集N組聲音數(shù)據(jù);
2)對所述聲音數(shù)據(jù)進(jìn)行卡爾曼濾波,形成聲音波形;形成穩(wěn)定波形;
3)用一側(cè)采集到的聲音波形的波峰減去另一側(cè)采集到的聲音數(shù)據(jù)形成波形的波峰,獲取時(shí)間差的平均值;所述時(shí)間差的平均值表示聲波達(dá)到兩側(cè)聲音傳感器的時(shí)間差;
4)通過建立數(shù)學(xué)模型,確定聲源目標(biāo)位置,計(jì)算攝像頭旋轉(zhuǎn)的角度,并控制攝像頭的旋轉(zhuǎn):通過arcsin[(ΔL-ΔX)/L]就能得到攝像頭的旋轉(zhuǎn)角度了,然后控制舵機(jī)、旋轉(zhuǎn)云臺(tái)使所述攝像機(jī)對準(zhǔn)聲源目標(biāo)方向并開始攝像;
5)通過網(wǎng)絡(luò)將收集到的將聲音波形和攝像視頻傳輸?shù)皆贫朔?wù)器,以供云端服務(wù)器進(jìn)行特征分析和信息提取。
在所述步驟4)中,圖2中所使用的數(shù)學(xué)模型圖及相關(guān)證明如下:
其中:C點(diǎn)表示聲源位置,A點(diǎn)和B點(diǎn)分別表示聲源采集器,D點(diǎn)表示兩個(gè)生源采集器的中心坐標(biāo),AC和BC表示聲音達(dá)到聲源采集器的距離,這兩個(gè)距離的主要作用是判斷聲源在D點(diǎn)的左邊還是右邊,θ表示攝像頭需要修正的角度
證明:假設(shè)AC=CF=L0
故:BF=ΔL
由于CD垂直于AF,故sinθ=(OD)/(AD)
DG=(BF)/2
由于BF較小(≤AB),故DG較小,故OD較小,可以估計(jì):
OD=[(BF)/2]-Δx/2
所以sinθ=(OD)/(AD)=(ΔL-ΔX)/AB
已知AB=L,所以
Sinθ=(ΔL-ΔX)/L
θ=arcSin[(ΔL-ΔX)/L]
通過軟件修正ΔX,可以較為準(zhǔn)確的計(jì)算出θ的值,從而得出攝像頭旋轉(zhuǎn)的角度。
以上證明的主要目的是為了說明利用該數(shù)學(xué)模型設(shè)計(jì)的算法,能夠使該聲源跟蹤系統(tǒng)準(zhǔn)確定位聲源目標(biāo)的位置。
實(shí)施例3、
如實(shí)施例2所述系統(tǒng)的工作方法,其區(qū)別在于,在步驟5)中,在網(wǎng)絡(luò)不暢通的情況下,將所述聲音波形和攝像視頻自動(dòng)保存到本地,待網(wǎng)絡(luò)暢通后,再通過TCP/IP協(xié)議上傳到云端服務(wù)器。
實(shí)施例4、
如實(shí)施例1-3所述系統(tǒng)的應(yīng)用方法:所述監(jiān)測部為攝像機(jī),對應(yīng)的,所述聲源目標(biāo)的實(shí)時(shí)數(shù)據(jù)為實(shí)時(shí)影像數(shù)據(jù)。這樣攝像頭對準(zhǔn)了發(fā)出聲音的物體,MCU啟動(dòng)攝像頭拍攝,將拍攝到的數(shù)據(jù)通過Wifi將聲音信號(hào)通過網(wǎng)絡(luò)傳輸?shù)皆贫?,供云端服?wù)器分析并提取聲音特征信號(hào),以供以后系統(tǒng)根據(jù)該特征信號(hào)提取更精確的參數(shù),進(jìn)行更精準(zhǔn)的分析和攝像頭的跟蹤。并且錄制的視頻也打上時(shí)間標(biāo)簽,方便根據(jù)時(shí)間查閱。