一種基于麥克風陣列的攝像頭引導裝置及引導方法

文檔序號：7821817閱讀：751來源：國知局

一種基于麥克風陣列的攝像頭引導裝置及引導方法
【專利摘要】本發(fā)明涉及基于麥克風陣列的攝像頭引導裝置及引導方法，該引導裝置包括帶有控制云臺的攝像頭、麥克風陣列和多通道聲音信號同步采集處理系統(tǒng)，多通道聲音信號同步處理系統(tǒng)包括調(diào)理電路、Codec芯片、DSP芯片和485接口，調(diào)理電路用于對麥克風采集的模擬信號進行調(diào)理，Codec芯片用于將模擬信號轉換為數(shù)字信號并將數(shù)字信號送入DSP芯片中，DSP芯片用于根據(jù)所接收到的數(shù)字信號進行突發(fā)聲信號檢測以及突發(fā)聲信號測向，并將測向結果通過485接口傳送給攝像頭的控制云臺，從而調(diào)整攝像頭的視角以對準目標進行拍攝。該引導裝置具有自適應性，應用范圍廣，能避免攝像頭沒有目的的轉動；同時，方向的估計精度和系統(tǒng)的魯棒性高。
【專利說明】一種基于麥克風陣列的攝像頭引導裝置及引導方法

【技術領域】
[0001] 本發(fā)明屬于監(jiān)控【技術領域】，涉及一種利用麥克風陣列對突發(fā)聲源進行檢測及測向，并引導攝像頭捕捉該突發(fā)聲源的裝置及方法。

【背景技術】
[0002] 目前，視頻監(jiān)控是監(jiān)控領域中的一個重要手段，已經(jīng)得到廣泛應用。然而，攝像頭有盲區(qū)，一般攝像頭的視角為52°，監(jiān)控范圍有限，可轉動的攝像頭通常是有規(guī)律的旋轉或由人工控制，很難及時捕捉到突發(fā)事件，如公共場所的騷亂、居民小區(qū)車輛偷竊報警、交通事故等。如果這些事件沒有在攝像頭的監(jiān)控區(qū)域，傳統(tǒng)的視頻監(jiān)控系統(tǒng)就無能為力了。
[0003] 眾所周知，人可以通過耳朵對突發(fā)事件的聲音進行定位，進而及時調(diào)整視角。借鑒人的感知機理，可以為攝像頭裝上"耳朵"，這個"耳朵"就是麥克風陣列。利用麥克風陣列對突發(fā)事件的聲音進行檢測及測向，并引導攝像頭，實現(xiàn)對突發(fā)事件的音視頻實時監(jiān)控。
[0004] 目前利用麥克風陣列對聲源進行定位，進而引導攝像頭對準聲源已有多個專利。美國專利US 6, 826, 284 B1中利用6個麥克風組成立體陣列，通過時間延遲測向算法 (TDOA)對聲源進行定位，從而引導攝像頭指向聲源。中國專利CN10156798B披露了基于麥克風陣列聲音智導的智能視頻導播方法，其首先對關鍵區(qū)域進行拍攝參數(shù)設置，將示例保存在訓練集中，然后利用麥克風陣列對聲源進行定位，并將定位結果與訓練集中的示例進行比對計算，最后引導攝像頭按給定參數(shù)進行拍攝。中國實用新型專利CN203151672U披露了一種聲源定位功能的視頻系統(tǒng)，其在自己搭建的硬件系統(tǒng)上實現(xiàn)了聲源定位并控制云臺上的攝像頭對準聲源。
[0005] 但是，以上這些專利中共同的缺點是：1.沒有聲音檢測模塊，如果不加入聲音檢測模塊則攝像頭并不能有的放矢的對準突發(fā)事件，且整個系統(tǒng)容易受外界噪聲干擾；2.以上專利中利用的都是TDOA類聲源定位方法，該類方法要求傳聲器間隔較大，因此導致整個裝置體積龐大，在實際中難以實用；并且該類測向算法屬于時域處理方法，而不同場景下的聲音信號的頻率范圍是不同的，該類方法沒有對聲音頻率進行選擇。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明針對上述現(xiàn)有技術的不足，提出了一種利用麥克風陣列引導攝像頭捕捉突發(fā)聲源的裝置及方法，其中使用了噪聲譜估計技術和寬帶信號波達方向估計技術，因此具有自適應性，應用范圍廣，能避免攝像頭沒有目的的轉動；同時，方向的估計精度和系統(tǒng)的魯棒性高。
[0007] 為了實現(xiàn)上述目的，本發(fā)明提供如下技術方案：一種基于麥克風陣列的攝像頭引導裝置，其包括帶有控制云臺的攝像頭、由多個麥克風組成的圍繞所述攝像頭設置的麥克風陣列和多通道聲音信號同步采集處理系統(tǒng)，其中，所述多個麥克風通過音頻線連接到所述多通道聲音信號同步采集處理系統(tǒng)從而將多通道麥克風信號輸送到所述多通道聲音信號同步采集處理系統(tǒng)中，所述多通道聲音信號同步處理系統(tǒng)包括調(diào)理電路、Codec芯片、DSP 芯片和485接口，其中，所述調(diào)理電路用于對所述多個麥克風采集的模擬信號進行調(diào)理，所述Codec芯片用于將經(jīng)所述調(diào)理電路調(diào)理過的模擬信號轉換為數(shù)字信號并將所述數(shù)字信號送入所述DSP芯片中，所述DSP芯片用于根據(jù)所接收到的數(shù)字信號進行突發(fā)聲信號檢測以及突發(fā)聲信號測向，并將測向結果通過所述485接口傳送給所述攝像頭的控制云臺，從而調(diào)整所述攝像頭的視角以對準目標進行拍攝。
[0008] 此外，本發(fā)明還提供一種采用上述基于麥克風陣列的攝像頭引導裝置的攝像頭引導方法，其包括以下步驟：第一步：啟動所述攝像頭引導裝置，通過所述Codec芯片將所述多個麥克風采集到的模擬信號轉換為數(shù)字信號，并將所述數(shù)字信號送入所述DSP芯片；第二步：由所述DSP芯片根據(jù)其中一個麥克風接收到的信號自適應地估計環(huán)境噪聲能量；第三步：由所述DSP芯片計算該麥克風接收到的信號的能量和所述環(huán)境噪聲能量的比值，根據(jù)該比值判斷是否有突發(fā)聲信號出現(xiàn)，如果有轉入第四步；如果沒有則轉入第二步，繼續(xù)根據(jù)麥克風接收到的信號自適應地估計環(huán)境噪聲能量；第四步：由所述DSP芯片根據(jù)第三步的突發(fā)聲檢測結果，截取出所述多個麥克風中有突發(fā)聲的信號段；第五步：由所述DSP芯片將所述第四步中截取的麥克風的信號分別進行快速傅里葉變換，變成多個窄帶信號，根據(jù) 不同的應用場景和突發(fā)聲信號的特點，選取合適的頻帶利用寬帶波達方向估計算法估計目標的方位角和俯仰角；第六步：由所述DSP芯片將所述方位角和俯仰角通過所述485接口發(fā)送給所述攝像頭的控制云臺，所述控制云臺根據(jù)該方位角和俯仰角調(diào)整所述攝像頭的視角進行拍攝。
[0009] 進一步地，其中，所述第二步中，假設某個麥克風接收到的信號為x(t)，則根據(jù)該麥克風接收到的信號自適應地估計環(huán)境噪聲能量p n(t)用公式可以表示為

【權利要求】
1. 一種基于麥克風陣列的攝像頭引導裝置，其包括帶有控制云臺的攝像頭（I)、由多個麥克風組成的圍繞所述攝像頭（1)設置的麥克風陣列（2)和多通道聲音信號同步采集處理系統(tǒng)（3)，其中，所述多個麥克風通過音頻線連接到所述多通道聲音信號同步采集處理系統(tǒng)（3)從而將多通道麥克風信號輸送到所述多通道聲音信號同步采集處理系統(tǒng)（3)中，所述多通道聲音信號同步處理系統(tǒng)包括調(diào)理電路、Codec芯片、DSP芯片和485接口，其中，所述調(diào)理電路用于對所述多個麥克風采集的模擬信號進行調(diào)理，所述Codec芯片用于將經(jīng)所述調(diào)理電路調(diào)理過的模擬信號轉換為數(shù)字信號并將所述數(shù)字信號送入所述DSP芯片中，所述DSP芯片用于根據(jù)所接收到的數(shù)字信號進行突發(fā)聲信號檢測以及突發(fā)聲信號測向，并將測向結果通過所述485接口傳送給所述攝像頭（1)的控制云臺，從而調(diào)整所述攝像頭（1) 的視角以對準目標進行拍攝。
2. -種采用權利要求1所述的基于麥克風陣列的攝像頭引導裝置的攝像頭引導方法，其包括以下步驟：第一步：啟動所述攝像頭引導裝置，通過所述Codec芯片將所述多個麥克風采集到的模擬信號轉換為數(shù)字信號，并將所述數(shù)字信號送入所述DSP芯片；第二步：由所述DSP芯片根據(jù)其中一個麥克風接收到的信號自適應地估計環(huán)境噪聲能量；第三步：由所述DSP芯片計算該麥克風接收到的信號的能量和所述環(huán)境噪聲能量的比值，根據(jù)該比值判斷是否有突發(fā)聲信號出現(xiàn)，如果有轉入第四步；如果沒有則轉入第二步，繼續(xù)根據(jù)麥克風接收到的信號自適應地估計環(huán)境噪聲能量；第四步：由所述DSP芯片根據(jù)第三步的突發(fā)聲檢測結果，截取出所述多個麥克風中有突發(fā)聲的信號段；第五步：由所述DSP芯片將所述第四步中截取的麥克風的信號分別進行快速傅里葉變換，變成多個窄帶信號，根據(jù)不同的應用場景和突發(fā)聲信號的特點，選取合適的頻帶利用寬帶波達方向估計算法估計目標的方位角和俯仰角；第六步：由所述DSP芯片將所述方位角和俯仰角通過所述485接口發(fā)送給所述攝像頭的控制云臺，所述控制云臺根據(jù)該方位角和俯仰角調(diào)整所述攝像頭的視角進行拍攝。
3. 如權利要求2所述的攝像頭引導方法，其中，所述第二步中，假設某個麥克風接收到的信號為X(t)，則根據(jù)該麥克風接收到的信號自適應地估計環(huán)境噪聲能量Pn (t)用公式可以表示為
其中，4和fH為麥克風接收到的信號的最低頻率和最高頻率，Pn(t，f)是麥克風接收到的信號在頻率f處的能量，Pn(t-1，f)是麥克風接收到的信號在前一時刻頻率f處的能量， X(t，f)是麥克風接收到的信號的傅里葉變換，α⑴是平滑系數(shù)。
4. 如權利要求3所述的攝像頭引導方法，其中，所述第三步中，該麥克風接收到的信號的能量為乃(0= 則該麥克風接收到的信號的能量和環(huán)境噪聲能量的比值 f~fhy SNR=Ps (t)/Pn(t)，當SNR>Th時，檢測到突發(fā)聲信號；當SNR<Th時，沒有檢測到突發(fā)聲信號，其中Th為檢測閾值。
5. 如權利要求4所述的攝像頭引導方法，其中，所述第五步中，所述寬帶波達方向估計算法選用頻域波束形成算法，頻域波束形成算法通過對接收信號做傅里葉變換，將不同麥克風之間的時間延遲轉換為各個頻帶上的相位差，然后在每個頻帶上應用波束形成算法獲得該頻帶上的角度估計，最后將這些頻帶上的角度估計結果取平均獲得目標信號的角度估計。
6. 如權利要求5所述的攝像頭引導方法，其中，具體地，假定所述麥克風陣列接收到的信號為xn(t)，n= 1，2，...，N，其中N為麥克風陣列中麥克風的個數(shù)，首先對接收到的信號做快速傅里葉變換，得到信號在各個頻帶上的表示Xn(f)，將N個麥克風的信號表不成列向量的形式 x(f) = [XJfhx2(f)，···，XN(f)]T 其中[·]τ表示向量轉置變換，根據(jù)向量X(f)獲得陣列信號在頻帶f處的協(xié)方差矩陣R(f)，用公式可以表示為 R(f) =E[X(f)X(f)H] 其中Ε[·]為取均值運算，利用協(xié)方差矩陣R(f)就可以獲得寬帶波束形成算法的代價函數(shù)艮供）
其中Θ和卩分別為目標信號的俯仰角和方
位角，a(/,<9,供)為麥克風陣列的導向矢量其中為目標信號到第η個麥克風和第1個麥克風之間的時間延遲，該延遲可以根據(jù)麥克風陳列的形狀和位置確定，最后通過對代價函數(shù)的搜索就可以獲得目標信號的俯仰角和方位角，用公式可以表示為
【文檔編號】H04N5/232GK104469154SQ201410726856
【公開日】2015年3月25日申請日期:2014年12月5日優(yōu)先權日:2014年12月5日
【發(fā)明者】蔡盛盛申請人:合肥國科聲拓信息技術有限公司

完整全部詳細技術資料下載