本發(fā)明涉及智能交通領域,尤其涉及一種能夠快速檢測重大交通事故的高速公路隧道安全監(jiān)控方法。
背景技術:
隨著我國隧道工程技術的進步,目前高速公路隧道長度動輒數公里,甚至幾十上百公里,正是這些隧道極大縮短了高速行程,拉近了人們的時空距離。然而,高速公路隧道也是交通流的重大瓶頸,也是交通事故頻發(fā)之地。隨著智能交通時代的來臨,“智能隧道”已經興起,一些新近建成的隧道設有隧道監(jiān)控站,在隧道內埋設光纖,能直接接入智能交通系統(tǒng);為了提高隧道交通的安全性,現有技術采用在隧道內安裝集成化智能化監(jiān)控系統(tǒng),主要包括通風控制系統(tǒng)、照明控制系統(tǒng)、火災報警系統(tǒng)、交通引導系統(tǒng)、廣播系統(tǒng)和視頻監(jiān)控系統(tǒng),這些系統(tǒng)在一定程度上保障了隧道交通的安全。但現有隧道監(jiān)控系統(tǒng)依然存在以下缺陷:1、無法直接監(jiān)控交通事故事件,現有技術中交通事故事件主要通過車流量、車流速度、車道占有率等參數間接判斷,無法及時預警,影響事故救援;2、事故發(fā)生后,只能通過撥打報警電話求救,然而隧道內手機通訊信號時常不佳,無法及時求救;雖然在隧道內設有專線求救電話裝置,但在實際事故現場,人們往往沒有意識通過隧道內的電話裝置進行求救,導致電話裝置形同虛設,需要一種直接而自動的報警方式。
故,針對目前現有技術中存在的上述缺陷,實有必要進行研究,以提供一種方案,解決現有技術中存在的缺陷。
技術實現要素:
有鑒于此,確有必要提供一種能夠快速檢測重大交通事故的高速公路隧道安全監(jiān)控方法,從而能夠及時預警、救援,避免造成后發(fā)事故。
為了克服現有技術的缺陷,本發(fā)明的技術方案如下:
一種高速公路隧道安全監(jiān)控方法,包括以下步驟:
步驟s1:采集隧道內的聲音信號;
步驟s2:對所采集的聲音信號進行聲音識別;
步驟s3:根據聲音識別結果得出所采集的聲音信號中是否雜含碰撞聲/人聲并以此判斷隧道內是否出現異常事件;
步驟s4:設置在隧道進口上方的顯示屏顯示隧道監(jiān)控信息;
所述步驟s2進一步包括以下步驟:
特征提取步驟,接收原始采集聲音數據,并對原始采集聲音數據進行特征提??;
歸一化步驟,對特征提取后的數據進行高斯歸一化處理,輸出歸一化數據;
神經網絡分類步驟,接收歸一化數據及預先訓練好的深度神經網絡,并通過深度神經網絡對所述歸一化數據進行分類識別獲得分類結果信息,所述分類結果信息為原始采集聲音數據是否雜含碰撞聲/人聲的概率值,當該概率值超過預先設定的閾值時,則判定隧道內出現異常事件;
神經網絡訓練步驟,接收訓練數據并根據訓練數據進行神經網絡的訓練,得到充分學習帶噪樣本和干凈樣本之間的非線性映射關系的深度神經網絡;
所述神經網絡訓練步驟包括:
接收訓練數據,并對訓練數據進行特征提??;
對特征提取后的數據進行高斯歸一化處理,輸出歸一化數據;
無監(jiān)督學習預訓練步驟,采用受限制玻爾茲曼機(rbm)模型進行預訓練并通過無監(jiān)督學習的方式逐層漸進學習神經網絡參數;該步驟中,將歸一化后的訓練數據輸入深度神經網絡的輸入層,訓練第一個rbm1,得到第一個隱藏層及輸入層到第1隱藏層l1的網絡權重w1;把學習到的權重固定住,由rbm1隱層狀態(tài)來訓練下一個rbm2的輸入數據,重復i次,逐層訓練后續(xù)的rbm得到隱藏層l2~li及網絡權重矩陣w2~wi;
監(jiān)督學習優(yōu)化的步驟,采用反向傳播(back-propagation,bp)算法,利用標注數據對神經網絡參數進行有監(jiān)督的精細調整。
優(yōu)選地,所述特征提取步驟包括:
分幀步驟,對輸入數據進行分幀處理;
dft變換步驟,對分幀處理后的數據進行離散傅里葉變換得到頻域信息;
譜減濾波步驟,將所述頻域信息在頻譜上減去預先獲得的穩(wěn)態(tài)風機噪聲頻譜模板,輸出濾波數據;
對數功率譜處理步驟,對所述濾波數據進行對數功率譜處理。
優(yōu)選地,執(zhí)行神經網絡分類步驟之前,還包括:
平均能量檢測步驟,計算當前幀對數功率譜的平均能量值;
幀能量比較步驟,計算相鄰幀平均能量值的差值并判斷該差值是否超出預設的閾值,如果超過則執(zhí)行神經網絡分類步驟。
優(yōu)選地,所述平均能量檢測步驟還包括:
接收當前車流量信息的步驟,并計算當前幀平均能量值是否超出預設的相應車流量信息所對應的能量值范圍,如果超過則執(zhí)行神經網絡分類步驟。
優(yōu)選地,步驟s1中采用由多個麥克風組成的麥克風陣列對隧道內的聲音信號進行同步采集;并對每個麥克風采集的聲音信號進行標識后再進行傳輸;
所述麥克風陣列中多個麥克風呈一定幾何形狀固定設置在隧道內且每個麥克風具有唯一標識id。
優(yōu)選地,還包括:
聲音定位步驟,當所述神經網絡分類步驟中判定隧道內出現異常事件時,獲取該異常事件的時間信息并獲取相應麥克風陣列在該時間信息內的音頻信息,根據每個麥克風固定的位置關系以及每個麥克風在該時間信息中對應音頻信息的參數信息確定聲音所處的具體位置;
所述參數信息為每個麥克風在該時間信息中對應音頻信息的峰值強度以及每個麥克風在峰值強度對應的時間差。
優(yōu)選地,還包括采用可旋轉攝像裝置追蹤聲音所處的具體位置的步驟。
優(yōu)選地,還包括:
實時聲音處理步驟,當判定隧道內出現異常事件時,接收音頻信息并進行實時處理從而能夠實時獲取隧道內的聲音信號。
優(yōu)選地,包括設置在隧道中的多個聲音采集模塊、與所述聲音采集模塊相連接的聲音識別模塊、設置在隧道進口上方的顯示屏以及用于隧道監(jiān)控信息處理與控制的隧道監(jiān)控中心;
所述顯示屏用于顯示隧道監(jiān)控信息;
所述聲音采集模塊用于連續(xù)采集隧道內的聲音信號;
所述聲音識別模塊用于識別所采集的聲音信號中是否雜含碰撞聲/人聲并以此判斷隧道內是否出現異常事件;
如果判斷為出現異常事件,所述隧道監(jiān)控中心控制所述顯示屏顯示警報信息以提醒未駛入隧道車輛;
所述聲音識別模塊包括特征第一提取模塊、第一歸一化模塊、神經網絡分類模塊和神經網絡訓練模塊,其中,
所述第一特征提取模塊用于接收原始采集聲音數據,并對原始采集聲音數據進行特征提?。?/p>
所述第一歸一化模塊用于對特征提取后的數據進行高斯歸一化處理,輸出歸一化數據;
所述神經網絡分類模塊用于接收歸一化數據及預先訓練好的深度神經網絡,并通過深度神經網絡對所述歸一化數據進行分類識別獲得分類結果信息,所述分類結果信息為原始采集聲音數據是否雜含碰撞聲/人聲的概率值,當該概率值超過預先設定的閾值時,則判定隧道內出現異常事件;
所述神經網絡訓練模塊用于接收訓練數據并根據訓練數據進行神經網絡的訓練,得到充分學習帶噪樣本和干凈樣本之間的非線性映射關系的深度神經網絡,并輸出所述深度神經網絡至所述神經網絡分類模塊;
所述神經網絡訓練模塊包括第二特征提取模塊、第二歸一化模塊、無監(jiān)督學習預訓練模塊和監(jiān)督學習優(yōu)化模塊,其中,所述無監(jiān)督學習預訓練模塊用于發(fā)現輸入數據中深層的抽象特征,采用受限制玻爾茲曼機(rbm)模型進行預訓練并通過無監(jiān)督學習的方式逐層漸進學習神經網絡參數;所述監(jiān)督學習優(yōu)化模塊采用反向傳播(back-propagation,bp)算法,利用標注數據對神經網絡參數進行有監(jiān)督的精細調整。
優(yōu)選地,所述第一特征提取模塊/第二特征提取模塊進一步包括分幀模塊、dft變換模塊、譜減濾波模塊和對數功率譜處理模塊,其中,所述分幀模塊用于對輸入數據進行分幀處理;所述dft變換模塊用于對分幀處理后的數據進行離散傅里葉變換得到頻域信息;所述譜減濾波模塊用于將所述頻域信息在頻譜上減去預先獲得的穩(wěn)態(tài)風機噪聲頻譜模板,輸出濾波數據;所述對數功率譜處理模塊用于對所述濾波數據進行對數功率譜處理。
與現有技術相比較,本發(fā)明將聲音識別技術應用于隧道監(jiān)控領域,并根據隧道場景的特殊應用要求采用深度神經網絡實現隧道聲音識別,從而進一步完善了隧道安全的全方位監(jiān)控,并能及時預警隧道中的異常事件。
附圖說明
圖1為本發(fā)明高速公路隧道安全監(jiān)控方法的流程框圖。
圖2為步驟s2中聲音識別的流程框圖。
圖3為神經網絡訓練步驟的流程框圖。
圖4為實現本發(fā)明高速公路隧道安全監(jiān)控方法的系統(tǒng)的原理框圖。
圖5為本發(fā)明中聲音識別模塊的原理框圖。
圖6為受限制玻爾茲曼機(rbm)結構示意圖。
圖7為本發(fā)明中rbm的預訓練示意圖。
圖8為訓練得到的深度神經網絡的結構框圖。
圖9為本發(fā)明中特征提取模塊的原理框圖。
圖10為本發(fā)明中聲音識別模塊另一種實施方式的原理框圖。
圖11為本發(fā)明系統(tǒng)的另一種優(yōu)選實施方式的原理框圖。
圖12為本發(fā)明中聲音采集模塊的原理框圖。
圖13為麥克風陣列排布的示意圖。
圖14為本發(fā)明系統(tǒng)的又一種優(yōu)選實施方式的原理框圖。
如下具體實施例將結合上述附圖進一步說明本發(fā)明。
具體實施方式
以下將結合附圖對本發(fā)明提供的高速公路隧道安全監(jiān)控方法作進一步說明。
近幾年,隨著云計算、大數據、人工智能、高性能計算硬件技術的成熟,尤其是機器學習領域深度學習(deeplearning,dl)理論以及自動特征學習神經網絡模型的成熟,深度神經網絡在人工智能領域(智能圖像和聲音識別)已經廣泛應用,比如谷歌推出alphago戰(zhàn)勝人類棋王而震驚世界,其本質其實是智能圖形分析,通過機器學習的方式學習從一張棋譜圖形到下一張棋譜圖形變化的各種選擇,利用計算機的超強計算能力從而作出距離目標的最優(yōu)的選擇;蘋果公司應用于其iphone手機端的siri能夠將自然隨意對話下的大詞匯量連續(xù)語音識別而且識別率也非常高。就交通監(jiān)控系統(tǒng)而言,采用實時圖像分析技術檢測交通事件也已經有了廣泛深入的研究,采用視頻監(jiān)控的方式也是最直接最有效的監(jiān)控方式,然而,不幸的是,在隧道環(huán)境中,由于照明光線原因(自然光線不足、隧道照明光線和汽車車燈光線混雜多變),圖像分析準確率欠佳,同時動態(tài)圖像分析需要大量的數據計算,無法滿足實時分析的需求。
在重大交通事故發(fā)生時,車輛運行狀態(tài)發(fā)送了相應的變化,尤其是高速碰撞的時候,伴有劇烈碰撞的聲音,通過檢測碰撞聲就可以檢測隧道中的交通事故。然而,高速公路隧道中背景噪聲嘈雜,采用現有聲音檢測技術無法準確檢測碰撞聲。
申請人對隧道環(huán)境下的噪聲進行深入研究,經研究發(fā)現,隧道噪聲源主要由以下部分構成:隧道內通風機械運轉產生的噪聲,這是隧道內噪聲的重要來源,但其是穩(wěn)態(tài)的噪聲源,由機械設備的固有屬性決定,只要知道機械設備的運行狀態(tài),就可以準確確定該噪聲源的模型;還有就是交通車流產生的噪聲,該類噪聲隨車流量的增加而增加,主要包括車輛的發(fā)動機噪聲和輪胎在路面行駛產生的噪聲,發(fā)動機噪聲是汽車的主要噪聲源,車輛種類和車速對會影響,同樣的行駛速度,大型車噪聲最大,中型車次之,小型車最小;另外就是車輛行駛過程中隨機的鳴笛聲。因此,隧道中的背景噪聲較為混雜,幸運的是,隧道背景噪聲相對固定,其中,通風機械運轉產生的噪聲是穩(wěn)態(tài)噪聲,能夠預先獲取該噪聲的頻譜特征;而交通車流產生的噪聲與車流量是呈比例關系的,同時,車輛瞬時碰撞聲的強度是遠超上述背景噪聲的,其區(qū)分度是明顯的,這為在隧道背景噪聲下識別車輛碰撞聲提供了客觀基礎。同時,如果有人出現在隧道內,這是非常危險的情況(比如,發(fā)生車輛碰撞等交通事故之后,通常會造成車道擁堵,甚至會有車主下車理論的情形出現,極易出現次生事故)。通常采用圖像識別為主,人聲檢測為輔。因此,還有必要對人聲進行監(jiān)控,一旦檢測到聲音信號存在碰撞聲/人聲信息,則說明隧道內出現異常事件,須實時報警核實情況。
正如上文所介紹的,機器學習領域深度學習(deeplearning,dl)理論以及自動特征學習神經網絡模型的成熟,深度神經網絡在人工智能領域(智能圖像和聲音識別)已經廣泛應用,現有技術的語音識別技術能在復雜的背景環(huán)境噪聲下識別人的語音,而且能較準確識別語義。在語音識別技術領域中,在復雜的背景環(huán)境噪聲下識別是否存在語音(或者其他聲音)并不存在技術難度,而真正的難度在于語義識別,把語音高正確率的轉化成文字還不夠,要聽懂人類在說什么,要表達什么意圖,這個才是皇冠上的寶石。這主要是因為語音的種類有近乎無數種,而且不同的人更是有不同的口音,同時語音所處的背景噪聲環(huán)境更是多變,幾乎每個語音場景都會有不同的背景噪聲。因此,需要龐大的計算量才能完成實時語義分析,這對計算機計算性能要求是極高的。
相對于本申請的應用環(huán)境,雖然隧道背景噪聲的分貝較高,但其噪聲類型相對固定,碰撞聲的類型也是相對固定,碰撞聲識別的復雜度不及語音復雜度的萬分之一,同時碰撞聲瞬時強度極大,聲音特征容易分區(qū);對隧道內的人聲監(jiān)控,也只需要檢測是否存在人聲,而不需要語義識別。因此,針對上述應用需求,本申請通過架構dnn,在隧道背景噪聲識別碰撞聲/人聲,進而以此為基礎判斷隧道內是否出現異常事件。采用dnn的智能聲音識別相對于傳統(tǒng)聲音處理技術的優(yōu)勢在于,傳統(tǒng)聲音處理技術需要假設各種理想的狀態(tài),這些假設的理想性自然而然成為影響性能的重要因素,而dnn幾乎不需要任何其他條件假設,可以通過不斷學習不斷逼近,從而達到精確識別的目的。即dnn通過多層以及成千上萬個具有計算能力的神經元節(jié)點疊加成一個深度網絡結構,然后對這個dnn進行訓練,用大量干凈樣本和各種情形下的隧道噪聲訓練dnn,其目的是從已知的數據中學習到足夠的知識,然后推廣到未來新出現的數據,作出有效的決策。也即用dnn作為學習帶噪樣本和干凈樣本之間的非線性映射關系的回歸模型,利用dnn的深度結構以及非線性模擬能力,可以充分學習帶噪樣本和干凈樣本之間的復雜的相互作用關系,神經網絡的學習過程是一個無限逼近真實的過程,會根據輸入的數據自動調節(jié)神經網絡的參數和權重,其訓練的數據越多,識別的結果越準確。dnn訓練完成之后,實際檢測時,將實際隧道中采集的隧道聲信號輸入dnn中,從而判斷出該聲音信號是否雜含碰撞聲/人聲。
參見圖1,所示為本發(fā)明高速公路隧道安全監(jiān)控方法的流程框圖,包括以下步驟:
步驟s1:采集隧道內的聲音信號;
步驟s2:對所采集的聲音信號進行聲音識別;
步驟s3:根據聲音識別結果得出所采集的聲音信號中是否雜含碰撞聲/人聲并以此判斷隧道內是否出現異常事件;
步驟s4:設置在隧道進口上方的顯示屏顯示隧道監(jiān)控信息。
參見圖2,所示為步驟s2中聲音識別的流程框圖,包括:
特征提取步驟,接收原始采集聲音數據,并對原始采集聲音數據進行特征提取;
歸一化步驟,對特征提取后的數據進行高斯歸一化處理,輸出歸一化數據;
神經網絡分類步驟,接收歸一化數據及預先訓練好的深度神經網絡,并通過深度神經網絡對所述歸一化數據進行分類識別獲得分類結果信息,所述分類結果信息為原始采集聲音數據是否雜含碰撞聲/人聲的概率值,當該概率值超過預先設定的閾值時,則判定隧道內出現異常事件;
神經網絡訓練步驟,接收訓練數據并根據訓練數據進行神經網絡的訓練,得到充分學習帶噪樣本和干凈樣本之間的非線性映射關系的深度神經網絡;
參見圖3,所示為神經網絡訓練步驟的流程框圖,包括:
接收訓練數據,并對訓練數據進行特征提??;
對特征提取后的數據進行高斯歸一化處理,輸出歸一化數據;
無監(jiān)督學習預訓練步驟,采用受限制玻爾茲曼機(rbm)模型進行預訓練并通過無監(jiān)督學習的方式逐層漸進學習神經網絡參數;該步驟中,將歸一化后的訓練數據輸入深度神經網絡的輸入層,訓練第一個rbm1,得到第一個隱藏層及輸入層到第1隱藏層l1的網絡權重w1;把學習到的權重固定住,由rbm1隱層狀態(tài)來訓練下一個rbm2的輸入數據,重復i次,逐層訓練后續(xù)的rbm得到隱藏層l2~li及網絡權重矩陣w2~wi;
監(jiān)督學習優(yōu)化的步驟,采用反向傳播(back-propagation,bp)算法,利用標注數據對神經網絡參數進行有監(jiān)督的精細調整。
采用上述技術方案,通過深度神經網絡實現隧道聲音分類識別,從而能夠全方位提升隧道的安全性能。
在一種優(yōu)選實施方式中,特征提取步驟包括:
分幀步驟,對輸入數據進行分幀處理;
dft變換步驟,對分幀處理后的數據進行離散傅里葉變換得到頻域信息;
譜減濾波步驟,將所述頻域信息在頻譜上減去預先獲得的穩(wěn)態(tài)風機噪聲頻譜模板,輸出濾波數據;
對數功率譜處理步驟,對所述濾波數據進行對數功率譜處理。
其中,對數功率譜處理,相當于dft變換后的各個系數取模的平方和取對數,取對數可以模擬人耳對聲強的非線性感知特性,另外對數功率譜上信息比較完整,幾乎沒有丟失什么信息,有利于提高檢測精度。
進一步的,本申請針對隧道聲場的特殊性,直接通過譜減濾波將隧道場合中最大的噪聲源風機噪聲濾除,因為風機噪聲屬于穩(wěn)態(tài)噪聲,其頻譜信息是確定的,在深度神經網絡分類識別之前將穩(wěn)態(tài)的風機噪聲濾除,能夠進一步提高了檢測精度,同時也降低了神經網絡的復雜度。
在一種優(yōu)選實施方式中,執(zhí)行神經網絡分類步驟之前,還包括:
平均能量檢測步驟,計算當前幀對數功率譜的平均能量值;
幀能量比較步驟,計算相鄰幀平均能量值的差值并判斷該差值是否超出預設的閾值,如果超過則執(zhí)行神經網絡分類步驟。
在正常情況下,隧道中聲音信號是平穩(wěn)的,其能量是相對平穩(wěn)波動的,因此,可以預先測定實際聲音信號的波動范圍;而碰撞聲是一個突發(fā)的強脈沖能量,其強度值遠超正常波動范圍。本申請通過對當前幀對數功率譜進行平均能量檢測并進行相鄰幀幀能量比較,判斷相鄰幀平均能量值的差值是否超出預設的波動范圍,如果超過,則說明有強脈沖能量突增,執(zhí)行神經網絡分類步驟識別這段音頻信號中強脈沖是不是碰撞聲(主要區(qū)分鳴笛聲)。因此,通過幀能量預判作為啟動條件,從而深度神經網絡無需實時計算,使能夠通過人工智能芯片實現,本發(fā)明技術方案能在更多場合中得到應用。
在一種優(yōu)選實施方式中,平均能量檢測步驟還包括:
接收當前車流量信息的步驟,并計算當前幀平均能量值是否超出預設的相應車流量信息所對應的能量值范圍,如果超過則執(zhí)行神經網絡分類步驟。
正如上述所分析的,交通車流產生的噪聲與車流量是呈比例關系,雖然各種車型會有一定差異,基本上相對于特定的車流量存在對應聲音信號的能量范圍,能量范圍是可以通過采集實際隧道場合中的聲音數據分析來預先得到的。因此,通過判斷當前幀能量值是否在對應車流量的能量范圍之內作為深度神經網絡的開啟條件,在降低神經網絡工作時長的同時能夠進一步提高檢測精度。
在一種優(yōu)選實施方式中,步驟s1中采用由多個麥克風組成的麥克風陣列對隧道內的聲音信號進行同步采集;并對每個麥克風采集的聲音信號進行標識后再進行傳輸;其中,麥克風陣列中多個麥克風呈一定幾何形狀固定設置在隧道內且每個麥克風具有唯一標識id。
在一種優(yōu)選實施方式中,還包括:
聲音定位步驟,當神經網絡分類步驟中判定隧道內出現異常事件時,獲取該異常事件的時間信息并獲取相應麥克風陣列在該時間信息內的音頻信息,根據每個麥克風固定的位置關系以及每個麥克風在該時間信息中對應音頻信息的參數信息確定聲音所處的具體位置;參數信息為每個麥克風在該時間信息中對應音頻信息的峰值強度以及每個麥克風在峰值強度對應的時間差。
在一種優(yōu)選實施方式中,還包括采用可旋轉攝像裝置追蹤聲音所處的具體位置的步驟。
采用上述技術方案,隧道內出現異常事件后,能夠快速確定異常事件的位置,同時可旋轉攝像裝置能夠更準確地采集現場視頻,通過音視頻結合,減少了監(jiān)控的盲區(qū),從而能夠及時有效開展救援疏導工作。
在一種優(yōu)選實施方式中,還包括:
實時聲音處理步驟,當判定隧道內出現異常事件時,接收音頻信息并進行實時處理從而能夠實時獲取隧道內的聲音信號。
采用上述技術方案,通過實時獲取隧道內的聲音信號,能夠進一步獲取現場信息,克服現有視頻監(jiān)控在隧道中音頻質量差的技術缺陷,有助于有效開展救援工作;同時,從而當有人希望報警求救時,在隧道內大聲呼叫就可以進行報警,監(jiān)控中心就可以獲取報警信息,從而無需通過專心呼叫報警電話。
參見圖4,所示為實現本發(fā)明高速公路隧道安全監(jiān)控方法的系統(tǒng)的原理框圖,包括設置在隧道中的多個聲音采集模塊、與所述聲音采集模塊相連接的聲音識別模塊、設置在隧道進口上方的顯示屏以及用于隧道監(jiān)控信息處理與控制的隧道監(jiān)控中心;隧道監(jiān)控中心設置在離隧道不遠的隧道工作站中,通常有專人執(zhí)勤,及時安排救援排除隧道中出現的異常事件。顯示屏用于顯示隧道監(jiān)控信息;聲音采集模塊用于連續(xù)采集隧道內的聲音信號;聲音識別模塊用于識別所采集的聲音信號中是否雜含碰撞聲/人聲并以此判斷隧道內是否出現異常事件,并將相應信息發(fā)送給隧道監(jiān)控中心;一旦判斷為出現異常事件,隧道監(jiān)控中心控制顯示屏顯示警報信息以提醒未駛入隧道車輛,從而能夠及時預知隧道內的狀況,避免發(fā)送后發(fā)事故。
參見圖5,所示為本發(fā)明中聲音識別模塊的原理框圖,包括特征第一提取模塊、第一歸一化模塊、神經網絡分類模塊和神經網絡訓練模塊,其中,第一特征提取模塊用于接收原始采集聲音數據,并對原始采集聲音數據進行特征提取;第一歸一化模塊用于對特征提取后的數據進行高斯歸一化處理,輸出歸一化數據;
神經網絡分類模塊用于接收歸一化數據及預先訓練好的深度神經網絡,并通過深度神經網絡對歸一化數據進行分類識別獲得分類結果信息,分類結果信息為原始采集聲音數據是否雜含碰撞聲/人聲的概率值,當該概率值超過預先設定的閾值時,則判定隧道內出現異常事件;
神經網絡訓練模塊用于接收訓練數據并根據訓練數據進行神經網絡的訓練,得到充分學習帶噪樣本和干凈樣本之間的非線性映射關系的深度神經網絡,輸出深度神經網絡至神經網絡分類模塊;
神經網絡訓練模塊包括第二特征提取模塊、第二歸一化模塊、無監(jiān)督學習預訓練模塊和監(jiān)督學習優(yōu)化模塊,其中,第二特征提取模塊與第一特征提取模塊的功能結構完全相同,用于提取訓練數據的特征;第二歸一化模塊與第一歸一化模塊的功能結構完全相同,對所提取的特征進行高斯歸一化,即所有訓練數據的均值歸一化成0,方差規(guī)整為1。無監(jiān)督學習預訓練模塊將預處理訓練數據作為輸入進行非監(jiān)督學習初步訓練,用于初始化生成深度神經網絡的結構,通過無監(jiān)督學習的方式逐層漸進學習神經網絡參數,發(fā)現輸入數據中深層的抽象特征。神經網絡的每層采用受限制玻爾茲曼機(rbm)模型進行預訓練,通過多個rbm疊加成一個深度網絡結構。參見圖6,所示為受限制玻爾茲曼機(rbm)結構示意圖,rbm的對稱連接只存在于顯層節(jié)點和隱層節(jié)點之間,而在顯層節(jié)點和隱層節(jié)點的內部沒有任何形式的連接,可以認為層間是全連接,層內是無連接。rbm作為一種條件隨機場,其每個神經元節(jié)點描述了一個隨機變量的分布情況,通過各個神經元節(jié)點抓取輸入向量中的高階統(tǒng)計相關性來解釋和發(fā)現訓練輸入向量中包含的潛在規(guī)律。
由于rbm顯層和隱層內部都沒有連接,可以很方便的得到數據和模型分布下的各狀態(tài)的條件期望值。對于給定訓練數量v,隱層節(jié)點的狀態(tài)可以由以下公式(1)計算出:
p(hi=1|v)=σ(bj+∑viwij)(1)
然后使用對比散度算法(cd1算法,contrastivedivergence,cd)來訓練rbm,再使用梯度下降算法更新rbm參數:
上式(2)中,η為參數更新學習速率,i為迭代次數。通過調整rbm的模型參數,使得由rbm的指定的顯層數據的能量減少,從而增大顯層數據出現的概率,進而rbm學習到訓練數據的真實分布p(v)。
在按照上述方法訓練完成一個rbm以后,把學習到的權重固定住,由訓練數據計算得到的rbm隱層狀態(tài)可以用來作為訓練另一個rbm的輸入數據,也即使用訓練數據訓練第一個rbm得到一個隱藏層l1及其網絡權重w1,再使用前一隱藏層的輸出作為輸入數據,逐層訓練后續(xù)的rbm得到隱藏層l2~li及網絡權重矩陣w2~wi。具體訓練過程參見圖7,所示為本發(fā)明中rbm的預訓練示意圖,以此逐層貪婪式地初始化所有的網絡權重,從而進一步無監(jiān)督的學習rbm隱層單元之間的依賴關系。在訓練完所有的rbm后,把各個rbm疊加在一起,再最后一層疊加一個softmax層,從而構成一個自下向上的前饋的、深層的、區(qū)分性的用于分類的深層神經網絡。由于采用rbm的堆積構成一個深度網絡結構,以此作為深層神經網絡在有監(jiān)督訓練時的初始化網路權重,可防止它陷入局部最優(yōu)。
經過逐層的rbm生成性訓練,我們可以在權重空間中找到一個更好的區(qū)域,從這個區(qū)域出發(fā),可以使區(qū)分性的監(jiān)督學習優(yōu)化(精細調整)相對于從隨機初始化開始進行監(jiān)督學習優(yōu)化(精細調整)取得更好的性能提升,也能顯著減少過擬合的可能性。本發(fā)明中監(jiān)督學習優(yōu)化模塊采用現有技術常用的反向傳播(back-propagation,bp)算法,利用標注數據對神經網絡參數進行有監(jiān)督的精細調整。該算法中,通常分為兩步:1)向前響應傳播,即將輸入通過各個隱層獲得激勵響應,而上一層的輸出是下一層的輸入,直到最后一層獲得預測值;2)反向錯誤傳播,根據向前響應傳播到最后一層,可得到對信號的預測,這個預測值和參考信號的差異,就是需要反向傳播的錯誤。有了反向傳回的錯誤,就可以根據這個錯誤來調節(jié)神經網絡的各個權重和偏置。準備好dnn的輸入數據和輸出數據之后,就可以開始更新網絡的權重和偏置參數,即w和b,如下公式3所示:
這里λ代表學習速率,e表示一個用來優(yōu)化的目標函數,可以采用最小均方誤差準則;
實際神經網絡訓練中,訓練數據是否完備是影響檢測精度的關鍵因素。本發(fā)明中,構建“碰撞聲訓練數據集”、“隧道噪聲訓練數據集”以及“語音數據集”,其中,語音數據集采用標準timit數據庫獲取干凈音素集(人的語音最終都可以分解為各個音素,識別音素可以等價于人聲檢測,從而大大降低了復雜度);隧道噪聲訓練數據集通過在實際隧道環(huán)境下采集各種情形的聲音數據并根據車型和車流量對數據進行標注;碰撞聲訓練數據集收集各種車型碰撞試驗的聲音數據,并根據碰撞強度對數據進行標注;將干凈音素集、干凈碰撞聲集分別和隧道噪聲相加在一起,得到帶噪樣本。將以上訓練數據樣本輸入神經網絡模型訓練網絡的權重和偏置參數。參見圖8,所示為訓練得到的深度神經網絡的結構框圖,神經網絡包括1個輸入層,3個隱藏層l1~l3以及一個輸出層。輸入信號特征提取時,信號被采樣到8khz,相應的每個幀長被設定為256個樣本點(32毫秒),幀移是128個樣本點,短時傅里葉分析被用來計算每個重疊幀的dft系數,因此,輸入層采用128個節(jié)點,對應輸入數據的維度,輸出層為三維數據輸出,分別對應純噪聲、雜含碰撞聲以及雜含人聲。l1~l3中每層節(jié)點是2048個,其取決于訓練數據的多少,2048個對應100萬條訓練數據。每個受限玻爾茲曼機的預訓練的迭代次數是50次,預訓練的學習速率是0.0005,前二十次的有監(jiān)督的調優(yōu)的學習速率是0.1,然后將學習速率每次遞減百分之十,總的迭代次數是100次。
采用上述方式訓練的深度神經網絡,隨著訓練數據的增加,系統(tǒng)性能不斷提高,在分類測試中,實際區(qū)分度達到80%,實際中可將預警的閾值設置為60%,能夠作為隧道異常事件預警的有效評價指標。
參見圖9,所示為本發(fā)明中特征提取模塊的原理框圖,第一特征提取模塊/第二特征提取模塊進一步包括分幀模塊、dft變換模塊、譜減濾波模塊和對數功率譜處理模塊,其中,分幀模塊用于對輸入數據進行分幀處理,采用交疊分段,一般幀移占幀長的比重為0-50%;dft變換模塊用于對分幀處理后的數據進行離散傅里葉變換得到頻域信息;譜減濾波模塊用于將頻域信息在頻譜上減去預先獲得的穩(wěn)態(tài)風機噪聲頻譜模板,輸出濾波數據,上述已介紹,在隧道場合中,最大的噪聲源是用于隧道通風的風機噪聲,由于風機噪聲屬于穩(wěn)態(tài)噪聲,因此其頻譜信息是確定的,本發(fā)明采用在信號頻譜上直接減去穩(wěn)態(tài)風機噪聲頻譜的方式將風機噪聲濾除,從而進一步提高了檢測精度,同時降低了神經網絡的復雜度;對數功率譜處理模塊用于對濾波數據進行對數功率譜處理,相當于dft變換后的各個系數取模的平方和取對數,取對數可以模擬人耳對聲強的非線性感知特性,另外對數功率譜上信息比較完整,幾乎沒有丟失什么信息,有利于提高檢測精度。
在一種優(yōu)選實施方式中,碰撞聲識別模塊采用內置深度神經網絡的人工智能芯片實現。雖然現有技術中已有很多功能強大內置深度神經網絡的人工智能芯片,比如英偉達(nvidia)推出首款專門為深度學習從零開始設計的芯片teslap100,該芯片數據處理速度是其2014年推出gpu系列的12倍;谷歌為機器學習定制的芯片tpu將硬件性能提升至相當于按照摩爾定律發(fā)展7年后的水平;在人工智能領域,國內相關企業(yè)也不甘落后,比如成都啟英泰倫科技推出一款智能語音芯片ci1006,是基于asic架構的人工智能語音識別芯片,包含了深度神經網絡處理硬件單元,能夠完美支持dnn運算架構,進行高性能的數據并行計算,可極大的提高人工智能深度學習語音技術對大量數據的處理效率。但芯片級的計算性能畢竟還不能和pc級的計算性能相媲美,通常無法滿足實時性的要求。參見圖10,所示為本發(fā)明中聲音識別模塊另一種實施方式的原理框圖,聲音識別模塊還包括平均能量檢測模塊和幀能量比較模塊,其中,平均能量檢測模塊用于計算當前幀對數功率譜的平均能量值并發(fā)送給幀能量比較模塊;幀能量比較模塊用于計算相鄰幀平均能量值的差值并判斷該差值是否超出預設的閾值,如果超過則開啟神經網絡分類模塊。相對于位置固定的麥克風,其采集的聲音信號能量分布與實際聲場分布成一定比例關系。而在本申請的應用環(huán)境中,在正常情況下,聲音信號的能量是相對平穩(wěn)波動的,其波動范圍可以通過實際測定預先得到;而碰撞聲是一個突發(fā)的強脈沖能量,其強度值遠超正常波動范圍。因此通過前后幀能量比較可以判斷是否出現脈沖,如果有強脈沖能量突增,再開啟神經網絡分類模塊進行判斷這段音頻信號中強脈沖是不是碰撞聲(主要區(qū)分鳴笛聲)。采用上述技術方案,通過幀能量預判作為開啟條件,從而神經網絡分類模塊無需實時計算,能夠通過芯片級系統(tǒng)實現,使神經網絡聲音識別技術能在更多場合中得到應用。
在一種優(yōu)選實施方式中,幀能量比較模塊接收當前車流量信息,并計算當前幀平均能量值是否超出預設相應車流量信息所對應的能量值范圍,如果超過則開啟神經網絡分類模塊。正如上述所分析的,交通車流產生的噪聲與車流量是呈比例關系,雖然各種車型會有一定差異,基本上相對于特定的車流量存在對應聲音信號的能量范圍(已經在頻譜上濾除風機噪聲),我們可以通過采集實際隧道場合中的聲音數據并對大量數據進行分析來預先獲得這個能量范圍。因此,通過判斷當前幀能量值是否在對應車流量的能量范圍之內作為神經網絡分類模塊的開啟條件,在降低神經網絡工作時長的同時能夠進一步提高檢測精度。
參見圖11,所示為本發(fā)明系統(tǒng)的另一種優(yōu)選實施方式的原理框圖,聲音識別模塊設置在隧道監(jiān)控中心中,聲音采集模塊與隧道監(jiān)控中心采用光纖通訊。深度神經網絡對計算硬件的性能要求極高,尤其是要求實時監(jiān)測的應用場合。隨著“智能隧道”的普及,每個隧道都設置有監(jiān)控站,以及在隧道內鋪設光纖。本發(fā)明中隧道監(jiān)控中心通常設置在隧道附近的監(jiān)控站內,在監(jiān)控站內有完備的計算硬件,可以根據應用需求“無限”升級硬件設備,比如超大容量存儲設備,多臺計算機/服務器并行處理,每臺計算機/服務器中設置多塊cpu和gpu,因此,聲音識別模塊設置在隧道監(jiān)控中心中,從而有足夠的硬件條件能夠保證深度神經網絡的運行。聲音采集模塊與隧道監(jiān)控中心采用光纖通訊,從而極大提高了數據傳輸的速度,提高了系統(tǒng)實時檢測的性能。
參見圖12,所示為本發(fā)明中聲音采集模塊的原理框圖,聲音采集模塊進一步包括由多個麥克風組成的麥克風陣列、音頻處理模塊、控制模塊和傳輸模塊,其中,麥克風陣列中多個麥克風呈一定幾何形狀固定設置在隧道內且每個麥克風具有唯一標識id;控制模塊與音頻處理模塊和傳輸模塊相連接,用于控制音頻處理模塊和傳輸模塊的工作;音頻處理模塊用于同步獲取并標識每個麥克風采集的聲音信號并對聲音信號進行處理后輸出音頻信息,發(fā)送給傳輸模塊;傳輸模塊用于將音頻信息傳輸至隧道監(jiān)控中心。采用上述技術方案,通過音頻處理模塊同步采集麥克風陣列的音頻信號,任一個id的麥克風都采集連續(xù)的音頻信息,并通過傳輸模塊傳輸并保存在隧道監(jiān)控中心。由于設置多個麥克風,從而保證所采集音頻信號的完整性,彌補了現有技術視頻監(jiān)控在隧道中應用時音頻質量差的缺陷;同時,多個麥克風呈一定幾何形狀固定設置,參見圖13,所示為麥克風陣列排布的示意圖,多個唯一標識麥克風呈圓形設置且同步采樣,理論上,當區(qū)域內有聲源發(fā)出聲音時,由于聲源距離每個麥克風距離不一樣,因此每個麥克風接收到信號的強度以及信號到達的時間會出現差異,因此,根據每個麥克風收到的差異性信號以及每個麥克風確定的相對位置信息,便能確定聲源所處的位置。
為了及時確定碰撞聲的具體位置,參見圖14,所示為本發(fā)明系統(tǒng)的又一種優(yōu)選實施方式的原理框圖,隧道監(jiān)控中心還設置有聲音定位模塊,當聲音識別模塊判定隧道內出現異常事件時,獲取該異常事件的時間信息;聲音定位模塊接入數據庫并獲取相應麥克風陣列在該時間信息內的音頻信息,并根據每個麥克風固定的位置關系以及每個麥克風在該時間信息中對應音頻信息的參數信息確定聲音所處的具體位置;其中,參數信息為每個麥克風在該時間信息中對應音頻信息的峰值強度以及每個麥克風在峰值強度對應的時間差。也即當聲音識別模塊判定隧道內出現異常事件后,聲音定位模塊能夠快速確定異常事件的位置,從而能夠及時有效開展救援疏導工作。
在一種優(yōu)選實施方式中,還包括可旋轉攝像裝置,可旋轉攝像裝置設置在隧道中并通過光纖與隧道監(jiān)控中心相連接,當聲音識別模塊判定隧道內出現異常事件時,隧道監(jiān)控中心控制可旋轉攝像裝置旋轉鏡頭至聲音定位模塊所確定的具體位置。采用上述技術方案,可旋轉攝像裝置能夠更準確地采集現場視頻,從而通過音視頻結合,減少了監(jiān)控的盲區(qū)。
在一種優(yōu)選實施方式中,隧道監(jiān)控中心還設置有實時聲音處理模塊,當聲音識別模塊判定隧道內出現異常事件時,實時聲音處理模塊用于接收聲音采集模塊發(fā)送的音頻信息并進行實時處理從而能夠實時獲取隧道內的聲音信號。采用上述技術方案,從而能夠克服現有視頻監(jiān)控在隧道中音頻質量差的技術缺陷,通過實時獲取隧道內的聲音信號,有助于開展救援工作,同時,當有人希望報警求救時,在隧道內大聲呼叫就可以進行報警,監(jiān)控中心就可以獲取報警信息,從而無需通過專心呼叫報警電話。
在一種優(yōu)選實施方式中,聲音采集模塊與隧道照明系統(tǒng)一體設置?,F有技術中,隧道照明系統(tǒng)用于對每個隧道燈進行智能控制,從而提供一個舒適的隧道照明環(huán)境。將聲音采集模塊與隧道照明系統(tǒng)一體設置可以減少系統(tǒng)布線的工程量。更優(yōu)選地,聲音采集模塊可以集成在隧道燈中,麥克風陣列可以布置在隧道燈的燈具表面,從而現有隧道改造時,無需重新布線。
在一種優(yōu)選實施方式中,還包括車流量檢測裝置,車流量檢測裝置用于采集車流量信息并發(fā)送給隧道監(jiān)控中心。
以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想。應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以對本發(fā)明進行若干改進和修飾,這些改進和修飾也落入本發(fā)明權利要求的保護范圍內。
對所公開的實施例的上述說明,使本領域專業(yè)技術人員能夠實現或使用本發(fā)明。對這些實施例的多種修改對本領域的專業(yè)技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。