一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控方法

文檔序號(hào)：2823997閱讀：566來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控方法
技術(shù)領(lǐng)域：
本發(fā)明屬于安防監(jiān)控領(lǐng)域，尤其涉及了一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控方法。
背景技術(shù)：
自9.11事件以后，如何對(duì)國(guó)家重要安全部門和敏感的公共場(chǎng)合進(jìn)行全天候、自動(dòng)、實(shí)時(shí)的監(jiān)控，已成為世界各國(guó)高度重視的一個(gè)問(wèn)題。在這樣的背景下，安防監(jiān)控技術(shù)得到了廣泛的應(yīng)用和發(fā)展。在中國(guó)，安防監(jiān)控行業(yè)應(yīng)用市場(chǎng)每年保持20%左右的增長(zhǎng) 速度，日益增長(zhǎng)的監(jiān)控行業(yè)足可以體現(xiàn)出國(guó)家對(duì)安防監(jiān)控的重視。視頻監(jiān)控一直被當(dāng)作一種有效的監(jiān)控手段而廣泛應(yīng)用于安防領(lǐng)域，即通過(guò)聯(lián)網(wǎng) 的方式分散放置攝像機(jī)進(jìn)行場(chǎng)景記錄監(jiān)控，并集中顯示，監(jiān)控人員可以實(shí)時(shí)了解各個(gè)監(jiān) 控場(chǎng)景發(fā)生的事件，監(jiān)控人員可根據(jù)監(jiān)控畫面中當(dāng)事人的行為判斷出其意圖，遇到突發(fā) 事件可迅速采取措施。目前的視頻監(jiān)控系統(tǒng)中監(jiān)控人員起著至關(guān)重要的作用，監(jiān)控人員通過(guò)人眼檢測(cè) 實(shí)時(shí)監(jiān)控每路視頻。有關(guān)研究表明即使是專業(yè)操作人員只要連續(xù)專注于多個(gè)監(jiān)控屏幕超過(guò)20分鐘，監(jiān)控人員的注意力都會(huì)降低至不能滿足監(jiān)控要求的水平。經(jīng)過(guò)長(zhǎng)時(shí)間的工作，人員易疲勞、漏報(bào)現(xiàn)象多等問(wèn)題會(huì)逐漸顯現(xiàn)出來(lái)，大大降低視頻監(jiān)控的監(jiān)督作用，現(xiàn)有監(jiān)控系統(tǒng)通常的做法是將攝像機(jī)的輸出結(jié)果記錄下來(lái)，當(dāng)事故發(fā)生之后，保安人員才通過(guò)記錄的結(jié)果觀察發(fā)生的事實(shí)，但往往為時(shí)已晚。另一方面，視頻監(jiān)控通常只針對(duì) 視頻信息進(jìn)行處理，僅依靠視頻信息并不能完全準(zhǔn)確的反應(yīng)出監(jiān)控場(chǎng)景的實(shí)地情況，仍具有一定的局限性受到視角的限制，對(duì)于攝像頭監(jiān)控范圍以外區(qū)域發(fā)生的事情，視頻監(jiān)控則無(wú)能為力；此外，受到光照、天氣的影響，尤其是夜間，視頻監(jiān)控作用會(huì)急劇下降。人眼檢測(cè)的弊端和視頻監(jiān)控系統(tǒng)自身的缺陷制約著監(jiān)控系統(tǒng)性能的發(fā)揮，降低了監(jiān) 控效率，往往會(huì)導(dǎo)致一些突發(fā)事件的遺漏，甚至造成不可挽回的損失。而目前我們希望的監(jiān)控系統(tǒng)應(yīng)能夠每天連續(xù)24小時(shí)的實(shí)時(shí)智能監(jiān)視，當(dāng)異常情況發(fā)生時(shí)，系統(tǒng)能向保衛(wèi) 人員準(zhǔn)確及時(shí)地發(fā)出警報(bào)，從而避免事故的發(fā)生，同時(shí)也希望減少人力、物力和財(cái)力的投入。語(yǔ)言作為人類最重要的交流工具，它自然方便、準(zhǔn)確高效。在發(fā)生爭(zhēng)吵、打架、呼救等情況時(shí)，所包含的語(yǔ)音信息尤為豐富，以此為據(jù)，用語(yǔ)音識(shí)別技術(shù)處理某些監(jiān)控場(chǎng)景中的語(yǔ)音數(shù)據(jù)也可當(dāng)作一種重要的安防監(jiān)控手段。特別是近二十年來(lái)，語(yǔ)音識(shí) 別技術(shù)取得顯著進(jìn)步，開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì)，未來(lái)十年內(nèi)，語(yǔ)音識(shí)別技術(shù) 將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的技術(shù)關(guān)鍵，語(yǔ)音識(shí)別技術(shù)一直受到各國(guó) 科學(xué)界的廣泛關(guān)注。如今，隨著語(yǔ)音識(shí)別技術(shù)的研究突破，其對(duì)計(jì)算機(jī)的發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。

發(fā)明內(nèi)容
為了解決視頻監(jiān)控存在的問(wèn)題，本發(fā)明提供一種安防監(jiān)控新方法，在現(xiàn)有的視頻監(jiān)控技術(shù)上引入了語(yǔ)音識(shí)別技術(shù)，利用音頻信息和視頻信息相對(duì)獨(dú)立處理，充分發(fā)揮各自的優(yōu)勢(shì)，進(jìn)行監(jiān)控手段相互補(bǔ)充，構(gòu)建具有主動(dòng)預(yù)警、監(jiān)控畫面智能切換功能的新型安防監(jiān)控系統(tǒng)。從而使監(jiān)控系統(tǒng)在具備“視覺(jué)”功能的基礎(chǔ)上擁有一定的“聽(tīng)覺(jué)”功能，解決了僅依靠視頻信息監(jiān)控的局限性。本發(fā)明采用語(yǔ)音識(shí)別技術(shù)處理監(jiān)控場(chǎng)景中的語(yǔ)音數(shù)據(jù)，對(duì)其中敏感詞匯進(jìn)行預(yù)警，實(shí)現(xiàn)監(jiān)控系統(tǒng)主動(dòng)預(yù)警，并由預(yù)警信號(hào)觸發(fā)監(jiān)控畫面自動(dòng)切換，解決了因工作時(shí)間長(zhǎng)導(dǎo)致的監(jiān)控人員疲勞、漏報(bào)現(xiàn)象多等問(wèn)題，提升了視頻監(jiān)控的效率，使視頻監(jiān)控系統(tǒng)性能更好的發(fā)揮。上述新型安防監(jiān)控系統(tǒng)是在數(shù)字視頻監(jiān)控系統(tǒng)基礎(chǔ)上加入了語(yǔ)音處理識(shí)別模塊以及預(yù)警判別模塊，由于采用音頻和視頻相對(duì)獨(dú)立處理，因而便于原有視頻監(jiān)控設(shè)備進(jìn) 行升級(jí)和更新。系統(tǒng)工作之前，針對(duì)需要監(jiān)控場(chǎng)景中所使用敏感詞匯集中建立語(yǔ)音模版庫(kù)，語(yǔ)音庫(kù)內(nèi)容可根據(jù)不同的監(jiān)控場(chǎng)景選擇不同的詞匯。例如，針對(duì)發(fā)生爭(zhēng)吵、打架、呼救等情況中所使用的“救命”、“救人”、“來(lái)人啊”、“打架了”等。系統(tǒng)工作時(shí)，每路監(jiān)控場(chǎng)景的視頻信息和語(yǔ)音信息分別用兩個(gè)通道采集。對(duì)視頻信息進(jìn)行編碼并轉(zhuǎn)換格式，將處理后的視頻數(shù)據(jù)通過(guò)專網(wǎng)或局域網(wǎng)送至監(jiān)控室顯示并且保存；語(yǔ)音信息送往語(yǔ)音處理識(shí)別模塊進(jìn)行語(yǔ)音識(shí)別。之后，預(yù)警判別模塊會(huì)對(duì)監(jiān)控場(chǎng)景中語(yǔ)音數(shù)據(jù)識(shí) 別結(jié)果進(jìn)行辨別，排除無(wú)關(guān)語(yǔ)音信息的干擾，對(duì)已建立的語(yǔ)音模版庫(kù)中包含的敏感詞匯進(jìn)行預(yù)警，并發(fā)出一個(gè)預(yù)警控制信號(hào)。用預(yù)警控制信號(hào)來(lái)觸發(fā)畫面切換裝置，主監(jiān)控屏幕畫面將根據(jù)發(fā)出的預(yù)警控制信號(hào)來(lái)源進(jìn)行場(chǎng)景畫面間的切換。由此達(dá)到主動(dòng)預(yù)警以及監(jiān)控畫面智能切換的功能。本發(fā)明采用的技術(shù)方案包括如下6個(gè)循環(huán)步驟
1.監(jiān)控系統(tǒng)工作以前先建立語(yǔ)音模板庫(kù)，針對(duì)監(jiān)控場(chǎng)景中出現(xiàn)的敏感詞匯集中建立語(yǔ)音模版庫(kù)，需要錄音人數(shù)在幾十人左右，采集多位男聲和女聲的語(yǔ)音樣本作為訓(xùn) 練數(shù)據(jù)，內(nèi)容可根據(jù)不同的監(jiān)控場(chǎng)景選擇不同的詞匯，例如可針對(duì)發(fā)生爭(zhēng)吵、打架、呼救等情況中所用使用的“救命”、“救人”、“來(lái)人啊”、“打架了”等標(biāo)志性詞作為錄制內(nèi)容。錄音分階段進(jìn)行，訓(xùn)練語(yǔ)料內(nèi)容基本為孤立詞和短句子。語(yǔ)音模版庫(kù)先由每個(gè)錄音者的語(yǔ)音樣本數(shù)據(jù)分別訓(xùn)練，得到多個(gè)參考模板，每個(gè)參考模板是多個(gè)詞匯的隱馬爾可夫模型(hidden Markov model, HMM)集合，建立的HMM模型不僅包括初始狀態(tài)概率、狀態(tài)轉(zhuǎn)移概率矩陣、觀測(cè)概率矩陣三個(gè)參數(shù)，還包括狀態(tài)轉(zhuǎn)移次數(shù)、狀態(tài)輸出矢量數(shù)和狀態(tài)數(shù)目共6個(gè)參數(shù)，最后通過(guò)模型合并重估的方法將多個(gè)參考模板合并成一個(gè)，完成建庫(kù)；
2.系統(tǒng)開(kāi)始工作，利用聲音采集裝置和攝像裝置分別采集監(jiān)控場(chǎng)景的視頻信息和語(yǔ)音信息；
3.對(duì)視頻信號(hào)進(jìn)行編碼并進(jìn)行格式轉(zhuǎn)換，將處理后的視頻數(shù)據(jù)通過(guò)專網(wǎng)或局域網(wǎng)送至監(jiān)控室顯示并且保存，語(yǔ)音信息則送往音頻處理識(shí)別模塊經(jīng)過(guò)一系列處理后進(jìn)行語(yǔ)音識(shí)別，處理順序?yàn)椴蓸?、量化、分幀、加窗、預(yù)加重、端點(diǎn)檢測(cè)、提取語(yǔ)音特征、倒譜均減(cepstral mean subtraction, CMS)、語(yǔ)音識(shí)另ij ；
4. 將語(yǔ)音識(shí)別的結(jié)果送到預(yù)警判別模塊進(jìn)行判別，本設(shè)計(jì)的判別算法使用基于反詞模型的拒識(shí)方法，對(duì)每個(gè)關(guān)鍵詞模型都訓(xùn)練相應(yīng)的反詞模型，反詞模型主要用其它與關(guān)鍵詞極易混淆的語(yǔ)音數(shù)據(jù)訓(xùn)練而成，反詞模型具有和關(guān)鍵詞模型相同的結(jié)構(gòu)，針對(duì)場(chǎng)景中出現(xiàn)的、語(yǔ)音庫(kù)中未包括的正常語(yǔ)音信息會(huì)予以排除，對(duì)監(jiān)控場(chǎng)景中出現(xiàn)的、并在語(yǔ)音庫(kù)中包含的敏感詞匯則由預(yù)警模塊產(chǎn)生預(yù)警控制信號(hào)并報(bào)警，實(shí)現(xiàn)主動(dòng)預(yù)警功能；
5.預(yù)警控制信號(hào)觸發(fā)畫面切換裝置，主監(jiān)控屏幕畫面切換為與發(fā)出預(yù)警控制信號(hào)相匹配的監(jiān)控畫面以供監(jiān)控人員分析，實(shí)現(xiàn)監(jiān)控畫面智能切換功能；
6.完成一次檢測(cè)后，重復(fù)步驟2到5，進(jìn)行下一次檢測(cè)。本發(fā)明的有益效果是利用音頻信息的主動(dòng)預(yù)警功能彌補(bǔ)了監(jiān)控設(shè)備視角范圍限制以及視頻監(jiān)控受到光照、天氣等自然環(huán)境的影響。預(yù)警控制信號(hào)實(shí)現(xiàn)的監(jiān)控畫面智能切換功能解決了人眼檢測(cè)存在的問(wèn)題，避免了監(jiān)控人員長(zhǎng)時(shí)間專注多個(gè)屏幕而導(dǎo)致注意力下降，不易出現(xiàn)事故，大大提高監(jiān)控效率，使得視頻監(jiān)控更加準(zhǔn)確、智能、人性化，同時(shí)也減少雇傭大批監(jiān)視人員所需要的人力、物力和財(cái)力的投入。

圖1為基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控系統(tǒng)構(gòu)成示意圖。圖2為圖1所示的語(yǔ)音處理識(shí)別模塊原理框圖。圖3為圖2所示的預(yù)處理特征提取模塊原理框圖。圖4為監(jiān)控系統(tǒng)中語(yǔ)音通道工作流程圖。圖5、圖6為采用本發(fā)明監(jiān)控方法一種應(yīng)用示意圖。圖1為本發(fā)明所提供的基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控系統(tǒng)構(gòu)成示意圖。監(jiān) 控系統(tǒng)的一路架構(gòu)由監(jiān)控由攝像裝置(101)、視頻信號(hào)編碼模塊(102)，監(jiān)控畫面顯示器 (103)，聲音采集裝置(104)、語(yǔ)音處理識(shí)別模塊(105)、預(yù)警判別模塊(106)、預(yù)警指示裝置(107)組成。此外，各路的場(chǎng)景信息的傳送還需要局域網(wǎng)或?qū)＞W(wǎng)(301)進(jìn)行傳送，公共場(chǎng)景顯示使用主監(jiān)控屏幕(401)以及換面切換裝置(501)。圖2為本發(fā)明監(jiān)控系統(tǒng)語(yǔ)音通道核心處理部分語(yǔ)音處理識(shí)別模塊(105)的架構(gòu) 圖，語(yǔ)音處理識(shí)別模塊(105)結(jié)構(gòu)包括兩大部分語(yǔ)音庫(kù)錄入和模式識(shí)別。語(yǔ)音庫(kù)錄入包括以下幾個(gè)模塊，訓(xùn)練數(shù)據(jù)(1051)、預(yù)處理特征提取(1052)、參考模版訓(xùn)練(1053)、參考模版(1054)；模式識(shí)別部分包括預(yù)處理特征提取(1056)、模版匹配(1057)以及語(yǔ)音識(shí)別(1058)，其中預(yù)處理特征提取(1052)與預(yù)處理特征提取(1056)功能完全相同。圖3為圖2所示的預(yù)處理特征提取原理框圖，語(yǔ)音數(shù)據(jù)依次經(jīng)過(guò)以下處理采樣(IO52A)、量化(IO52B)、分幀(IO52C)、加窗(IO52D)、預(yù)加重(1052E)、端點(diǎn)檢測(cè) (1052F)、特征提取(1052G)、倒譜均減(1052H)。下面結(jié)合附圖對(duì)本發(fā)明所提供的視頻監(jiān)控方法的實(shí)施方式做進(jìn)一步說(shuō)明。
具體實(shí)施例方式系統(tǒng)工作前需要事先建立語(yǔ)音模板庫(kù)，建庫(kù)工作流程如圖2中語(yǔ)音庫(kù)錄入部分所示。考慮到本發(fā)明實(shí)用場(chǎng)合，不能使用說(shuō)話人自適應(yīng)的方法(此方法每次使用前都需要使用者進(jìn)行訓(xùn)練，且訓(xùn)練好以后只能供訓(xùn)練者使用)達(dá)到非特定人識(shí)別的目的，所以必須采集大量人的語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù)，需要錄音人數(shù)在幾十人左右，分別采集多位男聲和女聲的語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù)(1051)，訓(xùn)練數(shù)據(jù)(1051)的內(nèi)容可根據(jù)監(jiān)控場(chǎng)景中的突發(fā)事件所含的敏感詞匯來(lái)制定。例如可針對(duì)發(fā)生爭(zhēng)吵、打架、呼救等情況中所用使用的“救命”、“救人”、“來(lái)人啊”、“打架了”等標(biāo)志性詞作為錄制內(nèi)容。錄音分 3 5個(gè)階段進(jìn)行，訓(xùn)練語(yǔ)料內(nèi)容基本為孤立詞和短句子。分階段錄音是由于語(yǔ)音的動(dòng)態(tài) 范圍很大，不同說(shuō)話人的語(yǔ)音，甚至是同一說(shuō)話人在不同時(shí)間和場(chǎng)合的語(yǔ)音都有很大的不同，所以庫(kù)中應(yīng)該盡量包含多樣的語(yǔ)音信息，從而保持高的識(shí)別率。在每個(gè)階段中，每個(gè)詞每人錄5 10次。如圖3所示，預(yù)處理特征提取(1052)對(duì)訓(xùn)練數(shù)據(jù)如下處理，采樣(1052A)、量化(1052B)、分幀(1052C)、加窗(1052D)、預(yù)加重(1052E)、端點(diǎn)檢測(cè)(1052F)、特征提取(1052G)、倒譜均減(1052H)處理。首先將訓(xùn)練數(shù)據(jù)(1051)進(jìn)行采樣(1052A)和量化(1052B)，數(shù)字化以后的語(yǔ)音信號(hào)實(shí)際上是一個(gè)時(shí)變信號(hào)，但其在IOms 30ms短時(shí)間內(nèi)是平穩(wěn)的，為了得到短時(shí)的語(yǔ) 音信號(hào)，要對(duì)語(yǔ)音信號(hào)進(jìn)行加窗(1052D)操作，窗函數(shù)平滑的在語(yǔ)音信號(hào)上滑動(dòng)，將語(yǔ) 音信號(hào)分成幀。分幀(1052C)可以連續(xù)，也可以采用交疊分段的方法，交疊部分稱為幀移，幀移一般選為窗長(zhǎng)的1/2，窗函數(shù)選擇漢明窗(hamming)，即
權(quán)利要求
1.一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控方法其特征在于將語(yǔ)音識(shí)別技術(shù)作為輔助的視頻監(jiān)控手段引入到視頻監(jiān)控中，視頻信號(hào)和音頻信號(hào)進(jìn)行獨(dú)立處理，用語(yǔ)音識(shí) 別技術(shù)處理監(jiān)控場(chǎng)景中的語(yǔ)音數(shù)據(jù)，對(duì)其中敏感詞匯進(jìn)行預(yù)警，來(lái)實(shí)現(xiàn)監(jiān)控系統(tǒng)主動(dòng)預(yù) 警，并由預(yù)警信號(hào)觸發(fā)監(jiān)控畫面自動(dòng)切換，從而可以使監(jiān)控系統(tǒng)具備主動(dòng)預(yù)警、監(jiān)控畫面智能切換功能，包括如下6個(gè)循環(huán)步驟(1)事先建立語(yǔ)音模板庫(kù)，針對(duì)監(jiān)控場(chǎng)景中出現(xiàn)的敏感詞匯集中建立語(yǔ)音模版庫(kù)，需要錄音人數(shù)在幾十人左右，采集多個(gè)男聲和女聲的語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù)，訓(xùn)練數(shù)據(jù)的內(nèi)容可根據(jù)不同的監(jiān)控場(chǎng)景選擇不同的詞匯，訓(xùn)練數(shù)據(jù)錄制分階段進(jìn)行，訓(xùn)練語(yǔ) 料內(nèi)容基本為孤立詞和短句子；(2)建庫(kù)完畢后，系統(tǒng)開(kāi)始工作，利用聲音采集裝置和攝像裝置分別采集監(jiān)控場(chǎng) 景的視頻信息和語(yǔ)音信息；(3)對(duì)視頻信號(hào)進(jìn)行編碼并進(jìn)行格式轉(zhuǎn)換，將處理后的視頻數(shù)據(jù)通過(guò)專網(wǎng)或局域網(wǎng)送至監(jiān)控室顯示并且保存，語(yǔ)音信息則送往語(yǔ)音處理識(shí)別模塊經(jīng)過(guò)一系列處理后進(jìn)行語(yǔ)音識(shí)別；(4)將語(yǔ)音識(shí)別的結(jié)果送到預(yù)警判別模塊進(jìn)行判別，針對(duì)場(chǎng)景中出現(xiàn)的、語(yǔ)音庫(kù) 中未包括的正常語(yǔ)音信息會(huì)予以排除，對(duì)監(jiān)控場(chǎng)景中出現(xiàn)的、并在語(yǔ)音庫(kù)中包含的敏感詞匯則由預(yù)警模塊產(chǎn)生預(yù)警控制信號(hào)并報(bào)警，實(shí)現(xiàn)主動(dòng)預(yù)警功能；(5)預(yù)警控制信號(hào)觸發(fā)畫面切換裝置，主監(jiān)控屏幕畫面切換為與發(fā)出預(yù)警控制信號(hào)相匹配的監(jiān)控畫面以供監(jiān)控人員分析，實(shí)現(xiàn)監(jiān)控畫面智能切換功能；(6)完成以上檢測(cè)后，重復(fù)步驟(2)到(5)，進(jìn)行下一次檢測(cè)。
2.如權(quán)利要求1所述的監(jiān)控方法，其特征在于語(yǔ)音模版庫(kù)是開(kāi)放式的，其中的敏感詞匯內(nèi)容可根據(jù)監(jiān)控需要進(jìn)行制定，分階段錄音是針對(duì)語(yǔ)音的動(dòng)態(tài)范圍很大，保證庫(kù)中盡量包含多樣的語(yǔ)音信息，保持高的語(yǔ)音識(shí)別率；語(yǔ)音模版庫(kù)先由每個(gè)錄音者的語(yǔ) 音樣本數(shù)據(jù)分別訓(xùn)練，得到多個(gè)參考模板，每個(gè)參考模版是多個(gè)詞匯的隱馬爾科夫模型 (hidden Markov model, HMM)集合，最后通過(guò)模型合并重估的方法將多個(gè)參考模板合并成一個(gè)，完成建庫(kù)，既減少了新增數(shù)據(jù)的訓(xùn)練運(yùn)算量又達(dá)到非特定人識(shí)別的目的。
3.如權(quán)利要求1所述的監(jiān)控方法，其特征在于建立的HMM模型不僅包括初始狀態(tài) 概率、狀態(tài)轉(zhuǎn)移概率矩陣、觀測(cè)概率矩陣三個(gè)參數(shù)，還包括狀態(tài)轉(zhuǎn)移次數(shù)、狀態(tài)輸出矢量數(shù)和狀態(tài)數(shù)目共6個(gè)參數(shù)，其中后三個(gè)參數(shù)是為了應(yīng)用模型合并重估方法而設(shè)置的。
4.如權(quán)利要求1所述的監(jiān)控方法，其特征在于語(yǔ)音處理識(shí)別模塊中對(duì)監(jiān)控場(chǎng)景中的語(yǔ)音信息處理順序?yàn)椴蓸印⒘炕?、分幀、加窗、預(yù)加重、端點(diǎn)檢測(cè)、提取語(yǔ)音特征、倒譜均減(cepstral mean subtraction, CMS)后進(jìn)行語(yǔ)音識(shí)別，語(yǔ)音特征提取使用倒譜均減的方法進(jìn)行處理克服了傳輸設(shè)備線路不同而導(dǎo)致的信道畸變對(duì)語(yǔ)音識(shí)別的影響，在此使用倒譜均減的方法解決數(shù)據(jù)訓(xùn)練環(huán)境與實(shí)際使用環(huán)境中信道的不匹配導(dǎo)致識(shí)別率下降的影響。
5.如權(quán)利要求1所述的監(jiān)控方法，其特征在于所述預(yù)警判別模塊采用基于反詞模型的拒識(shí)方法對(duì)語(yǔ)音識(shí)別結(jié)果進(jìn)行判別，實(shí)際系統(tǒng)中需對(duì)每個(gè)關(guān)鍵詞HMM模型都訓(xùn)練相應(yīng)的反詞模型，反詞模型主要用其它與關(guān)鍵詞極易混淆的語(yǔ)音數(shù)據(jù)訓(xùn)練而成，反詞模型具有和關(guān)鍵詞HMM模型相同的結(jié)構(gòu)，如相同的狀態(tài)數(shù)目和每個(gè)狀態(tài)的混合數(shù)。
6.如權(quán)利要求1所述的監(jiān)控方法，其特征在于主動(dòng)預(yù)警功能針對(duì)監(jiān)控場(chǎng)景中出現(xiàn) 的、并在語(yǔ)音庫(kù)中包含的敏感詞匯進(jìn)行預(yù)警，而對(duì)場(chǎng)景中出現(xiàn)的、語(yǔ)音庫(kù)中未包括的正常語(yǔ)音信息會(huì)予以排除，當(dāng)監(jiān)控場(chǎng)景發(fā)生事故時(shí)，當(dāng)事人通過(guò)語(yǔ)音信息可以直接對(duì)監(jiān)控中心工作人員發(fā)出預(yù)警。
7.如權(quán)利要求1所述的監(jiān)控方法，其特征在于預(yù)警判別模塊判別某語(yǔ)音段為庫(kù) 中敏感詞匯后會(huì)驅(qū)動(dòng)預(yù)警指示裝置報(bào)警，同時(shí)發(fā)出預(yù)警控制信號(hào)觸發(fā)畫面切換裝置，主監(jiān)控屏幕畫面切換為與發(fā)出預(yù)警控制信號(hào)相匹配的監(jiān)控畫面，實(shí)現(xiàn)監(jiān)控畫面智能切換功能。
全文摘要
本發(fā)明涉及一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控方法，該方法將語(yǔ)音識(shí)別技術(shù)作為輔助的監(jiān)控手段引入到視頻監(jiān)控系統(tǒng)中，使監(jiān)控系統(tǒng)在具備“視覺(jué)”功能的基礎(chǔ)上擁有一定的“聽(tīng)覺(jué)”功能，構(gòu)建了具有主動(dòng)預(yù)警、監(jiān)控畫面智能切換等功能的視頻監(jiān)控系統(tǒng)。該方法事先建立敏感詞匯庫(kù)，而后采用語(yǔ)音識(shí)別技術(shù)處理監(jiān)控場(chǎng)景中的語(yǔ)音數(shù)據(jù)，檢測(cè)該語(yǔ)音數(shù)據(jù)中是否包含敏感詞匯，若存在敏感詞匯則發(fā)出語(yǔ)音告警信號(hào)和監(jiān)控畫面切換信號(hào)，畫面切換裝置根據(jù)畫面切換信號(hào)自動(dòng)切換監(jiān)控畫面，從而解決了依靠人眼檢測(cè)導(dǎo)致的監(jiān)控人員易疲勞、漏報(bào)現(xiàn)象多等問(wèn)題，克服了僅依靠視頻信息監(jiān)控的局限性，提升了視頻監(jiān)控的效率，使得視頻監(jiān)控更加準(zhǔn)確、智能、人性化。
文檔編號(hào)G10L15/00GK102014278SQ20101059819
公開(kāi)日2011年4月13日申請(qǐng)日期2010年12月21日優(yōu)先權(quán)日2010年12月21日
發(fā)明者孫大飛, 高勇, 黃永華申請(qǐng)人:四川大學(xué)

完整全部詳細(xì)技術(shù)資料下載