專利名稱:一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控方法
技術(shù)領(lǐng)域:
本發(fā)明屬于安防監(jiān)控領(lǐng)域,尤其涉及了一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控 方法。
背景技術(shù):
自9.11事件以后,如何對(duì)國(guó)家重要安全部門和敏感的公共場(chǎng)合進(jìn)行全天候、自 動(dòng)、實(shí)時(shí)的監(jiān)控,已成為世界各國(guó)高度重視的一個(gè)問(wèn)題。在這樣的背景下,安防監(jiān)控技 術(shù)得到了廣泛的應(yīng)用和發(fā)展。在中國(guó),安防監(jiān)控行業(yè)應(yīng)用市場(chǎng)每年保持20%左右的增長(zhǎng) 速度,日益增長(zhǎng)的監(jiān)控行業(yè)足可以體現(xiàn)出國(guó)家對(duì)安防監(jiān)控的重視。視頻監(jiān)控一直被當(dāng)作一種有效的監(jiān)控手段而廣泛應(yīng)用于安防領(lǐng)域,即通過(guò)聯(lián)網(wǎng) 的方式分散放置攝像機(jī)進(jìn)行場(chǎng)景記錄監(jiān)控,并集中顯示,監(jiān)控人員可以實(shí)時(shí)了解各個(gè)監(jiān) 控場(chǎng)景發(fā)生的事件,監(jiān)控人員可根據(jù)監(jiān)控畫面中當(dāng)事人的行為判斷出其意圖,遇到突發(fā) 事件可迅速采取措施。目前的視頻監(jiān)控系統(tǒng)中監(jiān)控人員起著至關(guān)重要的作用,監(jiān)控人員通過(guò)人眼檢測(cè) 實(shí)時(shí)監(jiān)控每路視頻。有關(guān)研究表明即使是專業(yè)操作人員只要連續(xù)專注于多個(gè)監(jiān)控屏幕 超過(guò)20分鐘,監(jiān)控人員的注意力都會(huì)降低至不能滿足監(jiān)控要求的水平。經(jīng)過(guò)長(zhǎng)時(shí)間的工 作,人員易疲勞、漏報(bào)現(xiàn)象多等問(wèn)題會(huì)逐漸顯現(xiàn)出來(lái),大大降低視頻監(jiān)控的監(jiān)督作用, 現(xiàn)有監(jiān)控系統(tǒng)通常的做法是將攝像機(jī)的輸出結(jié)果記錄下來(lái),當(dāng)事故發(fā)生之后,保安人員 才通過(guò)記錄的結(jié)果觀察發(fā)生的事實(shí),但往往為時(shí)已晚。另一方面,視頻監(jiān)控通常只針對(duì) 視頻信息進(jìn)行處理,僅依靠視頻信息并不能完全準(zhǔn)確的反應(yīng)出監(jiān)控場(chǎng)景的實(shí)地情況,仍 具有一定的局限性受到視角的限制,對(duì)于攝像頭監(jiān)控范圍以外區(qū)域發(fā)生的事情,視頻 監(jiān)控則無(wú)能為力;此外,受到光照、天氣的影響,尤其是夜間,視頻監(jiān)控作用會(huì)急劇下 降。人眼檢測(cè)的弊端和視頻監(jiān)控系統(tǒng)自身的缺陷制約著監(jiān)控系統(tǒng)性能的發(fā)揮,降低了監(jiān) 控效率,往往會(huì)導(dǎo)致一些突發(fā)事件的遺漏,甚至造成不可挽回的損失。而目前我們希望 的監(jiān)控系統(tǒng)應(yīng)能夠每天連續(xù)24小時(shí)的實(shí)時(shí)智能監(jiān)視,當(dāng)異常情況發(fā)生時(shí),系統(tǒng)能向保衛(wèi) 人員準(zhǔn)確及時(shí)地發(fā)出警報(bào),從而避免事故的發(fā)生,同時(shí)也希望減少人力、物力和財(cái)力的 投入。語(yǔ)言作為人類最重要的交流工具,它自然方便、準(zhǔn)確高效。在發(fā)生爭(zhēng)吵、打 架、呼救等情況時(shí),所包含的語(yǔ)音信息尤為豐富,以此為據(jù),用語(yǔ)音識(shí)別技術(shù)處理某些 監(jiān)控場(chǎng)景中的語(yǔ)音數(shù)據(jù)也可當(dāng)作一種重要的安防監(jiān)控手段。特別是近二十年來(lái),語(yǔ)音識(shí) 別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)十年內(nèi),語(yǔ)音識(shí)別技術(shù) 將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。作 為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的技術(shù)關(guān)鍵,語(yǔ)音識(shí)別技術(shù)一直受到各國(guó) 科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)的研究突破,其對(duì)計(jì)算機(jī)的發(fā)展和社會(huì)生 活的重要性日益凸現(xiàn)出來(lái)。
發(fā)明內(nèi)容
為了解決視頻監(jiān)控存在的問(wèn)題,本發(fā)明提供一種安防監(jiān)控新方法,在現(xiàn)有的視 頻監(jiān)控技術(shù)上引入了語(yǔ)音識(shí)別技術(shù),利用音頻信息和視頻信息相對(duì)獨(dú)立處理,充分發(fā)揮 各自的優(yōu)勢(shì),進(jìn)行監(jiān)控手段相互補(bǔ)充,構(gòu)建具有主動(dòng)預(yù)警、監(jiān)控畫面智能切換功能的新 型安防監(jiān)控系統(tǒng)。從而使監(jiān)控系統(tǒng)在具備“視覺(jué)”功能的基礎(chǔ)上擁有一定的“聽(tīng)覺(jué)”功 能,解決了僅依靠視頻信息監(jiān)控的局限性。本發(fā)明采用語(yǔ)音識(shí)別技術(shù)處理監(jiān)控場(chǎng)景中的 語(yǔ)音數(shù)據(jù),對(duì)其中敏感詞匯進(jìn)行預(yù)警,實(shí)現(xiàn)監(jiān)控系統(tǒng)主動(dòng)預(yù)警,并由預(yù)警信號(hào)觸發(fā)監(jiān)控 畫面自動(dòng)切換,解決了因工作時(shí)間長(zhǎng)導(dǎo)致的監(jiān)控人員疲勞、漏報(bào)現(xiàn)象多等問(wèn)題,提升了 視頻監(jiān)控的效率,使視頻監(jiān)控系統(tǒng)性能更好的發(fā)揮。上述新型安防監(jiān)控系統(tǒng)是在數(shù)字視頻監(jiān)控系統(tǒng)基礎(chǔ)上加入了語(yǔ)音處理識(shí)別模塊 以及預(yù)警判別模塊,由于采用音頻和視頻相對(duì)獨(dú)立處理,因而便于原有視頻監(jiān)控設(shè)備進(jìn) 行升級(jí)和更新。系統(tǒng)工作之前,針對(duì)需要監(jiān)控場(chǎng)景中所使用敏感詞匯集中建立語(yǔ)音模版 庫(kù),語(yǔ)音庫(kù)內(nèi)容可根據(jù)不同的監(jiān)控場(chǎng)景選擇不同的詞匯。例如,針對(duì)發(fā)生爭(zhēng)吵、打架、 呼救等情況中所使用的“救命”、“救人”、“來(lái)人啊”、“打架了”等。系統(tǒng)工作 時(shí),每路監(jiān)控場(chǎng)景的視頻信息和語(yǔ)音信息分別用兩個(gè)通道采集。對(duì)視頻信息進(jìn)行編碼并 轉(zhuǎn)換格式,將處理后的視頻數(shù)據(jù)通過(guò)專網(wǎng)或局域網(wǎng)送至監(jiān)控室顯示并且保存;語(yǔ)音信息 送往語(yǔ)音處理識(shí)別模塊進(jìn)行語(yǔ)音識(shí)別。之后,預(yù)警判別模塊會(huì)對(duì)監(jiān)控場(chǎng)景中語(yǔ)音數(shù)據(jù)識(shí) 別結(jié)果進(jìn)行辨別,排除無(wú)關(guān)語(yǔ)音信息的干擾,對(duì)已建立的語(yǔ)音模版庫(kù)中包含的敏感詞匯 進(jìn)行預(yù)警,并發(fā)出一個(gè)預(yù)警控制信號(hào)。用預(yù)警控制信號(hào)來(lái)觸發(fā)畫面切換裝置,主監(jiān)控屏 幕畫面將根據(jù)發(fā)出的預(yù)警控制信號(hào)來(lái)源進(jìn)行場(chǎng)景畫面間的切換。由此達(dá)到主動(dòng)預(yù)警以及 監(jiān)控畫面智能切換的功能。本發(fā)明采用的技術(shù)方案包括如下6個(gè)循環(huán)步驟
1.監(jiān)控系統(tǒng)工作以前先建立語(yǔ)音模板庫(kù),針對(duì)監(jiān)控場(chǎng)景中出現(xiàn)的敏感詞匯集中 建立語(yǔ)音模版庫(kù),需要錄音人數(shù)在幾十人左右,采集多位男聲和女聲的語(yǔ)音樣本作為訓(xùn) 練數(shù)據(jù),內(nèi)容可根據(jù)不同的監(jiān)控場(chǎng)景選擇不同的詞匯,例如可針對(duì)發(fā)生爭(zhēng)吵、打架、呼 救等情況中所用使用的“救命”、“救人”、“來(lái)人啊”、“打架了”等標(biāo)志性詞作為 錄制內(nèi)容。錄音分階段進(jìn)行,訓(xùn)練語(yǔ)料內(nèi)容基本為孤立詞和短句子。語(yǔ)音模版庫(kù)先由每 個(gè)錄音者的語(yǔ)音樣本數(shù)據(jù)分別訓(xùn)練,得到多個(gè)參考模板,每個(gè)參考模板是多個(gè)詞匯的隱 馬爾可夫模型(hidden Markov model, HMM)集合,建立的HMM模型不僅包括初始狀態(tài)概 率、狀態(tài)轉(zhuǎn)移概率矩陣、觀測(cè)概率矩陣三個(gè)參數(shù),還包括狀態(tài)轉(zhuǎn)移次數(shù)、狀態(tài)輸出矢量 數(shù)和狀態(tài)數(shù)目共6個(gè)參數(shù),最后通過(guò)模型合并重估的方法將多個(gè)參考模板合并成一個(gè), 完成建庫(kù);
2.系統(tǒng)開(kāi)始工作,利用聲音采集裝置和攝像裝置分別采集監(jiān)控場(chǎng)景的視頻信息 和語(yǔ)音信息;
3.對(duì)視頻信號(hào)進(jìn)行編碼并進(jìn)行格式轉(zhuǎn)換,將處理后的視頻數(shù)據(jù)通過(guò)專網(wǎng)或局域 網(wǎng)送至監(jiān)控室顯示并且保存,語(yǔ)音信息則送往音頻處理識(shí)別模塊經(jīng)過(guò)一系列處理后進(jìn)行 語(yǔ)音識(shí)別,處理順序?yàn)椴蓸?、量化、分幀、加窗、預(yù)加重、端點(diǎn)檢測(cè)、提取語(yǔ)音特征、 倒譜均減(cepstral mean subtraction, CMS)、語(yǔ)音識(shí)另ij ;
4. 將語(yǔ)音識(shí)別的結(jié)果送到預(yù)警判別模塊進(jìn)行判別,本設(shè)計(jì)的判別算法使用基于反詞模型的拒識(shí)方法,對(duì)每個(gè)關(guān)鍵詞模型都訓(xùn)練相應(yīng)的反詞模型,反詞模型主要用其 它與關(guān)鍵詞極易混淆的語(yǔ)音數(shù)據(jù)訓(xùn)練而成,反詞模型具有和關(guān)鍵詞模型相同的結(jié)構(gòu),針 對(duì)場(chǎng)景中出現(xiàn)的、語(yǔ)音庫(kù)中未包括的正常語(yǔ)音信息會(huì)予以排除,對(duì)監(jiān)控場(chǎng)景中出現(xiàn)的、 并在語(yǔ)音庫(kù)中包含的敏感詞匯則由預(yù)警模塊產(chǎn)生預(yù)警控制信號(hào)并報(bào)警,實(shí)現(xiàn)主動(dòng)預(yù)警功 能;
5.預(yù)警控制信號(hào)觸發(fā)畫面切換裝置,主監(jiān)控屏幕畫面切換為與發(fā)出預(yù)警控制信 號(hào)相匹配的監(jiān)控畫面以供監(jiān)控人員分析,實(shí)現(xiàn)監(jiān)控畫面智能切換功能;
6.完成一次檢測(cè)后,重復(fù)步驟2到5,進(jìn)行下一次檢測(cè)。本發(fā)明的有益效果是利用音頻信息的主動(dòng)預(yù)警功能彌補(bǔ)了監(jiān)控設(shè)備視角范圍 限制以及視頻監(jiān)控受到光照、天氣等自然環(huán)境的影響。預(yù)警控制信號(hào)實(shí)現(xiàn)的監(jiān)控畫面 智能切換功能解決了人眼檢測(cè)存在的問(wèn)題,避免了監(jiān)控人員長(zhǎng)時(shí)間專注多個(gè)屏幕而導(dǎo)致 注意力下降,不易出現(xiàn)事故,大大提高監(jiān)控效率,使得視頻監(jiān)控更加準(zhǔn)確、智能、人性 化,同時(shí)也減少雇傭大批監(jiān)視人員所需要的人力、物力和財(cái)力的投入。
圖1為基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控系統(tǒng)構(gòu)成示意圖。圖2為圖1所示的語(yǔ)音處理識(shí)別模塊原理框圖。圖3為圖2所示的預(yù)處理特征提取模塊原理框圖。圖4為監(jiān)控系統(tǒng)中語(yǔ)音通道工作流程圖。圖5、圖6為采用本發(fā)明監(jiān)控方法一種應(yīng)用示意圖。圖1為本發(fā)明所提供的基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控系統(tǒng)構(gòu)成示意圖。監(jiān) 控系統(tǒng)的一路架構(gòu)由監(jiān)控由攝像裝置(101)、視頻信號(hào)編碼模塊(102),監(jiān)控畫面顯示器 (103),聲音采集裝置(104)、語(yǔ)音處理識(shí)別模塊(105)、預(yù)警判別模塊(106)、預(yù)警指示 裝置(107)組成。此外,各路的場(chǎng)景信息的傳送還需要局域網(wǎng)或?qū)>W(wǎng)(301)進(jìn)行傳送, 公共場(chǎng)景顯示使用主監(jiān)控屏幕(401)以及換面切換裝置(501)。圖2為本發(fā)明監(jiān)控系統(tǒng)語(yǔ)音通道核心處理部分語(yǔ)音處理識(shí)別模塊(105)的架構(gòu) 圖,語(yǔ)音處理識(shí)別模塊(105)結(jié)構(gòu)包括兩大部分語(yǔ)音庫(kù)錄入和模式識(shí)別。語(yǔ)音庫(kù)錄入 包括以下幾個(gè)模塊,訓(xùn)練數(shù)據(jù)(1051)、預(yù)處理特征提取(1052)、參考模版訓(xùn)練(1053)、 參考模版(1054);模式識(shí)別部分包括預(yù)處理特征提取(1056)、模版匹配(1057)以及 語(yǔ)音識(shí)別(1058),其中預(yù)處理特征提取(1052)與預(yù)處理特征提取(1056)功能完全相同。圖3為圖2所示的預(yù)處理特征提取原理框圖,語(yǔ)音數(shù)據(jù)依次經(jīng)過(guò)以下處理采 樣(IO52A)、量化(IO52B)、分幀(IO52C)、加窗(IO52D)、預(yù)加重(1052E)、端點(diǎn)檢測(cè) (1052F)、特征提取(1052G)、倒譜均減(1052H)。下面結(jié)合附圖對(duì)本發(fā)明所提供的視頻監(jiān)控方法的實(shí)施方式做進(jìn)一步說(shuō)明。
具體實(shí)施例方式系統(tǒng)工作前需要事先建立語(yǔ)音模板庫(kù),建庫(kù)工作流程如圖2中語(yǔ)音庫(kù)錄入部分 所示。考慮到本發(fā)明實(shí)用場(chǎng)合,不能使用說(shuō)話人自適應(yīng)的方法(此方法每次使用前都需 要使用者進(jìn)行訓(xùn)練,且訓(xùn)練好以后只能供訓(xùn)練者使用)達(dá)到非特定人識(shí)別的目的,所以必須采集大量人的語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù),需要錄音人數(shù)在幾十人左右,分別采集多位 男聲和女聲的語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù)(1051),訓(xùn)練數(shù)據(jù)(1051)的內(nèi)容可根據(jù)監(jiān)控場(chǎng)景中 的突發(fā)事件所含的敏感詞匯來(lái)制定。例如可針對(duì)發(fā)生爭(zhēng)吵、打架、呼救等情況中所用使 用的“救命”、“救人”、“來(lái)人啊”、“打架了”等標(biāo)志性詞作為錄制內(nèi)容。錄音分 3 5個(gè)階段進(jìn)行,訓(xùn)練語(yǔ)料內(nèi)容基本為孤立詞和短句子。分階段錄音是由于語(yǔ)音的動(dòng)態(tài) 范圍很大,不同說(shuō)話人的語(yǔ)音,甚至是同一說(shuō)話人在不同時(shí)間和場(chǎng)合的語(yǔ)音都有很大的 不同,所以庫(kù)中應(yīng)該盡量包含多樣的語(yǔ)音信息,從而保持高的識(shí)別率。在每個(gè)階段中, 每個(gè)詞每人錄5 10次。如圖3所示,預(yù)處理特征提取(1052)對(duì)訓(xùn)練數(shù)據(jù)如下處理,采樣(1052A)、量 化(1052B)、分幀(1052C)、加窗(1052D)、預(yù)加重(1052E)、端點(diǎn)檢測(cè)(1052F)、特征 提取(1052G)、倒譜均減(1052H)處理。首先將訓(xùn)練數(shù)據(jù)(1051)進(jìn)行采樣(1052A)和量化(1052B),數(shù)字化以后的語(yǔ)音 信號(hào)實(shí)際上是一個(gè)時(shí)變信號(hào),但其在IOms 30ms短時(shí)間內(nèi)是平穩(wěn)的,為了得到短時(shí)的語(yǔ) 音信號(hào),要對(duì)語(yǔ)音信號(hào)進(jìn)行加窗(1052D)操作,窗函數(shù)平滑的在語(yǔ)音信號(hào)上滑動(dòng),將語(yǔ) 音信號(hào)分成幀。分幀(1052C)可以連續(xù),也可以采用交疊分段的方法,交疊部分稱為幀 移,幀移一般選為窗長(zhǎng)的1/2,窗函數(shù)選擇漢明窗(hamming),即
權(quán)利要求
1.一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控方法其特征在于將語(yǔ)音識(shí)別技術(shù)作為 輔助的視頻監(jiān)控手段引入到視頻監(jiān)控中,視頻信號(hào)和音頻信號(hào)進(jìn)行獨(dú)立處理,用語(yǔ)音識(shí) 別技術(shù)處理監(jiān)控場(chǎng)景中的語(yǔ)音數(shù)據(jù),對(duì)其中敏感詞匯進(jìn)行預(yù)警,來(lái)實(shí)現(xiàn)監(jiān)控系統(tǒng)主動(dòng)預(yù) 警,并由預(yù)警信號(hào)觸發(fā)監(jiān)控畫面自動(dòng)切換,從而可以使監(jiān)控系統(tǒng)具備主動(dòng)預(yù)警、監(jiān)控畫 面智能切換功能,包括如下6個(gè)循環(huán)步驟(1)事先建立語(yǔ)音模板庫(kù),針對(duì)監(jiān)控場(chǎng)景中出現(xiàn)的敏感詞匯集中建立語(yǔ)音模版 庫(kù),需要錄音人數(shù)在幾十人左右,采集多個(gè)男聲和女聲的語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù),訓(xùn)練 數(shù)據(jù)的內(nèi)容可根據(jù)不同的監(jiān)控場(chǎng)景選擇不同的詞匯,訓(xùn)練數(shù)據(jù)錄制分階段進(jìn)行,訓(xùn)練語(yǔ) 料內(nèi)容基本為孤立詞和短句子;(2)建庫(kù)完畢后,系統(tǒng)開(kāi)始工作,利用聲音采集裝置和攝像裝置分別采集監(jiān)控場(chǎng) 景的視頻信息和語(yǔ)音信息;(3)對(duì)視頻信號(hào)進(jìn)行編碼并進(jìn)行格式轉(zhuǎn)換,將處理后的視頻數(shù)據(jù)通過(guò)專網(wǎng)或局域 網(wǎng)送至監(jiān)控室顯示并且保存,語(yǔ)音信息則送往語(yǔ)音處理識(shí)別模塊經(jīng)過(guò)一系列處理后進(jìn)行 語(yǔ)音識(shí)別;(4)將語(yǔ)音識(shí)別的結(jié)果送到預(yù)警判別模塊進(jìn)行判別,針對(duì)場(chǎng)景中出現(xiàn)的、語(yǔ)音庫(kù) 中未包括的正常語(yǔ)音信息會(huì)予以排除,對(duì)監(jiān)控場(chǎng)景中出現(xiàn)的、并在語(yǔ)音庫(kù)中包含的敏感 詞匯則由預(yù)警模塊產(chǎn)生預(yù)警控制信號(hào)并報(bào)警,實(shí)現(xiàn)主動(dòng)預(yù)警功能;(5)預(yù)警控制信號(hào)觸發(fā)畫面切換裝置,主監(jiān)控屏幕畫面切換為與發(fā)出預(yù)警控制信 號(hào)相匹配的監(jiān)控畫面以供監(jiān)控人員分析,實(shí)現(xiàn)監(jiān)控畫面智能切換功能;(6)完成以上檢測(cè)后,重復(fù)步驟(2)到(5),進(jìn)行下一次檢測(cè)。
2.如權(quán)利要求1所述的監(jiān)控方法,其特征在于語(yǔ)音模版庫(kù)是開(kāi)放式的,其中的 敏感詞匯內(nèi)容可根據(jù)監(jiān)控需要進(jìn)行制定,分階段錄音是針對(duì)語(yǔ)音的動(dòng)態(tài)范圍很大,保證 庫(kù)中盡量包含多樣的語(yǔ)音信息,保持高的語(yǔ)音識(shí)別率;語(yǔ)音模版庫(kù)先由每個(gè)錄音者的語(yǔ) 音樣本數(shù)據(jù)分別訓(xùn)練,得到多個(gè)參考模板,每個(gè)參考模版是多個(gè)詞匯的隱馬爾科夫模型 (hidden Markov model, HMM)集合,最后通過(guò)模型合并重估的方法將多個(gè)參考模板合并 成一個(gè),完成建庫(kù),既減少了新增數(shù)據(jù)的訓(xùn)練運(yùn)算量又達(dá)到非特定人識(shí)別的目的。
3.如權(quán)利要求1所述的監(jiān)控方法,其特征在于建立的HMM模型不僅包括初始狀態(tài) 概率、狀態(tài)轉(zhuǎn)移概率矩陣、觀測(cè)概率矩陣三個(gè)參數(shù),還包括狀態(tài)轉(zhuǎn)移次數(shù)、狀態(tài)輸出矢 量數(shù)和狀態(tài)數(shù)目共6個(gè)參數(shù),其中后三個(gè)參數(shù)是為了應(yīng)用模型合并重估方法而設(shè)置的。
4.如權(quán)利要求1所述的監(jiān)控方法,其特征在于語(yǔ)音處理識(shí)別模塊中對(duì)監(jiān)控場(chǎng)景中 的語(yǔ)音信息處理順序?yàn)椴蓸印⒘炕?、分幀、加窗、預(yù)加重、端點(diǎn)檢測(cè)、提取語(yǔ)音特征、 倒譜均減(cepstral mean subtraction, CMS)后進(jìn)行語(yǔ)音識(shí)別,語(yǔ)音特征提取使用倒譜均減 的方法進(jìn)行處理克服了傳輸設(shè)備線路不同而導(dǎo)致的信道畸變對(duì)語(yǔ)音識(shí)別的影響,在此使 用倒譜均減的方法解決數(shù)據(jù)訓(xùn)練環(huán)境與實(shí)際使用環(huán)境中信道的不匹配導(dǎo)致識(shí)別率下降的 影響。
5.如權(quán)利要求1所述的監(jiān)控方法,其特征在于所述預(yù)警判別模塊采用基于反詞模 型的拒識(shí)方法對(duì)語(yǔ)音識(shí)別結(jié)果進(jìn)行判別,實(shí)際系統(tǒng)中需對(duì)每個(gè)關(guān)鍵詞HMM模型都訓(xùn)練 相應(yīng)的反詞模型,反詞模型主要用其它與關(guān)鍵詞極易混淆的語(yǔ)音數(shù)據(jù)訓(xùn)練而成,反詞模 型具有和關(guān)鍵詞HMM模型相同的結(jié)構(gòu),如相同的狀態(tài)數(shù)目和每個(gè)狀態(tài)的混合數(shù)。
6.如權(quán)利要求1所述的監(jiān)控方法,其特征在于主動(dòng)預(yù)警功能針對(duì)監(jiān)控場(chǎng)景中出現(xiàn) 的、并在語(yǔ)音庫(kù)中包含的敏感詞匯進(jìn)行預(yù)警,而對(duì)場(chǎng)景中出現(xiàn)的、語(yǔ)音庫(kù)中未包括的正 常語(yǔ)音信息會(huì)予以排除,當(dāng)監(jiān)控場(chǎng)景發(fā)生事故時(shí),當(dāng)事人通過(guò)語(yǔ)音信息可以直接對(duì)監(jiān)控 中心工作人員發(fā)出預(yù)警。
7.如權(quán)利要求1所述的監(jiān)控方法,其特征在于預(yù)警判別模塊判別某語(yǔ)音段為庫(kù) 中敏感詞匯后會(huì)驅(qū)動(dòng)預(yù)警指示裝置報(bào)警,同時(shí)發(fā)出預(yù)警控制信號(hào)觸發(fā)畫面切換裝置,主 監(jiān)控屏幕畫面切換為與發(fā)出預(yù)警控制信號(hào)相匹配的監(jiān)控畫面,實(shí)現(xiàn)監(jiān)控畫面智能切換功 能。
全文摘要
本發(fā)明涉及一種基于語(yǔ)音識(shí)別技術(shù)的智能視頻監(jiān)控方法,該方法將語(yǔ)音識(shí)別技術(shù)作為輔助的監(jiān)控手段引入到視頻監(jiān)控系統(tǒng)中,使監(jiān)控系統(tǒng)在具備“視覺(jué)”功能的基礎(chǔ)上擁有一定的“聽(tīng)覺(jué)”功能,構(gòu)建了具有主動(dòng)預(yù)警、監(jiān)控畫面智能切換等功能的視頻監(jiān)控系統(tǒng)。該方法事先建立敏感詞匯庫(kù),而后采用語(yǔ)音識(shí)別技術(shù)處理監(jiān)控場(chǎng)景中的語(yǔ)音數(shù)據(jù),檢測(cè)該語(yǔ)音數(shù)據(jù)中是否包含敏感詞匯,若存在敏感詞匯則發(fā)出語(yǔ)音告警信號(hào)和監(jiān)控畫面切換信號(hào),畫面切換裝置根據(jù)畫面切換信號(hào)自動(dòng)切換監(jiān)控畫面,從而解決了依靠人眼檢測(cè)導(dǎo)致的監(jiān)控人員易疲勞、漏報(bào)現(xiàn)象多等問(wèn)題,克服了僅依靠視頻信息監(jiān)控的局限性,提升了視頻監(jiān)控的效率,使得視頻監(jiān)控更加準(zhǔn)確、智能、人性化。
文檔編號(hào)G10L15/00GK102014278SQ20101059819
公開(kāi)日2011年4月13日 申請(qǐng)日期2010年12月21日 優(yōu)先權(quán)日2010年12月21日
發(fā)明者孫大飛, 高勇, 黃永華 申請(qǐng)人:四川大學(xué)