專利名稱:一種基于語音識別技術(shù)的云臺控制的方法
一種基于語音識別技術(shù)的云臺控制的方法技術(shù)領(lǐng)域
本發(fā)明屬于安防行業(yè)中視頻監(jiān)控領(lǐng)域以及計算機人工智能領(lǐng)域,特別涉及基于 語音識別技術(shù)的云臺控制的方法,以及該發(fā)明在視頻監(jiān)控系統(tǒng)的應(yīng)用。技術(shù)背景
在安防行業(yè)的視頻監(jiān)控系統(tǒng)中,云臺控制是必不可缺的一部分,云臺控制是用 于對前端攝像機的轉(zhuǎn)向、預(yù)置位、巡航及軌跡等進行控制的模塊。對于客戶端操作而 言,傳統(tǒng)的云臺控制有控制鍵盤直接操控和鼠標對模擬的云臺控制臺軟件進行操控,以 及通過無線網(wǎng)絡(luò)對云臺進行控制的控制技術(shù),這些方式都能完成云臺轉(zhuǎn)動、預(yù)置位控 制、云臺巡航等操作。
但這些云臺控制的方法都存在兩方面的問題,一方面是都需要人手干涉,而且 要求操作員熟悉操控業(yè)務(wù),才能正常地對云臺進行控制;另一方面是這些方法在應(yīng)用于 多個云臺控制的時候,就會出現(xiàn)手忙腳亂的情況。因此引入人工智能來進行云臺控制 成為當前的一個解決方法,這種方法無須人手干涉,通過一個麥克風說出平實的語句即 可對云臺進行控制,豐富了視頻監(jiān)控的操作,降低了用戶使用的難度,也降低了人工成 本,提高用戶滿意度,具有良好的人機交互性,而且這種云臺控制還適用于有障礙人士 的使用,真正做到方便、實用、易用,在安防領(lǐng)域及其他領(lǐng)域具有廣闊的應(yīng)用場景。發(fā)明內(nèi)容
本發(fā)明的目的是針對視頻監(jiān)控系統(tǒng),利用語音識別技術(shù)完成云臺控制的一系列 操作,具有很高的準確性、易用性及良好的用戶體驗。
為了實現(xiàn)發(fā)明目的,采用的技術(shù)方案如下
在系統(tǒng)中如圖1所示,利用語音識別模塊把說話人的語音進行采集,實時進行 語音識別處理并返回識別結(jié)果。對返回的識別結(jié)果需要一個控制服務(wù)器來接收,控制 服務(wù)器連接著語音識別服務(wù)器(如圖2所示)及DVR(可直接操控云臺的設(shè)備)兩個模 塊。在這中間的關(guān)鍵技術(shù)是如何把說話人的語音轉(zhuǎn)換為操作云臺的控制命令。在這里 我們引入一個語法分析器的模塊,首先把需要采集的語音的關(guān)鍵字以及對應(yīng)著的返回的 識別結(jié)果做一一對應(yīng),例如識別到“向左”的語音命令時,經(jīng)過語法分析器轉(zhuǎn)換為機器 能接收的內(nèi)容,例如返回識別結(jié)果“TumLeft”,控制服務(wù)器接收到語音識別服務(wù)器返回 的“TumLeft”的語音識別結(jié)果后,即可知道說話人發(fā)出的語音命令是控制云臺左轉(zhuǎn)的 意思,接著通過調(diào)用云臺設(shè)備提供的控制SDK對設(shè)備進行向左轉(zhuǎn)的控制,這樣即完成了 一個指定操作對象的語音控制云臺操作。另外,在實際場景中,說話人的語音不僅僅是 單純的向左轉(zhuǎn)、向右轉(zhuǎn)的語音信號,而是帶有修飾詞的語句,例如“我想左轉(zhuǎn)”、“如 何才能控制左轉(zhuǎn)”、“我需要左轉(zhuǎn)”等等,因此在語法分析器中我們增加了過濾設(shè)置, 當語音識別模塊接收到在語法配置管理里已存在的前綴或后綴修飾詞的時候,則自動過 濾,返回給控制服務(wù)器的仍然是“TumLeft”的識別結(jié)果。
該云臺控制的方法靈活地利用語音識別技術(shù)把語音信號轉(zhuǎn)換為云臺控制的操作 命令,而且還對多修飾詞的說話語句進行過濾,調(diào)用對應(yīng)的控制命令,語音控制誤操作 幾乎為零。
圖1系統(tǒng)結(jié)構(gòu)圖;圖2語音識別模塊圖;圖3語法配置圖;圖4云臺控制接口
具體實施例方式下面結(jié)合附圖對本發(fā)明做進一步的說明。本發(fā)明基于的語音識別技術(shù)是一種與說話人無關(guān)的語音識別模塊,能夠完成不 同應(yīng)用環(huán)境下的語音識別功能,具備優(yōu)秀的識別率及智能性。它是通過端點檢測提取說 話人的語音,進行識別處理并返回識別結(jié)果。端點檢測是對輸入的音頻流進行分析,確 定用戶說話的起始和終止的處理過程。一旦檢測到用戶開始說話,語音開始流向識別引 擎,直到檢測到用戶說話結(jié)束。這種方式使識別引擎在用戶說話的同時即開始進行識別 處理。另外,這種語音識別技術(shù)最終能反饋給控制服務(wù)器并對云臺進行控制的方法,與 語法配置器是密不可分的,語法配置是系統(tǒng)中重要的一個模塊,語音識別模塊在預(yù)先設(shè) 置的語法范圍內(nèi)判斷用戶說話內(nèi)容,輸出該語法對應(yīng)的語義,并以XML結(jié)果的形式返 回給控制服務(wù)器,控制服務(wù)器是根據(jù)云臺設(shè)備提供的SDk相應(yīng)地去調(diào)用接口(如圖4所 示),控制服務(wù)器的云臺控制接口表與語法配置里的識別返回結(jié)果是一一關(guān)聯(lián)的。對于圖3所示是云臺控制這個場景中的語法配置表,上移{out = "向上"}表示 當通過語音識別到關(guān)鍵字“上移”后,輸出的結(jié)果為“向上”,這個結(jié)果以XML的形 式返回到控制服務(wù)器,解析此操作后調(diào)用相應(yīng)的控制操作。在這個用于云臺控制的配置 表里面,通過列舉所有操作的關(guān)鍵字及識別后輸出的格式來匹配真實的云臺控制操作。
“$pre=我想找”是表示語音識別回來的語句開頭如果有這里枚舉的關(guān)鍵字,則自動過 濾,相當于去掉前綴;“$las=怎么辦”是表示語音識別回來的語句末尾如果有這里枚 舉的關(guān)鍵字,同樣進行過濾,相當于去除后綴。這樣一來,說話人表達的一句普通的語 句,例如“我想控制左轉(zhuǎn)”,都能轉(zhuǎn)換為機器能識別的控制命令,只要把所有的云臺控 制命令都配置好語法即可。
權(quán)利要求
1.一種基于語音識別技術(shù)的云臺控制的方法,其特征在于由語音識別及云臺控制兩 部分組成;
2.一種基于語音識別技術(shù)的云臺控制的方法,其特征在于所述的云臺控制是基于語 音識別技術(shù),對云臺轉(zhuǎn)動、云臺預(yù)置位、巡航控制及云臺軌跡進行控制;
3.一種基于語音識別技術(shù)的云臺控制的方法,其特征在于所述的語音識別技術(shù)是一 種與說話人無關(guān)的語音識別系統(tǒng),能隨時增加及擴展相應(yīng)的語法配置庫;
4.根據(jù)權(quán)利要求2所述的基于語音識別技術(shù)的云臺控制的方法,其特征在于不是通過 控制鍵盤或鼠標模擬操控來進行云臺控制,而是通過語音命令來進行云臺控制的操作, 通過語音識別模塊與云臺控制的模塊進行關(guān)聯(lián)對接而實現(xiàn)這種基于語音識別技術(shù)的云臺 控制的方法;
5.根據(jù)權(quán)利要求3所述的基于語音識別技術(shù)的云臺控制的方法,其特征在于用于云臺 控制的語音識別技術(shù)的語法采用萬維網(wǎng)聯(lián)盟(WorldWideWeb Consortium簡稱W3C)的語 音識別語法規(guī)范1.0標準(簡稱SRGS1.0),并在此規(guī)范基礎(chǔ)上根據(jù)自身特點和主要應(yīng)用場 景進行了部分擴展。
全文摘要
本發(fā)明提供了一種基于語音識別技術(shù)的云臺控制的方法,針對視頻監(jiān)控系統(tǒng)的應(yīng)用場景,把說話人的語句轉(zhuǎn)換為云臺控制的命令,并通過識別后返回的指令直接對云臺進行操控,本發(fā)明是一種把云臺控制變成方便易用、智能化及可靠性的方法。
文檔編號G05D3/10GK102023644SQ201010539180
公開日2011年4月20日 申請日期2010年11月10日 優(yōu)先權(quán)日2010年11月10日
發(fā)明者陳寧 申請人:新太科技股份有限公司