專利名稱:多維感官人機(jī)交互系統(tǒng)及交互方法
技術(shù)領(lǐng)域:
本發(fā)明涉及ー種用于用戶和計算機(jī)之間交互的多維感官人機(jī)交互系統(tǒng)及交互方法,確切地說是涉及ー種結(jié)合頭部姿勢控制、語音控制和鍵盤鼠標(biāo)操作等交互方式的人機(jī)交互系統(tǒng),屬于人機(jī)交互技術(shù)領(lǐng)域。
背景技術(shù):
隨著人們對計算機(jī)的使用范圍逐漸擴(kuò)大,基于傳統(tǒng)単一的鼠標(biāo)鍵盤的人機(jī)交互方式已不能滿足于人們?nèi)找嬖鲩L的需求。例如辦公人員往往苦于多種程序之間的切換不夠靈便,可是受限于只能運(yùn)用雙手對計算機(jī)進(jìn)行操作而無法顯著地工作效率。另外,對于某些特殊用戶群體,如老年人、殘疾人,鼠標(biāo)鍵盤操作不便于或難于學(xué)習(xí),他們急需一種新的人機(jī)交互方式解決他們的煩惱。造成這些問題的原因在于傳統(tǒng)的人機(jī)交互方式過于單一,僅僅依靠雙手來對電腦進(jìn)行操作。因此在人與機(jī)器的關(guān)系中,人們不得不去適應(yīng)電腦,順從于電腦。然而,人的感官是非常豐富的,不僅有視覺、聽覺、嗅覺等,還有面部表情、頭部和身體動作、平衡等運(yùn)動感官。這些豐富的感官一旦廣泛地應(yīng)用到人與計算機(jī)之間的交流,將會給人機(jī)交互領(lǐng)域帶來巨大的變革。而這正是新一代人機(jī)交互方式重要特征多通道(Multimodality)。多通道旨在充分利用人的感覺通道和運(yùn)動通道的互補(bǔ)特性來捕捉用戶的意向,從而增進(jìn)人機(jī)交互中的自然性。采用多通道、以自然方式交互,可以實現(xiàn)高效人機(jī)通信,也可以由人或機(jī)器選擇最佳反應(yīng)通道,從而不會使某一通道負(fù)擔(dān)過重。目前,國外正在進(jìn)行研究的有關(guān)多通道人機(jī)交互技術(shù)的項目主要有美國MIT媒體實驗室的多通道自然對話項目,歐洲信息技術(shù)研究戰(zhàn)略規(guī)劃(ESPRITII)的Amodeus項目中,以及法國 IMAG 的 Coutaz 和 Nigay 設(shè)計的系統(tǒng) MATIS(Multimodal Airline TravelInformation System)中,用戶可以利用鍵盤、鼠標(biāo)、話筒或者它們的組合方式查詢航班信息。而在我國,杭州大學(xué)エ業(yè)心理學(xué)國家點實驗室、中國科學(xué)院軟件研究所共同承擔(dān)了國家自然科學(xué)基金重點項目“多通道用戶界面的研究”,探索了多通道界面的軟件結(jié)構(gòu),并使用三維鼠標(biāo)器、漢字手寫體識別工具及語音輸入軟件等,研究了多通道界面的關(guān)鍵問題。針對多通道的人機(jī)交互方式,國內(nèi)外的研究者所取得的大多為理論研究成果,為日常生活場景開發(fā)的應(yīng)用較少。同時,人機(jī)交互方式主要限于手勢、語音等幾個方面,頭部動作跟蹤在多通道人機(jī)交互組合方式中尚未見到。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)解決問題克服現(xiàn)有技術(shù)的不足,提供一種多維感官人機(jī)交互系統(tǒng)及交互方法,使用戶可同時利用多種交互方式對計算機(jī)進(jìn)行豐富簡單快捷的交互操作。本發(fā)明是通過以下技術(shù)方案實現(xiàn)的多維感官人機(jī)交互系統(tǒng),如圖I所示,包括用戶信息采集模塊需要計算機(jī)有視頻輸入設(shè)備和音頻輸入設(shè)備作為硬件支持,用于向計算機(jī)分別輸入用戶頭部姿態(tài)信息和語音信息,這兩類信息通過不同的硬件輸入計算機(jī),因此采集信息的過程可同時進(jìn)行而互不干擾。該模塊從操作系統(tǒng)默認(rèn)的視頻輸入設(shè)備和音頻輸入設(shè)備獲取視頻流和音頻流,并將視頻流和音頻流送至用戶信息識別分析模塊中;如果該模塊找不到視頻輸入設(shè)備或音頻輸入設(shè)備,則交由程序控制模塊阻塞用戶信息識別分析模塊、頭部姿態(tài)控制功能模塊、語音控制功能模塊中與頭部姿態(tài)或語音有關(guān)的程序流程。
用戶信息識別分析模塊對從用戶信息采集模塊中得到的視頻流和音頻流進(jìn)行處理,得到能夠直接處理的信息對象。對于視頻流的處理,該模塊從視頻流中提取到彩色幀,經(jīng)過顏色空間轉(zhuǎn)換、均值化處理、圖像縮放、邊緣處理、計算積分圖像和使用分類器搜索目標(biāo)后,檢測出每ー幀中的頭部圖像,得到每ー幀所識別出的頭部圖像的數(shù)組,并將每ー幀所識別出的頭部圖像的數(shù)組送至頭部姿態(tài)控制功能模塊;對于音頻流的處理,該模塊調(diào)用相關(guān)的語音應(yīng)用程序接ロ(SAPI),通過語音識別引擎將語音轉(zhuǎn)換成語音信息文本,交給語音控制功能模塊使用;此外,該模塊為不同種類的語音命令編寫了不同的語法,由于每ー種語法都是基于小詞匯量的且都設(shè)置了識別的置信度下限,從而提高了語音識別的準(zhǔn)確度。頭部姿態(tài)控制功能模塊從得到的每ー幀頭部圖像的數(shù)組中檢測出最大的頭部作為識別的用戶的頭部,根據(jù)識別出的用戶頭部,確定用戶頭部的中心位置,并計算出連續(xù)N幀的頭部中心位置的平均值作為標(biāo)定值;當(dāng)某ー幀用戶頭部的中心位置的超出平均值達(dá)到模塊設(shè)定的閾值時,則判定用戶頭部處于運(yùn)動狀態(tài);否則,判定用戶頭部處于靜止?fàn)顟B(tài)。用戶頭部處于運(yùn)動狀態(tài)吋,該模塊提供兩種模式供用戶選擇普通模式和游戲模式。用戶可通過程序控制模塊對這兩種模式進(jìn)行選擇。若用戶選擇普通模式,該模塊可根據(jù)頭部動作方向控制鼠標(biāo)的移動方向,即將頭部動作方向映射為鼠標(biāo)的移動方向;若用戶選擇游戲模式,該模塊可根據(jù)頭部動作方向模擬游戲的方向按鍵,即頭部向上運(yùn)動時自動按下“ w”鍵,向下運(yùn)動時自動按下“ s”鍵,向左運(yùn)動時自動“a”鍵為左方向,向右運(yùn)動時自動按下“ d”鍵。同吋,該模塊將識別出的頭部區(qū)域、頭部動作方向傳給界面交互模塊。語音控制功能模塊該模塊接受用戶信息識別分析模塊輸出的語音信息文本,由程序控制模塊判斷系統(tǒng)聽寫狀態(tài)是否開啟。用戶可通過程序控制模塊選擇聽寫狀態(tài)的開啟與關(guān)閉。若聽寫狀態(tài)開啟,則該模塊接受語音信息文本后,調(diào)用存儲模塊中的快捷鍵語音命令,進(jìn)行查找匹配。如果匹配成功,則觸發(fā)對應(yīng)的鍵盤按鍵事件,完成語音命令所代表的windows操作系統(tǒng)的快捷鍵操作。如果匹配失敗,則將接受的語音信息文以文字的形式發(fā)送到剪切板中,再粘貼到鼠標(biāo)光標(biāo)所在處,完成聽寫功能。若聽寫狀態(tài)關(guān)閉,首先將接收到的語音信息文本與存儲模塊中存儲的語音命令進(jìn)行查找匹配,找到相應(yīng)的語音命令;根據(jù)語音命令的內(nèi)容,完成不同的操作。若語音命令屬于語音控制鼠標(biāo)命令,則根據(jù)語音命令的內(nèi)容觸發(fā)語音命令所映射的鼠標(biāo)動作(如單擊、雙擊等);若語音命令屬于語音啟動程序命令,則啟動語音命令中程序路徑下的應(yīng)用程序;若語音命令屬于語音模擬快捷鍵命令,則根據(jù)語音命令中的按鍵方式觸發(fā)相應(yīng)的按鍵操作;若語音命令屬于語音打開網(wǎng)頁標(biāo)簽命令,則在瀏覽器中打開語音命令的網(wǎng)址對應(yīng)的網(wǎng)頁。同吋,該模塊將識別出的語音命令內(nèi)容傳給界面交互模塊。存儲模塊利用哈希表和XML文件存儲了語音信息文本對應(yīng)的語音命令。哈希表存儲了系統(tǒng)有限的常用基本語音命令,即語音控制鼠標(biāo)命令,其內(nèi)容為鼠標(biāo)的各種事件。當(dāng)語音控制功能模塊調(diào)用該部分命令,則將其鼠標(biāo)的各種事件作為參數(shù)傳遞給語音控制功能模塊中的鼠標(biāo)動作函數(shù)。XML文 件則存儲了可擴(kuò)展的語音命令,包括語音模擬快捷鍵命令,語音啟動應(yīng)用程序命令、語音打開網(wǎng)頁標(biāo)簽命令。當(dāng)語音控制功能模塊調(diào)語音模擬快捷鍵命令,則將其中存儲的快捷鍵組合方式作為參數(shù)傳遞給語音控制功能模塊中的模擬快捷鍵按鍵函數(shù)。當(dāng)語音控制功能模塊調(diào)語音啟動快捷鍵命令,則將其中存儲的應(yīng)用程序名作為參數(shù)傳遞給語音控制功能模塊中的啟動程序函數(shù)。當(dāng)語音控制功能模塊調(diào)語音打開網(wǎng)頁標(biāo)簽命令,則將其中存儲的網(wǎng)址作為參數(shù)傳遞給語音控制功能模塊中的網(wǎng)頁打開函數(shù)。該模塊允許對XML中存儲的命令進(jìn)行增加、修改、刪除和查詢操作;界面交互模塊界面交互模塊接收程序控制模塊傳來的各功能流程的運(yùn)行情況,在主窗體界面上顯示各功能的激活狀態(tài),并提示用戶可進(jìn)行的操作。界面交互模塊接收頭部姿態(tài)控制功能模塊傳來的頭部區(qū)域和頭部動作方向情況,在主窗體上繪制的視頻窗口上繪制人臉區(qū)域,并在鼠標(biāo)附近繪制了上下左右四個方向的可變色的半透明箭頭用以標(biāo)明頭部動作的移動方向。界面交互模塊接收語音命令模塊傳來的語音命令內(nèi)容,在主窗體上以文字形式顯示語音命令的內(nèi)容,以便用戶查看。程序控制模塊程序控制模塊接受頭部姿態(tài)控制功能模塊傳遞的數(shù)據(jù),包括頭部姿態(tài)控制功能模塊是否開啟,頭部姿態(tài)控制功能模塊處于哪種模(普通模式或者游戲模式)。該模塊允許用戶切換頭部姿態(tài)控制功能模塊的啟用與關(guān)閉,允許用戶切換頭部姿態(tài)控制功能模塊兩種模式的切換。程序控制模塊接收語音控制功能模塊傳遞的數(shù)據(jù),包括語音控制功能模塊是否開啟,語音控制功能模塊是否處于聽寫狀態(tài)下。該模塊允許用戶切換語音控制功能模塊的啟用與關(guān)閉,允許用戶切換語音控制模塊聽寫狀態(tài)的開啟與關(guān)閉。程序控制功能接收用戶信息采集模塊傳遞的信息,即視頻輸入設(shè)備和語音輸入設(shè)備是否存在。程序控制功能根據(jù)信息,決定是否開啟頭部姿態(tài)控制功能模塊或者語音控制功能模塊。自定制模塊該模塊允許用戶對語音命令進(jìn)行修改,修改的數(shù)據(jù)通過界面交互模塊從用戶出獲取,修改后的語音命令傳遞給存儲模塊重新存儲。用戶可自定制的內(nèi)容包括識別頭部動作的閾值(即頭部動作靈敏度),語音控制功能使用的語音命令。多維感官人機(jī)交互方法,步驟如下(I)采集用戶信息用戶信息采集模塊從操作系統(tǒng)默認(rèn)的視頻輸入設(shè)備和音頻輸入設(shè)備獲取視頻流和音頻流,并傳給用戶信息識別分析模塊;如果操作系統(tǒng)沒有默認(rèn)的視頻輸入設(shè)備或音頻輸入設(shè)備,程序控制模塊阻塞用戶信息識別分析模塊、頭部姿態(tài)控制功能模塊、語音控制功能模塊中與頭部姿態(tài)或語音有關(guān)的程序流程。(2)識別分析用戶信息用戶信息識別分析模塊對從用戶信息采集模塊得到的視頻流和音頻流進(jìn)行處理,得到系統(tǒng)能夠直接處理的信息對象。對于視頻流,用戶信息識別分析模塊從中提取到彩色幀,經(jīng)過顔色空間轉(zhuǎn)換、均值化處理、圖像縮放、邊緣處理、計算積分圖像和使用分類器搜索目標(biāo)后,檢測出每ー幀中的頭部圖像,得到每ー幀所識別出的頭部圖像的數(shù)組送至頭部姿態(tài)控制功能模塊。對于音頻流的處理,用戶信息識別分析模塊會調(diào)用相關(guān)的語音應(yīng)用程序接ロ(SAPI),通過語音識別引擎將語音轉(zhuǎn)換成語音信息文本,傳送給語音控制功能模塊。(3)頭部姿態(tài)控制或語音控制功能實現(xiàn)頭部姿態(tài)控制功能模塊從得到的每ー幀頭部圖像的數(shù)組中檢測出最大的頭部作為識別的用戶的頭部,根據(jù)識別出的用戶頭部,確定用戶頭部的中心位置,并計算出連續(xù)N幀的頭部中心位置的平均值作為標(biāo)定值;當(dāng)某一幀用戶頭部的中心位置的超出平均值達(dá)到模塊設(shè)定的閾值時,則判定用戶頭部處于運(yùn)動狀態(tài);否則,判定用戶頭部處于靜止?fàn)顟B(tài)。用戶頭部處于運(yùn)動狀態(tài)時,頭部姿態(tài)控制功能模塊提供兩種模式供用戶選擇普通模式和游戲模式。用戶可通過程序控制模塊對這兩種模式進(jìn)行選擇。若用戶選擇普通模式,頭部姿態(tài)控制功能模塊可根據(jù)頭部動作方向控制鼠標(biāo)的移動方向,即將頭部動作方向映射為鼠標(biāo)的移動方向;若用戶選擇游戲模式,頭部姿態(tài)控制功能模塊可根據(jù)頭部動作方向模擬游戲的方向按鍵,即頭部向上運(yùn)動時自動按下“ W”鍵,向下運(yùn)動時自動按下“ S”鍵,向左運(yùn)動時自動“a”鍵為左方向,向右運(yùn)動時自動按下“d”鍵。同時,頭部姿態(tài)控制功能模塊將識別出的頭部區(qū)域、頭部動作方向傳給界面交互模塊。語音控制功能模塊接受用戶信息識別分析模塊輸出的語音信息文本,由程序控制模塊判斷系統(tǒng)聽寫狀態(tài)是否開啟。用戶可通過程序控制模塊選擇聽寫狀態(tài)的開啟與關(guān)閉。若聽寫狀態(tài)開 啟,則該模塊接受語音信息文本后,調(diào)用存儲模塊中的快捷鍵語音命令,進(jìn)行查找匹配。如果匹配成功,則觸發(fā)對應(yīng)的鍵盤按鍵事件,完成語音命令所代表的windows操作系統(tǒng)的快捷鍵操作。如果匹配失敗,則將接受的語音信息文以文字的形式發(fā)送到剪切板中,再粘貼到鼠標(biāo)光標(biāo)所在處,完成聽寫功能。若聽寫狀態(tài)關(guān)閉,首先將接收到的語音信息文本與存儲模塊中存儲的語音命令進(jìn)行查找匹配,找到相應(yīng)的語音命令;根據(jù)語音命令的內(nèi)容,完成不同的操作。若語音命令屬于語音控制鼠標(biāo)命令,則根據(jù)語音命令的內(nèi)容觸發(fā)語音命令所映射的鼠標(biāo)動作(如單擊、雙擊等);若語音命令屬于語音啟動程序命令,則啟動語音命令中程序路徑下的應(yīng)用程序;若語音命令屬于語音模擬快捷鍵命令,則根據(jù)語音命令中的按鍵方式觸發(fā)相應(yīng)的按鍵操作;若語音命令屬于語音打開網(wǎng)頁標(biāo)簽命令,則在瀏覽器中打開語音命令的網(wǎng)址對應(yīng)的網(wǎng)頁。同吋,該模塊將識別出的語音命令內(nèi)容傳給界面交互模塊。(4)用戶界面輸出界面交互模塊接收程序控制模塊傳來的各功能流程的運(yùn)行情況,在主窗體界面上顯示各功能的激活狀態(tài),并提示用戶可進(jìn)行的操作。界面交互模塊接收頭部姿態(tài)控制功能模塊傳來的頭部區(qū)域和頭部動作方向情況,在主窗體上繪制的視頻窗ロ上繪制人臉區(qū)域,并在鼠標(biāo)附近繪制了上下左右四個方向的可變色的半透明箭頭用以標(biāo)明頭部動作的移動方向。界面交互模塊接收語音命令模塊傳來的語音命令內(nèi)容,在主窗體上以文字形式顯示語音命令的內(nèi)容,以便用戶查看。同時,用戶也可以通過界面交互模塊輸入自定制信息修改頭部動作靈敏度和語音命令內(nèi)容。本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點在于(I)本發(fā)明通過頭部姿態(tài)控制、語音控制、鍵盤鼠標(biāo)操作等方式有機(jī)結(jié)合的多通道人機(jī)交互系統(tǒng),使用戶可同時利用多種交互方式對計算機(jī)進(jìn)行豐富簡單快捷的交互操作。(2)本可讓用戶采用多通道的交互方式快速編輯和撰寫文檔,很大程度上提高了辦公效率,為用戶節(jié)約了大量時間。例如,用戶在用鍵盤輸入文檔內(nèi)容時,可以通過語音命令進(jìn)行復(fù)制、粘貼、刪除等快捷操作,而無需將雙手在鼠標(biāo)和鍵盤之間頻繁的切換。此外,用戶還可以通過語音命令快速啟動QQ、播放器、瀏覽器等程序,既快捷又簡單,減少了查找、點擊運(yùn)行等繁瑣的操作。(3)本發(fā)明的頭部運(yùn)動交互方式還可以讓用戶在休閑娛樂的同時達(dá)到頸部健身的目的。例如,用戶長時間用鼠標(biāo)鍵盤坐著玩游戲會引起頸部酸痛,但是采用頭部動作操作游戲則會讓用戶在娛樂的同時鍛煉頸部,以減輕疲勞,這對于長時間操作計算機(jī)的人群是十分有益。
(4)本發(fā)明更加貼近日常生活,實用性較強(qiáng),可用于辦公、玩游戲、飛行訓(xùn)練、頸部健身等諸多應(yīng)用場景,也可以讓學(xué)習(xí)鼠標(biāo)鍵盤有困難的老年人、殘疾人也能輕松地操作計算機(jī),讓更多的人享受到計算機(jī)的帶給人們的便利。
圖I為本發(fā)明交互系統(tǒng)總體設(shè)計圖;圖2為本發(fā)明中頭部識別流程圖;圖3為本發(fā)明中語音識別流程圖;圖4為本發(fā)明中頭部動作識別流程圖;圖5為本發(fā)明中頭部姿態(tài)控制功能流程圖;圖6為本發(fā)明中語音聽寫流程圖;圖7為本發(fā)明中語音控制鼠標(biāo)流程圖;圖8為本發(fā)明中語音模擬快捷鍵流程圖;圖9為本發(fā)明中語音啟動應(yīng)用程序流程圖;圖10為本發(fā)明中語音打開網(wǎng)頁標(biāo)簽流程圖;圖11為本發(fā)明中XML文件設(shè)計圖;圖12為本發(fā)明中操作XML文件流程圖;圖13為本發(fā)明中交互界面設(shè)計圖;圖14為本發(fā)明中自定義流程圖;圖15為本發(fā)明中程序控制流程圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)說明。如圖I所示,本發(fā)明多維感知人機(jī)交互系統(tǒng)由8個模塊組成用戶信息采集模塊、用戶信息識別分析模塊、頭部姿態(tài)控制功能模塊、語音控制功能模塊、存儲模塊、界面交互模塊、自定制模塊和程序控制模塊。整體實現(xiàn)過程如下
(I)采集用戶信息。用戶信息采集模塊從操作系統(tǒng)默認(rèn)的視頻輸入設(shè)備和音頻輸入設(shè)備獲取視頻流和音頻流。如果操作系統(tǒng)沒有默認(rèn)的視頻輸入設(shè)備或音頻輸入設(shè)備,用戶信息采集模塊自動關(guān)閉頭部姿態(tài)控制或語音控制。(2)識別分析用戶信息。用戶信息識別分析模塊對從視頻輸入設(shè)備和音頻輸入設(shè)備獲得的視頻流和音頻流進(jìn)行進(jìn)ー步的處理,得到系統(tǒng)能夠直接處理的信息對象。對于視頻流,用戶信息識別分析模塊從中提取到彩色幀,經(jīng)過顔色空間轉(zhuǎn)換、均值化處理、圖像縮放、邊緣處理、計算積分圖像和使用分類器搜索目標(biāo)后,檢測出每ー幀中的頭部圖像,得到每ー幀所識別出的頭部圖像的數(shù)組。對于音頻流的處理,用戶信息識別分析模塊會調(diào)用相關(guān)的語音應(yīng)用程序接ロ(SAPI),通過語音識別引擎將語音轉(zhuǎn)換成語音信息文本,交給系統(tǒng)直接處理使用。為提高識別的準(zhǔn)確度,用戶信息識別分析模塊采用基于小詞匯量的命令識別模式和對不同語法設(shè)置不同置信度的方法。(3)頭部姿態(tài)控制或語音控制功能實現(xiàn)。
頭部姿態(tài)控制功能模塊從得到的每ー幀頭部圖像的數(shù)組中檢測出最大的頭部作為識別的用戶的頭部。根據(jù)識別出的頭部,確定頭部的中心位置,并計算出連續(xù)N幀的頭部中心位置的平均值作為標(biāo)定值。當(dāng)某一幀頭部的中心位置的超出平均值達(dá)到模塊設(shè)定的閾值時,頭部姿態(tài)控制功能模塊會判定頭部處于運(yùn)動狀態(tài)。否則,判定頭部處于靜止?fàn)顟B(tài)。在普通ネ旲式下,頭部姿態(tài)控制功能I旲塊根據(jù)頭部中心位直移動方向判定頭部動作方向,并映射為鼠標(biāo)的移動方向,調(diào)用系統(tǒng)調(diào)用,轉(zhuǎn)換成相應(yīng)的鼠標(biāo)操作。在游戲模式下,頭部姿態(tài)控制功能I旲塊根據(jù)頭部中心位直移動方向判定頭部動作方向,并映射為游戲方向按鍵(上為“W”,下為“s”,左為“a”,右為“d” ),在驅(qū)動級模擬鍵盤動作。語音控制功能模塊接受用戶信息識別分析模塊輸出的語音信息文本,由程序控制模塊判斷系統(tǒng)聽寫狀態(tài)是否開啟。用戶可通過程序控制模塊選擇聽寫狀態(tài)的開啟與關(guān)閉。若聽寫狀態(tài)開啟,則該模塊接受語音信息文本后,調(diào)用存儲模塊中的快捷鍵語音命令,進(jìn)行 查找匹配。如果匹配成功,則觸發(fā)對應(yīng)的鍵盤按鍵事件,完成語音命令所代表的windows操作系統(tǒng)的快捷鍵操作。如果匹配失敗,則將接受的語音信息文以文字的形式發(fā)送到剪切板中,再粘貼到鼠標(biāo)光標(biāo)所在處,完成聽寫功能。若聽寫狀態(tài)關(guān)閉,首先將接收到的語音信息文本與存儲模塊中存儲的語音命令進(jìn)行查找匹配,找到相應(yīng)的語音命令;根據(jù)語音命令的內(nèi)容,完成不同的操作。若語音命令屬于語音控制鼠標(biāo)命令,則根據(jù)語音命令的內(nèi)容觸發(fā)語音命令所映射的鼠標(biāo)動作(如單擊、雙擊等);若語音命令屬于語音啟動程序命令,則啟動語音命令中程序路徑下的應(yīng)用程序;若語音命令屬于語音模擬快捷鍵命令,則根據(jù)語音命令中的按鍵方式觸發(fā)相應(yīng)的按鍵操作;若語音命令屬于語音打開網(wǎng)頁標(biāo)簽命令,則在瀏覽器中打開語音命令的網(wǎng)址對應(yīng)的網(wǎng)頁。同吋,該模塊將識別出的語音命令內(nèi)容傳給界面交互模塊。(4)用戶界面輸出。界面交互模塊在主窗體界面上顯示各功能的激活狀態(tài)。根據(jù)系統(tǒng)的當(dāng)前狀態(tài),在主窗體界面上提示用戶接下來可以進(jìn)行的操作。主窗體設(shè)有視頻窗ロ,在視頻窗口中繪出人臉區(qū)域,便于用戶標(biāo)定調(diào)整。在鼠標(biāo)附近,界面交互模塊繪制了上下左右四個方向的可變色的透明箭頭,用以顯示頭部動作的移動方向。上述各模塊的具體實現(xiàn)過程如下I.用戶信息采集模塊。該模塊的實現(xiàn)過程如下所示(I)檢查計算機(jī)是否有視頻輸入設(shè)備和音頻輸入設(shè)備。(2)若存在作多個視頻輸入設(shè)備或音頻輸入設(shè)備,該模塊會默認(rèn)采集來自Windows操作系統(tǒng)默認(rèn)的視頻輸入設(shè)備和音頻輸入設(shè)備的視頻流和音頻流。(3)若不存在視頻輸入設(shè)備或音頻輸入設(shè)備,Windows操作系統(tǒng)沒有默認(rèn)的視頻輸入設(shè)備或音頻輸入設(shè)備,該模塊會自動關(guān)閉頭部姿態(tài)控制功能或語音控制功能。2.用戶信息識別分析模塊該模塊對于視頻流的實現(xiàn)過程如圖2所示(I)顏色空間的轉(zhuǎn)換在頭部識別中,處理的圖片是從視頻輸入設(shè)備獲取的,由于環(huán)境因素受光照影響非常大,因此要把彩色圖像轉(zhuǎn)換為灰度圖像(即黑白圖像)來減少光照影響,同時也能加快圖像的處理速度。
(2)均值化處理對輸入圖像進(jìn)行直方圖均衡化,用來歸ー化圖像亮度和增強(qiáng)對比度。(3)圖像縮放采用等比例圖像縮放,在精度允許范圍內(nèi)提高圖片處理速度,節(jié)省cpu和內(nèi)存資源。(4)邊緣處理用canny算子實現(xiàn)邊緣檢測,所謂邊緣就是指圖像局部亮度變化最顯著的部分,它是檢測圖像局部顯著變化的最基本的運(yùn)算。對于數(shù)字圖像,圖像灰度值的顯著變化可以用梯度來表示,用canny算子來實現(xiàn)邊緣檢測。
用高斯函數(shù)對圖像f (x,y)進(jìn)行濾波得到f(x,y) XG(x,y, o ),然后計算其梯度矢量的模和方向M=| f (x, y)*G(x,y, o ) |
_ I : V) Gi v. . T ;ン圖像邊緣點即為在方向A上使模M取得局部極大值的點。其中G(x,y,o)是高斯函數(shù),作為平滑濾波器;x,y代表濾波器窗ロ的大小。邊緣檢測在頭部檢測中的意義主要是它對檢測速度的優(yōu)化,在沒有邊緣的地方,必定不會存在人臉,邊緣非常多的地方也不會存在人臉,通過邊緣檢測可以快速確定感興趣的區(qū)域,減少計算量,這樣就能夠?qū)z測速度做了很大的優(yōu)化。該模塊對于音頻流的實現(xiàn)過程如圖3所示(I)從用戶信息采集模塊獲取語音。(2)運(yùn)用識別引擎(Recognition Engine),從語音中識別出漢字。(3)輸出語音信息文本。3.頭部姿態(tài)控制功能模塊該模塊的實現(xiàn)過程如下所示(I)從用戶信息識別分析模塊獲取ー幀頭部圖像數(shù)組。(2)最大頭部選擇。對檢測出每幀N個頭部的位置和大小的信息,整理后掃描得到最大頭部的位置和大小信息,如圖4所示。(3)中心標(biāo)定。系統(tǒng)初始化完成后的N幀圖像檢測出的最大頭部的位置求平均值所得到標(biāo)定值,如圖4所示。(4)頭部移動方向檢測。系統(tǒng)會在圖像X軸和Y軸上設(shè)定閾值,當(dāng)某一幀圖像最大頭部的中心位置在X軸或Y軸上偏離標(biāo)定值的距離超過設(shè)定的閾值時,模塊會判斷用戶的頭部處于非靜止?fàn)顟B(tài),如圖4所示。(5)狀態(tài)標(biāo)定。頭部動作映射ー個狀態(tài)標(biāo)量,并為利用頭部移動方向的檢測結(jié)果為;如圖5所示。(6)頭部姿態(tài)控制鼠標(biāo)移動和按鍵操作用戶通過程序控制模塊選擇普通模式或者游戲模式。如果頭部姿態(tài)控制處于普通模式下,如仰頭時狀態(tài)標(biāo)量為UP,UP又可以映射為上移鼠標(biāo)命令,再對標(biāo)量狀態(tài)檢測并調(diào)用系統(tǒng)調(diào)用觸發(fā)相應(yīng)的鼠標(biāo)事件相應(yīng)。如果頭部姿態(tài)控制處于游戲模式下,如仰頭時狀態(tài)標(biāo)量為UP,UP又可以映射為游戲中的上方向鍵(即“W”鍵),再對標(biāo)量狀態(tài)檢測并在驅(qū)動級模擬鍵盤按鍵操作。如圖5所
/Jn o4.語音控制功能模塊語音控制模塊的流程如下
(I)判斷系統(tǒng)所處的語音控制狀態(tài)。若聽寫狀態(tài)開啟,進(jìn)行步驟(2),否則進(jìn)行步驟⑶。(2)加載語音聽寫語法,將接受的語音信息文本先與存XML文件中的語音快捷鍵命令進(jìn)行查找匹配。若匹配成功,則使用語音模擬快捷鍵命令。若匹配失敗,將語音文本與XML文件中的常用網(wǎng)址匹配。若常用網(wǎng)址匹配失敗,在光標(biāo)處顯示語音信息文本。否則,由用戶選擇輸入的內(nèi)容。如圖6所示。(3)若與語音控制鼠標(biāo)動作命令匹配成功,進(jìn)行步驟(4);若與語音模擬快捷鍵命令匹配成功,進(jìn)行步驟(5);若與語音啟動應(yīng)用程序命令匹配成功,進(jìn)行步驟¢);若與語音網(wǎng)頁標(biāo)簽命令匹配成功,進(jìn)行步驟(7)。(4),模塊會查詢哈希表中的命令進(jìn)行匹配,根據(jù)匹配結(jié)果,使用系統(tǒng)調(diào)用觸發(fā)鼠標(biāo)的單擊、雙擊、單擊右鍵、單擊中鍵、向上滾動,向下滾動、定位到屏幕左(或右)上(或下)角、加快、減慢、拖動、結(jié)束拖動事件,如圖7。(5)若與語音模擬快捷鍵命令匹配成功,則存儲模塊中對應(yīng)快捷鍵的命令內(nèi)容(即快捷鍵的組合鍵方式)傳遞給語音控制模塊,語音控制模塊調(diào)用系統(tǒng)調(diào)用模擬鍵盤按下和抬起操作,實現(xiàn)快捷鍵語音模擬快捷鍵功能,如圖8所示。。(6)若與語音模擬快捷鍵命令匹配成功,則存儲模塊中對應(yīng)的語音啟動程序命令內(nèi)容(即啟動程序路徑)傳遞給語音控制模塊,語音控制模塊啟動命令內(nèi)容中路徑下的程序,實現(xiàn)語音啟動應(yīng)用程序功能,如圖9所示。(7)若與語音打開網(wǎng)頁標(biāo)簽的命令匹配成功,則存儲模塊將對應(yīng)的語音打開網(wǎng)頁標(biāo)簽命令的內(nèi)容(即網(wǎng)頁標(biāo)簽的網(wǎng)址)傳遞給語音控制模塊,語音控制模塊調(diào)用系統(tǒng)調(diào)用開啟瀏覽器,并將網(wǎng)址作為參數(shù)傳給瀏覽器,實現(xiàn)語音打開網(wǎng)頁標(biāo)簽功能,如圖10所示。此外,該模塊為了提高語音命令識別的準(zhǔn)確度,采取了下列措施該模塊使用SAPI為各種語音命令編寫了不同的語法,每種語法包含了所要識別的語音命令內(nèi)容的數(shù)組,如語音模擬快捷鍵語法包含了“復(fù)制”,“粘貼”,“全選”等語音模擬快捷鍵命令。由于每種語法涉及的詞匯量很小,因此識別效果較好。同吋,該模塊在每種語法中都設(shè)置了語音識別的置信度的下限值,當(dāng)識別的語音低于這個下限值時,接受的語音不做處理。只有當(dāng)超過置信度下限值時,接受的語音才會進(jìn)行下一歩處理。5.存儲模塊該模塊采用兩種存儲技術(shù)哈希表和XML文件。哈希表主要用于存儲少量的語音控制系統(tǒng)的常用固定命令,因為該部分命令是系統(tǒng)內(nèi)置的基本語音命令,數(shù)目較少(僅幾十條命令)且需要快速查找匹配,因此本發(fā)明采用哈希表存儲該部分?jǐn)?shù)據(jù)。該模塊系統(tǒng)的常用基本命令建立一張哈希表,每ー種命令與其對應(yīng)的識別語言構(gòu)成ー組鍵值對,對應(yīng)的識別語言從本發(fā)明保存的文件中讀取。哈希表一旦建立,就一直存在于程序內(nèi)存當(dāng)中。這樣的做法使得語音識別成功時,可立即查找到哈希表中對應(yīng)的常用命令,查詢的時間幾乎為常數(shù)級。哈希表的缺點是一直占用內(nèi)存,但是本發(fā)明僅僅存儲較少的常用基本命令,這ー缺點就可以忽略。
對于語音控制的可變自定制命令,考慮到其數(shù)據(jù)量大且需要頻繁篩選搜索,插入刪除修改動作,而哈希表占用內(nèi)存較大,因此本發(fā)明采用XML存儲這部分?jǐn)?shù)據(jù)。在XML文件中定義四類數(shù)據(jù),即常用網(wǎng)址信息,語音啟動應(yīng)用程序命令,語音模擬快捷鍵命令和語音打開網(wǎng)頁標(biāo)簽命令。本發(fā)明將四類信息所需的數(shù)據(jù)存儲在ー個XML文件中,而不是分別存在四個XML文件中,原因是四類數(shù)據(jù)具有類似的結(jié)構(gòu),可以使用相似的查詢操作方法,而存儲在不同文件中,會増加無謂的加載時間,如圖11所示。。對于每個節(jié)點,本發(fā)明定義了兩個標(biāo)簽作為子節(jié)點,分別使用來表示自然語言的內(nèi)容和在程序代碼中使用的數(shù)據(jù)內(nèi)容。這種類似哈希表的結(jié)構(gòu)便于程序根據(jù)自然語言的內(nèi)容查找到相應(yīng)的內(nèi)容。操作XML文件的流程,如圖12所示。6.界面交互模塊界面顯示信息包括視頻窗ロ顯示區(qū)、各類功能狀態(tài)顯示區(qū)、用戶操作提示區(qū)、自定義等,如圖13所不。界面交互模塊接收程序控制模塊傳來的各功能流程的運(yùn)行情況,在主窗體界面上顯示各功能的激活狀態(tài),并提示用戶可進(jìn)行的操作。如頭部姿態(tài)控制功能模塊激活時,主界面現(xiàn)實“頭控開啟”,并提示用戶需要使用語音命令“中心定位”來進(jìn)行初始化操作。用戶還可以進(jìn)行“主菜単” “語音聽寫” “快捷操作” “頭控鼠標(biāo)” “聲控鼠標(biāo)”語音命令操作來查看各自對應(yīng)的語音命令。如“快捷操作”下,主界面切換到快捷操作界面下,并提示用戶可進(jìn)行“復(fù)制” “粘貼” “全選等操作”。界面交互模塊接收頭部姿態(tài)控制功能模塊傳來的頭部區(qū)域和頭部動作方向情況,在主窗體上繪制的視頻窗口上,用紅顏色的矩形區(qū)域圈出人臉的區(qū)域范圍,并在鼠標(biāo)附近繪制了上下左右四個方向的可變色的半透明箭頭用以標(biāo)明頭部動作的移動方向。如,當(dāng)識別出用戶頭部動作為向上時,鼠標(biāo)附近的向上箭頭會變?yōu)榧t色,表示此刻鼠標(biāo)正在向上運(yùn)動。界面交互模塊接收語音命令模塊傳來的語音命令內(nèi)容,在主窗體上以文字形式顯示語音命令的內(nèi)容,以便用戶查看。如用戶使用語音命令“單擊鼠標(biāo)”,主窗體上會顯示“單擊鼠標(biāo)”。用戶在執(zhí)行一條命令后,主界面區(qū)域會顯示出當(dāng)前命令可能相關(guān)的其他命令。所有可操控界面分為四類頭控鼠標(biāo)、聲控鼠標(biāo)、語音讀寫、快捷操作,而快捷操作中又包括快捷應(yīng)用、快捷網(wǎng)頁、快捷編輯和常用操作。用戶使用相應(yīng)的分類語音命令即可查看相關(guān)命令和使用方式。7.自定義模塊該模塊為從界面交互模塊得到用戶的自定義信息,自定義的內(nèi)容主要包括頭部動作靈敏度的定制和語音控制功能所需的語音命令(包括自定制常用網(wǎng)址,自定制快捷程序,自定制快捷操作命令和網(wǎng)頁標(biāo)簽)。自定制實現(xiàn)的原理是將用戶自定義信息根據(jù)各自所屬的類別,分別在XML文件中找到相應(yīng)的位置,并對XML文件進(jìn)行增加,刪除或修改等操作。然后自動加載所有修改的語音命令所在的語法,使修改后的命令即時生效。其主要流程如圖14所示。 8.程序控制模塊該過程如圖15所示。(I)系統(tǒng)初始化完成后,可選擇頭部姿態(tài)控制功能模塊和語音控制功能模塊的開啟或關(guān)閉。(2)可對頭部姿態(tài)控制模塊的普通模式和游戲模式進(jìn)行切換,分別進(jìn)行系統(tǒng)預(yù)設(shè)的功能。(3)系統(tǒng)的語音控制選擇是否開啟聽寫狀態(tài)關(guān)閉。若關(guān)閉,系統(tǒng)允許用戶使用語音控制鼠標(biāo)命令、語音模擬快捷鍵命令、語音啟動應(yīng)用程序命令和語音打開網(wǎng)頁標(biāo)簽命令。若開啟,此時,除語音模擬快捷鍵命令外,其他語音控制命令屏蔽,用戶可以使用聽寫功能。用戶可使用語音命令退出聽寫狀態(tài)。用戶也可以使用語音命令關(guān)閉語音控制。(4)系統(tǒng)的自定義界面開啟后,系統(tǒng)自動屏蔽語音控制,以便用戶修改語音命令??傊?,本發(fā)明具有適用范圍廣、可維護(hù)性好、擴(kuò)展性好等優(yōu)點。此外,該系統(tǒng)為計算機(jī)用戶提供了一種新穎的人機(jī)交互的處理方法,對于普通用戶提高操作效率、頸部健身,以及老年人學(xué)習(xí)計算機(jī),都有很大的幫助。本發(fā)明未詳細(xì)闡述部分屬于本領(lǐng)域公知技木。
權(quán)利要求
1.多維感官人機(jī)交互系統(tǒng),其特征在于包括用戶信息采集模塊、用戶信息識別分析模塊、頭部姿態(tài)控制功能模塊、語音控制功能模塊、存儲模塊、界面交互模塊和程序控制模塊;其中: 用戶信息采集模塊從操作系統(tǒng)默認(rèn)的視頻輸入設(shè)備和音頻輸入設(shè)備獲取視頻流和音頻流,并將視頻流和音頻流送至用戶信息識別分析模塊中;如果找不到視頻輸入設(shè)備或音頻輸入設(shè)備,則交由程序控制模塊阻塞用戶信息識別分析模塊、頭部姿態(tài)控制功能模塊、語音控制功能模塊中與頭部姿態(tài)或語音有關(guān)的程序流程; 用戶信息識別分析模塊對從用戶信息采集模塊中得到的視頻流和音頻流進(jìn)行處理,得到能夠直接處理的信息對象;對于視頻流的處理,從視頻流中提取到彩色幀,經(jīng)過顏色空間轉(zhuǎn)換、均值化處理、圖像縮放、邊緣處理、計算積分圖像和使用分類器搜索目標(biāo)后,檢測出每ー幀中的頭部圖像,得到每ー幀所識別出的頭部圖像的數(shù)組,并將每ー幀所識別出的頭部圖像的數(shù)組送至頭部姿態(tài)控制功能模塊;對于音頻流的處理,調(diào)用相關(guān)的語音應(yīng)用程序接ロ(SAPI),通過語音識別引擎將語音轉(zhuǎn)換成語音信息文本,交給語音控制功能模塊使用; 頭部姿態(tài)控制功能模塊從得到的每ー幀頭部圖像的數(shù)組中檢測出最大的頭部作為識別的用戶的頭部,根據(jù)識別出的用戶頭部,確定用戶頭部的中心位置,并計算出連續(xù)N幀的頭部中心位置的平均值作為標(biāo)定值;當(dāng)某ー幀用戶頭部的中心位置的超出平均值達(dá)到模塊設(shè)定的閾值時,則判定用戶頭部處于運(yùn)動狀態(tài);否則,判定用戶頭部處于靜止?fàn)顟B(tài);用戶頭部處于運(yùn)動狀態(tài)吋,該模塊提供兩種模式供用戶選擇普通模式和游戲模式,用戶可通過程序控制模塊對這兩種模式進(jìn)行選擇;若用戶選擇普通模式,該模塊可根據(jù)頭部動作方向控制鼠標(biāo)的移動方向,即將頭部動作方向映射為鼠標(biāo)的移動方向;若用戶選擇游戲模式,該模塊可根據(jù)頭部動作方向模擬游戲的方向按鍵;同吋,該模塊將識別出的頭部區(qū)域、頭部動作方向傳給界面交互模塊; 語音控制功能模塊接受用戶信息識別分析模塊輸出的語音信息文本,由程序控制模塊判斷系統(tǒng)聽寫狀態(tài)是否開啟,用戶可通過程序控制模塊選擇聽寫狀態(tài)的開啟與關(guān)閉;若聽寫狀態(tài)開啟,則接受語音信息文本后,調(diào)用存儲模塊中的快捷鍵語音命令,進(jìn)行查找匹配,如果匹配成功,則觸發(fā)對應(yīng)的鍵盤按鍵事件,完成語音命令所代表的windows操作系統(tǒng)的快捷鍵操作;如果匹配失敗,則將接受的語音信息文以文字的形式發(fā)送到剪切板中,再粘貼到鼠標(biāo)光標(biāo)所在處,完成聽寫功能;若聽寫狀態(tài)關(guān)閉,首先將接收到的語音信息文本與存儲模塊中存儲的語音命令進(jìn)行查找匹配,找到相應(yīng)的語音命令;根據(jù)語音命令的內(nèi)容,完成不同的操作;若語音命令屬于語音控制鼠標(biāo)命令,則根據(jù)語音命令的內(nèi)容觸發(fā)語音命令所映射的鼠標(biāo)動作;若語音命令屬于語音啟動程序命令,則啟動語音命令中程序路徑下的應(yīng)用程序;若語音命令屬于語音模擬快捷鍵命令,則根據(jù)語音命令中的按鍵方式觸發(fā)相應(yīng)的按鍵操作;若語音命令屬于語音打開網(wǎng)頁標(biāo)簽命令,則在瀏覽器中打開語音命令的網(wǎng)址對應(yīng)的網(wǎng)頁;同吋,該模塊將識別出的語音命令內(nèi)容傳給界面交互模塊; 存儲模塊利用哈希表和XML文件存儲了語音信息文本對應(yīng)的語音命令;哈希表存儲了系統(tǒng)有限的常用基本語音命令,即語音控制鼠標(biāo)命令,其內(nèi)容為鼠標(biāo)的各種事件;當(dāng)語音控制功能模塊調(diào)用該部分命令,則將其鼠標(biāo)的各種事件作為參數(shù)傳遞給語音控制功能模塊中的鼠標(biāo)動作函數(shù)。XML文件則存儲了可擴(kuò)展的語音命令,包括語音模擬快捷鍵命令,語音啟動應(yīng)用程序命令、語音打開網(wǎng)頁標(biāo)簽命令;當(dāng)語音控制功能模塊調(diào)語音模擬快捷鍵命令,則將其中存儲的快捷鍵組合方式作為參數(shù)傳遞給語音控制功能模塊中的模擬快捷鍵按鍵函數(shù);當(dāng)語音控制功能模塊調(diào)語音啟動快捷鍵命令,則將其中存儲的應(yīng)用程序名作為參數(shù)傳遞給語音控制功能模塊中的啟動程序函數(shù);當(dāng)語音控制功能模塊調(diào)語音打開網(wǎng)頁標(biāo)簽命令,則將其中存儲的網(wǎng)址作為參數(shù)傳遞給語音控制功能模塊中的網(wǎng)頁打開函數(shù);該模塊還允許對XML中存儲的命令進(jìn)行增加、修改、刪除和查詢操作;界面交互模塊接收程序控制模塊傳來的各功能流程的運(yùn)行情況,在主窗體界面上顯示各功能的激活狀態(tài),并提示用戶可進(jìn)行的操作;接收頭部姿態(tài)控制功能模塊傳來的頭部區(qū)域和頭部動作方向情況,在主窗體上繪制的視頻窗口上繪制人臉區(qū)域,并在鼠標(biāo)附近繪制了上下左右四個方向的可變色的半透明箭頭用以標(biāo)明頭部動作的移動方向;接收語音命令模塊傳來的語音命令內(nèi)容,在主窗體上以文字形式顯示語音命令的內(nèi)容,以便用戶查看; 程序控制模塊接受頭部姿態(tài)控制功能模塊傳遞的數(shù)據(jù),包括頭部姿態(tài)控制功能模塊是否開啟,頭部姿態(tài)控制功能模塊處于哪種模式,即普通模式或者游戲模式;該模塊還允許用戶切換頭部姿態(tài)控制功能模塊的啟用與關(guān)閉,允許用戶切換頭部姿態(tài)控制功能模塊兩種模式的切換;接收語音控制功能模塊傳遞的數(shù)據(jù),包括語音控制功能模塊是否開啟,語音控制功能模塊是否處于聽寫狀態(tài)下;允許用戶切換語音控制功能模塊的啟用與關(guān)閉,允許用戶切換語音控制模塊聽寫狀態(tài)的開啟與關(guān)閉;接收用戶信息采集模塊傳遞的信息,即視頻輸入設(shè)備和語音輸入設(shè)備是否存在,程序控制功能根據(jù)信息,決定是否開啟頭部姿態(tài)控制功能模塊或者語音控制功能模塊; 自定制模塊允許用戶對語音命令進(jìn)行修改,修改的數(shù)據(jù)通過界面交互模塊從用戶出獲取,修改后的語音命令傳遞給存儲模塊重新存儲;用戶可自定制的內(nèi)容包括識別頭部動作的閾值,即頭部動作靈敏度,語音控制功能使用的語音命令。
2.根據(jù)權(quán)利要求所述的多維感官人機(jī)交互系統(tǒng),其特征在于所述用戶信息識別分析模塊還為不同種類的語音命令編寫了不同的語法,由于每ー種語法都是基于小詞匯量的且都設(shè)置了識別的置信度下限,從而提高了語音識別的準(zhǔn)確度。
3.多維感官人機(jī)交互方法,其特征在于實現(xiàn)步驟如下 (1)采集用戶信息用戶信息采集模塊從操作系統(tǒng)默認(rèn)的視頻輸入設(shè)備和音頻輸入設(shè)備獲取視頻流和音頻流,并傳給用戶信息識別分析模塊;如果操作系統(tǒng)沒有默認(rèn)的視頻輸入設(shè)備或音頻輸入設(shè)備,程序控制模塊阻塞用戶信息識別分析模塊、頭部姿態(tài)控制功能模塊、語音控制功能模塊中與頭部姿態(tài)或語音有關(guān)的程序流程; (2)識別分析用戶信息用戶信息識別分析模塊對從用戶信息采集模塊得到的視頻流和音頻流進(jìn)行處理,得到系統(tǒng)能夠直接處理的信息對象;對于視頻流,用戶信息識別分析模塊從中提取到彩色幀,經(jīng)過顏色空間轉(zhuǎn)換、均值化處理、圖像縮放、邊緣處理、計算積分圖像和使用分類器搜索目標(biāo)后,檢測出每ー幀中的頭部圖像,得到每ー幀所識別出的頭部圖像的數(shù)組送至頭部姿態(tài)控制功能模塊;對于音頻流的處理,用戶信息識別分析模塊會調(diào)用相關(guān)的語音應(yīng)用程序接ロ(SAPI),通過語音識別引擎將語音轉(zhuǎn)換成語音信息文本,傳送給語首控制功能I旲塊; (3)頭部姿態(tài)控制或語音控制功能實現(xiàn)頭部姿態(tài)控制功能模塊從得到的每ー幀頭部圖像的數(shù)組中檢測出最大的頭部作為識別的用戶的頭部,根據(jù)識別出的用戶頭部,確定用戶頭部的中心位置,并計算出連續(xù)N幀的頭部中心位置的平均值作為標(biāo)定值;當(dāng)某ー幀用戶頭部的中心位置的超出平均值達(dá)到模塊設(shè)定的閾值時,則判定用戶頭部處于運(yùn)動狀態(tài);否則,判定用戶頭部處于靜止?fàn)顟B(tài);用戶頭部處于運(yùn)動狀態(tài)時,頭部姿態(tài)控制功能模塊提供兩種模式供用戶選擇普通模式和游戲模式,用戶可通過程序控制模塊對這兩種模式進(jìn)行選擇,若用戶選擇普通模式,頭部姿態(tài)控制功能模塊可根據(jù)頭部動作方向控制鼠標(biāo)的移動方向,即將頭部動作方向映射為鼠標(biāo)的移動方向;若用戶選擇游戲模式,頭部姿態(tài)控制功能模塊可根據(jù)頭部動作方向模擬游戲的方向按鍵;同時,頭部姿態(tài)控制功能模塊將識別出的頭部區(qū)域、頭部動作方向傳給界面交互模塊;語音控制功能模塊接受用戶信息識別分析模塊輸出的語音信息文本,由程序控制模塊判斷系統(tǒng)聽寫狀態(tài)是否開啟;用戶可通過程序控制模塊選擇聽寫狀態(tài)的開啟與關(guān)閉;若聽寫狀態(tài)開啟,則該模塊接受語音信息文本后,調(diào)用存儲模塊中的快捷鍵語音命令,進(jìn)行查找匹配,如果匹配成功,則觸發(fā)對應(yīng)的鍵盤按鍵事件,完成語音命令所代表的windows操作系統(tǒng)的快捷鍵操作;如果匹配失敗,則將接受的語 音信息文以文字的形式發(fā)送到剪切板中,再粘貼到鼠標(biāo)光標(biāo)所在處,完成聽寫功能;若聽寫狀態(tài)關(guān)閉,首先將接收到的語音信息文本與存儲模塊中存儲的語音命令進(jìn)行查找匹配,找到相應(yīng)的語音命令;根據(jù)語音命令的內(nèi)容,完成不同的操作;若語音命令屬于語音控制鼠標(biāo)命令,則根據(jù)語音命令的內(nèi)容觸發(fā)語音命令所映射的鼠標(biāo)動作;若語音命令屬于語音啟動程序命令,則啟動語音命令中程序路徑下的應(yīng)用程序;若語音命令屬于語音模擬快捷鍵命令,則根據(jù)語音命令中的按鍵方式觸發(fā)相應(yīng)的按鍵操作;若語音命令屬于語音打開網(wǎng)頁標(biāo)簽命令,則在瀏覽器中打開語音命令的網(wǎng)址對應(yīng)的網(wǎng)頁;同吋,將識別出的語音命令內(nèi)容傳給界面交互模塊; (4)用戶界面輸出界面交互模塊接收程序控制模塊傳來的各功能流程的運(yùn)行情況,在主窗體界面上顯示各功能的激活狀態(tài),并提示用戶可進(jìn)行的操作;界面交互模塊接收頭部姿態(tài)控制功能模塊傳來的頭部區(qū)域和頭部動作方向情況,在主窗體上繪制的視頻窗口上繪制人臉區(qū)域,并在鼠標(biāo)附近繪制了上下左右四個方向的可變色的半透明箭頭用以標(biāo)明頭部動作的移動方向;界面交互模塊接收語音命令模塊傳來的語音命令內(nèi)容,在主窗體上以文字形式顯示語音命令的內(nèi)容,以便用戶查看;同時,用戶也可以通過界面交互模塊輸入自定制信息修改頭部動作靈敏度和語音命令內(nèi)容。
全文摘要
多維感官人機(jī)交互系統(tǒng)及交互方法,是一種基于頭部姿態(tài)控制、語音控制和鍵盤鼠標(biāo)操作等交互方式相結(jié)合的多維感知人機(jī)交互系統(tǒng)及方法,由8個模塊組成用戶信息采集模塊、用戶信息識別分析模塊、頭部姿態(tài)控制功能模塊、語音控制功能模塊、存儲模塊、界面交互模塊、自定制模塊和程序控制模塊。該方法通過采集用戶信息、識別分析用戶信息、頭部姿態(tài)控制或語音控制功能實現(xiàn)、用戶界面輸出4個過程實現(xiàn)。本發(fā)明具有適用范圍廣、可維護(hù)性好、擴(kuò)展性好等優(yōu)點。此外,該系統(tǒng)為計算機(jī)用戶提供了一種新穎的人機(jī)交互的處理方法,對于普通用戶提高操作效率、頸部健身,以及老年人學(xué)習(xí)計算機(jī),都有很大的幫助。
文檔編號G06F17/30GK102622085SQ20121010534
公開日2012年8月1日 申請日期2012年4月11日 優(yōu)先權(quán)日2012年4月11日
發(fā)明者宋友, 張野, 王澤強(qiáng), 王洪磊, 羅云峰, 欽恩強(qiáng) 申請人:北京航空航天大學(xué)