人機(jī)互動(dòng)系統(tǒng)和方法

文檔序號(hào)：2836181閱讀：504來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：人機(jī)互動(dòng)系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種人機(jī)互動(dòng)技術(shù)，特別是涉及一種人機(jī)互動(dòng)系統(tǒng)和方法。
背景技術(shù)：
隨著科技的進(jìn)步，電子設(shè)備所具有的智能化程度越來(lái)越高，利用聲音對(duì)電子設(shè)備進(jìn)行控制是當(dāng)前電子設(shè)備向智能化發(fā)展的一個(gè)重要方向。目前對(duì)電子設(shè)備進(jìn)行聲控的實(shí)現(xiàn)方式通常是建立在語(yǔ)音識(shí)別的基礎(chǔ)上的。該實(shí)現(xiàn)方式具體為:電子設(shè)備對(duì)控制者發(fā)出的聲音進(jìn)行語(yǔ)音識(shí)別，并根據(jù)語(yǔ)音識(shí)別結(jié)果來(lái)判斷控制者希望電子設(shè)備執(zhí)行的控制命令，之后，電子設(shè)備通過(guò)自動(dòng)執(zhí)行該控制命令，實(shí)現(xiàn)了電子設(shè)備的聲控。發(fā)明人在實(shí)現(xiàn)本發(fā)明過(guò)程中發(fā)現(xiàn):現(xiàn)有的對(duì)電子設(shè)備的控制技術(shù)的實(shí)現(xiàn)方式較單
一，不夠靈活。有鑒于上述現(xiàn)有的對(duì)電子設(shè)備的控制方式存在的缺陷，本發(fā)明人基于從事此類產(chǎn)品設(shè)計(jì)制造多年豐富的實(shí)務(wù)經(jīng)驗(yàn)及專業(yè)知識(shí)，并配合學(xué)理的運(yùn)用，積極加以研究創(chuàng)新，以期創(chuàng)設(shè)一種新的人機(jī)互動(dòng)系統(tǒng)和方法，能夠克服現(xiàn)有的對(duì)電子設(shè)備的控制方式存在的問(wèn)題，使其更具有實(shí)用性。經(jīng)過(guò)不斷的研究、設(shè)計(jì)，經(jīng)過(guò)反復(fù)試作樣品及改進(jìn)后，終于創(chuàng)設(shè)出確具實(shí)用價(jià)值的本發(fā)明。

發(fā)明內(nèi)容
本發(fā)明的目的在于，克服現(xiàn)有的對(duì)電子設(shè)備的控制實(shí)現(xiàn)方式存在的缺陷，而提供一種新型結(jié)構(gòu)的人機(jī)互動(dòng)系統(tǒng)和一種新的人機(jī)互動(dòng)方法，所要解決的技術(shù)問(wèn)題是，使電子設(shè)備的控制方式具有多樣性以及趣味性，非常適于實(shí)用。本發(fā)明的目的以及解決其技術(shù)問(wèn)題可以采用以下的技術(shù)方案來(lái)實(shí)現(xiàn)。依據(jù)本發(fā)明提出的一種人機(jī)互動(dòng)系統(tǒng)，包括:聲音捕捉裝置、視頻捕捉裝置和控制裝置；所述聲音捕捉裝置，用于拾取聲音，并輸出拾取的聲音的音頻信號(hào)；視頻捕捉裝置，用于實(shí)時(shí)攝取圖像，并輸出圖像信息；所述控制裝置與所述聲音捕捉裝置和所述視頻捕捉裝置連接，所述控制裝置接收所述音頻信號(hào)和圖像信息信息，根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令。本發(fā)明的目的以及解決其技術(shù)問(wèn)題還可以采用以下的技術(shù)措施來(lái)進(jìn)一步實(shí)現(xiàn)。較佳的，前述的人機(jī)互動(dòng)系統(tǒng)，其中該控制裝置包括:語(yǔ)音識(shí)別模塊用于對(duì)所述聲音捕捉裝置輸出的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理；關(guān)鍵詞模塊用于從所述語(yǔ)音識(shí)別模塊的語(yǔ)音識(shí)別處理結(jié)果中提取關(guān)鍵詞，并輸出所述關(guān)鍵詞；第一控制命令轉(zhuǎn)換模塊，用于確定關(guān)鍵詞對(duì)應(yīng)的控制命令，并確定所述圖像信息對(duì)應(yīng)的控制命令；第一執(zhí)行模塊，用于在所述關(guān)鍵詞對(duì)應(yīng)的控制命令與圖像信息對(duì)應(yīng)的控制命令相同時(shí)，執(zhí)行所述控制命令，否則不執(zhí)行所述控制命令。較佳的，前述的人機(jī)互動(dòng)系統(tǒng)，其中該控制裝置包括:聲音屬性檢測(cè)模塊，用于檢測(cè)所述聲音擷取模塊輸出的音頻信號(hào)的聲音屬性；第二控制命令轉(zhuǎn)換模塊，用于確定所述圖像信息對(duì)應(yīng)的控制命令，并確定所述聲音屬性對(duì)應(yīng)的執(zhí)行效果，將所述執(zhí)行效果作為所述控制命令的輸入?yún)?shù)；第二執(zhí)行模塊，用于執(zhí)行該攜帶有所述輸入?yún)?shù)的控制命令。較佳的，前述的人機(jī)互動(dòng)系統(tǒng)，其中該控制裝置包括:語(yǔ)音識(shí)別模塊用于對(duì)所述聲音捕捉裝置輸出的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理；關(guān)鍵詞模塊用于從所述語(yǔ)音識(shí)別模塊的語(yǔ)音識(shí)別處理結(jié)果中提取關(guān)鍵詞，并輸出所述關(guān)鍵詞；第一控制命令轉(zhuǎn)換模塊，用于確定關(guān)鍵詞對(duì)應(yīng)的控制命令，并確定所述圖像信息對(duì)應(yīng)的控制命令；第三執(zhí)行模塊，用于從所述關(guān)鍵詞對(duì)應(yīng)的控制命令和圖像信息對(duì)應(yīng)的控制命令中選擇至少一個(gè)控制命令執(zhí)行。本發(fā)明還提供一種人機(jī)互動(dòng)方法，所述方法包括:利用聲音擷取裝置拾取聲音，以獲得拾取的聲音的音頻信號(hào)；利用視頻捕捉裝置實(shí)時(shí)攝取圖像，以獲得攝取的圖像的圖像信息；根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令。較佳的，前述的人機(jī)互動(dòng)方法，其中所述根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令包括:對(duì)所述拾取的聲音的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理；從所述語(yǔ)音識(shí)別處理的結(jié)果中提取關(guān)鍵詞；確定所述關(guān)鍵詞對(duì)應(yīng)的控制命令，并確定所述圖像信息對(duì)應(yīng)的控制命令；在所述關(guān)鍵詞對(duì)應(yīng)的控制命令與所述圖像信息對(duì)應(yīng)的控制命令相同時(shí)，執(zhí)行所述控制命令，否則不執(zhí)行所述控制命令。較佳的，前述的人機(jī)互動(dòng)方法，其中所述根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令包括:檢測(cè)所述拾取的聲音的音頻信號(hào)的聲音屬性；確定所述圖像信息對(duì)應(yīng)的控制命令，并確定所述聲音屬性對(duì)應(yīng)的執(zhí)行效果，將所述執(zhí)行效果作為所述控制命令的輸入?yún)?shù)；執(zhí)行該攜帶有所述輸入?yún)?shù)的控制命令。較佳的，前述的人機(jī)互動(dòng)方法，其中所述根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令包括:對(duì)所述拾取的聲音的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理；從所述模塊的語(yǔ)音識(shí)別處理的結(jié)果中提取關(guān)鍵詞；確定所述關(guān)鍵詞對(duì)應(yīng)的控制命令，并確定所述圖像信息對(duì)應(yīng)的控制命令；從所述關(guān)鍵詞對(duì)應(yīng)的控制命令和圖像信息對(duì)應(yīng)的控制命令中選擇至少一個(gè)控制命令執(zhí)行。借由上述技術(shù)方案，本發(fā)明的人機(jī)互動(dòng)系統(tǒng)和方法至少具有下列優(yōu)點(diǎn)及有益效果:本發(fā)明通過(guò)利用聲音捕捉裝置拾取聲音，并利用視頻捕捉裝置產(chǎn)生圖像信息，使控制裝置可以綜合用戶的聲音和作出的動(dòng)作來(lái)產(chǎn)生控制命令，實(shí)現(xiàn)了基于體感控制和語(yǔ)音的人機(jī)互動(dòng)，從而使人機(jī)互動(dòng)的實(shí)現(xiàn)方式多元化，并提高了人機(jī)互動(dòng)的趣味性，非常適于實(shí)用。綜上所述，本發(fā)明在技術(shù)上有顯著的進(jìn)步，具有明顯的積極效果，誠(chéng)為一新穎、進(jìn)步、實(shí)用的新設(shè)計(jì)。上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉較佳實(shí)施例，并配合附圖詳細(xì)說(shuō)明如下。

圖1為本發(fā)明的人機(jī)互動(dòng)系統(tǒng)示意圖；圖2為本發(fā)明的控制裝置的一個(gè)具體例子的示意圖；圖3為本發(fā)明的控制裝置的另一個(gè)具體例子的示意圖4為本發(fā)明的控制裝置的第三個(gè)具體例子的示意圖；圖5為本發(fā)明的人機(jī)互動(dòng)方法的流程圖。
具體實(shí)施例方式為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效，以下結(jié)合附圖及較佳實(shí)施例，對(duì)依據(jù)本發(fā)明提出的人機(jī)互動(dòng)系統(tǒng)和方法其具體實(shí)施方式
、結(jié)構(gòu)、特征、流程及其功效，詳細(xì)說(shuō)明如后。實(shí)施例一、人機(jī)互動(dòng)系統(tǒng)。該系統(tǒng)如附圖1所不。圖1示出的人機(jī)互動(dòng)系統(tǒng)包括:聲音捕捉裝置1、視頻捕捉裝置2以及控制裝置3。其中的控制裝置3可以如附圖2所示，包括:語(yǔ)音識(shí)別模塊31、關(guān)鍵詞模塊32、第一控制命令轉(zhuǎn)換模塊33以及第一執(zhí)行模塊34 ;或者，控制裝置3如附圖3所示，包括:聲音屬性檢測(cè)模塊35、第二控制命令轉(zhuǎn)換模塊36以及第二執(zhí)行模塊37 ;或者，控制裝置3如附圖4所示，包括:語(yǔ)音識(shí)別模塊31、關(guān)鍵詞模塊32、第一控制命令轉(zhuǎn)換模塊33以及第三執(zhí)行模塊38。聲音捕捉裝置I與控制裝置3連接。聲音捕捉裝置I主要用于拾取聲音，即拾取用戶發(fā)出的聲音，聲音捕捉裝置I將拾取到的聲音的音頻信號(hào)向控制裝置3輸出，例如，聲音捕捉裝置I向語(yǔ)音識(shí)別模塊31或者向聲音屬性檢測(cè)模塊35輸出其拾取的聲音的音頻信號(hào)。聲音捕捉裝置I可以具體表現(xiàn)為麥克風(fēng)、或者耳麥等形式。視頻捕捉裝置2與控制裝置3連接。視頻捕捉裝置2主要用于產(chǎn)生圖像信息，并向控制裝置3輸出其產(chǎn)生的圖像信息。這里的實(shí)時(shí)攝取如視頻捕捉裝置2按照預(yù)定采樣頻率進(jìn)行圖像采樣。視頻捕捉裝置2可以采用現(xiàn)有的攝像頭、以及攝像機(jī)等攝像設(shè)備，如RGB彩色攝像頭或者3D深度感應(yīng)器等。本發(fā)明不限制視頻捕捉裝置2的具體類型。控制裝置3與聲音捕捉裝置I和視頻捕捉裝置2分別連接。該控制裝置3接收聲音捕捉裝置I輸出的音頻信號(hào)和視頻捕捉裝置2輸出的圖像信息，并根據(jù)接收到的音頻信號(hào)和圖像信息產(chǎn)生控制命令，之后，控制裝置3執(zhí)行該控制命令?？刂蒲b置3根據(jù)音頻信號(hào)和圖像信息產(chǎn)生控制命令并執(zhí)行控制命令的實(shí)現(xiàn)方式有多種，例如，先將兩者分別轉(zhuǎn)換為控制命令，然后，在判斷出這兩個(gè)控制命令相同的情況下，執(zhí)行該控制命令；再例如，先將圖像信息轉(zhuǎn)換為控制命令，然后，根據(jù)音頻信號(hào)的聲音屬性確定該控制命令的輸入?yún)?shù)，再執(zhí)行攜帶有輸入?yún)?shù)的控制命令；再例如，先將兩者分別轉(zhuǎn)換為控制命令，然后，從這兩個(gè)控制命令中選擇至少一個(gè)控制命令來(lái)執(zhí)行。下面對(duì)控制裝置3的具體實(shí)現(xiàn)方式進(jìn)行詳細(xì)說(shuō)明。實(shí)現(xiàn)方式一:控制裝置3包括:語(yǔ)音識(shí)別模塊31、關(guān)鍵詞模塊32、第一控制命令轉(zhuǎn)換模塊33以及第一執(zhí)行模塊34。語(yǔ)音識(shí)別模塊31與聲音捕捉裝置I以及關(guān)鍵詞模塊32均連接。語(yǔ)音識(shí)別模塊31主要用于對(duì)聲音捕捉裝置I輸出的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理，并向關(guān)鍵詞模塊32輸出語(yǔ)音識(shí)別結(jié)果。語(yǔ)音識(shí)別模塊31可以采用現(xiàn)有的語(yǔ)音識(shí)別技術(shù)，下面對(duì)語(yǔ)音識(shí)別模塊31所采用的語(yǔ)音識(shí)別過(guò)程進(jìn)行舉例說(shuō)明:例一、語(yǔ)音識(shí)別模塊31中存儲(chǔ)有預(yù)先設(shè)定的音頻信號(hào)。也就是說(shuō)，語(yǔ)音識(shí)別模塊31中存儲(chǔ)有音頻信號(hào)，且該音頻信號(hào)應(yīng)與控制命令相對(duì)應(yīng)。語(yǔ)音識(shí)別模塊31中存儲(chǔ)的音頻信號(hào)可以是通過(guò)聲音擷取模塊I提前錄制的用戶發(fā)出控制命令的音頻信號(hào)。在例一中,語(yǔ)音識(shí)別模塊31中存儲(chǔ)有至少一段音頻信號(hào),且一段音頻信號(hào)對(duì)應(yīng)一條或者多條控制命令，通常情況下，一段音頻信號(hào)對(duì)應(yīng)一條控制命令。語(yǔ)音識(shí)別模塊31中存儲(chǔ)的每一段音頻信號(hào)都會(huì)對(duì)應(yīng)一個(gè)音頻信號(hào)標(biāo)識(shí)符，該音頻信號(hào)標(biāo)識(shí)符用于區(qū)別不同段的音頻信號(hào)，一個(gè)具體的例子，語(yǔ)音識(shí)別模塊31中存儲(chǔ)有音頻信號(hào)標(biāo)識(shí)符和音頻信號(hào)的對(duì)應(yīng)關(guān)系信息。語(yǔ)音識(shí)別模塊31將聲音擷取模塊I傳輸來(lái)的音頻信號(hào)與其存儲(chǔ)的音頻信號(hào)進(jìn)行對(duì)比，以確定匹配的音頻信號(hào)，之后，語(yǔ)音識(shí)別模塊31確定該匹配的音頻信號(hào)對(duì)應(yīng)的標(biāo)識(shí)符，并向關(guān)鍵詞模塊輸出該音頻信號(hào)標(biāo)識(shí)符。如果聲音擷取模塊I傳輸來(lái)的音頻信號(hào)還需要進(jìn)行去噪、格式轉(zhuǎn)換等處理，則語(yǔ)音識(shí)別模塊31可以在進(jìn)行相關(guān)處理后，利用處理后的音頻信號(hào)與其存儲(chǔ)的音頻信號(hào)進(jìn)行對(duì)比。語(yǔ)音識(shí)別模塊31可以利用現(xiàn)有的音頻信號(hào)對(duì)比技術(shù)來(lái)實(shí)現(xiàn)音頻信號(hào)的對(duì)比，從而確定出其存儲(chǔ)的各段音頻信號(hào)中與接收到的音頻信號(hào)匹配的一段音頻信號(hào)。本發(fā)明不限制語(yǔ)音識(shí)別模塊31所采用的音頻信號(hào)對(duì)比技術(shù)的具體實(shí)現(xiàn)方式。例二、語(yǔ)音識(shí)別模塊31中不預(yù)先錄制控制者的音頻信號(hào)，語(yǔ)音識(shí)別模塊31直接對(duì)聲音擷取模塊I輸出的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別，以將獲取到的音頻信號(hào)轉(zhuǎn)換為文本信息，之后，語(yǔ)音識(shí)別模塊31將該文本信息提供給控制模塊4。語(yǔ)音識(shí)別模塊31可以利用現(xiàn)有的語(yǔ)音識(shí)別技術(shù)直接將音頻信號(hào)轉(zhuǎn)換為文本信息。關(guān)鍵詞模塊32與語(yǔ)音識(shí)別模塊31和第一控制命令轉(zhuǎn)換模塊33分別連接。關(guān)鍵詞模塊32主要用于從語(yǔ)音識(shí)別模塊31傳輸來(lái)的語(yǔ)音識(shí)別處理結(jié)果中提取關(guān)鍵詞，并向第一控制命令轉(zhuǎn)換I旲塊33輸出其提取的關(guān)鍵詞。關(guān)鍵詞I旲塊36提取出的關(guān)鍵詞可以具體為數(shù)字或者文字等等。關(guān)鍵詞模塊32可以采用預(yù)定的提取策略進(jìn)行關(guān)鍵詞的提取，例如，關(guān)鍵詞模塊32在提取關(guān)鍵詞的過(guò)程中可以忽略“的”、“了”、以及“你、我、他”等語(yǔ)氣助詞和代詞等。關(guān)鍵詞模塊32可以采用現(xiàn)有的提取策略進(jìn)行關(guān)鍵詞的提取，本發(fā)明不限制關(guān)鍵詞模塊32提取關(guān)鍵詞的具體實(shí)現(xiàn)過(guò)程。第一控制命令轉(zhuǎn)換模塊33與視頻捕捉裝置2、關(guān)鍵詞模塊32以及第一執(zhí)行模塊分別連接。第一控制命令轉(zhuǎn)換模塊33主要用于將其接收到的關(guān)鍵詞轉(zhuǎn)換為控制命令，并將其接收到的圖像信息也轉(zhuǎn)換為控制命令，之后第一控制命令轉(zhuǎn)換模塊33將這兩個(gè)控制命令均輸出給第一執(zhí)行模塊34。第一控制命令轉(zhuǎn)換模塊33將關(guān)鍵詞以及圖像信息轉(zhuǎn)換為控制命令的方式有多種，例如，第一控制命令轉(zhuǎn)換模塊33中存儲(chǔ)有關(guān)鍵詞與控制命令的對(duì)應(yīng)關(guān)系信息，第一控制命令轉(zhuǎn)換模塊33根據(jù)接收到的關(guān)鍵詞在對(duì)應(yīng)關(guān)系信息中進(jìn)行查找，并從匹配的記錄中獲取控制命令，該控制命令即為其接收到的關(guān)鍵詞對(duì)應(yīng)的控制命令。另外，第一控制命令轉(zhuǎn)換模塊33可以采用現(xiàn)有的體感游戲中的相關(guān)技術(shù)(如kinect技術(shù)等)確定其接收到的圖像信息中的用戶的動(dòng)作，然后，可以采用預(yù)先設(shè)置的動(dòng)作與控制命令的對(duì)應(yīng)關(guān)系來(lái)獲得相應(yīng)的控制命令，本發(fā)明不限制第一控制命令轉(zhuǎn)換模塊33進(jìn)行控制命令轉(zhuǎn)換的具體實(shí)現(xiàn)過(guò)程。第一執(zhí)行模塊34與第一控制命令轉(zhuǎn)換模塊33連接。第一執(zhí)行模塊34主要用于在判斷出其接收到的關(guān)鍵詞對(duì)應(yīng)的控制命令與圖像信息對(duì)應(yīng)的控制命令相同時(shí)，執(zhí)行該控制命令，否則，第一執(zhí)行模塊34不執(zhí)行該控制命令。
上述實(shí)現(xiàn)方式一的一個(gè)具體應(yīng)用為:在用戶視頻捕捉裝置2采集到的圖像信息中的用戶動(dòng)作表征“從下向上躍起”，且聲音捕捉裝置I捕捉到的音頻信號(hào)表征“跳躍”時(shí)，第一執(zhí)行模塊34執(zhí)行跳躍的控制命令，否則第一執(zhí)行模塊34不執(zhí)行跳躍的控制命令。實(shí)現(xiàn)方式二:控制裝置3包括:聲音屬性檢測(cè)模塊35、第二控制命令轉(zhuǎn)換模塊36以及第二執(zhí)行模塊37。聲音屬性檢測(cè)模塊35與聲音捕捉裝置I以及第二控制命令模塊36分別連接。聲音屬性檢測(cè)模塊35主要用于檢測(cè)聲音擷取模塊I輸出的音頻信號(hào)的聲音屬性。本發(fā)明中的聲音屬性可以具體包括音色、音量、音值以及音調(diào)中的至少一個(gè)。其中的音色是指聲音的感覺(jué)特性，通過(guò)音色的不同可以分辨出不同的發(fā)聲體；音量又可以稱為響度或者音強(qiáng)，音量是指人耳對(duì)所聽(tīng)到的聲音大小強(qiáng)弱的主觀感受，其客觀評(píng)價(jià)尺度是聲音的振幅大??；音值又可以稱為時(shí)值，音值是指音延續(xù)的時(shí)間長(zhǎng)短，由發(fā)音體振動(dòng)的時(shí)間來(lái)決定；音調(diào)是指聲音頻率的高低。上述音色、音量、音調(diào)可以稱為聲音的三個(gè)主要的主觀屬性，而音值則可以稱為聲音的客觀屬性(也即物理屬性)。針對(duì)實(shí)現(xiàn)方式二需要特別說(shuō)明的是，聲音屬性檢測(cè)模塊35檢測(cè)出的聲音屬性可以決定控制命令所攜帶的參數(shù)，第二控制命令轉(zhuǎn)換模塊36可以根據(jù)圖像信息確定一控制命令，再根據(jù)聲音屬性檢測(cè)模塊35確定該控制命令所攜帶的參數(shù)，從而形成一完整的控制命令。第二控制命令轉(zhuǎn)換模塊36與聲音屬性檢測(cè)模塊35以及第二執(zhí)行模塊36分別連接。第二控制命令轉(zhuǎn)換模塊36主要用于確定圖像信息對(duì)應(yīng)的控制命令，并確定其接收到的聲音屬性對(duì)應(yīng)的執(zhí)行效果，之后，將該執(zhí)行效果作為控制命令的輸入?yún)?shù)，向第二執(zhí)行模塊36輸出攜帶有該輸入?yún)?shù)的控制命令。第二執(zhí)行模塊37與第二控制命令轉(zhuǎn)換模塊36連接。第二執(zhí)行模塊37主要用于執(zhí)行其接收到的攜帶有輸入?yún)?shù)的控制命令。上述實(shí)現(xiàn)方式二的一個(gè)具體應(yīng)用為:在用戶視頻捕捉裝置2采集到的圖像信息中的用戶動(dòng)作表征“從下向上躍起”，且聲音捕捉裝置I捕捉到的音頻信號(hào)的聲音屬性中的音量超過(guò)預(yù)定分貝時(shí)，第一執(zhí)行模塊34執(zhí)行高高躍起的控制命令，而在聲音屬性中的音量沒(méi)有超過(guò)預(yù)定分貝時(shí)，第一執(zhí)行模塊34執(zhí)行低空躍起的控制命令。實(shí)現(xiàn)方式三、控制裝置3包括:語(yǔ)音識(shí)別模塊31、關(guān)鍵詞模塊32、第一控制命令轉(zhuǎn)換模塊33以及第三執(zhí)行模塊38。語(yǔ)音識(shí)別模塊31與聲音捕捉裝置I以及關(guān)鍵詞模塊32均連接。語(yǔ)音識(shí)別模塊31主要用于對(duì)聲音捕捉裝置I輸出的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理，并向關(guān)鍵詞模塊32輸出語(yǔ)音識(shí)別結(jié)果。語(yǔ)音識(shí)別模塊31可以采用現(xiàn)有的語(yǔ)音識(shí)別技術(shù)，對(duì)語(yǔ)音識(shí)別模塊31所采用的語(yǔ)音識(shí)別過(guò)程的舉例說(shuō)明如上述實(shí)現(xiàn)方式一中的描述，在此不再重復(fù)說(shuō)明。關(guān)鍵詞模塊32與語(yǔ)音識(shí)別模塊31和第一控制命令轉(zhuǎn)換模塊33分別連接。關(guān)鍵詞模塊32主要用于從語(yǔ)音識(shí)別模塊31傳輸來(lái)的語(yǔ)音識(shí)別處理結(jié)果中提取關(guān)鍵詞，并向第一控制命令轉(zhuǎn)換I旲塊33輸出其提取的關(guān)鍵詞。關(guān)鍵詞I旲塊36提取出的關(guān)鍵詞可以具體為數(shù)字或者文字等等。關(guān)鍵詞模塊32可以采用預(yù)定的提取策略進(jìn)行關(guān)鍵詞的提取，例如，關(guān)鍵詞模塊32在提取關(guān)鍵詞的過(guò)程中可以忽略“的”、“了”、以及“你、我、他”等語(yǔ)氣助詞和代詞等。關(guān)鍵詞模塊32可以采用現(xiàn)有的提取策略進(jìn)行關(guān)鍵詞的提取，本發(fā)明不限制關(guān)鍵詞模塊32提取關(guān)鍵詞的具體實(shí)現(xiàn)過(guò)程。第一控制命令轉(zhuǎn)換模塊33與視頻捕捉裝置2、關(guān)鍵詞模塊32以及第一執(zhí)行模塊分別連接。第一控制命令轉(zhuǎn)換模塊33主要用于將其接收到的關(guān)鍵詞轉(zhuǎn)換為控制命令，并將其接收到的圖像信息也轉(zhuǎn)換為控制命令，之后第一控制命令轉(zhuǎn)換模塊33將這兩個(gè)控制命令均輸出給第一執(zhí)行模塊34。第一控制命令轉(zhuǎn)換模塊33將關(guān)鍵詞以及圖像信息轉(zhuǎn)換為控制命令的方式有多種，例如，第一控制命令轉(zhuǎn)換模塊33中存儲(chǔ)有關(guān)鍵詞與控制命令的對(duì)應(yīng)關(guān)系信息，第一控制命令轉(zhuǎn)換模塊33根據(jù)接收到的關(guān)鍵詞在對(duì)應(yīng)關(guān)系信息中進(jìn)行查找，并從匹配的記錄中獲取控制命令，該控制命令即為其接收到的關(guān)鍵詞對(duì)應(yīng)的控制命令。另外，第一控制命令轉(zhuǎn)換模塊33可以采用現(xiàn)有的體感游戲中的相關(guān)技術(shù)識(shí)別接收到的圖像信息中的用戶的動(dòng)作，并將該動(dòng)作轉(zhuǎn)換為相應(yīng)的控制命令，本發(fā)明不限制第一控制命令轉(zhuǎn)換模塊33進(jìn)行控制命令轉(zhuǎn)換的具體實(shí)現(xiàn)過(guò)程。第三執(zhí)行模塊38與第一控制命令轉(zhuǎn)換模塊33連接。第三執(zhí)行模塊38主要用于從其接收到的關(guān)鍵詞對(duì)應(yīng)的控制命令和圖像信息對(duì)應(yīng)的控制命令中選擇至少一個(gè)控制命令，并執(zhí)行。第三執(zhí)行模塊38可以根據(jù)預(yù)先設(shè)置的選擇策略從兩個(gè)控制命令中選擇至少一個(gè)控制命令來(lái)執(zhí)彳了，例如，選擇先接收到的控制命令執(zhí)彳了；再例如，先選擇Iv控制命令執(zhí)7Tx，執(zhí)行之后再選擇另一個(gè)控制命令執(zhí)行。上述實(shí)現(xiàn)方式三的一個(gè)具體應(yīng)用為:在用戶視頻捕捉裝置2采集到的圖像信息中的用戶動(dòng)作表征“下蹲”，且聲音捕捉裝置I捕捉到的音頻信號(hào)表征“跳躍”時(shí)，第一執(zhí)行模塊34先接收到“跳躍”對(duì)應(yīng)的控制命令，后接收到“下蹲”的控制命令，因此，第一執(zhí)行模塊34先執(zhí)行跳躍的控制命令，而后，第一執(zhí)行模塊34再執(zhí)行下蹲的控制命令。實(shí)施例二、人機(jī)互動(dòng)方法。該方法的流程如附圖5所示。圖5中示出的人機(jī)互動(dòng)方法包括如下步驟:S500、利用聲音擷取裝置拾取聲音，以獲得拾取的聲音的音頻信號(hào)。S510、利用視頻捕捉裝置產(chǎn)生圖像信息。具體的，本發(fā)明可以利用現(xiàn)有的攝像頭、以及攝像機(jī)等攝像設(shè)備實(shí)時(shí)采樣圖像，以獲得圖像息。S520、根據(jù)上述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令。具體的，根據(jù)音頻信號(hào)和圖像信息產(chǎn)生控制命令并執(zhí)行控制命令的實(shí)現(xiàn)方式有多種，例如，先將兩者分別轉(zhuǎn)換為控制命令，然后，在判斷出這兩個(gè)控制命令相同的情況下，執(zhí)行該控制命令；再例如，先將圖像信息轉(zhuǎn)換為控制命令，然后，根據(jù)音頻信號(hào)的聲音屬性確定該控制命令的輸入?yún)?shù)，再執(zhí)行攜帶有輸入?yún)?shù)的控制命令；再例如，先將兩者分別轉(zhuǎn)換為控制命令，然后，從這兩個(gè)控制命令中選擇至少一個(gè)控制命令來(lái)執(zhí)行。針對(duì)實(shí)施例二需要說(shuō)明的是，雖然實(shí)施例二順序描述了 S500-S520，但實(shí)際上，本發(fā)明中的S500和S510之間并不存在先后順序的限制，即聲音拾取過(guò)程和圖像信息攝取過(guò)程這兩者可以是相互并行的。以上所述僅是本發(fā)明的較佳實(shí)施例而已，并非對(duì)本發(fā)明作任何形式上的限制，雖然本發(fā)明已以較佳實(shí)施例揭露如上，然而并非用以限定本發(fā)明，任何熟悉本專業(yè)的技術(shù)人員在不脫離本發(fā)明技術(shù)方案范圍內(nèi)，當(dāng)可利用上述揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾為等同變化的等效實(shí)施例，但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容，依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾，均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
權(quán)利要求
1.一種人機(jī)互動(dòng)系統(tǒng)，其特征在于，包括:聲音捕捉裝置、視頻捕捉裝置和控制裝置；所述聲音捕捉裝置，用于拾取聲音，并輸出拾取的聲音的音頻信號(hào)；所述視頻捕捉裝置，用于實(shí)時(shí)攝取圖像，并輸出圖像信息；所述控制裝置與所述聲音捕捉裝置和所述視頻捕捉裝置連接，所述控制裝置接收所述音頻信號(hào)和圖像信息信息，根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令。
2.如權(quán)利要求1所述的人機(jī)互動(dòng)系統(tǒng)，其特征在于，該控制裝置包括: 語(yǔ)音識(shí)別模塊，用于對(duì)所述聲音捕捉裝置輸出的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理；關(guān)鍵詞模塊，用于從所述語(yǔ)音識(shí)別模塊的語(yǔ)音識(shí)別處理結(jié)果中提取關(guān)鍵詞，并輸出所述關(guān)鍵詞；第一控制命令轉(zhuǎn)換模塊，用于確定所述關(guān)鍵詞對(duì)應(yīng)的控制命令，并確定所述圖像信息對(duì)應(yīng)的控制命令；第一執(zhí)行模塊，用于在所述關(guān)鍵詞對(duì)應(yīng)的控制命令與所述圖像信息對(duì)應(yīng)的控制命令相同時(shí)，執(zhí)行所述控制命令，否則不執(zhí)行所述控制命令。
3.如權(quán)利要求1所述的人機(jī)互動(dòng)系統(tǒng)，其特征在于，該控制裝置包括: 聲音屬性檢測(cè)模塊，用于檢測(cè)所述聲音擷取模塊輸出的音頻信號(hào)的聲音屬性；第二控制命令轉(zhuǎn)換模塊，用于確定所述圖像信息對(duì)應(yīng)的控制命令，并確定所述聲音屬性對(duì)應(yīng)的執(zhí)行效果，將所述執(zhí)行效果作為所述控制命令的輸入?yún)?shù)；第二執(zhí)行模塊，用于執(zhí)行該攜帶有所述輸入?yún)?shù)的控制命令。
4.如權(quán)利要求1所述的人機(jī)互動(dòng)系統(tǒng)，其特征在于，該控制裝置包括: 語(yǔ)音識(shí)別模塊，用于對(duì)所述聲音捕捉裝置輸出的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理；關(guān)鍵詞模塊，用于從所述語(yǔ)音識(shí)別模塊的語(yǔ)音識(shí)別處理結(jié)果中提取關(guān)鍵詞，并輸出所述關(guān)鍵詞；第一控制命令轉(zhuǎn)換模塊，用于確定所述關(guān)鍵詞對(duì)應(yīng)的控制命令，并確定所述圖像信息對(duì)應(yīng)的控制命令；第三執(zhí)行模塊，用于從所述關(guān)鍵詞對(duì)應(yīng)的控制命令和圖像信息對(duì)應(yīng)的控制命令中選擇至少一個(gè)控制命令執(zhí)行。
5.一種人機(jī)互動(dòng)方法，其特征在于，所述方法包括: 利用聲音擷取裝置拾取聲音，以獲得拾取的聲音的音頻信號(hào)；利用視頻捕捉裝置實(shí)時(shí)攝取圖像，以獲得攝取的圖像的圖像信息；根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令。
6.如權(quán)利要求5所述的人機(jī)互動(dòng)方法，其特征在于，所述根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令包括: 對(duì)所述拾取的聲音的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理；從所述語(yǔ)音識(shí)別處理的結(jié)果中提取關(guān)鍵詞；確定所述關(guān)鍵詞對(duì)應(yīng)的控制命令，并確定所述圖像信息對(duì)應(yīng)的控制命令；在所述關(guān)鍵詞對(duì)應(yīng)的控制命令與所述圖像信息對(duì)應(yīng)的控制命令相同時(shí)，執(zhí)行所述控制命令，否則不執(zhí)行所述控制命令。
7.如權(quán)利要求5所述的人機(jī)互動(dòng)方法，其特征在于，所述根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令包括: 檢測(cè)所述拾取的聲音的音頻信號(hào)的聲音屬性；確定所述圖像信息對(duì)應(yīng)的控制命令，并確定所述聲音屬性對(duì)應(yīng)的執(zhí)行效果，將所述執(zhí)行效果作為所述控制命令的輸入?yún)?shù)；執(zhí)行該攜帶有所述輸入?yún)?shù)的控制命令。
8.如權(quán)利要求5所述的人機(jī)互動(dòng)方法，其特征在于，所述根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令包括: 對(duì)所述拾取的聲音的音頻信號(hào)進(jìn)行語(yǔ)音識(shí)別處理；從所述模塊的語(yǔ)音識(shí)別處理的結(jié)果中提取關(guān)鍵詞；確定所述關(guān)鍵詞對(duì)應(yīng)的控制命令，并確定所述圖像信息對(duì)應(yīng)的控制命令；從所述關(guān)鍵詞對(duì)應(yīng)的控制命令和圖像信息對(duì)應(yīng)的控制命令中選擇至少一個(gè)控制命令執(zhí)行。
全文摘要
本發(fā)明是有關(guān)于一種人機(jī)互動(dòng)系統(tǒng)和方法。其中的系統(tǒng)包括聲音捕捉裝置、視頻捕捉裝置和控制裝置；聲音捕捉裝置用于拾取聲音，并輸出拾取的聲音的音頻信號(hào)；視頻捕捉裝置用于實(shí)時(shí)攝取圖像，并輸出圖像信息；控制裝置與所述聲音捕捉裝置和所述視頻捕捉裝置連接，所述控制裝置接收所述音頻信號(hào)和圖像信息，根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令。其中的方法包括利用聲音擷取裝置拾取聲音以獲得拾取的聲音的音頻信號(hào)；利用視頻捕捉裝置攝取圖像，產(chǎn)生圖像信息；根據(jù)所述音頻信號(hào)和圖像信息產(chǎn)生控制命令，并執(zhí)行該控制命令。本發(fā)明提供的技術(shù)方案能夠?qū)崿F(xiàn)聲控和體感控制，提高了控制方式的多樣性以及趣味性。
文檔編號(hào)G10L15/00GK103186227SQ20111045282
公開(kāi)日2013年7月3日申請(qǐng)日期2011年12月28日優(yōu)先權(quán)日2011年12月28日
發(fā)明者董德福申請(qǐng)人:北京德信互動(dòng)網(wǎng)絡(luò)技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載