一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置及交互方法
【專利摘要】一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置,包括可手持的殼體,所述殼體中包括以下模塊:實(shí)現(xiàn)語(yǔ)音命令識(shí)別的語(yǔ)音識(shí)別模塊,實(shí)現(xiàn)識(shí)別出的語(yǔ)音命令編碼與主機(jī)間通訊的射頻發(fā)送模塊,給各模塊供電及對(duì)電池進(jìn)行充電的電源管理模塊,存儲(chǔ)語(yǔ)音命令的存儲(chǔ)模塊,實(shí)現(xiàn)語(yǔ)音命令輸入的語(yǔ)音輸入模塊,驅(qū)動(dòng)多任務(wù)的語(yǔ)音命令分組輸入控制及反饋硬件界面,實(shí)現(xiàn)整個(gè)裝置管理控制的控制模塊,實(shí)現(xiàn)提示功能的指示燈,實(shí)現(xiàn)語(yǔ)音交互應(yīng)用程序控制和語(yǔ)音命令編輯的主機(jī)。本發(fā)明還涉及上述語(yǔ)音交互裝置所采用的交互方法。本發(fā)明中的交互裝置克服了目前很多語(yǔ)音交互助手的弊端,使用方便,適用性廣。
【專利說(shuō)明】
一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置及交互方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于人機(jī)交互領(lǐng)域,特別涉及一種面向多任務(wù)交互的手持式無(wú)線語(yǔ)音交互裝置;本發(fā)明還涉及上述交互裝置的交互方法。【背景技術(shù)】
[0002]語(yǔ)音交互作為一種新型的人機(jī)交互方式,提供了一種脫離鍵盤、鼠標(biāo)、觸摸屏等傳統(tǒng)圖形用戶界面元素的交互方式,改變了人與計(jì)算機(jī)的傳統(tǒng)互動(dòng)模式,用戶只需動(dòng)動(dòng)口,就能打開(kāi)或關(guān)閉程序、改變工作界面、控制交互進(jìn)程。這種使電腦人性化的結(jié)果的目的是使每個(gè)具有語(yǔ)言能力的個(gè)體都能方便直接地操作和應(yīng)用計(jì)算機(jī)。
[0003]目前,語(yǔ)音交互依照其使用情境主要可分為下面幾類:
[0004](1)面向智能家電的語(yǔ)音交互裝置:這類裝置具有簡(jiǎn)單的用戶界面接口,基本做到用戶拿起就能使用的程度,但其能支持的語(yǔ)音命令種類少,且語(yǔ)音控制命令已被固化在裝置內(nèi),不能被用戶編輯修改,尤其不能直接與計(jì)算機(jī)通訊,因此無(wú)法支持以計(jì)算機(jī)為支撐的交互應(yīng)用。
[0005](2)面向移動(dòng)平臺(tái)的語(yǔ)音交互應(yīng)用:顧名思義,這類應(yīng)用的主要特點(diǎn)在于其“移動(dòng)性”,其涵蓋范圍可從汽車終端等快速移動(dòng)物體到用戶手持終端,如智能手機(jī)。目前在市場(chǎng)上占有主要地位的包括蘋果公司推出的Sir1、g〇〇gle語(yǔ)音平臺(tái)及其延伸應(yīng)用和一些基于第三方語(yǔ)音識(shí)別引擎的語(yǔ)音識(shí)別應(yīng)用。這類應(yīng)用具有便攜、開(kāi)機(jī)即可用的優(yōu)勢(shì),但往往需要云計(jì)算平臺(tái)的支持,尤其是對(duì)語(yǔ)音輸入的識(shí)別響應(yīng)具有一定的延遲,因此難以直接支持實(shí)時(shí)交互的需求。此外,移動(dòng)交互場(chǎng)景的背景噪聲也往往導(dǎo)致語(yǔ)音命令識(shí)別率的下降。
[0006](3)面向計(jì)算機(jī)人機(jī)交互的語(yǔ)音識(shí)別技術(shù):這類技術(shù)主要依賴于第三方的軟件開(kāi)發(fā)包,如美國(guó)IBM ViaVoice、美國(guó)微軟公司、美國(guó)Nuance公司、國(guó)內(nèi)科大訊飛公司等開(kāi)發(fā)的語(yǔ)音識(shí)別應(yīng)用程序開(kāi)發(fā)工具包。目前這類技術(shù)雖已成為語(yǔ)音交互的主流,但其缺點(diǎn)亦顯而易見(jiàn):首先,對(duì)開(kāi)發(fā)人員而言,往往需要耗費(fèi)大量勞動(dòng)進(jìn)行復(fù)雜的二次開(kāi)發(fā);其次,對(duì)用戶而言,往往需要在正常使用前進(jìn)行一定訓(xùn)練,因此增加了使用上的不便。
[0007]仔細(xì)考察人機(jī)語(yǔ)音交互的現(xiàn)狀不難發(fā)現(xiàn),其交互界面正面臨著下述因素的嚴(yán)重制約:
[0008](1)對(duì)于多任務(wù)交互情境的支持能力不足,用戶從一個(gè)應(yīng)用切換到另一個(gè)應(yīng)用往往需要經(jīng)歷較為復(fù)雜的過(guò)程。我們認(rèn)為,語(yǔ)音命令具有很好的單個(gè)獨(dú)立存在的特性,如果能提供一定的方式由用戶按其需求進(jìn)行命令的分類組織,語(yǔ)音命令將尤其適合于多任務(wù)情境交互應(yīng)用中。
[0009](2)絕大多數(shù)語(yǔ)音識(shí)別應(yīng)用均基于特定人聲設(shè)計(jì),需要用戶進(jìn)行或短或長(zhǎng)的事前訓(xùn)練,才能達(dá)到相對(duì)滿意的識(shí)別率。
[0010](3)語(yǔ)音命令的識(shí)別過(guò)程在計(jì)算機(jī)終端上完成,占有了本來(lái)就比較稀缺的計(jì)算資源。
[0011](4)用戶編寫語(yǔ)音交互應(yīng)用程序時(shí)首先要進(jìn)行復(fù)雜的函數(shù)庫(kù)的初始化,在結(jié)束時(shí)同樣需要對(duì)稱性地進(jìn)行相應(yīng)的去初始化調(diào)用;具體識(shí)別過(guò)程所涉及的庫(kù)函數(shù)調(diào)用也比較復(fù)雜。
[0012](5)語(yǔ)音輸入借助市面上的麥克風(fēng)完成,缺乏獨(dú)立的便攜裝置,這對(duì)于多任務(wù)情境應(yīng)用中用戶的移動(dòng)往往造成一定的限制。[0〇13]本發(fā)明針對(duì)以上問(wèn)題進(jìn)行了研究和改進(jìn)。
【發(fā)明內(nèi)容】
[0014]針對(duì)現(xiàn)有技術(shù)中的不足,本發(fā)明的目的之一是提供一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置,目的之二是提供一種用于上述語(yǔ)音交互裝置的交互方法,從語(yǔ)音命令層面實(shí)現(xiàn)多任務(wù)交互情境中人與計(jì)算機(jī)的自由、流暢的交流。
[0015]本發(fā)明的目的之一通過(guò)以下技術(shù)方案實(shí)現(xiàn):[〇〇16] 一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置,包括可手持的殼體,所述殼體中包括以下模塊:
[0017]實(shí)現(xiàn)語(yǔ)音命令識(shí)別的語(yǔ)音識(shí)別模塊:進(jìn)行非特定人聲的語(yǔ)音命令識(shí)別,其功能主要由基于非特定人語(yǔ)音識(shí)別技術(shù)的商用語(yǔ)音識(shí)別芯片完成;
[0018]實(shí)現(xiàn)識(shí)別出的語(yǔ)音命令編碼與主機(jī)間通訊的射頻發(fā)送模塊:完成所識(shí)別出的語(yǔ)音命令編號(hào)與計(jì)算機(jī)之間的無(wú)線通訊;
[0019]給各模塊供電及對(duì)電池進(jìn)行充電的電源管理模塊:利用USB 口通過(guò)主機(jī)或其他充電器對(duì)電池進(jìn)行充電,并為其余模塊供電;
[0020]存儲(chǔ)語(yǔ)音命令的存儲(chǔ)模塊:用于存儲(chǔ)用戶設(shè)定的適用于多任務(wù)交互的多組語(yǔ)音命令;[〇〇21]實(shí)現(xiàn)語(yǔ)音命令輸入的語(yǔ)音輸入模塊:采用固定于電路板的咪頭進(jìn)行語(yǔ)音命令信號(hào)采集,完成音頻輸入;
[0022]驅(qū)動(dòng)多任務(wù)的語(yǔ)音命令分組輸入控制及反饋硬件界面:利用按鍵長(zhǎng)按機(jī)制,實(shí)現(xiàn)語(yǔ)音命令集的分組切換。利用LED指示燈的多種狀態(tài)組合提供當(dāng)前語(yǔ)音命令集的分組反饋; [〇〇23]實(shí)現(xiàn)整個(gè)裝置管理控制的控制模塊:采用單片機(jī)作為主控制芯片,完成整個(gè)裝置的管理和控制;
[0024]實(shí)現(xiàn)提示功能的指示燈:采用LED指示燈;[〇〇25]實(shí)現(xiàn)語(yǔ)音交互應(yīng)用程序控制和語(yǔ)音命令編輯的主機(jī)。
[0026]以上模塊結(jié)構(gòu)使得本發(fā)明中的語(yǔ)音交互裝置具有很好的便攜性,可以獨(dú)立使用, 語(yǔ)音識(shí)別的適應(yīng)性廣。
[0027]本發(fā)明的目的之二通過(guò)以下技術(shù)方案實(shí)現(xiàn):[〇〇28] 一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置的交互方法,包括以下步驟:[〇〇29](1)用戶根據(jù)多任務(wù)交互情境應(yīng)用的任務(wù)確定所需采用的語(yǔ)音交互命令集,并經(jīng)由驅(qū)動(dòng)多任務(wù)的語(yǔ)言命令分組輸入控制及反饋硬件界面進(jìn)行語(yǔ)音命令集的分組切換;
[0030](2)用戶根據(jù)裝置上指示燈的閃爍提示發(fā)出語(yǔ)音命令;[〇〇31](3)采用裝置自動(dòng)捕獲的方式完成語(yǔ)音命令信號(hào)輸入;[〇〇32](4)利用語(yǔ)音識(shí)別模塊,實(shí)現(xiàn)語(yǔ)音的在線識(shí)別;[〇〇33](5)識(shí)別結(jié)果編碼通過(guò)無(wú)線傳輸給主機(jī),用于控制語(yǔ)音交互應(yīng)用;
[0034](6)交互應(yīng)用程序接受到語(yǔ)音命令指令后導(dǎo)致的應(yīng)用程序狀態(tài)變化經(jīng)由視覺(jué)和/ 或聽(tīng)覺(jué)通道反饋給用戶,并刺激用戶產(chǎn)生新的交互意圖,從而繼續(xù)語(yǔ)音交互流程。
[0035]作為優(yōu)選,步驟(3)中的自動(dòng)捕獲方式為:在指示燈出現(xiàn)閃爍時(shí)表示用戶可以輸入語(yǔ)言命令,裝置即開(kāi)始自動(dòng)采集語(yǔ)言命令信號(hào)。
[0036]作為優(yōu)選,步驟(4)中的語(yǔ)音在線識(shí)別采用一種基于非特定人聲的語(yǔ)音識(shí)別技術(shù)的在線識(shí)別方法,利用現(xiàn)有的商用非特定人聲的語(yǔ)音識(shí)別芯片實(shí)現(xiàn)語(yǔ)音在線識(shí)別,達(dá)到語(yǔ)音命令識(shí)別的高識(shí)別率和魯棒性。
[0037]作為優(yōu)選,以上方法中還包括一種語(yǔ)音命令的分組策略及對(duì)應(yīng)于該分組策略的控制反饋機(jī)制,該分組策略及控制反饋機(jī)制用于多任務(wù)交互情境應(yīng)用,包括以下步驟:
[0038]a.根據(jù)多任務(wù)交互情境應(yīng)用的需求確定語(yǔ)音命令集的分組,形成多組語(yǔ)音命令集;
[0039]b.利用一種支持用戶定制的語(yǔ)音命令編輯圖形界面對(duì)多組語(yǔ)音命令集進(jìn)行編輯, 并存儲(chǔ)至語(yǔ)音交互裝置中的存儲(chǔ)模塊,用于在線語(yǔ)音命令識(shí)別;
[0040]c.利用驅(qū)動(dòng)多任務(wù)的語(yǔ)言命令分組輸入控制及反饋硬件界面實(shí)現(xiàn)語(yǔ)音命令集的分組切換和語(yǔ)音命令集的分組反饋提示。
[0041]作為優(yōu)選,以上步驟b中,支持用戶定制的語(yǔ)音命令編輯圖形界面中的待識(shí)別的語(yǔ)音命令集由用戶定制編輯,定制編輯方式為:通過(guò)USB連接方式將語(yǔ)音交互裝置與主機(jī)連接,在主機(jī)端利用圖形用戶界面實(shí)現(xiàn)編輯定制。[〇〇42]作為優(yōu)選,以上步驟c中,所述的驅(qū)動(dòng)多任務(wù)的語(yǔ)音命令分組輸入控制采用按鍵長(zhǎng)按機(jī)制實(shí)現(xiàn)語(yǔ)音命令集的分組切換;反饋硬件界面采用LED指示燈的多種狀態(tài)組合提供當(dāng)前語(yǔ)音命令集的分組反饋。
[0043]以上方法中,裝置與主機(jī)之間的通訊采用兩種方式:無(wú)線數(shù)據(jù)通信方式和USB數(shù)據(jù)傳輸方式。在進(jìn)行在線語(yǔ)音命令識(shí)別時(shí),利用無(wú)線數(shù)據(jù)通訊方式將識(shí)別到的語(yǔ)音命令結(jié)果發(fā)送給主機(jī);而在離線階段,當(dāng)裝置與主機(jī)通過(guò)USB接口連接時(shí),將自動(dòng)對(duì)裝置內(nèi)置的電池進(jìn)行充電,同時(shí),支持用戶在主機(jī)上編輯定制的多組語(yǔ)音命令集,并將語(yǔ)音命令集通過(guò)USB 接口傳輸?shù)窖b置的存儲(chǔ)模塊,供在線識(shí)別階段訪問(wèn)。
[0044]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0045]本發(fā)明的有益效果:1)高效支持多任務(wù)交互情境中用戶自然、流暢的語(yǔ)音命令交互;2)利用裝置的手持便攜性特點(diǎn)、驅(qū)動(dòng)多任務(wù)的語(yǔ)言命令分組輸入控制及反饋硬件界面支持用戶在多任務(wù)交互情境中自由運(yùn)動(dòng);3)支持非特定人聲語(yǔ)音命令,使所研發(fā)的裝置適應(yīng)更廣泛人群,而且無(wú)需對(duì)用戶進(jìn)行事先訓(xùn)練,即真正做到“拿起就能用”;4)利用支持用戶定制的語(yǔ)音命令編輯圖形界面對(duì)多組語(yǔ)音命令集進(jìn)行編輯,使語(yǔ)音命令集能由用戶定制而非固化;5)語(yǔ)音命令識(shí)別過(guò)程在裝置中直接完成,識(shí)別結(jié)果無(wú)線傳輸至計(jì)算機(jī),簡(jiǎn)化了編程人員的二次開(kāi)發(fā)工作量?!靖綀D說(shuō)明】
[0046]圖1為語(yǔ)音交互裝置的硬件框架結(jié)構(gòu)圖。[〇〇47]圖2為語(yǔ)音交互裝置的語(yǔ)音交互流程。[〇〇48]圖3為交互任務(wù)1語(yǔ)音命令集示例。
[0049]圖4為交互任務(wù)2語(yǔ)音命令集示例。[〇〇5〇]圖5為交互任務(wù)3語(yǔ)音命令集示例。[〇〇51]圖6為交互任務(wù)4語(yǔ)音命令集示例?!揪唧w實(shí)施方式】[〇〇52]下面結(jié)合附圖與【具體實(shí)施方式】,對(duì)本發(fā)明作進(jìn)一步描述。[〇〇53]見(jiàn)圖1與圖2,一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置,包括可手持的殼體,所述殼體中包括以下模塊:實(shí)現(xiàn)語(yǔ)音命令識(shí)別的語(yǔ)音識(shí)別模塊,實(shí)現(xiàn)識(shí)別出的語(yǔ)音命令編碼與主機(jī)間通訊的射頻發(fā)送模塊,給各模塊供電及對(duì)電池進(jìn)行充電的電源管理模塊,存儲(chǔ)語(yǔ)音命令的存儲(chǔ)模塊,實(shí)現(xiàn)語(yǔ)音命令輸入的語(yǔ)音輸入模塊,驅(qū)動(dòng)多任務(wù)的語(yǔ)音命令分組輸入控制及反饋硬件界面,實(shí)現(xiàn)整個(gè)裝置管理控制的控制模塊,實(shí)現(xiàn)提示功能的指示燈,實(shí)現(xiàn)語(yǔ)音交互應(yīng)用程序控制和語(yǔ)音命令編輯的主機(jī)。[〇〇54]以上手持式語(yǔ)音交互裝置的交互方法,包括以下步驟:(1)用戶根據(jù)多任務(wù)交互情境應(yīng)用的任務(wù)確定所需采用的語(yǔ)音交互命令集,并經(jīng)由驅(qū)動(dòng)多任務(wù)的語(yǔ)言命令分組輸入控制及反饋硬件界面進(jìn)行語(yǔ)音命令集的分組切換;(2)用戶根據(jù)裝置上指示燈的閃爍提示發(fā)出語(yǔ)音命令;(3)采用裝置自動(dòng)捕獲的方式完成語(yǔ)音命令信號(hào)輸入,自動(dòng)捕獲方式為:在指示燈出現(xiàn)閃爍時(shí)表示用戶可以輸入語(yǔ)言命令,裝置即開(kāi)始自動(dòng)采集語(yǔ)言命令信號(hào);(4)利用語(yǔ)音識(shí)別模塊,實(shí)現(xiàn)語(yǔ)音的在線識(shí)別,其中語(yǔ)音在線識(shí)別采用一種基于非特定人聲的語(yǔ)音識(shí)別技術(shù)的在線識(shí)別方法,利用現(xiàn)有的商用非特定人聲的語(yǔ)音識(shí)別芯片實(shí)現(xiàn)語(yǔ)音在線識(shí)另IJ,達(dá)到語(yǔ)音命令識(shí)別的高識(shí)別率和魯棒性;(5)識(shí)別結(jié)果編碼通過(guò)無(wú)線傳輸給主機(jī),用于控制語(yǔ)音交互應(yīng)用;(6)交互應(yīng)用程序接受到語(yǔ)音命令指令后導(dǎo)致的應(yīng)用程序狀態(tài)變化經(jīng)由視覺(jué)和/或聽(tīng)覺(jué)通道反饋給用戶,并刺激用戶產(chǎn)生新的交互意圖,從而繼續(xù)語(yǔ)音交互流程。
[0055]以上方法中,還包括一種語(yǔ)音命令的分組策略及對(duì)應(yīng)于該分組策略的控制反饋機(jī)制,該分組策略及控制反饋機(jī)制用于多任務(wù)交互情境應(yīng)用,包括以下步驟:a.根據(jù)多任務(wù)交互情境應(yīng)用的需求確定語(yǔ)音命令集的分組,形成多組語(yǔ)音命令集;b.利用一種支持用戶定制的語(yǔ)音命令編輯圖形界面對(duì)多組語(yǔ)音命令集進(jìn)行編輯,并存儲(chǔ)至語(yǔ)音交互裝置中的存儲(chǔ)模塊,用于在線語(yǔ)音命令識(shí)別,其中,支持用戶定制的語(yǔ)音命令編輯圖形界面中的待識(shí)別的語(yǔ)音命令集由用戶定制編輯,定制編輯方式為:通過(guò)USB連接方式將語(yǔ)音交互裝置與主機(jī)連接,在主機(jī)端利用圖形用戶界面實(shí)現(xiàn)編輯定制;c.利用驅(qū)動(dòng)多任務(wù)的語(yǔ)言命令分組輸入控制及反饋硬件界面實(shí)現(xiàn)語(yǔ)音命令集的分組切換和語(yǔ)音命令集的分組反饋提示,所述的驅(qū)動(dòng)多任務(wù)的語(yǔ)音命令分組輸入控制采用按鍵長(zhǎng)按機(jī)制實(shí)現(xiàn)語(yǔ)音命令集的分組切換;反饋硬件界面采用LED指示燈的多種狀態(tài)組合提供當(dāng)前語(yǔ)音命令集的分組反饋。[〇〇56]具體的,本發(fā)明中,根據(jù)面向多任務(wù)交互的手持式語(yǔ)音交互裝置的硬件框架結(jié)構(gòu)圖進(jìn)行設(shè)計(jì)和組裝,其中,基于ICRoute公司生產(chǎn)的商用語(yǔ)音識(shí)別芯片LD3320A用于實(shí)現(xiàn)語(yǔ)音識(shí)別模塊;HC05模塊作為藍(lán)牙無(wú)線射頻模塊;EMC5754、線性穩(wěn)壓芯片和鋰電池構(gòu)成電源管理模塊;AT91SAM7S64AU芯片構(gòu)成管理控制模塊;SD卡用于實(shí)現(xiàn)存儲(chǔ)模塊;咪頭用于實(shí)現(xiàn)語(yǔ)音命令采集,構(gòu)成語(yǔ)音輸入模塊;4個(gè)按鍵、4個(gè)LED指示燈和相關(guān)元器件構(gòu)成驅(qū)動(dòng)多任務(wù)的語(yǔ)言命令分組輸入控制及反饋硬件界面。
[0057]本實(shí)施例中的語(yǔ)音交互裝置支持4組語(yǔ)音命令集(每組命令集支持多達(dá)50條語(yǔ)音命令),因此,可用于同時(shí)支持4種不同任務(wù)的語(yǔ)音交互情境。為支持非特定人聲語(yǔ)音命令, 使所研發(fā)的裝置適應(yīng)更廣泛人群,采用了拼音對(duì)語(yǔ)音命令進(jìn)行逼近編碼。將裝置通過(guò)USB接口與主機(jī)連接,利用主機(jī)上的語(yǔ)音命令編輯圖形界面可對(duì)這4組語(yǔ)音命令集進(jìn)行編輯并以文本文件的方式存儲(chǔ)至裝置的SD卡中。
[0058]本實(shí)施例中,存儲(chǔ)語(yǔ)音命令集的文本文件具體規(guī)范如下,參考圖3至圖6:[〇〇59]每組命令集支持多達(dá)50條語(yǔ)音命令,存儲(chǔ)在一個(gè)獨(dú)立的文本文件中,文件不能大于2048字節(jié),除注釋外都是西文字符。
[0060]每個(gè)語(yǔ)音命令條目占一行,以字符‘:’開(kāi)始,然后是該語(yǔ)音命令id,id固定為3個(gè)字符,不足3個(gè)字符的以0補(bǔ)齊。id以字符‘,’結(jié)束,然后是語(yǔ)音命令關(guān)鍵字拼音編碼,該拼音編碼字符串只能由小寫字母和空格組成,每個(gè)文字中間都有空格。例如“你好”可以編碼為“ni hao”。關(guān)鍵字拼音編碼字符串最長(zhǎng)是32個(gè)字節(jié),并以字符‘;’結(jié)束,然后是注釋。[0061 ]4個(gè)按鍵SI,S2,S3,S4分別用于控制4組語(yǔ)音命令集的切換。例如,長(zhǎng)按S1鍵3秒鐘以上(含3秒)可將語(yǔ)音命令集切換到第一組,其余類似。之所以采用長(zhǎng)按機(jī)制(按住按鍵3秒鐘以上)而不是采用按鍵觸碰機(jī)制是為了避免用戶由于不小心誤碰到某個(gè)按鍵而導(dǎo)致語(yǔ)音命令的錯(cuò)誤切換,而且,根據(jù)我們的用戶調(diào)查,3秒鐘的長(zhǎng)按時(shí)間是用戶普遍能夠接受的。 [〇〇62]4個(gè)LED燈用于給用戶進(jìn)行裝置的工作狀態(tài)反饋。LED1常亮,表示裝置正常工作;如LED1燈滅,則表示裝置需要充電或裝置壞了。LED2和LED3的亮滅狀態(tài)組合表示當(dāng)前語(yǔ)音命令集的編號(hào)。LED2和LED3均滅表示當(dāng)前語(yǔ)音命令集是第一組;LED2亮和LED3滅表示當(dāng)前語(yǔ)音命令集是第二組;LED2滅和LED3亮表示當(dāng)前語(yǔ)音命令集是第三組;LED2和LED3均亮表示當(dāng)前語(yǔ)音命令集是第四組。LED4用于提示用戶可以口述語(yǔ)音命令,當(dāng)裝置可以接受語(yǔ)音命令時(shí),LED4燈閃爍;當(dāng)用戶口述某一語(yǔ)音命令并為裝置所接受后,裝置啟動(dòng)識(shí)別過(guò)程,此時(shí) LED4滅;當(dāng)裝置把識(shí)別到的語(yǔ)音命令發(fā)送個(gè)主機(jī)后,又重新恢復(fù)到可以接受語(yǔ)音命令的狀態(tài),此時(shí),LED燈又進(jìn)入閃爍狀態(tài)。
[0063]以下為本發(fā)明的一個(gè)模擬使用場(chǎng)景:
[0064]假設(shè)用戶A是一位新數(shù)字媒體從業(yè)者。有時(shí)候,她需要向觀眾演示一個(gè)數(shù)字娛樂(lè)軟件,其中需要與一個(gè)虛擬娃娃進(jìn)行互動(dòng)(交互任務(wù)1);另一些時(shí)候,她又需要面對(duì)來(lái)自軍方的代表,向他們演示一個(gè)戰(zhàn)場(chǎng)仿真軟件,其中涉及到對(duì)主坦克的運(yùn)動(dòng)控制(交互任務(wù)2);偶爾,她還會(huì)化身為汽車銷售人員,通過(guò)汽車推銷軟件向客戶介紹不同汽車的特性(交互任務(wù) 3);在緊張的工作之余,她也想在電腦上看看電視放松自己,她需要在不同的電視臺(tái)之間進(jìn)行轉(zhuǎn)換(交互任務(wù)4)。[〇〇65]面對(duì)如此復(fù)雜的多任務(wù)交互應(yīng)用,這位新數(shù)字媒體從業(yè)者不免發(fā)愁。然而,借助于本實(shí)施案例,她可以輕松地勝任所有這些任務(wù)。她所要的做的,僅僅只是針對(duì)每個(gè)交互任務(wù)提煉出語(yǔ)音命令集并采用拼音進(jìn)行編碼(圖3?圖6),并以本裝置所要求的文件格式把這4 個(gè)命令集存儲(chǔ)到SD卡上,之后她就可以輕松地利用S1?S4四個(gè)按鍵在這四個(gè)命令集之間進(jìn)行快速切換,并借助LED1?LED4四個(gè)燈的狀態(tài)獲得對(duì)裝置工作狀態(tài)的了解,實(shí)現(xiàn)單一命令集控制單一交互應(yīng)用的目標(biāo),從而輕松應(yīng)對(duì)復(fù)雜的多任務(wù)交互應(yīng)用。[〇〇66]值得說(shuō)明的是,上述針對(duì)交互任務(wù)2的語(yǔ)音命令集2較之于其他三個(gè)語(yǔ)音命令集有更多的語(yǔ)音命令冗余。這主要是因?yàn)?,交互任?wù)2是一個(gè)嚴(yán)肅應(yīng)用,不出錯(cuò)或者以極低的概率出錯(cuò)是其基本要求。通過(guò)采用類似于語(yǔ)音命令集2所采用的簡(jiǎn)單冗余策略,可以在很大程度上進(jìn)一步提高裝置的容錯(cuò)性。而對(duì)于類似于交互任務(wù)1、交互任務(wù)3和交互任務(wù)4這樣的普通應(yīng)用,類似于語(yǔ)音命令集1、語(yǔ)音命令集3、語(yǔ)音命令集4這樣的設(shè)置已經(jīng)可以較好地勝任, 一般就無(wú)需進(jìn)行額外的冗余處理了。
[0067]本發(fā)明的保護(hù)范圍包括但不限于以上實(shí)施方式,本發(fā)明的保護(hù)范圍以權(quán)利要求書為準(zhǔn),任何對(duì)本技術(shù)做出的本領(lǐng)域的技術(shù)人員容易想到的替換、變形、改進(jìn)均落入本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置,包括可手持的殼體,其特征在于,所述 殼體中包括以下模塊:實(shí)現(xiàn)語(yǔ)音命令識(shí)別的語(yǔ)音識(shí)別模塊,實(shí)現(xiàn)識(shí)別出的語(yǔ)音命令編碼與 主機(jī)間通訊的射頻發(fā)送模塊,給各模塊供電及對(duì)電池進(jìn)行充電的電源管理模塊,存儲(chǔ)語(yǔ)音 命令的存儲(chǔ)模塊,實(shí)現(xiàn)語(yǔ)音命令輸入的語(yǔ)音輸入模塊,驅(qū)動(dòng)多任務(wù)的語(yǔ)音命令分組輸入控 制及反饋硬件界面,實(shí)現(xiàn)整個(gè)裝置管理控制的控制模塊,實(shí)現(xiàn)提示功能的指示燈,實(shí)現(xiàn)語(yǔ)音 交互應(yīng)用程序控制和語(yǔ)音命令編輯的主機(jī)。2.權(quán)利要求1所述的一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置的交互方法,其特征 在于,包括以下步驟:(1)用戶根據(jù)多任務(wù)交互情境應(yīng)用的任務(wù)確定所需采用的語(yǔ)音交互命令集,并經(jīng)由驅(qū) 動(dòng)多任務(wù)的語(yǔ)言命令分組輸入控制及反饋硬件界面進(jìn)行語(yǔ)音命令集的分組切換;(2)用戶根據(jù)裝置上指示燈的閃爍提示發(fā)出語(yǔ)音命令;(3)采用裝置自動(dòng)捕獲的方式完成語(yǔ)音命令信號(hào)輸入;(4)利用語(yǔ)音識(shí)別模塊,實(shí)現(xiàn)語(yǔ)音的在線識(shí)別;(5)識(shí)別結(jié)果編碼通過(guò)無(wú)線傳輸給主機(jī),用于控制語(yǔ)音交互應(yīng)用;(6)交互應(yīng)用程序接受到語(yǔ)音命令指令后導(dǎo)致的應(yīng)用程序狀態(tài)變化經(jīng)由視覺(jué)和/或聽(tīng) 覺(jué)通道反饋給用戶,并刺激用戶產(chǎn)生新的交互意圖,從而繼續(xù)語(yǔ)音交互流程。3.根據(jù)權(quán)利要求2所述的一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置的交互方法,其 特征在于,步驟(3)中的自動(dòng)捕獲方式為:在指示燈出現(xiàn)閃爍時(shí)表示用戶可以輸入語(yǔ)言命 令,裝置即開(kāi)始自動(dòng)采集語(yǔ)言命令信號(hào)。4.根據(jù)權(quán)利要求2所述的一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置的交互方法,其 特征在于,步驟(4)中的語(yǔ)音在線識(shí)別采用一種基于非特定人聲的語(yǔ)音識(shí)別技術(shù)的在線識(shí) 別方法,利用現(xiàn)有的商用非特定人聲的語(yǔ)音識(shí)別芯片實(shí)現(xiàn)語(yǔ)音在線識(shí)別,達(dá)到語(yǔ)音命令識(shí) 別的高識(shí)別率和魯棒性。5.根據(jù)權(quán)利要求2所述的一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置的交互方法,其 特征在于,該方法中還包括一種語(yǔ)音命令的分組策略及對(duì)應(yīng)于該分組策略的控制反饋機(jī) 制,該分組策略及控制反饋機(jī)制用于多任務(wù)交互情境應(yīng)用,包括以下步驟:a.根據(jù)多任務(wù)交互情境應(yīng)用的需求確定語(yǔ)音命令集的分組,形成多組語(yǔ)音命令集;b.利用一種支持用戶定制的語(yǔ)音命令編輯圖形界面對(duì)多組語(yǔ)音命令集進(jìn)行編輯,并存 儲(chǔ)至語(yǔ)音交互裝置中的存儲(chǔ)模塊,用于在線語(yǔ)音命令識(shí)別;c.利用驅(qū)動(dòng)多任務(wù)的語(yǔ)言命令分組輸入控制及反饋硬件界面實(shí)現(xiàn)語(yǔ)音命令集的分組 切換和語(yǔ)音命令集的分組反饋提示。6.根據(jù)權(quán)利要求5所述的一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置的交互方法,其 特征在于,步驟b中,支持用戶定制的語(yǔ)音命令編輯圖形界面中的待識(shí)別的語(yǔ)音命令集由用 戶定制編輯,定制編輯方式為:通過(guò)USB連接方式將語(yǔ)音交互裝置與主機(jī)連接,在主機(jī)端利 用圖形用戶界面實(shí)現(xiàn)編輯定制。7.根據(jù)權(quán)利要求5所述的一種面向多任務(wù)交互的手持式語(yǔ)音交互裝置的交互方法,其 特征在于,步驟c中,所述的驅(qū)動(dòng)多任務(wù)的語(yǔ)音命令分組輸入控制采用按鍵長(zhǎng)按機(jī)制實(shí)現(xiàn)語(yǔ) 音命令集的分組切換;反饋硬件界面采用LED指示燈的多種狀態(tài)組合提供當(dāng)前語(yǔ)音命令集 的分組反饋。
【文檔編號(hào)】G10L15/28GK106023991SQ201610344503
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月23日
【發(fā)明人】潘巧明, 沈偉華, 胡偉儉, 萬(wàn)華根
【申請(qǐng)人】麗水學(xué)院, 麗水市派訊科技有限公司