專利名稱:與消費(fèi)電子系統(tǒng)進(jìn)行交互的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種讓用戶能與消費(fèi)電子系統(tǒng)進(jìn)行交互的方法,系統(tǒng)的運(yùn)行情況用多個(gè)動(dòng)態(tài)改變的系統(tǒng)元素如系統(tǒng)狀態(tài)或變量進(jìn)行模擬。
本發(fā)明也涉及一種消費(fèi)電子系統(tǒng),該系統(tǒng)的運(yùn)行情況用多個(gè)動(dòng)態(tài)改變的系統(tǒng)元素如系統(tǒng)狀態(tài)或變量進(jìn)行模擬。
消費(fèi)電子產(chǎn)品正變得越來越復(fù)雜,這使用戶與產(chǎn)品/系統(tǒng)的交互越來越困難?,F(xiàn)在,產(chǎn)品的許多功能性都用軟件實(shí)現(xiàn),這樣系統(tǒng)的運(yùn)行情況在很大程度上對(duì)用戶不是直接可見的。許多情況都需要用戶能獲悉系統(tǒng)運(yùn)行情況以充分地與系統(tǒng)進(jìn)行交互。因此需要給用戶呈現(xiàn)某種代表著如系統(tǒng)狀態(tài)和變量的系統(tǒng)元素。特別對(duì)于話音控制的系統(tǒng),需要呈現(xiàn)的不僅有關(guān)于系統(tǒng)正常運(yùn)行情況的系統(tǒng)元素,還有某些話音控制/語音識(shí)別單元的系統(tǒng)元素。這造成需要給用戶呈現(xiàn)更多的元素。常規(guī)地,呈現(xiàn)不同系統(tǒng)元素分別使用像不同顯示窗口之類的不同用戶界面元素,或者在窗口中使用不同文字或圖形對(duì)象。用這種方式許多用戶界面元素可能被同時(shí)呈現(xiàn)或者可能通過分級(jí)排列菜單訪問。大量呈現(xiàn)給用戶的信息使用戶難于迅速評(píng)定系統(tǒng)總體運(yùn)行情況。還需要大顯示區(qū)域,或者如果使用了分級(jí)菜單,還要提供對(duì)信息的較為間接的訪問。從微軟的用于交互代理的ActiveX技術(shù)可以知道一種如擬人化角色的代理可以代表一個(gè)系統(tǒng)事件。PC應(yīng)用程序可以向ActiveX層發(fā)送事件。該層執(zhí)行對(duì)應(yīng)此事件的動(dòng)畫。在這種系統(tǒng)中,在事件和動(dòng)畫之間存在著一種嚴(yán)格的一對(duì)一耦合。如果多個(gè)事件需要在同一時(shí)間呈現(xiàn)給用戶,則多個(gè)動(dòng)畫需要被并行地調(diào)用。如前所述,這使用戶難于迅速評(píng)定系統(tǒng)總體運(yùn)行情況。而且,這需要許多系統(tǒng)資源。
在用戶控制的系統(tǒng)中通常需要就用戶所發(fā)出的命令給其反饋。還要求這種反饋是直觀的以便于用戶不需任何學(xué)習(xí)就很容易解釋。該反饋應(yīng)該以這樣一種方式給出人們可以方便地理解并預(yù)測(cè)系統(tǒng)運(yùn)行情況。但是,在話音控制系統(tǒng)中必須呈現(xiàn)各種類型的反饋,而且經(jīng)常是同時(shí)的。其中這些類型的反饋有時(shí)間跨度(即話音控制單元嘗試識(shí)別和解釋話音輸入的周期)、剩余時(shí)間跨度、用戶是否被聽到、用戶是否被理解、用戶講的是否是有效命令、用戶用的是否是敏感命令、哪個(gè)用戶被識(shí)別出來(多用戶環(huán)境)、系統(tǒng)是否會(huì)執(zhí)行命令、以及系統(tǒng)是否忙。使用傳統(tǒng)方法給用戶呈現(xiàn)信息可能容易使用戶不知所措并造成用戶和系統(tǒng)之間并不有效的交互。
本發(fā)明的一個(gè)目的是提供一種在用戶和消費(fèi)電子系統(tǒng)之間進(jìn)行交互的改進(jìn)方法。還有一個(gè)目的是提供一種具有改進(jìn)的用戶交互的消費(fèi)電子系統(tǒng)。
為了滿足本發(fā)明的目的,讓用戶能與消費(fèi)電子系統(tǒng)交互的方法包括向用戶呈現(xiàn)多個(gè)系統(tǒng)元素,其中這種消費(fèi)電子系統(tǒng)的運(yùn)行情況由多個(gè)動(dòng)態(tài)改變的系統(tǒng)元素如系統(tǒng)狀態(tài)或變量進(jìn)行模擬,這種方法是通過—根據(jù)多個(gè)系統(tǒng)元素的實(shí)際值,從一個(gè)對(duì)象的多種不同視覺和/或聽覺形態(tài)中選擇一種形態(tài);并且—向用戶呈現(xiàn)所選形態(tài)。
通過使用僅一個(gè)對(duì)象來表示多個(gè)系統(tǒng)元素,用戶可以通過集中于僅一個(gè)對(duì)象來評(píng)定系統(tǒng)總體運(yùn)行情況/狀態(tài)。而且,對(duì)諸如顯示區(qū)域、處理能力、存儲(chǔ)能力等資源的要求會(huì)較低。
正如在從屬權(quán)利要求5中所述,此對(duì)象最好是一種擬人化角色,它具有表示多種元素的能力。特別地,對(duì)于在從屬權(quán)利要求11和12中所要求的一種允許語音輸入的系統(tǒng),同時(shí)表示多個(gè)獨(dú)立系統(tǒng)元素的能力是非常有益的。
話音控制作為一種對(duì)于(消費(fèi))產(chǎn)品的交互形式正變得越來越成熟。但是,人們感到向一種產(chǎn)品如一臺(tái)電視講話是非常陌生、不很舒服甚至不能接受的。為避免無意于控制產(chǎn)品的會(huì)話或表達(dá)被識(shí)別和執(zhí)行,大部分話音控制系統(tǒng)需要用戶激活系統(tǒng)(產(chǎn)生一個(gè)系統(tǒng)處于活動(dòng)態(tài)的時(shí)間跨度)。這樣的激活可以通過話音來執(zhí)行,例如用戶說出一個(gè)關(guān)鍵詞像“電視”。通過使用擬人化角色會(huì)更自然的針對(duì)該角色(而非產(chǎn)品),例如向一種像狗的角色說“貝洛(Bello)”。這去除了交互中的一個(gè)障礙。而且,這種系統(tǒng)可以有效利用具有多種形態(tài)的對(duì)象,這種選擇是多種狀態(tài)元素的結(jié)果。例如,一類基本形態(tài)(如一種睡覺的動(dòng)物)可用在系統(tǒng)還未處于活動(dòng)態(tài)時(shí)。另一類形態(tài)可用在系統(tǒng)處于活動(dòng)態(tài)時(shí)(如這種動(dòng)物的清醒形態(tài))。于是時(shí)間跨度的進(jìn)展可以用例如耳朵的角度來表示(時(shí)間跨度開始時(shí)完全豎起、結(jié)束時(shí)完全垂下)。同一類形態(tài)也可以表示一種表達(dá)是否被理解(一種“理解的表情”對(duì)應(yīng)一種“困惑的表情”)。同樣,聽覺反饋可以結(jié)合其中,像單詞被識(shí)別時(shí)的“高興”吠叫。通過關(guān)注一種表示所有這些系統(tǒng)元素的形態(tài)(例如,豎起的耳朵和理解的表情或者垂下的耳朵和困惑的表情),用戶可以迅速領(lǐng)會(huì)其反饋。
通常,識(shí)別錯(cuò)誤仍會(huì)出現(xiàn)在話音控制系統(tǒng)中,例如,用戶確實(shí)講出命令卻什么都沒識(shí)別出來或者識(shí)別出一些不同的東西。用戶覺得這樣的交互困難而非常不可接受,畢竟它是一種產(chǎn)品并且不應(yīng)該失敗。通過使用從屬權(quán)利要求5中所要求的一種擬人化角色,用戶將自動(dòng)的把交互期間所期望的質(zhì)量級(jí)別與為交互所選的角色種類聯(lián)系起來。通過選擇一種類似狗的角色用戶會(huì)更加容易接受一些命令未被理解的情況。一個(gè)命令需要向狗發(fā)出多次或者需要改述,這是非常正常的。
正如在從屬權(quán)利要求2中所定義的方法,系統(tǒng)可能已經(jīng)存儲(chǔ)了一個(gè)從基本對(duì)象得出的形態(tài)集合??梢允褂萌魏芜m當(dāng)?shù)男问綇募现羞x擇形態(tài)。例如,可以用表將N個(gè)系統(tǒng)元素映射到一個(gè)規(guī)定了集合中某種形態(tài)的值上??蛇x的是可以使用一種加權(quán)機(jī)制,其中例如一種以N個(gè)系統(tǒng)元素作為輸入?yún)?shù)的公式為某種形態(tài)產(chǎn)生一種描述符。有利的是可以使用一種模糊邏輯算法。
正如在從屬權(quán)利要求3的方法中所定義,一旦所表示的系統(tǒng)元素其中之一發(fā)生變化,就會(huì)產(chǎn)生一種新的形態(tài)(表示所有元素)。這種產(chǎn)生可以從一種基本形態(tài)開始。優(yōu)選地,修改當(dāng)前所呈現(xiàn)的形態(tài)。通常,一次僅有一個(gè)系統(tǒng)元素改變。如在從屬權(quán)利要求6的方法中所定義,一個(gè)系統(tǒng)元素最好涉及對(duì)象的一個(gè)不同方面。例如,話音控制系統(tǒng)中的剩余時(shí)間跨度是通過動(dòng)物耳朵的角度來表示。那種元素值的改變僅會(huì)引起相應(yīng)部分的改變。其實(shí)現(xiàn)可以通過從形態(tài)集中選擇一個(gè)新的形態(tài)。通過使用合適的圖形引擎還有可能僅修改當(dāng)前所呈現(xiàn)形態(tài)的那個(gè)方面。例如,當(dāng)系統(tǒng)已經(jīng)識(shí)別出一條話音命令時(shí),一種“中性”的嘴(基本水平)可以改變成一種高興的表情(翹起的嘴角)。通過僅局部的改變某個(gè)方面,對(duì)象中反映其他系統(tǒng)元素的其他方面可以保持不變,如果希望那樣。例如只要話音音量相對(duì)較低(但仍高到可以識(shí)別出單詞)則在所有呈現(xiàn)的形態(tài)中角色可能將他的手?jǐn)n近耳朵,而嘴的變化可以反映一個(gè)命令是否被識(shí)別出來,耳朵的角度可以反映剩余時(shí)間跨度。
正如從屬權(quán)利要求3的方法中所定義,修改可能涉及所有類型的方面。它可能涉及形態(tài)的大小或形狀,以及形態(tài)的圖形屬性如亮度、顏色或不透明度。用最新的圖形引擎,形態(tài)的表示如面部或者肢體表示也可以進(jìn)行改變。不僅或者不是改變對(duì)象的視覺方面,聽覺方面也可以改變,如聽覺輸出音量或者韻律(例如如果識(shí)別出一條不期望的命令時(shí)是一種升調(diào))。
正如從屬權(quán)利要求9的方法中所定義,形態(tài)動(dòng)畫化非常有利。這便于把用戶的注意力吸引到此形態(tài)當(dāng)時(shí)所反映的重要系統(tǒng)元素上來。正如從屬權(quán)利要求10的方法中所定義,優(yōu)選的是這種動(dòng)畫與變量的改變同步。例如,耳朵的下垂與時(shí)間跨度的進(jìn)展同步。在系統(tǒng)元素的變化會(huì)實(shí)時(shí)地通過修改形態(tài)來實(shí)現(xiàn)情況下,優(yōu)選地執(zhí)行此修改的引擎了解變量的每個(gè)變化。
參考附圖所示的實(shí)施方案,本發(fā)明的這些方面及其他方面會(huì)顯而易見并進(jìn)行闡述。
圖1表示了一個(gè)根據(jù)本發(fā)明的系統(tǒng)的框圖;圖2表示了“多種形態(tài)”的對(duì)象210;圖3說明了此對(duì)象的多種形態(tài);圖4說明了一個(gè)可以和其他形態(tài)相結(jié)合的表情;圖5表示了一個(gè)此系統(tǒng)的狀態(tài)框圖;以及圖6表示了一個(gè)響應(yīng)系統(tǒng)事件進(jìn)行動(dòng)畫顯示的狀態(tài)框圖。
圖1表示了一種消費(fèi)電子系統(tǒng)100。該系統(tǒng)就話音控制的消費(fèi)電子系統(tǒng)方面進(jìn)行詳細(xì)描述。應(yīng)當(dāng)理解的是根據(jù)本發(fā)明的呈現(xiàn)技術(shù)也可以用于傳統(tǒng)控制系統(tǒng),如具有經(jīng)遙控裝置的輸入。系統(tǒng)100包括一種控制器110,它提供對(duì)于如TV、DVD播放機(jī)、置頂盒等產(chǎn)品傳統(tǒng)功能性的控制。由于類似這樣的功能性不是本發(fā)明的主題,所以不進(jìn)一步詳細(xì)描述消費(fèi)電子產(chǎn)品本身。應(yīng)當(dāng)理解的是交互可能局限于僅與一個(gè)孤立設(shè)備進(jìn)行交互。隨著全數(shù)字網(wǎng)絡(luò)的出現(xiàn),設(shè)備和系統(tǒng)之間的差別會(huì)日益消失。根據(jù)本發(fā)明的交互可以應(yīng)用到孤立設(shè)備以及系統(tǒng)之中。因而術(shù)語系統(tǒng)會(huì)包括這兩種情況。
此系統(tǒng)包括一個(gè)接收語音信號(hào)(SIS)的輸入115。此輸入可以經(jīng)過麥克風(fēng)被接收。一種語音分析子系統(tǒng)(SAS)120分析信號(hào),以便為一種語音識(shí)別器130的識(shí)別過程作準(zhǔn)備。語音分析是公知的,它可以包括例如A/D轉(zhuǎn)換、信號(hào)分段成幀(通常重疊)、將幀表示成向量(通?;贚PC譜分析)。這種分析也可以包括檢測(cè)語音信號(hào)是否存在(如基于能量或者更先進(jìn)的方法)。識(shí)別器130嘗試用一種公知的方式來識(shí)別分析器120的輸出,把它與參考模型如一種聲學(xué)模型進(jìn)行比較。這里的輸出表示一個(gè)或者多個(gè)已識(shí)別出的單詞。這被輸入到一種話音控制單元140,它把所識(shí)別的單詞轉(zhuǎn)換成內(nèi)部系統(tǒng)操作。這些操作被傳送到控制器110。應(yīng)當(dāng)注意的是這些功能日益在硬件中得到實(shí)現(xiàn)。這樣,作為使用單獨(dú)模塊(在專用硬件中實(shí)現(xiàn)、或者全部或部分地用專用微控制器實(shí)現(xiàn))的替代,也可以使用一種大控制器完成多種任務(wù),像語音識(shí)別、話音控制和系統(tǒng)控制。
根據(jù)本發(fā)明,系統(tǒng)還包括一個(gè)交互引擎150??刂破?10向交互引擎提供有關(guān)多個(gè)系統(tǒng)元素的信息。這些元素可以代表會(huì)由交互引擎表示的正常系統(tǒng)狀態(tài)或系統(tǒng)變量。在話音控制系統(tǒng)中,優(yōu)選地交互引擎150也接收各自語音相關(guān)部分的輸入。例如,語音分析子系統(tǒng)120可能指明語音是否正被接收(控制時(shí)間跨度指示)和音量是否足夠。語音識(shí)別器可以指示可用命令全集中的一條命令是否已被識(shí)別、以及所識(shí)別的命令是否為當(dāng)前有效子集的一部分(通常并非所有命令在所有時(shí)間都可以發(fā)送,例如,如果VCR中沒有磁帶,播放命令可能就不在識(shí)別器的有效集合中)。話音控制單元可以根據(jù)系統(tǒng)當(dāng)前狀態(tài)而指明所識(shí)別的命令是否可以被翻譯成內(nèi)部操作。在一個(gè)優(yōu)選實(shí)施方案中,至少話音控制單元140是交互引擎150的一部分。用這種方式交互引擎還控制交互的輸入側(cè),對(duì)主控制器110屏蔽交互細(xì)節(jié)。于是,交互還可以不給控制器110加太多重負(fù)而更加有功效。交互引擎可以全面控制交互并決定一條指令何時(shí)應(yīng)被發(fā)往控制器。這為用戶和交互層之間全面和自由的對(duì)話創(chuàng)造了可能,這時(shí)用戶不必害怕系統(tǒng)會(huì)無意識(shí)地執(zhí)行一條命令。例如,用戶可以在這樣一次對(duì)話中使用像“停止”的單詞而不必?fù)?dān)心那總會(huì)停止VCR播放。交互層會(huì)決定用戶是否意圖停止VCR播放或者實(shí)際想取消與用戶的(部分)對(duì)話。
根據(jù)本發(fā)明,交互引擎150包括一種形態(tài)選擇模塊152。根據(jù)所提供的N(N>1)個(gè)系統(tǒng)元素的各種實(shí)際值,該模塊選擇一種呈現(xiàn)給用戶的形態(tài)。如前所述,這種選擇可以用任何適當(dāng)?shù)姆绞竭M(jìn)行,包括使用映射表、投影公式和模糊邏輯。在一個(gè)優(yōu)選實(shí)施方案中,系統(tǒng)包括一個(gè)存儲(chǔ)相同對(duì)象形態(tài)集合的存儲(chǔ)器160。在這種系統(tǒng)中,形態(tài)選擇模塊152確保正確的形態(tài)從存儲(chǔ)器160中檢索到。另一個(gè)選擇是系統(tǒng)也可以包括另一引擎(未表出)來轉(zhuǎn)換(至少部分)形態(tài)。在這種系統(tǒng)中,形態(tài)選擇模塊152為這另一個(gè)引擎確定適當(dāng)參數(shù)。用這種方式形態(tài)選擇模塊152更有效地選擇所要呈現(xiàn)的形態(tài)。也有可能把這兩種方法結(jié)合起來。例如,形態(tài)選擇模塊152可以從形態(tài)的基本集合(例如基于僅一個(gè)或幾個(gè)系統(tǒng)元素)中選擇形態(tài),并且修改所選形態(tài),以精確地把它調(diào)整到所要呈現(xiàn)的實(shí)際系統(tǒng)元素值的整個(gè)集合。
交互引擎150還包括一種向用戶呈現(xiàn)所選形態(tài)的呈現(xiàn)模塊154。這種呈現(xiàn)可以是視覺的(如通過顯示器150)和/或聽覺的(如通過擴(kuò)音器180)。
在根據(jù)本發(fā)明的系統(tǒng)中,有利地是使用一種對(duì)象,它可以表示許多不同系統(tǒng)元素并且用戶可以迅速評(píng)定。最好使用一種擬人化角色。如上所述,該對(duì)象具有廣泛的表達(dá)范圍,這樣它可以同時(shí)表示一個(gè)(話音控制)系統(tǒng)的多個(gè)(不直接相關(guān)的)元素。用這種方式此對(duì)象成為話音控制交互的中心目標(biāo)。要表示的元素可以包括(但不局限于)識(shí)別器/話音控制單元的不同狀態(tài)和變量。這種參數(shù)的例子有.監(jiān)聽.時(shí)間跨度、剩余時(shí)間跨度.可信度級(jí)別.可能命令.所聽到但未識(shí)別的東西.所識(shí)別、將執(zhí)行、已執(zhí)行的命令.所識(shí)別但不有效的命令在一個(gè)優(yōu)選實(shí)施方案中,交互引擎向系統(tǒng)中加入功能性。交互引擎不是僅僅把系統(tǒng)事件映射到形態(tài)并呈現(xiàn)形態(tài),而是對(duì)于主動(dòng)吸引用戶注意力(加強(qiáng)交互焦點(diǎn))也有效。作為示例,交互引擎本身可以決定期望用戶與系統(tǒng)進(jìn)行交互。例如,交互可能還未完成,或系統(tǒng)正處于一種系統(tǒng)通常不停留很久的狀態(tài)中(如同樣的圖文電視頁面已經(jīng)顯示了數(shù)分鐘)。有利地,交互引擎可作用以獨(dú)立于系統(tǒng)元素“自然地”吸引用戶注意力。例如,一個(gè)隨機(jī)數(shù)產(chǎn)生器可以用于平均一小時(shí)一次地觸發(fā)吸引用戶注意力。這加強(qiáng)了形態(tài)是鮮活的對(duì)象并因此降低了交互中的閾限。由于并非所有用戶都會(huì)欣賞自主行為,用戶可以優(yōu)選地禁止這種行為。吸引用戶注意力最好通過使用動(dòng)畫來進(jìn)行。
相對(duì)于現(xiàn)有技術(shù)的話音控制交互系統(tǒng),其中系統(tǒng)控制器完全控制交互并且使用了一種被動(dòng)表示層,交互引擎也可作用以用主動(dòng)傳達(dá)系統(tǒng)狀態(tài)來主動(dòng)參與交互。例如,交互引擎可以提供一種確認(rèn)的表情來向用戶傳達(dá)命令已被話音控制單元識(shí)別并將被執(zhí)行。這里不需要來自控制器的任何指令。
優(yōu)選地,交互引擎也可作用以主動(dòng)讓用戶進(jìn)一步參與交互。例如當(dāng)一條命令本身不完全清楚或者當(dāng)所識(shí)別命令的可信度級(jí)別(一個(gè)來自識(shí)別器的變量)有些低時(shí),模塊可以呈現(xiàn)一種困惑、探詢的表情,這樣要求用戶進(jìn)一步解釋和闡明。另一個(gè)例子是當(dāng)一條(或其中部分)命令被錯(cuò)誤識(shí)別或者當(dāng)用戶改變主意時(shí),用戶有可能干預(yù)。用戶可能說“隱藏...”,然后改變其主意。動(dòng)畫引擎是這樣用戶通過說“不”而進(jìn)行干預(yù),引起系統(tǒng)監(jiān)聽一條全新的命令而不是監(jiān)聽必須隱藏什么?,F(xiàn)在用戶說“啟動(dòng)...網(wǎng)頁瀏覽器”,然后呈現(xiàn)顯示了一種確認(rèn)的表情,向用戶傳達(dá)該命令已被識(shí)別并且將被執(zhí)行。
擬人化角色如上所述,使用一種擬人化角色是一種與系統(tǒng)尤其是話音控制系統(tǒng)進(jìn)行交互的有效方式。這種擬人化角色是用戶可與之交談的實(shí)體。擬人化角色關(guān)注于實(shí)現(xiàn)用戶所告訴它要做的。擬人化角色可以實(shí)現(xiàn)為視覺一聽覺的或者僅有聽覺或視覺的。這樣,用戶不是稱呼例如TV(“電視...”),而是可以用其名字來稱呼擬人化角色,例如“貝洛...”。這還開辟出一條從基于孤立命令的傳統(tǒng)話音控制形式到一種面向更自然語言的控制的道路。例如,用戶不是通過說“電視,頻道X”來命令一臺(tái)電視轉(zhuǎn)換到頻道X,而是可以告訴擬人化角色他想干什么,像“貝洛,換到X頻道”。
另一個(gè)優(yōu)點(diǎn)是擬人化角色比產(chǎn)品本身更加像人。大部分的人類和動(dòng)物不會(huì)100%的響應(yīng)給他們的命令,而且與其他人相比他們更喜歡某個(gè)人。實(shí)際上,語音識(shí)別系統(tǒng)和話音控制系統(tǒng)會(huì)更好地理解某些人。使用一個(gè)角色代表這種系統(tǒng)運(yùn)行情況會(huì)使系統(tǒng)的運(yùn)行情況更可接受。如果擬人化角色并不對(duì)某個(gè)命令作出反應(yīng),用戶可能會(huì)接受并愿意重復(fù)這個(gè)命令。
通常擬人化角色可以更清晰地表達(dá)正在進(jìn)行什么,例如通過使用擬人化表情(面部和/或肢體表示)來顯示它是否理解這些單詞、它會(huì)執(zhí)行/實(shí)現(xiàn)用戶的命令、或者它不明白用戶說了什么。
擬人化角色示例一種可能的實(shí)現(xiàn)是一只生活在電視中的小狗形式的擬人化角色,圖2中進(jìn)行了說明。狗210是一種3D動(dòng)畫屏幕角色,其中同樣使用了聲音??蓮恼Z音識(shí)別器得出的多個(gè)狀態(tài)都被定義。對(duì)于每個(gè)狀態(tài),設(shè)計(jì)了動(dòng)畫和非語音的聽覺提示(狗聲),它們對(duì)所說的命令提供適當(dāng)?shù)姆答仭9?10伴隨著一種對(duì)系統(tǒng)所識(shí)別命令進(jìn)行文本顯示的屏幕文本框220。如果用戶說了“貝洛”,狗就出現(xiàn)在屏幕上?!皳Q到X頻道”引起貝洛在TV換到X頻道時(shí)肯定地叫兩次。此外,如果一條命令未被理解,貝洛開始看起來很困惑并發(fā)出聲音,這可以被解釋為“你什么意思?”。在沒有檢測(cè)到話音命令的8秒時(shí)長(zhǎng)后,貝洛慢慢地睡著,隨后它被從屏幕上去除。
圖3闡明了貝洛的四種基本形態(tài)。在圖3A中貝洛剛被叫喚,正在等待命令。在圖3B中一條命令已被識(shí)別出來并且貝洛正肯定地叫著。在圖3C中語音已被接收但沒有命令被識(shí)別出來,貝洛很不理解。在圖3D中用戶停止了交互,貝洛正被送走(“貝洛,下去”)。
圖4闡明了在時(shí)間跨度期滿時(shí)貝洛的最終形態(tài)。這種形態(tài)可以方便地與反應(yīng)其他系統(tǒng)元素的形態(tài)相結(jié)合。例如,從形態(tài)3A開始,如果未接收到輸入就會(huì)出現(xiàn)慢慢向形態(tài)4的轉(zhuǎn)變。相似的轉(zhuǎn)變可能出現(xiàn)在從3C到4中。
圖5表示了一種上部是語音識(shí)別子系統(tǒng)的狀態(tài)框圖,它包含可識(shí)別的用戶輸入和因之而呈現(xiàn)的狀態(tài)。這個(gè)子系統(tǒng)向交互引擎發(fā)送消息。引擎對(duì)消息的反應(yīng)被表示在圖的下半底部。圖5表示了話音控制的全部激活。通常需要話音控制系統(tǒng)總是處于活動(dòng)態(tài),監(jiān)聽命令。然而,典型的用于命令的單詞像“啟動(dòng)”、“停止”等在日常語言中出現(xiàn)十分頻繁。系統(tǒng)很不容易區(qū)別命令單詞的偶然使用和真正的命令。因此優(yōu)選地在一條話音控制命令之前加一條觸發(fā)命令,像系統(tǒng)名稱。如果這個(gè)名稱沒有太短以致與其他相似單詞相混淆也沒有普通到在日常語言中使用,那么就可以實(shí)現(xiàn)語音識(shí)別在確實(shí)需要時(shí)安全地觸發(fā)。后者的方法可以進(jìn)一步細(xì)化在命令發(fā)出后在某一超時(shí)周期內(nèi)保持語音識(shí)別處于活動(dòng)態(tài)等待進(jìn)一步的命令,或者將活動(dòng)態(tài)保持到用戶說出一條明確的“再見”命令。這意味著系統(tǒng)名稱僅在輸入整個(gè)系列命令時(shí)說一次。有利地是對(duì)這兩種終止話音控制活動(dòng)的方法進(jìn)行結(jié)合。在超時(shí)周期期滿時(shí)或者明確的終止命令被給出時(shí),識(shí)別會(huì)變成不活動(dòng)態(tài)。這在圖5A中表示出來。系統(tǒng)從初始空閑態(tài)510開始,響應(yīng)于在520步檢測(cè)到激活/選擇命令而轉(zhuǎn)換到監(jiān)聽狀態(tài)530。這還在525步用信號(hào)通知給交互引擎,它在527步向用戶提供(聽覺/或視覺)反饋。作為轉(zhuǎn)換到監(jiān)聽狀態(tài)530的響應(yīng),還有一個(gè)時(shí)間跨度定時(shí)器被啟動(dòng)。當(dāng)在540步檢測(cè)到此定時(shí)器期滿時(shí),系統(tǒng)轉(zhuǎn)換到空閑狀態(tài)570(通常與初始狀態(tài)510一樣)。如果系統(tǒng)如560步所示識(shí)別出一條明確的變?yōu)椴换顒?dòng)的命令時(shí),也會(huì)出現(xiàn)相同的轉(zhuǎn)換。在575步轉(zhuǎn)到空閑狀態(tài)也被用信號(hào)通知給交互引擎。作為響應(yīng),在578步引擎會(huì)提供反饋。圖5B解釋了用在圖5A中的符號(hào)。符號(hào)580表示系統(tǒng)狀態(tài)。符號(hào)582表示事件,像狀態(tài)改變、變量改變或用戶輸入。符號(hào)584表示判定分支。符號(hào)586表示系統(tǒng)動(dòng)作。符號(hào)588表示給交互引擎的消息。
圖6顯示一種系統(tǒng),其中單一事件引起動(dòng)畫被觸發(fā)。在所示例子中,在事件和動(dòng)畫之間存在著一對(duì)一關(guān)系。在例子中,使用了總共12種動(dòng)畫(位圖序列和各自的聲音文件)。文件名與系統(tǒng)狀態(tài)框圖標(biāo)號(hào)相一致。如果四秒以上未識(shí)別出任何東西,則該系統(tǒng)具有三個(gè)主要狀態(tài)空閑(610)、監(jiān)聽(620)和變?yōu)椴换顒?dòng)(630)。對(duì)于可能出現(xiàn)的各種事件都指明了啟動(dòng)哪個(gè)動(dòng)畫。在圖6所示的簡(jiǎn)單系統(tǒng)中,動(dòng)畫仍然只由一個(gè)系統(tǒng)元素確定。根據(jù)本發(fā)明,諸如動(dòng)畫的形態(tài)由一個(gè)以上的系統(tǒng)元素確定。在這樣一種系統(tǒng)中,可能刪除狀態(tài)630,并將這個(gè)狀態(tài)的“睡覺”行為結(jié)合到表示監(jiān)聽狀態(tài)620的各種形態(tài)中。
權(quán)利要求
1.一種讓用戶能與消費(fèi)電子系統(tǒng)進(jìn)行交互的方法,系統(tǒng)運(yùn)行情況用多個(gè)動(dòng)態(tài)改變的系統(tǒng)元素如系統(tǒng)狀態(tài)或者變量進(jìn)行模擬;該方法包括向用戶呈現(xiàn)多個(gè)系統(tǒng)元素,這是通過—根據(jù)多個(gè)系統(tǒng)元素的實(shí)際值,從一個(gè)對(duì)象的多種不同視覺/聽覺形態(tài)中選擇一種形態(tài);并且—向用戶呈現(xiàn)所選形態(tài)。
2.如在權(quán)利要求1中所要求的方法,其中該系統(tǒng)包括一個(gè)存儲(chǔ)該對(duì)象的不同視覺和/或聽覺形態(tài)集合的存儲(chǔ)器;而且其中選擇形態(tài)的步驟包括在集合中選擇一種形態(tài)并從存儲(chǔ)器中檢索出所選形態(tài)。
3.如在權(quán)利要求1中所要求的方法,其中該系統(tǒng)包括一個(gè)存儲(chǔ)該對(duì)象的基本視覺和/或聽覺形態(tài)的存儲(chǔ)器;而且其中選擇形態(tài)的步驟包括把基本形態(tài)或當(dāng)前所選形態(tài)修改成期望的形態(tài)。
4.如在權(quán)利要求3中所要求的方法,其中修改形態(tài)的步驟包括修改該對(duì)象的基本形態(tài)或者當(dāng)前所選形態(tài)的視覺形態(tài),如大小、形狀、亮度、顏色、不透明度或表情。
5.如在權(quán)利要求1中所要求的方法,其中對(duì)象包括一種擬人化角色。
6.如在權(quán)利要求1中所要求的方法,其中第一獨(dú)立系統(tǒng)元素專門對(duì)應(yīng)著對(duì)象的第一方面;該方法包括響應(yīng)第一系統(tǒng)元素的預(yù)定改變而選擇對(duì)象的一種視覺和/或聽覺形態(tài),它僅在第一方面和當(dāng)前所選的形態(tài)不同。
7.如在權(quán)利要求6中所要求的方法,其中對(duì)象的第一方面是該對(duì)象的視覺子元素的視覺形態(tài),如大小、形狀、亮度、顏色、不透明度或表情。
8.如在權(quán)利要求6中所要求的方法,其中對(duì)象的第一方面是該對(duì)象聽覺元素的聲音/話音屬性,如音量或韻律。
9.如在權(quán)利要求1中定義的方法,其中該方法包括對(duì)該對(duì)象的所選形態(tài)進(jìn)行動(dòng)畫化。
10.如在權(quán)利要求9中定義的方法,其中至少一個(gè)系統(tǒng)元素是動(dòng)態(tài)改變的變量;該方法包括把動(dòng)畫和變量的改變進(jìn)行同步。
11.如在權(quán)利要求1中所要求的方法,其中該系統(tǒng)包括一個(gè)語音識(shí)別器,而且至少其中一個(gè)系統(tǒng)狀態(tài)是此識(shí)別器的狀態(tài)。
12.如在權(quán)利要求9中所要求的方法,其中該系統(tǒng)包括一個(gè)話音控制單元,而且至少其中一個(gè)系統(tǒng)狀態(tài)是此話音控制單元的狀態(tài)。
13.一種消費(fèi)電子系統(tǒng),該系統(tǒng)的運(yùn)行情況用多個(gè)動(dòng)態(tài)改變的系統(tǒng)元素如系統(tǒng)狀態(tài)或變量進(jìn)行模擬;該系統(tǒng)包括用于根據(jù)多個(gè)系統(tǒng)元素的實(shí)際值從一個(gè)對(duì)象的多個(gè)不同視覺和/或聽覺形態(tài)中選擇一種形態(tài)的裝置;以及用于通過向用戶呈現(xiàn)所選形態(tài)來向用戶呈現(xiàn)多個(gè)系統(tǒng)元素的裝置。
14.如在權(quán)利要求13中所要求的消費(fèi)電子設(shè)備,其中該系統(tǒng)包括一個(gè)用于存儲(chǔ)該對(duì)象的不同視覺和/或聽覺形態(tài)集合的存儲(chǔ)器;而且其中選擇形態(tài)的裝置可作用以從集合中選擇一種形態(tài)并從存儲(chǔ)器中檢索出所選形態(tài)。
15.如在權(quán)利要求13中所要求的消費(fèi)電子設(shè)備,其中該系統(tǒng)包括一個(gè)用于存儲(chǔ)該對(duì)象的基本視覺和/或聽覺形態(tài)的存儲(chǔ)器;而且其中選擇形態(tài)的裝置包括把基本形態(tài)修改成期望形態(tài)的裝置。
全文摘要
消費(fèi)電子系統(tǒng)的運(yùn)行情況用多個(gè)動(dòng)態(tài)改變的系統(tǒng)元素如系統(tǒng)狀態(tài)或變量進(jìn)行模擬。優(yōu)選地系統(tǒng)是話音控制的。此方法不是單獨(dú)地向用戶呈現(xiàn)所有系統(tǒng)元素,像時(shí)間跨度以及命令是否已被識(shí)別,而是選擇一種表示多個(gè)系統(tǒng)元素實(shí)際值的形態(tài)。此形態(tài)從一個(gè)對(duì)象的多種不同視覺和/或聽覺形態(tài)中被選擇出來。優(yōu)選地該對(duì)象是一種擬人化角色。所選的形態(tài)會(huì)被呈現(xiàn)給用戶。
文檔編號(hào)G06F3/0481GK1372660SQ01801210
公開日2002年10月2日 申請(qǐng)日期2001年3月2日 優(yōu)先權(quán)日2000年3月9日
發(fā)明者E·M·A·迪德里克斯, B·M·范德斯盧伊斯 申請(qǐng)人:皇家菲利浦電子有限公司