專利名稱:用于電子設(shè)備的對話控制的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種包括用于采集和識別語音信號的構(gòu)件的裝置,和一種由用戶與電子設(shè)備進行通信的方法。
我們知道通過語音識別構(gòu)件能夠?qū)⑺杉降穆晫W(xué)語音信號分配給相應(yīng)的字詞或相應(yīng)的字詞串。語音識別系統(tǒng)通常用作與語音合成結(jié)合在一起的對話系統(tǒng)來控制電子設(shè)備。與用戶的對話可以用作操縱電子設(shè)備的單獨交互方式。還可以使用語音輸入和可能同時存在的輸出作為多種通信手段之一。
背景技術(shù):
US-A-6118888公開了一種控制電子設(shè)備(例如,計算機)或用于娛樂表演電子產(chǎn)品方面的設(shè)備的控制裝置和方法。為了控制這些設(shè)備,用戶可以利用多種輸入工具。這些輸入工具是諸如鍵盤或鼠標(biāo)之類的機械輸入工具以及語音識別裝置。而且,該控制裝置包括一個相機,通過這個相機,可以采集到用戶的姿態(tài)和擬態(tài),并且將它們作為附加的輸入信號進行處理。與用戶進行的通信是以對話的形式實現(xiàn)的,其中該系統(tǒng)具有用于向用戶傳遞信息的多種模式。包括語音合成和語音輸出。尤其是,還包括擬人形象,例如,人、人臉或動物形象。這種形象是以顯示屏幕上的計算機圖形的形式表現(xiàn)給用戶的。
雖然現(xiàn)在對話系統(tǒng)已經(jīng)在專用應(yīng)用系統(tǒng)中得到了應(yīng)用,例如,在電話信息系統(tǒng)中得到了應(yīng)用,但是它們在其它領(lǐng)域中,例如在家庭范圍內(nèi)使用的、娛樂表演用的電子產(chǎn)品中的控制電子設(shè)備中的認(rèn)可仍然是微乎其微的。
發(fā)明內(nèi)容
本發(fā)明的一個目的是,提供一種包括用于識別語音信號的采集構(gòu)件的裝置,和一種操縱電子設(shè)備的方法,這種方法使得用戶能夠借助語音控制很容易地操縱所述裝置。
這一目的是借助權(quán)利要求1中限定的裝置和權(quán)利要求11中限定的方法得以解決的。從屬權(quán)利要求限定了本發(fā)明的優(yōu)選實施方式。
按照本發(fā)明的裝置包括一個可機械運動的擬人化元件。該元件是用作用戶的對話伙伴化身的裝置的一部分。這一擬人化元件的具體實施方式
可以是各式各樣的。例如,它可以是外殼的一部分,可以借助電機相對于電子裝置的固定外殼進行運動?;镜囊稽c是,該擬人化元件具有一個前側(cè),該前側(cè)本身可由用戶識別。如果這一前側(cè)面對用戶,他會有這樣的印象該裝置正在“留心聽”,即,它能夠接收語音命令。
按照本發(fā)明,所述裝置包括用于確定用戶位置的構(gòu)件。這可以,例如,通過聲學(xué)或光學(xué)傳感器來實現(xiàn)。用于擬人化元件的運動構(gòu)件是以這樣一種方式受到控制的使得擬人化元件的前側(cè)指向用戶的位置。這給用戶這樣一個持續(xù)的印象該裝置隨時準(zhǔn)備好“聽”他說。
按照本發(fā)明的另一種實施方式,所述擬人化元件包括一個擬人形象。這可以是人或動物的形象,不過也可以是幻想圖的形象,例如,機器人。人臉的形象是較佳的。它可以是逼真的或僅僅是象征性的形象,在后者中,例如,僅僅表現(xiàn)出諸如眼睛、鼻子和嘴之類的圓圈。
該裝置最好還包括用于提供語音信號的構(gòu)件。事實情況是,語音合成對于電子設(shè)備的控制尤其是重要的。不過,回答、確認(rèn)、詢問等可以是使用語音輸出構(gòu)件來實現(xiàn)的。它們可以包括預(yù)先保存好的語音信號的再現(xiàn)以及實時語音合成。完整的對話控制可以通過語音輸出構(gòu)件來實現(xiàn)。還可以以娛樂用戶為目的與他進行對話。
按照本發(fā)明的另一個方面,所述裝置包括多個麥克風(fēng)和/或至少一個相機。已經(jīng)采用單一的麥克風(fēng)實現(xiàn)了語音信號的采集。不過,一方面,當(dāng)使用多個麥克風(fēng)時,可以獲得采集圖案。另一方面,借助通過多個麥克風(fēng)從用戶接收語音信號,可以找到用戶的位置。使用相機可以觀測裝置的周圍環(huán)境。通過相應(yīng)的圖像處理,從所采集到的圖像中也可以確定用戶的位置。麥克風(fēng)、相機和/或用于提供語音信號的揚聲器可以安裝在可以機械方式運動的擬人化元件上。例如,對于具有人頭形式的擬人化元件而言,可以在人眼的位置內(nèi)安裝兩個相機,在嘴的位置上安裝一個揚聲器和在耳朵附近安裝兩個麥克風(fēng)。
最好設(shè)置用于確認(rèn)用戶的構(gòu)件。這可以,例如,通過評定所采集到的圖像信號(視覺,或面貌識別)或通過評定所采集到的聲學(xué)信號(語音識別)來實現(xiàn)。從而該裝置能夠從該裝置周圍的多個人中確認(rèn)出當(dāng)前的用戶并且將擬人化元件指向該用戶。
實現(xiàn)用于機械移動擬人化元件的運動構(gòu)件的可行方案有很多。例如,這些構(gòu)件可以是電動機或液壓調(diào)節(jié)構(gòu)件。擬人化元件可以由這種運動構(gòu)件移動。不過,較佳的方式是擬人化元件僅僅可相對于固定部件旋轉(zhuǎn)。例如,在這種情況下,圍繞水平或垂直軸旋轉(zhuǎn)運動都是可行的。
按照本發(fā)明的裝置可以構(gòu)成諸如用于電子娛樂的設(shè)備(例如,電視機、音頻和/或視頻播放裝置)這樣的電子設(shè)備的一部分。在這種情況下,該裝置代表所述設(shè)備的用戶接口。而且,所述設(shè)備還可以包括其它的操縱構(gòu)件(鍵盤,等)。另外,按照本發(fā)明的裝置可以是用作用于控制一個或多個分立的電子設(shè)備的控制裝置的獨立設(shè)備。在這種情況下,所要控制的裝置具有一個電子控制端子(例如,無線端子或適當(dāng)?shù)目刂瓶偩€),通過該控制端子,所述裝置依據(jù)從用戶接收到的語音命令控制所述設(shè)備。
按照本發(fā)明的裝置尤其可作為用于數(shù)據(jù)存儲和/或提問的系統(tǒng)的用戶接口使用。為了這一目的,該裝置包括內(nèi)部數(shù)據(jù)存儲器,或者該裝置,例如,通過計算機網(wǎng)絡(luò)或因特網(wǎng)與外部數(shù)據(jù)存儲器相連接。以對話的方式,用戶可以保存數(shù)據(jù)(例如,電話號碼、備忘錄等等)或者查詢數(shù)據(jù)(例如,時間、新聞、當(dāng)前電視節(jié)目等等)。
而且,與用戶進行的對話還可以用于調(diào)整裝置本身的參數(shù)和改變它們的配置。
當(dāng)設(shè)置有用于提供聲學(xué)信號的揚聲器和用于采集這些信號的麥克風(fēng)時,可以進行與干擾抑制有關(guān)的信號處理,即,以這樣的方式對所采集到的聲學(xué)信號進行處理對來自揚聲器的聲學(xué)信號的部分進行抑制。當(dāng)揚聲器和麥克風(fēng),例如,在擬人化元件上安裝得在空間上非常接近時,這是非常有益的。
除了上述的所述裝置用于控制電子設(shè)備的應(yīng)用之外,它還可用于實施與用戶進行的對話,來實現(xiàn)其它的目的,比如,為用戶提供信息、娛樂或指導(dǎo)。按照本發(fā)明的另一種實施方式,設(shè)置了對話構(gòu)件,通過這一對話構(gòu)件,可以實施用于指導(dǎo)用戶的對話。最好是以這樣的方式實施所述對話的向用戶給出指令并且采集他的回答。所述指令可以是復(fù)雜的問題,不過最好是詢問與較短的學(xué)習(xí)對象有關(guān)的問題,比如,外語的詞匯表,其中指令(例如詞的定義)和回答(例如外語單詞)都相對較短。這一對話由用戶與擬人化元件實現(xiàn),并且可以通過可視方式和/或音頻來實現(xiàn)。
提出了一種行之有效的學(xué)習(xí)方法,其中存儲了一組學(xué)習(xí)對象(例如,外語詞匯表),其中,對于每個學(xué)習(xí)對象,存儲了至少一個問題(例如,詞義),和一個答案(例如,詞匯表)和從向用戶提出最近一個問題開始或用戶給出問題的正確答案的時間周期的限度。在對話期間,一個接一個地選擇學(xué)習(xí)對象并且提問,其中向用戶提問問題并且將用戶的回答與所保存的答案進行比較。所要提問問題的學(xué)習(xí)對象的選取考慮了所保存的限度,即,從關(guān)于該對象的最近一個問題開始所經(jīng)過的時間。這可以,例如,通過具有假設(shè)或預(yù)定的誤差率的適當(dāng)?shù)膶W(xué)習(xí)模型來實現(xiàn)。此外,除了時間限度之外,還可以通過考慮了所述選取的實用性程度來評價每個學(xué)習(xí)對象。
從下文中將要介紹的實施方式中,本發(fā)明的這些和其它的方面將會變得顯而易見,并且將會參照下文中介紹的實施方式對本發(fā)明的這些和其它方面進行解釋說明。
在附圖中附圖1是控制裝置的各組成部分的框圖;附圖2是包括控制裝置的電子設(shè)備的立體圖。
具體實施例方式
附圖1是控制裝置10和由這一裝置控制的設(shè)備12的框圖??刂蒲b置10具有用于用戶的擬人化元件14的形式。在擬人化元件14上設(shè)置有麥克風(fēng)16、揚聲器18和用于用戶定位的定位傳感器(這里是相機20的形式)。這些元件共同構(gòu)成了一個機械單元22。擬人化元件14在電機24的作用下圍繞著一個垂直軸旋轉(zhuǎn),并且從而整個機械單元22圍繞著該垂直軸旋轉(zhuǎn)。中央控制單元26通過驅(qū)動電路28對電機24進行控制。擬人化元件24是一個獨立的機械單元。它具有一個前側(cè)面,該前側(cè)面本身可由用戶識別出來。麥克風(fēng)16、揚聲器18和相機20是沿著這一前側(cè)面方向安裝在所述擬人化元件14上的。
麥克風(fēng)16提供聲學(xué)信號。這一信號是由采集系統(tǒng)30采集到的,并且由語音識別單元32進行處理。語音識別結(jié)果,即,賦予所采集到的聲學(xué)信號的字串將會傳遞給中央控制單元26。
中央控制單元26還對語音合成單元34進行控制,該語音合成單元34通過發(fā)聲單元36和揚聲器18提供合成語音信號。
由相機20采集到的圖像由圖像處理單元38處理。圖像處理單元38從相機20提供的圖像信號中確定用戶的位置。該位置信息將會傳遞給中央控制單元26。
機械單元22起到了用戶接口的作用,中央控制單元26通過該機械單元22接收來自用戶的輸入信號(麥克風(fēng)16、語音識別單元32),并且向用戶傳達報告(語音合成單元34、揚聲器18)。在這種情況下,控制單元10用于控制電子設(shè)備12,例如,用在娛樂表演電子產(chǎn)品領(lǐng)域的設(shè)備。
在附圖1中僅僅象征性地表示出了控制裝置10的功能單元。不同的單元,例如,中央控制單元26、語音識別單元32、圖像處理單元38可以表示為具體變化中的獨立的組。同樣,單純使用軟件來實現(xiàn)這些單元也是切實可行的,其中多個或所有這些單元的功能的通過中央單元上運行的程序來實現(xiàn)的。
既不要求這些單元在空間上彼此接近,也不要求這些單元必須與機械單元22在空間上接近。機械單元22,即,擬人化元件14以及麥克風(fēng)16、揚聲器18和傳感器20的單元(這些單元最好但并非必須設(shè)置在元件14上)可以與控制裝置10的其余部分分離地設(shè)置,而只要通過有線或無線連接方式在它們之間進行信號連接就可以了。
在工作過程中,控制裝置10不斷地探查是否有用戶處于其附近。確定用戶的位置。中央控制單元26以這樣的方式控制電機24使得擬人化元件10的前側(cè)對著用戶。
圖像處理單元38還包括面貌識別。當(dāng)相機20提供多人的圖像時,借助面貌識別確定哪個人是系統(tǒng)知道的用戶。擬人化元件14會對向這個用戶。當(dāng)設(shè)置有多個麥克風(fēng)時,可以以這樣的方式來處理來自這些麥克風(fēng)的信號獲取用戶的已知位置方向上的采集樣本。
圖像處理單元38另外也可以以這種方式實現(xiàn)它“了解”機械單元22附近的場景,這一場景是由相機20采集到的。然后可以將相應(yīng)的場景歸類為多個預(yù)先定義的狀態(tài)。例如,按照這種方式,中央控制單元26會知道房間中有一個還是有多個人。該單元還可以識別和歸類用戶的行為,即,例如,用戶是否正在向機械單元22的方向看,或者他是否正在跟另一個人說話。通過鑒定這樣識別到的狀態(tài),可以明顯地提高識別能力。例如,可以避免將兩人之間的談話部分錯誤地理解為語音命令。
在與用戶的對話中,中央控制單元確定輸入并且據(jù)此對設(shè)備12進行控制。例如,按照如下方式,可以進行用于控制音頻再現(xiàn)設(shè)備12的音量的對話-用戶改變他的位置并且面對著擬人化元件14。電機24以這樣一種方式不斷地引導(dǎo)擬人化元件14使其前側(cè)面對著用戶。為了實現(xiàn)這個目的,設(shè)備10的中央控制單元26依據(jù)所確定的用戶的位置對驅(qū)動電路28進行控制;-用戶給出語音命令,例如,“電視音量”。麥克風(fēng)16采集到這一語音命令并且由語音識別單元32對這一語音命令進行識別;-中央控制單元26做出這樣的反應(yīng)通過語音合成單元34從揚聲器18發(fā)出問題“升高還是降低?”;-用戶給出語音命令“降低”。在識別到了這一語音信號之后,中央控制單元26以使音量降低的方式對設(shè)備12進行控制。
附圖2是具有集成控制裝置的電子設(shè)備40的立體圖。在這一附圖中,只能看到控制裝置10的擬人化元件14,這個元件可以相對于設(shè)備40的固定外殼42關(guān)于垂直軸旋轉(zhuǎn)。在這個例子中,擬人化元件具有扁平的矩形形狀。相機20的鏡頭以及揚聲器18位于前側(cè)44上。兩個麥克風(fēng)16設(shè)置在兩側(cè)。機械單元22是借助一個電機(未示出)以這樣一種方式旋轉(zhuǎn)的其前側(cè)總是指向用戶的方向。
按照一種實施方式(未示出),附圖1中的裝置10不用于控制設(shè)備12,而是用于實施與指導(dǎo)用戶的對象進行的對話。中央控制單元26執(zhí)行一個學(xué)習(xí)程序,用戶可以通過這個程序?qū)W習(xí)外語。一組學(xué)習(xí)對象保存在存儲器中。這些學(xué)習(xí)對象是獨立的數(shù)據(jù)組,每個數(shù)據(jù)組表示詞的定義、外語中相應(yīng)的詞、該詞實用性(該詞在這種語言中出現(xiàn)的頻率)的評估尺度和數(shù)據(jù)記錄中從最近的一個問題開始所經(jīng)過的時間段的時間限度。
現(xiàn)在以一個接一個地選取數(shù)據(jù)記錄并提問的形式運行該對話方式的學(xué)習(xí)單元。在這種情況下,向用戶給出一個指令,即,以可視的方式顯示或者以可以聽到的方式提供數(shù)據(jù)記錄中保存的詞義。對用戶的回答進行采集并且將其與保存好的答案(詞匯表)保存在一起,其中,用戶的回答,例如,是借助鍵盤輸入的,并且最好是通過麥克風(fēng)16和自動語音識別32采集的。然后告知用戶答案是否是正確的。在回答錯誤的情況下,可以告知用戶正確的答案,或者也可以再給用戶一次或多次機會給出其它的回答。在按照這種方式處理了數(shù)據(jù)記錄之后,對所存儲的從最近一個問題開始的持續(xù)時間的限度進行更新,即,設(shè)置為零。
隨后,選擇并提問另一個數(shù)據(jù)記錄等等。
要進行提問的數(shù)據(jù)記錄的選取是借助一個記憶模型來實現(xiàn)的。下列公式表示一種簡單的記憶模型P(k)=exp(-t(k)*r(c(k))),其中P(k)表示學(xué)習(xí)對象k已知的概率,exp表示指數(shù)函數(shù),t(k)表示從該對象最近一次提問以來的時間,c(k)表示對象的學(xué)習(xí)等級,而r(c(k))是特定學(xué)習(xí)等級的錯誤率。時間可用t表示。時間t也可以以學(xué)習(xí)步驟的方式給出。學(xué)習(xí)等級可以以不同的方式定義。一種可行的模式是將相關(guān)的等級分配給正確回答了N次的所有對象的每個N>0。對于錯誤率而言,可以假定一個適當(dāng)?shù)墓潭ㄖ?,或者可以選擇適當(dāng)?shù)钠鹗贾担?,例如,借助梯度算法對起始值進行調(diào)整。
指導(dǎo)的目的是最大化知識的范圍。這一知識范圍定義為組中用戶知道的學(xué)習(xí)對象部分,并且由實用性程度進行加權(quán)。由于關(guān)于對象k的問題使得概率P(k)為一,為了實現(xiàn)優(yōu)化知識范圍的目的,在每個步驟中,對具有最低知道概率P(k)的對象(可能由實用性程度U(k)進行了加權(quán),U(k)*1-P(k))進行提問。借助這種模型,在每個步驟之后,可以計算出知識程度并且顯示給用戶??梢詫@種方法進行優(yōu)化,以便為用戶提供當(dāng)前組中學(xué)習(xí)對象的盡可能寬范圍的知識。通過使用好的記憶模型,通過這種方法實現(xiàn)了有效的學(xué)習(xí)策略。
對上述詢問對話進行多種修改和進一步的改進是可行的。例如,一個問題(詞義)可以具有多個正確的答案(詞匯)。這可以,例如,通過使用所存儲的實用性程度來進行考慮,從而強調(diào)更具實用性(更加常用)的單詞。學(xué)習(xí)對象的實用組可以包括,例如,幾千個單詞。這些可以是,例如,按照文學(xué)、商業(yè)、技術(shù)等領(lǐng)域提供給出用戶的,例如,學(xué)習(xí)對象,即,專業(yè)詞匯。
總地來說,本發(fā)明涉及一種包括用于采集和識別語音信號的構(gòu)件的裝置,和與電子設(shè)備進行通信的方法。所述裝置包括一個可以以機械方式運動的擬人化單元。確定用戶的位置,并且所述擬人化元件(可以包括,例如,人臉的形象)可以以使其前側(cè)指向用戶位置的方向的方式運動。可以在擬人化元件上安裝麥克風(fēng)、揚聲器和/或相機。用戶可以實施與所述裝置的語音對話,其中以擬人化元件的形式代表所述設(shè)備。電子設(shè)備可以依據(jù)用戶的語音輸入進行控制。還可以進行用戶與擬人化元件之間以指導(dǎo)用戶為目的的對話。
權(quán)利要求
1.一種裝置,包括-用于采集和識別語音信號的構(gòu)件(30,32);和-一個具有前側(cè)(44)的擬人化元件(14),和用于使所述擬人化元件(14)機械運動的運動構(gòu)件(24),其中-設(shè)置了用于確定用戶位置的構(gòu)件(38);和-所述運動構(gòu)件(24)是以這樣一種方式進行控制的所述擬人化元件(14)的前側(cè)(44)指向所述用戶位置的方向。
2.按照權(quán)利要求1所述的裝置,其中設(shè)置了用于提供語音信號的構(gòu)件(34,36,18)。
3.按照前述任何一項權(quán)利要求所述的裝置,其中所述擬人化元件(14)包括擬人的形象,尤其是人臉的形象。
4.按照前述任何一項權(quán)利要求所述的裝置,其中-設(shè)置了多個麥克風(fēng)(16)和/或至少一個相機(20);-所述麥克風(fēng)(16)和/或相機(20)最好安裝在所述擬人化元件(14)上。
5.按照前述任何一項權(quán)利要求所述的裝置,其中設(shè)置了用于識別至少一個用戶的構(gòu)件。
6.按照前述任何一項權(quán)利要求所述的裝置,其中所述運動構(gòu)件(24)提供了所述擬人化元件(14)圍繞至少一個軸旋轉(zhuǎn)的可能性。
7.按照前述任何一項權(quán)利要求所述的裝置,其中設(shè)置了至少一個外部電子設(shè)備(12),該設(shè)備由語音信號控制。
8.按照前述任何一項權(quán)利要求所述的裝置,其中-設(shè)置了至少一個揚聲器(18),用于提供聲學(xué)信號;和-設(shè)置了至少一個麥克風(fēng)(16)用于采集聲學(xué)信號;和其中-設(shè)置了一個用于處理所采集到的聲學(xué)信號的信號處理單元(30),其中源自由所述揚聲器(18)發(fā)出的聲學(xué)信號的信號部分受到了抑制。
9.按照前述任何一項權(quán)利要求所述的裝置,其中設(shè)置了用于實施以指導(dǎo)用戶為目的的對話的構(gòu)件,這一對話以視覺方式和/或借助音頻向用戶給出指示,并且借助鍵盤和/或麥克風(fēng)采集用戶的回答。
10.按照權(quán)利要求9所述的裝置,其中所述對話構(gòu)件包括用于一組學(xué)習(xí)對象的存儲構(gòu)件,其中-對于每個學(xué)習(xí)對象,存儲了至少一個指示、一個答案和從所述指示由用戶加以處理開始的持續(xù)時間的限度;和-所述對話構(gòu)件是以這樣一種方式構(gòu)成的可以選取學(xué)習(xí)對象,并且通過向用戶給出指示并且對用戶的回答與所保存的答案進行比較來進行提問;并且,其中-在選擇學(xué)習(xí)對象過程中,考慮了所保存的限度。
11.一種用戶與電子設(shè)備(12)之間的通信方法,其中-確定用戶的位置;-以這樣一種方式使一個擬人化元件(14)運動所述擬人化元件(14)的前側(cè)(44)指向所述用戶的方向;和-采集來自用戶的語音信號并且對其進行處理。
12.按照權(quán)利要求11所述的方法,其中所述電子設(shè)備(12)是依據(jù)所采集到的語音信號進行控制的。
全文摘要
提出了一種包括用于采集和識別語音信號的構(gòu)件的裝置和一種控制電子設(shè)備的方法。所述裝置包括一個能夠機械運動的擬人化元件(14)。確定用戶的位置,并且所述擬人化元件(14)(可以包括,例如,人臉的形象)可以以使其前側(cè)(44)指向用戶位置的方向的方式運動??梢栽跀M人化元件(14)上安裝麥克風(fēng)(16)、揚聲器(18)和/或相機(20)。用戶可以實施與所述裝置的語音對話,其中以擬人化元件(14)的形式代表所述設(shè)備。電子設(shè)備可以依據(jù)用戶的語音輸入進行控制。還可以進行用戶與擬人化元件之間以指導(dǎo)用戶為目的對話。
文檔編號G10L17/22GK1653410SQ03810813
公開日2005年8月10日 申請日期2003年5月9日 優(yōu)先權(quán)日2002年5月14日
發(fā)明者M·奧爾德 申請人:皇家飛利浦電子股份有限公司