專利名稱:一種使用語(yǔ)音命令的互動(dòng)方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
一種使用語(yǔ)音命令的互動(dòng)方法及其系統(tǒng),尤其是一種利用辨識(shí)語(yǔ)音命令來(lái)控制呈現(xiàn)相對(duì)應(yīng)的互動(dòng)數(shù)據(jù),使顯示的圖像產(chǎn)生與人互動(dòng)的效果的方法及系統(tǒng)。
背景技術(shù):
聲音辨識(shí)的對(duì)象包括人類發(fā)出的語(yǔ)音、樂(lè)器發(fā)出的音樂(lè)、機(jī)器發(fā)出的噪音、動(dòng)物的叫聲、聲納、大自然的聲音等。簡(jiǎn)單的說(shuō),聲音辨識(shí)就是以機(jī)器進(jìn)行人類耳朵的聽(tīng)覺(jué)功能,進(jìn)而使機(jī)器執(zhí)行相對(duì)應(yīng)的工作,來(lái)達(dá)到自動(dòng)化的效果。
計(jì)算機(jī)借助模擬到數(shù)字的轉(zhuǎn)換裝置將語(yǔ)音取樣的數(shù)據(jù)數(shù)字化成為數(shù)值數(shù)據(jù)之后,會(huì)將輸入的聲音樣本與預(yù)錄的聲音樣本進(jìn)行比對(duì)工作,比對(duì)完成后計(jì)算機(jī)會(huì)輸出一個(gè)它認(rèn)為最像的聲音樣本序號(hào),于是就可以知道輸入的語(yǔ)音要它做什么樣的工作。
但是,要知道即使同一個(gè)人在同一環(huán)境使用同樣的麥克風(fēng)連續(xù)發(fā)出兩次同樣的語(yǔ)音,語(yǔ)音取樣數(shù)據(jù)也不可能完全相同,所以如何把語(yǔ)音在異中求同,這就是聲音辨識(shí)技術(shù)的問(wèn)題所在。也因此,在辨識(shí)人類發(fā)出的語(yǔ)音方面,根據(jù)詞匯聲音樣本數(shù)量分為小字匯(<100詞)、中字匯(100-1000詞)、大字匯1001-10000詞)、極大字匯(>10000詞)幾類,各類有著不同復(fù)雜度的辨識(shí)技術(shù),以盡量提高詞匯數(shù)多的類別的辨識(shí)率。
雖然在數(shù)年前就已經(jīng)有人提出未來(lái)語(yǔ)音輸入將是主要的輸入方式,甚至連不少大型軟件商也都看好這個(gè)有著璀璨未來(lái)和龐大商機(jī)的市場(chǎng),但是,由于上述所提到的語(yǔ)音辨識(shí)的困難度,因此語(yǔ)音辨識(shí)技術(shù)一直無(wú)法有效的提高輸入的語(yǔ)音的辨識(shí)率,是故語(yǔ)音輸入一直沒(méi)有象預(yù)期的那樣使用在各軟件上。
雖然如此,在消費(fèi)性電子產(chǎn)品方面,隨著功能上的進(jìn)步,輸入方式發(fā)生了顯著的改變,從傳統(tǒng)的按鍵輸入進(jìn)步到觸控式屏幕的輸入,甚至到現(xiàn)在的手寫(xiě)輸入以及語(yǔ)音輸入,而目前在消費(fèi)性電子產(chǎn)品上語(yǔ)音輸入使用的語(yǔ)音辨識(shí)技術(shù),大多是語(yǔ)音指令&控制(Voice Command/Control)的部份,其使用的是中或小字匯的辨識(shí)技術(shù)。因此,它實(shí)際上可以辨識(shí)的詞匯并不多,所以由就目前的使用情況來(lái)看,不具有親和力,因此使用者對(duì)于目前的語(yǔ)音辨識(shí)技術(shù)的接受度不高。
發(fā)明內(nèi)容
本發(fā)明為解決背景技術(shù)中存在的上述技術(shù)問(wèn)題,而提供一種利用辨識(shí)語(yǔ)音命令的結(jié)果來(lái)控制呈現(xiàn)該語(yǔ)音命令所對(duì)應(yīng)的聲音或動(dòng)畫(huà),使得顯示的圖像和聲音與人產(chǎn)生互動(dòng)的方法及系統(tǒng)。
本發(fā)明的技術(shù)解決方案是本發(fā)明為一種使用語(yǔ)音命令的互動(dòng)方法,其特殊之處在于該方法包括以下步驟1)建立存儲(chǔ)有互動(dòng)數(shù)據(jù),以及互動(dòng)數(shù)據(jù)和辨識(shí)數(shù)據(jù)對(duì)應(yīng)關(guān)系的互動(dòng)數(shù)據(jù)庫(kù);2)接收語(yǔ)音命令;3)辯識(shí)該語(yǔ)音命令,辨識(shí)后產(chǎn)生對(duì)應(yīng)于該語(yǔ)音命令的辨識(shí)數(shù)據(jù);4)根據(jù)該辨識(shí)數(shù)據(jù),從互動(dòng)數(shù)據(jù)庫(kù)中讀出對(duì)應(yīng)于該辨識(shí)數(shù)據(jù)的互動(dòng)數(shù)據(jù);5)呈現(xiàn)互動(dòng)數(shù)據(jù)。
上述互動(dòng)數(shù)據(jù)庫(kù)可下載新的互動(dòng)數(shù)據(jù),并存入該互動(dòng)數(shù)據(jù)庫(kù)中。
上述互動(dòng)數(shù)據(jù)包括動(dòng)畫(huà)數(shù)據(jù)、聲音數(shù)據(jù)或動(dòng)畫(huà)數(shù)據(jù)和聲音數(shù)據(jù)的合成數(shù)據(jù)。
上述辨識(shí)數(shù)據(jù)還可為事件數(shù)據(jù),當(dāng)偵測(cè)到有事件發(fā)生時(shí)產(chǎn)生該事件數(shù)據(jù),其中該事件可以為開(kāi)機(jī)、進(jìn)入屏幕保護(hù)模式、顯示提示信息或關(guān)機(jī)。
一種應(yīng)用上述使用語(yǔ)音命令的互動(dòng)方法的互動(dòng)系統(tǒng),其特殊之處在于該系統(tǒng)包括用來(lái)接收語(yǔ)音命令的語(yǔ)音接收模塊;用來(lái)辨識(shí)該語(yǔ)音命令,在辨識(shí)后產(chǎn)生對(duì)應(yīng)于該語(yǔ)音命令的辨識(shí)數(shù)據(jù)的語(yǔ)音辨識(shí)模塊;用來(lái)儲(chǔ)存互動(dòng)數(shù)據(jù)的互動(dòng)數(shù)據(jù)庫(kù)模塊;以及根據(jù)辨識(shí)數(shù)據(jù)由互動(dòng)數(shù)據(jù)庫(kù)模塊中讀出互動(dòng)數(shù)據(jù),并呈現(xiàn)該互動(dòng)數(shù)據(jù)的互動(dòng)模塊,語(yǔ)音接收模塊接入語(yǔ)音辨識(shí)模塊,語(yǔ)音辨識(shí)模塊和互動(dòng)數(shù)據(jù)庫(kù)模塊分別和互動(dòng)模塊相接。
上述系統(tǒng)還包括用來(lái)下載互動(dòng)數(shù)據(jù)的下載模塊,下載模塊接入互動(dòng)數(shù)據(jù)庫(kù)模塊。
通過(guò)本發(fā)明的方法,在使用者利用語(yǔ)音命令進(jìn)行輸入之后,會(huì)響應(yīng)該語(yǔ)音命令所對(duì)應(yīng)的畫(huà)面或聲音給使用者,造成與使用者互動(dòng)的效果,如此一來(lái),將可以讓語(yǔ)音輸入的環(huán)境具有更大的親和力,進(jìn)而提高語(yǔ)音輸入的可接受度。
圖1為本發(fā)明的互動(dòng)系統(tǒng)的系統(tǒng)框圖。
具體實(shí)施例方式
本發(fā)明的具體實(shí)現(xiàn)方法如下1)建立存儲(chǔ)有互動(dòng)數(shù)據(jù),以及互動(dòng)數(shù)據(jù)和辨識(shí)數(shù)據(jù)對(duì)應(yīng)關(guān)系的互動(dòng)數(shù)據(jù)庫(kù);2)接收語(yǔ)音命令;3)辯識(shí)該語(yǔ)音命令,辨識(shí)后產(chǎn)生對(duì)應(yīng)于該語(yǔ)音命令的辨識(shí)數(shù)據(jù);4)根據(jù)該辨識(shí)數(shù)據(jù),從互動(dòng)數(shù)據(jù)庫(kù)中讀出對(duì)應(yīng)于該辨識(shí)數(shù)據(jù)的互動(dòng)數(shù)據(jù);5)呈現(xiàn)互動(dòng)數(shù)據(jù)。
其中互動(dòng)數(shù)據(jù)庫(kù)可下載新的互動(dòng)數(shù)據(jù),并存入該互動(dòng)數(shù)據(jù)庫(kù)中。互動(dòng)數(shù)據(jù)包括動(dòng)畫(huà)數(shù)據(jù)、聲音數(shù)據(jù)或動(dòng)畫(huà)數(shù)據(jù)和聲音數(shù)據(jù)的合成數(shù)據(jù)。
辨識(shí)數(shù)據(jù)還可為事件數(shù)據(jù),當(dāng)偵測(cè)到有事件發(fā)生時(shí)產(chǎn)生該事件數(shù)據(jù),其中該事件可以為開(kāi)機(jī)、進(jìn)入屏幕保護(hù)模式、顯示提示信息或關(guān)機(jī)。
參見(jiàn)圖1,本發(fā)明的系統(tǒng)包括語(yǔ)音接收模塊110、語(yǔ)音辨識(shí)模塊120、互動(dòng)模塊140、互動(dòng)數(shù)據(jù)庫(kù)模塊150和下載模塊160。其中語(yǔ)音接收模塊110負(fù)責(zé)接收語(yǔ)音命令,并將接收到的語(yǔ)音命令送往語(yǔ)音辨識(shí)模塊120;語(yǔ)音辨識(shí)模塊120負(fù)責(zé)辨識(shí)語(yǔ)音接收模塊110所接收到的語(yǔ)音命令,并在辨識(shí)后產(chǎn)生對(duì)應(yīng)于語(yǔ)音命令的辨識(shí)數(shù)據(jù),并將該辨識(shí)數(shù)據(jù)送往互動(dòng)模塊140;互動(dòng)模塊140負(fù)責(zé)在取得語(yǔ)音辨識(shí)模塊120所送來(lái)的辨識(shí)數(shù)據(jù)之后,依據(jù)接收到的辨識(shí)數(shù)據(jù)由互動(dòng)數(shù)據(jù)庫(kù)模塊150中讀出對(duì)應(yīng)于該辨識(shí)數(shù)據(jù)的互動(dòng)數(shù)據(jù),并且在互動(dòng)數(shù)據(jù)讀取完畢之后將讀出的互動(dòng)數(shù)據(jù)呈現(xiàn)出來(lái),使使用者在聽(tīng)覺(jué)或視覺(jué)上受到回饋;互動(dòng)數(shù)據(jù)庫(kù)模塊150負(fù)責(zé)儲(chǔ)存包含有動(dòng)畫(huà)數(shù)據(jù)、聲音數(shù)據(jù)或動(dòng)畫(huà)數(shù)據(jù)和聲音數(shù)據(jù)的合成數(shù)據(jù)的互動(dòng)數(shù)據(jù);下載模塊160用來(lái)下載互動(dòng)數(shù)據(jù),并將下載的互動(dòng)數(shù)據(jù)存入互動(dòng)數(shù)據(jù)庫(kù)模塊150。
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述實(shí)施例一當(dāng)使用者使用執(zhí)行含有本發(fā)明的電子辭典時(shí),使用者可以下達(dá)第一語(yǔ)音命令「查劍橋百科」,于是本發(fā)明就會(huì)接收到第一語(yǔ)音命令「查劍橋百科」的聲音,并對(duì)第一語(yǔ)音命令「查劍橋百科」進(jìn)行辨識(shí),經(jīng)過(guò)辨識(shí)后,本發(fā)明可以由互動(dòng)數(shù)據(jù)庫(kù)取得第一語(yǔ)音命令「查劍橋百科」的第一聲音「沒(méi)問(wèn)題,請(qǐng)使用!」(第一互動(dòng)數(shù)據(jù)),并播放第一聲音給使用者聽(tīng)到,同時(shí)將電子字典的顯示畫(huà)面切換至劍橋百科的輸入畫(huà)面。
本發(fā)明的互動(dòng)模塊140還可以偵測(cè)系統(tǒng)的所發(fā)生的事件(Event),并由互動(dòng)數(shù)據(jù)庫(kù)模塊150中取得對(duì)應(yīng)于系統(tǒng)發(fā)生的事件數(shù)據(jù)的互動(dòng)數(shù)據(jù),以呈現(xiàn)給使用者。當(dāng)使用者將電子辭典關(guān)機(jī)時(shí),本發(fā)明會(huì)偵測(cè)到系統(tǒng)發(fā)生關(guān)機(jī)的事件,于是本發(fā)明由互動(dòng)數(shù)據(jù)庫(kù)取得關(guān)機(jī)事件的第二聲音(第二互動(dòng)數(shù)據(jù)),并播放出第二聲音「謝謝您的使用!」。
實(shí)施例二使用者在執(zhí)行含有本發(fā)明的個(gè)人數(shù)字助理機(jī)(PDA)進(jìn)行開(kāi)機(jī)時(shí),本發(fā)明會(huì)在顯示屏上,顯示一個(gè)虛擬的圖像,該虛擬的圖像包含人像、動(dòng)物照片、卡通人物、植物圖案等,但不以此為限,第一圖像以可愛(ài)美少女為例,開(kāi)機(jī)畫(huà)面會(huì)顯示一個(gè)可愛(ài)美少女,并播放第三聲音「主人您好,您需要什么服務(wù)呢?」及播放「嘴巴開(kāi)闔」的第一動(dòng)畫(huà)(第三互動(dòng)數(shù)據(jù)),使得可愛(ài)美少女看似在與使用者說(shuō)話,如此會(huì)使得使用者更有與可愛(ài)美少女互動(dòng)的感覺(jué)。當(dāng)開(kāi)機(jī)完成至使用者下達(dá)語(yǔ)音命令的中途,可以由本發(fā)明偵測(cè)發(fā)現(xiàn)使用者正處于閑置狀態(tài),于是讀出使用者閑置的第二動(dòng)畫(huà)「眨眼」(第四互動(dòng)數(shù)據(jù)),于是便會(huì)播放可愛(ài)美少女眨眼的動(dòng)畫(huà)呈現(xiàn)于畫(huà)面上。若使用者依然繼續(xù)閑置,則會(huì)進(jìn)入屏幕保護(hù)模式。直到使用者下達(dá)第二語(yǔ)音命令「玩游戲」時(shí),本發(fā)明讀出對(duì)應(yīng)于第二語(yǔ)音命令「玩游戲」的第五互動(dòng)數(shù)據(jù)--可愛(ài)美少女移動(dòng)到游戲選項(xiàng),并有將該游戲取出的動(dòng)作,接著游戲便開(kāi)始執(zhí)行,如此將使得可愛(ài)美少女與使用者之間互動(dòng)關(guān)系更為密切。
本發(fā)明更包括有一個(gè)下載模塊160,負(fù)責(zé)將互動(dòng)數(shù)據(jù)或者新的圖像下載并儲(chǔ)存至互動(dòng)數(shù)據(jù)庫(kù)模塊150,使得使用者與圖像的互動(dòng)方式可以不斷的改變,甚至更換顯示的圖像。延續(xù)上述實(shí)施例二,在進(jìn)入屏幕保護(hù)模式時(shí),因?yàn)榛?dòng)數(shù)據(jù)庫(kù)未存有對(duì)應(yīng)屏幕保護(hù)模式的事件的互動(dòng)數(shù)據(jù),故本發(fā)明無(wú)法呈現(xiàn)相關(guān)的互動(dòng)數(shù)據(jù)給使用者。但是在下載了可愛(ài)美少女所屬的屏幕保護(hù)模式的第六互動(dòng)數(shù)據(jù)之后,當(dāng)進(jìn)入屏幕保護(hù)模式之前,本發(fā)明會(huì)播放「需要時(shí)在叫我!」的聲音及問(wèn)候動(dòng)畫(huà)的動(dòng)作畫(huà)面與使用者產(chǎn)生互動(dòng)。除了下載互動(dòng)數(shù)據(jù)之外,本發(fā)明也可以下載新的圖像,使用者欲將顯示的虛擬的圖像由可愛(ài)美少女更換為卡通圖案,于是下載第二圖像--卡通圖案的圖像,當(dāng)下載完成之后,本發(fā)明會(huì)偵測(cè)到有下載完成的系統(tǒng)事件發(fā)生,于是可以播放可愛(ài)美少女的聲音或動(dòng)畫(huà)(第七互動(dòng)數(shù)據(jù))來(lái)告知使用者以下載完成,此時(shí)使用者便可以將第一圖像(可愛(ài)美少女)進(jìn)行更換,并繼續(xù)下載卡通圖案(第二圖像)的互動(dòng)數(shù)據(jù),例如開(kāi)機(jī)、進(jìn)入屏幕保護(hù)模式、關(guān)機(jī)等,當(dāng)下載完成之后,如有互動(dòng)數(shù)據(jù)庫(kù)中存有卡通圖案(第二圖像)的下載完成事件的第八互動(dòng)數(shù)據(jù),則原先播放的可愛(ài)美少女(第一圖像)的第七互動(dòng)數(shù)據(jù)會(huì)改為播放卡通圖案(第二圖像)的第八互動(dòng)數(shù)據(jù)來(lái)告知使用者下載完畢,若互動(dòng)數(shù)據(jù)庫(kù)沒(méi)有該系統(tǒng)事件的互動(dòng)數(shù)據(jù)則不產(chǎn)生互動(dòng)。
權(quán)利要求
1.一種使用語(yǔ)音命令的互動(dòng)方法,其特征在于該方法包括以下步驟1)建立存儲(chǔ)有互動(dòng)數(shù)據(jù),以及互動(dòng)數(shù)據(jù)和辨識(shí)數(shù)據(jù)對(duì)應(yīng)關(guān)系的互動(dòng)數(shù)據(jù)庫(kù);2)接收語(yǔ)音命令;3)辯識(shí)該語(yǔ)音命令,辨識(shí)后產(chǎn)生對(duì)應(yīng)于該語(yǔ)音命令的辨識(shí)數(shù)據(jù);4)根據(jù)該辨識(shí)數(shù)據(jù),從互動(dòng)數(shù)據(jù)庫(kù)中讀出對(duì)應(yīng)于該辨識(shí)數(shù)據(jù)的互動(dòng)數(shù)據(jù);5)呈現(xiàn)互動(dòng)數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的使用語(yǔ)音命令的互動(dòng)方法,其特征在于所述互動(dòng)數(shù)據(jù)庫(kù)可下載新的互動(dòng)數(shù)據(jù),并存入該互動(dòng)數(shù)據(jù)庫(kù)中。
3.根據(jù)權(quán)利要求2所述的使用語(yǔ)音命令的互動(dòng)方法,其特征在于所述互動(dòng)數(shù)據(jù)包括動(dòng)畫(huà)數(shù)據(jù)、聲音數(shù)據(jù)或動(dòng)畫(huà)數(shù)據(jù)和聲音數(shù)據(jù)的合成數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的使用語(yǔ)音命令的互動(dòng)方法,其特征在于所述辨識(shí)數(shù)據(jù)還可為事件數(shù)據(jù),當(dāng)偵測(cè)到有事件發(fā)生時(shí)產(chǎn)生該事件數(shù)據(jù),其中該事件可以為開(kāi)機(jī)、進(jìn)入屏幕保護(hù)模式、顯示提示信息或關(guān)機(jī)。
5.一種應(yīng)用權(quán)利要求1所述的使用語(yǔ)音命令的互動(dòng)方法的互動(dòng)系統(tǒng),其特征在于該系統(tǒng)包括用來(lái)接收語(yǔ)音命令的語(yǔ)音接收模塊;用來(lái)辨識(shí)該語(yǔ)音命令,在辨識(shí)后產(chǎn)生對(duì)應(yīng)于該語(yǔ)音命令的辨識(shí)數(shù)據(jù)的語(yǔ)音辨識(shí)模塊;用來(lái)儲(chǔ)存互動(dòng)數(shù)據(jù)的互動(dòng)數(shù)據(jù)庫(kù)模塊;以及根據(jù)辨識(shí)數(shù)據(jù)由互動(dòng)數(shù)據(jù)庫(kù)模塊中讀出互動(dòng)數(shù)據(jù),并呈現(xiàn)該互動(dòng)數(shù)據(jù)的互動(dòng)模塊,所述語(yǔ)音接收模塊接入語(yǔ)音辨識(shí)模塊,所述語(yǔ)音辨識(shí)模塊和互動(dòng)數(shù)據(jù)庫(kù)模塊分別和互動(dòng)模塊相接。
6.根據(jù)權(quán)利要求5所述的使用語(yǔ)音命令的互動(dòng)系統(tǒng),其特征在于該系統(tǒng)還包括用來(lái)下載互動(dòng)數(shù)據(jù)的下載模塊,所述下載模塊接入互動(dòng)數(shù)據(jù)庫(kù)模塊。
全文摘要
本發(fā)明為一種使用語(yǔ)音命令的互動(dòng)方法及其系統(tǒng),尤其是一種利用辨識(shí)語(yǔ)音命令來(lái)控制呈現(xiàn)相對(duì)應(yīng)的互動(dòng)數(shù)據(jù),使顯示的圖像產(chǎn)生與人互動(dòng)的效果的方法及系統(tǒng)。其技術(shù)解決方案為該方法包括以下步驟1)建立存儲(chǔ)有互動(dòng)數(shù)據(jù),以及互動(dòng)數(shù)據(jù)和辨識(shí)數(shù)據(jù)對(duì)應(yīng)關(guān)系的互動(dòng)數(shù)據(jù)庫(kù);2)接收語(yǔ)音命令;3)辨識(shí)該語(yǔ)音命令,辨識(shí)后產(chǎn)生對(duì)應(yīng)于該語(yǔ)音命令的辨識(shí)數(shù)據(jù);4)根據(jù)該辨識(shí)數(shù)據(jù),從互動(dòng)數(shù)據(jù)庫(kù)中讀出對(duì)應(yīng)于該辨識(shí)數(shù)據(jù)的互動(dòng)數(shù)據(jù);5)呈現(xiàn)互動(dòng)數(shù)據(jù)。本發(fā)明解決了普通技術(shù)中存在的技術(shù)問(wèn)題,具有使顯示的圖像和聲音與人產(chǎn)生互動(dòng)的優(yōu)點(diǎn)。
文檔編號(hào)G10L21/06GK101013571SQ20071001732
公開(kāi)日2007年8月8日 申請(qǐng)日期2007年1月30日 優(yōu)先權(quán)日2007年1月30日
發(fā)明者陳建安, 陳淮琰 申請(qǐng)人:無(wú)敵科技(西安)有限公司