專利名稱:一種智能語(yǔ)音交互系統(tǒng)及交互方法
技術(shù)領(lǐng)域:
本發(fā)明涉及智能語(yǔ)音控制技術(shù)領(lǐng)域,尤其涉及一種嵌入式結(jié)構(gòu)的智能語(yǔ) 音交互系統(tǒng)及交互方法。
背景技術(shù):
目前基于語(yǔ)音處理技術(shù)的消費(fèi)類電子產(chǎn)品在市場(chǎng)上大為流行,交互型產(chǎn) 品已有很多種,但這些產(chǎn)品中多數(shù)基于專用的語(yǔ)音識(shí)別芯片,其內(nèi)核為單片 機(jī)或數(shù)字信號(hào)中央處理器,其實(shí)質(zhì)是將麥克風(fēng)輸入的聲音信號(hào)采樣編碼,再 通過(guò)內(nèi)部處理器與其事先錄制好的語(yǔ)音信息匹配,再將相應(yīng)的語(yǔ)音信息通過(guò) 片內(nèi)的模塊經(jīng)過(guò)外置的揚(yáng)聲器輸出。但由于硬件技術(shù)限制,現(xiàn)有的產(chǎn)品無(wú)法 更新固化存儲(chǔ)到硬件內(nèi)的語(yǔ)音對(duì)話內(nèi)容,容量有限,而且語(yǔ)音識(shí)別的字?jǐn)?shù)也受到限制, 一般6 10字,并且其交互過(guò)程中,對(duì)語(yǔ)音的智能識(shí)別效果并不 好,識(shí)別率較低,其交互的方式、場(chǎng)合、可靠性、可更新性等均受到很大的 限制,導(dǎo)致該技術(shù)無(wú)法普及使用。如現(xiàn)有一種語(yǔ)音交互玩具,其發(fā)出的聲音信號(hào)為擬人信號(hào)且對(duì)話的內(nèi)容 為固化到該裝置內(nèi)的語(yǔ)音內(nèi)容,當(dāng)使用者為兒童時(shí),存在其不易接受其擬人 化的聲音,且該裝置還存在不能自由及時(shí)更改交互所用的對(duì)話內(nèi)容的問(wèn)題, 用戶使用一段時(shí)間后,失去新鮮感,從而趣味性降低,同時(shí)不能發(fā)揮用戶的 設(shè)計(jì)能力,用戶不能定制其個(gè)性化的交互內(nèi)容和發(fā)音。發(fā)明內(nèi)容本發(fā)明提供了 一種智能語(yǔ)音交互系統(tǒng)及交互方法,通過(guò)對(duì)采集后的語(yǔ)音信息的比對(duì),根據(jù)比對(duì)結(jié)果進(jìn)行準(zhǔn)確應(yīng)答,完成人機(jī)對(duì)話交互,并可以及時(shí) 更新所存儲(chǔ)的語(yǔ)音信息達(dá)到變更對(duì)話場(chǎng)景的目的。本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的 本發(fā)明實(shí)施方式提供一種智能語(yǔ)音交互系統(tǒng),該系統(tǒng)包括 處理器、存儲(chǔ)器、語(yǔ)音處理單元、語(yǔ)音輸入裝置、語(yǔ)音輸出裝置、通信 處理單元構(gòu)成;處理器、存儲(chǔ)器、語(yǔ)音處理單元及通信處理單元均設(shè)置在電路板上,存 儲(chǔ)器、語(yǔ)音處理單元及通信處理單元通過(guò)總線與處理器連接構(gòu)成嵌入式控制 板;語(yǔ)音輸入裝置、語(yǔ)音輸出裝置分別與嵌入式控制板上的所述的語(yǔ)音處理 單元連接;通信處理單元上設(shè)有通信接口 ,所述通信接口用于與安裝定制用客戶端 軟件的計(jì)算機(jī)連接。 所述存儲(chǔ)器包括動(dòng)態(tài)存儲(chǔ)器與FLASH存儲(chǔ)器,兩者分別通過(guò)地址/數(shù)據(jù)總線與處理器連接。所述語(yǔ)音處理單元包括語(yǔ)音采集模塊,與所述語(yǔ)音輸入裝置及處理器連接,用于接收語(yǔ)音輸入 裝置輸入的語(yǔ)音信息并傳送至處理器;語(yǔ)音輸出模塊,與所述處理器及語(yǔ)音輸出裝置連接,用于將處理器處理 后的語(yǔ)音信息輸出至語(yǔ)音輸出裝置。所述通信處理單元包括USB接口處理模塊,與連接安裝定制用客戶端軟件的計(jì)算機(jī)的USB接口連 接,對(duì)經(jīng)所述USB接口從計(jì)算機(jī)獲取的數(shù)據(jù)傳送至FLASH存儲(chǔ)器,并由所述處 理器進(jìn)行處理;無(wú)線處理模塊,與安裝定制用客戶端軟件的計(jì)算機(jī)進(jìn)行無(wú)線連接,用于對(duì)通過(guò)無(wú)線連接從計(jì)算機(jī)中獲取的數(shù)據(jù)傳送至所述處理器進(jìn)行處理。 所述無(wú)線處理模塊包括藍(lán)牙模塊或無(wú)線網(wǎng)絡(luò)模塊WLAN。 所述系統(tǒng)還包括顯示處理模塊,通過(guò)總線與處理器連接,用于處理處理器輸出的圖形界 面信息,顯示處理^^莫塊上設(shè)有用于連接顯示裝置的顯示接口;顯示裝置,與所述顯示處理模塊的顯示接口連接,用于顯示由所述顯示 處理模塊輸出的圖形界面信息。本發(fā)明實(shí)施方式還提供一種智能語(yǔ)音交互系統(tǒng)的交互方法,該方法包括系統(tǒng)啟動(dòng),處理器加載存儲(chǔ)器中的語(yǔ)音識(shí)別模塊及語(yǔ)音庫(kù)模塊;語(yǔ)音輸入裝置錄入外部聲音命令并傳送至語(yǔ)音處理單元,外部聲音命令 經(jīng)語(yǔ)音處理單元轉(zhuǎn)化為數(shù)字聲音信號(hào);語(yǔ)音處理單元將所述數(shù)字聲音信號(hào)傳送至處理器,處理器調(diào)用所述語(yǔ)音 識(shí)別模塊對(duì)所述數(shù)字聲音信號(hào)進(jìn)行比對(duì);處理器根據(jù)比對(duì)結(jié)果,將語(yǔ)音庫(kù)模塊中的對(duì)應(yīng)的應(yīng)答數(shù)字聲音信號(hào)通過(guò) 語(yǔ)音處理單元經(jīng)語(yǔ)音輸出裝置輸出。所述處理器加載存儲(chǔ)器中的語(yǔ)音識(shí)別模塊及語(yǔ)音庫(kù)模塊包括通過(guò)處理器的控制,將存儲(chǔ)在FLASH存儲(chǔ)器中的語(yǔ)音識(shí)別模塊、語(yǔ)音庫(kù)模 塊加載到動(dòng)態(tài)存儲(chǔ)器中。所述方法還包括從處于聯(lián)機(jī)狀態(tài)的計(jì)算機(jī)中,通過(guò)定制用客戶端軟件 對(duì)所述語(yǔ)音庫(kù)模塊對(duì)應(yīng)的配置文件及相應(yīng)的數(shù)據(jù)進(jìn)行定制更新;或者,通過(guò)處于聯(lián)機(jī)狀態(tài)的計(jì)算機(jī)從網(wǎng)絡(luò)服務(wù)器下載與語(yǔ)音庫(kù)模塊相對(duì)應(yīng)的配 置文件及相應(yīng)的數(shù)據(jù),通過(guò)所述配置文件及相應(yīng)的數(shù)據(jù)對(duì)語(yǔ)音庫(kù)模塊進(jìn)行更 新;或者,通過(guò)無(wú)線連接方式與網(wǎng)絡(luò)或智能設(shè)備連接,并從網(wǎng)絡(luò)服務(wù)器或智能設(shè)備下 載與語(yǔ)音庫(kù)模塊相對(duì)應(yīng)的配置文件及相應(yīng)的數(shù)據(jù),通過(guò)所述配置文件及相應(yīng) 的數(shù)據(jù)對(duì)語(yǔ)音庫(kù)模塊進(jìn)行更新。所述方法還包括通過(guò)無(wú)線網(wǎng)絡(luò)模塊與網(wǎng)絡(luò)建立連接后,使用者通過(guò)網(wǎng)絡(luò) 與該語(yǔ)音交互系統(tǒng)進(jìn)行對(duì)話,將本地的語(yǔ)音交互擴(kuò)展為通過(guò)網(wǎng)絡(luò)進(jìn)行的語(yǔ)音 交互。由上述本發(fā)明實(shí)施例提供的技術(shù)方案可以看出,本發(fā)明實(shí)施方式通過(guò)將 采集的使用者發(fā)出的命令語(yǔ)音信息與系統(tǒng)內(nèi)存儲(chǔ)在XML配置文件中關(guān)于交互內(nèi) 容的設(shè)置信息比對(duì),并根據(jù)比對(duì)結(jié)果進(jìn)行準(zhǔn)確的應(yīng)答,完成與使用者進(jìn)行對(duì) 話的交互過(guò)程,所存儲(chǔ)的交互的回答信息完全使用人的錄音,對(duì)話場(chǎng)景可通 過(guò)與安裝客戶端軟件的計(jì)算機(jī)連接的方式方便的進(jìn)行定制,且可以通過(guò)網(wǎng)上 下載來(lái)及時(shí)更新系統(tǒng)內(nèi)存儲(chǔ)的語(yǔ)音信息來(lái)達(dá)到變更對(duì)話場(chǎng)景的目的。該系統(tǒng) 可以作為通用的智能語(yǔ)音交互平臺(tái),且用戶可自己設(shè)置不同的交互情景和識(shí) 別內(nèi)容,應(yīng)用在多種場(chǎng)合,如人機(jī)對(duì)話系統(tǒng)、智能玩具或服務(wù)機(jī)器人、智能 電子寵物、老年人陪護(hù)機(jī)器人等,應(yīng)用性更強(qiáng),實(shí)用性更強(qiáng),語(yǔ)音交互更加 親切、自然,如同兩個(gè)人進(jìn)行正常談話一般;可脫離計(jì)算機(jī)進(jìn)行工作,識(shí)別 率更高、數(shù)據(jù)處理速度更快、識(shí)別詞表更廣。
圖l為本發(fā)明實(shí)施例的語(yǔ)音智能系統(tǒng)結(jié)構(gòu)框圖;圖2為本發(fā)明實(shí)施例的另 一語(yǔ)音系統(tǒng)結(jié)構(gòu)框圖;圖3為本發(fā)明實(shí)施例的語(yǔ)音智能系統(tǒng)的交互流程圖;圖4為本發(fā)明實(shí)施例的語(yǔ)音信息定制流程圖;圖5為本發(fā)明實(shí)施例的系統(tǒng)中各部件連接結(jié)構(gòu)框圖;圖6為本發(fā)明實(shí)施例的中央處理器S3C2410電路圖;圖7為本發(fā)明實(shí)施例的存儲(chǔ)器SDRAM1 HY57v56的電路圖;圖8為本發(fā)明實(shí)施例的存儲(chǔ)器SDRAM2 HY5 7v5 6的電路圖;圖9為本發(fā)明實(shí)施例的存儲(chǔ)器Flash K9F1208的電路圖;圖10為本發(fā)明實(shí)施例的音頻芯片麗8731的電路圖;圖11為本發(fā)明實(shí)施例的USB接口部分的電路圖;圖12為本發(fā)明實(shí)施例的LCD顯示接口部分的電路圖;圖13為本發(fā)明實(shí)施例的供電的電源部分的電路圖;圖14為本發(fā)明實(shí)施例的軟件體系結(jié)構(gòu)示意圖;圖15為本發(fā)明實(shí)施例的客戶端軟件定制界面示意圖;圖16為本發(fā)明實(shí)施例的語(yǔ)音交互系統(tǒng)的狀態(tài)轉(zhuǎn)換圖。
具體實(shí)施方式
本發(fā)明實(shí)施方式提供一種用于智能玩具的語(yǔ)音智能系統(tǒng)交互方法,通過(guò) 語(yǔ)音輸入裝置與語(yǔ)音處理單元及處理器的配合,對(duì)使用者的語(yǔ)音信息進(jìn)行采 集,并經(jīng)處理器將采集的語(yǔ)音信息與存儲(chǔ)器中預(yù)先存儲(chǔ)的語(yǔ)音識(shí)別引擎中的 語(yǔ)音發(fā)音特征庫(kù)的發(fā)音特征進(jìn)行比對(duì),根據(jù)比對(duì)結(jié)果輸出準(zhǔn)確的應(yīng)答,達(dá)到 人機(jī)語(yǔ)音交互的目的,根據(jù)存儲(chǔ)器中存儲(chǔ)不同的交互內(nèi)容的配置信息,則可 以實(shí)現(xiàn)不同對(duì)話場(chǎng)景的交互。該系統(tǒng)還可以通過(guò)與所連接計(jì)算機(jī)進(jìn)行定制并 更新對(duì)話場(chǎng)景,或經(jīng)連接的計(jì)算機(jī)從網(wǎng)絡(luò)上的服務(wù)器中下載并更新存儲(chǔ)器中 的相應(yīng)的語(yǔ)音信息,達(dá)到更新語(yǔ)音交互對(duì)話場(chǎng)景的目的。該系統(tǒng)結(jié)構(gòu)簡(jiǎn)單, 使用方便,識(shí)別率高,可應(yīng)用在智能玩具、服務(wù)機(jī)器人、電子寵物等需要語(yǔ) 音交互多種語(yǔ)音交互平臺(tái)上。為便于理解,下面結(jié)合附圖和具體實(shí)施例進(jìn)行說(shuō)明。實(shí)施例一如圖1所示,本實(shí)施例提供一種用于智能玩具的語(yǔ)音智能系統(tǒng),該系統(tǒng)可 應(yīng)用在多種話音平臺(tái)上,實(shí)現(xiàn)語(yǔ)音交互,如語(yǔ)音智能玩具、機(jī)器人,人機(jī)對(duì) 話系統(tǒng)等,具體結(jié)構(gòu)如圖l所示,包括處理器、存儲(chǔ)器、語(yǔ)音處理單元及通信處理單元均設(shè)置在電路板上,存 儲(chǔ)器、語(yǔ)音處理單元及通信處理單元通過(guò)總線與處理器連接構(gòu)成嵌入式控制板;語(yǔ)音輸入裝置、語(yǔ)音輸出裝置分別與嵌入式控制板上的所述的語(yǔ)音處理 單元連接;通信處理單元上設(shè)有通信接口 ,所述通信接口與安裝定制用客戶端軟件 的計(jì)算機(jī)連接的通信接口 。其中,所述存儲(chǔ)器包括動(dòng)態(tài)存儲(chǔ)器與FLASH存儲(chǔ)器,兩者分別通過(guò)地址 /數(shù)據(jù)總線與處理器連接。如圖2所示,上述系統(tǒng)中,所述的語(yǔ)音處理單元包括語(yǔ)音采集模塊,與 所述語(yǔ)音輸入裝置及處理器連接,用于接收語(yǔ)音輸入裝置輸入的語(yǔ)音信息并 傳送至處理器;語(yǔ)音輸出模塊,與所述處理器及語(yǔ)音輸出裝置連接,用于將處理器處理 后的語(yǔ)音信息輸出至語(yǔ)音輸出裝置。 所述通信處理單元包括USB接口處理模塊,與連接安裝定制用客戶端軟件的計(jì)算機(jī)的USB接口連 接,對(duì)經(jīng)所述USB接口從計(jì)算機(jī)獲取的數(shù)據(jù)傳送至所述處理器進(jìn)行處理;無(wú)線處理模塊,與安裝定制用客戶端軟件的計(jì)算機(jī)進(jìn)行無(wú)線連接,用于 對(duì)通過(guò)無(wú)線連接從計(jì)算機(jī)中獲取的數(shù)據(jù)傳送至所述處理器進(jìn)行處理。其中, 所述無(wú)線處理模塊可以采用藍(lán)牙模塊或無(wú)線網(wǎng)卡WIFI模塊等,主要目的通過(guò) 該無(wú)線處理模塊與計(jì)算機(jī)進(jìn)行數(shù)據(jù)交互。所述系統(tǒng)還可以包括顯示處理模塊,通過(guò)總線與處理器連接,用于處理處理器輸出的圖形界面信息(如所述的語(yǔ)音智能系統(tǒng)與網(wǎng)絡(luò)連接時(shí),各 種使用狀態(tài)的界面等),顯示處理模塊上設(shè)有用于連接顯示裝置的顯示接 口。在具有顯示處理模塊的系統(tǒng)上,還可以設(shè)置顯示裝置,顯示裝置與所述 顯示處理模塊的顯示接口連接,用于顯示由顯示處理模塊輸出的圖形界面信 號(hào),實(shí)際中顯示裝置可以采用液晶顯示屏等。 實(shí)施例二本實(shí)施例提供了 一種基于實(shí)施例一 中的智能玩具的語(yǔ)音智能系統(tǒng)的交互方法,該方法包4舌系統(tǒng)啟動(dòng)后,通過(guò)處理器的控制,將存儲(chǔ)在FLASH存儲(chǔ)器中的語(yǔ)音識(shí)別 模塊、語(yǔ)音庫(kù)模塊加載到動(dòng)態(tài)存器中,實(shí)際中,這兩個(gè)模塊都是軟件的形 式,如基于H醒的語(yǔ)音識(shí)別引擎;由語(yǔ)音輸入裝置將外部聲音命令錄入,通過(guò)語(yǔ)音處理單元(如通過(guò)語(yǔ)音 處理單元中的語(yǔ)音采集芯片)將所述外部聲音命令的模擬聲音信號(hào)轉(zhuǎn)化為數(shù) 字聲音信號(hào);將所述數(shù)字聲音信號(hào)發(fā)送到處理器,同時(shí)處理器調(diào)用動(dòng)態(tài)存儲(chǔ)器中的語(yǔ) 音識(shí)別模塊,結(jié)合動(dòng)態(tài)存儲(chǔ)器中的信息對(duì)語(yǔ)音識(shí)別引擎中的語(yǔ)音發(fā)音特征庫(kù) 的發(fā)音特征進(jìn)行比對(duì);處理器根據(jù)比對(duì)結(jié)果,將語(yǔ)音庫(kù)模塊中的對(duì)應(yīng)的應(yīng)答數(shù)字聲音信號(hào)輸出 到語(yǔ)音處理單元中的語(yǔ)音輸出模塊(如語(yǔ)音釆集芯片);語(yǔ)音輸出模塊通過(guò)語(yǔ)音輸出裝置(揚(yáng)聲器)將語(yǔ)音輸出,完成一次人機(jī) 語(yǔ)音交互過(guò)程。上述方法還包括從處于聯(lián)機(jī)狀態(tài)的計(jì)算機(jī)中,通過(guò)定制用客戶端軟件 對(duì)所述語(yǔ)音庫(kù)模塊對(duì)應(yīng)的配置文件進(jìn)行定制并更新;或者,通過(guò)處于聯(lián)機(jī)狀 態(tài)的計(jì)算機(jī)從網(wǎng)絡(luò)服務(wù)器下載與語(yǔ)音庫(kù)模塊相對(duì)應(yīng)的配置文件,通過(guò)所述配置文件對(duì)語(yǔ)音庫(kù)模塊進(jìn)行更新,達(dá)到更新系統(tǒng)的對(duì)話場(chǎng)景的目的。具體更新定制對(duì)話場(chǎng)景的過(guò)程如圖3所示,包括 步驟31,打開計(jì)算機(jī)中的定制用的客戶端軟件; 步驟32,設(shè)置對(duì)話的起始音; 步驟33,用戶進(jìn)行對(duì)話場(chǎng)景設(shè)計(jì);步驟34,設(shè)置完成后生成對(duì)話配置文件, 一般可以為XML文件; 步驟35,連接智能語(yǔ)音系統(tǒng)的USB接口 (或無(wú)線接口 )到所述的計(jì)算機(jī); 步驟36,將所述的計(jì)算機(jī)中用戶定制的對(duì)話情景(包括配置文件與打包 的語(yǔ)音文件)下載到智能語(yǔ)音系統(tǒng),完成對(duì)話場(chǎng)景的定制更新;經(jīng)連接的計(jì)算機(jī)從網(wǎng)絡(luò)的服務(wù)器下載更新語(yǔ)音智能系統(tǒng)的對(duì)話場(chǎng)景,與 上述處理過(guò)程基本相同,只不過(guò)配置文件及相應(yīng)的語(yǔ)音文件是由服務(wù)提供者 已定制好的存儲(chǔ)在網(wǎng)絡(luò)服務(wù)器中的,下載后,直接更新即可。 其中,具體的定制過(guò)程如圖4所示,包括 步驟41,設(shè)置場(chǎng)景起始音;步驟42,用戶進(jìn)行第一組對(duì)話的設(shè)計(jì),如設(shè)計(jì)用戶的第一句問(wèn)話(文字 輸入),設(shè)置玩具的語(yǔ)音回答;步驟43,判讀是否具有狀態(tài)跳轉(zhuǎn)?步驟44,若為否,則用戶進(jìn)行第二組對(duì)話的設(shè)計(jì),第二句問(wèn)話(文字輸 入),設(shè)置系統(tǒng)的語(yǔ)音回答;若為是,則進(jìn)行步驟46,用戶進(jìn)行第N組對(duì)話的 設(shè)計(jì),第N句問(wèn)話(文字輸入),設(shè)置系統(tǒng)的語(yǔ)音回答;步驟45,判斷是否具有狀態(tài)跳轉(zhuǎn)?若為否,則用戶依次進(jìn)行后續(xù)的下一 組的對(duì)話的:&計(jì),并i殳計(jì)該組問(wèn)話的對(duì)應(yīng)的回答(可以用文字輸入的方 式),再設(shè)置系統(tǒng)的與輸入文字對(duì)應(yīng)的語(yǔ)音回答;步驟46,若為是,則用戶進(jìn)行第N組對(duì)話的設(shè)計(jì),第N句問(wèn)話(文字輸 入),設(shè)置系統(tǒng)的語(yǔ)音回答;步驟47,場(chǎng)景定制結(jié)束。實(shí)施例三本實(shí)施例中通過(guò)具體的實(shí)現(xiàn)過(guò)程對(duì)本發(fā)明的智能語(yǔ)音系統(tǒng)及其交互方法 作進(jìn)一步說(shuō)明,如圖6 13所示,該系統(tǒng)分為軟、硬件兩個(gè)方面,具體包括(-)硬件部分硬件基于ARM9的高性能SOC處理器S3C2410,主頻20謹(jǐn)hz,以ARM9 SC2410 嵌入式控制器為中心,通過(guò)外置的麥克風(fēng)傳感器完成語(yǔ)音信號(hào)的采集,語(yǔ)音 信號(hào)的采樣、放大及預(yù)濾波及后續(xù)的語(yǔ)音播放由音頻芯片麗8731完成,板上 配置32 x 16bit的擴(kuò)展SDRAM存儲(chǔ)空間及64M x 16bit的NAND Flash存儲(chǔ)空間,系 統(tǒng)利用USB接口與用戶應(yīng)用開發(fā)層的客戶端接口進(jìn)行通訊。該系統(tǒng)中以USB接 口為例進(jìn)行說(shuō)明,此處也可以增加無(wú)線網(wǎng)卡,藍(lán)牙接口等模塊,可以實(shí)現(xiàn)與 S3C2410連接進(jìn)行數(shù)據(jù)交換即可。并且可以在S3C2410處理器模塊上增加LED顯 示,達(dá)到3D動(dòng)畫輸出等效果。硬件的電路部分具體分為幾下幾部分① 前端處理電^各系統(tǒng)采用無(wú)指向性麥克風(fēng)進(jìn)行語(yǔ)音輸入,可以對(duì)正面120度夾角范圍內(nèi)的 語(yǔ)音信號(hào)進(jìn)行釆集;前置放大抗混疊濾波以及A/D轉(zhuǎn)換采用WOLFSON公司的適合 于語(yǔ)音應(yīng)用的CODEC芯片麗8731,該語(yǔ)音處理芯片功耗較低,內(nèi)部有2組ADC(模/數(shù)轉(zhuǎn)換器)和DAC (數(shù)/模轉(zhuǎn)換器),其抽樣頻率由外接的晶振頻率和寄 存器設(shè)置為8KHz, 16位A/D采樣,關(guān)閉了BYPASS模式,芯片設(shè)置為Slave(從)模式;并調(diào)節(jié)輸入功放的增益,使得麥克采集語(yǔ)音的效果在5(T60cm的 范圍內(nèi)達(dá)到最佳;同時(shí)為了使得喇叭的輸出聲音足夠大,將輸出增益調(diào)為最 大值。② 系統(tǒng)功能電路系統(tǒng)核心處理器采用基于ARM 920T內(nèi)核的SAMSUNG S3C2410處理器,主頻 203Mhz,外部擴(kuò)展64Mxl6bit的NAND Flash存儲(chǔ)器,用于存儲(chǔ)嵌入式實(shí)時(shí)操作 系統(tǒng),語(yǔ)音識(shí)別引擎和語(yǔ)音交互的情景內(nèi)容;32xl6bit的擴(kuò)展SDRAM存儲(chǔ)器作 為語(yǔ)音交互系統(tǒng)運(yùn)行的數(shù)據(jù)緩沖區(qū),使得S3C2410能夠正常的進(jìn)行信號(hào)的處理 和狀態(tài)的判斷轉(zhuǎn)換。③人機(jī)接口電路語(yǔ)音交互系統(tǒng)通過(guò)USB接口與計(jì)算機(jī)相連的接口 , USB接口的連接電路見 圖ll,從而可以方便用戶進(jìn)行設(shè)計(jì)語(yǔ)音交互的情景內(nèi)容定制后,快捷的通過(guò) USB接口下載到該系統(tǒng)中,從而實(shí)現(xiàn)交互內(nèi)容的更新,實(shí)際中該接口部分也可 以采用無(wú)線接口,如藍(lán)牙模塊、無(wú)線網(wǎng)絡(luò)模塊WLAN等。仁)軟件部分①語(yǔ)音交互系統(tǒng)的軟件結(jié)構(gòu)如圖14所示,該語(yǔ)音交互系統(tǒng)的軟件體系結(jié)構(gòu)分為三層,依次為嵌入式 Linux實(shí)時(shí)操作系統(tǒng),語(yǔ)音識(shí)別引擎層,用戶應(yīng)用開發(fā)層,其中用戶應(yīng)用開發(fā) 層包含用戶客戶端軟件、基于XML配置文件的情景對(duì)話設(shè)置、USB下載接 口,其中,基于隱馬爾可夫模型(H醒)的語(yǔ)音識(shí)別引擎,可以對(duì)非特定人200條 命令語(yǔ)句進(jìn)行識(shí)別。用戶通過(guò)客戶端軟件(如圖15所示的定制界面)生成基于語(yǔ)音識(shí)別配置 文件(XML文件)的情景對(duì)話。可擴(kuò)展的標(biāo)識(shí)語(yǔ)言(extensible markup language, XML)采用自描述性的中立數(shù)據(jù)為結(jié)構(gòu),可以表示復(fù)雜的數(shù)據(jù)并使 其可讀。在該軟件結(jié)構(gòu)中,XML文檔被用來(lái)作為語(yǔ)音交互的配置文件并儲(chǔ)存 了交互對(duì)話的初始狀態(tài)信息和參數(shù)。語(yǔ)音交互系統(tǒng)啟動(dòng)時(shí)都會(huì)從XML文件讀 取需要加載對(duì)話內(nèi)容的信息和參數(shù),通過(guò)對(duì)XML配置文件的加載和分析,將獲 得的狀態(tài)信息傳遞給有限狀態(tài)機(jī),并動(dòng)態(tài)地建立起連接。用戶通過(guò)客戶端軟件定制語(yǔ)音交互情景的流程如圖3所示,用戶需首先設(shè) 置情景對(duì)話的起始音,然后圍繞服務(wù)機(jī)器人在某一場(chǎng)景下的對(duì)話內(nèi)容(如家 庭娛樂(lè)、巡邏監(jiān)控等)展開設(shè)計(jì),其中可包括用戶主動(dòng)詢問(wèn),機(jī)器人進(jìn)行回 答;或機(jī)器人才艮據(jù)狀態(tài)的判斷,主動(dòng)與人進(jìn)行搭訕,并開始交互的過(guò)程,從 而使得更加的親切和自然;設(shè)計(jì)完成后,點(diǎn)擊客戶端中的生成,從而生成語(yǔ) 音配置的XML文件,并將音頻文件進(jìn)行壓縮打包,并通過(guò)連接臺(tái)式機(jī)和語(yǔ)音交互系統(tǒng)的USB接口,完成對(duì)外接設(shè)備的識(shí)別,最后下載用戶定制的語(yǔ)音交互情景內(nèi)容到語(yǔ)音交互系統(tǒng)的F1 ash中,實(shí)現(xiàn)語(yǔ)音交互內(nèi)容的設(shè)計(jì)和更新。場(chǎng)景設(shè)計(jì)的流程如圖4所示,用戶設(shè)計(jì)場(chǎng)景的起始音后,輸入第一組對(duì)話 的文字,并指定該輸入事件對(duì)應(yīng)的狀態(tài),并根據(jù)語(yǔ)音識(shí)別狀態(tài)的結(jié)果,通過(guò) 狀態(tài)轉(zhuǎn)移函數(shù)5的分析,得到是否進(jìn)行跳轉(zhuǎn)及后續(xù)交互進(jìn)程。接下來(lái),繼續(xù) 第二組對(duì)話流程的設(shè)計(jì),根據(jù)事件的輸入進(jìn)行識(shí)別和判斷,并確定狀態(tài)的轉(zhuǎn) 移及機(jī)器人的反應(yīng)。依次進(jìn)行,直到完成整個(gè)場(chǎng)景交互內(nèi)容的設(shè)計(jì)。 ②有限狀態(tài)機(jī)(Finite State Machine)在語(yǔ)音交互中的應(yīng)用 語(yǔ)音交互模塊中的不同事件,即不同的語(yǔ)音或按鍵輸入,這里的有限狀 態(tài)集合Q包括四類狀態(tài),分別為聲音的釆集和A/D轉(zhuǎn)換狀態(tài),語(yǔ)音識(shí)別狀 態(tài)、轉(zhuǎn)換邏輯查詢狀態(tài)、語(yǔ)音回答輸出狀態(tài)、交互結(jié)束退出狀態(tài);有限的事 件集合S,即不同的聲音輸入或按鍵輸入;狀態(tài)轉(zhuǎn)移函數(shù)5指根據(jù)不同輸入 完成數(shù)據(jù)處理,實(shí)現(xiàn)不同狀態(tài)輸出的對(duì)應(yīng)規(guī)則。如圖16所示,五種不同的狀態(tài)之間,通過(guò)狀態(tài)轉(zhuǎn)移函數(shù)5的具體規(guī)則, 即E1、 E2 ... E7,實(shí)現(xiàn)狀態(tài)的轉(zhuǎn)移,E1為從語(yǔ)音采集和A/D轉(zhuǎn)換狀態(tài)正常運(yùn)行 后,跳轉(zhuǎn)到語(yǔ)音識(shí)別狀態(tài);E2為對(duì)輸入事件進(jìn)行正確的語(yǔ)音識(shí)別后跳轉(zhuǎn)到轉(zhuǎn) 換邏輯查詢狀態(tài);E3為滿足語(yǔ)音輸出時(shí),跳轉(zhuǎn)到語(yǔ)音回答輸出狀態(tài);E4為當(dāng) 語(yǔ)音交互過(guò)程中的輸出反應(yīng)完成時(shí),跳轉(zhuǎn)到結(jié)束推出狀態(tài);E5為當(dāng)在某一狀 態(tài)下,不能進(jìn)行判斷時(shí),返回到上一狀態(tài);E6為當(dāng)在某一狀態(tài)下發(fā)生錯(cuò)誤 時(shí),直接跳轉(zhuǎn)到結(jié)束狀態(tài),從而結(jié)束該詞對(duì)話,開始新的交互。將有限狀態(tài)機(jī)的理論與語(yǔ)音交互過(guò)程相結(jié)合,將語(yǔ)音采集和A/D轉(zhuǎn)換、語(yǔ) 音識(shí)別、XML配置文件解析、轉(zhuǎn)換規(guī)則對(duì)應(yīng)、語(yǔ)音回答輸出等作為不同的狀 態(tài),在狀態(tài)機(jī)中進(jìn)行狀態(tài)的判斷和轉(zhuǎn)換,從而實(shí)現(xiàn)自然和諧的語(yǔ)音交互過(guò) 程。FSM作為語(yǔ)音交互系統(tǒng)的動(dòng)態(tài)行為模型,基于"事件驅(qū)動(dòng)"的"狀態(tài)轉(zhuǎn)移,,,適合于動(dòng)態(tài)控制流程的表達(dá),使系統(tǒng)具有了交互行為的邏輯表達(dá)能力,大大增強(qiáng)了可操作性?;谟邢逘顟B(tài)機(jī)的語(yǔ)音交互的優(yōu)點(diǎn)是 一方面規(guī) 范了交互系統(tǒng)的行為和控制流程,縮短了用戶在某一情景下進(jìn)行語(yǔ)音交互的 設(shè)計(jì)開發(fā)周期,增加了交互的自然和順暢;另一方面,使用FSM模型,將語(yǔ)音 交互過(guò)程所需實(shí)現(xiàn)的控制功能的狀態(tài),及其繼承、轉(zhuǎn)移關(guān)系的程度,更清晰 的表達(dá)出該交互系統(tǒng)中各輸入事件、對(duì)應(yīng)規(guī)則、狀態(tài)跳轉(zhuǎn)、交互輸出的構(gòu)成 結(jié)構(gòu)。利用該方法成功地設(shè)計(jì)了面向兒童"寓教于樂(lè)"智能玩具的語(yǔ)音交互 系統(tǒng),并在實(shí)際的產(chǎn)品運(yùn)行中驗(yàn)證了上述設(shè)計(jì)方法的可行性。本實(shí)施例的系統(tǒng)還可以通過(guò)多種連接方式與計(jì)算機(jī)連接,可以實(shí)現(xiàn)多種 擴(kuò)展功能上述系統(tǒng)除USB接口外,還可采用無(wú)線網(wǎng)絡(luò)模塊,在支持無(wú)線網(wǎng)絡(luò)的環(huán)境 下,使該語(yǔ)音交互系統(tǒng)能夠自動(dòng)連接到配套的網(wǎng)站,并根據(jù)用戶的要求, (如針對(duì)將該系統(tǒng)應(yīng)用在智能玩具上的情況,在按動(dòng)玩具上某個(gè)部位的按鍵 時(shí)),實(shí)現(xiàn)對(duì)話內(nèi)容、歌曲、故事、數(shù)學(xué)闖關(guān)或其它網(wǎng)站上提供的對(duì)話主題 (如生日祝福對(duì)話、戀人表白對(duì)話、對(duì)父母親人的思念問(wèn)候?qū)υ?等主題的 下載,從而實(shí)現(xiàn)網(wǎng)絡(luò)的自動(dòng)更新。每個(gè)語(yǔ)音系統(tǒng)的無(wú)線模塊都具有單獨(dú)的IP地址,當(dāng)在支持無(wú)線網(wǎng)絡(luò)的環(huán) 境中時(shí),該無(wú)線模塊會(huì)自動(dòng)搜索,并與無(wú)線路由器建立鏈接,無(wú)線路由器與 外部Internet網(wǎng)相連,乂人而該語(yǔ)音系統(tǒng)與Internet網(wǎng)絡(luò)建立連接,并具有獨(dú) 立的IP地址;該語(yǔ)音系統(tǒng)內(nèi)部預(yù)選內(nèi)置了下載網(wǎng)站(網(wǎng)絡(luò)服務(wù)器)的地址,當(dāng) 與外部網(wǎng)絡(luò)聯(lián)通后,會(huì)自動(dòng)登陸到該網(wǎng)站,并根據(jù)用戶按動(dòng)下載按鍵的指 令,下載對(duì)應(yīng)的網(wǎng)絡(luò)內(nèi)容,實(shí)現(xiàn)內(nèi)容的更新。②通過(guò)無(wú)線網(wǎng)絡(luò)的實(shí)時(shí)親人、朋友對(duì)話該語(yǔ)音系統(tǒng)通過(guò)無(wú)線才莫塊與Internet網(wǎng)絡(luò)自動(dòng)連接后,使該系統(tǒng)具有獨(dú) 立的IP地址,使在其它任何可以上網(wǎng)的地方,都可以與該語(yǔ)音系統(tǒng)建立連 接,并實(shí)現(xiàn)網(wǎng)絡(luò)的通話功能,如該語(yǔ)音交互系統(tǒng)以智能玩具的形式抱在兒 童的懷中,在單位的父母可通過(guò)網(wǎng)絡(luò)實(shí)時(shí)與自己的小孩進(jìn)行通話,了解其情 況,并進(jìn)行親情的交流,兒童只需按動(dòng)玩具的某個(gè)部位的按鍵即可實(shí)現(xiàn)。在上述處理過(guò)程中,當(dāng)語(yǔ)音系統(tǒng)通過(guò)無(wú)線網(wǎng)絡(luò)^t塊與外部Internet網(wǎng)絡(luò) 建立連4妄后,該系統(tǒng)具有相應(yīng)的IP地址,外部用戶通過(guò)該IP地址,可與語(yǔ)音 系統(tǒng)建立連接,并發(fā)送通話請(qǐng)求,在語(yǔ)音系統(tǒng)這邊會(huì)有提示音,用戶通過(guò)按 動(dòng)回答按鍵,建立與互聯(lián)網(wǎng)網(wǎng)上的其他用戶的通話連接,并復(fù)用上述語(yǔ)音系 統(tǒng)的音頻輸入、輸出裝置,進(jìn)行通話。實(shí)現(xiàn)了在任何地方的用戶,只要能夠 上網(wǎng)即可與該語(yǔ)音系統(tǒng)進(jìn)行對(duì)話,從而實(shí)現(xiàn)將本地的語(yǔ)音交互擴(kuò)展為網(wǎng)絡(luò)上 的語(yǔ)音交互。③藍(lán)牙功能該語(yǔ)音系統(tǒng)還可以設(shè)置藍(lán)牙模塊,通過(guò)藍(lán)牙可實(shí)現(xiàn)與具有藍(lán)牙功能的 PC、手機(jī)及其它智能設(shè)備的互聯(lián),從而方便的通過(guò)無(wú)線的方式,與PC上的客 戶端軟件建立連接,并實(shí)現(xiàn)語(yǔ)音識(shí)別對(duì)話內(nèi)容、歌曲、故事等形式的更新。 還可完成內(nèi)置軟件的智能升級(jí)等功能。當(dāng)開啟該系統(tǒng)中的藍(lán)牙模塊后,該藍(lán)牙模塊會(huì)自動(dòng)的搜尋周圍的藍(lán)牙通 訊,當(dāng)發(fā)現(xiàn)某藍(lán)牙裝置(如帶有藍(lán)牙功能的筆記本電腦或高端手機(jī))后,會(huì) 與發(fā)出與該設(shè)備進(jìn)行連接的請(qǐng)求,筆記本允許連接后,該藍(lán)牙模塊即與筆記 本電腦建立的基于藍(lán)牙的無(wú)線連接,從而實(shí)現(xiàn)運(yùn)行在筆記本電腦上的客戶端 軟件與該語(yǔ)音系統(tǒng)的通訊及對(duì)話內(nèi)容及其它文件的下載。本實(shí)施例所述系統(tǒng)還可以在無(wú)計(jì)算機(jī)的前提下,實(shí)現(xiàn)交互系統(tǒng)的設(shè)置及 3D、動(dòng)畫的演示,具體如下①無(wú)計(jì)算機(jī)連接進(jìn)行交互系統(tǒng)的設(shè)置該語(yǔ)音系統(tǒng)可以包括一個(gè)真彩色的TFT LCD及外面的觸摸屏,能夠?qū)υ摻?互系統(tǒng)的一些運(yùn)行情況及信息進(jìn)行顯示,同時(shí)用戶可通過(guò)觸摸屏方便的實(shí)現(xiàn) 對(duì)話內(nèi)容的設(shè)置,及歌曲、故事播放順序等的設(shè)置,從而不需與PC相連,即 可實(shí)現(xiàn)該交互系統(tǒng)的設(shè)置和更新。②3D、動(dòng)畫的演示通過(guò)該系統(tǒng)所具有的LCD顯示器,可實(shí)現(xiàn)3D、動(dòng)畫的播放,從而使得該交 互系統(tǒng)的內(nèi)容更加的豐富,同時(shí)該LCD顯示器可播放不同情緒的圖案(如喜怒 哀樂(lè)、哭臉、笑臉、垂頭喪氣等),與語(yǔ)音對(duì)話識(shí)別相結(jié)合,從而使得交互 過(guò)程更加的自然逼真,仿佛兩個(gè)人在進(jìn)行交流對(duì)話一樣。LCD部分的硬件電路結(jié)構(gòu)見圖12, LCD的驅(qū)動(dòng)程序在嵌入式Linux操作系統(tǒng) 中支持,如同臺(tái)式^L的顯示器一樣,通過(guò)線路進(jìn)行連接,同時(shí)該系統(tǒng)還可以 設(shè)置觸摸屏,設(shè)置觸摸屏?xí)r,其控制信號(hào)也與中央處理器S3C2410相連,用戶 在首次使用時(shí)進(jìn)行校準(zhǔn),當(dāng)用戶使用觸摸筆點(diǎn)擊觸摸屏?xí)r,觸摸屏對(duì)應(yīng)的 (x, y)坐標(biāo)信息傳到CPU,根據(jù)其位置信息進(jìn)行相應(yīng)的操作。3D、動(dòng)畫的演示存儲(chǔ)在Flash存儲(chǔ)器中,由中央處理器S3C2410進(jìn)行調(diào) 用,并在LCD顯示屏上進(jìn)行顯示,同時(shí)和語(yǔ)音識(shí)別的狀態(tài)機(jī)(FSM)相結(jié)合, 中央處理器S 3C241 O根據(jù)語(yǔ)音系統(tǒng)的狀態(tài)進(jìn)行判斷,從而在輸出語(yǔ)音信息的同 '時(shí),在LCD上顯示不同的動(dòng)畫和圖案。綜上所述,本發(fā)明實(shí)施例中的系統(tǒng)通過(guò)USB連接線(或無(wú)線連接的方式) 與計(jì)算機(jī)連接,安裝在計(jì)算機(jī)上的客戶端軟件能夠自動(dòng)識(shí)別系統(tǒng)并建立連 接,用戶通過(guò)具有圖形化界面的客戶端軟件,能夠方便的定制出自己的語(yǔ)音 交互情景,包括可以自己設(shè)置識(shí)別的問(wèn)話,將自己的錄音作為系統(tǒng)的回答, 并且可以在中間插入歌曲、故事等情景,還可以設(shè)計(jì)基于語(yǔ)音識(shí)別的游戲環(huán) 節(jié),如故事接龍、數(shù)學(xué)闖關(guān)、智力問(wèn)答等,按客戶端軟件規(guī)定的步驟操作完 成后,就可以通過(guò)USB接口線方便快捷的下載到系統(tǒng)的存儲(chǔ)器中,從而成為一個(gè)具有全新內(nèi)容并有自己聲音的語(yǔ)音交互裝置。其可以用戶自己定制,充分 發(fā)揮想象力,創(chuàng)造出不同的情景和內(nèi)容,更具有靈活性、智能性、參與性。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不 局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可 輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明 的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1、一種智能語(yǔ)音交互系統(tǒng),其特征在于,該系統(tǒng)包括處理器、存儲(chǔ)器、語(yǔ)音處理單元、語(yǔ)音輸入裝置、語(yǔ)音輸出裝置、通信處理單元構(gòu)成;處理器、存儲(chǔ)器、語(yǔ)音處理單元及通信處理單元均設(shè)置在電路板上,存儲(chǔ)器、語(yǔ)音處理單元及通信處理單元通過(guò)總線與處理器連接構(gòu)成嵌入式控制板;語(yǔ)音輸入裝置、語(yǔ)音輸出裝置分別與嵌入式控制板上的所述的語(yǔ)音處理單元連接;通信處理單元上設(shè)有通信接口,所述通信接口用于與安裝定制用客戶端軟件的計(jì)算機(jī)連接。
2、 根據(jù)權(quán)利要求l所述的系統(tǒng),其特征在于,所述存儲(chǔ)器包括動(dòng)態(tài)存儲(chǔ)器與FLASH存儲(chǔ)器,兩者分別通過(guò)地址/數(shù)據(jù)總線與處理器連接。
3、 根據(jù)權(quán)利要求l所述的系統(tǒng),其特征在于,所述語(yǔ)音處理單元包括 語(yǔ)音采集模塊,與所述語(yǔ)音輸入裝置及處理器連接,用于接收語(yǔ)音輸入裝置輸入的語(yǔ)音信息并傳送至處理器;語(yǔ)音輸出模塊,與所述處理器及語(yǔ)音輸出裝置連接,用于將處理器處理 后的語(yǔ)音信息輸出至語(yǔ)音輸出裝置。
4、 根據(jù)權(quán)利要求l所述的系統(tǒng),其特征在于,所述通信處理單元包括 USB接口處理模塊,與連接安裝定制用客戶端軟件的計(jì)算機(jī)的USB接口連接,對(duì)經(jīng)所述USB接口從計(jì)算機(jī)獲取的數(shù)據(jù)傳送至FLASH存儲(chǔ)器,并由所述處 理器進(jìn)行處理;無(wú)線處理模塊,與安裝定制用客戶端軟件的計(jì)算機(jī)進(jìn)行無(wú)線連接,用于 對(duì)通過(guò)無(wú)線連接從計(jì)算機(jī)中獲取的數(shù)據(jù)傳送至所述處理器進(jìn)行處理。
5、 根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,所述無(wú)線處理模塊包括 藍(lán)牙模塊或無(wú)線網(wǎng)絡(luò)模塊WLAN。
6、 根據(jù)權(quán)利要求l所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 顯示處理模塊,通過(guò)總線與處理器連接,用于處理處理器輸出的圖形界面信息,顯示處理模塊上設(shè)有用于連接顯示裝置的顯示接口 ;顯示裝置,與所述顯示處理模塊的顯示接口連接,用于顯示由所述顯示 處理模塊輸出的圖形界面信息。
7、 一種智能語(yǔ)音交互系統(tǒng)的交互方法,其特征在于,包括系統(tǒng)啟動(dòng),處理器加載存儲(chǔ)器中的語(yǔ)音識(shí)別模塊及語(yǔ)音庫(kù)模塊;語(yǔ)音輸入裝置錄入外部聲音命令并傳送至語(yǔ)音處理單元,外部聲音命令 經(jīng)語(yǔ)音處理單元轉(zhuǎn)化為數(shù)字聲音信號(hào);語(yǔ)音處理單元將所述數(shù)字聲音信號(hào)傳送至處理器,處理器調(diào)用所述語(yǔ)音 識(shí)別模塊對(duì)所述數(shù)字聲音信號(hào)進(jìn)行比對(duì);處理器根據(jù)比對(duì)結(jié)果,將語(yǔ)音庫(kù)模塊中的對(duì)應(yīng)的應(yīng)答數(shù)字聲音信號(hào)通過(guò) 語(yǔ)音處理單元經(jīng)語(yǔ)音輸出裝置輸出。
8、 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述處理器加載存儲(chǔ)器中 的語(yǔ)音識(shí)別模塊及語(yǔ)音庫(kù)模塊包括通過(guò)處理器的控制,將存儲(chǔ)在FLASH存儲(chǔ)器中的語(yǔ)音識(shí)別模塊、語(yǔ)音庫(kù)模 塊加載到動(dòng)態(tài)存儲(chǔ)器中。
9、 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括從處于 聯(lián)機(jī)狀態(tài)的計(jì)算機(jī)中,通過(guò)定制用客戶端軟件對(duì)所述語(yǔ)音庫(kù)模塊對(duì)應(yīng)的配置 文件及相應(yīng)的數(shù)據(jù)進(jìn)行定制更新;或者,通過(guò)處于聯(lián)機(jī)狀態(tài)的計(jì)算機(jī)從網(wǎng)絡(luò)服務(wù)器下載與語(yǔ)音庫(kù)模塊相對(duì)應(yīng)的配 置文件及相應(yīng)的數(shù)據(jù),通過(guò)所述配置文件及相應(yīng)的數(shù)據(jù)對(duì)語(yǔ)音庫(kù)模塊進(jìn)行更 新;或者,通過(guò)無(wú)線連接方式與網(wǎng)絡(luò)或智能設(shè)備連接,并從網(wǎng)絡(luò)服務(wù)器或智能設(shè)備下 載與語(yǔ)音庫(kù)模塊相對(duì)應(yīng)的配置文件及相應(yīng)的數(shù)據(jù),通過(guò)所述配置文件及相應(yīng)的數(shù)據(jù)對(duì)語(yǔ)音庫(kù)模塊進(jìn)行更新。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括通過(guò)無(wú) 線網(wǎng)絡(luò)模塊與網(wǎng)絡(luò)建立連接后,使用者通過(guò)網(wǎng)絡(luò)與該語(yǔ)音交互系統(tǒng)進(jìn)行對(duì) 話,將本地的語(yǔ)音交互擴(kuò)展為通過(guò)網(wǎng)絡(luò)進(jìn)行的語(yǔ)音交互。
全文摘要
本發(fā)明公開了一種智能語(yǔ)音交互系統(tǒng)及交互方法,該系統(tǒng)包括處理器、存儲(chǔ)器、語(yǔ)音處理單元、語(yǔ)音輸入裝置、語(yǔ)音輸出裝置、通信處理單元構(gòu)成;處理器、存儲(chǔ)器、語(yǔ)音處理單元及通信處理單元均設(shè)置在電路板上,存儲(chǔ)器、語(yǔ)音處理單元及通信處理單元通過(guò)總線與處理器連接構(gòu)成嵌入式控制板;語(yǔ)音輸入裝置、語(yǔ)音輸出裝置分別與嵌入式控制板上的所述的語(yǔ)音處理單元連接;通信處理單元上設(shè)有通信接口,所述通信接口用于與安裝定制用客戶端軟件的計(jì)算機(jī)連接。該系統(tǒng)可以作為通用的智能語(yǔ)音交互平臺(tái),且用戶可自己設(shè)置不同的交互情景和識(shí)別內(nèi)容,應(yīng)用在多種場(chǎng)合,如人機(jī)對(duì)話系統(tǒng)、智能玩具或服務(wù)機(jī)器人等,應(yīng)用性更強(qiáng),實(shí)用性更強(qiáng),可脫離計(jì)算機(jī)進(jìn)行工作。
文檔編號(hào)G06F3/16GK101246687SQ20081010234
公開日2008年8月20日 申請(qǐng)日期2008年3月20日 優(yōu)先權(quán)日2008年3月20日
發(fā)明者淼 劉, 李仕毅, 王田苗, 瑩 鄒, 永 陶, 魏洪興 申請(qǐng)人:北京航空航天大學(xué)