專利名稱:與揚聲器無關的語音識別裝置的制作方法
技術領域:
本發(fā)明涉及在遠程通信系統(tǒng)中與揚聲器無關的語音識別,尤其是 涉及用于語音識別的發(fā)音模型化。技術背景近年來已經(jīng)開發(fā)了不同的語音識別應用,例如,用于汽車的用戶 接口和移動站等。用于移動站的已知方法包括通過對移動站的話筒大聲地說出他的/她的名字并建立對依據(jù)用戶所說的名字號碼的呼叫來 呼叫一個特定人的方法。然而,為了識別每個名字的發(fā)音,本方法通 常需要對網(wǎng)絡中的移動站或系統(tǒng)進行培訓。與揚聲器無關的語音識別 改進了語音控制的用戶接口的可用性,因為可以省略這個培訓階段。 在揚聲器無關的名字選擇中,可以對聯(lián)系信息中的名字的發(fā)音模型 化,寸以將由用戶說出的名字與所規(guī)定的發(fā)音模型,如一種音素序列, 作比較。多種與揚聲器無關的語音識別方法是已知的,由此可以實現(xiàn)發(fā)音 的模型化。例如,為此目的可以使用音素詞匯?;谝羲卦~匯的一種 方法公開在WO 9 926 232中。然而,音素詞匯的規(guī)模是如此之大, 以致目前移動站的存儲器容量是不夠的。其它的問題是由在詞匯中未 找到的名字和字引起的。不同的統(tǒng)計方法,如神經(jīng)網(wǎng)絡和判定樹,使 較少的存儲器花費成為可能。雖然利用判定樹比利用需要較少存儲器 空間的神經(jīng)網(wǎng)絡可以達到更精確的結(jié)果,但兩種方法都是有丟失的。 這樣就降低了模型的精度,也就使語音識別精度的性能下降。因此, 關于精度和存儲器的花費必須要作折衷。盡管有高的壓縮度,判定樹 和神經(jīng)網(wǎng)絡的存儲器要求仍然是相當高的。典型情況下, 一種基于判 定樹的模型系統(tǒng)對每種模型化的語言需要大約100至250KB的存儲 器,當實施移動站時,這可能是太多了。另一種可選方案是發(fā)送由用戶的語音組成的聲頻信號到一個網(wǎng)絡,并在網(wǎng)絡中實現(xiàn)語音識別。在 網(wǎng)絡中實現(xiàn)語音識別需要對一種服務建立連接,這將引起過分的延 時,并且無線電路徑上的干擾降低后繼工作的前景。 發(fā)明概述因此,本發(fā)明的一個目的是提供一種方法和實現(xiàn)該方法的設備, 使得精確的發(fā)音模型化成為可能并減輕以上的問題。本發(fā)明的目的是 利用其特征被描述在獨立的權(quán)利要求中的方法,遠程通信系統(tǒng),電子 設備,月良務器,計算機程序產(chǎn)品和數(shù)據(jù)媒體實現(xiàn)的。本發(fā)明的優(yōu)選實 施方案被公開在從屬的權(quán)利要求中。本發(fā)明是基于這樣的構(gòu)思,即用于便攜式電子設備的發(fā)音模型化 是在一種分離的服務器設備中實現(xiàn)的。因此,要將用于語音識別的字 符序列從一個電子設備發(fā)送到一個比電子設備擁有更多的可用的存 儲器容量的服務器。字符序列在服務器中被變換成至少一種聲音單元 序列。將該聲音單元序列從該服務器發(fā)送到該電子設備以便在語音識 別中使用。任何包括遠程通信裝置的數(shù)據(jù)處理設備可起著該服務器的 作用,將該數(shù)據(jù)處理設備安排成實施對從一個或多個電子設備接收到 的字符序列變換成一種聲音單元序列。字符序列是指字符的任何組 合。典型情況下,它是一種字母序列,但也可以是標點符號(例如逗 號或空格字符)。字符序列也可以由多數(shù)在亞洲人的語言中使用的象形字符組成。聲音單元包括任何聲音事件,例如20ms語音樣本,音 節(jié),音素或音素的部分。典型情況下,實現(xiàn)語音識別的設備將音素分 成三部分(開始,中間,結(jié)束),可以據(jù)此實施與語音信息的比較。 應該指出, 一個音素也可以是指一個音素群(在不同的語言中發(fā)音形 式可以相互非常接近)。因為服務器本來就比該電子設備擁有更多的可用的存儲器容量, 在依據(jù)本發(fā)明的解決方案中,對發(fā)音模型化精度的折衷是不需要的。 因為沒有存儲器約束,也可以支持比在電子設備中實施的模型化更多 的語言。依據(jù)本發(fā)明的優(yōu)選實施方案,將從電子設備接收到的字符序列用 作搜索與所述的序列有關的信息(例如電話號碼)的基礎。除了聲音 單元序列以外,將該信息發(fā)送到電子設備。這對用戶是有利的,因為 可以容易地提供與字符序列有關的附加信息用于電子設備中。依據(jù)本發(fā)明的另一種優(yōu)選實施方案,在一種聲音合成器中用聲音 單元序列組成一個聲音模型。將該聲音模型存儲在電子設備中,將它 與字符序列或它的標記相聯(lián)系。至少作為對基本上對應于從字符序列 接收到的聲音單元序列的用戶語音命令的一種響應,對電子設備的用 戶重復該聲音模型。這樣就改進了可用性,因為用戶也接收與字符序 列有關的聲音反饋。附圖
簡述現(xiàn)在將參考附圖,結(jié)合優(yōu)選實施方案更詳細地描述本發(fā)明,其中圖la示出一種可以應用本發(fā)明的遠程通信系統(tǒng)方框圖;圖lb示出一種電子設備和服務器的方框圖;圖2示出一種依據(jù)本發(fā)明的第一優(yōu)選實施方案的方法的流程圖;圖3示出一種依據(jù)本發(fā)明的第二優(yōu)選實施方案的方法的流程圖;和圖4示出一種依據(jù)本發(fā)明的實施方案的流程圖,在其中組成一個聲音模型。 發(fā)明詳述本發(fā)明可應用到任何遠程通信系統(tǒng),該系統(tǒng)包括一個含有語音識 別應用的電子設備,和一個服務器,可以在它們之間傳送數(shù)據(jù)。以下, 描述使用音素序列作為發(fā)音模型,然而,并沒有將本發(fā)明局限于此。圖la示出幾個可以應用本發(fā)明的不同例子。 一個連到局域網(wǎng)LAN 的電子設備TE包括數(shù)據(jù)傳輸裝置和控制數(shù)據(jù)傳輸?shù)能浖员闩c網(wǎng) 絡LAN中的設備通信。TE可以包括一個無線局域網(wǎng)的網(wǎng)絡接口卡,該 卡是基于IEEE. 11標準之一或基于BRAN (寬帶無線電接入網(wǎng))標準化 工程的標準。電子設備TE可被連到局域網(wǎng)LAN并進一步通過接入點 AP或通過因特網(wǎng)和防火墻連到服務器S。 TE也可以直接與服務器S通 信,例如,利用電纜,紅外或一種在射頻上起作用的數(shù)據(jù)傳輸解決方 案,如藍牙發(fā)送接收機。如圖la中所示,TE可以是任何實施語音識 別的便攜式電子設備,例如,PDA設備,遙控器或耳機和話筒的組合。 TE可以是由計算機或移動站使用的一個輔助設備,在這種情況下,可 以安排通過計算機或移動站對服務器S數(shù)據(jù)傳輸。依據(jù)本發(fā)明的一種優(yōu)選實施方案,TE是一個與公共陸地移動網(wǎng) PLMN通信的移動站,在功能上服務器S也被,例如通過因特網(wǎng)連在其上。連到網(wǎng)PLMN的電子設備TE包括用于與網(wǎng)PLMN無線方式通信的 移動站功能。移動網(wǎng)PLMN可以是任何已知的無線網(wǎng),例如,支持GSM 服務的網(wǎng),支持GPRS(通用分組無線電服務)的網(wǎng),或第三代移動網(wǎng), 如依據(jù)3GPP (第三代合作項目)標準的UMTS (通用移動遠程通信系 統(tǒng))網(wǎng)。也可以在移動網(wǎng)PLMN中實現(xiàn)服務器S的功能。電子設備TE 可以是一個只供說話的移動電話,或者也可以包含PDA (個人數(shù)字助 手)功能。如圖lb中所示,電子設備TE (在有線網(wǎng)LAN和無線網(wǎng)PLMN中) 和服務器S包括存儲器MEM; SMEM,用戶接口 UI; SUI, I/O裝置I/O; 用于在S和TE之間直接地或通過網(wǎng)絡(PLMN, LAN,因特網(wǎng))安排數(shù) 據(jù)傳輸?shù)腟I/0,和中央處理單元CPU;包括一個或多個處理器的SCPU。 存儲器MEM; SMEM包含一個非揮發(fā)性部分,用于存儲控制中央處理單 元CPU; SCPU的應用程序;和一個用于數(shù)據(jù)處理的隨機存取存儲器。 最好通過在CPU中執(zhí)行存儲在存儲器MEM中的計算機程序代碼實現(xiàn)語 音識別方框SRB。服務器S最好通過在SCPU中執(zhí)行存儲在存儲器SMEM 中的計算機程序代碼提供文本到音素轉(zhuǎn)換方框TPB。在中央處理單元 CPU和SCPU中執(zhí)行的計算機程序代碼使電子設備TE和服務器S實現(xiàn) 本發(fā)明的特征,某些實施方案被示于圖2和3中??梢酝ㄟ^網(wǎng)絡接收 計算機程序和/或存儲在存儲器裝置中,例如存儲在盤上,CD-ROM盤 或其他的外部存儲器裝置,可將它們由此加載到存儲器MEM, SMEM中。 也可以使用集成電路來實現(xiàn)SRB和TPB。圖2示出一種依據(jù)本發(fā)明第一優(yōu)選實施方案的方法,在其中由服 務器S實現(xiàn)的文本音素方框TPB也包括一個語音選擇器,也就是一種 語言選擇算法。典型情況下TE通過用戶接口 UI接收201字符序列。 字符序列通常是由用戶送入的,例如要增加到聯(lián)系詳情中的一個正確 的名字。在電子設備TE中執(zhí)行的某些應用程序產(chǎn)生201字符序列, 例如 一 種控制命令串,以后用戶能夠通過說出該序列來控制該應用程 序,這也是可能的。利用I/O裝置1/0, TE (SRB),發(fā)送202字符序列 到服務器S,在其中借助于裝置SI/0接收203該序列。服務器S所需 的識別信息,例如ISDN-基的號碼或TE將字符序列指向的IP地址, 已經(jīng)事先存儲在電子設備TE的存儲器MEM中。如果服務器S是在移 動網(wǎng)PLMN中,PLMN經(jīng)營者,例如,可以將識別信息存儲在一種IC卡上,可由此對它檢索。服務器S的文本音素轉(zhuǎn)換方框TPB包括一個語言選擇器,確定204 字符序列的語言。例如可以利用被稱為N grams (帶有字母N的組合) 的方法或根據(jù)短字出現(xiàn)的概率來確定語言。也可以借助于判定樹來確 定語言根據(jù)不同語言的詞匯,字符專有的判定樹受培訓,根據(jù)每個 字符的字符環(huán)境,判定樹表示至少一種語言的概率。這些判定樹被存 儲在服務器S中(存儲器SMEM中)。對于接收到的字符序列逐個字 符查看判定樹,然后對于字符序列確定語言。需要指出,如果服務器 S只在特定的語言中的對字符序列實施文本音素轉(zhuǎn)換,則步驟204是 不需要的。當在服務器S中確定語言時,可以利用服務器較大的資源, 語言的成功選擇是高概率的。依據(jù)所確定的語言TBP將字符序列轉(zhuǎn)換成205音素序列。例如, 字符序列'James Bond,可得到音素序列'/jh/ /ey/ /m/ /z/ /b/ /oh/ /n/ /d/,。典型情況下,利用一種檢查表或自動的文本音素映射實 現(xiàn)文本音素轉(zhuǎn)換。映射是典型的與語言有關的,而檢查表始終是語言 有關的;換句話說,對于不同的語言有分離的文本音素源。可以利用 任何技術實現(xiàn)文本音素轉(zhuǎn)換,例如,利用采用HMM(隱蔽的馬爾柯夫 模型)技術,神經(jīng)網(wǎng)絡或判定樹的各種詞匯。出版物'SELF-ORGANIZING LETTER CODE-BOOK FOR TEXT-TO-P隱EME NEURAL NETWORK MODEL' by Kire Jean Jensen and S <^ ren Riis presented in the 6th International Conference on Spoken Language Processing (ICSLP ) , 16-20 October 2000 , Beijing, China,公開了一種 利用神經(jīng)網(wǎng)絡的方法,和出版物 'DECISION TREE BASED TEXT-TO-PHONEME MAPPING FOR SPEECH RECOGNITION ' by Janne Suontausta and Juha Hakkinen公開了 一種利用判定樹的方法。因為 服務器S的存儲器容量并不象電子設備TE那樣受到限制,可以選擇 一種使盡可能精確的音素轉(zhuǎn)換成為可能的技術。服務器S發(fā)送206音素序列到電子設備TE。在電子設備中,音素 序列被存儲207在存儲器MEM中(也可以是一種分離的附屬于設備的 存儲器卡或IC卡的存儲器),將該序列與已存儲入存儲器MEM的原 始的字符序列或它的標志相聯(lián)系。例如,音素序列被附到聯(lián)系詳情的 名字標志上。當語音識別方框SRB被激活時,從用戶經(jīng)話筒接收到的語音信息208與所存儲的音素序列相比較209。如果基本上與語音信 息匹配的音素序列被找到,與它有聯(lián)系的字符序列被選取210用于一 項服務。字符序列也可被表示在TE的用戶接口 UI的顯示器上。在此 以后,根據(jù)字符序列或進一步與它有關聯(lián)的信息可以激活該項服務。 如果TE是一個移動站, 一種典型的服務是選擇一個名字并對與該名 字有關的號碼建立呼叫。然而,服務可以包括執(zhí)行電子設備中的一個 控制命令,例如,激活鍵板鎖。因此,命令可被模型化為一個音素序 列,用戶可以利用他的/她的語音控制電子設備TE。服務也可以是從 用戶的語音確定到顯示器上的文本,用以實現(xiàn)回放口述的自動識別。 服務的幾個其他的例子包括根據(jù)導航系統(tǒng)中的語音搜索街道地址和 城市名稱,或根據(jù)作者的名字檢索數(shù)據(jù)庫??梢酝耆詣拥貙嵤┮陨纤枋龅牟襟E201到210,所以為了對 輸入的字符實施語音識別,用戶不需要采取任何額外的措施。音素轉(zhuǎn) 換可被存儲在,例如,TE中,它是例如, 一個支持GSM標準的移動站, 然而,聯(lián)系詳情已被存儲在包括SIM (用戶身份模塊)應用程序的IC 卡上如果用戶將IC卡調(diào)換到一個新的移動站上,可對IC卡的聯(lián)系 詳情自動地實施文本音素轉(zhuǎn)換。如果在服務器S和TE之間的數(shù)據(jù)傳 輸對用戶產(chǎn)生成本,例如用于在公共陸地移動網(wǎng)PLMN中傳送短消息 的費用,在傳送字符序列202以前,可以請求用戶認付。圖3示出一種依據(jù)第二優(yōu)選實施方案的方法,其中語言的選擇是 在電子設備TE中執(zhí)行的。最好語音識別方框SRB包括一個語言選擇 器。接收到的301字符序列被送到語言選擇器,語言選擇器用以上關 于步驟204所描述的方法之一確定302語言,在此以后,TE發(fā)送303 字符序列和語言標志到服務器S。 S (TPB)實施305文本音素轉(zhuǎn)換, 并可用以上描述的方法實施步驟306至310。用戶選擇302語言也是. 可能的。這種第二實施方案有這樣的優(yōu)點,電子設備的設置可用在語 言選擇中(例如選擇用戶接口 UI的語言),或者由語言選擇器建議 的一種語言或最有可能的幾種語言可提供給用戶供選擇。依據(jù)本發(fā)明的一種實施方案,在步驟203和204以后,服務器S 在存儲器SMEM或另 一個網(wǎng)絡部件,例如,GSM網(wǎng)的主位置寄存器(HLR ), 或連到因特網(wǎng)的聯(lián)系目錄中搜索可能與接收到的字符序列有關的信 息。S利用接收到的字符序列作為它的搜索標志執(zhí)行數(shù)據(jù)庫搜索。各種可替換的電話號碼(家庭號碼,移動電話號碼,辦公室號碼,傳真號碼)或電子郵件地址可以與字符序列相聯(lián)系。除了音素序列外,s發(fā)送信息206, 306到電子設備TE最好是利用相同的消息。因此,在 網(wǎng)絡中的附加信息可容易地發(fā)送到電子設備而不需要用戶為此分開 請求。也可由附加的信息組成205, 305 —個或多個音素序列,并被 發(fā)送206, 306??梢杂秒娮釉O備的存儲器MEM中的信息存儲(207 ) 這些音素序列。用這種方法,更多的信息變得容易在電子設備中得到, 用戶能夠依靠語音選擇信息。例如,原先發(fā)送的字符序列'Peter, 可用在網(wǎng)絡中找到的工作號碼加以補充,也就是字符序列'Peter work,和字符序列 'Peter work' 的音素序列。要指出的是,字符序列,例如名字'Peter,可被用在多種語言 中,在這種情況下對于字符序列204, 302獲得幾種語言。這樣,TBP 根據(jù)幾種語言組成205, 305音素序列,所有所獲得的音素序列被發(fā) 送到電子設備206。音素序列可被自動地存儲207, 307在存儲器MEM 中,或者在存儲207, 307以前可以請求用戶選擇/確認音素序列。圖4示出一種實施方案,依據(jù)這種方案從電子設備TE的聲音合 成器中的服務器S接收到的(206, 306 )音素序列組成一種聲音模型。 因為聲音模型是與語言有關的,聲音模型的形成401是依據(jù)所確定的 語言(204, 302 )實現(xiàn)的??梢越柚谡Z音合成或以前存儲的聲音模 型組成該聲音模型。聲音模型被存儲在402電子設備TE的存儲器MEM中,將它與字符序列或它的標志相關聯(lián)。如果用戶的語音信息基本上 與聲音模型有關聯(lián)的字符序列的音素序列匹配,也就是在步驟209或309以后,聲音模型被播放到403電子設備的用戶。當它從服務器S 接收到時,聲音模型也可被播放到用戶。如果用只在顯示器上根據(jù)語 音識別選取的字符序列提供給用戶,用戶必須移動電子設備TE遠離 他的/她的耳朵,看看所選的字符序列如何。播放聲音模型消除了這 個缺點,并提供用戶聲音反饋,進一步增加用戶在與揚聲器無關的語 音識別中的便利??砂催@樣一種方式進一步利用這個實施方案,使用 戶可以根據(jù)幾種所建議的聲音模型選擇一 個或多個音素序列(也就是 所建議的發(fā)音形式)。用戶也可以根據(jù)所播放的聲音模型拒絕所建議 的發(fā)音,從而可在網(wǎng)絡中實施新的文本音素轉(zhuǎn)換, 一個新的音素序列 可被發(fā)送到電子設備TE。用這種方法,可以進一步改進語音識別。依據(jù)一種優(yōu)選實施方案,在服務器S和電子設備TE (移動站)之 間的數(shù)據(jù)傳輸是通過公共陸地移動網(wǎng)PLMN進行的。短消息服務SMS 的短消息,特別適合于傳送短的文本和音素序列。S可被連接到SMS 消息服務SMS-SC,將從TE接收到的并對服務器S尋址的短消息數(shù)據(jù) 發(fā)送到服務器,到I/O裝置SI/0,反過來也一樣。關于SMS服務的操 作的更準確的描述, 一本書 'The GSM System for Mobile Communications' by M.Mouly and M.Pautet,Palaiseau,France 1992, ISBN: 2-9507190-0-7, Chapter 8. 3的內(nèi)容,引入在此供參考。 數(shù)據(jù)傳輸也可基于電路交換的數(shù)據(jù)呼叫或分組交換的數(shù)據(jù)傳輸服務, 例如,GPRS服務或UMTS系統(tǒng)的分組交換數(shù)據(jù)傳輸服務。無線應用協(xié) 議WAP也可用在文本和音素序列的傳送中。很明顯,對于本領域的技術人員,隨著技術的進步,可以用多種 方法實現(xiàn)本發(fā)明的基本構(gòu)思。不僅可用音素,同樣也可用其他的聲音 單元序列將發(fā)音模型化。因此本發(fā)明及其實施方案并不限于上述的例 子而是可以在權(quán)利要求的范圍內(nèi)變化。
權(quán)利要求
1.一種在電信系統(tǒng)中為語音識別形成發(fā)音模型的方法,所述電信系統(tǒng)包括至少一個便攜式電子設備和服務器,所述方法包括在服務器中接收來自電子設備(202,203;303,304)的字符序列;在服務器中將字符序列轉(zhuǎn)換(205;305)為至少一個聲音單元序列;和將至少一個聲音單元序列從服務器轉(zhuǎn)送(206;306)到電子設備,其特征在于,所述聲音單元序列是文本格式的音素序列,在服務器的語言選擇器中確定字符序列的語言,其中,借助字符特定的決策樹來確定所述語言,所述字符特定的決策樹根據(jù)每個字符的字符環(huán)境來表示至少一種語言的概率,和根據(jù)在語言選擇器中確定的語言,在服務器中將字符序列轉(zhuǎn)換為文本格式的至少一個音素序列。
2. 如權(quán)利要求l所述的方法,其特征在于根據(jù)接收到的字符序列,在服務器中搜索與字符序列相關的信 息,例如,電話號碼;和除了向電子設備發(fā)送所述信息之外,還發(fā)送聲音單元序列。
3. 如權(quán)利要求2所述的方法,其特征在于服務器利用接收到的字符序列作為搜索標簽來執(zhí)行數(shù)據(jù)庫搜索。
4. 如前述權(quán)利要求中任何一項所述的方法,其特征在于所述電子設備是移動站,并且通過經(jīng)由移動網(wǎng)接發(fā)消息來安排在 服務器和電子設備之間的數(shù)據(jù)傳輸。
5. '—種電信系統(tǒng),包括至少一個電子設備和服務器,其中電子 設備被安排為將用戶的語音信息與存儲在電子設備中的聲音單元序 列進行比較(209; 309 ),電子設備被安排為向服務器發(fā)送(202; 303)旨在語音識別的字符序列;服務器被安排為將字符序列轉(zhuǎn)換(205; 305)為至少一個聲音單元 序列;并且服務器被安排為向電子設備發(fā)送(206; 306)至少一個聲音單元序列,其特征在于,所述聲音單元序列是文本格式的音素序列,電子設備或服務器中的語言選擇器被安排為確定字符序列的語 言,語言選擇器被安排為借助字符特定的決策樹來確定所述語言,所 述字符特定的決策樹根據(jù)每個字符的字符環(huán)境來表示至少一種語言 的概率,并且服務器被安排為根據(jù)在語言選擇器中確定的語言將字符序列轉(zhuǎn) 換為文本格式的至少一個音素序列。
6. —種電子設備,包括用于比較(209; 309 )語音信息與聲音單元序列的裝置; 用于向服務器發(fā)送(202; 303 )旨在語音識別的字符序列的裝置; 用于從服務器接收由字符序列形成的聲音單元序列的裝置;和 用于存儲(207; 307 )聲音單元序列的裝置, 其特征在于,所述聲音單元序列是文本格式的音素序列, 所述電子設備包括用于確定字符序列的語言的語言選擇器,語言 選擇器被安排為借助字符特定的決策樹來確定語言,所述字符特定的 決策樹根據(jù)每個字符的字符環(huán)境來表示至少一種語言的概率,并且用于發(fā)送(202; 203 )字符序列的裝置被進一步安排為向服務器 發(fā)送與由語言選擇器所確定的字符序列的語言有關的信息。
7. 如權(quán)利要求6所述的電子設備,其特征在于,所述電子設備 還包括用于把從服務器接收到的聲音單元序列與存儲在電子設備的存 儲器中的字符序列或其標簽相關聯(lián)(207; 307 )的裝置;用于基本上根據(jù)用戶的語音信息來選擇(210; 310)聲音單元序 列并且進一步根據(jù)所述聲音單元序列選擇字符序列的裝置;和用于根據(jù)所述字符序列來激活服務的裝置。
8. 如權(quán)利要求6所述的電子設備,其特征在于 電子設備被安排為在音頻合成器中形成(401)聲音單元序列的音頻模型;電子設備被安排為在電子設備中存儲(402 )音頻模型,將所述 音頻模型與字符序列或其標簽相關聯(lián);和電子設備被安排成向電子設備的用戶播放(403 )音頻模型作為 對用戶的語音命令基本上與從字符序列接收的聲音單元序列相匹配 的響應。
9. 如權(quán)利要求6所述的電子設備,其特征在于 所述電子設備是移動站。
10. 如權(quán)利要求6所述的電子設備,其特征在于 所述電子設備被安排為向服務器傳送語言標簽。
11. 如權(quán)利要求6所述的電子設備,其特征在于電子設備被安排為除了接收聲音單元序列之外還從服務器接收 與字符序列相關的附加信息,例如電話號碼。
12. —種服務器,其中所述服務器包括 用于從至少一個電子設備接收(203; 304 )字符序列的裝置; 用于將字符序列轉(zhuǎn)換(205; 305 )為至少一個聲音單元序列的裝置5 和用于向電子設備發(fā)送(205; 306 )至少一個聲音單元序列的裝置, 其特征在于,所述聲音單元序列是文本格式的音素序列, 所述服務器包括用于確定字符序列的語言的語言選擇器,語言選 擇器被安排為借助字符特定的決策樹來確定語言,所述字符特定的決 策樹根據(jù)每個字符的字符環(huán)境來表示至少一種語言的概率,和用于轉(zhuǎn)換(205; 305 )的裝置被安排為根椐在語言選擇器中確定 的語言將字符序列轉(zhuǎn)換為至少一個聲音單元序列。
13. 如權(quán)利要求12所述的服務器,其特征在于 服務器被安排為根據(jù)接收到的字符序列來搜索與字符序列相關的信息,例如電話號碼;并且服務器被安排為除了向電子設備發(fā)送聲音單元序列之外還發(fā)送 所述信息。
14. 如權(quán)利要求13所述的服務器,其特征在于服務器被安排為利用接收到的字符序列作為其搜索標簽來執(zhí)行 數(shù)據(jù)庫搜索。
15. —種在電信系統(tǒng)中為語音識別形成發(fā)音模型的方法,所述電 信系統(tǒng)包括至少一個便攜式電子設備和服務器,所述電子設備被安排 為將用f的語音信息與包括聲音單元并且被存儲在電子設備中的發(fā) 音模型i行比較(209; 309 ),所述方法包括步驟傳送(202, 203; 303, 304 )字符序列至服務器,以在服務器中 將字符序列轉(zhuǎn)換(205; 305)為至少一個聲音單元序列;和從服務器接收(206; 306 )至少一個聲音單元序列, 其特征在于所述聲音單元序列是文本格式的音素序列, 在語言選擇器中確定字符序列的語言,其中借助字符特定的決策樹來確定所述語言,所述字符特定的決策樹根據(jù)每個字符的字符環(huán)境來表示至少一種語言的概率,并且與由語言選擇器所確定的字符序列的語言有關的信息被發(fā)送到服務器。
16. 如權(quán)利要求15所述的方法,其特征在于在電子設備中把從服務器接收到的聲音單元序列與存儲在電子 設備的存儲器中的字符序列或其標簽相關聯(lián)(207; 307 );在電子設備中將用戶的語音信息與所存儲的聲音單元序列相比 較(209; 309 );選擇(210; 310)基本上與用戶的語音信息相匹配的聲音單元序 列并且進一步根據(jù)來自聯(lián)系人信息的所述聲音單元序列來選擇字符序列;和根據(jù)所述字符序列來激活服務。
17. 如權(quán)利要求15或16所述的方法,其特征在于除了接收聲音單元序列之外,還從服務器接收與字符序列相關的 附加信息,例如電話號碼。
18. 如權(quán)利要求15或16所述的方法,其特征在于 在音頻合成器中形成(401)聲音單元序列的音頻模型; 在電子設備中存儲(402 )音頻模型,將所述音頻模型與字符序列或其標簽相關聯(lián);和向電子設備的用戶播放(403 )音頻模型作為對用戶的語音命令 基本上與從字符序列接收到的聲音單元序列相匹配的響應,
19. 如權(quán)利要求15或16所述的方法,其特征在于所述電子設備是移動站,并且通過經(jīng)由移動網(wǎng)接發(fā)消息來安排服 務器和電子設備之間的數(shù)據(jù)傳輸。
全文摘要
本發(fā)明涉及與揚聲器無關的語音識別裝置,公開了一種在包括至少一個便攜式電子設備和一個服務器的遠程通信系統(tǒng)中為組成發(fā)音模型的語音識別中所需的方法。電子設備被安排成將用戶的語音信息與包括聲音單元并被存入電子設備的發(fā)音模型作比較。字符序列被從電子設備傳送到服務器。在服務器中,字符序列被轉(zhuǎn)換成聲音單元序列。聲音單元序列被從服務器傳送到電子設備。
文檔編號G10L15/30GK101334997SQ200810125358
公開日2008年12月31日 申請日期2002年4月17日 優(yōu)先權(quán)日2001年4月17日
發(fā)明者K·勞里拉, O·維基 申請人:諾基亞有限公司