專利名稱:用于對多語言的姓名進行語音識別的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明總的來說涉及語音識別處理過程。具體的說,本發(fā)明用于(但不限于)使用個人電子設備來對姓名進行語音識別,這里所說的姓名是多種語言的姓名。
背景技術:
諸如移動電話、個人數(shù)字助理(PDAs)和尋呼機這樣的個人電子設備在整個工業(yè)化社會中已經非常普及了。現(xiàn)在數(shù)以百萬計的用戶依靠這些設備來快速和容易地獲取電子信息和進行通信。減小的重量和尺寸使得這些設備容易攜帶(例如,可以將它們放在口袋和錢包里),從而增加了它們的方便性。然而,設備尺寸減小的缺點是設備上的接觸界面(諸如鍵盤和按鈕)通常都非常小并且不便于使用。
因此,語音識別是很多個人電子設備上非常有價值的特征。例如,語音識別能力可以使汽車司機能夠向個人電子設備發(fā)送簡單的命令而不需要將他們的視線從公路上移開。同樣,語音識別可以使諸如訪問PDA中地址簿條目這樣的操作變得更加方便,這是因為可以很容易地執(zhí)行口頭的命令,并且通常比在小鍵盤上鍵入指令所需的時間要少得多。
因此語音識別系統(tǒng)是執(zhí)行計算機程序和訪問數(shù)據庫的一種常用方法。然而,個人電子設備很小的尺寸也會限制嵌入式語音識別系統(tǒng)的性能。有效的語音識別通常需要相對較大的數(shù)據庫和可觀的處理速度才能實現(xiàn),然而小型電子設備的存儲器容量和處理能力通常是有限的。為了克服這種限制,通常都僅為有限的、特定的環(huán)境定制個人電子設備的語音識別系統(tǒng)。例如,如同將在下面詳細描述的那樣,這種系統(tǒng)通常都是講話者相關的,也就是說設計它們僅僅翻譯特定的講話者的語音模式。同樣的,這種系統(tǒng)通常也是語言相關的,并僅僅為有限的詞匯設計。這些折中的設計可以使系統(tǒng)能夠使用個人電子設備的有限資源來合理地為特定的用途工作。
語音識別系統(tǒng)通常是將輸入的話語和存儲在數(shù)據庫中的聲學模型進行匹配。然后再進一步將匹配的聲學模型與字典數(shù)據庫中的條目進行匹配來完成單詞和句子的識別。聲學模型通常由隱藏馬爾可夫模型(HMM)構成。HMM是包括均值和方差向量的統(tǒng)計學描述,它描述諸如單詞和音素這樣的語音單元。然后使用HMM模式匹配來確定語音識別數(shù)據庫中的聲學模型與口述輸入話語是否匹配。HMM通常是基于包含被稱為高斯混合(Gaussian mixtures)的若干復雜的高斯概率分布函數(shù)(PDF)的概率函數(shù)的。因此語音模式匹配就是將高斯混合與輸入語音話語進行匹配的過程。所以HMM模式與聲學模型的匹配的可用復雜性(available sophistication)是語音識別系統(tǒng)的設計者在對性能和存儲與處理資源之間進行必要的折中時必須考慮的重要變量。
語音識別系統(tǒng)中的其它折中措施主要關注于系統(tǒng)識別多個用戶的語音的能力。因此,可以將語音識別系統(tǒng)進一步劃分為講話者無關的和講話者相關的。講話者無關的系統(tǒng)用于識別給定語言下任意講話者的語音;而講話者相關的系統(tǒng)是被訓練成僅識別一個講話者的語音的。講話者無關的系統(tǒng)通常包括聲學數(shù)據庫,這個數(shù)據庫包含從多個訓練講話者那里得來的多個HMM。從訓練講話者那里得來的多個HMM是意在表示從一大組講話者中找到的語音模式的高斯混合參數(shù)。通常這種系統(tǒng)比講話者相關的系統(tǒng)的準確性要低,這是因為在語音模型中必須進行折中以適應多種語音屬性,并且還因為不為使用這個系統(tǒng)的任意的講話者的特殊語音屬性而調節(jié)講話者無關的系統(tǒng)。
調節(jié)講話者相關的系統(tǒng)以識別單個講話者的特定語音模式。通常在訓練程序中,講話者要向講話者相關的系統(tǒng)讀一段包含多種語音模式的腳本。然后將訓練語音對準腳本,使得為講話者的特殊語音屬性調節(jié)系統(tǒng),然后系統(tǒng)才能在語音識別過程中更準確地識別講話者的聲音。然而,在很多人要使用語音識別系統(tǒng)的情況下講話者相關的系統(tǒng)通常是不合要求的。例如,嵌入在移動電話中的語音識別系統(tǒng)使得用戶能夠通過口述之后電話能夠識別的命令來操作設備。然而移動電話的主要使用者可能希望自己的很多朋友、同事或家庭成員也能夠使用電話的語音識別特征。因為電話的這些次要使用者僅僅需要在很短的時間內使用語音識別特征,所以要求次要使用者在使用語音識別特征之前首先對電話進行訓練以識別他或她的聲音是不方便的。
最后,語音識別聲學模型通常只是為單一語言設計的,因此能夠識別多種語言的語音的語音識別系統(tǒng)需要多個聲學模型,這同樣要增加對存儲器的需求和系統(tǒng)的復雜性(sophistication)。
現(xiàn)在已經為個人電子設備開發(fā)出來了雙語語音識別設備。因此,(例如),移動電話的雙語用戶可以用兩種語言(諸如英語和普通話)中的任意一種來從存儲在電話中的地址簿里取出姓名。由于在設備中使用的特定語言的聲學模型和詞匯數(shù)據庫是分離的,因此通常用戶在使用語音識別特征之前首先要將電話中的語言模式切換到一種特定的語言。然而,(例如)在地址簿中混合包含兩種語言的各種姓名或其它通訊信息的情況下,這種預選特定語言的要求是不方便的。同樣,這種預選特定語言的要求還使得系統(tǒng)不能用語音識別系統(tǒng)來識別混合的、多語言的兩部分姓名—例如,某人的名字是英文的而姓是普通話的。
因此,所需要的是一種講話者無關的用于語音識別的改進的方法和系統(tǒng),其能夠識別多語言的姓名而不需要手工地在語言模式之間進行切換,并有效地使用個人電子設備中有限的資源。
發(fā)明內容
根據本發(fā)明的一個方面,本發(fā)明是一種用于對多語言的姓名進行語音識別的改進的方法,它包括如下步驟在電子設備中存儲文本,所述文本表示由字符組成的多個姓名;為每個姓名識別至少一種語言;使用特定語言的字母-發(fā)音轉換器將每個姓名轉換成有序的語音單元序列;用與電子設備相關聯(lián)的麥克風接收口述話語;將話語轉換成特征向量;以及將特征向量與至少一個姓名的有序的語音單元序列進行匹配。
優(yōu)選地,所述多語言包括普通話,并且為每個姓名識別至少一種語言的所述步驟包括確定姓名中所包含的字符是在漢語字母表中還是在羅馬字母表中;和確定在羅馬字母表中的姓名是否是漢語拼音。
優(yōu)選地,所述多種語言包括西方語言和漢語。
優(yōu)選地,所述多個特定語言的字母-發(fā)音轉換器包括中文字母-發(fā)音轉換器和西方語言字母-發(fā)音轉換器。
優(yōu)選地,所述中文字母-發(fā)音轉換器是上下文相關的和所述西方語言字母-發(fā)音轉換器是上下文無關的。
優(yōu)選地,將特征向量與至少一個姓名的有序的語音單元序列進行匹配的所述步驟包括通過在自動語音識別引擎中比較特征向量、有序的語音單元序列、和高斯混合參數(shù)來解碼特征向量。
優(yōu)選地,所述自動語音識別引擎使用波束搜索(Beam search)、Viterbi算法。
優(yōu)選地,所述姓名由存儲在電子設備中的通訊錄中的成分組成。
根據本發(fā)明的另一個方面,本發(fā)明是一種用于對多語言的姓名進行語音識別的方法,它包括如下步驟用與電子設備相關聯(lián)的麥克風接收口述話語;將話語轉換成特征向量;以及將特征向量與至少一個姓名的有序的語音單元序列進行匹配,所述姓名是存儲在電子設備中的字符表示,其中從所述字符中識別出姓名的至少一種語言,然后使用多個特定語言的字母-發(fā)音轉換器將所述姓名轉換成有序的語音單元序列。
根據本發(fā)明的再一個方面,本發(fā)明是一種用于對多語言的姓名進行語音識別的系統(tǒng),它包括微處理器;與微處理器以可操作的方式連接的至少一個存儲器;與微處理器以可操作的方式連接的麥克風;操作所述微處理器以執(zhí)行存儲在存儲器中的代碼來用麥克風接收口述話語、將話語轉換成特征向量;并且將特征向量與至少一個姓名的有序的語音單元序列進行匹配,所述姓名是存儲在存儲器中的字符表示,其中從所述字符中識別出姓名的至少一種語言,然后使用多個與微處理器以可操作的方式連接的特定語言的字母-發(fā)音轉換器將所述姓名轉換成有序的語音單元序列。
優(yōu)選地,所述姓名由存儲在系統(tǒng)中的通訊錄中的成分組成。
優(yōu)選地,所述系統(tǒng)與移動電話或個人數(shù)字助理以可操作的方式連接。
在本說明書(包括權利要求書)中,術語“由...組成(comprise)”、“包含(including)”、“包括(comprising)”或類似的術語意在表示非排他性的包括,因此由一系列元素組成的方法和裝置并不只包含這些元素,而且還可以包含其它沒有列出的元素。
為了讓本發(fā)明更容易理解和有效地赴諸實踐,現(xiàn)在參考附圖對優(yōu)選的實施例進行說明,其中類似的序號表示類似的元素,其中圖1是圖解說明根據本發(fā)明的一個實施例的用于對多語言的姓名進行語音識別的系統(tǒng)的功能組件的示意圖;圖2是圖解說明根據本發(fā)明的實施例的兩種不同語言的姓名和由有序的語音單元序列組成的與它們的相關發(fā)音的列表的表格;圖3是圖解說明根據本發(fā)明的實施例的字母-發(fā)音轉換器的工作和組件的示意圖;圖4是總結了包括普通話/英語開放詞典的根據本發(fā)明的實施例的將存儲文本轉換成語音單元的方法的一般流程圖;圖5是圖解說明根據本發(fā)明的實施例的將口述話語和存儲在開放詞典中的姓名進行匹配的方法的一般流程圖;并且圖6是圖解說明根據本發(fā)明的實施例的以可以應用語音識別系統(tǒng)的無線電話形式的個人電子設備的示意圖。
具體實施例方式
參看圖1,這是圖解說明根據本發(fā)明的一個實施例的用于對多語言的姓名進行語音識別的系統(tǒng)100的功能組件的示意圖。系統(tǒng)100按如下方式操作。字母-發(fā)音轉換器105將姓名的文本轉換成有序的語音單元序列。姓名通常是作為單獨字符的表示存儲在諸如移動電話或個人數(shù)字助(PDA)這樣的個人電子設備中的多個姓名中的一個。例如,姓名可以作為地址簿或通訊錄的一部分存儲在電子設備中。字母-發(fā)音轉換器105首先為輸入到系統(tǒng)100中的姓名識別至少一種語言。然后將姓名轉換成存儲在開放詞典110中的有序的語音單元序列。系統(tǒng)115還包括混合語言隱藏馬爾可夫模型(HMM)集115。HMM集115包括以至少兩種語言表示所選語音模式的高斯混合參數(shù)。
在將多個姓名和與它們相關聯(lián)的有序的語音單元序列輸入到開放詞典110中之后,系統(tǒng)100就在將姓名口述輸入到諸如麥克風120的系統(tǒng)100的輸入之后識別任意一個姓名的語音表示。麥克風120可能與聲音激活設備(VAD)以可操作的方式連接。然后,特征提取器125就根據本領域普通技術人員熟知的現(xiàn)有語音識別技術來提取口述姓名的特征向量。然后,比較特征向量與高斯混合參數(shù)的自動語音識別(ASR)引擎130對特征向量進行解碼。另外,還以動態(tài)語法網絡135輔助ASR引擎135,這里動態(tài)語法網絡135由開放詞典110構成并在語音識別過程中對語音模型的搜索進行引導。最后,從系統(tǒng)100中輸出來自開放詞典的匹配的姓名。然后電子設備就可以使用這個匹配的名字來從通訊錄檢索(例如)這個人的電話號碼或其它聯(lián)系信息。
因此,本發(fā)明在需要對混合的、多語言的單詞或姓名進行語音識別的應用中非常有用。例如,在中國出現(xiàn)了講話者無關的可使用漢語(例如普通話或粵語)和英語ASR的移動電話。但是,這些現(xiàn)有技術的系統(tǒng)通常在一個給定時間只能在一種語言模式下工作。例如,如果用戶想要使用ASR特征從使用英文姓名的地址簿中檢索信息,那么用戶就必須首先將ASR特征設置成英文。如果之后同一個用戶要從使用普通話姓名的地址簿中檢索信息,那么在能夠檢索普通話姓名之前用戶就必須首先將ASR特征設置成普通話。然而已經發(fā)現(xiàn)中國的許多移動電話用戶的電話地址簿中包含雙語的、兩部分的姓名,其中這些姓名的第一部分是英文的,姓名的第二部分是普通話的。因此,現(xiàn)有技術的ASR系統(tǒng)不能對這種雙語的、兩部分的姓名的語音表示進行自動識別。而另一方面,本發(fā)明能夠對這種雙語的、兩部分的姓名進行識別,而且不需要用戶手工地將ASR從一種語言切換到另一種語言。
參看圖2,這是圖解說明兩種不同語言的姓名和由有序的語音單元序列組成的與它們相關聯(lián)的發(fā)音的列表的表格。例如,第一個姓名“楊立偉”完全是普通話(中文字符)的,并且它后面跟著由包含單獨的漢語音素的有序的語音單元序列組成的發(fā)音205。第二個姓名“John Stone”完全是英文的,并且它后面同樣跟著由包含單獨的英語音素的有序的語音單元序列組成的發(fā)音210。由于包含普通話(中文字符)的姓“張”和英文的名字“Jacky”,第三個姓名“Jacky張”是雙語、兩部分的姓名。不過本發(fā)明的方法和系統(tǒng)同樣能夠對這個既包含了英語音素210又包含了漢語音素205的名字進行定義?,F(xiàn)在,將在下面介紹本發(fā)明的特征,其可以對雙語的、兩部分的姓名進行語音學分析,而不需要用戶手工地將ASR從一種語言切換到另一種語言。
參看圖3,這是圖解說明在圖1中介紹過的混合的字母-發(fā)音轉換器105的工作和組件的示意圖。作為一個例子,操作在圖3中顯示的混合的字母-發(fā)音轉換器105來轉換用英語或普通話寫成的字符。首先,混合的字母-發(fā)音轉換器105包含字母表標識符305,對字母表進行識別的字母表標識符305用于定義至少一部分存儲在設備中的寫入姓名。如果姓名的所存儲部分是由中文字符310組成的,那么就將字符310直接輸入到特定語言的普通話字母-發(fā)音轉換器315中。然而,如果姓名的所存儲部分是由英文字符320組成的,那么姓名既可以是用漢語拼音書寫的,又可能是用英文書寫的。因此還需要用拼音標識符325來對姓名的這個部分進行分類。拼音標識符325使用基本能識別所有用拼音表示的(不包含音調的)漢語姓名的408個音節(jié)的拼音字典。如果英文字符320是漢語拼音,那么就把它們輸入到普通話字母-發(fā)音轉換器315中。然而,如果英文字符320是英文單詞,那么就把它們輸入到特定語言的英語字母-發(fā)音轉換器330中。普通話字母-發(fā)音轉換器315和英語字母-發(fā)音轉換器330都可以把姓名轉換成唯一的有序的特定語言語音單元序列。本領域普通技術人員應當認可,本公開也可以使用轉換各種其它語言字符的其它字母-發(fā)音轉換器105。因此,本發(fā)明的字母-發(fā)音轉換器105能夠將雙語的、兩部分的姓名解析成單一的有序的語音單元序列。
為了使得本發(fā)明能夠在不需要用戶手工地將系統(tǒng)100在語言模式間切換的情況下操作,混合語言HMM集115完全包括至少兩個聲學模型組,每一組用于一種語言。例如,根據上述識別英語和普通話姓名的本發(fā)明的實施例,HMM集115組合下面兩種單一語言的聲學模型集上下文相關的普通話模型和上下文無關的英語模型。這里,上下文是指給定語音單元的左側和/或右側緊鄰的語音單元。在漢語中,如同將在下面詳細介紹的,這些單元被表示為“聲母”和“韻母”。三話音(triphone)模型是一種同時考慮左側和右側相鄰語音單元的語音模型。如果兩個語音單元具有相同的標識,但是它們左側和右側的上下文不同,那么就認為它們是不同的三話音。
將漢語和諸如英語的西方語言區(qū)分開來的一個特征是漢語都是單音節(jié)的,并具有帶音調的輔音/元音(C/V)結構。因此音節(jié)識別是大多數(shù)漢語語音識別系統(tǒng)結構的基礎。在漢語中總共有1254個音節(jié)(408個無音調音節(jié)),它們來自22個“聲母”(即,音節(jié)中元音前的輔音)和38個“韻母”(即,音節(jié)中元音后的輔音)的不同組合。在聲母中,有21個真聲母和一個所謂的“零聲母”。根據本發(fā)明的優(yōu)選實施例,將零聲母作為真聲母來對待??紤]到其中只有有限的訓練數(shù)據可用的情況,對于漢語的一般觀察是音節(jié)之中的協(xié)同發(fā)音(co-articulation)效果要比音節(jié)之間的協(xié)同發(fā)音效果重要得多。這是漢語的單音節(jié)結構造成的。同樣,音節(jié)內聲母的聲學特征高度依賴于韻母,但是韻母的聲學特征對聲母的依賴則少得多。例如,音節(jié)“ta”中的聲母“t”與另一個音節(jié)“tu”中相同的聲母的發(fā)音很不相同;但是音節(jié)“ta”中的韻母“a”與“cha”中的“a”的發(fā)音幾乎相同。因此,在漢語語音識別中的一種合理的方法是認為音節(jié)之間的協(xié)同發(fā)音效果和音節(jié)內韻母對前面聲母的依賴都是可以忽略的,并讓聲母與所跟隨的韻母的啟始音素右上下文相關,并讓韻母上下文無關。因此本發(fā)明的優(yōu)選實施例使用包括117個聲母和38個韻母的155個子音節(jié)。然后將每個音節(jié)分解成一對子音節(jié)。在表1中顯示了本發(fā)明的優(yōu)選實施例的漢語聲學模型中使用的這種音節(jié)分解的例子。
表1--漢語音節(jié)分解的例子
為了減少HMM集115中英語聲學模型的體積,從而減少整個系統(tǒng)100所需要的復雜度和計算量,本發(fā)明的優(yōu)選漢語/英語實施例使用了上下文無關的英語聲學模型。同樣,使用了40個單音素(monophone)作為基本英語建模單元。這種單音素的一個來源是卡內基-梅隆大學(CMU)發(fā)音詞典。CMU發(fā)音詞典包含大約127,000個英文單詞和它們相應的語音發(fā)音。CMU發(fā)音詞典還定義了英語中的39個單獨的音素。作為選擇的,也可以使用其它的詞典。
現(xiàn)在將更詳細地介紹ASR引擎130將有序的語音單元序列與特征向量進行匹配的工作方式。引擎130使用Viterbi型、波束搜索算法來對系統(tǒng)100接收到的口述話語的特征向量的序列進行分析。在語法網絡135的引導下,引擎130的目的是找到其相應的狀態(tài)序列(高斯混合)的高斯參數(shù)與輸入的語音話語最匹配的有序的語音單元序列。Viterbi搜索是時間同步的搜索算法,它在處理時間t+1之前對時間t進行完全的處理。對于時間t來說,每一狀態(tài)都用來自時間t-1的所有狀態(tài)的最高分(而不是使用所有引入路徑的和)來更新。在更新的時候,它還記錄回溯指針以記住最可能的引入狀態(tài)。在搜索結束的時候,沿著這些回溯指針就可以恢復最可能的狀態(tài)序列。在有效修剪技術的幫助下,不需要去探索整個搜索空間或整個框架。取而代之的是,只需要對最有希望的搜索狀態(tài)空間進行探索。然后,就為系統(tǒng)100產生了全面的HMM集,這個集合與在每次更新開放詞典之后在線生成的動態(tài)語法的終端元件的聲學模型相關聯(lián)??梢栽贘elinek Frederick所著的“Statistical Methods for Speech Recognition”(MIT出版社,1999,ISBN 0-262-10066-5)中找到有關上述算法的更詳細的介紹。
為了進一步說明本發(fā)明,參看圖4,這是總結了根據包括普通話/英語開放詞典110的本發(fā)明的實施例的將存儲文本轉換成語音單元的示例性方法400的一般流程圖。方法400起始于步驟405,在這里將表示多個由字符組成的姓名的文本存儲在電子設備中。在步驟410確定特定的姓名中所包含的字符是在漢語字母表中還是在羅馬字母表中。如果組成姓名的字符是中文字符,那么就在步驟415處將姓名的語言識別為普通話。然而如果字符是在羅馬字母表中的,那么由于字符可以是漢語拼音,所以仍然沒有確定姓名的語言。因此在步驟420處就通過使用基本上標識了所有用拼音表示的(不包括音調)漢語姓名的408個音節(jié)的拼音字典來確定字符是否是漢語拼音。如果確定字符是漢語拼音,那么方法400再次前進到步驟415,在這里將姓名的語言識別為普通話。否則,在步驟425處將姓名的語言識別為英語。
如果在步驟415處識別出的語言是普通話。那么方法就繼續(xù)前進到步驟430,在這里就使用普通話字母-發(fā)音轉換器315將姓名轉換成有序的語音單元序列。然而如果在步驟425處識別出的語言是英語,那么方法就繼續(xù)前進到步驟435,在這里使用英語字母-發(fā)音轉換器330將姓名轉換成有序的語音單元序列。然后將有序的語音單元序列存儲在開放詞典110中。
現(xiàn)在參看圖5,這是圖解說明根據本發(fā)明的實施例的將口述話語和存儲在開放詞典110中的姓名進行匹配的方法500的一般流程圖。方法500起始于步驟505,在這里用電子設備的麥克風120接收口述話語,并且在這里設備完全包括用于對多語言的姓名進行語音識別的系統(tǒng)100。在步驟510處將話語轉換成特征向量。然后在步驟515處將話語的特征向量與根據上述方法存儲到開放詞典110中的至少一個姓名的有序語音序列進行匹配。
參看圖6,這是圖解說明可以應用本發(fā)明的語音識別系統(tǒng)100的個人電子設備的一個例子的示意圖。這個例子包含了以無線電話形式的個人電子設備600,其完全包括根據本發(fā)明的一個實施例的用于對多語言的姓名進行語音識別的系統(tǒng)100。該電話600包含了與處理器603耦合以進行通信的射頻通信單元602。該無線電話600還包含與處理器603耦合以進行通信的鍵區(qū)606和顯示屏605。如同本領域普通技術人員所了解的,顯示屏505可以是觸摸屏,這樣鍵區(qū)606就是可選的了。
處理器603包含具有相關聯(lián)的代碼只讀存儲器(ROM)612的編碼器/解碼器611,代碼只讀存儲器(ROM)612用于存儲用于對由無線電話600發(fā)射和接收聲音或其它信號進行編碼和解碼的數(shù)據。處理器603還包括通過通用數(shù)據和地址總線617與編碼器/解碼器611,字符只讀存儲器(ROM)614,隨機存取存儲器(RAM)604,靜態(tài)可編程存儲器616和SIM接口618耦合的微處理器613。與SIM接口618以可操作的方式耦合的靜態(tài)可編程存儲器616和SIM(通常被稱為SIM卡)每一都可以將所選的引入文本消息和電話號碼數(shù)據庫(TND)(或地址/電話簿)與其它內容一起存儲于其中,電話號碼數(shù)據庫包含用于存儲電話號碼的號碼字段和用于在姓名字段中和一個號碼相關聯(lián)的標識符的姓名字段。例如,電話號碼數(shù)據庫TND的一個條目可能是91999111111(在號碼字段中的條目)和在姓名字段中與之相關聯(lián)的標識符“Steven C!at work”。SIM卡和靜態(tài)存儲器616卡中還可以存儲用于允許接入到無線電話600上受密碼保護的功能的密碼。本發(fā)明中諸如字模-發(fā)音轉換器105、開放詞典110、混合語言HMM集115、特征提取器125、ASR引擎130、和動態(tài)語法網絡135這樣的組件都可以部分或全部地存儲在一個或多個代碼只讀存儲器(ROM)612、字符只讀存儲器(ROM)614、隨機存儲器(RAM)604、靜態(tài)可編程存儲器616、和SIM卡中。
微處理器613具有與鍵區(qū)606、顯示屏605和通常包含報警揚聲器、振動馬達和相關的驅動器的報警裝置615耦合的端口。同樣,微處理器613還具有與麥克風120和通信揚聲器640耦合的端口。字符只讀存儲器614存儲用于對可以由通信單元602接收的文本消息進行編碼和解碼的代碼。在這個實施例中字符只讀存儲器614還存儲用于微處理器613的操作代碼(OC)和執(zhí)行與無線電話600相關聯(lián)的功能的代碼。
射頻通信單元602是帶有常規(guī)天線607的接收器和發(fā)射器的組合。通信單元602具有經射頻放大器609與天線607耦合的收發(fā)器608。收發(fā)器608也與組合的調制器/解調器610耦合,并且組合的調制器/解調器610將通信單元602與處理器603耦合起來。
下面給出了用于英語和普通話的本發(fā)明的實施例的性能的例子。這里用由包含(包括諸如“cancel”和“castle”這樣發(fā)音非常相近的容易混淆的單詞的)50個詞匯的口述話語的特征向量構成測試數(shù)據庫。數(shù)據庫包括來自大約200個講話者的9494條普通話話語,和來自25個講話者6872條英語話語。為了試圖建立真實的環(huán)境,這些話語是在六個不同的移動環(huán)境中記錄的,諸如辦公室、汽車、大型購物中心和大街上。在表2中總結出了測試的結果。單語言的結果顯示了使用專用單語言語音識別系統(tǒng)進行識別的準確率?;旌险Z言結果包含了使用本發(fā)明的混合語言語音識別系統(tǒng)100進行識別的準確率。
表2-系統(tǒng)性能的例子
因此本發(fā)明是能夠識別多語言的口述姓名而不需要用戶手工地將系統(tǒng)100在語言模式間進行切換的,改進的語音識別系統(tǒng)100。因此它在(例如)用戶可能具有包含多語言姓名的電子地址簿的多語言環(huán)境中是非常有用的。由于用戶不需要在語言模式間進行切換,所以系統(tǒng)100能夠識別甚至是由第一語言的第一部分姓名和第二語言的第二部分姓名組成的復合姓名。同樣,也可以通過使用包含上下文相關和上下文無關組件的組合聲學模型,節(jié)約對系統(tǒng)100的存儲器和處理的需求。因此可以在具有有限存儲和處理資源的(諸如無線電話或PDA的)個人電子設備上操作系統(tǒng)100。
上面詳細的描述只是提供了一個優(yōu)選的示例性實施例,而不是意在限制本發(fā)明的范圍、適用性、或配置。更確切地說,關于優(yōu)選的示例性實施例的詳細說明提供了可以讓本領域普通技術人員實現(xiàn)本發(fā)明的優(yōu)選的示例性實施例的說明。應當理解,在不背離在附加的權利要求書中提出的本發(fā)明的精神和范圍的情況下可以對本發(fā)明的功能和元件布置和步驟進行各種修改。
權利要求
1.一種用于對多語言的姓名進行語音識別的方法,它包括如下步驟在電子設備中存儲文本,所述文本表示由字符組成的多個姓名;為每一所述姓名識別至少一種語言;使用多個特定語言的字母-發(fā)音轉換器將每一姓名轉換成有序的語音單元序列;用與所述電子設備相關聯(lián)的麥克風接收口述話語;將所述話語轉換成特征向量;和將所述特征向量與至少一個姓名的所述有序的語音單元序列進行匹配。
2.如權利要求1所述的方法,其中所述多語言包括普通話,并且為每一所述姓名識別至少一種語言的所述步驟包括確定所述姓名中所包含的字符是在漢語字母表中還是在羅馬字母表中;和確定在所述羅馬字母表中的姓名是否是拼音。
3.如權利要求1所述的方法,其中所述多語言包括西方語言和漢語。
4.如權利要求3所述的方法,其中所述多個特定語言的字母-發(fā)音轉換器包括中文字母-發(fā)音轉換器和西方語言字母-發(fā)音轉換器。
5.如權利要求4所述的方法,其中所述中文字母-發(fā)音轉換器是上下文相關的并且所述西方語言字母-發(fā)音轉換器是上下文無關的。
6.如權利要求1所述的方法,其中將所述特征向量與至少一個姓名的所述有序的語音單元序列進行匹配的所述步驟包括通過在自動語音識別引擎中比較所述特征向量、所述有序的語音單元序列、和高斯混合參數(shù)來解碼所述特征向量。
7.如權利要求6所述的方法,其中所述自動語音識別引擎使用波束搜索、Viterbi算法。
8.如權利要求1所述的方法,其中所述姓名由存儲在所述電子設備中的通訊錄中的成分組成。
9.一種用于對多語言的姓名進行語音識別的方法,它包括如下步驟用與所述電子設備相關聯(lián)的麥克風接收口述話語;將所述話語轉換成特征向量;和將所述特征向量與至少一個姓名的有序的語音單元序列進行匹配,所述姓名是存儲在所述電子設備中的字符表示,其中從所述字符中識別出所述姓名的至少一種語言來,然后使用多個特定語言的字母-發(fā)音轉換器將所述姓名轉換成所述有序的語音單元序列。
10.一種用于對多語言的姓名進行語音識別的系統(tǒng),它包括微處理器;至少一個存儲器,與所述微處理器以可操作的方式連接;和麥克風,與所述微處理器以可操作的方式連接;操作所述微處理器以執(zhí)行存儲在所述存儲器中的代碼來用所述麥克風接收口述話語、將所述話語轉換成特征向量;和將所述特征向量與至少一個姓名的有序的語音單元序列進行匹配,所述姓名是存儲在所述存儲器中的字符表示,其中從所述字符中識別出所述姓名的至少一種語言來,然后使用多個與所述微處理器以可操作的方式連接的特定語言的字母-發(fā)音轉換器將所述姓名轉換成所述有序的語音單元序列。
11.如權利要求10所述的系統(tǒng),其中所述多語言包括普通話,并且通過確定所述姓名是由中文字符還是由所述羅馬字母表組成,和確定在所述羅馬字母表中的姓名是否是漢語拼音的來識別出所述至少一種語言。
12.如權利要求10所述的系統(tǒng),其中所述多語言包括西方語言和漢語。
13.如權利要求11所述的系統(tǒng),其中所述多個特定語言的字母-發(fā)音轉換器包括中文字母-發(fā)音轉換器和西方語言字母-發(fā)音轉換器。
14.如權利要求13所述的系統(tǒng),其中所述中文字母-發(fā)音轉換器是上下文相關的并且所述西方語言字母-發(fā)音轉換器是上下文無關的。
15.如權利要求10所述的系統(tǒng),其中通過在與所述微處理器以可操作的方式連接的自動語音識別引擎中比較所述特征向量、所述有序的語音單元序列、和高斯混合參數(shù)來將所述特征向量與至少一個姓名的所述有序的語音單元序列進行匹配。
16.如權利要求15所述的系統(tǒng),其中所述自動語音識別引擎使用波束搜索、Viterbi算法。
17.如權利要求10所述的系統(tǒng),其中所述姓名由存儲在所述系統(tǒng)中的通訊錄中的成分組成。
18.如權利要求10所述的系統(tǒng),其中所述系統(tǒng)與移動電話或個人數(shù)字助理以可操作的方式連接。
全文摘要
一種用于使用混合字母-發(fā)音轉換器(105)中的多個特定語言的字母-發(fā)音轉換器對多語言的姓名進行語音識別的方法和系統(tǒng)(100)。根據一個實施例,所述方法包括在電子設備中存儲文本,其中所述文本表示由字符組成的多個姓名。然后為每個所述姓名識別出至少一種語言并將每一姓名轉換成存儲在開放詞匯表(110)中的有序的語音單元序列。然后,用與所述電子設備相關聯(lián)的麥克風(120)接收口述話語并在特征提取器(125)中將所述話語轉換成特征向量。然后在自動語音識別引擎(130)中將所述特征向量與至少一個姓名的所述有序的語音單元序列進行匹配。
文檔編號G10L15/26GK1731511SQ20041005651
公開日2006年2月8日 申請日期2004年8月6日 優(yōu)先權日2004年8月6日
發(fā)明者任曉林, 何昕, 孫放, 張亞昕 申請人:摩托羅拉公司