專利名稱:語音識別設(shè)備、方法及記錄語音識別程序的記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及有關(guān)通過HMM(隱馬爾可夫模型)方法進行語音識別的技術(shù)領(lǐng)域,具體而言,涉及有關(guān)識別出自自然語音的關(guān)鍵詞的技術(shù)領(lǐng)域。
背景技術(shù):
近些年來,已開發(fā)了識別人發(fā)出的自然語音的語音識別設(shè)備。當(dāng)人說出預(yù)定詞時,這些裝置從其輸入信號來識別所說的詞。
例如,被配備有這種語音識別設(shè)備的各種裝置,如安裝在車輛中用于引導(dǎo)車輛移動的導(dǎo)航系統(tǒng)和個人計算機,將允許用戶輸入各種信息而無需手動的鍵盤或開關(guān)選擇操作。
因此,例如,即使在操作者正用他/她的雙手駕駛車輛的工作環(huán)境中,操作者亦可在導(dǎo)航系統(tǒng)中輸入所需信息。
典型的語音識別方法包括采用被稱為HMM(隱馬爾可夫模型)的概率模型的方法。
在語音識別中,通過將自然語音的特征值圖型與表示被稱為關(guān)鍵詞的候選詞并事先被準(zhǔn)備的語音的特征值圖型進行匹配,自然語音被識別。
具體而言,在語音識別中,被分為預(yù)定持續(xù)時間段的所輸入自然語音(輸入信號)的特征值通過分析所輸入自然語音而被提取,輸入信號特征值和由預(yù)存在數(shù)據(jù)庫中的HMM表示的關(guān)鍵詞的特征值之間的匹配程度(以下被稱為似然性)被計算,整個自然語音過程中的似然性被累計,并且有最高似然性的關(guān)鍵詞被確定為所識別的關(guān)鍵詞。
這樣,在語音識別中,關(guān)鍵詞在由人所發(fā)出自然語音的輸入信號的基礎(chǔ)上被識別。
順便提及,HMM是被表示為一組轉(zhuǎn)變狀態(tài)的統(tǒng)計源模型。它表示待識別預(yù)定語音如關(guān)鍵詞的特征值。此外,HMM是在事先采樣的多個語音數(shù)據(jù)的基礎(chǔ)上被生成的。
對于這種語音識別,重要的是如何提取包含在自然語音中的關(guān)鍵詞。
除關(guān)鍵詞以外,自然語音通常還包含無關(guān)語音(extraneousspeech),即在識別中不必要的先前已知詞(諸如關(guān)鍵詞之前和之后的“er”或“please”的詞),并且在原則上,自然語音由無關(guān)語音所夾的關(guān)鍵詞組成。
在常規(guī)上,語音識別常常采用“詞識別”技術(shù)來識別待被語音識別的關(guān)鍵詞。
在詞識別技術(shù)中,不僅表示關(guān)鍵詞模型而且表示無關(guān)語音模型(以下被稱為無用信息模型(garbage model))的HMM被準(zhǔn)備,并且通過識別其特征值具有最高似然性的關(guān)鍵詞模型、無用信息模型或其組合,自然語音被識別。
這樣,詞識別技術(shù)基于所累計的似然性來識別其特征值具有最高似然性的關(guān)鍵詞模型、無用信息模型或其組合,并將包含在自然語音中的任何關(guān)鍵詞輸出為所識別關(guān)鍵詞。
在基于詞識別的語音識別中,被稱為Filler模型的概率模型可被用于構(gòu)建無關(guān)語音模型。
如圖7中所示,為建立整個語音的模型,F(xiàn)iller模型表示通過網(wǎng)絡(luò)的元音和輔音的所有可能聯(lián)系。對于詞識別,每個關(guān)鍵詞模型需要在兩端與Filler模型聯(lián)系。
具體而言,基于Filler模型的語音識別涉及計算所有可識別圖型,即待識別的自然語音的特征值和每個音位的特征值之間的每個匹配,由此計算自然語音中的音位之間的聯(lián)系,并使用形成聯(lián)系的路徑中的路徑的最佳圖型來識別無關(guān)語音。
發(fā)明概述這種語音識別裝置執(zhí)行自然語音特征值和無關(guān)語音所有可能分量如音位的特征數(shù)據(jù)之間的匹配,從而識別無關(guān)語音。因此,其涉及大量的計算工作,從而導(dǎo)致大的計算負荷。
本發(fā)明已考慮到以上問題。其目的是提供一種語音識別裝置,該裝置通過減小在匹配過程中計算似然性所需的計算工作,從而以高速度正確地執(zhí)行語音識別。
本發(fā)明的以上目的可通過本發(fā)明的語音識別設(shè)備來實現(xiàn)。用于識別所發(fā)出自然語音中包含的至少一個關(guān)鍵詞的語音識別設(shè)備包括提取裝置,用于通過分析自然語音來提取自然語音的特征值,該特征值是自然語音的語音成分的特征值;數(shù)據(jù)庫,用于存儲關(guān)鍵詞特征數(shù)據(jù),該特征數(shù)據(jù)表示關(guān)鍵詞語音成分的特征值;計算裝置,用于基于從自然語音提取的至少一部分語音段和在數(shù)據(jù)庫中存儲的關(guān)鍵詞特征數(shù)據(jù)來計算關(guān)鍵詞概率,該概率表示自然語音特征值對應(yīng)于關(guān)鍵詞的概率;設(shè)置裝置,用于在預(yù)設(shè)值的基礎(chǔ)上設(shè)置無關(guān)語音概率,該概率表示從自然語音提取的至少一部分語音段對應(yīng)于無關(guān)語音的概率,無關(guān)語音表示非關(guān)鍵詞;以及確定裝置,用于基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
依照本發(fā)明,表示自然語音特征值對應(yīng)于關(guān)鍵詞特征數(shù)據(jù)所表示的關(guān)鍵詞的概率的關(guān)鍵詞概率被計算,基于預(yù)設(shè)值的無關(guān)語音概率被設(shè)置,并且基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率,包含在自然語音中的關(guān)鍵詞被確定。
因此,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,本發(fā)明的語音識別設(shè)備被進一步提供有;其中設(shè)置裝置基于提取裝置所提取的自然語音特征值和作為預(yù)設(shè)值的表示語音成分特征值的多個指定語音特征值來設(shè)置無關(guān)語音概率。
依照本發(fā)明,基于自然語音特征值和作為預(yù)設(shè)值的多個指定語音特征值來設(shè)置無關(guān)語音概率,并且基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
因此,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。例如,可通過使用組成典型無關(guān)語音的元音的語音特征值或包括多個預(yù)設(shè)指定語音特征值的多個關(guān)鍵詞特征數(shù)據(jù)的一部分來計算無關(guān)語音概率。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,本發(fā)明的語音識別被進一步提供有;其中設(shè)置裝置包括指定語音概率計算裝置,用于基于提取裝置所提取的自然語音特征值和指定語音特征值來計算指定語音概率,該概率表示自然語音特征值對應(yīng)于指定語音特征值的概率;以及無關(guān)語音概率設(shè)置裝置,用于在所計算指定語音概率的基礎(chǔ)上設(shè)置無關(guān)語音概率。
依照本發(fā)明,基于自然語音特征值和指定語音特征值來計算指定語音概率,并且基于所計算指定語音概率來設(shè)置無關(guān)語音概率。
因此,如果當(dāng)通過使用組成典型無關(guān)語音的元音的語音特征值或包括多個預(yù)設(shè)指定語音特征值的多個關(guān)鍵詞特征數(shù)據(jù)的一部分來計算指定語音概率并且通過使用包括表示多個指定語音概率的平均的值的典型語音特征值來計算無關(guān)語音概率時,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,在指定語音概率計算裝置計算多個指定語音概率的情況下,本發(fā)明的語音識別設(shè)備被進一步提供有;其中無關(guān)語音概率設(shè)置裝置設(shè)置多個指定語音概率的平均和無關(guān)語音概率。
依照本發(fā)明,由指定語音概率計算裝置計算的指定語音概率的平均被設(shè)置為無關(guān)語音概率。
因此,如果當(dāng)通過使用組成典型無關(guān)語音的元音的語音特征值或包括多個預(yù)設(shè)指定語音特征值的多個關(guān)鍵詞特征數(shù)據(jù)的一部分來計算指定語音概率并且通過使用多個指定語音概率的平均來計算無關(guān)語音概率時,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,本發(fā)明的語音識別設(shè)備被進一步提供有其中設(shè)置裝置將數(shù)據(jù)庫中存儲的至少一部分關(guān)鍵詞特征數(shù)據(jù)用作指定語音特征值。
依照本發(fā)明,通過將至少一部分所存關(guān)鍵詞特征數(shù)據(jù)用作指定語音特征值來設(shè)置無關(guān)語音概率。
因此,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,本發(fā)明的語音識別設(shè)備被進一步提供有其中設(shè)置裝置將表示固定值的預(yù)設(shè)值設(shè)置為無關(guān)語音概率。
依照本發(fā)明,表示自然語音特征值對應(yīng)于關(guān)鍵詞特征數(shù)據(jù)的概率的關(guān)鍵詞概率被計算,并且基于所計算的關(guān)鍵詞概率和預(yù)設(shè)無關(guān)語音概率,包含在自然語音中的關(guān)鍵詞被確定。
因此,無關(guān)語音和關(guān)鍵詞可被識別,并且關(guān)鍵詞可被確定,而無需計算包括自然語音特征值和無關(guān)語音特征數(shù)據(jù)的特征值的特性。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,本發(fā)明的語音識別設(shè)備被進一步提供有其中提取裝置通過以預(yù)設(shè)時間間隔分析自然語音來提取自然語音特征值,并且由設(shè)置裝置設(shè)置的無關(guān)語音概率表示該時間間隔內(nèi)的無關(guān)語音概率;計算裝置基于以所述時間間隔提取的自然語音特征值來計算關(guān)鍵詞概率;并且確定裝置基于所述時間間隔內(nèi)的所計算關(guān)鍵詞概率和無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
依照本發(fā)明,基于以一個時間間隔計算的關(guān)鍵詞概率和無關(guān)語音概率,包含在自然語音中的關(guān)鍵詞被確定。
因此,如果當(dāng)通過使用組成典型無關(guān)語音的元音的語音特征值或包括多個預(yù)設(shè)指定語音特征值的多個關(guān)鍵詞特征數(shù)據(jù)的一部分來計算指定語音概率并且通過使用包括表示多個指定語音概率的平均的值的典型語音特征值來計算無關(guān)語音概率時,可基于自然語音中的音位或其它語音聲音來計算關(guān)鍵詞概率和無關(guān)語音概率,并可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,本發(fā)明的語音識別設(shè)備被進一步提供有其中確定裝置基于在所述時間間隔內(nèi)的所計算關(guān)鍵詞概率和無關(guān)語音概率來計算組合概率,該組合概率表示由存儲在數(shù)據(jù)庫中的關(guān)鍵詞特征數(shù)據(jù)表示的每個關(guān)鍵詞和無關(guān)語音概率的組合的概率,并且基于組合概率來確定包含在自然語音中的關(guān)鍵詞。
依照本發(fā)明,基于在所述時間間隔內(nèi)的所計算關(guān)鍵詞概率和無關(guān)語音概率,表示每個關(guān)鍵詞和無關(guān)語音的組合的概率的組合概率被計算,并且包含在自然語音中的關(guān)鍵詞基于組合概率而被確定。
因此,通過考慮無關(guān)語音和關(guān)鍵詞的每個組合,包含在自然語音中的關(guān)鍵詞可被確定。因此,有可能以高速度容易地識別包含在自然語音中的關(guān)鍵詞并防止誤識別。
本發(fā)明的以上目的可通過本發(fā)明的語音識別方法來實現(xiàn)。所發(fā)出的自然語音中包含的至少一個關(guān)鍵詞的語音識別方法包括提取過程,通過分析自然語音來提取自然語音特征值,該特征值是自然語音的語音成分的特征值;計算過程,基于從自然語音提取的至少一部分語音段和在數(shù)據(jù)庫中存儲的關(guān)鍵詞特征數(shù)據(jù)來計算關(guān)鍵詞概率,該概率表示自然語音特征值對應(yīng)于關(guān)鍵詞的概率,關(guān)鍵詞特征數(shù)據(jù)表示關(guān)鍵詞的語音成分的特征值;設(shè)置過程,在預(yù)設(shè)值的基礎(chǔ)上設(shè)置無關(guān)語音概率,該概率表示從自然語音提取的至少一部分語音段對應(yīng)于無關(guān)語音的概率,無關(guān)語音表示非關(guān)鍵詞;以及確定過程,基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
依照本發(fā)明,表示自然語音特征值對應(yīng)于關(guān)鍵詞特征數(shù)據(jù)所表示的關(guān)鍵詞的概率的關(guān)鍵詞概率被計算,基于預(yù)設(shè)值的無關(guān)語音概率被設(shè)置,并且基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率,包含在自然語音中的關(guān)鍵詞被確定。
因此,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,本發(fā)明的語音識別方法被進一步提供有;其中設(shè)置過程基于提取過程所提取的自然語音特征值和作為預(yù)設(shè)值的表示語音成分特征值的多個指定語音特征值來設(shè)置無關(guān)語音概率。
依照本發(fā)明,基于自然語音特征值和作為預(yù)設(shè)值的多個指定語音特征值來設(shè)置無關(guān)語音概率,并且基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
因此,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。例如,可通過使用組成典型無關(guān)語音的元音的語音特征值或包括多個預(yù)設(shè)指定語音特征值的多個關(guān)鍵詞特征數(shù)據(jù)的一部分來計算無關(guān)語音概率。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,本發(fā)明的語音識別設(shè)備方法被進一步提供有其中設(shè)置裝置將表示固定值的預(yù)設(shè)值設(shè)置為無關(guān)語音概率。
依照本發(fā)明,表示自然語音特征值對應(yīng)于關(guān)鍵詞特征數(shù)據(jù)的概率的關(guān)鍵詞概率被計算,并且基于所計算的關(guān)鍵詞概率和預(yù)設(shè)無關(guān)語音概率,包含在自然語音中的關(guān)鍵詞被確定。
因此,無關(guān)語音和關(guān)鍵詞可被識別,并且關(guān)鍵詞可被確定,而無需計算包括自然語音特征值和無關(guān)語音特征數(shù)據(jù)的特征值的特性。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
本發(fā)明的以上目的可通過本發(fā)明的記錄介質(zhì)來實現(xiàn)。記錄介質(zhì)是記錄語音識別程序以由計算機讀取的記錄介質(zhì),該計算機被包括在語音識別設(shè)備中以識別所發(fā)出的自然語音中包含的至少一個關(guān)鍵詞,所述程序使計算機起以下作用提取裝置,通過分析自然語音來提取自然語音特征值,該特征值是自然語音的語音成分的特征值;計算裝置,用于基于從自然語音提取的至少一部分語音段和在數(shù)據(jù)庫中存儲的關(guān)鍵詞特征數(shù)據(jù)來計算關(guān)鍵詞概率,該概率表示自然語音特征值對應(yīng)于關(guān)鍵詞的概率,關(guān)鍵詞特征數(shù)據(jù)表示關(guān)鍵詞的語音成分的特征值;設(shè)置裝置,用于在預(yù)設(shè)值的基礎(chǔ)上設(shè)置無關(guān)語音概率,該概率表示從自然語音提取的至少一部分語音段對應(yīng)于無關(guān)語音的概率,無關(guān)語音表示非關(guān)鍵詞;以及確定裝置,用于基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
依照本發(fā)明,表示自然語音特征值對應(yīng)于關(guān)鍵詞特征數(shù)據(jù)所表示的關(guān)鍵詞的概率的關(guān)鍵詞概率被計算,基于預(yù)設(shè)值的無關(guān)語音概率被設(shè)置,并且基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率,包含在自然語音中的關(guān)鍵詞被確定。
因此,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,語音識別程序使計算機起以下作用;其中設(shè)置裝置基于提取裝置所提取的自然語音特征值和作為預(yù)設(shè)值的表示語音成分特征值的多個指定語音特征值來設(shè)置無關(guān)語音概率。
依照本發(fā)明,基于自然語音特征值和作為預(yù)設(shè)值的多個指定語音特征值來設(shè)置無關(guān)語音概率,并且基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
因此,可通過使用小量數(shù)據(jù)來計算無關(guān)語音概率而無需預(yù)設(shè)大量無關(guān)語音特征數(shù)據(jù)。例如,可通過使用組成典型無關(guān)語音的元音的語音特征值或包括多個預(yù)設(shè)指定語音特征值的多個關(guān)鍵詞特征數(shù)據(jù)的一部分來計算無關(guān)語音概率。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
在本發(fā)明的一個方面中,語音識別程序使計算機起以下作用其中設(shè)置裝置將表示固定值的預(yù)設(shè)值設(shè)置為無關(guān)語音概率。
依照本發(fā)明,表示自然語音特征值對應(yīng)于關(guān)鍵詞特征數(shù)據(jù)的概率的關(guān)鍵詞概率被計算,并且基于所計算的關(guān)鍵詞概率和預(yù)設(shè)無關(guān)語音概率,包含在自然語音中的關(guān)鍵詞被確定。
因此,無關(guān)語音和關(guān)鍵詞可被識別,并且關(guān)鍵詞可被確定,而無需計算包括自然語音特征值和無關(guān)語音特征數(shù)據(jù)的特征值的特性。因此,有可能減小計算無關(guān)語音概率所需的處理負荷,并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
附圖簡述
圖1為示出識別網(wǎng)絡(luò)的基于HMM的語音語言模型的圖;圖2為示出依照本發(fā)明第一實施例使用詞識別的語音識別裝置的示意性配置的方塊圖;圖3為示出依照第一實施例的關(guān)鍵詞識別過程的操作的流程圖;圖4為示出用于識別兩個關(guān)鍵詞的識別網(wǎng)絡(luò)的基于HMM的語音語言模型的圖;圖5為示出依照本發(fā)明第二實施例使用詞識別的語音識別裝置的示意性配置的方塊圖;圖6為示出依照第二實施例的關(guān)鍵詞識別過程的操作的流程圖;以及圖7為示出基于Filler模型的識別網(wǎng)絡(luò)的語音語言模型的圖。
優(yōu)選實施例詳述現(xiàn)在將參照附圖中所示的優(yōu)選實施例來描述本發(fā)明。
以下所述的實施例是本發(fā)明被應(yīng)用于語音識別設(shè)備的實施例。
〔第一實施例〕圖1到4是示出依照本發(fā)明的語音識別設(shè)備的第一實施例的圖。
首先,將參照圖1來描述依照本實施例的基于HMM的語音語言模型。
圖1為示出依照本實施例的識別網(wǎng)絡(luò)的基于HMM的語音語言模型的圖。
本實施例假定了一個表示如圖1中所示的基于HMM的識別網(wǎng)絡(luò)的模型,即包含待識別的關(guān)鍵詞的語音語言模型10。
語音語言模型10由在其兩端與表示無關(guān)語音分量的無用信息模型(以下被稱為無關(guān)語音的分量模型)12a和12b聯(lián)系的關(guān)鍵詞模型11。在被包含于自然語音中的關(guān)鍵詞被識別的情況下,通過匹配關(guān)鍵詞與關(guān)鍵詞模型11來識別包含在自然語音中的關(guān)鍵詞,并且通過匹配無關(guān)語音與無關(guān)語音的分量模型12a和12b來識別包含在自然語音中的無關(guān)語音。
實際上,關(guān)鍵詞模型11和無關(guān)語音的分量模型12a和12b表示轉(zhuǎn)變自然語音的每個任意段的一組狀態(tài)。統(tǒng)計源模型“HMM”組成自然語音,該統(tǒng)計源模型“HMM”是由穩(wěn)定源的組合表示的非穩(wěn)定源。
關(guān)鍵詞模型11的HMM(以下被稱為關(guān)鍵詞HMM)和無關(guān)語音分量模型12a和12b的HMM(以下為稱為無關(guān)語音分量HMM)具有兩個類型的參數(shù)。一個參數(shù)是表示從一個狀態(tài)到另一個狀態(tài)的狀態(tài)轉(zhuǎn)變的概率的狀態(tài)轉(zhuǎn)變概率,而另一個是輸出概率,輸出在狀態(tài)從一個狀態(tài)到另一個狀態(tài)轉(zhuǎn)變時將被觀察的向量(每個幀的特征向量)的概率。這樣,關(guān)鍵詞模型11的HMM表示每個關(guān)鍵詞的特征圖型,而無關(guān)語音分量HMM12a和12b表示每個無關(guān)語音分量的特征圖型。
通常,由于即使相同的詞或音節(jié)也因為各種原因而表現(xiàn)出聲學(xué)上的變化,因此組成自然語音的語音聲音隨揚聲器而大大變化。然而,即使由不同的揚聲器發(fā)出,相同的語音聲音亦可通過特性譜包絡(luò)及其時間變化來大體表征。這種聲學(xué)變化的時序序列圖型的隨機特性可由HMM精確地表示。
這樣,如以下所述,依照本實施例,通過匹配所輸入自然語音的特征值與關(guān)鍵詞HMM和無關(guān)語音HMM并計算似然性,包含在自然語音中的關(guān)鍵詞被識別。
依照本實施例,HMM是每個關(guān)鍵詞的語音成分的特征圖型或每個無關(guān)語音分量的語音成分的特征值。此外,HMM是一種概率模型,其具有表示每個規(guī)則時間間隔、每個頻率的功率的譜包絡(luò)數(shù)據(jù)或從功率譜算法的逆傅立葉變換獲得的倒頻譜(cepstrum)數(shù)據(jù)。
此外,通過采集由多人發(fā)出的每個音位的自然語音數(shù)據(jù)、提取每個音位的特征圖型并基于所提取的音位特征圖型來學(xué)習(xí)每個音位的特征圖型數(shù)據(jù),在每個數(shù)據(jù)庫中事先生成并存儲HMM。
依照本實施例,多個典型的無關(guān)語音分量HMM由無關(guān)語音分量模型12a和12b來表示,并且使用無關(guān)語音分量模型12a和12b來執(zhí)行匹配。
例如,僅用于元音“a”、“i”、“u”、“e”和“o”的HMM以及關(guān)鍵詞分量HMM(稍后描述)可被用作所述多個典型的無關(guān)語音分量HMM。然后使用這些無關(guān)語音分量HMM來執(zhí)行匹配。
無關(guān)語音分量HMM和匹配過程的細節(jié)將在稍后描述。
當(dāng)包含在自然語音中的關(guān)鍵詞通過使用這種HMM來識別時,待識別的自然語音被分為預(yù)定持續(xù)時間的段,并且每個段被與HMM的每個預(yù)存數(shù)據(jù)進行匹配,然后從一個狀態(tài)到另一個狀態(tài)的這些段的狀態(tài)轉(zhuǎn)變的概率基于匹配過程的結(jié)果而被計算以識別待識別的關(guān)鍵詞。
具體而言,在本實施例中,每個語音段的特征值被與HMM的預(yù)存數(shù)據(jù)的每個特征圖型進行比較;匹配HMM特征圖型的每個語音段的特征值的似然性(對應(yīng)于依照本發(fā)明的關(guān)鍵詞概率和無關(guān)語音概率)被計算;基于所計算的似然性和每個語音段的語音特征值與無關(guān)語音的特征值之間的匹配似然性的預(yù)設(shè)值以及表示所有HMM之間的聯(lián)系即關(guān)鍵詞和無關(guān)語音之間的聯(lián)系的概率的累計似然性,匹配過程(稍后描述)被執(zhí)行,其中似然性的值已在假定給定段包含無關(guān)語音的情況下被預(yù)設(shè);并且通過檢測有最高似然性的HMM聯(lián)系,自然語音被識別。
接下來,將參照圖2來描述依照本實施例的語音識別裝置的配置。
圖2為示出依照本發(fā)明使用詞識別的語音識別裝置的示意性配置的方塊圖。
如圖2中所示,語音識別裝置100包括用于輸入待識別的自然語音的話筒101;低通濾波器(以下被稱為LPF)102;將從話筒101輸出的模擬信號轉(zhuǎn)換為數(shù)字信號的模擬/數(shù)字轉(zhuǎn)換器(以下被稱為A/D轉(zhuǎn)換器)103;從所輸入的語音信號提取對應(yīng)于語音聲音的語音信號并以預(yù)設(shè)時間間隔分割幀的輸入處理器104;提取每個幀中的語音信號特征值的語音分析器105;預(yù)存表示待識別關(guān)鍵詞的特征圖型的關(guān)鍵詞HMM和指定語音的HMM(以下被稱為指定語音HMM)以便計算稍后描述的無關(guān)語音似然性的HMM模型數(shù)據(jù)庫106;計算所提取的每個幀的特征值匹配每個所存HMM的似然性的似然性計算器107;基于在似然性計算器107中計算的似然性來設(shè)置表示所提取幀對應(yīng)于無關(guān)語音的似然性的無關(guān)語音似然性的無關(guān)語音似然性設(shè)置裝置108;基于在逐幀HMM的基礎(chǔ)上計算的似然性來執(zhí)行匹配過程(稍后描述)的匹配處理器109;以及基于匹配過程的結(jié)果來確定包含在自然語音中的關(guān)鍵詞的確定裝置110。
輸入處理器和語音分析器105用作本發(fā)明的提取裝置,而HMM模型數(shù)據(jù)庫106用作本發(fā)明的數(shù)據(jù)庫。
此外,似然性計算器107用作本發(fā)明的計算裝置、設(shè)置裝置、指定語音概率計算裝置和采集裝置,而無關(guān)語音似然性設(shè)置裝置108用作本發(fā)明的設(shè)置裝置和無關(guān)語音概率設(shè)置裝置。
此外,匹配處理器109和確定裝置110用作本發(fā)明的確定裝置。
自然語音在話筒101中被輸入,而話筒101基于所輸入的自然語音而產(chǎn)生語音信號并將其輸出到LPF 102。
由話筒101產(chǎn)生的語音信號在LPF 102中被輸入。LPF 102從所接收的語音信號中去除諧波分量,并將被去除諧波分量的語音信號輸出到A/D轉(zhuǎn)換器103。
諧波分量已由LPF 102去除的語音信號在A/D轉(zhuǎn)換器103中被輸入。A/D轉(zhuǎn)換器103將所接收的模擬語音信號轉(zhuǎn)換為數(shù)字信號,并將數(shù)字語音信號輸出到輸入處理器104。
數(shù)字語音信號在輸入處理器104中被輸入。輸入處理器104從所輸入的數(shù)字語音信號中提取表示自然語音的語音段的語音信號的那些部分,將語音信號的所提取部分分為預(yù)定持續(xù)時間的幀,并將其輸出給語音分析器105。
輸入處理器104將語音信號分為例如10ms到20ms的間隔的幀。
在語音分析器105中,逐幀分析所輸入的語音信號,提取每個幀中的語音信號的特征值,并將其輸出到似然性計算器107。
具體而言,語音分析器105在逐幀的基礎(chǔ)上將表示以規(guī)則時間間隔、每個頻率的功率的譜包絡(luò)數(shù)據(jù)或從功率譜算法的逆傅立葉變換獲得的倒頻譜數(shù)據(jù)提取為語音成分的特征值,將所提取的特征值轉(zhuǎn)換為向量,并將向量輸出到似然性計算器107。
HMM模型數(shù)據(jù)庫106預(yù)存表示待識別關(guān)鍵詞的特征值的圖型數(shù)據(jù)的關(guān)鍵詞HMM和計算無關(guān)語音似然性所需的指定語音HMM圖型數(shù)據(jù)。
這些所存的多個關(guān)鍵詞HMM的數(shù)據(jù)表示待識別的多個關(guān)鍵詞的特征值的圖型。
例如,如果在安裝于汽車的導(dǎo)航系統(tǒng)中被使用,關(guān)鍵詞模型數(shù)據(jù)庫104被設(shè)計用于為汽車存儲HMM,該HMM表示包括目的地名稱或當(dāng)前位置名稱或設(shè)施名稱如飯店名稱的語音信號的特征值的圖型。
如以上所述,依照本實施例,表示每個關(guān)鍵詞的語音成分的特征圖型的HMM表示概率模型,其具有表示規(guī)則時間間隔、每個頻率的功率的譜包絡(luò)數(shù)據(jù)或從功率譜算法的逆傅立葉變換獲得的倒頻譜數(shù)據(jù)。
由于關(guān)鍵詞一般由多個音位或音節(jié),如“present location”或“destination”的情況,依照本實施例,一個關(guān)鍵詞HMM由多個關(guān)鍵詞分量HMM組成,而似然性計算器107計算每個關(guān)鍵詞分量HMM的似然性和逐幀特征值。
以這種方式,HMM模型數(shù)據(jù)庫106存儲待識別的關(guān)鍵詞的每個關(guān)鍵詞HMM,即關(guān)鍵詞分量HMM。
此外,HMM模型數(shù)據(jù)庫106將表示組成典型無關(guān)語音的元音的語音特征數(shù)據(jù)(以下被稱為指定語音特征數(shù)據(jù))的HMM(以下被稱為指定語音HMM)預(yù)存為多個預(yù)設(shè)的指定語音特征值。
例如,由于即使在無關(guān)語音中,每個音節(jié)一般也包含元音,因此HMM模型數(shù)據(jù)庫106存儲表示元音“a”、“i”、“u”、“e”和“o”的語音信號特征值的指定語音HMM。在似然性計算器107中,執(zhí)行與這些指定語音HMM的匹配。此外,這些元音“a”、 “i”、“u”、“e”和“o”還表示日語的元音。
每個幀的特征向量在似然性計算器107中被輸入,似然性計算器107比較每個所輸入幀的特征值與HMM模型數(shù)據(jù)庫106中存儲的關(guān)鍵詞HMM的每個特征值和指定語音特征數(shù)據(jù)模型(對應(yīng)于依照本發(fā)明的指定語音特征值)的每個特征值,由此基于所輸入幀和每個HMM之間的匹配來計算似然性,包括幀對應(yīng)于HMM模型數(shù)據(jù)庫106中存儲的每個關(guān)鍵詞HMM或每個指定語音HMM的概率,并且將與指定語音HMM匹配的所計算似然性輸出給無關(guān)語音似然性設(shè)置裝置108,而將與關(guān)鍵詞HMM匹配的所計算似然性輸出給匹配處理器109。
具體而言,似然性計算器107在逐幀的基礎(chǔ)上計算輸出概率。輸出概率包括每個幀對應(yīng)于每個關(guān)鍵詞分量HMM的輸出概率和每個幀對應(yīng)于指定語音HMM的輸出概率。此外,似然性計算器107計算狀態(tài)轉(zhuǎn)變概率。狀態(tài)轉(zhuǎn)變概率包括從任意幀到下一幀的狀態(tài)轉(zhuǎn)變對應(yīng)于從關(guān)鍵詞分量HMM到另一個關(guān)鍵詞分量HMM或指定語音HMM的狀態(tài)轉(zhuǎn)變的概率,以及從任意幀到下一幀的狀態(tài)轉(zhuǎn)變對應(yīng)于從指定語音HMM到另一個指定語音HMM或關(guān)鍵詞分量HMM的狀態(tài)轉(zhuǎn)變的概率。此外,似然性計算器107將所計算的概率作為似然性輸出給無關(guān)語音似然性設(shè)置裝置108和匹配處理器109。
順便提及,狀態(tài)轉(zhuǎn)變概率包括從關(guān)鍵詞分量HMM到相同關(guān)鍵詞分量HMM的狀態(tài)轉(zhuǎn)變以及從指定語音HMM到相同指定語音HMM的狀態(tài)轉(zhuǎn)變的概率。
似然性計算器107將為單獨幀所計算的輸出概率和狀態(tài)轉(zhuǎn)變概率輸出給無關(guān)語音似然性設(shè)置裝置108和匹配處理器109作為相應(yīng)幀的似然性。
在無關(guān)語音似然性設(shè)置裝置108中,輸入為單獨幀基于指定語音HMM而計算的輸出概率和狀態(tài)轉(zhuǎn)變概率,無關(guān)語音似然性設(shè)置裝置108計算所輸入的輸出概率和狀態(tài)轉(zhuǎn)變概率的平均,并將所計算的平均輸出給匹配處理器109作為無關(guān)語音似然性。
例如,當(dāng)指定語音HMM表示元音“a”、“i”、“u”、“e”和“o”的語音信號特征圖型時,無關(guān)語音似然性設(shè)置裝置108在逐幀的基礎(chǔ)上為每個元音的HMM而平均輸出概率和狀態(tài)轉(zhuǎn)變概率,并將平均輸出概率和平均狀態(tài)轉(zhuǎn)變概率作為所述幀的無關(guān)語音似然性輸出給匹配處理器109。
在匹配處理器109中,由似然性計算器107和無關(guān)語音似然性設(shè)置裝置108計算的逐幀輸出概率和每個狀態(tài)轉(zhuǎn)變概率被輸入。匹配處理器109執(zhí)行匹配過程以基于所輸入的每個輸出概率和每個狀態(tài)轉(zhuǎn)變概率來計算累計似然性(依照本發(fā)明的組合概率),該累計似然性是每個關(guān)鍵詞HMM和無關(guān)語音成分HMM的每個組合的似然性,并且將所計算的累計似然性輸出給確定裝置110。
具體而言,在匹配處理器109中,當(dāng)假定給定幀包含無關(guān)語音時,從無關(guān)語音似然性設(shè)置裝置108輸出的無關(guān)語音似然性被用作表示每個幀中語音分量的特征值與無關(guān)語音分量的語音分量特征值之間的匹配似然性的無關(guān)語音似然性。此外,通過在逐幀的基礎(chǔ)上累計似然性計算器107所計算的關(guān)鍵詞似然性和無關(guān)語音似然性,匹配處理器109計算用于關(guān)鍵詞和無關(guān)語音的每個組合的累計似然性。因此,匹配處理器109為每個關(guān)鍵詞計算一個累計似然性(如稍后所述)。
順便提及,由匹配處理器109執(zhí)行的匹配過程的細節(jié)將在稍后描述。
在確定裝置110中,由匹配處理器109計算的每個關(guān)鍵詞的累計似然性被輸入。確定裝置110為每個關(guān)鍵詞的詞長度而歸一化所輸入的累計似然性。具體而言,確定裝置110基于被用作計算所輸入累計似然性的基礎(chǔ)的關(guān)鍵詞持續(xù)時間來歸一化所輸入的累計似然性。此外,確定裝置110把有歸一化似然性中的最高累計似然性的關(guān)鍵詞輸出為包含在自然語音中的關(guān)鍵詞。
在做出對關(guān)鍵詞的決定時,確定裝置110亦單獨使用無關(guān)語音似然性的累計似然性。如果單獨被使用的無關(guān)語音似然性具有最高的累計似然性,則確定裝置110確定在自然語音中不包含關(guān)鍵詞并輸出該結(jié)論。
接下來,將描述依照實施例由匹配處理器109執(zhí)行的匹配過程。
依照本實施例的匹配過程使用維特比算法來計算關(guān)鍵詞模型和無關(guān)語音分量模型的每個組合的累計似然性。
維特比算法是這樣一種算法其基于進入(enter)每個給定狀態(tài)的輸出概率和從每個狀態(tài)到另一個狀態(tài)的轉(zhuǎn)變概率來計算累計似然性,然后輸出在累計概率之后已被計算累計似然性的組合。
通常,累計似然性首先通過積分(integrate)每個幀的特征值表示的狀態(tài)和每個HMM表示的狀態(tài)的特征值之間的歐幾里德距離來計算,然后通過計算累計距離來計算。
具體而言,維特比算法基于表示從任意狀態(tài)i到下一個狀態(tài)j的轉(zhuǎn)變的路徑來計算累計概率,由此提取通過它可發(fā)生狀態(tài)轉(zhuǎn)變的HMM的每個路徑,即聯(lián)系和組合。
在本實施例中,通過從首先被劃分的幀開始到最后被劃分的幀結(jié)束一個接一個地、將關(guān)鍵詞模型或無關(guān)語音分量模型的輸出概率和由此的狀態(tài)轉(zhuǎn)變概率匹配于所輸入自然語音的幀,似然性計算器107和無關(guān)語音似然性計算部分108計算每個輸出概率和每個狀態(tài)轉(zhuǎn)變概率;從首先被劃分的幀到最后被劃分的幀,計算關(guān)鍵詞模型和無關(guān)語音分量的任意組合的累計似然性;通過每個關(guān)鍵詞模型確定在每個關(guān)鍵詞模型/無關(guān)語音分量組合中具有最高累計似然性的安排;并將所確定的關(guān)鍵詞模型的累計似然性逐一輸出給確定裝置110。
例如,在待識別關(guān)鍵詞為“present location”和“destination”而所進入的輸入自然語音為“er,present location”的情況下,依照本實施例的匹配過程執(zhí)行如下。
在此假定,無關(guān)語音為“er”,無關(guān)語音似然性已事先設(shè)置,關(guān)鍵詞數(shù)據(jù)庫包含“present”和“destination”的每個音節(jié)的HMM,并且由似然性計算器107和無關(guān)語音似然性設(shè)置裝置108計算的每個輸出概率和狀態(tài)轉(zhuǎn)變概率已在匹配處理器109中被輸入。
在此情況下,依照本實施例,維特比算法基于輸出概率和狀態(tài)轉(zhuǎn)變概率為關(guān)鍵詞“present”和“destination”計算關(guān)鍵詞和無關(guān)語音分量的每個組合中所有安排的累計似然性。
維特比算法為在此情況下是“present location”和“destination”的每個關(guān)鍵詞從第一幀開始計算自然語音所有幀上的所有組合圖型的累計似然性。
此外,在為每個關(guān)鍵詞計算每個安排的累計似然性的過程中,對于具有低累計似然性的那些安排,維特比算法在中途停止計算,確定自然語音不匹配那些組合圖型。
具體而言,在第一幀中,不是作為關(guān)鍵詞“present location”的關(guān)鍵詞分量HMM的“p”的HMM的似然性、就是事先設(shè)置的無關(guān)語音的似然性被包括在累計似然性的計算中。在此情況下,較高的累計似然性提供接下來的累計似然性的計算。
在此情況下,無關(guān)語音似然性比“p”的關(guān)鍵詞分量HMM的似然性高,由此對“present#”的累計似然性的計算在“p”之后被終止(其中*表示無關(guān)語音似然性)。
這樣,在這種類型的匹配過程中,對關(guān)鍵詞“present”和“destination”的每個僅計算了一個累計似然性。
接下來,將參照圖3來描述依照本實施例的關(guān)鍵詞識別過程。
圖3是示出依照本實施例的關(guān)鍵詞識別過程的操作的流程圖。
首先,當(dāng)控制面板或控制器(未示出)命令每個部件開始關(guān)鍵詞識別過程并且自然語音進入話筒101(步驟S11)時,自然語音通過LPF102和A/D轉(zhuǎn)換器103被輸入,并且輸入處理器104從所輸入的語音信號提取自然語音的語音信號(步驟S12)。接下來,輸入處理器104將所提取的語音信號分為預(yù)定持續(xù)時間的幀,并從第一幀開始在逐幀的基礎(chǔ)上將語音信號輸出給語音分析器105(步驟S13)。
然后,在該關(guān)鍵詞識別過程中,以下過程是在逐幀的基礎(chǔ)上進行的。
首先,控制器(未示出)判斷語音分析器105中輸入的幀是否為最后的幀(步驟S14)。如果是,流程轉(zhuǎn)到步驟S20。另一方面,如果所述幀不是最后一個,進行以下過程。
然后,語音分析器105提取所接收幀中的語音信號的特征值,并將其輸出給似然性計算器107(步驟S15)。
具體而言,基于每個幀中的語音信號,語音分析器105將表示規(guī)則時間間隔、每個頻率的譜包絡(luò)信息或從功率譜算法的逆傅立葉變換獲得的倒頻譜信息提取為語音成分的特征值,將所提取的特征值轉(zhuǎn)換為向量,并將向量輸出給似然性計算器107。
接下來,似然性計算器107比較幀的所輸入特征值與在HMM模型數(shù)據(jù)庫106中存儲的關(guān)鍵詞HMM和指定語音HMM的特征值,為每個HMM計算幀的輸出概率和狀態(tài)轉(zhuǎn)變概率,并將用于指定語音HMM的輸出概率和狀態(tài)轉(zhuǎn)變概率輸出給無關(guān)語音似然性設(shè)置裝置108,而將用于關(guān)鍵詞HMM匹配的輸出概率和狀態(tài)轉(zhuǎn)變概率輸出給匹配處理器109(步驟S16)。
接下來,無關(guān)語音似然性設(shè)置裝置108基于用于指定語音HMM的所輸入的輸出概率和所輸入的狀態(tài)轉(zhuǎn)變概率來設(shè)置無關(guān)語音似然性(步驟S17)。
例如,當(dāng)指定語音HMM表示元音“a”、“i”、“u”、“e”和“o”的語音信號特征圖型時,無關(guān)語音似然性設(shè)置裝置108在逐幀的基礎(chǔ)上平均基于每個幀的特征值和每個元音的HMM而計算的輸出概率和狀態(tài)轉(zhuǎn)變概率,并將平均輸出概率和平均狀態(tài)轉(zhuǎn)變概率作為所述幀的無關(guān)語音似然性輸出給匹配處理器109。
接下來,基于由似然性計算器107計算的輸出概率和狀態(tài)轉(zhuǎn)變概率以及由無關(guān)語音似然性設(shè)置裝置108計算的的輸出概率和狀態(tài)轉(zhuǎn)變概率,匹配處理器109執(zhí)行匹配過程(以上所述)并計算每個關(guān)鍵詞的累計似然性(步驟S18)。
具體而言,通過將關(guān)鍵詞HMM的所輸入累計似然性和無關(guān)語音似然性加給在此以前計算的累計似然性,匹配處理器109積分每個關(guān)鍵詞的似然性,但最終僅計算每個關(guān)鍵詞的最高累計似然性。
接下來,在控制器(未示出)的命令下,匹配處理器109控制接下來幀的輸入(步驟S19)并返回步驟S14。
另一方面,如果控制器(未示出)判斷給定幀是最后的幀,則每個關(guān)鍵詞的最高累計似然性被輸出給確定裝置110,然后該確定裝置為每個關(guān)鍵詞的詞長度而歸一化累計似然性(步驟S20)。
最后,基于每個關(guān)鍵詞的歸一化累計似然性,確定裝置110把有最高累計似然性的關(guān)鍵詞輸出為包含在自然語音中的關(guān)鍵詞(步驟S21)。由此結(jié)束操作。
這樣,依照本實施例,由于自然語音特征值和語音段的每個幀的關(guān)鍵詞特征數(shù)據(jù)之間匹配的似然性被計算,無關(guān)語音似然性基于指定語音特征數(shù)據(jù)如元音而被設(shè)置,并且包含在自然語音中的關(guān)鍵詞基于這些似然性而被確定,因此可通過使用小量數(shù)據(jù)來計算無關(guān)語音似然性,而無需預(yù)設(shè)在常規(guī)上計算無關(guān)語音概率所需的大量無關(guān)語音特征數(shù)據(jù)。因此,在本實施例中,計算無關(guān)語音似然性所需的處理負荷可被減小。
此外,在本實施例中,由于無關(guān)語音似然性和所計算似然性的每個組合的累計似然性是通過累計無關(guān)語音似然性和每個所計算似然性來計算的,并且包含在自然語音中的關(guān)鍵詞是基于所計算的累計似然性來確定的,因此可基于無關(guān)語音似然性和每個所計算似然性的每個組合來確定包含在自然語音中的關(guān)鍵詞。
因此,有可能以高速度容易地識別自然語音中包含的關(guān)鍵詞并防止誤識別。
此外,在本實施例中,當(dāng)識別包含在自然語音中的兩個或多個關(guān)鍵詞時,有可能以較高的速度較容易地識別包含在自然語音中的關(guān)鍵詞并防止誤識別。
例如,當(dāng)使用如圖4中所示的基于HMM的語音語言模型20來識別兩個關(guān)鍵詞時,如果在待識別的關(guān)鍵詞模型中的詞長度被歸一化,則兩個關(guān)鍵詞可同時被識別。
具體而言,取代在匹配處理器109中計算每個關(guān)鍵詞的累計似然性,如果匹配處理器109計算包含在HMM模型數(shù)據(jù)庫106中包含的關(guān)鍵詞的每個組合的累計似然性,并且確定裝置110通過相加所有關(guān)鍵詞的詞長度來歸一化詞長度,則有可能同時識別兩個或多個關(guān)鍵詞,以高速度容易地識別包含在自然語音中的關(guān)鍵詞,并防止誤識別。
順便提及,盡管僅用于元音“a”、“i”、“u”、“e”和“o”的指定語音HMM在本實施例中被使用,上述關(guān)鍵詞分量HMM亦可被用作指定語音HMM并與以上元音的關(guān)鍵詞分量HMM進行匹配。
在此情況下,似然性計算器107為每個所輸入幀和每個關(guān)鍵詞分量HMM計算輸出概率和狀態(tài)轉(zhuǎn)變概率,并將概率的每個計算值輸出給無關(guān)語音似然性設(shè)置裝置108。然后,無關(guān)語音似然性設(shè)置裝置108計算高(例如,前5個)輸出概率和狀態(tài)轉(zhuǎn)變概率的平均,并將所計算的平均輸出概率和平均狀態(tài)轉(zhuǎn)變概率作為無關(guān)語音似然性輸出給匹配處理器109。
因此,同以上情況一樣,由于可通過使用小量數(shù)據(jù)來設(shè)置無關(guān)語音概率,而無需預(yù)設(shè)在常規(guī)上計算無關(guān)語音似然性所需的大量無關(guān)語音特征數(shù)據(jù),因此有可能減小計算無關(guān)語音概率所需的處理負荷并以高速度容易地識別包含在自然語音中的關(guān)鍵詞。
此外,盡管關(guān)鍵詞識別過程是由依照本實施例的語音識別裝置來執(zhí)行的,語音識別裝置可被配備有計算機和記錄介質(zhì),而類似的關(guān)鍵詞識別過程可在計算機讀取記錄介質(zhì)上存儲的關(guān)鍵詞識別程序時被執(zhí)行。
在此,DVD或CD可被用作記錄介質(zhì),而語音識別裝置可被配備有用于從記錄介質(zhì)讀取程序的讀取器。
〔第二實施例〕圖5到6是示出依照本發(fā)明第二實施例的語音識別裝置的圖。
在本實施例中,取代在第一實施例中基于關(guān)鍵詞HMM和表示無關(guān)語音似然性的指定語音HMM來識別關(guān)鍵詞,關(guān)鍵詞是基于關(guān)鍵詞HMM和表示無關(guān)語音似然性的預(yù)定固定值來識別的。
具體而言,依照本實施例,對于每個關(guān)鍵詞,關(guān)鍵詞模型和無關(guān)語音似然性的每個組合的累計似然性是基于無關(guān)語音似然性輸出概率和狀態(tài)轉(zhuǎn)變概率來計算的,并且匹配過程是通過使用維特比算法來執(zhí)行的。
例如,為識別作為任意自然語音中的關(guān)鍵詞的“present”和“destination”,通過基于無關(guān)語音似然性、輸出概率和狀態(tài)轉(zhuǎn)變概率計算所有以下安排的累計似然性來執(zhí)行匹配過程“present”、“#present”、“present#”和“#present#”以及“destination”、“#destination”、“destination#”和“#destination#”(其中#表示無關(guān)語音似然性的固定值)。
在其它方面,本實施例的配置類似于第一實施例,除了基于關(guān)鍵詞HMM和預(yù)定固定值來識別關(guān)鍵詞。
如圖5中所示,語音識別裝置200包括話筒101;LPF102;A/D轉(zhuǎn)換器103;輸入處理器104;語音分析器105;預(yù)存表示待識別關(guān)鍵詞的特征圖型的關(guān)鍵詞HMM的關(guān)鍵詞模型數(shù)據(jù)庫201;計算所提取的每個幀的特征值匹配關(guān)鍵詞HMM的似然性的似然性計算器202;基于與每個關(guān)鍵詞HMM匹配的所計算逐幀似然性和不構(gòu)成任何關(guān)鍵詞的無關(guān)語音的預(yù)設(shè)似然性來執(zhí)行匹配過程的匹配處理器203;以及確定裝置110。
輸入處理器104和語音分析器105用作本發(fā)明的提取裝置,而關(guān)鍵詞模型數(shù)據(jù)庫201用作本發(fā)明的第一數(shù)據(jù)庫。
此外,似然性計算器202用作本發(fā)明的計算裝置和第一采集裝置,匹配處理器108用作第二數(shù)據(jù)庫、第二采集裝置和確定裝置,而確定裝置109用作本發(fā)明的確定裝置。
關(guān)鍵詞模型數(shù)據(jù)庫201預(yù)存表示待識別關(guān)鍵詞的特征圖型數(shù)據(jù)的關(guān)鍵詞HMM。所存的關(guān)鍵詞HMM表示待識別的相應(yīng)關(guān)鍵詞的特征圖型。
例如,如果在安裝于汽車的導(dǎo)航系統(tǒng)中被使用,關(guān)鍵詞模型數(shù)據(jù)庫201被設(shè)計用于為汽車存儲HMM,該HMM表示包括目的地名稱或當(dāng)前位置名稱或設(shè)施名稱如飯店名稱的語音信號的特征值的圖型。
如以上所述,依照本實施例,表示每個關(guān)鍵詞的語音成分的特征圖型的HMM表示一種概率模型,其具有表示規(guī)則時間間隔、每個頻率的功率的譜包絡(luò)數(shù)據(jù)或從功率譜算法的逆傅立葉變換獲得的倒頻譜數(shù)據(jù)。
由于關(guān)鍵詞一般由多個音位或音節(jié),如“present location”或“destination”的情況,依照本實施例,一個關(guān)鍵詞HMM由多個關(guān)鍵詞分量HMM組成,而似然性計算器202逐幀計算特征值和每個關(guān)鍵詞分量HMM的似然性。
以這種方式,關(guān)鍵詞模型數(shù)據(jù)庫201存儲待識別的關(guān)鍵詞的每個關(guān)鍵詞HMM,即關(guān)鍵詞分量HMM。
在似然性計算器202中,每個幀的特征向量被輸入,并且似然性計算器202通過基于每個幀的所輸入特征向量在每個幀的每個所輸入HMM和每個數(shù)據(jù)庫中存儲的HMM的每個特征值之間進行匹配來計算似然性,并且將所計算的似然性輸出給匹配處理器203。
依照本實施例,似然性計算器202基于每個幀的特征值和關(guān)鍵詞模型數(shù)據(jù)庫201中存儲的HMM的特征值來計算概率,其包括每個幀對應(yīng)于關(guān)鍵詞模型數(shù)據(jù)庫201中存儲的每個HMM的概率。
具體而言,似然性計算器202計算表示每個幀對應(yīng)于每個關(guān)鍵詞分量HMM的概率的概率。此外,它還計算狀態(tài)轉(zhuǎn)變概率,該狀態(tài)轉(zhuǎn)變概率表示從任意幀到下一幀的狀態(tài)轉(zhuǎn)變對應(yīng)于從關(guān)鍵詞分量HMM到另一個關(guān)鍵詞分量HMM的狀態(tài)轉(zhuǎn)變的概率。然后,似然性計算器202將所計算的概率作為似然性輸出給匹配處理器108。
順便提及,狀態(tài)轉(zhuǎn)變概率包括從每個關(guān)鍵詞分量HMM到相同關(guān)鍵詞分量HMM的狀態(tài)轉(zhuǎn)變的狀態(tài)轉(zhuǎn)變概率。
似然性計算器202將為每個幀所計算的輸出概率和狀態(tài)轉(zhuǎn)變概率作為幀的似然性輸出給匹配處理器203。
在匹配處理器203中,由似然性計算器202計算的逐幀輸出概率和狀態(tài)轉(zhuǎn)變概率被輸入。匹配處理器203執(zhí)行匹配過程以基于所輸入的輸出概率、所輸入的輸出狀態(tài)轉(zhuǎn)變概率和無關(guān)語音似然性來計算累計似然性,該累計似然性是關(guān)鍵詞HMM和無關(guān)語音似然性的每個組合的似然性,并且將累計似然性輸出給確定裝置110。
具體而言,匹配處理器203預(yù)存表示無關(guān)語音似然性的輸出概率和狀態(tài)轉(zhuǎn)變概率。當(dāng)假定給定幀是無關(guān)語音分量的幀時,該無關(guān)語音似然性表示每個幀中自然語音所包含的語音分量的特征值與無關(guān)語音的語音分量特征值之間的匹配。此外,通過在逐幀的基礎(chǔ)上累計似然性計算器202所計算的關(guān)鍵詞似然性和無關(guān)語音似然性,匹配處理器203計算用于關(guān)鍵詞和無關(guān)語音的每個組合的累計似然性。因此,匹配處理器203計算每個關(guān)鍵詞的累計似然性(如稍后所述)以及沒有關(guān)鍵詞的累計似然性。
接下來,將參照圖6來描述依照本實施例的關(guān)鍵詞識別過程。
圖6是示出依照本實施例的關(guān)鍵詞識別過程的操作的流程圖。
首先,當(dāng)控制面板或控制器(未示出)命令每個部件開始關(guān)鍵詞識別過程并且自然語音進入話筒101(步驟S31)時,自然語音通過LPF102和A/D轉(zhuǎn)換器103被輸入,并且輸入處理器104從所輸入的語音信號提取自然語音的語音信號(步驟S32)。接下來,輸入處理器104將所提取的語音信號分為預(yù)定持續(xù)時間的幀,并從第一幀開始在逐幀的基礎(chǔ)上將語音信號輸出給語音分析器105(步驟S33)。
然后,在該關(guān)鍵詞識別過程中,以下過程是在逐幀的基礎(chǔ)上進行的。
首先,控制器(未示出)判斷語音分析器105中輸入的幀是否為最后的幀(步驟S34)。如果是,流程轉(zhuǎn)到步驟S39。另一方面,如果所述幀不是最后一個,進行以下過程。
然后,語音分析器105提取所接收幀中的語音信號的特征值,并將其輸出給似然性計算器202(步驟S35)。
具體而言,基于每個幀中的語音信號,語音分析器105將表示規(guī)則時間間隔、每個頻率的譜包絡(luò)信息或從功率譜算法的逆傅立葉變換獲得的倒頻譜信息提取為語音成分的特征值,將所提取的特征值轉(zhuǎn)換為向量,并將向量輸出給似然性計算器202。
然后,似然性計算器202比較幀的所輸入特征值與在關(guān)鍵詞模型數(shù)據(jù)庫201中存儲的HMM的特征值,為每個HMM計算幀的輸出概率和狀態(tài)轉(zhuǎn)變概率,并將其輸出給匹配處理器203(步驟S36)。
接下來,基于由似然性計算器202計算的輸出概率和狀態(tài)轉(zhuǎn)變概率以及在匹配處理器203中存儲的預(yù)設(shè)無關(guān)語音似然性,匹配處理器203執(zhí)行匹配過程(以上所述)并計算每個關(guān)鍵詞的累計似然性(步驟S37)。
具體而言,通過將關(guān)鍵詞HMM的所輸入累計似然性和無關(guān)語音似然性加給在此以前計算的累計似然性,匹配處理器203積分每個關(guān)鍵詞的似然性,但最終僅計算每個關(guān)鍵詞的最高累計似然性。
接下來,在控制器(未示出)的命令下,匹配處理器203控制接下來幀的輸入(步驟S38)并返回步驟S34。
另一方面,如果控制器(未示出)判斷給定幀是最后的幀,則每個關(guān)鍵詞的最高累計似然性被輸出給確定裝置110,然后該確定裝置為每個關(guān)鍵詞的詞長度而歸一化累計似然性(步驟S39)。
最后,基于每個關(guān)鍵詞的歸一化累計似然性,確定裝置110把有最高累計似然性的關(guān)鍵詞輸出為包含在自然語音中的關(guān)鍵詞(步驟S40)。由此結(jié)束操作。
這樣,依照本實施例,由于自然語音特征值和語音段的每個幀的關(guān)鍵詞特征數(shù)據(jù)之間匹配的似然性被計算,并且包含在自然語音中的關(guān)鍵詞基于所計算的似然性和預(yù)設(shè)無關(guān)語音似然性而被確定,因此可無需計算無關(guān)語音似然性而確定包含在自然語音中的關(guān)鍵詞。
此外,在本實施例中,由于無關(guān)語音似然性和所計算似然性的每個組合的累計似然性是通過累計無關(guān)語音似然性和每個所計算似然性來計算的,并且包含在自然語音中的關(guān)鍵詞是基于所計算的累計似然性來確定的,因此可基于無關(guān)語音似然性和每個所計算似然性的每個組合來確定包含在自然語音中的關(guān)鍵詞。
因此,有可能以高速度容易地識別自然語音中包含的關(guān)鍵詞并防止誤識別。
此外,在本實施例中,當(dāng)識別包含在自然語音中的兩個或多個關(guān)鍵詞時,有可能以較高的速度較容易地識別包含在自然語音中的關(guān)鍵詞并防止誤識別。
例如,當(dāng)使用如圖4中所示的基于HMM的語音語言模型20來識別兩個關(guān)鍵詞時,如果在待識別的關(guān)鍵詞模型中的詞長度被歸一化,則兩個關(guān)鍵詞可同時被識別。
具體而言,取代在匹配處理器203中計算每個關(guān)鍵詞的累計似然性,如果匹配處理器203計算包含在關(guān)鍵詞模型數(shù)據(jù)庫201中包含的關(guān)鍵詞的每個組合的累計似然性,并且確定裝置110通過相加所有關(guān)鍵詞的詞長度來歸一化詞長度,則有可能同時識別兩個或多個關(guān)鍵詞,以高速度容易地識別包含在自然語音中的關(guān)鍵詞,并防止誤識別。
此外,盡管關(guān)鍵詞識別過程是由依照本實施例的語音識別裝置來執(zhí)行的,語音識別裝置可被配備有計算機和記錄介質(zhì),而類似的關(guān)鍵詞識別過程可在計算機讀取記錄介質(zhì)上存儲的關(guān)鍵詞識別程序時被執(zhí)行。
在此,DVD或CD可被用作記錄介質(zhì),而語音識別裝置可被配備有用于從記錄介質(zhì)讀取程序的讀取器。
本發(fā)明可被實施以其它特定形式而無需背離其精神或基本特性。因此,給出的實施例應(yīng)在各方面被認(rèn)為是說明性的而非局限性的,因此,由所附的權(quán)利要求而不是以上描述表示的本發(fā)明范圍以及在權(quán)利要求等效范圍和意義的范圍內(nèi)所有變化欲在此被包含。
權(quán)利要求
1.一種用于識別所發(fā)出自然語音中包含的至少一個關(guān)鍵詞的語音識別設(shè)備,特征在于所述設(shè)備包括提取裝置(104、105),用于通過分析自然語音來提取自然語音的特征值,該特征值是自然語音的語音成分的特征值;數(shù)據(jù)庫(106、201),用于存儲關(guān)鍵詞特征數(shù)據(jù),該特征數(shù)據(jù)表示關(guān)鍵詞語音成分的特征值;計算裝置(107、202),用于基于從自然語音提取的至少一部分語音段和在所述數(shù)據(jù)庫(106、201)中存儲的關(guān)鍵詞特征數(shù)據(jù)來計算關(guān)鍵詞概率,該概率表示所述自然語音特征值對應(yīng)于所述關(guān)鍵詞的概率;設(shè)置裝置(107、108、202),用于在預(yù)設(shè)值的基礎(chǔ)上設(shè)置無關(guān)語音概率,該概率表示從自然語音提取的至少一部分語音段對應(yīng)于無關(guān)語音的概率,所述無關(guān)語音表示非關(guān)鍵詞;以及確定裝置(109、110、203),用于基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的所述關(guān)鍵詞。
2.依照權(quán)利要求1的語音識別設(shè)備,其中所述設(shè)置裝置(107、108)基于所述提取裝置(104、105)所提取的自然語音特征值和作為預(yù)設(shè)值的表示語音成分特征值的多個指定語音特征值來設(shè)置無關(guān)語音概率。
3.依照權(quán)利要求2的語音識別設(shè)備,其中設(shè)置裝置(107、108)包括指定語音概率計算裝置(107),用于基于所述提取裝置(104、105)所提取的所述自然語音特征值和所述指定語音特征值來計算指定語音概率,該概率表示所述自然語音特征值對應(yīng)于所述指定語音特征值的概率;以及無關(guān)語音概率設(shè)置裝置(107、108),用于在所計算指定語音概率的基礎(chǔ)上設(shè)置所述無關(guān)語音概率。
4.依照權(quán)利要求3的語音識別設(shè)備,在所述指定語音概率計算裝置(107)計算多個指定語音概率的情況下,其中無關(guān)語音概率設(shè)置裝置(107、108)設(shè)置多個指定語音概率的平均和所述無關(guān)語音概率。
5.依照任何權(quán)利要求2到4的語音識別設(shè)備,其中所述設(shè)置裝置(107、108)將所述數(shù)據(jù)庫(106)中存儲的至少一部分關(guān)鍵詞特征數(shù)據(jù)用作指定語音特征值。
6.依照權(quán)利要求1的語音識別設(shè)備,其中所述設(shè)置裝置(202)將表示固定值的預(yù)設(shè)值設(shè)置為所述無關(guān)語音概率。
7.依照權(quán)利要求1到6的任何一個的語音識別設(shè)備,其中所述提取裝置(104、105)通過以預(yù)設(shè)時間間隔分析自然語音來提取所述自然語音特征值,并且由所述設(shè)置裝置(107、108、202)設(shè)置的無關(guān)語音概率表示該時間間隔內(nèi)的無關(guān)語音概率;所述計算裝置(107、202)基于以所述時間間隔提取的所述自然語音特征值來計算關(guān)鍵詞概率;并且所述確定裝置(109、110、203)基于所述時間間隔內(nèi)的所計算關(guān)鍵詞概率和無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
8.依照權(quán)利要求7的語音識別設(shè)備,其中所述確定裝置(109、110、203)基于在所述時間間隔內(nèi)的所計算關(guān)鍵詞概率和無關(guān)語音概率來計算組合概率,該組合概率表示由存儲在所述數(shù)據(jù)庫(106、201)中的關(guān)鍵詞特征數(shù)據(jù)表示的每個關(guān)鍵詞和無關(guān)語音概率的組合的概率,并且基于組合概率來確定包含在自然語音中的關(guān)鍵詞。
9.一種識別所發(fā)出的自然語音中包含的至少一個關(guān)鍵詞的語音識別方法,特征在于所述方法包括提取過程,通過分析自然語音來提取自然語音特征值,該特征值是自然語音的語音成分的特征值;計算過程,基于從自然語音提取的至少一部分語音段和在數(shù)據(jù)庫(106、201)中存儲的關(guān)鍵詞特征數(shù)據(jù)來計算關(guān)鍵詞概率,該概率表示所述自然語音特征值對應(yīng)于所述關(guān)鍵詞的概率,所述關(guān)鍵詞特征數(shù)據(jù)表示關(guān)鍵詞的語音成分的特征值;設(shè)置過程,在預(yù)設(shè)值的基礎(chǔ)上設(shè)置無關(guān)語音概率,該概率表示從自然語音提取的至少一部分語音段對應(yīng)于無關(guān)語音的概率,所述無關(guān)語音表示非關(guān)鍵詞;以及確定過程,基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
10.依照權(quán)利要求9的語音識別方法,其中所述設(shè)置過程基于所述提取過程所提取的自然語音特征值和作為預(yù)設(shè)值的表示語音成分特征值的多個指定語音特征值來設(shè)置無關(guān)語音概率。
11.依照權(quán)利要求9的語音識別方法,其中所述設(shè)置過程將表示固定值的預(yù)設(shè)值設(shè)置為所述無關(guān)語音概率。
12.一種記錄介質(zhì),在其中記錄語音識別程序以由計算機讀取,該計算機被包括在語音識別設(shè)備中以識別所發(fā)出的自然語音中包含的至少一個關(guān)鍵詞,特征在于所述程序使計算機起以下作用提取裝置(104、105),通過分析自然語音來提取自然語音特征值,該特征值是自然語音的語音成分的特征值;計算裝置(107、202),用于基于從自然語音提取的至少一部分語音段和在數(shù)據(jù)庫(106、201)中存儲的關(guān)鍵詞特征數(shù)據(jù)來計算關(guān)鍵詞概率,該概率表示所述自然語音特征值對應(yīng)于所述關(guān)鍵詞的概率,所述關(guān)鍵詞特征數(shù)據(jù)表示關(guān)鍵詞的語音成分的特征值;設(shè)置裝置(107、108、202),用于在預(yù)設(shè)值的基礎(chǔ)上設(shè)置無關(guān)語音概率,該概率表示從自然語音提取的至少一部分語音段對應(yīng)于無關(guān)語音的概率,所述無關(guān)語音表示非關(guān)鍵詞;以及確定裝置(109、110、203),用于基于所計算關(guān)鍵詞概率和作為預(yù)設(shè)值的無關(guān)語音概率來確定包含在自然語音中的關(guān)鍵詞。
13.權(quán)利要求12的語音識別方法,其中所述設(shè)置裝置(107、108)基于所述提取裝置(104、105)所提取的自然語音特征值和作為預(yù)設(shè)值的表示語音成分特征值的多個指定語音特征值來設(shè)置無關(guān)語音概率。
14.權(quán)利要求12的語音識別方法,其中所述設(shè)置裝置(202)將表示固定值的預(yù)設(shè)值設(shè)置為所述無關(guān)語音概率。
全文摘要
一種語音識別裝置包括HMM模型數(shù)據(jù)庫(106),預(yù)存表示待識別關(guān)鍵詞的特征圖型的關(guān)鍵詞HMM;似然性計算器,通過將每個幀中的語音信號的所提取特征值與關(guān)鍵詞HMM和指定語音HMM進行比較來計算其似然性;無關(guān)語音似然性設(shè)置裝置(107、108),基于與指定語音HMM匹配的所計算似然性來設(shè)置無關(guān)語音似然性;匹配處理器,基于所計算的似然性和無關(guān)語音似然性來執(zhí)行匹配過程;以及確定裝置,基于匹配過程來確定包含在自然語音中的關(guān)鍵詞。
文檔編號G10L15/00GK1462995SQ03138149
公開日2003年12月24日 申請日期2003年5月27日 優(yōu)先權(quán)日2002年5月27日
發(fā)明者小林載, 外山聰一 申請人:日本先鋒公司