專利名稱:語音識別裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到一種裝置和方法,用來識別語音,并在語音被誤識別時, 確定與用戶說出所述語音或說出輸入句子的方式相關(guān)的問題。
背景技術(shù):
近年來,用戶能夠利用語音來輸入句子的語音識別系統(tǒng)已經(jīng)具有了實 際用途,并開始作為實際系統(tǒng)而用在各種領(lǐng)域中。然而,迄今為止,還沒 有一個系統(tǒng)得到用戶的支持并具有非常好的銷售量。原因之一在于,語音 識別系統(tǒng)有時會對輸入語音進行誤識別。盡管由于技術(shù)的進步,識別性能 在逐年提高,但仍然沒有一種語音識別系統(tǒng),其性能高到足以對所有用戶 的各種說話方式進行正確的識別。
為了處理這種情形,提出了各種方法來提高語音識別系統(tǒng)的性能水平。
例如,JP-A 2003-280683 (KOKAI)提出了一種技術(shù),根據(jù)每個輸入句子 的所屬領(lǐng)域,改變語音識別處理中要處理的識別詞匯,使得根據(jù)每個輸入 句子為合適的詞匯和合適的同音異義詞賦予較高的優(yōu)先級,從而提高識別 性能。
另夕卜,在目前可用的語音識別系統(tǒng)中,有時通過改善使用方法可以避 免誤識別。例如, 一般的說,當(dāng)用戶向語音識別系統(tǒng)輸入語音發(fā)聲時,希 望用戶"用恒定的節(jié)奏流暢地、慢慢地、仔細地、明白地說話"。另外, 對于要輸入語音識別系統(tǒng)中的句子,希望"句子中的許多單詞和表達法在 語法上是正確的并且是常用的,,。掌握了這種使用方法的用戶與沒有掌握 這種使用方法的用戶,其正確識別的百分比大大地不同。
此外,由于不同用戶具有不同的語音特征,所以,什么類型的語音會
5導(dǎo)致什么類型的誤識別會根據(jù)用戶的不同而變化4艮大。另外,根據(jù)語音識 別系統(tǒng)所使用的數(shù)據(jù)庫中所存儲的數(shù)據(jù)的傾向的不同,誤識別的傾向也會 變化很大。因此,沒有一種使用方法能夠適用于所有的用戶,并能完全避 免誤識別。
另外,在語音識別處理期間,將用戶所發(fā)出的語音(它是一個模擬信 號)輸入到語音識別系統(tǒng)中。因此,即使同一用戶在使用語音識別系統(tǒng), 輸入到系統(tǒng)的語音也會根據(jù)時間、地點和環(huán)境的不同而變化。因此,誤識 別的傾向也會變化。最后,只有當(dāng)用戶從經(jīng)驗中明白了機器的傾向和特征 時,才能學(xué)會有效地使用語音識別系統(tǒng)。例如,用戶需要通過試錯來學(xué)習(xí) 有關(guān)如何說話以4更被正確地識別、麥克風(fēng)到用戶嘴部的最佳距離是多少、 以及什么詞匯和表達法更可能獲得希望的結(jié)果等的信息。
然而,像JP-A 2003-280683 (KOKAI)之類所描述的那些常規(guī)方法把 注意力集中在主要通過改善語音識別系統(tǒng)內(nèi)所進行的處理來實現(xiàn)高精度語 音識別處理。因此,即使系統(tǒng)內(nèi)進行的處理得到改善,但語音識別處理的 精度仍然有可能因系統(tǒng)外部所進行的處理(諸如用戶的不適當(dāng)?shù)氖褂梅椒? 而降低。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面, 一種語音識別裝置包括范句存儲單元,該 單元存儲有范句;信息存儲單元,該單元存儲有若干狀態(tài)和若干條輸出信 息,它們彼此對應(yīng),所述每個狀態(tài)基于語音輸入和某個所述范句之間的差 異部分和差異內(nèi),前被確定,而每條所述輸出信息涉及所&目應(yīng)差異的 產(chǎn)生原因;輸入單元,該單元接收語音的輸入;第一識別單元,該單元基 于用來確定音素的聲學(xué)特性的聲學(xué)才莫型和用來確定詞素之間的連接關(guān)系的 語言模型將所迷輸入的語音識別為詞素串;句子獲取單元,該單元從所述
范句存儲單元中獲取一個與所述輸入語音相關(guān)的范句;句子對應(yīng)進行單元, 該單元基于所識別出的詞素串中所包含的每個第一詞素與所獲取的范句中 所包含的某個第二詞素的匹配程度,將每個第一詞素與至少一個第二詞素進行對應(yīng);差異探查單元,該單元探查一個或多個與相應(yīng)的所述第二詞素 不匹配的第一詞素,將其作為所述差異部分;信息獲取單元,該單元從所 述信息存儲單元中獲取與每個探查出的差異部分的狀態(tài)相對應(yīng)的 一條輸出 信息;以及輸出單元,該單元輸出所述獲得的各條輸出信息。
根據(jù)本發(fā)明的另一方面, 一種語音識別方法包括接收語音的輸入; 基于用來確定音素的聲學(xué)特性的聲學(xué)模型和用來確定詞素之間的連接關(guān)系 的語言模型將所述輸入的語音識別為詞素串;從存儲有范句的范句存儲單 元中獲取一個與所述輸入的語音相關(guān)的范句;基于所識別出的詞素串中所 包含的每個第一詞素與所獲取的范句中所包含的某個第二詞素的匹配程
度,將每個所述笫一詞素與至少一個所述第二詞素進行對應(yīng);探查一個或 多個與相應(yīng)的 一個所述第二詞素不匹配的所述第 一詞素,將其作為所述差 異部分;從信息存儲單元中獲取與每個探查出的差異部分的狀態(tài)相對應(yīng)的 一條輸出信息,其中所述信息存儲單元中存儲有若干狀態(tài)和輸出信息,它 們彼此進行了對應(yīng),每個所述狀態(tài)基于差異部分和差異內(nèi)M前被確定, 而每條所述輸出信息涉及差異的產(chǎn)生原因;以及該方法還包括輸出所述獲 得的輸出信息。
圖1是根據(jù)本發(fā)明的第一實施例的語音識別裝置的方框圖2顯示了正確句子存儲單元中所存儲的正確句子的數(shù)據(jù)結(jié)構(gòu)的例
子;
圖3顯示了原因信息存儲單元中所存儲的原因信息的數(shù)據(jù)結(jié)構(gòu)的例
子;
圖4顯示了相連字識別單元所產(chǎn)生的詞素串的數(shù)據(jù)結(jié)構(gòu)的例子; 圖5是4艮據(jù)第一實施例所述的語音識別處理的全部過程的流程圖; 圖6是根據(jù)第一實施例所述的差異探查處理的全部過程的流程圖; 圖7顯示了由句子對應(yīng)進行單元進行了對應(yīng)的詞素的例子; 圖8示出了顯示屏的例子,在該顯示屏上顯示了若干條建議;
7圖9是根據(jù)本發(fā)明的第二實施例所述的語音識別裝置的方框圖10顯示了樣本句子存儲單元中所存儲的樣本句子的數(shù)據(jù)結(jié)構(gòu)的例
子;
圖11是根據(jù)第二實施例所述的語音識別處理的全部過程的流程圖12是根據(jù)第二實施例所述的差異探查處理的全部過程的流程圖13顯示了由句子對應(yīng)進行單元進行了對應(yīng)的詞素的例子;
圖14示出了顯示屏的例子,在顯示屏上顯示了一條建議;
圖15是根據(jù)本發(fā)明的第三實施例所述的語音識別裝置的方框圖16顯示了已經(jīng)產(chǎn)生的單音節(jié)串的數(shù)據(jù)結(jié)構(gòu)的例子;
圖17是^f艮據(jù)第三實施例所述的語音識別處理的全部過程的流程圖18是根據(jù)笫三實施例所述的差異探查處理的全部過程的流程圖19顯示了由句子對應(yīng)進行單元進行了對應(yīng)的詞素的例子;
圖20顯示了由音節(jié)對應(yīng)進行單元所進行的對應(yīng)處理的結(jié)果的例子;
圖21顯示了對應(yīng)處理的各個結(jié)果被結(jié)合起來的例子;
圖22顯示了顯示屏的例子,在該顯示屏上顯示了若干條建議;
圖23是根據(jù)本發(fā)明的第四實施例所述的語音識別裝置的方框圖24顯示了聲學(xué)信息的數(shù)據(jù)結(jié)構(gòu)的例子;
圖25顯示了原因信息存儲單元中所存儲的原因信息的數(shù)據(jù)結(jié)構(gòu)的例
子;
圖26是根據(jù)第四實施例所述的語音識別處理的全部過程的流程圖; 圖27顯示了樣本句子存儲單元中所存儲的樣本句子的數(shù)據(jù)結(jié)構(gòu)的例
子;
圖28顯示了相連字識別單元所產(chǎn)生的詞素串的數(shù)據(jù)結(jié)構(gòu)的例子;
圖29顯示了由句子對應(yīng)進行單元進行了對應(yīng)的詞素的例子;
圖30顯示了由聲學(xué)對應(yīng)進行單元所進行的對應(yīng)處理的結(jié)果的例子;
圖31顯示了對應(yīng)處理的各結(jié)果被結(jié)合起來的例子;
圖32顯示了顯示屏的例子,在顯示屏上顯示了若干條建議;以及
圖33顯示了根據(jù)所述第一到第四實施例所述的語音識別裝置的硬件配置。
具體實施例方式
下面將參考附圖詳細說明根據(jù)本發(fā)明所述的裝置和方法的示范性實施例。
根據(jù)本發(fā)明的第一實施例所述的語音識別裝置將一個正確的句子(它 是提前存儲的一個范句)與用戶說該正確的句子時所輸入的語音的語音識 別處理結(jié)果進行比較,探查一個或多個差異部分,確定所述差異的成因(諸 如不恰當(dāng)?shù)陌l(fā)聲、用戶的特點、或輸入句子的異常部分),并輸出如何正 確地說出該語音以及如何選擇要輸入的句子,作為建議提供給用戶。
如圖l所示,語音識別裝置100包括麥克風(fēng)131、顯示i殳備132、聲學(xué) 模型存儲單元121、語言模型存儲單元122、正確句子存儲單元123、原因 信息存儲單元124,作為其主要的硬件配置。另外,語音識別裝置100包 括輸入單元101、相連字識別單元102、句子獲取單元103、句子對應(yīng)進行 單元104、差異探查單元105、原因信息獲取單元106、輸出單元107,作 為其主要的軟件配置。
麥克風(fēng)131接收用戶所發(fā)出的語音輸入。顯示設(shè)備132顯示進行語音 識別處理所需要的各種屏幕和消息。
聲學(xué)模型存儲單元121中存儲有聲學(xué)模型,在該模型中定義了音素 (phonemes)的聲學(xué)特征。具體說,聲學(xué)模型存儲單元121中存儲有每個 音素的特征量(characteristic amount)的標準模式。例如,聲學(xué)模型存儲 單元121中存儲有利用隱馬爾科夫模型(hidden Markov model, HMM) 所表示的聲學(xué)模型。
語言模型存儲單元122中存儲有語言模型,在該模型中提前定義了各 詞素之間的連接關(guān)系。例如,語言才莫型存儲單元122中存儲有利用N元語 法模型(N-gram model)所表示的語言模型。
正確句子存儲單元123中存儲有正確的句子,每個正確句子都被提前 定義為要輸入的語音的范句。例如,根據(jù)第一實施例,用戶從顯示設(shè)備132
9上所顯示的若干正確句子中指定一個正確句子,并通過說出所述指定的正
確句子而將語音輸入到語音識別裝置100中。
如圖2所示,正確句子存儲單元123中存儲有正確的句子,使用符號 "I"將每個正確句子分成若干詞素(morphemes)。另外,正確句子存儲 單元123為每個所述詞素存儲有一條詞素信息,這條信息是由所述詞素的 讀法和所述詞素的詞性部分(例如,名詞、動詞等)等構(gòu)成的集合,同時 使這些詞素和這些條詞素信息彼此對應(yīng)。在圖2中顯示了一個例子,其中, 若干條詞素信息的存儲順序?qū)?yīng)著各詞素排列的順序,而每條詞素信息使 用"(詞素讀法)、(詞性)"這樣的格式來表示。
回到圖1的描述中,原因信息存儲單元124中存儲有多條原因信息, 在每條原因信息中,含有(i)提前為輸入語音和所選正確句子之間所能找 出的差異部分的不同模式之一所定義的狀態(tài)(condition) 、 (ii)所述差異 的原因、以及(iii)要為用戶輸出的建議,并且以上各項彼此對應(yīng)。
如圖3所示,原因信息存儲單元124中存儲有多條原因信息,在每條 原因信息中含有該條原因信息的編號、發(fā)聲位置、有差異的音節(jié)/詞素、誤 識別的產(chǎn)生原因、以及一條建議,它們彼此相對應(yīng)。
"發(fā)聲位置"是指相對于整個輸入的語音而言與差異部分的位置相關(guān) 的狀態(tài)(即,位置狀態(tài))。在圖3所示的例子中,指定了 "發(fā)聲的開始" (是指發(fā)聲開始處的位置)、"發(fā)聲的中部,,(是指除了發(fā)聲的開始和結(jié) 尾之外的任何位置)、以及"發(fā)聲的結(jié)尾,,(是指發(fā)聲結(jié)尾處的位置)。 指定發(fā)聲位置的方法不限于這些例子。只要能夠相對于整個輸入語音指定 每個差異部分,那么使用任何其它方法都是可以接受的。
"有差異的音節(jié)/詞素"是指與對輸入語音進行的識別處理所得到的 詞素串和相應(yīng)的正確句子中的詞素串之間找到了差異的詞匯(即,音節(jié)和/ 或詞素)相關(guān)的狀態(tài)(即,詞匯狀態(tài))。例如,如果由于加入了一個或多 個輔音和/或元音而^f吏識別處理結(jié)果產(chǎn)生了差異,那么相應(yīng)的狀態(tài)就是"加 入了輔音/元音",這個狀態(tài)由編號1003確定。
原因信息存儲單元124中存儲有這樣的信息,該信息以數(shù)據(jù)庫形式顯示了在語音識別處理結(jié)果和正確句子之間預(yù)期所能找出的差異的不同情形 中的誤識別的產(chǎn)生原因。例如,如果從語音識別處理結(jié)果發(fā)現(xiàn)發(fā)聲的開始 部分丟失了,那么,就可以認為,原因是開始部分的用戶語音沒有被輸入 語音識別系統(tǒng)中。因此,就將"聲音被切斷"指定為誤識別的產(chǎn)生原因,
在圖中用編號1001來指定。作為另一個例子,如果在發(fā)聲的開始部分加入 了一個或多個不需要的音節(jié)(比如"fu,,或"fufu"),那么就可以認為, 原因是因為用戶的呼吸進入了麥克風(fēng)131從而輸入了 一個或多個不需要的 音節(jié)。因此,就將"由于呼吸而加入了不需要的聲音"指定為誤識別的產(chǎn) 生原因,在圖中用編號1002來指定。
當(dāng)搜尋差異探查單元105所探查到的差異部分所符合的狀態(tài)并獲取與 所述差異部分相對應(yīng)的原因信息時,原因信息獲取單元106就查閱原因信 息存儲單元124。
聲學(xué)模型存儲單元121、語言模型存儲單元122、正確句子存儲單元 123、以及原因信息存儲單元124可以由一個或多個通常使用的任何種類的 存儲介質(zhì)來配置,這些存儲介質(zhì)有,例如,硬盤驅(qū)動器(HDD)、光盤、 存儲卡、和隨機存取存儲器(RAM)。
回到圖1的描述中,輸入單元101對通過麥克風(fēng)131輸入的輸入語音 模擬信號進行采樣處理,將所^擬信號轉(zhuǎn)換成數(shù)字信號(例如,脈沖碼 調(diào)制(pulse code modulation, PCM)形式的數(shù)字信號),并輸出所述數(shù) 字信號。輸入單元101所進行的處理可以由通常使用的模擬-數(shù)字轉(zhuǎn)換 (A/D)技術(shù)來實現(xiàn)。也可以這樣來配置輸入單元101,使得輸入單元101 響應(yīng)于預(yù)定操作(諸如,按下語音輸入按鈕(未顯示)的操作)從麥克風(fēng) 131接收語音輸入。此外,另一種配置也是可以接受的,其中,提前對用 戶語音的模擬信號單獨進行數(shù)字化,這樣,當(dāng)使用所述系統(tǒng)時,輸入單元 101就可以通過接收直接輸入的數(shù)字數(shù)據(jù)來接收語音輸入。在這種情形中, 不需要提供麥克風(fēng)或A/D轉(zhuǎn)換器。
相連字識別單元102使用所述聲學(xué)模型和語言模型來識別輸入的語 音,并由識別處理產(chǎn)生詞素串。
ii具體說,首先,相連字識別單元102利用快速傅立葉變換(FFT)分 析方法分析例如頻率的時間變化來計算發(fā)聲中的音頻信號的特征量 (characteristic amount)。之后,相連字識別單元102將聲學(xué)模型存儲單 元121中所存儲的聲學(xué)模型與上述處理過程中計算出來的特征量進行比 較,并為所述輸入語音產(chǎn)生候選識別結(jié)果。
此外,相連字識別單元102利用語言模型基于某個假設(shè)從所產(chǎn)生的候 選識別結(jié)果中選出最可能的候選結(jié)果,從而高精度地對語音進行識別。相 連字識別單元102利用聲學(xué)模型和語言模型所進行的語音識別處理可以用 常規(guī)使用的語音聽寫技術(shù)來實現(xiàn)。
如圖4所示,相連字識別單元102產(chǎn)生詞素串,其中,識別出的各詞 素用符號"/"彼此分開。將每個詞素與一條詞素信息進行對應(yīng),所述一條 詞素信息是由語音片段、詞素的讀法、以及詞素的詞性(例如,名詞、動 詞等)構(gòu)成的集合。所述語音片段是指從發(fā)聲開始時刻到發(fā)聲結(jié)束時刻的 一段時間,其中^f吏用輸入語音的開端作為參考點來表達所述時刻。在圖4 中顯示了一個例子,其中,各條詞素信息的產(chǎn)生順序?qū)?yīng)著詞素的排列順 序,而每條詞素信息的格式為"(語音片段)、(詞素的讀法)、(詞性)"。
句子獲取單元103從正確句子存儲單元123中獲取用戶已經(jīng)指定的正 確句子,作為輸入源的輸入語音的范句。句子獲取單元103也從正確句子 存儲單元123中獲取已經(jīng)與正確句子進行了對應(yīng)的詞素信息。為了允許用 戶指定一個正確句子,可以4吏用通常所用的任何方法,諸如,提醒用戶從 通過使用按鈕(未顯示)而顯示出來的正確句子的列表中選擇一個句子, 等等。
句子對應(yīng)進行單元104將所獲得的正確句子中的詞素串與識別處理結(jié) 果中的詞素串進行對應(yīng)。具體說,句子對應(yīng)進行單元104計算識別處理結(jié)
匹配程度,使得這些詞素彼此對應(yīng),而這種對應(yīng)的方式能使整個句子的匹 配程度為最大。句子對應(yīng)進行單元104所進行的處理可以利用例如動態(tài)編 程(dynamic programming, DP)匹配方法來實現(xiàn)。差異探查單元105將識別處理結(jié)果中的每個詞素與進行了對應(yīng)的正確 句子中的一個詞素相比較,探查一個或多個差異部分,其中每個差異部分 都包含至少一個與正確句子中的對應(yīng)詞素不匹配的詞素,并輸出每個探查 出的差異部分的時間信息。所述時間信息是指示輸入語音中的每個差異部 分語音片段的信息。具體說,對于每個差異部分,所述時間信息包括該差 異部分中的第一個詞素的起始時間和該差異部分中的最后一個詞素的結(jié)束 時間。
原因信息獲取單元106分析每個探查出的差異部分,并從原因信息存 儲單元124中獲取與所述差異的產(chǎn)生原因相關(guān)的原因信息。具體說,原因 信息獲取單元106確定輸入語音中的每個差異部分的發(fā)聲位置,并獲得與 正確句子中的對應(yīng)詞素不匹配的一個或多個音節(jié)或詞素。之后,原因信息 獲取單元106在原因信息存儲單元124中查找原因信息,在該原因信息中, 所確定的發(fā)聲位置符合所述位置狀態(tài)(即,原因信息存儲單元124中所存 儲的發(fā)聲位置),并且,其中所獲得的音節(jié)或詞素符合詞匯狀態(tài)(即,原 因信息存儲單元124中所存儲的有差異的音節(jié)/詞素)。此外,對于每個差 異部分,原因信息獲取單元106獲取包括在所獲得的原因信息中的誤識別 的產(chǎn)生原因作為所述差異的產(chǎn)生原因,并獲取包括在所獲得的原因信息中 的建議作為要為用戶輸出的輸出信息。
如果原因信息獲取單元106在搜尋期間沒有找到與原因信息存儲單元 124中的那些狀態(tài)相匹配的原因信息,那么,原因信息獲取單元106就獲 取一般的建議作為輸出信息。例如,在這種情況中,原因信息獲取單元106 獲取提前準備好的建議,諸如"識別處理失敗。說得更慢更仔細些。", 作為輸出信息。
輸出單元107控制向顯示設(shè)備132等輸出各種類型的信息的處理。例 如,輸出單元107將所產(chǎn)生的識別處理結(jié)果和所獲得的輸出信息輸出到顯 示設(shè)備132。另一種配置也是可行的,其中,輸出單元107包括音頻合成 單元(未顯示),該音頻合成單元將文本信息合成為音頻信號,使得輸出 單元107可以向揚聲器(未顯示)等輸出由所述音頻合成單元所合成的輸
13出信息的音頻。
下面將參考圖5說明如上配制的根據(jù)上述第一實施例的語音識別裝置 100所進行的語音識別處理。
首先,輸入單元101接收用戶所發(fā)出的語音輸入(步驟S501)。例如, 用戶在正確句子存儲單元123中所存儲的正確句子中提前指定他/她將要說 出的正確句子,并通過讀出所指定的正確句子來輸入該輸入語音。另一種 配置也是可行的,其中,用戶讀出由語音識別裝置IOO所任意指定的一個 正確句子。
接著,相連字識別單元102使用聲學(xué)模型和語言模型對所述輸入語音 進行語音識別處理,并產(chǎn)生詞素串作為識別處理的結(jié)果(步驟S502)。
之后,句子獲取單元103從正確句子存儲單元123中獲取由用戶所指 定的一個正確句子,作為與所述輸入語音相對應(yīng)的正確句子,并獲得所述 正確句子的詞素串(步驟S503)。
隨后,句子對應(yīng)進行單元104利用所述DP匹配方法或類似方法將識 別處理結(jié)果中的詞素串里的詞素與正確句子中的詞素串里的詞素進行對 應(yīng),并產(chǎn)生進行對應(yīng)的處理結(jié)果M[k] (k: 1到N,其中,N為已經(jīng)彼此 對應(yīng)了的詞素組的總數(shù))(步驟S504)。進行對應(yīng)的處理結(jié)果M[k包括 識別處理結(jié)果中的詞素串M[k.R和正確句子中的詞素串M[k].E。
之后,差異探查單元105利用所述對應(yīng)結(jié)果M[k]進行差異探查處理, 以便探查一個或多個差異部分,其中,在每個該差異部分中,相對應(yīng)的詞 素串不匹配(步驟S505)。后面將描述差異探查過程的細節(jié)。
隨后,原因信息獲取單元106從原因信息存儲單元124中獲取一條原 因信息,其中,該條原因信息對應(yīng)著每個探查出的差異部分所符合的狀態(tài) (步驟S506)。之后,輸出單元107向顯示設(shè)備132輸出所獲得的原因信 息中所包含的建議(步驟S507),于是,語音識別處理就結(jié)束了。
通過進^f亍上述處理,可以確定在輸入語音和正確句子之間已經(jīng)找出的 每個差異部分中的差異的產(chǎn)生原因(即,誤識別的產(chǎn)生原因),并向用戶 顯示建議,該建議可以用來避免誤識別。換言之,通過輸出能夠使用戶改善使用方法的信息,可以有望提高未來進行的識別處理的精度。
下面將參考圖6來說明步驟S505中的差異探查過程的細節(jié)。
首先,差異探查單元105從句子對應(yīng)進行單元104所產(chǎn)生的對應(yīng)處理 的結(jié)果中獲得還沒有被處理過的對應(yīng)處理的結(jié)果M[i(其中l(wèi)<i<N)(步 驟S601)。之后,差異探查單元105將識別處理結(jié)果中的詞素串M[i.R 與正確句子中的詞素串M[il.E進行比較,其中,M[i.R和M[i.E包含在 M[i內(nèi)(步驟S602 )。
隨后,所述差異探查單元判斷是否滿足M[i.R= M[i.E,即,它們是 否匹配(步驟S603)。如果差異探查單元105判斷出它們是匹配的(步驟 S603:是),那么,差異探查單元105就獲取下一個未處理的對應(yīng)處理結(jié) 果,并重復(fù)上述過程(步驟S601)。
如果差異探查單元105判斷出它們是不匹配的(步驟S603:否),那 么,差異探查單元105就將所述已經(jīng)進行了對應(yīng)的識別處理結(jié)果中的詞素 串M[i.R作為差異部分(步驟S604)。另外,差異探查單元105將所述 識別處理結(jié)果中的詞素串M[i.R中的第一個詞素的開始時間和最后一個 詞素的結(jié)束時間分別指定為所述差異部分的開始時間和結(jié)束時間(步驟 S605)。
之后,差異探查單元105判斷對應(yīng)處理的全部結(jié)果是否都被處理了(步 驟S606)。如果差異探查單元105判斷出不是所有的結(jié)果都被處理了 (步 驟S606:否),那么,差異探查單元105就獲取下一個未處理的對應(yīng)處理 的結(jié)果,并重復(fù)上述過程(步驟S601)。如果差異探查單元105判斷出所 有的結(jié)果都凈皮處理了 (步驟S606:是),那么,差異探查單元105就結(jié)束 差異探查處理。
下面將說明根據(jù)第一實施例所述的語音識別處理的具體例子。在下面 的部分中,將說明一個例子,其中,指定了圖2所示的用日語"Takushiini pasupooto o wasure chatta nodesu"(意思是"我將護照丟在出租車中了 ,,) 寫成的正確句子,并輸入了相應(yīng)的輸入語音。
相連字識別單元102識別所述語音輸入,并產(chǎn)生詞素串作為識別處理的結(jié)果(步驟S502)。在本例中,假設(shè)產(chǎn)生了如圖4所示的詞素串。
句子獲取單元103從正確句子存儲單元123中獲取如圖2所示的正確 句子以及與所述正確句子對應(yīng)的詞素串(步驟S503)。
當(dāng)獲取了如圖4所示的識別處理結(jié)果和如圖2所示的正確句子時,句 子對應(yīng)進行單元104就通過判斷這兩個詞素串之間的匹配程度使它們彼此 對應(yīng)(步驟S504)。在圖7中,符號T指示出進行了對應(yīng)的每個詞素串 的起始和結(jié)尾。圖4所示的識別處理結(jié)果中的詞素串顯示在圖7的頂部, 而圖2所示的正確句子則顯示在圖7的底部。
差異探查單元105將圖7所示的進行了對應(yīng)的各詞素作相互比較,并 探查出一個或多個差異部分(步驟S505)。在圖7所示的例子中,差異探 查單元105探查出位于發(fā)聲開始處的差異部分701和位于發(fā)聲中部的差異 部分702。
之后,原因信息獲取單元106分析每個差異部分在輸入語音中的發(fā)聲 位置以及所述差異部分的內(nèi)容。例如,原因信息獲取單元106確定了差異 部分701的發(fā)聲位置在發(fā)聲的開始處。另外,對于差異部分701來說,原 因信息獲取單元106確定了識別處理結(jié)果中的詞素串"9C"的讀法是 "kushii",并確定了它與正確句子中的詞素"TAKUSHir的讀法(即 "takushii)的后半部分(即"kushii,,)部分地匹配(注意,在日語中, 數(shù)字"9"的一種讀法為"ku,,,字母"C"可以讀為"shii")。
作為另一個例子,原因信息獲取單元106也確定了差異部分702的發(fā) 聲位置在發(fā)聲的中部。另外,對于差異部分702來說,原因信息獲取單元 106確定了識別處理結(jié)果中的詞素"NDESU"的讀法是"ndesu",并確 定了它與正確句子中的詞素"NODESU"的讀法"nodesu"不同,因為"no" 變成了 "n"。
之后,原因信息獲取單元106在原因信息存儲單元124中搜尋原因信 息,其中該原因信息對應(yīng)著每個差異的所確定的發(fā)聲位置和內(nèi)容所滿足的 狀態(tài)(S506)。如果原因信息存儲單元124中存儲有如圖3所示的若干條 原因信息,那么原因信息獲取單元106就獲取由編號1001所指示的差異部
16分701的原因信息,因為,差異部分701的發(fā)聲位置是在"發(fā)聲的開始" 處,而且其后半部分的讀法與正確句子中的對應(yīng)詞素的讀法部分地匹配。
另夕卜,原因信息獲取單元106獲取由編號1007所指示的差異部分702 的原因信息,因為,差異部分702的發(fā)聲位置是在"發(fā)聲的中部"處,而 且,從"no"到"n"的改變對應(yīng)著標示為"元音丟失"的差異。
于是,原因信息獲取單元106就分別為差異部分701和702獲取了由 編號1001和1007所指示的建議。隨后,輸出單元107將所獲得的若干條 建議輸出到顯示設(shè)備132中(步驟S507)。
如圖8所示,在顯示屏800上,顯示著輸入語音811和相對應(yīng)的正確 句子812。另外,也顯示了所獲得的建議801和802。在圖8中顯示了一個 例子,其中顯示了為差異部分701所提供的建i義801和為差異部分702所 提供的建議802。
輸出單元107在所述顯示屏上顯示了由圖3中的編號1001所標示的建 議,同時正確句子中的對應(yīng)詞素4皮嵌入圖3中的凈皮指示為"(正確詞素)" 的那個部分中。另外,輸出單元107在所述顯示屏上顯示了由圖3中的編 號1007所標示的建議,同時識別處理結(jié)果中的對應(yīng)詞素4皮嵌入圖3中的 "(識別結(jié)果),,所指示的那個部分中。
另一種配置也是可行的,其中,輸出單元107輸出誤識別的產(chǎn)生原因, 與所述各條建議一起輸出,或者替代所述各條建議來輸出。還有一種配置 也是可行的,其中,輸出單元107以音頻形式輸出各條建議。
如上所述,才艮據(jù)第一實施例所述的語音識別裝置通過將正確的句子與 對輸入語音進行的識別處理獲得的結(jié)果進行比較來探查出 一個或多個差異 部分,通過參考存儲有提前指定的誤識別的產(chǎn)生原因的數(shù)據(jù)庫來確定所述 差異的產(chǎn)生原因,并顯示所確定的原因和避免誤識別的所確定的方法,一 起顯示的還有識別處理的結(jié)果。
于是,用戶能夠知道不恰當(dāng)?shù)陌l(fā)聲以及他/她自身的發(fā)聲特點。此外, 用戶能夠在他/她輸入其語音之后馬上獲得與他/她自身發(fā)聲有關(guān)的具有建 議。因此,用戶能夠很容易地知道如何正確地發(fā)聲以及如何選擇要輸入的
17句子,使他/她將來的語音能夠被正確地識別。此外,用戶能夠有效地獲知 語音識別裝置的誤識別的趨勢和特征。因此,用戶能夠在短時間內(nèi)學(xué)會有 效地使用所述語音識別裝置。用戶改善其使用語音識別裝置的方法最終就 會導(dǎo)致改善語音識別處理的精度。
在根據(jù)本發(fā)明的第二個實施例的語音識別裝置中,不使用正確句子, 而使用提前寄存的樣本句子作為要輸入語音的范句。第二實施例的配置是 為了適合于基于樣本的搜尋方法,在這種方法中,利用語音識別處理被用 作前端。換言之,根據(jù)第二實施例的語音識別裝置在存儲單元中搜尋與對 輸入語音進行的識別處理的結(jié)果完全匹配或類似的樣本句子,并利用搜尋 到的樣本句子作為識別處理結(jié)果。也可以將根據(jù)第二實施例的語音識別裝 置運用到一種基于樣本的翻譯裝置的語音識別功能中,其中所述翻譯裝置 還包括能翻譯所獲得的樣本句子的翻譯單元。
如圖9所示,語音識別裝置900包括麥克風(fēng)131、顯示i更備132、聲學(xué) 模型存儲單元121、語言模型存儲單元122、樣本句子存儲單元923、原因 信息存儲單元124,作為其主要的硬件配置。另外,語音識別裝置900包 括輸入單元IOI、相連字識別單元102、句子獲取單元卯3、句子對應(yīng)進行 單元104、差異探查單元卯5、原因信息獲取單元106、輸出單元107,作 為其主要的硬件配置。
第二實施例不同于第一實施例之處在于,語音識別裝置900用樣本句 子存儲單元923替代了正確句子存儲單元123,并且句子獲取單元卯3和 差異探查單元905具有不同于第一實施例的功能。其它配置和功能與圖1 所示的那些配置和功能相同,其中圖1是才艮據(jù)第一實施例所述的語音識別 裝置100的方框圖。因此,相同的配置和功能將用相同的參考字符來表示, 并省略了其說明。
樣本句子存儲單元923中存儲有樣本句子,每個樣本句子用作要輸入 語音的范句。圖10說明了樣本句子存儲單元923中所存儲的樣本句子的數(shù) 據(jù)結(jié)構(gòu)的例子。像圖2所示的正確句子存儲單元123那樣,樣本句子存儲 單元923中存儲有樣本句子,利用符號T每個樣本句子被分成各個詞素。另外,樣本句子存儲單元923中為每個詞素存儲有一條詞素信息,該信息 是由詞素的讀法和詞素的詞性(例如,名詞、動詞等)所構(gòu)成的集合,同 時使詞素和詞素信息彼此相對應(yīng)。
句子獲取單元903從樣本句子存儲單元923中獲取一個與對輸入語音 進行的識別處理的結(jié)果完全匹配或類似的樣本句子。識別處理的結(jié)果與樣 本句子不必包含彼此完全相同的詞素串。換言之,為了獲取相應(yīng)的樣本句 子,句子獲取單元903搜尋具有相同意思的句子,即使該句子中的一些名 詞或數(shù)字以及該句子結(jié)尾處的表達或許會與識別處理結(jié)果有輕微的不同。 樣本句子的這種搜尋方法可以由例如Makoto NAGAO(編輯),"Iwanami Kouza Software Kagaku Vol. 15, Shizen Gengo Shori" , 12.8 Jitsurei畫gata Kikai Honyaku Houshiki (pp. 502-510 ) , ISBN 4-00-010355-5中所描述的 方法來實現(xiàn)。
差異探查單元905將識別處理結(jié)果中的每個詞素與進行了對應(yīng)的樣本 句子中的一個詞素進行比較,探查出一個或多個差異部分,其中每個差異 部分包含至少一個與所述樣本句子中的相應(yīng)詞素不匹配的詞素,并輸出每 個探查出的差異部分的時間信息。
當(dāng)搜尋樣本句子時,有可能搜尋出的樣本句子作為整句來說類似于識 別處理的結(jié)果,但會包含一個或多個根本不與相應(yīng)詞素匹配的詞素。如果 這些詞素中的字符串彼此完全不同,那么,這些部分就不應(yīng)該被認為是誤 識別部分。因此,除非識別處理結(jié)果中的每個詞素內(nèi)的字符串所包含的預(yù)
匹配,否則,根據(jù)第二實施例所述的差異探查單元905不把所述句子的任 何部分當(dāng)作差異部分。例如,差異探查單元905可以這樣配置,使得如果 詞素中不匹配字符的數(shù)目與字符總數(shù)之比等于或大于某個預(yù)定閾值(例如, 80%),那么,差異探查單元905就不把所述詞素確定為差異部分。
下面將參考圖11說明根據(jù)上述第二實施例所述的語音識別裝置900 所進行的語音識別處理。
步驟S1101到S1102中所進行的語音輸入過程和詞素串產(chǎn)生過程與根
19據(jù)第一實施例所述的語音識別裝置100在步驟S501到S502中所進行的過 程相同。因此,其說明就省略了。
之后,句子獲取單元卯3在樣本句子存儲單元923中搜尋一個與對輸 入語音進行的識別處理的結(jié)果中的詞素串完全匹配或類似的樣本句子,以 及該樣本句子的詞素信息(步驟S1103)。
步驟S1104中的處理與根據(jù)第一實施例所述的語音識別裝置100所進 行的步驟S504中的處理相同,只是有一點除外,即在步驟S1104中,使 用樣本句子中的詞素串來替代正確句子中的詞素串。
之后,差異探查單元卯5進行差異探查處理(步驟S1105)。后面將 說明差異探查處理的細節(jié)。
在步驟S1106到S1107中進行的原因信息獲取處理和輸出處理與根據(jù) 第一實施例所述的語音識別裝置100在步驟S506到S507中所進行的處理 相同。因此,其"^兌明省略。
下面將參考圖12來說明在步驟S1105中所進行的差異探查處理的細 節(jié)。根據(jù)第二實施例,在步驟S1203中所進行處理不同于在圖6所示的步 驟S503中所進行的處理,其中圖6示出了根據(jù)第一實施例所述的差異探查 處理。因為在其它步驟中所進行的處理與第一實施例相同,所以其說明就 省略了。
在步驟S1203中,除了判斷M[i].R=M[i.E是否被滿足(即它們是否 匹配)的處理之外,差異探查單元905還執(zhí)行處理以對M[i.R中所包含的 字符串和M[i.E中所包含的字符串進行比較。具體說,差異探查單元905 數(shù)出M[i.R中所包含的字符串和M[i.E中所包含的字符串中的不匹配字 符的數(shù)目。此外,差異探查單元905計算不匹配字符的數(shù)目與字符的總數(shù) 之比。之后,差異探查單元905判斷所計算出的比例是否等于或大于所述 預(yù)定閾值(80%)。
如果M[i.R-M[i.E被滿足,或者M[i.R中所包含的字符串和M[i].E 中所包含的字符串彼此有80%以上的不同(步驟S1203:是),那么,差 異探查單元卯S就不把M[i].R確定為差異部分。在任何其它情形中(步驟S1203:否),差異探查單元卯5將M[i.R確定為差異部分(步驟S1204 )。
下面將說明根據(jù)第二實施例所述的語音識別處理的具體例子。在下面 的部分中,將說明一個例子,其中,輸入了日語語音"Takushii ni pas叩ooto o wasure chatta nodesu"(意思是"我將護照丟在出租車中了 ")。
相連字識別單元102識別所述輸入語音,并產(chǎn)生詞素串作為識別處理 的結(jié)果(步驟S1102)。在本例中,假設(shè)產(chǎn)生了如圖4所示的詞素串。另 外假設(shè),句子獲取單元卯3從樣本句子存儲單元923中獲取如圖10所示的 樣本句子,作為與圖4所示詞素串類似的樣本句子(步驟S1103)。
當(dāng)獲得了圖4所示的識別處理結(jié)果和圖10所示的樣本句子時,句子對 應(yīng)進行單元104通過確定這兩個詞素串之間的匹配程度使詞素彼此對應(yīng) (步驟S1104)。圖13顯示了由句子對應(yīng)進行單元104進行了彼此對應(yīng)的 詞素的例子。圖4所示的識別處理結(jié)果中的詞素串示于圖13的頂部,而圖 10所示的樣本句子示于圖13的底部。
在圖13所示的例子中,句子對應(yīng)進行單元104使用符號"-"來分隔 沒有對應(yīng)詞素的任何一個詞素。另外,如果某個字符串和與其對應(yīng)的字符 串的不匹配部分等于或超過了某個預(yù)定長度,那么句子對應(yīng)進行單元104 就整個地^f吏一個片段與一個片段進行對應(yīng)。在圖13中,參考數(shù)字1302所 指示的片段就這樣整個地進行了對應(yīng)。
差異探查單元905對如圖13所示的彼此進行了對應(yīng)的詞素進行比較, 并探查出一個或多個差異部分(步驟S1105)。在圖13所示的例子中,差 異探查單元卯5在發(fā)聲的開始處探查出了差異部分1301。在片段1302中, 由于不匹配字符的比例高于80%,所以,差異探查單元905不把片段1302 確定為差異部分(步驟S1203:是)。
之后,原因信息獲取單元106分析差異部分在輸入語音中的發(fā)聲位置 以及差異內(nèi)容。然后,原因信息獲取單元106在原因信息存儲單元124中 搜尋一條原因信息,其中該信息對應(yīng)著分析出的發(fā)聲位置和差異內(nèi)容所符 合的狀態(tài)(步驟S1106)。在圖13所示的例子中,原因信息獲取單元106 獲取了由圖3中的數(shù)字1001所指示的一條原因信息。于是,原因信息獲取單元106就為差異部分1301獲得了由數(shù)字1001 所指示的一條建議。隨后,輸出單元107將所獲得的這條建議輸出到顯示 設(shè)備132 (步驟S1107)。
如圖14所示,在顯示屏1400上,顯示了輸入語音1411和搜尋到的樣 本句子1412。另外,也顯示了所獲得的一條建議1401。
如上所述,盡管運用了基于例子的搜尋方法的語音識別處理,根據(jù)第 二實施例所述的語音識別裝置也能夠獲得與第一實施例類似的有利效果。
如前面所述,也可以將第二實施例所述的方法應(yīng)用到基于例子的翻譯 裝置中,這種翻譯裝置通過使用并行翻譯樣本(parallel translation samples)來翻譯輸入語音。有一種可能,即,這種基于例子的翻譯裝置的
用戶可以在旅途中攜帶這種裝置,并請不熟悉這種裝置的操作以;Sj良聲方
法的當(dāng)?shù)厝藢χ@種裝置說話。才艮據(jù)第二實施例所述的方法能夠處理這種 情形,并輸出有關(guān)如何改善使用方法的建議。因此,所述語音識別裝置能 使用戶流暢地進行交流。
根據(jù)本發(fā)明的第三實施例所述的語音識別裝置進一步以音節(jié)為單位來 識別輸入語音,并將識別處理結(jié)果與以詞素為單位進行的識別處理結(jié)果進 行比較。因此,根據(jù)第三實施例所述的語音識別裝置能夠更精確地探查差 異部分。
如圖15所示,語音識別裝置1500包括麥克風(fēng)131、顯示設(shè)備132、聲 學(xué)模型存儲單元121、語言模型存儲單元122、樣本句子存儲單元923、原 因信息存儲單元124,以及單音節(jié)詞典1525,作為其主要的硬件配置。另 外,語音識別裝置1500包括輸入單元101、相連字識別單元102、句子獲 取單元103、句子對應(yīng)進行單元104、差異探查單元1505、原因信息獲取 單元106、輸出單元107、單音節(jié)識別單元1508、音節(jié)對應(yīng)進行單元1509、 以及結(jié)合單元1510,作為其主要的軟件配置。
第三實施例不同于第二實施例之處在于,另外提供了單音節(jié)詞典、單 音節(jié)識別單元1508、音節(jié)對應(yīng)進行單元1509、以及結(jié)合單元1510,并且 差異探查單元1505具有與第二實施例不同的功能。其它配置和功能與圖9所示的那些配置和功能相同,其中圖9是4艮據(jù)第二實施例所述的語音識別 裝置900的方框圖。因此,相同的配置和功能將用相同的參考字符來表示, 并省略了其說明。
單音節(jié)詞典1525中存儲有一部詞典,當(dāng)以單音節(jié)為單位來識別語音 時,單音節(jié)識別單元1508會參考該詞典。
單音節(jié)識別單元1508利用聲學(xué);f莫型和所述詞典來識別輸入的語音,并 產(chǎn)生單音節(jié)串作為識別處理的結(jié)果。單音節(jié)識別單元1508以單音節(jié)為單位 來識別輸入的語音,其中,每個單音節(jié)是一個元音或者是一個輔音和元音 構(gòu)成的集合,在日語中,單音節(jié)對應(yīng)著表音符號,例如一個平假名字符(例 如,與聲音'V, 、 "i,, 、 "u" 、 "ka,, 、 "sa" 、 "ta"等相對應(yīng)的日
語字母)。然后,單音節(jié)識別單元1508輸出單音節(jié)串作為識別處理結(jié)果。 如圖16所示,單音節(jié)識別單元1508產(chǎn)生單音節(jié)串,其中,用符號"/" 使識別出的各單音節(jié)彼此隔開。另外,使每個單音節(jié)與一個語音片段相對 應(yīng),該語音片段指示了從發(fā)聲開始時刻到發(fā)聲結(jié)束時刻的一段時間,并且 使用輸入語音的開始作為參考點來表達。
音節(jié)對應(yīng)進行單元1509將單音節(jié)識別單元1508所進行的識別處理所 獲得的單音節(jié)串與相連字識別單元102所進行的識別處理所獲得的詞素串 進行對應(yīng)。具體說,音節(jié)對應(yīng)進行單元1509參考每個單音節(jié)的開始時刻和 結(jié)束時刻以及每個詞素的開始時刻和結(jié)束時刻,并使各所述時刻相匹配的 那些音節(jié)彼此對應(yīng),其中,所述開始時刻和結(jié)束時刻的表示都以輸入語音 的開始作為參考點。
結(jié)合單元1510將句子對應(yīng)進行單元104所進行的對應(yīng)處理的結(jié)果和音 節(jié)對應(yīng)進行單元1509所進行的對應(yīng)處理的結(jié)果相結(jié)合。因此,結(jié)合單元 1510使單音節(jié)串、識別處理結(jié)果中的詞素串、和樣本句子中的詞素串彼此 對應(yīng)起來。
差異探查單元1505通過比較已經(jīng)進行了對應(yīng)的所述單音節(jié)串、識別處 理結(jié)果中的詞素串、和樣本句子來探查出一個或多個差異部分,并輸出所 探查出的差異部分的時間信息。當(dāng)識別處理以單音節(jié)為單位進行時,可以
23只基于用戶發(fā)出的語音中的信息來以聲音為單位精確地識別輸入的語音。
因此,差異探查單元105能夠通過比較以詞素為單位進行的識別處理的結(jié) 果和以單音節(jié)為單位進行的識別處理的結(jié)果來;f艮精確地探查出差異部分。
換言之,根據(jù)第三實施例,可以更精確地理解用戶是如何發(fā)出語音的。 下面將參考圖17來說明根據(jù)第三實施例的如上配制的語音識別裝置
1500所進行的語音識別處理。
步驟S1701到S1704中所進行的語音輸入過程、詞素串產(chǎn)生過程、樣
本句子搜尋過程、和句子對應(yīng)進行過程與根據(jù)第二實施例所述的語音識別
裝置卯0在步驟S1101到S1104中所進行的過程相同。因此,其說明就省略了。
之后,單音節(jié)識別單元1508利用聲學(xué)模型和詞典對輸入語音進行語音 識別處理,并產(chǎn)生單音節(jié)串(步驟1705)。隨后,通過參考所述時間信息, 音節(jié)對應(yīng)進^f亍單元1509將識別處理結(jié)果中的詞素串與識別處理結(jié)果中的 單音節(jié)串進行對應(yīng),并產(chǎn)生對應(yīng)處理的結(jié)果(步驟S1706)。
之后,結(jié)合單元1510將音節(jié)對應(yīng)進行單元1509所進行的對應(yīng)處理的
(步驟S1707)。因為所述每個對應(yīng)處理的結(jié)果都包括作為識別處理結(jié)果 的詞素串,所以,通過使用所述詞素串作為參考,結(jié)合單元1510能夠?qū)?個對應(yīng)處理的結(jié)果結(jié)合起來。
步驟S1703到S1704中進行的處理和步驟S1705到S1706中進行的處 理的順序不限于上述例子。也可以首先進行步驟S1705到S1706中的處理。 另 一種安排也是可行的,其中,步驟S1703到S1704中的處理和步驟S1705 到S1706中的處理同時進行。換言之,可以以^:何順序來進行這些處理, 只要當(dāng)結(jié)合單元1510要將這些對應(yīng)處理的結(jié)果結(jié)合在一起時,這些對應(yīng)處 理的結(jié)果已經(jīng)被產(chǎn)生。
之后,差異探查單元1505進行差異探查處理(步驟S1708)。后面將 說明差異探查處理的細節(jié)。
在步驟S1709到S1710中進行的原因信息獲取處理和輸出處理與根據(jù)
24第二實施例所述的語音識別裝置900在步驟S1106到S1107中所進行的處 理相同。因此,其說明省略。
下面將參考圖18說明在步驟S1708中所進行的差異探查處理的細節(jié)。
首先,差異探查單元1505從已經(jīng)結(jié)合了的對應(yīng)處理的各結(jié)果中獲取還 沒有處理過的對應(yīng)處理的結(jié)果M[i(其中l(wèi)《i<N)(步驟S1801)。之 后,差異探查單元1505獲取所述識別處理結(jié)果中的詞素串內(nèi)的第一個詞素 以及所述第一個詞素的開始時間(步驟S1802)。另外,差異探查單元1505 獲取所述識別處理結(jié)果中的詞素串內(nèi)的最后一個詞素以及所述最后一個詞 素的結(jié)束時間(步驟S1803)。
隨后,差異探查單元1505從所述識別處理結(jié)果中的詞素串內(nèi)所包含的 音節(jié)中獲取音節(jié)串Rp,該音節(jié)串是與從所獲得的開始時刻到所獲得的結(jié)束 時刻這段時間相對應(yīng)的一系列音節(jié)(步驟S1804)。此外,差異探查單元 1505從所述識別處理結(jié)果中的單音節(jié)串中獲取單音節(jié)串Tp,該單音節(jié)串 對應(yīng)著從所獲得的開始時刻到所獲得的結(jié)束時刻這段時間(步驟S1805)。
在步驟S1806中進行的詞素串比較處理與根據(jù)第二實施例所述的語音 識別裝置900在步驟S1202中所進行的處理相同。因此,其說明省略。
之后,除了判斷M[i].R-M[i.E是否被滿足(即它們是否匹配)的處 理外,差異探查單元1505還對在步驟S1804中所獲得的音節(jié)串Rp和在步 驟S1805中所獲得的單音節(jié)串Tp進行比較(步驟S1807 )。
如果M[ij.R=M[i,E和Rp=Tp都被滿足(步驟S1807:是),那么, 差異探查單元1505就不把M[i.R確定為差異部分。在任何其它情形中(步 驟S1807:否),差異探查單元1505將M[i.R確定為差異部^(步驟S1808 )。
在步驟S1809到S1810中進行的時間設(shè)置處理和完成判斷處理與才艮據(jù) 第二實施例所述的語音識別裝置900在步驟S1205到S1206中所進行的處 理相同。因此,其說明省略。
下面將說明根據(jù)第三實施例所述的語音識別處理的具體例子。在下面 的部分中,將說明一個例子,其中,輸入了日語的輸入語音"Takushii ni pasupooto o wasure chatta nodesu,,(意思是"我將護照丟在出租車中
25了,,)。
相連字識別單元102識別所述輸入語音,并產(chǎn)生詞素串作為識別處理 的結(jié)果(步驟S1702)。在本例中,假設(shè)產(chǎn)生了如圖4所示的詞素串。另 外假"i殳,句子獲取單元903從樣本句子存儲單元923中獲取如圖10所示的 樣本句子,作為與圖4所示詞素串類似的樣本句子(步驟S1703)。
當(dāng)獲得了如圖4所示的識別處理結(jié)果和如圖IO所示的樣本句子時,句 子對應(yīng)進行單元104通過確定所述兩個詞素串之間的匹配程度使詞素彼此 對應(yīng)(步驟S1704 )。圖19顯示了由句子對應(yīng)進行單元104進行了彼此對 應(yīng)的各詞素的例子。圖4所示的識別處理結(jié)果中的詞素串示于圖19的頂部, 而圖10所示的樣本句子示于圖19的底部。
此外,根據(jù)第三實施例,單音節(jié)識別單元1508對輸入語音進行識別, 并產(chǎn)生單音節(jié)串作為識別處理結(jié)果(步驟S1705)。在本例中,假設(shè)單音 節(jié)識別單元1508產(chǎn)生了如圖16所示的詞素串。
當(dāng)獲得了如圖16所示的單音節(jié)串和如圖4所示的詞素串作為識別處理 結(jié)果時,通過參考所述時間信息,音節(jié)對應(yīng)進行單元1509將所述單音節(jié)串 和所述詞素串進行相互對應(yīng)(步驟S1706)。圖20示出了音節(jié)對應(yīng)進行單 元1509所進^f亍的對應(yīng)處理的結(jié)果的一個例子。圖16所示的單音節(jié)串示于 圖20的頂部,而圖4所示的詞素串示于圖20的底部。
之后,通過使用所述詞素串作為參考,結(jié)合單元1510將圖19和圖20 中的對應(yīng)處理的各結(jié)果結(jié)合在一起(步驟S1707)。在圖21中,示于圖21 的頂部的圖20中的對應(yīng)處理的結(jié)果與示于圖21底部的圖19中的對應(yīng)處理 的結(jié)果結(jié)合起來。
對于沒有音節(jié)或詞素可以進行對應(yīng)的任何部分,句子對應(yīng)進行單元 104、音節(jié)對應(yīng)進行單元1509、和結(jié)合單元1510就用一個空音節(jié)或空詞素 進行對應(yīng)。
差異探查單元1505對如圖21所示的彼此進行了對應(yīng)的詞素和音節(jié)進 行比較,并探查出一個或多個差異部分(步驟S1708)。在圖21所示的例 子中,差異探查單元1505能夠在發(fā)聲的開始處探查出差異部分2101,如在第二實施例的例子中那樣。
此外,根據(jù)第三實施例所述的差異探查單元1505通過以音節(jié)為單位對 詞素和音節(jié)進行比較,能夠探查出差異部分2102、 2103、和2104。具體說, 通過比較以單音節(jié)為單位所進行的識別處理的結(jié)果和以詞素為單位所進行 的識別處理的結(jié)果,差異探查單元1505不僅能夠探查出在識別處理結(jié)果中 的詞素串和樣本句子之間已^嫂現(xiàn)的差異部分2101 ,而且能探查出差異部 分2102到2104,下面詳細說明。
例如,盡管識別處理結(jié)果中的詞素串包含小品詞"o",但在單音節(jié)串 中不包含相應(yīng)的單音節(jié)。因此,差異探查單元1505就探查出差異部分2102。 另外,在詞素串中所識別出的音節(jié)"cha"與以單音節(jié)為單位所識別出的音 節(jié)"chi"不匹配。因此,差異探查單元1505就探查出差異部分2103。類 似地,在詞素串中所識別出的音節(jié)"ndesu,,與以單音節(jié)為單位所識別出的 音節(jié)"nde"不匹配。因此,差異探查單元1505就探查出差異部分2104。
之后,原因信息獲取單元106分析輸入語音中的每個差異部分的發(fā)聲 位置以及差異內(nèi)容。然后,原因信息獲取單元106在原因信息存儲單元124 中搜尋一條原因信息,該信息對應(yīng)著與每個差異部分的分析出的發(fā)聲位置 和內(nèi)容所滿足的狀態(tài)(步驟S1709)。
在圖21所示的例子中,首先,原因信息獲取單元106獲取由圖3中的 編號1001所指示的一條原因信息,作為與差異部分2101相對應(yīng)的原因信 息。另外,對于差異部分2102,因為位于發(fā)聲中部的詞素中所包含的小品 詞"o"沒有被識別出來,所以,原因信息獲取單元106就獲取由圖3中的 編號1008所指示的一條原因信息。此外,對應(yīng)差異部分2103,因為位于 發(fā)聲中部的詞素中所包含的輔音丟失了,所以,原因信息獲取單元106就 獲取由圖3中的編號1007所指示的一條原因信息。另外,對于差異部分 2104,因為只有位于發(fā)聲結(jié)尾處的讀音的前一部分與相應(yīng)詞素匹配,所以, 原因信息獲取單元106就獲取由圖3中的編號1009所指示的一條原因信 每
于是,原因信息獲取單元106就分別為差異部分2101到2104獲取了
27由編號1001、 1008、 1007、和1009所指定的各條建議。之后,輸出單元 107將所獲得的所述各條建議輸出到顯示設(shè)備132上(步驟S1107)。
如圖22所示,在顯示屏2200上,顯示了輸入語音2211和所搜尋到的 樣本句子2212。另外,也顯示了為差異部分2101到2104所獲得的建議2201 到2204。
如上所述,才艮據(jù)第三實施例所述的語音識別裝置不僅以詞素為單位而 且以音節(jié)為單位來識別輸入語音。因此,通過比較以音節(jié)為單位所進行的 識別處理的結(jié)果和以詞素為單位所進行的識別處理的結(jié)果,所述語音識別 裝置能夠更精確地探查差異部分。
根據(jù)本發(fā)明的第四實施例所述的語音識別裝置能夠進一步探查包括輸 入語音的音量在內(nèi)的聲學(xué)信息,并通過參考所探查出的聲學(xué)信息進一步詳 細確i人誤識別的產(chǎn)生原因。
如圖23所示,語音識別裝置2300包括麥克風(fēng)131、顯示i殳備132、聲 學(xué)模型存儲單元121、語言模型存儲單元122、樣本句子存儲單元923、原 因信息存儲單元2324,以及聲學(xué)信息存儲單元2326,作為其主要的硬件配 置。另外,語音識別裝置2300包括輸入單元101、相連字識別單元102、 句子獲取單元卯3、句子對應(yīng)進行單元104、差異探查單元2305、原因信 息獲取單元2306、輸出單元107、聲學(xué)信息探查單元2311、聲學(xué)對應(yīng)進行 單元2312、以及結(jié)合單元2313,作為其主要的軟件配置。
第四實施例不同于第二實施例之處在于,另外提供了聲學(xué)信息探查單 元2311、聲學(xué)對應(yīng)進行單元2312、聲學(xué)信息存儲單元2326、以及結(jié)合單 元2313,并且原因信息存儲單元2324具有與第二實施例不同的數(shù)據(jù)結(jié)構(gòu), 差異探查單元2305和原因信息獲取單元2306具有與第二實施例不同的功 能。其它配置和功能與圖9所示的那些配置和功能相同,其中圖9是才艮據(jù) 第二實施例所述的語音識別裝置900的方框圖。因此,相同的配置和功能 將用相同的參考字符來表示,并省略了其說明。
聲學(xué)信息探查單元2311探查輸入語音的聲學(xué)信息。例如,聲學(xué)信息探 查單元2311探查諸如輸入語音的功率(即,音量)、停頓長度(即,沒有聲音的片段的長度)、音調(diào)(pitch)(即,語音的速度)、和語調(diào)等聲學(xué) 信息。聲學(xué)信息探查單元2311為每種不同類型的聲學(xué)信息輸出由所探查出 的一條聲學(xué)信息的值和時間信息(即,開始時間和結(jié)束時間)構(gòu)成的集合, 其中,所述時間信息指示探查出所述一條聲學(xué)信息的片段,以輸入語音的 開始作為參考點來表示。
聲學(xué)信息存儲單元2326中存儲有由聲學(xué)信息探查單元2311所探查出 的聲學(xué)信息。如圖24所示,聲學(xué)信息存儲單元2326中存儲有若干條聲學(xué) 信息,這些聲學(xué)信息根據(jù)聲學(xué)信息的類型進行分類,并以"(該條聲學(xué)信 息的值)(時間信息)"這樣的格式來表示。在圖24所示的例子中,使 用從0 (低)到10 (高)的數(shù)值來表示功率,使用從l (快)到10 (慢) 的數(shù)值來表示音調(diào)(pitch )。
盡管在圖中省略了 ,但如果探查出沒有聲音的片段作為聲學(xué)信息的一 部分,那么也將所述沒有聲音的片段的時間信息(即,開始時刻和結(jié)束時 刻)存儲在聲學(xué)信息存儲單元2326中。作為另一個例子,如果探查出語調(diào) 作為聲學(xué)信息的一部分,那么就將表明使用了升語調(diào)還是降語調(diào)的信息以 及時間信息所構(gòu)成的集合存儲在聲學(xué)信息存儲單元2326中。
聲學(xué)對應(yīng)進行單元2312將聲學(xué)信息探查單元"11所探查出的每條聲 學(xué)信息與相連字識別單元102所進行的識別處理所獲得的詞素串進行對 應(yīng)。具體說,通過參考探查出聲學(xué)信息的每個片段的開始時間和結(jié)束時間 以及每個詞素的開始時間和結(jié)束時間,聲學(xué)對應(yīng)進行單元2312將時間相匹 配的各條聲學(xué)信息和詞素串彼此進行對應(yīng)。
結(jié)合單元2313將句子對應(yīng)進行單元104所進行的對應(yīng)處理的結(jié)果和聲 學(xué)對應(yīng)進行單元2312所進行的對應(yīng)處理的結(jié)果結(jié)合起來,使得各條所述聲 學(xué)信息、作為識別處理的結(jié)果所獲得的詞素串、和樣本句子中的詞素串彼 此對應(yīng)。
原因信息存儲單元2324不同于上述示范性實施例中所述的原因信息 存儲單元124之處在于,原因信息存儲單元2324中存儲有還包括聲學(xué)信息 和優(yōu)先級信息的若干條原因信息。在這種情形中,優(yōu)先級信息顯示了基于
29一條聲學(xué)信息獲得的 一條建議是否比基于詞素獲得的 一條建議具有更高的 優(yōu)先級。
如圖25所示,原因信息存儲單元2324中存儲有若干條原因信息,在 每條原因信息中包含標示該條原因信息的編號、發(fā)聲位置、有差異的音節(jié)/ 詞素、 一條聲學(xué)信息、誤識別的產(chǎn)生原因、 一條建議、和一條優(yōu)先級信息, 它們被保持為彼此對應(yīng)。
在圖25所示的例子中,只顯示了若干條原因信息,在其中的每一條中 都指定了一條聲學(xué)信息。然而,另一種安排也是可行的,其中,原因信息 存儲單元2324中存儲有這樣的原因信息,在這些原因信息中,指定了有差 異的音節(jié)/詞素的狀態(tài),像根據(jù)上述示范性實施例的圖3中的原因信息那樣。
差異探查單元2305不同于根據(jù)第二實施例的差異探查單元905之處在 于,差異探查單元2305輸出探查出的差異部分,同時還使差異部分與時間 信息匹配的聲學(xué)信息彼此對應(yīng)。
原因信息獲取單元2306不同于根據(jù)第二實施例的原因信息獲取單元 106之處在于,原因信息獲取單元2306搜尋這樣的原因信息,該原因信息 除了符合與發(fā)聲位置和有差異的音節(jié)/詞素相關(guān)的狀態(tài)外,還符合與所述聲 學(xué)信息相關(guān)的狀態(tài),而且,不同之處在于,原因信息獲取單元2306通過參 考優(yōu)先級信息來獲取被賦予了較高優(yōu)先級的原因信息。
下面將參考圖26來說明根據(jù)如上配制的第四實施例所述的語音識別 裝置2300所進行的語音識別處理。
步驟S2601到S2604中的處理與根據(jù)第二實施例的語音識別裝置900 在步驟S1101到步驟S1104中所進行處理相同。因此,其說明省略。
之后,聲學(xué)信息探查單元2311從輸入語音中探查一條或多條聲學(xué)信息 (步驟S2605)。隨后,通過參考所述時間信息,聲學(xué)對應(yīng)進行單元2312 使識別處理結(jié)果中的詞素串與所探查出的*聲學(xué)信息進行對應(yīng),并產(chǎn)生 所述對應(yīng)處理的結(jié)果(步驟S2606)。
之后,結(jié)合單元2313將聲學(xué)對應(yīng)進行單元2312所進行的對應(yīng)處理的
.巧口J
30來(步驟S2607)。由于所述對應(yīng)處理的每個結(jié)果都包含識別處理結(jié)果中 的詞素串,所以,結(jié)合單元2313能夠使用所述詞素串作為參考將對應(yīng)處理 的兩個結(jié)果結(jié)合起來。
步驟S2603到S2604中的處理和步驟S2605到S2606中的處理進行的 順序不限于上述例子。也可以首先進^f亍步驟S2605到S2606中的處理。另 一種安排也是可行的,其中,步驟S2603到S2604中的處理和步驟S2605 到S2606中的處理并行進行。換言之,可以以任何順序來進行這些處理, 只要當(dāng)結(jié)合單元2310要將這些對應(yīng)處理的結(jié)果結(jié)合在一起時,這些對應(yīng)處 理的結(jié)果已經(jīng)產(chǎn)生。
在步驟S2608中進行的差異探查處理與根據(jù)第二實施例的語音識別裝 置卯0在步驟S1105中進行的處理相同。因此,其說明省略。
之后,原因信息獲取單元2306從原因信息存儲單元124中獲取一條原 因信息,該原因信息對應(yīng)著每個所探查出的差異部分所符合的狀態(tài)(步驟 S2609)。通過利用與每個探查出的差異部分相對應(yīng)的聲學(xué)信息,根據(jù)第四 實施例所述的原因信息獲取單元2306考慮與所述聲學(xué)信息相關(guān)的狀態(tài)來 搜尋所述原因信息。
隨后,輸出單元107在顯示設(shè)備132上輸出所獲得的原因信息中所包 含的建議(步驟S2610),語音識別處理就結(jié)束了。
下面將說明才艮據(jù)第四實施例的語音識別處理的具體例子。在下面的部 分中,假i殳樣本句子存儲單元923中存儲有樣本句子,包括圖27所示的樣 本句子。換言之,樣本句子存儲單元923中存儲有日語樣本句子"Takushii ni pasupooto o wasureta nodesu"(意思是"我將護照丟在出租車中了 ")。 另外假設(shè),用戶說出了同樣的樣本句子,并將日語語音輸入到語音識別裝 置2300中。
相連字識別單元102識別所述輸入語音,并產(chǎn)生詞素串作為識別處理 的結(jié)果(步驟S2602)。在本例中,假設(shè)相連字識別單元102產(chǎn)生了如圖 28所示的詞素串。另外假設(shè),句子獲取單元卯3從樣本句子存儲單元923 中獲取了如圖27所示的樣本句子,作為與圖28所示詞素串類似的樣本句子(步驟S2603 )。
當(dāng)獲得了如圖28所示的識別處理結(jié)果和如圖27所示的樣本句子時, 句子對應(yīng)進行單元104通過確定這兩個詞素串之間的匹配程度使各詞素彼 此對應(yīng)(步驟S2604)。圖29顯示了由句子對應(yīng)進行單元104進行了彼此 對應(yīng)的詞素的例子。圖28所示的識別處理結(jié)果中的詞素串示于圖29的頂 部,而圖27所示的樣本句子示于圖29的底部。
根據(jù)第四實施例,聲學(xué)信息探查單元2311進一步從輸入語音中探查聲 學(xué)信息(步驟S2605)。在本例中,假設(shè)聲學(xué)信息探查單元1311探查出了 如圖24所示的若干條聲學(xué)信息(關(guān)于功率和音調(diào)(pitch))。
當(dāng)獲得了如圖24所示的若干條聲學(xué)信息和如圖28所示的詞素串時, 聲學(xué)對應(yīng)進行單元2312通過參考所述時間信息將所述若干條聲學(xué)信息和 所述詞素串進行相互對應(yīng)(步驟S2606)。圖30顯示了由聲學(xué)對應(yīng)進行單 元2312所進行的對應(yīng)處理的結(jié)果的例子。
圖24所示的聲學(xué)信息示于圖30的頂部,而圖28所示的詞素串示于圖 30的底部。另外,在圖30中,功率用"v(功率值)"的格式來表示,而 音調(diào)(pitch)則用"s (音調(diào)值)"的格式來表示。
之后,結(jié)合單元2313利用所述詞素串作為參考將圖29和圖30所示的 對應(yīng)處理的結(jié)果結(jié)合起來(步驟S2607)。圖31顯示了這樣一個例子,其 中,所述對應(yīng)處理的結(jié)果已經(jīng)由結(jié)合單元2313結(jié)*來了。圖30所示的 對應(yīng)處理的結(jié)果示于圖31的頂部,而圖29所示的對應(yīng)處理的結(jié)果示于圖 31的底部。
差異探查單元2305將如圖31所示進行了對應(yīng)的詞素作比較,并探查 一個或多個差異部分(步驟S2608)。在圖31所示的例子中,差異探查單 元2305能夠探查出在發(fā)聲開始處的差異部分3101、在發(fā)聲中部的差異部 分3102、以及在發(fā)聲結(jié)尾處的差異部分3103。
隨后,原因信息獲取單元2306除了分析輸入語音中的每個差異部分的 發(fā)聲位置和差異內(nèi)容外,還分析與每個差異部分進行了對應(yīng)的聲學(xué)信息。 然后,原因信息獲取單元2306在原因信息存儲單元2324中搜尋一條原因信息,該條原因信息對應(yīng)著所述發(fā)聲位置、差異內(nèi)容和聲學(xué)信息所符合的
狀態(tài)(步驟S2609)。
在圖31所示的例子中,首先,原因信息獲取單元2306獲取由圖3中 的編號1001所指示的原因信息,作為差異部分3101的原因信息。另一方 面,圖25所示的原因信息存儲單元2324中沒有存儲如下所述的原因信息, 該原因信息包含差異部分3101進行了對應(yīng)的功率值8和音調(diào)值5所符合的 關(guān)于聲學(xué)信息的狀態(tài)。因此,原因信息獲取單元2306為差異部分3101獲 取由編號1001所指示的建議。
另外,對于差異部分3102,由于沒有識別出位于發(fā)聲中部的詞素中的 小品詞"o",所以,原因信息獲取單元2306獲取由圖3中的編號1008 所指示的原因信息。圖25中的原因信息存儲單元2324存儲有由編號1101 所指示的原因信息,該原因信息包含差異部分3102進行了對應(yīng)的功率值6 和音調(diào)值2所符合的關(guān)于聲學(xué)信息的狀態(tài)。另外,這條原因信息沒有凈皮優(yōu) 先級信息指定為"祐賦予了優(yōu)先級"的一條原因信息。因此,原因信息獲 取單元2306獲取由編號1008和1101所指示的兩條建議。
此外,對于差異部分3103,由于發(fā)聲結(jié)尾處的讀音只有前一部分與相 應(yīng)的詞素匹配,所以,原因信息獲取單元2306獲取由圖3中的編號1009 所指示的原因信息。圖25所示的原因信息存儲單元2324中存儲有由編號 1104所指示的原因信息,該原因信息包含與差異部分3103進行了對應(yīng)的 功率值2和音調(diào)值4所符合的關(guān)于聲學(xué)信息的狀態(tài)。另外,這條原因信息 被優(yōu)先級信息指定為"被賦予了優(yōu)先級,,的一條原因信息。因此,原因信 息獲取單元2306不獲取由編號1009所指示的建議,而只獲取由編號1104 所指示的建議。
之后,輸出單元107在顯示設(shè)備132上輸出所獲得的各條建議(步驟 S2610)。
如圖32所示,在顯示屏3200上,顯示了輸入語音3211和搜尋到的樣 本句子3212。另外,也顯示了為差異部分3101、 3102和3103所獲得的各 條建議3201、 3202、和3203。
33音識別裝置通過參考與例如輸入 語音的音量相關(guān)的聲學(xué)信息,能夠進一步詳細地確認誤識別的產(chǎn)生原因。
在第三和第四實施例中,可以使用第一實施例中所述的正確句子存儲 單元來替代樣本句子存儲單元。另外,可以將第三和第四實施例結(jié)合起來, 從而可以利用通過以單音節(jié)為單位進行識別處理來稿精度地探查差異部分 的功能和通過探查聲學(xué)信息來詳細地確認差異的產(chǎn)生原因的功能。
下面將參考圖33來說明根據(jù)所述第一到第四實施例所述的語音識別 裝置的硬件配置。
根據(jù)所述第 一到第四實施例所述的每種語音識別裝置都包括控制設(shè)備 (如中央處理單元(CPU) Sl)、存儲設(shè)備(如只讀存儲器(ROM) 52 和隨機存取存儲器(RAM) 53)、以及通信接口 (I/F) 54 (建立與網(wǎng)絡(luò) 的連接并進行通信)和總線61 (使這些組件彼此相連)。
根據(jù)第 一到第四實施例的每種語音識別裝置所執(zhí)行的語音識別計算機 程序提前存儲在ROM 52或類似存儲器中以被提供。
另一種安排也是可行的,其中,由根據(jù)第一到第四實施例所述的每種 語音識別裝置所執(zhí)行的語音識別計算機程序被記錄在計算機可讀記錄介質(zhì) (諸如,致密光盤只讀存儲器(CD-ROM )、軟盤、可記錄致密光盤(CD-R )、 數(shù)字通用光盤(DVD)等)上以被提供,并儲存在具有可安裝格式或可執(zhí) 行格式的文件中來提供。
此外,還有一種安排是可行的,其中,由才艮據(jù)第一到第四實施例所述 的每種語音識別裝置所執(zhí)行的語音識別計算機程序被存儲在與網(wǎng)絡(luò)(例如 互聯(lián)網(wǎng))相連的計算機上,并通過網(wǎng)絡(luò)可以下載。還有一種安排是可行的, 其中,由根據(jù)第一到第四實施例所述的每種語音識別裝置所執(zhí)行的語音識 別計算機程序通過網(wǎng)絡(luò)(例如互聯(lián)網(wǎng))來提供或分配。
由根據(jù)第 一到第四實施例所述的每種語音識別裝置所執(zhí)行的語音識別 計算機程序具有才莫塊化配置,該模塊化配置包括上述各功能單元(例如, 輸入單元、相連字識別單元、句子獲取單元、句子對應(yīng)進行單元、差異探 查單元、原因信息獲取單元、和輸出單元)。作為實際的硬件配置,當(dāng)CPU
3451從ROM 52讀取并執(zhí)行語音識別計算機程序時,這些功能單元就被加栽 到主存儲設(shè)備中,從而在主存儲設(shè)備中產(chǎn)生這些功能單元。
權(quán)利要求
1. 一種語音識別裝置,包括范句存儲單元,用于存儲范句;信息存儲單元,用于存儲彼此進行了對應(yīng)的若干狀態(tài)和若干條輸出信息,每個所述狀態(tài)基于語音輸入和任何所述范句之間的差異部分和差異內(nèi)容提前被確定,而每條所述輸出信息涉及相應(yīng)差異的產(chǎn)生原因;輸入單元,該單元接收語音的輸入;第一識別單元,該第一識別單元基于用來確定音素的聲學(xué)特性的聲學(xué)模型和用來確定各詞素之間的連接關(guān)系的語言模型將所輸入的語音識別為詞素串;句子獲取單元,該單元從所述范句存儲單元中獲取一個與所輸入的語音相關(guān)的范句;句子對應(yīng)進行單元,該單元基于所識別出的詞素串中所包含的每個第一詞素與所獲取的范句中所包含的任何第二詞素的匹配程度將所述每個第一詞素與至少一個所述第二詞素進行對應(yīng);差異探查單元,該單元探查與相應(yīng)的一個所述第二詞素不匹配的一個或多個所述第一詞素,將其作為所述差異部分;信息獲取單元,該單元從所述信息存儲單元中獲取與每個探查出的所述差異部分的狀態(tài)相對應(yīng)的一條輸出信息;以及輸出單元,該單元輸出所獲取的輸出信息。
2. 根據(jù)權(quán)利要求l所述的裝置,還包括第二識別單元,該單元基于所述聲學(xué)模型以及定義與單音節(jié)相對應(yīng)的 詞匯的詞典信息,將所述輸入的語音識別為單音節(jié)串;以及音節(jié)對應(yīng)進行單元,該單元將所識別出的單音節(jié)串中所包含的每個單 音節(jié)與在所述輸入的語音中有匹配的發(fā)聲片段的所述第 一詞素中所包含的 任何音節(jié)進^f亍對應(yīng),其中,所述差異探查單元還探查一個或多個所含音節(jié)與相應(yīng)的單音節(jié)不匹配的所述第一詞素,將其作為所述差異部分。
3. 根據(jù)權(quán)利要求l所述的裝置,其中,所述句子獲取單元從所述范句 存儲單元中獲取一個指定的范句,作為與所述輸入的語音相關(guān)的一個范句。
4. 根據(jù)權(quán)利要求l所述的裝置,其中,所述句子獲取單元從所述范句 存儲單元中獲取與所述輸入的語音類似或與所述輸入的語音完全匹配的一 個范句。
5. 根據(jù)權(quán)利要求4所述的裝置,其中,所述差異探查單元計算每個所述第一詞素中與相應(yīng)的一個所述第二詞素中的字符不匹配的字符的數(shù)目, 計算每個所述第一詞素中所述字符數(shù)目與字符總數(shù)的比值,并探查一個或 多個所述比值小于預(yù)定閾值的所述第一詞素,將其作為差異部分。
6. 根據(jù)權(quán)利要求l所述的裝置,還包括聲學(xué)信息探查單元,該單元探查若干條聲學(xué)信息,每條聲學(xué)信息都顯 示了所述輸入的語音的聲學(xué)特性,并且該單元輸出彼此對應(yīng)的若干條片段 信息和所探查出的若干條聲學(xué)信息,所述多條片段信息中的每一條都顯示 了所述輸入的語音中的一個語音片段,從中探查出了相應(yīng)的一條聲學(xué)信息; 以及聲學(xué)對應(yīng)進行單元,該單元將每條所探查出的聲學(xué)信息與所述第一詞 素中所包含的任何所述音節(jié)相對應(yīng),其在所述輸入的語音中的語音片段與 所述聲學(xué)信息所對應(yīng)的所述片段信息中所顯示的語音片段相匹配,其中,所述信息存儲單元存儲有相互對應(yīng)的若干狀態(tài)和若干條輸出信息,其 中每個所述狀態(tài)與一個所述差異部分中的一條所述聲學(xué)信息相關(guān),以及所述信息獲取單元從所述信息存儲單元中獲取這樣一條輸出信息,該 條輸出信息對應(yīng)著與每個所探查出的差異部分相對應(yīng)的所述聲學(xué)信息的狀 態(tài)。
7. 根據(jù)權(quán)利要求6所述的裝置,其中,每條所述聲學(xué)信息為音量、音 調(diào)、無聲片段的長度、和語調(diào)中的至少一個。
8. 根據(jù)權(quán)利要求l所述的裝置,其中,所述信息存儲單元存儲有相互對應(yīng)的位置狀態(tài)、詞匯狀態(tài)、以及所述若干條輸出信息,每個所述位置狀態(tài)涉及所述輸入的語音中的每個差異部 分的發(fā)聲位置,每個所述詞匯狀態(tài)涉及在與每個所述差異部分進行了對應(yīng) 的任何第二詞素和所述差異部分之間不匹配的詞匯,以及所述信息獲取單元抽取所述輸入的語音中的每個探查出的差異部分的 發(fā)聲位置,以及在每個探查出的差異部分和與所述差異部分進行了對應(yīng)的 任何第二詞素之間不匹配的詞匯,并從所述信息存儲單元中獲取這樣一條輸出信息,該輸出信息對應(yīng)著所抽取出的發(fā)聲位置所符合的一個位置狀態(tài) 和所抽取出的詞匯所符合的 一個詞匯狀態(tài)。
9. 一種i吾音識別方法,包括 接收語音的輸入;基于確定音素的聲學(xué)特性的聲學(xué)模型和確定各詞素之間的連接關(guān)系的 語言模型將所述輸入的語音識別為詞素串;從存儲有范句的范句存儲單元中獲取一個與所述輸入的語音相關(guān)的范句;基于所識別出的詞素串中所包含的每個第 一詞素與所獲取的范句中所 包含的任何第二詞素的匹配程度,將每個所述第 一詞素與至少 一個所述第二詞素進4于對應(yīng);探查一個或多個與相應(yīng)的一個所述第二詞素不匹配的所述第一詞素, 將其作為所述差異部分;從信息存儲單元中獲取與每個探查出的所述差異部分的狀態(tài)相對應(yīng)的 一條輸出信息,其中所述信息存儲單元中存儲有彼此對應(yīng)的若干狀態(tài)和若 干條輸出信息,每個所述狀態(tài)基于差異部分和差異內(nèi)^^皮提前確定,而每 條所述輸出信息涉及差異的產(chǎn)生原因;以及輸出所述獲得的若干條輸出信息。
全文摘要
本發(fā)明涉及語音識別裝置及方法。在該裝置中,相連字識別單元基于聲學(xué)模型和語言模型將語音識別為詞素串。句子獲取單元從正確句子存儲單元中獲取與所述語音相關(guān)的范句?;谄ヅ涑潭?,句子對應(yīng)進行單元將所識別出的詞素串中所包含的第一詞素與所獲得的范句中所包含的第二詞素進行對應(yīng)。差異探查單元探查一個或多個與相對應(yīng)的所述第二詞素不匹配的所述第一詞素,將其作為差異部分。原因信息獲取單元從原因信息存儲單元中獲取輸出信息,該輸出信息對應(yīng)著每個所述差異所符合的狀態(tài)。輸出單元輸出所獲得的輸出信息。
文檔編號G10L15/00GK101447187SQ20081017818
公開日2009年6月3日 申請日期2008年11月25日 優(yōu)先權(quán)日2007年11月26日
發(fā)明者永江尚義 申請人:株式會社東芝