專利名稱:語音識別裝置、語音識別方法以及電子設備的制作方法
技術領域:
本發(fā)明涉及語音識別裝置、語音識別方法以及電子設備,尤其是涉及以所登記的 詞組(phrase)為單位對被輸入的語音進行識別,并舍棄已識別的候補之中似然值較低的 候補的語音識別裝置、語音識別方法以及具備這種語音識別裝置的電子設備。
背景技術:
在語音識別裝置中公知有按所登記的每個詞組識別被輸入的語音的語音識別裝 置。作為其一例有在日本專利特開2003-50595號公報(專利文獻1)中所公開的語音識別 裝置。此語音識別裝置按規(guī)定的時間間隔的每幀劃分被輸入的語音,求解各幀的功率分量 并根據(jù)功率分量的值來檢測語音區(qū)間?;诟髡Z音區(qū)間的語音特征量和預先準備的語音模 式系列信息即隱馬爾可夫模型(Hidden Markov Model),提取詞組辭典所含詞組之中似然 值最高的第1候補詞組。在此例中,求解出針對已提取出的第1候補詞組的似然可靠率,如 果此似然可靠率在閾值以下就廢棄第1候補詞組。另外,以往在電子設備之中有的就具備能夠識別被輸入的語音的語音識別功能。 這種電子設備例如公開在W02006/093003號公報(專利文獻2)中。根據(jù)專利文獻2,電子設備就是硬盤/DVD刻錄機,根據(jù)所輸入的語音例如識別作 為錄像對象的節(jié)目名。具體而言,就是通過預先登記與節(jié)目名的關鍵字相對應的語音特征 量模式例如由隱馬爾可夫模型所示的特征量模式,在包含關鍵字的語音被輸入之際,提取 所輸入語音的特征量模式,計算所提取出的特征量模式和所登記的特征量模式的相似度, 并將相似度最高的節(jié)目名確定為錄像對象。專利文獻1 日本專利特開2003-50595號公報專利文獻2 :W02006/093003號公報—般而言,在實際使用語音識別裝置的情況下,除了所登記的詞組(以下稱之為 登記內詞組)以外,還被輸入未登記的詞組(以下稱之為登記外詞組),或者使用環(huán)境下的 噪聲也與語音一起被輸入,所以就有易于發(fā)生誤識別之類的問題。例如,若假定已登記詞組 “ 7夕一卜”而未登記“ 7卜7 ,,,則在說話者說出“ 7夕一卜”時,如果將其識別為“、夕 一卜”則因為“ ^夕一卜”是登記內詞組所以其識別正確。但是,盡管說話者說出“義卜” 7°”而被識別為“義夕一卜,,時,因為“義卜” 7°”是登記外詞組所以就發(fā)生了誤識別。為了避免這種誤識別,在盡管說出登記外詞組卻列舉登 記內詞組作為識別候補時就需要舍棄該識別候補。在即便是登記外詞組以外而SN比較差 的環(huán)境下,有時候會輸入噪聲而誤識別為登記內詞組,這樣的候補也需要舍棄。專利文獻1所公開的語音識別裝置只不過是使用一個值作為似然值和預先設定 的用于舍棄判斷的閾值。因此,在噪聲級較高的使用環(huán)境下,有時候噪聲會作為語音識別候 補被提取出來,就需要舍棄該候補,但是在閾值為一個的情況下卻無法舍棄源于該噪聲的 語音識別候補,有時候識別率低下。特別是,在所登記的詞組較少的情況下,優(yōu)選通過盡量早期的階段處理舍棄登記外的詞組。另外,在專利文獻2所公開的電子設備中,僅僅是將相似度最高的節(jié)目名確定為 錄像對象,所以例如若在噪聲級較高的環(huán)境下進行使用,則盡管輸入了噪聲也有可能將與 噪聲的特征量模式相似度最高的節(jié)目名確定為錄像對象。
發(fā)明內容
因而,本發(fā)明的目的在于提供一種可以在考慮了實際使用環(huán)境的噪聲條件下提高 識別率的語音識別裝置。另外,本發(fā)明的其他目的在于提供一種可以在考慮了實際使用環(huán)境的噪聲條件下 提高識別率的語音識別方法。另外,本發(fā)明的進一步其他目的在于提供一種能夠提高識別率,并且能夠基于語 音可靠地進行規(guī)定動作的電子設備。本發(fā)明提供一種語音識別裝置,在噪聲環(huán)境下按所登記的每個詞組識別說話語 音,具備語音特征量計算單元,其計算說話語音的每個詞組的語音特征量;詞組存儲單 元,其存儲每個詞組的語音模式系列信息;似然值計算單元,其對由語音特征量計算單元所 計算出的每個詞組的語音特征量和詞組存儲單元中所存儲的多個詞組的語音模式系列信 息進行比較,計算出似然值;候補提取單元,其基于由似然值計算單元所計算出的似然值, 按似然值從高到低的順序選出多個語音識別候補;識別過濾單元,其基于由候補提取單元 所選出的多個語音識別候補各自的似然值分布,判斷是否舍棄所選出的語音識別候補。根據(jù)本發(fā)明,就能夠基于所選出的多個語音識別候補的各自的似然值分布,決定 是否舍棄,能夠提高舍棄率和識別率。本發(fā)明的其他方式的語音識別裝置,在噪聲環(huán)境下按所登記的每個詞組識別說話 語音。語音識別裝置具備語音特征量計算單元,其計算說話語音的每個詞組的語音特征 量;詞組存儲單元,其存儲每個詞組的語音模式系列信息;似然值計算單元,其對由語音特 征量計算單元所計算出的每個詞組的語音特征量和詞組存儲單元中所存儲的多個詞組的 語音模式系列信息進行比較并計算似然值;候補提取單元,其基于由似然值計算單元所計 算出的似然值,按似然值從高到低的順序選出第1語音識別候補、較第1語音識別候次之的 第2語音識別候補、較第2語音識別候補次之的第3語音識別候補;識別過濾單元,其基于 由候補提取單元所提取出的第1語音識別候補與第2語音識別候補的似然值之差和第2語 音識別候補與第3語音識別候補的似然值之差的似然差之比,判斷是否舍棄所提取出的語 音識別候補。根據(jù)本發(fā)明的其他方式,通過基于似然差之比判斷是否從識別對象中舍棄語音識 別候補,由此能夠提高尚未登記詞組的語音識別候補及源于所輸入噪聲的候補等的舍棄 率,所以能夠提高識別率。更優(yōu)選的是,識別過濾單元,如果似然差之比小于規(guī)定值就舍棄第1語音識別候 補,如果大于規(guī)定值就設第1語音識別候補為語音識別對象。據(jù)此,就能夠判斷應當采用被選擇的第1語音識別候補作為語音識別的對象還是應當舍棄。優(yōu)選的是,詞組存儲單元存儲按語音特征劃分的組的語音模式系列信息,識別過濾單元包括第1判斷單元,該第1判斷單元基于按語音的特征劃分的組的似然差之比,判斷 是否舍棄所提取出的各語音識別候補。通過按男性、女性以及兒童等語音特征進行分組,并基于各自組內的似然差之比 判斷是否舍棄所提取出的語音識別候補,由此進一步提高識別過濾單元的舍棄率。優(yōu)選的是,識別過濾單元基于第1語音識別候補的似然值和第2語音識別候補的 似然值之差,判斷是否舍棄所提取出的語音識別候補。似然值計算單元提取較第3語音識 別候補次之的第4語音識別候補,識別過濾單元基于第1語音識別候補的似然值與第4語 音識別候補的似然值之差,判斷是否舍棄所提取出的語音識別候補,并基于第1語音識別 候補的似然值,判斷是否舍棄所提取出的語音識別候補。通過這樣判斷是否舍棄所選擇的語音識別候補,可以提高登記外詞組及所輸入噪 聲的候補的舍棄率。優(yōu)選的是,候補提取單元在較第1語音識別候補次之的語音識別候補存在與第1 語音識別候補的語音模式系列信息相近似的語音識別候補時,排除該語音識別候補,并提 取較該語音識別候補次之的語音識別候補。通過候補提取單元排除近似于第1語音識別候補的候補,能夠更加提高識別率。本發(fā)明的進一步其他方式的語音識別方法,在噪聲環(huán)境下按所登記的每個詞組識 別說話語音。該方法包括如下步驟計算說話語音的每個詞組的語音特征量的步驟;對所 計算出的每個詞組的語音特征量和預先存儲的多個詞組的語音模式系列信息進行比較并 計算作為語音識別對象的多個語音識別候補的似然值的步驟;基于按每個詞組計算出的似 然值,按似然值從高到低的順序選出第1語音識別候補、較第1語音識別候補次之的第2語 音識別候補、較第2語音識別候補次之的第3語音識別候補的步驟;比較所選出的第1語音 識別候補與第2語音識別候補的似然值之差和第2語音識別候補與第3語音識別候補的似 然值之差的似然差之比的步驟;如果似然差之比小于規(guī)定值就舍棄第1語音識別候補,如 果大于規(guī)定值就設第1語音識別候補為語音識別對象的步驟。本發(fā)明的進一步其他方面的語音識別方法,能夠提高尚未登記詞組的語音識別候 補及源于所輸入噪聲的候補等的舍棄率,所以能夠提高識別率。本發(fā)明的進一步其他方式的電子設備是具備語音識別裝置的電子設備,在噪聲環(huán) 境下按所登記的每個詞組識別說話語音。語音識別裝置具備語音特征量計算單元,其計算 說話語音的每個詞組的語音特征量;詞組存儲單元,其存儲每個詞組的語音模式系列信息; 似然值計算單元,其對由語音特征量計算單元所計算出的每個詞組的語音特征量和詞組存 儲單元中所存儲的多個詞組的語音模式系列信息進行比較,計算出似然值;候補提取單元, 其基于由似然值計算單元所計算出的似然值,按似然值從高到低的順序選出多個語音識別 候補;識別過濾單元,其基于由候補提取單元所選出的多個語音識別候補的各自的似然值 分布,判斷是否舍棄所選出的語音識別候補。該電子設備具備控制單元,該控制單元基于由 語音識別裝置所識別出的語音,對電子設備進行控制以進行規(guī)定動作。這樣,電子設備具備語音識別裝置。該語音識別裝置能夠按似然值從高到低的順 序選出多個語音識別候補,并基于所選出的多個語音識別候補的各自的似然值分布判斷是 否舍棄,所以能夠提高識別率。其結果,電子設備就能夠基于語音可靠地進行規(guī)定動作。優(yōu)選的是,似然值計算單元計算多個語音識別候補的似然值,候補提取單元基于由似然值計算單元所計算出的似然值,按似然值從高到低的順序選出第1語音識別候補、 較第1語音識別候補次之的第2語音識別候補、較第2語音識別候補次之的第3語音識別 候補;識別過濾單元,基于由候補提取單元所提取出的第1語音識別候補與第2語音識別候 補的似然值之差和第2語音識別候補與第3語音識別候補的似然值之差的似然差之比,判 斷是否舍棄所提取出的語音識別候補。這樣,語音識別裝置通過基于似然差之比判斷是否從識別對象中舍棄語音識別候 補,就能夠提高尚未登記詞組的語音識別候補及源于所輸入噪聲的候補等的舍棄率,并能 夠提高識別率。其結果,電子設備就能夠基于語音可靠地進行規(guī)定動作。作為一實施方式,由語音識別裝置所識別出的語音與規(guī)定編號建立關聯(lián),規(guī)定編 號按電子設備所具備的每個動作內容而規(guī)定。作為其他實施方式,動作內容通過2值來規(guī)定。作為進一步其他實施方式,動作內容通過多值來規(guī)定。發(fā)明效果本發(fā)明所涉及的語音識別裝置,就能夠基于所選出的多個語音識別候補的各自的 似然值分布,決定是否舍棄,能夠提高舍棄率并提高識別率。另外,本發(fā)明所涉及的語音識別方法,能夠提高尚未登記詞組的語音識別候補及 源于所輸入噪聲的候補等的舍棄率,所以能夠提高識別率。另外,本發(fā)明所涉及的電子設備具備語音識別裝置。該語音識別裝置能夠按似然 值從高到低的順序選出多個語音識別候補,并基于所選出的多個語音識別候補各自的似然 值分布,決定是否舍棄,所以能夠提高識別率。其結果,電子設備就能夠基于語音可靠地進 行規(guī)定動作。
圖1是表示本發(fā)明一實施方式所涉及的電子設備的構成的框圖。圖2是表示圖1所示的語音識別裝置的構成的框圖。圖3是表示在SN比大于等于20dB的噪聲環(huán)境下,作為登記內詞組說出“d ( b ii”時的似然值分布的圖。圖4是表示在SN比大于等于20dB的噪聲環(huán)境下,作為登記外詞組說出“ d Of九 ii”時的似然值分布的圖。圖5是用于說明圖2所示的識別過濾裝置的動作的流程圖。圖6是用于說明圖5所示的登記內詞組舍棄動作的流程圖。圖7是用于說明圖5所示的登記外詞組舍棄動作的流程圖。圖8是用于說明圖5所示的分組評價動作的流程圖。圖9是表示通過本發(fā)明一實施方式中的語音識別裝置的識別過濾裝置,在5位說 話者說出登記內詞組“7( ft )"以及登記外詞組“3(寸 > )”時按判斷信息α進行判斷 時的判斷結果的分布的圖。圖10是同樣表示在5位說話者說出登記內詞組“7( f t ) ”以及登記外詞組“3(寸 >)”時按判斷信息β進行判斷時的判斷結果的分布的圖。圖11是表示在5位說話者說出登記內詞組“7( t t )”以及登記外詞組“3(寸> )”時按判斷信息Δ進行判斷時的判斷結果的分布的圖。圖12是同樣表示在5位說話者說出登記內詞組“7( f f ) ”以及登記外詞組“3(寸 >)”時按判斷信息Y進行判斷時的判斷結果的分布的圖。圖13是表示通過本發(fā)明一實施方式中的語音識別裝置的識別過濾裝置,在5位說 話者說出登記內詞組“ 7夕一卜”以及登記外詞組“ 7卜,7”時按判斷信息α進行判斷 時的判斷結果的分布的圖。圖14是同樣表示在5位說話者說出登記內詞組“ ”一 卜” 7”’時按判斷信息β進行判斷時的判斷結果的分布的圖。圖15是同樣表示在5位說話者說出登記內詞組“ ”一 卜” 7”’時按判斷信息Δ進行判斷時的判斷結果的分布的圖。圖16是同樣表示在5位說話者說出登記內詞組“ ”一 卜” 7”’時按判斷信息Υ進行判斷時的判斷結果的分布的圖。圖17是表示通過本發(fā)明一實施方式中的語音識別裝置的識別過濾裝置,將語言 以外的語音作為13種類噪聲輸入時的判斷結果的分布的圖。圖18是同樣表示將語言以外的語音作為13種類噪聲輸入時按判斷信息α進行 判斷時的判斷結果的分布的圖。圖19是同樣表示將語言以外的語音作為13種類噪聲輸入時按判斷信息β進行 判斷時的判斷結果的分布的圖。圖20是同樣表示將語言以外的語音作為13種類噪聲輸入時按判斷信息△進行 判斷時的判斷結果的分布的圖。圖21是同樣表示將語言以外的語音作為13種類噪聲輸入時按判斷信息Y進行 判斷時的判斷結果的分布的圖。圖22是表示按每個詞組設定作為閾值的判斷信息α、β、Δ、Υ的情況下的流程 圖。圖23是表示將圖1所示的電子設備應用于照明設備時的框圖。圖M是表示將照明設備點亮時的照明設備的動作的流程圖。圖25是表示對照明設備的光進行調光時的照明設備的動作的流程圖。圖沈是表示將電子設備應用于遙控裝置時的圖。圖27是表示變更電視頻道時的遙控裝置以及電視的動作的流程圖。附圖標記說明1語音識別裝置;2噪聲區(qū)間檢測裝置;3魯棒語音識別裝置;4識 別過濾裝置;9話筒;10電子設備;21語音功率計算電路;22語音區(qū)間檢測電路;31語音特 征量計算電路;32噪聲魯棒處理電路;33推定處理似然計算電路;34存儲裝置;35數(shù)據(jù);36 男性登記詞組數(shù)據(jù);37女性登記詞組數(shù)據(jù);38兒童登記詞組數(shù)據(jù);40照明設備;10a、40a、 50a主體部;41、51控制部;42、52受理部;43點亮部;50遙控裝置;53通信部;60電視。
具體實施例方式下面,參照附圖對本發(fā)明實施方式進行說明。圖1是表示本發(fā)明一實施方式所涉 及的電子設備10的構成的框圖。參照圖1,電子設備10具備接受說話語音的輸入的話筒 9 ;識別說話語音的語音識別裝置1 ;作為電子設備10的本體的發(fā)揮電子設備10所具備的卜,,以及登記外詞組“、 卜”以及登記外詞組“卞 卜”以及登記外詞組“卞9功能的主體部10a。語音識別裝置1被安裝在主體部IOa的外部。圖2是表示圖1所示的本發(fā)明一實施方式所涉及的語音識別裝置1的構成的框 圖。參照圖2就語音識別裝置1的構成詳細地進行說明。在圖2中,語音識別裝置1是按所登記的每個詞組對說話語音進行識別的語音識 別裝置1,其包括語音區(qū)間檢測裝置2、魯棒語音識別裝置3和作為識別過濾單元以及第1 至第4判斷單元而動作的識別過濾裝置4。語音區(qū)間檢測裝置2包括被提供了所輸入語 音信號的語音功率計算電路21和語音區(qū)間檢測電路22。語音功率計算電路21計算所輸入 語音信號的功率分量。語音區(qū)間檢測電路22基于語音功率計算電路21所算出的功率分量 而檢測出語音區(qū)間。魯棒語音識別裝置3通過排除語音以外的噪聲,即便在噪聲環(huán)境下也可高精度地 識別語音,其包括作為語音特征量計算單元而動作的語音特征量計算電路31、噪聲魯棒 處理電路32、作為似然值計算單元以及候補提取單元而動作的推定處理似然計算電路33、 作為詞組存儲單元而動作的存儲裝置34。語音特征量計算電路31計算檢測出的語音區(qū)間的語音特征量。噪聲魯棒處理電 路32除去由語音特征量計算電路31計算出的語音特征量中所包含的語音以外的噪聲成 分。存儲裝置34存儲著表示不同的多個詞組且作為語音模式系列信息的HMM語音模型的數(shù) 據(jù)35。在這里,數(shù)據(jù)35作為按語音特征劃分的組的HMM語音模型,包括男性登記詞組數(shù)據(jù) 36、女性登記詞組數(shù)據(jù)37和兒童登記詞組數(shù)據(jù)38。由于語音特征因男性、女性、兒童而異, 所以通過按每組來存儲詞組的HMM語音模型,就能夠計算出似然值較高的候補以提高識別 率。此外,分組并不限于男性、女性、兒童,還可以分成男性的語音較高的組和語音較 低的組等。另外,還可以不進行分組,而只用男性、女性、兒童中的某一組進行舍棄。推定處理似然計算電路33依次比較由噪聲魯棒處理電路32除去了噪聲成分的語 音特征量和存儲裝置34中所存儲的HMM語音模型的數(shù)據(jù)35,進行用于計算針對各詞組的對 數(shù)似然值(以下簡稱為似然值)的處理。然后,從似然值較大一方起按順序選出多個語音 識別候補(以下簡稱為候補)。將似然值最大的詞組稱為第1候補,將其次大的詞組稱為第 2候補等等。識別過濾裝置4基于由推定處理似然計算電路33所選出的多個候補的似然值的 分布,來判斷是否舍棄所選出的各候補。圖3以及圖4是用于說明本發(fā)明的原理的圖,縱軸表示推定處理似然計算電路33 所算出的似然值,橫軸表示被識別詞組的似然值高的第1候補到似然值低的第8候補的位次。在SN比大于等于20dB的噪聲環(huán)境下,5位說話者1 說話者5說出登記內詞組的 例如“d (二 b ii”時,圖3表示了由推定處理似然計算電路33計算出的登記內詞組的似 然值分布。在此例中,第ι候補“ “m,,的似然值最高。但是,在推定處理似然計算 電路33還計算第1候補以外的例如、第2候補“ Iv ii ”、第3候補“杉ii J:々”、第4候 補“ tz tz ^ f ”、第5候補“杉々t ,,、第6候補“ t J 4 b ”、第7候補“ (i'…(i'…,,、第8候 補“tr+o < ”的似然值。但是,如圖3所示那樣,第1候補的似然值與其他候補相比較顯 著地高。
相對于此,在同一環(huán)境下,5位說話者8 說話者12說出登記外詞組時,圖4表示 了由推定處理似然計算電路33計算出的登記內詞組的第1候補 第8候補的似然值分布。如根據(jù)圖3以及圖4之對比所明了那樣,在根據(jù)第1候補的似然值來識別判斷舍 棄的情況下,有時候在說出登記內詞組時的第1候補的似然值和說出登記外詞組時的第1 候補的似然值上無太大差異,所以根據(jù)第1候補的似然值的舍棄判斷是很困難的。本申請發(fā)明者對圖3以及圖4所示的似然值分布詳細地進行了研究,結果發(fā)現(xiàn)了 如下情況。(A)說出登記內詞組時,(a)在噪聲環(huán)境20dB以上,如圖3所示那樣第1候補的似然值收斂于某范圍。雖 然沒有圖示,在噪聲環(huán)境IOdB以下,有時候第1候補的似然值不收斂于某范圍內。(b)即便在噪聲環(huán)境IOdB以下的情況,將第1候補的似然值與第2候補的似然值 之差和第2候補的似然值與第3候補以后的似然值之差相比時,大多見到的是前者一方較 大的情況。(B)說出登記外詞組時,(a)圖4所示的第1候補的似然值有時候為與圖3所示的說出登記內詞組的情況 相同的值。(b)第1候補的似然值與第2候補以后的似然值之差不太大。(c)第1候補的似然值根據(jù)說話者而不一定化??紤]這些結果,使用各種詞組數(shù)據(jù)對應當舍棄還是采用所提取出的第1候補進行 了實驗,結果發(fā)現(xiàn)若考慮如下條件來決定閾值,并判斷應當將各候補進行舍棄或者進行采 用,就會提高識別率。從所提取出的多個候補按每個詞組以似然值從高到低的順序選出第1候補、較第 1候補次之的多個候補,并基于各候補的似然值的分布來決定是否舍棄已選出的候補。通過 求解似然值的分布,就能夠依照似然值的分布來決定閾值,提高舍棄率并改善識別率。進而,更具體而言,作為似然值的分布之例,如下面說明那樣求解多個候補的似然 差之比和似然值,并與閾值α、β、Δ、Y相比較。閾值α、β、Δ、Υ作為判斷信息分別對 應于存儲裝置34的男性登記詞組數(shù)據(jù)36、女性登記詞組數(shù)據(jù)37、兒童登記詞組數(shù)據(jù)38而 預先進行設定。(1)若求解第1候補與第2候補的似然值之差和第2候補與次之的第M候補(例 如第6候補)的似然值之差的比,就能夠計算出似然差之比。這樣,求解第1候補與第2候 補的似然值之差和第2候補與次之的第M候補的似然值之差的似然差之比并與第1閾值α 進行判斷。因而,運算第1式并與閾值α相比較。(第1候補的似然值-第2候補的似然值)/(第2候補的似然值-第M候補的似 然值)彡α···(第1式)此外,雖然在第1式中按彡α進行判別,但也可以按> α來進行判斷。另外,只 要第M候補是第3候補以下的任一候補即可。通過這樣計算第1候補與第2候補的似然值 和第2候補與第M候補的似然值的似然差之比就能夠提高識別率。但是,即便第1式的運 算結果是大于等于閾值α,若如圖4所示的登記外詞組那樣第1候補的似然值與第2候補 的似然值之差不太大,就不能判斷為第1候補。11
(2)因而,進行第2式的運算并與作為第2閾值的β相比較。(第1候補的似然值-第2候補的似然值)>β ...(第2式)此外,雖然在第2式中按大于β進行判別,但也可以按大于等于β來進行判斷。 在大多情況下,因僅進行第1式以及第2式的判斷就能夠舍棄識別率低的第1候補,故能夠 加快處理速度。但是,還有盡管滿足第1式以及第2式,也有如圖4所示的登記外詞組那樣 第1候補與第3候補以下的候補的似然值之差較小的情況。亦即、為了將第1候補作為識 別候補,第1候補與第3候補以下的似然值之差需要某種程度較大。(3)因而,進行第3式的運算并與作為第3閾值的Δ相比較。在第3式中,第N候 補例如是第3候補以下的候補。(第1候補的似然值-第N候補的似然值)>Δ ...(第3式)此外,雖然在第3式中按大于Δ進行判別,但也可以按大于等于Δ來進行判斷。 通過這樣滿足第1式、第2式以及第3式就能夠提高識別率。進而,若如圖4所示的登記外詞組那樣第1候補的似然值本身較小,則不能作為識 別候補,需要第1候補的似然值大于某種程度。(4)因而,進行第4式的運算并與第4閾值γ相比較。(第1候補的似然值)>γ · · ·(第4式)此外,雖然在第4式中按大于Y進行判別,但也可以按大于等于Y來進行判斷。接著,對利用第1式來選擇第M候補并在第3式中選擇第N候補的理由進行說明。 α的比較就是求解第1候補與第2候補的似然值之差分值和第2候補與第3候補以后的似 然值的差分值之比、亦即求傾斜度。為了使說話者所造成的傾斜度的平衡為最小,在第2候 補與第3候補以后的似然值之差分值收斂于某值的點,將位次盡量上位的候補作為第M候 補。根據(jù)實驗數(shù)據(jù),求解第2候補與第3候補、第3候補與第4候補、第4候補與第5候補、 第5候補與第6候補、第6候補與第7候補、第7候補與第8候補的似然值之差,將該差收 斂于60以下的點作為第M候補(第6候補)。在設第M候補為第6候補“ J H”,第N 候補為第8候補“ tr力> ο〈”的情況下,第N候補為最下位候補。這里,以所選擇候補的數(shù)量為6個候補這一方式來決定數(shù)目。在相對于第1候補 的詞組持有似然值非常接近的HMM語音模型的詞組(以下稱之為近似詞)存在于第2、第3 候補的情況下,有時候得不到第1式 第4式的特性。因此,按每個詞組設定近似詞,在第 1候補的近似詞與第2候補、第3候補連續(xù)地排列時,除去該詞組并進行(1)、(2)的判斷。 在上述例子中,第2候補為“ Iv ii”、第3候補為“杉ti J ν ”,所以將這些詞組作為近 似詞而除去,將第4候補“ tz tz V i ”作為第2候補,將第5候補“ fcl t ”作為第3候補, 將第6候補iUW作為第4候補,將第7候補“ Of ^ Of ^,,作為第5候補,將第8候補 “tr力〈”作為最下位的第6候補(第N候補)。因而,在第3式的Δ比較中,不論有無 近似詞都選擇最下位候補的第N候補(第8候補)。此外,作為用于判斷是登記內詞組的閾值,設定登記內判斷信息(ai,β , Δ , Yi),還可以為了判斷登記內詞組以外的詞組而分別地設定登記外判斷信息(αο,βο, Δ ο, Y ο)。圖5是用于說明圖2所示的識別過濾裝置4的動作的流程圖,圖6是用于說明圖5 所示的登記內詞組舍棄評價子程序的動作的流程圖,圖7用于說明圖5所示的登記外詞組舍棄評價子程序的動作的流程圖,圖8用于說明圖5所示的分組評價子程序的動作的流程 圖。接著,參照圖5 圖8,就本發(fā)明一實施方式中的語音識別裝置1的具體動作進行 說明。語音識別裝置1的語音區(qū)間檢測裝置2從所輸入的語音信號檢測出語音區(qū)間并將 語音檢測信號提供給魯棒語音識別裝置3。魯棒語音識別裝置3的語音特征量計算電路31 計算所輸入語音詞組的語音特征量,噪聲魯棒處理電路32除去語音以外的噪聲成分。推定處理似然計算電路33基于計算出的語音特征量和存儲裝置34中所存儲的數(shù) 據(jù)35來計算似然值。亦即、基于存儲裝置34中所存儲的男性登記詞組數(shù)據(jù)36、女性登記詞 組數(shù)據(jù)37、兒童登記詞組數(shù)據(jù)38,計算按男性、女性、兒童的語音特征劃分的組的候補似然 值。各似然值的計算按第1候補、第2候補、第3候補...這一順序而進行。此外,若以硬件電路構成推定處理似然計算電路33,就可以同時進行男性、女性、 兒童各自候補的似然值計算,在通過軟件處理來進行基于推定處理似然計算電路33的似 然值計算時,以男性、女性、兒童這樣的方式依次計算候補的似然值即可。識別過濾裝置4按照圖5所示的用于識別過濾處理的流程圖執(zhí)行識別過濾處理。 亦即、在圖5所示的步驟(在圖示簡稱為SP)SP1中,進行男性、女性、兒童的分組處理。通 過分組處理來決定推定處理似然計算電路33計算出男性、女性、兒童各自候補的哪一似然 值。例如,若計算男性候補的似然值則進入步驟SP2,若計算女性候補的似然值則進入步驟 SP6,若計算兒童候補的似然值則進入步驟SP10。在這里,對計算出男性候補的似然值這一情況進行說明。在步驟SP2中進行登記 內詞組舍棄評價。登記內詞組舍棄評價處理是基于各候補的已計算出的似然值,根據(jù)男性 的登記內判斷信息(ai、i3i、Ai、Yi)進行評價的處理,該男性的登記內判斷信息用于 辨別是舍棄還是采用第1候補的閾值。在步驟SP3中,判斷將評價過的第1候補進行舍棄 (否)還是采用(是)。在進行舍棄時則結束處理,在采用時則在步驟SP4中進行登記外詞 組舍棄評價。步驟SP4的登記外詞組舍棄評價處理是用來基于各候補的已計算出的似然值,根 據(jù)是舍棄還是采用第1候補的男性的登記外判斷信息(α0、βο、Δο、Yo)來進行評價的 處理。在步驟SP5中,判斷將經(jīng)過評價的第1候補進行舍棄(否)還是采用(是)。在計算出女性候補的似然值時,與男性候補的處理同樣地根據(jù)女性的登記內判斷 信息(a i、β i、Δ i、γ i)和女性的登記外判斷信息(α 0、β 0、Δ 0、γ ο),進行步驟SP6至 步驟SP9的處理,在計算出兒童候補的似然值時,則根據(jù)兒童的登記內判斷信息(a i、β i、 Δ , y i)和兒童的登記外判斷信息(α0、β0、Δο、γ 0),進行步驟SPlO至步驟SP13的處 理。當在步驟SP2至步驟SP13的處理中判斷是采用第1候補,就在步驟SP14中進行分組 評價。步驟SP14的分組評價處理通過像男性、女性、兒童候補那樣,即使語音的頻帶不同亦 按組別進行評價處理而正確地進行舍棄判斷。接著,參照圖6所示的子程序就圖5所示的登記內詞組舍棄評價處理詳細地進行 說明。雖然在圖5表示成在步驟SP2中進行登記內詞組舍棄評價處理,在步驟SP3中進行 判斷處理,但具體而言,登記內舍棄評價處理和判斷處理通過圖6所示的登記內詞組舍棄 評價處理而得以執(zhí)行。
在步驟SP21中進行上述第1式的運算,并將該運算結果和作為第1閾值的登記內 判斷信息α i進行比較。在步驟SP22中判斷第1式的運算結果是否大于登記內判斷信息 α i。若運算結果大于登記內判斷信息α i就判斷為采用第1候補的候補(“是”)并進行 步驟SP23的運算,否則(“否”)就結束登記內詞組舍棄處理。在步驟SP23中進行第2式的運算,比較其運算結果和作為第2閾值的登記內判斷 信息β 。在步驟SPM中判斷第2式的運算結果是否大于登記內判斷信息i3i。若運算結 果大于登記內判斷信息β i就判斷為“是”并進行步驟SP25的運算,否則就判斷為“否”并 結束登記內詞組舍棄處理。在步驟SP25中進行第3式的運算,并進行其運算結果和作為第3閾值的登記內判 斷信息Δ i的比較。在步驟SP^中判斷第3式的運算結果是否大于登記內判斷信息Δ i。 若運算結果大于登記內判斷信息Ai就判斷為“是”,否則就判斷為“否”并結束登記內詞組舍棄處理。在步驟SP27的比較處理中判斷第1候補的似然值是否大于作為第4閾值的登記 內判斷信息Y i。在步驟SP^中依照第1候補的似然值是否大于登記內判斷信息Y i的判 斷結果,結束登記內詞組舍棄的處理。在步驟SP22、SP24、SP26、SP28的處理中,對被判斷 為“否”的候補進行舍棄的決定,對全部被判斷為“是”的候補進行采用的決定。然后,在步 驟SP^的處理后返回到圖5所示的流程圖的處理。登記外詞組舍棄評價處理,雖然在圖5表示成在步驟SP4中進行登記外詞組舍棄 評價處理,在步驟SP5中進行判斷處理,但具體而言,登記外詞組舍棄評價處理和判斷處理 通過圖7所示的登記外詞組舍棄評價處理而得以執(zhí)行。亦即、進行的處理是基于各候補的 已計算出的似然值進行上述的第1式 第4式的運算,并根據(jù)用于評價是否進行舍棄該各 個候補的閾值即登記外判斷信息(αο,βο,Δο,Yo)來進行判斷的。在步驟SP31中,進行第1式的運算,比較其運算結果和作為閾值的登記外判斷信 息α O。在步驟SP32中判斷第1式的運算結果是否大于登記外判斷信息α O。若運算結果 大于登記外判斷信息α ο就判斷為“是”并進行步驟SP33的運算,否則就判斷為“否”并結 束登記外詞組舍棄處理。在步驟SP33中,進行第2式的運算,并進行其運算結果和登記外 判斷信息β ο的比較。在步驟SP34中,判斷第2式的運算結果是否大于登記外判斷信息β ο。若運算結 果大于登記外判斷信息β ο就判斷為“是”并進行步驟SP35的運算,否則就判斷為“否”并 結束登記外詞組舍棄處理。在步驟SP35中進行第3式的運算,并進行其運算結果和登記外 判斷信息Δ ο的比較。在步驟SP36中判斷第3式的運算結果是否大于登記外判斷信息Δ0。若運算結果 大于登記外判斷信息△ ο就判斷為“是”并在步驟SP37中進行第4式的比較處理,否則結 束登記內詞組舍棄處理。在步驟SP37的比較處理中判斷第1候補的似然值是否大于登記 外判斷信息Y ο。在步驟SP38中依照第1候補的似然值是否大于登記外判斷信息γ ο的判 斷結果,結束登記外詞組舍棄的處理。在步驟SP32、SP34、SP36、SP38的處理中,對被判斷 為“否”的候補做出舍棄的決定,對全部被判斷為“是”的候補做出采用的決定。在圖6所示的登記內詞組舍棄評價處理中決定采用第1候補,并且在圖7所示的 登記外詞組舍棄評價處理中決定采用不同的第1候補時,例如選擇似然差之比較大一方的14第1候補即可。通過執(zhí)行圖8所示的子程序來進行圖5所示的分組評價處理。在圖8所示的步驟SP41中,進行如下第5式的運算。(男性的第1候補的似然值XKl)彡(女性的第1候補的似然值XK2)或者(兒 童的第1候補的似然值XK3)...(第5式)此外,雖然在第5式中按大于等于進行判別,但也可以按大于來進行判斷。另外,K1、K2、K3各自是對男性、女性、兒童的候補分別預先規(guī)定的常數(shù),按規(guī)定的 比例而確定。這是因為兒童的HMM語音模型的偏差較大,所以較之于男性以及女性的HMM 語音模型取較小的值。在步驟SP42中,判斷第5式的結果,如果男性的第1候補的似然值大于女性的第 1候補的似然值或者兒童的第1候補的似然值(“是”),就在步驟SP43中采用男性的第1 候補詞組作為識別候補。若在步驟SP42中判斷男性的第1候補的似然值不大于女性的第 1候補的似然值和兒童的第1候補的似然值(“否”),則在步驟SP44中進行第6式的運算。(女性的第1候補的似然值ΧΚ2)彡(兒童的第1候補的似然值ΧΚ3)···(第6式)此外,雖然在第6式中按大于等于進行判別,但也可以按大于來進行判斷。在步驟SP45中判斷第6式的結果,如果女性的第1候補的似然值大于兒童的第1 候補的似然值(“是”),就在步驟SP46中采用女性的第1候補詞組作為識別候補。如果女 性的第1候補的似然值不大于兒童的第1候補的似然值(“否”),就在步驟SP47中采用兒 童的第1候補詞組作為識別候補。圖9 圖12是用于說明由于圖5 圖8所示的處理,剩下了登記內詞組的被說出 的詞組,并舍棄登記外的詞組的動作的圖。在這里,登記內詞組以及登記外詞組的判斷信息 α、β、Δ、γ使用相同的值。圖9的縱軸表示根據(jù)第1式所求出的各候補的似然差之比,圖10的縱軸表示從第 1候補的似然值減去第2候補的似然值的根據(jù)第2式所求出的差分似然值,圖11的縱軸表 示從第1候補的似然值中減去第8候補的似然值的根據(jù)第3式所求出的差分似然值,圖12 的縱軸表示根據(jù)第4式所求出的第1候補的似然值。各圖中的橫軸表示說話者的編號。圖9的特性al表示在SN比大于等于20dB的噪聲環(huán)境下,說話者1 說話者5作 為登記內詞組例如說出“7( f f ) ”時的各候補之似然差之比。特性bl表示在SN比大于 等于20dB的噪聲環(huán)境下,說話者8 說話者12作為登記外詞組例如說出“3(寸 > )”時的 各候補之似然差之比。特性cl表示在SN比小于等于IOdB的噪聲環(huán)境下,說話者15 說 話者19作為登記內詞組例如說出“7 ( f f )”時的各候補之似然差之比。圖10的特性dl表示在SN比大于等于20dB的噪聲環(huán)境下,說話者1 說話者5 作為登記內詞組說出“7( f f ) ”時被識別出的候補的差分似然值(第1候補與第2候補 的似然之差分)。特性el表示在SN比大于等于20dB的噪聲環(huán)境下,說話者8 說話者12 作為登記外詞組說出“3 (寸 >)”時被識別出的候補的差分似然值(第1候補與第2候補 的似然之差分)。特性Π表示在SN比小于等于IOdB的噪聲環(huán)境下,說話者15 說話者 19作為登記內詞組說出“7( f f ) ”時被識別出的各候補的差分似然值(第1候補與第2 候補的似然之差分)。15CN 102047322 A說明書12/18頁
圖11的特性gl表示在SN比大于等于20dB的噪聲環(huán)境下,說話者1 說話者5 作為登記內詞組說出“7 ( f f )”時被識別出的候補的差分似然值(第1候補與第8候補 的似然之差分)。特性hi表示在SN比大于等于20dB的噪聲環(huán)境下,說話者8 說話者12 作為登記外詞組說出“3(寸 > )”時被識別出的候補的差分似然值(第1候補與第8候補 的似然之差分)。特性il表示在SN比小于等于IOdB的噪聲環(huán)境下,說話者15 說話者 19作為登記內詞組說出“7( f f ) ”時被識別出的各候補的差分似然值(第1候補與第8 候補的似然之差分)。圖12的特性jl表示在SN比大于等于20dB的噪聲環(huán)境下,說話者1 說話者5 作為登記內詞組說出“7( t t ) ”時被識別出的第1候補的似然值。特性kl表示在SN比 大于等于20dB的噪聲環(huán)境下,說話者8 說話者12作為登記外詞組說出“3 (寸 > )”時被 識別出的第1候補的似然值。特性ml表示在SN比小于等于IOdB的噪聲環(huán)境下,說話者 15 說話者19作為登記內詞組說出“7( t t ) ”時被識別出的第1候補的似然值。在圖9的特性中,若將用粗線表示閾值的判斷信息α例如設定成“1. 3”,就能夠采 用似然差之比值為判斷信息α以上的、有關特性al的說話者1 說話者5所說出的登記 內詞組的候補和有關特性Cl的說話者15 說話者19所說出的登記內詞組的候補,而似然 差之比值在判斷信息α以下的、特性bl中的說話者9、說話者12所說出的登記外詞組的候 補都可被舍棄。在圖10中,通過將用粗線表示閾值的判斷信息β設定成“350”,就能夠采用差分 似然值在判斷信息β以上的、有關特性dl的說話者1 說話者5所說出的登記內詞組的 候補和有關特性Π的說話者15 說話者19所說出的登記內詞組的候補,并能夠舍棄差分 似然值在判斷信息β以下的、特性el中的說話者8、說話者9、說話者11、說話者12所說出 的登記外詞組的候補。在圖11中,通過將用粗線表示閾值的判斷信息Δ設定成“700”,就能夠采用差分 似然值在判斷信息△以上的、有關特性gl的說話者1 說話者5所說出的登記內詞組的 候補和有關特性il的說話者15 說話者19所說出的登記內詞組的候補,并能夠舍棄差分 似然值在判斷信息△以下的、特性hi中的說話者8、說話者10、說話者11、說話者12所說 出的登記外詞組的候補。在圖12中,通過將用粗線表示閾值的判斷信息Y設定成“12300”,就能夠采用似 然值在判斷信息、以上的、有關特性jl的說話者1 說話者5所說出的登記內詞組的候 補和有關特性ml的說話者15 說話者19所說出的登記內詞組的候補。通過這樣最佳地 設定判斷信息α、β、Δ、Y,登記內詞組的候補就被采用,就能夠舍棄登記外詞組的候補。 例如對于1個詞組準備100個抽樣數(shù)據(jù),輸入各判斷信息α、β、Δ、Υ的實際值,并采用 舍棄率在此時變高的判斷信息。在圖9 圖12中,為了使處理速度提高,使用第1式 第4式中的閾值即判斷信 息α、β、Δ、γ。亦即、從登記內判斷信息(a i,β i,Δ i,γ i)和登記外判斷信息(α 0, β 0,Δ 0,Υ ο)求解α i和α 0,并將舍棄率因該值而變得最佳時的值設為α。它們是按似 然值最高的每個詞組在計算機上進行模擬,并根據(jù)在進行語音識別方面被認為最理想的數(shù) 據(jù)來確定最佳參數(shù)。同樣,分別求解3i、Ai、Yi* β ο、Δ 0、Y 0,并將舍棄率在各值成為 最佳時的值分別設為β、Δ、Υ。此外,關于特性bl、el、hl能夠通過圖9、圖10、圖11的處16理而進行廢棄。圖13 圖16是同樣在5位說話者說出登記內詞組“ ^夕一卜”、登記外詞組“卞 卜” 7”’時以及輸入語言以外的噪聲時,以特性分別表示按判斷信息α、β、Δ、Y對閾值進行評價時的結果之分布的圖。在圖13中,縱軸表示似然差之比,橫軸表示說話者的編號。特性a2表示在SN比大 于等于20dB的噪聲環(huán)境下,說話者1 說話者5說出登記內詞組“ 7夕一卜”時的各候補的 似然差之比。特性表示在SN比大于等于20dB的噪聲環(huán)境下,說話者8 說話者12說 出登記外詞組“卞卜,時的各候補的似然差之比。特性c2表示在SN比小于等于IOdB 的噪聲環(huán)境下,說話者15 說話者19說出登記內詞組“7々一卜”時的各候補的似然差之 比。在圖14中,縱軸表示似然值,橫軸分別表示說話者的編號。特性d2表示在SN比 大于等于20dB的噪聲環(huán)境下,說話者1 說話者5說出登記內詞組“ 7夕一卜”時的各候補 的差分似然值(第1候補與第2候補的似然的差分)。特性e2表示在SN比大于等于20dB 的噪聲環(huán)境下,說話者8 說話者12說出登記外詞組“7卜7 7”時的各候補的差分似然 值(第1候補與第2候補的似然的差分)。特性f2表示在SN比小于等于IOdB的噪聲環(huán)境 下,說話者15 說話者19說出登記內詞組“ 7夕一卜”時的各候補的差分似然值(第1候 補與第2候補的似然的差分)。在圖15中,縱軸表示似然值,橫軸分別表示說話者的編號。特性g2表示在SN比 大于等于20dB的噪聲環(huán)境下,說話者1 說話者5說出登記內詞組“ 7夕一卜”時的各候補 的差分似然值(第1候補與第8候補的似然的差分)。特性h2表示在SN比大于等于20dB 的噪聲環(huán)境下,說話者8 說話者12說出登記外詞組“7卜,7”時的各候補的差分似然 值(第1候補與第8候補的似然的差分)。特性i2表示在SN比小于等于IOdB的噪聲環(huán)境 下,說話者15 說話者19說出登記內詞組“ 7夕一卜”時的各候補的差分似然值(第1候 補與第8候補的似然的差分)。在圖16中,縱軸表示似然值,橫軸分別表示說話者的編號。特性j2表示在SN比 大于等于20dB的噪聲環(huán)境下,說話者1 說話者5說出登記內詞組“ 7夕一卜”時的各候補 的似然值(第1候補的似然值)。特性k2表示在SN比大于等于20dB的噪聲環(huán)境下,說話 者8 說話者12說出登記外詞組“ ^卜,”時的各候補的似然值(第1候補的似然值)。 特性m2表示在SN比小于等于IOdB的噪聲環(huán)境下,說話者15 說話者19說出登記內詞組 “ 7夕一卜”時的各候補的似然值(第1候補的似然值)。在圖13 圖16所示的例子中,也可以通過與圖9 圖12同樣的處理,舍棄說出 登記外詞組的說話者8 說話者12的候補。圖17是表示將碰撞聲等語言以外的各種語音作為13種類的噪聲系列輸入時的評 價結果的分布的圖,圖18 圖21是表示以作為噪聲的13種類語音的識別候補作為閾值, 以判斷信息α、β、Δ、Y進行評價時的結果分布的圖。圖18 圖21所示的各候補是登 記內詞組以外的噪聲故需要進行舍棄。如圖18所示那樣,若將閾值的判斷信息α設定成“0. 7”,則噪聲2、3、12以外的噪 聲1、噪聲4 噪聲11、噪聲13的候補,因似然值小于等于判斷信息α故能夠將它們舍棄。 如圖19所示那樣,若將閾值的判斷信息β設定成“300”,則噪聲2以外的候補因似然值為判斷信息β故能夠將它們舍棄。如圖20所示那樣,若將閾值的判斷信息△設定成“600”, 則噪聲3 噪聲8、噪聲10 噪聲13的候補,因似然值小于等于判斷信息△故能夠將它們 舍棄。如圖21所示那樣,若將閾值的判斷信息γ設定成“13000”,則噪聲1、噪聲2、噪聲 4、噪聲7 噪聲9的候補,因似然值小于等于判斷信息γ故能夠將它們除去。從而,如果 按判斷信息α、β、Δ、Υ對閾值進行判斷就能夠將噪聲1 噪聲13的候補全部舍棄。此外,在上述實施方式中,在判斷是舍棄還是采用第1候補之際,就首先運算第1 式并與閾值α進行判斷,接著運算第2式并與閾值β進行判斷,然后運算第3式并與閾值 Δ進行判斷,進而運算第4式并與閾值γ進行判斷、這一順序的例子進行了說明,但并不限 于此,還可以首先運算第4式并與閾值γ進行判斷,這些判斷的順序是任意的。如上述那樣,根據(jù)本實施方式,通過對所輸入的語音計算每個詞組的似然值之分 布,并按作為閾值的判斷信息α、β、△、Y對該似然值分布進行評價,就能夠舍棄似然值 較低的登記內詞組的候補,或者舍棄登記外詞組的候補,或者舍棄語言以外的噪聲等,能夠 提高舍棄率。另外,通過將所輸入語音的特性例如按照男性、女性、兒童等進行分組,并按每組 進行詳細評價,就可以進行更為正確的判斷。另外,判斷信息α、β、Δ、Υ通過按存儲裝置34中所存儲的每個詞組進行最佳 化,能夠實現(xiàn)似然值較低的登記內詞組的舍棄率、登記外詞組的舍棄率的提高。最佳化是例 如按1個詞組準備100個抽樣數(shù)據(jù),輸入各判斷信息α、β、Δ、Υ的實際值,并采用在此 時舍棄率變高的判斷信息,由此就能夠提高舍棄率。這里,具體而言是關于按每個詞組設定作為閾值的判斷信息α、β、Δ、Υ這一情 況進行說明。圖22是關于按每個詞組設定作為閾值的判斷信息α、β、Δ、Υ這一情況所 表示的流程圖。參照圖22進行說明。首先,接受登記內詞組語音的輸入(S51)。此登記內詞組的語音是重疊了使用語 音識別裝置1的環(huán)境噪聲的語音或作為對于用戶而言感到嘈雜的噪聲環(huán)境條件下重疊了 IOdB白噪聲的語音。然后,與上述同樣地進行語音特征量的計算等,并基于存儲裝置34中 所存儲的數(shù)據(jù)來計算似然值(S52)。然后,對一個登記內詞組在規(guī)定個數(shù)量例如像上述那樣100個數(shù)據(jù)上反復進行 S51 S52 (在S53為“否”)。然后,當100個結束(在S53為“是”),就首先計算第4式的 閾值Y (S54) 0第4式的閾值γ按照進行判斷之際的識別合格率例如為99%的方式計算 出來。識別合格率表示語音識別正確時的通過率,按不舍棄語音識別正確的詞組使其通過 的次數(shù)除以語音識別正確的次數(shù)乘以100來計算。具體而言,就是以在100個數(shù)據(jù)中98個 語音識別正確的情況下,不舍棄98個中的97個并使其通過的方式而計算出來。進而,第4 式的閾值Y按照成為規(guī)定的值例如10000以上的值的方式計算出來。接著,計算第3式的閾值Δ (S55)。第3式的閾值Δ與S54中的第4式的閾值、 一并按照進行判斷之際的識別合格率例如為90%的方式而計算出來。具體而言,就是以在 100個數(shù)據(jù)中98個語音識別正確的情況下,不舍棄98個中的88個并使其通過的方式而計 算出來。進而,第3式的閾值△按照成為規(guī)定的值例如200以上的值的方式而計算出來。接著,計算第1式的閾值α (S56)。第1式的閾值α與S54中的第4式的閾值、 和S55中的第3式的閾值△ 一并按照進行判斷之際的識別合格率例如為85%的方式計算出來。具體而言,就是以在100個數(shù)據(jù)中98個語音識別正確的情況下,不舍棄98個中的83 個并使通過的方式計算出來。進而,第1式的閾值α按照成為規(guī)定的值例如0.1以上的值 的方式計算出來。然后,計算第2式的閾值β (S57)。第2式的閾值β與S54中的第4式的閾值Y、 S55中的第3式的閾值Δ和S56中的第1式的閾值α —并按照進行判斷之際的識別合格 率例如為80%的方式計算出來。具體而言,就是以在100個數(shù)據(jù)中98個語音識別正確的情 況下,不舍棄98個中的78個并使之通過的方式計算出來。進而,第2式的閾值β按照成 為規(guī)定的值例如90以上的值的方式計算出來。然后,在S57中,判斷按第2式的閾值β進行判斷之際的識別合格率是否大于 80%。這里,在大于80%的情況下(在S58為“是”),接受登記外詞組語音的輸入(S59)。 與登記內詞組的語音同樣,在此登記外詞組的語音也是重疊了使用語音識別裝置1的環(huán)境 噪聲的語音或作為對于用戶而言感到嘈雜的噪聲環(huán)境條件下重疊了 IOdB白噪聲的語音。 然后,計算似然值(S60)。然后,使用在SM S57中計算出的閾值Y、Δ、α、β判斷是否舍棄登記外詞組。 這里,在被舍棄的情況下(在S61為“是”),采用計算出的閾值γ、Δ、α、β作為判斷信息 (S62)。此外,在S58中按第2式的閾值β進行判斷之際的識別合格率小于等于80%的情 況下(在S58為“否”),因在已接受輸入的登記內詞組存在近似詞的可能性較高故除去該 近似詞,并再次計算第3式的閾值Δ、第1式的閾值α以及第2式的閾值β。由此,進行 調整以使判斷時的識別合格率大于80%。另外,在S61中未被舍棄的情況下(在S61為“否”)增大第2式的閾值β (S63)。 具體而言,就是將第2式的閾值β加1。由此,進行調整使其被舍棄。這樣,由于能夠以簡易的方法計算作為閾值的判斷信息α、β、Δ、Y,所以能夠使 處理時間減輕。另外,僅通過調整閾值就能夠容易地進行舍棄之際的等級調整。例如,使用舍棄等級較低的閾值、舍棄等級較高的閾值和在上述計算出的作為基 準的閾值進行舍棄等級的調整。舍棄等級較低的閾值是指以進行計算使識別合格率一律為 例如95%的情況作為下限的閾值。另外,舍棄等級較高的閾值是指以在第1式的閾值α 進行計算使識別合格率例如為80%,并在第2式的閾值β進行計算使識別合格率例如為 70%的情況作為上限的閾值。另外,在按每個詞組設定作為閾值的判斷信息α、β、Δ、Υ的情況下,按第4式 的閾值Y、第3式的閾值△、第1式的閾值α、第2式的閾值β的順序進行計算。由此,就 能夠進行調整逐漸將使其通過的范圍變窄。此外,雖然就在S61中未被舍棄的情況下加大第2式的閾值β如此進行控制之例 進行了說明,但并不限于此,還可以進行加大第1式的閾值α之類的控制,在未被舍棄的個 數(shù)為規(guī)定個數(shù)、例如2個以下的情況下也可以不加大第2式的閾值β。這樣,還可以依照未 被舍棄的個數(shù)對閾值進行調整。另外,還可以從外部任意地設定作為閾值的判斷信息α、β、Δ、Υ。通過這樣,例 如在語音識別裝置1中就能夠從外部進行舍棄之際的等級調整。圖23是表示將圖1所示的電子設備10應用于照明設備40時的框圖。參照圖23就照明設備40之構成進行說明。照明設備40具備話筒9、語音識別裝置1和作為照明設 備40之主體的主體部40a。主體部40a具備控制主體部40a全體的控制部41 ;接受來自 語音識別裝置1的指示的受理部42 ;以及具有控制電燈等光的點亮以及熄滅的開關電路并 按照來自受理部42的指示對電燈等的光進行點亮以及熄滅的點亮部43??刂撇?1從受理部42接收到指示就進行與指示相對應的動作。具體而言,通過 從受理部42進行規(guī)定編號的受理而進行與該編號相對應的動作。規(guī)定編號按照明設備40 具備的每個動作內容而規(guī)定。例如,對應于編號1的動作是點亮,對應于編號2的動作是熄 滅。亦即、動作內容是點亮以及熄滅這樣的開關(ON-OFF)動作,由2值而確定。另外,對應 于編號3的動作是使已點亮的光變亮一檔的調光,對應于編號4的動作是使已點亮的光變 亮兩檔的調光。另外,對應于編號5的動作是使已點亮的光變暗一檔的調光,對應于編號6 的動作是使已點亮的光變暗兩檔的調光。亦即、動作內容是多個階段的動作,由多值而確 定。語音識別裝置1被安裝于主體部40a的外部,對受理部42輸出與已決定采用的語 音識別候補的詞組相對應的編號。亦即、輸出與所說出的語言相對應的編號。具體而言,作為語音識別候補的詞組規(guī)定編號建立關聯(lián),并輸出與已決定采用的 語音識別候補的詞組相對應的編號。例如,對應于“? ’ 這一詞的編號是1,對應于“夕這一詞的編號是2。另外,對應于“7力)"]子”這一詞的編號是3,對應于“7力化 夕二”這一詞的編號是4,對應于“夕7 ” λ子”這一詞的編號是5,對應于“夕,夕二 ”這一 詞的編號是6。這里,就將照明設備40點亮這一情況進行說明。圖M是表示將照明設備40點亮 時的照明設備40的動作的流程圖。參照圖23以及圖M進行說明。首先,語音識別裝置1經(jīng)由話筒9接受“? ’ 這一語音的輸入(S71)。于是,針 對所輸入的“7 ’ 這一語音,與上述同樣地選出語音識別候補,并判斷是否舍棄已選出 的語音識別候補。在這里,決定采用“、y ’ (S72)。于是,語音識別裝置1對主體部40a輸出對應于“? 這一詞的編號(S73)。 在這里,對應于“7 這一詞的編號是1。從而,語音識別裝置1對主體部40a輸出編號 1。于是,照明設備40的控制部41進行對應于編號1的規(guī)定動作(S74)。在這里,因 對應于編號1的動作被分配點亮,故進行控制將點亮部43點亮。例如,通過將開關電路接 通(ON)向點亮部43發(fā)送電壓,將點亮部43進行點亮如此進行控制。接著,就對照明設備40的光進行調光這一情況進行說明。圖25是表示對照明設 備40的光進行調光時的照明設備40的動作的流程圖。參照圖23以及圖25,就對照明設備 40的光進行調光這一情況進行說明。首先,語音識別裝置1經(jīng)由話筒9接受“7力)"4子”這一語音的輸入(S81)。 于是,針對所輸入的“7力& H 這一語音,與上述同樣地選出語音識別候補,并判斷是 否舍棄已選出的語音識別候補。在這里,決定采用“7力^ ” ^千,,(S82)。于是,語音識別裝置1輸出對應于“ 7力)"4子”這一詞的編號(S83)。在這里, 對應于“7力4子”這一詞的編號是3。從而,語音識別裝置1對主體部40a輸出編號 3。
于是,照明設備40的控制部41進行對應于編號3的規(guī)定動作(S84)。在這里,因 對應于編號3的動作被分配使已點亮的光變亮一檔的調光,故通過加大向點亮部43發(fā)送的 電壓,使已點亮的光變亮一檔如此進行調光。這樣,電子設備10基于由語音識別裝置1所識別的語音,對電子設備10進行控制 以進行規(guī)定動作。在此情況下,電子設備10具備提高了識別率的語音識別裝置1。其結果 就能夠基于語音可靠地進行規(guī)定動作。此外,雖然在上述實施方式中就將電子設備10應用于照明設備40之例進行了說 明,但并不限于此,還能夠應用于用來操作電視等的遙控裝置。這里,就應用于遙控裝置中的情況進行說明。圖沈是表示將電子設備10應用于遙 控裝置50這一情況的圖。參照圖沈,遙控裝置50具備話筒9、語音識別裝置1、作為遙控 裝置50的主體的主體部50a。主體部50a具備控制主體部50a全體的控制部51 ;接受來 自語音識別裝置1的指示的受理部52 ;以及與電視60進行通信的通信部53。遙控裝置50 通過與電視60例如進行紅外線通信,對電視60進行將電視60的電源接通-斷開(ON-OFF) 或變更音量或變更頻道等操作。具體而言,通過從受理部52進行規(guī)定編號的受理而發(fā)送對 應于該編號的紅外線數(shù)據(jù),由此對電視60進行操作。例如,對應于編號1的紅外線數(shù)據(jù)是 將電視60的電源接通(ON),對應于編號10的紅外線數(shù)據(jù)是將電視60的頻道變更成1,對 應于編號20的紅外線數(shù)據(jù)是加大電視60的音量。語音識別裝置1被安裝于遙控裝置50的外部,對受理部52輸出與已決定采用的 語音識別候補的詞組相對應的編號。例如,對應于“才 >”這一詞的編號是1,對應于「子~ >才、X子」這一詞的編號是10,對應于“才卜〒才才矢夕”這一詞的編號是20。這里,就變更電視60的頻道這一情況進行說明。圖27是表示變更電視60的頻道 時的遙控裝置50以及電視60的動作的流程圖。參照圖沈以及圖27進行說明。首先,語音識別裝置1經(jīng)由話筒9接受y ^ 子”這一語音的輸入(S91)。 于是,針對所輸入的Y >彳、X 這一語音,與上述同樣地選出語音識別候補,并判斷 是否舍棄已選出的語音識別候補。在這里,決定采用y ^ f”(S92)。于是,語音識別裝置1對主體部50a輸出對應于“ f ~ >本X子”這一詞的編號 (S93)。在這里,對應于>彳、X子”這一詞的編號是10。從而,語音識別裝置1對主 體部50a輸出編號10。于是,遙控裝置50的控制部51進行對應于編號10的規(guī)定動作(S94)。在這里,因 對應于編號10的動作是將電視60的頻道變更成1,故經(jīng)由通信部53進行紅外線通信以便 將電視60的頻道變更成1。電視60接受來自遙控裝置50的通信,將頻道變更成1(S95)。另外,電子設備10并不限于上述實施方式,例如還能夠應用于照相機。在此情況 下,能夠使用語音識別裝置1進行快門的按下及攝影模式的變更等。另外,還能夠應用于電 話。在此情況下,能夠使用語音識別裝置1輸入電話號碼打電話或者進行電話薄的登記等。 另外,還能夠應用于鐘表。在此情況下,能夠使用語音識別裝置1進行鬧鐘的設定及時刻的 調整等。另外,還能夠應用于玩具的控制器、冰箱、洗衣機、空調、電扇、計算機、數(shù)字多功能 復合機、收音機、音頻設備、烹調設備器等所有電子設備。另外,雖然在上述實施方式中,就語音識別裝置1被安裝于作為電子設備10的主21體的主體部IOa之外部的例子進行了說明,但并不限于此,還可以組裝于內部。另外,雖然在上述實施方式中,就語音識別裝置1識別日本語的語音之例進行了 說明,但并不限于此,還能夠識別英語、中國語、韓國語等所有言語。以上,參照附圖對本發(fā)明實施方式進行了說明,但本發(fā)明并不限定于已圖示的實 施方式??梢栽谂c本發(fā)明同一范圍內或者均等的范圍內,對所圖示的實施方式施加各種各 樣的修正及變形。工業(yè)上的可利用性本發(fā)明有效地利用于以所登記的詞組為單位對所輸入的語音進行識別,并舍棄已 識別的候補之中、似然值較低的候補的語音識別裝置、語音識別方法以及具備這種語音識 別裝置的電子設備。
權利要求
1.一種語音識別裝置,用于在噪聲環(huán)境下按所登記的每個詞組來識別說話語音,具備語音特征量計算單元,其計算上述說話語音的每個詞組的語音特征量; 詞組存儲單元,其存儲上述每個詞組的語音模式系列信息;似然值計算單元,其對由上述語音特征量計算單元所計算出的每個詞組的語音特征量 和上述詞組存儲單元中所存儲的多個詞組的語音模式系列信息進行比較,計算出似然值;候補提取單元,其基于由上述似然值計算單元所計算出的似然值,按似然值從高到低 的順序選出多個語音識別候補;及識別過濾單元,其基于由上述候補提取單元所選出的上述多個語音識別候補的各自的 似然值分布,判斷是否舍棄上述所選出的語音識別候補。
2.一種語音識別裝置,用于在噪聲環(huán)境下按所登記的每個詞組來識別說話語音,具備語音特征量計算單元,其計算上述說話語音的每個詞組的語音特征量; 詞組存儲單元,其存儲上述每個詞組的語音模式系列信息;似然值計算單元,其對由上述語音特征量計算單元所計算出的每個詞組的語音特征量 和上述詞組存儲單元中所存儲的多個詞組的語音模式系列信息進行比較,計算出多個語音 識別候補的似然值;候補提取單元,其基于由上述似然值計算單元所計算出的似然值,按似然值從高到低 的順序選出第1語音識別候補、較上述第1語音識別候補次之的第2語音識別候補、較上述 第2語音識別候補次之的第3語音識別候補;及識別過濾單元,其基于由上述候補提取單元所提取出的上述第1語音識別候補與上述 第2語音識別候補的似然值之差和上述第2語音識別候補與上述第3語音識別候補的似然 值之差的似然差之比,判斷是否舍棄上述所提取出的語音識別候補。
3.根據(jù)權利要求2所述的語音識別裝置,其特征在于上述識別過濾單元,如果上述似然差之比小于規(guī)定值就舍棄上述第1語音識別候補, 如果大于上述規(guī)定值就將上述第1語音識別候補作為語音識別的對象。
4.根據(jù)權利要求2所述的語音識別裝置,其特征在于上述詞組存儲單元存儲按語音的特征劃分的組的語音模式系列信息, 上述識別過濾單元包括第1判斷單元,該第1判斷單元基于按語音的特征劃分的組的 上述似然差之比,判斷是否舍棄上述所提取出的第1語音識別候補。
5.根據(jù)權利要求2所述的語音識別裝置,其特征在于上述識別過濾單元包括第2判斷單元,該第2判斷單元基于上述第1語音識別候補的 似然值和上述第2語音識別候補的似然值,判斷是否舍棄上述所提取出的第1語音識別候 補。
6.根據(jù)權利要求2所述的語音識別裝置,其特征在于上述似然值計算單元提取較上述第3語音識別候補次之的第4語音識別候補, 上述識別過濾單元包括第3判斷單元,該第3判斷單元基于上述第1語音識別候補的 似然值與上述第4語音識別候補的似然值之差判斷是否舍棄上述所提取出的第1語音識別 候補。
7.根據(jù)權利要求2所述的語音識別裝置,其特征在于上述識別過濾單元包括第4判斷單元,該第4判斷單元基于上述第1語音識別候補的 似然值,判斷是否舍棄上述所提取出的第1語音識別候補。
8.根據(jù)權利要求2所述的語音識別裝置,其特征在于上述候補提取單元在較上述第1語音識別候補次之的語音識別候補中存在與上述第 1語音識別候補的語音模式系列信息相近似的語音識別候補時,排除上述語音識別候補,并 提取較上述語音識別候補次之的語音識別候補。
9.一種語音識別方法,在噪聲環(huán)境下按所登記的每個詞組來識別說話語音,包括如下 步驟計算上述說話語音的每個詞組的語音特征量的步驟;對上述所計算出的每個詞組的語音特征量和預先存儲的多個詞組的語音模式系列信 息進行比較,計算出作為語音識別對象的多個語音識別候補的似然值的步驟;基于按上述各個詞組的上述計算出的似然值,按似然值從高到低的順序選出第1語音 識別候補、較上述第1語音識別候補次之的第2語音識別候補、較上述第2語音識別候補次 之的第3語音識別候補的步驟;比較上述所選出的上述第1語音識別候補與上述第2語音識別候補的似然值之差和上 述第2語音識別候補與上述第3語音識別候補的似然值之差的似然差之比的步驟;如果上述似然差之比小于規(guī)定值就舍棄上述第1語音識別候補,如果大于上述規(guī)定值 就將上述第1語音識別候補作為上述語音識別的對象的步驟。
10.一種電子設備,其具備在噪聲環(huán)境下按所登記的每個詞組來識別說話語音的語音 識別裝置,上述語音識別裝置具備語音特征量計算單元,其計算上述說話語音的每個詞組的語音特征量; 詞組存儲單元,其存儲上述每個詞組的語音模式系列信息;似然值計算單元,其對由上述語音特征量計算單元所計算出的每個詞組的語音特征量 和上述詞組存儲單元中所存儲的多個詞組的語音模式系列信息進行比較,計算出似然值;候補提取單元,其基于由上述似然值計算單元所計算出的似然值,按似然值從高到低 的順序選出多個語音識別候補;及識別過濾單元,其基于由上述候補提取單元所選出的上述多個語音識別候補的各自的 似然值分布,判斷是否舍棄上述所選出的語音識別候補,上述電子設備具備控制單元,該控制單元基于由上述語音識別裝置所識別出的語音, 對上述電子設備進行控制以進行規(guī)定的動作。
11.根據(jù)權利要求10所述的電子設備,其特征在于 上述似然值計算單元計算多個語音識別候補的似然值,上述候補提取單元基于由上述似然值計算單元所計算出的似然值,按似然值從高到低 的順序選出第1語音識別候補、較上述第1語音識別候補次之的第2語音識別候補、較上述 第2語音識別候補次之的第3語音識別候補;上述識別過濾單元,基于由上述候補提取單元所提取出的上述第1語音識別候補與上 述第2語音識別候補的似然值之差和上述第2語音識別候補與上述第3語音識別候補的似然值之差的似然差之比,判斷是否舍棄上述所提取出的語音識別候補。
12.根據(jù)權利要求10所述的電子設備,其特征在于由上述語音識別裝置所識別出的語音與規(guī)定的編號建立關聯(lián),上述規(guī)定的編號按上述 電子設備所具備的每個動作內容而規(guī)定。
13.根據(jù)權利要求12所述的電子設備,其特征在于 上述動作內容通過2值來規(guī)定。
14.根據(jù)權利要求12所述的電子設備,其特征在于 上述動作內容通過多值來規(guī)定。
全文摘要
通過語音特征量計算電路(31)計算所輸入的語音的每個詞組的語音特征量,通過推定處理似然計算電路(33)對計算出的每個詞組的語音特征量和存儲裝置(34)中所存儲的多個詞組的語音模式系列信息進行比較,并計算多個按每個詞組的似然值高的候補起似然值依次低的候補,識別過濾裝置(4)基于第1候補的似然值與第2候補的似然值之差和第2候補的似然值與第3候補的似然值之差的似然差之比,判斷是否舍棄所提取出的候補。
文檔編號G10L15/06GK102047322SQ20098011962
公開日2011年5月4日 申請日期2009年5月11日 優(yōu)先權日2008年6月6日
發(fā)明者兵藤一峰, 吉田滿次 申請人:株式會社雷特龍