專利名稱:對(duì)輸入語(yǔ)音進(jìn)行語(yǔ)音識(shí)別的音程標(biāo)準(zhǔn)化裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及識(shí)別不特定說(shuō)話者語(yǔ)音的語(yǔ)音識(shí)別裝置,該裝置能夠?qū)δ行缘牡鸵?、女性的高音及孩子的聲音在大范圍?nèi)進(jìn)行語(yǔ)音識(shí)別處理,更詳細(xì)地說(shuō),本發(fā)明涉及將識(shí)別對(duì)象語(yǔ)音的音程與語(yǔ)音識(shí)別裝置標(biāo)準(zhǔn)語(yǔ)音的音程加以對(duì)照并進(jìn)行標(biāo)準(zhǔn)化處理的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置。
近年來(lái),語(yǔ)音識(shí)別技術(shù)由于數(shù)字信號(hào)處理技術(shù)的進(jìn)步、處理用LSI的性能不斷提高且價(jià)格日益降低,正大量引入民用裝置中,有助于提高該裝置的操作性能。語(yǔ)音識(shí)別裝置的基本原理是將輸入的語(yǔ)音變換為數(shù)字語(yǔ)音信號(hào),再將該數(shù)字語(yǔ)音信號(hào)與預(yù)先準(zhǔn)備的語(yǔ)音辭典中登錄的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)進(jìn)行對(duì)照,來(lái)識(shí)別輸入的語(yǔ)音。因此為了便于與標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)進(jìn)行比較,采用了一些方法,例如對(duì)于語(yǔ)音識(shí)別對(duì)象即特定說(shuō)話者要求采用特別的發(fā)音方法,或者這些特定說(shuō)話者的語(yǔ)音預(yù)先登錄在語(yǔ)音認(rèn)別裝置中。
但是,在將語(yǔ)音識(shí)別裝置用于民用裝置中時(shí),如果限定說(shuō)話者,則方便性大大降低,其商品價(jià)值受到影響。因此必須將非特定說(shuō)話者發(fā)出的語(yǔ)音作為輸入語(yǔ)音進(jìn)行識(shí)別。當(dāng)然非特定說(shuō)話者的發(fā)聲是各種各樣的。對(duì)于這樣的非特定說(shuō)話者產(chǎn)生的富于變化的發(fā)聲,可將有損語(yǔ)音識(shí)別精度影響語(yǔ)音識(shí)別的主要因素大致分為發(fā)聲速度及語(yǔ)音音程兩種。
關(guān)于影響語(yǔ)音識(shí)別的第1個(gè)因素即發(fā)聲速度,例如說(shuō)話說(shuō)得快的人等,因說(shuō)話者不同,說(shuō)話速度就有差別。而語(yǔ)音識(shí)別是將輸入的語(yǔ)音與預(yù)先準(zhǔn)備的語(yǔ)音辭典中登錄的標(biāo)準(zhǔn)速度語(yǔ)音進(jìn)行比較,從而來(lái)實(shí)現(xiàn)識(shí)別的。因此,若兩者發(fā)聲速度之差達(dá)到一定程度以上,就不能正確進(jìn)行比較,也不能進(jìn)行語(yǔ)音識(shí)別。
關(guān)于影響語(yǔ)音識(shí)別的第2個(gè)主要因素即語(yǔ)音音程,例如男性低音的語(yǔ)音、女性或孩子發(fā)出的高音等,因說(shuō)話者不同,其語(yǔ)音音程就有差別。這種情況下,若預(yù)先準(zhǔn)備的語(yǔ)音辭典中登錄的語(yǔ)音音程與非特定說(shuō)話者發(fā)聲的語(yǔ)音音程之差達(dá)到一定程度以上,就不能正確進(jìn)行比較,也不能進(jìn)行語(yǔ)音識(shí)別。
圖7所示為解決上述問(wèn)題在特開(kāi)平9-325798號(hào)公報(bào)中提出的語(yǔ)音識(shí)別裝置。如該圖所示,語(yǔ)音識(shí)別裝置VRAc包括語(yǔ)音輸入部分111、發(fā)聲速度計(jì)算部分112、發(fā)聲速度變換率決定部分113、發(fā)聲速度變換部分114及語(yǔ)音識(shí)別部分115。
語(yǔ)音輸入部分111將取入的非特定說(shuō)話者發(fā)出語(yǔ)音的模擬語(yǔ)音信號(hào)經(jīng)過(guò)A/D變換,變換為數(shù)字信號(hào),生成語(yǔ)音信號(hào)。發(fā)聲速度計(jì)算部分112根據(jù)語(yǔ)音信號(hào)計(jì)算出輸入的非特定說(shuō)話者語(yǔ)音的發(fā)聲速度。發(fā)聲速度變換率決定部分113將發(fā)聲速度計(jì)算部分112計(jì)算出的發(fā)聲速度與基準(zhǔn)速度進(jìn)行比較,確定速度變換率。發(fā)聲速度變換部分114根據(jù)該速度變換率將發(fā)聲速度加以變換。語(yǔ)音識(shí)別部分115對(duì)發(fā)聲速度變換部分114進(jìn)行了速度變換的輸入語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別。
下面說(shuō)明語(yǔ)音識(shí)別裝置VRAc的動(dòng)作。由非特定說(shuō)話者發(fā)出的語(yǔ)音經(jīng)過(guò)語(yǔ)音輸入部分111的話筒及放大器取入,再利用A/D變換器,從模擬信號(hào)變換為數(shù)字信號(hào)。發(fā)聲速度計(jì)算部分112從變換的數(shù)字語(yǔ)音信號(hào)取出輸入語(yǔ)音的一個(gè)音。然后,發(fā)聲速度計(jì)算部分112根據(jù)取出一個(gè)音的取出時(shí)間,計(jì)算一個(gè)音的發(fā)聲速度。
設(shè)發(fā)聲速度計(jì)算部分112取出一個(gè)音所需要的時(shí)間(下面稱為“一個(gè)音取出時(shí)間”)為Ts,非特定說(shuō)話者一個(gè)音發(fā)聲所需要的基準(zhǔn)時(shí)間(下面稱為“一個(gè)音發(fā)聲基準(zhǔn)時(shí)間”)為Th。在發(fā)聲速度變換率決定部分113中,根據(jù)一個(gè)音取出時(shí)間Ts及一個(gè)音發(fā)聲基準(zhǔn)時(shí)間Th,將一個(gè)音發(fā)聲速度1/Ts與基準(zhǔn)一個(gè)音發(fā)聲速度1/Th進(jìn)行比較,確定速度變換率α。速度變換率α利用下式(1)能夠算出。
α=Ts/Th……(1)由上述式(1)可知,當(dāng)一個(gè)音取出時(shí)間Ts比一個(gè)音發(fā)聲基準(zhǔn)時(shí)間Th要短,即輸入語(yǔ)音的發(fā)聲速度比聲音認(rèn)別裝置VRAc能夠正確識(shí)別的發(fā)聲速度要快時(shí),速度變換率α小于1。這種情況下,必須要將輸入語(yǔ)音的發(fā)聲速度放慢。反之,當(dāng)一個(gè)音取出時(shí)間Ts比一個(gè)音發(fā)聲基準(zhǔn)時(shí)間Th要長(zhǎng),即輸入語(yǔ)音的發(fā)聲速度比聲音識(shí)別裝置VRAc能夠正確識(shí)別的發(fā)聲速度要慢時(shí),速度變換率α大于1。這種情況下,必須要將輸入語(yǔ)音的發(fā)聲速度加快。
在語(yǔ)音識(shí)別裝置VRAc中,根據(jù)速度變換率α,發(fā)聲速度變換部分114對(duì)輸入語(yǔ)音信號(hào)進(jìn)行變換,使發(fā)聲速度成為一定,從而生成速度變換輸入語(yǔ)音信號(hào)。語(yǔ)音識(shí)別部分115對(duì)速度變換輸入語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理,將得到的識(shí)別結(jié)果輸出。
上述速度變換利用最近的數(shù)字技術(shù)很容易能夠?qū)崿F(xiàn)。例如要使輸入語(yǔ)音的發(fā)聲速度放慢時(shí),只要在語(yǔ)音信號(hào)中增加若干個(gè)與輸入語(yǔ)音的一個(gè)音有相關(guān)性的母音波形而使語(yǔ)音信號(hào)的發(fā)聲時(shí)間延長(zhǎng)即可。另外,要使輸入語(yǔ)音的發(fā)聲速度加快時(shí),只要跳過(guò)若干個(gè)輸入語(yǔ)音一個(gè)音的母音波形而從語(yǔ)音信號(hào)中抽掉即可。
該處理是不改變輸入語(yǔ)音的音程而改變語(yǔ)速的稱為語(yǔ)速變換技術(shù)。即在語(yǔ)音識(shí)別中,對(duì)于發(fā)聲速度因人而有差別的非特定說(shuō)話者中,特別是對(duì)于說(shuō)得快的說(shuō)話者所發(fā)出的語(yǔ)音,利用語(yǔ)速變換技術(shù)能夠提高對(duì)說(shuō)得快的說(shuō)話者發(fā)出語(yǔ)音的識(shí)別率。
在上述以往的語(yǔ)音識(shí)別裝置VRAc中,對(duì)于與基準(zhǔn)一個(gè)音發(fā)聲速度1/Th相比,發(fā)聲速度不一樣的非特定說(shuō)話者的語(yǔ)音能夠提高識(shí)別率,即對(duì)于影響語(yǔ)音識(shí)別的第1個(gè)主要因素是有效的。但是,對(duì)于相對(duì)基準(zhǔn)語(yǔ)音有高低差的發(fā)聲語(yǔ)音,即影響語(yǔ)音識(shí)別的第2個(gè)主要因素,也就是有高低差的發(fā)聲語(yǔ)音,不能指望提高識(shí)別率。
詳細(xì)來(lái)說(shuō),語(yǔ)音識(shí)別裝置VRAc雖然能夠適應(yīng)男性的低音及女性和孩子的高音等很寬的頻率范圍,但語(yǔ)音識(shí)別率不高。另外,對(duì)于說(shuō)得快的說(shuō)話者,只要使說(shuō)話者注意慢慢說(shuō)就可解決問(wèn)題,但希望說(shuō)話者改變音色來(lái)發(fā)聲就比較困難。說(shuō)話者基準(zhǔn)發(fā)聲頻率是取決于說(shuō)話者喉部形狀及大小。也就是說(shuō),由于不能改變說(shuō)話者喉部形狀,因此也不能改變其發(fā)聲音色。
所以,語(yǔ)音識(shí)別裝置VRAc存在的問(wèn)題是,為了對(duì)于不特定說(shuō)話者各自發(fā)聲的音色差也能夠提高語(yǔ)音識(shí)別率,必須具有多種對(duì)男性語(yǔ)音、女性及小孩語(yǔ)音等進(jìn)行語(yǔ)音識(shí)別所需要的不同音程的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù),再根據(jù)說(shuō)話者的音色,來(lái)切換所參照的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)。
解決該問(wèn)題可以考慮采用這樣的方法,即將輸入語(yǔ)音變換為含有標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的語(yǔ)音識(shí)別裝置進(jìn)行語(yǔ)音識(shí)別的最佳音程。但是如前所述,由不特定說(shuō)話者發(fā)出的語(yǔ)音有各種各樣的音程,因此很難將輸入語(yǔ)音一下子變換為與對(duì)于語(yǔ)音識(shí)別裝置的語(yǔ)音識(shí)別認(rèn)為是最佳的所希望的音程相一致的語(yǔ)音。再有,即使一下子變換為所希望的音程,但由于說(shuō)話者發(fā)聲的怪習(xí)慣或單詞,有時(shí)也不能正確識(shí)別。即根據(jù)語(yǔ)音識(shí)別裝置或標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)即使認(rèn)為對(duì)于語(yǔ)音識(shí)別是最佳的音程,但其實(shí)未必是最佳。
所以,本發(fā)明的目的在于提供一種音程標(biāo)準(zhǔn)化裝置,它在語(yǔ)音識(shí)別裝置中將輸入語(yǔ)音音程標(biāo)準(zhǔn)化為能夠確認(rèn)可正確進(jìn)行語(yǔ)音識(shí)別的音程。
本發(fā)明第1方面是一種輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,它用于根據(jù)多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù),對(duì)不特定說(shuō)話者發(fā)出的輸入語(yǔ)音進(jìn)行識(shí)別的語(yǔ)音識(shí)別裝置,將輸入語(yǔ)音標(biāo)準(zhǔn)化為語(yǔ)音識(shí)別最佳音程,所述輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置具有按規(guī)定音程單位使輸入語(yǔ)音變化而生成識(shí)別對(duì)象語(yǔ)音信號(hào)的識(shí)別對(duì)象語(yǔ)音生成器、計(jì)算識(shí)別對(duì)象語(yǔ)音信號(hào)與語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)多個(gè)單詞相互之間的一致概率的一致概率運(yùn)算器,還具有在一致概率最大值達(dá)到規(guī)定概率以前反復(fù)使識(shí)別對(duì)象語(yǔ)音信號(hào)的音程進(jìn)行變化的音程變換器。
如上所述,在第1方面中,由于對(duì)輸入語(yǔ)音音程進(jìn)行調(diào)整,使相對(duì)于輸入語(yǔ)音與多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)一致的概率最大值達(dá)到規(guī)定值以上,因此能夠高速且正確地實(shí)現(xiàn)輸入語(yǔ)音的標(biāo)準(zhǔn)化。
第2方面的特征是,在第1方面中,音程變換器具有調(diào)音器,它在一致概率最大值小于規(guī)定概率時(shí),按規(guī)定的音程單位使識(shí)別對(duì)象語(yǔ)音向升音或降音的某一方面變化。
如上所述,在第2方面中,也可以適應(yīng)輸入語(yǔ)音相對(duì)于語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)為低音或高音的情況。
第3方面的特征是,在第2方面中,還具有暫時(shí)存儲(chǔ)輸入語(yǔ)音的存儲(chǔ)器及從存儲(chǔ)器讀出輸入語(yǔ)音序列后生成識(shí)別對(duì)象語(yǔ)音信號(hào)的讀出控制器;還具有讀出時(shí)鐘控制器,它決定存儲(chǔ)器讀出時(shí)序的時(shí)鐘頻率,然后生成讀出時(shí)鐘信號(hào),以便按規(guī)定的音程單位使識(shí)別對(duì)象語(yǔ)音信號(hào)的頻率進(jìn)行變換。
第4方面的特征是,在第2方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行升音。
第5方面的特征是,在第4方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程規(guī)定為第1規(guī)定音程,同時(shí)在到達(dá)最高音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行降音。
如上所述,在第5方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第6方面的特征是,在第5方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程規(guī)定為第2規(guī)定音程,同時(shí)在到達(dá)最低音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),結(jié)束標(biāo)準(zhǔn)化處理。
如上所述,在第6方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第7方面的特征是,在第2方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行降音。
第8方面的特征是,在第7方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程規(guī)定為第3規(guī)定音程,同時(shí)在到達(dá)最低音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行升音。
如上所述,在第8方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第9方面的特征是,在第8方面的輸入音程標(biāo)準(zhǔn)化裝置中,識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程規(guī)定為第4規(guī)定音程,同時(shí)在到達(dá)最高音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),結(jié)束標(biāo)準(zhǔn)化處理。
第10方面是一種語(yǔ)音識(shí)別裝置,它根據(jù)多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù),在將不特定說(shuō)話者發(fā)出的輸入語(yǔ)音標(biāo)準(zhǔn)化為語(yǔ)音識(shí)別最佳音程的狀態(tài)下進(jìn)行識(shí)別,所述語(yǔ)音識(shí)別裝置具有按規(guī)定音程單位使輸入語(yǔ)音變化而生成識(shí)別對(duì)象語(yǔ)音信號(hào)的識(shí)別對(duì)象語(yǔ)音生成器、計(jì)算識(shí)別對(duì)象語(yǔ)音信號(hào)與語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)多個(gè)單詞相互之間的一致概率的一致概率運(yùn)算器、在一致概率最大值達(dá)到規(guī)定概率以前反復(fù)使識(shí)別對(duì)象語(yǔ)音信號(hào)的音程進(jìn)行變化的音程變換器。
如上所述,在第10方面中,由于對(duì)輸入語(yǔ)音音程進(jìn)行調(diào)整,使多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)相對(duì)于輸入語(yǔ)音的一致概率最大值達(dá)到規(guī)定值以上,因此能夠高速且正確地實(shí)現(xiàn)輸入語(yǔ)音的標(biāo)準(zhǔn)化。
第11方面的特征是,在第10方面中,識(shí)別對(duì)象語(yǔ)音生成器具有調(diào)音器,它在一致概率最大值小于規(guī)定概率時(shí),按規(guī)定的音程單位使識(shí)別對(duì)象語(yǔ)音向升音或降音的某一方向變化。
如上所述,在第11方面中,也可以適應(yīng)輸入語(yǔ)音相對(duì)于語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)為低音或高音的情況。
第12方面的特征是,在第11方面中,還具有暫時(shí)存儲(chǔ)輸入語(yǔ)音的存儲(chǔ)器及從存儲(chǔ)器讀出輸入語(yǔ)音序列后生成識(shí)別對(duì)象語(yǔ)音信號(hào)的讀出控制器;還具有讀出時(shí)鐘控制器,它決定存儲(chǔ)器讀出時(shí)序的時(shí)鐘頻率,然后生成讀出時(shí)鐘信號(hào),以便按規(guī)定的音程單位使識(shí)別對(duì)象語(yǔ)音信號(hào)的頻率進(jìn)行變換。
第13方面的特征是,在第11方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行升音。
如上所述,在第13方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第14方面的特征是,在第13方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程規(guī)定為第1規(guī)定音程,同時(shí)在到達(dá)最高音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行降音。
如上所述,在第14方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第15方面的特征是,在第14方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程規(guī)定為第2規(guī)定音程,同時(shí)在到達(dá)最低音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),結(jié)束標(biāo)準(zhǔn)化處理。
第16方面的特征是,在第11方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行降音。
第17方面的特征是,在第16方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程規(guī)定為第3規(guī)定音程,同時(shí)在到達(dá)最低音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行升音。
如上所述,在第17方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第18方面的特征是,在第17方面中,識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程規(guī)定為第4規(guī)定音程,同時(shí)在到達(dá)最低音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),結(jié)束標(biāo)準(zhǔn)化處理。
第19方面是一種輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,它根據(jù)多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù),用于對(duì)不特定說(shuō)話者發(fā)出的輸入語(yǔ)音進(jìn)行識(shí)別的語(yǔ)音識(shí)別裝置,將輸入語(yǔ)音標(biāo)準(zhǔn)化為語(yǔ)音識(shí)別最佳音程,所述語(yǔ)音標(biāo)準(zhǔn)化方法具有下述步驟按規(guī)定音程單位使輸入語(yǔ)音變化而生成識(shí)別對(duì)象語(yǔ)音信號(hào)的步驟、計(jì)算識(shí)別對(duì)象語(yǔ)音信號(hào)與語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)多個(gè)單詞相互之間的一致概率的步驟、在一致概率最大值達(dá)到規(guī)定概率以前反復(fù)使識(shí)別對(duì)象語(yǔ)音信號(hào)的音程進(jìn)行變化的步驟。
如上所述,在第19方面中,由于對(duì)輸入語(yǔ)音音程進(jìn)行調(diào)整,使多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)相對(duì)于輸入語(yǔ)音的一致概率最大值達(dá)到規(guī)定值以上,因此能夠高速且正確地實(shí)現(xiàn)輸入語(yǔ)音的標(biāo)準(zhǔn)化。
第20方面的特征是,在第19方面中,在一致概率最大值小于規(guī)定概率時(shí),還具有按規(guī)定的音程單位使識(shí)別對(duì)象語(yǔ)音向升音或降音的某一方向變化的步驟。
如上所述,在第20方面中,也可以適應(yīng)輸入語(yǔ)音相對(duì)于語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)為低音或高音的情況。
第21方面的特征是,在第20方面中,具有暫時(shí)存儲(chǔ)輸入語(yǔ)音的步驟、根據(jù)暫時(shí)存儲(chǔ)的輸入語(yǔ)音序列生成識(shí)別對(duì)象語(yǔ)音信號(hào)的步驟、決定存儲(chǔ)器讀出時(shí)序的時(shí)鐘頻率使識(shí)別對(duì)象語(yǔ)音信號(hào)的頻率按規(guī)定音程單位變換的步驟。
第22方面是20方面所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法中,還具有使識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行升音的步驟。
第23方面是在第22方面中還具有下述步驟,它是將識(shí)別對(duì)象信號(hào)的最高音程規(guī)定為第1規(guī)定音程,同時(shí)在到達(dá)最高音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率時(shí),使識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行降音。
如上所述,在第23方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第24方面是在第23方面中還具有下述步驟將識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程規(guī)定為第2規(guī)定音程,同時(shí)在到達(dá)最低音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),結(jié)束標(biāo)準(zhǔn)化處理。
如上所述,在第24方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第25方面是在第20方面中,還具有使識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行降音的步驟。
第26方面是在第25方面中還具有下述步驟將識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程規(guī)定為第3規(guī)定音程,同時(shí)在到達(dá)最低音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),使識(shí)別對(duì)象語(yǔ)音信號(hào)從與輸入語(yǔ)音相同音程起按規(guī)定音程單位進(jìn)行升音。
如上所述,在第26方面中,能夠在語(yǔ)音識(shí)別裝置的能力范圍內(nèi)適當(dāng)設(shè)定輸入語(yǔ)音的標(biāo)準(zhǔn)化范圍。
第27方面是在第26方面中還具有下述步驟將識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程規(guī)定為第4規(guī)定音程,同時(shí)在到達(dá)最高音程之前,當(dāng)一致概率最大值未達(dá)到規(guī)定概率以上時(shí),結(jié)束標(biāo)準(zhǔn)化處理。
本發(fā)明的這些及其它的目的、特征、形態(tài)和效果,從參照附圖所作下述詳細(xì)說(shuō)明將會(huì)更加清楚。
圖1所示為本發(fā)明實(shí)施形態(tài)的裝有輸入語(yǔ)音標(biāo)準(zhǔn)化裝置的語(yǔ)音識(shí)別裝置構(gòu)成方框圖。
圖2所示為圖1的語(yǔ)音分析器的詳細(xì)方框圖。
圖3所示為具有不同音程的語(yǔ)音頻譜圖。
圖4所示為語(yǔ)音波形隨時(shí)間變化的例子及它們之間進(jìn)行的音程變換方法說(shuō)明圖。
圖5所示為圖1所示的輸入語(yǔ)音標(biāo)準(zhǔn)化裝置的動(dòng)作流程圖。
圖6所示為圖5所示的第1位一致概率Pmax(Ni)子程序中詳細(xì)的動(dòng)作流程圖。
圖7所示為以往的語(yǔ)音識(shí)別裝置的構(gòu)成方框圖。
下面參照?qǐng)D1,說(shuō)明本發(fā)明實(shí)施形態(tài)的裝有輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置的語(yǔ)音識(shí)別裝置。語(yǔ)音識(shí)別裝置VRAp包括A/D變換器1、輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr、標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13、語(yǔ)音分析器15及控制器17。標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13存儲(chǔ)有作為語(yǔ)音識(shí)別基準(zhǔn)的多個(gè)單詞頻率模式Psf,按規(guī)定的時(shí)序?qū)⒋鎯?chǔ)的頻率模式Psf輸出。另外,由不特定說(shuō)話者發(fā)出的語(yǔ)音通過(guò)話筒及放大器(未圖示)作為模擬語(yǔ)音信號(hào)Sva輸入至語(yǔ)音識(shí)別裝置VRAp。
控制器17根據(jù)由語(yǔ)音識(shí)別裝置VRAp構(gòu)成部分的A/D變換器1、輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr、標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13及語(yǔ)音分析器15輸出的表示它們動(dòng)作狀態(tài)的動(dòng)作狀態(tài)信號(hào)Ss,生成對(duì)這些構(gòu)成部分1、Tr、13及15的動(dòng)作進(jìn)行控制的控制信號(hào)Sc,對(duì)整個(gè)語(yǔ)音識(shí)別裝置VRAp有動(dòng)作進(jìn)行控制。另外,關(guān)于動(dòng)作狀態(tài)信號(hào)Ss、控制信號(hào)Sc及控制器17,由于是公知的技術(shù),因此為了簡(jiǎn)化說(shuō)明,只要不是特別需要,就不再談到。
A/D變換器1對(duì)輸入的語(yǔ)音信號(hào)Sva進(jìn)行A/D變換處理,生成數(shù)字語(yǔ)音信號(hào)Svd,輸入至輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr。輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr根據(jù)輸入的數(shù)字語(yǔ)音信號(hào)Svd,以語(yǔ)音識(shí)別裝置VRAp的語(yǔ)音識(shí)別最佳音程為目標(biāo),生成經(jīng)過(guò)規(guī)定量音程變換的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc,輸出至語(yǔ)音分析器15。
語(yǔ)音分析器15對(duì)音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc進(jìn)行FFT(快速傅里葉變換)處理,求出音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的頻率模式Psvc(未圖示)。另外,語(yǔ)音分析器15從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13讀出由一個(gè)個(gè)單詞的頻率模式Psf及與該單詞對(duì)應(yīng)的代碼Sr所構(gòu)成的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)。然后,語(yǔ)音分析器15將標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的一個(gè)個(gè)單詞的頻率模式Psf與音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的頻率模式Psvc進(jìn)行比較,求出表示它們一致程度的一致概率P。
另外,一致概率P如后所述利用隱馬爾可夫模型(Hidden MarkovModel)法為代表的已有技術(shù)求得。將標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)所含的全部單詞一致概率P中的最大概率作為第1位一致概率Pmax,將表示該單詞的代碼Sr作為最大一致概率代碼Srp。
輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr根據(jù)第1位一致概率Pmax,在標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的多個(gè)單詞中,確認(rèn)其頻率模式Psf與音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的頻率模式Psvc一致的單詞。當(dāng)?shù)?位一致概率Pmax具有規(guī)定閾值的一致認(rèn)定基準(zhǔn)Pth時(shí),輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr將該標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的單詞認(rèn)定作為與輸入語(yǔ)音一致的單詞,將一致認(rèn)定信號(hào)Sj輸出至語(yǔ)音分析器15,然后從語(yǔ)音分析器15將表示該認(rèn)定單詞(語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù))的最大一致概率代碼Srp輸出。按照這個(gè)意思,將一致概率代碼Srp稱為識(shí)別代碼Srp。
另外,當(dāng)?shù)?位一致概率Pmax小于一致認(rèn)定基準(zhǔn)Pth時(shí),輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr將數(shù)字語(yǔ)言信號(hào)Svd的音程進(jìn)行規(guī)定量的調(diào)整,再次生成音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc。然后,根據(jù)該音程調(diào)整過(guò)的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc,重復(fù)進(jìn)行上述認(rèn)定處理。即在與音程調(diào)整過(guò)的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的多個(gè)單詞中,對(duì)于每次頻率模式比較中具有第1位一致概率Pmax的單詞進(jìn)行一致判斷。
另外,如圖1所示,輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr包括存儲(chǔ)器3、讀出控制器5、音程優(yōu)化器9及讀出時(shí)鐘控制器11。音程優(yōu)化器9根據(jù)從語(yǔ)音分析器15輸入的第1位一致概率Pmax,對(duì)音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc與標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的特定單詞進(jìn)行一致認(rèn)定。
即當(dāng)一致認(rèn)定基準(zhǔn)Pth大于第1位一致概率Pmax時(shí),音程優(yōu)化器9認(rèn)定為不一致。然后,為了對(duì)輸入至語(yǔ)音分析器15的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的音程進(jìn)行音程調(diào)整量為Ni的修正,輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr將音程調(diào)整信號(hào)Si送至讀出時(shí)鐘控制器11。
音程調(diào)整量Ni及音程調(diào)整信號(hào)Si所示的i是規(guī)定調(diào)整音程量的音程調(diào)整指數(shù)。在本實(shí)施形態(tài)中,音程調(diào)整指數(shù)i以正負(fù)整數(shù)為例加以說(shuō)明,當(dāng)然也可以采用任意值。再有,當(dāng)音程調(diào)整指數(shù)i為整數(shù)時(shí),使它的值與音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的音程調(diào)整周期一致,由此在本說(shuō)明書中,根據(jù)需要用音程調(diào)整指數(shù)i表示音程調(diào)整周期來(lái)進(jìn)行說(shuō)明。
讀出時(shí)鐘控制器11根據(jù)音程調(diào)整信號(hào)Si將使音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的音程改變規(guī)定量Ni(升音或降音)的讀出時(shí)鐘Scc輸出至存儲(chǔ)器3。
讀出控制器5監(jiān)視利用存儲(chǔ)器3保存的數(shù)字語(yǔ)音信號(hào)Svd,并生成讀出控制信號(hào)Src,控制存儲(chǔ)器3,以便將存儲(chǔ)器3保存的數(shù)字語(yǔ)音信號(hào)Svd中與獨(dú)立發(fā)聲對(duì)應(yīng)的信號(hào)按讀出時(shí)鐘Scc規(guī)定的時(shí)序讀出作為音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc。
存儲(chǔ)器3按讀出時(shí)鐘Scc規(guī)定的時(shí)序?qū)⒈4娴臄?shù)字語(yǔ)音信號(hào)Svd讀出,由此,將數(shù)字語(yǔ)音信號(hào)Svd的音程根據(jù)音程調(diào)整信號(hào)Si指示的進(jìn)行調(diào)整音程N(yùn)i的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc輸出。即音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc為根據(jù)音程調(diào)整信號(hào)Si指定的規(guī)定音程調(diào)整量Ni對(duì)數(shù)字語(yǔ)音信號(hào)Svd的音程進(jìn)行調(diào)整的信號(hào)。
該規(guī)定的音程不一定必須是固定的,也可以每次采用任意值,當(dāng)然也可以根據(jù)語(yǔ)音識(shí)別裝置VRAp(特別是語(yǔ)音分析器15及標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的組合)性能而自然而然決定允許范圍。這樣將按音程調(diào)整量Ni進(jìn)行了音程調(diào)整的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc表示為音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)。另外,其它信號(hào)等也根據(jù)需要同樣表示。
語(yǔ)音分析器15對(duì)于存儲(chǔ)器3新輸入的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc,就標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13存儲(chǔ)的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)全部(M個(gè))單詞求得一致概率P。M為1以上的任意整數(shù),是作為標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的包含其語(yǔ)音頻率分量模式Psf的單詞所對(duì)應(yīng)的代碼Sr的總數(shù)。按照這個(gè)意思,將M稱為標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)單詞總數(shù)。
如圖2所示,語(yǔ)音分析器15包括最大一致概率決定器15a與一致認(rèn)定代碼輸出器15b。從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13每向最大一致概率決定器15a輸出一次頻率模式Psf(m),就從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13向一致認(rèn)定代碼輸出器15b輸入與該頻率模式Psf(m)對(duì)應(yīng)的代碼Sr(m)。
一致認(rèn)定代碼輸出器15b在下一個(gè)代碼Sr(m+1)輸入之前一直保持該值。m為1以上M以下的任意整數(shù),是表示標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13存儲(chǔ)的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)所包含的M個(gè)單詞分別相對(duì)應(yīng)的代碼和語(yǔ)音頻率分量模式Psf1~Psfm中的任意一個(gè)的參數(shù)。
最大一致概率決定器15a根據(jù)從存儲(chǔ)器3輸入的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)及從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13輸入的標(biāo)準(zhǔn)語(yǔ)音各單詞的頻率模式Psf(m),求出與音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)相關(guān)的第1位一致概率Pmax(Ni),輸出至音程優(yōu)化器9,同時(shí)將代碼保持信號(hào)Csr輸出至一致認(rèn)定代碼輸出器15b。
一致認(rèn)定代碼輸出器15b對(duì)代碼保持信號(hào)Csr進(jìn)行響應(yīng),將該時(shí)刻輸入的代碼Sr(m)作為認(rèn)定候補(bǔ)代碼Srp’加以保持。這如后所述,具有第1位一致概率Pmax(Ni)的單詞所對(duì)應(yīng)的代碼Sr,若其一致概率P(即第1位一致概率Pmax(Ni))在一致認(rèn)定基準(zhǔn)Pth以上,則認(rèn)定是與輸入語(yǔ)音(模擬語(yǔ)音信號(hào)Sva)相當(dāng)?shù)臄?shù)字語(yǔ)音信號(hào)Svd一致的識(shí)別代碼Srp,因而將具有第1位一致概率Pmax(Ni)的代碼Sr(m)識(shí)別作為認(rèn)定候補(bǔ)代碼Srp’,另外,將這樣認(rèn)定的識(shí)別代碼識(shí)別作為一致認(rèn)定代碼Srp。
一致認(rèn)定代碼輸出器15b根據(jù)從最大一致概率決定器15a輸入的代碼保持信號(hào)Csr、從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13輸入的代碼Sr(m)及從音程優(yōu)化器9輸入的一致認(rèn)定信號(hào)Sj,將一致認(rèn)定代碼Srp輸出至語(yǔ)音識(shí)別裝置VRAp外部。更詳細(xì)來(lái)說(shuō),最大一致概率決定器15a輸入了音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)后,在再輸入經(jīng)音程調(diào)整的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(N(i+1))之前,一直保持音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)。
從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13陸續(xù)將預(yù)先存儲(chǔ)的全部單詞的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的頻率模式Psf(m)一個(gè)一個(gè)地輸入,每一次輸入,求得數(shù)字語(yǔ)音信號(hào)Svc(Ni)與頻率模式Psvc(Ni)的一致概率P(m)。若音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)與頻率模式Psf(m)比較結(jié)果所得到的一致概率P(m)大于到現(xiàn)在為止得到的一致概率P(m-β)的最大值,則加以替換,利用這一方法可求得最大一致概率Pmax(Ni)。β為1以上m以下的任意整數(shù)。
最大一致概率決定器15a在發(fā)生替換時(shí),將表示現(xiàn)在頻率模式Psf(m)的一致概率P(m)是到現(xiàn)在為止的最大值的代碼保持信號(hào)Csr輸至一致認(rèn)定代碼輸出器15b。對(duì)標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13所包含的全部M個(gè)單詞頻率模式Psf1~PsfM進(jìn)行上述處理,即可求得第1位一致概率Pmax(Ni)。然后,第1位一致概率Pmax(Ni)輸出至音程優(yōu)化器9,接受上述一致認(rèn)定處理,同時(shí)表示與該第1位一致概率Pmax(Ni)對(duì)應(yīng)的單詞的識(shí)別信號(hào)Sr(m)作為認(rèn)定候補(bǔ)代碼Srp’保存在一致認(rèn)定代碼輸出器15b。
當(dāng)從最大一致概率決定器15a輸入代碼保持信號(hào)Csr時(shí),將具有到現(xiàn)在為止是最大一致概率P的現(xiàn)在的代碼Sr(m)作為認(rèn)定候補(bǔ)代碼Srp’加以保持,一直保持到下一個(gè)代碼保持信號(hào)Csr輸入為止。當(dāng)再一次輸入代碼保持信號(hào)Csr時(shí),將這時(shí)的新代碼Sr(m+γ)作為認(rèn)定候補(bǔ)代碼Srp’。這樣一來(lái),始終能夠?qū)⒖赡芫哂凶畲笠恢赂怕蔖max(Ni)的代碼Sr作為認(rèn)定候補(bǔ)代碼Srp’加以保持。γ為1以上(M-m)以下的任意整數(shù)。
在音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)與相對(duì)應(yīng)的全部標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)(頻率模式Psf(m))的比較結(jié)束時(shí),將最大一致概率決定器15a保持的最大一致概率P作為第1位一致概率Pmax(Ni)輸出至音程優(yōu)化器9。在音程優(yōu)化器9,將該第1位一致概率Pmax(Ni)與一致認(rèn)定基準(zhǔn)Pth進(jìn)行比較。
當(dāng)?shù)?位一致概率Pmax(Ni)在一致認(rèn)定基準(zhǔn)Pth以上時(shí),則認(rèn)定保持在一致認(rèn)定代碼輸出器15b中的認(rèn)定候補(bǔ)代碼Srp’是一致認(rèn)定代碼Srp的一致認(rèn)定信號(hào)Sj,從音程優(yōu)化器9輸入至一致認(rèn)定代碼輸出器15b。一致認(rèn)定代碼輸出器15b對(duì)該一致認(rèn)定信號(hào)Sj進(jìn)行響應(yīng),將一致認(rèn)定代碼Srp作為表示對(duì)輸入語(yǔ)音進(jìn)行了正確語(yǔ)音識(shí)別的單詞的代碼輸出。
換句話說(shuō),若沒(méi)有從音程優(yōu)化器9輸出的一致認(rèn)定信號(hào)Sj,則一致認(rèn)定代碼Srp不會(huì)從一致認(rèn)定代碼輸出器15b輸出,這時(shí)的一致認(rèn)定代碼Srp其相對(duì)于音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的一致概率P(第1位一致概率Pmax)大于一致認(rèn)定基準(zhǔn)Pth。
即音程優(yōu)化器9根據(jù)第1位一致概率Pmax,將與現(xiàn)在(i)的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)相對(duì)應(yīng)的代碼Sr的第1位一致概率Pmax與一致認(rèn)定基準(zhǔn)Pth進(jìn)行比較。然后,對(duì)具有現(xiàn)在(i)第1位一致概率Pmax的單詞(認(rèn)定候補(bǔ)代碼Srp’)的語(yǔ)音識(shí)別是否正確進(jìn)行判斷。這種情況下,前一次(i-1)的最高一致概率P、即第1位一致概率Pmax(i-1)的認(rèn)定候補(bǔ)代碼Srp’(i-1),與具有這一次(i)的第1位一致概率Pmax的單詞Srp(i)標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)不一定相同。
當(dāng)?shù)?位一致概率Pmax在一致認(rèn)定基準(zhǔn)Pth以上時(shí),音程優(yōu)化器9在認(rèn)定了認(rèn)定候補(bǔ)代碼Srp’與音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc一致后,將表示這一情況的一致認(rèn)定信號(hào)Sj輸出至語(yǔ)音分析器15。語(yǔ)音分析器15接受了一致認(rèn)定信號(hào)Sj后,將保持的認(rèn)定候補(bǔ)代碼Srp’作為一致認(rèn)定代碼Srp輸出。
下面參照?qǐng)D3及圖4說(shuō)明語(yǔ)音識(shí)別裝置VRAp的基本動(dòng)作原理。
圖3所示為利用語(yǔ)音分析器15對(duì)音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音識(shí)別信號(hào)Svc進(jìn)行高速傅里葉變換后得到的頻譜(頻率模式Psvc)之一例,在該圖中,橫軸表示頻率f,縱軸表示強(qiáng)度A。另外,點(diǎn)劃線L1表示數(shù)字語(yǔ)音信號(hào)Svd是男性發(fā)出語(yǔ)音的代表性頻譜之一例,虛線L2表示數(shù)字語(yǔ)音信號(hào)Svd是女性或小孩發(fā)出語(yǔ)音的代表性頻譜之一例。
實(shí)線Ls表示作為語(yǔ)音識(shí)別用標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)在標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13中的與曲線L1及L2所示輸入語(yǔ)音頻譜相對(duì)應(yīng)單詞(代碼Sr)的頻譜(頻率模式Psf)之一例。一般即使是相同語(yǔ)音(單詞),但男性情況下的頻譜如點(diǎn)劃線L1所示,出現(xiàn)在低于標(biāo)準(zhǔn)語(yǔ)音的低頻范圍一側(cè),而女性或小孩情況下的頻譜如虛線12所示,出現(xiàn)在高于標(biāo)準(zhǔn)語(yǔ)音的高頻范圍一側(cè)。
語(yǔ)音分析器15根據(jù)這樣的頻譜,將點(diǎn)劃線L1或虛線L2所代表的、因不特定說(shuō)話者而異的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的頻率模式Psvc與實(shí)線Ls所示的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)各單詞(Sr(m))的頻率模式Psf(m)進(jìn)行對(duì)照,計(jì)算與各單詞(Sr(m))的一致度P(m)。另外,該一致概率P(m)的計(jì)算如上所述是利用隱馬爾可夫模型法那樣的傳統(tǒng)技術(shù)來(lái)進(jìn)行的。
在進(jìn)行不特定說(shuō)話者語(yǔ)音識(shí)別處理時(shí),多數(shù)情況下是將標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13中登錄的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)(Ls)設(shè)定在男聲(L1)與女聲(L2)的中間。因此,特別低音的男聲或特別高音的女聲的頻率(L1或L2)就遠(yuǎn)離標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)(Ls),這樣即使是對(duì)于正確的單詞,其一致概率P也低于一致認(rèn)定基準(zhǔn)Pth,而不能正確識(shí)別。
所以在本發(fā)明中,當(dāng)標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的M個(gè)單詞中其第1位一致概率Pmax(m)不滿足一致認(rèn)定基準(zhǔn)Pth時(shí),就認(rèn)為原因在于音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的音程,應(yīng)該要調(diào)整其音程(升音或者降音)。
即利用語(yǔ)音分析器15檢測(cè)出的第1位一致概率Pmax(m)由音程優(yōu)化器9判斷為不滿足一致認(rèn)定基準(zhǔn)Pth時(shí),將音程調(diào)整信號(hào)Si輸出至讀出時(shí)鐘控制器11,所述音程調(diào)整信號(hào)Si是使音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc調(diào)整規(guī)定的調(diào)整音程N(yùn)i而設(shè)定的調(diào)整信號(hào)。
如上所述,存儲(chǔ)器3將調(diào)整了音程調(diào)整量Ni的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)輸出至語(yǔ)音分析器15。語(yǔ)音分析器15對(duì)該調(diào)整過(guò)的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)進(jìn)行上述的語(yǔ)音分析處理,求得第1位一致概率Pmax。這種情況下,前一次(i-1)語(yǔ)音分析處理時(shí)具有第1位一致概率Pmax(i-1)的單詞這一次不一定也具有第1位一致概率Pmax(i)。
這是由于如參照?qǐng)D3所示的那樣,由曲線L1及L2舉例所示的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的頻率模式Psvc(Ni)與由曲線Ls舉例所示的標(biāo)準(zhǔn)語(yǔ)音的頻率模式Psf(m)因近似度不同,而一致概率P(m)有顯著改變。即音程近似度低時(shí),會(huì)計(jì)算出與音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc不相同的單詞其一致概率P高于正確單詞的一致概率,可能產(chǎn)生這樣一種錯(cuò)誤的計(jì)算結(jié)果。
音程近似度越高,則該錯(cuò)誤計(jì)算結(jié)果越少,同時(shí)正確單詞一致概率P本身也越大。在本發(fā)明中正是注意到這一點(diǎn),根據(jù)語(yǔ)音識(shí)別裝置VRAp的語(yǔ)音識(shí)別能力,正確設(shè)定一致認(rèn)定基準(zhǔn)Pth,由此當(dāng)?shù)?位一致概率Pmax在一致認(rèn)定基準(zhǔn)Pth以上時(shí),就可以認(rèn)定該單詞的語(yǔ)音識(shí)別是正確的。
即在本發(fā)明中,將第1位一致概率Pmax滿足一致認(rèn)定基準(zhǔn)Pth作為條件反復(fù)進(jìn)行音程調(diào)整,對(duì)音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的音程進(jìn)行標(biāo)準(zhǔn)化處理。結(jié)果,正確識(shí)別的單詞對(duì)象不是全部單詞,而僅僅根據(jù)第1位一致概率Pmax來(lái)認(rèn)定,這樣可大幅度減少數(shù)據(jù)處理的工作量,而另一方面到最后是將語(yǔ)音標(biāo)準(zhǔn)數(shù)據(jù)所包括的全部單詞作為識(shí)別對(duì)象,因此能夠?qū)崿F(xiàn)高速且正確的語(yǔ)音識(shí)別。
下面再參照?qǐng)D4說(shuō)明利用輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr(讀出時(shí)鐘控制器11)的音程變換處理。在該圖中,橫軸表示時(shí)間t,縱軸表示語(yǔ)音強(qiáng)度A。波形WS表示存儲(chǔ)在標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13中的語(yǔ)音波形(頻率模式Psf(m))隨時(shí)間而變化的例子。
波形WL表示音程低于標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的頻率模式Psvc(例如是男性的語(yǔ)音),波形WH表示音程高于標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的頻率模式Psvc(例如是女性或小孩的語(yǔ)音)。在該圖中,分別用PL、Ps及PH表示波形WS,WL及WH的1個(gè)周期。周期PL及PH相當(dāng)于上述輸入語(yǔ)音基頻fi的倒數(shù),周期PS相當(dāng)于標(biāo)準(zhǔn)語(yǔ)音基頻fs的倒數(shù)。
為了進(jìn)行音程變換使得波形WL與波形WS一致,只要用比輸入語(yǔ)音波形進(jìn)行A/D變換時(shí)的取樣頻率更快的讀出時(shí)鐘進(jìn)行讀出,就能夠?qū)崿F(xiàn)。為了將波形WL一下子通過(guò)音程變換變成波形WS,只要將讀出時(shí)鐘Scc的頻率提高為PL/PS倍即可。這種情況下,變換后的音程也提高為PL/Ps倍,但由于實(shí)際音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的周期PL每次都不一樣,而且不定,因此最好音程以規(guī)定的音程調(diào)整量Ni為單位進(jìn)行調(diào)整。即在本發(fā)明中,讀出時(shí)鐘Scc設(shè)定為與音程調(diào)整量Ni相對(duì)應(yīng)的頻率。另外,對(duì)于進(jìn)行音程變換使波形WH與波形WS一致的情況,讀出時(shí)鐘Scc也同樣進(jìn)行設(shè)定。
這樣能得到使數(shù)字語(yǔ)音信號(hào)Svd的音程與標(biāo)準(zhǔn)語(yǔ)音音程一致而經(jīng)過(guò)變換的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc。但是,在升高音程時(shí),語(yǔ)音波形的時(shí)間軸變短,在降低音程時(shí),語(yǔ)音波形的時(shí)間軸延長(zhǎng),因此語(yǔ)速改變了。為了解決這一問(wèn)題,在升高音程時(shí),增加母音波形,在降低音程時(shí),抽掉母音波形,通過(guò)這樣能夠調(diào)整語(yǔ)速。由于該技術(shù)是公知的,而且不是本發(fā)明的目的,因此省略其說(shuō)明及圖示。另外,讀出時(shí)鐘的頻率變換也采用至今都知道的主時(shí)鐘的分頻時(shí)鐘,很容易能夠生成。
下面參照?qǐng)D5及圖6所示的流程說(shuō)明語(yǔ)音識(shí)別裝置VRAp中的輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr的各個(gè)動(dòng)作。語(yǔ)音識(shí)別裝置VRAp投入運(yùn)行,開(kāi)始圖5所示的語(yǔ)音識(shí)別動(dòng)作。
首先在步驟S2中,輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr進(jìn)行初始化。具體來(lái)說(shuō),是將給定音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的調(diào)整音程N(yùn)i的音程調(diào)整指數(shù)i設(shè)定為零,同時(shí)將表示音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc調(diào)整后的音程允許最大值的允許最高音程N(yùn)max及表示允許最小值的允許最低音程N(yùn)min分別設(shè)定為規(guī)定值。這里所謂i=0意味著音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc的音程與數(shù)字語(yǔ)音信號(hào)Svd的音程相同。然后處理進(jìn)行下一步驟S4。
在步驟S4中,由不特定說(shuō)話者發(fā)出的語(yǔ)音通過(guò)話筒等裝置作為模擬語(yǔ)音信號(hào)Sva輸入A/D變換器1。然后處理進(jìn)入下一步驟S6。
在步驟S6中,A/D變換器1將輸入的模擬語(yǔ)音信號(hào)Sva依次進(jìn)行A/D變換,生成數(shù)字語(yǔ)音信號(hào)Svd,輸出至存儲(chǔ)器3。然后處理進(jìn)入步驟S8。
在步驟S8中,存儲(chǔ)器3依次將數(shù)字語(yǔ)音信號(hào)Svd加以存儲(chǔ)。然后處理進(jìn)入下一步驟S10。
在步驟S10中,讀出控制器5監(jiān)視存儲(chǔ)器3的輸入狀態(tài),判斷說(shuō)話者的語(yǔ)音輸入(模擬語(yǔ)音信號(hào)Sva)是否結(jié)束。該判斷可例如根據(jù)模擬語(yǔ)音信號(hào)Sva的輸入中斷時(shí)間是否達(dá)到規(guī)定閾值來(lái)進(jìn)行。另外也可以有別的構(gòu)成方法,如利用適當(dāng)手段將說(shuō)話者已輸入結(jié)束這一情況通知語(yǔ)音識(shí)別裝置VRAp或輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr。
在說(shuō)話者繼續(xù)發(fā)聲的情況下,判斷為“否”,處理則返回上述步驟S4,繼續(xù)步驟S4、S6及S8中的說(shuō)話者語(yǔ)音輸入處理、數(shù)字語(yǔ)音信號(hào)Svd的生成及輸入至存儲(chǔ)器3的處理。然后,當(dāng)由說(shuō)話者的一個(gè)音或若干音組成的獨(dú)立語(yǔ)音序列的模擬語(yǔ)音信號(hào)Sva輸入結(jié)束時(shí),判斷為“是,”則利用存儲(chǔ)器3對(duì)說(shuō)話者發(fā)出語(yǔ)音的數(shù)字語(yǔ)音信號(hào)Svd的存儲(chǔ)動(dòng)作結(jié)束。因此處理進(jìn)入下一步驟S12。
在步驟S12中,讀出控制器5根據(jù)讀出時(shí)鐘Scc將存儲(chǔ)器3中存儲(chǔ)的數(shù)字語(yǔ)音信號(hào)Svd讀出作為音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)。該音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的音程相對(duì)于數(shù)字語(yǔ)音信號(hào)Svd的音程進(jìn)行了音程調(diào)整量Ni的調(diào)整(升音或降音),所述音程調(diào)整量Ni是與讀出時(shí)鐘Scc生成的作為基準(zhǔn)的音程調(diào)整信號(hào)Si相當(dāng)?shù)囊?guī)定量。
一開(kāi)始從存儲(chǔ)器3讀出音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)時(shí),由于在上述步驟S2中,音程調(diào)整指數(shù)i初始化為零,因此音程調(diào)整量Ni為零。即數(shù)字語(yǔ)音信號(hào)Svd未經(jīng)音程調(diào)整讀出作為音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)。然后處理進(jìn)入步驟S14。
在步驟S14中,語(yǔ)音分析器15對(duì)用音程調(diào)整指數(shù)i規(guī)定的音程調(diào)整量Ni進(jìn)行了音程調(diào)整的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)進(jìn)行傅里葉變換,生成頻率模式Psvc(Ni),進(jìn)行頻譜分析,然后處理進(jìn)入步驟#100的第1位一致概率Pmax(Ni)檢測(cè)子程序。
在步驟#100中,檢測(cè)音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的頻率模式Pvsc(Ni)與從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13讀出的各個(gè)單詞(Sr)的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)即頻率模式Psf(m)的一致概率P(m)。另外,關(guān)于比較這樣的輸入語(yǔ)音的數(shù)字語(yǔ)音信號(hào)與標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的模式并求得兩者的一致概率P的技術(shù),可以采用以隱馬爾可夫模型法為代表的公知技術(shù)。
下面參照?qǐng)D6說(shuō)明步驟#100中的詳細(xì)動(dòng)作。若步驟#100的第1位一致概率Pmax(Ni)檢測(cè)子程序開(kāi)始運(yùn)行,則首先在步驟S102中,從存儲(chǔ)器3輸出的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的頻率模式Psvc(Ni)輸入至語(yǔ)音分析器15的最大一致概率決定器15a。然后處理進(jìn)入下一步驟S104。
在步驟S104中,語(yǔ)音分析器15進(jìn)行初始化。具體來(lái)說(shuō),在最大一致概率決定器15a中將m設(shè)置為1,同時(shí)將第1位一致概率Pmax(Ni)設(shè)置為零。在一致認(rèn)定代碼輸出器15b中,將認(rèn)定候補(bǔ)代碼Srp’設(shè)置為零。然后處理進(jìn)入下一步驟S106。
在步驟S106中,從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13分別將頻率模式Psf(m)及代碼Sr(m)輸入至最大一致概率決定器15a及一致認(rèn)定代碼輸出器15b,然后處理進(jìn)入下一步驟S108。
在步驟S108中,最大一致概率決定器15a計(jì)算在步驟S106取得的頻率模式Psf(m)相對(duì)于在步驟S102輸入的頻率模式Psvc(Ni)的一致概率P(m)。然后處理進(jìn)入下一步驟S110。
在步驟110中,利用最大一致概率決定器15a判斷一致概率P(m)是否在第1位一致概率Pmax以上。當(dāng)一致概率P(m)在第1位一致概率Pmax以上時(shí),判斷為“是”,處理進(jìn)入步驟S112。
在步驟S112中,在最大一致概率決定器15a中設(shè)置當(dāng)前的一致概率P(m)作為第1位一致概率Pmax(Ni),然后處理進(jìn)入下一步驟S114。
在步驟A114中,最大一致概率決定器15a將代碼保持信號(hào)Csr輸出至一致認(rèn)定代碼輸出器15b。然后處理進(jìn)入下一步驟S116。
在步驟S116中,一致認(rèn)定代碼輸出器15b對(duì)代碼信號(hào)Csr進(jìn)行響應(yīng),將該時(shí)刻保持的代碼Sr(m)設(shè)置作為認(rèn)定候補(bǔ)代碼Srp’。然后處理進(jìn)入下一步驟S118。
另外在步驟S110中,當(dāng)判斷為“否”、即判斷一致概率P(m)小于第1位一致概率Pmax時(shí),處理則跳過(guò)上述步驟S112、S114及S116而直接進(jìn)入步驟S118。
在步驟S118中,判斷m是否為M。當(dāng)m小于M時(shí),判斷為“否”,處理進(jìn)入步驟S120。
在步驟S120中,m加1,處理返回至上述步驟S106。然后重復(fù)上述步驟S106~S120的處理。直到在步驟S120中加1,m變?yōu)镸,在步驟S118判斷為“是”為止。
在步驟S118中,若判斷為“是”,即求得標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13中存儲(chǔ)的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的M個(gè)頻率模式Psf(1)~Psf(M)各自一致概率P(m)并判斷求得的一致概率P(m)是否為第1位一致概率Pmax的處理全部結(jié)束。這樣將標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13中存儲(chǔ)的全部識(shí)別信號(hào)Sr作為對(duì)象,求得第1位一致概率Pmax及認(rèn)定候補(bǔ)代碼Srp’。然后處理進(jìn)入步驟S122。
在步驟S122中,最大一致概率決定器15a將在步驟S112中內(nèi)部保持的第1位一致概率Pmax(Ni)輸出至音程優(yōu)化器9。
這樣,語(yǔ)音分析器15僅僅將各標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)(語(yǔ)音頻率分量模式Psf)與輸入語(yǔ)音(模擬語(yǔ)音信號(hào)Sva)的輸入語(yǔ)音信號(hào)(音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc)的一致概率P中最高一致概率的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)(一致認(rèn)定代碼Srp)的第1位一致概率Pmax(Ni)輸出,從而結(jié)束步驟#100。然后處理進(jìn)入圖5所示的步驟S18。
在步驟S18中,音程優(yōu)化器9根據(jù)第1位一致概率Pmax(Ni),判斷第1位一致概率Pmax(Ni)是否在一致認(rèn)定基準(zhǔn)Pth以上。當(dāng)?shù)?位一致概率Pmax(Ni)小于一致認(rèn)定基準(zhǔn)Pth,即在該時(shí)刻(i)即使是一致概率P最高的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù),也不能認(rèn)為語(yǔ)音識(shí)別是正確的情況下,判斷為“否”,然后處理進(jìn)入步驟S20。
在步驟S20中,判斷表示音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的音程調(diào)整量Ni是否達(dá)到允許最高音程N(yùn)max的最高音程標(biāo)志FNmax是否為1。在最高音程標(biāo)志FNmax不為1,即音程調(diào)整量Ni未達(dá)到最高音程標(biāo)志FNmax時(shí),判斷為“否”,處理進(jìn)入步驟S22。
在步驟S22中,判斷音程調(diào)整量Ni是否在允許最高音程N(yùn)max以上。在為“否”時(shí),處理進(jìn)入步驟S24。
在步驟S24中,音程調(diào)整指數(shù)i加1。這意味著音程調(diào)整量Ni增加(升音)。然后處理進(jìn)入步驟S26。
在步驟S26中,音程優(yōu)化器9生成音程調(diào)整信號(hào)Si,輸出至讀出時(shí)鐘控制器11。然后處理返回前述步驟S12。
另外在步驟S22中,當(dāng)判斷為“是”,即音程調(diào)整量Ni達(dá)到允許最高音程N(yùn)max時(shí),處理進(jìn)入步驟S28。
在步驟S28中,將最高音程標(biāo)志FNmax設(shè)定為1。然后處理進(jìn)入步驟S30。
在步驟S30中,將音程調(diào)整指數(shù)i復(fù)位為零。然后處理進(jìn)入步驟S32。
在步驟S32中,判斷音程調(diào)整量Ni是否在允許最低音程N(yùn)min以下。在判斷為“否”時(shí),處理進(jìn)入步驟S34。
在步驟S34中,音程調(diào)整指數(shù)i減1。這意味著音程調(diào)整量Ni減少(降音)。即音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)比數(shù)字語(yǔ)音信號(hào)Svd的音程降低了音程調(diào)整量Ni。然后處理進(jìn)入前述步驟S26。
另外在步驟S32中,當(dāng)判斷為“是”,即音程調(diào)整量Ni達(dá)到允許最低音程N(yùn)min以下時(shí),結(jié)束處理。這意味著模擬語(yǔ)音信號(hào)Sva不能進(jìn)行語(yǔ)音識(shí)別。
另外在步驟S20中,當(dāng)為“是”,即最高音程標(biāo)志FNmax為1(在步驟S28中設(shè)定)時(shí),處理進(jìn)入步驟S32。
另外在步驟S18中,當(dāng)為“是”,即第1位一致概率Pmax(Ni)在一致認(rèn)定基準(zhǔn)Pth以上時(shí),認(rèn)定相應(yīng)的單詞(Srp)正確。然后處理進(jìn)入下一步驟S36。
在步驟S36中,最大一致概率決定器15a將一致認(rèn)定信號(hào)Sj輸出至認(rèn)定代碼輸出器15b。然后處理進(jìn)入下一步驟S38。
一致認(rèn)定代碼輸出器15b對(duì)一致認(rèn)定信號(hào)Sj進(jìn)行響應(yīng),將在步驟S116(#100)中設(shè)置的認(rèn)定候補(bǔ)代碼Srp’作為一致認(rèn)定代碼Srp從語(yǔ)音識(shí)別裝置VRAp輸出。然后語(yǔ)音識(shí)別裝置VRAp的處理結(jié)束。
下面根據(jù)如上說(shuō)明的流程具體說(shuō)明語(yǔ)音識(shí)別裝置VRAp的語(yǔ)音識(shí)別動(dòng)作。語(yǔ)音識(shí)別裝置VRAp一旦投入運(yùn)行,開(kāi)始其語(yǔ)音識(shí)別動(dòng)作,則首先在步驟S2中使輸入語(yǔ)音標(biāo)準(zhǔn)化裝置Tr進(jìn)行初始化,將音程調(diào)整指數(shù)i設(shè)定為零,將允許最高音程N(yùn)max及允許最低音程N(yùn)min分別設(shè)定為規(guī)定值。
然后在步驟S4、S6、S8及S10中,由不特定說(shuō)話者發(fā)出的語(yǔ)音作為數(shù)字語(yǔ)音信號(hào)Svd存儲(chǔ)在存儲(chǔ)器3中。
在步驟S12中,數(shù)字語(yǔ)音信號(hào)Svd以步驟S2初始設(shè)定的音程調(diào)整指數(shù)i(i=0)相對(duì)應(yīng)的讀出時(shí)鐘Scc(i)從存儲(chǔ)器3讀出,由此音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)輸出至語(yǔ)音分析器5。另外由于是i=0,因此音程調(diào)整量Ni=0,音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的音程與數(shù)字語(yǔ)音信號(hào)Svd的音程相同。
語(yǔ)音分析器15對(duì)音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)進(jìn)行頻譜分析(S14)。再分別對(duì)音程調(diào)整指數(shù)i=0的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的頻率模式Psvc(Ni)與從標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)存儲(chǔ)器13讀出的M個(gè)標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的頻率模式Psf(1)~Psf(M)檢測(cè)一致概率P(1)~P(M)。然后求得其中一致概率P最高的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)(認(rèn)定候補(bǔ)代碼Srp’)及其第1位一致概率Pmax,生成此時(shí)音程調(diào)整量Ni有關(guān)的第1位一致概率Pmax(Ni)(#100)。
若第1位一致概率Pmax在一致認(rèn)定基準(zhǔn)Pth以上,則音程優(yōu)化器9認(rèn)定第1位一致概率Pmax的單詞語(yǔ)音數(shù)據(jù)(認(rèn)定候補(bǔ)代碼Srp’)與數(shù)字語(yǔ)音信號(hào)Svd即說(shuō)話者發(fā)出的語(yǔ)音一致(S18),音程優(yōu)化器9再輸出一致認(rèn)定信號(hào)Sj(S36),將認(rèn)定候補(bǔ)代碼Srp’作為一致認(rèn)定代碼Srp輸出至語(yǔ)音分析器(S38)。
另外,在步驟S18中,當(dāng)?shù)?位一致概率Pmax(Ni)小于一致認(rèn)定基準(zhǔn)Pth,也就是說(shuō),即使是此時(shí)一致概率P最高的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù),也認(rèn)為不能正確進(jìn)行語(yǔ)音識(shí)別。然后,在步驟S20中,根據(jù)最高音程標(biāo)志FNmax,在從數(shù)字語(yǔ)音信號(hào)Svd讀出音程標(biāo)準(zhǔn)數(shù)字語(yǔ)音信號(hào)Svc(Ni)時(shí),判斷升音的音程調(diào)整量Ni未達(dá)到上限(即升音方向的音程調(diào)整尚未結(jié)束)的情況下,在步驟S22中確認(rèn)音程調(diào)整量Ni未達(dá)到允許最高音程N(yùn)max,然后在步驟S24中將音程調(diào)整指數(shù)i加1。然后根據(jù)表示加1后的音程調(diào)整指數(shù)i的音程調(diào)整信號(hào)Si,生成讀出時(shí)鐘Scc,輸出至存儲(chǔ)器3。
在步驟S12中,存儲(chǔ)器3根據(jù)讀出時(shí)鐘Scc,將對(duì)數(shù)字語(yǔ)音信號(hào)Svd按音程調(diào)整指數(shù)i指定的音程調(diào)整量Ni進(jìn)行升音的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)輸出。接下來(lái)重復(fù)S20~S34的動(dòng)作,直到在步驟18判斷為“是”,即判斷為第1位一致概率Pmax在一致認(rèn)定基準(zhǔn)Pth以上為止。
即在步驟S22中判斷為音程調(diào)整量Ni達(dá)到允許最高音程N(yùn)max之前,只要在步驟S18中不判斷為“是”,則重復(fù)步驟S20~S26及S12~S18的循環(huán),對(duì)于每一次按規(guī)定音程調(diào)整量Ni升音(S24、S26、S12)的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni),求得第1位一致概率Pmax(S14、#100)。
這期間,對(duì)于按音程調(diào)整量Ni升音的音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的具有第1位一致概率Pmax的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù),每次升音可能變?yōu)椴煌膯卧~。即有時(shí)前一次(i-1)具有第1位一致概率Pmax(i-1)的標(biāo)準(zhǔn)數(shù)據(jù)的單詞,而在這一次(i)具有例如第2位以下的一致概率P(i)。這樣,每次按規(guī)定音程調(diào)整量Ni升音,其音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc(Ni)的第1位一致概率Pmax在一致認(rèn)定基準(zhǔn)Pth以上時(shí),可以認(rèn)為語(yǔ)音識(shí)別以最高條件進(jìn)行了識(shí)別,因而將表示該第1位一致概率Pmax對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)的代碼Sr作為一致認(rèn)定代碼Srp輸出。
如上所述,在本發(fā)明中,是將最佳語(yǔ)音識(shí)別條件的對(duì)象僅作為第1位一致概率Pmax,通過(guò)這樣將全部標(biāo)準(zhǔn)化語(yǔ)音數(shù)據(jù)不管其一致概率P的值如何,在滿足該最佳語(yǔ)音識(shí)別條件前不從語(yǔ)音識(shí)別對(duì)象中去除,對(duì)音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc進(jìn)行音程調(diào)整。另外,在本實(shí)施形態(tài)中,將輸入的模擬語(yǔ)音信號(hào)Sva(數(shù)字語(yǔ)音信號(hào)Svd)的音程作為基準(zhǔn)(i=0),首先使其按規(guī)定音程調(diào)整量Ni進(jìn)行升音(S22、S24、S26)。然后,在沒(méi)有認(rèn)定為滿足最佳音程識(shí)別條件(S12、S14、#100)的期間(在S18為“否”),繼續(xù)向允許最高音程N(yùn)max升音(S22)。
然后,直到允許最高音程N(yùn)max,即使升音(S22)也沒(méi)有認(rèn)定為滿足最佳音程認(rèn)別條件時(shí)(在S18為“否”),則將最高音程標(biāo)志FNmax置1(S28),同時(shí)將音程調(diào)整指數(shù)i置0(S30),將音程切換至降音調(diào)整模式。
在降音調(diào)整模式中,由于最高音程標(biāo)志FNmax為1(S20),因此跳過(guò)上述升音調(diào)整模式中的升音過(guò)程(S22、S24)。在音程調(diào)整量Ni到達(dá)允許最低音程N(yùn)min之前(步驟S32中為“否”),將音程調(diào)整指數(shù)i減1(S34),生成音程調(diào)整信號(hào)Si(S34)。
結(jié)果將輸入的模擬語(yǔ)音信號(hào)Sva(數(shù)字語(yǔ)音信號(hào)Svd)的音程作為基準(zhǔn)(i=0),首先按規(guī)定音程調(diào)整量Ni進(jìn)行降音(S32、S34、S26、S12、S14、#100)。在沒(méi)有認(rèn)定為滿足最佳音程識(shí)別條件的期間(在S18為“否”),進(jìn)行降音直到允許最低音程N(yùn)min。然后,在升音模式或降音模式中,在沒(méi)有判斷為第1位一致概率Pmax在一致認(rèn)定基準(zhǔn)Pth以上時(shí)(在步驟18中為“是”)時(shí),經(jīng)過(guò)降音模式(在S32中為“是”)后結(jié)束處理。
另外,在本實(shí)施形態(tài)中,是使音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc從數(shù)字語(yǔ)音信號(hào)Svd的音程升音至允許最高音程N(yùn)max后,返回到數(shù)字語(yǔ)音信號(hào)Svd的音程,再使其降音直到允許最低音程N(yùn)min。但是,若構(gòu)成的實(shí)施形態(tài)是使音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc從數(shù)字語(yǔ)音信號(hào)Svd的音程降音至允許最低音程N(yùn)min后,返回到數(shù)字語(yǔ)音信號(hào)Svd的音程,再使其升音直到允許最高音程N(yùn)max,根據(jù)上述說(shuō)明也是很容易實(shí)現(xiàn)的。
再有,若構(gòu)成的實(shí)施形態(tài)是使音程標(biāo)準(zhǔn)化數(shù)字語(yǔ)音信號(hào)Svc一下子升音到允許最高音程N(yùn)max,然后再依次降音至允許最低音程N(yùn)min,根據(jù)上述說(shuō)明也是很容易實(shí)現(xiàn)的。
另外,若構(gòu)成的實(shí)施形態(tài)是在從數(shù)字語(yǔ)音信號(hào)Svd至允許最低音程N(yùn)min或從數(shù)字語(yǔ)音信號(hào)Svd至允許最高音程N(yùn)max的范圍內(nèi)進(jìn)行音程調(diào)整,來(lái)代替從允許最低音程N(yùn)min至允許最高音程N(yùn)max的范圍內(nèi)進(jìn)行音程調(diào)整,根據(jù)上述說(shuō)明也是很容易實(shí)現(xiàn)的。
如上所述,在本發(fā)明中,是將第1位一致概率Pmax滿足一致認(rèn)定基準(zhǔn)Pth作為條件反復(fù)進(jìn)行音程調(diào)整,使音程標(biāo)準(zhǔn)化,由此,將語(yǔ)音標(biāo)準(zhǔn)數(shù)據(jù)包含的全部單詞保持作為識(shí)別對(duì)象直至最后,正確識(shí)別的單詞認(rèn)定不是根據(jù)全部單詞而僅僅根據(jù)第1位一致概率Pmax,通過(guò)這樣大幅度減少數(shù)據(jù)處理的工作量,能實(shí)現(xiàn)高速且正確的語(yǔ)音識(shí)別。
以上詳細(xì)說(shuō)明了本發(fā)明,但前述說(shuō)明的所有內(nèi)容不過(guò)是本發(fā)明的舉例說(shuō)明,并不是想限定它的范圍。當(dāng)然可以不超出本發(fā)明范圍而進(jìn)行各種改進(jìn)及變形。
權(quán)利要求
1.一種輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,是用于根據(jù)多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù),對(duì)不特定說(shuō)話者發(fā)出的輸入語(yǔ)音進(jìn)行識(shí)別的語(yǔ)音識(shí)別裝置,將該輸入語(yǔ)音標(biāo)準(zhǔn)化為語(yǔ)音識(shí)別最佳音程,其特征在于,所述輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置具有按規(guī)定音程單位使所述輸入語(yǔ)音變化而生成識(shí)別對(duì)象語(yǔ)音信號(hào)的識(shí)別對(duì)象語(yǔ)音生成手段、計(jì)算所述識(shí)別對(duì)象語(yǔ)音信號(hào)與所述語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)多個(gè)單詞相互之間的一致概率的一致概率計(jì)算手段,還具有在所述一致概率最大值達(dá)到規(guī)定概率以前反復(fù)使所述識(shí)別對(duì)象語(yǔ)音信號(hào)的音程進(jìn)行變化的音程變換手段。
2.如權(quán)利要求1所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,其特征在于,所述音程變換手段具有調(diào)音手段,它在所述一致概率最大值小于所述規(guī)定概率時(shí),按規(guī)定音程單位使所述識(shí)別對(duì)象語(yǔ)音向升音或降音的某一方向變化。
3.如權(quán)利要求2所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,其特征在于,還具有暫存所述輸入語(yǔ)音的存儲(chǔ)手段、從所述存儲(chǔ)手段讀出所述輸入語(yǔ)音序列后生成識(shí)別對(duì)象語(yǔ)音信號(hào)的讀出控制手段、讀出時(shí)鐘控制手段,它決定所述存儲(chǔ)手段讀出定時(shí)時(shí)鐘頻率,然后生成讀出時(shí)鐘信號(hào),以便按所述規(guī)定音程單位使所述識(shí)別對(duì)象語(yǔ)音信號(hào)的頻率進(jìn)行變換。
4.如權(quán)利要求2所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,其特征在于,所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行升音。
5.如權(quán)利要求4所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,其特征在于,將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程限定為第1規(guī)定音程,同時(shí)在到達(dá)該最高音程之前,在所述一致概率的所述最大值未到達(dá)所述規(guī)定概率以上時(shí),所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行降音。
6.如權(quán)利要求5所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,其特征在于,將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程限定為第2規(guī)定音程,同時(shí)在到達(dá)該最低音程之前,在所述一致概率最大值未到達(dá)所述規(guī)定概率以上時(shí),結(jié)束所述標(biāo)準(zhǔn)化處理。
7.如權(quán)利要求2所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,其特征在于,所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行降音。
8.如權(quán)利要求7所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,其特征在于,將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程限定為第3規(guī)定音程,同時(shí)在到達(dá)該最低音程之前,在所述一致概率的所述最大值未到達(dá)所述規(guī)定概率以上時(shí),該識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行升音。
9.如權(quán)利要求8所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置,其特征在于,將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程限定為第4規(guī)定音程,同時(shí)在到達(dá)該最高音程之前,在所述一致概率的所述最大值未達(dá)到所述規(guī)定概率以上時(shí),結(jié)束所述標(biāo)準(zhǔn)化處理。
10.一種語(yǔ)音識(shí)別裝置,是根據(jù)多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù),將不特定說(shuō)話者發(fā)出的輸入語(yǔ)音標(biāo)準(zhǔn)化為語(yǔ)音識(shí)別最佳音程,在這樣的狀態(tài)下進(jìn)行識(shí)別,其特征在于,所述語(yǔ)音識(shí)別裝置具有按規(guī)定音程單位使所述輸入語(yǔ)音變化而生成識(shí)別對(duì)象語(yǔ)音信號(hào)的識(shí)別對(duì)象語(yǔ)音生成手段、計(jì)算所述識(shí)別對(duì)象語(yǔ)音信號(hào)與所述語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)多個(gè)單詞相互之間的一致概率的一致概率計(jì)算手段、以及在所述一致概率最大值達(dá)到規(guī)定概率以前反復(fù)使所述識(shí)別對(duì)象語(yǔ)音信號(hào)的音程進(jìn)行變化的音程變換手段。
11.如權(quán)利要求10所述的語(yǔ)音識(shí)別裝置,其特征在于,所述識(shí)別對(duì)象語(yǔ)音生成手段具有調(diào)音手段,它在所述一致概率最大值小于所述規(guī)定概率時(shí),按規(guī)定音程單位使所述識(shí)別對(duì)象語(yǔ)音向升音或降音的某一方向變化。
12.如權(quán)利要求11所述語(yǔ)音識(shí)別裝置,其特征在于,還具有暫存所述輸入語(yǔ)音的存儲(chǔ)手段、從所述存儲(chǔ)手段讀出所述輸入語(yǔ)音序列后生成識(shí)別對(duì)象語(yǔ)音信號(hào)的讀出控制手段、讀出時(shí)鐘控制手段,它決定所述存儲(chǔ)手段讀出定時(shí)時(shí)鐘頻率,然后生成讀出時(shí)鐘信號(hào),以便按所述規(guī)定音程單位使所述識(shí)別對(duì)象語(yǔ)音信號(hào)的頻率進(jìn)行變換。
13.如權(quán)利要求11所述的語(yǔ)音識(shí)別裝置,其特征在于,所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行升音。
14.如權(quán)利要求13所述的語(yǔ)音識(shí)別裝置,其特征在于,將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程限定為第1規(guī)定音程,同時(shí)在到達(dá)該最高音程之前,在所述一致概率的所述最大值未到達(dá)所述規(guī)定概率以上時(shí),所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行降音。
15.如權(quán)利要求14所述的語(yǔ)音識(shí)別裝置,其特征在于,將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程限定為第2規(guī)定音程,同時(shí)在到達(dá)該最低音程之前,在所述一致概率最大值未到達(dá)所述規(guī)定概率以上時(shí),結(jié)束所述標(biāo)準(zhǔn)化處理。
16.如權(quán)利要求11所述的語(yǔ)音識(shí)別裝置,其特征在于,所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行降音。
17.如權(quán)利要求16所述的語(yǔ)音識(shí)別裝置,其特征在于,將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程限定為第3規(guī)定音程,同時(shí)在到達(dá)該最低音程之前,在所述一致概率最大值未到達(dá)所述規(guī)定概率以上時(shí),該識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行升音。
18.如權(quán)利要求17所述的語(yǔ)音識(shí)別裝置,其特征在于,將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程限定為第4規(guī)定音程,同時(shí)在到達(dá)該最高音程之前,在所述一致概率的所述最大值未到達(dá)所述規(guī)定概率以上時(shí),結(jié)束所述標(biāo)準(zhǔn)化處理。
19.一種輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,是用于根據(jù)多個(gè)單詞的語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù),對(duì)不特定說(shuō)話者發(fā)出的輸入語(yǔ)音進(jìn)行識(shí)別的語(yǔ)音識(shí)別裝置,將該輸入語(yǔ)音標(biāo)準(zhǔn)化為語(yǔ)音識(shí)別最佳音程,所述輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法具有下述步驟按規(guī)定音程單位使所述輸入語(yǔ)音變化而生成識(shí)別對(duì)象語(yǔ)音信號(hào)的步驟、計(jì)算所述識(shí)別對(duì)象語(yǔ)音信號(hào)與所述語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)多個(gè)單詞相互之間的一致概率的步驟、以及在所述一致概率最大值達(dá)到規(guī)定概率以前反復(fù)使所述識(shí)別對(duì)象語(yǔ)音信號(hào)的音程進(jìn)行變化的步驟。
20.如權(quán)利要求19所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,還具有在所述一致概率最大值小于所述規(guī)定概率時(shí)按規(guī)定音程單位使所述識(shí)別對(duì)象語(yǔ)音向升音或降音的某一方向變化的部驟。
21.如權(quán)利要求20所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,還具有下述步驟暫存所述輸入語(yǔ)音的步驟、根據(jù)所述暫存的輸入語(yǔ)音序列生成識(shí)別對(duì)象語(yǔ)音信號(hào)的步驟、以及為了按所述規(guī)定音程單位使所述識(shí)別對(duì)象語(yǔ)音信號(hào)的頻率進(jìn)行變換而決定所述存儲(chǔ)器讀出定時(shí)時(shí)鐘頻率的步驟。
22.如權(quán)利要求20所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,還具有使所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行升音的步驟。
23.如權(quán)利要求22所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,還具有下述步驟,即將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程限定為第1規(guī)定音程,同時(shí)在到達(dá)該最高音程之前,在所述一致概率的所述最大值未到達(dá)所述規(guī)定概率以上時(shí),所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行降音。
24.如權(quán)利要求23所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,還具有下述步驟,即將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程限定為第2規(guī)定音程,同時(shí)在到達(dá)該最低音程之前,在所述一致概率的所述最大值未到達(dá)規(guī)定概率以上時(shí),結(jié)束所述標(biāo)準(zhǔn)化處理。
25.如權(quán)利要求20所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,還具有使所述識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行降音的步驟。
26.如權(quán)利要求25所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,還具有下述步驟,即將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最低音程限定為第3規(guī)定音程,同時(shí)在到達(dá)該最低音程之前,在所述一致概率的所述最大值未到達(dá)所述規(guī)定概率以上時(shí),該識(shí)別對(duì)象語(yǔ)音信號(hào)從與所述輸入語(yǔ)音相同音程起按所述規(guī)定音程單位進(jìn)行升音。
27.如權(quán)利要求26所述的輸入語(yǔ)音音程標(biāo)準(zhǔn)化方法,其特征在于,還具有下述步驟,即將所述識(shí)別對(duì)象語(yǔ)音信號(hào)的最高音程限定為第4規(guī)定音程,同時(shí)在到達(dá)該最高音程之前,在所述一致概率的所述最大值未到達(dá)所述規(guī)定概率以上時(shí),結(jié)束所述標(biāo)準(zhǔn)化處理。
全文摘要
本發(fā)明的輸入語(yǔ)音音程標(biāo)準(zhǔn)化裝置(Tr)用于對(duì)不特定說(shuō)話者發(fā)出的輸入語(yǔ)音(Sva)進(jìn)行識(shí)別的語(yǔ)音識(shí)別裝置(VRAp),將該輸入語(yǔ)音標(biāo)準(zhǔn)化為語(yǔ)音識(shí)別最佳音程,其中識(shí)別對(duì)象語(yǔ)音生成器(9、11、3、5)按規(guī)定音程(Ni)單位使輸入語(yǔ)音(Svd)變化,生成識(shí)別對(duì)象語(yǔ)音信號(hào)(Svc(Ni)),一致概率計(jì)算器(15)計(jì)算識(shí)別對(duì)象語(yǔ)音信號(hào)與語(yǔ)音識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)(Psf)多個(gè)單詞(Sr(m))之間的一致概率(P),音程變換器(9、11、3、5)在第1位一致概率(Pmax)達(dá)到規(guī)定概率以上前,反復(fù)使識(shí)別對(duì)象語(yǔ)音信號(hào)的音程變化。
文檔編號(hào)G10L21/003GK1294377SQ0013301
公開(kāi)日2001年5月9日 申請(qǐng)日期2000年10月27日 優(yōu)先權(quán)日1999年10月29日
發(fā)明者小田幹夫, 川根友惠 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社