專(zhuān)利名稱(chēng):語(yǔ)音識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別方法,并尤其涉及使用DTW(動(dòng)態(tài)時(shí)間卷繞(warping))提供實(shí)質(zhì)上獨(dú)立于說(shuō)話(huà)者的增強(qiáng)的話(huà)音識(shí)別方法。
背景技術(shù):
傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)可以是獨(dú)立設(shè)備或者是用于通用計(jì)算機(jī)的軟件應(yīng)用。傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)使用諸如動(dòng)態(tài)時(shí)間卷繞(DTW)或隱形馬爾可夫模型(HMM)。由于系統(tǒng)要求包括需要大數(shù)據(jù)庫(kù)的大量計(jì)算,因此HMM語(yǔ)音識(shí)別系統(tǒng)用途有限。DTW語(yǔ)音識(shí)別系統(tǒng)用于諸如小區(qū)電話(huà)的便攜式電子設(shè)備。
圖1是使用傳統(tǒng)DTW技術(shù)的語(yǔ)音識(shí)別過(guò)程的流程圖。DTW識(shí)別系統(tǒng)接收語(yǔ)音信號(hào)(S10)、對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè)、找到具有語(yǔ)音分量的語(yǔ)音信號(hào)部分(S20),并且根據(jù)語(yǔ)音信號(hào)幀提取矢量(S30)。
耦合矢量序列以形成測(cè)試話(huà)音模型。將該測(cè)試話(huà)音模型與存儲(chǔ)在數(shù)據(jù)庫(kù)中的參考話(huà)音模型作比較(S40)。將與測(cè)試話(huà)音模型具有最小全局距離的參考話(huà)音模型識(shí)別為語(yǔ)音信號(hào)的發(fā)音(S50)。傳統(tǒng)的DTW方法識(shí)別以類(lèi)似于參考話(huà)音模型說(shuō)話(huà)的說(shuō)話(huà)者。然而,傳統(tǒng)DTW方法對(duì)于不具有類(lèi)似說(shuō)話(huà)模型的說(shuō)話(huà)者的識(shí)別性能造成退化。包括用于識(shí)別說(shuō)話(huà)者的多個(gè)語(yǔ)音模板的傳統(tǒng)DTW方法展示了對(duì)于使用一個(gè)語(yǔ)音模板的傳統(tǒng)DTW方法的較小改進(jìn)。傳統(tǒng)的DTW方法對(duì)與較長(zhǎng)的參考語(yǔ)音模型則顯露了語(yǔ)音識(shí)別的問(wèn)題。
圖2是示出通過(guò)將測(cè)試話(huà)音模型和參考話(huà)音模型分為幀而獲得的傳統(tǒng)網(wǎng)格模型的圖。如圖2所示,測(cè)試話(huà)音模型和參考話(huà)音模型形成具有規(guī)則間隔的網(wǎng)格。通過(guò)使用一般的DTW方法從該網(wǎng)格獲得全局距離。
因此,需要一種方法解決以上問(wèn)題并提供超過(guò)其他語(yǔ)音識(shí)別過(guò)程的優(yōu)點(diǎn)。
發(fā)明內(nèi)容
在以下描述中提出本發(fā)明的特點(diǎn)和優(yōu)點(diǎn),其中部分從該描述就能獲得,或者通過(guò)本發(fā)明的實(shí)踐獲得。通過(guò)所描述的說(shuō)明書(shū)和權(quán)利要求書(shū)以及附圖中特別指出的結(jié)構(gòu)實(shí)現(xiàn)和達(dá)到的本發(fā)明的目的和優(yōu)點(diǎn)。
在一實(shí)施例中,一種方法包括檢測(cè)語(yǔ)音信號(hào)的端點(diǎn)、提取語(yǔ)音信號(hào)的過(guò)渡點(diǎn)、使用DTW算法確定與過(guò)渡點(diǎn)相關(guān)聯(lián)的網(wǎng)格間的距離,以及使用與網(wǎng)格間所獲取距離相關(guān)聯(lián)的動(dòng)態(tài)規(guī)劃獲得總?cè)志嚯x。過(guò)渡點(diǎn)可在語(yǔ)音信號(hào)的語(yǔ)音包含部分和無(wú)語(yǔ)音包含部分之間提取。過(guò)渡點(diǎn)可以在語(yǔ)音信號(hào)的靜默部分和話(huà)音部分之間提取??梢允褂昧隳芰拷徊娣椒ㄌ崛∵^(guò)渡點(diǎn)。通過(guò)將參考話(huà)音模型和從語(yǔ)音信號(hào)中提取的測(cè)試話(huà)音模型分為幀來(lái)獲得與過(guò)渡點(diǎn)相關(guān)聯(lián)的網(wǎng)格。在一個(gè)例子中,全局距離可以是在單元內(nèi)獲取的。該單元包括關(guān)于至少一個(gè)過(guò)渡點(diǎn)的信息。
在另一實(shí)施例中,一種方法包括接收語(yǔ)音信號(hào)和檢測(cè)語(yǔ)音信號(hào)的端點(diǎn)、提取語(yǔ)音信號(hào)的過(guò)渡點(diǎn)以及通過(guò)在參考話(huà)音模型和測(cè)試話(huà)音模式的一部分過(guò)渡區(qū)域的每一單元內(nèi)的動(dòng)態(tài)規(guī)劃來(lái)獲得語(yǔ)音信號(hào)每一單元中各點(diǎn)之間的全局距離。該方法還包括使用動(dòng)態(tài)規(guī)劃獲得整個(gè)單元的總?cè)志嚯x,該動(dòng)態(tài)規(guī)劃使用每一單元的全局距離以及識(shí)別對(duì)應(yīng)于顯示最小全局距離的參考話(huà)音模型的語(yǔ)音信號(hào)。
在以下描述中提出本發(fā)明的附加特點(diǎn)和優(yōu)點(diǎn),其中部分從該描述就能獲得,或者通過(guò)本發(fā)明的實(shí)踐獲得??梢岳斫?,本發(fā)明以上的概述以及以下的詳述都是示例性和解釋性的,并旨在提供對(duì)所要求保護(hù)的發(fā)明的進(jìn)一步解釋。
對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),從以下實(shí)施例的詳細(xì)描述結(jié)合附圖,這些和其他實(shí)施例會(huì)是顯而易見(jiàn)的,本發(fā)明并不希望限制于所揭示的任何特定實(shí)施例。
包括在此以提供本發(fā)明的進(jìn)一步理解并結(jié)合成為本說(shuō)明書(shū)一部分的附圖示出了本發(fā)明的實(shí)施例,并與以下描述一起用于解釋本發(fā)明的原理。
根據(jù)本發(fā)明的一個(gè)或多個(gè)實(shí)施例,在不同附圖中由相同標(biāo)號(hào)所引用的本發(fā)明的特征、部件和方面表示相同、等同或類(lèi)似的特征、部件和方面。
以下參考附圖詳細(xì)描述本發(fā)明,其中相似的標(biāo)號(hào)指的是相似的部件,其中圖1是使用傳統(tǒng)DTW的語(yǔ)音識(shí)別過(guò)程的流程圖。
圖2是示出通過(guò)將測(cè)試話(huà)音模型和參考話(huà)音模型分為幀而獲得的傳統(tǒng)網(wǎng)格模型的圖。
圖3是根據(jù)本發(fā)明較佳實(shí)施例的DTW語(yǔ)音識(shí)別方法的流程圖。
圖4是根據(jù)本發(fā)明的較佳實(shí)施例示出通過(guò)將測(cè)試話(huà)音模型和參考話(huà)音模型分為幀而獲得的網(wǎng)格幀的圖。
具體實(shí)施例方式
本發(fā)明涉及提供實(shí)質(zhì)上獨(dú)立于說(shuō)話(huà)者的增強(qiáng)的話(huà)音識(shí)別方法。
雖然對(duì)于使用動(dòng)態(tài)時(shí)間卷繞(DTW)語(yǔ)音識(shí)別算法的移動(dòng)終端示出本發(fā)明,但是可以考慮將本發(fā)明用于識(shí)別接收語(yǔ)音信號(hào)所需的任何地方?,F(xiàn)在對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)描述,它們的例子在附圖中示出。現(xiàn)在參照附圖描述本發(fā)明的較佳實(shí)施例。
本發(fā)明在語(yǔ)音信號(hào)中設(shè)置一些點(diǎn)作為時(shí)間排列的約束以實(shí)現(xiàn)對(duì)較長(zhǎng)句子的較好語(yǔ)音識(shí)別性能。本發(fā)明監(jiān)視無(wú)語(yǔ)音聲、有語(yǔ)音聲、聲音傳輸現(xiàn)象或在語(yǔ)音信號(hào)中間部分中的非聲間隔的存在,該非聲間隔造成了使系統(tǒng)實(shí)質(zhì)獨(dú)立于說(shuō)話(huà)者。
圖3是根據(jù)本發(fā)明較佳實(shí)施例的動(dòng)態(tài)時(shí)間卷繞(DTW)語(yǔ)音識(shí)別方法的流程圖。在該方法中,輸入或接收語(yǔ)音信號(hào)(S100)。檢測(cè)語(yǔ)音信號(hào)的端點(diǎn)并用于搜索語(yǔ)音部分(S110)。提取語(yǔ)音的過(guò)渡點(diǎn)(S120)。較佳地,使用語(yǔ)音信號(hào)的語(yǔ)音包含部分和無(wú)語(yǔ)音包含部分之間的過(guò)渡提取過(guò)渡點(diǎn)。在另一例子中,可使用話(huà)音部分和靜默部分之間的過(guò)渡周期獲得過(guò)渡點(diǎn)??赏ㄟ^(guò)使用語(yǔ)音信號(hào)的零能量交叉點(diǎn)或使用提取過(guò)渡點(diǎn)的其他類(lèi)似方法獲得過(guò)渡點(diǎn)。
由在每一過(guò)渡點(diǎn)所獲得的信息形成的正方形稱(chēng)為單元。使用一般DTW方法確定單元內(nèi)各點(diǎn)間的全局距離(130)。通過(guò)用單元內(nèi)全局距離的動(dòng)態(tài)規(guī)劃方法獲得總?cè)志嚯x(S140)。將參考話(huà)音模型與語(yǔ)音信號(hào)作比較。識(shí)別所獲得的全局距離中具有最小全局距離的參考話(huà)音模型(S150)。使用動(dòng)態(tài)規(guī)劃方法獲得總?cè)志嚯x,該動(dòng)態(tài)規(guī)劃方法使用過(guò)渡點(diǎn)進(jìn)行參考話(huà)音模型和測(cè)試話(huà)音模型的時(shí)間對(duì)齊。將參照?qǐng)D4描述本發(fā)明的時(shí)間對(duì)齊特征。
圖4是根據(jù)本發(fā)明的較佳實(shí)施例示出通過(guò)將測(cè)試話(huà)音模型和參考話(huà)音模型分為幀而形成的網(wǎng)格幀的圖。橫軸表示測(cè)試話(huà)音模型的時(shí)間過(guò)程,而縱軸表示參考話(huà)音模型的時(shí)間過(guò)程。連接測(cè)試話(huà)音模型和參考話(huà)音模型的過(guò)渡點(diǎn)形成網(wǎng)格。過(guò)渡點(diǎn)之間的間隔較佳地是不規(guī)則間隔。
本發(fā)明使用過(guò)渡點(diǎn)作為動(dòng)態(tài)規(guī)劃期間的約束。該約束提供測(cè)試話(huà)音模型和參考話(huà)音模型的時(shí)間對(duì)齊,從而使得語(yǔ)音信號(hào)的語(yǔ)音識(shí)別實(shí)質(zhì)上更精確。長(zhǎng)句單詞可具有通過(guò)提供測(cè)試話(huà)音模型和參考話(huà)音模型的增強(qiáng)的時(shí)間對(duì)齊而分散的過(guò)渡點(diǎn)。
對(duì)于每一單元使用一般的DTW方法確定全局距離,如圖2在現(xiàn)有技術(shù)中所示。用于DTW的局部路徑約束也用于減少在網(wǎng)格間移動(dòng)而所需語(yǔ)音識(shí)別計(jì)算的量。當(dāng)確定了局部路徑約束,就產(chǎn)生并應(yīng)用全局路徑約束。類(lèi)似于一般的DTW算法,在幀單元中提供局部路徑約束和全局路徑約束。
當(dāng)DTW算法具有一般的幀單元時(shí),局部路徑約束不會(huì)對(duì)語(yǔ)音識(shí)別速度有太大影響。為了避免在用戶(hù)沒(méi)有清楚說(shuō)話(huà)時(shí)語(yǔ)音識(shí)別中的錯(cuò)誤,局部路徑約束相比于在幀單元中的動(dòng)態(tài)規(guī)劃方法使用了相對(duì)寬松的方法。本發(fā)明優(yōu)先獲取對(duì)應(yīng)于每一幀網(wǎng)格的點(diǎn)的頻譜失真。在單元中確定全局約束。如果在將下一點(diǎn)表示為過(guò)渡點(diǎn)的區(qū)域中滿(mǎn)足全局約束,則使用動(dòng)態(tài)規(guī)劃進(jìn)行下一步計(jì)算。
雖然在移動(dòng)終端的環(huán)境中描述了本發(fā)明,但本發(fā)明還可用于任何使用移動(dòng)設(shè)備的有線或無(wú)線通信系統(tǒng),如具有有線或無(wú)線性能的PDA和膝上型計(jì)算機(jī)。此外,使用特定術(shù)語(yǔ)描述本發(fā)明不應(yīng)將本發(fā)明的范圍限制在特定類(lèi)型的無(wú)線通信系統(tǒng),如UMIS。本發(fā)明還可應(yīng)用于其他使用不同空中接口和/或物理層的無(wú)線通信系統(tǒng),如TDMA、CDMA、FDMA、WCDMA等。
以上實(shí)施例和優(yōu)點(diǎn)僅僅示例性的,并不構(gòu)成對(duì)本發(fā)明的限制。本指導(dǎo)可簡(jiǎn)單地應(yīng)用于其他類(lèi)型的系統(tǒng)。本發(fā)明的描述旨在示例性的,并不限制權(quán)利要求書(shū)的范圍。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),許多替換、修改和變化將是顯而易見(jiàn)的。因此,本發(fā)明并不限制于以上詳細(xì)描述的實(shí)施例。
權(quán)利要求
1.一種對(duì)語(yǔ)音信號(hào)的語(yǔ)音識(shí)別方法,該方法包括檢測(cè)所述語(yǔ)音信號(hào)的端點(diǎn);提取所述語(yǔ)音信號(hào)的過(guò)渡點(diǎn);使用DTW算法確定與所述過(guò)渡點(diǎn)相關(guān)聯(lián)的網(wǎng)格間的距離;以及使用與網(wǎng)格間所獲取的距離相關(guān)聯(lián)的動(dòng)態(tài)規(guī)劃獲得總?cè)志嚯x。
2.如權(quán)利要求1所述的方法,其特征在于在所述語(yǔ)音信號(hào)的語(yǔ)音包含部分和無(wú)語(yǔ)音包含部分之間提取所述過(guò)渡點(diǎn)。
3.如權(quán)利要求1所述的方法,其特征在于在所述語(yǔ)音信號(hào)的靜默部分和話(huà)音部分之間提取所述過(guò)渡點(diǎn)。
4.如權(quán)利要求2所述的方法,其特征在于使用零能量交叉方法提取所述過(guò)渡點(diǎn)。
5.如權(quán)利要求3所述的方法,其特征在于使用零能量交叉方法提取所述過(guò)渡點(diǎn)。
6.如權(quán)利要求1所述的方法,其特征在于通過(guò)將參考話(huà)音模型和從所述語(yǔ)音信號(hào)中提取的測(cè)試話(huà)音模型分為幀來(lái)獲得與所述過(guò)渡點(diǎn)相關(guān)聯(lián)的網(wǎng)格。
7.如權(quán)利要求1所述的方法,其特征在于在一單元內(nèi)獲取所述全局距離。
8.如權(quán)利要求7所述的方法,其特征在于所述單元包括關(guān)于至少一個(gè)過(guò)渡點(diǎn)的信息。
9.如權(quán)利要求1所述的方法,其特征在于使用局部路徑約束從所述網(wǎng)格獲取全局距離。
10.如權(quán)利要求1所述的方法,其特征在于所述動(dòng)態(tài)規(guī)劃對(duì)齊參考話(huà)音模型和從所述語(yǔ)音信號(hào)獲取的測(cè)試話(huà)音模型的時(shí)間周期。
11.如權(quán)利要求1所述的方法,其特征在于該方法還包括識(shí)別在多個(gè)過(guò)渡點(diǎn)間具有最小全局距離的參考話(huà)音模型所對(duì)應(yīng)的語(yǔ)音信號(hào)。
12.如權(quán)利要求1所述的方法,其特征在于該方法還包括確定對(duì)應(yīng)于所述語(yǔ)音信號(hào)每一幀網(wǎng)格的各個(gè)點(diǎn)的頻譜失真。
13.一種對(duì)語(yǔ)音信號(hào)的語(yǔ)音識(shí)別方法,該方法包括接收所述語(yǔ)音信號(hào)并檢測(cè)所述語(yǔ)音信號(hào)的端點(diǎn);提取所述語(yǔ)音信號(hào)的過(guò)渡點(diǎn);通過(guò)在參考話(huà)音模型和測(cè)試話(huà)音模式的一部分過(guò)渡區(qū)域的每一單元內(nèi)的動(dòng)態(tài)規(guī)劃來(lái)獲得所述語(yǔ)音信號(hào)每一單元中各點(diǎn)間的全局距離;使用動(dòng)態(tài)規(guī)劃獲得整個(gè)單元的總?cè)志嚯x,該動(dòng)態(tài)規(guī)劃使用每一單元的所述全局距離;以及識(shí)別顯示最小全局距離的參考話(huà)音模型所對(duì)應(yīng)的語(yǔ)音信號(hào)。
14.如權(quán)利要求13所述的方法,其特征在于在所述語(yǔ)音信號(hào)的語(yǔ)音包含部分和無(wú)語(yǔ)音包含部分之間提取所述過(guò)渡點(diǎn)。
15.如權(quán)利要求13所述的方法,其特征在于在所述語(yǔ)音信號(hào)的靜默部分和話(huà)音部分之間提取所述過(guò)渡點(diǎn)。
16.如權(quán)利要求13所述的方法,其特征在于所述單元是一包括了關(guān)于包含在該單元內(nèi)的至少一個(gè)過(guò)渡點(diǎn)信息的正方形。
17.如權(quán)利要求13所述的方法,其特征在于使用局部路徑約束確定所述全局距離。
18.如權(quán)利要求13所述的方法,其特征在于所述動(dòng)態(tài)規(guī)劃產(chǎn)生所述測(cè)試話(huà)音模型和所述參考話(huà)音模型的時(shí)間對(duì)齊。
19.如權(quán)利要求13所述的方法,其特征在于該方法還包括獲取對(duì)應(yīng)于所述語(yǔ)音信號(hào)幀網(wǎng)格的各個(gè)點(diǎn)的頻譜失真。
全文摘要
一種語(yǔ)音信號(hào)的識(shí)別方法,該方法包括檢測(cè)語(yǔ)音信號(hào)的端點(diǎn)、提取語(yǔ)音信號(hào)的過(guò)渡點(diǎn)、使用DTW算法確定與過(guò)渡點(diǎn)相關(guān)聯(lián)的網(wǎng)格間的距離,以及使用與網(wǎng)格間所獲取距離相關(guān)聯(lián)的動(dòng)態(tài)規(guī)劃獲得總?cè)志嚯x。
文檔編號(hào)H04M1/00GK1629935SQ20041010228
公開(kāi)日2005年6月22日 申請(qǐng)日期2004年12月15日 優(yōu)先權(quán)日2003年12月15日
發(fā)明者金燦佑 申請(qǐng)人:Lg電子株式會(huì)社