專利名稱:自動語音識別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自動語音識別,特別地它涉及使用上下文相關(guān)元素,如三音節(jié)的自動語音識別。
自動語音識別具有許多潛在的應(yīng)用,如聽寫系統(tǒng),和多種機(jī)制的語音控制,如視頻記錄器。自動語音識別也可用于家用設(shè)備的遙控,如通過電話。有許多可通過自動語音識別及合成語音實(shí)現(xiàn)的電話業(yè)務(wù),如大量使用自動化索引的業(yè)務(wù)。在許多應(yīng)用中,識別語音的失敗被認(rèn)為是可接受的結(jié)果。例如,揚(yáng)聲器可能產(chǎn)生錯誤,且如果有錯誤的話,它不一定是自動系統(tǒng)產(chǎn)生的。一個系統(tǒng)經(jīng)常被設(shè)計(jì)成不識別錯誤或不正確的發(fā)音,如,系統(tǒng)可能要求重復(fù)一遍。
語音識別一般是通過將參數(shù)化語音信號抽樣值與確定多個路徑的網(wǎng)絡(luò)相匹配而進(jìn)行的,其中網(wǎng)絡(luò)的每一個路徑代表一個可能的發(fā)音。在語音識別領(lǐng)域參數(shù)化語音很好理解,且熟知該領(lǐng)域的人知道許多參數(shù)化技術(shù)。路徑被構(gòu)成為一系列的模型語音元素,如模型化音素。術(shù)語“模型”代表元素被表示成適合直接與參數(shù)化抽樣值相比較的形式。每個比較產(chǎn)生表明模型元素和參數(shù)化抽樣值之間的一個或多個度量?;径攘吭诼窂胶途植柯窂缴侠鄯e,這樣確定哪些路徑和局部路徑最接近接收到的信號。開始時,具有許多潛在路徑因此識別過程相應(yīng)于選擇哪一個可選路徑構(gòu)成對接收信號最好的匹配。
自動語音識別的復(fù)雜或精巧的實(shí)現(xiàn)需要對匹配過程提供大量可選對象,即,它們必須使用許多路徑。一個路徑可被看成是一系列局部路徑。因?yàn)樵S多發(fā)音開始相同,且然后分成許多開始具有相同局部路徑的路徑,然后它們不斷地分下去,使得一個局部路徑可以被許多完整路徑共有。所以這就便于將路徑存儲成網(wǎng)絡(luò),該網(wǎng)絡(luò)確定了包括在其中的所有路徑和局部路徑。識別過程等效于找出網(wǎng)絡(luò)中最佳路徑。
本發(fā)明使用了動態(tài)網(wǎng)絡(luò)。這就意味著當(dāng)識別開始時,只有一個初始網(wǎng)絡(luò)被確定,而局部路徑不時地被加入到該網(wǎng)絡(luò)中,如在不同的局部路徑的末端,且每個擴(kuò)展部分通常采用完整單元的形式,如一個完整的詞或一個音節(jié)。這些單元采用符號元素的形式,如(音素),它并不適合與參數(shù)化抽樣值進(jìn)行匹配。在符號元素可以被用于識別之前,它們必須被轉(zhuǎn)換成模型元素,即轉(zhuǎn)換成可與參數(shù)化抽樣值相匹配的形式。
在簡單自動語音識別中,符號元素和模型元素之間存在一一對應(yīng)。這使得轉(zhuǎn)換更為容易,但它趨向于降低匹配,因?yàn)閷?shí)際上,一個如音素的元素,它的發(fā)音依賴于上下文。使用代表在它相鄰符號音素上下文中的符號音素的模型元素,在識別準(zhǔn)確性上產(chǎn)生了顯著的改善。換句話說,一個符號元素(音素)具有許多不同的發(fā)音,且需要大量不同的模型元素去表示這一變化,即對每個發(fā)音需要一個模型元素。本發(fā)明使用了上下文相關(guān)模型元素,且更特殊地是,模型元素依賴于后續(xù)的符號元素。在優(yōu)選實(shí)施例中,本發(fā)明使用三音節(jié),這就是說每個模型音素相關(guān)于唯一一個符號音素,但也考慮到前面和后面的符號音素。
下面將通過實(shí)例及其相關(guān)參考附圖對本發(fā)明予以描述,其中
圖1表示使用三音節(jié)時用于將符號音素轉(zhuǎn)換成模型音素的存儲;圖2表示局部路徑的末端;圖3表示在符號音素中,用于網(wǎng)絡(luò)增加的樹形結(jié)構(gòu);圖4a表示圖3中的樹轉(zhuǎn)換成模型音素;
圖4b表示圖4a的另一個可選方案,其中位置標(biāo)記從樹結(jié)構(gòu)中被移去;圖5表示執(zhí)行該方法的設(shè)備;圖6是該方法的流圖;及圖7表示在通信系統(tǒng)的上下文中的本發(fā)明。
圖1表示三音節(jié)存儲的內(nèi)容,它也出現(xiàn)為圖5中的部件56。實(shí)際上,它包括了更多的項(xiàng)目,但是只有少數(shù)可被表示出。特別地,表示非語音特征的項(xiàng)目,如“呼吸音”和“線路噪音”,通常也被包括在內(nèi)。圖1中顯示的項(xiàng)目都是三音節(jié),即每個項(xiàng)目由音素本身及其左相鄰音素(前方音素)和右相鄰音素(后續(xù)音素)組成。
圖1有一個標(biāo)題為“中心”的列,它確定了將被轉(zhuǎn)換的符號音素。標(biāo)題為“左”和“右”的列確定了前方音素和后續(xù)音素。用括號中小寫字母表明“模型”,這是因?yàn)橐@示出確定模型所需的大量數(shù)據(jù)是不實(shí)際的(任何情況下,在本領(lǐng)域,模型都是通用和為人熟知的)。模型被編號,這就強(qiáng)調(diào)了對每個符號音素都具有大量的模型音素。三音節(jié)的使用需要有標(biāo)題“中心”列中確定的符號音素和如其標(biāo)題列名稱同樣確定的該音素的左和右音素。這樣就確定了合適的三音節(jié)以在其上下文中轉(zhuǎn)換中心元素。
考慮詞“LEAPT”和“MET”的轉(zhuǎn)換。盡管傳統(tǒng)拼寫法認(rèn)為在其他情況下“LEAPT”中的“EA”不僅是一個單音節(jié),而且它和“met”中“E”是同樣的音節(jié)。但是上下文是不同的,且圖1的地址113和114使得基于三音節(jié)進(jìn)行必要的轉(zhuǎn)換是很清楚的。沒有一個詞中符號音素“T”可被轉(zhuǎn)換,這是因?yàn)闆]有右音素去確定合適的三音節(jié)。本發(fā)明使用動態(tài)網(wǎng)絡(luò),并且網(wǎng)絡(luò)的每個局部路徑一次被一個單元(如一個字)擴(kuò)展。該單元采用符號音素形式,且在可能與抽樣值比較之前必須轉(zhuǎn)換成模型音素。當(dāng)進(jìn)行轉(zhuǎn)換后,每個局部路徑,(且有許多)有一個最后符號音素,它不是(還不是)部分三音節(jié)。因?yàn)樽詈笠羲氐纳舷挛奈幢淮_定,所以它們不能被轉(zhuǎn)換。對于在動態(tài)網(wǎng)絡(luò)中使用上下文相關(guān)元素,這是一個主要問題。當(dāng)上下文是一個三音節(jié)時,術(shù)語“縱橫字三音節(jié)”經(jīng)常被使用,這是因?yàn)槿艄?jié)的左和右元素位于不同的詞中。這個問題就被稱為“縱橫字三音節(jié)問題”。
根據(jù)本發(fā)明,使用“位置標(biāo)記”以克服這個問題,它在權(quán)利要求書中被更詳細(xì)地確定。位置標(biāo)記與模型音素相類似之處在于它可放置在路徑中,但它不包含任何比較過程所需的信息。所以它可被認(rèn)為是一個虛模型元素。更重要的是,位置標(biāo)記確定了一個符號音素,如被放置在網(wǎng)絡(luò)中而未被轉(zhuǎn)換的音素(未轉(zhuǎn)換的原因是在插入的時刻上下文未能被充分判定。)位置標(biāo)記確定了將來路徑擴(kuò)展的位置,且它也可被用于確定局部路徑的末端。
因?yàn)橛梦恢脴?biāo)記確定的符號元素不適合與參數(shù)化抽樣值進(jìn)行比較,所以位置標(biāo)記在它被合并于路徑中后將需要被更新,且這一更新過程將在路徑的一個或多個后續(xù)擴(kuò)展中發(fā)生(且由此網(wǎng)絡(luò)的路徑是部分的)。幾乎總是發(fā)生在擴(kuò)展時路徑時從位置標(biāo)記處開始分叉的情況。這意味著從位置標(biāo)記處通常有多個擴(kuò)展分支??梢灶A(yù)料到,多個擴(kuò)展分支將會構(gòu)成相對于位置標(biāo)記的多個不同的上下文,所以,將需要多個不同的模型元素,這是因?yàn)槟P驮厥巧舷挛南嚓P(guān)的。下面將描述更新的兩個方法,即替代法和延續(xù)法。
替代法在替代法中,位置標(biāo)記被從它的路徑中取出,并被由一個位置標(biāo)記確定為符號元素的上下文相關(guān)模型元素所替代。如上所述,這一替代需要大量不同的模型元素,從而處理多個不同的上下文。只要位置標(biāo)記被移去,它的位置就失去了,且沒有任何進(jìn)一步的擴(kuò)展可以從那個位置發(fā)生。所以,在相同的時刻進(jìn)行所有不同的擴(kuò)展是適當(dāng)?shù)摹?br>
延續(xù)法在延續(xù)法中,位置標(biāo)記在網(wǎng)絡(luò)中保存時間和其路徑保存時間一樣長。相對于與參數(shù)化抽樣值進(jìn)行比較所需的信息來說,位置標(biāo)記是“空”的,所以位置標(biāo)記在比較中不起任何作用,并且它不影響路徑的選擇。更新的擴(kuò)展從位置標(biāo)記處不斷延續(xù),如必須的那樣,幾個不同的擴(kuò)展可以從同一個位置標(biāo)記處延續(xù)。每個擴(kuò)展通常在位置標(biāo)記中確定的元素處開始,且由于這個元素的上下文現(xiàn)在被完全地指明了,所以該元素可被轉(zhuǎn)換成合適的上下文相關(guān)模型形式。明顯地,在路徑擴(kuò)展完成之后,位置標(biāo)記將不在路徑末端。盡管如此,但位置標(biāo)記還保存在路徑中,它還可被定位且用于將來創(chuàng)建額外分支時的擴(kuò)展。
如果需要,位置標(biāo)記也可包含額外信息,如被位置標(biāo)記終止的字或單元的標(biāo)志。(當(dāng)使用該擴(kuò)展方法時,位置標(biāo)記保存在路徑中,且任何包含在其中的額外信息也將保存在路徑中。所以,如果需要的話,這一信息也可被訪問。)本發(fā)明包括下列方法(a)使用位置標(biāo)記來擴(kuò)展路徑和網(wǎng)絡(luò),(b)使用包括位置標(biāo)記的動態(tài)網(wǎng)絡(luò)的語音識別,(c)利用由(b)識別的語音的設(shè)備的控制,(d)包括通信的應(yīng)用方法(a)到(c)。
本發(fā)明也包括實(shí)現(xiàn)上述方法(a)到(d)的設(shè)備。
根據(jù)本發(fā)明的位置標(biāo)記的使用將參考圖1到5予以說明。
圖2涉及網(wǎng)絡(luò)局部路徑的擴(kuò)展,(為了便于說明),將假定局部路徑以詞“cat”結(jié)束。最終,所有的路徑將被擴(kuò)展,且這一過程是反復(fù)進(jìn)行的,這是因?yàn)槊總€擴(kuò)展按基本同樣的方式被執(zhí)行著。由于所有的迭代都是基本一樣的,所以只需描述一個,即擴(kuò)展這一局部路徑的那個。
通過增加大量詞到圖2所示的局部路徑末端,以獲得考慮中的擴(kuò)展,且“C”(10)表示網(wǎng)絡(luò)的剩余部分。因?yàn)樵谇按蔚小癈”被轉(zhuǎn)換,所以它在本次(或任何將來的)迭代中不起任何作用?!癱at”中的“A”(圖2中的11)也被轉(zhuǎn)換,且它被表示為模型音素(a1),圖1中地址111。盡管如此,需要它去幫助確定后面的三音節(jié)。
“cat”中的“T”(圖2的12)沒有(還沒有)一個后續(xù)元素,所以它不能被轉(zhuǎn)換成基于三音節(jié)的模型。但是,在前次迭代中把“T”放置到網(wǎng)絡(luò)中是必須的,并且由此使用位置標(biāo)記。位置標(biāo)記12也標(biāo)識了局部路徑的末端,且它不能與參數(shù)化抽樣值進(jìn)行匹配。
該設(shè)備(它被圖5所示,且在下面被詳細(xì)地描述)包括擴(kuò)展器50,它包括一個詞典57和那個在圖1中詳細(xì)描述的三音節(jié)存儲器56。(詞典57和三音節(jié)存儲器56都是為了代表不同項(xiàng)目的信號的存儲區(qū)域。這些信號采用適合于自動處理的形式)。詞典57包含所有被設(shè)備所確認(rèn)的詞;它也可能包含其他單元,如音節(jié)或任何對特定應(yīng)用具有重要意義的項(xiàng)目。擴(kuò)展器50可以通過輸出單元,如要擴(kuò)展的詞,來擴(kuò)展包含在網(wǎng)絡(luò)中的任何局部路徑。
為了說明當(dāng)前迭代,假定擴(kuò)展器輸出下列四個詞。
SAT
SL(EE)PSSLEPTL(EA)PT四個詞足以用于說明,但“實(shí)際”列可能會更長。在詞“sleeps”和“l(fā)eapt”中,括號表示“ee”和“ea”是單個符號音素,盡管它們有兩個字母。
為了準(zhǔn)備轉(zhuǎn)換成隨后增加到網(wǎng)絡(luò)上的模型音素,這些詞被采用樹型放置。該樹將被增加到圖2的位置標(biāo)記12的位置,于是位置標(biāo)記12中包含的符號音素轉(zhuǎn)換成模型音素的時刻來到了。所以位置標(biāo)記12和它前面音素11被混合放入樹中。特別地,前面音素11和位置標(biāo)記12組成樹的起始部分。
從四個詞、位置標(biāo)記12和前面音素11形成樹。樹如圖3中所示。
圖3中所示的所有項(xiàng)目,除了“末端”21、22、23和24,以及初始字母“A”(11)外,都在已確定的三音節(jié)中,這些三音節(jié)被包含在存儲器56(參見圖1)中。所以轉(zhuǎn)換已被確定。初始字母“A”并不需要被轉(zhuǎn)換,這是因?yàn)樗驯晦D(zhuǎn)換成模型音素。它在樹中是需要的,因?yàn)樗_定了項(xiàng)目12的轉(zhuǎn)換,該轉(zhuǎn)換可由圖2的位置標(biāo)記12中得到。末端21、22、23和24不能被轉(zhuǎn)換成三音節(jié),這是因?yàn)槠浜罄m(xù)元素還未被判定。這種無轉(zhuǎn)換將成為主要障礙,因?yàn)樵跊]有完全轉(zhuǎn)換的情況下圖3的樹不能被合并進(jìn)網(wǎng)絡(luò)。根據(jù)本發(fā)明,末端21、22、23和24被轉(zhuǎn)換成位置標(biāo)記,且網(wǎng)絡(luò)可以放置位置標(biāo)記。
圖4顯示了轉(zhuǎn)換和合并入以前網(wǎng)絡(luò)的結(jié)果。項(xiàng)目11是前一個“最后被轉(zhuǎn)換”的元素。項(xiàng)目(12a)是舊的位置標(biāo)記,它還被保持未變。包含于位置標(biāo)記12a中的符號音素現(xiàn)在被轉(zhuǎn)換成兩個不同的模型音素,這是因?yàn)槔语@示了兩個不同的上下文。所以,在一個分支中,位置標(biāo)記12a的符號音素從音素存儲器56的地址128處變成模型音素12b。對前面是A,且后面是S的T來說,這樣給出了模型音素(t3)。在網(wǎng)絡(luò)另一個分支上,來自位置標(biāo)記12a的符號音素變成了(t1),它是來自于音素存儲器56的地址126上的項(xiàng)目12c。這一方案被選擇,是因?yàn)椋诰W(wǎng)絡(luò)的這一分支上,T的前面是A,且后面是L。舊網(wǎng)絡(luò)進(jìn)行了分叉,這樣現(xiàn)在存在四個新的位置標(biāo)記21、22、23和24。當(dāng)包含于這些新位置標(biāo)記中的符號音素被模型音素按上述方法予以替代時,在將來的迭代中這些新位置標(biāo)記將作為用于擴(kuò)展的起始點(diǎn)。
如從圖4a中可看到的那樣,位置標(biāo)記在轉(zhuǎn)換后保存在網(wǎng)絡(luò)中。這些位置標(biāo)記不包含任何用于與抽樣值比較的信息,所以,它們不影響路徑的選擇。盡管如此,位置標(biāo)記出現(xiàn)在網(wǎng)絡(luò)分叉的地方,并且它們可以被用于確定網(wǎng)絡(luò)。如上所述,位置標(biāo)記包含用于轉(zhuǎn)換的符號音素,并且它們可能包含額外的信息,如用于確定三音節(jié)的前面音素。如位置標(biāo)記21到24所展示的那樣,位置標(biāo)記對應(yīng)于插入在網(wǎng)絡(luò)中的單元,并且如果需要的話,位置標(biāo)記可以確定導(dǎo)出位置標(biāo)記的單元。
在替代方案實(shí)施例(圖4b所示)中,當(dāng)包含于位置標(biāo)記中的音素被轉(zhuǎn)換成模型時,位置標(biāo)記被移去。明顯地,當(dāng)位置標(biāo)記被移去時,就沒有了任何與位置標(biāo)記相關(guān)的信息,但是,如從圖4b中可看到的那樣,網(wǎng)絡(luò)結(jié)構(gòu)依然被確定。
在另一個可替代方案中,沒有說明,單元的完整性被保存下來了。圖3中所示的樹未被形成,這是因?yàn)槊總€單元都被分別地轉(zhuǎn)換成模型音素和位置標(biāo)記。被轉(zhuǎn)換的單元然后作為單個實(shí)體被增加到網(wǎng)絡(luò)上。
用于擴(kuò)展網(wǎng)絡(luò)的設(shè)備如圖5中所示。它包括一個用于外展存在路徑的擴(kuò)展器50。擴(kuò)展器50包括一個用于存儲信號的詞典57,其中這些信號代表單元的符號音素,如詞和音節(jié)。它還包括一個用于存儲信號的三音節(jié)存儲器56,其中的信號被將符號音素轉(zhuǎn)換成模型音素的轉(zhuǎn)換器55所使用。它們與一個網(wǎng)絡(luò)存儲器51相連接,這樣它可增加擴(kuò)展到存儲于其中的網(wǎng)絡(luò)上。擴(kuò)展器也可獲得局部路徑的末端,如來自網(wǎng)絡(luò)存儲器51的位置標(biāo)記中所包含的符號音素以構(gòu)成用于擴(kuò)展的輸入。
設(shè)備還包括用于取得語音信號去抽樣和參數(shù)化的接收器54。該信號較好的是采用數(shù)字波形式;如果提供的是模擬信號,則還需包括一個模擬-數(shù)字轉(zhuǎn)換器(未顯示)。抽樣器53執(zhí)行參數(shù)化,且一般是每秒50到100個抽樣值。(電話數(shù)字語音通常有每秒8000個抽樣值)。比較器52將抽樣值與保存在存儲器51中的網(wǎng)絡(luò)進(jìn)行匹配,直到確定最佳路徑,并且這就是輸出到接口58的輸出結(jié)果,其中接口58可選擇地通過一通信系統(tǒng)用于控制附加設(shè)備(圖5中未顯示)或提供對判定的證實(shí),如一個音頻或視覺信號。
該方法的流圖,說明了用于擴(kuò)展路徑的迭代,它在圖6中被圖例說明。
該流圖有三個特點(diǎn),即接收和抽樣、比較和網(wǎng)絡(luò)的擴(kuò)展。
接收在流圖的塊60中被表示出,且抽樣在塊61中表示。
網(wǎng)絡(luò)擴(kuò)展在塊62-64中被表示出,且它由下列主要步驟組成。
塊62存在的網(wǎng)絡(luò)(在存儲器51中)被掃描,且位置標(biāo)志元素中的一個被選出。位置標(biāo)志元素決定下一個擴(kuò)展將被增加到的那一點(diǎn)上。通常它也確定局部路徑的末端。
塊63擴(kuò)展器50從詞典57在代表符號音素的信號中選擇單元。
塊64在塊63中選出的單元以符號音素樹的形式被組合。在塊62中選出的位置標(biāo)志元素作為樹的開始被包括進(jìn)去。
塊65在塊64中組合成的樹被轉(zhuǎn)換成模型音素且末端音素被轉(zhuǎn)換成位置標(biāo)志元素,其中位置標(biāo)志元素將在塊62的將來執(zhí)行過程中被選擇出。在塊62選擇出的位置標(biāo)志元素中的符號音素也被轉(zhuǎn)換成模型音素。使用音素存儲器56來執(zhí)行這些轉(zhuǎn)換(圖1中所示的內(nèi)容)。在轉(zhuǎn)換之后,這個樹被增加到保存在存儲器51中的網(wǎng)絡(luò)上。
轉(zhuǎn)換成模型音素的過程發(fā)生在塊65中,而音素和其上下文的確定是在前面塊63和64中獲得的,認(rèn)識到這一點(diǎn)是很重要的。當(dāng)這些塊被執(zhí)行時,末端音素沒有上下文,所以它們不能被轉(zhuǎn)換。盡管它們不是模型音素,但位置標(biāo)志元素與網(wǎng)絡(luò)兼容,且它們的使用使得塊65中說明的步驟可以產(chǎn)生,這是因?yàn)椴捎媚P驮貋磉M(jìn)行的位置標(biāo)志元素更新在后面的迭代中會出現(xiàn)。
塊66在塊61中產(chǎn)生的抽樣值與存儲在網(wǎng)絡(luò)存儲器51中的網(wǎng)絡(luò)相比較,以選擇最佳路徑。
塊67在塊67中輸出最佳路徑。
只要接收到信號圖6中所示的迭代就被重復(fù),以保持該過程進(jìn)行。為了有助于檢測到末端,包括進(jìn)表示線路噪聲和呼吸音的模型音素是合適的。在開始,如在語音被接收之前,使用標(biāo)準(zhǔn)的,預(yù)定的配置來初始化網(wǎng)絡(luò)?!办o默”元素特別適合于初始化。
圖7說明了本發(fā)明用于或是直接或是通過通信系統(tǒng)的自動聲音控制,如目錄查詢或其他象鐵路時刻表或航班服務(wù)之類的相似業(yè)務(wù)。
根據(jù)本發(fā)明的語音識別器70被連接到接口71上,其中接口71適應(yīng)于通過作為語音被接收的指令的方式控制索引72,且被識別器70所確定。識別器70和接口71被連接到通信系統(tǒng)73上,后者包括了對一個用戶75可用的一個遠(yuǎn)端電話74。為了查詢索引72,用戶75(通過傳統(tǒng)通信技術(shù))訪問識別器70??陬^請求通過系統(tǒng)73被傳送到識別器。這些被識別器70所確認(rèn),并通過接口71發(fā)送給索引72。結(jié)果通過接口71和系統(tǒng)73被返回給用戶75。
在某些應(yīng)用中,提供檢查指令己被正確理解的概率,如通過反饋回路的方法,是被希望的。這可通過結(jié)合合成語音設(shè)備到識別器70上的方法很方便地實(shí)現(xiàn)。如果有必要,通過通信系統(tǒng),這就使得識別器去確認(rèn)它給用戶的解釋。在屏幕上顯示解釋也是可能的。這種檢測在應(yīng)用中是固有的,如自動聽寫,特別是當(dāng)結(jié)果文本被顯示在屏幕上。
在大多數(shù)的這些應(yīng)用中,存在著語音根本不被識別的可能性。這被視為可接受的結(jié)果,特別是當(dāng)這一情況被通知給用戶時。
權(quán)利要求
1.一種識別語音信號的方法,該方法包括(a)接收(60)所述信號并將其分成一系列抽樣值(61);(b)準(zhǔn)備(63)多個路徑,它們每個都包括一系列模型語言元素,所述模型采用適合與抽樣值相比較的形式;(c)比較(66)抽樣值和路徑,以評定在每個路徑與接收到的信號間的匹配接近性;(d)選擇(67)一個路徑,它構(gòu)成對于接收信號的最佳匹配;其中至少一些模型元素是上下文相關(guān)的,因?yàn)槟P涂紤]到了后續(xù)的元素,其特征在于采用了一種不適合于上述比較的形式確定語言元素的位置標(biāo)記(12)被插入到路徑之中,且此后在所述位置標(biāo)記中確定的語言元素被轉(zhuǎn)換成模型元素(12b,12c)。
2.根據(jù)權(quán)利要求1的方法,其中每個上下文相關(guān)模型元素都基于由中心元素、左元素和右元素組成的三音節(jié);模型相關(guān)于左和右元素的上下文中的中心元素。
3.根據(jù)權(quán)利要求1或2的方法,其中擴(kuò)展被增加到路徑中位置標(biāo)志(12)已經(jīng)確定的位置,且至少一個擴(kuò)展包括一串一個或多個模型元素和一個新位置標(biāo)志(21、22、23、24),其中該串中的元素(12b,12c)之一是由路徑中位置標(biāo)志確定的模型元素的轉(zhuǎn)換形式,且新的位置標(biāo)志(21、22、23、24)確定了將來擴(kuò)展的位置。
4.根據(jù)前面的權(quán)利要求中任一項(xiàng)的方法,其中路徑按網(wǎng)絡(luò)的形式被組織。
5.根據(jù)前面的權(quán)利要求中任一項(xiàng)的方法,其中每個抽樣值都采用代表抽樣值語言特性的參數(shù)形式。
6.根據(jù)前面的權(quán)利要求中任一項(xiàng)的方法,其中輸入的語音由通信系統(tǒng)(74)被接收。
7.根據(jù)前面的權(quán)利要求中任一項(xiàng)的方法,它包括產(chǎn)生用以確定識別結(jié)果的響應(yīng)。
8.根據(jù)權(quán)利要求7的方法,其中上述的確定包括輸入未被確定的指示。
9.根據(jù)前面的權(quán)利要求中任一項(xiàng)的方法,它包括(a)識別結(jié)果傳輸?shù)揭粋€可計(jì)算機(jī)化的索引(72),(b)從索引獲取信息(72),及,(c)取回的信息的輸出。
10.根據(jù)權(quán)利要求7、8、9中任何一項(xiàng)的方法,它包括通過通信系統(tǒng)(74)傳送響應(yīng)和/或獲取的信息。
11.一種擴(kuò)展包括適合與語音信號比較的模型元素的路徑的方法,這種方法包括在一個擴(kuò)展過程中在路徑中插入一個位置標(biāo)志和在后面擴(kuò)展過程中用一個模型元素替代一個在位置標(biāo)志中確定的符號元素。
12.根據(jù)權(quán)利要求11的方法,其中每個擴(kuò)展被增加到由位置標(biāo)志(12a)指明的位置上。
13.一種用以識別語音信號的設(shè)備,包括(a)一個用于獲得為了轉(zhuǎn)換的語音信號的接收器(54),(b)一個連接到接收器(54)上的參數(shù)化器(53),它用于將獲得的信號轉(zhuǎn)換成一系列與抽樣值的語言特性相關(guān)的參數(shù)形式的抽樣值,(c)一個用以包含多個路徑的路徑存儲器(51),上述路徑包括具有適合與參數(shù)化抽樣值相比較的形式的模型語言元素,(d)一個用于產(chǎn)生對包含在路徑存儲器中的路徑的擴(kuò)展的擴(kuò)展器(50),上述擴(kuò)展具有不適合與參數(shù)化抽樣值相比較的符號元素形式,(e)一個用于將上述擴(kuò)展器(50)產(chǎn)生的擴(kuò)展轉(zhuǎn)換成上下文相關(guān)的模型元素的轉(zhuǎn)換器(55),上述轉(zhuǎn)換器(55)也可被連接到路徑存儲器(51)上,以便將上述轉(zhuǎn)換結(jié)果增加到包含于路徑存儲器(51)的網(wǎng)絡(luò)上,(f)一個可連接到參數(shù)化器(53)和路徑存儲器(51)上的比較器(52),用于將抽樣值與路徑相比較以選擇出最佳匹配,其特征在于該轉(zhuǎn)換器(55)用于將不含有充分確定上下文的元素轉(zhuǎn)換成位置標(biāo)志,并將上述位置標(biāo)志增加到路徑存儲器(51)所包含的網(wǎng)絡(luò)中,而且上述轉(zhuǎn)換器(55)用于定位上述路徑存儲器(51)中的位置標(biāo)志所包含的符號元素,以便將它們轉(zhuǎn)換成上下文相關(guān)的模型元素且將上述上下文相關(guān)的模型元素在由位置標(biāo)志指明的位置處增加到路徑存儲器(51)上。
14.根據(jù)權(quán)利要求13的設(shè)備,其中轉(zhuǎn)換器包括一個具有多個存儲位置的字典存儲器(57),每個存儲位置都包含確定該設(shè)備可識別的語言單元的信號。
15.根據(jù)或是權(quán)利要求13或14的設(shè)備,其中轉(zhuǎn)換器包含了一個三音節(jié)存儲器(56),上述三音節(jié)存儲器具有一個基于三音節(jié)的存取部分和一個包含確定模型元素等效于三音節(jié)的中心元素的信號輸出部分。
16.根據(jù)權(quán)利要求13、14或15中任何一個的設(shè)備,它被連接到通信系統(tǒng)(73)上。
全文摘要
通過將參數(shù)化語音與由模型語言元素(12b,12c)組成的路徑的動態(tài)擴(kuò)展網(wǎng)絡(luò)相匹配來進(jìn)行語音識別。單元是上下文相關(guān)的,如三音節(jié)。在必須結(jié)合元素到路徑中時一些元素不能被轉(zhuǎn)換成模型,這是因?yàn)樯舷挛脑谙嚓P(guān)時間內(nèi)未被確定。為了允許變換,元素被變換為位置標(biāo)志元素(21,22,23,24),當(dāng)后面擴(kuò)展完成了三音節(jié)的確定時位置標(biāo)志元素可被轉(zhuǎn)換。位置標(biāo)志元素(12a)可被用于確定后續(xù)擴(kuò)展的位置。
文檔編號G10L15/18GK1217808SQ97194340
公開日1999年5月26日 申請日期1997年4月24日 優(yōu)先權(quán)日1996年5月3日
發(fā)明者西蒙·亞歷山大·霍維爾 申請人:英國電訊有限公司