專(zhuān)利名稱(chēng):含有固定和可變語(yǔ)法塊的語(yǔ)言模型的語(yǔ)音識(shí)別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音識(shí)別裝置,它包含一種語(yǔ)言模型,該模型是根據(jù)稱(chēng)為固定塊和可變塊的不同類(lèi)語(yǔ)法塊確定的。
已知大量詞匯的連續(xù)語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)需要產(chǎn)生一個(gè)語(yǔ)言模型,它確定應(yīng)用詞匯中一個(gè)給定詞以時(shí)間順序跟在一組詞中別的詞后面的概率。
這種語(yǔ)言模型必須能再現(xiàn)系統(tǒng)用戶(hù)通常使用的講話(huà)樣式支吾、迷惑的起始、想法的改變等等。
所用語(yǔ)言模型的質(zhì)量極大地影響語(yǔ)音識(shí)別的可靠性。這種質(zhì)量通常是用該語(yǔ)言模型的因惑性指數(shù)來(lái)測(cè)量,在原理上,該指數(shù)代表選擇的數(shù)目,這種選擇是系統(tǒng)對(duì)每一被解碼的詞必須做的。這一指數(shù)越低,質(zhì)量越高。
語(yǔ)言模型需要把聲音信號(hào)轉(zhuǎn)換成詞的文本串,這是對(duì)話(huà)系統(tǒng)常用的步驟。然后,需要構(gòu)建一種能理解的邏輯關(guān)系,使能理解口頭的提問(wèn),從而作出回答。
有兩種產(chǎn)生大詞匯語(yǔ)言模型的標(biāo)準(zhǔn)方法(1)所謂的N-語(yǔ)法統(tǒng)計(jì)模型,最常用的雙語(yǔ)法或三語(yǔ)法,其要點(diǎn)是,假定一個(gè)詞在句中的出現(xiàn)概率僅僅與前面的N個(gè)詞有關(guān),那么,它與句中的上下文無(wú)關(guān)。
考慮一個(gè)有1000個(gè)詞匯的三語(yǔ)法的例子,因?yàn)樗?0003個(gè)可能的三元素組,所以,它必須確定10003的概率來(lái)定義一個(gè)語(yǔ)言模型,因此,需要占用相當(dāng)規(guī)模的存儲(chǔ)器和非常強(qiáng)的計(jì)算能力。為了解決這個(gè)問(wèn)題,把詞分成組,這些組由模型設(shè)計(jì)者直接確定,或者由自組織方法推導(dǎo)出來(lái)。
這種語(yǔ)言模型是由文本大全自動(dòng)構(gòu)造的。
(2)第二種方法的要點(diǎn)是借助于概率統(tǒng)計(jì)語(yǔ)法來(lái)描述語(yǔ)法,典型的是一種與上下文無(wú)關(guān),依靠一組所謂Backus Naur公式或BNF公式中描述的規(guī)則來(lái)確定無(wú)上下文語(yǔ)法。
描述語(yǔ)法的規(guī)則通常是手寫(xiě)的,但也可以自動(dòng)推導(dǎo)出來(lái)。在這個(gè)方法中,可參考下面的文件“無(wú)上下文關(guān)系的概率統(tǒng)計(jì)語(yǔ)法的基本方法”,F(xiàn).Jelinek,J.D.Lafferty & R.L.Mercer,NATO ASI Series Vol.75pp.345-359,1992。
當(dāng)把它們應(yīng)用于自然語(yǔ)言系統(tǒng)的界面時(shí),上面描述的模型產(chǎn)生了一些特殊的問(wèn)題N-語(yǔ)法型語(yǔ)言模型(1)不能正確模擬句子中幾個(gè)隔開(kāi)的語(yǔ)法子結(jié)構(gòu)之間的關(guān)系。對(duì)于句法上正確發(fā)聲的句子來(lái)說(shuō),沒(méi)有什么可保證在識(shí)別過(guò)程中遵守這些子結(jié)構(gòu),因此,很難確定是否該句子就是由一種或多種特殊句法結(jié)構(gòu)習(xí)慣產(chǎn)生的這種句子或這種意義。
這些模型適合于連續(xù)的口授,但把他們應(yīng)用到對(duì)話(huà)系統(tǒng)就有所提到的嚴(yán)重的缺陷。
另一方面,在N-語(yǔ)法型模型中,借助于把最新實(shí)際發(fā)聲的詞組在一起來(lái)定義一組詞,就可能考慮到支吾和重復(fù)。
基于語(yǔ)法(2)的模型,可以使它正確模擬句子中隔開(kāi)的遠(yuǎn)程關(guān)系,也遵守特定的句法結(jié)構(gòu)。對(duì)于一種給定的應(yīng)用,所得到的語(yǔ)言的困惑常常比N-語(yǔ)法型模型低。
另一方面,他們很難適應(yīng)摻入有支吾、迷惑的起始等的口語(yǔ)型語(yǔ)言的描述。特別地,這些與口語(yǔ)型語(yǔ)言有關(guān)的現(xiàn)象不能預(yù)測(cè),因此,似乎很難依靠其自身的特性來(lái)設(shè)計(jì)基于語(yǔ)法規(guī)則的語(yǔ)法。
此外,覆蓋應(yīng)用需要的規(guī)則數(shù)目很大,在沒(méi)有修改這種現(xiàn)有規(guī)則之前,很難考慮要加入到對(duì)話(huà)中的新句子。
發(fā)明內(nèi)容
本發(fā)明的主題是一種語(yǔ)音識(shí)別裝置,包括聲音處理器,用于收集音頻信號(hào),語(yǔ)言解碼器(6),用于確定對(duì)應(yīng)于音頻信號(hào)的詞順序,解碼器包括語(yǔ)言模型(8),其特點(diǎn)是,語(yǔ)言模型(8)由兩組塊確定,第一組包括至少一個(gè)固定的句法塊,第二組包括至少一個(gè)可變句法塊。
這兩種句法塊的聯(lián)合,在從模擬句子元素間的依賴(lài)獲得好處的同時(shí)能使有關(guān)口語(yǔ)語(yǔ)言的問(wèn)題容易得到解決,這種模擬借助于一個(gè)固定句法塊的幫助是容易處理的。
根據(jù)一種特征,第一組固定句法塊由BNF型語(yǔ)法確定。
根據(jù)另一種特征,第二組可變句法塊由一個(gè)或多個(gè)n-語(yǔ)法網(wǎng)絡(luò)確定,n-語(yǔ)法網(wǎng)絡(luò)的數(shù)據(jù)由語(yǔ)法或一列短語(yǔ)表的幫助產(chǎn)生。
根據(jù)另一特征,含在第二可變塊中的n-語(yǔ)法網(wǎng)絡(luò)包含允許識(shí)別下列口語(yǔ)現(xiàn)象的數(shù)據(jù)簡(jiǎn)單支吾、簡(jiǎn)單重復(fù)、簡(jiǎn)單置換,想法改變,說(shuō)話(huà)含糊。
通過(guò)確定兩類(lèi)實(shí)體的組合形成最終的語(yǔ)言模型,本發(fā)明的語(yǔ)言模型就能把兩個(gè)系統(tǒng)的優(yōu)點(diǎn)組合在一起。
固定的句法相對(duì)于某一實(shí)體保持不變,句法分析與它們相聯(lián)系,而其它句法由n-語(yǔ)法型網(wǎng)絡(luò)來(lái)描述。
此外,根據(jù)改變的實(shí)施例,確定了由以前類(lèi)型的一種快“觸發(fā)的”自由塊。
語(yǔ)言學(xué)解碼器使用聲學(xué)模型7和語(yǔ)言模型8,它們是基于假設(shè)搜索算法9實(shí)現(xiàn)的。例如,聲學(xué)模型是所謂的“隱式Markor”模型(或HMM)。在本實(shí)施例中使用的語(yǔ)言模型是基于一種有Backus Naur公式的句法規(guī)則幫助說(shuō)明的語(yǔ)法。用該語(yǔ)法模型為搜索算法提供假設(shè)。后者,它是合適的識(shí)別引擎,在本實(shí)施例中,是一種基于Viferbi型算法的搜索算法,并稱(chēng)為“n-最佳”。該n-最佳型算法確定了在句子分析的每一步的n個(gè)最可能的詞順序。在句子的末了,從這n個(gè)候選中選擇最可能的解決方案。
上一節(jié)中的概念本身已為業(yè)內(nèi)人士所熟知,但特別與n-最佳算法有關(guān)的信息在下面的著作中給出“用于語(yǔ)言識(shí)別統(tǒng)計(jì)方法”F.Jelinek,MIT Press 1999 ISBN 0-262-10066-5 pp.79-84。其它算法也可實(shí)現(xiàn)。特別是“最大有效長(zhǎng)度搜索”型算法,n-最佳算法只是它的一個(gè)例子。
本發(fā)明的語(yǔ)言模型使用圖2中說(shuō)明的一類(lèi)或兩類(lèi)句法塊固定型塊,可變型塊。
固定句法塊是根據(jù)BNF型句法確定的,有五種規(guī)則如下(a)<符號(hào)A>=<符號(hào)B>|<符號(hào)C>(或符號(hào))(b)<符號(hào)A>=<符號(hào)B><符號(hào)C>(和符號(hào))(c)<符號(hào)A>=<符號(hào)B>?(選項(xiàng)符號(hào))(d)<符號(hào)A>=“辭典字”(辭典分配)(e)<符號(hào)A>=p{<符號(hào)B>,<符號(hào)C>,……<符號(hào)X>}(符號(hào)B><符號(hào)C>)(……)(符號(hào)I><符號(hào)J>)(所有列舉的符號(hào)的不重復(fù)置換具有這樣的限制符號(hào)B必須在符號(hào)C之前,符號(hào)I在符號(hào)J之前……)規(guī)則(e)的實(shí)現(xiàn),在法國(guó)專(zhuān)利申請(qǐng)No.9915083中有詳細(xì)解說(shuō),題目是“Dispsitif de reconnaissance Vocale meltant en oeuvre une reglesyntaxiqne de permutation”(實(shí)現(xiàn)句法置換規(guī)則的語(yǔ)音識(shí)別裝置),THOMSon Mnltimedia on November,1999。
可變塊通過(guò)與以前相同的BNF句法、短語(yǔ)表,或根據(jù)詞匯表和相應(yīng)的n-語(yǔ)法網(wǎng)絡(luò),或根據(jù)把這三者聯(lián)合起來(lái)確定。但是,這一信息被系統(tǒng)地轉(zhuǎn)換到n-語(yǔ)法網(wǎng)絡(luò)中,并且,如果可變塊的確定是通過(guò)一個(gè)BNF文件來(lái)實(shí)現(xiàn)的話(huà),那么不能保證產(chǎn)生在句法上正確符合這一語(yǔ)法的唯一的句子。
可變塊是由下面公式的概率P(S)(在三語(yǔ)法情況下)確定的,P(S)表示n個(gè)詞Wi出現(xiàn)字串S的概率。
P(S)=II1,nP(Wi)其中P(Wi)=P(Wi|Wi-1,Wi-2)對(duì)于每一個(gè)可變塊,存在一個(gè)專(zhuān)門(mén)的塊出口字,該字在n-語(yǔ)法網(wǎng)絡(luò)中表現(xiàn)為與通常詞一樣,但是它沒(méi)有語(yǔ)音的線(xiàn)索并允許從該塊中退出。
一旦確定了這些句法塊(n-語(yǔ)法型或BNF型),它們可以再一次作作原子用于高階結(jié)構(gòu)中在BNF塊中的情況下,較低水平的塊可用來(lái)代替辭典的用途,以及在其它規(guī)則中使用。
在n-語(yǔ)法型塊的情況下,較低水平的塊代替詞Wi,因此,幾個(gè)塊可以按照給定的概率鏈接起來(lái)。
一旦確定了n-語(yǔ)法網(wǎng)絡(luò),它可與以前作為特殊符號(hào)描述的BNF語(yǔ)法相結(jié)合。多個(gè)n-語(yǔ)法網(wǎng)絡(luò)根據(jù)需要可結(jié)合在BNF語(yǔ)法中。用于BNF型塊確定的置換在識(shí)別引擎中按布爾變量的搜索算法進(jìn)行處理,在常規(guī)地實(shí)現(xiàn)這種類(lèi)型的修剪期間,布爾變量用于指向該搜索。
可以看到,可變塊出口符號(hào)也可解釋成用于對(duì)上述塊倒行的符號(hào),該塊本身可以是固定的或可變的。
·觸發(fā)器的配置上述體系仍不足以描述大詞匯量人/機(jī)對(duì)話(huà)應(yīng)用的語(yǔ)言模型。根據(jù)一個(gè)改變的實(shí)施例,增補(bǔ)了觸發(fā)器的機(jī)構(gòu)。該觸發(fā)器能把某種意義給予一個(gè)詞或一塊,使它與某個(gè)元素相連系。例如,假定詞“documentary”在音視節(jié)目的電子導(dǎo)視的上下文中被識(shí)別。這個(gè)詞可以與一組詞,如“Wildlife,Sports,tourism,等等”相聯(lián)系。這些詞都有與“documentary”相關(guān)的意義,其中的一個(gè)可能就是期望與它相聯(lián)系的一個(gè)。
為這樣做,我們將用<block>表示以前已描述過(guò)的一個(gè)塊,并且用<block>表示通過(guò)在識(shí)別算法過(guò)程中的一個(gè)瞬間完成的這一塊,也就是說(shuō),在n-最佳搜索算法中,它出現(xiàn)在當(dāng)前被解碼的鏈中。
例如,我們可以有<wish>=I would like to go to|I want to visit.
<city>=Lyon|Paris|London|Rennes.
<sentence>=<wish><city>
于是<wish>將是“I would like to go to”為由Viterbi概率算法產(chǎn)生的通路的那一部分I would like to go to LyonI would like to go to ParisI would like to go to LondonI would like to go to Rennes并且將等于“I want to visit”為其它部分。因此,語(yǔ)言模型的觸發(fā)器可定義如下如果<符號(hào)>屬于問(wèn)題中可能實(shí)現(xiàn)的給定的子組,那么,另一個(gè)符號(hào)<T(符號(hào))>,它是當(dāng)前符號(hào)的目標(biāo)符號(hào),可減少為它的正常擴(kuò)展域的一個(gè)子部分,也就是說(shuō),如果在解碼鏈中沒(méi)有觸發(fā)器的話(huà),減少為它的正常擴(kuò)展域(簡(jiǎn)化器觸發(fā)器),或者被激活并可用在從每一個(gè)屬于所謂“激活器候選者”(激活器觸發(fā)器)句法塊中在出口分出的非零分支因子中。
注意沒(méi)有必要描述觸發(fā)過(guò)程的所有塊。
符號(hào)的目標(biāo)如果被用于語(yǔ)言模型中的多種方式,它可以是這一符號(hào)本身。
對(duì)于一個(gè)塊,可以只存在它的實(shí)現(xiàn)部分的一個(gè)子部分,該實(shí)現(xiàn)部分是觸發(fā)機(jī)構(gòu)的一個(gè)分量,是補(bǔ)充而不是觸發(fā)器本身。
激活器觸發(fā)器的目標(biāo)可以是一個(gè)可選的符號(hào)。
簡(jiǎn)化器觸發(fā)機(jī)構(gòu),在我們的語(yǔ)言模型中,可處理話(huà)題一致的重復(fù)。關(guān)于觸發(fā)器概念的附加信息可在已列出的參考文件中找到,特別在p.245-253中。
激活器觸發(fā)機(jī)構(gòu)可以模擬高度變化詞尾的語(yǔ)言中某種自由的句法組。
應(yīng)注意到,激活器,它們的目標(biāo)和關(guān)于目標(biāo)的限制可以人工確定或用一個(gè)自動(dòng)的處理來(lái)獲得,例如用最大墑方法。
·對(duì)口語(yǔ)的修正上面描述的結(jié)構(gòu)確定了語(yǔ)言模型的句法,沒(méi)有對(duì)支吾、恢復(fù)、錯(cuò)誤開(kāi)始、想法改變,等等的修正,這些修正在一種口語(yǔ)式樣中是需要的。與口語(yǔ)有關(guān)的這些現(xiàn)象由于它們的不可預(yù)見(jiàn)性很難通過(guò)一種語(yǔ)法來(lái)識(shí)別。n-語(yǔ)法網(wǎng)絡(luò)比較適合于識(shí)別這類(lèi)現(xiàn)象。
與口語(yǔ)有關(guān)的這些現(xiàn)象可分成五類(lèi)簡(jiǎn)單的支吾我想(errr……無(wú)聲)去里昂。
簡(jiǎn)單的重復(fù)其中句子的一部分(經(jīng)常是限定詞和冠詞,但有時(shí)整塊句子),十分簡(jiǎn)單地被重復(fù)我想去(去去去)里昂。
簡(jiǎn)單的置換在這一過(guò)程中,一種表達(dá),沿著其方式,被同樣意義的另一種表達(dá)代替,但它們的句法結(jié)構(gòu)是不同的我想訪(fǎng)問(wèn)(errv去)里昂。
改變想法在表達(dá)過(guò)程中,句子的一部分用不同意義的部分來(lái)校正我想去里昂,(errr去巴黎)。
說(shuō)話(huà)含糊不清我想去(巴黎Errr)巴黎。
前兩種現(xiàn)象最經(jīng)常支吾約占這些現(xiàn)象中的80%。
本發(fā)明的語(yǔ)言模型處理這些現(xiàn)象如下簡(jiǎn)單支吾簡(jiǎn)單支吾用創(chuàng)建與在相關(guān)語(yǔ)言中標(biāo)記支吾的語(yǔ)言學(xué)痕跡有關(guān)的詞來(lái)處理,并且把他們當(dāng)作在有關(guān)語(yǔ)言模型中同樣的其它詞一樣(緊接著靜音的出現(xiàn)概率,等等),并在該語(yǔ)音模型中(同清晰度,等等)。
已經(jīng)注意到,簡(jiǎn)單的支吾發(fā)生在句子專(zhuān)門(mén)的地方,例如在第一動(dòng)詞與第二個(gè)動(dòng)詞之間。為了對(duì)他們進(jìn)行處理,根據(jù)本發(fā)明的規(guī)則的一個(gè)例子是<動(dòng)詞組>=<第一動(dòng)詞><n-語(yǔ)法網(wǎng)絡(luò)><第二動(dòng)詞>
簡(jiǎn)單重復(fù)簡(jiǎn)單重復(fù)通過(guò)緩沖存儲(chǔ)器技術(shù)來(lái)處理,該存儲(chǔ)器包含有在解碼的這一步當(dāng)前被分析的句子。在該語(yǔ)言模型中,存在有在緩沖存儲(chǔ)器中固定的分支概率。緩沖存儲(chǔ)器的出口以恢復(fù)緩存器激活之前達(dá)到的狀態(tài)與塊狀語(yǔ)言模型相聯(lián)。
實(shí)際上,緩存器包含句子當(dāng)前段的最后一塊。并且這一塊可以重復(fù)。另一方面,如果它是倒數(shù)第二個(gè)塊,它決不可能用這樣一種緩存器來(lái)處理,并且整個(gè)句子必須重檢查。
當(dāng)包含與冠詞有關(guān)的重復(fù)時(shí),對(duì)于有關(guān)的句子,緩存器借助于改變數(shù)和性包括該冠詞和它的有關(guān)的形式。
例如在法國(guó),對(duì)“ele”的緩存包含“du”和“des”。事實(shí)上、性和數(shù)的修改是很經(jīng)常的。
簡(jiǎn)單置換和想法改變簡(jiǎn)單置換用創(chuàng)建有關(guān)塊組來(lái)處理,在這些塊之間,簡(jiǎn)單置換是可能的,也就是說(shuō),存在從某塊退出和分支到該組的一個(gè)其它塊起始的可能性。
對(duì)于簡(jiǎn)單的置換,塊退出與同一組內(nèi),支持同樣意義的塊觸發(fā)相耦合。
對(duì)于想法改變,或者沒(méi)有觸發(fā),或者觸發(fā)支持不同意義的塊。
不對(duì)觸發(fā)再分表,而對(duì)支吾用后驗(yàn)分析分類(lèi)是可能的。
說(shuō)話(huà)含糊還可作為簡(jiǎn)單重復(fù)來(lái)處理。
處理支吾這種模型的優(yōu)點(diǎn)(除了簡(jiǎn)單支吾之外)是關(guān)聯(lián)組的建立,考慮到語(yǔ)義學(xué)信息冗余的存在,提高了關(guān)于無(wú)支吾句子的識(shí)別率。另一方面,計(jì)算的負(fù)擔(dān)較重。
權(quán)利要求
1.一種語(yǔ)音識(shí)別裝置(1),包括音頻處理器(2),用于收集音頻信號(hào),語(yǔ)言解碼器(6),用于確定相應(yīng)于音頻信號(hào)的詞順序,解碼器包括語(yǔ)言模型(8),其特征在于語(yǔ)言模型(8)是由第一組塊和第二組塊確定,第一組塊至少是一個(gè)固定的句法塊,第二組塊至少是一個(gè)可變的句法塊。
2.根據(jù)權(quán)利要求1所述的設(shè)備,其特征在于至少第一組的一個(gè)固定句法塊由BNF型語(yǔ)法確定。
3.根據(jù)權(quán)利要求1或2所述的設(shè)備,其特征在于至少第二組的一個(gè)可變句法塊由一個(gè)或多個(gè)n-語(yǔ)法網(wǎng)絡(luò)確定,n-語(yǔ)法網(wǎng)絡(luò)的數(shù)據(jù)由一種語(yǔ)法的幫助或短語(yǔ)表的幫助產(chǎn)生。
4.根據(jù)權(quán)利要求3所述的設(shè)備,其特征在于n-語(yǔ)法網(wǎng)絡(luò)包含相應(yīng)于一個(gè)或多個(gè)下列現(xiàn)象的數(shù)據(jù)簡(jiǎn)單支吾、簡(jiǎn)單重復(fù)、簡(jiǎn)單置換、想法改變、說(shuō)話(huà)含糊。
全文摘要
本發(fā)明涉及一種語(yǔ)音識(shí)別裝置(1),包括一個(gè)聲音處理器(2),用于收集音頻信號(hào),和一個(gè)語(yǔ)音學(xué)解碼器(6),用于確定相應(yīng)于該音頻信號(hào)的詞順序。本發(fā)明裝置的語(yǔ)言學(xué)解碼器包括一個(gè)語(yǔ)言模型(8),它是在第一組塊和第二組塊的基礎(chǔ)上確定的,第一組塊至少是一個(gè)僅僅由語(yǔ)法確定的句法塊,第二組塊至少是一個(gè)由下列元素的一個(gè),或這些元素的組合確定的句法塊一種語(yǔ)法,一組短語(yǔ),一個(gè)n-語(yǔ)法網(wǎng)絡(luò)。
文檔編號(hào)G10L15/197GK1402867SQ0081656
公開(kāi)日2003年3月12日 申請(qǐng)日期2000年11月29日 優(yōu)先權(quán)日1999年12月2日
發(fā)明者克里斯托夫·德洛內(nèi), 努爾-埃迪·塔齊尼, 弗雷德里克·蘇夫萊 申請(qǐng)人:湯姆森許可貿(mào)易公司