專利名稱:語音識別設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別設(shè)備,用于識別對應(yīng)于語音信息的文本信息。
本發(fā)明還涉及一種語音識別方法,用于識別對應(yīng)于語音信息的文本信息。
本發(fā)明還涉及一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品被設(shè)置為識別對應(yīng)于語音信息的文本信息。
本發(fā)明還涉及一種計算機(jī),其用于運行在前一段落說明的計算機(jī)程序產(chǎn)品。
在上面第一段具體說明的此類語音識別設(shè)備,在上面第二段具體說明的此類語音識別方法,在上面第三段具體說明的此類計算機(jī)程序產(chǎn)品以及在上面第四段具體說明的此類計算機(jī)都可以從WO 98/08215號專利中獲知。
在已知的語音識別設(shè)備中提供了語音識別裝置,把語音信息經(jīng)由麥克風(fēng)饋送到所述語音識別裝置。所述語音識別裝置被設(shè)置為識別語音信息中的文本信息,同時繼續(xù)顧及屬性信息,所述屬性信息表示在識別文本信息時將使用的上下文關(guān)系。為了生成所述屬性信息,所述語音識別裝置具有語言屬性識別裝置,將其設(shè)置為接收來自于所述語音識別裝置的語音信息的表示,并且通過使用所述語音信息的這種表示來識別當(dāng)時作為描述所述語音信息特征的語言屬性而存在的上下文關(guān)系,并且生成表示所述當(dāng)前上下文關(guān)系的屬性信息。
在已知的語音識別設(shè)備中,存在這樣的問題,即雖然對描述語音信息特征的單個語言屬性的識別、也就是當(dāng)時存在的上下文關(guān)系的識別做出了規(guī)定,但是在識別所述文本信息的期間,描述所述語音信息特征的其他語言屬性、諸如語音分段或者當(dāng)時正被使用的語言、或者當(dāng)時應(yīng)用的揚聲器組合,都沒有予以考慮。因此,這些沒有被考慮的語言屬性需要在已知的語音識別設(shè)備使用之前被預(yù)先獲知,如果實際上它們得到允許,那么必須被預(yù)先配置,這可能意味著必須把它們預(yù)置為固定值,即,預(yù)置為不變的,由此,對于已知的語音識別設(shè)備來說,不可能用于如下的應(yīng)用,即沒能考慮的這些語言屬性在操作期間、即當(dāng)正在識別所述文本信息時發(fā)生改變。
本發(fā)明的一個目的在于克服上面第一段具體說明的該類語音識別設(shè)備中、在上面第二段具體說明的該類語音識別方法中、在上面第三段具體說明的該類計算機(jī)程序產(chǎn)品合中、在上面第四段具體說明的此類計算機(jī)中存在的上述問題,并且提供了一種改進(jìn)的語音識別設(shè)備、改進(jìn)的語音識別方法、改進(jìn)的計算機(jī)程序產(chǎn)品和改進(jìn)的計算機(jī)。
為了實現(xiàn)上述的目的,在依照本發(fā)明的語音識別設(shè)備中提供了依照本發(fā)明的特征,由此使依照本發(fā)明的語音識別設(shè)備能夠表現(xiàn)如下說明的特征,所述特征為一種用于識別對應(yīng)于語音信息的文本信息的語音識別設(shè)備,其中語音信息可以根據(jù)語言屬性來描述特征,其中第一語言屬性識別裝置被提供,將其設(shè)置為通過使用所述語音信息來識別第一語言屬性并且生成第一屬性信息,所述第一屬性信息表示被識別出的第一語言屬性,其中至少第二語音屬性識別裝置被提供,將其設(shè)置為通過使用所述語音信息來識別所述語音信息的第二語言屬性并且生成第二屬性信息,所述第二屬性信息表示被識別的第二語言屬性,并且其中語音識別裝置被提供,所述語音識別裝置被設(shè)置為在繼續(xù)考慮至少第一屬性信息和第二屬性信息的同時,識別對應(yīng)于所述語音信息的文本信息。
為了實現(xiàn)上述的目的,在依照本發(fā)明的語音識別方法中提供了依照本發(fā)明的特征,由此使依照本發(fā)明的語音識別方法能夠表現(xiàn)如下說明的特征,所述特征為一種用于識別對應(yīng)于語音信息的文本信息的語音生成方法,其中語音信息可以根據(jù)語言屬性來描述特征,其中通過使用所述語音信息,第一語言屬性被識別,其中表示被識別出的第一語言屬性的第一屬性信息被生成,其中通過使用所述語音信息來識別至少一個第二語音屬性,其中表示被識別出的第二語言屬性的第二屬性信息被生成,并且其中當(dāng)繼續(xù)考慮至少第一屬性信息和第二屬性信息的同時來識別對應(yīng)于所述語音信息的文本信息。
為了實現(xiàn)上述的目的,在依照本發(fā)明的計算機(jī)程序產(chǎn)品中做出規(guī)定,以便使計算機(jī)程序產(chǎn)品將能夠直接被加載到計算機(jī)的存儲器中,并且包括軟件代碼區(qū),以便當(dāng)在計算機(jī)上運行所述計算機(jī)程序產(chǎn)品時,能夠由計算機(jī)來執(zhí)行依照本發(fā)明設(shè)備的語音識別方法。
為了實現(xiàn)上述的目的,在依照本發(fā)明的計算機(jī)中做出規(guī)定,以便使所述計算機(jī)具有處理單元和內(nèi)部存儲器,并且可以運行在前一段落中具體說明的計算機(jī)程序產(chǎn)品。
通過依照本發(fā)明做出的規(guī)定,可以獲得這樣的優(yōu)勢,即即使當(dāng)多個語言屬性在識別所述文本信息期間發(fā)生改變時,也能確??煽康刈R別語音信息中的文本信息。本發(fā)明還給出了其他優(yōu)勢,即由于這樣的實事、即在任何一個語言屬性中的任意變化可以由與此語言屬性相關(guān)聯(lián)的屬性信息項來立即表示,并且因此在識別的同時可以考慮這些變化,故而通過生成和考慮至少兩項屬性信息來可靠地避免因無法考慮語言屬性中的變化而導(dǎo)致對文本信息的錯誤識別,因此極大地改善了識別的準(zhǔn)確性。由此,還可以獲得其他的優(yōu)勢,即借助于可利用的屬性信息的多個項目,可以利用語言的更加精確的模式來識別所述文本信息,由此對識別語言屬性的準(zhǔn)確性并且因此對文本信息的識別都做出了積極的影響,并且對識別文本信息的速度也做出了積極的影響。以這種方式還可以獲得其他的優(yōu)勢,即對于依照本發(fā)明的所述語音識別設(shè)備來說,能夠用于這樣的應(yīng)用領(lǐng)域,其中對識別文本信息的靈活性有最嚴(yán)格要求的應(yīng)用,諸如在會議期間進(jìn)行自動轉(zhuǎn)錄語音信息的會議轉(zhuǎn)錄系統(tǒng)之類的應(yīng)用。在此應(yīng)用領(lǐng)域中,即使以不同的語言通過不同的揚聲器來產(chǎn)生存在的語音信息時,也能夠近似實時地獲得所述文本信息的識別。
在依照本發(fā)明的解決方案中,另外,如果提供的話,那么分別在權(quán)利要求2和權(quán)利要求7中描述的特征也被證明是有益的。其給出了如下優(yōu)勢,即在識別屬性信息和/或在識別文本信息的過程中,可以考慮用于接收語音信息的音頻信號的帶寬,其中所述音頻信號的帶寬取決于特定的接收信道。
在依照本發(fā)明的解決方案中,另外,如果提供的話,那么分別在權(quán)利要求3和權(quán)利要求8中描述的特征也被證明是有益的。其給出了如下優(yōu)勢,即如果對于部分語音信息而言,存在有效的屬性信息,即如果已經(jīng)為該部分確定了所述語言屬性,那么所述語音識別裝置只處理該部分語音信息,由此能夠可靠地避免任何不必要的浪費和識別文本信息所需的計算能力、即所謂的系統(tǒng)資源的占用。
在依照本發(fā)明的方案中,另外,如果提供的話,那么分別在權(quán)利要求4和權(quán)利要求9中描述的特征也被證明是有益的。其給出了這樣的優(yōu)勢,即至少兩個語言屬性識別裝置能夠彼此影響。這還給出了如下的優(yōu)勢,即所述單個語言屬性能夠依照次序被順序地識別,這有助于識別所述語言屬性,由此對識別文本信息的速度和準(zhǔn)確性做出了積極的影響,并且改善了對計算能力的使用。
在依照本發(fā)明的方案中,另外,如果提供的話,那么分別在權(quán)利要求5和權(quán)利要求10中描述的特征也被證明是有益的。其給出了如下的優(yōu)勢,即給定的語言屬性能夠依照盡可能可靠的方式被識別為另一個語言屬性的函數(shù),這是因為可用于識別給定語言屬性的另一個語言屬性只有在對應(yīng)于另一個語言屬性、即需要考慮的語言屬性的屬性信息實際可利用時才會被使用。
在依照本發(fā)明的計算機(jī)程序產(chǎn)品中,另外,如果提供的話,那么在權(quán)利要求11中描述的特征也被證明是有益的。其給出了這樣的優(yōu)勢,即所述計算機(jī)程序產(chǎn)品可以盡可能容易地被投放市場、出售或者被出租。
將參照下文所描述的實施例來闡明本發(fā)明,并且本發(fā)明的這些以及其他方面將更加顯而易見,然而這些實施例并非對本發(fā)明的限制。
在所述附圖中
圖1是以依照本發(fā)明一個實施例的語音識別設(shè)備的方框電路圖的形式示出的示意圖,圖2以類似于圖1的方式示出了圖1中所示的語音識別設(shè)備的預(yù)處理器裝置,圖3以類似于圖1的方式示出了圖1中所示的語音識別設(shè)備的特征向量提取裝置,圖4以類似于圖1的方式示出了圖1中所示的語音識別設(shè)備的接收通道識別裝置,圖5以類似于圖1的方式示出了圖1中所示的語音識別設(shè)備的第一語言屬性識別裝置,圖6以類似于圖1的方式示出了圖1中所示的語音識別設(shè)備的第二語言屬性識別裝置,圖7以類似于圖1的方式示出了圖1中所示的語音識別設(shè)備的第三語言屬性識別裝置,
圖8以類似于圖1的方式示出了圖1中所示的語音識別設(shè)備的第四語言屬性識別裝置,圖9以類似于圖1的方式示出了圖1中所示的語音識別設(shè)備的語音識別裝置,圖10以類似于柱狀圖形式的圖解法示出了圖1中所示的語音識別設(shè)備的多個識別裝置的活動的時序圖,圖11以類似于圖1的方式示出了圖1中所示的音頻預(yù)處理器裝置的細(xì)節(jié),圖12以類似于圖1的方式示出了圖3中所示的特征向量提取裝置的對數(shù)濾波器組,圖13以類似于圖1的方式示出了圖5中所示的第一語言屬性識別裝置的音樂識別站,圖14以類似于圖1的方式示出了圖6中所示的第二語言屬性識別裝置的第二訓(xùn)練站,圖15以類似于圖1的方式示出了圖7中所示的第三語言屬性識別裝置的第四訓(xùn)練站,圖16以類似于圖1的方式示出了圖8中所示的第四語言屬性識別裝置的第六訓(xùn)練站,圖1中示出了語音識別設(shè)備1,將其被設(shè)置為識別對應(yīng)于語音信息SI的文本信息TI,并且形成會議轉(zhuǎn)錄設(shè)備,借助于所述會議轉(zhuǎn)錄設(shè)備,在會議時發(fā)生的并且當(dāng)會議參與者講話時由他們產(chǎn)生的語音信息SI可以被轉(zhuǎn)錄為文本信息TI。
所述語音識別設(shè)備1是以計算機(jī)1A的形式來實現(xiàn)的,圖1中示出了與所述語音識別設(shè)備1有關(guān)的功能組件。所述計算機(jī)1A具有圖1中未示出的處理單元和內(nèi)部存儲器1B,不過下面將結(jié)合圖1來詳細(xì)說明與所述語音識別設(shè)備1有關(guān)的內(nèi)部存儲器1B的功能。所述語音識別設(shè)備1使用內(nèi)部存儲器1B來識別對應(yīng)于語音信息SI的文本信息1B。計算機(jī)運行計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品可以直接被加載到計算機(jī)1A的存儲器1B中并且具有軟件代碼區(qū)。
所述語音識別設(shè)備1具有接收裝置2,其被設(shè)置為接收語音信息SI并且生成和發(fā)出表示語音信息SI的音頻信號AS,影響語音信息SI的識別的音頻信號AS帶寬依賴于用于接收所述語音信息SI的接收通道或者傳輸通道。所述接收裝置2具有第一接收站3,用于形成第一接收通道,并且借助于第一接收通道,可以經(jīng)由多個麥克風(fēng)4來接收所述語音信息SI,每個麥克風(fēng)4均被分配給出現(xiàn)于會議室中的其中一個會議參與者,所述語音信息SI可以通過這些參與者來生成。與所述麥克風(fēng)4相關(guān)聯(lián)的是屬于計算機(jī)1A的所謂的聲卡(圖1中未示出),借助于所述聲卡,可以把所述模擬聲頻信號AS轉(zhuǎn)換為數(shù)字音頻信號AS。所述接收裝置2還具有第二接收站5,用于形成第二接收通道并且借助于所述第二接收通道,可以經(jīng)由多個模擬電話線路來接收所述語音信息SI。所述接收裝置2還具有第三接收站6,用于形成第三接收通道并且借助于所述第三接收通道,可以經(jīng)由多個ISDN電話線來接收所述語音信息SI。所述接收裝置2還具有第四接收站7,用于形成第四接收通道并且借助于所述第四接收通道,可以借助于所謂的“IP語音”數(shù)據(jù)流、經(jīng)由計算機(jī)數(shù)據(jù)網(wǎng)絡(luò)來接收所述語音信息SI。所述接收裝置2還被設(shè)置為以數(shù)據(jù)流的形式發(fā)出所接收的音頻信號AS的數(shù)字表示,所述音頻信號AS的數(shù)字表示具有音頻信號格式,其對應(yīng)于給定的接收通道和具有所謂的音頻塊以及所述音頻塊中包含的所謂的音頻頭部的數(shù)據(jù)流,其中所述音頻首部規(guī)定了特定音頻信號格式。
所述語音識別設(shè)備1還具有音頻預(yù)處理器裝置8,被設(shè)置為接收由所述接收裝置2發(fā)出的所述音頻信號AS。所述音頻預(yù)處理器裝置8還被設(shè)置為把所接收的音頻信號AS轉(zhuǎn)換為音頻信號PAS,所述音頻信號PAS依照標(biāo)準(zhǔn)格式被格式化,也就是標(biāo)準(zhǔn)的PCM格式,以便進(jìn)一步被處理,并且用于發(fā)出所述音頻信號PAS。為此目的,圖2中所示的所述音頻預(yù)處理器裝置8具有代碼識別站9、第一數(shù)據(jù)流控制站10、解碼站11、解碼算法選擇站12、解碼算法存儲站13和高通濾波站14。所接收的音頻信號AS可以被直接饋送至第一數(shù)據(jù)流控制站10。所述音頻首部可以被饋送到代碼識別站9。參考所述音頻頭部,所述代碼識別站9被設(shè)置為識別由音頻塊表示的音頻信號AS的合理編碼,并且當(dāng)存在編碼時,用于把代碼識別信息COI傳輸至解碼算法選擇站12。當(dāng)存在編碼時,所述代碼識別站9還被設(shè)置為把數(shù)據(jù)流影響信息DCSI傳輸至第一數(shù)據(jù)流控制站10,以便允許被饋送到第一數(shù)據(jù)流控制站10的所述音頻信號AS將被傳輸?shù)剿鼋獯a站11。如果沒有發(fā)現(xiàn)所述音頻信號AS具有代碼,那么借助于所述數(shù)據(jù)流影響信息DCSI,以這樣一種方式,即可以把所述音頻信號AS直接從所述數(shù)據(jù)流控制站10傳輸?shù)剿龈咄V波站14,所述代碼識別站9可以控制數(shù)據(jù)流控制站10。
所述解碼算法存儲站13被設(shè)置為存儲多個解碼算法。作為代碼識別信息COI的一個函數(shù),以軟件對象的形式來實現(xiàn)的所述解碼算法選擇站12,被設(shè)置為選擇其中一個所存儲的解碼算法,并且通過使用所選擇的解碼算法來實現(xiàn)所述解碼站11。把所述解碼站11設(shè)置為解碼與所選解碼算法有關(guān)的音頻信號AS,并且把代碼空閑音頻信號AS傳輸至所述高通濾波站14。所述高通濾波站14被設(shè)置為把高通濾波應(yīng)用于所述音頻信號AS,由此使所述音頻信號AS的干擾低頻分量得以去除,而低頻分量可能會對音頻信號AS的進(jìn)一步處理產(chǎn)生不利影響。
所述音頻預(yù)處理器裝置8還具有站15,用于生成PCM格式轉(zhuǎn)換參數(shù),其被設(shè)置為接收所述高通濾波音頻信號AS并且處理屬于所述高通濾波音頻信號AS的PCM格式信息PCMF,所述PCM格式信息PCMF由所述特定音頻首部來表示。用于生成PCM格式轉(zhuǎn)換參數(shù)的所述站15還被設(shè)置為通過使用為所述音頻信號AS產(chǎn)生的用于規(guī)定標(biāo)準(zhǔn)PCM格式的所述PCM格式信息PCMF和可定義的PCM格式配置信息PCMC(圖2中未示出)來生成并且發(fā)出PCM格式轉(zhuǎn)換參數(shù)PCP。
所述音頻預(yù)處理器裝置8還具有轉(zhuǎn)換站實現(xiàn)站16,以軟件對象的形式存在并且被設(shè)置為接收和處理所述PCM格式轉(zhuǎn)換參數(shù)PCP,并且通過使用這些參數(shù)PCP來實現(xiàn)PCM格式轉(zhuǎn)換站17。所述PCH格式轉(zhuǎn)換站17被設(shè)置為接收所述高通濾波音頻信號AS并且用于將其轉(zhuǎn)換為音頻信號PAS,并且用于從所述音頻預(yù)處理器裝置8發(fā)出所述音頻信號PAS。所述PCM格式轉(zhuǎn)換站17具有(圖2中未示出)多個轉(zhuǎn)換站,其可以被投入與所述PCM格式轉(zhuǎn)換參數(shù)PCP有關(guān)的動作,以便實現(xiàn)所述PMC格式轉(zhuǎn)換站17。
用于生成PCM格式轉(zhuǎn)換參數(shù)的所述站15(在圖11中詳細(xì)示出)在其輸入端具有解析站15A,通過使用所述PCM格式配置信息PCMC和所述PCM格式信息PCMF,所述解析站15A被設(shè)置為在格式轉(zhuǎn)換站17設(shè)置轉(zhuǎn)換站的數(shù)目以及逐一分配給它們的輸入/輸出PCM格式的數(shù)目,這由可以通過對象說明信息OSI來表示,所述OSI可以通過其來發(fā)出。在該情況下,所述PCM格式信息PCMF定義所述站15的輸入音頻信號格式,用于生成PCM格式轉(zhuǎn)換參數(shù),并且所述PCM格式配置信息PCMC定義來自于所述站15的輸出音頻信號格式。用于生成PCM格式轉(zhuǎn)換參數(shù)的所述站15具有濾波設(shè)計站15B,通過使用所述對象說明信息OSI,所述濾波計劃站15B被設(shè)置為對每個轉(zhuǎn)換站設(shè)計進(jìn)一步的屬性,其中所述進(jìn)一步的屬性和對象說明信息OSI由PCM格式轉(zhuǎn)換參數(shù)PCP來表示,所述PCM格式轉(zhuǎn)換參數(shù)PCP可以通過所述站15來生成和發(fā)出。
圖1中所示的所述語音識別設(shè)備1還具有接收通道識別裝置18,其被設(shè)置為接收通過所述音頻預(yù)處理器裝置8預(yù)處理的音頻信號PAS,以便識別在接收所述語音信息SI時正在使用的接收通道,從而生成表示所識別的接收通道的通道信息CHI,并且發(fā)出此信道信息CHI。
所述語音識別設(shè)備1還具有特征向量提取裝置19,其被設(shè)置為依照與所述接收通道識別裝置18類似的方式來接收通過所述音頻預(yù)處理器裝置8預(yù)處理的音頻信號PAS以及所述通道信息CHI,并且在考慮所述通道信息CHI的同時,生成并且發(fā)出所謂的特征向量FV,這部分內(nèi)容將結(jié)合圖3在適當(dāng)?shù)狞c詳細(xì)說明。
所述語音識別設(shè)備1還具有第一語言屬性識別裝置20,其被設(shè)置為接收表示所述語音信息SI的特征向量FV,并且用于接收所述通道信息CHI。通過使用所述特征向量FV并且通過繼續(xù)考慮所述通道信息CHI,還可以把所述第一語言屬性識別裝置設(shè)置為識別第一語言屬性——也就是聲學(xué)分割——并且用于生成和發(fā)出第一屬性信息,所述第一屬性信息用于表示所識別的聲學(xué)分割——也就是分割信息ASI。
所述語音識別設(shè)備1還具有第二語言屬性識別裝置21,其被設(shè)置為接收表示所述語音信息SI的特征向量FV,以便接收所述通道狀態(tài)信息CHI,并且接收所述分割信息ASI。通過使用所述特征向量FV并且通過繼續(xù)考慮所述通道信息CHI和所述分割信息ASI,所述第二語言屬性識別裝置21還被設(shè)置為識別第二語言屬性——也就是涉及的語言是什么,即,例如是英語、法語或者西班牙語——并且用于生成和發(fā)出第二屬性信息,所述第二屬性信息用于表示所識別的語言,也就是語言信息LI。
所述語音識別設(shè)備1還具有第三語言屬性識別裝置22,其被設(shè)置為接收表示所述語音信息SI、通道信息CHI、分割信息ASI和語言信息LI的特征向量FV。通過使用所述特征向量FV并且通過繼續(xù)考慮所述信息CHI、ASI和LI各項,還可以把所述第三語言屬性識別裝置22設(shè)置為識別第三語言屬性,也就是講話者組合,并且用于生成和發(fā)出第三屬性信息,所述第三屬性信息用于表示所識別的講話者組合,也就是講話者組合信息SGI。
所述語音識別設(shè)備1還具有第四語言屬性識別裝置23,其被設(shè)置為接收表示所述語音信息SI的特征向量FV,并且用于接收所述通道信息CHI、分割信息ASI,語言信息LI和講話者組合信息SGI。通過使用所述特征向量FV并且通過繼續(xù)考慮所述信息CHI、ASI、LI和SGI各項,還可以把所述第四語言屬性識別裝置23設(shè)置為識別第四語言屬性,也就是上下文關(guān)系,并且用于生成和發(fā)出第四屬性信息,所述第四屬性信息用于表示所識別的上下文關(guān)系,也就是上下文關(guān)系信息CI。
所述語音識別設(shè)備1還具有語音識別裝置24,當(dāng)繼續(xù)考慮通道信息CHI、屬性信息ASI的第一項、屬性信息LI的第二項、屬性信息SGI的第三項以及屬性信息CI的第四項時,將其設(shè)置為通過使用所述特征向量FV來識別所述文本信息TI并且發(fā)出所述文本信息TI,所述特征向量FV表示語音信息SI。
所述語音識別設(shè)備1還具有文本信息存儲裝置25、文本信息編輯裝置26和文本信息發(fā)出裝置27,其中所述裝置25和27被設(shè)置為接收來自于所述語音識別裝置24的文本信息TI。所述文本信息存儲裝置25被設(shè)置為存儲所述文本信息TI,并且使得所述文本信息TI可供裝置26和27利用以便進(jìn)一步處理。
所述文本信息編輯裝置26被設(shè)置為訪問存儲在文本信息存儲裝置25中的文本信息TI,并且用于使可以由語音識別裝置24根據(jù)所述語音信息SI自動生成的文本信息TI能被編輯。為此目的,所述文本信息編輯裝置26具有顯示/輸入裝置(圖1中未示出),以允許用戶(諸如審校人之類的)編輯所述文本信息TI,以便可以人工地校正不清楚的點和錯誤,其中這些不清楚點和錯誤是在自動轉(zhuǎn)錄的過程中,這些不清楚的點和錯誤是因會議參與者不清楚或不正確的發(fā)音或者在傳輸音頻信號AS中的問題而引起的并且出現(xiàn)在文本信息TI中的。
所述文本信息發(fā)出裝置27被設(shè)置為發(fā)出所述文本信息TI,所述文本信息TI被存儲在所述文本信息存儲裝置25中,并且如果需要的話,由用戶來編輯,所述文本信息發(fā)出裝置27具有接口裝置(圖1中未示出)以便把文本信息TI以數(shù)字?jǐn)?shù)據(jù)流的形式傳輸至計算機(jī)網(wǎng)絡(luò)并且傳輸至顯示設(shè)備。
在下文中,在參考圖10中所示的識別裝置18、20、21、22、23和24的活動的圖表時,將解釋所述識別裝置18、20、21、22、23和24如何合作。為此目的,圖10中以柱狀圖的形式示出了單個的活動,其中第一活動條28表示所述接收通道識別裝置18的活動,第二活動條29表示第一語言屬性識別裝置20的活動,第三活動條30表示所述第二語言屬性識別裝置21的活動,第四活動條31表示所述第三語言屬性識別裝置22的活動,第五活動條32表示第四語言屬性識別裝置23的活動而第六活動條33表示語音識別裝置24的活動。
第一活動條28從第一開始時間點T1B向第一結(jié)束時間點T1E延伸。所述第二活動條29從第二開始時間點T2B向第一結(jié)束時間點T2E延伸。所述第三活動條30從第三開始時間點T3B向第三結(jié)束時間點T3E延伸。所述第四活動條31從第四開始時間點T4B向第四結(jié)束時間點T4E延伸。第五活動條32從第五開始時間點T5B向第五結(jié)束時間點T5E延伸。所述第六活動條33從第六開始時間點T6B向第六結(jié)束時間點T6E延伸。在給定的識別裝置18、20、21、22、23或者24的活動期間,給定的識別裝置完全處理整個的語音信息SI,每個識別裝置18、20、21、22、23或者24在語音信息開始時并且在分配給它的特定開始時間點T1B、T2B、T3B、T4B、T5B、或者T6B開始處理所述語音信息SI,并且在分配給它的特定結(jié)束時間點T1E、T2E、T3E、T4E、T5E或者T6E完成所述處理。通常,在開始時間點T1B、T2B、T3B、T4B、T5B和T6B與結(jié)束時間點T1E、T2E、T3E、T4E、T5E和T6E之間存在的總體處理時間間隔之間幾乎沒有差異。然而,如果裝置18、20、21、22、23和24的各個處理速度彼此不同,那么在單個總體處理時間間隔中會出現(xiàn)差異,如果使所述語音信息SI在離線時可利用,那么這將具有影響。在該情況下,離線的含義例如在于所述語音信息SI被預(yù)先記錄在記錄介質(zhì)上,并且此介質(zhì)隨后可以由所述語音識別設(shè)備1來訪問。
所述圖中還示出了對應(yīng)于各個識別裝置18、20、21、22、23和24的起動延遲d1至d6,在目前的情況下,因為時間軸T上的零點經(jīng)選擇在時間上與所述接收通道識別裝置18的第一開始時間點T1B重合,所以d1=0。然而,應(yīng)該提及的是,所述的零點還可以選擇位于其他位置的時間點,從而使d1不等于零。
圖中還記入了對應(yīng)于所述識別裝置18、20、21、22、23和24的相應(yīng)初始處理延遲D1至D6,其中延遲D1至D6是當(dāng)特定的識別裝置19、20、21、22、23和24第一次生成它們各自的信息項CHI、ASI、LI、SGI、CI和TI時,由它們所引起的。di和Di之間的關(guān)系可以依照如下等式來疊加,其中根據(jù)定義,d0=0并且D0=0di=di-1+Di-1i=1...6并且,由此di=Σi=0i-1Di+d0i=1..,6.]]>在第一開始時間點T1B,所述接收通道識別裝置18開始識別所述接收通道3、5、6或者7,這些通道是當(dāng)接收所述語音信息SI時正在使用的。給定接收通道3、5、6或者7的識別在這樣的情況下發(fā)生,在第一初始處理延遲D1期間,對于語音信息SI的第一部分的子區(qū)域而言,其中第一部分可以在音頻預(yù)處理器裝置8的處理延遲D1期間依照預(yù)處理的形式被傳輸至接收通道識別裝置18,并且其中在所述接收通道識別裝置18的處理延遲D1期間,可以使用第一部分以便允許所述接收通道3、5、6或者7正用于第一次被識別。在目前的情況下,所述處理延遲D1近似是一百(100)毫秒,并且語音信息SI的第一部分包括近似十個(10)所謂的幀,每個幀表示處于音頻信號電平的近似10毫秒的時間段中的語音信息SI。在所述處理延遲D1結(jié)束時,所述接收通道識別裝置18為所述語音信息SI的第一部分的第一幀第一次生成通道信息CHI,所述通道信息CHI表示接收通道3、5、6或者7已經(jīng)被識別,并且將此通道信息CHI傳輸至四個語言屬性識別裝置20至23并且傳輸至所述語音識別裝置24。這些在圖中由成群箭頭34表明。
隨著時間持續(xù)至結(jié)束時間點T1E,所述接收通道識別裝置18連續(xù)地生成或者產(chǎn)生通道信息CHI,所述通道信息被逐幀的更新,并且可供四個語言屬性識別裝置20至23以及所述語音識別裝置24來利用,由此使得所述通道信息CHI可以由識別裝置20至24逐幀的連續(xù)考慮。在此過程中,并且從所述語音信息SI的第二幀開始,每次處理語音信息SI的另一個部分,其中該部分包含與所述環(huán)境相配的多個幀,并且應(yīng)用于每個第一幀的、即應(yīng)用于語音信息SI給定部分的第一子區(qū)域的通道信息CHI可以被生成或者可加以利用。在該情況下,由于所述第二部分具有作為最后幀的幀(該幀與第一部分相鄰但是不包含在第一部分中),并且由于所述第二部分的第一幀是通過從第一部分的第一幀繼續(xù)下去的第一部分的第二幀而形成的,所以所述語音信息SI的相鄰部分、諸如第一部分和第二部分彼此不同。
此時應(yīng)該提及的是,在第一次生成它后,在進(jìn)一步、即繼續(xù)生成通道信息CHI的過程中,還可以出現(xiàn)不同于第一初始處理延遲D1的時間間隔,這與所述接收通道3、5、6和7的其中一個上的音頻信號AS的出現(xiàn)有關(guān),并且由此,當(dāng)為給定數(shù)目幀的第一幀、即為語音信息SI的其他部分的第一幀生成通道信息CHI時,能夠涵蓋不同數(shù)目的幀。此時還應(yīng)該提及的是,所述語音信息SI的相鄰部分還可以相差兩個幀以上。應(yīng)該提及的另一點是,為其生成通道信息CHI的語音信息SI一部分的子區(qū)域還可以包括各種幀,在這種情況下,這些幀最好位于語音信息SI的一部分的起始處。應(yīng)該提及的又一點是,為其生成通道信息CHI的語音信息SI一部分的此特定子區(qū)域還可以包括所述語音信息SI中包含的總體數(shù)目的幀,由此使得所述特定子區(qū)域和所述部分相同。應(yīng)該提及的最后一點是,為其生成通道信息CHI的語音信息SI一部分的特定子區(qū)域不必是第一幀,而是可以是第二幀,或者是所述語音信息SI的該部分的任意其他幀。在該情況下理解一個幀具有分配給它的通道信息CHI的準(zhǔn)確的一個單項是十分重要的。
此時預(yù)期應(yīng)該說明的是,上面就為其生成相應(yīng)的信息項ASI、LI、SGI、CI和TI的語音信息SI一部分和就語音信息SI的給定部分的子區(qū)域做出的說明也同樣適用于裝置20、21、22、23和24。
起始于時間點T2B,第一語言屬性識別裝置20開始對第一幀的聲學(xué)分割的第一次識別,即對語音信息SI第一部分的第一子區(qū)域的第一次識別,該過程是這樣來進(jìn)行的,即延遲等于起動延遲d2,并且通過使用表示語音信息SI第一部分的特征向量FV并且同時考慮所述通道信息CHI來實現(xiàn),其中所述通道信息CHI是在所有情況下已經(jīng)被分配給語音信息SI第一部分的每一幀的。在該情況下,所述起動延遲d2對應(yīng)于由接收通道識別裝置18引起的初始處理延遲D1。因此,第一語言屬性識別裝置20被設(shè)置為以至少為一定時間間隔的延遲來第一次識別第一幀的聲學(xué)分割,其中所述時間間隔是接收通道識別裝置18用于為第一幀生成通道信息CHI所需要的時間。第一語言屬性識別裝置20還具有屬于自己的第二初始處理延遲,在這種情況下,在此處理延遲D2已經(jīng)過去并且可以被傳輸?shù)剿鲎R別裝置21至24之后,可以第一次為所述語音信息SI第一部分的第一幀生成分割信息ASI,此過程由單個箭頭35來表明,所述單個箭頭代替圖10中未示出的其他箭頭群。
跟隨所述處理延遲D2,為所述語音信息SI的第一幀之后出現(xiàn)的其他幀、也就是所述語音信息SI各個部分的每個第一幀連續(xù)地生成已更新的分割信息ASI或者使其可供第一語言屬性識別裝置20利用,其中在上述處理的執(zhí)行過程中,同時還要繼續(xù)考慮對應(yīng)于語音信息SI給定部分的每個幀的通道信息CHI。
起始于時間點T3B,所述第二語言屬性識別裝置21開始對所述第一幀的語言作第一次識別,即對語音信息SI第一部分的第一子區(qū)域的第一次識別,該過程是這樣來進(jìn)行的,即延遲等于起動延遲d3,并且通過使用表示語音信息SI所述第一部分的特征向量FV,同時考慮所述通道信息CHI來實現(xiàn),其中所述通道信息CHI是在所有情況下已經(jīng)被分配給語音信息SI第一部分的每一幀的。在該情況下,所述起動延遲d3對應(yīng)于初始處理延遲D1和D2的和,其中所述D1和D2是由接收通道識別裝置18和第一語言屬性識別裝置20引起的。因此,所述第二語言屬性識別裝置21被設(shè)置為以至少為一定時間間隔的延遲來第一次識別所述第一幀的語言,其中所述時間間隔是接收通道識別裝置18和語言屬性識別裝置20用于第一次為所述第一幀生成通道信息CHI和分割信息ASI所需要的。所述第二語言屬性識別裝置21還具有屬于自己的第三初始處理延遲,在這種情況下,在此處理延遲D3已經(jīng)完成并且可以被傳輸?shù)剿鲎R別裝置22至24之后,可以第一次為所述語音信息SI的所述第一幀生成語言信息LI,此過程由單個箭頭36來表明,所述單個箭頭代替圖10中未示出的其他箭頭群。
跟隨所述處理延遲D3,為所述語音信息SI的第一幀之后出現(xiàn)的其他幀、也就是所述語音信息SI各個部分的每個第一幀連續(xù)生成已更新的語言信息LI或者使其可供所述第二語言屬性識別裝置21利用,其中在上述處理的執(zhí)行過程中,同時還要繼續(xù)考慮對應(yīng)于語音信息SI給定部分的每個幀的信息項CHI和ASI。
起始于時間點T4B,所述第三語言屬性識別裝置22開始對所述第一幀的講話者組作第一次識別,即對語音信息SI第一部分的第一子區(qū)域的第一次識別,該過程是這樣來進(jìn)行的,即延遲等于起動延遲d4,并且通過使用表示語音信息SI第一部分的特征向量FV并且同時考慮所述通道信息CHI、分割信息ASI和語言信息LI來實現(xiàn),其中上述信息項是在所有情況下已經(jīng)被分配給語音信息SI第一部分的每一幀的。在該情況下,所述起動延遲d4對應(yīng)于由接收通道識別裝置18、第一語言屬性識別裝置20和第二語言屬性識別裝置21引起的初始處理延遲D1、D2和D3之和。因此,所述第三語言屬性識別裝置22被設(shè)置為以至少為一定時間間隔的延遲來第一次識別所述第一幀的講話者組合,其中所述時間間隔是裝置18、20和21用于第一次為所述第一幀生成通道信息CHI、分割信息ASI和語音信息LI所需要的。所述第三語言屬性識別裝置22還具有屬于自己的第四初始處理延遲D4,在這種情況下,在此處理延遲D4已經(jīng)過去并且可以被傳輸?shù)剿鲎R別裝置23和24之后,可以第一次為所述第一幀生成講話者組合信息SGI,此過程由單個箭頭37來表明,所述單個箭頭代替圖10中未示出的其他箭頭群。
跟隨所述處理延遲D4,為所述語音信息SI的第一幀之后出現(xiàn)的其他幀、也就是所述語音信息SI各個部分的每個第一幀連續(xù)生成已更新的講話者組合信息SGI或者使其可供所述第三語言屬性識別裝置23利用,其中在上述處理的執(zhí)行過程中,同時還要繼續(xù)考慮對應(yīng)于語音信息SI給定部分的每個幀的信息項CHI、ASI和LI。
起始于時間點T5B,所述第四語言屬性識別裝置23開始對所述第一幀的上下文關(guān)系作第一次識別,即對語音信息SI第一部分的第一子區(qū)域的第一次識別,該過程是這樣來進(jìn)行的,即延遲等于起動延遲d5,并且通過使用表示語音信息SI第一部分的特征向量FV,并且同時考慮所述通道信息CHI、分割信息ASI、語言信息LI和講話者組合信息SGI來實現(xiàn),其中上述信息項是在所有情況下已經(jīng)被分配給語音信息SI第一部分的每一幀的。在該情況下,所述起動延遲d5對應(yīng)于由裝置18、20、21和22引起的初始處理延遲D1、D2、D3和D4的和。因此,所述第四語言屬性識別裝置23被設(shè)置為以至少為一定時間間隔的延遲來識別所述第一幀的上下文關(guān)系,其中所述時間間隔是裝置18、20、21和22用于第一次為所述第一幀生成信息項CHI、ASI、LI和SGI所需要的。所述語言屬性識別裝置23還具有屬于自己的第五初始處理延遲D5,在這種情況下,在此處理延遲D5已經(jīng)完成并且可以被傳輸?shù)秸Z音識別裝置24之后,可以第一次為所述語音信息SI第一幀生成上下文關(guān)系或者主題信息CI,這通過箭頭38表明。
跟隨所述處理延遲D5,為所述語音信息SI的第一幀之后出現(xiàn)的其他幀、也就是所述語音信息SI各個部分的每個第一幀連續(xù)生成已更新的上下文關(guān)系或者主題信息CI,或者使其可供所述第四語言屬性識別裝置23利用,其中在上述處理的執(zhí)行過程中,同時還要繼續(xù)考慮對應(yīng)于語音信息SI給定部分的每個幀的信息項CHI、ASI、LI和SGI。
起始于時間點T6B,所述語音識別裝置24開始對所述第一幀的文本信息TI作第一次識別,即對語音信息SI第一部分的第一子區(qū)域的第一次識別,該過程是這樣來進(jìn)行的,即延遲等于起動延遲d6,并且通過使用表示語音信息SI第一部分的特征向量FV,并且同時考慮所述通道信息CHI、分割信息ASI、語言信息LI、講話者組合信息SGI和上下文關(guān)系或者主題信息CI,其中上述信息項是在所有情況下已經(jīng)被分配給語音信息SI第一部分的每一幀的。在該情況下,所述起動延遲d6對應(yīng)于由裝置18、20、21、22和23引起的初始處理延遲D1、D2、D3、D4和D5的和。因此,所述識別裝置24被設(shè)置為以至少為一定時間間隔的延遲來識別語音信息SI的第一幀的文本信息TI,其中所述時間間隔是裝置18、20、21、22和23用于第一次為所述第一幀生成信息項CHI、ASI、LI、SGI和CI所需要的。所述語音識別裝置24還具有屬于自己的初始處理延遲D6,在這種情況下,在此處理延遲D6已經(jīng)過去并且可以被傳輸?shù)窖b置25、26和27之后,可以第一次為所述語音信息SI的第一幀生成文本信息TI。
跟隨所述處理延遲D6,為所述語音信息SI的第一幀之后出現(xiàn)的其他幀、也就是所述語音信息SI各個部分的每個第一幀連續(xù)生成已更新的文本信息TI,或者使其可供所述語音識別裝置24利用,其中在上述處理的執(zhí)行過程中,同時還要繼續(xù)考慮對應(yīng)于語音信息SI給定部分的每個幀的信息項CHI、ASI、LI、SGI和CI。
對其的概括可以結(jié)合隨時間進(jìn)行的所述活動來說明,其中每當(dāng)所述給定識別站20、21、22、23或者24需要用來處理給定幀的所有信息項CHI、ASI、LI、SGI或者CI在給定的識別站20、21、22、23或者24可以利用時,通過識別站20、21、22、23或者24的其中一個來處理幀。
根據(jù)上述說明,所述語音識別設(shè)備1被設(shè)置為執(zhí)行一種語音識別方法以便識別對應(yīng)于語音信息SI的文本信息TI,所述語音信息SI能夠相對于其語言屬性、也就是聲學(xué)分割、語言、講話者組合以及上下文關(guān)系或主題來描述特征。所述語音識別方法具有下列的方法步驟,也就是通過使用所述語音信息SI識別聲學(xué)分割,生成表示識別出的聲學(xué)分割的分割信息ASI,通過使用所述語音信息SI識別所述語言,生成表示被識別出的語言的語言信息LI,通過使用所述語音信息SI識別講話者組合,生成表示識別出的講話者組合的講話者組合信息SGI,通過使用所述語音信息SI識別上下文關(guān)系或主題,生成表示識別出的上下文關(guān)系或主題的上下文關(guān)系或主題信息CI,并且在繼續(xù)考慮分割信息ASI、語言信息LI、講話者組合信息SGI以及上下文關(guān)系信息CI的同時來識別對應(yīng)于所述語音信息SI的文本信息TI,生成所述信息項ASI、LI、SGI以及CI,并且下面將詳細(xì)說明特定的方法,其中考慮在各個情況下為此用途而所需的信息項CHI、ASI、LI和SGI。
在所述語音識別方法中還執(zhí)行的步驟是接收所述語音信息SI,并且通過使用描述四個接收通道3、5、6和7其中一個的特征的所述音頻信號AS,來識別在接收所述語音信息SI時正在使用的接收通道,生成表示識別出的接收通道3、5、6或7的通道信息CHI項,并且在識別聲學(xué)分割、語言、講話者組合、上下文關(guān)系和文本信息TI的過程中考慮所述通道信息CHI,在所有情況下,為語音信息SI給定部分的第一幀連續(xù)地進(jìn)行、也就是說這個幀地識別接收通道3、5、6或7,并且此外相應(yīng)地連續(xù)更新、即再生所述通道信息,并且繼續(xù)考慮。
在所述語音識別方法中還進(jìn)行的步驟是在考慮對應(yīng)于語音信息SI各個部分的每個幀的通道信息CHI的同時,執(zhí)行聲學(xué)分割的識別。在該情況下,以至少為一定時間間隔的延遲來進(jìn)行語音信息SI給定部分的第一幀的聲學(xué)分割識別,其中所述時間間隔是生成所述通道信息CHI所需的,在所述時間間隔期間,所述語音信息SI的給定部分可用于為給定部分第一幀生成通道信息CHI。此外的延遲是通過由第一語言屬性識別裝置20引起的第二處理延遲D2產(chǎn)生的。跟隨于此,所述聲學(xué)分割被逐幀的更新。
在所述語音識別方法中還進(jìn)行的步驟是在另外考慮對應(yīng)于語音信息SI給定部分的每個幀的分割信息ASI的同時,執(zhí)行語言的識別。在該情況下,以至少為一定時間間隔的延遲來進(jìn)行語音信息SI給定部分的第一幀的語言識別,其中所述時間間隔是生成所述通道信息CHI和分割信息ASI所需的,在所述時間間隔期間,所述語音信息SI的給定部分可用于為給定部分第一幀生成兩個信息項CHI和ASI。此外的延遲是通過由第二語言屬性識別裝置21引起的第三處理延遲D3產(chǎn)生的。跟隨于此,所述語言被逐幀的更新。
在所述語音識別方法中還進(jìn)行的步驟是在另外考慮對應(yīng)于語音信息SI給定部分的每個幀的分割信息ASI和語言信息LI的同時,執(zhí)行講話者組合的識別。在該情況下,以至少為一定時間間隔的延遲來進(jìn)行語音信息SI給定部分的第一幀的講話者組合識別,其中所述時間間隔是生成所述通道信息CHI、分割信息ASI和語言信息LI所需的,在所述時間間隔期間,所述語音信息SI的給定部分可用于為給定部分第一幀生成信息項CHI、ASI和LI。此外的延遲是通過由所述第三語言屬性識別裝置22引起的第四處理延遲D4產(chǎn)生的。跟隨于此,所述講話者組合被逐幀的更新。
在所述語音識別方法中還進(jìn)行的步驟是在另外考慮對應(yīng)于語音信息SI給定部分的每個幀的分割信息ASI、語言信息LI和講話者組合信息SGI的同時,執(zhí)行上下文關(guān)系或主題的識別。在該情況下,以至少為一定時間間隔的延遲來進(jìn)行語音信息SI給定部分的第一幀的上下文關(guān)系或主題識別,其中所述時間間隔是生成CHI、ASI、LI和SGI信息所需的,在所述時間間隔期間,所述語音信息SI的給定部分可用于為給定部分的子區(qū)域生成信息項CHI、ASI、LI和SGI。此外的延遲是通過由所述第四語言屬性識別裝置23引起的第五處理延遲D5產(chǎn)生的。跟隨于此,所述上下文關(guān)系或主題被逐幀的更新。
在所述語音識別方法中還進(jìn)行的步驟是在考慮對應(yīng)于語音信息SI給定部分的每個幀的所述CHI、ASI、LI、SGI和CI信息的同時,以至少為一定時間間隔的延遲來為語音信息SI給定部分的第一幀執(zhí)行對應(yīng)于所述語音信息TI的文本信息TI的識別,其中所述時間間隔是生成通道信息CHI、分割信息ASI、語言信息LI、講話者組合信息ASI和上下文關(guān)系或主題信息CI所需的,在所述時間間隔期間,所述語音信息SI的給定部分可用于為給定部分第一幀生成信息項CHI、ASI、LI、SGI和CI。此外的延遲是通過由所述語音識別裝置24引起的第六處理延遲D6產(chǎn)生的。跟隨于此,所述文本信息TI被逐幀的更新。
當(dāng)在計算機(jī)1A上運行所述計算機(jī)程序產(chǎn)品時,例如計算機(jī)1A來執(zhí)行所述語音識別方法。把所述計算機(jī)程序產(chǎn)品存儲在計算機(jī)可讀介質(zhì)(圖1中未示出)上,其中所述介質(zhì)在目前的情況下可以通過光盤(CD)來形成。此時應(yīng)該提及的是,也可以提供DVD、類似磁帶的數(shù)據(jù)載體或硬盤來作為所述介質(zhì)。在目前的情況下,計算機(jī)把單個微處理器作為其處理單元。然而應(yīng)該提及的是,為了性能,還可以提供多個微處理器,諸如作為每個識別裝置18、20、21、22、23和24的專用微處理器。在目前的情況下,所述計算機(jī)1A的內(nèi)部存儲器1B可通過硬盤(圖1中未示出)和暫時存儲器39的組合來實現(xiàn),所述暫時存儲器39通過所謂的RAM來構(gòu)成,這就意味著所述計算機(jī)程序產(chǎn)品可以首先從計算機(jī)可讀介質(zhì)被存儲到硬盤上,并且可以被載入暫時存儲器39,以便由所述處理單元運行,正如本領(lǐng)域技術(shù)人員所熟知的那樣。所述存儲器1B還被設(shè)置為存儲預(yù)處理音頻信號PAS和信息項CHI、ASI、LI、SGI和CI,并且存儲時間相關(guān)數(shù)據(jù)項目(圖1中未示出)。所述時間相關(guān)數(shù)據(jù)項表示語音信息SI的子區(qū)域和分別對應(yīng)于這些子區(qū)域的信息項CHI、ASI、LI、SGI以及CI之間的時間相關(guān)性,以便能夠以正確的瞬態(tài)同步來為所述語音信息SI的給定子區(qū)域識別聲學(xué)分割、語言、講話者組合、上下文關(guān)系或主題以及文本信息TI。
通過規(guī)定依照本發(fā)明的特征、以有益方式獲得的效果在于在表示語音信息SI特征的多個語言屬性被同時經(jīng)受基本上在隨機(jī)時間點出現(xiàn)的改變的應(yīng)用中,可以第一次使用所述語音識別設(shè)備1或所述語音識別方法。此類應(yīng)用例如在會議轉(zhuǎn)錄系統(tǒng)的實例中存在,其中由任意會議參與者產(chǎn)生的語音信息SI必須被連續(xù)地并且近似實時地轉(zhuǎn)換為文本信息TI,在這種情況下,會議室中的會議參與者把所述語音信息SI經(jīng)由第一接收通道3、借助于所述音頻信號AS提供至語音識別設(shè)備1。在該情況下,所述會議參與者可以使用不同的語言,并且可以屬于不同的講話者組合。此外,會議期間會出現(xiàn)諸如背景噪聲的環(huán)境,這會影響聲學(xué)分割。同時,當(dāng)時正使用的上下文關(guān)系或主題可能在會議期間改變。對于不在會議室的會議參與者來說,能夠把與他們相關(guān)的語音信息SI經(jīng)由其他接收通道5、6和7提供至語音識別設(shè)備1,也是十分有益的。甚至在該情況下,也可以保證語音識別設(shè)備1將可靠地識別所述文本信息TI,這是因為在給定情況中正使用的接收通道3、5、6或7被識別,并且在識別所述語言屬性、即在生成和更新信息項CHI、ASI、LI、SCI和CI的過程中,還要繼續(xù)考慮它。
例如在呼叫中心,當(dāng)持續(xù)記錄由正使用不同語言的任意人員的呼叫時,也存在此類應(yīng)用。
例如在自動電話信息服務(wù)的情況下,當(dāng)任意需求類別的呼叫者需要被服務(wù)時,也存在此類應(yīng)用。此時應(yīng)該清楚表明的是,這里已經(jīng)被引證的應(yīng)用不表示全部的并且徹底的枚舉。
圖3中所示的所述特征向量提取裝置19具有預(yù)加強站40,其被設(shè)置為接收所述音頻信號AS并且發(fā)出修改的音頻信號AS”,所述AS”表示所述音頻信號AS在修改的音頻信號AS”中被加強的更高頻率,以便使所述頻率響應(yīng)變平。此外還提供了幀模塊化站41,其被設(shè)置為接收所述經(jīng)修改的音頻信號AS”,并且發(fā)出被嵌入幀F(xiàn)中的修改的部分音頻信號AS”。在此情況下,音頻信號AS”的相鄰幀F(xiàn)在它們的邊緣區(qū)域具有瞬態(tài)重疊。此外還提供了視窗站42,其被設(shè)置為接收所述幀F(xiàn),并且生成表示所述幀F(xiàn)的修改的幀F(xiàn)′,其中修改的幀F(xiàn)′受到由幀F(xiàn)表示的音頻信號的帶寬限制,以便在后續(xù)轉(zhuǎn)換至頻譜電平時避免不期望的影響。在目前的情況下,把所謂的Hemming視窗用于所述視窗站。然而,應(yīng)該提及的是,其他類型的視窗也可使用。此外還提供了快速傅里葉變換站43,其被設(shè)置為接收所述修改的幀F(xiàn),并且在所述頻譜電平上對應(yīng)于修改的幀F(xiàn)中包含的受帶寬限制的音頻信號AS”的向量V1,在目前的情況下使用了所謂的“補零法”方法。此外還提供了對數(shù)濾波器組站44,其被設(shè)置為接收第一向量V1和通道信息CHI,并且使用第一向量V1并且同時考慮所述通道信息CHI來生成并且發(fā)出第二向量V2,所述第二向量V2表示可以由濾波器組方法根據(jù)第一向量V1生成的中間向量的對數(shù)映射。
圖12中所示的所述對數(shù)濾波器組站44具有濾波器組參數(shù)庫站44A,用于存儲濾波器組參數(shù)庫。此外還提供了濾波器參數(shù)選擇站44B,其被設(shè)置為接收所述通道信息CHI,并且選擇對應(yīng)于所述通道信息CHI的濾波器組參數(shù)FP。此外還提供了所謂的對數(shù)濾波器組核心44C,其被設(shè)置為處理第一向量V1,并且生成第二向量V2,所述第二向量V2與可從所述濾波器參數(shù)選擇站44B接收的濾波器組參數(shù)FP有關(guān)。
圖3中所示的所述特征向量提取裝置19還具有第一正規(guī)化站45,其被設(shè)置為接收第二向量V2,并且用于生成和發(fā)出第三向量V3,所述第三向量V3相對于第二向量V2的幅度沒有意義。這樣確保能夠進(jìn)一步處理,而不管所涉及的特定接收通道如何。此外還提供了第二正規(guī)化站46,其被設(shè)置為接收所述第三向量V3,并且在考慮適用于第三向量V3的每個分量的瞬態(tài)差異的同時,來生成第四向量V4,所述第四向量V4相對于第三向量V3的瞬態(tài)差異而被正規(guī)化。此外還提供了離散余弦變換站47,其被設(shè)置為接收所述第四向量V4,并且用于把所述第四向量V4轉(zhuǎn)換為所謂的“cepstral”電平,并且發(fā)出對應(yīng)于第四向量V4的第五向量V5。此外還提供了特征向量生成站48,其被設(shè)置為接收所述第五向量V5,并且生成第五向量V5的第一和第二時間導(dǎo)數(shù),這意味著具有特征向量FV的形式的所述音頻信號AS的矢量表示在所述“cepstral”電平上具有所述第五向量V5以及對應(yīng)于此的時間導(dǎo)數(shù),其中所述矢量表示可以由所述特征向量生成站48發(fā)出。
圖4中所示的接收通道識別裝置18的輸入端具有頻譜向量提取站49,其被設(shè)置為接收所述音頻信號AS,并且提取和發(fā)出頻譜向量V6,其中頻譜向量V6表示所述頻譜電平上的所述音頻信號AS。所述接收通道識別裝置18還具有帶寬受限識別站50,其被設(shè)置為接收所述頻譜向量V6,并且通過使用所述頻譜向量V6來識別所述音頻信號AS的頻帶限制,在特別情況中找到的帶寬限制是四個接收通道的其中一個的表示。所述帶寬受限識別站50還被設(shè)置為發(fā)出帶寬受限信息BWI項,其表示識別出的帶寬限制。所述接收通道識別裝置18還具有通道歸類站51,其被設(shè)置為接收所述帶寬受限信息BWI,并且通過使用此信息BWI來歸類當(dāng)時存在的所述接收通道,并且生成對應(yīng)于其的所述通道信息CHI。
圖5中所示的第一語言屬性識別裝置20具有語音暫停識別站52、非語音識別站53和音樂識別站53,可以把所述特征向量饋送到每個識別站52、53和54。所述語音暫停識別站52被設(shè)置為識別表示語音暫停的特征向量FV,并且發(fā)出表示識別結(jié)果的語音暫停信息SI項。所述非語音識別站53被設(shè)置為接收所述通道信息CHI,并且在考慮通道信息CHI的同時來識別表示非語音的特征向量FV,并且發(fā)出表示非語音的非語音信息NSI項。所述音樂識別站54被設(shè)置為接收所述通道信息CHI,并且在考慮通道信息CHI的同時來識別音樂的特征向量FV,并且生成表示識別出音樂的音樂信息MI項。第一語言屬性識別裝置20還具有信息分析站55,其被設(shè)置為接收所述語音暫停信息SI、非語音信息NSI和音樂信息MI。所述信息分析站55還被設(shè)置為分析所述信息項SI、NSI和MI,并且通過所述分析來生成和發(fā)出分割信息ASI,所述分割信息ASI說明當(dāng)時由特征向量FV表示的音頻信號AS的幀是與語音暫停、非語音還是音樂相關(guān)聯(lián),并且,如果所述給定幀不與語音暫停、非語音或者音樂相關(guān)聯(lián),那么說明所述特定幀與語音相關(guān)聯(lián)。
圖13中詳細(xì)示出的所述音樂識別站54被設(shè)置為以一種可訓(xùn)練的方式來識別音樂,并且為此目的,將其設(shè)置為接收分割訓(xùn)練信息STI。所述音樂識別站54具有歸類站56,借助于兩組所謂的“高斯混合模型”被設(shè)置為把所述特征向量FV歸類為表示音樂的特征向量FV和表示非音樂的特征向量FV。屬于第一組的第一高斯混合模型GMM1的每個均被分配給音樂類別,并且屬于第二組的第二高斯混合模型GMM2的每個均被分配給非音樂類別。所述歸類站56還被設(shè)置為發(fā)出作為歸類結(jié)果的音樂信息MI。所述音樂識別站54還具有第一模型選擇站57和第一模型存儲站58。對于每個接收通道而言,所述第一模型存儲站58被設(shè)置為存儲分配給音樂類別的高斯混合模型GMM1以及分配給非音樂類別的高斯混合模型GMM2。所述第一模型選擇站57被設(shè)置為接收所述通道信息CHI,并且借助于通道信息CHI來選擇一對高斯混合模型GMM1和GMM2,該對模型對應(yīng)于在給定的情況下說明的接收通道,并且依照此特定通道的方式來把所選的高斯混合模型GMM1和GMM2傳輸至歸類站56。
所述音樂識別站54還被設(shè)置為訓(xùn)練所述高斯混合模型,并且為此目的,它具有第一訓(xùn)練站59以及第一數(shù)據(jù)流控制站60。在訓(xùn)練的過程中,均屬于單個類、也就是音樂或非音樂的特征向量FV以預(yù)定方式借助于數(shù)據(jù)流控制站60被送到所述第一訓(xùn)練站59。所述訓(xùn)練站59還被設(shè)置為訓(xùn)練所述特定通道的高斯混合模型GMM1和GMM2對。所述第一模型選擇站57被設(shè)置為把所述高斯混合模型GMM1和GMM2借助于通道信息CHI和分割訓(xùn)練信息STI傳輸至第一模型存儲站58中意欲供它們使用的存儲位置。
圖6中所示的所述第二語言屬性識別裝置21在輸入端具有第一語音濾波器站61,其被設(shè)置為接收所述特征向量FV和所述分割信息ASI,并且通過使用所述特征向量FV和分割信息ASI來濾出表示語音的特征向量FV,并且發(fā)出表示語音的特征向量FV。所述第二語言屬性識別裝置21還具有第二模型存儲站62,其被設(shè)置并且意欲存儲四個接收通道的每個的多語言第一音素模型PM1。所述識別裝置21還具有第二模型選擇站63,其被設(shè)置為接收所述通道信息CHI,并且在第二模型存儲站62中通過使用所述通道信息CHI來訪問多語言音素模型PM1,其對應(yīng)于通道信息CHI說明的接收通道,并且發(fā)出以此方式被選擇的特定通道的多語言音素模型PM1。所述識別裝置21還具有音素識別站64,其被設(shè)置為接收表示語音和音素模型PM1的特征向量FV,并且通過使用所述特征向量FV和音素模型PM1來生成并且發(fā)出由特征向量FV表示的語言的標(biāo)音PT。所述識別裝置21還具有第三模型存儲站65,其被設(shè)置并且意欲為每種語言存儲音位結(jié)構(gòu)模型PTM。所述識別裝置21還具有第二歸類站66,其被設(shè)置為訪問第三模型存儲站65,并且借助于所述音位結(jié)構(gòu)模型PTM來根據(jù)音位結(jié)構(gòu)來歸類所述標(biāo)音PT,提供語言的概率是可為每種可利用語言確定的。所述第二歸類站66被設(shè)置為生成并且發(fā)出作為確定對應(yīng)于每種語言的概率結(jié)果的所述語言信息LI,所述語言信息LI給出了得到最高概率的語言。
在識別語言方面,所述識別裝置21可以依照可訓(xùn)練的方式來起作用,并且為此目的,其具有第二數(shù)據(jù)流控制站67、第三數(shù)據(jù)流控制站68、第二訓(xùn)練站69和第三訓(xùn)練站70。如果進(jìn)行訓(xùn)練,可以把表示語音的所述特征向量FV借助于所述第二數(shù)據(jù)流控制站67送到所述第二訓(xùn)練站69。所述第二訓(xùn)練站69被設(shè)置為接收這些特征向量FV,接收訓(xùn)練文本信息TTI并且接收通道信息CHI,在這種情況下,由所述訓(xùn)練文本信息TTI構(gòu)成的標(biāo)音對應(yīng)于由所述特征向量FV表示的語言。因此,通過使用所述特征向量FV和訓(xùn)練文本信息TTI,所述第二訓(xùn)練站69被設(shè)置為訓(xùn)練所述音素模型PM1,并且把訓(xùn)練了的音素模型PM1傳輸至模型選擇站63。所述模型選擇站63還借助于所述通道信息CHI被設(shè)置為把訓(xùn)練了的音素模型PM1傳輸至所述第二模型存儲站62,其中可以將其存儲在所述第二模型存儲站62中對應(yīng)于所述通道信息CHI的存儲位置。
在訓(xùn)練過程中,能夠通過所述音素識別站64產(chǎn)生的所述標(biāo)音PT還可以借助于所述第三數(shù)據(jù)流控制站68被送到第三訓(xùn)練站70。所述第三訓(xùn)練站70被設(shè)置為接收所述標(biāo)音PT,以便訓(xùn)練分配給給定訓(xùn)練語言信息TLI的音位結(jié)構(gòu)模型PTM,并且把它傳輸至所述第三模型存儲站65。所述第三模型存儲站65被設(shè)置為把屬于一種語言的音位結(jié)構(gòu)模型PTM存儲在對應(yīng)于所述訓(xùn)練語言信息TLI的存儲位置。此時應(yīng)該提及的是,存儲在所述第二模型存儲站62和第三模型存儲站65中的模型PM1和PM2在專業(yè)術(shù)語中被稱為可訓(xùn)練的資源。
在圖14詳細(xì)示出的是第二訓(xùn)練站69,并且其具有第四模型存儲站71,第三模型選擇站72、模型組合站73、模型定位站74和模型估計站75。所述第四模型存儲站71被設(shè)置并且意欲為每個通道和每種語言存儲特定通道和特定語言的初始音素模型IPM。所述第三模型選擇站72被設(shè)置為訪問所述第四模型存儲站71,并且接收所述通道信息CHI,并且為所有語言、通過使用所述通道信息CHI來讀出對應(yīng)于所述通道信息CHI的初始音素模型IPM。所述第三模型選擇站72還被設(shè)置為把對應(yīng)于給定通道的多種特定語言音素模型IPM傳輸至所述模型組合站73。所述模型組合站73被設(shè)置為集合彼此類似并且屬于不同語言的特定語言音素模型IPM,并且生成初始多語言音素模型IMPM并且把它傳輸至所述模型定位站74。所述模型定位站74被設(shè)置為接收表示語音的特征向量FV以及對應(yīng)于其的訓(xùn)練文本信息TTI,并且借助于所述初始多語言音素模型IMPM來生成定位信息RE項,所述定位信息RE意欲把所述特征向量FV與所述訓(xùn)練文本信息TTI表示的文本段對準(zhǔn),所述定位信息RE項在專業(yè)術(shù)語中也被稱為“路徑”。定位信息RE以及特征向量FV的項可以通過所述模型定位站74傳輸?shù)剿瞿P凸烙嬚?5。通過使用定位信息RE以及所述特征向量FV項,所述模型估計站75被設(shè)置為基于所述初始多語言音素模型IMPM來生成多語言音素模型PM1,并且把它傳輸至圖7中所示的所述第二模型存儲站62。為此目的,并且使用所述特征向量FV以及所述定位信息RE,生成臨時多語言音素模型TMPM,并且傳輸?shù)剿瞿P凸烙嬚?4,所述多語言音素模型PM1在多個迭代站被生成,即通過所述站74和75的重復(fù)合作來生成。
圖7中所示的所述第三語言屬性識別裝置22在輸入端具有第二語音濾波器站76,其被設(shè)置為接收所述特征向量FV和所述分割信息ASI,并且通過使用分割信息ASI來濾出并且發(fā)出表示語音的特征向量FV。所述識別裝置22還具有第五模型存儲站77,其被設(shè)置并且意欲為每個通道和每種語言存儲講話者組合模型SGM。所述識別裝置22還具有第四模型選擇站78,其被設(shè)置為接收所述通道信息CHI和語言信息LI,并且通過使用所述通道信息CHI和語言信息LI來訪問給定講話者組合模型SGM,所述給定講話者組合模型SGM對應(yīng)于給定通道信息CHI和給定語言信息LI。所述第四模型選擇站78還被設(shè)置為傳輸所述講話者組合模型SGM,所述SGM可以作為訪問第五模型存儲站77的結(jié)果被讀出。所述識別裝置22還具有第三歸類站79,其被設(shè)置為接收通過所述第四模型選擇站78選擇的與信息項CHI和LI有關(guān)的講話者組合模型SGM,并且接收表示語音的特征向量FV,并且借助于所選的講話者組合模型SGM來歸類所述講話者組合,其中可以把所述特征向量FV分配給所述講話者組合。所述第三歸類站79還被設(shè)置為生成并且發(fā)出作為歸類結(jié)果的講話者組合信息SGI。
借助于所述第五模型存儲站77,實現(xiàn)了進(jìn)一步可訓(xùn)練的資源,存儲在其中的講話者組合模型SGM可以依照可訓(xùn)練的方式來改變。為此目的,所述識別裝置22具有第四訓(xùn)練站80和第四數(shù)據(jù)流控制站81。如果進(jìn)行訓(xùn)練,可以把表示語言的所述特征向量FV借助于所述第四數(shù)據(jù)流控制站81送到所述第四訓(xùn)練站80。對于多個講話者而言,所述第四訓(xùn)練站80被設(shè)置為接收分配給相應(yīng)一個講話者的特征向量FV和對應(yīng)于每個特征向量FV的訓(xùn)練文本信息TTI,訓(xùn)練所述給定講話者組合模型SGM,并且把給定的已訓(xùn)練講話者組合模型SGM傳輸至第四模型選擇站78。
圖15中詳細(xì)示出的所述第四訓(xùn)練站80具有第六模型存儲站82、第五模型選擇站83、模型適應(yīng)站84、緩沖存儲器站85和模型組合站86。所述第六模型存儲站82被設(shè)置并且意欲為每個通道和每種語言存儲單個講話者音素模型SIPM。所述第五模型選擇站83被設(shè)置為接收所述通道信息CHI和所述語言信息LI,并且通過使用這些信息CHI和LI項來訪問所述第六模型存儲站82,或者,對應(yīng)于給定信息項CHI和LI的初始單個講話者音素模型SIPM,并且發(fā)出所述單個講話者音素模型SIPM,其中所述SIPM已經(jīng)被選擇并且現(xiàn)在是特定通道和特定語言。
所述模型適應(yīng)站84被設(shè)置為接收所述初始單個講話者音素模型SIPM,所述SIPM是依照所述通道信息CHI和所述語言信息LI來選擇的,并且由此是特定通道并且特定語言、表示所述語言的特征向量FV以及對應(yīng)于這些的訓(xùn)練文本信息TTI。對于其語音信息SI通過所述特征向量FV表示的多個講話者而言,所述模型適應(yīng)站84還被設(shè)置為生成一個講話者模型SM,并且把它傳輸至所述緩沖存儲器站85,其中可存儲給定的講話者模型。所述講話者模型SM是通過使用適當(dāng)處理、基于單個講話者音素模型SIPM來生成的。一旦已經(jīng)為總體數(shù)目的講話者存儲了講話者模型SM,那么可以借助于模型組合站86根據(jù)類似講話者的屬性來把多個講話者模型集合到單個講話者組合模型SGM中。所述單個講話者組合模型SGM可以被傳輸?shù)剿瞿P瓦x擇站78,并且可以使用信息項CHI和LI、并通過所述模型選擇站78來存儲在所述模型存儲站77中。
圖8中所示的所述第四語言屬性識別裝置23具有用于識別關(guān)鍵字音素順序的站88、關(guān)鍵字識別站89和用于為上下文關(guān)系或主題分配關(guān)鍵字的站90。所述站88被設(shè)置為接收所述特征向量FV,以便接收第二音素模型PM2,所述第二音素模型PM2是特定通道、特定語言并且特定講話者組合的,并且接收關(guān)鍵字詞典信息KLI。通過使用所述第二音素模型PM2和所述關(guān)鍵字詞典信息KLI,所述站88被進(jìn)一步設(shè)置為識別由所述特征向量FV表示的關(guān)鍵字順序,并且生成和發(fā)出關(guān)鍵字評級信息KSI,其表示已經(jīng)識別出的關(guān)鍵字和識別出它的概率。所述關(guān)鍵字識別站89被設(shè)置為接收所述關(guān)鍵字評級信息KSI,并且接收關(guān)鍵字判斷閾值KWDT,其依賴于所述接收通道、語言、講話者組合和關(guān)鍵字。借助于所述關(guān)鍵字判斷閾值KWDT,所述站89被進(jìn)一步設(shè)置為識別借助于所述關(guān)鍵字評級信息KSI接收到的哪些關(guān)鍵字已被識別出。所述關(guān)鍵字識別站89被設(shè)置為生成作為此識別結(jié)果的關(guān)鍵字信息KWI,并且把所述關(guān)鍵字信息KWI傳輸至所述站90,所述站90用于為上下文關(guān)系或主題分配關(guān)鍵字。用于為主題分配關(guān)鍵字的所述站90被設(shè)置為把借助于關(guān)鍵字信息KWI接收到的關(guān)鍵字分配給上下文關(guān)系,在專業(yè)術(shù)語中還將所述上下文關(guān)系稱為主題。用于為上下文關(guān)系或主題分配關(guān)鍵字的所述站90被設(shè)置為生成作為此分配結(jié)果的上下文關(guān)系信息CI。所述第四語言屬性識別裝置23還具有第七模型存儲站91,其被設(shè)置并且意欲為每個接收通道、每種語言并且每個講話者組合存儲所述第二音素模型PM2。所述識別裝置23還具有第六模型選擇站92,其被設(shè)置為接收通道信息CHI、語言信息LI和講話者組合信息SGI。借助于所述通道信息CHI、語言信息LI和講話者組合信息SGI,所述第六模型選擇站92被進(jìn)一步設(shè)置為選擇存儲在所述第七模型存儲站91中的第二音素模型PM2,并且把所選的第二音素模型PM2傳輸至用于識別關(guān)鍵字音素順序的所述站88。
所述識別裝置23還具有關(guān)鍵字詞典存儲站93以及語言選擇站94。所述關(guān)鍵字詞典存儲站93被設(shè)置并且意欲為每種可利用的語言存儲關(guān)鍵字。所述語言選擇站94被設(shè)置為接收所述語言信息LI,并且在這種情況下,借助于所述語言信息LI來訪問所述關(guān)鍵字詞典存儲站93,對應(yīng)于所述語言信息LI并且表示語言中的關(guān)鍵字的關(guān)鍵字詞典信息KLI可以被傳輸?shù)接糜谧R別關(guān)鍵字音素順序的所述站88。所述識別裝置23還具有閾值存儲站95,其被設(shè)置并且意欲存儲關(guān)鍵字判斷閾值KWDT,所述KWDT取決于給定的接收通道、語言、講話者組合以及關(guān)鍵字。所述識別裝置23還具有閾值選擇站96,其被設(shè)置為接收通道信息CHI、語言信息LI和講話者組合信息SGI。所述閾值選擇站96還被設(shè)置為訪問對應(yīng)于信息項CHI、LI和SGI的所述關(guān)鍵字判斷閾值KWDT,其是存儲在閾值存儲站95中的。所述閾值選擇站96還被設(shè)置為把已經(jīng)選擇的關(guān)鍵字判斷閾值KWDT以這種方式傳輸至所述關(guān)鍵字識別站89。
所述識別裝置23還被設(shè)置為以可訓(xùn)練的方式來識別上下文關(guān)系或主題信息CI,兩個可訓(xùn)練的資源是由第七模型存儲站91和閾值存儲站95而形成的。所述識別裝置23還具有第五訓(xùn)練站97、第六訓(xùn)練站98、第五數(shù)據(jù)流控制站99和第六數(shù)據(jù)流控制站100。當(dāng)將要訓(xùn)練所述識別裝置23時,可以把所述特征向量FV借助于所述第六數(shù)據(jù)流控制站100送到所述第五訓(xùn)練站97。所述第五訓(xùn)練站97還被設(shè)置為接收所述特征向量FV和對應(yīng)于其的訓(xùn)練文本信息TTI,并且借助于所謂的維特比算法來生成其中一個第二音素模型PM2,并且把它作為為每個通道、每種語言和每個講話者組合生成的第二音素模型PM2的結(jié)果傳輸至所述第六模型選擇站92。借助于所述模型選擇站92,可以把第二音素模型PM2存儲在所述模型存儲站91中,并且存儲在可借助于信息項CHI、LI和SGI確定的存儲位置處。借助于所述第五數(shù)據(jù)流控制站99,還可以把所述關(guān)鍵字詞典信息KLI送到第六訓(xùn)練站98。在訓(xùn)練過程中,用于識別關(guān)鍵字音素順序的所述站88被設(shè)置為識別表示所述語言的特征向量FV中的音素順序,并且生成表示已經(jīng)識別出的音素順序的音素評級信息PSI,并且將其傳輸至所述第六訓(xùn)練站98,所述音素評級信息PSI表示已經(jīng)為它們中的每個識別出的音素以及識別它們所依照的概率。
所述第六訓(xùn)練站98被設(shè)置為接收所述音素評級信息PSI和關(guān)鍵字詞典信息KLI,并且通過使用這兩項信息PSI和KLI來生成、即訓(xùn)練對應(yīng)于所述信息項CHI、LI和SGI的關(guān)鍵字判斷閾值KWDT,并且將其傳輸至所述閾值選擇站96。通過使用所述信息項CHI、LI和SGI,所述閾值選擇站96還被設(shè)置為把所述關(guān)鍵字判斷閾值KWDT傳輸至閾值存儲裝置95。借助于所述閾值選擇站96,所述關(guān)鍵字判斷閾值KWDT可以被存儲在借助于信息項CHI、LI和SGI確定的存儲位置處。
圖16中詳細(xì)示出的第六訓(xùn)練站98具有用于評估音素分布概率的站101,將其設(shè)置為接收所述音素評級信息PSI,并且基于在所有情況下應(yīng)用的高斯分布的假定來評估所講音素和未講音素的統(tǒng)計分布。由此把站101設(shè)置為生成并且發(fā)出作為此評估處理結(jié)果的評估信息EI的第一項。所述第六訓(xùn)練站98還具有用于評估關(guān)鍵字概率分布的站102,其被設(shè)置為接收評估信息EI的第一項和關(guān)鍵字詞典信息KLI。通過使用兩個信息項KLI和EI,站102還被設(shè)置為為已講關(guān)鍵字和未講關(guān)鍵字評估統(tǒng)計分布。所述站102還被設(shè)置為生成并且發(fā)出作為此評估處理結(jié)果的評估信息E2的第二項。所述第六訓(xùn)練站98還具有用于評估關(guān)鍵字判斷閾值的站103,通過使用評估信息E2的第二項,所述站103被設(shè)置為評估特定的關(guān)鍵字判斷閾值KWDT,并且發(fā)出作為此評估處理結(jié)果的關(guān)鍵字判斷閾值KWDT。
圖9中詳細(xì)示出的所述語音識別裝置24在輸入端具有第三語音濾波器站104,其被設(shè)置為接收所述特征向量FV,并且接收所述分割信息ASI,通過使用分割信息ASI來濾出所接收的濾波向量FV并且發(fā)出表示語音的特征向量FV。
所述識別裝置24還具有語音模式識別站105,其被設(shè)置為接收表示語音的濾波向量FV,接收第三音素模型PM3并且接收上下文關(guān)系或主題數(shù)據(jù)CD。通過使用所述第三音素模型PM3以及上下文關(guān)系數(shù)據(jù)CD,所述語音模式識別站105還被設(shè)置為識別表示語音的所述特征向量FV中的模式,并且作為識別此類模式的結(jié)果,生成并且發(fā)出單詞圖表信息WGI。所述單詞圖表信息WGI表示單詞順序以及它們相關(guān)聯(lián)的概率信息項的圖表,所述概率信息說明單詞順序能夠出現(xiàn)在特定已講語言中的概率。
所述識別裝置24還具有圖表評級站106,其被設(shè)置為接收所述單詞圖表信息WGI,并且找出圖表中就文本信息TI的識別而言、哪一路徑具有最好的單詞順序。所述圖表評級站106還被設(shè)置為發(fā)出對應(yīng)于作為得到此最佳單詞順序結(jié)果的最佳單詞順序的重新格式化文本信息TI′。
所述識別裝置24還具有格式化存儲站107和格式化站108。所述格式化存儲站107被設(shè)置為存儲格式化信息FI,借助于所述FI,可以表示出說明將要如何格式化所述重新格式化文本信息TI′的規(guī)則。所述格式化站108被設(shè)置為接收所述重新格式化文本信息TI′,并且訪問所述格式化存儲站107并且讀出所述格式化信息FI。通過使用所述格式化信息FI,所述格式化108還設(shè)置為格式化所述重新格式化文本信息TI′,并且生成和發(fā)出作為格式化結(jié)果的文本信息TI。
所述識別裝置24還具有第七模型存儲站109,其被設(shè)置并且意欲為每個接收通道、每種語言并且每個講話者組合存儲第三音素模型PM3。此外還提供了第七模型選擇站110,其被設(shè)置為接收所述通道信息CHI、語言信息LI和講話者組合信息SGI。通過使用所述信息項CHI、LI和SGI,所述第七模型選擇站110還被設(shè)置為訪問所述第七模型存儲站109中對應(yīng)于信息項CHI、LI和SGI的第三音素模型PM3,并且讀出此特定通道、特定語言和特定講話者組合的第三音素模型PM3將其讀入所述語音模式識別站105。所述識別裝置24還具有上下文關(guān)系或主題存儲站111。所述上下文關(guān)系或主題存儲站111意在存儲上下文關(guān)系或主題數(shù)據(jù)CD,其中為上下文關(guān)系或主題信息CI的每項和每種語言,上下文關(guān)系數(shù)據(jù)CD表示詞典信息LXI以及對應(yīng)于所述詞典信息LXI的語言模型LM。所述上下文關(guān)系存儲站111具有詞典存儲區(qū)113,其中可以存儲特殊的詞典信息LXI,其中詞典信息LXI包括單詞和單詞的音素轉(zhuǎn)錄。所述上下文關(guān)系或主題存儲站111具有語言模型存儲站112,其中可以存儲對應(yīng)于給定詞典信息LXI的語言模型LM。所述識別裝置24還具有上下文關(guān)系或主題選擇站114,其被設(shè)置為接收所述上下文關(guān)系或主題信息CI。
此時應(yīng)該提及的是,不把所述語言信息明確地送到所述上下文關(guān)系選擇站114,因為所述上下文關(guān)系信息隱含地表示語言。
通過使用所述上下文關(guān)系或主題信息CI和有關(guān)隱含表示的給定語言的信息,所述上下文關(guān)系或主題選擇站114還被設(shè)置為訪問所述語言模型LM,在所述上下文關(guān)系存儲站111中,其對應(yīng)于給定的上下文關(guān)系或主題信息CI和所述詞典信息LXI,并且把所選語言模型LM和所選詞典信息LXI以上下文關(guān)系數(shù)據(jù)CD的形式傳輸至語音模式識別站105。
所述語音識別裝置24還被設(shè)置為以可訓(xùn)練方式來生成所述第三音素模型PM3、所述詞典信息LXI和對應(yīng)于一組詞典信息LXI的每種語言模型LM。就此而論,所述第七模型存儲站109和上下文關(guān)系存儲器站111構(gòu)成了所述識別裝置24的可訓(xùn)練資源。
為了訓(xùn)練所述可訓(xùn)練的資源,所述識別裝置24具有第七數(shù)據(jù)流控制站115和第七訓(xùn)練站116。在訓(xùn)練過程中,所述第七數(shù)據(jù)流控制站115被設(shè)置為不把表示語音的特征向量FV傳輸至語音模式識別站105,而是傳輸至所述第七訓(xùn)練站116。所述第七訓(xùn)練站116被設(shè)置為接收表示語音的特征向量FV以及對應(yīng)于其的訓(xùn)練文本信息TTI。通過使用所述特征向量FV以及所述訓(xùn)練文本信息TTI并且借助于維特比算法,所述第七訓(xùn)練站116還被設(shè)置為生成給定的第三音素模型PM3,并且將其傳輸至所述第七模型選擇站110,由此使對應(yīng)于通道信息CHI、語言信息LI或講話者組合信息SGI(視情況而定)的第三已訓(xùn)練音素模型PM3能夠借助于所述第七模型選擇站110存儲在第七模型存儲站109中,并且存儲在由信息項CHI、SGI以及LI定義的存儲位置。
所述識別裝置24還具有語言模型訓(xùn)練站117,其被設(shè)置為接收相對較大的訓(xùn)練文本,所述文本在專用術(shù)語中被稱為全集,并且通過全集信息COR表示。通過使用所述全集信息COR并且借助于通過信息CI說明的主題和通過信息CI隱含說明的語言所確定的詞典信息LXI,所述語言模型訓(xùn)練站117被設(shè)置為訓(xùn)練或生成對應(yīng)于上下文關(guān)系或主題信息CI的每一項以及由此隱含表示的語言的語言模型LM,以這種方式確定的所述詞典信息LXI能夠借助于上下文關(guān)系選擇站114從所述詞典存儲站113被讀出,并且將被傳輸?shù)剿稣Z言模型訓(xùn)練站117。所述語言模型訓(xùn)練站117被設(shè)置為把已經(jīng)訓(xùn)練的語言模型LM傳輸至上下文關(guān)系選擇站114,此后,借助于所述上下文關(guān)系選擇站114并且通過使用所述信息CI來存儲所述語言模型LM,并且將其存儲在語音模型存儲區(qū)112中意欲供它使用的存儲位置。
所述識別裝置24還具有詞典生成站118,其被同樣設(shè)置為接收全集信息COR,并且通過使用所述全集信息COR來生成對應(yīng)于上下文關(guān)系信息每一項以及由此隱含表示的語言的詞典信息LXI,并且將其傳輸至上下文關(guān)系選擇站114,此后,借助于所述上下文關(guān)系選擇站114并且通過使用所述信息CI,把所述詞典信息LXI存儲在語音模型存儲區(qū)112中意欲供它使用的存儲位置。為了生成所述詞典信息LXI,所述識別裝置24具有后站詞典存儲站119,其被設(shè)置為存儲后站詞典,其中后站詞典包含單詞以及單詞的關(guān)聯(lián)語言學(xué)轉(zhuǎn)錄的基本庫存,如由后站轉(zhuǎn)錄信息BTI來表示,并且可以被發(fā)出。所述識別裝置24還具有統(tǒng)計轉(zhuǎn)錄站120,基于統(tǒng)計轉(zhuǎn)錄處理,其被設(shè)置為生成所述全集中包含的單詞的標(biāo)音,所述標(biāo)音可以依照統(tǒng)計轉(zhuǎn)錄信息STI表示的形式被發(fā)出。
所述識別裝置24還具有標(biāo)音站121,其被設(shè)置為接收包含全集的所述全集文本信息CTI中每一單個單詞,通過考慮上下文關(guān)系或主題信息CI以及有關(guān)其中隱含的語言的信息,可以使全集文本信息CTI的每一單詞的語言學(xué)轉(zhuǎn)錄依照全集標(biāo)音信息CPTI的形式可供詞典生成站118所利用,并且可以被傳輸至所述詞典生成站118。為此目的,所述語言學(xué)轉(zhuǎn)錄站121被設(shè)置為檢驗適當(dāng)?shù)臉?biāo)音是否對后站詞典存儲站119中的給定單詞有效。如果是這樣的話,那么所述信息BTI形成所述信息CPTI。如果適當(dāng)?shù)霓D(zhuǎn)錄不可利用,那么所述標(biāo)音站121被設(shè)置為使表示給定單詞的信息STI可以用于形成所述信息CTI。
此時應(yīng)該提及的是,所述第三音素模型PM3也稱為聲學(xué)基準(zhǔn),這意味著所述可訓(xùn)練的資源包括所述聲學(xué)基準(zhǔn)以及上下文關(guān)系或主題。
此時還應(yīng)該提及的是,在每個站69、80、97和116采用了所謂的訓(xùn)練詞典,借助于此,給定訓(xùn)練操作所需的標(biāo)音可以根據(jù)訓(xùn)練文本或全集信息TTI來生成。
在所述語音識別裝置24中,可以依照多級方式生成并且均表示語言屬性的信息項ASI、LI、SGI和CI產(chǎn)生三個主要的影響。第一影響在于借助于第三語音濾波器站104的分割信息ASI來控制特征向量FV的過濾。這給出了如下優(yōu)勢,可以精確地快速地并且可以自律地執(zhí)行文本信息TI的識別,而且無論先前方式如何都可執(zhí)行,其中表示所述語音信息SI的特征向量FV也許已受到例如背景噪聲的影響。第二影響在于借助于所述通道信息CHI、語言信息LI和講話者組合信息SGI,在所述資源處控制對應(yīng)于這些信息項的聲學(xué)基準(zhǔn)的選擇。這給出了如下的優(yōu)勢,因為所述聲學(xué)基準(zhǔn)以很大的準(zhǔn)確性來為語言的聲學(xué)語言屬性建模,所以給文本信息TI的精確識別帶來了相當(dāng)大的作用。第三影響在于借助于所述上下文關(guān)系或主題信息在所述資源處控制上下文關(guān)系或主題的選擇。這給出了如下的優(yōu)勢,對文本信息TI的精確和快速使用帶來了積極的作用。就精確識別而言,因為可選擇的主題為實際主題建模,在該情況下存在的主題比存在被嚴(yán)格預(yù)置的相對寬的主題的情況的精確性更高,故而可以獲得優(yōu)勢。就快速識別而言,因為對應(yīng)于上下文關(guān)系或主題信息CI的其中一項的特定詞匯只覆蓋語言中的一些單詞,并且因此可以相對小,并且能夠以相對高的速度來處理,故而可以獲得優(yōu)勢。
在目前的情況下,所述識別站21、22和24均具有各自的語音濾波器站61、76和104已經(jīng)被證實是十分有益的。由于其功能,所以所述識別站23隱含地包含語音濾波器機(jī)構(gòu)。應(yīng)該提及的是,代替三個語音濾波器站61、76和104,還可以提供如圖1所示的單個語音濾波器站122,將其連接至所述識別站21、22、23和24的上行端,這樣做不會對識別站23的操作產(chǎn)生任何不良影響。這樣往往給出如下的優(yōu)勢,其中所述三個語音濾波器站61、76和104往往變得不必要,并且在某種情況下,所述特征向量FV的處理因此可以被更快地執(zhí)行。
應(yīng)該提及的是,代替連接裝置20至24上行端的所述特征向量提取裝置19,每個裝置20至24可以具有分配給它的個體特征向量提取裝置,可以把預(yù)處理的音頻信號PAS饋送到其中。這使個體特征向量提取裝置的每個可以最佳地并且逐一地適應(yīng)其相應(yīng)裝置20至24的操作。這給出了如下的優(yōu)勢,其中可以依照逐個適應(yīng)的方式在不同于cepstral電平的電平上進(jìn)行預(yù)處理音頻信號PAS的矢量表示。
應(yīng)該提及的是,借助于存儲介質(zhì)或者借助于計算機(jī)網(wǎng)絡(luò),可以使所述語音信息SI為所述語音識別設(shè)備1來利用。
應(yīng)該提及的是,所述站12還可以通過硬件來實現(xiàn)。
應(yīng)該提及的是,所述轉(zhuǎn)換站實現(xiàn)站16還可以作為硬件方案來實現(xiàn)。
應(yīng)該提及的是,所述音頻信號PAS的子區(qū)域以及對應(yīng)于其的信息項CHI、ASI、LI、SGI和CI還可以依照所謂的軟件對象形式來存儲,并且識別裝置18、20、21、22、23和24可以被設(shè)置為生成、改變和處理這種軟件對象。所述音頻信號PAS的子區(qū)域的存儲、以及與它們分別相關(guān)聯(lián)的信息項CHI、ASI、LI、SGI和CI的存儲或管理,可以通過裝置18、20、21、22、23、24和25來獨立地執(zhí)行。還應(yīng)該提及的是裝置8、19以及所述站122可以通過軟件對象來實現(xiàn)。所述識別裝置18、20、21、22、23、24和25的情況也是一樣的。還應(yīng)該提及的是所述裝置8、18、19、20、21、22、23、24和25可以以硬件的形式來實現(xiàn)。
在如上所述的實施例中,所述裝置24形成所謂的“大型詞匯連續(xù)語音識別器”。然而應(yīng)該提及的是,所述裝置24還可以形成所謂的“命令和控制識別器”,在這種情況下,所述上下文關(guān)系或主題只包括詞典而不包括語言模型。該做出了允許管理至少一個語法模型的附加規(guī)定。
為了裝置23和24的目的,還可以做出把信息項CHI、LI和SGI合并成所謂的音素模型信息的規(guī)定,這是因為所述三個信息項確定特定的音素模型,盡管所述LI信息獨立于并且除裝置23情況下的所述音素典型信息之外被使用。這給出了簡化語音識別設(shè)備1的體系結(jié)構(gòu)的優(yōu)勢。
還可以做出進(jìn)一步的規(guī)定,以便使在裝置20中可以識別所謂的“口吃”。
權(quán)利要求
1.一種語音識別設(shè)備(1),用于識別對應(yīng)于語音信息(SI)的文本信息(TI),其中語音信息(SI)可以相對于語言屬性來描述特征,其中第一語言屬性識別裝置(20)通過如下方式提供,即通過使用所述語音信息(SI),被設(shè)置為識別第一語言屬性并且生成表示識別出的第一語言屬性的第一屬性信息(ASI),其中至少第二語言屬性識別裝置(21,22,23)被提供,通過使用所述語音信息(SI)被設(shè)置為識別所述語音信息(SI)的第二語言屬性,并且生成表示識別出的第二語言屬性的第二屬性信息(LI,SGI,CI),并且其中語音識別裝置(24)通過如下方式提供,其被設(shè)置為通過繼續(xù)考慮至少第一屬性信息(ASI)和第二屬性信息(LI,SGI,CI)來識別對應(yīng)于所述語音信息(SI)的文本信息(TI)。
2.如權(quán)利要求1所述的語音識別設(shè)備(1),其中接收裝置(2)通過如下方式提供,其被設(shè)置為經(jīng)由至少兩個可認(rèn)識的接收通道接收所述語音信息(SI),其中接收通道識別裝置(18)通過如下方式提供,其被設(shè)置為識別當(dāng)接收所述語音信息(SI)時正在使用的接收通道,并且生成表示識別出的接收通道的通道信息(CHI),并且其中至少兩個語言屬性識別裝置(20,21,22,23)和/或所述語音識別裝置(24)的至少一個被設(shè)置為考慮所述通道信息(CHI)。
3.如權(quán)利要求1所述的語音識別設(shè)備(1),其中所述語音識別裝置(24)被設(shè)置為以至少為一定時間間隔的延遲來識別所述文本信息(TI),所述時間間隔是至少兩個語言屬性識別裝置(20,21,22,23)生成至少兩項屬性信息(ASI,LI,SGI,CI)所需的,在所述時間間隔期間,一部分語音信息(SI)由至少兩個語言屬性識別裝置(20,21,22,23)用來生成至少兩項屬性信息(ASI,LI,SGI,CI),其中文本信息(TI)至少對應(yīng)于用于生成至少兩個屬性信息饋送項(ASI,LI,SGI,CI)的語音信息(SI)部分的子區(qū)域。
4.如權(quán)利要求1所述的語音識別設(shè)備(1),其中借助于語言屬性識別裝置(20,21,22)生成的屬性信息的至少一項(ASI,LI,SGI)可以被送到其他語言屬性識別裝置(21,22,23),并且其中其他語言屬性識別裝置(21,22,23)被設(shè)置為當(dāng)識別語音信息(SI)的語言屬性時并且當(dāng)生成所述屬性信息(LI,SGI,CI)時,考慮至少一項給輸入它們中的屬性信息(ASI,LI,SGI)。
5.如權(quán)利要求4所述的語音識別設(shè)備(1),其中其他語言屬性識別裝置(21,22,23)被設(shè)置為以至少為一定時間間隔的延遲來識別所述語言屬性,所述時間間隔是生成輸入它們中的至少一項屬性信息(ASI,LI,SGI)所需的,在所述時間間隔期間,一部分語音信息(SI)由所述語言屬性識別裝置(20,21,22)用來生成送到它們中的至少一項屬性信息(ASI,LI,SGI),所述語言屬性至少描述用于生成屬性信息(ASI,LI,SGI)的至少一個饋送項的語音信息(SI)部分的子區(qū)域的特征。
6.一種用于識別對應(yīng)于語音信息(SI)的文本信息(TI)的語音識別方法,其中語音信息(SI)可以根據(jù)語言屬性來描述特征,其中通過使用所述語音信息(SI),第一語言屬性被識別,其中表示被識別出的第一語言屬性的第一屬性信息(ASI)被生成,其中通過使用所述語音信息(SI)來識別至少一個第二語音屬性,其中表示被識別出的第二語言屬性的第二屬性信息(LI,SGI,CI)被生成,并且其中在繼續(xù)考慮至少第一屬性信息(ASI)和第二屬性信息(LI,SGI,CI)的同時來識別對應(yīng)于所述語音信息(SI)的文本信息(TI)。
7.如權(quán)利要求6所述的語音識別方法,其中所述語音信息(SI)經(jīng)由至少兩個可識別的接收通道的其中一個被接收,其中當(dāng)接收所述語音信息(SI)時正在使用的所述接收通道被識別,并且表示識別出的接收通道的通道信息(CHI)被生成,并且其中至少在生成至少一項屬性信息(ASI,LI,SGI,CHI)和/或在識別文本信息(TI)的過程中要考慮所述通道信息(CHI)。
8.如權(quán)利要求6所述的語音識別方法,其中以至少為一定時間間隔的延遲來識別對應(yīng)于所述語音信息(SI)的所述文本信息(TI),所述時間間隔是生成至少兩項屬性信息(ASI,LI,SGI,CI)所需的,在所述時間間隔期間,一部分語音信息(SI)被用于生成至少兩項屬性信息(ASI,LI,SGI,CI),所述文本信息(TI)至少對應(yīng)于用于生成至少兩項屬性信息(ASI,LI,SGI,CI)的語音信息(SI)部分的子區(qū)域。
9.如權(quán)利要求6所述的語音識別方法,其中在考慮不表示所述語言屬性的至少一項屬性信息(ASI,LI,SGI)的同時來識別至少一個語言屬性,并且生成表示識別出的語言屬性的屬性信息項(LI,SGI,CI)。
10.如權(quán)利要求9所述的語音識別方法,其特征在于,以至少為一定時間間隔的延遲、并且在考慮不表示所述語言屬性的至少一項屬性信息(ASI,LI,SGI)的同時,來進(jìn)行對至少一個語言屬性的識別,所述時間間隔是生成不表示所述語言屬性的至少一項屬性信息(ASI,LI,SGI)所需的,在所述時間間隔期間,一部分語音信息(SI)可以被用于生成不表示所述語言屬性的至少一項屬性信息(ASI,LI,SGI,CI),用于至少該部分語音信息(SI)的子區(qū)域,其中該部分語音信息是用于生成不表示所述語言屬性的至少一項屬性信息(ASI,LI,SGI,CI)的。
11.一種計算機(jī)程序產(chǎn)品,可以直接被載入到計算機(jī)(1A)的存儲器(1B)中,并且包括軟件代碼區(qū),當(dāng)在所述計算機(jī)(1A)上運行所述計算機(jī)程序產(chǎn)品時,能夠通過計算機(jī)(1A)執(zhí)行如權(quán)利要求6所述的語音識別方法。
12.如權(quán)利要求11所述的計算機(jī)程序產(chǎn)品,其中所述計算機(jī)程序產(chǎn)品被存儲在計算機(jī)可讀介質(zhì)上。
13.一種計算機(jī)(1A),具有處理單元和內(nèi)部存儲器(1B),其中計算機(jī)(1A)運行如權(quán)利要求11所述的所述計算機(jī)程序產(chǎn)品。
全文摘要
在用于識別對應(yīng)于語音信息(SI)的文本信息(TI)的語音識別設(shè)備(1)中,其中語音信息(SI)可以相對于語言屬性來描述特征,首先提供了至少兩個語言屬性識別裝置(20,21,22,23),通過使用所述語音信息(SI),每個語言屬性識別裝置(20,21,22,23)被設(shè)置為識別分配給所述裝置的語言屬性并且生成表示識別出的語言屬性的屬性信息(ASI,LI,SGI,CI),并且其次提供了語音識別裝置(24),在繼續(xù)考慮至少兩項屬性信息(ASI,LI,SGI,CI)的同時被設(shè)置為識別對應(yīng)于所述語音信息(SI)的文本信息(TI)。
文檔編號G10L15/183GK1714390SQ200380103728
公開日2005年12月28日 申請日期2003年10月31日 優(yōu)先權(quán)日2002年11月22日
發(fā)明者Z·薩菲爾 申請人:皇家飛利浦電子股份有限公司