專利名稱:用于語(yǔ)音處理的方法及裝置的制作方法
多年來(lái)日用語(yǔ)音識(shí)別及語(yǔ)音控制系統(tǒng)的發(fā)展體現(xiàn)為計(jì)算機(jī)技術(shù)的主要發(fā)展路線。在該發(fā)展過(guò)程中取得了顯著的進(jìn)步及建立了有市場(chǎng)的語(yǔ)音識(shí)別系統(tǒng),它在實(shí)際使用中也被證實(shí)是經(jīng)受了考驗(yàn)的。該技術(shù)取得進(jìn)展的系統(tǒng)也基本適用于計(jì)算機(jī)及所連接的外圍裝置的語(yǔ)音控制。僅用相對(duì)少的詞匯可處理的簡(jiǎn)單語(yǔ)音識(shí)別系統(tǒng)也已用于消費(fèi)電子裝置領(lǐng)域及機(jī)動(dòng)車設(shè)備以及其它領(lǐng)域,在這些領(lǐng)域中根據(jù)有限的詞匯可進(jìn)行裝置有意義的聲音控制。
在語(yǔ)音識(shí)別系統(tǒng)中通常具有工具,借助它可輸入要由語(yǔ)音識(shí)別系統(tǒng)識(shí)別的詞匯。通常詞或表達(dá)通過(guò)計(jì)算機(jī)程序的相應(yīng)表面軟件以正字的描述方式輸入及自動(dòng)地轉(zhuǎn)換成語(yǔ)音識(shí)別系統(tǒng)的內(nèi)部描述方式(通常為語(yǔ)音的書寫(音標(biāo))的變型)。在該自動(dòng)的及通過(guò)字典查找所支持的轉(zhuǎn)換過(guò)程中可能在語(yǔ)音的音標(biāo)書寫上產(chǎn)生錯(cuò)誤,它們由不充分的轉(zhuǎn)換規(guī)則和/或不完整的詞匯引起。因?yàn)樵撜Z(yǔ)音識(shí)別系統(tǒng)將其識(shí)別過(guò)程建立在這樣地產(chǎn)生的語(yǔ)音音標(biāo)的基礎(chǔ)上,因此通過(guò)錯(cuò)誤的音標(biāo)書寫在語(yǔ)音識(shí)別時(shí)也產(chǎn)生錯(cuò)誤。
為了保證最佳的性能,對(duì)此將要關(guān)注盡可能無(wú)誤地校正音標(biāo)書寫。
迄今這樣地解決該問(wèn)題,即用戶在輸入正字的(正確)描述方式后,可人工地檢驗(yàn)由系統(tǒng)產(chǎn)生的音標(biāo)書寫。但通常對(duì)于未培訓(xùn)人員這是困難的。因此使用了不同的輔助措施,它們以市場(chǎng)暢銷的軟件(SW)方式提供1.用戶可對(duì)于不同的發(fā)言符號(hào)被告知包含這些符號(hào)的典型詞,及手工地校正該音標(biāo)書寫方式。在此情況下在某些系統(tǒng)中用戶還應(yīng)得到以下支持不可能使用音標(biāo)書寫的錯(cuò)誤的符號(hào)順序,其方式是通過(guò)所使用的軟件僅可輸入這樣的符號(hào)序列它們對(duì)于所使用的音標(biāo)符號(hào)組為合適的ASCII序列。
2.由音標(biāo)書寫方式借助市場(chǎng)暢銷的文本-語(yǔ)音軟件系統(tǒng)、即語(yǔ)音合成系統(tǒng)使音標(biāo)書寫再轉(zhuǎn)換成可聽的語(yǔ)音。這用于由系統(tǒng)對(duì)一個(gè)字自動(dòng)產(chǎn)生的符號(hào)序列的聲音似真性檢驗(yàn)。這種聽覺(jué)檢驗(yàn)僅可消除明顯的錯(cuò)誤并從屬于聲音通道的不完善性。此外,應(yīng)保證語(yǔ)音識(shí)別及語(yǔ)音合成所使用的發(fā)音字母的一致性,它是以最少情況給出的。
因此本發(fā)明的目的是給出一種語(yǔ)音處理的改進(jìn)方法及裝置,它們尤其可通過(guò)實(shí)質(zhì)性改進(jìn)的用戶適用性及與此相關(guān)地通過(guò)提高了的精確性及可靠性而顯出其特色。
該目的在其方法方面將通過(guò)權(quán)利要求1的特征來(lái)實(shí)現(xiàn),及在其裝置方面將通過(guò)權(quán)利要求6的特征來(lái)實(shí)現(xiàn)。
本發(fā)明具有其基本構(gòu)思,即考慮用一種在語(yǔ)音書寫(音標(biāo))上簡(jiǎn)單及可靠的可處理輸出來(lái)取代對(duì)于語(yǔ)音科學(xué)未受訓(xùn)練的用戶不習(xí)慣并難以處理的、轉(zhuǎn)換成語(yǔ)音書寫的字的輸出。本發(fā)明還包括這樣的構(gòu)思,即對(duì)此選擇一種被稱為“似正字”(pseudo-orthographisch)的輸出形式,它不要求用戶具有語(yǔ)音書寫的特殊符號(hào)的知識(shí)及其專門規(guī)則。簡(jiǎn)言之,“如人們說(shuō)出它那樣”實(shí)現(xiàn)轉(zhuǎn)換字的輸出。
這對(duì)于外行來(lái)說(shuō)易于理解及很好處理的轉(zhuǎn)換成語(yǔ)音書寫的語(yǔ)音似正字輸出也需要語(yǔ)音處理方法中的一個(gè)附加步驟,即由語(yǔ)音書寫轉(zhuǎn)換成該似正字表示的轉(zhuǎn)換步驟。該附加步驟包括一種方法,其中以自學(xué)習(xí)方式或通過(guò)對(duì)預(yù)定調(diào)準(zhǔn)單元的訪問(wèn)由字的語(yǔ)音單位轉(zhuǎn)換成所述書寫的簡(jiǎn)單字單位。在一個(gè)簡(jiǎn)單及合乎要求的實(shí)施形式中,該轉(zhuǎn)換通過(guò)對(duì)一個(gè)已存儲(chǔ)的音位-字位表的訪問(wèn)來(lái)進(jìn)行,該表至少借助配置規(guī)則使原來(lái)的存儲(chǔ)初始化及必要時(shí)在系統(tǒng)使用期間的自學(xué)習(xí)過(guò)程中根據(jù)用戶的附加輸入來(lái)擴(kuò)展。
在一個(gè)特別適用的及在所述自學(xué)習(xí)處理意義上有利的實(shí)施形式中,該方法還包括另一個(gè)反向轉(zhuǎn)換的步驟,即由(通過(guò)用戶在輸入用于校正原始轉(zhuǎn)換結(jié)果時(shí)使用的)似正字表示轉(zhuǎn)換成語(yǔ)音書寫。在該步驟上亦可使用所述的表配置及在必要時(shí)通過(guò)自學(xué)習(xí)處理來(lái)補(bǔ)充及細(xì)化。
根據(jù)上述方法特征,實(shí)施所述方法的裝置除了具有一個(gè)用于將似正字輸入轉(zhuǎn)換成音標(biāo)的本身公知的第一轉(zhuǎn)換單元外,還具有一個(gè)將音標(biāo)轉(zhuǎn)換成似正字表示的第二轉(zhuǎn)換單元及一個(gè)用于以該表示形式輸出的輸出單元。
對(duì)于該方法的進(jìn)一步構(gòu)型,即借助似正字表示可實(shí)現(xiàn)校正用戶的輸入,該裝置具有一個(gè)相應(yīng)的第三轉(zhuǎn)換單元。
為了使用所述的音位-字位配置表,在一個(gè)優(yōu)選實(shí)施形式中,該裝置設(shè)有一個(gè)相應(yīng)的存儲(chǔ)器,在該存儲(chǔ)器中可存取地保持用于第二和/或第三轉(zhuǎn)換單元的配置表。
本發(fā)明的其它優(yōu)點(diǎn)及目的將由從屬權(quán)利要求及以下借助附圖
對(duì)優(yōu)選實(shí)施例的描述中得出。
附圖以功能框圖的形式表示用于實(shí)施根據(jù)本發(fā)明的方法的語(yǔ)音處理裝置1的一個(gè)實(shí)施形式的概圖。該語(yǔ)音處理裝置1包括一個(gè)聲音輸入單元3,在其輸出端提供一個(gè)預(yù)處理的語(yǔ)音流S1,該語(yǔ)音流被輸送給一個(gè)語(yǔ)音識(shí)別單元5,后者輸出一個(gè)被描述的文本S2。該語(yǔ)音識(shí)別單元5包括一個(gè)詞匯存儲(chǔ)器5a,其中存儲(chǔ)語(yǔ)音識(shí)別單元的詞匯,-而在傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)中存儲(chǔ)語(yǔ)音標(biāo)記。
詞匯存儲(chǔ)器5a將通過(guò)借助字母數(shù)字輸入單元7輸入附加的概念詞被不斷地修改,該概念詞在第一轉(zhuǎn)換單元9中由正字輸入格式轉(zhuǎn)換成語(yǔ)音書寫(音標(biāo))。一個(gè)詞典存儲(chǔ)器11支持第一轉(zhuǎn)換單元9中的轉(zhuǎn)換過(guò)程。為了檢驗(yàn)及校正已進(jìn)行的輸入,設(shè)有第二轉(zhuǎn)換單元13,用于將語(yǔ)音書寫轉(zhuǎn)換成似正寫表示。這將在一個(gè)圖象屏上15上對(duì)用戶顯示出來(lái)。
此外還設(shè)有一個(gè)第三轉(zhuǎn)換單元17,用于通過(guò)字母數(shù)字輸入單元7將似正寫輸入轉(zhuǎn)換成語(yǔ)音標(biāo)記,其輸出端與語(yǔ)音識(shí)別單元5的詞匯存儲(chǔ)器5a相連接。第二及第三轉(zhuǎn)換單元13,17被配置給以一個(gè)查找表的形式布置的配置存儲(chǔ)器19,用于預(yù)定的音位-字位配置。
一個(gè)通過(guò)用戶實(shí)現(xiàn)的以正確的正字標(biāo)記輸入的新概念字將在第一轉(zhuǎn)換單元9中轉(zhuǎn)換成音標(biāo),-視該形式的系統(tǒng)的具體組織而定被傳送到詞匯存儲(chǔ)器5a。但在任何情況下,被轉(zhuǎn)換成音標(biāo)的字被傳送到第二轉(zhuǎn)換單元13,在該單元中進(jìn)行對(duì)似正字表示的另一轉(zhuǎn)換,這被顯示在圖象屏15上及必要時(shí)引起用戶通過(guò)輸入單元7(現(xiàn)在為似正字表示,這也可顯示在圖象屏上)作出校正的輸入或確認(rèn)所顯示的似正字表示。該似正字輸入將在第三轉(zhuǎn)換單元17中轉(zhuǎn)換成音標(biāo)及這時(shí)(第一次、或當(dāng)字已在首次輸入時(shí)以校正模式接收在詞匯存儲(chǔ)器5a中)傳送到詞匯存儲(chǔ)器5a。由此它的內(nèi)容被擴(kuò)展了在語(yǔ)音標(biāo)記上被檢驗(yàn)的詞匯。
以下用兩個(gè)例子來(lái)解釋上述的方案例1通過(guò)字母數(shù)字輸入單元7以正字書寫方式輸入“Jacques Chrac”。在第一轉(zhuǎn)換單元9中將由它構(gòu)成發(fā)音標(biāo)記“sh a xk sh irr a xk”。第二轉(zhuǎn)換單元由它構(gòu)成“sch a k sch i r a k”,及以該標(biāo)記將輸入的名字顯示在圖象屏15上。由該標(biāo)記(不用知道在第一轉(zhuǎn)換中使用的發(fā)音字母)可識(shí)別出由系統(tǒng)產(chǎn)生的發(fā)音標(biāo)記是適合的。用戶可認(rèn)可該轉(zhuǎn)換結(jié)果,及該新輸入的名字將(以發(fā)音標(biāo)記的形式)到達(dá)詞匯存儲(chǔ)器5a中。
例2通過(guò)輸入單元7輸入“Professional Service”。第一轉(zhuǎn)換單元9由它產(chǎn)生發(fā)音標(biāo)記“P r of ae sh o nell s oe r v icce”。在第二轉(zhuǎn)換單元13的另一轉(zhuǎn)換結(jié)果中將以似正字標(biāo)記得到“Profaschonell Sorwieke”,及該表示將又被顯示在圖象屏上。
用戶可直接確認(rèn)出由系統(tǒng)產(chǎn)生的產(chǎn)生的音標(biāo)是不正確的,-只要它不對(duì)應(yīng)于輸入字組合的通常發(fā)音的話?,F(xiàn)在用戶將借助輸入單元使用顯示在屏上的似正字標(biāo)記進(jìn)行校正,及該校正結(jié)果將在第三轉(zhuǎn)換單元17中由似正字又轉(zhuǎn)換成發(fā)音標(biāo)記,及以該方式存儲(chǔ)在詞匯存儲(chǔ)器5a中。在該給出的例中,用戶將輸入“Profaschonnell Sorwis”,及相應(yīng)地將該新字組合(以發(fā)音標(biāo)記方式)存儲(chǔ)在詞匯存儲(chǔ)器5a中。
可以看出,所給出的方法也可多級(jí)地實(shí)施,其方式是在第一次校正后通過(guò)用戶再次由發(fā)音標(biāo)記轉(zhuǎn)換成似正字及以該表示顯示出來(lái),以使得必要時(shí)可交互地消除系統(tǒng)的錯(cuò)誤。這里最好是使用一個(gè)(本身公知的)神經(jīng)網(wǎng)結(jié)構(gòu)的自學(xué)習(xí)系統(tǒng),通過(guò)它可進(jìn)行第一轉(zhuǎn)換過(guò)程(正字-音標(biāo))的配置存儲(chǔ)器19和/或配置規(guī)程存儲(chǔ)器內(nèi)容的自適配。
本發(fā)明的實(shí)施并不被限制在上述例子上,而可具有專業(yè)人員能力范圍中的許多變化。
權(quán)利要求
1.用于語(yǔ)音處理的方法,其中在第一轉(zhuǎn)換步驟中進(jìn)行正字輸入到音標(biāo)的轉(zhuǎn)換及設(shè)有一個(gè)由用戶進(jìn)行的轉(zhuǎn)換結(jié)果的檢驗(yàn)及校正步驟,其特征在于具有一個(gè)由音標(biāo)轉(zhuǎn)換成似正字表示的及以該表示輸出第二轉(zhuǎn)換步驟。
2.根據(jù)權(quán)利要求1的方法,其特征在于具有一個(gè)以似正字表示進(jìn)行的輸入轉(zhuǎn)換成音標(biāo)的第三轉(zhuǎn)換步驟。
3.根據(jù)權(quán)利要求1或2的方法,其特征在于第二和/或第三轉(zhuǎn)換步驟包括語(yǔ)音字單位向簡(jiǎn)單語(yǔ)義字單位轉(zhuǎn)換或相反的轉(zhuǎn)換。
4.根據(jù)權(quán)利要求3的方法,其特征在于第二和/或第三轉(zhuǎn)換步驟通過(guò)在一個(gè)已存儲(chǔ)的音位-字位表(19)上的訪問(wèn)來(lái)進(jìn)行。
5.根據(jù)權(quán)利要求3或4的方法,其特征在于第二和/或第三轉(zhuǎn)換步驟借助一種自學(xué)習(xí)方法,尤其通過(guò)使用一個(gè)不斷修改音位-字位表(19)的神經(jīng)網(wǎng)來(lái)進(jìn)行。
6.用于實(shí)施根據(jù)以上權(quán)利要求中一項(xiàng)的裝置(1),具有一個(gè)字母數(shù)字輸入單元(7),及一個(gè)在輸入側(cè)與它連接的第一轉(zhuǎn)換單元、用于將正字輸入轉(zhuǎn)換成音標(biāo),以及一個(gè)顯示單元(15)用于已輸入字的光學(xué)顯示,其特征在于具有一個(gè)用于將音標(biāo)轉(zhuǎn)換成似正字表示的第二轉(zhuǎn)換單元(13),其輸出端與顯示單元連接。
7.根據(jù)權(quán)利要求6的裝置,其特征在于具有一個(gè)用于將以似正字表示進(jìn)行的輸入轉(zhuǎn)換成音標(biāo)的第三轉(zhuǎn)換單元。
8.根據(jù)權(quán)利要求6或7的裝置,其特征在于第二和/或第三轉(zhuǎn)換單元(13,17)與一個(gè)用于存儲(chǔ)音位-字位表的存儲(chǔ)器(19)相連接。
9.根據(jù)權(quán)利要求6至8中一項(xiàng)的裝置,其特征在于第二轉(zhuǎn)換單元(13)在輸出側(cè)與一個(gè)語(yǔ)音識(shí)別單元(5)的詞匯存儲(chǔ)器(5a)相連接。
全文摘要
本發(fā)明涉及語(yǔ)音處理方法,其中在第一轉(zhuǎn)換步驟中進(jìn)行正字輸入到音標(biāo)的轉(zhuǎn)換及設(shè)有一個(gè)由用戶進(jìn)行的轉(zhuǎn)換結(jié)果的檢驗(yàn)及校正步驟,及具有一個(gè)由音標(biāo)轉(zhuǎn)換成似正字表示的及以該表示輸出第二轉(zhuǎn)換步驟。
文檔編號(hào)G10L13/08GK1359512SQ00809905
公開日2002年7月17日 申請(qǐng)日期2000年4月11日 優(yōu)先權(quán)日1999年7月6日
發(fā)明者G·尼德邁爾 申請(qǐng)人:西門子公司