專利名稱:字符識(shí)別翻譯系統(tǒng)和語音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及適用于便攜式翻譯機(jī)等的字符識(shí)別翻譯系統(tǒng),更具體地說,涉及一種用來將寫在導(dǎo)游牌,樓名牌,布告牌,導(dǎo)游冊(cè),飯館菜單等上的字符取作為攝像數(shù)據(jù)的字符識(shí)譯系統(tǒng)。例如一個(gè)在海外的旅游者常常需要有這樣一種工具用來識(shí)別那些字符。字符識(shí)譯系統(tǒng)并不限于任何具體的字符形狀和規(guī)格,也不限于任何具體的語言,并適合于用來識(shí)譯各種語言寫成的字符,這些字符被攝取或作為數(shù)字圖象數(shù)據(jù)。此外,本發(fā)明涉及一種語音識(shí)譯系統(tǒng),該系統(tǒng)適合于便攜式翻譯機(jī)器,而更具體地說,該系統(tǒng)適用于用來獲取或記錄在機(jī)場(chǎng)大廳,火車站,飛機(jī)上,車輛上,觀光處,等等,以及周圍的談話和講演聲音和通告等等的各種類型的語音或其他口頭信息,以便識(shí)別和翻譯如此獲取或記錄的語音。
近來,便攜式液晶數(shù)字?jǐn)z像機(jī)已經(jīng)研制出用來讓使用者觀測(cè)在攝取處的剛攝的靜止信息,在記錄介質(zhì)上記錄靜止圖象信息,在大屏幕監(jiān)視器上顯示圖象信息,和用打印機(jī)打印圖象等等。
日本公開專利公報(bào)No Hei-3-87976公開一種用于電子靜止攝像機(jī)的字符識(shí)別和翻譯機(jī),該機(jī)器與諸如上所述的液晶數(shù)字?jǐn)z像機(jī)等的電子靜止攝像機(jī)相連,以識(shí)別記錄的圖象的字符信息并進(jìn)而將識(shí)別的結(jié)果予以翻譯。該機(jī)器設(shè)計(jì)得可接收包含在來自電子靜止攝像機(jī)的目標(biāo)圖象中的字符信息,并將包含在字符信息中的字符予以翻譯。更具體地說,根據(jù)字符識(shí)譯機(jī)器,來自電子靜止攝像機(jī)的視頻信號(hào)被轉(zhuǎn)換成適合于字符識(shí)譯處理的信號(hào),并進(jìn)行一系列的一般的信息處理步驟,諸如根據(jù)邊緣提取法的字符區(qū)域提取處理,背景刪除處理,字符排列傾斜校正處理,基于模式匹配法的字符識(shí)別處理,和機(jī)器翻譯處理等。
然而,根據(jù)上述的傳統(tǒng)的字符識(shí)譯裝置,要識(shí)別并翻譯那些寫在導(dǎo)游牌上,樓名牌上,飯館菜單上,觀光告示等上的海外旅游者常遇到的字符是殊為困難的事。這是因?yàn)椋3?huì)發(fā)生這樣的情形向一個(gè)在海外以各種書法寫成的書寫字符施以僅僅靠只采用一個(gè)字符基準(zhǔn)模式的模式匹配法并不能精確地識(shí)別該字符。
另一方面,隨著海外旅客的近來的迅速增加,已經(jīng)推出具有語音識(shí)別的固定形式的轉(zhuǎn)換模式的便攜式翻譯機(jī)來克服在不同民族之間的交流的困難(所謂語言壁壘)問題。這些便攜式翻譯機(jī)利用一個(gè)可將用于各種類型談話中的語句預(yù)先記錄為語音數(shù)據(jù)并根據(jù)固定的情景來選擇所需的語句的復(fù)現(xiàn)系統(tǒng)。根據(jù)該復(fù)現(xiàn)系統(tǒng),一個(gè)使用者所與之交談的客人(以下稱之為談客)可用其母語單方面地聽使用者所想作的提問或請(qǐng)求。然而,這種機(jī)器不能翻譯談客的談話。因此,如在日本公開專利申請(qǐng)No.Hei-5-35776中所公開的的裝置,可以識(shí)別通過一個(gè)麥克風(fēng)輸入的話語,并將此話語翻譯成為一種預(yù)定的語言,然后再將其輸出。
根據(jù)該裝置,通過麥克風(fēng)輸入的語音數(shù)據(jù)被轉(zhuǎn)換成為一種數(shù)字信號(hào),并加以分析,然后將分析結(jié)果與存儲(chǔ)在一個(gè)語音識(shí)別字典中的標(biāo)準(zhǔn)語音模式相比較以進(jìn)行語音識(shí)別。此外,根據(jù)該裝置,被翻譯的相應(yīng)于所識(shí)別的語音的字語由存儲(chǔ)器卡寫入作為所翻譯的字的數(shù)據(jù),并轉(zhuǎn)換成為一個(gè)信號(hào),然后輸出到揚(yáng)聲器中。用作字?jǐn)?shù)據(jù)的的存儲(chǔ)器卡包括一個(gè)ROM卡或類似的東西,在其中存儲(chǔ)有語音數(shù)據(jù)。通過與另一種語言存儲(chǔ)器卡可以達(dá)到多語言的語音翻譯。語音識(shí)別字典包括一個(gè)RAM或類似的東西,并有相應(yīng)于用戶特定發(fā)音預(yù)錄音的標(biāo)準(zhǔn)語音模式。
在上述公開的便攜式語音發(fā)音機(jī)器中,可以識(shí)別使用者的語音。然而,其功能限于使用具有如上描述的固定談話模式功能。也就是說,它讓談客單方面地以其母語聽取使用者的提問或請(qǐng)求。然而,它不能識(shí)別和翻譯一個(gè)非確定者的自然的談話。當(dāng)該使用者是與一個(gè)使用者不會(huì)說的言語的人談話時(shí),翻譯談客的說話比自己說話更為重要。
此外,在海外旅游期間,旅游者的問題在于,他既不能理解在機(jī)場(chǎng)大廳,火車站,機(jī)場(chǎng),車輛,觀光處的語音公告,也不能理解正常環(huán)境的談話,語音和公告等。特別是在候機(jī)室,火車站,機(jī)場(chǎng),車輛,觀光點(diǎn)等處,其背景噪聲比較突出的地方,語音識(shí)別的效率大大降低。
因此,本發(fā)明的目的是為了提供一種字符識(shí)譯系統(tǒng),它不受字符的形狀和規(guī)格的限制,也不受不同語言的限制,和能識(shí)別和翻譯以各種語言書寫的并作為攝像數(shù)據(jù)檢測(cè)的字符。此外,本發(fā)明的另一目的是為了提供一種用來當(dāng)在機(jī)場(chǎng)大廳,火車站,機(jī)場(chǎng),車輛,觀光處等背景噪聲大的場(chǎng)合時(shí)能可靠地識(shí)譯各種類型的連續(xù)語音或通知的語音識(shí)譯系統(tǒng)。
為了達(dá)到上述目的,根據(jù)本發(fā)明的第一方面,一種用來用攝像機(jī)來檢測(cè)寫在導(dǎo)游牌,樓名牌,飯館菜單,導(dǎo)游布告等上的字符,和識(shí)別這些字符并翻譯詞或包括被識(shí)別的字符的語句的字符識(shí)譯系統(tǒng),包括一個(gè)用來積累代表包含在一個(gè)被檢測(cè)的圖象中的字符數(shù)據(jù)的字符數(shù)據(jù)庫;一個(gè)用來根據(jù)在字符數(shù)據(jù)庫中的字符數(shù)據(jù)分析一個(gè)字符的形狀以提取構(gòu)成該字符的字符構(gòu)元的特征的字符形狀分析單元;一個(gè)用來根據(jù)字符分析單元的分析結(jié)果產(chǎn)生字符構(gòu)元的樣本掩碼數(shù)據(jù)的掩碼學(xué)習(xí)單元;一個(gè)用來將要被識(shí)別的包含在新攝圖象中的字符的字符數(shù)據(jù)與字符構(gòu)元的樣本掩碼數(shù)據(jù)進(jìn)行對(duì)照以便識(shí)別該字符的字符對(duì)照單元;和一個(gè)用來翻譯一個(gè)詞或包括由字符對(duì)照單元識(shí)別的字符的語句的翻譯單元。
在如上所述的字符識(shí)譯系統(tǒng)中,字符形狀分析單元最好設(shè)計(jì)得由在字符數(shù)據(jù)庫中的字符數(shù)據(jù)劃分m×n點(diǎn)(象素)的二進(jìn)制數(shù)據(jù),給每個(gè)象素檢測(cè)“1”或“0”;以增量n劃分象素區(qū)域m×n1(n1≤n),m×n2(n2≤n),...,m×ni(ni≤n),這些區(qū)域包含該字符的特征;和分析代表字符標(biāo)識(shí)的加權(quán)系數(shù)和或/分析一個(gè)代表每個(gè)象素區(qū)域的字符的起始,連接和結(jié)束的屬性。
在如上所述的字符識(shí)別翻譯機(jī)中,掩碼學(xué)習(xí)單元最好在每個(gè)包含字符特征的m×n1(n1≤n),m×n2(n2≤n),...,m×ni(ni≤n)象素區(qū)域中加以一個(gè)代表字符標(biāo)識(shí)的加權(quán)系數(shù)和或分析一個(gè)代表每個(gè)象素區(qū)域的字符的起始,連接和結(jié)束的屬性,以便產(chǎn)生樣本掩碼數(shù)據(jù)。
在如上所述的字符識(shí)譯機(jī)中,最好字符對(duì)照單元從字符數(shù)據(jù)中劃分出m×n點(diǎn)的二進(jìn)制數(shù)據(jù);當(dāng)增量n時(shí)給每個(gè)象素刪去“1”或“2”;將該數(shù)據(jù)分成為m×n1(n1≤n),m×n2(n2≤n),...,m×ni(ni≤n)的象素區(qū)域,該區(qū)域包含字符的特征;以及將該象素區(qū)域與樣本掩碼數(shù)據(jù)相對(duì)照。
在如上所述的字符識(shí)譯機(jī)中,最好包括一個(gè)用來存儲(chǔ)由掩碼學(xué)習(xí)單元獲得的樣本掩碼數(shù)據(jù)的樣本掩碼存儲(chǔ)器,該樣本掩碼存儲(chǔ)器存儲(chǔ)具有對(duì)每個(gè)不同的字符是不同的n1,n2,...,nj元的樣本掩碼數(shù)據(jù)。
在如上所述的字符識(shí)譯機(jī)中,最好還包括一個(gè)圖象檢測(cè)單元,該檢測(cè)單元用來檢測(cè)一個(gè)包含字符的圖象,和包括一個(gè)陣列指定單元,用來根據(jù)由被檢測(cè)的圖象獲得的圖象數(shù)據(jù)來指定待識(shí)別的詞或語句的字符陣列。
在如上所述的字符識(shí)譯機(jī)中,最好字符陣列指定單元指定至少一個(gè)在任何位置上的m×n點(diǎn)區(qū)域。
此外,最好當(dāng)獲得的字符陣列包含橫寫字符的字符陣列時(shí),在增量n時(shí)字符對(duì)照單元在字符的寬度方向獲得一個(gè)象素區(qū)域,此n與在字符的寬度方向上的n點(diǎn)相關(guān),以便將象素區(qū)域的數(shù)據(jù)與樣本掩碼數(shù)據(jù)相比較。此外,如果或當(dāng)所獲得的字符陣列包含縱向?qū)懙淖址麜r(shí),當(dāng)增量n時(shí)字符對(duì)照單元獲得一個(gè)在字符的高度方向上的象素區(qū)域,此n與在字符的高度方向上的n點(diǎn)相關(guān),以便將象素區(qū)域與樣本掩碼數(shù)據(jù)相比較。
此外,根據(jù)本發(fā)明,字符識(shí)譯系統(tǒng)最好包括一個(gè)具有內(nèi)部存儲(chǔ)裝置的靜止安裝式信息設(shè)備,和一個(gè)與靜止安裝式信息設(shè)備可拆連接的便攜式信息設(shè)備,在靜止安裝式信息設(shè)備的外部存儲(chǔ)裝置中至少配置有字符數(shù)據(jù)庫而同時(shí)在便攜式信息設(shè)備中配置有其他構(gòu)件。具體地說,在便攜式信息設(shè)備中配置了其他構(gòu)件的同時(shí),在靜止式信息設(shè)備中配置有字符數(shù)據(jù)庫,字符形狀分析單元和掩碼學(xué)習(xí)單元。
根據(jù)如此構(gòu)成的字符識(shí)譯系統(tǒng),那些寫在導(dǎo)游牌上,樓名牌上,飯館菜單上,觀光告示等上面的海外旅游者常遇字符能夠作為圖象數(shù)據(jù)予以檢測(cè)以便識(shí)譯其中所包含的字符,而作為圖象數(shù)據(jù)被檢測(cè)的各種語言的字符可不受字符的形狀或大小和不同語言的限制被適當(dāng)?shù)刈R(shí)別和翻譯。
根據(jù)本發(fā)明的第二方面的用來識(shí)別語音并將該語音翻譯成詞或語句的語音翻譯識(shí)別系統(tǒng)包括一個(gè)語音存儲(chǔ)器,用來存儲(chǔ)代表所檢測(cè)的語音的語音數(shù)據(jù);一個(gè)噪聲檢測(cè)單元,用來移去或刪除相應(yīng)于噪聲的的數(shù)據(jù);一個(gè)聲音數(shù)據(jù)庫,用來存儲(chǔ)已經(jīng)由噪聲檢測(cè)單元除去了噪聲的數(shù)據(jù);一個(gè)第一語音分析單元,用來提取相應(yīng)于在聲音數(shù)據(jù)庫中積累的聲音數(shù)據(jù)的聲音特征;一個(gè)模式學(xué)習(xí)單元,用來根據(jù)第一語音分析單元的分析結(jié)果產(chǎn)生一個(gè)聲響模式;一個(gè)聲學(xué)存儲(chǔ)單元,用來存儲(chǔ)聲學(xué)模式;一個(gè)第二語音分析單元,用來根據(jù)已通過從相應(yīng)于最近檢測(cè)到的語音的語音數(shù)據(jù)中除去了表示噪聲的數(shù)據(jù)來提取最新檢測(cè)到的語音的聲音特征;一個(gè)語音對(duì)照單元,用來將由第二語音分析單元獲得的語音數(shù)據(jù)與存儲(chǔ)在聲學(xué)模式存儲(chǔ)單元中的聲學(xué)模式的數(shù)據(jù)相比較,以便識(shí)別該語音;以及一翻譯單元,用來翻譯構(gòu)成由語音對(duì)照單元識(shí)別的語音的詞或語句。
在如上所述的語音識(shí)別和翻譯系統(tǒng)中,最好設(shè)計(jì)得使存儲(chǔ)器存儲(chǔ)相應(yīng)于第一語音的第一語音數(shù)據(jù)和相應(yīng)于包含環(huán)境噪聲的第二語音的第二語音數(shù)據(jù),在第一語音中,環(huán)境噪聲疊加在要被識(shí)別和翻譯的語音上。
此外,在如上所述的語音識(shí)別和翻譯系統(tǒng)中,最好噪聲檢測(cè)第一對(duì)第一語音數(shù)據(jù)的第一語音頻譜數(shù)據(jù)與第二語音數(shù)據(jù)的第二語音頻譜數(shù)據(jù)作一比較以獲得相應(yīng)于噪聲被除去的數(shù)據(jù)的頻譜數(shù)據(jù)。
在如上所述的語音識(shí)別和翻譯系統(tǒng)中,最好將聲音數(shù)據(jù)庫設(shè)計(jì)得存儲(chǔ)第一頻譜數(shù)據(jù)和第二頻譜數(shù)據(jù)并將這些數(shù)據(jù)互相相聯(lián)系。
在如上所述的語音識(shí)別和翻譯系統(tǒng)中,最好在待識(shí)譯的語音輸入前,聲學(xué)對(duì)照單元將在語音處獲得的環(huán)境噪聲的噪聲頻譜數(shù)據(jù)與根據(jù)第二頻譜數(shù)據(jù)獲得噪聲聲學(xué)模式的數(shù)據(jù)進(jìn)行對(duì)照以便識(shí)別噪聲的類型,并再將要識(shí)譯的語音的語音數(shù)據(jù)與根據(jù)噪聲的類型確定的第一語音數(shù)據(jù)的聲學(xué)模式進(jìn)行對(duì)照以識(shí)別該語音。
在如上所述的語音識(shí)別和翻譯系統(tǒng)中,最好將翻譯單元獲得的翻譯結(jié)果由一個(gè)顯示單元至少作為字符輸出,并且最好在顯示單元的顯示屏上顯示包含翻譯前的詞或語句的原來語言文本和包括翻譯后的詞或語句的譯文文本。具體地說,翻譯結(jié)果最好包含相應(yīng)于代表翻譯準(zhǔn)確度的翻譯率的信息或至少包含相應(yīng)于該語言類型的信息。
在在如上所述的語音識(shí)別和翻譯系統(tǒng)中,最好語音識(shí)別和翻譯系統(tǒng)包括一個(gè)具有一個(gè)外部存儲(chǔ)裝置的靜止安裝式信息設(shè)備,和一個(gè)可拆式連接到該靜止安裝式信息設(shè)備的便攜式信息設(shè)備,并且給便攜式信息設(shè)備配置其他部件的同時(shí),至少給靜止安裝式信息設(shè)備配置聲音數(shù)據(jù)庫。更具體地說,更好的是在給便攜式信息設(shè)備配置其他部件的同時(shí)給靜止安裝式信息設(shè)備配置聲音數(shù)據(jù)庫,第一分析單元和模式學(xué)習(xí)單元。
根據(jù)在如上所述的語音識(shí)別和翻譯系統(tǒng),游客在海外的候機(jī)室,火車站,機(jī)場(chǎng),車輛,觀光處等地聽到的各種類型的聲音的通告,以及周圍的談話,語音或通告,即使在嘈雜的環(huán)境下,仍可被適當(dāng)?shù)刈R(shí)別。此外,構(gòu)成被識(shí)別的語音的詞或語句由字典或語法字典識(shí)別。其次,用作為鍵詞詞句根據(jù)所識(shí)別的詞句予以識(shí)別和翻譯。
這樣,即使在諸如候機(jī)室火車站,機(jī)場(chǎng),車輛,觀光處等的嘈雜的環(huán)境中,任何為指定的語音仍可以被清楚地識(shí)別。
圖1是一個(gè)顯示本發(fā)明的第一實(shí)施例的字符識(shí)別和翻譯系統(tǒng)的構(gòu)成的方框圖2是本發(fā)明的第一實(shí)施例的產(chǎn)生樣本掩碼數(shù)據(jù)的示意圖;圖3是一個(gè)在第一實(shí)施例中樣本掩碼數(shù)據(jù)產(chǎn)生法的流程圖;圖4是一個(gè)本發(fā)明的第一實(shí)施例的樣本掩碼數(shù)據(jù)對(duì)照法的示意圖;圖5是本發(fā)明的第一實(shí)施例的樣本掩碼數(shù)據(jù)對(duì)照法的流程圖;圖6A和6B示出了應(yīng)用了本發(fā)明的第一實(shí)施例的字符識(shí)別和翻譯系統(tǒng)的便攜式翻譯機(jī);圖7A和7B示出了本發(fā)明的第一實(shí)施例的字符指定區(qū)域的一個(gè)例子;圖8是一個(gè)本發(fā)明的第二實(shí)施例的語音識(shí)別和翻譯系的方框圖;圖9是一個(gè)在本發(fā)明的第二實(shí)施例中的產(chǎn)生聲學(xué)模式的流程圖;圖10是一個(gè)本發(fā)明的第二實(shí)施例中的通告語音的流程圖;圖11是一個(gè)顯示根據(jù)在第二實(shí)施例中的噪聲環(huán)境的通告語音識(shí)別的示意圖;圖12A和12B是應(yīng)用了本發(fā)明的第二實(shí)施例的語音識(shí)別和翻譯系的示意圖;以及圖13是一個(gè)顯示在圖12B的便攜式翻譯機(jī)中的顯示器的屏幕上的顯示情形。
下面參閱附圖來描述本發(fā)明的最佳實(shí)施例。
在圖1中,參考數(shù)字101表示用來執(zhí)行字符識(shí)別的識(shí)別系統(tǒng),參考數(shù)字102代表用來產(chǎn)生字符識(shí)別所需的樣本掩碼數(shù)據(jù)的一個(gè)學(xué)習(xí)系統(tǒng),和參考數(shù)字103代表一個(gè)翻譯系統(tǒng),該系統(tǒng)用來從識(shí)別系統(tǒng)接收識(shí)別結(jié)果以根據(jù)鍵詞分析語句并加以翻譯。參考數(shù)字104代表一個(gè)具有CCD的攝像機(jī)或類似的器件,用來將寫在導(dǎo)游牌上,樓名牌上,飯館菜單上,觀光告示等上面的海外旅游者常遇字符作為圖象數(shù)字符予以攝入。這里,為了保證字符識(shí)別所需的每個(gè)字符的可允許的最小分辨率,采用一個(gè)高分辨率的攝像機(jī)或多個(gè)攝像機(jī)來執(zhí)行圖象分析。于是,顯示在液晶顯示裝置之類上如后面要描述的在一個(gè)字符指定區(qū)域中的字符的分辨率顯然不同于為進(jìn)行識(shí)別處理而攝入的字符圖象數(shù)據(jù)的分辨率,后者的分辨率高于前者。參考數(shù)字129代表一個(gè)包括一個(gè)發(fā)光二極管(LED)的顯示器,而參考數(shù)字130則表示一個(gè)揚(yáng)聲器。翻譯系統(tǒng)103的處理結(jié)果作為包含語句的圖象和語音分別輸出到顯示器129和揚(yáng)聲器130。
在識(shí)別系統(tǒng)101中,參考數(shù)字105代表一個(gè)A\D轉(zhuǎn)換器,參考數(shù)字106代表一個(gè)字符數(shù)字化(二進(jìn)制)處理單元,參考數(shù)字107代表一個(gè)噪聲去除單元,參考數(shù)字108代表一個(gè)字符劃分單元,參考數(shù)字109代表一個(gè)對(duì)照單元,參考數(shù)字110代表一個(gè)判斷單元,參考數(shù)字111代表一個(gè)樣本掩碼存儲(chǔ)單元,參考數(shù)字112代表一字典,參考數(shù)字113代表一個(gè)語法字典,以及參考數(shù)字114代表一個(gè)連接單元。
此外,在學(xué)習(xí)系統(tǒng)中,參考數(shù)字115代表一個(gè)大規(guī)模字符數(shù)據(jù)庫,參考數(shù)字116代表一個(gè)字符形狀分析單元,和參考數(shù)字117代表一個(gè)掩碼學(xué)習(xí)單元。
在翻譯學(xué)習(xí)103中,參考數(shù)字119代表一個(gè)鍵詞分析單元,參考數(shù)字120代表一個(gè)字義字典(詞典),參考數(shù)字122代表一個(gè)中級(jí)語言處理器,參考數(shù)字123代表一個(gè)句子形成單元,參考數(shù)字124代表一個(gè)字典,參考數(shù)字125代表一個(gè)例句結(jié)構(gòu)字典(句法字典),參考數(shù)字127代表一個(gè)發(fā)聲字典,和參考數(shù)字128代表一個(gè)D/A轉(zhuǎn)換器。
在上述結(jié)構(gòu)的學(xué)習(xí)系統(tǒng)中,由攝像機(jī)(CCD攝像機(jī))104攝取并然后被從模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的包含字符陣列的靜止圖象數(shù)據(jù)被積累和存儲(chǔ)在大規(guī)模字符數(shù)據(jù)庫115中。在存儲(chǔ)在大規(guī)模字符數(shù)據(jù)庫115中存儲(chǔ)的靜止圖象數(shù)據(jù)的基礎(chǔ)上,字符形狀分析單元116執(zhí)行數(shù)字化包含字符的圖象數(shù)據(jù)的二進(jìn)制數(shù)字處理,執(zhí)行從背景中提取字符區(qū)域的提取處理,包括去噪聲處理,和執(zhí)行分析字符形狀的提取處理,以便提取構(gòu)成該字符的字符構(gòu)元的特征。
接下來,掩碼學(xué)習(xí)單元117從字符形狀分析單元116中接收字符的特征提取結(jié)果,并在特征提取結(jié)果的基礎(chǔ)上產(chǎn)生樣本掩碼數(shù)據(jù)。由掩碼學(xué)習(xí)單元117產(chǎn)生的樣本掩碼數(shù)據(jù)被存儲(chǔ)在識(shí)別系統(tǒng)101中的樣本掩碼存儲(chǔ)單元11中。
圖象字符數(shù)據(jù)的寫入到大規(guī)模字符數(shù)據(jù)庫中的操作可隨時(shí)進(jìn)行。雖然如此,如果有額外的或足夠的時(shí)間的話,最好在寫入操作前學(xué)習(xí)系統(tǒng)102的處理已經(jīng)結(jié)束為佳。此外,需要預(yù)先獲得相應(yīng)于用于每個(gè)告知字符組(每個(gè)字符碼)的多個(gè)不同書寫風(fēng)格的字符的圖象字符數(shù)據(jù)。
如樣本掩碼存儲(chǔ)單元111一樣,識(shí)別系統(tǒng)101配置有用來識(shí)別詞或語句的字典112和語法字典113。例如,在由攝像機(jī)攝入的字符以法語和書寫和這些字符要被翻譯成日語的情形時(shí),樣本掩碼存儲(chǔ)單元111,字典112和語法字典113被設(shè)計(jì)得對(duì)應(yīng)于法語。此外,最好大規(guī)模存儲(chǔ)介質(zhì),諸如一個(gè)可互換的集成電路板,CD-ROM等用作為樣本掩碼存儲(chǔ)單元111和語法字典113,這樣本發(fā)明的系統(tǒng)系統(tǒng)可用于多語言方式。
在字符(文件)識(shí)別翻譯系統(tǒng)應(yīng)用于諸如便攜式翻譯機(jī)那樣對(duì)硬件尺寸有限制的設(shè)備的情形時(shí),學(xué)習(xí)系統(tǒng)102可被安裝在個(gè)人計(jì)算機(jī)中,同時(shí)如下所述將其他部件裝入便攜式翻譯機(jī)中。學(xué)習(xí)系統(tǒng)102的處理以后要描述。
在識(shí)別系統(tǒng)101中,由CCD攝像機(jī)104攝取的并由A/D轉(zhuǎn)換器105轉(zhuǎn)換成數(shù)字信號(hào)的圖象數(shù)據(jù)由字符二進(jìn)制處理器106進(jìn)行處理。此時(shí),二進(jìn)制數(shù)據(jù)用分辨率變換法予以標(biāo)稱化,并被轉(zhuǎn)換成包含字符陣列的m×n象素的圖象數(shù)據(jù)。隨之,對(duì)圖象數(shù)據(jù)進(jìn)行去噪聲處理,以便消除背景噪聲和其他噪聲,僅僅留下字符數(shù)據(jù)。因此,字符劃分單元108從m×n象素(點(diǎn))的字符陣列中劃分出一個(gè)字符區(qū)域,同時(shí)n分(即每個(gè)象素(點(diǎn))n分)。由對(duì)照單元109將這些劃分出的字符區(qū)域作為構(gòu)成一個(gè)字符的字符構(gòu)元與在樣本掩碼存儲(chǔ)單元中存儲(chǔ)的樣本掩碼數(shù)據(jù)相比較。
接著,用各自對(duì)照過的字符構(gòu)成元來構(gòu)成一個(gè)字符,隨后將所構(gòu)成的字符予以識(shí)別。進(jìn)而,通通過參閱字典112和語法字典113將如此構(gòu)成的字符在關(guān)聯(lián)單元114中一一相關(guān)聯(lián)。然后,用判斷單元110將被關(guān)聯(lián)單元114關(guān)聯(lián)過的排序字符作一對(duì)照以識(shí)別出一個(gè)詞或語句。在圖1中,參考數(shù)字118代表從識(shí)別系統(tǒng)101輸出的被編碼的數(shù)據(jù),該數(shù)據(jù)代表了一個(gè)詞或一個(gè)語句。下面會(huì)描述對(duì)照單元109的詳細(xì)的處理。
在翻譯系統(tǒng)103中,從識(shí)別系統(tǒng)101輸出的代表一個(gè)詞或語句的編碼數(shù)據(jù)118由鍵詞分析單元119進(jìn)行分析以判斷該詞或句是否為一個(gè)用來翻譯的有效鍵詞,并在該鍵詞的基礎(chǔ)上識(shí)別該詞或句的意思。然后,在中間語言處理器122中產(chǎn)生只代表該語句的意思并與任何國(guó)家的特定口語無關(guān)的中間語言。
鍵詞分析單元119與一個(gè)詞義字典(詞典)120和語句結(jié)構(gòu)意義字典(句義詞典)121相連。例如,當(dāng)由CCD攝像機(jī)104攝入的字符是法文書寫的并要求翻譯成日本語,則詞典120和句義詞典121被設(shè)計(jì)得相應(yīng)于法文。為了以多語方式使用本系統(tǒng),最好將一個(gè)諸如可互換的IC卡或CD-ROM這樣的大規(guī)模存儲(chǔ)介質(zhì)用作為詞典120和語法詞典121。
在中間語言處理器122中生成的中間語言被翻譯成以要求的語言寫成的語句。語句構(gòu)成單元123被連接到相應(yīng)于例如日語的詞典124和句法詞典125。將所翻譯的語句顯示在顯示器129的屏幕上。在聲合成處理器126中將被譯語句再轉(zhuǎn)換成數(shù)字語音,被譯語句通過D/A轉(zhuǎn)換器將數(shù)字信號(hào)轉(zhuǎn)換成模擬信號(hào),然后,從揚(yáng)聲器中輸出聲音。
聲合成處理器126被連接到相應(yīng)于例如日語的詞典125和發(fā)音字典127。為了以多語使用本系統(tǒng),最好將諸如可互換IC卡,CD-ROM等類似的大容量存儲(chǔ)介質(zhì)用作為詞典124句法詞典125和發(fā)音字典127。
在圖1中的用方框圖顯示的每個(gè)處理步驟,可用一個(gè)在一個(gè)半導(dǎo)體器件102上形成的包括多個(gè)LSI(大規(guī)模集成)電路和一個(gè)存儲(chǔ)器,或一個(gè)或多個(gè)單片系統(tǒng)的系統(tǒng)組成。
下面將描述學(xué)習(xí)系統(tǒng)102的詳細(xì)的處理。
圖2示出了在學(xué)習(xí)系統(tǒng)102中的產(chǎn)生樣本掩碼數(shù)據(jù)的方法,和圖3是顯示樣本掩碼數(shù)據(jù)產(chǎn)生處理的流程圖。
字符形狀分析單元116執(zhí)行包含字符的圖象數(shù)據(jù)的二進(jìn)制處理,所述字符是以包含已經(jīng)轉(zhuǎn)換為數(shù)字信號(hào)的字符陣列的靜止圖象數(shù)據(jù)的大規(guī)模字符數(shù)據(jù)庫中送來的。該二進(jìn)制圖象數(shù)據(jù)被分辨率轉(zhuǎn)換方法標(biāo)稱化,并轉(zhuǎn)換成m×n個(gè)象素(若干點(diǎn))的字符陣列(橫寫)的圖象數(shù)據(jù)201(圖2)(ST301)。另外,執(zhí)行一個(gè)從背景中提取字符區(qū)域的包括去噪聲處理的提取處理來分析每個(gè)字符的形狀,例如,為了提取構(gòu)成示于圖2中的m×n象素的字符“M”的字符構(gòu)元的特征。為了執(zhí)行此處理,給m×n個(gè)象素檢測(cè)“1”(黑)或“0”(白),而在橫向上n(n=1,2,3)等分象素,將m×n個(gè)象素被分成為字符構(gòu)元m×n1(n1≤n),m×n2(n2≤n),m×n3(n3≤n),m×n4(n4≤n)的圖象區(qū)域,每個(gè)字符構(gòu)元包含如字符的輪廓之類的特征。同時(shí),對(duì)一個(gè)代表字符識(shí)別的加權(quán)系數(shù)(即所關(guān)心的字符是什么)和代表字符起始,連接和結(jié)束的屬性加以分析(ST302步)。接著,掩碼學(xué)習(xí)117加權(quán)被劃分的字符的那些部分的特征。如果字符的類型只根據(jù)一部分字符來估測(cè)的話,則該部分的加權(quán)系數(shù)設(shè)定為大值(ST303步)。
下面將描述在識(shí)別系統(tǒng)101中的對(duì)照單元109中的詳細(xì)的處理。
圖4示出了一個(gè)將在海外旅游處作為一個(gè)圖象攝入的字符數(shù)據(jù)與在便攜式翻譯機(jī)中的樣本掩碼數(shù)據(jù)進(jìn)行對(duì)照以識(shí)別一個(gè)字符“M”的實(shí)際情形。圖5是一個(gè)顯示一個(gè)圖4所示的字符對(duì)照過程的流程圖。
首先,一個(gè)字符指定區(qū)域的m×n個(gè)象素被指定給一個(gè)要被識(shí)譯的字符,這些象素是作為攝像機(jī)的圖象數(shù)據(jù)攝入的。圖4的參考數(shù)字401代表了一個(gè)相應(yīng)于被作為攝像機(jī)攝取的圖象數(shù)據(jù)的m×n個(gè)象素。此時(shí),在字符二進(jìn)制處理器106中,如果攝取的字符數(shù)據(jù)的分辨率不同于樣本掩碼數(shù)據(jù)的分辨率,則在所攝取的字符數(shù)據(jù)上執(zhí)行分辨率變換以標(biāo)稱化字符數(shù)據(jù),使得在字符是橫向書寫格式時(shí)在字符高度方向上的m點(diǎn)的分辨率在攝入的字符數(shù)據(jù)與樣本掩碼數(shù)據(jù)之間作得相等(ST502步)。相對(duì)于在寬度方向上的n個(gè)點(diǎn)的分辨率,最好準(zhǔn)備多個(gè)具有不同的n值的樣本掩碼。
接著,通過橫向增量n(n=1,2,3,…)劃分的每個(gè)象素由字符數(shù)據(jù)401依次產(chǎn)生字符區(qū)域,并將由此產(chǎn)生的這些區(qū)域的數(shù)據(jù)與樣本掩碼數(shù)據(jù)進(jìn)行對(duì)照從而產(chǎn)生得到一個(gè)相關(guān),包括在字符數(shù)據(jù)和樣本掩碼數(shù)據(jù)之間的加樣本掩碼數(shù)據(jù)的加權(quán)系數(shù)。
如果相關(guān)最大,則產(chǎn)生下一個(gè)象素區(qū)域以用如上所述的(ST503步)的方式進(jìn)行相關(guān)。例如,在m×n1(n1≤n),m×n2(n2≤n),m×n3(n3≤n),m×n4(n4≤n)的象素區(qū)域(圖4中的402至405)與樣本掩碼數(shù)據(jù)(圖4中407至410)的相關(guān)假定為最佳。這里,圖4中參考數(shù)字411代表了構(gòu)成另外字符的元素的字符的樣本掩碼數(shù)據(jù)。參考數(shù)字412,413,414,和415分別代表了包含加權(quán)系數(shù)0.7,0.3,0.8和0.4的圖象數(shù)據(jù)。
如上所述,樣本掩碼數(shù)據(jù)與字符的起始,關(guān)聯(lián)和結(jié)束的屬性相加,因此可以縮短從存儲(chǔ)器搜索樣本掩碼數(shù)據(jù)的時(shí)間。最后,根據(jù)提供最大相關(guān)值樣本掩碼數(shù)據(jù)從多個(gè)字符碼420中選擇字符碼“M”421(ST504步)。在圖4中,參考數(shù)字418和419代表表示其他每個(gè)提供最大相關(guān)值之和的樣本掩碼數(shù)據(jù)的信號(hào)。
圖6A示出了采用本發(fā)明的圖象字符翻譯系統(tǒng)的便攜式翻譯機(jī),而圖6B示出了該機(jī)器的外觀。
在圖6A中,該翻譯系統(tǒng)識(shí)譯了一個(gè)在銅像下面的一個(gè)外語的銘文。一個(gè)使用者在其通過便攜式翻譯機(jī)的取景窗觀測(cè)時(shí)指定在一個(gè)矩形框內(nèi)的他想要知道的詞句。該知道字符陣列立即被進(jìn)行字符識(shí)別。例如,當(dāng)用戶說日語的,將該字符陣列翻譯成日語。
在圖6B中,參考數(shù)字601表示便攜式翻譯機(jī)的主體,參考數(shù)字602代表用來攝取字符圖象的CCD攝像機(jī)。參考數(shù)字603和604代表集成電路卡。在集成電路卡603中存儲(chǔ)了用來構(gòu)成樣本掩碼存儲(chǔ)單元111的數(shù)據(jù),字典112,語法字典113,詞典120,和句法字典121執(zhí)行字符識(shí)別和翻譯。此外,在集成電路卡中,存儲(chǔ)了用來構(gòu)建字典124的數(shù)據(jù),而句法字典125和發(fā)音字典127執(zhí)行字符識(shí)別和翻譯。
參考數(shù)字605代表一個(gè)用來顯示指定一個(gè)要求識(shí)譯的詞或句的字符指定區(qū)域和顯示字符識(shí)譯結(jié)果的液晶顯示器。參考數(shù)字606代表一個(gè)用來輸出字符識(shí)譯結(jié)果的揚(yáng)聲器。
圖7A和7B是顯示表示用來說明需要進(jìn)行字符識(shí)別和翻譯的詞或句的字符陣列的區(qū)域的字符的示意圖。
圖7A示出了一個(gè)當(dāng)字符陣列橫向書寫時(shí)的字符指定方法。在圖7A中,參考數(shù)字703代表一個(gè)用來顯示觀測(cè)區(qū)的觀測(cè)區(qū)域或顯示區(qū)域。參考數(shù)字701和702代表一個(gè)用來指示要予以識(shí)譯的詞或句的字符陣列的字符指示區(qū)。字符指定區(qū)701和702有m×n個(gè)象素(點(diǎn))的尺寸;也就是說,在字符的高度方向有m個(gè)象素(點(diǎn)),在字符的橫向有n個(gè)象素(點(diǎn))。每個(gè)字符指示區(qū)的尺寸可獨(dú)立可變。此外,字符指示區(qū)701,702可獨(dú)立地位于任何任意的位置上。于是,該字符指示區(qū)可位于任何所需的位置上,以便可覆蓋在導(dǎo)游牌,樓名牌,飯館菜單和觀光告示等上的任何位置處書寫的各種字符。參考數(shù)字704代表一個(gè)用來顯示要求識(shí)譯的詞或句的翻譯顯示區(qū)域。
同樣,圖7B示出了一個(gè)當(dāng)以橫向書寫的字符陣列時(shí)的字符指示方法。在圖7B中,參考數(shù)字707代表用來顯示觀測(cè)區(qū)的一個(gè)觀測(cè)區(qū)或顯示器。參考數(shù)字705和706代表了一個(gè)用來指示要識(shí)譯的詞或句的字符陣列的字符指示區(qū)。與圖7A的字符指示區(qū)一樣,字符指示區(qū)705和706有一個(gè)m×n象素的尺寸,在字符的橫向m個(gè)象素,在垂直方向有n個(gè)象素。每個(gè)字符指示區(qū)可獨(dú)立地改變。此外,字符指示區(qū)705和706可位于任何任意的位置上。于是,字符指示區(qū)可位于任何需要的位置,從而可覆蓋在導(dǎo)游牌,樓名牌,飯館菜單和觀光告示等上的任何位置處書寫的各種字符。在圖7B中,參考數(shù)字708代表了用來顯示要識(shí)譯的詞或句的字符陣列的翻譯結(jié)果的翻譯顯示區(qū)。
根據(jù)本發(fā)明的的實(shí)施例,提供了用來精確地識(shí)別和翻譯作為攝像機(jī)的圖象數(shù)據(jù)攝入的各類語言的字符的字符識(shí)別和翻譯系統(tǒng),而對(duì)字符的形狀和尺寸或?qū)畏N語言均無限制。于是,書寫在導(dǎo)游牌,樓名牌,飯館菜單和觀光告示等上可以作為攝像機(jī)的圖象數(shù)據(jù)攝取并被可靠地識(shí)譯。因此,用戶可方便地理解字符(語句)的含義。
下面將描述本發(fā)明的第二實(shí)施例。
圖8是一個(gè)顯示本發(fā)明的第二實(shí)施例的語音識(shí)別和翻譯系統(tǒng)的方框圖。
在圖8中,參考數(shù)字801代表一個(gè)用來執(zhí)行語音識(shí)別的識(shí)別系統(tǒng),參考數(shù)字823代表了一個(gè)用來生成語音識(shí)別所需的聲學(xué)模式的學(xué)習(xí)系統(tǒng),而參考數(shù)字828代表了一個(gè)用來從識(shí)別系統(tǒng)接收識(shí)別結(jié)果和用來根據(jù)鍵詞來分析語音以便翻譯該語音的翻譯系統(tǒng)。
參考數(shù)字802代表一個(gè)方向性麥克風(fēng)和參考數(shù)字803代表一個(gè)多方向性麥克風(fēng)。這些麥克風(fēng)被用來檢測(cè)在機(jī)場(chǎng),在火車站,飛機(jī)上,在諸如公共汽車,出租車等車輛通告的語音,以及周圍的談話,講演等等。
在第二實(shí)施例中,配置了方向性麥克風(fēng)和多方向麥克風(fēng)803,方向性麥克風(fēng)802用于可靠地收集一個(gè)特定需要的語音(目標(biāo)語音),而多方向麥克風(fēng)803用于收集全部環(huán)境聲音(各種包含環(huán)境聲音和噪聲的聲音)。這樣,每個(gè)麥克風(fēng)的特性可各自發(fā)揮其效用。然而,也可只用一個(gè)或用多個(gè)麥克風(fēng),也就是說,麥克風(fēng)的數(shù)目并無限制。此外,麥克風(fēng)的類型既可方向性也可是多方向性的。
參考數(shù)字839代表了包含一個(gè)LCD(發(fā)光二極管)之類的顯示器,而參考數(shù)字840代表一個(gè)諸如揚(yáng)聲器,耳機(jī)之類的聲輸出裝置。顯示器839和輸出裝置840分別用于輸出作為包含語句的圖象和包含語句的語音的翻譯系統(tǒng)828的處理結(jié)果。
在識(shí)別系統(tǒng)801中,參考數(shù)字804代表一個(gè)用來將來自方向性麥克風(fēng)802的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),而參考數(shù)字806代表作為一個(gè)目標(biāo)語音的通告語音和由A/D轉(zhuǎn)換器804轉(zhuǎn)換的數(shù)字?jǐn)?shù)據(jù)。
根據(jù)該實(shí)施例,通告語音的數(shù)字?jǐn)?shù)據(jù)806由16比特組成,并包含各所在處的噪聲數(shù)據(jù)。參考數(shù)字805代表一個(gè)用來將從多方向性麥克風(fēng)803來的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。參考數(shù)字807代表由A/D轉(zhuǎn)換器805轉(zhuǎn)換的和包含在無通告語音時(shí)的噪聲的全部聲音的數(shù)字?jǐn)?shù)據(jù)。在本實(shí)施例中,在各處的全部環(huán)境聲音的數(shù)字?jǐn)?shù)據(jù)807由16比特組成。
參考數(shù)字808代表用于數(shù)字地記錄由A/D轉(zhuǎn)換器804轉(zhuǎn)換的通告語音的數(shù)字?jǐn)?shù)據(jù)806和數(shù)字地記錄由A/D轉(zhuǎn)換器805轉(zhuǎn)換的無通告語音時(shí)的所在地的全部聲音的數(shù)字?jǐn)?shù)據(jù)807并將它們存儲(chǔ)在存儲(chǔ)器809中的記錄器。通告語音的數(shù)字?jǐn)?shù)據(jù)806與無通告語音時(shí)的所在地全部環(huán)境的聲音被存儲(chǔ)到存儲(chǔ)器809中,從而可并行從存儲(chǔ)器讀出和寫入存儲(chǔ)器。參考數(shù)字810代表由語音記錄器從存儲(chǔ)器809中讀出的通告聲音的數(shù)字?jǐn)?shù)據(jù),和參考數(shù)字811代表當(dāng)無通告語音時(shí)由語音記錄器808從存儲(chǔ)器809中讀出的在所在地全部聲音。
參考數(shù)字812代表一個(gè)用來接收通告語音的數(shù)字?jǐn)?shù)據(jù)810和無通告語音時(shí)所在地的全部聲音0的數(shù)字?jǐn)?shù)據(jù)811的去噪聲單元。參考數(shù)字813代表通過從包含在去噪聲單元812中的噪聲的通告語音的數(shù)字?jǐn)?shù)據(jù)810中去除噪聲獲得的通告語音的數(shù)字?jǐn)?shù)據(jù)。在本處理過程中,噪聲不能被很好地去除但被減少了,因?yàn)橥ǜ嬲Z音相對(duì)比較強(qiáng)。
根據(jù)本實(shí)施例,將系統(tǒng)設(shè)計(jì)得可對(duì)噪聲的類型進(jìn)行識(shí)別并其以此作為識(shí)別在各種場(chǎng)合的嘈雜環(huán)境下的通告語音或周圍語音的關(guān)鍵,對(duì)此,下面要予以介紹。本發(fā)明的系統(tǒng)的這種設(shè)計(jì)有利于方便進(jìn)行聲學(xué)對(duì)照的用的聲學(xué)模式的搜索操作和語音識(shí)別。
參考數(shù)字814代表既包含通過從包含在去噪聲單元812的噪聲中的通告語音的數(shù)字?jǐn)?shù)據(jù)810中去除噪聲所獲得的通告語音的數(shù)字?jǐn)?shù)據(jù)813又包含在無通告語音時(shí)的在各種場(chǎng)合的全部聲音的數(shù)字?jǐn)?shù)據(jù)的數(shù)據(jù),這些數(shù)據(jù)是直接從去噪聲單元812中輸出的。
參考數(shù)字815代表一個(gè)聲音分析單元,該分析單元采用短時(shí)頻率分析,對(duì)已經(jīng)去除了噪聲的通告語音的數(shù)字?jǐn)?shù)據(jù)813進(jìn)行聲音特征提取處理。參考數(shù)字816代表一個(gè)區(qū)段檢測(cè)器,用來根據(jù)語音的輸入波形檢測(cè)語音存在區(qū)段。參考數(shù)字817代表一效用對(duì)照單元,用來通過一個(gè)關(guān)聯(lián)單元將輸入語音與在聲學(xué)模式存儲(chǔ)單元819中用于目標(biāo)識(shí)別的聲學(xué)模式,字典820以及語法字典821相比較。聲學(xué)對(duì)照單元817的對(duì)照結(jié)果作為連續(xù)語音中的詞或句的識(shí)別結(jié)果輸出到判斷單元818。參考數(shù)字827代表編碼數(shù)據(jù),該編碼數(shù)據(jù)代表作為在判斷單元818中輸出的對(duì)連續(xù)語音中的詞或句的識(shí)別結(jié)果。
在學(xué)習(xí)系統(tǒng)823中,通過從包含噪聲的通高語音的數(shù)字?jǐn)?shù)據(jù)810中去除噪聲獲得的通告語音的數(shù)字?jǐn)?shù)據(jù),和當(dāng)無通告語音時(shí)的各處的全部聲音的數(shù)字?jǐn)?shù)據(jù),都被存儲(chǔ)在一個(gè)大規(guī)模通告聲音數(shù)據(jù)庫824中。聲音分析單元825讀出存儲(chǔ)在大規(guī)模通告聲音數(shù)據(jù)庫824中數(shù)據(jù),并根據(jù)短時(shí)頻率分析對(duì)讀出的數(shù)據(jù)進(jìn)行聲音特征提取處理。模式學(xué)習(xí)單元826接收來自聲音分析單元825中的聲音特征提取結(jié)果以生成一個(gè)聲學(xué)模式。這里,聲學(xué)模式是一個(gè)對(duì)聲音識(shí)別為關(guān)鍵的基準(zhǔn)模式,而且該聲學(xué)模式包含諸如輔音,元音等音素的每個(gè)音素的模式。例如,采用Hidden Markov模式(HMM)。
如上生成的聲學(xué)模式借助于一個(gè)熟悉所收集的或檢測(cè)的語言的操作者與代表一個(gè)詞或句的碼相關(guān)聯(lián),而將一個(gè)必要的要素存儲(chǔ)在聲學(xué)模式存儲(chǔ)單元。此時(shí),生成的聲學(xué)模式也與在數(shù)據(jù)收集處的當(dāng)無通告語音時(shí)的噪聲環(huán)境碼相關(guān)聯(lián)。并存儲(chǔ)在聲學(xué)模式存儲(chǔ)單元819在聲音分析單元825中,根據(jù)在無通告語音時(shí)的各處的全體聲音的數(shù)字?jǐn)?shù)據(jù)生成噪聲環(huán)境碼。
在本實(shí)施例中,給一個(gè)代表詞或句的碼生成在不同噪聲環(huán)境下的多聲學(xué)模式。最好,根據(jù)要翻譯的語言的方言之類來生成多聲學(xué)模式。
在翻譯系統(tǒng)828中,代表從識(shí)別系統(tǒng)801輸出的詞或句的編碼數(shù)據(jù)827用一個(gè)鍵詞分析單元829就是否該數(shù)據(jù)提供了一個(gè)對(duì)翻譯有效的鍵詞進(jìn)行分析,并根據(jù)該鍵詞識(shí)別一個(gè)語句的含義。此外,中間語言處理器832產(chǎn)生一個(gè)僅代表與任何特定語言無關(guān)的語句的含義的中間語言。
鍵詞分析單元829與一個(gè)詞義字典(詞典)和一個(gè)語句結(jié)構(gòu)含義字典(句法字典)831相連。例如,當(dāng)輸入的通告語音為德語并要求翻譯成日語時(shí),則在識(shí)別系統(tǒng)801中的聲學(xué)模式存儲(chǔ)單元819,字典820,和語法字典821和在翻譯系統(tǒng)828中的詞典830和句法字典831被設(shè)計(jì)得與德語相對(duì)應(yīng)。此外,為以多語模式使用該系統(tǒng),一個(gè)諸如集成電路卡,CD-ROM之類的可互換大容量存儲(chǔ)介質(zhì)最好用作為聲學(xué)模式存儲(chǔ)單元,字典820,語法字典821,詞典830和語法字典831。
在中間語音處理器832中產(chǎn)生的中間語言的語句在語句形成單元833中被翻譯成為所需語言的語句。語句形成單元833被連接到相應(yīng)于例如日語的字典834和語句結(jié)構(gòu)范例字典(語法字典)835。被翻譯的語句顯示在顯示器839上。在聲音合成處理器837中被翻譯的語句再被轉(zhuǎn)換成數(shù)字語音,通過D/A轉(zhuǎn)換器838將數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào),并從聲輸出裝置840中輸出語音。
聲合成處理器837與相應(yīng)于例如日語的句法字典835和發(fā)音字典836相連。此外,為了以多語模式使用該系統(tǒng),一個(gè)諸如集成電路卡,一個(gè)CD-ROM之類的可互換大容量存儲(chǔ)介質(zhì)最好被用作為字典834,句法字典835和發(fā)聲字典836。
圖8的每個(gè)處理器方框可由一個(gè)包括多個(gè)LSIs和存儲(chǔ)器的系統(tǒng)或一個(gè)或多個(gè)在半導(dǎo)體器件上形成的晶片系統(tǒng)組成。
下面將描述當(dāng)本實(shí)施例的語音識(shí)別和翻譯系統(tǒng)應(yīng)用于便攜式翻譯機(jī)時(shí)的語音識(shí)別的操作和實(shí)際情形。
圖9是在海外旅游期間使用便攜式翻譯機(jī)預(yù)先檢測(cè)在海外機(jī)場(chǎng),火車站等地,在諸如飛機(jī),公共汽車,地鐵,出租車,等處,或在觀光樓周圍語音和通告的流程,并預(yù)先生成執(zhí)行通告語音所需的翻譯的聲學(xué)模式。
首先,在ST901步,利用安裝在便攜式翻譯機(jī)上的多方向性麥克風(fēng)803或方向性麥克風(fēng)802,記錄無通告語音時(shí)在任意處的靜態(tài)噪聲“B”。然后,在ST902步,用方向性麥克風(fēng)802記錄當(dāng)在進(jìn)行通告時(shí)的通告語音“A”。通告語音“A”主要包含如先前記錄的噪聲“B”一樣的背景噪聲。然后,去噪聲單元812從疊加了噪聲的通告一樣信號(hào)的頻譜“A”中減去代表靜態(tài)噪聲的信號(hào)的頻譜“B”(ST903步)。然后,由相減得到的頻譜“C”(頻譜“C”=頻譜“A”-頻譜“B”)并作為通告語音頻譜數(shù)據(jù)存儲(chǔ)到大規(guī)模通告聲音數(shù)據(jù)庫824中,并根據(jù)這些數(shù)據(jù),將靜態(tài)噪聲“B”的頻譜數(shù)據(jù)存入大規(guī)模通告聲音數(shù)據(jù)庫824中(ST904步)。聲音分析單元825對(duì)所存入的通告語音頻譜“C”進(jìn)行短時(shí)頻率分析以實(shí)現(xiàn)聲音特征提取(聲音分析),并也分析噪聲環(huán)境(ST905)。最后,根據(jù)語音分析結(jié)果,模式學(xué)習(xí)單元826生成一個(gè)聲學(xué)模式(模式學(xué)習(xí))和將生成的聲學(xué)模式與一個(gè)代表詞或句的碼相關(guān),并將該聲學(xué)模式存入聲學(xué)模式存儲(chǔ)單元819(ST906步)。
圖10是一個(gè)顯示海外旅游者用便攜式翻譯機(jī)對(duì)在海外機(jī)場(chǎng),火車站等地,在諸如飛機(jī),公共汽車,地鐵,出租車,等處,或在觀光樓周圍的語音和通告語音進(jìn)行語音識(shí)別的一系列處理的流程圖。
假設(shè),一個(gè)海外旅游者并不理解如在飛機(jī)場(chǎng),火車站等地,在飛機(jī),公共汽車,地鐵,出租車,等處,或在觀光樓中聽到的通告的含義。然而,他可從隨隊(duì)的聽眾的反應(yīng)容易地判斷所通告的事情與其有關(guān)。此時(shí),該旅游者打開便攜式翻譯機(jī),而無通告語音時(shí)的各處的靜態(tài)(即背景環(huán)境)噪聲“B”通過安裝在便攜式翻譯機(jī)上的多方向麥克風(fēng)或方向性麥克風(fēng)被記錄(ST1001)。然后,當(dāng)感興趣的通告實(shí)際開始時(shí),通過方向性麥克風(fēng)802將包含基本上與先前記錄的靜態(tài)噪聲“B”一樣的噪聲的通告語音記錄下來(ST1002步)。
接著,在ST1003步,去噪聲單元812從混雜有噪聲的通告語音信號(hào)的頻譜“A”中減去靜態(tài)噪聲信號(hào)的頻譜“B”。然后,對(duì)由減操作獲得的頻譜“C”進(jìn)行短時(shí)頻率分析來實(shí)現(xiàn)生特征提取(聲分析)(ST1004)。然后,根據(jù)連續(xù)通告語音的輸入波形檢測(cè)存在所需語音的區(qū)段(ST1005),最后,將輸入的語音與通告識(shí)別目標(biāo)的聲學(xué)模式和詞或句模式相比較,以檢測(cè)有關(guān)鍵詞或鍵句。
圖11示出了搜索一個(gè)聲學(xué)模式的示意圖,說明可容易地以一個(gè)通告語音的數(shù)字?jǐn)?shù)據(jù)813的聲學(xué)對(duì)照處理來搜索一個(gè)聲學(xué)模式,其中的數(shù)字?jǐn)?shù)據(jù)813是通過從包含噪聲的通告語音中去除噪聲獲得的。
如上所述,在已經(jīng)進(jìn)行了去噪聲處理的通告語音的數(shù)字?jǐn)?shù)據(jù)中并未去全部噪聲。然而,在該處理中,噪聲已經(jīng)顯示減少,因?yàn)橥ǜ嬲Z音被顯示加重了。于是,如果可以識(shí)別噪聲的類型的話,則就可能在各處的嘈雜環(huán)境下進(jìn)行通告語音的語音識(shí)別。
在圖11中,參考數(shù)字1101代表去除噪聲的通告語音的數(shù)字?jǐn)?shù)據(jù),參考數(shù)字1102代表用來執(zhí)行聲學(xué)對(duì)照的聲學(xué)對(duì)照單元,參考數(shù)字1103代表噪聲聲學(xué)模式,參考數(shù)字1104代表一個(gè)判斷單元,而參考數(shù)字1105代表根據(jù)每個(gè)噪聲環(huán)境碼一個(gè)被學(xué)習(xí)的和被存儲(chǔ)的環(huán)境聲學(xué)模式。在圖11的構(gòu)成的元素,噪聲聲學(xué)模式1103和通告語音模式1105被包含在圖的聲學(xué)模式存儲(chǔ)單元819中。聲學(xué)對(duì)照單元1102和判斷單元1104分別對(duì)應(yīng)于圖8的聲學(xué)對(duì)照單元817和判斷單元818。
在本實(shí)施例中,如上所述,無通告語音時(shí)的靜態(tài)(即背景環(huán)境)噪聲“B”由安裝在便攜式翻譯機(jī)多方向性或方向性麥克風(fēng)在檢測(cè)一個(gè)要翻譯的目標(biāo)語音(此時(shí)為一個(gè)通告語音)前預(yù)先記錄好(參閱圖10的ST1001步)。此時(shí),聲學(xué)對(duì)照單元1102中,噪聲“B”被與存儲(chǔ)在噪聲聲學(xué)模式1103中的各種模式相比較,以便識(shí)別噪聲“B”產(chǎn)生處的場(chǎng)所(噪聲環(huán)境)。通過識(shí)別一個(gè)加有噪聲聲學(xué)模式的噪聲環(huán)境碼來進(jìn)行上述識(shí)別的。然后,記錄包含靜態(tài)噪聲“B”的通過語音“A”,接受預(yù)定處理,并與相應(yīng)于被識(shí)別的環(huán)境地面噪聲環(huán)境下的通告語音模式相對(duì)照。如上所述,只有對(duì)相應(yīng)于被識(shí)別的噪聲環(huán)境碼的通告語音模式進(jìn)行搜索和將通告語音與所搜索的模式進(jìn)行對(duì)照,所以可以容易而迅速地進(jìn)行搜索操作。例如,當(dāng)噪聲“B”是在地鐵中的背景環(huán)境噪聲時(shí),聲學(xué)對(duì)照單元1104只搜索在“在地鐵”的噪聲環(huán)境下的通告語音模式就足夠了。
圖12A和12B分別顯示了一個(gè)使用便攜式翻譯機(jī)的場(chǎng)景及其外觀圖。更具體地說,圖12A示出了一個(gè)導(dǎo)游通告混有火車站內(nèi)的聲音。一個(gè)旅游使用者可通過顯示一個(gè)便攜式翻譯機(jī)的聲輸出裝置識(shí)別通過的內(nèi)容。當(dāng)該使用者希望將該通告翻譯成,例如,日語時(shí),因?yàn)樗侨毡救?,則會(huì)將此通告翻譯成日語。
圖12B示出了便攜式翻譯機(jī)的外形,其中參考數(shù)字1201代表便攜式翻譯機(jī)的主體,而參考數(shù)字1202代表用來檢測(cè)在飛機(jī)場(chǎng),火車站等地,在飛機(jī),公共汽車,地鐵,出租車,等處,或在觀光樓中聽到的通告語音,或在講演處的語音。參考數(shù)字1203代表用來從上述語音中去除噪聲和檢測(cè)無目標(biāo)語音在該處的全體聲音的多方向性麥克風(fēng)。參考數(shù)字1204代表用來輸出被翻譯的語音的聲輸出單元,以使使用者可以聽到該語音,該聲輸出單元包括一個(gè)揚(yáng)聲器和耳機(jī)。參考數(shù)字1205代表一個(gè)用來顯示語音翻譯結(jié)果的內(nèi)容的顯示器。參考數(shù)字1206代表可一個(gè)集成電路卡,在該卡中裝有用于語音識(shí)別和翻譯的聲學(xué)模式存儲(chǔ)單元819,字典820,語法字典821,詞典830,和語法字典831。參考數(shù)字1207代表一個(gè)集成電路卡,在該卡中裝有用于語音識(shí)別和翻譯的字典834,語法字典835和發(fā)音字典836。
圖13是一個(gè)顯示內(nèi)容的例子,該內(nèi)容是由便攜式識(shí)別和翻譯機(jī)通過語音識(shí)別和翻譯獲得的。在圖13中,參考數(shù)字1301代表便攜式翻譯機(jī)的顯示區(qū)域。將通過識(shí)別一個(gè)在飛機(jī)場(chǎng),火車站等地,在飛機(jī),公共汽車,地鐵,出租車,等處,或在觀光樓中聽到的通告語音,或在講演處的語音識(shí)別結(jié)果,以當(dāng)?shù)卣Z言的字符形式顯示在顯示區(qū)域1301的局部區(qū)域1302中。此外,將一個(gè)翻譯結(jié)果以字符的形式形式在局部區(qū)域1303上。例如,在本例中是將阿拉伯語翻譯成英語詞或句。另外,配置了一個(gè)區(qū)域1304用來顯示一個(gè)翻譯的信息,例如翻譯率概率,翻譯成功率等信息。在本例中,將翻譯成功率顯示在區(qū)域1304中。除了在翻譯前,可以將翻譯成功率,有關(guān)原來語言的的類型的信息顯示在區(qū)域1304上。
根據(jù)本發(fā)明,可以提供有關(guān)適用于識(shí)譯在飛機(jī)場(chǎng),火車站等地,在飛機(jī),公共汽車,地鐵,出租車,等處,或在觀光樓中聽到的通告語音,或在講演處的語音的語音識(shí)別和翻譯系統(tǒng)。
本發(fā)明并限于上述實(shí)施例,熟悉本技術(shù)領(lǐng)域的人們可以在權(quán)利要求中所要求保護(hù)的主題范圍內(nèi)可以作出各種修改。無需說,這種修改均在本發(fā)明的覆蓋范圍內(nèi)。例如,在第一個(gè)發(fā)明中,字符(文件)識(shí)別和翻譯系統(tǒng)包括識(shí)別系統(tǒng)101,學(xué)習(xí)系統(tǒng)102和翻譯系統(tǒng)103。然而,識(shí)別系統(tǒng)101和翻譯系統(tǒng)103可以安裝在有關(guān)諸如便攜式翻譯機(jī)這樣的有關(guān)緊湊的器件上,而學(xué)習(xí)系統(tǒng)102則可安裝在具有諸如個(gè)人計(jì)算機(jī)之類的相對(duì)為大容量存儲(chǔ)器件。在本例中個(gè)人計(jì)算機(jī),便攜式翻譯機(jī)被連接到被互連而識(shí)別系統(tǒng)和學(xué)習(xí)系統(tǒng)被用以將學(xué)習(xí)系統(tǒng)102的樣本掩碼學(xué)習(xí)單元117數(shù)據(jù)送到識(shí)別系統(tǒng)101的樣本掩碼存儲(chǔ)單元111。于是,在識(shí)別系統(tǒng)的樣本掩碼存儲(chǔ)單元111存儲(chǔ)了必要數(shù)據(jù),因此,便攜式翻譯系機(jī)可自由使用。于是,個(gè)人計(jì)算機(jī)至少可以配置字符數(shù)據(jù)庫115,同時(shí),給可拆地與個(gè)人計(jì)算機(jī)連接的便攜式翻譯機(jī)還可配置其它構(gòu)件。
此外,在第二實(shí)施例中,語音識(shí)別和翻譯系包括識(shí)別系統(tǒng)801,學(xué)習(xí)系統(tǒng)823,和翻譯系統(tǒng)828。在這些構(gòu)件中,可將諸如便攜式翻譯機(jī)這樣的小型設(shè)備配置識(shí)別系統(tǒng)801和翻譯系統(tǒng)828,而給諸如個(gè)人計(jì)算機(jī)這樣的大容量存儲(chǔ)設(shè)備配置學(xué)習(xí)系統(tǒng)823。在這種情形下,個(gè)人計(jì)算機(jī)和便攜式翻譯機(jī)被相互連接,并配合識(shí)別系統(tǒng)801和學(xué)習(xí)系統(tǒng)823的工作,以便將來自學(xué)習(xí)系統(tǒng)823的模式學(xué)習(xí)單元826的數(shù)據(jù)送到識(shí)別系統(tǒng)101的聲學(xué)模式存儲(chǔ)單元819。于是,將所需的數(shù)據(jù)存儲(chǔ)在識(shí)別系統(tǒng)801的聲學(xué)模式存儲(chǔ)單元819,因而便攜式翻譯機(jī)可自由使用。另外,也可以至少給個(gè)人計(jì)算機(jī)配置聲數(shù)據(jù)庫824,同時(shí)也可將其他的構(gòu)件配置給可拆地與個(gè)人計(jì)算機(jī)相連的便攜式翻譯機(jī)。
此外,在本說明書中,詞“裝置”并不一定意味著是一種實(shí)體裝置,而是也可是獲得裝置的功能的軟件。另外,一個(gè)裝置或元件的功能可以由兩個(gè)或多個(gè)實(shí)體裝置或元件獲得,或兩個(gè)或多個(gè)裝置或元件的若干功能也可由一個(gè)裝置或元件獲得。
權(quán)利要求
1.一種用來識(shí)別包含在所攝取的圖象的字符并翻譯由所識(shí)別的字符組成的詞或句的字符識(shí)別和翻譯系統(tǒng),包括一個(gè)字符數(shù)據(jù)庫,用來積累代表包含在攝取的圖象中的字符的字符數(shù)據(jù);一個(gè)字符形狀分析單元,用來根據(jù)在字符數(shù)據(jù)庫中的字符數(shù)據(jù)分析每個(gè)字符的形狀和用來提取構(gòu)成字符的字符構(gòu)元的特征;一個(gè)掩碼學(xué)習(xí)單元,用來根據(jù)所述字符形狀分析單元的分析結(jié)果產(chǎn)生字符構(gòu)元的樣本掩碼數(shù)據(jù);一個(gè)一個(gè)字符對(duì)照單元,用來將用作為識(shí)別目標(biāo)的字符的字符數(shù)據(jù)與字符構(gòu)元的樣本掩碼數(shù)據(jù)相對(duì)照,所述的識(shí)別目標(biāo)包含在新攝取的圖象中;和翻譯單元,用來翻譯由所述字符對(duì)照單元識(shí)別的字符組成的詞或句。
2.如權(quán)利要求1所述的字符識(shí)別和翻譯系統(tǒng),其中所述的字符識(shí)別和翻譯系統(tǒng)包括一個(gè)具有一個(gè)外部存儲(chǔ)設(shè)備的靜止安裝式的信息設(shè)備和一個(gè)可拆地與所述靜止安裝式的信息設(shè)備相連接的便攜式信息設(shè)備,所述字符形狀分析單元和所述掩碼學(xué)習(xí)單元配置給所述靜止安裝式信息設(shè)備,所述外部存儲(chǔ)設(shè)備包含所述字符數(shù)據(jù)庫,并給所述便攜式信息設(shè)備配置所有其余的構(gòu)件。
3.如權(quán)利要求1所述的字符識(shí)別和翻譯系統(tǒng),其中所述的字符形狀分析單元將來自所述字符數(shù)據(jù)庫的字符數(shù)據(jù)分出m×n象素的二進(jìn)制數(shù)據(jù),并給每個(gè)象素檢測(cè)“1”或“0”,同時(shí)將字符數(shù)據(jù)以增量n劃分(n1≤n),m×n2(n2≤n),...,m×ni(ni≤n)個(gè)包含字符特征的象素區(qū)域和分析代表字符識(shí)別的加權(quán)系數(shù)和/或連接及結(jié)束的屬性。
4.如權(quán)利要求3所述的字符識(shí)別和翻譯系統(tǒng),其中所述的掩碼學(xué)習(xí)單元附加每個(gè)包含字符特征的m×n1(n1≤n),m×n2(n2≤n),...,m×ni(ni≤n)個(gè)象素區(qū)域,所述字符特征具有代表用來表示字符識(shí)別的加權(quán)系數(shù)(即代表字符的什么是感興趣的)的屬性和/字符的起始,關(guān)聯(lián)及結(jié)束以產(chǎn)生樣本掩碼數(shù)據(jù)。
5.如權(quán)利要求4所述的字符識(shí)別和翻譯系統(tǒng),其中所述的包含對(duì)照單元的字符從在所述字符數(shù)據(jù)庫的字符數(shù)據(jù)中分出m×n象素的二進(jìn)制,并檢測(cè)每個(gè)象素的“1”或“0”,同時(shí)將字符數(shù)據(jù)以增量n分為m×n1(n1≤n),m×n2(n2≤n),...,m×ni(ni≤n)個(gè)包含字符特征的象素區(qū)域,并將象素區(qū)域的數(shù)據(jù)與樣本掩碼數(shù)據(jù)相比較。
6.如權(quán)利要求4或5所述的字符識(shí)別和翻譯系統(tǒng),還包括一個(gè)用來存儲(chǔ)樣本掩碼數(shù)據(jù)的樣本掩碼存儲(chǔ)器,所述樣本掩碼數(shù)據(jù)是由所述掩碼學(xué)習(xí)單元獲得的,所述樣本掩碼存儲(chǔ)器給一個(gè)任意的字符存儲(chǔ)不同的樣本掩碼數(shù)據(jù)n1,n2,...,nj。
7.如權(quán)利要求1-6中任一權(quán)利要求所述的所述的字符識(shí)別和翻譯系統(tǒng),還包括一個(gè)用來攝取包含字符的圖象的圖象攝取單元,和一個(gè)字符陣列指定單元,用來從由所述圖象攝取單元攝取的圖象數(shù)據(jù)中指定一個(gè)包含要被識(shí)別的詞或句的字符陣列。
8.如權(quán)利要求7所述的字符識(shí)別和翻譯系統(tǒng),其中所述的字符陣列指定單元在由所述的圖象攝取單元獲得的圖象數(shù)據(jù)的任何位置上指定一個(gè)或一個(gè)以上的m×n象素區(qū)域。
9.如權(quán)利要求8所述的字符識(shí)別和翻譯系統(tǒng),其中所述的字符陣列指定單元在由所述的圖象攝取單元獲得的圖象數(shù)據(jù)的任何位置上指定一個(gè)或一個(gè)以上的m×n象素區(qū)域。
10.如權(quán)利要求8或9所述的字符識(shí)別和翻譯系統(tǒng),其中當(dāng)由所述字符陣列指定單元獲得字符陣列為橫向書寫時(shí),所述字符對(duì)照單元獲得象素區(qū)域并將其以增量n劃分,該n與字符的寬度方向上的n個(gè)象素相關(guān),并將該象素區(qū)域的數(shù)據(jù)與樣本掩碼數(shù)據(jù)相對(duì)照。
11.如權(quán)利要求1-10中任一權(quán)利要求所述的字符識(shí)別和翻譯系統(tǒng),其中所述的字符識(shí)別和翻譯系統(tǒng)包括一個(gè)具有外部存儲(chǔ)設(shè)備的靜止安裝式信息設(shè)備,和包括一個(gè)可拆地與所述靜止安裝式信息設(shè)備相連的便攜式信息設(shè)備,而其中至少將所述的字符數(shù)據(jù)庫配置該所述靜止安裝式信息設(shè)備的外部存儲(chǔ)設(shè)備,而給所述的便攜式信息設(shè)備配置其余的構(gòu)件。
12.一種字符識(shí)別和翻譯系統(tǒng),用來根據(jù)代表字符的字符數(shù)據(jù)分析包含在攝取的圖象的字符的形狀以獲得構(gòu)成該字符的字符構(gòu)元的樣本掩碼數(shù)據(jù),在樣本掩碼數(shù)據(jù)的基礎(chǔ)上,識(shí)別一個(gè)新攝取的用于字符識(shí)別和翻譯的字符和翻譯由識(shí)別的字符組成的詞或句,包括一個(gè)字符對(duì)照單元,用來將包含在圖象中的字符的字符數(shù)據(jù)與字符構(gòu)元的樣本掩碼數(shù)據(jù)相比較;和一個(gè)翻譯單元,用來翻譯由被所述的字符對(duì)照單元識(shí)別的字符組成的詞或句。
13.一種語音識(shí)別和翻譯系統(tǒng),用來識(shí)別一個(gè)檢測(cè)到的語音和將語音翻譯成為詞或句,包括一個(gè)用來存儲(chǔ)代表所檢測(cè)的語音的語音數(shù)據(jù)的語音存儲(chǔ)器;一個(gè)用來去除相應(yīng)于來自語音數(shù)據(jù)的噪聲的數(shù)據(jù)的去噪聲單元;一個(gè)用來存儲(chǔ)被所述去噪聲單元除去了噪聲的數(shù)據(jù)的聲數(shù)據(jù)庫;一個(gè)第一聲分析單元,用來提取相應(yīng)于存儲(chǔ)在所述聲數(shù)據(jù)庫中的語音數(shù)據(jù)的語音的特征;一個(gè)模式學(xué)習(xí)單元,用來由所述第一聲分析單元的分析結(jié)果生成聲學(xué)模式;一個(gè)用來存儲(chǔ)聲學(xué)模式的聲學(xué)模式存儲(chǔ)單元;一個(gè)第二聲分析單元,用來提取相應(yīng)于通過從語音的語音數(shù)據(jù)中除去代表噪聲的數(shù)據(jù)之后的數(shù)據(jù)的語音的特征;一個(gè)語音對(duì)照單元,用來將由所述的第二聲分析單元獲得語音數(shù)據(jù)與存儲(chǔ)在所述聲學(xué)模式存儲(chǔ)單元中存儲(chǔ)的聲學(xué)模式的數(shù)據(jù)相比較以識(shí)別該檢測(cè)到的語音;及一個(gè)翻譯單元,利用翻譯由所述語音對(duì)照單元識(shí)別的所檢測(cè)的語音組成的詞或句。
14.根據(jù)權(quán)利要求13所述的語音識(shí)別和翻譯系統(tǒng),其中所述的語音識(shí)別和翻譯系統(tǒng)包括一個(gè)具有一個(gè)外部存儲(chǔ)設(shè)備的靜止安裝式信息設(shè)備,和一個(gè)可拆地與所述靜止安裝式信息設(shè)備相連的便攜式信息設(shè)備,所述第一聲分析第一和所述模式學(xué)習(xí)單元配置給所述靜止安裝式信息設(shè)備,所述外部存儲(chǔ)設(shè)備包含所述聲數(shù)據(jù)庫,而所有其余的構(gòu)件被配置給所述便攜式信息設(shè)備。
15.構(gòu)件權(quán)利要求13和14所述的語音識(shí)別和翻譯系統(tǒng),其中所述的存儲(chǔ)器被用來存儲(chǔ)相應(yīng)于第一語音的第一語音數(shù)據(jù),在第一語音中,在要被識(shí)別和翻譯的目標(biāo)語音中疊加了環(huán)境噪聲,和存儲(chǔ)相應(yīng)由環(huán)境噪聲組成的第二語音的第二語音數(shù)據(jù)。
16.根據(jù)權(quán)利要求15所述的語音識(shí)別和翻譯系統(tǒng),其中所述的去噪聲第一包括將第一語音數(shù)據(jù)的第一語音頻譜數(shù)據(jù)與第語音數(shù)據(jù)的第二語音頻譜數(shù)據(jù)相比較,以獲得相應(yīng)于已除去了噪聲的數(shù)據(jù)的頻譜數(shù)據(jù)。
17.根據(jù)權(quán)利要求16所述的語音識(shí)別和翻譯系統(tǒng),其中所述的聲數(shù)據(jù)庫存儲(chǔ)第一頻譜數(shù)據(jù)和第二頻譜數(shù)據(jù)同時(shí)將它們互相相關(guān)聯(lián)。
18.根據(jù)權(quán)利要求17的語音識(shí)別和翻譯系統(tǒng),其中所述的聲學(xué)對(duì)照單元將環(huán)境噪聲的噪聲頻譜數(shù)據(jù)與在第二頻譜數(shù)據(jù)基礎(chǔ)上獲得噪聲聲學(xué)模式的數(shù)據(jù)相對(duì)照,而這些數(shù)據(jù)是在要識(shí)別和翻譯的語音被輸入處預(yù)先獲得的,從而可識(shí)別噪聲的類型,并且所述聲學(xué)對(duì)照單元將要識(shí)別和翻譯的語音語音數(shù)據(jù)與第語音數(shù)據(jù)的聲學(xué)模式的數(shù)據(jù)相對(duì)照,所述第一語音數(shù)據(jù)是根據(jù)噪聲的類型確定的,從而可識(shí)別該語音。
19.根據(jù)權(quán)利要求13-18的其中任一權(quán)利要求的語音識(shí)別和翻譯系統(tǒng),其中由所述翻譯單元所獲得的結(jié)果被至少顯示設(shè)備作為字符輸出,將一個(gè)由翻譯前的詞或句組成的原來語言文本和由在翻譯之后的詞或句組成的語言顯示在所述顯示設(shè)備的屏幕上。
20.根據(jù)權(quán)利要求19所述的語言識(shí)別和翻譯系統(tǒng),其中所述結(jié)果包含代表翻譯精確度的翻譯率或語言類型其中之一。
21.根據(jù)權(quán)利要求13-20之一所述的語音識(shí)別和翻譯系統(tǒng),其中所述的語音識(shí)別和翻譯系統(tǒng)包括一個(gè)具有一個(gè)外部存儲(chǔ)設(shè)備的靜止安裝式信息設(shè)備和包括一個(gè)可拆地與所述靜止安裝式信息設(shè)備相連的便攜式信息設(shè)備,并且給所述靜止安裝式信息設(shè)備的外部存儲(chǔ)設(shè)備至少配置第二數(shù)據(jù)庫,同時(shí)給所述便攜式信息設(shè)備配置其余的構(gòu)件。
22.一種語音識(shí)別和翻譯系統(tǒng),用來從代表一個(gè)輸入語音的語音數(shù)據(jù)中去除相應(yīng)于噪聲的數(shù)據(jù),以便提取相應(yīng)于由此獲得語音的特征,以便根據(jù)提取結(jié)果生成聲學(xué)模式,根據(jù)聲學(xué)模式設(shè)備一個(gè)新輸入的語音,并翻譯構(gòu)成該設(shè)備的語音的詞或句,包括一個(gè)第二聲分析單元,用來根據(jù)通過從新輸入語音的語音數(shù)據(jù)中去除代表噪聲的數(shù)據(jù)獲得數(shù)據(jù)提取相應(yīng)于所關(guān)心的數(shù)據(jù)語音的特征;一個(gè)語音對(duì)照單元,用來將由所述第二聲分析單元獲得的語音數(shù)據(jù)與聲學(xué)模式相比較以設(shè)備該語音;及一個(gè)翻譯單元,用來翻譯由所述語音對(duì)照單元識(shí)別的語音構(gòu)成的詞或句。
全文摘要
一種字符識(shí)別和翻譯系統(tǒng),包括一個(gè)字符數(shù)據(jù)庫,用來積累字符的字符數(shù)據(jù);一個(gè)字符形狀分析單元,用來提取構(gòu)成字符的字符構(gòu)元的特征;一個(gè)掩碼學(xué)習(xí)單元,用來根據(jù)所述字符形狀分析單元的分析結(jié)果產(chǎn)生字符構(gòu)元的樣本掩碼數(shù)據(jù);一個(gè)字符對(duì)照單元,用來將用作為識(shí)別目標(biāo)的字符數(shù)據(jù)與字符構(gòu)元的樣本掩碼數(shù)據(jù)相對(duì)照,所述的識(shí)別目標(biāo)包含在新攝取的圖象中;和翻譯單元,用來翻譯由所述字符對(duì)照單元識(shí)別的字符組成的詞或句。
文檔編號(hào)G10L21/02GK1157442SQ9611457
公開日1997年8月20日 申請(qǐng)日期1996年11月15日 優(yōu)先權(quán)日1995年11月15日
發(fā)明者脅坂新路, 佐藤裕子 申請(qǐng)人:株式會(huì)社日立制作所