專利名稱:用于將語音由源語言翻譯成目標語言的裝置和方法
技術領域:
本發(fā)明涉及用于翻譯輸入語音以合成并輸出所翻譯的語音,從而 使得使用不同語言諸如他們母語的人們可以進行語音交流的裝置和 方法。
背景技術:
近年來,對能夠支持在使用不同語言如他們母語的人們之間進行 溝通的語音翻譯裝置的實現(xiàn)存在高度需求。這種語音翻譯裝置主要使 用可以識別語音的單元、可以翻譯作為語音識別結果所獲得的字符串 的單元以及可以合成作為語音翻譯結果所獲得的字符串的單元,并且 可以通過順序地執(zhí)行語音識別過程、翻譯過程和語音合成過程而構 成。用于識別用戶說出的語音以輸出字符信息的語音翻譯系統(tǒng)已經(jīng) 以打包軟件格式等投入實際應用。此外,利用寫入的單詞(文本)作為 輸入的機器翻譯系統(tǒng)也類似地以套裝軟件的格式等投入實際應用。語 音合成系統(tǒng)已經(jīng)投入實際應用,并且通過適當?shù)厥褂密浖?,可以實現(xiàn) 語音翻譯裝置。在實現(xiàn)語音翻譯時,可以使用各種語音識別方法和機器翻譯方 法。不管使用哪種方法,主要的問題都是改進語音識別和機器翻譯的 精確性。例如,在通過使用源語言和目標語言的雙語語料庫來執(zhí)行翻譯的 基于范例的機器翻譯中,無法將所有文本準備成范例,并且當范例數(shù) 增加時,相對于輸入文本,要搜索的文本增加。因此,存在以下問題, 即,用戶需要花費時間和勞動來選擇適當?shù)奈谋?。此外,因為通過語音翻譯裝置進行的交流的內(nèi)容是多樣化的,所 以為了精確地翻譯語音內(nèi)容,需要相對于大規(guī)模詞匯量的語音識別、機器翻譯和語音合成。至于普通名詞、動詞、形容詞和副詞類別的單 詞,其數(shù)量受限于一定范圍,因此可以在用于語音識別、機器翻譯和 語音合成的字典內(nèi)預先注冊這些單詞。然而,幾乎每天都產(chǎn)生專有名 詞,例如地名、人名、料理名、商店名和公司名,而且一般無法在字 典內(nèi)注冊所有的專有名詞。因此,存在以下情形,如在國外旅游時所經(jīng)歷的,由于沒有在字 典中注冊用于翻譯的適當?shù)膯卧~,因此旅游者本身需要以母語說出專 有名詞,例如該國家或地區(qū)的地名和商店名。然而,在旅游者的發(fā)音 系統(tǒng)與他所旅游的國家的語言大相徑庭的情形下,難以像母語一樣精 確地發(fā)出單詞的音,并且所發(fā)音的專有名詞無法被理解的情形時有發(fā) 生。解決此問題的最簡單方法是通過使用具有旅游指南信息和地圖 信息的顯示功能的移動終端,以在該移動終端的顯示器上顯示的旅游 指南信息或地圖信息中指出特定部分,用戶可以指出想要去的地方。然而,僅通過指出地點或地名,無法充分表達用戶的意圖。例如, 僅通過指出某些設施,無法表達出用戶是希望去所述設施,還是用戶 希望確認多久可以到達那里、他們現(xiàn)在的情況或是到達那里需要花費 多少錢。因此,需要考慮以下方法,其中組合了用于顯示旅游指南信息和 地圖信息的顯示單元、用于根據(jù)所呈現(xiàn)的信息指出地名或設施名的單 元,以及語音翻譯單元,并且輸出所翻譯的該用戶說出的聲音以表達 該用戶的意圖。作為關于此方法的技術,已經(jīng)提出了這樣的技術,其中包括語音 識別單元和地圖顯示單元,用于識別與語音識別同時的由用戶在地圖 上執(zhí)行的指示操作,并根據(jù)這些之間的時間關系來輸出文本的語義結 構,其中包括在所說出的文本中的指示代詞由特定地圖的位置信息所取代(例如,見JP-AH09-114634(KOKAI))。然而,根據(jù)在JP-A H09-114634(KOKAI)中公開的方法,可以通過分析包括指示代詞的語義表示、參考用戶指示的內(nèi)容來改進語音識 別的精確性。然而,存在的問題是無法通過利用所指示的內(nèi)容來改善機器翻譯精確性。 發(fā)明內(nèi)容根據(jù)本發(fā)明的一個方面, 一種語音翻譯裝置,包括相關信息存 儲單元,用于彼此相關聯(lián)地存儲與語音相關的相關信息的名稱以及所 述相關信息的顯示位置;范例存儲單元,用于彼此相關聯(lián)地存儲表示單詞的語義屬性的語義類別、包括所述單詞的以源語言表示的范例, 以及通過翻譯所述以源語言表示的范例而獲取的以目標語言表示的范例;字典存儲單元,用于彼此相關聯(lián)地存儲所述相關信息的名稱以 及所述相關信息的名稱的語義類別;顯示單元,用于從所述相關信息 存儲單元獲取所述相關信息的顯示位置,并在所獲取的顯示位置處顯 示所述相關信息;語音接收單元,用于接收以所述源語言說出的語音; 識別單元,用于識別所接收到的語音,以產(chǎn)生以所述源語言表示的源 語言字符串;選擇接收單元,用于接收對在所獲取的顯示位置處顯示 的所述相關信息的選擇;獲取單元,用于從所述相關信息存儲單元獲 取與接收到對其的選擇的所述相關信息的顯示位置相對應的所述相 關信息的名稱,并從所述字典存儲單元獲取與所獲取的相關信息的名 稱相對應的所述語義類別;以及翻譯單元,用于通過從所述范例存儲 單元獲取以所述目標語言表示的范例,來將所述源語言字符串翻譯成 所述目標語言,所述范例對應于從所述字典存儲單元獲取的所述語義 類別以及所述源語言字符串。根據(jù)本發(fā)明的另一個方面, 一種語音翻譯方法,包括接收以源 語言說出的語音;識別所接收到的語音,以產(chǎn)生以所述源語言表示的 源語言字符串;接收對與顯示在顯示單元上的所說出的語音相關的相 關信息的選擇;從相關信息存儲單元獲取與接收到對其的選擇的所述 相關信息的顯示位置相對應的所述相關信息的名稱,其中所述相關信 息存儲單元彼此相關聯(lián)地存儲所述相關信息的名稱和所述相關信息 的顯示位置;從字典存儲單元獲取表示與所獲取的所述相關信息的名 稱相對應的所述相關信息的名稱的語義屬性的語義類別,其中所述字 典存儲單元彼此相關聯(lián)地存儲所述相關信息的名稱和所述語義類別;以及通過從范例存儲單元獲取與所獲取的語義類別和所述源語言字 符串相對應的以目標語言表示的范例,來將所述識別結果翻譯成所述 目標語言,其中所述范例存儲單元彼此相關聯(lián)地存儲單詞的語義類 別、包括所述單詞的以所述源語言表示的范例以及通過翻譯所述以源 語言表示的范例所獲取的以目標語言表示的范例。
圖1是根據(jù)本發(fā)明的第一個實施例的語音翻譯裝置的配置框圖; 圖2是用于解釋存儲在相關信息存儲單元中的相關信息的數(shù)據(jù)結構實例的示意圖;圖3是用于解釋存儲在范例存儲單元中的雙語范例的數(shù)據(jù)結構實例的示意圖;圖4是用于解釋字典信息的數(shù)據(jù)結構實例的示意圖;圖5是用于解釋第一個實施例中語音翻譯過程的操作圖像的示意圖;圖6A是第一個實施例中語音翻譯過程的總流程的流程圖;圖6B是第一個實施例中語音翻譯過程的總流程的另一個流程圖;圖7是用于解釋替換識別結果的具體實例的示意圖; 圖8是機器翻譯過程的總流程的流程圖; 圖9是機器翻譯過程的具體實例;圖IO是在將日語翻譯成英語時處理的各種數(shù)據(jù)的實例; 圖11A是在第一個實施例的變形例中語音翻譯過程的總流程的 流程圖;圖11B是在第一個實施例的變形例中的語音翻譯過程的總流程 的另一個流程圖;圖12是根據(jù)本發(fā)明的第二個實施例的語音翻譯裝置的配置的框圖;圖13是用于說明同現(xiàn)信息的數(shù)據(jù)結構的實例的示意圖; 圖14A是第二個實施例中語音翻譯過程的總流程的流程圖;圖14B是第二個實施例中的語音翻譯過程的總流程的另一個流 程圖;圖15是用于解釋要處理的各種數(shù)據(jù)的實例的示意圖;圖16是用于解釋要處理的各種數(shù)據(jù)的實例的另一個示意圖;以及圖17是用于解釋根據(jù)第一個或第二個實施例的語音翻譯裝置的 硬件配置的示意圖。
具體實施方式
以下將參考附圖詳細描述根據(jù)本發(fā)明的用于翻譯語音的裝置和 方法的示例性實施例。注意,雖然出于簡單說明的目的,此處假定源 語言是日語而目標語言是漢語,但不必說,語言類型不受限于日語和 漢語,本發(fā)明也可以應用于其它語言對。根據(jù)本發(fā)明的第一個實施例的語音翻譯裝置在屏幕上顯示與用 戶的語音內(nèi)容相關的諸如地圖和料理名之類的相關信息,并且從所顯 示的相關信息中僅指定與由用戶指示的相關信息的語義類別相同的 語義類別的相關的范例作為范例搜尋范圍。如圖1所示,語音翻譯裝置100包括麥克風111、語音輸入按鈕 112、指示裝置113、操作面板114、揚聲器115、相關信息存儲單元 121、范例存儲單元122、字典存儲單元123、語音接收單元101、選 擇接收單元102、識別單元103、獲取單元104、翻譯單元105、合成 單元106和輸出控制器107。麥克風111輸入由用戶所說的源語言語音。在麥克風111開始提 取該用戶說出的語音時,按下語音輸入按鈕112。如下所說明的,具 有除了輸入按鈕112之外的如下操作按鈕翻譯按鈕,用于指示開始 翻譯過程;以及語音按鈕,用于指定所合成的語音的輸出,但這些按 鈕沒有在附圖中顯示。指示裝置113通過指向操作面板114上顯示的對象,來指定相關 信息,例如地點、設施、料理等,并由筆或鼠標構成。在以下的說明 中,假定將筆用作指示裝置113。操作面板114是用于顯示與語音翻譯裝置100的操作相關的信息 的顯示單元,例如液晶顯示器,并被配置成使得其可以通過接收指示 裝置113的操作而指定所顯示的信息。在第一個實施例中,操作面板114以地圖格式顯示地點、設施等, 而以列表形式顯示設施、料理名等。操作面板114選擇性地顯示由識 別單元103產(chǎn)生的識別結果的候選者。揚聲器115輸出合成單元106所合成的語音。相關信息存儲單元121存儲要在操作面板114上顯示的相關信 息,例如地圖或料理名列表。如圖2所示,相關信息在目標語言中的 名稱與指示用于在操作面板114上顯示該相關信息所需的坐標的顯 示位置相關聯(lián)地存儲在相關信息存儲單元121中。在圖2中,在屏幕 上顯示通過X-坐標和Y-坐標指示的顯示位置的實例。指定顯示位置的方法并不限于此,只要能夠根據(jù)由指示裝置113 指示的操作面板114上的位置來指定相關信息,則可以運用任何方 法。例如,當在操作面板114上顯示地圖時,可以在相關信息存儲單 元121中存儲要在地圖上顯示的顯示位置,例如設施。此外,可以在 相關信息存儲單元121中與目標語言相關聯(lián)地存儲相關信息在源語 言中的名稱。范例存儲單元122存儲用于翻譯單元105的翻譯過程的雙語范 例。如圖3所示,利用符號"<"和">"所包圍的標簽以標簽格式描 述雙語范例,標簽"<ppid= "NNN" >"和標簽"</p>"所包圍的部 分指示一個雙語范例。各個雙語范例還包括標簽"<j>"和標簽"</j>"所包圍的日語文 本、標簽"<c>"和標簽"</c>"所包圍的漢語文本,以及標簽"<s id= "LLL" >"和標簽"</s>"所包圍的語義類別信息。"LLL"表示數(shù) 值。將日語文本和漢語文本中的各個單詞彼此相關聯(lián)的數(shù)值 "MMM"賦予標簽"<aid= "MMM" >"和標簽"</a"所包圍的單 詞。標簽"<s id= "LLL" >"和標簽"</s"所包圍的語義類別信息 指示對應于與該數(shù)值"LLL"相關的標簽"<aid= "LLL" >"的單詞的語義屬性6字典存儲單元123存儲字典信息,其中將源語言的單詞和目標語 言的單詞彼此相關聯(lián)。如圖4所示,字典存儲單元123將漢語文本中 的單詞、日語文本中的單詞以及指示各個單詞的語義屬性的語義類別 相關聯(lián)地進行存儲,作為字典信息。在一種語言中,當在其它語言中 沒有已翻譯的單詞時,符號"-"表示沒有對應的已翻譯的單詞。當 通過獲取單元104獲取到對應于該相關信息的語義類別時,獲取單元 104參考字典存儲單元123。相關信息存儲單元121、范例存儲單元122和字典存儲單元123 可以由通常使用的記錄介質(zhì)構成,例如硬盤驅動器(HDD)、光盤、存 儲卡和隨機存取存儲器(RAM)。語音接收單元101對于從麥克風111輸入的語音模擬信號執(zhí)行采 樣,并將該模擬信號轉換為立體聲數(shù)字信號,以輸出該數(shù)字信號。通 常使用的A/D轉換技術可以用于由語音接收單元101執(zhí)行的過程中。選擇接收單元102接收對該相關信息或由指示裝置113在操作面 板114上指示的識別結果的候選者進行的選擇。識別單元103執(zhí)行語音識別過程,其中在接收到來自語音接收單 元IOI的數(shù)字語音信號的輸入之后,產(chǎn)生識別結果的候選者,其是對 應的源語言字符串。在該語音識別過程中,可以運用任何通常所使用 的語音識別方法,其使用線性預測編碼(LPC)分析、隱馬爾可夫模型 (HMM)、動態(tài)規(guī)劃、神經(jīng)網(wǎng)絡和N元語言模型。識別單元103為每一個候選者計算指示候選者的可能性的似然 性,以所計算的似然性的降序產(chǎn)生預定數(shù)的候選者并輸出候選者。在 通過選擇接收單元102接收到該相關信息之后,識別單元103以所接 收到的相關信息的名稱替換與包括在識別結果中的近場(near field)相 關的指示代詞(這、這里、那)。在指示代詞的替換過程中,可以使用 任何通常所用的技術,例如在JP-A H09-114634(KOKAI)中所描述的技術。獲取單元104從字典存儲單元123中獲取與由選擇接收單元102 接收到的相關信息相對應的語義類別。翻譯單元105通過基于范例的機器翻譯方法將識別單元103獲取 的識別結果翻譯成以目標語言表示的字符串。特別地,翻譯單元105 從范例存儲單元122中獲取符合或近似于該識別結果的源語言文本 的范例,并獲取與所獲取的源語言文本的范例相對應的目標語言文本 的范例,以翻譯該識別結果。此時,根據(jù)第一個實施例,翻譯單元105從與獲取單元104所獲 取的范例具有相同的語義類別的相對應的范例中搜索適用的范例。也 就是說,翻譯單元105將范例的搜索范圍縮減到僅搜索與所指示的相 關信息的語義類別相一致的語義類別所對應的范例。因此,可以改善 翻譯精確性。合成單元106執(zhí)行語音合成過程,其中,將通過翻譯單元105獲 取的字符串轉換成語音信號??梢詫⑷魏瓮ǔK玫姆椒ɡ缯Z音段 編輯語音合成、共振峰語音合成和基于語音語料庫的語音合成用于由 合成單元106執(zhí)行的語音合成過程。輸出控制器107控制與操作面板114和揚聲器115相關的各種信 息的輸出過程。特別地,輸出控制器107執(zhí)行以下過程用于對通過 合成單元106產(chǎn)生的語音信號進行DA轉換以輸出該信號到揚聲器 115的過程;用于輸出所產(chǎn)生的識別結果的候選者給操作面板114的 過程,等等。參考圖5,將解釋根據(jù)第一個實施例的語音翻譯過程的總流程的 特定實例。在圖5中,以括號中的數(shù)字表示該語音翻譯過程的操作順 序。接收用戶利用諸如筆之類的指示裝置113在地圖201上指定地點 202的指令(l)。接收通過按下語音輸入按鈕112而幵始語音的指令 (2)。在按下語音輸入按鈕112之后,接收用戶發(fā)出的語音204(3)。顯 示根據(jù)語音識別結果所合成的具有高有效性的源語言文本的候選者, 其中所述語音識別根據(jù)所接收的語音信號和對應于在(l)指示的地點 的專有名詞而執(zhí)行(4)。接收用戶從所顯示的文本候選者中指定的候 選者205的選擇(5)。在按下翻譯按鈕207之后,接收到所選擇的候 選者205的翻譯指示(6)。執(zhí)行該翻譯過程并顯示其翻譯結果208(7)。在按下語音按鈕210時,輸出與該翻譯結果合成的語音209(8)。參考圖6A和圖6B,說明根據(jù)第一個實施例通過語音翻譯裝置100執(zhí)行的語音翻譯過程。第一個實施例的語音翻譯過程是基于以下假設在操作面板114上顯示存儲在相關信息存儲單元121中的相關信息例,如地圖或料理名列表。首先,選擇接收單元102確定是否存在輸入,即通過指示裝置 113的筆輸入(步驟S601)。筆輸入意味著用戶指示了所顯示的相關信 息(此后稱為"對象")。當存在筆輸入時(步驟S601:是),選擇接收單元102從相關信息 存儲單元121獲取由指示裝置113所指示的對象的名稱(步驟S602)。 特別地,選擇接收單元102從相關信息存儲單元121獲取與所指示的 顯示位置相對應的對象的名稱。當在相關信息存儲單元121中僅存儲 了以目標語言表示的名稱時,通過參考字典存儲單元123可以獲取以 源語言表示的名稱。將所獲取的以源語言表示的名稱表示為"A"。語音接收單元101確定是否己按下語音輸入按鈕112(步驟5603) 。當尚未按下語音輸入按鈕112時(步驟S603:否),重復該過 程直到按下語音輸入按鈕112。當按下了語音輸入按鈕112時(步驟 S603:是),語音接收單元101接收來自麥克風111的語音輸入(步驟5604) 。識別單元103對所接收到的語音執(zhí)行語音識別過程(步驟S605)。 識別單元103通過語音識別過程產(chǎn)生預定數(shù)目的具有高似然性的識 別結果的候選者。識別單元103檢測包括在該識別結果的候選者中的指示代詞,并 以在步驟S602中獲取的對象的名稱A替換所檢測到的指示代詞(步驟 S606)o圖7是在將表示"到那里要多少時間?"的候選者701和表示"怎 么樣到那里?"的候選者702產(chǎn)生作為以日語表示的源語言語音的識 別結果的候選者時的實例。各個候選者包括分別表示包含了 "那里" 的指示代詞703和704。在該實例中,假設用戶在操作面板114上顯示的地圖上指示某一 對象,并且獲取單詞705(故宮)作為所指示的對象的專有名稱。在這種情況下,分別產(chǎn)生候選者706和707,其中用單詞705分 別替換指示代詞703和704的部分。返回參考圖6A,獲取單元104從字典存儲單元123獲取對應于 所指示的對象的語義類別(步驟S607)。在隨后描述的步驟S616中機 器翻譯過程參考所獲取的語義類別。當確定不存在筆輸入時(步驟S601:否),語音接收單元101確定 是否已按下語音輸入按鈕112(步驟S608)。當尚未按下該按鈕時(步驟 S608:否),控制返回到步驟S601以重復該過程。當按下了語音輸入按鈕112時(步驟S608:是),語音接收單元 101接收來自麥克風111的語音輸入(步驟S609)。當用戶在沒有指示 對象的情況下(步驟S601:否)按下語音輸入按鈕112以說出單詞時, 在步驟S608檢測到按下語音輸入按鈕112。識別單元103對所接收到的語音執(zhí)行語音識別過程(步驟S610)。在步驟S606替換指示代詞之后,或在步驟S610執(zhí)行該語音識別 過程之后,輸出控制器107在操作面板114上顯示所產(chǎn)生的識別結果 的候選者(此后稱為"候選文本")(步驟S611)。選擇接收單元102再次確定是否存在筆輸入(步驟S612)。此處的 筆輸入代表用于選擇所顯示的候選文本的任一個的輸入。當存在筆輸入時(步驟S612:是),選擇接收單元102接收由指示 裝置113所指示的候選文本的選擇(步驟S613)。接著選擇接收單元 102確定是否已按下翻譯按鈕(步驟S614)。當尚未按下該按鈕時(步驟 S614:否),選擇接收單元102重復該過程直到按下翻譯按鈕。在步驟S612,當確定不存在筆輸入時(步驟S612:否),選擇接 收單元102確定是否已按下翻譯按鈕(步驟S615)。當尚未按下該按鈕 時(步驟S615:否),選擇接收單元102返回到步驟S612以重復該過 程。當在步驟S614或S615確定已按下翻譯按鈕時(步驟S614和步驟 S615:是),翻譯單元105參考范例存儲單元122以獲取適合的范例,從而執(zhí)行用于執(zhí)行翻譯的機器翻譯過程(步驟S616)。針對例如在步驟S614所選擇的候選文本或在用戶沒有選擇候選文本時根據(jù)預設規(guī)則所選擇的具有最高似然性的候選文本,執(zhí)行機器翻譯過程。隨后將詳細描述該機器翻譯過程。輸出控制器107在操作面板114上顯示該機器翻譯過程的翻譯結果(步驟S617)。當用戶通過按下語音按鈕來指示輸出所合成的語音時,合成單元106對翻譯結果執(zhí)行語音合成(步驟S618)。接著輸出控制器107將所合成的語音輸出給揚聲器115(步驟S619)。 將參考圖8詳細說明步驟S615的機器翻譯過程。 翻譯單元105將與由指示裝置113(筆)指示的對象具有相同的語義類別的范例設置為搜索目標(步驟S801)。翻譯單元105從范例存儲單元122的范例中獲取與候選文本相類似的以源語言表示的范例作為搜索目標,以從范例存儲單元122中獲取與所獲取的以源語言表示的范例相對應的以目標語言表示的范例(步驟S802)。翻譯單元105檢測該候選文本和以源語言表示的范例之間的不 同部分(步驟S803)。隨后,翻譯單元105對于所獲取的以目標語言表 示的范例獲取對應于所述不同部分的以目標語言表示的單詞(翻譯的 單詞),并以所獲取的翻譯的單詞替換所述不同部分(步驟S804)。可以根據(jù)與常用的基于范例的機器翻譯相同的方法來執(zhí)行從步 驟S802至S804的范例搜索/不同部分替換過程。第一個實施例不同 于常規(guī)方法之處在于將范例的搜索范圍縮減到與所指示的對象具有 相同的語義類別的對應的范例(步驟S801)。圖9是一個范例,其中,假設用戶在操作面板114上指出與圖4 中的漢語401(故宮)相對應的對象(步驟S60h是),并獲取圖4中指 示設施的語義類別402(設施)(步驟S607)。這是基于以下假設將指 示"到故宮要多少時間?"的候選文本903選擇作為候選文本。因為在此范例中獲取了圖4中的語義類別402,因此從具有與語 義類別402相同的語義類別901(設施)的范例中搜索類似的文本(步驟 S802)。在候選文本903 "到故宮要多少時間?"和所搜索到的類似文本 902 "到萬里長城要多少時間?"之間的不同部分是單詞904(萬里長 城)和單詞905(故宮)的部分(步驟SS03)??梢灾赋鲆赡繕苏Z言表示的范例替換的部分是來自源語言文 本和目標語言文本之間的相關信息paid- "1" >)的漢語906。因此, 產(chǎn)生范例907,其中以與不同部分的單詞905相對應的漢字(故宮)替 換漢語906(步驟S804)。將參考圖10說明將根據(jù)第一個實施例的方法應用到日語-英語翻 譯的實例。圖IO是一個實例,其中輸入意思是"到機場需要多少錢?"的 日語1001(步驟604),同時在地圖上指出對應于"SanJose"的對象(步 驟S60h是),并獲取對應的名稱1002(SanJose)(步驟S602)。產(chǎn)生候選文本1003 "到SanJose機場需要多少錢 ",其中已經(jīng) 以名稱1002替換了指示代詞(步驟S606)。從范例存儲單元122中獲 取類似的范例1004(步驟S802)。在此實例中,假設在范例存儲單元 122中存儲其中日語范例與英語范例相關聯(lián)的雙語范例。輸出翻譯結果1006(步驟S804),在翻譯結果1006中已經(jīng)用與范 例1004相對應的英語范例1005替換了機場名稱部分,其中所述機場 名稱部分與候選文本不同的部分。在以上流程圖中,顯示語音識別結果,從而用戶可以選擇一個。 然而,可能是以下配置,使得對于每一個語音識別結果搜索類似的范 例并將所搜索到的范例顯示給用戶,從而用戶可以選擇一個。根據(jù)此 方法,存在以下優(yōu)點,即使在語音識別結果中包含錯誤,所搜索到的 范例也不會包含任何錯誤,并從而將該范例呈現(xiàn)給用戶,從而給用戶 良好的印象。參考圖IIA和IIB,說明根據(jù)第一個實施例的變形例的由語音翻 譯裝置100執(zhí)行的語音翻譯過程。從步驟S1101到S1110的對象選擇接收過程、語音接收過程和識 別過程與根據(jù)第一個實施例to語音翻譯裝置100中的步驟S601至 610的過程相同,從而省略了其說明。在語音識別過程(步驟S1110)或識別結果替換過程(步驟SU06) 之后,在變形例中執(zhí)行由翻譯單元105執(zhí)行的機器翻譯過程(步驟 Sllll)。輸出控制器107在操作面板114上將在機器翻譯過程中搜索 到的以源語言表示的范例顯示成候選文本(步驟S1112)。從步驟S1113至S1116的候選文本選擇接收過程和翻譯按鈕接收 過程與根據(jù)第一個實施例的語音翻譯裝置100的步驟S612至S615 的過程相同,從而省略了其說明。輸出控制器107從步驟S1111執(zhí)行的機器翻譯過程的翻譯結果中 獲取與所選擇的候選文本相對應的翻譯結果,并在操作面板114上顯 示該翻譯結果(步驟S1117)。從步驟S1118至S1119的語音合成過程和合成語音輸出過程與根 據(jù)第一個實施例的語音翻譯裝置100的步驟S618至S619的過程相 同,從而省略了其說明。如上所述,根據(jù)第一個實施例的語音翻譯裝置,通過利用指示裝 置指示在顯示單元上顯示的地名或料理名,用戶不需要說出難于發(fā)音 的專有名詞。此外,可以利用所指示的專有名詞的語義類別縮減相對 于用戶說出的語音以及指示的語音識別或機器翻譯的候選者的搜索 范圍。因此,可以改善機器翻譯精確度。通過利用關于所指示的對象的語義類別的同現(xiàn)信息來縮減語音 翻譯過程,根據(jù)第二個實施例的語音翻譯裝置改善了語音翻譯過程的 精確度。如圖12所示,語音翻譯裝置1200包括麥克風111、語音輸入按 鈕112、指示裝置113、操作面板114、揚聲器115、相關信息存儲單 元121、范例存儲單元122、字典存儲單元123、同現(xiàn)信息存儲單元 1224、語音接收單元IOI、選擇接收單元102、識別單元1203、獲取 單元104、翻譯單元105、合成單元106和輸出控制器107。第二個實施例不同于第一個實施例之處在于其中加入了同現(xiàn)信 息存儲單元1224,并且識別單元1203的功能與第一個實施例的識別 單元的功能不同。因為其它配置和功能與圖1中根據(jù)第一個實施例的 語音翻譯裝置100的配置的権圖相同,因此相同的參考標號表示相同18部分并省略其說明。同現(xiàn)信息存儲單元1224存儲同現(xiàn)信息,在同現(xiàn)信息中語義類別 和同現(xiàn)單詞彼此相關聯(lián),同現(xiàn)單詞是與具有該語義類別的單詞一起使 用的單詞。如圖13所示,同現(xiàn)信息包括語義類另lj、格助詞(case particle) 和內(nèi)容單詞。同現(xiàn)信息指示例如具有語義類別1301(料理名)的單詞與 格助詞1302 "中"和內(nèi)容單詞1303 "附帶有" 一起使用。識別單元1203與根據(jù)第一個實施例的識別單元103的不同之處 在于其從同現(xiàn)信息存儲單元1224獲取與通過獲取單元104獲取的語 義類別一起使用的同現(xiàn)單詞,以將該語音識別過程的識別結果的候選 者縮減至包括所獲取的同現(xiàn)單詞的候選者。參考圖14A和14B,說明由根據(jù)第二個實施例的語音翻譯裝置 1200執(zhí)行的語音翻譯過程。第二個實施例與關于第一個實施例的變形例的圖11的流程圖在 不同之處在于增加了步驟S1411的識別結果縮減過程。其它過程與圖 11的過程相同,從而省略了其說明。在步驟S1411,識別單元1203從同現(xiàn)信息存儲單元1224獲取包 括所獲取的語義類別的同現(xiàn)信息,以將識別結果的候選者縮減至僅適 合于所獲取的同現(xiàn)信息的候選者。因此,改善了語音識別過程的精確 度,從而可以改善語音翻譯過程的精確度。接下來將說明第二個實施例的語音翻譯過程的具體實例。圖15 是用于說明當輸入語音同時指示所顯示的料理名時需被處理的各種 數(shù)據(jù)的實例的示意圖。圖16是用于說明當輸入語音同時指示所顯示 的地名時需被處理的各種數(shù)據(jù)的實例的示意圖。在圖15和16中,假定因為輸入了類似的日語語音,則產(chǎn)生兩個 相同的候選者作為識別結果的候選者。也就是說,在圖15和16的實 例中,即使產(chǎn)生相同的候選者,因為根據(jù)所指示的對象的語義類別縮 減了識別結果的候選者,所以分別選擇不同的適合候選者。在如圖15所示指示料理名時,產(chǎn)生識別結果1501 "這個附帶有 哪一個?"和識別結果1502"哪一個到這里?"作為語音識別結果(步 驟S1405),并獲取所指示的料理名的名稱1503(步驟S1402)。在此實例中,因為指出了關于料理名的對象,因此獲取指示該料理名的語義類別1504作為該對象的語義類別(步驟S1407)。獲取包括 單詞1511和1512中具有與內(nèi)容單詞1513相同發(fā)音的單詞1511的識 別結果1501,其中內(nèi)容單詞1513包括在對應于語義類別1504的同 現(xiàn)信息1505中,所述單詞1511和1512是識別結果1501和1502之 間的不同部分(步驟S1411)。將范例1506 "麻婆豆腐附帶有哪一個點心?"和范例1507 "麻婆 豆腐多少錢?"搜索作為類似于識別結果1501的范例(步驟S802)。當假定選擇了具有與識別結果1501高相似度的范例1506時,產(chǎn) 生候選文本1508并將其顯示在操作面板114上,在候選文本1508中 以名稱1503替換了與作為不同部分的單詞1514相對應的以目標語言 表示的單詞(步驟S1413)。另一方面,當如圖16所示指示地名時,產(chǎn)生與圖15所示的識別 結果1501和1502相同的識別結果1601和1602作為語音識別結果(步 驟S1405),并獲取所指示的地名的名稱1603(步驟S1402)。在此例中,因為指示了關于地名的對象,所以獲取指示該地名的 語義類別1604作為該對象的語義類別(步驟S1407)。此外,在這種情 況下,存在與語義類別1604相對應的并包括分別與單詞1611和1612 相對的每個單詞的同現(xiàn)信息,所述單詞1611和1612是識別結果1601 和識別結果1602之間的不同部分。也就是說,對于單詞1611,存在包括內(nèi)容單詞1613的同現(xiàn)信息 1605,其中內(nèi)容單詞1613具有與單詞1611相同的發(fā)音。此外,對于 單詞1612,存在包括內(nèi)容單詞1614的同現(xiàn)信息1606,其中內(nèi)容單詞 1614具有與單詞1612相同的發(fā)音。因此,將識別結果1601和1602都作為候選者留下(步驟S1411)。接下來,作為類似于識別結果1601和1602的范例,搜索到范例 1607(我應該坐哪輛車去北京?)和范例1608(到北京要多久?)(步驟 S802)。產(chǎn)生候選文本1609和候選文本1610,其中分別以名稱1603替 換與作為不同部分的單詞1615相對應的以目標語言表示的單詞,并在操作面板114上顯示(步驟S14B)。因此,根據(jù)第二個實施例的語音翻譯裝置,可以通過使用與所指 示的對象的語義類別相關的同現(xiàn)信息以縮減該語音識別過程,來高精 確地執(zhí)行該語音識別過程。因此,可以改善該語音識別過程的精確度。參考圖17說明根據(jù)第一個或第二個實施例的語音翻譯裝置的硬 件結構。根據(jù)第一個或第二個實施例的語音翻譯裝置包括控制器,諸如 中央處理器(CPU)51;存儲單元,諸如只讀存儲器(ROM)52和隨機存 取存儲器(RAM)53;通過連接到網(wǎng)絡來執(zhí)行通信的通信I/F54;以及 連接這些單元的總線61。將通過根據(jù)第一個或第二個實施例的語音翻譯裝置執(zhí)行的語音 翻譯程序預先并入并提供在ROM 52等中。通過以可安裝格式文件或可執(zhí)行格式文件的形式在計算機可讀 記錄介質(zhì)諸如光盤只讀存儲器(CD-ROM)、軟盤(FD)、可記錄壓縮盤 (CD-R)和數(shù)字萬用盤(DVD)上進行記錄,可以提供通過根據(jù)第一個或 第二個實施例的語音翻譯裝置執(zhí)行的語音翻譯程序??梢詫⑼ㄟ^根據(jù)第一個或第二個實施例的語音翻譯裝置執(zhí)行的 語音翻譯程序存儲在連接到諸如因特網(wǎng)的網(wǎng)絡的計算機中,并可以經(jīng) 由網(wǎng)絡下載??梢越?jīng)由諸如因特網(wǎng)的網(wǎng)絡提供或分發(fā)通過根據(jù)第一個 或第二個實施例的語音翻譯裝置執(zhí)行的語音翻譯程序。通過根據(jù)第一個或第二個實施例的語音翻譯裝置執(zhí)行的語音翻 譯程序具有包括上述單元(語音接收單元、選擇接收單元、識別單元、 獲取單元、翻譯單元、合成單元和輸出控制器)的模塊結構。作為實 際的硬件,CPU51從ROM52讀取語音翻譯程序,并執(zhí)行此程序, 從而將上述單元加載到主存儲器中。因此,在主存儲器中產(chǎn)生各個單 元。
權利要求
1、一種語音翻譯裝置,包括相關信息存儲單元,用于彼此相關聯(lián)地存儲與語音相關的相關信息的名稱以及所述相關信息的顯示位置;范例存儲單元,用于彼此相關聯(lián)地存儲表示單詞的語義屬性的語義類別、包括所述單詞的以源語言表示的范例,以及通過翻譯所述以源語言表示的范例而獲取的以目標語言表示的范例;字典存儲單元,用于彼此相關聯(lián)地存儲所述相關信息的名稱以及所述相關信息的名稱的語義類別;顯示單元,用于從所述相關信息存儲單元獲取所述相關信息的顯示位置,并在所獲取的顯示位置處顯示所述相關信息;語音接收單元,用于接收以所述源語言說出的語音;識別單元,用于識別所接收到的語音,以產(chǎn)生以所述源語言表示的源語言字符串;選擇接收單元,用于接收對在所獲取的顯示位置處顯示的所述相關信息的選擇;獲取單元,用于從所述相關信息存儲單元獲取與接收到對其的選擇的所述相關信息的顯示位置相對應的所述相關信息的名稱,并從所述字典存儲單元獲取與所獲取的相關信息的名稱相對應的所述語義類別;以及翻譯單元,用于通過從所述范例存儲單元獲取以所述目標語言表示的范例,來將所述源語言字符串翻譯成所述目標語言,所述范例對應于從所述字典存儲單元獲取的所述語義類別以及所述源語言字符串。
2、根據(jù)權利要求1所述的裝置,其中所述識別單元識別所接收到的語音,以產(chǎn)生所述源語言字符串的 候選者;所述選擇接收單元接收從在所獲取的顯示位置處顯示的多個候選者中選擇候選者的選擇;以及所述翻譯單元通過從所述范例存儲單元中獲取以所述目標語言 表示的范例,來將所述候選者翻譯成所述目標語言,所述范例對應于 所獲取的語義類別和所選擇的候選者。
3、 根據(jù)權利要求2所述的裝置,其中所述識別單元按照指示所 述候選者的可能性的似然性的降序產(chǎn)生預定數(shù)目的候選者。
4、 根據(jù)權利要求l所述的裝置,其中所述識別單元識別所接收到的語音并產(chǎn)生所述源語言字符串的 候選者;所述翻譯單元為每一個所產(chǎn)生的候選者獲取與所述候選者匹配 的以所述源語言表示的范例,并通過從所述范例存儲單元獲取以所述 目標語言表示的范例,來將所述候選者翻譯成所述目標語言,所述范 例對應于所獲取的以源語言表示的范例以及通過所述獲取單元獲取 的所述語義類別;所述選擇接收單元接收從通過所述翻譯單元獲取并在所獲取的 顯示位置處顯示的、以所述源語言表示的范例中選擇以所述源語言表 示的范例的選擇;以及所述裝置還包括輸出控制器,用于輸出與所選擇的以所述源語言 表示的范例相對應的以所述目標語言表示的范例。
5、 根據(jù)權利要求4所述的裝置,其中所述識別單元按照指示所 述候選者的可能性的似然性的降序產(chǎn)生預定數(shù)目的候選者。
6、 根據(jù)權利要求1所述的裝置,其中所述識別單元以所獲取的 相關信息的名稱替換包括在所述源語言字符串中的指示代詞。
7、 根據(jù)權利要求1所述的裝置,其中所述相關信息存儲單元將要在地圖上顯示的顯示目標的名稱作為所述相關信息的名稱,與所述地圖上的顯示目標的顯示位置相關聯(lián) 地進行存儲;所述字典存儲單元彼此相關聯(lián)地存儲所述顯示目標的名稱和所 述顯示目標的名稱的語義類別;所述選擇接收單元接收對所述地圖上的顯示位置處顯示的所述 顯示目標的選擇,所述地圖由所述顯示單元顯示;以及所述獲取單元從所述相關信息存儲單元獲取與接收到對其的選 擇的所述顯示目標的顯示位置相對應的所述顯示目標的名稱,并從所 述字典存儲單元獲取與所獲取的顯示目標的名稱相對應的語義類別。
8、 根據(jù)權利要求l所述的裝置,其中所述相關信息存儲單元彼此相關聯(lián)地存儲所述相關信息的名稱 以及所述相關信息在以列表形式顯示的列表上的顯示位置;以及所述選擇接收單元接收對在顯示于所獲取的顯示位置處的所述 相關信息的列表上的所述顯示位置處顯示的所述相關信息的選擇。
9、 根據(jù)權利要求l所述的裝置,還包括合成單元,用于將通過所述翻譯單元獲取的以所述目標語言表示 的范例合成為以所述目標語言表示的語音;以及輸出控制器,用于輸出以所述目標語言表示的所合成的語音。
10、 根據(jù)權利要求1所述的裝置,還包括同現(xiàn)信息存儲單元,用于彼此相關聯(lián)地存儲所述語義類別和同現(xiàn) 單詞,所述同現(xiàn)單詞是與具有由所述語義類別表示的語義屬性的單詞 一起使用的單詞,其中所述識別單元從所述同現(xiàn)信息存儲單元中為所述源語言字符串 的候選者獲取與通過所述獲取單元獲取的所述語義類別相對應的所 述同現(xiàn)單詞,并選擇包括所獲取的同現(xiàn)單詞的候選者作為所述源語言字符串。
11、 一種語音翻譯方法,包括接收以源語言說出的語音;識別所接收到的語音,以產(chǎn)生以所述源語言表示的源語言字符串;接收對與顯示在顯示單元上的所說出的語音相關的相關信息的 選擇;從相關信息存儲單元獲取與接收到對其的選擇的所述相關信息 的顯示位置相對應的所述相關信息的名稱,其中所述相關信息存儲單 元彼此相關聯(lián)地存儲所述相關信息的名稱和所述相關信息的顯示位 置;從字典存儲單元獲取表示與所獲取的所述相關信息的名稱相對 應的所述相關信息的名稱的語義屬性的語義類別,其中所述字典存儲 單元彼此相關聯(lián)地存儲所述相關信息的名稱和所述語義類別;以及通過從范例存儲單元獲取與所獲取的語義類別和所述源語言字 符串相對應的以目標語言表示的范例,來將所述識別結果翻譯成所述 目標語言,其中所述范例存儲單元彼此相關聯(lián)地存儲單詞的語義類別、包括所述單詞的以所述源語言表示的范例以及通過翻譯所述以源 語言表示的范例所獲取的以目標語言表示的范例。
全文摘要
一種相關信息存儲單元彼此相關聯(lián)地存儲相關信息的名稱和顯示位置。范例存儲單元彼此相關聯(lián)地存儲語義類別、以源語言表示的范例和以目標語言表示的范例。字典存儲單元彼此相關聯(lián)地存儲相關信息的名稱和語義類別。獲取單元從相關信息存儲單元獲取與所選擇的相關信息的顯示位置相對應的相關信息的名稱,并從字典存儲單元獲取與所獲取的相關信息的名稱相對應的語義類別。翻譯單元從范例存儲單元獲取與所獲取的語義類別和語音識別結果相對應的以目標語言表示的范例,從而翻譯該識別結果。
文檔編號G06F17/28GK101256558SQ20081000311
公開日2008年9月3日 申請日期2008年1月10日 優(yōu)先權日2007年2月26日
發(fā)明者住田一男 申請人:株式會社東芝