專利名稱:對話支持裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及支持人和人之間的對話的對話支持系統(tǒng)。
背景技術(shù):
以通常人們在出國旅游等與當(dāng)?shù)厝诉M(jìn)行對話時,支持該該不同語言的對 話為目的,而開發(fā)了自動翻譯技術(shù)。自動翻譯技術(shù)中,廣泛知道有統(tǒng)計機(jī)械 翻譯方法和句法轉(zhuǎn)換方法等。句法轉(zhuǎn)換方法是在自動翻譯裝置的內(nèi)部具有字 典和語法等作為數(shù)據(jù)庫,并使用字典和語法來分析所輸入的文章。是在理解 了其含義后,轉(zhuǎn)換為其他語言的方法。
與此相對,統(tǒng)計機(jī)械翻譯方法預(yù)先大量保持了某個語言和作為轉(zhuǎn)換對象 的語言對(稱作對譯匯編)。在用戶使用該方法中,顯著出現(xiàn)某個單詞容易 變換為哪個單詞,某個句子容易與其他語言的句子對應(yīng)的轉(zhuǎn)換傾向或統(tǒng)計性 質(zhì)。統(tǒng)計機(jī)械翻譯方法是由此,根據(jù)單詞和句子的轉(zhuǎn)換傾向和統(tǒng)計性質(zhì),而 不管語法來進(jìn)行語言的轉(zhuǎn)換的方法。
這種自動翻譯技術(shù)中,句法轉(zhuǎn)換方法有字典和語法等維護(hù)麻煩的缺點(diǎn)。 例如,在不知道的語句出現(xiàn)時,若人們不能加以分析而將該語句和單詞追加 到字典中去,則不能對應(yīng)于新的語句。與此相對,統(tǒng)計機(jī)械翻譯方法有僅僅 通過增加與該語句對應(yīng)的對譯匯編就可以的優(yōu)點(diǎn)。即,統(tǒng)計機(jī)械翻譯方法與 句法轉(zhuǎn)換方法和中間語言方法等的自動翻譯技術(shù)不同,幾乎不需要人來分析 語言數(shù)據(jù)而添加追加信息,僅追加對譯匯編就可期待翻譯性能的提高。另一 方面,統(tǒng)計機(jī)械翻譯方法中,通過根據(jù)某個概率的類型,從對譯匯編中搜索 其概率值最大的系列,來進(jìn)行最佳的變換。該處理的處理負(fù)擔(dān)非常高,有在
發(fā)現(xiàn)對譯要花很多時間的缺點(diǎn)。最近,因CPU的高速化和主存儲的大容量
化,基于大量的對譯匯編的統(tǒng)計機(jī)械翻譯方法的開發(fā)盛行?,F(xiàn)在,語言模型 和翻譯模型的最佳化、解碼(翻譯處理)的高精度化和翻譯質(zhì)量的自動評價 為研究開發(fā)的重點(diǎn)(例如,參照專利文獻(xiàn)l,非專利文獻(xiàn)l)。
專利文獻(xiàn)1:特開2004—102946號公報
非專利文獻(xiàn)l: Y.Akiba, M.Federico, N.Kando, H.Nakaiwa, M.Paul,J.Tsuiji: "Overview of the IWSLT04 Evaluation Campaign" , International Workshop on Spoken Language
Translation(INTERSPEECH2004-ICSLPSatelliteWorkshop),2004
在利用這種自動翻譯技術(shù)來進(jìn)行對話的情況下,說不同語言的兩個用戶 交替利用對話支持裝置的自動翻譯功能來進(jìn)行對話。圖1是表示在現(xiàn)有的統(tǒng) 計翻譯方法的對話支持裝置中,根據(jù)構(gòu)成語句的單詞數(shù),解碼所需的平均處 理時間的一例的表。圖1是從專利文獻(xiàn)1的摘錄,表示使用了日常會話中經(jīng) 常出現(xiàn)的172, 481個語句的對譯匯編的統(tǒng)計翻譯方式的譯碼平均處理時間。 該例中,譯碼的平均處理時間在使用了最新的計算機(jī)的情況下,日英需要 47秒以上,英日需要52秒以上。g卩,僅對對方說一句話到從對方獲得該一 句話的回話需要1分39秒以上。 一般,由于譯碼處理與對譯匯編的量和輸 入語句的單詞數(shù)成正比,所以大多需要比它多的時間。因此,尤其,在統(tǒng)計 翻譯方法中,由于用戶等待譯碼處理的時間很長,有對話支持裝置實(shí)用性不 好的問題。
尤其,統(tǒng)計翻譯方法中,如非專利文獻(xiàn)1的3.3節(jié)所示,在比較了翻譯 質(zhì)量的自動評價結(jié)果和基于人的主觀評價結(jié)果的實(shí)驗(yàn)中,有時對同一譯文評 價值之間不能發(fā)現(xiàn)相關(guān)性,相反,為負(fù)相關(guān)的情況。即,譯碼處理需要花上 一定的時間,但是,有花費(fèi)太多的時間而使對方等待,不見得得到更好的翻 譯質(zhì)量的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種在開始翻譯處理之前,決定使對方加以等待的 時間、即譯文的輸出時刻,通過將繼續(xù)進(jìn)行對話所需的充分質(zhì)量的譯文快速 傳到對方,而使不同語言的對話快速完成的對話支持裝置。
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明的對話支持裝置,支持不同語言的對 話,其特征在于,具有輸入部,將用戶的發(fā)聲(発話)作為輸入來加以接 受;翻譯處理部,將接受到的所述發(fā)聲翻譯為預(yù)定的語言,并輸出翻譯所得 到的翻譯發(fā)聲信息;輸出部,將所輸出的所述翻譯發(fā)聲信息傳送輸出到用戶; 以及輸出時刻決定部,分析所述用戶的發(fā)聲中包含的特征,決定用于翻譯接 下來接受到的發(fā)聲的翻譯時間。
本發(fā)明不僅可以作為這種對話支持裝置來實(shí)現(xiàn),還可作為將這種對話支
持裝置具有的特征構(gòu)成部作為步驟的對話支持方法來實(shí)現(xiàn),或還可作為使計
算機(jī)執(zhí)行這些步驟的程序來實(shí)現(xiàn)。并且,這種程序當(dāng)然可以經(jīng)CD-ROM等 的記錄介質(zhì)或互聯(lián)網(wǎng)等的傳送介質(zhì)來進(jìn)行分發(fā)。 發(fā)明的效果
在翻譯處理部開始翻譯處理之前,通過輸出時刻決定部,來設(shè)置得到為 獲得相互理解所需的充分譯文所用的處理時間,所以可以快速完成通過自動 翻譯功能支持的不同語言的對話。另外,根據(jù)情況,還發(fā)生了為進(jìn)行翻譯處 理而設(shè)置比現(xiàn)有技術(shù)長的處理時間的情況,但是在這種情況下,通過得到似 然更高的譯文,可以提高對方的理解度,其結(jié)果,有縮短了達(dá)到相互理解的 時間的效果。
圖1是表示在現(xiàn)有的對話支持裝置中,根據(jù)構(gòu)成語句的單詞數(shù)來進(jìn)行解碼所 需的平均處理時間的一例的表。(現(xiàn)有技術(shù))
圖2是表示本發(fā)明的對話支持裝置的一實(shí)施形態(tài)的結(jié)構(gòu)框圖。(實(shí)施形態(tài)1) 圖3是表示圖2所示的輸出時刻決定部的結(jié)構(gòu)的一例的框圖。(實(shí)施形態(tài)1) 圖4是表示圖2所示的第一輸入部的更詳細(xì)的結(jié)構(gòu)的一例的框圖。(實(shí)施形 態(tài)l)
圖5是表示本發(fā)明的對話支持裝置的一實(shí)施形態(tài)的用戶接口的圖。(實(shí)施形 態(tài)l)
圖6是表示本發(fā)明的對話支持裝置的動作流程圖。(實(shí)施形態(tài)1) 圖7是表示圖6所示的步驟S403的對話支持裝置的更詳細(xì)的動作的流程圖。 (實(shí)施形態(tài)l)
圖8是表示在圖6所示的步驟S403中進(jìn)行并行處理的情況下的對話支持裝 置的更詳細(xì)動作的一例的流程圖。(實(shí)施形態(tài)l)
圖9是表示圖3所示的計算資源信息部保持的表格的數(shù)據(jù)結(jié)構(gòu)的一例的圖。 (實(shí)施形態(tài)l)
圖10是表示圖3表示的對話履歷分析部保持的特征表的數(shù)據(jù)結(jié)構(gòu)的一例的 圖。(實(shí)施形態(tài)l)
圖11是表示圖3所示的對話履歷存儲部的內(nèi)容和基于該內(nèi)容通過時刻計算 部204算出的搜索時間的上限的初始值的一例的表格。(實(shí)施形態(tài)l) 圖12是表示最先用戶1發(fā)聲時的對話支持裝置的翻譯發(fā)聲信息的輸出例和 顯示例的圖。(實(shí)施形態(tài)l)
圖13是表示對圖12所示的用戶1的發(fā)聲進(jìn)行更新的對話履歷存儲部的內(nèi)容 和基于該內(nèi)容,通過時刻計算部算出的下一搜索時間的上限t的例子的圖。 (實(shí)施形態(tài)l)
圖14是表示對用戶1的發(fā)聲,用戶2發(fā)聲時的對話支持裝置的翻譯發(fā)聲信 息的輸出例和顯示例的圖。(實(shí)施形態(tài)l)
圖15是表示對圖14所示的用戶2的發(fā)聲,進(jìn)一步更新后的對話履歷存儲部 的內(nèi)容和基于該內(nèi)容,通過時刻計算部算出的下一搜索時間的上限t的例子 的圖。(實(shí)施形態(tài)O
圖16是表示對圖14所示的用戶2的發(fā)聲,用戶1發(fā)聲時的對話支持裝置的 翻譯發(fā)聲信息的輸出例和顯示例的圖。(實(shí)施形態(tài)l)
圖17是表示對圖16所示的用戶1的發(fā)聲,進(jìn)一步更新后的對話履歷存儲部 的內(nèi)容和基于該內(nèi)容,通過時刻計算部算出的下一搜索時間的上限t的例子 的圖。(實(shí)施形態(tài)l)
圖18是以對話履歷及搜索時間的上限來對比基于本發(fā)明的對話支持裝置和 現(xiàn)有方式的對話支持裝置的的效果的圖。(實(shí)施形態(tài)l) 圖19是表示基于本發(fā)明的對話支持裝置的平均翻譯處理時間和現(xiàn)有方式的 平均翻譯處理時間的對比的曲線。(實(shí)施形態(tài)l)
圖20是表示本發(fā)明的對話支持裝置的變形例的結(jié)構(gòu)框圖。(實(shí)施形態(tài)1) 圖21是表示本發(fā)明的對話支持裝置的變形例的用戶接口的圖。(實(shí)施形態(tài) 1)
圖22是表示本發(fā)明的對話支持裝置的第二變形例的結(jié)構(gòu)框圖。(實(shí)施形態(tài) 1)
圖23是表示實(shí)施形態(tài)2的對話支持裝置的用戶接口的圖。(實(shí)施形態(tài)2) 圖24是表示語言1是中文,語言2是英語的情況下的特征表的數(shù)據(jù)結(jié)構(gòu)的 一例的圖。(實(shí)施形態(tài)2)
圖25是表示最先用戶1發(fā)聲時的對話支持裝置的翻譯發(fā)聲信息的輸出例和 顯示例的圖。(實(shí)施形態(tài)2)
圖26是表示對圖25所示的用戶1的發(fā)聲更新后的對話履歷存儲部的內(nèi)容和 基于該內(nèi)容通過時刻計算部算出的下一搜索時間的上限t的例子的圖。(實(shí)
施形態(tài)2)
圖27是表示對用戶1的發(fā)聲,用戶2發(fā)聲時的對話支持裝置的翻譯發(fā)聲信 息的輸出例和顯示例的圖。(實(shí)施形態(tài)2)
圖28是表示對圖27所示的用戶2的發(fā)聲進(jìn)一步更新后的對話履歷存儲部的 內(nèi)容和對應(yīng)于此通過時刻計算部算出的下一搜索時間的上限t的例子的圖。 (實(shí)施形態(tài)2)
圖29是表示對圖27所示的用戶2的發(fā)聲,用戶1發(fā)聲時的對話支持裝置的 翻譯發(fā)聲信息的輸出例和顯示例的圖。(實(shí)施形態(tài)2)
圖30是表示對圖29所示的用戶1的發(fā)聲進(jìn)一步更新后的對話履歷存儲部的 內(nèi)容和對應(yīng)于此通過時刻計算部算出的下一搜索時間的上限t的例子的圖。 (實(shí)施形態(tài)2)
圖31是用對話履歷和搜索時間的上限來對比本發(fā)明的對話支持裝置的效果
和現(xiàn)有方式的對話支持裝置的效果后的圖。(實(shí)施形態(tài)2)
圖32是表示本發(fā)明的對話支持裝置的變形例的結(jié)構(gòu)框圖。(實(shí)施形態(tài)2)
圖33是表示本發(fā)明的對話支持裝置的硬件結(jié)構(gòu)的一例的框圖。(實(shí)施形態(tài)
1)(實(shí)施形態(tài)2)
符號說明
101第一輸入部102第一翻譯處理部103第一輸出部 04第二輸入部
105第二翻譯處理部 106第二輸出部 107輸出時刻決定部
201對話履歷存儲部 202對話履歷分析部 203計算資源信息部
204時刻計算部 301麥克風(fēng) 302輸入發(fā)聲信息303輸入開始按鈕
304揚(yáng)聲器 305翻譯發(fā)聲信息 306翻譯開始按鈕 307麥克風(fēng)
308輸入發(fā)聲信息 309輸入開始按鈕310揚(yáng)聲器311翻譯發(fā)聲信息
312翻譯開始按鈕S401輸出時刻初始化步驟S402發(fā)聲輸入等待步驟
S403輸出時刻計算步驟 701對話履歷存儲部201的內(nèi)容
702第一翻譯處理部或第二翻譯處理部的輸出內(nèi)容
703時刻計算部204的動作 901對話履歷存儲部201的內(nèi)容
卯2第一翻譯處理部或第二翻譯處理部的輸出內(nèi)容
903時刻計算部204的動作 1101對話履歷存儲部201的內(nèi)容
1102第一翻譯處理部或第二翻譯處理部的輸出內(nèi)容
1103時刻計算部204的動作 1301對話履歷存儲部201的內(nèi)容
1302第一翻譯處理部或第二翻譯處理部的輸出內(nèi)容 1303時刻計算部204的動作 1401通過現(xiàn)有方式支持的對話 1402通過本發(fā)明支持的對話 1501、 1502終端 1503 1510通信部 1701、 1702終端 1703服務(wù)器 1704 1711通信部 1901聲音識別部 1902發(fā)聲信息存儲部 3200對話支持裝置 3201揚(yáng)聲器 3202麥克風(fēng)3203外部存儲器 3204顯示部 3205 ROM 3206 CPU (處理器)3207 RAM 3208通信部 3209輸入部 3210總線
具體實(shí)施例方式
本發(fā)明的對話支持裝置,支持不同語言的對話,其特征在于,包括輸
入部,將用戶的發(fā)聲作為輸入來加以接受;翻譯處理部,將接受到的所述發(fā) 聲翻譯為預(yù)定的語言,并輸出翻譯所得到的翻譯發(fā)聲信息;輸出部,將所輸 出的所述翻譯發(fā)聲信息傳送輸出到用戶;以及輸出時刻決定部,分析所述用 戶的發(fā)聲中包含的特征,決定翻譯接下來接受到的發(fā)聲用的翻譯時間。由此, 對話支持裝置可以分析用戶的發(fā)聲中包含的特征,來決定翻譯接著接收的發(fā) 聲用的翻譯時間。即,在某句話中包含的特征表示為即使對下一句話的翻譯 不太流暢,意思也通順的情況下,可以縮短對下一句話的翻譯時間。另外, 在某一句話中包含的特征表示為在對下一發(fā)聲的翻譯不流暢,意思不通順的 情況下,可以變長對下一發(fā)聲的翻譯時間。
另外,本發(fā)明的所述輸入部具有第一輸入部,將基于第一語言的第一 用戶的發(fā)聲作為輸入來加以接受;和第二輸入部,將基于第二語言的第二用 戶的發(fā)聲作為輸入加以接受,所述翻譯處理部具有第一翻譯處理部,將所 述第一用戶的發(fā)聲翻譯為第二語言,并輸出翻譯所得到的第一翻譯發(fā)聲信 息;和第二翻譯處理部,將所述第二用戶的發(fā)聲翻譯為所述第一語言,并輸 出翻譯所得到的第二翻譯發(fā)聲信息,所述輸出部具有第一輸出部,將所輸 出的所述第一翻譯發(fā)聲信息傳送輸出到第二用戶;和第二輸出部,將所輸出 的所述第二翻譯發(fā)聲信息傳送輸出給第一用戶,所述輸出時刻決定部分析所 述第一用戶的發(fā)聲或所述第二用戶的發(fā)聲中包含的特征,決定輸出時刻,該 輸出時刻表示所述第一翻譯處理部或所述第二翻譯處理部翻譯所述第一用 戶的發(fā)聲或所述第二用戶的發(fā)聲的下一個接受到的發(fā)聲的翻譯時間的上限,
所述第一翻譯處理部或所述第二翻譯處理部,輸出到所述輸出時刻為止得到 的翻譯結(jié)果即所述第一翻譯發(fā)聲信息或所述第二翻譯發(fā)聲信息。由此,對話 支持裝置可以根據(jù)第一用戶的發(fā)聲或所述第二用戶的發(fā)聲的內(nèi)容,來決定表 示對下一發(fā)聲的翻譯時間的上限的輸出時刻,并輸出在該輸出時刻為止得到 的翻譯結(jié)果。
這里,所述翻譯處理部也可通過統(tǒng)計機(jī)械翻譯方式來進(jìn)行翻譯處理。統(tǒng) 計機(jī)械翻譯方式尤其有若沒有花上一定以上的翻譯時間,則不怎么能得到合 適的對譯,但是即使花了某種程度以上的翻譯時間也不見得會得到可以與翻 譯時間成正比的好的對譯的性質(zhì)。因此,根據(jù)本發(fā)明的對話支持裝置,所述 第一翻譯處理部或第二翻譯處理部在輸出在所述輸出時刻為止得到的翻譯 結(jié)果的情況下,輸出時刻決定部決定一定范圍內(nèi)的輸出時刻后,有可以得到 一定水平以上的翻譯結(jié)果的效果。
進(jìn)一步,本發(fā)明的所述輸出時刻決定部可以按發(fā)聲的順序來保持以所述 第一用戶的發(fā)聲作為字符串的第一發(fā)聲信息和以所述第二用戶的發(fā)聲作為 字符串的第二發(fā)聲信息的履歷,參照所述履歷中包含的在先的第一發(fā)聲信息 或第二發(fā)聲信息的特征,來決定接下來被保持的第一發(fā)聲信息或第二發(fā)聲信 息的所述輸出時刻。因此,根據(jù)本發(fā)明的對話支持裝置,可以根據(jù)按發(fā)聲的 順序保持第一發(fā)聲信息或第二發(fā)聲信息的履歷,來決定所述輸出時刻。
本發(fā)明的成為所述輸出時刻決定部決定所述輸出時刻的根據(jù)的所述特 征的種類可以為相互理解,在所述分析的結(jié)果為所接受到的所述發(fā)聲中包含 有相互理解的特征的情況下,決定所述輸出時刻,使得所述翻譯時間變得更 短。這里,在所述發(fā)聲包含了相互理解的特征的情況下,表示對對話內(nèi)容的 用戶之間的理解深。因此,認(rèn)為即使翻譯結(jié)果不那么流暢,也可進(jìn)行意思的 交流。因此,根據(jù)本發(fā)明的對話支持裝置,在所述發(fā)聲中包含了相互理解的 特征的情況下,可以用更短的時間輸出翻譯結(jié)果,可以流暢地進(jìn)行對話。
本發(fā)明的成為所述輸出時刻決定部決定所述輸出時刻的根據(jù)的所述特 征的種類可以為表層表現(xiàn)的連續(xù)性,在所述分析的結(jié)果為所接受到的所述發(fā) 聲中包含有表示表層表現(xiàn)的連續(xù)性的情況下,決定所述輸出時刻,使得所述 翻譯時間變得更短,在所述發(fā)聲中包含有表示表層表現(xiàn)的不連續(xù)性的情況 下,決定所述輸出時刻,使得所述翻譯時間變得更長。這里,在所述發(fā)聲中 包含了表示表層表現(xiàn)的連續(xù)性的情況下,在接著的發(fā)聲中連續(xù)包含所述發(fā)聲 中使用的表層表現(xiàn)的一部分的可能性高,若得到了該表層表現(xiàn),則認(rèn)為即使 對下一發(fā)聲整體的翻譯結(jié)果不怎么流暢,也可得到意思的交流。因此,根據(jù) 本發(fā)明的對話支持裝置,在所述發(fā)聲中包含表示表層表現(xiàn)的連續(xù)性的特征的 情況下,可以在更短的時間中輸出翻譯結(jié)果,可以順暢進(jìn)行對話。相反,在 所述發(fā)聲中包含表示表層表現(xiàn)的不連續(xù)性的特征的情況下,在下一發(fā)聲中包 含所述發(fā)聲中使用的表層表現(xiàn)的一部分的可能低,該表層表現(xiàn)重要的情況很 多。因此,根據(jù)本發(fā)明的對話支持裝置,在所述發(fā)聲中包含表示表層表現(xiàn)的 不連續(xù)性的特征的情況下,輸出更加流暢的翻譯結(jié)果,來實(shí)現(xiàn)意思的交流。
本發(fā)明的成為所述輸出時刻決定部決定所述輸出時刻的根據(jù)的所述特 征的種類可以為話題轉(zhuǎn)換,在所述分析的結(jié)果為所接受到的所述發(fā)聲中包含 話題轉(zhuǎn)換的特征的情況下,將所述輸出時刻決定為初始值,使得所述翻譯時 間成為標(biāo)準(zhǔn)長度。這里,在所述發(fā)聲中包含話題轉(zhuǎn)換的特征的情況下,認(rèn)為 在所述發(fā)聲的前后,對話的內(nèi)容沒有關(guān)系。因此,根據(jù)本發(fā)明的對話支持裝 置,在所述發(fā)聲中包含話題轉(zhuǎn)換的特征的情況下,可以輸出在標(biāo)準(zhǔn)的翻譯時 間下得到的翻譯結(jié)果。
本發(fā)明的所述對話支持裝置還具有計算資源信息部,該計算資源信息部
提供與所述對話支持裝置的計算資源有關(guān)的信息;所述輸出時刻決定部參照 與計算資源有關(guān)的所述信息,來決定所述第一翻譯發(fā)聲信息或所述第二翻譯 發(fā)聲信息的輸出時刻。由此,本發(fā)明的對話支持裝置可以決定考慮了對話支 持裝置的計算資源的狀態(tài)的輸出時刻。
本發(fā)明的所述第一輸出部和所述第二輸出部的至少一個具有聲音合成
部,通過合成聲音來再現(xiàn)第一翻譯發(fā)聲信息和/或第二翻譯發(fā)聲信息;以及 文字圖像顯示部,顯示輸出第一翻譯發(fā)聲信息和/或第二翻譯發(fā)聲信息。由 于,本發(fā)明的對話支持裝置,可以通過合成聲音和文字圖像顯示使第一用戶 和/或第二用戶知道第一翻譯發(fā)聲信息和/或第二翻譯發(fā)聲信息。因此,第一 用戶和/或第二用戶在僅通過合成聲音難以聽到第一翻譯發(fā)聲信息和/或第二 翻譯發(fā)聲信息的情況下,通過確認(rèn)文字圖像顯示部的顯示輸出,來更正確地 進(jìn)行理解。
本發(fā)明的所述聲音合成部,在所述第一翻譯發(fā)聲信息和/或所述第二翻 譯發(fā)聲信息的似然(尤度)低于一定的閾值的情況下,不動作。由此,本發(fā) 明的對話支持裝置可以預(yù)先防止由通過合成聲音聽取了似然低于一定的閾
值的所述第一翻譯發(fā)聲信息和/或所述第二翻譯發(fā)聲信息所造成的聽取錯誤 和誤解了發(fā)聲內(nèi)容。
本發(fā)明的所述文字圖像顯示部在所述第一翻譯發(fā)聲信息和/或所述第二 翻譯發(fā)聲信息的似然低于一定的閾值的情況下,僅強(qiáng)調(diào)顯示所述第一翻譯發(fā) 聲信息和/或所述第二翻譯發(fā)聲信息中包含的獨(dú)立詞。因此,根據(jù)本發(fā)明的 對話支持裝置,在似然低于一定的閾值的情況下,通過僅強(qiáng)調(diào)顯示獨(dú)立詞, 可以防止因獨(dú)立詞之外的似然低的部分而誤解翻譯內(nèi)容。
本發(fā)明的 一種對話支持系統(tǒng),通過經(jīng)由通信網(wǎng)彼此進(jìn)行通信的每個用戶 的對話支持裝置,來支持不同語言的對話,其特征在于第一對話支持裝置 具有第一輸入部,將基于第一語言的第一用戶的發(fā)聲作為輸入來加以接受; 第一翻譯處理部,將所接受到的所述第一用戶的發(fā)聲翻譯為預(yù)定的語言,并 輸出翻譯所得到的第一翻譯發(fā)聲信息;第一發(fā)送部,將所輸出的所述第一翻 譯發(fā)聲信息發(fā)送到第二對話支持裝置;第一輸出時刻決定部,分析所述第一 用戶的發(fā)聲中包含的特征,來決定輸出時刻,該輸出時刻表示翻譯所述第一 用戶的發(fā)聲的下一個所接受到的發(fā)聲的翻譯時間的上限;以及第一輸出時刻 發(fā)送部,將所決定的所述輸出時刻發(fā)送到所述第二對話支持裝置,所述第二
對話支持裝置具有第二接收部,從所述第一對話支持裝置接收所述第一翻 譯發(fā)聲信息,并傳送到第二用戶;第二輸出時刻接收部,從所述第一對話支 持裝置接收由所述第一對話支持裝置決定的所述輸出時刻;第二輸入部,將 基于所述預(yù)定語言的第二用戶的發(fā)聲作為輸入來加以接受;第二翻譯處理 部,將所接受到的所述第二用戶的發(fā)聲翻譯為所述第一語言,并輸出翻譯所 得到的第二翻譯發(fā)聲信息;以及第二發(fā)送部,將所輸出的所述第二翻譯發(fā)聲 信息發(fā)送到所述第一對話支持裝置,所述第二翻譯處理部將到所接收的所述 輸出時刻為止所得到的翻譯結(jié)果即所述第二翻譯發(fā)聲信息輸出。由此,本發(fā) 明的對話支持系統(tǒng)可以經(jīng)通信網(wǎng)來支持位于彼此分開的位置中的用戶彼此 的不同語言進(jìn)行的對話。進(jìn)一步,除此之外,第一對話支持裝置中,根據(jù)第 一用戶的發(fā)聲中包含的特征來決定作為對下一發(fā)聲的翻譯時間的上限的輸 出時刻,在第二對話支持裝置中,可以到從第一對話支持裝置接收到的所述 輸出時刻為止,輸出將第二用戶的話翻譯為所述第一語言得到的所述第二翻 譯發(fā)聲信息。即,第二對話支持裝置中,在對應(yīng)于第一用戶的發(fā)聲中包含的 特征的翻譯時間的上限之前進(jìn)行翻譯處理,而可以輸出第二翻譯發(fā)聲信息。
本發(fā)明的對話支持系統(tǒng),使用經(jīng)由通信網(wǎng)與服務(wù)器相連的第一對話支持 裝置和第二對話支持裝置,來支持對話,其特征在于所述第一對話支持裝 置具有第一輸入部,將以第一語言說話的第一用戶的發(fā)聲作為輸入來加以 接受;第一發(fā)送部,將所接受到的所述第一用戶的發(fā)聲發(fā)送到所述服務(wù)器; 第二接收部,從所述服務(wù)器接收將第二用戶相對于所述第一用戶的發(fā)聲的發(fā) 聲翻譯為所述第一語言的翻譯結(jié)果即第二翻譯發(fā)聲信息;以及第一輸出部, 將所接收到的所述第二翻譯發(fā)聲信息傳送到所述第一用戶;所述第二對話支 持裝置具有第二輸入部,將以第二語言說話的第二用戶的發(fā)聲作為輸入來 加以接受;第二發(fā)送部,將所接受到的所述第二用戶的發(fā)聲發(fā)送到所述服務(wù) 器;第一接收部,從所述服務(wù)器接收將所述第一用戶相對于所述第二用戶的 發(fā)聲的發(fā)聲翻譯為所述第二語言的翻譯結(jié)果即第一翻譯發(fā)聲信息;以及第二 輸出部,將所接收到的所述第一翻譯發(fā)聲信息傳送到所述第二用戶;所述服 務(wù)器具有第一發(fā)聲接收部,從所述第一對話支持裝置接收所述第一用戶的 發(fā)聲;第一翻譯處理部,將所接收的所述第一用戶的發(fā)聲翻譯為所述第二語 言,并輸出翻譯所所得的第一翻譯發(fā)聲信息;第一發(fā)送部,將所輸出的第一 翻譯發(fā)聲信息發(fā)送到所述第二對話支持裝置;第二發(fā)聲接收部,從所述第二 對話支持裝置接收所述第二用戶的發(fā)聲;第二翻譯處理部,將所接收到的所 述第二用戶的發(fā)聲翻譯為所述第一語言,并輸出翻譯所得到的第二翻譯發(fā)聲 信息;第二發(fā)送部,將所輸出的第二翻譯發(fā)聲信息發(fā)送到所述第一對話支持 裝置;以及輸出時刻決定部,分析所接收到的所述第一用戶的發(fā)聲或所述第 二用戶的發(fā)聲中包含的特征,來決定輸出時刻,該輸出時刻表示翻譯所述發(fā) 聲的下一個所接收的發(fā)聲的所述第一翻譯處理部或所述第二翻譯處理部的 翻譯時間的上限,所述第一翻譯處理部或所述第二翻譯處理部,將到所決定 的所述輸出時刻為止所得到的翻譯結(jié)果即所述第一翻譯發(fā)聲信息或所述第 二翻譯發(fā)聲信息輸出。因此,根據(jù)本發(fā)明的對話支持系統(tǒng),由于全部由服務(wù) 器進(jìn)行發(fā)聲中包含的特征的分析,基于此來進(jìn)行輸出時刻的決定和到所決定 的輸出時刻為止的翻譯處理,所以在各用戶的所有第一對話支持裝置和第二 對話支持裝置中可以簡化結(jié)構(gòu)。
下面,參照附圖來說明本發(fā)明的實(shí)施形態(tài)。 (實(shí)施形態(tài)l)
圖2是表示本發(fā)明的一實(shí)施形態(tài)的對話支持裝置的結(jié)構(gòu)框圖。本實(shí)施形
態(tài)的對話支持裝置是支持不同語言的兩個用戶的對話的裝置,具有根據(jù)某句 話中包含的特征,對下一句話改變搜索對譯語言數(shù)據(jù)庫的時間的功能。如圖
2所示,這種對話支持裝置具有第一輸入部101、第一翻譯處理部102、第 一輸出部103、第二輸入部104、第二翻譯處理部105、第二輸出部106和 輸出時刻決定部107。第一輸入部101輸入第一語言(例如日語)的用戶1 (第一用戶)的話,而輸出以用戶1的話為字符串的第一發(fā)聲信息。第一翻 譯處理部102將第一發(fā)聲信息翻譯為用戶2 (第二用戶)的第二語言(預(yù)定 的語言,例如英語),并輸出第一翻譯發(fā)聲信息和第一翻譯發(fā)聲信息的似然。 所謂似然是表示翻譯發(fā)聲信息相對發(fā)聲信息的流暢度或含義的準(zhǔn)確度的指 示。第一輸出部103將第一翻譯發(fā)聲信息作為合成聲音的話輸出到用戶2。 第二輸入部104輸入用戶2的第二發(fā)聲,輸出以用戶2的話為字符串的第二 發(fā)聲信息。第二翻譯處理部105將第二發(fā)聲信息翻譯為用戶1的第一語言后, 輸出第二翻譯發(fā)聲信息和第二翻譯發(fā)聲信息的似然。第二輸出部106將第二 翻譯發(fā)聲信息作為合成聲音的話輸出到用戶1。輸出時刻決定部107輸入第 一發(fā)聲信息或第二發(fā)聲信息,來決定作為第一翻譯處理部102或第二翻譯處 理部105對接著輸入的第一發(fā)聲信息或第二發(fā)聲信息的處理時間(g卩,指對 發(fā)聲信息的翻譯時間,還包含對譯語言數(shù)據(jù)庫的搜索時間和某特定處理的循 環(huán)次數(shù)等)的上限的輸出時刻。
圖3是表示圖2所示的輸出時刻決定部107的結(jié)構(gòu)的一例的框圖。輸出 時刻決定部107是根據(jù)某句發(fā)聲信息的特征,來決定對接著輸入的發(fā)聲信息 的對譯語言數(shù)據(jù)庫的搜索時間的處理部,具有對話履歷存儲部201、對話履 歷分析部202、計算資源信息部203、時刻計算部204和特征表205。對話 履歷存儲部201以發(fā)生時間的順序來存儲第一發(fā)聲信息和第二發(fā)聲信息。特 征表205是描述發(fā)聲特征的表格,該發(fā)聲特征成為決定輸出時刻的變差系數(shù) (変動係數(shù))的依據(jù)。對話履歷分析部202比較對話履歷存儲部201的內(nèi)容 和特征表205的內(nèi)容,判斷對話履歷存儲部201中存儲的發(fā)聲信息中是否包 含特征表205中描述的特征,若包含特征,則輸出與該特征對應(yīng)的輸出時刻 的變差系數(shù)。在不包含特征的情況下,輸出系數(shù)a =0。計算資源信息部203 存儲與本裝置操作的計算資源有關(guān)的信息。計算資源信息部203檢測出因?qū)?話支持裝置內(nèi)的其他應(yīng)用程序的動作等的影響形成的對話支持裝置的工作 狀況,求出對話支持裝置的硬件性能,與圖9所示的表格參考值相比較,來
調(diào)整輸出時刻的改變幅度等。時刻計算部204參照輸出時刻的變差系數(shù)和計 算資源信息部203,來決定第一翻譯處理部102和第二翻譯處理部105的輸 出時刻t。
第一輸入部101通過連續(xù)聲音識別處理或鍵盤將用戶1通過聲音或打字 輸入的發(fā)聲作為文字信息取得,而作為第一發(fā)聲信息輸出。用戶l的第一發(fā) 聲信息是相當(dāng)于用戶1的發(fā)聲的字符串。圖4是表示具有聲音識別處理的功 能的情況下的第一輸入部101的結(jié)構(gòu)的一例的圖。第一輸入部101具有聲音 識別部1901和發(fā)聲信息存儲部1902。聲音識別部1901將相當(dāng)于用戶1的 發(fā)聲的聲音變換為文字信息。發(fā)聲信息存儲部1902暫時存儲聲音識別部 1901輸出的文字信息。發(fā)聲信息存儲部1902根據(jù)伴隨用戶1的發(fā)聲的指示 輸出暫時存儲的第一發(fā)聲信息。同樣,第二輸入部104通過連續(xù)聲音識別處 理或鍵盤將用戶2通過聲音或打字輸入的發(fā)聲作為文字信息取得,而作為第 二發(fā)聲信息輸出。第二發(fā)聲信息是相當(dāng)于用戶2的話的字符串。
第一翻譯處理部102由從用戶1的語言變換為用戶2的語言的統(tǒng)計翻譯 處理構(gòu)成。統(tǒng)計翻譯處理在用戶1的語言為S,用戶2的語言為T的情況下, 得到第一發(fā)聲信息Sl的譯文T2,在S和T的對譯語言數(shù)據(jù)庫中計算P(T|S1) 最大的T=T2。根據(jù)貝葉斯定理,與搜索P (S1|T) P (T)最大的T=T2等效。 P (S|T)是翻譯模型,P (T)是語言模型。并且,最大值P (T2|S1)是譯 文T2的似然。同樣,第二翻譯處理部105由從用戶2的語言變換為用戶1 的語言的統(tǒng)計翻譯處理構(gòu)成。統(tǒng)計翻譯處理在用戶2的語言為S,用戶1的 語言為T的情況下,得到第二發(fā)聲信息S2的譯文Tl,在S和T的對譯語言 數(shù)據(jù)庫中計算P (T|S2)最大的T-T1。根據(jù)貝葉斯定理,與搜索P (S2|T) P (T)最大的T^T1等效。P (S|T)是翻譯模型,P (T)是語言模型。并且, 最大值P (T1|S2)是譯文T1的似然。但是,任意一種統(tǒng)計翻譯處理都不能 超過輸出時刻決定部107決定的輸出時刻t來繼續(xù)進(jìn)行處理。處理時間在到 達(dá)輸出時刻t的時刻中斷,在該時刻輸出最佳的譯文和譯文的似然。
第一輸出部103由聲音合成處理和圖像顯示處理構(gòu)成,將第一翻譯發(fā)聲 信息作為聲音或文字圖像向用戶2輸出。另外,第一輸出部103具有閾值 Ul。閾值U1由第一翻譯處理部102生成流暢和含義明確度的評價值為預(yù)定 值80%的譯文時的似然的平均值來決定。在從第一翻譯處理部102輸出的 似然比閾值U1小的情況下不進(jìn)行聲音合成處理,在構(gòu)成第一翻譯發(fā)聲信息
的單詞中僅強(qiáng)調(diào)顯示獨(dú)立詞。另外,第二輸出部106由聲音合成處理和圖像 顯示處理構(gòu)成,將第二翻譯發(fā)聲信息作為聲音或文字圖像向用戶l輸出。另 夕卜,第二輸出部106具有閾值U2。閾值U2由第二翻譯處理部105生成流暢 和含義明確度的評價值為預(yù)定值80%的譯文時的似然的平均值來決定。在 從第二翻譯處理部105輸出的似然比閾值U2小的情況下不進(jìn)行聲音合成處 理,在構(gòu)成第二翻譯發(fā)聲信息的單詞中僅強(qiáng)調(diào)顯示獨(dú)立詞。
圖5是表示本發(fā)明的對話支持裝置的一實(shí)施形態(tài)的用戶接口的圖。圖5 表示安裝了本發(fā)明的硬件的用戶接口。用戶l使用左側(cè)的用戶接口,用戶2 使用右側(cè)的用戶接口。麥克風(fēng)301、輸入發(fā)聲信息302和輸入開始按鈕303 相當(dāng)于第一輸入部101,揚(yáng)聲器304和翻譯發(fā)聲信息311相當(dāng)于第二輸出部 106。翻譯開始按鈕306是開始第一翻譯處理部102的翻譯處理的按鈕。同 樣,麥克風(fēng)307、輸入發(fā)聲信息308和輸入開始按鈕309相當(dāng)于第二輸入部 104,揚(yáng)聲器310和翻譯發(fā)聲信息305相當(dāng)于第一輸出部103。翻譯開始按 鈕312是幵始第二翻譯處理部105的翻譯處理的按鈕。
圖6是表示本發(fā)明的整體動作的流程圖。步驟S401中,輸出時刻決定 部107在開始使用本裝置前將輸出時刻t設(shè)置為初始值T。步驟S402中,等 待用戶1或用戶2的發(fā)聲輸入。在發(fā)聲輸入完成的階段,g卩,按下了翻譯開 始按鈕306或翻譯開始按鈕312的時刻,進(jìn)入到步驟S403。步驟S403中, 第一翻譯處理部102或第二翻譯處理部105最多花t秒時間進(jìn)行翻譯處理后, 將譯文輸出給對方。同樣,由輸出時刻決定部107更新對話履歷存儲部201 的內(nèi)容,計算接著的翻譯處理用的輸出時刻t。并且,回到步驟S402。
步驟S403中,輸出時刻t的計算具體如下那樣來進(jìn)行計算。
首先,圖7是表示圖6所示的步驟S403中的對話支持裝置的更詳細(xì)的 動作的流程圖。第一翻譯處理部102或第二翻譯處理部105內(nèi)部具有定時器, 若由用戶1或用戶2按下了翻譯開始按鈕306或翻譯開始按鈕312,則啟動 內(nèi)部的定時器,而開始通過輸出時刻決定部107設(shè)置的輸出時刻t (初始值 T)的測量(S601)。第一輸入部101或第二輸入部104通過所輸入的第一發(fā) 聲信息或第二發(fā)聲信息來更新對話履歷存儲部201 (S602)。第一翻譯處理 部102或第二翻譯處理部105在對譯語言數(shù)據(jù)庫內(nèi),對所輸入的第一發(fā)聲信 息或第二發(fā)聲信息搜索似然最高的對譯匯編(corpus) (S603)。第一翻譯處 理部102或第二翻譯處理部105檢査定時器,判斷是否經(jīng)過了通過輸出時刻
設(shè)置部107設(shè)置的輸出時刻t秒(S604),若沒有經(jīng)過,則回到步驟S603, 繼續(xù)進(jìn)行對譯語言數(shù)據(jù)庫的搜索。步驟S604中,在經(jīng)過了輸出時刻t秒的 情況下,在該時刻終止對譯匯編的搜索,輸出在該時刻求出的翻譯發(fā)聲信息 (S605)。
接著,對話履歷分析部202參照特征表205 (S606),分析對話履歷存 儲部201中存儲的對話信息中是否包含了特征表205中描述的特征(S607)。 在發(fā)聲信息中包含了特征表205中描述的特征的情況下,對話履歷分析部 202從特征表205中取得與該特征對應(yīng)的系數(shù)a ,輸出到時刻計算部204中。 時刻計算部204參照計算資源信息部203的表格來算出改變幅度A T(S608)。 進(jìn)一步,時刻計算部204從所取得的系數(shù)d和改變幅度AT中算出相當(dāng)于對 下一發(fā)聲信息的對譯語言數(shù)據(jù)庫的搜索時間的上限的輸出時刻1=(1+ a *A T),設(shè)置接著翻譯處理用的新的輸出時刻t而終止處理(S609)。另外,在 步驟S607中,發(fā)聲信息中不包含特征表205中描述的特征的情況下,時刻 計算部204什么都不做而終止處理。時刻計算部204作為與該情況相當(dāng)?shù)奶?理,也可設(shè)系數(shù)a二0,設(shè)置接著的翻譯處理用的新的輸出時刻t而終止處 理。由此,在接著開始步驟S403的處理時,第一翻譯處理部102或第二翻 譯處理部105的內(nèi)部定時器測量在該步驟S609中通過輸出時刻決定部107 設(shè)置的新的輸出時刻t,第一翻譯處理部102或第二翻譯處理部105搜索對 譯語言數(shù)據(jù)庫,直到經(jīng)過新的輸出時刻t。
以上,說明了在第一翻譯處理部102或第二翻譯處理部105進(jìn)行的對譯 語言數(shù)據(jù)庫的搜索終止后,輸出時刻決定部107算出對接著的發(fā)聲的搜索時 間,但是本發(fā)明并不限于此。例如,第一輸入部101或第二輸入部104、第 一翻譯處理部102或第二翻譯處理部105與輸出時刻決定部107也可并行進(jìn) 行處理。即,也可并行處理對話履歷存儲部201的更新、對譯語言數(shù)據(jù)庫的 搜索和對下一發(fā)聲的翻譯發(fā)聲信息的輸出時刻的決定。
圖8是表示在圖6所示的步驟S403中進(jìn)行并行處理的情況下的對話支 持裝置的更詳細(xì)動作的一例的流程圖。首先,從第一輸入部101或第二輸入 部104輸入用戶1或用戶2的話,在按下翻譯開始按鈕306或翻譯開始按鈕 312后,第一翻譯處理部102或第二翻譯處理部105啟動內(nèi)部定時器,而開 始通過輸出時刻決定部107設(shè)置的輸出時刻t的測量(S601)。并且,第一 翻譯處理部102或第二翻譯處理部105搜索對譯語言數(shù)據(jù)庫,直到經(jīng)過了通
過輸出時刻決定部107設(shè)置的輸出時刻t(S603 S604)。若經(jīng)過了輸出時刻 t,則第一翻譯處理部102或第二翻譯處理部105中止對譯語言數(shù)據(jù)庫的搜 索,而輸出在該時刻求出的翻譯發(fā)聲信息(S605.)。
與以上的步驟S601、 S603、 S604、 S605的處理并行,第一輸入部101 或第二輸入部104、對話履歷分析部202、計算資源信息部203和時刻計算 部204進(jìn)行以下的處理。S卩,第一輸入部101或第二輸入部104生成與所輸 入的話對應(yīng)的第一發(fā)聲信息或第二發(fā)聲信息,并通過所生成的第一發(fā)聲信息 或第二發(fā)聲信息來更新對話履歷存儲部201 (S602)。 S卩,若按下輸入開始 按鈕303或輸入開始按鈕309而輸入了發(fā)聲,則第一輸入部101或第二輸入 部104生成第一發(fā)聲信息或第二發(fā)聲信息,而與第一翻譯處理部102或第二 翻譯處理部105的動作無關(guān),并通過所生成的第一發(fā)聲信息或第二發(fā)聲信息 來更新對話履歷存儲部201。接著,對話履歷分析部202參照特征表205
(S606),來分析更新后的對話履歷存儲部201中是否存在特征表205中所 描述的特征(S607)。在發(fā)聲信息中有特征表205中描述的特征的情況下, 對話履歷分析部202從特征表205中取得與該特征對應(yīng)的系數(shù)a ,而輸出到 時刻計算部204中。另外,時刻計算部204參照計算資源信息部203的表格 來算出改變幅度AT(S608)。進(jìn)一步,時刻計算部204從所取得的系數(shù)a和 改變幅度AT中算出相當(dāng)于對下一發(fā)聲信息的對譯語言數(shù)據(jù)庫的搜索時間 的上限的輸出時刻t二 (t+a AT),設(shè)置下一翻譯處理用的新輸出時刻t 而終止處理(S609)。另外,在步驟S607中,在發(fā)聲信息中沒有包含特征表 205中描述的特征的情況下,時刻計算部204什么都不做而終止處理。另外, 時刻計算部204作為與其相當(dāng)?shù)奶幚?,也可設(shè)置下一翻譯處理用的新的輸出 時刻t來終止處理。這樣,通過進(jìn)行并行處理,可以在定時器測量的開始到 輸出時刻t經(jīng)過為止,沒有浪費(fèi)地將通過時刻計算部204算出的輸出時刻t 用于對譯語言數(shù)據(jù)庫的搜索。另外,通過進(jìn)行并行處理,由于在進(jìn)行對譯語 言數(shù)據(jù)庫的搜索期間,可以完成對下一發(fā)聲的輸出時刻t的計算,所以在用 戶l和用戶2沒有間斷地進(jìn)行對話的情況下,可以快速開始翻譯處理。
圖9表示計算資源信息部203的結(jié)構(gòu)。圖9是表示圖3表示的計算資源 信息部203保持的表格的數(shù)據(jù)結(jié)構(gòu)的一例的圖。圖9中的各參數(shù)中,T是輸 出時刻t的初始值,AT是輸出時刻t的改變幅度,minT是輸出時刻t的最 小值。參考值的行是將本裝置安裝在CPU性能600MIPS(Million Instructions
per second)的計算機(jī)上時的值,需要根據(jù)實(shí)際安裝的計算機(jī)的性能(裝置 的硬件性能)來進(jìn)行計算。圖9的例子中,由于CPU性能在當(dāng)前時刻是 1200MIPS,所以將所有的參數(shù)設(shè)置為600/1200倍,即0.5倍。另外,由于 CPU性能一般可以根據(jù)當(dāng)前處理中的過程數(shù)或優(yōu)先級的關(guān)系、可使用的主存 儲的量等實(shí)時變化,所以通過與當(dāng)前的CPU的平均負(fù)載(0 100的值)成 反比的計算,可以準(zhǔn)確設(shè)置翻譯處理所需的時間。例如,通過將(l一負(fù)載 /100)的值乘以本來的CPU性能,若本裝置的CPU性能是1200MIPS,負(fù) 載是50%,則將CPU性能作為600MIPS,可以適當(dāng)設(shè)置T和AT的值。
圖10是表示圖3所示的對話履歷分析部保持的特征表格的表格結(jié)構(gòu)的 一例的圖。接著,圖10表示對話履歷分析部202參照的特征表格205的數(shù) 據(jù)結(jié)構(gòu)。這里,作為特征的種類,分類為相互理解、表層表現(xiàn)的連續(xù)性和話 題轉(zhuǎn)換三個。
(1) 在發(fā)聲人的話中包含的特征是相互理解的情況下,由于發(fā)生了與 發(fā)聲對方的相互理解,所以認(rèn)為即使接著發(fā)聲的對話對方的翻譯發(fā)聲信息多 少有點(diǎn)不清晰,也可以理解發(fā)聲者。
(2) 接著,所謂表層表現(xiàn)的連續(xù)性是指在存在某個表層表現(xiàn)的話時, 表示該表層表現(xiàn)的一部分是否有容易包含在接著的話中的傾向的性質(zhì)。并 且,這時,在該表層表現(xiàn)的一部分在下一發(fā)聲中具有重要的含義的情況下, 特別抽出到特征表格中。認(rèn)為對發(fā)聲人來說,在自己使用的表層表現(xiàn)的一部 分具有重要的含義而包含在對話對方的話中的情況下,即使翻譯發(fā)聲信息不 怎么流暢,發(fā)聲人也可以理解。相反,在表層表現(xiàn)的一部分不包含在下一發(fā) 聲中的可能性高,該表層表現(xiàn)具有重要的含義的情況下,對發(fā)聲對方的話, 希望是更合適、流暢的翻譯發(fā)聲信息。
(3) 進(jìn)一步,在發(fā)聲人的話中包含的特征是話題轉(zhuǎn)換的情況下,由于 進(jìn)行與之前的對話沒有關(guān)聯(lián)的其他發(fā)聲的可能提高,所以認(rèn)為在最先開始對 話時,需要具有同種程度的流暢度的翻譯對話信息。這里,作為特征的種類, 舉相互理解、表層表現(xiàn)的連續(xù)性和話題轉(zhuǎn)換三種為例,但是也可對特征與其 不同的種類,或更多特征的種類生成特征表205。對這種特征的種類,特征 表205主要由語言1的特征、語言2的特征、系數(shù)a三個項目的組構(gòu)成。系 數(shù)a通過分析經(jīng)翻譯處理實(shí)際上進(jìn)行的對話來加以決定。g口,在即使接著發(fā) 聲A的下一句話B是很粗的翻譯,對方也能理解含義的情況下,發(fā)聲A的
特征系數(shù)a算出是負(fù)的值,在若不是正確的翻譯,對方就不領(lǐng)會含義的情況 下,發(fā)聲A的特征的系數(shù)a算出正的值。通過根據(jù)翻譯處理的粗細(xì)和正確 度,使系數(shù)a的絕對值變化,可以決定更合適的輸出時刻,但是這里為了使 說明簡單,使用土l的值來加以說明。對話履歷分析部202從對話履歷存儲 部201中存儲的對話的履歷中檢測出特征表205中的特征,并輸出與該特征 對應(yīng)的系數(shù)a 。但是在系數(shù)a為reset的情況下,是指時刻計算部204將輸 出時刻t返回到初始值T。另外,在沒有發(fā)現(xiàn)特征的情況下,作為a-O輸 出。
時刻計算部204從計算資源信息部203中獲得各參數(shù)的值,獲得對話履 歷分析部202輸出的系數(shù)a ,來計算輸出時刻t。 t的計算通過按系數(shù)ci的方 向以與AT成正比的值來增減當(dāng)前的t的值來進(jìn)行。例如,作為最簡單的計 算,作為t—t+a AT來加以計算。其中,在輸出時刻t為KminT的情況下 為t—minT。
下面,詳細(xì)說明本發(fā)明中支持不同語言的對話的情況下的具體動作。設(shè) 用戶1的母語是日語,用戶2的母語是英語。
圖11是表示圖3所示的對話履歷存儲部的內(nèi)容和基于該內(nèi)容,時刻計 算部204算出的搜索時間的上限的初始值的一例的表格。圖ll是為容易把 握發(fā)明的動作,將根據(jù)用戶的話(第一發(fā)聲信息或第二發(fā)聲信息)更新的對 話履歷存儲部201的內(nèi)容記作701,將通過第一翻譯處理部102或第二翻譯 處理部105處理同一發(fā)聲后輸出的譯文(第一翻譯發(fā)聲信息或第二翻譯發(fā)聲 信息)和似然記作702,將時刻計算部204的輸出時刻t的計算結(jié)果記作703。 在本裝置的使用開始之后,在步驟S41中,時刻計算部204參照計算資源信 息部203的內(nèi)容而將輸出時刻t設(shè)置為T。本裝置的狀態(tài)進(jìn)入到步驟S402。
圖12是表示最先用戶1發(fā)聲時的對話支持裝置的翻譯發(fā)聲信息的輸出 例和顯示例的圖。設(shè)在圖12所示的對話支持裝置上,用戶l按下輸入開始 按鈕303而說"d &二 6 ti "。通過麥克風(fēng)301,第一輸入部101輸出"二
(二 ^±"來作為第一發(fā)聲信息。若用戶i按下翻譯開始按鈕306,則進(jìn)入 到步驟S403,第一翻譯處理部102花最大t時間而開始翻譯處理。圖13是 表示表示對圖12所示的用戶1的對話進(jìn)行更新后的對話履歷存儲部的內(nèi)容 和基于該內(nèi)容,時刻計算部算出的下一搜索時間的上限t的例子的圖。如圖 13的902所示,第一翻譯處理部102將"hello"和似然1.0作為第一翻譯發(fā)
聲信息輸出。由于在第一輸出部103的閾值Ul-0.6的情況下,該似然比U1 大,所以第一翻譯發(fā)聲信息"hello"原樣顯示為翻譯發(fā)聲信息305,并通過 聲音合成處理從揚(yáng)聲器310中再現(xiàn)"hdlo"。與翻譯處理的開始同時,對話 履歷存儲部201如圖13所示的901那樣來進(jìn)行更新,對話履歷分析部202 分析對話履歷的內(nèi)容901的特征,但是由于什么特征也沒有,所以輸出系數(shù) a=0。由于時刻計算部204計算的輸出時刻t沒有變化,所以如卯3所示 那樣,原樣為t-T。處理進(jìn)入到步驟S402。
圖"是表示對于用戶1的話,用戶2發(fā)聲時的對話支持裝置的翻譯發(fā) 聲信息的輸出例和顯示例的圖。圖14所示,設(shè)聽到用戶1的翻譯發(fā)聲的用 戶2按下輸入開始按鈕309而發(fā)聲"Which do you like, tea or coffee "。通過 麥克風(fēng)313第二輸入部104輸出"Which do you like, tea or coffee "來作為 第二發(fā)聲信息。在用戶2按下翻譯開始按鈕312后,進(jìn)入到步驟S403,第 二翻譯處理部105花費(fèi)最大t時間來開始翻譯處理。如1102所示,第二翻 譯處理部105將"fe茶t - 一匕一 i' 6 6力、'"好S "C t力、?"和似然0.9作 為第二翻譯發(fā)聲信息輸出。在第二輸出部106的閾值U2-0.6的情況下,由 于該似然比U2大,所以第二翻譯發(fā)聲信息"扭茶i ^ 一匕—f ^ &力、'《好 巻"C十力'?"原樣顯示為翻譯發(fā)聲信息311,并通過聲音合成處理從揚(yáng)聲器 304中再現(xiàn)"fc'茶i ^ —匕一 i;' 6 6力;(i好g "C寸力'?"。圖15是表示對圖 14所示的用戶2的話,進(jìn)一步更新的對話履歷存儲部的內(nèi)容和基于該內(nèi)容 通過時刻計算部算出的下一搜索時間的上限t的例子的圖。同時,對話履歷 存儲部201如圖15所示的1101那樣來進(jìn)行更新,對話履歷分析部202分析 對話履歷1101的特征。用戶2的發(fā)聲信息"Which do you like, tea or coffee " 在圖10的特征中,(表層表現(xiàn)的連續(xù)性,1)較合適。因此,輸出該系數(shù)a =一1。時刻計算部204將輸出時刻t設(shè)置為t+a AT=T—AT。處理進(jìn)入到 步驟S402。
圖16表示對圖14所示的用戶2的發(fā)聲,用戶1發(fā)聲時的對話支持裝置 的翻譯發(fā)聲信息的輸出例和顯示例的圖。圖17是表示對圖16所示的用戶1 的發(fā)聲,進(jìn)一步更新的對話履歷存儲部的內(nèi)容和基于該內(nèi)容通過時刻計算部 算出的下一搜索時間的上限t的例子的圖。圖16表示聽到了用戶2的翻譯 發(fā)聲的用戶1按下輸入開始按鈕303而開始"- 一匕一力;^ 。> "C t "的情況 下的例子。通過麥克風(fēng)301第一輸入部101輸出"- 一匕 一 力"、^ "C t"來
作為第一發(fā)聲信息。用戶l在按下翻譯開始按鈕306后,進(jìn)入到步驟S403, 第一翻譯處理部102最大花t=T- A T的時間來開始翻譯處理。如902所示, 第一翻譯處理部102將"coffee good would"和似然0.5作為第一翻譯發(fā)聲 信息輸出。由于第一輸出部103的閾值Ul-0.6,所以該似然比U1小。第 一翻譯發(fā)聲信息"coffeegoodwould"中,作為獨(dú)立詞的""coffee "和"good" 強(qiáng)調(diào)顯示為翻譯發(fā)聲信息305。但是,由于不進(jìn)行聲音合成處理,所以不從 揚(yáng)聲器310中再現(xiàn)任何聲音。與翻譯處理的開始同時,對話履歷存儲部201 如圖17所示的1301那樣來進(jìn)行更新,對話履歷分析部202分析對話履歷的 內(nèi)容1301的特征,由于什么特征都沒有,所以輸出系數(shù)a二O。由于時刻計 算部204計算的輸出時刻t沒有變化,所以如圖1303所示那樣,原樣為t=T-AT。處理進(jìn)入到步驟S402。
本發(fā)明的效果如下這樣來表現(xiàn)。即,若用圖9的各參數(shù)的具體數(shù)值來進(jìn) 行說明,則在25秒內(nèi)處理用戶1的最初的談話和用戶2的第二次的談話, 但是在15秒內(nèi)處理了用戶1的第三次談話。因此,由于不清楚即使花了 25 秒是否能得到正確的翻譯,但是由于花15秒得到了繼續(xù)進(jìn)行對話所需的充 分的譯文,所以用戶l和用戶2可以迅速完成對話。另外,由于繼續(xù)進(jìn)行對 話所需的充分的譯文不流暢和含義不充分明確,則若通過聲音合成來讀取, 則會使對方混亂。本發(fā)明中,在根據(jù)譯文的似然,不流暢或含義不充分明確 的情況下,停止聲音合成處理,通過在譯文的顯示中強(qiáng)調(diào)顯示獨(dú)立詞語,避 免了對方的混亂,可以快速進(jìn)行進(jìn)行對話。
圖18是與現(xiàn)有方式的對話支持裝置用對話履歷和搜索時間的上限來對 比基于本發(fā)明的對話支持裝置的效果后的圖。這里,進(jìn)一步定量驗(yàn)證本發(fā)明 的效果。圖18表示將自動翻譯功能原樣用于對話支持的現(xiàn)有方式的對話 1401和通過本發(fā)明支持的對話1402。在現(xiàn)有方式的對話中,由于各翻譯處 理所需的時間的上限一定,所以對8句話需要8T的時間。根據(jù)圖9的各參 數(shù)值,該8句話的對話的翻譯時間需要3分20秒,用戶1不能向用戶2傳 達(dá)自己的意思。但是,在通過本發(fā)明支持的對話中,由于根據(jù)對話的上下文 使翻譯處理的上限時間變化,所以對同樣的8句話,僅需要(8T-2AT)的 時間。即,3分鐘內(nèi)用戶l和用戶2彼此明白了意思。因此,在現(xiàn)實(shí)中,在 必須快速完成對話的狀況中,本發(fā)明的效果有效。另外,在圖18 (a)所示 的例子中,與(b)所示的現(xiàn)有例相比,由于對話時間縮短了2AT,但是本
發(fā)明的對話支持裝置不見得必然縮短了對話時間,但是可以得到與現(xiàn)有的對 話支持裝置相同的對話時間。但是,本發(fā)明的對話支持裝置中,不是如現(xiàn)有 技術(shù)那樣,總是用相同的時間來搜索對譯語言數(shù)據(jù)庫,而僅在發(fā)現(xiàn)了要求更 準(zhǔn)確和流暢的對話的特征的情況下對搜索花上時間。由此,可以得到更基于 對話的流程的翻譯結(jié)果,結(jié)果,有即使在對話中花上相同的時間,也有獲得 與對話對方的意思交流的概率高的效果。
進(jìn)一步從其他觀點(diǎn)來驗(yàn)證本發(fā)明的效果。圖19是表示基于本發(fā)明的對 話支持裝置的平均翻譯處理時間和基于現(xiàn)有方式的平均翻譯處理時間的對 比的曲線。圖18中,用對話履歷和搜索時間的上限來對比現(xiàn)有方法和本發(fā) 明,但是圖19表示對對話履歷和搜索時間,從平均翻譯處理時間的觀點(diǎn)從 對話開始到對話完成所描繪的圖。某個時刻t的平均翻譯處理時間是到時刻 t為止所花費(fèi)的翻譯處理時間的總和除以到時刻t為止的發(fā)聲句數(shù)的翻譯處 理時間的平均值。由于現(xiàn)有方式中翻譯處理時間一定,所以平均翻譯處理時 間也一定。但是,本發(fā)明中,若對話進(jìn)行,則對話的履歷的累積量增加,同 時,翻譯處理時間的平均值減少。因此,在意思交流的水平為相同的水平來 完成對話吋,本發(fā)明的方法與現(xiàn)有方式相比,還有對話所需的時間減少的效 果。
圖20是表示本發(fā)明的對話支持裝置的變形例的結(jié)構(gòu)框圖。圖21是表示 本發(fā)明的對話支持裝置的變形例的用戶接口的圖。圖5表示了本發(fā)明的用戶 接口的一例,但是如圖20所示,也可以通過在圖2的結(jié)構(gòu)上加上通信部 1503 1510,將圖2的結(jié)構(gòu)分為終端1501和終端1502,并通過圖21所示 的用戶接口來進(jìn)行安裝。通過為這種結(jié)構(gòu),用戶1的終端1501中,可以省 略決定輸出時刻的處理。SP,用戶1的終端1501中,可以根據(jù)從用戶2的 終端1502接收的輸出時刻來進(jìn)行第一翻譯處理部102的翻譯處理。具體的, 如圖21所示,在用戶1的終端1501中,預(yù)先從用戶2的終端1502中接收 輸出時刻。并且,在用戶1按下輸入開始按鈕303而輸入"d (二 ^i:", 接著按下翻譯幵始按鈕306后,第一翻譯處理部102將用戶1的發(fā)聲信息"二 九二 6 ""翻譯為英語,直到從終端1502接收的輸出時刻。終端1501中, 將作為第一翻譯處理部102的翻譯結(jié)果的翻譯發(fā)聲信息和似然從通信部 1503送到終端1502的通信部1504,終端1502中,將所接收的翻譯發(fā)聲信 息"Hello."通過揚(yáng)聲器310進(jìn)行再現(xiàn)輸出。終端1502中,經(jīng)通信部1507
和通信部1508接收通過終端部1501輸入的話"^ (i "的發(fā)聲信息, 分析所接收的發(fā)聲信息"二九(^ 算出對下一發(fā)聲的翻譯發(fā)聲信息的 輸出時刻。這里,為終端1501不具有輸出時刻決定部的結(jié)構(gòu),但是本發(fā)明 并不限于此,終端1501還為與具有輸出時刻決定部的終端1502相同的結(jié)構(gòu)。
圖22是表示本發(fā)明的對話支持裝置的第二變形例的結(jié)構(gòu)框圖。如圖22 所示,通過在圖2的結(jié)構(gòu)上加上通信部1704 1711,而也可將第一翻譯處 理部102、第二翻譯處理部105和輸出時刻決定部107安裝到服務(wù)器1703 上,安裝為使得分別經(jīng)通信線路將終端1701和終端1702連接到服務(wù)器1703。 由此,可以簡化終端1701和終端1702的結(jié)構(gòu),可以實(shí)現(xiàn)終端1701和終端 1702的小型化、輕量化和節(jié)電力化等。
另外,在對話履歷分析部202從對話履歷存儲部201的內(nèi)容中發(fā)現(xiàn)特征 時,通過將參照的對話信息的范圍擴(kuò)展到之前的n句話,可以進(jìn)一步進(jìn)行精 細(xì)的翻譯處理時間的控制。例如,通過累積之前的6句話中出現(xiàn)圖10的特 征表205中的相互理解的特征的系數(shù)a ,可以更準(zhǔn)確算出用戶1和用戶2的 相互理解的程度,通過基于此來計算輸出時刻t的值,可以決定更需要的充 分的翻譯處理時間的上限。
另外,通過用所輸入的發(fā)聲信息的單詞數(shù)來正規(guī)化計算資源信息部203 保持的各參數(shù)的值,可以進(jìn)一步進(jìn)行精細(xì)的翻譯處理時間的控制。例如,在 上述的例子中,根據(jù)發(fā)聲信息的平均單詞數(shù)W來計算T和AT的值,但是 若所輸入的發(fā)聲信息的單詞數(shù)是W/2,則通過將已經(jīng)算出的t的值正規(guī)化為 1/2的t/2作為翻譯處理時間的上限,在翻譯處理開始之前設(shè)置,可決定更需 要的充分的翻譯處理時間的上限?;?,若輸入的發(fā)聲信息的單詞數(shù)是2W, 則通過將已經(jīng)算出的t正規(guī)化為2倍后的2t作為翻譯處理時間的上限,在翻 譯處理開始之前設(shè)置,則決定了更需要的充分的翻譯處理時間的上限。另外, 這種情況下,表示本發(fā)明的效果的圖19的曲線應(yīng)在t的值回到正規(guī)化前的 時間后繪圖解釋。
另外,在上述的實(shí)施形態(tài)中,用時間t來限制翻譯處理時間的上限,但 是即使使用與時間t成正比的其他參數(shù)來間接限制翻譯處理時間的上限,也 可以為相同的效果。例如,由于統(tǒng)計翻譯處理中的譯文的搜索的深度d和翻 譯處理時間成正比,所以設(shè)置平均的搜索深度D和與A T相當(dāng)?shù)乃阉鞯纳疃?的改變幅度△ D,通過將上述的處理中的T和D原樣進(jìn)行記號替換來加以實(shí)
施,可以為相同的效果。當(dāng)然除了搜索的深度之外,若用搜索的步數(shù)或搜索 范圍的廣度等的規(guī)定翻譯處理量的參數(shù)來代替,也可得到相同的效果。
作為一例,舉出了日語和英語,但是對于法語、德語、韓語和中文等其 他語言,也可同樣加以實(shí)施,本發(fā)明不依賴于語言。
(實(shí)施形態(tài)2)
上述實(shí)施形態(tài)l中,設(shè)作用戶l的母語是日語,用戶2的母語是英語, 而詳細(xì)說明了在本發(fā)明中支持不同語言的對話的情況下的具體動作,但是在 下面的實(shí)施形態(tài)2中,說明用戶1的母語是中文,用戶2的母語是英語來支 持兩者的對話的對話支持裝置的例子。實(shí)施形態(tài)2的對話支持裝置的結(jié)構(gòu)僅 作為各處理部的處理對象的語言不同,各處理部的處理內(nèi)容與圖2所示的內(nèi) 容相同,所以省略圖示。實(shí)施形態(tài)2的對話支持裝置和實(shí)施形態(tài)1的對話支 持裝置的不同點(diǎn)如下。
第一輸入部101輸入基于第一語言(中文)的用戶1 (第一用戶)的話, 并輸出以用戶1的話為字符串的第一發(fā)聲信息。第一翻譯處理部102將第一 發(fā)聲信息翻譯為用戶2 (第二用戶)的第二語言(英語)而輸出第一翻譯發(fā) 聲信息和第一翻譯發(fā)聲信息的似然。
圖23是表示實(shí)施形態(tài)2的對話支持裝置的用戶接口的圖。圖23表示安 裝了本發(fā)明的硬件的用戶接口。說中文的用戶l使用左側(cè)的用戶接口,說英 語的用戶2使用右側(cè)的用戶接口。鼠標(biāo)301、輸入發(fā)聲信息302和輸入開始 按鈕303相當(dāng)于第一輸入部101,揚(yáng)聲器304、翻譯發(fā)聲信息311和翻譯發(fā) 聲信息311相當(dāng)于第二輸出部106。翻譯開始按鈕306是開始第一翻譯處理 部102的翻譯處理的按鈕。同樣,麥克風(fēng)307、輸入發(fā)聲信息308和輸入開 始按鈕309相當(dāng)于第二輸入部104,揚(yáng)聲器310和翻譯發(fā)聲信息305相當(dāng)于 第一輸出部103。翻譯開始按鈕312是開始第二翻譯處理部105的翻譯處理 的按鈕。
圖24是表示語言1是中文,語言2是英文的情況下的特征表的數(shù)據(jù)結(jié) 構(gòu)的一例的圖。圖10中,說明了用戶l的母語是語言l (日語),用戶2的 母語是語言2 (英語)的情況下的特征表的數(shù)據(jù)結(jié)構(gòu)。但是,圖24中,在 用戶1的母語是語言1 (中文)的方面與圖10的特征表不同。
圖25是表示最先用戶1發(fā)聲時的對話支持裝置的翻譯發(fā)聲信息的輸出 例和顯示例的圖。設(shè)圖25的對話支持裝置中,用戶1按下輸入開始按鈕303,
而說"你好"。通過麥克風(fēng)301第一輸入部101輸出"你好"來作為第一發(fā) 聲信息。在用戶l按下翻譯開始按鈕306后,第一翻譯處理部102花最大t 時間來開始翻譯處理。圖26是表示對圖25所示的用戶1的話更新后的對話 履歷存儲部的內(nèi)容和基于該內(nèi)容通過時刻計算部算出的下一搜索時間的上 限t的例子的圖。如圖26的902所示,第一翻譯處理部102輸出"hdlo" 和似然l.O來作為第一翻譯發(fā)聲信息。在第一輸出部103的閾值Ul-0.6的 情況下,由于該似然比U1大,所以第一翻譯發(fā)聲信息"hello"原樣顯示為 翻譯發(fā)聲信息305,并通過聲音合成處理部從揚(yáng)聲器310中再現(xiàn)"hello"。 與翻譯處理的開始同時,對話履歷存儲部201如圖26所示的901那樣來進(jìn) 行更新,對話履歷分析部202分析對話履歷的內(nèi)容901的特征,但是由于什 么特征都沒有,所以輸出系數(shù)a二O。由于時刻計算部204計算的輸出時刻 t不變化,所以如圖903所示那樣,仍為t^T。
圖27是表示對用戶1的話,用戶2發(fā)聲時的對話支持裝置的翻譯發(fā)聲 信息的輸出例和顯示例的圖。聽到了圖27所示的用戶1的翻譯發(fā)聲的用戶 2按下輸入開始按鈕309而說"Which do you like, tea or coffee "。通過麥克 風(fēng)313,第二輸入部104輸出"Which do you like, tea or coffee"作為第二發(fā) 聲信息。在用戶2按下翻譯開始按鈕312后,第二翻譯處理部105花上最大 t時間來開始翻譯處理。如1102所示那樣,第二翻譯處理部105輸出"茶和 咖啡喜歡哪個"和似然0.9來作為第二翻譯發(fā)聲信息。在第二輸出部106的 閾值U2-0.6的情況下,由于該似然比U2大,所以第二翻譯發(fā)聲信息"茶 和咖啡喜歡哪個"原樣顯示到翻譯發(fā)聲信息311上。進(jìn)一步,通過聲音合成 處理,從揚(yáng)聲器304再現(xiàn)"茶和咖啡喜歡哪個"。圖28是表示對圖27所示 的用戶2的話,進(jìn)一步更新后的對話履歷存儲部的內(nèi)容和基于該內(nèi)容通過時 刻計算部算出的下一搜索時間的上限t的例子的圖。同時,對話履歷存儲部 201如圖28所示的1101那樣來進(jìn)行更新,對話履歷分析部202分析對話履 歷1101的特征。圖24的特征中(表層表現(xiàn)的連續(xù)性,1)適合用戶2的發(fā) 聲信息"which do you like tea or coffee"。因此,輸出該系數(shù)a^-l。時刻 計算部204將輸出時刻t設(shè)置為t+a AT二T一AT。
圖29是表示對圖27所示的用戶2的對話,用戶1發(fā)聲時的對話支持裝 置的翻譯發(fā)聲信息的輸出例和顯示例的圖。另外,圖30是表示對圖29所示 的用戶1的話,進(jìn)一步更新后的對話履歷存儲部的內(nèi)容和基于該內(nèi)容通過時刻計算部計算出的下一搜索時間的上限t的例子的圖。圖29表示聽了用戶2 的翻譯發(fā)聲的用戶1按下輸入開始按鈕303,而說"喜歡咖啡"的情況行下 的例子。通過麥克風(fēng)301第一輸入部101輸出"喜歡咖啡"來作為第一發(fā)聲 信息。若用戶1按下翻譯開始按鈕306,第一翻譯處理部102花最大t-T一 AT的時間來開始翻譯處理。如圖902所示,第一翻譯處理部102輸出"coffee good would"和似然0.5來作為第一翻譯發(fā)聲信息。由于第一輸出部103的 閾值Ul-0.6,所以該似然比U1小。因此,將第一翻譯發(fā)聲信息"coffee good would"中,獨(dú)立詞的"coffee"和"good"強(qiáng)調(diào)顯示為翻譯發(fā)聲信息305。 但是,由于不進(jìn)行聲音合成處理,所以從揚(yáng)聲器310什么都不再現(xiàn)。與翻譯 處理的開始同時,對話履歷存儲部201如圖30所示的1301那樣來加以更新, 對話履歷分析部202分析對話履歷的內(nèi)容1301的特征,但是由于沒有任何 特征,所以輸出系數(shù)a二0。由于時刻計算部204計算出的輸出時刻t不變 化,所以如1303所示那樣,仍為t-T-AT。
如下這樣來表現(xiàn)本發(fā)明的效果。即,與實(shí)施形態(tài)l相同,若用圖9的各 參數(shù)的具體數(shù)值來加以說明,則用戶1的最初的發(fā)聲和用戶2的第二次的發(fā) 聲在25秒內(nèi)進(jìn)行了翻譯處理,但是用戶1的第三次的發(fā)聲在15秒內(nèi)進(jìn)行處 理。因此,由于不清楚即使對用戶1的第三次發(fā)聲的翻譯處理花上25秒能 否得到需要的譯文,但是花上15秒就得到了繼續(xù)進(jìn)行對話所需的充分的譯 文,所以用戶l和用戶2可以快速完成對話。另外,由于繼續(xù)進(jìn)行對話所需 的充分譯文中,不流暢或含義不充分明確,所以若通過聲音合成讀出,則會 使對方混亂。本發(fā)明中,在根據(jù)譯文的似然不流暢和含義不充分明確的情況 下,停止聲音合成處理,而在譯文的顯示中強(qiáng)調(diào)顯示獨(dú)立語,避免了對方的 混亂,同時可以快速進(jìn)行進(jìn)行對話。
這里,進(jìn)一步定量驗(yàn)證本發(fā)明的效果。圖31是用對話履歷和搜索時間 的上限來對比本發(fā)明的對話支持裝置的效果和現(xiàn)有方式的對話支持裝置的 效果的圖。圖31表示將自動翻譯功能原樣用于對話支持的現(xiàn)有方式的對話 1401和通過本發(fā)明來支持的對話1402?,F(xiàn)有方式的對話中,由于各翻譯處 理所需的時間上限一定,所以對8句話需要8T的時間。根據(jù)圖9的各參數(shù) 值,該8句話的對話的翻譯時間需要3分20秒,用戶1不能向用戶2傳達(dá) 自己的意思。但是,在通過本發(fā)明支持的對話中,由于根據(jù)對話的上下文使 翻譯處理的上限時間變化,所以對同樣的8句話,僅需要(8T-2AT)的時
間。即在3分鐘內(nèi)用戶l和用戶2相互理解了意思。因此,在現(xiàn)實(shí)世界中必 須快速完成對話的狀況中,本發(fā)明的效果有效。在圖31 (a)所示的例子中, 與(b)所示的現(xiàn)有例相比,對話時間縮短了2AT,但是在本發(fā)明的對話支 持裝置中,不見得必然縮短了對話時間,但是可以產(chǎn)生與現(xiàn)有的對話支持裝 置相同的對話時間。但是,本發(fā)明的對話支持裝置中,不是如現(xiàn)有技術(shù)那樣, 總是用相同的時間來搜索對譯語言數(shù)據(jù)庫,僅在發(fā)現(xiàn)了要求更準(zhǔn)確和流暢的 對話的特征的情況下對搜索花上時間。由此,可以得到更基于對話的流程的 翻譯結(jié)果,結(jié)果,有即使在對話中花上相同的時間,也有得到與對話對方的 意思的交流的概率高的效果。
進(jìn)一步從其他觀點(diǎn)來驗(yàn)證本發(fā)明的效果。圖31用對話履歷和搜索時間 的上限對比了現(xiàn)有方式和本發(fā)明,但是對對話履歷和搜索時間,圖19表示 根據(jù)平均翻譯處理時間的觀點(diǎn)從對話開始到對話完成來進(jìn)行描繪的圖。某個 時刻t的平均翻譯處理時間是到時間t為止所花費(fèi)的翻譯處理時間的總和除 以到時間t為止的發(fā)聲句數(shù)的翻譯處理時間的平均值。由于現(xiàn)有方式中翻譯 處理時間一定,所以平均翻譯處理時間也一定。但是,本發(fā)明中,若對話進(jìn) 行,則對話的履歷的累積量增加,同時,翻譯處理時間的平均值減少。因此, 在意思交流的水平為相同的水平來完成對話時,本發(fā)明與現(xiàn)有方式相比,還 有對話所需的時間減少的效果。
圖32是表示本發(fā)明的對話支持裝置的變形例的結(jié)構(gòu)框圖。本實(shí)施形態(tài) 2中,也可通過將通信部1503 1510加到圖2的結(jié)構(gòu)中,而將圖2的結(jié)構(gòu) 分為終端1501和終端1502,而通過如圖32所示的用戶接口來實(shí)現(xiàn)。該用 戶接口的具體內(nèi)部結(jié)構(gòu)與圖21所示的結(jié)構(gòu)相同。
圖33是表示本發(fā)明的對話支持裝置的硬件結(jié)構(gòu)的一例的框圖。如該圖 所示,本發(fā)明的對話支持裝置3200具有揚(yáng)聲器3201、麥克風(fēng)3202、外部存 儲器3203、顯示部3204、 ROM3205、 CPU (處理器)3206、 RAM3207、通 信部3208、輸入部3209和總線3210。
揚(yáng)聲器3201實(shí)現(xiàn)第一輸出部103和第二輸出部106,用合成聲音來輸 出所翻譯的話。麥克風(fēng)3202實(shí)現(xiàn)第一輸入部101和第二輸入部104的一部 分,接收用戶1和用戶2的聲音的輸入。外部存儲器3203是硬盤、DVD和 IC卡等的大容量存儲器,存儲語法和對譯匯編等來實(shí)現(xiàn)對譯語言數(shù)據(jù)庫。 另外,外部存儲器3203在對譯支持裝置3200的啟動后,存儲裝載到RAM3207中加以執(zhí)行的程序等。顯示部3204是液晶顯示器等,顯示第一發(fā) 聲信息和第二發(fā)聲信息等。ROM3205是非易失性的只讀半導(dǎo)體存儲器,存 儲對話支持裝置3200的啟動用程序等。CPU3206通過執(zhí)行ROM3205和 RAM3207中存儲的程序,來實(shí)現(xiàn)圖2、圖3、圖4、圖20和圖22的框圖中 所示的對話支持裝置內(nèi)的各處理部。RAM3207是易失性的可讀寫半導(dǎo)體存 儲器,在對話支持裝置3200的啟動后,向CPU3206供給裝載后的程序,同 時,通過保持CPU3206的處理中間的數(shù)據(jù)來提供操作區(qū)域。通信部3208實(shí) 現(xiàn)圖20和圖22所示的通信部1503 1510和通信部1704 1711,而通過紅 外線通信和近距離無線通信等來進(jìn)行數(shù)據(jù)的發(fā)送接收。輸入部3209是輸入 開始按鈕303、 309和翻譯開始按鈕306、 312等的操作按鈕,接收用戶的操 作輸入??偩€3210是對話支持裝置3200內(nèi)的并行數(shù)據(jù)傳送路徑,進(jìn)行各處 理部之間的數(shù)據(jù)傳送。
另夕卜,框圖(圖2—圖4、圖20和圖22等)的各功能框圖典型地由作 為集成電路的LSI來實(shí)現(xiàn)。這些可以分別單芯片化,也可集成單芯片化,使 其包含一部分或全部。
例如,存儲器之外的功能塊可以是一個芯片。
這里,作為LSI根據(jù)集成度的不同,還稱作IC、系統(tǒng)LSI、超級LSI和 頂級LSI。
集成化的方法并不限于LSI,也可通過專用電路或通用處理器來實(shí)現(xiàn)。 在LSI制造后,也可利用可編程的FPGA (Field Programmable Gate Array) 或可重新構(gòu)成LSI內(nèi)部的電路單元的連接或設(shè)定的可重構(gòu)處理器。
進(jìn)一歩,若因半導(dǎo)體技術(shù)的進(jìn)步或所派生的其他技術(shù),替換LSI的集成 的技術(shù)出現(xiàn),則當(dāng)然可以使用該其他技術(shù)來進(jìn)行功能塊的集成??梢赃m用生 物技術(shù)等。
另外,各功能塊中,也可不使存儲作為編碼或解碼的對象的數(shù)據(jù)的單元 單芯片化,而分開構(gòu)成。 產(chǎn)業(yè)上的可用性
本發(fā)明的對話支持裝置具有使對話參加者的發(fā)聲快速完成的功能,作為 便攜電話和便攜終端等的翻譯應(yīng)用程序軟件等有用。另外,還可應(yīng)用于公共 的街頭終端或?qū)в谓K端等。
權(quán)利要求
1、一種對話支持裝置,支持不同語言的對話,其特征在于,具有輸入部,將用戶的發(fā)聲作為輸入來加以接受;翻譯處理部,將接受到的所述發(fā)聲翻譯為預(yù)定的語言,并輸出翻譯所得到的翻譯發(fā)聲信息;輸出部,將所輸出的所述翻譯發(fā)聲信息傳送輸出到用戶;以及輸出時刻決定部,分析所述用戶的發(fā)聲中包含的特征,決定用于翻譯接下來接受到的發(fā)聲的翻譯時間。
2、 根據(jù)權(quán)利要求1所述的對話支持裝置,其特征在于 所述輸入部具有第一輸入部,將基于第一語言的第一用戶的發(fā)聲作為輸入來加以接受;和第二輸入部,將基于第二語言的第二用戶的發(fā)聲作為輸 入加以接受,所述翻譯處理部具有第一翻譯處理部,將所述第一用戶的發(fā)聲翻譯為 第二語言,并輸出翻譯所得到的第一翻譯發(fā)聲信息;和第二翻譯處理部,將 所述第二用戶的發(fā)聲翻譯為所述第一語言,并輸出翻譯所得到的第二翻譯發(fā) 聲信息,^f述輸出部具有第一輸出部,將所輸出的所述第一翻譯發(fā)聲信息傳送 輸出到第二用戶;和第二輸出部,將所輸出的所述第二翻譯發(fā)聲信息傳送輸 出給第一用戶,所述輸出時刻決定部分析所述第一用戶的發(fā)聲或所述第二用戶的發(fā)聲 中包含的特征,決定輸出時刻,該輸出時刻表示所述第一翻譯處理部或所述 第二翻譯處理部翻譯所述第一用戶的發(fā)聲或所述第二用戶的發(fā)聲的下一個 接受到的發(fā)聲的翻譯時間的上限,所述第一翻譯處理部或所述第二翻譯處理部,輸出到所述輸出時刻為止 得到的翻譯結(jié)果即所述第一翻譯發(fā)聲信息或所述第二翻譯發(fā)聲信息。
3、 根據(jù)權(quán)利要求2所述的對話支持裝置,其特征在于所述翻譯處理 部通過統(tǒng)計機(jī)械翻譯方式來進(jìn)行翻譯處理。
4、 根據(jù)權(quán)利要求2所述的對話支持裝置,其特征在于所述輸出時刻 決定部按發(fā)聲的順序來保持以所述第一用戶的發(fā)聲作為字符串的第一發(fā)聲 信息和以所述第二用戶的發(fā)聲作為字符串的第二發(fā)聲信息的履歷,參照所述 履歷中包含的在先的第一發(fā)聲信息或第二發(fā)聲信息的特征,來決定接下來被 保持的第一發(fā)聲信息或第二發(fā)聲信息的所述輸出時刻。
5、 根據(jù)權(quán)利要求2所述的對話支持裝置,其特征在于成為所述輸出 時刻決定部決定所述輸出時刻的根據(jù)的所述特征的種類為相互理解,在所述 分析的結(jié)果為所接受到的所述發(fā)聲中包含有相互理解的特征的情況下,決定 所述輸出時刻,使得所述翻譯時間變得更短。
6、 根據(jù)權(quán)利要求2所述的對話支持裝置,其特征在于成為所述輸出時刻決定部決定所述輸出時刻的根據(jù)的所述特征的種類為表層表現(xiàn)的連續(xù) 性,在所述分析的結(jié)果為所接受到的所述發(fā)聲中包含有表示表層表現(xiàn)的連續(xù) 性的情況下,決定所述輸出時刻,使得所述翻譯時間變得更短,在所述發(fā)聲 中包含有表示表層表現(xiàn)的不連續(xù)性的情況下,決定所述輸出時刻,使得所述 翻譯時間變得更長。
7、 根據(jù)權(quán)利要求2所述的對話支持裝置,其特征在于成為所述輸出 時刻決定部決定所述輸出時刻的根據(jù)的所述特征的種類為話題轉(zhuǎn)換,在所述 分析的結(jié)果為所接受到的所述發(fā)聲中包含話題轉(zhuǎn)換的特征的情況下,將所述 輸出時刻決定為初始值,使得所述翻譯吋間成為標(biāo)準(zhǔn)長度。
8、 根據(jù)權(quán)利要求2所述的對話支持裝置,其特征在于-所述對話支持裝置還具有計算資源信息部,該計算資源信息部提供與所述對話支持裝置的計算資源有關(guān)的信息;所述輸出時刻決定部參照與計算資源有關(guān)的所述信息,來決定所述第一 翻譯發(fā)聲信息或所述第二翻譯發(fā)聲信息的輸出時刻。
9、 根據(jù)權(quán)利要求2所述的對話支持裝置,其特征在于 所述第一輸出部和所述第二輸出部的至少一個具有聲音合成部,通過合成聲音來再現(xiàn)第一翻譯發(fā)聲信息和/或第二翻譯發(fā)聲信息;以及 文字圖像顯示部,顯示輸出第一翻譯發(fā)聲信息和/或第二翻譯發(fā)聲信息。
10、 根據(jù)權(quán)利要求9所述的對話支持裝置,其特征在于所述聲音合成 部,在所述第一翻譯發(fā)聲信息和/或所述第二翻譯發(fā)聲信息的似然低于一定 的閾值的情況下,不動作。
11、 根據(jù)權(quán)利要求9所述的對話支持裝置,其特征在于所述文字圖像 顯示部在所述第一翻譯發(fā)聲信息和/或所述第二翻譯發(fā)聲信息的似然低于一 定的閾值的情況下,僅強(qiáng)調(diào)顯示所述第一翻譯發(fā)聲信息和/或所述第二翻譯 發(fā)聲信息中包含的獨(dú)立詞。
12、 一種對話支持系統(tǒng),通過經(jīng)由通信網(wǎng)彼此進(jìn)行通信的每個用戶的對 話支持裝置,來支持不同語言的對話,其特征在于第一對話支持裝置具有-第一輸入部,將基于第一語言的第一用戶的發(fā)聲作為輸入來加以接受; 第一翻譯處理部,將所接受到的所述第一用戶的發(fā)聲翻譯為預(yù)定的語 言,并輸出翻譯所得到的第一翻譯發(fā)聲信息;第一發(fā)送部,將所輸出的所述第一翻譯發(fā)聲信息發(fā)送到第二對話支持裝置;第一輸出時刻決定部,分析所述第一用戶的發(fā)聲中包含的特征,來決定 輸出時刻,該輸出時刻表示翻譯所述第一用戶的發(fā)聲的下一個所接受到的發(fā) 聲的翻譯時間的上限;以及第一輸出時刻發(fā)送部,將所決定的所述輸出時刻發(fā)送到所述第二對話支 持裝置,所述第二對話支持裝置具有-第二接收部,從所述第一對話支持裝置接收所述第一翻譯發(fā)聲信息,并 傳送到第二用戶;第二輸出時刻接收部,從所述第一對話支持裝置接收由所述第一對話支 持裝置決定的所述輸出時刻;第二輸入部,將基于所述預(yù)定語言的第二用戶的發(fā)聲作為輸入來加以接受; 第二翻譯處理部,將所接受到的所述第二用戶的發(fā)聲翻譯為所述第一語言,并輸出翻譯所得到的第二翻譯發(fā)聲信息;以及第二發(fā)送部,將所輸出的所述第二翻譯發(fā)聲信息發(fā)送到所述第一對話支 持裝置,所述第二翻譯處理部將到所接收的所述輸出時刻為止所得到的翻譯結(jié) 果即所述第二翻譯發(fā)聲信息輸出。
13、 一種對話支持系統(tǒng),使用經(jīng)由通信網(wǎng)與服務(wù)器相連的第一對話支持 裝置和第二對話支持裝置,來支持對話,其特征在于所述第一對話支持裝置具有第一輸入部,將以第一語言說話的第一用戶的發(fā)聲作為輸入來加以接受;第一發(fā)送部,將所接受到的所述第一用戶的發(fā)聲發(fā)送到所述服務(wù)器; 第二接收部,從所述服務(wù)器接收將第二用戶相對于所述第一用戶的發(fā)聲 的發(fā)聲翻譯為所述第一語言的翻譯結(jié)果即第二翻譯發(fā)聲信息;以及第一輸出部,將所接收到的所述第二翻譯發(fā)聲信息傳送到所述第一用戶;所述第二對話支持裝置具有第二輸入部,將以第二語言說話的第二用戶的發(fā)聲作為輸入來加以接受;第二發(fā)送部,將所接受到的所述第二用戶的發(fā)聲發(fā)送到所述服務(wù)器; 第一接收部,從所述服務(wù)器接收將所述第一用戶相對于所述第二用戶的 發(fā)聲的發(fā)聲翻譯為所述第二語言的翻譯結(jié)果即第一翻譯發(fā)聲信息;以及第二輸出部,將所接收到的所述第一翻譯發(fā)聲信息傳送到所述第二用戶;所述服務(wù)器具有第一發(fā)聲接收部,從所述第一對話支持裝置接收所述第一用戶的發(fā)聲; 第一翻譯處理部,將所接收的所述第一用戶的發(fā)聲翻譯為所述第二語 言,并輸出翻譯所所得的第一翻譯發(fā)聲信息; 第一發(fā)送部,將所輸出的第一翻譯發(fā)聲信息發(fā)送到所述第二對話支持裝置;第二發(fā)聲接收部,從所述第二對話支持裝置接收所述第二用戶的發(fā)聲; 第二翻譯處理部,將所接收到的所述第二用戶的發(fā)聲翻譯為所述第一語言,并輸出翻譯所得到的第二翻譯發(fā)聲信息;第二發(fā)送部,將所輸出的第二翻譯發(fā)聲信息發(fā)送到所述第一對話支持裝置;以及輸出時刻決定部,分析所接收到的所述第一用戶的發(fā)聲或所述第二用戶 的發(fā)聲中包含的特征,來決定輸出時刻,該輸出時刻表示翻譯所述發(fā)聲的下 一個所接收的發(fā)聲的所述第一翻譯處理部或所述第二翻譯處理部的翻譯時 間的上限,所述第一翻譯處理部或所述第二翻譯處理部,將到所決定的所述輸出時 刻為止所得到的翻譯結(jié)果即所述第一翻譯發(fā)聲信息或所述第二翻譯發(fā)聲信 息輸出。
14、 一種對話支持方法,支持不同語言的對話,其特征在于,包括-輸入步驟,將用戶的發(fā)聲作為輸入來加以接受;翻譯處理步驟,將所接受到的所述發(fā)聲翻譯為預(yù)定的語言,并輸出翻譯所得到的翻譯發(fā)聲信息;輸出步驟,將所輸出的所述翻譯發(fā)聲信息傳送輸出到用戶; 輸出時刻決定步驟,分析所述用戶的發(fā)聲中包含的特征,決定用于翻譯接下來接收的發(fā)聲的翻譯時間。
15、 一種程序,用于支持不同語言的對話的對話支持裝置, 使計算機(jī)執(zhí)行以下步驟輸入步驟,將用戶的發(fā)聲作為輸入來加以接受;翻譯處理步驟,將所接受到的所述發(fā)聲翻譯為預(yù)定的語言,并輸出翻譯 所得到的翻譯發(fā)聲信息;輸出步驟,將所輸出的所述翻譯發(fā)聲信息傳送輸出到用戶;以及 輸出時刻決定步驟,分析所述用戶的發(fā)聲中包含的特征,決定用于翻譯 接下來接受的發(fā)聲的翻譯時間。
16、—種對話支持裝置,支持不同語言的兩者之間的對話,其特征在于: 根據(jù)所述兩者之間的對話的履歷,使對同一發(fā)聲的翻譯時間變化。
17、 一種對話支持裝置,支持不同語言的兩者之間的對話,其特征在于, 具有接受部,接受用戶的發(fā)聲;以及翻譯處理部,將所述接受部接受到的發(fā)聲翻譯為預(yù)定的語言,并輸出翻 譯所得到的翻譯發(fā)聲信息,所述翻譯處理部對應(yīng)于從存儲了所述兩者之間的對話的履歷的對話履 歷存儲部取得的所述兩者之間的對話的履歷,來使對所述接收部接受到的同 一發(fā)聲的翻譯時間變化。
18、 根據(jù)權(quán)利要求17所述的對話支持裝置,其特征在于所述翻譯處理部,在所述對話的履歷的累積量增加吋,翻譯處理時間的平均值減小。
19、 一種對話支持裝置,支持不同語言的對話,其特征在于 輸入部,將用戶的發(fā)聲作為輸入來加以接受;存儲單元,存儲有包含翻譯處理步驟和輸出時刻決定步驟的程序,該翻 譯處理步驟將所接受到的所述發(fā)聲翻譯為預(yù)定的語言,并輸出翻譯所得到的 翻譯發(fā)聲信息,所述輸出時刻決定步驟分析所述用戶的發(fā)聲中包含的特征, 決定翻譯接下來接受的發(fā)聲用的翻譯時間;處理器,執(zhí)行所述存儲單元中存儲的程序;以及輸出部,向用戶傳送輸出由所述處理器輸出的所述翻譯發(fā)聲信息。
全文摘要
本發(fā)明所要解決的問題是提供一種對應(yīng)于發(fā)聲的內(nèi)容兼顧了翻譯處理的速度和翻譯結(jié)果的流暢的對話支持裝置。具有第一輸入部(101),接受基于第一語言的用戶(1)的發(fā)聲;第一翻譯處理部(102),將所接受到的話發(fā)聲譯為預(yù)定的第二語言而輸出第一翻譯發(fā)聲信息;第一輸出部(103),將第一翻譯發(fā)聲信息傳送到用戶(2);第二輸入部(104),接受用戶(2)的發(fā)聲;第二翻譯處理部(105),將所接受到的用戶(2)的發(fā)聲翻譯為第一語言而輸出第二翻譯發(fā)聲信息;第二輸出部(106),將第二翻譯發(fā)聲信息傳送到用戶(1);以及輸出時刻決定部(107),分析用戶(1)的發(fā)聲中包含的特征,來決定對該發(fā)聲的下一個所接受的發(fā)聲的翻譯時間的上限;第二翻譯處理部(105)輸出在所述翻譯時間內(nèi)得到的第二翻譯發(fā)聲信息。
文檔編號G06F17/28GK101099147SQ200680000959
公開日2008年1月2日 申請日期2006年11月7日 優(yōu)先權(quán)日2005年11月11日
發(fā)明者沖本純幸, 水谷研治 申請人:松下電器產(chǎn)業(yè)株式會社