專利名稱:語音翻譯裝置和語音翻譯方法
技術(shù)領(lǐng)域:
在此描述的實施例通常涉及語音翻譯裝置和相關(guān)的方法。
背景技術(shù):
隨著近年來語音處理和自然語言處理的發(fā)展,語音翻譯裝置正在被開發(fā)。在不同語言的交流中,語音翻譯裝置將由源語言用戶所說的源語言句子翻譯成目標(biāo)語言句子,并為目標(biāo)語言用戶合成目標(biāo)語言語音。傳統(tǒng)的語音翻譯裝置輸出合成語音,而不管是否輸入另一個語音。合成語音的輸出和其它語音被重疊。因此,用戶之間的交流出現(xiàn)錯誤。這樣的錯誤在非面對面交流的情況下(例如,用傳統(tǒng)的語音翻譯裝置通過電話進行的交流)會經(jīng)常遇見。
發(fā)明內(nèi)容
實施例提供了語音翻譯裝置和相關(guān)的方法,用于通過調(diào)整合成語音的輸出定時來實現(xiàn)說話者之間的順暢交流。根據(jù)一個實施例,語音翻譯裝置包括:第一輸入單元,其被配置為輸入第一說話者的第一語音;第二輸入單元,其被配置為輸入與第一說話者不同的第二說話者的第二語音;第一翻譯單元,其被配置為將第一語音翻譯成第一目標(biāo)語言句子;第二翻譯單元,其被配置為將第二語音翻譯成第二目標(biāo)語言句子;第一輸出單元,其被配置為輸出第一目標(biāo)語言句子;第二輸出單元,其被配置為輸出第二目標(biāo)語言句子;語音檢測單元,其被配置為從第一語音中檢測第一語音期間和從第二語音中檢測第二語音期間;以及輸出定時調(diào)整單元,其被配置為當(dāng)?shù)谝徽Z音期間和第 二語音期間彼此重疊時,調(diào)整第一輸出單元和第二輸出單元中的至少一個。在本文中,“句子”是指一種口語說話方式,其可以是語法完整的句子或短語(不完整的句子,這種說話方式缺少名詞或動詞等,或者甚至是一個單詞,諸如對是否問題的回答等)。根據(jù)實施例,可以提供語音翻譯裝置和相關(guān)的方法,其用于通過調(diào)整合成語音的輸出定時來實現(xiàn)說話者之間的順暢交流。
圖1示出一個實施例的語音翻譯裝置;圖2示出語音翻譯裝置的硬件;圖3示出翻譯單元的細(xì)節(jié);圖4示出意圖檢測規(guī)則的例子;圖5示出說話者選擇規(guī)則的例子;圖6表示語音翻譯裝置的操作的流程圖;圖7表示一個實施例的交流的流程;圖8示出另一個實施例的語音翻譯裝置;
圖9示出再一個實施例的語音翻譯裝置;圖10示出另一個實施例的說話者選擇規(guī)則的例子。
具體實施例方式以下將參照附圖描述各種實施例。實施例一本實施例的語音翻譯裝置幫助不同語言的說話者彼此進行交流。在本實施例中,第一說話者是英語說話者,第二說話者是日語說話者。但是,語音翻譯裝置的目標(biāo)語言并不限于英語和日語,因為任何兩種語言或特定語言中的任何兩種方言(諸如普通話和粵語)都可以采用。說話者可以包括超過三個的說話者,以及三種或更多種語言和/或方言。圖1示出一個實施例的語音翻譯裝置100。該裝置100包括輸入第一說話者所說的第一語音(英語語音)的第一語音輸入單元101、輸入第二說話者所說的第二語音(日語語音)的第二語音輸入單元102、將第一語音翻譯成日語并生成合成日語語音的第一翻譯單元103、將第二語音翻譯成英語并生成合成英語語音的第二翻譯單元104、從第一語音中檢測第一語音期間和從第二語音中檢測第二語音期間的語音檢測單元105、調(diào)整輸出合成日語語音或合成英語語音的定時以使得(A)輸出合成日語語音或合成英語語音的時段與(B)第一語音期間或第二語音期間彼此不重疊的輸出定時調(diào)整單元106、根據(jù)輸出定時調(diào)整單元106的指令向第一說話者輸出合成英語語音的第一語音輸出單元107、根據(jù)輸出定時調(diào)整單元106的指令向第二說話者輸出合成日語語音的第二語音輸出單元108、以及控制其它單元的過程和其它單元之間的信息的通信的控制單元112。單元112可以是或者包括處理器。通過不重疊 ,一個說話者在另一個說話者開始說話之前或者在另一個說話者結(jié)束說話之后開始并結(jié)束說話。當(dāng)兩個說話者同時完全或部分地進行說話時,出現(xiàn)重疊時段;也就是說,一個說話者在另一個說話者停止說話之前開始說話。裝置100可以調(diào)整輸出翻譯后的語音的合成語音的定時,以使得輸出合成語音的時段和說話者的語音期間彼此不重疊。也就是說,什么不重疊呢,是說話者的語音期間與另一個說話者的語音合成輸出不重疊。這樣,裝置100在說話者說他們的語音時避免輸出合成語音,平滑地進行說話者的交流。裝置100還包括:意圖檢測單元109,其從第一說話者所說的英語語音中檢測第一意圖和從第二說話者所說的日語語音中檢測第二意圖;說話者選擇單元110,其在英語語音的期間和日語語音的期間彼此重疊時,根據(jù)第一意圖和第二意圖選擇第一說話者或第二說話者;以及消息輸出單元111,其根據(jù)單元110的選擇結(jié)果輸出預(yù)定消息。意圖是指說話者想要通過說話實現(xiàn)的目的的更廣義的概念。意圖從每個語音期間提取。例如,當(dāng)說話者說“How many people will be there ”時,可以推斷說話者想要通過該說話問另一個說話者一個問題。該說話的意圖是“疑問(Question)”。下面將描述提取意圖的方法。當(dāng)單元110選擇第一說話者時,裝置100將第一說話者的英語語音翻譯成日語,生成合成日語語音并通過單元108輸出合成日語語音?;蛘弋?dāng)單元110選擇第二說話者時,裝置100將第二說話者的日語語音翻譯成英語,生成合成英語語音并通過單元107輸出合成英語語音。例如,當(dāng)?shù)谝徽f話者的語音和第二說話者的另一個語音彼此重疊,第一說話者的第一意圖是“疑問”,第二說話者的第二意圖是“陳述(Description)”時,裝置100根據(jù)預(yù)定規(guī)則選擇第二說話者。然后,裝置100通過單元107優(yōu)先輸出第二說話者的合成語音。優(yōu)先輸出一個說話者的合成語音可以防止說話者之間的交流進入重疊的語音狀態(tài)和混亂的說話者的狀態(tài)。下面描述使用說話者選擇的預(yù)定規(guī)則。在本例子中,裝置100選擇正在說出不要求從另一個說話者處接收響應(yīng)的“陳述”的第二說話者。從而,單元100可以簡潔且無疑地在說話者之間進行交流。硬件結(jié)構(gòu)裝置100可以通過圖2所示的硬件構(gòu)建,例如計算機。裝置100包括控制裝置100的全部并可以是中央處理單元(CPU)等的控制單元201、是隨機存取存儲器(RAM)等的存儲單元202、存儲各種數(shù)據(jù)和程序并且是硬盤驅(qū)動器(HDD)、緊湊盤驅(qū)動器(⑶-Drive)等的外部存儲單元203、接收說話者的輸入并且是鍵盤、鼠標(biāo)等的操作單元204、控制與外部設(shè)備的通信的通信單元205、獲取用戶所說的語音的麥克風(fēng)206、生成合成語音的揚聲器207、顯示圖像的顯示器208、和連接上述單元的總線209。在該硬件結(jié)構(gòu)中 ,當(dāng)單元201執(zhí)行由單元202和單元203存儲的各種程序時,實現(xiàn)下面的功能。每個單元的功能單元101獲取第一用戶所說的英語語音。單元101可以是麥克風(fēng)206。所獲取的語音被執(zhí)行A/D轉(zhuǎn)換,并由單元203存儲數(shù)字語音數(shù)據(jù)。單元102獲取第二用戶所說的日語語音。單元102的其它功能類似于單元101。單元103將通過單元101獲取的英語語音翻譯成日語,并生成合成日語語音。單元104將通過單元102獲取的日語語音翻譯成英語,并生成合成英語語音。圖3示出單元103和104的細(xì)節(jié)。每個單元103和104包括語音識別單元301、機器翻譯單元302和語音合成單元303。單元301識別源語言語音,并生成源語言句子。語音識別可以是使用隱馬爾可夫模型(HMM)的方法。單元302將源語言句子翻譯成目標(biāo)語言句子。機器翻譯可以是使用轉(zhuǎn)換(Transfer)系統(tǒng)、中間語言(Interlingua)系統(tǒng)等的方法。單元303將目標(biāo)語言句子轉(zhuǎn)換為合成語音。語音合成可以是使用共振峰合成系統(tǒng)或HMM的方法。上述單元的執(zhí)行結(jié)果由單元202或單元203存儲。單元105從第一語音中檢測第一語音期間,并從第二語音中檢測第二語音期間。語音期間可以通過測量所獲取的語音的短時功率來檢測。例如,如果短時功率超過預(yù)定閾值的時間段持續(xù)超過100ms,則該時間段的開始點被設(shè)置為語音期間的開始點。如果另一個短時功率小于或等于閾值的另一個時間段持續(xù)超過500ms,則另一個時間段的開始點被設(shè)置為語音期間的結(jié)束點。單元106調(diào)整輸出合成語音的輸出,以使得輸出合成語音的期間與說話者的語音期間彼此不重疊。例如,當(dāng)單元105確定第一說話者的說話正在繼續(xù)的情況(S卩,只檢測到說話的開始點的情況)時,單元106待機準(zhǔn)備向單元107發(fā)送指示輸出合成英語語音的信號。在第一說話者的說話結(jié)束后(即,單元105檢測到語音期間的結(jié)束點),單元106向單元107發(fā)送信號。
換句話說,單元106向單元107發(fā)送信號,以使得輸出合成英語語音的開始時間(即,輸出開始時間)晚于與第一說話者的語音期間的結(jié)束點對應(yīng)的時間(即,結(jié)束時間)。如果單元105沒有檢測到語音,則單元106向單元107發(fā)送信號而無需待機準(zhǔn)備。單元107根據(jù)單元106的指令向第一說話者輸出合成英語語音。數(shù)字合成語音由單元202或203緩存直到接收到信號。在接收了信號后,單元107執(zhí)行合成語音的D/A轉(zhuǎn)換,單元207輸出模擬合成語音。單元108根據(jù)單元106的指令向第二說話者輸出合成日語語音。單元108的其它功能類似于單元107。單元109從英語源語言句子中檢測第一意圖,并從日語源語言句子中檢測第二意圖。每個翻譯單元的單元301生成英語和日語源語言句子。在該實施例中,源語言句子的意圖根據(jù)圖4所示的意圖檢測規(guī)則檢測。401表示源語言,其是用于檢測的候選者。402表示源語言句子模式。403表示模式匹配時的所檢測的意圖。例如,當(dāng)作為第一說話者的語音的語音識別結(jié)果的英語源語言句子是“How manypeople will be there ”時,英語語言句子與404所表示的模式“How many ”匹配,則英語源語言句子的意圖被檢測為由405表示的“疑問”。在源語言句子與模式之間匹配的方法可通過匹配字符串實現(xiàn)。如果模式402不匹配源語言句子,則句子的意圖是“陳述”。圖4所示的意圖檢測規(guī)則可以由單元202和單元203存儲。另外,規(guī)則可通過單元205獲取。此外,除了 “陳述”、“疑問”作為意圖之外,單元109可以使用“確認(rèn)”、“請求”等作為意圖。另一種檢測意圖的方法可以是使用統(tǒng)計模型的方法,該統(tǒng)計模型通過機器學(xué)習(xí)技術(shù)從源語言句子與意圖之間的關(guān)系中學(xué)習(xí)。單元110根據(jù)單元105的檢測結(jié)果,確定第一語音期間和第二語音期間是否彼此重疊。當(dāng)?shù)谝徽Z音期間和第二語音期間重疊時,單元110根據(jù)單元109所檢測的意圖,選擇第一說話者和第二說話者中的 一個。裝置100通過語音輸出單元優(yōu)先輸出所選擇的說話者的合成語音。在本實施例中,說話者根據(jù)圖5所示的說話者選擇規(guī)則選擇。501表示第一意圖的類型。502表示第二意圖的類型。503表示根據(jù)第一意圖和第二意圖的組合所選擇的說話者。504表不單兀111所輸出的消息,其將在后面描述。505表不消息的輸出目的地。例如,當(dāng)?shù)谝灰鈭D是“陳述”而第二意圖是“疑問”時,第一說話者通過圖5所示的行507選擇。這時,單元111向還未被選擇的第二說話者(日語說話者)輸出消息“少
待6下$ (請稍等)。然后,裝置100將第一說話者的語音翻譯成日語,生成合成日語語音,并通過單元108輸出合成日語語音。在這種情況下,單元110選擇說與“陳述”對應(yīng)的語音的說話者。意圖“陳述”表示不需要來自語音對方的響應(yīng)。因此,裝置100可簡潔地進行說話者的交流。圖5所示的說話者選擇規(guī)則可由單元202或單元203存儲。此外,規(guī)則可由單元205獲取。單元111根據(jù)單元100所選擇的結(jié)果輸出預(yù)定消息。預(yù)定消息可由顯示器208顯示為字符串?;蛘哳A(yù)定消息可以被生成為合成語音,并且合成語音可通過每個語音輸出單元輸出。在輸出合成語音的情況下,合成語音根據(jù)與通過翻譯單元生成的合成語音的語音質(zhì)量不同的其它語音質(zhì)量生成。因此,第一和第二說話者可以確定正輸出的合成語音是裝置100的消息還是翻譯后的語音對方的語音。單元112控制其它單元的過程以及其它單元之間的信息通信。流程6表示裝置100的操作的示例性流程圖。單元101獲取第一說話者的語音。單元102獲取第二說話者的語音(SI)。單元105從第一說話者的語音中檢測第一語音期間,并從第二說話者的語音中檢測第二語音期間(S2)。單元103將第一說話者的語音翻譯成日語,并生成合成日語語音。單元104將第二說話者的語音翻譯成英語,并生成合成英語語音(S3 )。單元105確定第一語音期間和第二語音期間是否彼此重疊(S4)。如果它們不重疊,則操作進行到S5。如果它們重疊,則操作進行到S7。如果單元105在S2沒有檢測到第一語音期間或第二語音期間,則單元105確定它們彼此不重疊。不重疊的情況的處理在S5,單元106調(diào)整輸出合成語音的定時,以使得輸出合成語音的期間和說話者的語音期間彼此不重疊。例如,如果第一說話者的語音在S5在繼續(xù)(即,如果單元105僅檢測到語音期間的開始點),則單元106待機準(zhǔn)備發(fā)送指示輸出第二合成語音的信號,直到第一說話者的語音結(jié)束后(即,單元105檢測到第一語音期間的結(jié)束點)。在第一說話者的語音結(jié)束后(即,單元105檢測到第一語音期間的結(jié)束點),單元106向單元107發(fā)送信號。在S6,單元107或單元108根據(jù)從單元106接收的信號輸出合成語音。重疊情況的處理在S7,單元109從由翻譯單元103和104的每一個的單元301生成的英語和日語
源語言句子中檢測第一意圖和第二意圖。在S8,單元110根據(jù)第一和第二意圖,選擇第一說話者和第二說話者中的一個。在S9,單元111根據(jù)在S8選擇的結(jié)果輸出預(yù)定消息。在S10,單元106調(diào)整輸出在S8選擇的說話者的合成語音的定時。如果在S8選擇第一說話者,則單元106調(diào)整輸出合成日語語音的定時。如果在S8選擇第二說話者,則單元106調(diào)整輸出合成英語語音的定時。定時調(diào)整的具體過程與S5類似。在SI I,單元107或單元108根據(jù)單元106的指令輸出在S8選擇的說話者的合成語音。如果在S8選擇第一說話者,則單元108輸出合成日語語音。如果在S8選擇第二說話者,則單元107輸出合成英語語音。不同語言交流的例子圖7表示第一說話者(英語說話者)和第二說話者(日語說話者)之間的一個實施例的交流的流程。 從中心頂端到中心底部的兩個箭頭線是時間線,其表示第一語音、第二語音、和輸出合成語音的定時。在時間線上的白方塊表不第一說話者所說的第一語音的期間或者輸出由單元103生成的合成日語語音的期間。時間線上的陰影方塊表示第二說話者所說的第二語音的期間或者輸出由單元104生成的合成英語語音的期間。時間線上的黑色方塊表示單元111的輸出消息的期間。從右側(cè)到左側(cè)的箭頭線表示翻譯的方向。例如,表示單元103將語音 701 “Welcome to our restaurant,,翻譯成語音 704 “>7卜9>、1£)二子,,。
語音701 “Welcome to our restaurant,,的情況在圖6的SI,單元101獲取第一說話者所說的語音701。在圖6的S2,單元105檢測語音701的期間。這時,第二說話者沒有說話,并且第二語音期間未被檢測。在圖6的S3,單元103將語音701翻譯成“ 卜二子”并生成合成日語語音。第二語音期間未被檢測。第一語音期間和第二語音期間彼此不重疊。圖6的操作從S4進行到S5。在圖6的S5,單元106調(diào)整輸出合成日語語音的定時。在圖7中,第一說話者的語音701結(jié)束,第二說話者的語音702立刻開始。在圖6的S3,當(dāng)合成日語語音完全生成時,單元105檢測到語音702的開始點。當(dāng)單元105檢測到語音702的結(jié)束點時,單元106向單元108發(fā)送指示輸出合成日語語音704的信號。因此,輸出合成日語語音704的開始時間晚于輸出第二說話者的語音702的結(jié)束時間。這樣,裝置100可以輸出合成語音,以使得合成語音的期間和說話者所說的語音的期間彼此不重疊。因此,裝置100可以防止在說話者說話時輸出合成語音。語音705 “How many people will be there ,,和語音 706 “窓際 O 席(S 予約n主十分?”的情況在圖6的SI至S3,過程翻譯每個語音并生成每個合成語音。在圖6的S4,單元105確定第一和第二語音期間是否彼此重疊。在這種情況下,語音705和語音706重疊,因此,過程S4進行到S7。在圖6的S7,單元109根據(jù)意圖檢測規(guī)則,從每個語音的每個源語言句子中檢測意圖。語音705的源語言句子是“How many people will be there ”。該句子匹配圖4中的模式404。因此,語音705的意圖被檢測為“疑問”。語音706的源語言句子是“窓際O席予約t t々?”。該句子匹 配圖4的模式406。因此,語音706的意圖被檢測為“疑問”。在圖6的S8,單元110根據(jù)在S7檢測到的意圖選擇說話者。在這種情況下,第一和第二意圖都表示“疑問”。通過圖5中的行506,第二說話者被選擇。在圖6的S9,單元11向第一說話者輸出圖5的行506中的消息“Please wait”。在這種情況下,消息被轉(zhuǎn)換成合成英語語音,圖7中的語音707被單元107輸出。在圖6的S10,單元106調(diào)整輸出第二說話者的合成語音的定時,以使得輸出合成語音的輸出期間和第一說話者的語音期間彼此不重疊。在圖6的S11,單元107輸出第二說話者的合成語音(圖7中的語音708)。如上所述,當(dāng)說話者的語音重疊時,裝置100選擇一個說話者并輸出所選擇的說話者的合成語音。因此,裝置100可以防止說話者之間的交流以語音重疊和說話者混亂的狀態(tài)進行。在第一說話者的語音713和第二說話者的語音714的情況下,單元109同樣根據(jù)圖4中的意圖檢測規(guī)則,從每個語音的源語言句子中檢測意圖(圖6的S7)。在這種情況下,語音713的意圖被檢測為“陳述”,而語音714的意圖被檢測為“疑問”。在圖6的S8,單元110根據(jù)圖5中的說話者選擇規(guī)則選擇說“陳述”的語音713的第一說話者。因此,裝置100通過選擇不要求從另一個說話者處接收響應(yīng)的說“陳述”的說話者,可以簡潔且無疑地在說話者之間進行交流。該實施例涉及面對面交流的情況。但它不限于此,因為該實施例可以應(yīng)用于非面對面交流的情況。另一個實施例變化例I圖8示出另一個實施例的語音翻譯裝置。第一終端120包括單元101和單元107。第二終端121包括單元102和單元108。服務(wù)器122包括單元103、單元104、單元105、單元106、單元109、單元110和單元111。終端120和121由圖2所示的硬件構(gòu)建。終端120和121通過圖2中的單元205與服務(wù)器122中的單元112交流信息。因此,終端120和121的結(jié)構(gòu)可通過包括在服務(wù)器122中是高計算成本的單元103和104等緊湊化。上述單元可以被包括在終端120、終端121和服務(wù)器122中的一個中。裝置100包括輸入單元101和102,但不限于此,因為只有一個輸入單元也可以獲取所有說話者的語音。輸出單元107和108輸出合成語音,但并不限于此,因為只有一個輸出單元也可以輸出所有的合成語音。單元105可通過使用在單元301中包括的檢測語音的功能來實現(xiàn)。單元103和104可以僅由一個翻譯單元實現(xiàn)。變化例2圖9示出再一個實施例的語音翻譯裝置。語音翻譯裝置150可包括屬性獲取單元130,其獲取第一和第二說話者的屬性。屬性表示說話者的特性或特征,例如“店員”或“顧客”。單元130通過使用·顯示器208向說話者顯示裝置150的可用屬性。單元130獲取通過圖2中的單元204選擇的屬性作為說話者的屬性。圖7中的情況涉及銷售情形(餐館)的交流。單元130向第一和第二說話者顯示屬性“店員”和“顧客”。通過圖2中的單元204,第一說話者選擇“店員”,第二說話者選擇“顧客”。屬性可以通過預(yù)先注冊的說話者的簡檔來獲取。屬性可通過全球定位系統(tǒng)(GPS)的位置數(shù)據(jù)或者說話者的口音等估計。單元110通過使用由單元130獲取的屬性來選擇說話者。優(yōu)先說話者通過圖10所示的說話者選擇規(guī)則來選擇。1001表示被優(yōu)先選擇的說話者的屬性。該情形假定第一說話者的屬性是“店員”,第二說話者的屬性是“顧客”。語音705和706的意圖是“疑問”。在這種情況下,圖10中所示的說話者選擇規(guī)則1001是“顧客”。單元110優(yōu)先選擇具有屬性“顧客”的第二說話者。因此,單元110可以根據(jù)屬性選擇合適的說話者。單元130可提取說話者的年齡、位置、親密度、性別等作為屬性。在圖7中,單元110可通常優(yōu)先選擇具有屬性“顧客”的第二說話者。變化例3如果語音期間彼此重疊時,則單元110可測量每個語音的重要度,并可優(yōu)先選擇具有更高重要度的說話者。每個語音的重要度可以通過比較源語言句子和有關(guān)句子的重要度的統(tǒng)計模型來計算。統(tǒng)計模型可通過人為對句子添加了重要度的學(xué)習(xí)語料庫預(yù)先學(xué)習(xí)。當(dāng)語音期間重疊時,單元110可以優(yōu)先選擇所說的源語言句子比另一個說話者所說的具有更高重要度的說話者。
選擇說話者的方法可以是通過使用統(tǒng)計模型來比較語音的相對重要度的方法。在這種情況下,統(tǒng)計模型通過人為添加了重要度小和重要度大的成對句子來學(xué)習(xí)。當(dāng)語音期間彼此重疊時,單元110可以優(yōu)先選擇所說的源語言句子比另一個說話者所說的具有更高重要度的說話者。根據(jù)上述的至少一個實施例的語音翻譯裝置,輸出定時調(diào)整單元可防止說話者之間的交流以語音重疊和說話者混亂的狀態(tài)進行。實施例的流程圖表示根據(jù)實施例的方法和系統(tǒng)。應(yīng)當(dāng)理解,所示的流程圖的每個模塊以及流程圖中模塊的組合都可以通過計算機程序指令實現(xiàn)。這些計算機程序指令可以被加載到計算機或其它可編程裝置上以產(chǎn)生一種機器,以使得在計算機或其它可編程裝置上執(zhí)行的指令創(chuàng)建用于實現(xiàn)流程圖的模塊中規(guī)定的功能的裝置。這些計算機程序指令還可以被存儲在非瞬態(tài)計算機可讀存儲器中,其可以指導(dǎo)計算機或其它可編程裝置以特定方式起作用,以使得在非瞬態(tài)計算機可讀存儲器中存儲的指令產(chǎn)生包括實現(xiàn)在流程圖的模塊中規(guī)定的功能的指令裝置的制造產(chǎn)品。計算機程序指令還可以被加載到計算機或其它可編程裝置/設(shè)備上以使一系列的操作步驟/動作在計算機或其它可編程裝置上執(zhí)行,以產(chǎn)生提供用于實現(xiàn)在流程圖模塊中規(guī)定的步驟/動作的計算機可編程裝置/設(shè)備。盡管已經(jīng)描述了某些實施例,但這些實施例僅作為例子提供,并不意味著限制本發(fā)明的范圍。實際上,在此描述的創(chuàng)新性實施例可以體現(xiàn)為各種形式;另外,在不脫離本發(fā)明的精 神的情況下,可以對在此描述的實施例進行各種省略、替換和改變。后附的權(quán)利要求及其等同意在覆蓋這些形式或者修改,其將落入本發(fā)明的范圍和精神中。
權(quán)利要求
1.一種語音翻譯裝置,包括: 處理器; 第一輸入單兀,其被配置為輸入第一說話者的第一語音; 第二輸入單元,其被配置為輸入與所述第一說話者不同的第二說話者的第二語音; 第一翻譯單元,其被配置為將所述第一語音翻譯成第一目標(biāo)語言句子; 第二翻譯單元,其被配置為將所述第二語音翻譯成第二目標(biāo)語言句子; 第一輸出單元,其被配置為輸出所述第一目標(biāo)語言句子; 第二輸出單元,其被配置為輸出所述第二目標(biāo)語言句子; 語音檢測單元,其被配置為從所述第一語音中檢測第一語音期間和從所述第二語音中檢測第二語音期間;以及 輸出定時調(diào)整單元,其被配置為當(dāng)所述第一語音期間和所述第二語音期間彼此重疊時,調(diào)整所述第一輸出單元和所述第二輸出單元中的至少一個。
2.如權(quán)利要求1所述的裝置,其中,在所述第二輸入單元輸入所述第二說話者的另一個第二語音之后,所述第一輸出單元輸出所述第一目標(biāo)語言句子。
3.如權(quán)利要求1所述的裝置,其中,在所述第一輸入單元輸入所述第一說話者的另一個第一語音之后,所述第二輸出單元輸出所述第二目標(biāo)語言句子。
4.如權(quán)利要求1所述的裝置,還包括: 意圖檢測單元,其被配置為從所述第一語音中檢測第一意圖和從所述第二語音中檢測第二意圖;以及 說話者選擇單元,其被配置為當(dāng)所述第一語音期間和所述第二語音期間彼此重疊時,根據(jù)所述第一意圖和所述第二意圖,選擇所述第一說話者或所述第二說話者; 其中,當(dāng)所述說話者選擇單元選擇所述第一說話者時,所述第一輸出單元輸出所述第一目標(biāo)語言句子。
5.如權(quán)利要求1所述的裝置,還包括: 意圖檢測單元,其被配置為從所述第一語音中檢測第一意圖和從所述第二語音中檢測第二意圖;以及 說話者選擇單元,其被配置為當(dāng)所述第一語音期間和所述第二語音期間彼此重疊時,根據(jù)所述第一意圖和所述第二意圖,選擇所述第一說話者或所述第二說話者; 其中,當(dāng)所述說話者選擇單元選擇所述第二說話者時,所述第二輸出單元輸出所述第二目標(biāo)語言句子。
6.如權(quán)利要求1所述的裝置,還包括: 意圖檢測單元,其被配置為從所述第一語音中檢測第一意圖和從所述第二語音中檢測第二意圖;以及 說話者選擇單元,其被配置為當(dāng)所述第一語音期間和所述第二語音期間彼此重疊時,根據(jù)所述第一意圖和所述第二意圖,選擇所述第一說話者或所述第二說話者; 其中,所述意圖檢測單元檢測所述第一意圖和第二意圖中的一個是否是陳述,所述說話者選擇單元選擇與所述第一意圖和所述第二意圖中的一個對應(yīng)的所述第一說話者或所述第二說話者。
7.如權(quán)利要求1所述的裝置,還包括:意圖檢測單元,其被配置為從所述第一語音中檢測第一意圖和從所述第二語音中檢測第二意圖; 說話者選擇單元,其被配置為當(dāng)所述第一語音期間和所述第二語音期間彼此重疊時,根據(jù)所述第一意圖和所述第二意圖,選擇所述第一說話者或所述第二說話者;以及 消息輸出單元,其被配置為根據(jù)由所述說話者選擇單元選擇的所述第一說話者或所述第二說話者,輸出預(yù)定消息。
8.如權(quán)利要求7所述的裝置,其中,所述消息輸出單元通過與所述第一輸出單元和所述第二輸出單元的聲音不同的聲音輸出所述預(yù)定消息。
9.如權(quán)利要求1所述的裝置,還包括: 屬性獲取單元,其被配置為獲取所述第一說話者的第一屬性和所述第二說話者的第二屬性;以及 說話者選擇單元,其被配置為當(dāng)所述第一語音期間和所述第二語音期間彼此重疊時,根據(jù)所述第一屬性和所述第二屬性,選擇所述第一說話者或所述第二說話者; 其中,當(dāng)所述說話者選擇單元選擇所述第一說話者時,所述第一輸出單元輸出所述第一目標(biāo)語言句子。
10.如權(quán)利要求1所述的裝置,還包括: 屬性獲取單元,其被配置為獲取所述第一說話者的第一屬性和所述第二說話者的第二屬性;以及 說話者選擇單元,其被配置為當(dāng)所述第一語音期間和所述第二語音期間彼此重疊時,根據(jù)所述第一屬性和所述第二屬性,選擇所述第一說話者或所述第二說話者; 其中,當(dāng)所述說話者選擇單元選擇所述第二說話者時,所述第一輸出單元輸出所述第二目標(biāo)語言句子。
11.如權(quán)利要求1所述的裝置,還包括: 語音識別單元,其被配置為識別所述第一語音和所述第二語音; 其中,所述第一翻譯單元將所識別的第一語音翻譯成所述第一目標(biāo)語言句子,所述第二翻譯單元將所識別的第二語音翻譯成所述第二目標(biāo)語言句子。
12.如權(quán)利要求1所述的裝置,還包括: 語音合成單元,其被配置為對于所述第一目標(biāo)語言句子和所述第二目標(biāo)語言句子合成語音。
13.一種語音翻譯方法,包括: 輸入第一說話者的第一語音; 輸入與所述第一說話者不同的第二說話者的第二語音; 將所述第一語音翻譯成第一目標(biāo)語言句子; 將所述第二語音翻譯成第二目標(biāo)語言句子; 輸出所述第一目標(biāo)語言句子; 輸出所述第二目標(biāo)語言句子; 從所述第一語音中檢測第一語音期間和從所述第二語音中檢測第二語音期間;以及當(dāng)所述第一語音期間和所述第二語音期間彼此重疊時,調(diào)整輸出所述第一目標(biāo)語言句子和輸出所述第二目標(biāo)語言句子中的至少一個。
全文摘要
根據(jù)一個實施例,語音翻譯裝置包括第一輸入單元(101),其被配置為輸入第一說話者的第一語音;第二輸入單元(102),其被配置為輸入與第一說話者不同的第二說話者的第二語音;第一翻譯單元(103),其被配置為將第一語音翻譯成第一目標(biāo)語言句子;第二翻譯單元(104),其被配置為將第二語音翻譯成第二目標(biāo)語言句子;第一輸出單元(107),其被配置為輸出第一目標(biāo)語言句子;第二輸出單元(108),其被配置為輸出第二目標(biāo)語言句子;語音檢測單元(105),其被配置為從第一語音中檢測第一語音期間和從第二語音中檢測第二語音期間;以及輸出定時調(diào)整單元(106),其被配置為當(dāng)?shù)谝徽Z音期間和第二語音期間彼此重疊時,調(diào)整第一輸出單元和第二輸出單元中的至少一個。
文檔編號G06F17/28GK103246643SQ20131004904
公開日2013年8月14日 申請日期2013年2月7日 優(yōu)先權(quán)日2012年2月10日
發(fā)明者坂本明子, 住田一男, 釜谷聰史 申請人:株式會社 東芝