亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音翻譯裝置和語音翻譯方法

文檔序號:6626902閱讀:229來源:國知局
語音翻譯裝置和語音翻譯方法
【專利摘要】第一語音處理設(shè)備包含:第一語音輸入單元以及第一語音輸出單元。第二語音處理設(shè)備包含:第二語音輸入單元以及第二語音輸出單元。在第一語音處理設(shè)備和第二語音處理設(shè)備之間的服務(wù)器中,識別從第一語音輸入單元發(fā)送的第一語言的語音。該翻譯結(jié)果被回譯成第一語言?;刈g結(jié)果的第一語音合成信號被發(fā)送給第一語音輸出單元。翻譯結(jié)果的第二語音合成信號被發(fā)送給第二語音輸出單元。測量第二語音合成信號或第一語音合成信號的持續(xù)時間?;谠摮掷m(xù)時間,通過使第一語音合成信號或第二語音合成信號的開始時間和結(jié)束時間同步,來輸出第一語音合成信號或第二語音合成信號。
【專利說明】語音翻譯裝置和語音翻譯方法

【技術(shù)領(lǐng)域】
[0001]本文中描述的實施例一般涉及語音翻譯裝置和語音翻譯方法。

【背景技術(shù)】
[0002]近年來,隨著文化和經(jīng)濟的全球化,在具有不同的母語的人之間支持交流的語音翻譯裝置是高度期待的。例如,與智能電話結(jié)合操作的語音翻譯應(yīng)用軟件被商業(yè)化。此外,使用了呈現(xiàn)語音翻譯功能的服務(wù)。
[0003]在這些應(yīng)用軟件和服務(wù)中,當用戶以短單元(一個句子或若干句子)向語音翻譯裝置說出第一語音的語音時,通過語音識別功能將這個語音轉(zhuǎn)變成對應(yīng)于該語音的字符串。此外,第一語言(源語言)的這個字符串被翻譯成第二語言(目標語言)的字符串。最后,通過語音合成功能,使用第二語言的語音讀出作為翻譯結(jié)果的這個字符串。這里,要求具有第一語言(源語言)的用戶以短單元說話。在另一方面,要求具有第二語言(目標語言)的用戶確認該短單元中的翻譯結(jié)果,以及聽合成的語音。因此,在使用此類應(yīng)用軟件的會話中,頻繁地出現(xiàn)等待時間。因此,很難進行具有高響應(yīng)性的會話。
[0004]此外,就用戶而言,在沒有限制要求用一個句子說話的情況下,期望會話的內(nèi)容被傳遞給對方。然而,還沒有提供此類功能。
[0005]此外,在語音識別或語音合成中,處理語音(諸如,語音輸入或語音輸出)的物理信號。因此,語音的物理持續(xù)時間成為處理時間的約束。這個約束被認為是經(jīng)由語音翻譯裝置延時會話中的交互的響應(yīng)性的原因。
[0006]圖14示出了用戶的話語(進入語音翻譯裝置)和在完成常規(guī)的語音輸入后,來自語音翻譯裝置的翻譯結(jié)果的語音輸出之間的時間關(guān)系。
[0007]在圖14中,水平軸表示時間轉(zhuǎn)變。當用戶A正在使用第一語言說話(t0?tl)時,這個語音被捕獲(S900)。在完成說話時的定時后,確定并且輸出語音識別結(jié)果(S910)。這個語音識別結(jié)果被輸入和翻譯成對于用戶B能夠理解的第二語言(S920)。這個機器翻譯結(jié)果被輸入以及合成為第二語言的語音(S930)。在當獲得語音合成結(jié)果的定時(t2)處,合成的語音開始被輸出給用戶B,以及輸出機器翻譯的語音(S940)。因此,當用戶A正在說話(t0?tl)時,沒有從語音翻譯裝置將語音輸出給用戶B。在時間t2,用戶B能夠首次聽到翻譯結(jié)果。
[0008]在另一方面,當正在將語音輸出給用戶B(t2?t3)時,沒有從語音翻譯裝置將語音輸出給用戶A。這個操作阻礙了互相位于遠方不能直接聽到各自語音的用戶之間的會話。例如,當用戶B在用戶A正在說話期間說話時,或當用戶A在語音正在被輸出給用戶B的期間說話時,在他們的語音中會出現(xiàn)沖突。
[0009]在另一方面,為了確認是否準確地執(zhí)行了機器翻譯,在JPA(專利公開)PH04-319769中提出了回譯機器翻譯的結(jié)果的語音翻譯系統(tǒng)。在這個參考文獻中,在識別了用戶A的語音輸入(第一語言)后,通過機器翻譯功能將這個識別的結(jié)果翻譯成第二語言。這個機器翻譯結(jié)果被回譯成第一語言,以及用戶A確認這個回譯結(jié)果是正確的還是不正確的。在這個確認后,這個機器翻譯結(jié)果的合成語音被輸出給用戶B。然而,在這個參考文獻中,每個步驟(語音輸入、機器翻譯、回譯、語音合成)是按照順序執(zhí)行的。因此,每當執(zhí)行每個步驟時,會出現(xiàn)等待時間。因此,在用戶之間不能流暢地進行語音對話。


【發(fā)明內(nèi)容】

[0010]實施例提供了在具有不同母語的人之間的語音對話中能夠流暢交流的語音翻譯裝置和語音翻譯方法。
[0011]根據(jù)一個實施例,語音翻譯裝置包含:第一語音處理設(shè)備、第二語音處理設(shè)備以及服務(wù)器。所述第一語音處理設(shè)備包含:第一語音輸入單元以捕獲第一語言的語音,以及第一語音輸出單元以輸出所述第一語言的另一種語音。所述第二語音處理設(shè)備包含:第二語音輸入單元以捕獲第二語言的語音,以及第二語音輸出單元以輸出所述第二語言的另一種語音。所述服務(wù)器執(zhí)行所述第一語音處理設(shè)備和所述第二語音處理設(shè)備之間的語音翻譯。所述服務(wù)器包含:語音識別單元、第一機器翻譯單元、第二機器翻譯單元、第一語音合成單元、第二語音合成單元以及持續(xù)時間測量單元。所述語音識別單元被配置為識別從所述第一語音輸入單元發(fā)送的所述第一語言的所述語音。所述第一機器翻譯單元被配置為將從所述語音識別單元輸出的所述第一語言的語音識別結(jié)果翻譯成所述第二語言。所述第二機器翻譯單元被配置為將從所述第一機器翻譯單元輸出的所述第二語言的翻譯結(jié)果回譯成所述第一語言。所述第一語音合成單元被配置為生成從所述第二機器翻譯單元輸出的回譯結(jié)果的第一語音合成信號,以及將所述第一語音合成信號發(fā)送給所述第一語音輸出單元以輸出所述第一語言的又一種語音。所述第二語音合成單元被配置為生成從所述第一機器翻譯單元輸出的所述翻譯結(jié)果的第二語音合成信號,以及將所述第二語音合成信號發(fā)送給所述第二語音輸出單元以輸出所述第二語言的又一種語音。所述持續(xù)時間測量單元被配置為測量所述第二語音合成信號的持續(xù)時間,或所述第一語音合成信號的持續(xù)時間。基于所述持續(xù)時間,通過使所述第一語言的所述又一種語音的開始時間和結(jié)束時間分別與所述第二語言的所述又一種語音的開始時間和結(jié)束時間同步,來輸出所述第一語言的所述又一種語音以及所述第二語言的所述又一種語音。
[0012]根據(jù)實施例,能夠提供能夠在具有不同母語的人之間的語音對話中流暢交流的語音翻譯裝置和語音翻譯方法。

【專利附圖】

【附圖說明】
[0013]圖1是語音翻譯裝置的硬件組件的一種示例。
[0014]圖2是語音翻譯裝置的硬件組件的另一種示例。
[0015]圖3是根據(jù)第一實施例的語音翻譯裝置的框圖。
[0016]圖4是根據(jù)第一實施例的語音翻譯裝置的處理的流程圖。
[0017]圖5是根據(jù)第一實施例的語音輸入和語音輸出之間的時間關(guān)系。
[0018]圖6是根據(jù)第一實施例的語音輸入和語音輸出之間的時間關(guān)系(具有原始的語言語音的語音輸出)。
[0019]圖7A、7B和圖7C是根據(jù)第二實施例的語音翻譯裝置的第一處理、第二處理以及第三處理的流程圖。
[0020]圖8是根據(jù)第二實施例的語音輸入和語音輸出之間的時間關(guān)系。
[0021]圖9是根據(jù)第三實施例的語音翻譯裝置的框圖。
[0022]圖10是根據(jù)第三實施例的音量調(diào)節(jié)的處理的流程圖。
[0023]圖11是根據(jù)第三實施例的語音輸入和語音輸出之間的時間關(guān)系(具有原始的語言語音的語音輸出)。
[0024]圖12是根據(jù)第四實施例的語音翻譯裝置的框圖。
[0025]圖13是根據(jù)第四實施例的語音輸入和語音輸出之間的時間關(guān)系。
[0026]圖14是根據(jù)常規(guī)技術(shù)的語音翻譯系統(tǒng)的語音輸入和語音輸出之間的時間關(guān)系。

【具體實施方式】
[0027]圖1是根據(jù)各種實施例的語音翻譯裝置的整體組件。用戶終端A(10)是第一語音處理設(shè)備。用戶終端A(10)是便攜式殼體,該便攜式殼體包含:揚聲器111、顯示器112、麥克風113以及語音輸入按鈕114。同樣地,用戶終端B(150)是第二語音處理設(shè)備。用戶終端B (150)是便攜式殼體,該便攜式殼體包含:揚聲器151、顯示器152、麥克風153以及語音輸入按鈕154。揚聲器111和揚聲器151通過語音輸出機器翻譯結(jié)果和回譯結(jié)果。顯示器112和顯示器152顯示語音識別結(jié)果、機器翻譯結(jié)果和回譯結(jié)果。麥克風113和麥克風153捕獲用戶的話語。語音輸入按鈕114和語音輸入按鈕154指示開始捕獲話語。
[0028]用戶終端A(10)和用戶終端B(150)經(jīng)由網(wǎng)絡(luò)200上的語音識別/翻譯服務(wù)器420連接。通過上述組件,提供了通過便攜式電子設(shè)備(諸如智能電話)的語音翻譯系統(tǒng)。
[0029]圖2是根據(jù)各種實施例的語音翻譯裝置的另一個示例。用戶終端A(300)是第一語音處理設(shè)備。用戶終端A(300)是個人計算機,該個人計算機包含:揚聲器311、顯示器312、麥克風313、語音輸入按鈕314以及相機315。同樣地,用戶終端B (350)是第二語音處理設(shè)備。用戶終端B (350)是個人計算機,該個人計算機包含:揚聲器351、顯示器352、麥克風353、語音輸入按鈕354以及相機355。每個設(shè)備的功能與圖1的每個設(shè)備的功能相同。相機315和相機355捕獲以用戶的面部為中心的身體的上半部分的圖像。與圖1的方式相同,用戶終端A(300)和用戶終端B(350)經(jīng)由網(wǎng)絡(luò)200上的語音識別/翻譯服務(wù)器420連接,以及提供了語音翻譯系統(tǒng)。網(wǎng)200可以無線通信或有線通信。這個示例等同于電視會議系統(tǒng)的硬件組件。
[0030](第一實施例)
圖3是根據(jù)第一實施例的語音翻譯裝置的主要組件的框圖。
[0031]在圖3的框圖中,示出了圖1的組件示例。然而,可以應(yīng)用圖2的組件示例。為了使用戶A和用戶B (位于遠方)雙向地交談,用戶終端A(10)包含:第一語音輸入單元401和第一語音輸出單元402。同樣地,用戶終端B(150)包含:第二語音輸入單元411和第二語音輸出單元412。用戶終端A(10)的第一語音輸入單元401相當于圖1的麥克風113,以及第一語音輸出單元402相當于圖1的揚聲器111。用戶終端B(150)的第二語音輸入單元411相當于圖1的麥克風153,以及第二語音輸出單元412相當于圖1的揚聲器151。
[0032]語音識別/翻譯服務(wù)器420(位于兩個終端之間的網(wǎng)絡(luò)上)包含:第一語音識別單元421、第二語音識別單元422、第一機器翻譯單元423、第二機器翻譯單元234、第一語音合成單元425、第二語音合成單元426、持續(xù)時間測量單元430和控制單元440。
[0033]第一語音識別單元421接收和捕獲從用戶終端A(10)的第一語音輸入單元401發(fā)送的第一語言(例如,日語)的語音。第二語音識別單元422接收和捕獲從用戶終端B(150)的第二語音輸入單元411發(fā)送的第二語言(例如,英語)的語音。通過參考翻譯詞典(未在圖中示出),第一機器翻譯單元423將第一語言的語音識別結(jié)果(由第一語音識別單元421識別)翻譯成第二語言,以及將翻譯結(jié)果輸出給第二語音合成單元426。此外,為了回譯,第一機器翻譯單元423將第二語言的翻譯結(jié)果輸出給第二機器翻譯單元424。通過參考翻譯詞典(未在圖中示出),第二機器翻譯單元424將第二語言的語音識別結(jié)果(由第二語音識別單元422識別)翻譯成第一語言,以及將翻譯結(jié)果輸出給第一語音合成單元
425。此外,為了回譯,第二機器翻譯單元424將第二語言的翻譯結(jié)果輸出給第一機器翻譯單元423。
[0034]第一語音合成單元425生成翻譯結(jié)果或從第二機器翻譯單元424輸入的回譯結(jié)果的語音合成信號(第一語言),以及將語音合成信號輸出給用戶終端A(10)的第一語音輸出設(shè)備402。第二語音合成單元426生成翻譯結(jié)果或從第一機器翻譯單元423輸入的回譯結(jié)果的語音合成信號(第二語言),以及將語音合成信號輸出給用戶終端B(150)的第二語音輸出設(shè)備412。持續(xù)時間測量單元430測量第一語言(從第一語音合成單元425輸出)的語音合成信號的持續(xù)時間或第二語言(從第二語音合成單兀426輸出)的語音合成信號的持續(xù)時間??刂茊卧?40控制這些所有單元的操作定時。此外,在語音翻譯裝置中,用戶終端A (100)、用戶終端B (150)以及語音識別/翻譯服務(wù)器420分別裝備有用于網(wǎng)絡(luò)通信的通信設(shè)備(未在圖中示出)。
[0035]接著,將說明在圖3中示出的語音翻譯裝置的操作。
[0036]在圖3中,當用戶A經(jīng)由用戶終端A(10)使用第一語言(例如,日語)說話時,第一語音輸入單元401捕獲由用戶A說出的語音。所捕獲的語音被發(fā)送給網(wǎng)絡(luò)上的語音識別/翻譯服務(wù)器420。在以下說明中,為了簡化,將省略用戶終端A(10)和語音識別/翻譯服務(wù)器420之間的通信的說明,以及用戶終端B(150)和語音識別/翻譯服務(wù)器420之間的通信的說明。
[0037]在語音識別/翻譯服務(wù)器420中,第一語音識別單元421輸入第一語言的語音(通過第一語音輸入單元401捕獲),以及識別該語音。這個語音識別結(jié)果(第一語言)被輸入給第一機器翻譯單元423。第一機器翻譯單元423輸入該語音識別結(jié)果,以及執(zhí)行從第一語言到第二語言(例如,英語)的機器翻譯,以及將這個翻譯結(jié)果輸出給第二語音合成單元
426。此外,為了回譯,第一機器翻譯單元423將翻譯結(jié)果(第二語言)輸出給第二機器翻譯單元424。第二機器翻譯單元424將翻譯結(jié)果(第二語言)回譯成原始的語言(第一語言),以及將這個回譯結(jié)果輸出給第一語音合成單元425。
[0038]因此,通過輸入從第一機器翻譯單元423輸出的翻譯結(jié)果,第二語音合成單元426生成用戶B能夠聽得見的語音合成信號(第二語言)。從用戶終端B (150)的第二語音輸出單元412輸出第二語言的這個語音。同樣地,通過輸入從第二機器翻譯單元424輸出的翻譯結(jié)果,第一語音合成單元425生成用戶A能夠聽得見的語音合成信號(第一語言)。從用戶終端A(10)的第一語音輸出單兀402輸出第一語言的這個語音。
[0039]在正在操作語音輸出時,持續(xù)時間測量單元430測量從第二語音合成單元426輸出的第二語言的語音合成信號(即,翻譯結(jié)果的語音信號)的持續(xù)時間。然后,當?shù)谝徽Z音合成單元425基于測量結(jié)果,生成用戶A能夠聽得見的第一語言的語音合成信號(即,回譯結(jié)果的語音信號)時,第一語音合成單元425生成第一語言的語音合成信號,使得它的持續(xù)時間等于第二語言的語音合成信號的持續(xù)時間。
[0040]因此,使用相同的持續(xù)時間來輸出從用戶終端B(150)的第二語音輸出單元412輸出的翻譯結(jié)果(第二語言)的語音,以及從用戶終端A(10)的第一語音輸出單元402輸出的回譯結(jié)果(第一語言)的語音。
[0041]在以上說明中,持續(xù)時間測量單元430測量從第二語音合成單元426輸出的語音合成信號(第二語言)的持續(xù)時間。然而,通過測量從第一語音合成單元425輸出的回譯結(jié)果的語音合成信號(第一語言)的持續(xù)時間,語音合成信號(第二語言)的持續(xù)時間可以被調(diào)節(jié)為等于語音合成信號(第一語言)的持續(xù)時間。此外,通過測量語音合成信號(第二語言)和語音合成信號(第一語言)兩者的持續(xù)時間,可以調(diào)節(jié)這些語音合成信號。簡言之,如果語音合成信號(第二語言)的持續(xù)時間用作標準,則第一語音合成單元425將語音合成信號(第一語言)的持續(xù)時間調(diào)節(jié)為等于語音合成信號(第二語言)的持續(xù)時間。在另一方面,如果語音合成信號(第一語言)的持續(xù)時間用作標準,則第二語音合成單元426將語音合成信號(第二語言)的持續(xù)時間調(diào)節(jié)為等于語音合成信號(第一語言)的持續(xù)時間。
[0042]同樣地,在圖3中,當用戶B經(jīng)由用戶終端B(150)使用第二語言(例如,英語)說話時,第二語音輸入單元411捕獲由用戶B說出的語音。在語音識別/翻譯服務(wù)器420中,第二語音識別單元422輸入第二語言的語音(通過第二語音輸入單元411捕獲),以及識別該語音。這個語音識別結(jié)果(第二語言)被輸入給第二機器翻譯單元424。第二機器翻譯單元424輸入該語音識別結(jié)果,以及執(zhí)行從第二語言到第一語言(例如,日語)的機器翻譯,以及將這個翻譯結(jié)果輸出給第一語音合成單元425。此外,為了回譯,第二機器翻譯單元424將翻譯結(jié)果(第一語言)輸出給第一機器翻譯單元423。第一機器翻譯單元423將翻譯結(jié)果(第一語言)回譯成第二語言,以及將這個回譯結(jié)果輸出給第二語音合成單元426。
[0043]因此,通過輸入從第二機器翻譯單元424輸出的翻譯結(jié)果,第一語音合成單元425生成用戶A能夠聽得見的語音合成信號(第一語言)。從用戶終端A(10)的第一語音輸出單元402輸出第一語言的這個語音。同樣地,通過輸入從第一機器翻譯單元423輸出的翻譯結(jié)果,第二語音合成單元426生成用戶B能夠聽得見的語音合成信號(第二語言)。從用戶終端B (150)的第二語音輸出單元412輸出第二語言的這個語音。
[0044]在正在操作語音輸出時,持續(xù)時間測量單元430測量從第一語音合成單元425輸出的第一語言的語音合成信號(即,翻譯結(jié)果的語音信號)的持續(xù)時間。然后,當?shù)诙Z音合成單元426基于測量結(jié)果,生成用戶B能夠聽得見的第二語言的語音合成信號(即,回譯結(jié)果的語音信號)時,第二語音合成單元426生成第二語言的語音合成信號,使得它的持續(xù)時間等于第一語言的語音合成信號的持續(xù)時間。
[0045]因此,使用相同的持續(xù)時間來輸出從用戶終端A(10)的第一語音輸出單元402輸出的翻譯結(jié)果(第一語言)的語音,以及從用戶終端B (150)的第二語音輸出單元412輸出的回譯結(jié)果(第二語言)的語音。
[0046]圖4是圖3中示出的語音翻譯裝置的處理的流程圖。為簡化說明,在圖4中,捕獲用戶A的第一語言(例如,日語)的語音,以及這個語音被翻譯成用戶B的第二語言(例如,英語)。在處理用戶B的話語的情況下,能夠應(yīng)用相同的流程圖。
[0047]在圖4中,在S510,等待按下用戶終端A(10)的語音輸入按鈕114的操作(事件)。當按下語音輸入按鈕114時,將這個事件通知給S520。第一語音輸入設(shè)備401和第一語音識別單元421被激活。在S520,第一語音識別單元421識別從第一語音輸入設(shè)備401(麥克風113)捕獲的用戶A的話語。例如,通過檢測這個語音的靜音時間間隔(在預(yù)定的周期(Tl)中,具有小功率的語音信號的一段時間持續(xù)),第一語音識別設(shè)備421確定語音識別結(jié)果。
[0048]在S530,由第一語音識別單元421確定的語音識別結(jié)果被輸入給第一機器翻譯單元423。第一機器翻譯單元423將該語音識別結(jié)果從用戶A的第一語言(例如,日語)翻譯成用戶B的第二語言(例如,英語)。在S540,通過第一機器翻譯單元423的第二語言(例如,英語)的翻譯結(jié)果被輸入給第二語音合成單元426。因此,第二語音合成單元426合成翻譯結(jié)果(通過第一機器翻譯單元423)的語音,該語音將被輸出為第二語言。
[0049]接著,在S550,通過第一機器翻譯單元423的翻譯結(jié)果被輸入給第二機器翻譯設(shè)備424。第二機器翻譯設(shè)備424將通過第一機器翻譯單元423的第二語言(例如,英語)的翻譯結(jié)果回譯成第一語言(例如,日語)。通過第二機器翻譯單元424的第一語言(例如,日語)的回譯結(jié)果被輸入給第一語音合成單元425。
[0050]在560,持續(xù)時間測量單元430測量在S540處獲取的語音合成信號(第二語言)的持續(xù)時間。然后,第一語言合成單元425生成在S550處獲取的回譯結(jié)果(第一語言)的語音合成信號,使得它的持續(xù)時間等于由持續(xù)時間測量單元430測量的持續(xù)時間。最后,在S570,第二語音輸出單元412輸出在S540處獲取的翻譯結(jié)果(第二語言)的語音合成信號,以及第一語音輸出單兀402輸出在S560處獲取的回譯結(jié)果(第一語言)的語音合成信號。簡言之,從第二語音輸出單元412輸出的第二語言的表達的持續(xù)時間等于從第一語音輸出單元402輸出的第一語言的表達的持續(xù)時間。當完成S570的處理時,處理返回到S510,以及等待下一個事件。
[0051]圖5示出了根據(jù)第一實施例的關(guān)于用戶A的話語(第一語言),從第二語音輸出單元412輸出的翻譯結(jié)果(第二語言)的語音與從第一語音輸出單元402輸出的回譯結(jié)果(第一語言)的語音之間的時間關(guān)系。
[0052]第一語音輸入單元401捕獲用戶A的話語“H0NJITSUWA ΝΙΗ0ΝΚΕΙΖΑΙΝ0GENJYOUNITSUITE OHANASHISHIMASU”(日語)。同時,第一語音識別單元421識別這個話語。在此之后,通過圖4中的S530?S560的處理,作為通過第一語音識別單元421獲取的語音識別結(jié)果的機器翻譯結(jié)果,生成語音合成信號“I’d like to talk about the currentsituat1n of Japan economy today”(英語)。此外,作為翻譯結(jié)果的回譯結(jié)果,生成語音合成信號 “KY0U ΝΙΗ0ΝΚΕΙΖΑΙΝ0 GENJYOUNITSUITE HANASHITAI”(日語)。以相同的持續(xù)時間生成這兩個語音合成信號。
[0053]因此,同步地輸出從用戶終端B的第二語音輸出單元412 (揚聲器151)輸出的翻譯結(jié)果的語音,從用戶終端A的第一語音輸出單元402(揚聲器111)輸出的回譯結(jié)果的語音。簡言之,同時輸出每個合成的語音。在圖5中,分別匹配翻譯結(jié)果的語音和回譯結(jié)果的語音的輸出開始時間t2和輸出結(jié)束時間t3。
[0054]此外,如在圖6中示出的,當?shù)谝徽Z音輸入單元401正在捕獲用戶A的語音(日語)時,第二語音輸出單元412可以輸出用戶A的語音(日語)。因此,用戶B能夠確認用戶A正在說話。
[0055](第二實施例)
在第一實施例中,由第一語音識別單元421、第二語音識別單元422、第一機器翻譯單元423、第二機器翻譯單元424、第一語音合成單元425和第二語音合成單元426按照順序來執(zhí)行處理。然而,在第二實施例中,通過并行地操作這些單元,能夠異步地執(zhí)行處理。在以下說明中,參照圖1和圖3的硬件組件。
[0056]圖7A?7C是第二實施例的操作的流程圖。簡言之,在并行地操作第一語音識別單元421、第二語音識別單元422、第一機器翻譯單元423、第二機器翻譯單元424、第一語音合成單元425和第二語音合成單元426的情況下,圖7A?7C是流程圖。
[0057]首先,通過按下用戶終端A(10)的語音輸入按鈕(114),開始圖7A的流程圖的處理。簡言之,在S610,等待檢測到按下語音輸入按鈕114的事件的出現(xiàn)(啟動操作)。然后,當按下語音輸入按鈕114時,處理轉(zhuǎn)到S611。在S611,檢查第一語音輸入單元401是否正在操作。如果沒有正在操作,則在S613,激活第一語音輸入單元401和第一語音識別單元421。如果在S611,第一語音輸入單元401正在操作,則通過語音輸入按鈕114的關(guān)閉操作,在S615,停止第一語音輸入單兀401和第一語音識別單兀421。
[0058]因此,通過語音輸入按鈕114的操作,控制來自用戶終端A(10)的語音輸入的啟動/關(guān)閉。第一語音識別單元421識別由第一語音輸入單元401順序捕獲的語音。然后,當檢測到語音的靜音時間間隔時,第一語音識別單元421確定已經(jīng)輸入的語音的識別結(jié)果,以及將識別結(jié)果輸出給第一機器翻譯單元423。
[0059]圖7B是第一機器翻譯單元423的操作的流程圖。在S630,第一機器翻譯單元423等待輸入來自第一語音識別單元421的語音識別結(jié)果的事件的出現(xiàn)。然后,當從第一語音識別單元421接收到語音識別結(jié)果時,在S631,第一機器翻譯單元423調(diào)用翻譯/合成處理,以及在S630等待下一個事件。
[0060]圖7C是執(zhí)行在S631處調(diào)用的翻譯/合成處理的流程圖。首先,在S650,第一語音識別單元423的語音識別結(jié)果被輸入給第一機器翻譯單元423,以及從第一機器翻譯單元423獲得將語音識別結(jié)果翻譯成用戶B的第二語言的翻譯結(jié)果。此外,在S651,該翻譯結(jié)果(在S650處獲得)被輸入給第二語音合成單元426,以及從第二語音合成單元426獲得第二語言的語音合成信號。此外,在S652,翻譯結(jié)果(在S650處獲得)被輸入給第二機器翻譯單元424,以及從第二機器翻譯單元424獲得回譯結(jié)果。
[0061]接著,在S653,持續(xù)時間測量單元430測量從第二語音合成單元426輸出的語音合成信號的持續(xù)時間。第一語音合成單元425生成從第二機器翻譯單元424輸出的回譯結(jié)果的語音合成信號,使得它的持續(xù)時間等于由持續(xù)時間測量單元430測量的持續(xù)時間。然后,在S654,確定第一語音輸出單元402是否正在輸出語音。如果沒有正在輸出語音,則在S655,第二語音輸出單兀412輸出翻譯結(jié)果的語音。同時,第一語音輸出單兀402輸出回譯結(jié)果的語音。
[0062]圖8示出了基于圖7A?7C的流程圖,在來自用戶終端A(10)的語音、來自第二語音輸出單元412的翻譯結(jié)果的語音輸出以及來自第一輸出單元402的回譯結(jié)果的語音輸出之間的時間關(guān)系。
[0063]在圖8中,從用戶終端A(10)的第一語音輸入單元401輸入用戶A的語音“H0NJITSUWA ΝΙΗ0ΝΚΕΙΖΑΙΝ0 GENJYOUNITSUITE OHANASHISHIMASU”(日語)。假設(shè)在“H0NJITSUWA”的結(jié)束時間tl后,存在(t2-tl)的靜音時間間隔。這里,通過檢測靜音時間間隔,第一語音識別單元421確定能夠輸出語音識別結(jié)果(已經(jīng)獲得的),以及向S610發(fā)送事件。在S610,接收該事件,以及調(diào)用翻譯/合成處理。
[0064]在S650?S656,關(guān)于對應(yīng)于“H0NJITSUWA”的語音識別結(jié)果,生成“Today” (英語)的語音合成信號作為翻譯結(jié)果,以及“KY0U”(日語)的語音合成信號作為回譯結(jié)果。然后,在S655,這些語音合成信號被輸出為語音(輸出開始時間t2?輸出結(jié)束時間t3)。
[0065]同樣地,剛好在從用戶終端A(10)輸入跟在“H0NJITSUWA”后的語音“ΝΙΗ0ΝΚΕΙΖΑΙΝ0 GENJYOUNITSUITE OHANASHISHIMASU”(日語)之后,檢測到靜音時間間隔。關(guān)于番羽譯結(jié)果“I’d like to talk about the current situat1n of Japan economy,,(英語)和回譯結(jié)果 “ΝΙΗ0ΝΚΕΙΖΑΙΝ0 GENJYOUNITSUITE HANASHITAI” (日語),在圖 8 中的相同時間(輸出開始時間t5?輸出結(jié)束時間t6)輸出它們的語音合成信號。
[0066](第三實施例)
圖9是根據(jù)第三實施例的語音翻譯裝置的框圖。在第三實施例中,與第一實施例相比,區(qū)別在于裝備了音量調(diào)節(jié)單元700。音量調(diào)節(jié)單元700能夠調(diào)節(jié)從第一語音輸出單元402和第二語音輸出單元412輸出的語音的音量。
[0067]圖10是通過音量調(diào)節(jié)單元700的控制處理的流程圖。為了簡化說明,在圖10中,僅示出調(diào)節(jié)第一語音輸出單元402的音量的流程圖。通過相同的流程圖,能夠調(diào)節(jié)第二語音輸出單元412的音量。
[0068]首先,在S710,音量調(diào)節(jié)單元700確認第一語音輸入單元401是否正在操作。如果第一語音輸入單元700正在操作,則在S720,音量調(diào)節(jié)單元700測量第一語音輸入單元401的音量。接著,在S730,音量調(diào)節(jié)單元700確定該音量是否高于預(yù)定閾值“th”。如果該音量高于閾值“th”,則在S740,音量調(diào)節(jié)單元700將語音的音量(從第一語音輸出單元402輸出的)降低到標準之下。在另一方面,如果該音量不高于閾值“th”,則在S750,音量調(diào)節(jié)單元700將語音的音量(從第一語音輸出單元402輸出的)設(shè)置到標準。然后,在音量調(diào)節(jié)單元700在時間W(在S760處先前確定的)中停頓后,在S710,音量調(diào)節(jié)單元700重復用于下一個翻譯的語音處理。
[0069]通過控制音量調(diào)節(jié)單元700,能夠使用便于用戶A和用戶B聽的音量來輸出語音。特別地,當?shù)谝徽Z音輸入單元401正在捕獲語音時,如果該語音具有特定的音量(大),則確定用戶A正在說話,以及將第一語音輸出單元401的音量降低到標準以下。在另一方面,如果語音(由第一語音輸入單元401捕獲的)不具有特定的音量(小)或靜音,則確定用戶A沒有正在說話,以及將第一語音輸出單元401的音量設(shè)置為標準。
[0070]此外,在通過音量調(diào)節(jié)單元700的音量調(diào)節(jié)中,在翻譯用戶A的語音后,當通過語音輸出回譯結(jié)果以反饋給用戶A時,如果用戶A還沒有完成說話,則降低音量。
[0071]簡言之,在圖11的時間t2和時間t3之間的時間段中,第一語音輸入單元401捕獲用戶A的語音。因此,當從第一語音輸出裝置402輸出回譯結(jié)果“KY0U”時,音量調(diào)節(jié)單元700將該語音的音量降低到標準之下。在另一方面,如果用戶A沒有正在說話(即,靜音狀態(tài)),則音量調(diào)節(jié)單元700將該音量設(shè)置到標準。在圖11中,在圖11的時間t5和時間t6之間的時間段中,第一語音輸入單元401沒有輸入語音。因此,音量調(diào)節(jié)單元700將回譯結(jié)果 “NIHONKEIZAINO GENJYOUNITSUITE HANASHITAI”(來自第一語音輸出單元 402)的合成語音的音量設(shè)置為標準。
[0072]在用戶A說話期間,如果使用大音量輸出回譯結(jié)果以反饋給用戶A,則使用戶A混淆。然而,如上所述,在說話期間,通過使用小音量來輸出回譯結(jié)果以進行反饋,能夠避免混淆。此外,能夠?qū)崿F(xiàn)回譯結(jié)果的反饋輸出、語音的連續(xù)輸入、至對方的語音輸出和回譯結(jié)果的語音輸出之間的同步。
[0073](第四實施例)
圖12是根據(jù)第四實施例的語音翻譯裝置的框圖。在第四實施例中,基于語音翻譯結(jié)果的可靠性,使翻譯結(jié)果的語音輸出和回譯結(jié)果的語音輸出延時。與第一實施例相比,裝備了延時調(diào)節(jié)單元800。
[0074]延時調(diào)節(jié)單元800基于來自第一機器翻譯單元423和第二機器翻譯單元424的語音翻譯結(jié)果的可靠性,使語音輸出延時。簡言之,如果可靠性低,則控制第一語音輸出單元402,使得回譯結(jié)果的語音輸出的開始時間被設(shè)置在用戶A的語音完成之后。
[0075]圖13示出了根據(jù)第四實施例的語音輸入和語音輸出之間的時間關(guān)系。這里,基于通過第一機器翻譯單元423的翻譯結(jié)果以及通過第二機器翻譯單元424的回譯結(jié)果,設(shè)置延時時間以輸出來自第一語音輸出單兀402的語音。
[0076]在第二實施例中,如上所述,從圖8中的時間t2,經(jīng)由第一語音輸出單元402輸出回譯結(jié)果的語音。在另一方面,在第四實施例中,當在語音“H0NJITSUWA”之后的靜音時間間隔短時,如果延時調(diào)節(jié)單元800確定通過第一翻譯單元423的翻譯結(jié)果的可靠性低,則延時調(diào)節(jié)單元800在時間t2和時間t5之間的時間段中禁止來自第一語音輸出單元402的語音輸出,以及控制第一語音輸出單兀402在時間t5之后輸出語音。此外,來自第二語音輸出單元412的翻譯結(jié)果的語音輸出可以與第一語音輸出單元402的輸出同步被延時到時間t50
[0077]簡言之,在語音完成后,用戶A在時間t5開始聽到回譯結(jié)果。因此,用戶A識別到通過第一機器翻譯單元423或通過第二機器翻譯單元424的翻譯結(jié)果的可靠性低,以及用戶A能夠在以下的話音中清晰地講話。因此,能夠流暢地執(zhí)行經(jīng)由語音翻譯裝置的兩個用戶之間的會話。
[0078]如上所述,根據(jù)第一實施例?第四實施例的語音翻譯裝置,當用戶A的語音的翻譯結(jié)果的合成語音被生成以及輸出給用戶B時,生成翻譯結(jié)果的回譯結(jié)果的合成語音,使得回譯結(jié)果的合成語音的持續(xù)時間等于翻譯結(jié)果的合成語音的持續(xù)時間。因此,與至用戶B的語音(翻譯結(jié)果)的輸出同步,能夠?qū)⒄Z音(回譯結(jié)果)輸出給用戶A。因此,能夠避免用戶A和用戶B之間的語音的沖突。此外,用戶A能夠同時確認針對用戶B而言是否正確地翻譯了用戶A的話音的內(nèi)容。
[0079]在所公開的實施例中,能夠由存儲在計算機可讀介質(zhì)中的計算機程序來執(zhí)行處理。
[0080]在實施例中,計算機可讀介質(zhì)可以是例如磁盤、軟盤、硬盤、光盤(例如,⑶-R0M,CD-R、DVD)、光磁盤(例如,MD)。然而,可以使用任何計算機可讀介質(zhì),該計算機可讀介質(zhì)被配置為存儲用于使得計算機執(zhí)行上述處理的計算機程序。
[0081]此外,基于從存儲設(shè)備安裝到計算機的程序的指示,在計算機上操作的OS(操作系統(tǒng))或麗(中間件軟件),諸如數(shù)據(jù)庫管理軟件或網(wǎng)絡(luò),可以執(zhí)行每個處理的一部分以實現(xiàn)實施例。
[0082]此外,存儲設(shè)備不限制于獨立于計算機的設(shè)備。通過下載通過LAN或互聯(lián)網(wǎng)傳送的程序,包含存儲程序的存儲設(shè)備。此外,存儲設(shè)備不限制于一個存儲設(shè)備。在由多個存儲設(shè)備來執(zhí)行實施例的處理的情況下,多個存儲設(shè)備被包含在存儲設(shè)備中。
[0083]計算機可以根據(jù)存儲在存儲設(shè)備中的程序來執(zhí)行實施例的每個處理階段。計算機可以是諸如個人計算機或通過網(wǎng)絡(luò)將多個處理裝置連接的系統(tǒng)的一種裝置。此外,計算機不限制于個人計算機。本領(lǐng)域的技術(shù)人員將了解的是,計算機包含信息處理器中的處理單元、微計算機等。簡言之,能夠使用程序來執(zhí)行實施例中的功能的設(shè)備和裝置一般被稱為計算機。
[0084]雖然已經(jīng)描述了某些實施例,但是這些實施例僅是通過示例來呈現(xiàn)的,已經(jīng)不旨在限制本發(fā)明的范圍。實際上,可以在各種其它形式中來具體化本文中描述的新穎實施例;此外,在不背離本發(fā)明的精神的情況下,可以在本文中描述的實施例的形式上做出各種刪減、替換和改變。當將落入本發(fā)明的范圍和精神內(nèi)時,所附權(quán)利要求書和它們的等同旨在覆蓋此類形式或修改。
【權(quán)利要求】
1.一種用于翻譯語音的裝置,所述裝置包括: 第一語音處理設(shè)備,所述第一語音處理設(shè)備包含:第一語音輸入單兀以捕獲第一語言的語音,以及第一語音輸出單元以輸出所述第一語言的另一種語音; 第二語音處理設(shè)備,所述第二語音處理設(shè)備包含:第二語音輸入單元以捕獲第二語言的語音,以及第二語音輸出單元以輸出所述第二語言的另一種語音;以及 服務(wù)器,所述服務(wù)器執(zhí)行所述第一語音處理設(shè)備和所述第二語音處理設(shè)備之間的語音翻譯; 所述服務(wù)器包括: 語音識別單元,所述語音識別單元被配置為識別從所述第一語音輸入單元發(fā)送的所述第一語言的所述語音; 第一機器翻譯單元,所述第一機器翻譯單元被配置為將從所述語音識別單元輸出的所述第一語言的語音識別結(jié)果翻譯成所述第二語言; 第二機器翻譯單元,所述第二機器翻譯單元被配置為將從所述第一機器翻譯單元輸出的所述第二語言的翻譯結(jié)果回譯成所述第一語言; 第一語音合成單元,所述第一語音合成單元被配置為生成從所述第二機器翻譯單元輸出的回譯結(jié)果的第一語音合成信號,以及將所述第一語音合成信號發(fā)送給所述第一語音輸出單元以輸出所述第一語言的又一種語音; 第二語音合成單元,所述第二語音合成單元被配置為生成從所述第一機器翻譯單元輸出的所述翻譯結(jié)果的第二語音合成信號,以及將所述第二語音合成信號發(fā)送給所述第二語音輸出單元以輸出所述第二語言的又一種語音;以及 持續(xù)時間測量單元,所述持續(xù)時間測量單元被配置為測量所述第二語音合成信號的持續(xù)時間,或所述第一語音合成信號的持續(xù)時間; 其中基于所述持續(xù)時間,通過使所述第一語言的所述又一種語音的開始時間和結(jié)束時間分別與所述第二語言的所述又一種語音的開始時間和結(jié)束時間同步,來輸出所述第一語言的所述又一種語音以及所述第二語言的所述又一種語音。
2.根據(jù)權(quán)利要求1所述的裝置,其中, 如果所述第二語音合成信號的所述持續(xù)時間用作標準, 則所述第一語音合成單元將所述第一語音合成信號的持續(xù)時間設(shè)置為所述第二合成信號的所述持續(xù)時間。
3.根據(jù)權(quán)利要求1所述的裝置,其中 如果所述第一語音合成信號的所述持續(xù)時間用作標準, 則所述第二語音合成單元將所述第二語音合成信號的持續(xù)時間設(shè)置為所述第一合成信號的所述持續(xù)時間。
4.根據(jù)權(quán)利要求1所述的裝置,其中 異步地操作所述語音識別單元、所述第一機器翻譯單元、所述第二機器翻譯單元、所述第一語音合成單元、所述第二語音合成單元以及所述持續(xù)時間測量單元。
5.根據(jù)權(quán)利要求1所述的裝置,還包括: 音量調(diào)節(jié)單元,所述音量調(diào)節(jié)單元被配置為, 如果輸入到所述第一語音輸入單元的語音的音量大于預(yù)定閾值,則降低從所述第一語音輸出單元輸出的所述第一語言的所述又一種語音的音量,以及, 如果輸入到所述第一語音輸入單元的所述語音的所述音量不大于所述預(yù)定閾值,則將所述第一語言的所述又一種語音的所述音量設(shè)置為正常水平。
6.根據(jù)權(quán)利要求1所述的裝置,還包括: 延時調(diào)節(jié)單元,所述延時調(diào)節(jié)單元被配置為基于所述語音識別結(jié)果的可靠性、所述翻譯結(jié)果的可靠性以及所述回譯結(jié)果的可靠性中的至少一個的可靠性,延時從所述第一語音輸出單元輸出的所述第一語言的所述又一種語音的所述開始時間。
7.—種在語音翻譯系統(tǒng)的服務(wù)器中用于翻譯語音的方法,所述語音翻譯系統(tǒng)包括: 第一語音處理設(shè)備,所述第一語音處理設(shè)備包含:第一語音輸入單兀以捕獲第一語言的語音,以及第一語音輸出單元以輸出所述第一語言的另一種語音; 第二語音處理設(shè)備,所述第二語音處理設(shè)備包含:第二語音輸入單元以捕獲第二語言的語音,以及第二語音輸出單元以輸出所述第二語言的另一種語音;以及 所述服務(wù)器,所述服務(wù)器執(zhí)行所述第一語音處理設(shè)備和所述第二語音處理設(shè)備之間的語音翻譯; 所述方法包括: 識別從所述第一語音輸入單元發(fā)送的所述第一語言的所述語音; 將通過所述識別的所述第一語言的語音識別結(jié)果翻譯成所述第二語言; 將通過所述翻譯的所述第二語言的翻譯結(jié)果回譯成所述第一語言; 生成通過所述回譯的回譯結(jié)果的第一語音合成信號; 將所述第一語音合成信號發(fā)送給所述第一語音輸出單元以輸出所述第一語言的又一種語音; 生成所述翻譯結(jié)果的第二語音合成信號; 將所述第二語音合成信號發(fā)送給所述第二語音輸出單元以輸出所述第二語言的又一種語音; 測量所述第二語音合成信號的持續(xù)時間,或所述第一語音合成信號的持續(xù)時間;以及基于所述持續(xù)時間,通過使所述第一語言的所述又一種語音的開始時間和結(jié)束時間分別與所述第二語言的所述又一種語音的開始時間和結(jié)束時間同步,來輸出所述第一語言的所述又一種語音以及所述第二語言的所述又一種語音。
【文檔編號】G06F17/28GK104462069SQ201410468336
【公開日】2015年3月25日 申請日期:2014年9月15日 優(yōu)先權(quán)日:2013年9月18日
【發(fā)明者】住田一男, 河村聰?shù)? 釜谷聰史 申請人:株式會社東芝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1