專利名稱:一種通話即時翻譯系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及即時翻譯領(lǐng)域,尤其涉及一種通話即時翻譯系統(tǒng)和方法。
背景技術(shù):
在當今的時代,不同國家的人由于政治、經(jīng)濟、文化、娛樂等多方面需求要經(jīng)常進行溝通,通過網(wǎng)絡和電話等方式可以便利地實現(xiàn)不同地域的人之間的交流。然而除了需要網(wǎng)絡、電話等便利的信息傳輸媒介外,還要解決語言不通的問題。熟練掌握一門外語并與其它國家的人順暢交流是不容易的。因此,語言不通是不同國家的人交流的最大障礙。目前,網(wǎng)絡上或是手機等智能終端上存在不少翻譯軟件,但這些翻譯軟件通常不能用于即時通話。因此,需要提供一種通話即時翻譯系統(tǒng)和方法以解決上述問題。
發(fā)明內(nèi)容
在發(fā)明內(nèi)容部分中引入了一系列簡化形式的概念,這將在具體實施方式
部分中進一步詳細說明。本發(fā)明的發(fā)明內(nèi)容部分并不意味著要試圖限定出所要求保護的技術(shù)方案的關(guān)鍵特征和必要技術(shù)特征,更不意味著試圖確定所要求保護的技術(shù)方案的保護范圍。為了解決上述問題,本發(fā)明公開了一種用于通話即時翻譯系統(tǒng),包括切分器、語音識別裝置、翻譯裝置和語音合成裝置,其中,所述切分器用于連接到交換機并將輸入語音信號切分為一個或多個音頻文件;所述語音識別裝置與所述切分器相連,用于將所述一個或多個音頻文件轉(zhuǎn)錄為源語言的文本;所述翻譯裝置與所述語音識別裝置相連,用于將所述源語言的文本翻譯為目標語言的文本;以及所述語音合成裝置與所述翻譯裝置相連,用于將所述目標語言的文本轉(zhuǎn)換為輸出語音信號,并輸出給所述交換機。在本發(fā)明一個優(yōu)選實施例中,所述系統(tǒng)還包括存儲器,其連接在所述切分器和所述語音識別裝置之間;其中,所述切分器還用于將所述一個或多個音頻文件存儲至所述存儲器;并且所述語音識別裝置所轉(zhuǎn)錄的所述一個或多個音頻文件來自于所述存儲器。
在本發(fā)明一個優(yōu)選實施例中,所述系統(tǒng)還包括語言確定裝置,其與所述切分器相連,用于確定通話雙方使用的語言;其中,所述通話雙方使用的語言中的一種作為所述源語言,另一種作為所述目標語言。在本發(fā)明一個優(yōu)選實施例中,所述系統(tǒng)還包括輸入接口,用于從所述交換機接收所述輸入語音信號;以及輸出接口,用于輸出所述輸出語音信號至所述交換機。在本發(fā)明一個優(yōu)選實施例中,所述切分器進一步包括檢測單元,用于檢測所述輸入語音信號中的靜音部分;以及分割單元,用于基于所檢測的靜音部分將所述輸入語音信號切分為所述一個或多個音頻文件。優(yōu)選地,所述靜音部分包括在O. 6秒或O. 6秒以上的時間段內(nèi)分貝值小于或等于噪聲閾值的部分。在本發(fā)明一個優(yōu)選實施例中,所述系統(tǒng)還包括自動增益控制器,其與所述切分器相連,用于并對所述輸入語音信號進行增益控制。在本發(fā)明一個優(yōu)選實施例中,所述自動增益控制器進一步包括放大單元,用于將分貝值小于設定值的所述輸入語音信號放大至所述設定值;以及縮小單元,用于將分貝值大于所述設定值的所述輸入語音信號縮小至所述設定值。在本發(fā)明一個優(yōu)選實施例中,所述系統(tǒng)還包括濾波器,其與所述切分器相連,用于對所述輸入語音信號進行降噪處理。優(yōu)選地,所述濾波器為維納濾波器。根據(jù)本發(fā)明另一方面,還提供了一種通話即時翻譯方法,包括將輸入語音信號切分為一個或多個音頻文件;將所述一個或多個音頻文件轉(zhuǎn)錄為源語言的文本;將所述源語言的文本翻譯為目標語言的文本;以及將所述目標語言的文本轉(zhuǎn)換為輸出語音信號。在本發(fā)明一個優(yōu)選實施例中,所述切分后還包括將所述一個或多個音頻文件存 儲至存儲器;并且所轉(zhuǎn)錄的所述一個或多個音頻文件來自于所述存儲器。在本發(fā)明一個優(yōu)選實施例中,所述切分前還包括確定通話雙方使用的語言;其中,所述通話雙方使用的語言中的一種作為所述源語言,另一種作為所述目標語言。在本發(fā)明一個優(yōu)選實施例中,所述切分前還包括從交換機接收所述輸入語音信號;以及所述轉(zhuǎn)換后還包括將所述輸出語音信號輸出至所述交換機。在本發(fā)明一個優(yōu)選實施例中,所述切分進一步包括檢測所述輸入語音信號中的靜音部分;以及基于所檢測的靜音部分將所述輸入語音信號切分為所述一個或多個音頻文件。優(yōu)選地,所述靜音部分包括在O. 6秒或O. 6秒以上的時間段內(nèi)分貝值小于或等于噪聲閾值的部分。在本發(fā)明一個優(yōu)選實施例中,所述切分前還包括對所述輸入語音信號進行增益控制。在本發(fā)明一個優(yōu)選實施例中,所述增益控制進一步包括將分貝值小于設定值的所述輸入語音信號放大至所述設定值;以及將分貝值大于所述設定值的所述輸入語音信號縮小至所述設定值。在本發(fā)明一個優(yōu)選實施例中,所述切分前還包括對所述輸入語音信號進行降噪處理。優(yōu)選地,所述降噪處理進一步包括對所述輸入語音信號進行維納濾波。本發(fā)明所提供的上述通話即時翻譯系統(tǒng)和方法能夠使得語言不通的通話雙方可以實現(xiàn)實時的自由交流。
本發(fā)明的下列附圖在此作為本發(fā)明的一部分用于理解本發(fā)明。附圖中示出了本發(fā)明的實施例及其描述,用來解釋本發(fā)明的原理。在附圖中,圖I示出了根據(jù)本發(fā)明一個優(yōu)選實施例的通話即時翻譯系統(tǒng)的結(jié)構(gòu)框圖;圖2示出了根據(jù)本發(fā)明一個優(yōu)選實施例的輸入語音信號的示意圖;圖3示出了根據(jù)本發(fā)明一個優(yōu)選實施例的通話即時翻譯方法的流程圖;圖4示出了包括根據(jù)本發(fā)明一個優(yōu)選實施例的通話即時翻譯系統(tǒng)的通話系統(tǒng)的示意圖。
具體實施例方式在下文的描述中,給出了大量具體的細節(jié)以便提供對本發(fā)明更為徹底的理解。然而,對于本領(lǐng)域技術(shù)人員來說顯而易見的是,本發(fā)明可以無需一個或多個這些細節(jié)而得以實施。在其他的例子中,為了避免與本發(fā)明發(fā)生混淆,對于本領(lǐng)域公知的一些技術(shù)特征未進行描述。為了徹底了解本發(fā)明,將在下列的描述中提出詳細的結(jié)構(gòu)。顯然,本發(fā)明的施行并不限定于本領(lǐng)域的技術(shù)人員所熟習的特殊細節(jié)。本發(fā)明的較佳實施例詳細描述如下,然而除了這些詳細描述外,本發(fā)明還可以具有其他實施方式。根據(jù)本發(fā)明的一方面,提供了一種通話即時翻譯系統(tǒng)。圖I示出了根據(jù)本發(fā)明一個優(yōu)選實施例的通話即時翻譯系統(tǒng)100的結(jié)構(gòu)框圖。如圖I所示,該通話即時翻譯系統(tǒng)包括 切分器104、語音識別裝置106、翻譯裝置107和語音合成裝置108。其中,切分器104用于連接到外部交換機并將輸入語音信號切分為一個或多個音頻文件。語音識別裝置106與切分器104相連,用于將切分器104所切分的一個或多個音頻文件轉(zhuǎn)錄為源語言的文本。翻譯裝置107與語音識別裝置106相連,用于將語音識別裝置106所轉(zhuǎn)錄的源語言的文本翻譯為目標語言的文本。語音合成裝置108與翻譯裝置107相連,用于將翻譯裝置107所翻譯的目標語言的文本轉(zhuǎn)換為輸出語音信號,并輸出給外部交換機。語音識別技術(shù)通常是基于詞匯、短語或較短句子來進行的。如圖I所示,切分器104與外部交換機相連,其用于將來自外部交換機的輸入語音信號切分為一個或多個音頻文件。由此,其把連續(xù)大段的通話切分為較短的語句。這樣,后續(xù)的語音識別處理可以針對切分后的數(shù)據(jù)進行,大大提高了處理精度。這有效保證了通話即時翻譯的質(zhì)量。根據(jù)本發(fā)明的一個優(yōu)選實施例,切分器104可以分為檢測單元和分割單元,其中,檢測單元用于檢測輸入語音信號中的靜音部分,而分割部分用于基于所檢測的靜音部分將輸入語音信號切分為一個或多個音頻文件。圖2不出了根據(jù)本發(fā)明一個優(yōu)選實施例的輸入語音信號的示意圖。如圖2所示,可以在輸入語音信號中檢測出靜音部分,然后基于檢測到的靜音部分將輸入語音信號切分為一個或多個音頻文件靜音是通話中的必不可少的部分,基于靜音部分來切分語音信號可以更好地表達說話者的語句含義。這樣不會出現(xiàn)斷句或半句的情況,避免后續(xù)處理出現(xiàn)錯誤。輸入語音信號的靜音部分可以為持續(xù)一定時間的分貝值小于或等于噪聲閾值的部分。噪聲閾值可根據(jù)通話雙方所在環(huán)境的具體情況而定。例如,嘈雜的環(huán)境中,噪聲閾值可以設置得較高。通過增加所持續(xù)的時間長度,噪聲可以被視為靜音從而被去除。優(yōu)選地,所持續(xù)的時間長度為O. 6秒或O. 6秒以上。O. 6秒是人與人交流的時候句與句之間的大體停頓間隔,選擇這個時間段的靜音可以較為準確地將人與人的通話內(nèi)容劃分成以自然句為單位的音頻文件,并且可以有效去除噪音,使得接下來的處理過程正確率更高。語音識別裝置106與切分器104相連,用于將切分器104所切分的一個或多個音頻文件轉(zhuǎn)錄為源語言的文本。根據(jù)本發(fā)明一個優(yōu)選實施例,語音識別裝置106所進行的轉(zhuǎn)錄過程包括下述操作。首先對切分后形成的一個或多個音頻文件進行語音信號的語音特征的提取。根據(jù)提取的語音特征,可以對語音信號進行分析處理,可去掉與語音識別無關(guān)的冗余信息并獲得影響語音識別的重要信息,同時可對語音信號進行壓縮。然后,語音識別裝置106根據(jù)所提取的語音特征利用已訓練的聲學模型進行識別。具體地,將語音信號的語音特征同聲學模型的語音特征進行匹配與比較,得到最佳的識別結(jié)果。整個轉(zhuǎn)錄過程完成了將切分器104所切分的一個或多個音頻文件轉(zhuǎn)錄為源語言的文本。翻譯裝置107與語音識別裝置106相連,用于將語音識別裝置106所轉(zhuǎn)錄的源語言的文本翻譯為目標語言的文本。翻譯裝置107基于源語言的文本的語法、語義、句法、習語的知識和說話者的文化,分析出源語言的文本的所有特征來解碼源語言的文本的意思,然后將源語言的文本重新編碼成表達同樣意思的目標語言的文本。語音合成裝置108與翻譯裝置107相連,用于將翻譯裝置107翻譯后產(chǎn)生的目標語言文本轉(zhuǎn)換為目標語言的輸出語音信號,并輸出給外部交換機。該轉(zhuǎn)換過程如下首先,將翻譯裝置107翻譯后產(chǎn)生的目標語言的文本轉(zhuǎn)化為目標語言的特征參數(shù)以產(chǎn)生該目標語言的文本的文句的每個音節(jié)的對應韻律信息;然后,結(jié)合人平時說話時使用的聲調(diào)、語氣、停頓方式、及發(fā)音長短將該韻律信息轉(zhuǎn)換成相應的韻律參數(shù);最后,結(jié)合該韻律參數(shù)和 聲學的參數(shù)來生成相應的輸出語音信號,并輸出給外部交換機。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯系統(tǒng)100還可以包括輸入接口和輸出接口(未在圖I中示出)。其中,輸入接口可以連接在外部交換機和切分器104之間,用于從外部交換機接收輸入語音信號,該輸入語音信號可以是模擬信號也可以是數(shù)字信號。如果是數(shù)字信號,其采樣頻率優(yōu)選為8000Hz,其量化位數(shù)優(yōu)選為16比特。輸出接口可以連接在語音合成裝置108和外部交換機之間,用于將輸出語音信號輸出至外部交換機。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯系統(tǒng)100還可以包括語言確定裝置101,其與切分器104相連,用于確定通話雙方使用的語言。在通話的過程中,如果通話雙方使用的語言中的一種作為源語言,則另一種作為目標語言。如圖I所示,通話雙方通過外部交換機建立連接后,經(jīng)交換機可將各自說出的一句話(例如,通話雙方最初的打招呼)輸入至系統(tǒng)100的語言確定裝置101。接著,語言確定裝置101確定通話雙方使用的語言。例如,通話雙方分別為中國人和美國人,即通話雙方所使用的語言為中文和英文,通過通話雙方最初的打招呼(中國人說“喂”,美國人說“hello”),語言確定裝置101通過接收外部交換機輸入的“喂”和“hello”,確定出通話雙方所用的語言為中文和英文。這樣,在后續(xù)的處理過程中,如果輸入語音信號為中文的語音信號,則源語言為中文,目標語言為英文;反之,如果輸入語音信號為英文的語音信號,則源語言為英文,目標語言為中文。根據(jù)該優(yōu)選實施例的系統(tǒng)100能夠識別各種語言的語音信號,適用范圍廣。本領(lǐng)域普通技術(shù)人員可以理解,系統(tǒng)100的源語言和目標語言還可以預先設置以無需使用語言確定裝置101。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯系統(tǒng)100還可以包括自動增益控制器102,其與切分器相連,用于對輸入語音信號進行增益控制。例如,將所接收的輸入語音信號的分貝值調(diào)節(jié)到大致統(tǒng)一的設定值水平。由自動增益控制器102對輸入語音信號進行增益控制可以成功避免因說話者音量忽大忽小造成對后續(xù)處理的影響,進而影響到對方的用戶體驗。優(yōu)選地,該自動增益控制器102可以包括放大單元和縮小單元。其中,當所接收的輸入語音信號的分貝值小于設定值時,放大單元用于將分貝值小于該設定值的輸入語音信號放大至該設定值;反之,當所接收的輸入語音信號的分貝值大于該設定值時,縮小單元將分貝值大于該設定值的輸入語音信號縮小至該設定值。此設定值可根據(jù)實際需要自由限定。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯系統(tǒng)100還可以包括濾波器103,其與切分器104相連,用于對輸入語音信號進行降噪處理。降噪處理可以采用濾波的方法。濾波可以從連續(xù)的或離散的輸入數(shù)據(jù)中濾除噪聲和干擾以提取有用信息。優(yōu)選地,濾波器103可以是維納濾波器以取得良好的濾波效果。總之,自動增益控制器102和濾波器103均可以使輸入語音信號便于被識別并且提高識別和翻譯的正確率。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯系統(tǒng)100還可以包括存儲器105,其連接在切分器104和語音識別裝置106之間。這種情況中,切分器104還用于將其切分的一個或多個音頻文件存儲至存儲器105,并且語音識別裝置106所轉(zhuǎn)錄的一個或多個音頻文件來自于存儲器105。經(jīng)過存儲器105,可以將切分器104切分的一個或多個音頻文件暫·時存入存儲器105,以在進入語音識別裝置之前緩沖,使得語音識別裝置106接下來進行的轉(zhuǎn)錄工作更為順暢。另外,值得注意的是,以上術(shù)語“連接”和“相連”可以表示各個裝置之間的直接連接,也可以表示間接連接,圖I中只示出了通話即時翻譯系統(tǒng)100的不同裝置之間的一種連接方式,還可以有其它的連接方式。例如,語言確定裝置101可以直接連接濾波器103,自動增益控制器102連接在濾波器103和切分器104之間。根據(jù)本發(fā)明的另一方面,還提供了一種通話即時翻譯方法。圖3示出了根據(jù)本發(fā)明一個優(yōu)選實施例的通話即時翻譯方法300的流程圖。如圖3所示,該通話即時翻譯方法300包括切分步驟304、語音轉(zhuǎn)文本步驟306、翻譯步驟307和文本轉(zhuǎn)語音步驟308。其中,切分步驟304將輸入語音信號切分為一個或多個音頻文件;語音轉(zhuǎn)文本步驟306將切分步驟304切分后形成的一個或多個音頻文件轉(zhuǎn)錄為源語言的文本;翻譯步驟307將語音轉(zhuǎn)文本步驟306轉(zhuǎn)錄后形成的源語言的文本翻譯為目標語言的文本;文本轉(zhuǎn)語音步驟308將翻譯步驟307翻譯后形成的目標語言的文本轉(zhuǎn)換為輸出語音信號。在切分步驟304中,對輸入語音信號進行切分的過程進一步包含了檢測步驟和分割步驟,其中,檢測步驟用于檢測輸入語音信號的靜音部分,然后分割步驟用于基于所檢測的靜音部分將輸入語音信號切分為多個音頻文件。根據(jù)本發(fā)明的一個優(yōu)選實施例,輸入語音信號的靜音部分為在O. 6秒或O. 6秒以上的時間段內(nèi)分貝值小于或等于噪聲閾值的部分。在切分步驟304將輸入語音信號切分為一個或多個音頻文件后,進入語音轉(zhuǎn)文本步驟306。語音轉(zhuǎn)文本步驟306將切分步驟304切分后形成的一個或多個音頻文件轉(zhuǎn)錄為源語言的文本。在語音轉(zhuǎn)文本步驟306中,首先將切分步驟304切分后形成的一個或多個音頻文件進行語音信號的語音特征的提取;然后根據(jù)所提取的語音特征利用已訓練的聲學模型進行識別。具體地,將語音信號的語音特征同聲學模型的語音特征進行匹配與比較,得到最佳的識別結(jié)果。在語音轉(zhuǎn)文本步驟306將切分步驟304切分后形成的一個或多個音頻文件轉(zhuǎn)錄為源語言的文本后,進入翻譯步驟307。翻譯步驟307將語音轉(zhuǎn)文本步驟306轉(zhuǎn)錄后形成的源語言的文本翻譯為目標語言的文本。在翻譯步驟307中,通過基于源語言的文本的語法、語義、句法、習語的知識和說話者的文化,分析出源語言的文本的所有特征來解碼源語言的文本的意思,然后將源語言的文本重新編碼成同樣意思的目標語言的文本,即完成了將源語言的文本翻譯為目標語言的文本。在翻譯步驟307將語音轉(zhuǎn)文本步驟306轉(zhuǎn)錄后形成的源文本的語言翻譯成目標語言的文本后,進入文本轉(zhuǎn)語音步驟308。文本轉(zhuǎn)語音步驟308將翻譯步驟307翻譯后形成的目標語言文本轉(zhuǎn)換為目標語言的輸出語音信號,并輸出給外部交換機。在文本轉(zhuǎn)語音步驟308中,優(yōu)選地,首先將翻譯步驟307翻譯后形成的目標語言的文本轉(zhuǎn)化為目標語言的特征參數(shù)以產(chǎn)生該目標語言的文本的文句的每個音節(jié)的對應韻律信息,然后結(jié)合人平時說話時使用的聲調(diào)、語氣、停頓方式、及發(fā)音長短將該韻律信息轉(zhuǎn)換成相應的韻律參數(shù),最后結(jié)合韻律參數(shù)與聲學的參數(shù)生成相應的輸出語音信號,并輸出給外部交換機。這樣,整個通話即時翻譯過程結(jié)束。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯方法300還可以包括接收步驟和輸出步驟(未在圖3中示出)。其中,接收步驟在切分步驟304之前,在該接收步驟中從交換機·接收輸入語音信號,該輸入語音信號可以是模擬信號也可以是數(shù)字信號。如果是數(shù)字信號,其采樣頻率優(yōu)選為8000Hz,其量化位數(shù)優(yōu)選為16比特。輸出步驟在文本轉(zhuǎn)語音步驟308后將輸出語音信號輸出至所述交換機。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯方法300還可以包括語言確定步驟301,其用于在切分步驟304之前確定通話雙方使用的語言。通話雙方使用的語言中的一種作為源語言,則另一種作為目標語言。例如,通話雙方分別為中國人和美國人,即通話雙方所使用的語言為中文和英文,通過通話雙方最初的打招呼(中國人說“喂”,美國人說“hello”),在語言確定步驟301接收外部交換機發(fā)送的“喂”和“hello”并確定出通話雙方作用的語言為中文和英文。這樣,在后續(xù)的處理過程中,如果輸入語音信號為中文的語音信號,則源語言為中文,目標語言為英文;反之,如果輸入語音信號為英文的語音信號,則源語言為英文,目標語言為中文。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯方法300還可以包括增益控制步驟302,其用于在切分步驟304前對輸入語音信號進行增益控制,例如,將所接收的輸入語音信號的分貝值調(diào)節(jié)到大致統(tǒng)一的設定值水平。優(yōu)選地,在增益控制步驟302中,當所接收的輸入語音信號的分貝值小于設定值時,將分貝值小于該設定值的輸入語音信號放大至該設定值;反之,當所接收的輸入語音信號的分貝值大于該設定值時,將分貝值大于該設定值的輸入語音信號縮小至該設定值。此設定值可根據(jù)實際需要自由限定。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯方法300還可以包括降噪處理步驟303,其用于在切分步驟304前對輸入語音信號進行降噪處理。降噪處理可以采用濾波的方法。優(yōu)選地,降噪處理步驟303包括對輸入語音信號進行維納濾波。另外,本領(lǐng)域普通技術(shù)人員可以理解,圖3示出了根據(jù)本發(fā)明一個優(yōu)選實施例的通話即時翻譯方法步驟的一種執(zhí)行順序,該順序可以進行調(diào)整。例如,增益控制步驟302可以在降噪處理步驟303之后執(zhí)行。根據(jù)本發(fā)明的一個優(yōu)選實施例,通話即時翻譯方法300還可以包括存儲步驟305,其用于在切分步驟304之后和語音轉(zhuǎn)文本步驟306之前將切分步驟304切分后形成的一個或多個音頻文件存儲至存儲器。語音轉(zhuǎn)文本步驟306所轉(zhuǎn)錄的一個或多個音頻文件來自于該存儲器。圖4示出了包括根據(jù)本發(fā)明一個優(yōu)選實施例的通話即時翻譯系統(tǒng)的通話系統(tǒng)的優(yōu)選實施例的示意圖。該通話系統(tǒng)400包括用戶通話所使用的電話401和電話402、公用電話交換網(wǎng)(PSTN) 403、專用交換機(IP PBX) 404和本發(fā)明所提供的通話即時翻譯系統(tǒng)405。其中,用戶通話所使用的電話401和電話402也可以替換為智能終端,相應地,PSTN 403也可以替換為互聯(lián)網(wǎng)語音傳輸協(xié)議(VOIP)網(wǎng)絡。如圖4所示,通話的雙方分別為用戶I和用戶2。其中,用戶I所使用的語言為A,用戶2所使用的語言為B。打電話的一方,例如,用戶1,通過PSTN 403撥號呼叫用戶2。IPPBX 404建立雙方的呼叫連接。隨后,用戶I和用戶2開始通話,其各自發(fā)出的語音經(jīng)IPPBX 404進入通話即時翻譯系統(tǒng)405,經(jīng)翻譯后的語音分別由IP PBX傳送給相應的用戶。下面具體描述通話系統(tǒng)400的工作流程。首先,建立用戶I和用戶2的通話連接。然后,用戶I的A語言輸入語音信號SI經(jīng)由IP PBX 404傳送到通話即時翻譯系統(tǒng)405。隨后,由通話 即時翻譯系統(tǒng)405進行翻譯,形成B語言表達的輸出語音信號S4。最后,IP PBX 404檢測到該信號S4,將其傳送至用戶2。本領(lǐng)域普通技術(shù)人員可以理解,上述過程的描述中,省略了 PSTN和IP PBX對語音信號的常規(guī)操作,以避免遮蔽本發(fā)明。這樣,用戶2便可以聽到用自己的語言(即B語言)表達的用戶I的語音。同理,用戶2用B語言回應用戶I的話時,用戶I也可以聽到A語言表達的用戶2的語音。可選的,用戶I和用戶2除了可以聽到用自己語言的對方語音,還可以聽到未經(jīng)翻譯的語音。使用本發(fā)明提供的通話即時翻譯系統(tǒng)和方法,語言不通的通話雙方利用傳統(tǒng)的公用電話交換網(wǎng)絡或VOIP網(wǎng)絡等即可實現(xiàn)實時的自由交流。本發(fā)明已經(jīng)通過上述實施例進行了說明,但應當理解的是,上述實施例只是用于舉例和說明的目的,而非意在將本發(fā)明限制于所描述的實施例范圍內(nèi)。此外本領(lǐng)域技術(shù)人員可以理解的是,本發(fā)明并不局限于上述實施例,根據(jù)本發(fā)明的教導還可以做出更多種的變型和修改,這些變型和修改均落在本發(fā)明所要求保護的范圍以內(nèi)。本發(fā)明的保護范圍由附屬的權(quán)利要求書及其等效范圍所界定。
權(quán)利要求
1.一種通話即時翻譯系統(tǒng),包括切分器、語音識別裝置、翻譯裝置和語音合成裝置,其中, 所述切分器用于連接到交換機并將輸入語音信號切分為一個或多個音頻文件; 所述語音識別裝置與所述切分器相連,用于將所述一個或多個音頻文件轉(zhuǎn)錄為源語言的文本; 所述翻譯裝置與所述語音識別裝置相連,用于將所述源語言的文本翻譯為目標語言的文本;以及 所述語音合成裝置與所述翻譯裝置相連,用于將所述目標語言的文本轉(zhuǎn)換為輸出語音信號,并輸出給所述交換機。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 存儲器,其連接在所述切分器和所述語音識別裝置之間; 其中,所述切分器還用于將所述一個或多個音頻文件存儲至所述存儲器;并且 所述語音識別裝置所轉(zhuǎn)錄的所述一個或多個音頻文件來自于所述存儲器。
3.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 語言確定裝置,其與所述切分器相連,用于確定通話雙方使用的語言; 其中,所述通話雙方使用的語言中的一種作為所述源語言,另一種作為所述目標語言。
4.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 輸入接口,用于從所述交換機接收所述輸入語音信號;以及 輸出接口,用于輸出所述輸出語音信號至所述交換機。
5.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述切分器進一步包括 檢測單元,用于檢測所述輸入語音信號中的靜音部分;以及 分割單元,用于基于所檢測的靜音部分將所述輸入語音信號切分為所述一個或多個音頻文件。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述靜音部分包括在O.6秒或O. 6秒以上的時間段內(nèi)分貝值小于或等于噪聲閾值的部分。
7.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 自動增益控制器,其與所述切分器相連,用于并對所述輸入語音信號進行增益控制。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述自動增益控制器進一步包括 放大單元,用于將分貝值小于設定值的所述輸入語音信號放大至所述設定值;以及 縮小單元,用于將分貝值大于所述設定值的所述輸入語音信號縮小至所述設定值。
9.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 濾波器,其與所述切分器相連,用于對所述輸入語音信號進行降噪處理。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述濾波器為維納濾波器。
11.一種通話即時翻譯方法,包括 將輸入語音信號切分為一個或多個音頻文件; 將所述一個或多個音頻文件轉(zhuǎn)錄為源語言的文本; 將所述源語言的文本翻譯為目標語言的文本;以及 將所述目標語言的文本轉(zhuǎn)換為輸出語音信號。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述切分后還包括將所述一個或多個音頻文件存儲至存儲器;并且 所轉(zhuǎn)錄的所述一個或多個音頻文件來自于所述存儲器。
13.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述切分前還包括 確定通話雙方使用的語言; 其中,所述通話雙方使用的語言中的一種作為所述源語言,另一種作為所述目標語言。
14.根據(jù)權(quán)利要求11所述的方法,其特征在于, 所述切分前還包括從交換機接收所述輸入語音信號;以及 所述轉(zhuǎn)換后還包括將所述輸出語音信號輸出至所述交換機。
15.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述切分進一步包括 檢測所述輸入語音信號中的靜音部分;以及 基于所檢測的靜音部分將所述輸入語音信號切分為所述一個或多個音頻文件。
16.根據(jù)權(quán)利要求15所述的方法,其特征在于,所述靜音部分包括在O.6秒或O. 6秒以上的時間段內(nèi)分貝值小于或等于噪聲閾值的部分。
17.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述切分前還包括對所述輸入語音信號進行增益控制。
18.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述增益控制進一步包括 將分貝值小于設定值的所述輸入語音信號放大至所述設定值;以及 將分貝值大于所述設定值的所述輸入語音信號縮小至所述設定值。
19.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述切分前還包括對所述輸入語音信號進行降噪處理。
20.根據(jù)權(quán)利要求19所述的方法,其特征在于,所述降噪處理進一步包括對所述輸入語音信號進行維納濾波。
全文摘要
本發(fā)明公開了一種通話即時翻譯系統(tǒng)和方法。該系統(tǒng)包括切分器、語音識別裝置、翻譯裝置和語音合成裝置,其中,所述切分器用于連接到交換機并將輸入語音信號切分為一個或多個音頻文件;所述語音識別裝置與所述切分器相連,用于將所述一個或多個音頻文件轉(zhuǎn)錄為源語言的文本;所述翻譯裝置與所述語音識別裝置相連,用于將所述源語言的文本翻譯為目標語言的文本;以及所述語音合成裝置與所述翻譯裝置相連,用于將所述目標語言的文本轉(zhuǎn)換為輸出語音信號,并輸出給所述交換機。上述通話即時翻譯系統(tǒng)和方法能夠使得語言不通的通話雙方可以實現(xiàn)實時的自由交流。
文檔編號G10L15/26GK102903361SQ20121039097
公開日2013年1月30日 申請日期2012年10月15日 優(yōu)先權(quán)日2012年10月15日
發(fā)明者鐘實, 劉鶴, 袁首鵬 申請人:Itp創(chuàng)新科技有限公司