一種方言語境的多語言翻譯系統(tǒng)及方法,用于方言和個性化語音的翻譯,屬于計算機語言翻譯技術領域。
背景技術:
在世界各國文化、經濟、軍事等各領域的交往中,語言的溝通顯得尤為重要,為了準確的表達兩種語言的意義長期以來在各種外事交往中主要還是以人翻譯為主。近年來隨著計算機及數字技術的快速發(fā)展,用計算機及數字技術做翻譯工作已取得了很大的進步,各種優(yōu)秀的計算機翻譯系統(tǒng)不斷涌現(xiàn),特別在文字翻譯方面已較完美。但在用計算機翻譯系統(tǒng)做同聲翻譯方面由于各母語系下方言較多語境不同或個人發(fā)音的偏好導致誤譯率較高,不能準確表達源語音的意義。
在眾多的語言翻譯系統(tǒng)及翻譯設備中都只能將源母語系中的相對標準的基語音翻譯為目標語系的標準基語音。但在現(xiàn)實應用環(huán)境中由于需翻譯的源語音在很多情況下為非標準語音,世界上各大母語系中每種母語系都有若干的地方方言,這導致計算機化的語言翻譯系統(tǒng)因語境的不同有很高的誤譯率。
專利號為200820234990.5的專利,是通過提取方言語音的字、詞句作為特征與標準基語音進行直接對比來找到方言語音對應的標準基語音,一旦說方言的人發(fā)音不準確,就容易造成翻譯不準確,從而找不到對應的標準基語音,而且所要翻譯的每句方言都需要存儲,造成存儲成本、運行硬件成本高及計算機運算速度慢等問題。
技術實現(xiàn)要素:
本發(fā)明的目的在于:解決現(xiàn)有技術中的語言翻譯工具不能準確的翻譯方言,增加翻譯的誤譯率的問題,提供了一種方言語境的多語言翻譯方法。
本發(fā)明采用的技術方案如下:
一種方言語境的多語言翻譯方法,其特征在于包括以下步驟:
步驟1、建立母語系下各種方言語音的特征碼組成的特征碼庫;
步驟2、根據特征碼與標準基語音特征碼的差異產生方言的特征補償碼,組成特征補償碼庫;
步驟3、用特征補償碼與其對應的源語音復合產生出對應母語系下的標準基語音;
步驟4、標準基語音轉換成目標語言的語音或文本。
進一步,特征碼庫的建立方法包括以下步驟:
步驟1.1、獲得母語系下各種方言語音樣本;
步驟1.2、對方言語音樣本進行預處理去掉冗余部分,通過帶通濾波器進行預濾波處理后再通過一個高通濾波器進行預加重,對預加重后的方言語音樣本減噪后乘以漢明窗后進行端點檢測;
步驟1.3、將乘以漢明窗預處理后的方言語音樣本進行頻譜分析,然后進行特征提取,特征提取頻譜分析后的方言語音樣本的共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼;
步驟1.4將獲取的共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼進行去冗余后對多個方言語音文件進行特征碼的概率分布統(tǒng)計,找出其共同特性做為該方言語音的特征碼要素;
步驟1.5將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節(jié)的方言語音的特征碼,將該特征碼賦予檢索號編入特征碼庫。
進一步,步驟1.3中對頻譜分析后的方言語音的共振峰的提取步驟包括:
對頻譜分析后的方言語音經過同態(tài)濾波后得到平滑的譜再對該譜求離散傅里葉變換,然后用dft譜來提取語音信號的共振峰參數。
進一步,步驟1.3中對頻譜分析后的方言語音的基音周期特征的提取步驟包括:
對頻譜分析后的方言語音采用平均幅度差函數法來提取基音周期特征。
進一步,步驟1.3中對頻譜分析后的方言語音的mfcc參數的提取步驟包括:
將頻譜分析后的方言語音進行短時傅里葉變換得到其頻譜,再求頻譜幅度的平方得能量譜,用三角濾波均衡器進行帶通濾波,濾波器的個數與臨界帶數相近,設濾波器數為m,濾波后得到的輸出為:x(k),k=l,2,…,m,對濾波器組的輸出取對數,然后作2m點逆傅里葉變換即可得到mfcc參數。
進一步,步驟1.3中對頻譜分析后的方言語音的lpcc參數的提取步驟包括:
將頻譜分析后的方言語音進行z變換后對數模函數的反z變換,通過信號的傅里葉變換,取模的對數,再求反傅里葉變換得到lpcc參數。
進一步,步驟2中特征補償碼庫的建立采用以下步驟:
步驟2.1、獲取母語系下的標準基語音樣本,提取標準基語音的特征碼;
步驟2.2、對母語系下方言語音特征碼與標準基語音特征碼進行分析比較,得出有泛意的各自概率分布差異頻譜;
步驟2.3、將該差異頻譜進行反碼疊加運算得出方言語音的特征補償碼;
步驟2.3、方言語音的特征補償碼與特征碼復合,復合后再與標準基語音的特征碼經過n次校驗糾正,經過對方言語音特征補償碼的n次校驗糾正后復合得出標準基語音特征碼在允許誤差范圍內,該特征補償碼即為該方言語音的特征補償碼,將該特征補償碼賦予檢索號編入特征補償碼庫。
進一步,步驟3中的特征補償碼獲取步驟:通過源語音的特征補償碼與特征補償碼庫進行相似性檢索得到對應的特征補償碼。
進一步,步驟3中的特征補償碼獲取是通過用戶手動設置。
綜上所述,由于采用了上述技術方案,本發(fā)明的有益效果是:
1、本發(fā)明可通過匹配出源語音與標語基語音的特征補償碼,再用源語音與特征補償碼進行復合,能準確的翻譯出方言或個性化語言,大大減少了現(xiàn)有翻譯設備的誤譯率,準確率可高達95%以上;
2、本發(fā)明適用不同場合下的方言語音翻譯,顯著提高了計算機化的語言同聲翻譯應用范圍;
3、本發(fā)明通過提取最能代表的各方言或個性化語音的特征,使得生成的特征補償碼適用于對應的方言或個性化語音,避免了發(fā)音出現(xiàn)偏差時,造成復合的標準基語音不準確的問題;
4、本發(fā)明對存儲硬件、運行硬件的要求低,從而節(jié)約了硬件成本,使得運算速度快。
附圖說明
圖1為本發(fā)明中系統(tǒng)建立特征碼庫與特征補償碼庫的示意圖;
圖2為本發(fā)明中進行未知語種翻譯時特征補償碼的獲取的框架示意圖;
圖3為本發(fā)明中進行指定語種翻譯時特征補償碼的獲取的框架示意圖;
圖4為本發(fā)明中特征碼庫的實施例1的示意圖,從左往右依次為時域圖、語譜圖共振峰、基音周期圖、音強圖;
圖5為本發(fā)明中特征碼庫的實施例2的示意圖,從左往右依次為時域圖、語譜圖共振峰、基音周期圖、音強圖;
圖6為本發(fā)明中特征碼庫的實施例3的示意圖,從左往右依次為時域圖、語譜圖共振峰、基音周期圖、音強圖;
圖7為本發(fā)明中特征碼庫的實施例4的示意圖,從左往右依次為時域圖、語譜圖共振峰、基音周期圖、音強圖;
圖8為本發(fā)明中特征碼庫的實施例5的示意圖,從左往右依次為時域圖、語譜圖共振峰、基音周期圖、音強圖;
圖9為本發(fā)明中特征碼庫的實施例6的示意圖,從左往右依次為時域圖、語譜圖共振峰、基音周期圖、音強圖。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
一種方言語境的多語言翻譯方法,具體的實現(xiàn)方法如下:
首先應建立母語系下各方言語音(即可以是世界各母語系下的各方言或個性化語音,也可以是指定的母語系下的各方言或個性化語音)的特征碼庫和特征補償碼庫。特征碼庫的建立采用以下步驟:
用同一段有代表性的文字進行語音朗讀,朗讀者為某母語系下各種方言男、女聲語音,該方言語音朗讀者應對該方言具有一定的代表性與泛意性。
將方言語音朗讀者朗讀的文本采樣后錄入為方言語音文件保存,語音文件的參數為:采樣率11025hz,單聲道,采樣精度16位,文件長度1~30s,每種方言語音文件分別錄制男女聲各有代表性的文字語音文件至少各50個,錄制的方言語音文件越多,最后對方言語音特征碼的概率分布統(tǒng)計越準確。
對方言語音的預處理:去掉冗余部分,通過帶通濾波器進行預濾波處理后再通過一個高通濾波器進行預加重,對預加重后的信號減噪后乘以漢明窗后進行端點檢測。
將乘以漢明窗預處理后的方言語音進行頻譜分析,然后進行特征提取,特征重點是采用最能代表方言語音特征的共振峰,基音周期特征,mfcc及l(fā)pcc參數進行分析及特征提取。
共振峰的提取:對頻譜分析后的方言語音經過同態(tài)濾波后得到平滑的譜再對該譜求離散傅里葉變換(dft),然后用dft譜來提取語音信號的共振峰參數。
基音周期特征的提?。簩︻l譜分析后的方言語音采用平均幅度差函數(amdf)法來提取基音周期特征。
mfcc的提?。簩㈩l譜分析后的方言語音進行短時傅里葉變換得到其頻譜,再求頻譜幅度的平方得能量譜,用三角濾波均衡器進行帶通濾波,濾波器的個數與臨界帶數相近,設濾波器數為m,濾波后得到的輸出為:x(k),k=l,2,…,m,對濾波器組的輸出取對數,然后作2m點逆傅里葉變換即可得到mfcc參數。
lpcc的提?。簩㈩l譜分析后的方言語音進行z變換后對數模函數的反z變換,通過信號的傅里葉變換,取模的對數,再求反傅里葉變換得到lpcc參數。
將獲取的共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼進行去冗余后對多個方言語音文件進行有方言語音特征碼的概率分布統(tǒng)計,重點是對元音的發(fā)音,第一共振峰和第二共振峰,基音曲線,lpcc和mfcc的概率分布統(tǒng)計,找出共同特性做為該方言語音的特征碼要素。
將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節(jié)的方言語音的特征碼,將該特征碼賦予檢索號編入特征碼庫,即特征碼庫。
特征碼庫的具體建立如下:
實施例1
本實施例采用美國人說英語樣板語音“thisisatestsampleformyself”。采樣頻率11025hz,采樣深度16bit,單聲道,時長2.157秒。實際分析的時域圖,語譜圖共振峰,基音周期圖,音強圖,如圖4所示;提取共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼進行去冗余后對方言語音文件進行有方言語音特征碼的概率分布統(tǒng)計,將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節(jié)的方言語音的特征碼,將該特征碼賦予檢索號編入特征碼庫,即編入頻譜特征碼庫。
實施例2
本實施例采用英國人說英語樣板語音“thisisatestsampleformyself”。采樣頻率11025hz,采樣深度16bit,單聲道,時長2.267秒。實際分析的時域圖,語譜圖共振峰,基音周期圖,音強圖,如圖5所示;提取共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼進行去冗余后對方言語音文件進行有方言語音特征碼的概率分布統(tǒng)計,將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節(jié)的方言的特征碼,將該特征碼賦予檢索號編入特征碼庫,即編入頻譜特征碼庫。
實施例3
本實施例采用印度人說英語樣板語音“thisisatestsampleformyself”。采樣頻率11025hz,采樣深度16bit,單聲道,時長1.956秒。實際分析的時域圖,語譜圖共振峰,基音周期圖,音強圖,如圖6所示;提取共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼進行去冗余后對方言語音文件進行有方言語音特征碼的概率分布統(tǒng)計,將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節(jié)的方言語音的特征碼,將該特征碼賦予檢索號編入特征碼庫,即編入頻譜特征碼庫。
實施例4
本實施例采用中國人說河南話樣板語音“請輸入標準語音文本作語音采樣的樣板”。采樣頻率11025hz,采樣深度16bit,單聲道,時長4.27秒。實際分析的時域圖,語譜圖共振峰,基音周期圖,音強圖,如圖7所示;提取共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼進行去冗余后對方言語音文件進行有方言語音特征碼的概率分布統(tǒng)計,將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節(jié)的方言語音的特征碼,將該特征碼賦予檢索號編入特征碼庫,即編入頻譜特征碼庫。
實施例5
本實施例采用中國人說四川話樣板語音“請輸入標準語音文本作語音采樣的樣板”。采樣頻率11025hz,采樣深度16bit,單聲道,時長4.928秒。實際分析的時域圖,語譜圖共振峰,基音周期圖,音強圖,如圖8所示;提取共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼進行去冗余后對方言語音文件進行有方言語音特征碼的概率分布統(tǒng)計,將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節(jié)的方言語音的特征碼,將該特征碼賦予檢索號編入特征碼庫,即編入頻譜特征碼庫。
實施例6
本實施例采用中國人說普通話樣板語音“請輸入標準語音文本作語音采樣的樣板”。采樣頻率11025hz,采樣深度16bit,單聲道,時長3.96秒。實際分析的時域圖,語譜圖共振峰,基音周期圖,音強圖,如圖9所示;提取共振峰,基音周期特征,mfcc及l(fā)pcc參數特征碼進行去冗余后對方言語音文件進行有方言語音特征碼的概率分布統(tǒng)計,將具有特征碼要素的代碼采用壓縮方式重新編碼為64字節(jié)的方言語音的特征碼,將該特征碼賦予檢索號編入特征碼庫,即編入頻譜特征碼庫。
方言語音的特征碼庫建立后,為能將源語音復合為該母語系的標準基語音,應建立母語系下的方言語音復合所需的特征補償碼庫。與特征碼庫對應的特征補償碼庫的建立,使得翻譯系統(tǒng)在實際應用時能減少硬件成本。頻譜特征補償碼庫的建立采用以下步驟:
用同一段有代表性的文字進行語音朗讀,朗讀者為某母語系下各種標準男,女聲語音,該語音朗讀者應為該母語系標準基語音。
對標準基語音提取標準基語音的特征碼,其中,標準基語音的特征碼的提取與建立方言語音特征碼庫時特征碼的提取方法相同。
方言語音的特征補償碼與特征碼復合,復合后再與標準基語音的特征碼經過n次校驗糾正,經過對方言語音特征補償碼的n次校驗糾正后復合得出標準基語音特征碼在允許誤差范圍內,該特征補償碼即為該方言語音的特征補償碼,將該特征補償碼賦予檢索號編入特征補償碼庫??捎糜诤笃趯崟r的方言或個性化語境的語言翻譯系統(tǒng)。
建立好特征碼庫和特征補償碼庫后,用特征補償碼與其對應的源語音復合產生出對應母語系下的標準基語音;特征補償碼的獲取有兩種方式:
特征補償碼獲得步驟:通過源語音的特征補償碼與特征補償碼庫進行相似性檢索得到對應的特征補償碼。即在未知語種的情況下,對源語音進行特征碼提取,再與標準基語音生成源語音的特征補償碼,源語音的特征補償碼與特征補償碼庫進行最大相似性檢索得到對應的特征補償碼,得到的特征補償碼再與源語音進行復合產生出對應母語系下的標準基語音。
特征補償碼獲取是通過用戶手動設置。即適用已知語種的情況下,源語音直接與給定的特征補償碼復合產生出對應母語系下的標準基語音。
標準基語音轉換成目標語言的語音或文本,并輸出語音或文本。
本發(fā)明可根據用戶需求翻譯指定語種的方言,也可翻譯未知語種的方言。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內。