本發(fā)明屬于多語種語音合成
技術領域:
,具體涉及一種漢藏雙語跨語言語音轉換的方法及其系統(tǒng)。
背景技術:
:隨著科技的迅速發(fā)展,人工智能已逐漸進入人們的生活,而語音轉換技術是人工智能技術的重要組成部分,因此語音轉換技術是科研領域一個重要的研究方向。語音轉換技術是人工智能較新的研究方向,是一項修改源說話者的語音特征,使之具有目標說話者的語音特征。同語種語音轉換是源說話者與目標說話者說同一門語言,跨語言語音轉換是源說話者與目標說話者說不同的語言??缯Z言語音轉換就是把A說的漢語進行轉換成像B說的,使本來不會說漢語的B能夠說出漢語。通常將說話人A叫做源說話者,說話人B叫做目標說話者。也就是說跨語言語音轉換技術是將源說話人發(fā)出的目標說話人不會講的語言轉換成由目標說話人發(fā)出該語言的語音轉換技術。我國是一個具有眾多民族的大國,除了通用的漢語外,還有許多少數(shù)民族語言。其中藏族是我國有著古老歷史和文化意義少數(shù)民族之一,藏語的使用人數(shù)總數(shù)眾多,分布區(qū)域廣泛。藏語的使用人數(shù)在450萬以上,主要分布在我國甘肅、青海、西藏和四川等多個省市及不丹、印度等國家的一些地區(qū)。無論從使用人數(shù)還是從分布地區(qū)而言,藏語和漢語跨語言語音轉換的研究都具有重要的應用價值。目前在做漢藏雙語跨語言轉換的研究的并不是很多,國內主要有中國科學院和西藏大學,西北民族大學和西北師范大學在這方面進行研究,主要做的是基于波形拼接的語音合成方法,波形拼接合成方法的基本原理是根據輸入文本進行分析,得到基本的單元信息,然后從預先錄制和標注好的語音庫中挑選出合適的單元,進行少量的調整,再經過拼接,最終得到合成的語音。但是但是沒有對韻律的特征進行研究,并沒有對韻律進行控制和修改,因此語音單調自然度不高。因此對漢藏雙語跨語言語音轉換中韻律控制方法進行研究有著重要的價值。目前國內外的研究中,并沒有實現(xiàn)基于韻律控制的漢藏雙語跨語言語音轉換系統(tǒng)。技術實現(xiàn)要素:針對上現(xiàn)有技術存在跨語言語音轉換中語音的自然度不高,可懂性差的問題問題,本發(fā)明提供了一種漢藏雙語跨語言語音轉換的方法及其系統(tǒng),主要對藏語到漢語跨語言語音轉換的韻律方法進行了研究并最終實現(xiàn)漢藏雙語的跨語言轉換,不但能夠促進藏語語音信息處理技術的快速發(fā)展,而且對推動民族間語音技術的交流將發(fā)揮至關重要的作用。一種漢藏雙語跨語言語音轉換的方法,包括以下步驟:A、通過設計相應的文本語料,錄制語音語料,對所述語音語料進行切分與標注,基元歸類和目錄索引等,完成藏語拉薩話音節(jié)庫和漢語普通話韻律特征分析庫的建立;B、利用五度字調模型建立基頻模型,同時建立時長轉換模型和停頓時長轉換模型,完成韻律模型的建立;C、輸入藏語文本,利用決策樹算法從建立的藏語拉薩話音節(jié)庫中選取出合適的音節(jié),完成基于波形拼接技術的語音轉換;D、利用STRAIGHT算法對轉換的語音進行基頻,時長、停頓時長等韻律參數(shù)的修改,完成韻律控制,輸出漢語普通話語音。進一步的,所述步驟A中,所述藏語拉薩話音節(jié)庫的建立包括如下步驟:首先根據藏語進行藏語的文本語料的設計,然后根據設計的文本語料進行語音語料的錄制,再進行切分及標注得到所有的音節(jié)信息,最后對藏語拉薩話的音節(jié)進行歸類,建立目錄索引,從而完成藏語拉薩話音節(jié)庫建立。進一步的,所述步驟A中,所述漢語普通話韻律特征分析庫的建立包括如下步驟:首先根據漢語語料庫的作用進行漢語的文本語料的設計,然后根據設計的文本語料進行語音語料的錄制,再進行切分及標注得到所有的音節(jié)信息,最后對漢語的音節(jié)進行歸類,而且對雙字詞,韻律短語進行切分和標注,建立目錄索引,從而完成漢語普通話韻律特征分析庫的建立。4.根據權利要求1所述的一種漢藏雙語跨語言語音轉換的方法,其特征在于,所述步驟B包括如下步驟:首先利用歸一化非線性多項式聲調模型,建立普通話的基頻模型,利用五度字調模型建立基頻曲線,以中值音高、調域和字調的五度調值為輸入參數(shù),生成所需聲調的基頻曲線,用于指導合成普通話語音;通過統(tǒng)計同文本的漢語普通話和藏語拉薩話語料,對比分析了普通話和藏語的單音節(jié)、雙音節(jié)的時長關系,以及不同層級停頓時長關系,利用統(tǒng)計的方法建立了時長轉換模型和停頓時長轉換模型,得到韻律模型。進一步的,所述步驟C包括如下步驟:首先,輸入藏語文本,對輸入藏語的文本利用軟件翻譯成漢語,并對漢語文本進行文本分析,根據文本獲取相應的漢語音節(jié);然后,依據所得的漢語音節(jié),在該說話人的藏語拉薩話音節(jié)庫中利用決策樹查找與漢語音節(jié)發(fā)音相似的藏語音節(jié),且位置和音質最佳;最后,利用波形拼接合成技術,直接把從藏語拉薩話音節(jié)庫中的查找的音節(jié)波形級聯(lián)起來,輸出連續(xù)語流,得到初步生成語音。進一步的,所述步驟C中還包括:在輸入藏語文本的同時進行操作者的麥克風語音采集。進一步的,所述步驟D包括如下步驟:首先,利用STRAIGHT算法對初步生成語音提取音節(jié)基頻,音節(jié)時長,音節(jié)頻譜和周期索引等相關聲學參數(shù)。然后,在建立的韻律模型的指導下對提取的這些聲學進行修改,從而進行韻律控制,輸出自然度較高的漢語普通話語音。一種藏漢雙語跨語言語音轉換系統(tǒng),應用如上所述的藏雙語跨語言語音轉換的方法。進一步的,所述藏漢雙語跨語言語音轉換系統(tǒng)包括:韻律模型訓練單元,用于建立語音數(shù)據的韻律模型;韻律控制單元,用于修改初步合成語音的聲學參數(shù)。進一步的,所述律模型訓練單元包括:語音分析子單元,用于提取語音庫中語音數(shù)據的聲學參數(shù),主要提取基頻、頻譜和時長參數(shù);目標韻律模型子單元,用于確定基頻、頻譜和時長參數(shù);所述韻律控制單元包括依次相連的韻律模型子單元和語音合成子單元,根據確定的韻律模型來修改初步合成語音中的聲學參數(shù)從而完成韻律控制。本發(fā)明具有的優(yōu)點和積極效果是:藏漢雙語跨語言語音轉換方法和系統(tǒng),用于利用預先建立好的以藏語音節(jié)為基元的語料庫,對輸入的待轉換的藏語進行翻譯成漢語同時合成出漢語語音,利用本發(fā)明的方法和系統(tǒng),基本實現(xiàn)了漢藏雙語跨語言語音的轉換。與傳統(tǒng)的直接基于波形拼接技術的語音合成系統(tǒng)相比,本系統(tǒng)在訓練階段利用五度字調模型建立音調模型,利用統(tǒng)計方法建立時長轉換模型和停頓時長轉換模型,從而完成對韻律的建模,然后利用STRAIGHT對韻律參數(shù)進行修改,最終實現(xiàn)漢藏雙語的跨語言轉換中對韻律控制,提高了輸出漢語的自然度。本發(fā)明通過實現(xiàn)漢藏雙語的跨語言轉換中韻律控制,提高自然度,不但能夠促進藏語語音信息處理技術的快速發(fā)展,而且對推動民族間語音技術的交流將發(fā)揮至關重要的作用。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為一種漢藏雙語跨語言語音轉換的方法的模塊示意圖;圖2為建立藏語拉薩話音節(jié)庫和漢語普通話的韻律特征分析庫的流程圖;圖3為建立藏語拉薩話音節(jié)庫和漢語普通話的韻律特征分析庫的另一流程示意圖;圖4為模型訓練的流程示意圖;圖5為五度標記法的示意圖;圖6表示歸一化字調模型的示意圖;圖7表示韻律控制的流程圖;圖8為漢藏雙語跨語言語音轉換流程圖。具體實施方式本發(fā)明提供了一種漢藏雙語跨語言語音轉換的方法,在訓練階段利用五度字調模型建立音調模型,從而完成對韻律的建模,然后利用STRAIGHT對提取的韻律參數(shù)進行修改,最終實現(xiàn)漢藏雙語的跨語言轉換中對韻律控制,提高了輸出漢語的自然度。下面將結合本發(fā)明中的附圖,對本發(fā)明中的技術方案進行清楚、完整地描述,顯然,所描述的僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。參見圖1所示,本發(fā)明公開了一種漢藏雙語跨語言語音轉換的方法,包括以下步驟:A、通過設計相應的文本語料,錄制語音語料,對所述語音語料進行切分與標注,基元歸類和目錄索引等,完成藏語拉薩話音節(jié)庫和漢語普通話韻律特征分析庫的建立;B、利用五度字調模型建立基頻模型,同時利用統(tǒng)計方法建立時長轉換模型和停頓時長轉換模型,完成韻律模型的建立;C、輸入藏語文本,利用決策樹算法從建立的藏語拉薩話音節(jié)庫中選取出合適的音節(jié),完成基于波形拼接技術的語音轉換;D、利用STRAIGHT算法對轉換的語音進行基頻,時長,停頓時長等韻律參數(shù)的修改,完成韻律控制,輸出漢語普通話語音。所述步驟A中,所述藏語拉薩話音節(jié)庫的建立包括如下步驟:首先根據藏語進行藏語的文本語料的設計,然后根據設計的文本語料進行語音語料的錄制,再進行切分及標注得到所有的音節(jié)信息,最后對藏語拉薩話的音節(jié)進行歸類,建立目錄索引,從而完成藏語拉薩話音節(jié)庫建立。所述漢語普通話韻律特征分析庫的建立包括如下步驟:首先根據漢語語料庫的作用進行漢語的文本語料的設計,然后根據設計的文本語料進行語音語料的錄制,再進行切分及標注得到所有的音節(jié)信息,最后對漢語的音節(jié)進行歸類,而且對雙字詞,韻律短語進行切分和標注,建立目錄索引,從而完成漢語普通話韻律特征分析庫的建立。參見圖2和圖3所示,建立語音語料庫包括:首先,文本語料的設計:本發(fā)明要建立漢語普通話和藏語拉薩話兩種不同的語料庫,兩個語料庫在研究中的作用并不相同,所以語料庫中的文本語料應結合其作用特點分別進行設計。簡單來說藏語語料庫的只要作用體現(xiàn)在語音合成上,而漢語普通話的語料庫主要作用體現(xiàn)在韻律建模上,故而藏語文本語料的設計重點在藏語單音節(jié)種類上的豐富性,而漢語普通話文本語料的設計重點在詞語和句子韻律的多樣性上。1>藏語拉薩話文本語料的設計本發(fā)明主要是對藏語拉薩話進行語料設計,盡管藏語主要有衛(wèi)藏、康和安多三種方言,但是與其它藏族地區(qū)的方言相比,拉薩話具有發(fā)展快速、語音簡單清楚、表現(xiàn)力強和詞匯量巨大等一系列的特點,具有很強的代表性。更為重要的是拉薩話在藏族地區(qū)使用的人數(shù)最多、產生的影響最為深遠,是我國藏族自治地區(qū)的官方語言。需要說明的是,采用其它藏族地區(qū)的方言進行拉薩話替換的技術方案,也應包括在本發(fā)明的保護范圍之中。在藏語文本語料設計上,目前有不少介紹藏語學習的書籍,它們包含的藏語語料較為豐富如:使用頻率較高的詞語和生活言語交流中常用的句子,這些書籍能夠較大程度的涵蓋藏語中的音節(jié),其中在這些書籍中有的書本是簡單的將藏語的發(fā)音標注了最接近的漢文諧音,從而達到能夠簡單的說出藏語的目的,結合本文的研究方案,這類書籍恰好是本文藏語文本語料設計很好的選擇,但是書中標注的漢文諧音也并非是準確的,相對準確的發(fā)音在后期的錄制后,要以藏語的音節(jié)為基元進行反復回放以確定該藏語音節(jié)最后的漢文諧音。2>漢語普通話文本語料的設計漢語普通話語料庫的建立是為建立韻律模型做準備的,漢語普通話語料庫的建立是否符合科學性和多樣行,這直接關乎著接下來利用該語料庫所訓練的韻律模型是否標準。同時由于利用漢語普通話語料庫所訓練的模型正是對初步轉換的語音進行控制,所以該漢語普通話的文本語料設計也要與藏語拉薩話的文本語料保持一定的相關性。(1)單字:使單音節(jié)詞包括4個聲調,完成了漢語普通話總共800個單音節(jié)詞的設計。因為無相鄰音節(jié)的影響,它具有發(fā)音相對平穩(wěn)和調值穩(wěn)定的特點,能夠進行其靜態(tài)語音特征的研究和對比,可以較好地研究漢語普通話的聲學特征。(2)雙字詞:漢語普通話句子中出現(xiàn)的變調現(xiàn)象是根據單音節(jié)及雙音節(jié)變調現(xiàn)象發(fā)展起來的。主要對漢語普通話的四種聲調進行匹配組合,同時增加四種聲調和漢語中的第五聲調—輕聲的組合,展開對漢語普通話聲調連續(xù)性變化這一現(xiàn)象的探究和相關分析。(3)語句:為了研究在連續(xù)語音流中普通話的發(fā)音特點和詞組間的相互影響,設計的語句盡可能包括陳述句、疑問句和祈使句等多種類型。只有包含多種句式句型才能盡可能的覆蓋漢語普通話中所有的發(fā)音現(xiàn)象,為實現(xiàn)漢語普通話庫的建立奠定堅實的基礎。實現(xiàn)了漢語普通話韻律模型的創(chuàng)建。把音節(jié)作為基本單元,多數(shù)語句的長度位于3至15個單元之間,這些語句的選取需要仔細分析音韻的平衡性,從而便于應用到漢藏雙語跨語言語音轉換的韻律控制中。然后,本發(fā)明的語音語料錄制,利用錄音棚進行錄制,這為滿足獲取高質量的語音語料提供了可靠保證。同時考慮到學校內有不少藏語學生的情況,于是在校內找到發(fā)音標準的一男一女藏族學生進行藏語語音錄制。另外找普通話標準的一男一女漢語普通話標準的漢族學生進行漢語語音錄制。在環(huán)境良好的錄音棚中運用了錄音軟件cooledit、外置聲卡、專用電容話筒和電腦等相關設備完成錄音;在錄音的過程中,每隔半小時休五分鐘。錄制過程中使用電腦的屏幕提示系統(tǒng),可以極大程度地減少錄音人的工作量,避免無關噪聲。錄制的語音采用單聲道、16位采樣精度,采樣率是16kHz格式的WAV文件保存。從總體上權衡,在錄音時,需要錄音人維持平穩(wěn)的語速與音量.可以根據電腦顯示屏上呈現(xiàn)的波形實現(xiàn)語速的控制,從而使錄制的語音盡可能的達到更好的效果和滿足切分及標注的要求。最后,語音語料的切分與標注:漢語普通話和藏語拉薩話都是以音節(jié)作為基本單位的,故分析過程以音節(jié)為基元展開分析,因此需要把錄制的每個藏語語句和漢語語句進行切分得到全部的音節(jié),也就是把每個音節(jié)的起始時間點和結束時間點標注出來,劃分為音節(jié)單位。對于每句藏語語句完成音節(jié)邊界的標注后,使用標注軟件把字對所有音節(jié)中的名稱、時長、基頻曲線和聲調等相關信息進行了標注,然后采用手工校對的方法完成校準,最終把音節(jié)的標注信息、位置信息和韻律邊界等信息都寫進標注文件里。其中漢語的雙字詞,韻律短語也直接按上述步驟進行標注,然后再進行對音節(jié)的切分標注。漢語普通話的韻律特征分析庫就算完成了。所述步驟B包括如下步驟:首先利用歸一化非線性多項式聲調模型,建立普通話的基頻模型,利用五度字調模型建立基頻曲線,以中值音高、調域和字調的五度調值為輸入參數(shù),生成所需聲調的基頻曲線,用于指導合成普通話語音;通過統(tǒng)計同文本的漢語普通話和藏語拉薩話語料,對比分析了普通話和藏語的單音節(jié)、雙音節(jié)的時長關系,以及不同層級停頓時長關系,利用統(tǒng)計的方法建立了時長轉換模型和停頓時長轉換模型,得到韻律模型。參見圖4所示,藏漢跨語言語音轉換系統(tǒng)中韻律模型建立,利用歸一化非線性多項式聲調模型,建立普通話的基頻模型。通過統(tǒng)計方法,建立時長轉換模型和停頓時長轉換模型。1>漢語普通話和藏語拉薩話都是具有聲調這一特性的語言,聲調可以反映出說話者的諸多喜怒哀樂等情緒變化?;l曲線是聲調參數(shù)的最為直觀的表現(xiàn),因為聲調參數(shù)在連續(xù)語流中變化復雜,與此同時涵蓋了發(fā)音實體情感、語音、語法等各種不同的信息,所以基頻成為韻律參數(shù)中最重要的研究對象。精確的基頻模型在語音合成和語音識別的研究中起至關重要的作用,繼續(xù)對高質量基頻模型進行研究刻不容緩。所謂模型就是利用數(shù)學的方法分析出合理恰當?shù)囊幌盗袇?shù),這些參數(shù)可以很好的反映出語音信號的聲調走勢,也就是刻畫出基頻曲線。分析出高精確度的參數(shù),能夠使所建立的聲學模型較好的去逼近事實上的基頻曲線。對于基頻建模的研究,本文主要從參數(shù)化模型中的五度字調模型進行研究。把說話人的聲調劃定為五個不同的調值,即為陰平、陽平、上聲、去聲以及基調,這是五度字調模型的中心思想。盡管由于性別、年齡的不同,音高變化也不相同,但所有的音高值都在一個基準值范圍上下波動,這個基準值就稱為音高基準值,并且音高變化范圍也是相對穩(wěn)定的。五度標記法是由趙元任先生提出的,如圖5所示,圖中有五條間距相等的水平橫線,并從下到上分別視作為五個音高的調值線,同時三條垂直線將五條線切分為四個區(qū)域,即認為每個區(qū)域內都有一條表示為不同聲調走勢的線條。不同人由于個體生理不同導致其發(fā)音的音高值不同,但是其聲調的走勢變化都是符合五度字調的。我們采用歸一化五度字調模型來刻畫出不同調值的基頻曲線,公式表示如下,F(xiàn)0i(t)=log-1[fc+fd*f0i(t)]f0i(t)=at4+bt3+ct2+dt+e其中,i代表陰、陽、上、去四種聲調;t代表范圍為[0,1]歸一化時間;F0i(t)代表生成的基頻曲線;log-1[]代表以10為底的對數(shù)的逆運算;fc表示用取對數(shù)后的中值基頻,其主要體現(xiàn)嗓音的高低;fd代表對數(shù)表示的基頻變化的調域;f0i(t)是由{a,b,c,d,e}五個參數(shù)表示的四次曲線。五度字調模型是由{a,b,c,d,e,fc,fd}七個模型參數(shù)決定的基頻曲線,當然也是一種參數(shù)化的語音基頻模型。如圖6所示,為歸一化的五度字調模型的結構圖:由于基頻在一定的范圍內,我們從主觀聽覺上判斷音高的大小,實際上并不是與頻率值成正比關系的,而是與頻率值的對數(shù)成正比關系。特別是在韻律研究中,不同音高間的關系比起音高的基頻值甚至更為重要,故而本發(fā)明在五度字調模型的基礎上,對分析參數(shù)全部取對數(shù)。2>時長轉換模型和停頓時長轉換模型:通過統(tǒng)計同文本的普通話和藏語語料,對比分析了普通話和藏語的音節(jié)的時長關系,以及不同位置的停頓時長關系,利用統(tǒng)計的方法建立時長轉換模型和停頓時長轉換模型。(1)時長轉換模型:從建立好的語料庫中,分別選取漢語普通話和藏語拉薩話的單音節(jié)進行統(tǒng)計分析,統(tǒng)計每種聲調單字的時長均值,進而得到拉薩話和普通話聲調時長的比值關系。建立下式所示的時長轉換模型。Tp=Δ·Tz式中,Tp代表轉換后的語音的音節(jié)時長;Tz代表藏語音節(jié)的時長,Δ為變換系數(shù),由拉薩話和普通話的時長比值關系確定。(2)停頓時長轉換模型:一句話的語音流中是有停頓的,其中停頓的時長隨著停頓位置不同而不同,本專利以處于不同位置的韻律詞之間的停頓時間作為語句的停頓時長,將韻律詞在句中處于的位置分為句首、句中和句尾。在此基礎上停頓時長被分為三種,分別是句首到句中的停頓時長,句中到句中的停頓時長,句中到句尾的停頓時長。利用統(tǒng)計方法得到普通話的停頓時長,并與初步合成的漢語普通話的停頓時長進行對比求出比值關系,建立如下式所示的停頓時長轉換模型。Tpt=Δ·Tzt式中,Tpt代表轉換后的語音停頓時長;Tzt代表以藏語音節(jié)為基元進行拼接初步合成漢語普通話的停頓時長;Δ為變換系數(shù)。所述步驟C包括如下步驟:首先,輸入藏語文本,在輸入藏語文本的同時進行操作者的麥克風語音采集;對輸入藏語的文本利用軟件翻譯成漢語,并對漢語文本進行文本分析,根據文本獲取相應的漢語音節(jié);然后,依據所得的漢語音節(jié),在該說話人的藏語拉薩話音節(jié)庫中利用決策樹查找與漢語音節(jié)發(fā)音相似的藏語音節(jié),且位置和音質最佳;最后,利用波形拼接合成技術,直接把從藏語拉薩話音節(jié)庫中的查找的音節(jié)波形級聯(lián)起來,輸出連續(xù)語流,得到初步生成語音。具體的,拼接合成語音。首先,文本翻譯與分析。利用軟件對藏語文本翻譯成對應的漢語文本,并將得到待轉換的漢語文本進行文本分析,得到其對應的音節(jié)等相關信息,從而得到里面的音節(jié)和邊界等相關信息。文本分析(TextAnalysis)是進行語音轉換的首要工作,首先分析輸入的漢語文本,為后面進行下一步的處理提供相關的信息,如讀音和停頓等相關信息[i]。就現(xiàn)在語音轉換技術的現(xiàn)狀而言,文本分析是限制轉換后語音音質一個關鍵的因素。文本分析器需要根據模塊化的方法進行建立,每個模塊中出現(xiàn)的問題能夠進行相對孤立地分析,采用不同的方法來處理出現(xiàn)的每個問題,能夠靈活地將新的方法或相關模塊加入到轉換過程中來。從下表中可以看出文本分析總共分為以下五個部分:表1文本分析各個模塊介紹然后,在所建立的語料庫中利用決策樹來查找音節(jié)。本發(fā)明把藏語拉薩話為研究對象,以藏語的音節(jié)為基元建立了藏語的音節(jié)庫。根據待轉換的漢語進行文本分析得到全部的音節(jié)信息,然后得到選取發(fā)該音的音節(jié),利用決策樹算法選取出位置和音質最好的聲韻母,廣泛的決策樹不僅能把語境特征與聲學特征類似的候選基元分成一類,還可以很好地處理數(shù)據稀疏的問題。所以,為解決藏語語音中人工聽辨方法缺點的問題,采用決策樹可以有效地選擇合適的基元。首先,采用決策樹把藏語語句中的音節(jié)根據所在句子中的語境信息進行聚類,這樣就將有共同語境信息的音節(jié)位于決策樹的同一葉子結點。因為決策樹是采用原始的藏語語句建立的,在決策樹葉子結點中的基元具有相同的語境特征,它們最滿足該基元在藏語語句中的語境信息,所以能夠用來替代同種語境下人工聽辨得到的結果,進而糾正人工聽辨方法的缺點。分類與回歸樹在語音合成中廣泛采用的一種基元選擇方法,在它的每個結點下都有一個“是/否”問題,那些可以進入根結點的候選基元必須回答這個結點上的問題,按照回答問題的結果選擇進入相應的枝。最后,全部位于根結點的候選基元都按照對這些結點問題的回答選取相應的葉子結點。將位于相同葉子結點的候選基元看作擁有類似的語境特征與聲學特征。決策樹算法是基于數(shù)據驅動與基于知識這兩種方法的融合。最后,利用波形拼接合成法初步合成語音。它可以合成出高自然度和高清晰度的語音。波形拼接合成通常采用的是一個大型的語料庫,里面包括的拼接基元全部取自于自然語音。在進行拼接合成時,要按照文本和韻律分析的結果,從構建的語音庫中選擇恰當?shù)暮蜻x基元,使用一定的算法實行合適的調整(或不進行調整),采用波形拼接的方法得到合成語音。所述步驟D包括如下步驟:首先,利用STRAIGHT算法對初步生成語音提取音節(jié)基頻,音節(jié)時長,音節(jié)頻譜和周期索引等相關聲學參數(shù)。然后,在建立的韻律模型的指導下對提取的這些聲學進行修改,從而進行韻律控制,輸出自然度較高的漢語普通話語音。具體的,韻律控制:韻律控制利用STRAIGHT算法來實現(xiàn)。STRAIGHT算法即基于自適應加權譜內插的語音轉換和重構算法,在二十世紀九十年代初由日本研究者河原英紀提出的,是一種比較準確的語音分析和語音合成的方法。其核心思想來自于聲碼器,對語音信號的短時譜采用時頻域的自適應內插平滑法獲得準確的譜包絡,把語音信號進行分解,得到互相分離的頻譜參數(shù)與基頻參數(shù),并且可以很方便的修改語音信號的基頻、非周期索引和平滑時頻譜等相關參數(shù),修改語音參數(shù)后使得合成語音的音質有所提高,具有很高的重建語音音質的優(yōu)點。如圖7所示,為韻律控制的流程圖:1>對輸入的普通話語音,利用STRAIGHT算法計算出基頻包絡(Fo)、非周期索引(APB和平滑時頻譜(SPEC)。其中Fo是一維數(shù)組,保存每一幀語音信號的基頻值,0表示清音幀。AP和SPEC為二維數(shù)組。AP保存每一幀語音不同頻率分量的周期成分和非周期成分的比值,SPEC保存每一幀語音的頻譜。在修改基頻時,利用每個音節(jié)的邊界信息,在Fo數(shù)組中找到當前音節(jié)的基頻起點和基頻終點,并確定基頻包絡的長度。然后根據韻律邊界信息判斷當前音節(jié)是單字詞、雙字詞前字還是雙字詞后字,調用相應的普通話基頻模型,產生相應長度的的基頻包絡,并利用基頻補償模型調整后,代替Fo中該音節(jié)的原始基頻包絡。a、基頻的提取在STRAIGHT算法模型里,先進行基頻的提取,通過得到的基音頻率計算基音周期。Gabor濾波器在頻率方面具有很好的分辨率,因此采用Gabor濾波器進行語音波形的分析,濾波器將輸入的語音信號進行分解,得到復雜的信號D(t,τ0)。D(t,τ0)=|τ0|-1/2∫-∞∞s(t)gAG(t-uτ0)‾du]]>gAG(t)=g(t-14)-g(t+14)]]>g(t)=e-π(tη)2e-j2πt]]>在每個τ0附近計算得到輸出M(t,τ0),下面是對“基本性”M的定義:M=-lg[∫Ω(d|D|du)2du]+lg[∫Ω|D|2du]-lg[∫Ω(darg(D)du)2du]+2lgτ0+lgΩ(τ0)]]>式中:D表示時域信號經Gabor變換后得到的特征集;表示AM調幅程度;lg[∫Ω|D|2du]表示信號總能量;表示FM調頻程度;lgΩ(τ0)表示時域融合間隔因子(τ0是與D對應的信道中心頻率);2lgτ0表示頻率平方。在實際的語音信號中,基頻軌跡會存在某些較快的變化,這些變化會帶有韻律信息,而且會對指數(shù)M產生一定的影響。為此修改上式為:M=-lg[∫Ω(d|D|du-μAM)2du]+lg[∫Ω|D|2du]-lg[∫Ω(darg(D)du-μFM)2du]+2lgτ0+lgΩ(τ0)]]>μAM=1Ω∫Ω(d|D|du)]]>μFM=1Ω∫Ω(d2arg(D)du2)]]>則瞬時頻率f0=ω0(t)/2π上式中,ω0(t)=2fsarcsin|yd(t)|2]]>yd(t)=D(t+Δt/2,τ0)|D(t+Δt/2,τ0)|-D(t-Δt/2,τ0)|D(t-Δt/2,τ0)|]]>fs是模擬信號進行數(shù)字化時的抽樣頻率。b、光滑聲道譜的提取首先,把語音信號s(t)進行短時傅里葉變換F(n,ω)=FFT[s(t)ω(t)]=S(ω)*W(ω)式中,然后,光滑聲道譜S(n,ω)=g-1(∫∫Dht(λ,τ)g(|F(ω-λ,t-λ)|)2dλdτ)]]>上式中,函數(shù)g(.)是在進行插值操作時需要保留的性質。c、語音的重構STRAIGHT算法進行語音合成時,采用的是最小相位沖擊響應與基頻同步疊加的方法[57]。(1)語音信號的基頻(F0)。(2)語音信號的二維譜包絡(s(n,ω))。合成語音信號y(t)的基本公式為:y(t)=Σti∈Q1G(f0(ti))vti(t-T(ti))]]>vti(t)=12π∫-∞∞V(ω,ti)Φ(ω)ejω(t)dω]]>T(ti)=Σtk∈Q,k<i1G(f0(tk))]]>上式是基音同步疊加的過程:其中Q是基音同步點的集合;T(ti)是基音同步位置的實現(xiàn)過程。函數(shù)G(f0(ti))是對基頻的修正,可以為任意方式的映射關系。上式是計算每幀語音信號沖擊響應。全通濾波器Φ(ω)可以用來附加對相位的控制,對聽覺具有一定的改善效果。V(ω,ti)是最小沖擊響應的傅里葉變換,它能夠由上面平滑譜運算得到,這樣就可以使用基于倒譜變化的方法進行轉換,把一般的相位譜轉換成最小相位譜。計算公式如下:V(ω,i)=exp(12π∫0∞ht(q)ejwqdq)]]>ht(q)=0(q<0)ct(0)(q=0)2ct(q)(q>0)]]>ct(q)=12π∫-∞∞e-jwqlogAdω]]>A=A(S(u(ω),r(t)),u(w),r(t))上式中q是倒譜,A(),u()和r()分別是對S(u(ω),r(t))在幅度、頻率與時間軸上的修改。全通濾波器Φ(ω)通過對最小相位沖擊響應的傅里葉變換V(ω,t)附加一定的相位信息完成對聽覺的改善,主要是在高頻分量增加隨機相位完成的。全通濾波器Φ(ω)是采用隨機數(shù)與群延時計算取得的,由于經過群延時修改時域結構要比直接采用相位特征修改時域結構更加清晰。假設n(t)是高斯白噪聲,Ws(t)是頻率域空間里的加權函數(shù)。目標延遲函數(shù)d4(ω)可以通過下面的計算公式得出:d4(ω)=dgx(ω)12π∫-ππ|x(ω)|2dω]]>x(ω)=ρ(ω)F-1(Ws(τ)N(τ))Ws(τ)=|τ|exp(-π(τ/τbω)2)其中N(τ)是運用n(ω)計算得出的初始隨機群延時函數(shù),該函數(shù)是偶函數(shù),F(xiàn)-1()是傅里葉逆變換。通過d4(ω)積分就能計算全通濾波器Φ(ω)。2>時長和停頓時長的修改方法,通過對普通話語音的時間軸(原時間軸)和轉換語音的時間軸(目標時間軸)進行插值,獲得時間映射表。首先根據音節(jié)邊界信息獲得普通話語音各個音節(jié)的邊界位置,作為原時間軸的關鍵點;然后利用時長轉換模型和停頓時長轉換模型計算轉換后語音的各個音節(jié)的時長和邊界位置,作為目標時間軸的關鍵點;最后,根據原時間軸和目標時間軸關鍵點對目標時間軸進行插值,獲得時間映射表。在STRAIGHT合成時,根據時間映射表,通過重復或者刪除相應的幀來修改時長。本發(fā)明還公開了一種藏漢雙語跨語言語音轉換系統(tǒng),應用如上所述的藏雙語跨語言語音轉換的方法。所述藏漢雙語跨語言語音轉換系統(tǒng)包括:韻律模型訓練單元,用于建立語音數(shù)據的韻律模型;韻律控制單元,用于修改初步合成語音的聲學參數(shù)。所述律模型訓練單元包括:語音分析子單元,用于提取語音庫中語音數(shù)據的聲學參數(shù),主要提取基頻、頻譜和時長參數(shù);目標韻律模型子單元,用于確定基頻、頻譜和時長參數(shù);所述韻律控制單元包括依次相連的韻律模型子單元和語音合成子單元,根據確定的韻律模型來修改初步合成語音中的聲學參數(shù)從而完成韻律控制。綜上所述,本發(fā)明的操作流程為:如圖8所示,首先說話人對著麥克風發(fā)出藏語語音,同時在PC機上輸入藏語文本,然后PC機上的該發(fā)明系統(tǒng)對文本進行分析操作,最終輸出該類似該說話人發(fā)出的漢語語音。首先是把待轉換的藏語文本翻譯得到對應的漢語文本,將漢語文本進行文本分析獲得所有的音節(jié),再查找已建立好目錄索引的藏語拉薩話音節(jié)庫;其中選取合適的藏語基元是通過決策樹來進行的,決策樹的建立依賴于基元的頻譜距離和語境相關的問題集。對于待轉換成的目標漢語語句,利用決策樹算法選擇最符合語境信息的音節(jié),選取發(fā)該音節(jié)位置和音質最合適的音節(jié),然后利用波形拼接合成法初步合成漢語普通話語句。值得注意的是這時的漢語普通話是以藏語拉薩話語料庫中的音節(jié)為基元通過波形拼接合成的,其實質上還是藏語拉薩話。然后利用文本分析得到初步合成的漢語普通話語句的各個音節(jié)的調值信息和韻律邊界信息,通過STRAIGHT算法,提取出該語句的音節(jié)基頻、音節(jié)時長、音節(jié)頻譜和非周期索引等聲學參數(shù),利用在韻律模型訓練階段所確定的基頻模型修改初步合成語句的音節(jié)基頻曲線,同時利用時長轉換模型和停頓時長轉換模型來完成修改初音節(jié)時長和停頓時長的修改。最后,再利用STRAIGHT算法修改后的基頻信息、時長信息和停頓時長信息,最終實現(xiàn)藏語拉薩話到漢語普通話中的韻律控制。上述所述的方法過程可通過程序指令相關的硬件完成,所述的程序可以存儲在可讀取的存儲介質中,該程序在執(zhí)行時執(zhí)行上述方法中的相應步驟。為了說明本發(fā)明采用的方法與其他方法的優(yōu)越性,評估基于韻律控制的漢藏雙語跨語言語音轉換后的語音質量,將其與直接利用波形拼接進行的漢藏雙語跨語言語音轉換的語音進行比較。采用MOS評測和DMOS評測來判斷好壞。MOS評測主要測試韻律控制后漢語語音的自然度和音質效果,DMOS評測主要測試轉換后漢語語音的相似度。a、MOS評測表2MOS得分的評測標準一次MOS得分結果可以采用下面的加權平均公式進行計算:MOS=1MΣi=15miscorei]]>其中M和mi分別為總票數(shù)和等級分的票數(shù)scorei為等級分,scorei=1,2,3,4,5。此外,能夠更好的反映MOS評測得分的偏離程度,還可以計算評測得分的標準偏差,計算公式表示如下:σ=1MΣi=15mi(scorei-MOS)2]]>對輸出的未進行韻律控制的漢藏雙語跨語言語音轉換語音和基于韻律控制的漢藏雙語跨語言語音轉換輸出的語音各取20句,這20句語音漢語意思是近似相等的的,經過MOS評測得到的結果得到,輸出的基于韻律控制的漢藏雙語跨語言語音轉換的MOS評分要前者。說明了對藏語拉薩話到漢語普通話跨語言語音轉換中進行韻律控制后,能夠有效的提高轉換語音的自然度和音質。b、DMOS評測,即評價轉換后的漢語普通話與原始的漢語普通話是否相似。參加DMOS評測的人及評測的標準和MOS評測是類似的,也是采用的5級判分標準,得分為5表示轉換的語音和原始漢語普通話非常相似;得分為1表示轉換的語音和原始漢語差別非常大,DMOS評測主要關注語音的相似度。兩組語音的DMOS評測的結果為4.1和3.6,所以對漢藏雙語跨語言語音轉換中進行韻律控制的可以使得語音要更加接近目標說話人的漢語普通話。評測結果顯示,基于韻律控制的漢藏雙語跨語言語音轉換方法及裝置,達到了提高語音的自然度和音質的目的。以上內容是結合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬
技術領域:
的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬于本發(fā)明的保護范圍。當前第1頁1 2 3