專利名稱:基于波形編輯的漢語文字-語音轉換方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明屬于信號處理技術領域,特別涉及漢語文字-語音轉換技術。
語音是信息交流的工具,自然語音(人發(fā)音)的清晰度高,易于理解。在人機交互中,以語音方式傳遞信息方便,自然,需求也日益迫切。國內外均開展了機器合成語音,文字-語音轉換的研究。文字-語音轉換是語音合成技術的延伸,它先把文字串變成發(fā)音參數(shù)控制序列,然后利用語音合成技術讓機器或計算機輸出聲音。
已有的一種漢語文字-語音轉換方法如
圖1所示。該方法首先將輸入的字符串經(jīng)字符-參數(shù)轉換,變成發(fā)音參數(shù)控制串,然后從語音參數(shù)庫中取出語音參數(shù)(通常的語音參數(shù)為LPC系數(shù)或共振峰參數(shù)),再利用激勵源的激勵信號,通過語音合成法得到語音數(shù)據(jù)序列,經(jīng)D/A轉換,最后輸出語音流。
這種基于參數(shù)(LPC或共振峰)的語音輸出方法自然度較差,因為有限參數(shù)很難適應語音的細微變化,特別是此方法對聲母的共振峰參數(shù)和激勵信號的描述還欠完善,共振峰參數(shù)修改較為復雜,難于實時進行,另外該方法的文-語轉換沒有包括基于語音的分詞算法,影響了輸出語音的自然度和可理解性。
本發(fā)明的目的在于克服已有技術的文-語轉換方法的不足之處,提出一種基于波形編輯的漢語文字-語音轉換方法及其系統(tǒng),具有輸出語音自然度高,可理解性好的特點。
本發(fā)明提出的一種基于波形編輯的漢語文字-語音轉換方法,其特征在于包括以下步驟(1)首先將輸入的漢字內碼或拼音串按語音分詞法分割成詞或詞組串,在詞間插入停頓符;
(2)所說的詞或詞組串再按音變、調變規(guī)則處理,生成帶語音特性標注的音元波形索引串;
(3)建立音元波形數(shù)據(jù)庫,根據(jù)所說的音元波形索引串到所說的音元波形數(shù)據(jù)庫中取出相應的音元波形;
(4)再對所說的音元波形進行編輯,即修正音元波形的音強、音高、音長,得到語音數(shù)據(jù)序列。
本發(fā)明所說的語音分詞法包括正向掃描極大匹配法,連續(xù)單字詞的“二三原則”組詞法,字粘組詞法,歧義詞串的逆向最大詞匹配分詞法,所說的正向掃描極大匹配法是建立分詞詞庫,將所說的輸入的漢字內碼或拼音串從句首向后逐字,假設分割點形成詞,與詞庫中詞匯匹配,所說的連續(xù)單字詞的“二三原則”組詞法是指當連續(xù)單字詞個數(shù)超過四個時,按二三原則組成組詞,所說的字粘組詞法是建立標有虛詞粘詞規(guī)則的虛詞庫,按虛詞庫中粘詞規(guī)則將詞匯串中的虛詞與其前、后的詞粘在一起,所說的歧義詞串的向后最大詞匹配分詞法是指從歧義詞串的最后一個字節(jié)開始,向前逐步加字匹配,找到最長詞的結束點。
本發(fā)明所說的音變、調變處理包括以下步驟1)把文本分詞后的字符串用它的漢字發(fā)音來替換的文本替換;2)利用多音字詞典,將所說的字符串標出正確的發(fā)音的多音字處理;3)利用建立的音變、調變規(guī)則庫使所說的字符串生成帶發(fā)音特性標注的音元索引串。
本發(fā)明是建立在波形編輯方法上的針對漢語實現(xiàn)的文字到語音的轉換方法,包括語音分詞法,音變調變處理,建立音元波形數(shù)據(jù)庫以及音元波形編輯幾部分。如圖2所示,下面分別對各組成部分進行詳細描述。
語義分詞是漢語自然語言理解的基本課題,考慮漢語文-語轉換要求而設計的語音分詞法,在技術上有獨到之處,本發(fā)明中的語音分詞法工作流程如圖3所示,其特征之一是分詞是采用正向掃描極大匹配方法。特征之二在于分詞后再采用字粘法,合成發(fā)音短語。特征之三在于歧義詞串內的逆向最大詞匹配分詞法。特征之四在于對非登錄詞處理。
所說的正向掃描極大匹配法是從句首向后掃描,在確定詞界限時是從當前字向后按最大詞匹配,把句子分成詞或詞組串。其工作流程如圖4。與本語音分詞法相匹配,建立分詞詞庫,庫中包括二字詞,三字詞和四字詞。所說的掃描指的是逐字假設分割點,形成詞,與詞庫中詞匯匹配。
所說的極大匹配指的是,在掃描中按極大匹配確定不可以再分的字符串的原則。例如語句“原子在反應中化合成分子”經(jīng)上述正向掃描極大匹配法,掃描匹配的過程如下比較 結果原子 "原子"是詞原子在 "原子在"、"子在"不是詞,確定"原子"是詞在反 "在反"不是詞在反應 "在反應"不是詞,"反應"是詞,確定"在"是單字詞反應中 "反應中"不是詞,確定"反應"是詞中化 "中化"不是詞中化合 "中化合"不是詞,"化合"是詞,確定"中"為單字詞化合成 "化合成"、"合成"是詞化合成分 "化合成分","合成分"不是詞,"化合","成分"是詞化合成分子 "化合成分子","合成分子"不是詞,"化合","合成""成分""分子"是詞;因此"化合成分子"是一個按極大匹配得到的歧義詞串。
分割的結果是原子 在 反應 中 化合成分子。“原子”“反應”是兩個二字詞,“在”,“中”為兩個單字詞,“化合成分子”是暫不能再分的歧義詞串。
所說的字粘法指的是把某些副詞與緊挨著它的詞粘在一起,形成短語,使語流停頓適當,改善聽音效果。比如上句中的“的”字,應和它前面的詞粘在一起發(fā)音,這樣才能更符合人類的發(fā)音習慣。本發(fā)明中建立了虛詞庫,庫中標出這些虛詞的粘詞規(guī)則(與前詞粘,還是與后詞粘)。
所說的歧義詞串的逆向最大詞匹配分詞法,是在正向掃描極大匹配分詞確定為歧義詞串后,再用逆向最大詞匹配將其分成詞。工作過程是從歧義詞串的最后一個字節(jié)開始向前逐步加字匹配,找到最長詞的結束點,即為最大詞結束。如上例“化合成分子”劃分為“組合成”和“分子”兩個詞。
所說的對非登錄詞處理,指的是非登錄詞在分詞時被分為單字詞。本發(fā)明中,設計了“二三原則”。當連續(xù)單字詞數(shù)超過四個時,按“二三原則組詞,然后讀出。設連續(xù)單字詞數(shù)為N,二三原則組詞個數(shù)為W則W=2×取整( (N)/5 )+取整{0.3×[ (N)/5 -取整( (N)/5 )]}舉例 N W 組合方式 組合詞數(shù)5 0 2,3 2+06 2 3,3 2+取整
7 3 2,3,2 2+取整
8 3 2,3,3 2+取整
9 4 2,3,2,2 2+取整
10 4 2,3,2,3 411 4 2,3,3,3 4+取整
12 5 2,3,2,3,2 4+取整
13 5 2,3,2,3,3 4+取整
14 6 2,3,2,3,2,2 4+取整
15 6 2,3,2,3,2,3 6本發(fā)明中的語音分詞方法分詞速度快,每秒可分幾千個詞,由于它考慮了語音輸出的特點,因而對后續(xù)音變,調變處理奠定了良好基礎,對提高輸出語流的自然度做出極大貢獻。
音變調變處理包括文本替換、多音字處理、變音、變調等。
文本替換指的是把文本用它的漢字發(fā)音來替換,如把“%”替換成“百分之”,“÷”替換成“除以”等。多音字處理的目的是使一字多音的漢字在相應的詞中得以正確發(fā)音。如“正”在“正好”中讀zhèng,在“正月”中讀zhēng。多音字處理的工作過程是先建立多音字詞典,在字典中列出帶多音字的詞匯,并標注其發(fā)音。在文-語轉換系統(tǒng)中,字符串被分詞后,到多音字詞典中查出正確的發(fā)音。變音、變調是指在語聲流中,按發(fā)音規(guī)則發(fā)生的聲音的變化,這種變化有以下幾種(1)變調每個單獨的音節(jié)有確定的音調,但在詞組中,由于相鄰音節(jié)發(fā)音的影響,音調發(fā)生變化。如上聲相連時,前面的上聲近似陽平,三個上聲相連時,前兩個上聲近似陽平。
(2)弱化弱化就是把語流中的某些音節(jié)讀成輕聲,如“你的”中的“的”,“杯子”中的“子”,“爸爸”中的第二個“爸”。
(3)強化強化就是把語流中的某些音節(jié)加強,讀成重音。如“努力學習”中的“努力”。
(4)兒化漢語中的音節(jié)帶有兒化韻尾,產(chǎn)生了兒化韻,如“花兒”。
(5)音聯(lián)音變語流中,相鄰聲、韻母,相鄰音節(jié)在發(fā)音過程中互相影響,發(fā)生了音變。
(6)語調與音節(jié)韻律漢語有多種語氣,如疑問(?)、祈使(。)、陳述(。!)和感嘆(!)語氣。一種語氣又有不同的情態(tài),語氣情態(tài)的變化反映在句中各音節(jié)的音調變化上。
以上僅列出有關音變、調變規(guī)則的部分例子,而大量的規(guī)則和實例是由語言學家們研究、歸納出來的。本發(fā)明特征之一是將那些規(guī)則應用于漢語文字-語音轉換系統(tǒng)中。特征之二是音變、調變規(guī)則的實施。文獻上的參數(shù)語音合成多是修改LPC或共振峰參數(shù)。而在本發(fā)明中,建立了音變、調變的規(guī)則庫,然后經(jīng)處理程序,生成帶發(fā)音特性標注的音元索引串,音元索引是按發(fā)音規(guī)則生成的音元波形數(shù)據(jù)庫中的音元地址。發(fā)音特性標注的特征在于在音元索引串中插入發(fā)音特征的字符或數(shù)字說明,它包括a、停頓標注停頓標注分為聲韻母間、音節(jié)間、詞間、句間、段間五種。
b、發(fā)音基本特性標注這是指發(fā)音的強度,速度和音高標注,它們是互為獨立的參數(shù)。
c、音變特性標注這里指發(fā)音的強調、弱化、兒化、音聯(lián)音變特性。強調指中心詞或重音。
d、語調特性,這里指語句語調標注;語調標注的依據(jù)是句尾的標點符號。
句尾標點符號 語氣 語調特性 例句 疑問 強升調 你是張老師嗎 . 陳述,祈使 平調 這是張老師.
! 祈使,感嘆 弱升調 停止前進!天氣真好呀!本發(fā)明的音元指音元波形數(shù)據(jù)庫中一個數(shù)據(jù)項。它可以是一個音節(jié)波形的數(shù)據(jù),也可以是一個聲母、一個韻母、一個拼音過渡段數(shù)據(jù)。它是音元波形編輯的基本單位。
本發(fā)明的音元波形數(shù)據(jù)庫其特征之一在于當音元波形是以音節(jié)為單位時,它包括漢語的單音節(jié)正常發(fā)音、輕聲、二字詞的前音節(jié)和二字詞的后字節(jié)。需要輸出語音時,根據(jù)發(fā)音規(guī)則,取出相應的音節(jié)波形數(shù)據(jù)進行編輯拼接。
音元波形數(shù)據(jù)庫,其特征之二在于當音元波形是小于音節(jié)的音元時,音元波形可能是韻母半音節(jié)、聲母半音節(jié)或韻-聲過渡段。需要輸出語音時,根據(jù)分詞結果和語音特性標注,取出相應的音元波形數(shù)據(jù),由音元波形編輯方法進行編輯拼接。
本發(fā)明的音元波形編輯方法是按發(fā)音特性標注,修正音元波形的音強的輕/重、音高的低/高、音長的短/長;以提高輸出語流的自然度。
具體工作如下a、語音基本參數(shù)設置。在實行音元波形編輯前,先設置語音的基本參數(shù)。即按系統(tǒng)要求或發(fā)音基本特性標注,設置語音的強度、速度和音高。通常每個標注參數(shù)可分為M等級(M為正整數(shù),如M=10),系統(tǒng)設置為1~M范圍內任一整數(shù)。
b按停頓標注,在音元波形中插入無聲間隔。本發(fā)明中停頓共分五種,如前所述。其無聲間隔由短到長的順序是聲韻母間、音節(jié)間、詞間、句間、段間。
c、音變處理,按音變特性標注,修正詞或短語中音元波形強度、長短、音高及音強的時域包絡。稱之為“音元波形變音法”,具體標注和相應的處理如下
標注 處理中心詞、重音 提高音強、音高、加長音長弱化 降低音強、音高、縮短音長兒化 修改波形的時域包絡音聯(lián)音變 按音變要求,從音元波形數(shù)據(jù)庫中讀取指定波形,并加以修正。
d、語調修正根據(jù)語調特性標注,修正音元波形,稱之為“音元波形變調算法”。
漢語語調變化,反映在各音節(jié)的聲調變化上。人在講話時,以詞或詞組為停頓單元,以詞組或句子為理解單元,本發(fā)明的語調修正方法是根據(jù)句尾標點符號所確定的語氣,修正句尾之前的3~5個音節(jié)的音高,即修正從句尾向前的兩個詞或短語的音高。具體方法是語調 修正方法強升調 修正聲調音節(jié)向后依次提高聲調△%弱升調修正聲調音節(jié)向后依次提高聲調 (△)/2 %降調修正聲調音節(jié)向后依次降低聲調 (△)/2 %設平調標注為6,聲調變化范圍為10,修正聲調音節(jié)個數(shù)為N。
則聲調增量△= 4/(N)e、平滑濾波在實現(xiàn)波形編輯時,完成波形的剪切,拼接,并進行平滑濾波,平滑濾波就是對新拼接成的語音數(shù)據(jù)進行濾波,以保證語音特性不突變,稱之為“特性連續(xù)波形修正方法”,如音強平滑方法,具體做法是在語音拼接點n的前和后各取N個語音數(shù)據(jù),計算其平均幅度,MF= 1/(N)Σi=n-N+1nS(i)]]>和MB= 1/(N)Σi=n+1N+nS(i)]]>然后計算它們的平均相對幅度差,
若E為正,且E> 1/3 ,修正拼接點前的波形;
若E為負,且E<- 1/3 ,修正拼接點后的波形,具體算法是S(i)=(1-|E|)·S(i) n-N+1≤i≤n當E> 1/3或n+1≤i≤N+n當E<- 1/3本發(fā)明的語音生成方法,不再是建立在參數(shù)合成方法基礎上,而是直接對語音的時域波形數(shù)據(jù)進行編輯,因此它的計算量小、語音自然度高。漢語音節(jié)特征明顯,音變調變規(guī)律復雜多變,協(xié)同發(fā)音對語音流的自然度,可理解性影響大,故本發(fā)明音元波形數(shù)據(jù)庫以音節(jié)、半音節(jié)、拼音過渡段為音元。
本發(fā)明語音分詞法區(qū)別于語義分詞,它考慮到人類聽音過程中的理解特點,較好地解決了分詞算法,歧義字串處理,連續(xù)單字詞處理,短語合成等問題,使分詞結果給語音理解、音變、調變處理奠定了良好基礎。
本發(fā)明音變,調變處理,充分考慮到人類發(fā)音講話的習慣,確定音節(jié)在語流中的正確發(fā)音。音元波形編輯算法是以軟件方法修改音元波形,以獲得連續(xù)自然的語聲流。
本發(fā)明設計出采用所述方法的漢語文字語音轉換系統(tǒng),其特征在于由通用計算機,通過計算機接口連接的語音輸出板,揚聲器所組成,所說的語音輸出板,由數(shù)/換轉換器,濾波器,功率放大器及固化的文-語轉換程序所組成。
附圖簡要說明
圖1為已有技術漢語文字-語音轉換方法流程框圖。
圖2為本發(fā)明漢語文字-語音轉換方法流程框圖。
圖3為本發(fā)明語音分詞法工作流程框圖。
圖4為本發(fā)明正向掃描極大匹配法流程框圖。
圖5為本發(fā)明漢語文字-語音轉換系統(tǒng)結構框圖。
本發(fā)明設計出采用本發(fā)明所述基于音節(jié)波形編輯的漢語文字-語音轉換方法的漢語文字-語音轉換系統(tǒng)。其系統(tǒng)框圖如圖5所示。包括通用計算機,采用本發(fā)明所述方法編制的軟件程序存于計算機硬盤或內存中,與計算機接口連接的語音輸出板。本實施例中與語音分詞方法相配合的分詞詞庫包括二字詞、三字詞和四字詞共6萬個詞。還建立了多音字詞典,用于確定多音字在不同詞中的正確發(fā)音。詞典內為每一個多音字建一個子詞表,并標志其發(fā)音序號,如“行”字的子詞表如下行 銀1 走2 道3實際發(fā)音是 銀行(háng)、行(xíng)走、道行(héng)音變、調變處理同本發(fā)明。舉例說明輕聲處理若當前字與前面的字相同,且為“奶、嫂、姐、爸、媽、哥、弟、爺、娃、看、瞧、跳、蹦……”等字之一時,當前字改為輕聲。若當前字不是詞頭字,又不組成疊字詞,是“的、子、了、呢、啊、嗎、吧、們、哪”之一且為詞尾字,則讀輕聲。又如特殊音處理“一”"一"的處理當"一"是詞尾字時,讀陽平,如"第一(yī)"當"一"字后面與之成詞的字讀去聲時,"一"讀陽平如"一(yí)個"否則讀去聲,如"一(yì)組"本實施例中輸入的是漢字內碼串,經(jīng)分詞、音變處理,得到帶標注的音元波形數(shù)據(jù)庫的索引串。串中指出該發(fā)音在數(shù)據(jù)庫中的偏址。這里標注主要是停頓標志、結束標志。停頓分三類字間、詞間和句子間的停頓賦予不同的標志,給以不同的停頓時間。語音輸出時,若遇結束標志即返回。
本實施例中音元波形數(shù)據(jù)庫中的音元是單音節(jié),其中包括二字詞的前音節(jié)、二字詞的后音節(jié)、輕聲音節(jié)及一些特殊音音節(jié)。各音節(jié)數(shù)據(jù)經(jīng)壓縮后存儲。全部音節(jié)數(shù)據(jù)合并成一個文件,并建立索引文件。指明各拼音碼在文件的偏移地址。
當從數(shù)據(jù)庫中取出相應的音節(jié)數(shù)據(jù)后,用“特性連續(xù)波形修正方法”修正音強,最后輸出語音。
與本軟件方法相配的語音輸出硬件、包括數(shù)/模轉換器、濾波器,功率放大器及揚聲器,如圖6所示。計算機鍵盤輸入的漢字、數(shù)字、符號、或計算機內的文本文件均可作為漢語文-語轉換方法的輸入。音元波形數(shù)據(jù)庫和軟件程序存于計算機硬盤或內存中。計算機執(zhí)行程序,對字符串進行處理,然后利用語音輸出硬件,將語音數(shù)據(jù)轉換成模擬量經(jīng)濾波、功率放大,輸出到揚聲器中。語音輸出板插于計算機的擴展槽中。語音輸出板也可采用市場上的通用音頻卡,如Sound Blaster及其兼容卡。
權利要求
1.一種基于波形編輯的漢語文字-語音轉換方法,其特征在于包括以下步驟(1)首先將輸入的漢字內碼或拼音串按語音分詞法分割成詞或詞組串,在詞間插入停頓符;(2)所說的詞或詞組串再按音變、調變規(guī)則處理,生成帶語音特性標注的音元波形索引串;(3)建立音元波形數(shù)據(jù)庫,根據(jù)所說的音元波形索引串到所說的音元波形數(shù)據(jù)庫中取出相應的音元波形;(4)再對所說的音元波形進行編輯,即修正音元波形的音強、音高、音長,得到語音數(shù)據(jù)序列。
2.如權利要求1所述的漢語文字-語音轉換方法,其特征在于所說的語音分詞法包括正向掃描極大匹配法,連續(xù)單字詞的“二三原則”組詞法,字粘組詞法,歧義詞串的逆向最大詞匹配分詞法,所說的正向掃描極大匹配法是建立分詞詞庫,將所說的輸入的漢字內碼或拼音串從句首向后逐字,假設分割點,形成詞與詞庫中詞匯匹配,所說的連續(xù)單字詞的“二三原則”組詞法,是指當連續(xù)單字詞數(shù)超過四個時,按二三原則組詞,所說的字粘組詞法是建立標有虛詞粘詞規(guī)則的虛詞庫,按虛詞庫中粘詞規(guī)則將詞匯串中的虛詞與其前、后的詞粘在一起,所說的歧義詞串的逆向最大詞匹配分詞法是指從歧義詞串的最后一個字節(jié)開始,向前逐步加字匹配,找到最長詞的結束點。
3.如權利要求1所述的漢語文字-語音轉換方法,其特征在于所說的音變、調變處理包括以下步驟1)把文本分詞后的字符串用它的漢字發(fā)音來替換的文本替換;2)利用多音字詞典,將所說的字符串標出正確的發(fā)音的多音字處理;3)利用建立的音變,調變規(guī)則庫使所說的字符串生成帶發(fā)音特性標注的音元索引串。
4.一種采用權利要求1、2或3所述方法的漢語文字語音轉換系統(tǒng),其特征在于由通用計算機,通過計算機接口連接的語音輸出板,揚聲器所組成,所說的語音輸出板,由數(shù)/換轉換器,濾波器,功率放大器及固化的文-語轉換程序所組成。
全文摘要
本發(fā)明屬于信號處理技術領域。本發(fā)明提供一種基于波形編輯的漢語文字-語音轉換方法,包括由計算機輸入的字符串按語音分詞法分割成詞或詞組串,再進行音變、調變處理生成音元波形索引串,到音元波形數(shù)據(jù)庫中取出相應的音光波形,再進行編輯,得到語音數(shù)據(jù)序列。采用本方法構成的文-語轉換系統(tǒng)由通用計算機、語音輸出板、揚聲器及相應的方法軟件所組成。本發(fā)明具有輸出語音自然度高、可理解性好、處理速度快的特點。
文檔編號G06F3/16GK1099165SQ9410337
公開日1995年2月22日 申請日期1994年4月1日 優(yōu)先權日1994年4月1日
發(fā)明者蔡蓮紅, 魏華武 申請人:清華大學