基于正弦模型的可變頻語(yǔ)音合成系統(tǒng)及方法與流程

文檔序號(hào)：12749348閱讀：196來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域，具體涉及到一種基于正弦模型的可變頻語(yǔ)音合成系統(tǒng)及方法。

背景技術(shù)：

利用信號(hào)處理技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行分析與合成是語(yǔ)音信號(hào)處理的重要內(nèi)容。語(yǔ)音的合成可應(yīng)用于語(yǔ)音導(dǎo)航儀、醫(yī)院和銀行的叫號(hào)系統(tǒng)等領(lǐng)域中?，F(xiàn)有的語(yǔ)音導(dǎo)航儀和語(yǔ)音叫號(hào)系統(tǒng)使用的語(yǔ)音大都由人工錄制再進(jìn)行簡(jiǎn)單的處理，然后針對(duì)特定的應(yīng)用場(chǎng)景選擇其中的一段語(yǔ)音進(jìn)行播放。這種語(yǔ)音系統(tǒng)具有應(yīng)用場(chǎng)景固定，無法根據(jù)不同的實(shí)際應(yīng)用進(jìn)行調(diào)整的缺點(diǎn)。當(dāng)需要輸出的語(yǔ)音沒有錄制進(jìn)系統(tǒng)時(shí)，系統(tǒng)將無法根據(jù)需要進(jìn)行輸出。

本發(fā)明基于正弦模型的可變頻語(yǔ)音合成系統(tǒng)，具有可根據(jù)實(shí)際應(yīng)用合成特定語(yǔ)音的特點(diǎn)。提供一種可應(yīng)用于語(yǔ)音導(dǎo)航儀和叫號(hào)系統(tǒng)等領(lǐng)域的語(yǔ)音合成系統(tǒng)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的上述不足，提供基于正弦模型的可變頻語(yǔ)音合成系統(tǒng)及方法。

本發(fā)明的目的至少通過如下技術(shù)方案之一實(shí)現(xiàn)。

基于正弦模型的可變頻語(yǔ)音合成系統(tǒng)，該系統(tǒng)通過提取語(yǔ)音的正弦分量參數(shù)以建立語(yǔ)音正弦參數(shù)庫(kù)，當(dāng)系統(tǒng)的語(yǔ)音正弦參數(shù)庫(kù)沒有存儲(chǔ)需要輸出的語(yǔ)音信息時(shí)，能通過實(shí)時(shí)錄入語(yǔ)音并提取正弦分量參數(shù)或者通過網(wǎng)絡(luò)搜索下載的方式豐富語(yǔ)音正弦參數(shù)庫(kù)；所述系統(tǒng)包括電源模塊、語(yǔ)音輸入模塊、合成語(yǔ)音輸出模塊、控制模塊、處理模塊和語(yǔ)音參數(shù)存儲(chǔ)模塊；其中，控制模塊分別和語(yǔ)音輸入模塊、處理模塊和合成語(yǔ)音輸出模塊相連接，控制模塊、處理模塊又和語(yǔ)音參數(shù)存儲(chǔ)模塊相連接，電源模塊與系統(tǒng)中的前述各構(gòu)成模塊相連接，為整個(gè)裝置供電；語(yǔ)音輸入模塊主要將語(yǔ)音進(jìn)行A/D轉(zhuǎn)換并輸入處理模塊，處理模塊主要進(jìn)行語(yǔ)音正弦參數(shù)的提取、語(yǔ)音參數(shù)處理和語(yǔ)音合成；合成語(yǔ)音輸出模塊主要將系統(tǒng)合成的語(yǔ)音進(jìn)行D/A轉(zhuǎn)換以輸出；控制模塊控制整個(gè)系統(tǒng)的工作，包括控制語(yǔ)音信號(hào)輸入輸出，正弦參數(shù)提取，語(yǔ)音正弦參數(shù)庫(kù)的建立和語(yǔ)音合成；語(yǔ)音參數(shù)存儲(chǔ)模塊主要保存，處理模塊獲取的語(yǔ)音正弦分量參數(shù)。

進(jìn)一步地，所述語(yǔ)音正弦參數(shù)庫(kù)是對(duì)語(yǔ)音信號(hào)進(jìn)行正弦分析后得到的正弦分量參數(shù)的數(shù)據(jù)庫(kù)，正弦分量參數(shù)包括每一幀語(yǔ)音正弦分量的頻率、幅度和相位信息。

進(jìn)一步地，語(yǔ)音合成方式包括自然語(yǔ)音合成、可變頻語(yǔ)音合成；當(dāng)用于合成的正弦分量參數(shù)的基音和幅度處于合成門限范圍內(nèi)，則選擇自然語(yǔ)音合成；當(dāng)用于合成的正弦分量參數(shù)的基音或者幅度處于合成門限范圍外，則用可變頻合成；合成門限范圍根據(jù)使用場(chǎng)景設(shè)定。

進(jìn)一步地，自然語(yǔ)音合成主要包括幀間最近頻率匹配，并對(duì)匹配的相鄰頻率和幅度進(jìn)行線性插值平滑。

進(jìn)一步地，可變頻合成主要應(yīng)用于當(dāng)實(shí)時(shí)輸入的正弦分量參數(shù)的基音超出基音合成門限范圍時(shí)，系統(tǒng)可調(diào)整實(shí)時(shí)輸入的正弦分量參數(shù)的基音與系統(tǒng)保存的語(yǔ)音基音一致，再根據(jù)基音調(diào)整的比例調(diào)整其它正弦分量；若實(shí)時(shí)輸入正弦分量參數(shù)的幅度超出幅度合成門限范圍時(shí)，將實(shí)時(shí)輸入語(yǔ)音正弦分量參數(shù)的幅度和系統(tǒng)儲(chǔ)存語(yǔ)音的幅度按幅度比例調(diào)整一致；最后利用自然語(yǔ)音合成，獲得連貫自然的合成語(yǔ)音。

進(jìn)一步地，所述語(yǔ)音輸入模塊包括麥克風(fēng)和A/D轉(zhuǎn)換器，處理模塊包括數(shù)字信號(hào)處理芯片，麥克風(fēng)的輸入通過A/D轉(zhuǎn)換器與數(shù)字信號(hào)處理芯片連接。系統(tǒng)合成語(yǔ)音輸出模塊包括音響和D/A轉(zhuǎn)換器，數(shù)字信號(hào)處理芯片通過D/A轉(zhuǎn)換器和音響連接。系統(tǒng)的語(yǔ)音參數(shù)存儲(chǔ)模塊包括存儲(chǔ)芯片，控制模塊包括微處理器，微處理器和麥克風(fēng)、A/D轉(zhuǎn)換器、數(shù)字信號(hào)處理芯片、D/A轉(zhuǎn)換器、音響和存儲(chǔ)芯片連接。系統(tǒng)的電源模塊為向整個(gè)裝置供電的電池。

上述系統(tǒng)的工作過程包括建立語(yǔ)音正弦參數(shù)庫(kù)和語(yǔ)音合成過程，具體過程是：

S1:對(duì)系統(tǒng)的輸入信號(hào)進(jìn)行分幀處理。

控制模塊控制處理模塊對(duì)輸入系統(tǒng)的語(yǔ)音信號(hào)進(jìn)行分幀處理，分幀的依據(jù)是語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性。

S2:對(duì)每一幀信號(hào)進(jìn)行快速傅里葉變換(FFT)，然后提取能量最大的30~40個(gè)正弦分量。

系統(tǒng)的處理模塊在控制模塊的控制下提取能量最大的30~40個(gè)正弦分量對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理，提取的正弦分量表示如下：

(公式1)

其中是幅度，是頻率，是相位。語(yǔ)音信號(hào)在FFT變換后的能量最大的30~40個(gè)正弦分量包含了語(yǔ)音信號(hào)的絕大部分信息。

S3:對(duì)提取的正弦分量進(jìn)行參數(shù)的計(jì)算。

控制模塊控制處理模塊對(duì)步驟S2獲得的正弦分量進(jìn)行頻率、幅度和相位的參數(shù)計(jì)算獲得正弦分量參數(shù)，參數(shù)的計(jì)算可由短時(shí)傅里葉變換或者其他已有的參數(shù)估計(jì)方法求得，在此不詳述。

S4:建立語(yǔ)音正弦參數(shù)庫(kù)。

控制模塊控制處理模塊在S3獲得的參數(shù)信息的基礎(chǔ)上，建立語(yǔ)音正弦參數(shù)庫(kù)，輸入到語(yǔ)音參數(shù)存儲(chǔ)模塊進(jìn)行存儲(chǔ)；語(yǔ)音正弦參數(shù)庫(kù)的建立需要在語(yǔ)音正弦分量參數(shù)和特定語(yǔ)音之間建立聯(lián)系，對(duì)輸入的語(yǔ)音進(jìn)行正弦分量參數(shù)的提取并將參數(shù)和特定語(yǔ)音之間的聯(lián)系保存到語(yǔ)音正弦參數(shù)庫(kù)中；

S5:在進(jìn)行語(yǔ)音合成時(shí)判斷系統(tǒng)是否存儲(chǔ)需要輸出的語(yǔ)音信息，若有則直接進(jìn)行步驟S6，否則進(jìn)行步驟S5.1；

S5.1:實(shí)時(shí)語(yǔ)音信號(hào)的輸入

當(dāng)語(yǔ)音正弦參數(shù)庫(kù)沒有存儲(chǔ)需要輸出的語(yǔ)音時(shí)，通過實(shí)時(shí)錄入語(yǔ)音并提取正弦分量參數(shù)或者通過網(wǎng)絡(luò)搜索下載的方式豐富語(yǔ)音正弦參數(shù)庫(kù)；并通過步驟S6和S7合成連貫的語(yǔ)音進(jìn)行輸出；

當(dāng)實(shí)時(shí)輸入語(yǔ)音信號(hào)時(shí)系統(tǒng)的輸入模塊在控制模塊的控制下獲取外部語(yǔ)音信號(hào)并送到處理模塊進(jìn)行分幀和正弦分量參數(shù)的提取后存入語(yǔ)音正弦參數(shù)庫(kù)，即進(jìn)行步驟S1~S4，或者從網(wǎng)絡(luò)上搜索下載對(duì)應(yīng)的語(yǔ)音信息輸入到語(yǔ)音正弦參數(shù)庫(kù)中；

S6:合成正弦分量信號(hào)；

當(dāng)需要進(jìn)行語(yǔ)音的合成時(shí)，處理模塊在控制模塊的控制下根據(jù)不同的合成方式提取語(yǔ)音參數(shù)存儲(chǔ)模塊中的正弦分量參數(shù)進(jìn)行正弦分量信號(hào)的合成；以下是兩種適用于語(yǔ)音合成的正弦分量信號(hào)合成的過程：

S6.1:自然語(yǔ)音合成；

當(dāng)用于合成的正弦分量的基音和幅度處于合成門限范圍內(nèi)時(shí)，可使用自然語(yǔ)音合成，合成門限范圍根據(jù)使用場(chǎng)景不同而有所不同；自然語(yǔ)音的合成主要包括進(jìn)行幀間最近頻率匹配，并對(duì)匹配的相鄰頻率和幅度進(jìn)行線性插值平滑，具體步驟如下：

第一步先將所有正弦分量的頻率進(jìn)行幀間最近頻率匹配；首先設(shè)定頻率匹配門限；然后在門限范圍內(nèi)尋找相鄰幀離自己最近的頻率進(jìn)行匹配；若沒有匹配的頻率則頻率的正弦分量在相鄰幀沒有分量存在；

第二步對(duì)匹配的相鄰頻率和幅度進(jìn)行線性插值平滑，得到各個(gè)正弦分量的軌跡，即合成的正弦分量信號(hào)。具體地，對(duì)第一幀的各個(gè)正弦分量信號(hào)的初始相位取S3獲得的相位信息；在進(jìn)行幀間的合成時(shí)，下一幀的初始相位取當(dāng)前幀的尾部相位，這樣合成獲得的正弦分量信號(hào)具有過渡平滑，語(yǔ)音自然的特點(diǎn)。

S6.2:可變頻語(yǔ)音合成

當(dāng)用于合成的正弦分量參數(shù)的基音或者幅度超出合成門限范圍時(shí)，可使用可變頻語(yǔ)音合成獲得連貫自然的輸出語(yǔ)音，合成門限范圍根據(jù)使用場(chǎng)景不同而有所不同。例如，實(shí)時(shí)錄入或者網(wǎng)絡(luò)下載獲得的正弦分量參數(shù)的基音與系統(tǒng)的語(yǔ)音正弦參數(shù)庫(kù)中的基音相差較大，即超出基音的合成門限范圍時(shí)，系統(tǒng)可調(diào)整實(shí)時(shí)輸入語(yǔ)音的基音與系統(tǒng)保存的語(yǔ)音基音一致，再根據(jù)基音調(diào)整的比例調(diào)整其它正弦分量；若實(shí)時(shí)輸入正弦分量參數(shù)的幅度超出幅度合成門限范圍時(shí)，將實(shí)時(shí)輸入語(yǔ)音正弦分量的幅度和系統(tǒng)儲(chǔ)存語(yǔ)音的幅度按幅度比例調(diào)整一致。最后將所有調(diào)整后的正弦分量按照步驟S6.1進(jìn)行合成。

S7:由所有合成的正弦分量信號(hào)合成得到重建語(yǔ)音信號(hào)。

控制模塊控制處理模塊將S6合成的所有正弦分量信號(hào)進(jìn)行疊加得到重建語(yǔ)音信號(hào)，并通過合成語(yǔ)音輸出模塊，進(jìn)行D/A轉(zhuǎn)換后進(jìn)行輸出。

與現(xiàn)有技術(shù)相比，本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果：

1、可實(shí)時(shí)輸入語(yǔ)音信號(hào)，豐富系統(tǒng)應(yīng)用。

當(dāng)系統(tǒng)的語(yǔ)音正弦參數(shù)庫(kù)沒有存儲(chǔ)需要輸出的語(yǔ)音時(shí)，可通過實(shí)時(shí)錄入語(yǔ)音并提取正弦參數(shù)或者通過網(wǎng)絡(luò)搜索下載的方式豐富語(yǔ)音正弦參數(shù)庫(kù)，從而豐富系統(tǒng)的應(yīng)用。如應(yīng)用本發(fā)明的語(yǔ)音導(dǎo)航儀可充分利用實(shí)時(shí)輸入語(yǔ)音信號(hào)來標(biāo)識(shí)當(dāng)前的位置信息，豐富導(dǎo)航儀的數(shù)據(jù)庫(kù)，提高定位的精度。

2、合成語(yǔ)音自然。

語(yǔ)音的正弦模型從語(yǔ)音建模的角度突破了線性預(yù)測(cè)中清/濁音激勵(lì)的模式，本發(fā)明對(duì)語(yǔ)音信號(hào)分幀做傅里葉變換后，提取能量最大的30~40個(gè)正弦分量，包含了語(yǔ)音的絕大部分信息。在合成過程中，將所有正弦分量的頻率進(jìn)行幀間最近頻率匹配，并對(duì)匹配的相鄰頻率和幅度進(jìn)行線性插值平滑，得到各個(gè)正弦分量信號(hào)。獲得的正弦分量信號(hào)既包含了語(yǔ)音的絕大部分信息又具有信號(hào)合成平滑、語(yǔ)音自然的特點(diǎn)。在此基礎(chǔ)上對(duì)各個(gè)正弦分量信號(hào)進(jìn)行疊加獲得的合成語(yǔ)音信號(hào)也具有語(yǔ)音自然的特點(diǎn)。

3、語(yǔ)音合成方式多樣。

基于正弦模型的可變頻語(yǔ)音合成系統(tǒng)有自然語(yǔ)音合成和可變頻語(yǔ)音合成等合成方式可選，合成方式多樣。

4、便于傳輸和存儲(chǔ)。

相比于傳統(tǒng)的PCM語(yǔ)音編碼，本發(fā)明的語(yǔ)音合成方法在傳輸和存儲(chǔ)時(shí)，只需傳輸和存儲(chǔ)語(yǔ)音的頻率和幅度特性，對(duì)存儲(chǔ)空間和傳輸帶寬的要求大大降低。

附圖說明

圖1是實(shí)例中的基于正弦模型的可變頻語(yǔ)音合成原理示意圖。

圖2是實(shí)例中基于正弦模型的可變頻語(yǔ)音合成系統(tǒng)的示意圖。

圖3是實(shí)例中建立語(yǔ)音正弦參數(shù)庫(kù)流程圖。

圖4是實(shí)例中語(yǔ)音合成流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步說明，本實(shí)施例以語(yǔ)音導(dǎo)航儀為例，但本發(fā)明的實(shí)施和保護(hù)不限于此。

圖1是實(shí)例中的基于正弦模型的可變頻語(yǔ)音合成原理示意圖。本發(fā)明通過正弦模型提取語(yǔ)音的正弦分量參數(shù)以建立語(yǔ)音正弦參數(shù)庫(kù)，語(yǔ)音合成時(shí)根據(jù)合成方式從參數(shù)庫(kù)中提取語(yǔ)音信息進(jìn)行合成。方案主要包括建立語(yǔ)音正弦參數(shù)庫(kù)和語(yǔ)音合成兩個(gè)過程。

應(yīng)用本發(fā)明的語(yǔ)音導(dǎo)航儀的語(yǔ)音正弦參數(shù)庫(kù)的建立首先對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理，然后對(duì)分幀信號(hào)進(jìn)行快速傅里葉變換(FFT)，并提取能量最大的30~40個(gè)正弦分量，提取的正弦分量能保證不丟失語(yǔ)音的信息。最后對(duì)提取的正弦分量進(jìn)行頻率、幅度和相位計(jì)算獲得正弦分量參數(shù)，以建立語(yǔ)音正弦參數(shù)庫(kù)。

語(yǔ)音合成過程主要包括正弦分量信號(hào)合成和疊加合成兩個(gè)步驟。語(yǔ)音導(dǎo)航儀正弦分量信號(hào)合成首先根據(jù)特定應(yīng)用場(chǎng)景從已建立的語(yǔ)音正弦參數(shù)庫(kù)選取語(yǔ)音信息進(jìn)行合成。然后對(duì)所有合成的正弦分量信息疊加合成，獲得合成語(yǔ)音。

圖2是本發(fā)明采用的裝置示意圖。應(yīng)用本發(fā)明的語(yǔ)音導(dǎo)航儀，語(yǔ)音輸入模塊包括麥克風(fēng)和A/D轉(zhuǎn)換器，處理模塊包括數(shù)字信號(hào)處理芯片，麥克風(fēng)的輸入通過A/D轉(zhuǎn)換器與數(shù)字信號(hào)處理芯片連接。合成語(yǔ)音輸出模塊包括音響和D/A轉(zhuǎn)換器，數(shù)字信號(hào)處理芯片通過D/A轉(zhuǎn)換器和音響連接。語(yǔ)音參數(shù)存儲(chǔ)模塊包括存儲(chǔ)芯片，控制模塊包括微處理器，微處理器和麥克風(fēng)、A/D轉(zhuǎn)換器、數(shù)字信號(hào)處理芯片、D/A轉(zhuǎn)換器、音響和存儲(chǔ)芯片連接。電源模塊為向整個(gè)裝置供電的電池。

圖3是本發(fā)明的建立語(yǔ)音正弦參數(shù)庫(kù)流程圖，圖4是本發(fā)明的語(yǔ)音合成流程圖。下面結(jié)合應(yīng)用本發(fā)明的語(yǔ)音導(dǎo)航儀進(jìn)行整體的工作流程圖說明，其中S1~S5對(duì)應(yīng)語(yǔ)音正弦參數(shù)庫(kù)流程圖的內(nèi)容，S6~S8對(duì)應(yīng)語(yǔ)音合成流程圖的內(nèi)容。

S1:輸入信號(hào)分幀。

控制模塊控制處理模塊對(duì)系統(tǒng)輸入的語(yǔ)音信號(hào)進(jìn)行分幀處理，分幀的依據(jù)是語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性。

S2:FFT變換。

處理模塊在控制模塊的控制下對(duì)分幀后的信號(hào)進(jìn)行FFT變換，然后提取能量最大的30~40個(gè)正弦分量。提取的正弦分量包含了語(yǔ)音信號(hào)的絕大部分信息，能保證不丟失語(yǔ)音的信息。

S3:參數(shù)估計(jì)獲得正弦分量參數(shù)。

處理模塊在控制模塊的控制下，對(duì)提取的正弦分量進(jìn)行頻率、幅度和相位信息的估計(jì)獲得正弦分量參數(shù)。

S4:參數(shù)庫(kù)的建立。

控制模塊控制處理模塊在S3獲得的參數(shù)信息的基礎(chǔ)上，建立語(yǔ)音正弦參數(shù)庫(kù)，輸入到語(yǔ)音參數(shù)存儲(chǔ)模塊進(jìn)行存儲(chǔ)。語(yǔ)音正弦參數(shù)庫(kù)的建立需要在語(yǔ)音參數(shù)和特定語(yǔ)音之間建立聯(lián)系，如應(yīng)用本發(fā)明的語(yǔ)音導(dǎo)航儀可先告知系統(tǒng)輸入的語(yǔ)音是什么，然后系統(tǒng)對(duì)輸入的語(yǔ)音進(jìn)行語(yǔ)音正弦分量參數(shù)的提取并將參數(shù)和特定語(yǔ)音之間的聯(lián)系保存到語(yǔ)音正弦參數(shù)庫(kù)中。

如應(yīng)用本發(fā)明的語(yǔ)音導(dǎo)航儀將語(yǔ)句“前方500米是目的地北京”中各詞語(yǔ)的正弦分量參數(shù)信息和詞語(yǔ)的聯(lián)系輸入語(yǔ)音正弦參數(shù)庫(kù)進(jìn)行保存。

S5:當(dāng)進(jìn)行語(yǔ)音合成時(shí)判斷系統(tǒng)的語(yǔ)音正弦參數(shù)庫(kù)是否存儲(chǔ)有需要輸出的語(yǔ)音信息，若有則進(jìn)行步驟S6，否則進(jìn)行S5.1的實(shí)時(shí)語(yǔ)音輸入。

S5.1:當(dāng)系統(tǒng)的語(yǔ)音正弦參數(shù)庫(kù)沒有存儲(chǔ)需要輸出的語(yǔ)音時(shí)，可通過實(shí)時(shí)錄入語(yǔ)音并提取正弦分量參數(shù)或者通過網(wǎng)絡(luò)搜索下載的方式豐富語(yǔ)音正弦參數(shù)庫(kù)。在合成時(shí)通過步驟S6將實(shí)時(shí)輸入的語(yǔ)音正弦分量參數(shù)進(jìn)行調(diào)整，與現(xiàn)有的語(yǔ)音參數(shù)合成連貫的語(yǔ)音進(jìn)行輸出。

具體地，當(dāng)應(yīng)用本發(fā)明的語(yǔ)音導(dǎo)航儀需要輸出“前方500米是目的地廣州”而導(dǎo)航儀的語(yǔ)音正弦參數(shù)庫(kù)沒有存儲(chǔ)“廣州”的對(duì)應(yīng)語(yǔ)音信息。這時(shí)用戶可實(shí)時(shí)輸入“廣州”的語(yǔ)音信息，然后處理模塊在控制模塊的控制下，對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行正弦分量參數(shù)的提取，并輸入語(yǔ)音正弦參數(shù)庫(kù)進(jìn)行保存。同時(shí)根據(jù)步驟S6中的可變頻合成調(diào)整輸入的語(yǔ)音的正弦分量參數(shù)，與系統(tǒng)保存的語(yǔ)音合成連貫的語(yǔ)音信息“前方500米是目的地廣州”，再由合成語(yǔ)音輸出模塊進(jìn)行輸出。

S6:正弦分量合成。

處理模塊在控制模塊的控制下，根據(jù)不同的合成方式選擇合成方法進(jìn)行正弦分量的合成。

S6.1:自然語(yǔ)音合成

當(dāng)用于合成的正弦分量參數(shù)的基音和幅度處于合成門限范圍內(nèi)時(shí)，可使用自然語(yǔ)音合成，合成門限范圍根據(jù)使用場(chǎng)景不同而有所不同。合成步驟如下：

第一步處理模塊先將需要輸出的語(yǔ)音正弦分量進(jìn)行幀間最近頻率匹配。首先設(shè)定頻率匹配門限，如的門限范圍為；然后在門限范圍內(nèi)尋找相鄰幀離自己最近的頻率進(jìn)行匹配。若沒有匹配的頻率則頻率的正弦分量在相鄰幀沒有分量存在。

第二步處理模塊對(duì)匹配的相鄰頻率和幅度進(jìn)行線性插值平滑，得到各個(gè)正弦分量的軌跡，即合成的正弦分量信號(hào)。具體操作上，對(duì)第一幀的各個(gè)正弦分量的初始相位取本實(shí)施例步驟S3獲得的相位信息。在進(jìn)行幀間的合成時(shí)，取下一幀的初始相位作為當(dāng)前幀的尾部相位。

S6.2:可變頻語(yǔ)音合成

當(dāng)用于合成的正弦分量參數(shù)的基音或者幅度超出合成門限范圍時(shí)，可使用可變頻語(yǔ)音合成獲得連貫自然的輸出語(yǔ)音，合成門限范圍根據(jù)使用場(chǎng)景不同而有所不同。例如，系統(tǒng)保存的語(yǔ)音基音為150Hz，應(yīng)用于一般環(huán)境的語(yǔ)音導(dǎo)航儀基音合成門限范圍為[150-50,150+50)Hz，實(shí)時(shí)錄入或者網(wǎng)絡(luò)下載獲得的正弦分量的參數(shù)信息的基音為300Hz，超出基音合成門限范圍，則系統(tǒng)可調(diào)整實(shí)時(shí)輸入語(yǔ)音的基音為150Hz，調(diào)整比例為2。再根據(jù)基音調(diào)整的比例2調(diào)整其它實(shí)時(shí)輸入語(yǔ)音的諧波分量。幅度的調(diào)整與基音調(diào)整類似，如果實(shí)時(shí)輸入正弦分量參數(shù)的幅度超出幅度門限范圍，則將實(shí)時(shí)輸入語(yǔ)音信號(hào)的幅度和系統(tǒng)儲(chǔ)存語(yǔ)音的幅度按幅度比例調(diào)整一致。最后將所有調(diào)整后的正弦分量按照步驟S6.1進(jìn)行合成。

S7:疊加合成。

處理模塊在控制模塊的控制下對(duì)所有正弦分量進(jìn)行疊加合成，獲得合成語(yǔ)音信號(hào)。

S8:合成語(yǔ)音輸出。

應(yīng)用本發(fā)明的語(yǔ)音導(dǎo)航儀的控制模塊控制處理模塊將合成語(yǔ)音信號(hào)輸出到合成語(yǔ)音輸出模塊經(jīng)過D/A轉(zhuǎn)換為模擬語(yǔ)音信號(hào)，最后輸出合成的導(dǎo)航語(yǔ)音。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3