一種基于文本信息的波形拼接語音合成方法

文檔序號(hào)：2827671閱讀：179來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于文本信息的波形拼接語音合成方法
【專利摘要】本發(fā)明一種基于文本信息的波形拼接語音合成方法，該方法包括：步驟S1：通過音段切分，提取原始音頻中所有基元的聲學(xué)參數(shù)與文本參數(shù)，根據(jù)提取的參數(shù)訓(xùn)練時(shí)長預(yù)測模型與權(quán)重預(yù)測模型；步驟S2：采用分層預(yù)選方法，利用文本分析的目標(biāo)基元、時(shí)長預(yù)測模型預(yù)測的時(shí)長對(duì)語料庫中的基元進(jìn)行初步預(yù)選，獲得候選基元；步驟S3：對(duì)目標(biāo)基元、候選基元和權(quán)重預(yù)測模型預(yù)測的權(quán)重信息計(jì)算，得到目標(biāo)代價(jià)；對(duì)相鄰兩個(gè)基元的契合度進(jìn)行計(jì)算，得到拼接代價(jià)；用維特比搜索方法對(duì)目標(biāo)代價(jià)和拼接代價(jià)進(jìn)行搜索，得到最小代價(jià)路徑，進(jìn)而得到最佳基元并經(jīng)過平滑拼接得到合成語音。
【專利說明】一種基于文本信息的波形拼接語音合成方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于智能信息處理領(lǐng)域，涉及一種基于文本信息的波形拼接系統(tǒng)。

【背景技術(shù)】
[0002] 語音作為人機(jī)交互的主要手段之一，語音合成主要目的是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。語音合成主要有兩種方式，早期的研究主要是采用參數(shù)語音合成，最常用的合成方法是基于隱馬爾柯夫的參數(shù)語音合成方法。該方法作為一種基于統(tǒng)計(jì) 聲學(xué)建模方法的具休實(shí)現(xiàn)，對(duì)語音的聲學(xué)參數(shù)進(jìn)行隱馬爾柯夫建模，并通過參數(shù)生成算法來重構(gòu)聲學(xué)參數(shù)軌跡，最后調(diào)用語音合成器來產(chǎn)生語音波形。該方法的不足在于合成語音的音質(zhì)、自然度和清晰度都不夠理想，與實(shí)際語音具有較大的差距。另一種方法是基于語料庫的語音拼接合成方法，該方法是直接從原始錄制的語料庫中挑選合適的基元來進(jìn)行拼接合成語音。
[0003] 但該方法雖能合成出較為接近原始語音的波形，但受限于語料庫大小的制約，合成語音的穩(wěn)定性不夠理想（音庫過大，合成語音速度較慢，無法實(shí)時(shí)合成；音庫過小，合成語音不穩(wěn)定），很大程度上影響的聽感。并且現(xiàn)有的拼接合成系統(tǒng)，在計(jì)算代價(jià)時(shí)缺少考慮文本信息對(duì)基元的影響，合成出的語音在韻律表現(xiàn)上也不是很好。

【發(fā)明內(nèi)容】

[0004] (一）要解決的技術(shù)問題
[0005] 為解決上述的一個(gè)或多個(gè)問題，本發(fā)明的目的是提供一種基于文本信息的波形拼接語音合成方法。
[0006] (二）技術(shù)方案
[0007] 為達(dá)成所述目的，本發(fā)明提供的一種基于文本信息的波形拼接語音合成方法實(shí)現(xiàn) 的步驟包括：
[0008] 步驟S1 :通過音段切分，提取原始音頻中所有基元的聲學(xué)參數(shù)與文本參數(shù)，根據(jù) 提取的參數(shù)訓(xùn)練時(shí)長預(yù)測模型與權(quán)重預(yù)測模型；
[0009] 步驟S2 :采用分層預(yù)選方法，利用文本分析的目標(biāo)基元、時(shí)長預(yù)測模型預(yù)測的時(shí) 長對(duì)語料庫中的基元進(jìn)行初步預(yù)選，獲得候選基元；
[0010] 步驟S3 :對(duì)目標(biāo)基元、候選基元和權(quán)重預(yù)測模型預(yù)測的權(quán)重信息計(jì)算，得到目標(biāo) 代價(jià)；對(duì)相鄰兩個(gè)基元的契合度進(jìn)行計(jì)算，得到拼接代價(jià)；用維特比搜索方法對(duì)目標(biāo)代價(jià) 和拼接代價(jià)進(jìn)行搜索，得到最小代價(jià)路徑，進(jìn)而得到最佳基元并經(jīng)過平滑拼接得到合成語音。
[0011] (三）有益效果
[0012] 從上述技術(shù)方案可以看出，本發(fā)明基于文本特征的波形拼接語音合成方法具有以下有益效果：
[0013] (1)該方法結(jié)合待合成語音與原始語音的文本特征，在基元預(yù)選時(shí)用分層預(yù)選方法，不僅能有效率的在保證候選基元接近目標(biāo)基元的情況下，減少基元的個(gè)數(shù)，降低后期代價(jià)計(jì)算的時(shí)間開銷，提高了合成語音的效率，增強(qiáng)拼接合成的實(shí)時(shí)性；并且加入的時(shí)長預(yù)測模型能保證選到的基元在時(shí)長上的連續(xù)性，提高了合成語音自然度；
[0014] (2)目標(biāo)代價(jià)的計(jì)算方法采用的是基于文本信息結(jié)合預(yù)測得到的權(quán)重信息得到的代價(jià)，保證了代價(jià)最小的基元在韻律上與目標(biāo)基元的一致性，拼接合成出高自然度，并提高了合成語音的韻律表現(xiàn)；
[0015] 該方法包括：對(duì)原始切分過的大音庫進(jìn)行參數(shù)提?。ò晫W(xué)參數(shù)與文本參數(shù)）。結(jié)合相應(yīng)文本標(biāo)注信息，對(duì)基元的時(shí)長信息進(jìn)行建模，結(jié)合基元的上下文信息與基元所在詞的詞性等信息，生成分層預(yù)選模型對(duì)基元進(jìn)行預(yù)選。這種預(yù)選方法不僅可以達(dá)到在大語料庫的情況下縮短系統(tǒng)運(yùn)行時(shí)間、增強(qiáng)系統(tǒng)合成語音的實(shí)時(shí)性和提高基元選取的準(zhǔn)確率的目的，而且保證了候選基元在時(shí)長上的連續(xù)性。在計(jì)算目標(biāo)代價(jià)時(shí)，在訓(xùn)練階段，用決策樹算法與線性回歸算法結(jié)合文本特征與聲學(xué)特征進(jìn)行建模，預(yù)測出相關(guān)文本特征的權(quán)重信息。在拼接合成語音時(shí)，輸入相應(yīng)的候選基元與目標(biāo)基元的文本信息距離，結(jié)合決策樹與線性回歸模型預(yù)測出的權(quán)重信息，就得到相對(duì)應(yīng)候選基元的目標(biāo)代價(jià)，再結(jié)合拼接代價(jià)的計(jì) 算，最后就能拼接合成出語音，本發(fā)明合成出較高音質(zhì)的語音。

【專利附圖】

【附圖說明】
[0016] 圖1為根據(jù)本發(fā)明基于文本信息的波形拼接語音合成方法流程圖；
[0017] 圖2為本發(fā)明中訓(xùn)練時(shí)長預(yù)測模型一實(shí)施例的流程圖；
[0018] 圖3為本發(fā)明中訓(xùn)練權(quán)重預(yù)測模型一實(shí)施例的流程圖；
[0019] 圖4為根據(jù)本發(fā)明一實(shí)施例的分層預(yù)選流程圖；
[0020] 圖5為根據(jù)本發(fā)明一實(shí)施例的基于文本特征的目標(biāo)代價(jià)的計(jì)算。

【具體實(shí)施方式】
[0021] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
[0022] 需要說明的是，在附圖或說明書描述中，相似或相同的部分都使用相同的圖號(hào)。附圖中未繪示或描述的實(shí)現(xiàn)方式，為所屬【技術(shù)領(lǐng)域】中普通技術(shù)人員所知的形式。另外，雖然本文可提供包含特定值的參數(shù)的示范，但應(yīng)了解，參數(shù)無需確切等于相應(yīng)的值，而是可在可接受的誤差容限或設(shè)計(jì)約束內(nèi)近似于相應(yīng)的值。
[0023] 本發(fā)明方法結(jié)合待合成語音與原始語音的文本特征，首先對(duì)音庫中的基元進(jìn)行分層預(yù)選，提高了合成語音的效率，增強(qiáng)了合成語音的實(shí)時(shí)性，然后結(jié)合基于文本信息預(yù)測出的權(quán)重信息，計(jì)算代價(jià)，挑選合適的基元，最后拼接合成出高自然度與高韻律表現(xiàn)的語音。
[0024] 如圖1示出本發(fā)明基于文本信息的的波形拼接語音合成方法流程圖，該方法包括以下步驟：
[0025] 步驟S1 :通過音段切分，提取原始音頻中所有基元的聲學(xué)參數(shù)與文本參數(shù)，根據(jù) 提取的參數(shù)訓(xùn)練時(shí)長預(yù)測模型與權(quán)重預(yù)測模型；模型訓(xùn)練模塊，根據(jù)訓(xùn)練文本與對(duì)應(yīng)的音頻提取基元的文本參數(shù)與聲學(xué)參數(shù)進(jìn)行模型訓(xùn)練，獲取分層預(yù)選中的時(shí)長預(yù)測模型與目標(biāo) 代價(jià)計(jì)算時(shí)所需的權(quán)重預(yù)測模型；
[0026] 如圖2所示為本發(fā)明中訓(xùn)練時(shí)長預(yù)測模型一實(shí)施例的流程圖；所述訓(xùn)練時(shí)長預(yù)測模型包括以下步驟：
[0027] 步驟S11 :對(duì)音庫進(jìn)行音段切分，切分為波形拼接所需的最小基本單元，以切分后的基元為單位，按巾貞提取基頻參數(shù)、梅爾倒譜參數(shù)與能量；在本發(fā)明一實(shí)施例中，譜參數(shù)是提取的12階梅爾倒譜系數(shù)。
[0028] 步驟S12 :對(duì)所述原始音頻對(duì)應(yīng)文本進(jìn)行文本分析，根據(jù)音段切分結(jié)果，提取所有基兀對(duì)應(yīng)的上下文文本特征信息與時(shí)長信息，并與提取的聲學(xué)參數(shù) 對(duì)應(yīng)；
[0029] 步驟S13 :根據(jù)與聲學(xué)參數(shù)一一對(duì)應(yīng)的文本特征與時(shí)長信息，采用決策樹訓(xùn)練時(shí) 長預(yù)測模型。
[0030] 如圖3所示為本發(fā)明中訓(xùn)練權(quán)重預(yù)測模型一實(shí)施例的流程圖，所述訓(xùn)練權(quán)重預(yù)測模型的包括以下步驟：
[0031] 步驟S1A :對(duì)音庫進(jìn)行音段切分，切分為波形拼接系統(tǒng)所需的最小基本單元，并以切分后的基元為單位，按幀提取基頻參數(shù)、梅爾倒譜參數(shù)與能量；在本發(fā)明一實(shí)施例中，譜參數(shù)是提取的12階梅爾倒譜系數(shù)。
[0032] 步驟S1B :對(duì)所述原始音頻對(duì)應(yīng)文本進(jìn)行文本分析，根據(jù)音段切分結(jié)果，提取所有基兀對(duì)應(yīng)的上下文文本特征信息與時(shí)長信息，并與提取的聲學(xué)參數(shù) 對(duì)應(yīng)；
[0033] 步驟S1C :根據(jù)提取的所有基元的文本特征與聲學(xué)特征，按基元進(jìn)行分類；
[0034] 步驟S1D :對(duì)于每一類基元，計(jì)算所有任意兩個(gè)基元對(duì)應(yīng)的文本特征參數(shù)與聲學(xué) 參數(shù)之間的距離，存儲(chǔ)所有距離信息作為訓(xùn)練樣本；
[0035] 步驟S1F :采用決策樹和線性回歸算法（M5P)，進(jìn)行權(quán)重預(yù)測模型的訓(xùn)練：文本的距離信息作為決策樹的節(jié)點(diǎn)，在葉節(jié)點(diǎn)處與聲學(xué)參數(shù)的距離作線性回歸。即可得到文本信息對(duì)應(yīng)的權(quán)重。
[0036] 葉節(jié)點(diǎn)處的回歸可以用以下公式表示：
[0037] WoIxq-x' ol+wJxfX' J+...+Wnlxn-χ' η| = Πο?ΡΟ-ΡΟ' + π 11Dur-Dur' | + π 2 Ε-Ε/ (1)
[0038] 其中f i和Xi為兩基元對(duì)應(yīng)的文本特征，R)和RV為對(duì)應(yīng)的基頻信息，Dur和 Dur'為對(duì)應(yīng)的時(shí)長信息，E和E'為能量信息。本實(shí)例取[^，^，ji2]的值為[1，1，0. 5]。經(jīng)過葉節(jié)點(diǎn)處的回歸運(yùn)算，Wl，...，wn)即為預(yù)測得到的權(quán)重信息。
[0039] 步驟S2 :采用分層預(yù)選方法，利用文本分析的目標(biāo)基元、時(shí)長預(yù)測模型預(yù)測的時(shí) 長對(duì)語料庫中的基元進(jìn)行初步預(yù)選，獲得候選基元；基元預(yù)選模塊，采用分層預(yù)選方法，對(duì) 語料庫中的基元進(jìn)行初步預(yù)選，以減少后期代價(jià)計(jì)算的復(fù)雜度，提高合成效率。
[0040] 如圖4所示為根據(jù)本發(fā)明一實(shí)施例的分層預(yù)選流程圖，所述分層預(yù)選包括以下步驟：
[0041] 步驟S21 :設(shè)置標(biāo)識(shí)參數(shù)flag = 0,第一層預(yù)選采用基元上下文特征信息作為預(yù)選信息進(jìn)行預(yù)選；
[0042] 步驟S22 :第二層預(yù)選是在第一層預(yù)選的基礎(chǔ)上，采用文本特征信息、詞性和重音信息作為預(yù)選信息進(jìn)行基元預(yù)選，如果標(biāo)識(shí)參數(shù)flag = 0,則執(zhí)行步驟S23 ;如果標(biāo)識(shí)參數(shù) flag = 1，則輸出第二層候選基元；
[0043] 步驟S23 :第三層預(yù)選是在第二層預(yù)選的基礎(chǔ)上，采用根據(jù)文本特征預(yù)測出來的時(shí)長信息作為預(yù)選信息進(jìn)行預(yù)選，如果候選基元個(gè)數(shù)不為〇,設(shè)置標(biāo)識(shí)參數(shù)flag = 1，返回步驟S21 ;如果候選基元個(gè)數(shù)不為0,則輸出第三層候選基元。
[0044] 步驟S3 :對(duì)目標(biāo)基元、候選基元和權(quán)重預(yù)測模型預(yù)測的權(quán)重信息計(jì)算，得到目標(biāo) 代價(jià)；對(duì)相鄰兩個(gè)基元的契合度進(jìn)行計(jì)算，得到拼接代價(jià)；用維特比搜索方法對(duì)目標(biāo)代價(jià) 和拼接代價(jià)進(jìn)行搜索，得到最小代價(jià)路徑，進(jìn)而得到最佳基元并經(jīng)過平滑拼接得到合成語音。
[0045] 選音合成模塊，包括目標(biāo)代價(jià)與拼接代價(jià)的計(jì)算。利用代價(jià)和最小原則挑選得到最佳基兀。
[0046] 如圖5所示為本發(fā)明的基于文本特征的目標(biāo)代價(jià)的計(jì)算，獲取所述目標(biāo)代價(jià)包括以下步驟：
[0047] 步驟S31 :根據(jù)待合成語句的文本分析結(jié)果提取的相關(guān)基元的文本參數(shù)作為目標(biāo) 基元的參數(shù)，經(jīng)過分層預(yù)選后的基元的文本參數(shù)作為候選基元的參數(shù)；
[0048] 步驟S32 :計(jì)算目標(biāo)基元與候選基元文本特征之間的距離，結(jié)合預(yù)測出的權(quán)重信息，經(jīng)過線性回歸運(yùn)算得到的結(jié)果即為目標(biāo)代價(jià)；
[0049] 在拼接代價(jià)計(jì)算中，計(jì)算相鄰兩個(gè)基元的相鄰N幀（本實(shí)例中N = 3)的聲學(xué)參數(shù) 距離，作為拼接代價(jià)；
[0050] 表格1為根據(jù)本發(fā)明一實(shí)施例的所需要的文本特征。
[0051]

【權(quán)利要求】
1. 一種基于文本信息的波形拼接語音合成方法，其特征在于，該方法包括：步驟S1 :通過音段切分，提取原始音頻中所有基元的聲學(xué)參數(shù)與文本參數(shù)，根據(jù)提取的參數(shù)訓(xùn)練權(quán)重預(yù)測模型與時(shí)長預(yù)測模型；步驟S2 :采用分層預(yù)選方法，利用文本分析的目標(biāo)基元、時(shí)長預(yù)測模型預(yù)測的時(shí)長對(duì) 語料庫中的基元進(jìn)行初步預(yù)選，獲得候選基元；步驟S3 :對(duì)目標(biāo)基元、候選基元和權(quán)重預(yù)測模型預(yù)測的權(quán)重信息計(jì)算，得到目標(biāo)代價(jià)；對(duì)相鄰兩個(gè)基元的契合度進(jìn)行計(jì)算，得到拼接代價(jià)；用維特比搜索方法對(duì)目標(biāo)代價(jià)和拼接代價(jià)進(jìn)行搜索，得到最小代價(jià)路徑，進(jìn)而得到最佳基元并經(jīng)過平滑拼接得到合成語音。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述訓(xùn)練權(quán)重預(yù)測模型包括以下步驟：步驟S11 :對(duì)音庫進(jìn)行音段切分，切分為波形拼接系統(tǒng)所需的最小基本單元，并以切分后的基元為單位，按巾貞提取基頻參數(shù)、梅爾倒譜參數(shù)與能量；步驟S12 :對(duì)原始音頻對(duì)應(yīng)文本進(jìn)行文本分析，提取所有基元對(duì)應(yīng)的上下文文本特征信息與時(shí)長信息，并與提取的聲學(xué)參數(shù) 對(duì)應(yīng)；步驟S13:根據(jù)與聲學(xué)參數(shù)一一對(duì)應(yīng)的文本特征與時(shí)長信息，采用決策樹訓(xùn)練時(shí)長預(yù) 測模型。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述訓(xùn)練權(quán)重預(yù)測模型包括以下步驟：步驟S1A :對(duì)音庫進(jìn)行音段切分，切分為波形拼接系統(tǒng)所需的最小基本單元，并以切分后的基元為單位，按巾貞提取基頻參數(shù)、梅爾倒譜參數(shù)與能量；步驟S1B :對(duì)所述原始音頻對(duì)應(yīng)文本進(jìn)行文本分析，提取所有基元對(duì)應(yīng)的上下文文本特征信息與時(shí)長信息，并與提取的聲學(xué)參數(shù)一一對(duì)應(yīng)；步驟S1C :根據(jù)提取的所有基元的文本特征與聲學(xué)特征，按基元進(jìn)行分類；步驟S1D :對(duì)于每一類基元，計(jì)算所有任意兩個(gè)基元對(duì)應(yīng)的文本特征參數(shù)與聲學(xué)參數(shù) 之間的距離，存儲(chǔ)所有距離信息作為訓(xùn)練樣本；步驟S1F :采用決策樹和線性回歸算法，訓(xùn)練權(quán)重預(yù)測模型。
4. 根據(jù)權(quán)利要求2或3所述的方法，其特征在于，所述文本特征的距離信息作為決策樹的節(jié)點(diǎn)，在葉節(jié)點(diǎn)處與聲學(xué)參數(shù)的距離作線性回歸，即可得到文本信息對(duì)應(yīng)的權(quán)重。
5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述分層預(yù)選包括以下步驟：步驟S21 :設(shè)置標(biāo)識(shí)參數(shù)flag = 0,第一層預(yù)選采用基元上下文特征信息進(jìn)行預(yù)選；步驟S22 :第二層預(yù)選是在第一層預(yù)選的基礎(chǔ)上，采用文本特征信、詞性和重音信息作為預(yù)選信息進(jìn)行基元預(yù)選，如果標(biāo)識(shí)參數(shù)flag = 0,則執(zhí)行步驟S23 ;如果標(biāo)識(shí)參數(shù)flag = 1，則輸出第二層候選基元；步驟S23 :第三層預(yù)選是在第二層預(yù)選的基礎(chǔ)上，采用根據(jù)文本特征預(yù)測出來的時(shí)長信息作為預(yù)選信息進(jìn)行預(yù)選，如果候選基元個(gè)數(shù)不為〇,設(shè)置標(biāo)識(shí)參數(shù)flag = 1，返回步驟 S21 ;如果候選基元個(gè)數(shù)不為0,則輸出第三層候選基元。
6. 根據(jù)權(quán)利要求1所述的方法，其特征在于，獲取所述目標(biāo)代價(jià)包括以下步驟：步驟S31 :根據(jù)待合成語句的文本分析結(jié)果提取的相關(guān)基元的文本參數(shù)作為目標(biāo)基元的參數(shù)，將分層預(yù)選后的基元的文本參數(shù)作為候選基元的參數(shù)；步驟S32 :計(jì)算目標(biāo)基元與候選基元文本特征間的距離，結(jié)合預(yù)測出的權(quán)重信息，經(jīng)過線性回歸運(yùn)算得到的結(jié)果即為目標(biāo)代價(jià)。
【文檔編號(hào)】G10L13/02GK104112444SQ201410362838
【公開日】2014年10月22日申請日期:2014年7月28日優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】陶建華, 劉善峰申請人:中國科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陶建華;劉善峰
技術(shù)所有人：中國科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

上一篇：音頻編碼方法及相關(guān)裝置制造方法
上一篇：一種音頻測評(píng)方法及裝置制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

在線文本語音合成系統(tǒng)相關(guān)技術(shù)

文本語音合成相關(guān)技術(shù)

波形拼接相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于文本信息的波形拼接語音合成方法