一種基于文本信息的波形拼接語音合成方法
【專利摘要】本發(fā)明一種基于文本信息的波形拼接語音合成方法,該方法包括:步驟S1:通過音段切分,提取原始音頻中所有基元的聲學(xué)參數(shù)與文本參數(shù),根據(jù)提取的參數(shù)訓(xùn)練時(shí)長預(yù)測模型與權(quán)重預(yù)測模型;步驟S2:采用分層預(yù)選方法,利用文本分析的目標(biāo)基元、時(shí)長預(yù)測模型預(yù)測的時(shí)長對(duì)語料庫中的基元進(jìn)行初步預(yù)選,獲得候選基元;步驟S3:對(duì)目標(biāo)基元、候選基元和權(quán)重預(yù)測模型預(yù)測的權(quán)重信息計(jì)算,得到目標(biāo)代價(jià);對(duì)相鄰兩個(gè)基元的契合度進(jìn)行計(jì)算,得到拼接代價(jià);用維特比搜索方法對(duì)目標(biāo)代價(jià)和拼接代價(jià)進(jìn)行搜索,得到最小代價(jià)路徑,進(jìn)而得到最佳基元并經(jīng)過平滑拼接得到合成語音。
【專利說明】一種基于文本信息的波形拼接語音合成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于智能信息處理領(lǐng)域,涉及一種基于文本信息的波形拼接系統(tǒng)。
【背景技術(shù)】
[0002] 語音作為人機(jī)交互的主要手段之一,語音合成主要目的是讓計(jì)算機(jī)能夠產(chǎn)生高清 晰度、高自然度的連續(xù)語音。語音合成主要有兩種方式,早期的研究主要是采用參數(shù)語音合 成,最常用的合成方法是基于隱馬爾柯夫的參數(shù)語音合成方法。該方法作為一種基于統(tǒng)計(jì) 聲學(xué)建模方法的具休實(shí)現(xiàn),對(duì)語音的聲學(xué)參數(shù)進(jìn)行隱馬爾柯夫建模,并通過參數(shù)生成算法 來重構(gòu)聲學(xué)參數(shù)軌跡,最后調(diào)用語音合成器來產(chǎn)生語音波形。該方法的不足在于合成語音 的音質(zhì)、自然度和清晰度都不夠理想,與實(shí)際語音具有較大的差距。另一種方法是基于語料 庫的語音拼接合成方法,該方法是直接從原始錄制的語料庫中挑選合適的基元來進(jìn)行拼接 合成語音。
[0003] 但該方法雖能合成出較為接近原始語音的波形,但受限于語料庫大小的制約,合 成語音的穩(wěn)定性不夠理想(音庫過大,合成語音速度較慢,無法實(shí)時(shí)合成;音庫過小,合成 語音不穩(wěn)定),很大程度上影響的聽感。并且現(xiàn)有的拼接合成系統(tǒng),在計(jì)算代價(jià)時(shí)缺少考慮 文本信息對(duì)基元的影響,合成出的語音在韻律表現(xiàn)上也不是很好。
【發(fā)明內(nèi)容】
[0004] (一)要解決的技術(shù)問題
[0005] 為解決上述的一個(gè)或多個(gè)問題,本發(fā)明的目的是提供一種基于文本信息的波形拼 接語音合成方法。
[0006] (二)技術(shù)方案
[0007] 為達(dá)成所述目的,本發(fā)明提供的一種基于文本信息的波形拼接語音合成方法實(shí)現(xiàn) 的步驟包括:
[0008] 步驟S1 :通過音段切分,提取原始音頻中所有基元的聲學(xué)參數(shù)與文本參數(shù),根據(jù) 提取的參數(shù)訓(xùn)練時(shí)長預(yù)測模型與權(quán)重預(yù)測模型;
[0009] 步驟S2 :采用分層預(yù)選方法,利用文本分析的目標(biāo)基元、時(shí)長預(yù)測模型預(yù)測的時(shí) 長對(duì)語料庫中的基元進(jìn)行初步預(yù)選,獲得候選基元;
[0010] 步驟S3 :對(duì)目標(biāo)基元、候選基元和權(quán)重預(yù)測模型預(yù)測的權(quán)重信息計(jì)算,得到目標(biāo) 代價(jià);對(duì)相鄰兩個(gè)基元的契合度進(jìn)行計(jì)算,得到拼接代價(jià);用維特比搜索方法對(duì)目標(biāo)代價(jià) 和拼接代價(jià)進(jìn)行搜索,得到最小代價(jià)路徑,進(jìn)而得到最佳基元并經(jīng)過平滑拼接得到合成語 音。
[0011] (三)有益效果
[0012] 從上述技術(shù)方案可以看出,本發(fā)明基于文本特征的波形拼接語音合成方法具有以 下有益效果:
[0013] (1)該方法結(jié)合待合成語音與原始語音的文本特征,在基元預(yù)選時(shí)用分層預(yù)選方 法,不僅能有效率的在保證候選基元接近目標(biāo)基元的情況下,減少基元的個(gè)數(shù),降低后期代 價(jià)計(jì)算的時(shí)間開銷,提高了合成語音的效率,增強(qiáng)拼接合成的實(shí)時(shí)性;并且加入的時(shí)長預(yù)測 模型能保證選到的基元在時(shí)長上的連續(xù)性,提高了合成語音自然度;
[0014] (2)目標(biāo)代價(jià)的計(jì)算方法采用的是基于文本信息結(jié)合預(yù)測得到的權(quán)重信息得到的 代價(jià),保證了代價(jià)最小的基元在韻律上與目標(biāo)基元的一致性,拼接合成出高自然度,并提高 了合成語音的韻律表現(xiàn);
[0015] 該方法包括:對(duì)原始切分過的大音庫進(jìn)行參數(shù)提?。ò晫W(xué)參數(shù)與文本參數(shù))。 結(jié)合相應(yīng)文本標(biāo)注信息,對(duì)基元的時(shí)長信息進(jìn)行建模,結(jié)合基元的上下文信息與基元所在 詞的詞性等信息,生成分層預(yù)選模型對(duì)基元進(jìn)行預(yù)選。這種預(yù)選方法不僅可以達(dá)到在大語 料庫的情況下縮短系統(tǒng)運(yùn)行時(shí)間、增強(qiáng)系統(tǒng)合成語音的實(shí)時(shí)性和提高基元選取的準(zhǔn)確率的 目的,而且保證了候選基元在時(shí)長上的連續(xù)性。在計(jì)算目標(biāo)代價(jià)時(shí),在訓(xùn)練階段,用決策樹 算法與線性回歸算法結(jié)合文本特征與聲學(xué)特征進(jìn)行建模,預(yù)測出相關(guān)文本特征的權(quán)重信 息。在拼接合成語音時(shí),輸入相應(yīng)的候選基元與目標(biāo)基元的文本信息距離,結(jié)合決策樹與線 性回歸模型預(yù)測出的權(quán)重信息,就得到相對(duì)應(yīng)候選基元的目標(biāo)代價(jià),再結(jié)合拼接代價(jià)的計(jì) 算,最后就能拼接合成出語音,本發(fā)明合成出較高音質(zhì)的語音。
【專利附圖】
【附圖說明】
[0016] 圖1為根據(jù)本發(fā)明基于文本信息的波形拼接語音合成方法流程圖;
[0017] 圖2為本發(fā)明中訓(xùn)練時(shí)長預(yù)測模型一實(shí)施例的流程圖;
[0018] 圖3為本發(fā)明中訓(xùn)練權(quán)重預(yù)測模型一實(shí)施例的流程圖;
[0019] 圖4為根據(jù)本發(fā)明一實(shí)施例的分層預(yù)選流程圖;
[0020] 圖5為根據(jù)本發(fā)明一實(shí)施例的基于文本特征的目標(biāo)代價(jià)的計(jì)算。
【具體實(shí)施方式】
[0021] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
[0022] 需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號(hào)。附 圖中未繪示或描述的實(shí)現(xiàn)方式,為所屬【技術(shù)領(lǐng)域】中普通技術(shù)人員所知的形式。另外,雖然本 文可提供包含特定值的參數(shù)的示范,但應(yīng)了解,參數(shù)無需確切等于相應(yīng)的值,而是可在可接 受的誤差容限或設(shè)計(jì)約束內(nèi)近似于相應(yīng)的值。
[0023] 本發(fā)明方法結(jié)合待合成語音與原始語音的文本特征,首先對(duì)音庫中的基元進(jìn)行分 層預(yù)選,提高了合成語音的效率,增強(qiáng)了合成語音的實(shí)時(shí)性,然后結(jié)合基于文本信息預(yù)測出 的權(quán)重信息,計(jì)算代價(jià),挑選合適的基元,最后拼接合成出高自然度與高韻律表現(xiàn)的語音。
[0024] 如圖1示出本發(fā)明基于文本信息的的波形拼接語音合成方法流程圖,該方法包括 以下步驟:
[0025] 步驟S1 :通過音段切分,提取原始音頻中所有基元的聲學(xué)參數(shù)與文本參數(shù),根據(jù) 提取的參數(shù)訓(xùn)練時(shí)長預(yù)測模型與權(quán)重預(yù)測模型;模型訓(xùn)練模塊,根據(jù)訓(xùn)練文本與對(duì)應(yīng)的音 頻提取基元的文本參數(shù)與聲學(xué)參數(shù)進(jìn)行模型訓(xùn)練,獲取分層預(yù)選中的時(shí)長預(yù)測模型與目標(biāo) 代價(jià)計(jì)算時(shí)所需的權(quán)重預(yù)測模型;
[0026] 如圖2所示為本發(fā)明中訓(xùn)練時(shí)長預(yù)測模型一實(shí)施例的流程圖;所述訓(xùn)練時(shí)長預(yù)測 模型包括以下步驟:
[0027] 步驟S11 :對(duì)音庫進(jìn)行音段切分,切分為波形拼接所需的最小基本單元,以切分后 的基元為單位,按巾貞提取基頻參數(shù)、梅爾倒譜參數(shù)與能量;在本發(fā)明一實(shí)施例中,譜參數(shù)是 提取的12階梅爾倒譜系數(shù)。
[0028] 步驟S12 :對(duì)所述原始音頻對(duì)應(yīng)文本進(jìn)行文本分析,根據(jù)音段切分結(jié)果,提取所有 基兀對(duì)應(yīng)的上下文文本特征信息與時(shí)長信息,并與提取的聲學(xué)參數(shù) 對(duì)應(yīng);
[0029] 步驟S13 :根據(jù)與聲學(xué)參數(shù)一一對(duì)應(yīng)的文本特征與時(shí)長信息,采用決策樹訓(xùn)練時(shí) 長預(yù)測模型。
[0030] 如圖3所示為本發(fā)明中訓(xùn)練權(quán)重預(yù)測模型一實(shí)施例的流程圖,所述訓(xùn)練權(quán)重預(yù)測 模型的包括以下步驟:
[0031] 步驟S1A :對(duì)音庫進(jìn)行音段切分,切分為波形拼接系統(tǒng)所需的最小基本單元,并以 切分后的基元為單位,按幀提取基頻參數(shù)、梅爾倒譜參數(shù)與能量;在本發(fā)明一實(shí)施例中,譜 參數(shù)是提取的12階梅爾倒譜系數(shù)。
[0032] 步驟S1B :對(duì)所述原始音頻對(duì)應(yīng)文本進(jìn)行文本分析,根據(jù)音段切分結(jié)果,提取所有 基兀對(duì)應(yīng)的上下文文本特征信息與時(shí)長信息,并與提取的聲學(xué)參數(shù) 對(duì)應(yīng);
[0033] 步驟S1C :根據(jù)提取的所有基元的文本特征與聲學(xué)特征,按基元進(jìn)行分類;
[0034] 步驟S1D :對(duì)于每一類基元,計(jì)算所有任意兩個(gè)基元對(duì)應(yīng)的文本特征參數(shù)與聲學(xué) 參數(shù)之間的距離,存儲(chǔ)所有距離信息作為訓(xùn)練樣本;
[0035] 步驟S1F :采用決策樹和線性回歸算法(M5P),進(jìn)行權(quán)重預(yù)測模型的訓(xùn)練:文本的 距離信息作為決策樹的節(jié)點(diǎn),在葉節(jié)點(diǎn)處與聲學(xué)參數(shù)的距離作線性回歸。即可得到文本信 息對(duì)應(yīng)的權(quán)重。
[0036] 葉節(jié)點(diǎn)處的回歸可以用以下公式表示:
[0037] WoIxq-x' ol+wJxfX' J+...+Wnlxn-χ' η| = Πο?ΡΟ-ΡΟ' + π 11Dur-Dur' | + π 2 Ε-Ε/ (1)
[0038] 其中f i和Xi為兩基元對(duì)應(yīng)的文本特征,R)和RV為對(duì)應(yīng)的基頻信息,Dur和 Dur'為對(duì)應(yīng)的時(shí)長信息,E和E'為能量信息。本實(shí)例取[^,^,ji2]的值為[1,1,0. 5]。 經(jīng)過葉節(jié)點(diǎn)處的回歸運(yùn)算,Wl,...,wn)即為預(yù)測得到的權(quán)重信息。
[0039] 步驟S2 :采用分層預(yù)選方法,利用文本分析的目標(biāo)基元、時(shí)長預(yù)測模型預(yù)測的時(shí) 長對(duì)語料庫中的基元進(jìn)行初步預(yù)選,獲得候選基元;基元預(yù)選模塊,采用分層預(yù)選方法,對(duì) 語料庫中的基元進(jìn)行初步預(yù)選,以減少后期代價(jià)計(jì)算的復(fù)雜度,提高合成效率。
[0040] 如圖4所示為根據(jù)本發(fā)明一實(shí)施例的分層預(yù)選流程圖,所述分層預(yù)選包括以下步 驟:
[0041] 步驟S21 :設(shè)置標(biāo)識(shí)參數(shù)flag = 0,第一層預(yù)選采用基元上下文特征信息作為預(yù)選 信息進(jìn)行預(yù)選;
[0042] 步驟S22 :第二層預(yù)選是在第一層預(yù)選的基礎(chǔ)上,采用文本特征信息、詞性和重音 信息作為預(yù)選信息進(jìn)行基元預(yù)選,如果標(biāo)識(shí)參數(shù)flag = 0,則執(zhí)行步驟S23 ;如果標(biāo)識(shí)參數(shù) flag = 1,則輸出第二層候選基元;
[0043] 步驟S23 :第三層預(yù)選是在第二層預(yù)選的基礎(chǔ)上,采用根據(jù)文本特征預(yù)測出來的 時(shí)長信息作為預(yù)選信息進(jìn)行預(yù)選,如果候選基元個(gè)數(shù)不為〇,設(shè)置標(biāo)識(shí)參數(shù)flag = 1,返回 步驟S21 ;如果候選基元個(gè)數(shù)不為0,則輸出第三層候選基元。
[0044] 步驟S3 :對(duì)目標(biāo)基元、候選基元和權(quán)重預(yù)測模型預(yù)測的權(quán)重信息計(jì)算,得到目標(biāo) 代價(jià);對(duì)相鄰兩個(gè)基元的契合度進(jìn)行計(jì)算,得到拼接代價(jià);用維特比搜索方法對(duì)目標(biāo)代價(jià) 和拼接代價(jià)進(jìn)行搜索,得到最小代價(jià)路徑,進(jìn)而得到最佳基元并經(jīng)過平滑拼接得到合成語 音。
[0045] 選音合成模塊,包括目標(biāo)代價(jià)與拼接代價(jià)的計(jì)算。利用代價(jià)和最小原則挑選得到 最佳基兀。
[0046] 如圖5所示為本發(fā)明的基于文本特征的目標(biāo)代價(jià)的計(jì)算,獲取所述目標(biāo)代價(jià)包括 以下步驟:
[0047] 步驟S31 :根據(jù)待合成語句的文本分析結(jié)果提取的相關(guān)基元的文本參數(shù)作為目標(biāo) 基元的參數(shù),經(jīng)過分層預(yù)選后的基元的文本參數(shù)作為候選基元的參數(shù);
[0048] 步驟S32 :計(jì)算目標(biāo)基元與候選基元文本特征之間的距離,結(jié)合預(yù)測出的權(quán)重信 息,經(jīng)過線性回歸運(yùn)算得到的結(jié)果即為目標(biāo)代價(jià);
[0049] 在拼接代價(jià)計(jì)算中,計(jì)算相鄰兩個(gè)基元的相鄰N幀(本實(shí)例中N = 3)的聲學(xué)參數(shù) 距離,作為拼接代價(jià);
[0050] 表格1為根據(jù)本發(fā)明一實(shí)施例的所需要的文本特征。
[0051]
【權(quán)利要求】
1. 一種基于文本信息的波形拼接語音合成方法,其特征在于,該方法包括: 步驟S1 :通過音段切分,提取原始音頻中所有基元的聲學(xué)參數(shù)與文本參數(shù),根據(jù)提取 的參數(shù)訓(xùn)練權(quán)重預(yù)測模型與時(shí)長預(yù)測模型; 步驟S2 :采用分層預(yù)選方法,利用文本分析的目標(biāo)基元、時(shí)長預(yù)測模型預(yù)測的時(shí)長對(duì) 語料庫中的基元進(jìn)行初步預(yù)選,獲得候選基元; 步驟S3 :對(duì)目標(biāo)基元、候選基元和權(quán)重預(yù)測模型預(yù)測的權(quán)重信息計(jì)算,得到目標(biāo)代價(jià); 對(duì)相鄰兩個(gè)基元的契合度進(jìn)行計(jì)算,得到拼接代價(jià);用維特比搜索方法對(duì)目標(biāo)代價(jià)和拼接 代價(jià)進(jìn)行搜索,得到最小代價(jià)路徑,進(jìn)而得到最佳基元并經(jīng)過平滑拼接得到合成語音。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練權(quán)重預(yù)測模型包括以下步驟: 步驟S11 :對(duì)音庫進(jìn)行音段切分,切分為波形拼接系統(tǒng)所需的最小基本單元,并以切分 后的基元為單位,按巾貞提取基頻參數(shù)、梅爾倒譜參數(shù)與能量; 步驟S12 :對(duì)原始音頻對(duì)應(yīng)文本進(jìn)行文本分析,提取所有基元對(duì)應(yīng)的上下文文本特征 信息與時(shí)長信息,并與提取的聲學(xué)參數(shù) 對(duì)應(yīng); 步驟S13:根據(jù)與聲學(xué)參數(shù)一一對(duì)應(yīng)的文本特征與時(shí)長信息,采用決策樹訓(xùn)練時(shí)長預(yù) 測模型。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練權(quán)重預(yù)測模型包括以下步驟: 步驟S1A :對(duì)音庫進(jìn)行音段切分,切分為波形拼接系統(tǒng)所需的最小基本單元,并以切分 后的基元為單位,按巾貞提取基頻參數(shù)、梅爾倒譜參數(shù)與能量; 步驟S1B :對(duì)所述原始音頻對(duì)應(yīng)文本進(jìn)行文本分析,提取所有基元對(duì)應(yīng)的上下文文本 特征信息與時(shí)長信息,并與提取的聲學(xué)參數(shù)一一對(duì)應(yīng); 步驟S1C :根據(jù)提取的所有基元的文本特征與聲學(xué)特征,按基元進(jìn)行分類; 步驟S1D :對(duì)于每一類基元,計(jì)算所有任意兩個(gè)基元對(duì)應(yīng)的文本特征參數(shù)與聲學(xué)參數(shù) 之間的距離,存儲(chǔ)所有距離信息作為訓(xùn)練樣本; 步驟S1F :采用決策樹和線性回歸算法,訓(xùn)練權(quán)重預(yù)測模型。
4. 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述文本特征的距離信息作為決策樹 的節(jié)點(diǎn),在葉節(jié)點(diǎn)處與聲學(xué)參數(shù)的距離作線性回歸,即可得到文本信息對(duì)應(yīng)的權(quán)重。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分層預(yù)選包括以下步驟: 步驟S21 :設(shè)置標(biāo)識(shí)參數(shù)flag = 0,第一層預(yù)選采用基元上下文特征信息進(jìn)行預(yù)選; 步驟S22 :第二層預(yù)選是在第一層預(yù)選的基礎(chǔ)上,采用文本特征信、詞性和重音信息作 為預(yù)選信息進(jìn)行基元預(yù)選,如果標(biāo)識(shí)參數(shù)flag = 0,則執(zhí)行步驟S23 ;如果標(biāo)識(shí)參數(shù)flag = 1,則輸出第二層候選基元; 步驟S23 :第三層預(yù)選是在第二層預(yù)選的基礎(chǔ)上,采用根據(jù)文本特征預(yù)測出來的時(shí)長 信息作為預(yù)選信息進(jìn)行預(yù)選,如果候選基元個(gè)數(shù)不為〇,設(shè)置標(biāo)識(shí)參數(shù)flag = 1,返回步驟 S21 ;如果候選基元個(gè)數(shù)不為0,則輸出第三層候選基元。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取所述目標(biāo)代價(jià)包括以下步驟: 步驟S31 :根據(jù)待合成語句的文本分析結(jié)果提取的相關(guān)基元的文本參數(shù)作為目標(biāo)基元 的參數(shù),將分層預(yù)選后的基元的文本參數(shù)作為候選基元的參數(shù); 步驟S32 :計(jì)算目標(biāo)基元與候選基元文本特征間的距離,結(jié)合預(yù)測出的權(quán)重信息,經(jīng)過 線性回歸運(yùn)算得到的結(jié)果即為目標(biāo)代價(jià)。
【文檔編號(hào)】G10L13/02GK104112444SQ201410362838
【公開日】2014年10月22日 申請日期:2014年7月28日 優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】陶建華, 劉善峰 申請人:中國科學(xué)院自動(dòng)化研究所