具有情感內容的文字至語音轉換的制作方法

文檔序號：11935380閱讀：409來源：國知局

本公開涉及用于具有情感內容的文字至語音轉換的技術。

背景技術：

計算機語音合成是在現代計算設備中找到的越來越普遍的人機界面特征。在許多應用中，由合成語音傳達的情感表達對于總體的用戶體驗來說是很重要的。語音的感知情感內容可以通過諸如合成語音的節(jié)奏和韻律的因素來影響。

文字至語音轉換技術通常僅通過生成給定腳本的情感“中性”再現而忽視整個合成語音的情感內容?？商鎿Q地，文字至語音轉換技術可以利用獨立的聲音模型來用于獨立的情感類型，導致與在對應于許多情感類型的存儲器中存儲獨立的聲音模型相關聯的相對較高的成本。在用于生成具有還不存在聲音模型的情感內容的語音時，這些技術還是不靈活的。

因此，期望提供一種新穎且有效的技術來用于具有情感內容的文字至語音轉換。

技術實現要素：

本發(fā)明內容部分用于以簡化的形式引入概念的選擇，這將在下文的具體實施方式部分進一步進行描述。本發(fā)明內容部分不用于確定所要求主題的關鍵特征或重要特征，也不用于限制所要求主題的范圍。

簡而言之，本文所述主題的各個方面在于用于生成具有情感內容的語音輸出的技術。在一個方面中，使用情感中性模型來準備腳本的“中性”表示?；谟糜谡Z音輸出的期望情感類型，針對腳本獨立地準備情感特有(emotion-specific)調整，并且情感特有調整被應用于中性表示以生成變換表示。在一個方面中，情感特有調整可基于每個音素(phoneme)、基于每個狀態(tài)或者基于每個幀來應用，并且可以通過獨立的情感特有判定樹或其他分群方案來進行存儲和分類(或分群)。用于每個情感類型的分群方案可以相互不同并且與用于中性模型參數的分群方案不同。

其他優(yōu)勢可以根據以下詳細描述和附圖而變得顯而易見。

附圖說明

圖1示出了采用智能手機的場景，其中可應用本公開的技術。

圖2示出了可由用于實施語音對話系統的設備的處理器和其他元件執(zhí)行的處理的示例性實施例。

圖3示出了用于生成具有預定情感類型的語音輸出的文字至語音(TTS)轉換技術的示例性實施例。

圖4示出了圖3中的塊的示例性實施例，其中，使用情感特有調整來修改中性聲軌跡。

圖5示出了圖3中的塊的示例性實施例，其中，使用情感特有調整來改編HMM狀態(tài)模型參數。

圖6示出了根據本公開的判定樹集群(decision tree clustering)的示例性實施例。

圖7示出了用于存儲可在文字至語音系統中指定的多個情感類型中的每一個的獨立判定樹的方案的示例性實施例。

圖8A和圖8B示出了根據本公開的得到情感特有調整因子的技術的示例性實施例。

圖9示出了根據本公開的方法的示例性實施例。

圖10示意性示出了可執(zhí)行一個或多個上述方法和處理的非限制性計算系統。

圖11示出了根據本公開的用于文字至語音轉換的裝置的示例性實施例。

具體實施方式

本文所述技術的各個方面總的來說目的在于用于生成具有給定情感類型的語音輸出的技術。以下結合附圖給出的詳細描述用作本發(fā)明的示例性方面的描述而不用于僅表示可以實踐本發(fā)明的示例性方面。本說明書中使用的術語“示例性”表示“用作實例、示例或例證”，并且不是必須解釋為相對于其他示例性方面是優(yōu)選或有利的。詳細描述包括具體的細節(jié)，用于提供本發(fā)明的示例性方面的完整理解。本領域技術人員將明白，在不具有這些具體細節(jié)的情況下也可以實踐本發(fā)明的示例性方面。在一些情況下，以框圖形式示出已知的結構和設備，以避免模糊本文表示的示例性方面的新穎性。

圖1示出了采用智能手機的場景，其中可應用本公開的技術。注意，僅為了說明的目的示出圖1，并且不用于將本公開的范圍限制于僅將本公開應用于智能手機。例如，本文描述的技術可以容易地應用于其他場景，例如筆記本或桌上型計算機的人機界面系統、汽車導航系統等。這些可替換的應用預期包括在本公開的范圍內。

在圖1中，用戶110與計算設備120(例如，手持電話)通信。用戶110可以向設備120上的麥克風124提供語音輸入122。設備120內的一個或多個處理器125可以處理由麥克風124接收的語音信號，例如執(zhí)行下文進一步參照圖2描述的功能。應注意，用于執(zhí)行這些功能的處理器125不需要具有任何特定的形式、形狀或功能劃分。

基于處理器125執(zhí)行的處理，設備120可以使用音頻揚聲器128響應于語音輸入122生成語音輸出126。注意，在替換處理場景中，設備120還可以生成與語音輸入122無關的語音輸出126，例如設備120可以獨立地以語音輸出126的形式從其他用戶(未示出)向用戶110提供警告或中繼消息。

圖2示出了可由用于實施語音對話系統200的設備120的處理器125或其他元件執(zhí)行的處理的示例性實施例。應注意，僅為了說明的目的示出處理200，并且不表示將本公開的范圍限于圖2所示的任何具體序列或操作的集合。例如，在替換示例性實施例中，可以與圖2所示處理200獨立地應用用于執(zhí)行具有給定情感類型的文字至語音轉換的特定技術。例如，可以在指定腳本和情感類型的任何場景中應用本文公開的技術。此外，根據系統中的具體功能劃分，可以組合或省略圖2所示的一個或多個塊，因此圖2不表示建議所示塊的任何功能依賴性或獨立性。在替換示例性實施例中，塊的序列可以不同于圖2所示。這種替換示例性實施例被預期包括在本公開的范圍內。

在圖2中，對語音輸入122執(zhí)行語音識別210。語音輸入122例如可以從設備120上的麥克風124得到，并且例如可以對應于從麥克風124接收的音頻波形。

語音識別210生成語音輸入122中的口頭語言的文字再現。用于語音識別的技術可以利用例如具有從文字數據庫訓練的統計參數的隱馬爾科夫模塊(HMM)。

對語音識別210的輸出執(zhí)行語言理解220。在示例性實施例中，可以執(zhí)行諸如語法分析和文法分析的功能以根據自然語言理解技術得到語音的預期含義。

情感響應判定230生成由語言理解220確定的用戶語音輸入的適當情感響應。例如，如果通過對話系統200確定用戶的語音輸入要求“快樂”情感響應，則輸出情感判定230可以指定對應于“快樂”的情感類型230a。

輸出腳本生成240響應于由語言理解220確定的用戶語音輸入220a并且還基于由情感響應判定230確定的情感類型230a生成適當的輸出腳本240a。輸出腳本生成240以自然語言格式呈現生成的響應腳本240a，例如順從詞匯和語法規(guī)則，用于用戶的快速理解。腳本生成240的輸出腳本240a例如可以為目標語言的句子的形式，以自然語言格式將適當響應傳輸給用戶。

文字至語音(TTS)轉換250合成具有由輸出腳本240a確定的本文內容和由情感類型230a確定的情感內容的語音輸出126。文字至語音轉換250的語音輸出126可以是音頻波形，并且可以經由編碼解碼器(圖2中未示出)、設備120的揚聲器128和/或其他元件提供給收聽者(例如，圖1中的用戶110)。

如上所述，期望在特定應用中語音輸出126不僅被生成為文字的情感中性再現，而且語音輸出126進一步將特定的情況內容傳輸給用戶110。用于生成具有情感內容的人工語音的技術依賴于傳輸具有預定情感類型的語音的揚聲器的文字記錄，或者另外要求針對每個情感類型訓練完整的語音模型，導致用于模型的禁止存儲要求并且還導致情感輸出表達的受限范圍。因此，期望提供有效率和起作用的技術來用于具有情感內容的文字至語音轉換。

圖3示出了具有情感內容的文字至語音(TTS)轉換250的示例性實施例250.1。注意，僅為了說明的目的示出圖3，并且不表示將本公開的范圍限制于文字至語音轉換的任何特定示例性實施例。

在圖3中，腳本240a被輸入至TTS轉換250.1的塊310，其根據腳本240a創(chuàng)建音素(phoneme)序列310a。具體地，塊310可以構造音素序列310a以對應于腳本240a中找到的文字的發(fā)音。

在塊320中，從腳本240a中進一步提取語境特征，以修改音素序列310a并生成語言語境特征序列320a作為(p₁,…,p_t,…,p_T)，其中，p_t表示序列中的特征，t＝1至T。例如，對音素序列310a的調整可以在塊320中進行來說明由于腳本的音素和語言語境特征所引起的語音變化，從而生成語言語境特征序列320a。注意，序列320a可以基于每個音素的識別以及其他語境信息(諸如每個音素所屬的詞語的語音部分、當前音素所屬的前一詞語的音節(jié)的數量等)。因此，序列320a的每個元素在本文通?？煞Q為“語言語境”音素。

序列320a被提供給塊330，其中預測序列320a的聲軌跡330a。具體地，聲軌跡330a指定用于序列320a的聲參數的集合，包括持續(xù)時間(Dur)、基頻或間距(F0)和頻譜(Spectrum或譜系數)。在示例性實施例中，可以針對序列320a中的每個特征指定Dur(p_t)，同時可以針對特征p_t的F_t幀中的每一幀f指定F0(f)和Spectrum(f)。在示例性實施例中，持續(xù)時間模型預測音素的每個狀態(tài)可以持續(xù)多少幀。聲軌跡330a中的聲參數的序列隨后被提供給聲碼器350，其可以合成對應于語音輸出126的語音波形。

如圖3所示，塊330中的聲軌跡的預測參照中性聲音模型332和情感特有模型334來執(zhí)行。具體地，為了生成聲軌跡330a中的聲參數，序列320a可以被指定給中性聲音模型332。中性聲音模型332可以返回與序列320a的情感中性再現相對應的聲和/或模型參數332a。在示例性實施例中，基于統計參數語音合成技術，可以從模型參數中得到聲參數。

一種這樣的技術包括基于隱馬爾科夫模型(HMM)的語音合成，其中，語音輸出被建模為由統計參數(諸如初始狀態(tài)概率、狀態(tài)轉換概率和狀態(tài)輸出概率)表征的多個狀態(tài)?？梢詮挠柧欻MM中得到中性聲音模型332的基于HMM的實施的統計參數，以建模在具有已知語音內容的一個或多個語音數據庫中找到的語音樣本。統計參數可以存儲在存儲器(圖3中未示出)中來用于語音合成期間的檢索。

在示例性實施例中，情感特有模型334生成情感特有調整334a，將情感特有調整334a施加于從中性聲音模型334a中得到的參數以改編合成語音來具有給定情感類型23a0的特性。具體地，基于具有在一個或多個語音數據庫(其具有已知語音內容和情感類型)中找到的預定情感類型的語音樣本，從訓練模型中得到情感特有調整334a。在示例性實施例中，情感特有調整334a被提供作為對中性聲音模型332的輸出參數332a的調整而非獨立地足以產生用于每個情感類型的聲軌跡的情感特有統計或聲參數。如此，調整通常將要求較少的存儲器來存儲獨立充分的情感特有參數，當根據本公開生成具有預定情感類型的語音時可以保藏存儲資源。在示例性實施例中，可以針對由系統指定的每個情感類型獨立地訓練和存儲情感特有調整334a。

在示例性實施例中，例如基于每個音素、每個狀態(tài)或每個幀，可以存儲情感特有調整334a并施加于中性聲音模型332。例如，在示例性實施例中，對于具有三個狀態(tài)的音素HMM來說，可以存儲三個情感特有調整334a并基于每個狀態(tài)施加于每個音素。可替換地，如果三狀態(tài)音素的每個狀態(tài)對應于兩幀(例如，每一幀具有10毫秒的持續(xù)時間)，則可以基于每幀存儲六個情感特有調整334a并施加于每個音素。注意，根據由情感特有模型334指定的情感特有調整334a，通?？梢曰谇楦蓄愋歪槍γ總€對應的音素明顯地調整聲或模型參數。

圖4示出了圖3的塊330中的示例性實施例330.1，其中，使用情感特有調整來改編中性聲參數。注意，僅為了說明的目的示出圖4，并且不表示將本公開的范圍限于僅將情感特有調整應用于聲參數。

在圖4中，序列320a被輸入至塊410，用于預測序列320a的中性聲軌跡。具體地，序列320a被指定給中性聲音模型332.1。與情感類型230a一起，序列320a被進一步指定給情感特有模型334.1?；谥行月曇裟Ｐ?32.1的持續(xù)時間參數332.1a，針對序列320a預測中性持續(xù)時間Dur_n(p_t)或405a。應注意，與音素p_t的單個狀態(tài)s相關聯的每個聲參數通常可以是矢量，例如在每音素三狀態(tài)模型中，Dur_n(p_t)可以表示與第t個情感中性音素相關聯的三狀態(tài)持續(xù)時間的矢量等。

情感特有模型334.1生成情感類型230a和序列320a特有的持續(xù)時間調整參數Dur_adj_e(p₁),…,Dur_adj_e(p_T)或334.1a。持續(xù)時間調整塊410向中性持續(xù)時間405a施加持續(xù)時間調整參數334.1a以生成調整的持續(xù)時間序列Dur(p₁),…,Dur(p_T)或410a。

基于調整的持續(xù)時間序列410a，在塊420中預測用于F0和頻譜的中性軌跡420a。具體地，基于中性聲音模型332.1的F0和頻譜參數332.1b以及之前從410a得到的調整的持續(xù)時間參數Dur(p₁),…,Dur(p_T)，中性聲軌跡420a包括用于聲參數F0_n(f)和Spectrum_n(f)的預測。

在塊430中，情感特有F0和頻譜調整334.1b被施加于420a的對應中性F0和頻譜參數。具體地，基于序列320a和情感類型230a，通過情感特有模型334.1生成F0和頻譜調整F0_adj_e(1),…,F0_adj_e(F_T),Spectrum_adj(1),…,Spectrum_adj(F_T)334.1b。塊430的輸出330.1a包括情感特有調整持續(xù)時間、F0和頻譜參數。

在示例性實施例中，塊410和430處施加的調整可以對應于以下等式：

Dur(p_t)＝Dur_n(p_t)+Dur_adj_e(p_t) (等式1)

F0(f)＝F0_n(f)+F0_adj_e(f) (等式2)以及

Spectrum(f)＝Spectrum_n(f)+Spectrum_adj_e(f) (等式3)

其中，例如，等式1可以通過塊410來應用，以及等式2和3可以通過塊430來應用。所得到的聲參數330.1a(包括Dur(p_t)、F0(f)和Spectrum(f))可以被提供給聲碼器用于語音合成。

注意，在通過等式1-3描述的示例性實施例中，情感特有調整被應用為將在語音合成期間與中性聲參數組合的附加調整因子。將理解，在可選示例性實施例中，情感特有調整可以容易地以可選方式來存儲和/或應用，例如，乘法地、使用仿射變換地、非線性地等。這些替換的示例性實施例預期包括在本公開的范圍內。

進一步注意，雖然在等式1中持續(xù)時間調整被示為基于每個音素來應用以及在等式2和3中F0和頻譜調整被示為基于每幀來應用，但將理解，替換的示例性實施例可以基于任何每狀態(tài)、每音素或每幀來調整任何聲參數。這種替換的示例性實施例預期包括在本公開的范圍內。

圖5示出了圖3中的塊330的替換示例性實施例330.2，其中使用情感特有調整來改編中性HMM狀態(tài)參數。應注意，示出圖5僅是為了說明的目的，而不表示將本公開的范圍限于HMM狀態(tài)參數的情感特有改編。

在圖5中，塊510使用中性聲音模型332.2生成由序列320a構建的中性HMM序列510a。中性HMM序列510a指定中性HMM的每狀態(tài)模型參數(表示為λ_n)，包括與每個音素的狀態(tài)相關聯的平均矢量的序列μ_n(p₁,s₁),…,μ_n(p_t,s_m),…,μ_n(p_T,s_M)以及協方差矩陣的對應序列Σ_n(p₁,s₁),…,Σ_n(p_t,s_m),…,Σ_n(p_T,s_M)，其中，(p_t,s_m)表示第p_t個音素的(M個狀態(tài)中的)第m個狀態(tài)，其中M可以依賴于音素。中性HMM序列510a進一步指定中性每音素持續(xù)時間Dur_n(p₁),…,Dur_n(p_T)。在示例性實施例中，每個平均矢量μ_n(p_t,s_m)都可以包括對應狀態(tài)的觀測矢量的頻譜部分(例如，Spectrum)的平均值作為元素，包括C_t(統計特征系數，例如mel-cepstral系數)、Δc_t(第一階動態(tài)特征系數)和Δ²c_t(第二階動態(tài)特征系數)，而每個協方差矩陣Σ_n(p_t,s_m)可以指定這些特征的協方差。

與情感類型230a一起，序列320a進一步被指定作為情感特有模型334.2的輸入。情感特有模型334.2的輸出334.2a指定情感特有模型調整因子。在示例性實施例中，調整因子334.2a包括基于每狀態(tài)的模型調整因子α_e(p₁,s₁),…,α_e(p_T,s_M),β_e(p₁,s₁),…,β_e(p_T,s_M),γ_e(p₁,s₁),…,γ_e(p_T,s_M)以及基于每音素的情感特有持續(xù)時間調整因子a_e(p₁),…,a_e(p_T),b_e(p₁),…,b_e(p_T)。

塊520向中性HMMλ_n的對應參數施加由塊334.2指定的情感特有模型調整因子334.2a，以生成輸出520a。在示例性實施例中，可以如下施加調整：

μ(p_t,s_m)＝α_e(p_t,s_m)μ_n(p_t,s_m)+β_e(p_t,s_m) (等式4)

Σ(p_t,s_m)＝γ_e(p_t,s_m)Σ_n(p_t,s_m) (等式5)以及

Dur(p_t)＝a_e(p_t)Dur_n(p_t)+b_e(p_t) (等式6)

其中μ(p_t,s_m)、μ_n(p_t,s_m)和β_e(p_t,s_m)是矢量，α_e(p_t,s_m)是矩陣，以及α_e(p_t,s_m)μ_n(p_t,s_m)表示μ_n(p_t,s_m)與α_e(p_t,s_m)的左乘法(left-multiplication)，而Σ(p_t,s_m)、γ_e(p_t,s_m)和Σ_n(p_t,s_m)都是矩陣，以及γ_e(p_t,s_m)Σ_n(p_t,s_m)表示Σ_n(p_t,s_m)與γ_e(p_t,s_m)的左乘法。將理解，等式4和6的調整有效地向中性平均矢量μ_n(p_t,s_m)和持續(xù)時間Dur_n(p_t)施加仿射變換(即，線性變換并添加常數)，以生成新模型參數μ(p_t,s_m)和Dur(p_t)。在該說明書和權利要求中，μ(p_t,s_m)、Σ(p_t,s_m)和Dur(p_t)通常表示“變換”模型參數。應注意，替換的示例性實施例不需要施加仿射變換來生成變換模型參數，并且還可以采用諸如非線性變換的其他變換。這些替換的示例性實施例預期包括在本公開的范圍內。

基于變換的模型參數，聲軌跡(例如，F0和頻譜)隨后可以在塊530中被預測，并且預測的聲軌跡330.2a被輸出至聲碼器以生成語音波形。基于情感特有調整因子的選擇，應理解，聲參數330.2a被有效地改編以生成具有情感特有特性的語音。

在示例性實施例中，集群技術可用于減少存儲情感特有狀態(tài)模型或聲參數所需的存儲資源以及使能訓練數據不可用或稀疏(sparse)的狀態(tài)的模型參數的估計。在采用判定樹集群的示例性實施例中，判定樹可以針對每個情感類型而獨立地建立，從而使情感特有調整集群。應理解，以這種方式提供獨立的情感特有判定樹可以更加精確地建模與目標情感類型相關聯的特有韻律特性，因為可以針對每個情感類型具體地選擇和優(yōu)化用于集群情感特有狀態(tài)的問題。在示例性實施例中，情感特有判定樹的結構可以不同于用于存儲中性模型或聲參數的判定樹的結構。

圖6示出了根據本公開的判定樹集群的示例性實施例600。將理解，僅為了說明的目的示出圖6，并且不表示將本公開的范圍限于所示判定樹的任何特定結構或其他特性。此外，圖6不用于將本公開的范圍僅限于用于集群所示模型參數的判定樹集群，可以使用判定樹技術容易地集群其他參數(諸如用于F0、Spectrum和Duration的情感特有調整值)。進一步地，圖6不表示將本公開的范圍限于用于集群的判定樹的使用，還可以使用其他集群技術，諸如條件隨機域(CRF)、人工神經網絡(ANN)等。例如，在替換示例性實施例中，每個情感類型都可以與不同的CRF相關聯。這種替換的示例性實施例被預期包括在本公開的范圍內。

在圖6中，由(p，s)表示的音素的狀態(tài)s被提供給兩個獨立的判定樹：中性判定樹610和情感特有判定樹620。中性判定樹610基于施加于狀態(tài)s及其語境的多個中性問題q1_n、q2_n等將狀態(tài)s分為多個中性葉節(jié)點N1、N2、N3等中的一個。與中性判定樹610的每個葉節(jié)點相關聯的是對應的模型參數，例如指定中性平均矢量μ_n(p,s)、中性協方差矩陣Σ_n(p,s)等的高斯模型參數。

另一方面，情感特有判定樹620基于施加于狀態(tài)s及其語境的多個情感特有問題q1_e、q2_e等將狀態(tài)分為多個情感特有葉節(jié)點E1、E2、E3等中的一個。與情感特有判定樹610的每個葉節(jié)點相關聯的可以是對應的情感特有調整因子，例如α_e(p,s)、β_e(p,s)、γ_e(p,s)和/或將被施加為情感特有調整的其他因子，例如如等式1-6所指定的。應注意，情感特有葉節(jié)點的結構和用于情感特有判定樹620的情感特有問題的選擇通?？梢酝耆煌谥行匀~節(jié)點的結構以及用于中性判定樹610的中性問題的選擇，即中性和情感特有判定樹可以是“不同的”。判定樹的結構的差異例如使得每個情感特有判定樹針對給定的情感類型進行優(yōu)化構造，以更加精確地捕獲情感特有調整因子。

在示例性實施例中，每個變換判定樹都可以基于用于選擇問題的各種標準來構造，例如一系列問題可以被選擇以最大化模型輔助函數(諸如用于葉節(jié)點的對數似然函數的加權和)，其中所施加的權重可以基于對應狀態(tài)的狀態(tài)占用概率。按照用于構造判定樹已知的迭代算法，問題的選擇可以基于諸如由最小描述長度(MDL)和其他交叉驗證方法指定的度量來前進和終止。

圖7示出了用于針對可以在系統中指定的多個情感類型中的每一個存儲獨立的判定樹的方案的示例性實施例700，其中該系統用于將文字合成為具有情感內容的語音。將理解，圖7所示的技術例如可以應用于圖5所示塊510、332.2、334.2和520的具體實施。

在圖7中，由(p，s)索引的音素的狀態(tài)s被提供給中性判定樹710和選擇塊720。中性判定樹710輸出用于狀態(tài)s的中性參數710a，而選擇塊720基于給定情感類型230a從多個情感特有判定樹730.1至730.N中進行選擇。例如，情感類型1判定樹730.1可以存儲用于第一情感類型的情感調整因子(例如，“歡樂”)，而情感類型2判定樹730.2可以存儲用于第二情感類型的情感調整因子(例如，“悲哀”)等。每個情感特有判定樹730.1可以包括例如參照圖6中的情感特有判定樹620選擇和構造的問題和葉節(jié)點。

情感特有判定樹730.1至730.N中的所選一個的輸出被設置為730a，其包括用于給定情感類型230a的情感特有調整因子。

調整塊740向中性模型參數710a應用調整因子730a，例如先前參照等式4和5所描述的，從而生成變換模型或聲參數。

圖8A和圖8B示出了根據本公開的得到用于單個情感類型的情感特有調整因子的技術的示例性實施例800。應注意，僅為了說明的目的示出圖8A和圖8B，并且不用于將本公開的范圍限于用于得到情感特有調整因子的任何具體技術。在以下描述中，訓練音頻802和訓練腳本802不需要對應于語音的單個部分或者來自單個揚聲器的語音的多個部分，而是可以對應于具有預定情感類型的語音的任何語料庫(corpus)。

在圖8A中，訓練腳本801被提供給塊810，其從訓練腳本801中提取語境特征。例如，可以提取音素的語言語境以優(yōu)化狀態(tài)模型。在塊820中，根據情感中性聲音模型825合成對應于訓練腳本801的中性語音模型的參數。塊820的輸出820a例如包括訓練腳本中的文字的情感中性再現的模型參數，還表示為

對應于訓練腳本801的訓練音頻802被進一步提供給塊830。訓練音頻820對應于具有預定情感類型802a的訓練腳本801的文字的再現(rendition)。例如，可以通過預先記錄被構造為讀取具有給定情感類型802a的訓練腳本801的人類揚聲器來生成訓練音頻802。在塊830處，從訓練音頻802中提取聲特征830a。聲特征830a的示例例如可以包括持續(xù)時間、F0、頻譜系數等。

提取的聲特征830a被提供給塊840(例如，作為觀測矢量)，其生成與具有預定情感類型802a的訓練音頻802相對應的用于語音模型的參數的集合，本文也表示為“初始情感模型”。應注意，塊840對提取的聲特征830a執(zhí)行分析以得到初始情感模型參數，因為塊840可以不直接提供有對應于訓練音頻802的訓練腳本801。應理解，例如可以使用迭代過程(諸如期望最大化(EM)算法(Baum-Welch算法)或最大似然(ML)算法)執(zhí)行用于訓練音頻802的模型參數的優(yōu)化集合(例如，HMM輸出概率和狀態(tài)轉換概率等)。為了幫助收斂，用于初始化塊840中的迭代算法的參數集合可以從中性模型參數820a中得到。

對于每個狀態(tài)s，塊840生成情感特有模型參數λ^μ，∑(p,s)840a以及狀態(tài)占用概率840b，例如：

用于狀態(tài)s的占用統計＝Occ[s]＝P(O，s|λ^μ，∑(p，s)) (等式7)

其中，O表示觀測矢量的總集合。在示例性實施例中，如上文所描述的，占用統計840b可以幫助生成用于情感特有模型參數的判定樹。

在塊850中，針對情感特有調整的語境集群來構建判定樹。應理解，考慮到本公開，可以使用用于集群情感特有調整的任何適當技術來構建判定樹。在示例性實施例中，可以直接使用情感特有模型參數λ^μ，∑(p,s)840a來構建判定樹。在替換示例性實施例中，可以使用變換模型的版本來構建判定樹，例如通過將上文的等式4-6中指定的等式應用于中性模型的參數820a來生成變換模型參數。在這種示例性實施例中，根據需要，可以通過應用線性回歸技術來估計將應用于變換的對應調整因子(例如，α_e(p_t,s_m)、β_e(p_t,s_m)和γ_e(p,s)以及持續(xù)時間調整)，以得到針對情感特有模型λ^μ，∑(p,s)840a的中性模型820a的變換參數的最佳線性擬合。

將理解，判定樹的構建(例如基于情感特有模型或變換模型)例如可以通過選擇適當的問題來進行，以使樹的葉節(jié)點的對數似然比的加權和最大化。在示例性實施例中，在加權和中應用的權重可以包括占用統計Occ[s]840b?？梢赃M行分支和葉節(jié)點的添加，直到例如基于度量(諸如由最小描述長度(MDL)或其他交叉驗證技術指定的)而終止。

參照作為圖8A的繼續(xù)的圖8B，塊850的輸出850a指定包括一系列問題q1_t、q2_t、q3_t等的判定樹，用于將(p，s)的狀態(tài)集群為多個葉節(jié)點。這種輸出850a被進一步提供給訓練塊860，其得到用于判定樹的每個葉節(jié)點的調整因子的單個集合，例如α_e(p_t,s_m)、β_e(p_t,s_m)、γ_e(p,s)和持續(xù)時間調整。在示例性實施例中，可以使用最大似然線性回歸(MLLR)技術來生成調整因子的單個集合，例如通過使用仿射或線性變換將葉節(jié)點狀態(tài)的中性模型參數最佳地適應(fitting)到對應的情感模型參數。

在塊870中，在存儲器中存儲所構建判定樹的結構以及用于每個葉節(jié)點的調整因子，例如用于稍后用作情感特有模型334.3。塊870的在存儲器中存儲該信息完成了訓練階段。在語音合成期間，例如根據圖5所示的示例性實施例，情感特有調整可以從存儲器中檢索在訓練階段的塊870中存儲的調整因子作為情感特有模型334.3。

圖9示出了根據本公開的方法900的示例性實施例。應注意，僅為了說明的目的示出圖9，并且不用于將本公開的范圍限于所示的任何特定方法。

在圖9中，在塊910中，生成腳本的情感中性表示。該情感中性表示可以包括與多個音素相關聯的至少一個參數。

在塊920中，基于情感類型針對多個音素中的每個音素區(qū)別地調整至少一個參數，以生成變換表示。

圖10示意性示出了可以執(zhí)行一個或多個上述方法和處理的非限制性計算系統1000。以簡化形式示出了計算系統1000。將理解，實際上，在不背離本公開的范圍的情況下可以使用任何計算機架構。在不同的實施例中，計算系統1000可以采用大型計算機、服務器計算機、桌上型計算機、筆記本電腦、平板電腦、家庭娛樂計算機、網絡計算設備、移動計算設備、移動通信設備、智能手機、游戲設備等的形式。

計算系統1000包括處理器1010和存儲器1020。計算系統1000可以任選地包括顯示子系統、通信子系統、傳感器子系統、相機子系統和/或圖10中未示出的其他部件。計算系統1000還可以任選地包括用戶輸入設備，諸如鍵盤、鼠標、游戲控制器、相機、麥克風和/或觸摸屏。

處理器1010可以包括被配置為執(zhí)行一個或多個指令的一個或多個物理設備。例如，處理器可以被配置為執(zhí)行作為一個或多個應用程序、服務、程序、線程、庫、對象、部件、數據結構或其他邏輯結構的一部分的一個或多個指令。這種指令可以被實施以執(zhí)行任務、實現數據類型、變換一個或多個設備的狀態(tài)或者以其他方式達到期望的結果。

處理器可以包括被配置為執(zhí)行軟件指令的一個或多個處理器。附加地或可選地，處理器可以包括被配置為執(zhí)行硬件或固件指令的一個或多個硬件或固件邏輯機。處理器可以是單核或多核，并且其上執(zhí)行的程序可以被配置用于并行或分布式處理。處理器可以任選地包括在兩個或更多個設備中分布的對應部件，其可以遠程地定位和/或配置用于協調處理。處理器的一個或多個方面可以被虛擬化并且被在云計算結構中配置的遠程訪問網絡計算設備執(zhí)行。

存儲器1020可以包括一個或多個物理設備，其被配置為保持可由處理器執(zhí)行的數據和/或指令以實施本文描述的方法和處理。當實施這些方法和處理時，可以變換存儲器1020的狀態(tài)(以例如保持不同的數據)。

存儲器1020可以包括可移除介質和/或內置設備。存儲器1020可以包括光學存儲設備(例如，CD、DVD、HD-DVD、藍光盤等)、半導體存儲設備(例如，RAM、EPROM、EEPROM等)和/或磁性存儲設備(例如，硬盤驅動器、軟盤驅動器、帶驅動器、MRAM等)等。存儲器1020可以包括具有一個或多個以下特性的設備：易失性、非易失性、動態(tài)、靜態(tài)、讀/寫、只讀、隨機存取、順序存取、位置可尋址、文件可尋址和內容可尋址。在一些實施例中，處理器1010和存儲器1020可以集成到一個或多個普通設備中，諸如專用集成電路或芯片上系統。

存儲器1020還可以采用可移除計算機可讀存儲介質的形式，其可用于存儲和/或傳輸可被執(zhí)行以實施本文描述的方法和處理的數據和/或指令?？梢瞥嬎銠C可讀存儲介質1030可以采用CD、DVD、HD-DVD、藍光盤、EEPROM和/或軟盤等的形式。

應理解，存儲器1020包括用于存儲信息的一個或多個物理設備。術語“模塊”、“程序”和“引擎”可用于描述被實施以執(zhí)行一個或多個特定功能的計算系統1000的方面。在一些情況下，這種模塊、程序或引擎可以經由執(zhí)行由存儲器1020保持的指令的處理器1010來實例化。應理解，不同的模塊、程序和/或引擎可以由相同的應用程序、服務、代碼塊、對象、庫、線程、API、函數等來實例化。類似地，可以通過不同的應用程序、服務、代碼塊、對象、線程、API、函數等來實例化相同的模塊、程序和/或引擎。術語“模塊”、“程序”和“引擎”用于包括可執(zhí)行文件、數據文件、庫、驅動器、腳本、數據庫記錄等的個體或組。

在一個方面中，計算系統1000可以對應于包括存儲器1020的計算設備，存儲器保持可由處理器1010執(zhí)行的指令以生成腳本的情感中性表示，情感中性表示包括與多個音素相關聯的至少一個參數。存儲器1020可以進一步保持可由處理器1010執(zhí)行的指令，以基于情感類型針對多個音素中的每個音素區(qū)別地調整至少一個參數，從而生成變換表示。應注意，這種計算設備將理解為對應于處理、機器、制造或物質組成。

圖11示出了根據本公開的用于文字至語音轉換的裝置的示例性實施例1100。在圖11中，中性生成塊1110被配置為生成腳本1101的情感中性表示1110a。情感中性表示1110a包括與多個音素相關聯的至少一個參數。在示例性實施例中，至少一個參數例如可以包括以下參數中的任何一個或所有：每幀的每個音素的持續(xù)時間、每個音素的每幀的基頻、每幀的頻譜系數或者與每個音素的隱馬爾科夫模型的狀態(tài)相關聯的統計參數(諸如平均矢量或協方差矩陣)。在示例性實施例中，中性生成塊1110可以被配置為從中性判定樹中檢索HMM的狀態(tài)的參數。

調整塊1120被配置為基于情感類型1120b針對多個幀中的每個音素區(qū)別地調整情感中性表示1110a中的至少一個參數。調整塊1120的輸出對應于變換表示1120a。在示例性實施例中，調整塊1120可以例如參照塊440或520等向上述至少一個參數應用例如線性或仿射變換。變換表示例如可以對應于變換模型參數(諸如上文參照圖4-6所描述的)或者變換聲參數(諸如上文參照等式1-3所描述的)。變換表示1120a可以進一步提供給塊(例如，圖5中的塊530)，用于預測聲軌跡(如果變換表示1120a對應于模型參數)，或者提供給聲碼器(圖11中未示出)(如果變換表示1120a對應于聲軌跡)。

在示例性實施例中，調整塊1120可以被配置為從情感特有判定樹中檢索對應于HMM的狀態(tài)的調整因子。

在該說明書和權利要求中，應理解，當元件被稱為“連接至”或“耦合至”另一元件，則其可以直接連接或耦合至另一元件或者可以存在中間元件。相反，當元件被稱為“直接連接至”或“直接耦合至”另一元件，則不存在中間元件。此外，當元件被稱為“電連接”至另一元件時，這表示在這些元件之間存在低阻的路徑，而當元件被簡稱為“耦合”至另一元件時，可以在這些元件之間存在或者可以不存在低阻的路徑。

可以至少部分地通過一個或多個硬件和/或軟件邏輯部件來執(zhí)行本文描述的功能。例如但不限制，可以使用的硬件邏輯部件的所示類型包括現場可編程門陣列(FPGA)、程序專用集成電路(ASIC)、程序專用標準產品(ASSP)、芯片上系統(SOC)、復雜可編程邏輯器件(CPLD)等。

雖然本發(fā)明受各種修改和替換構造影響，但其特定的所示實施例在附圖中示出并且在上文詳細描述。然而，應該理解，不將本發(fā)明限制于所公開的特定形式，而是相反地覆蓋落入本發(fā)明的精神和范圍內的所有修改、替換構造和等效物。

完整全部詳細技術資料下載

當前第1頁1 2 3