本發(fā)明實施例涉及語音合成
技術領域:
,特別涉及一種語音合成方法及裝置。
背景技術:
:語音合成技術,又稱文語轉(zhuǎn)換(TexttoSpeech)技術,用于將文字信息轉(zhuǎn)化為語音信息。目前使用較為廣泛的語音合成技術是基于波形拼接的語音合成技術?;诓ㄐ纹唇拥恼Z音合成技術的核心思想是:預先構(gòu)建一個語料庫,該語料庫中包含各種語音片段;對于輸入的文本信息,從語料庫中選擇合適的多個語音片段拼接得到最終的語音信息。具體來講,對于已知的一個文本信息W=(w1,w2,…,wn),wi為文本基元,采用目標代價和拼接代價從語料庫中選擇出總代價最小的目標語音片段序列V=(v1,v2,…,vn)進行語音合成,vi為語音片段。其中,目標代價用于表征文本基元wi對應的預測聲學特征與語料庫中的候選語音片段的聲學特征之間的相似性,目標代價越小,兩者越相似;拼接代價用于表征兩個相鄰候選語音片段在拼接后的連續(xù)性,拼接代價越小,拼接后的語音連續(xù)性效果越好。比如,對于已知的一個文本信息“早安中國”,文本基元“早安”在語料庫中對應3個候選語音片段a,文本基元“中國”在語料庫中對應2個候選語音片段b,共存在6組候選拼接方案;目標代價用于表征文本基元“早安”對應的預測聲學特征與候選語音片段a之間的相似性,以及用于文本基元“中國”對應的預測聲學特征與候選語音片段b之間的相似性;而拼接代價用于表征候選語音片段a與候選語音片段b之間的連續(xù)性;對于6種候選拼接方案,計算出每種候選拼接方案各自的目標代價和拼接代價,選擇出總代價最小的一種候選拼接方案作為最終的拼接方案,合成得到最終的語音信息。完整的拼接代價模型由算法模型和權值兩部分組成,為了獲得較好的連續(xù)性效果,這些權值是根據(jù)設計者的經(jīng)驗和試錯進行手工調(diào)整的。具體來講,在通過具有初始權值的拼接代價模型為輸入的文字信息進行語音合成后,需要人工測聽語音信息的連續(xù)性效果,如果獲得不滿意的連續(xù)性效果,則需要手工調(diào)整拼接代價模型中的這些權值;通過使用具有調(diào)整后權值的拼接代價模型,將輸入的文字信息再次進行語音合成,再一次對合成的語音信息重復上述過程,直至獲得滿意的連續(xù)性效果。每次手工調(diào)整這些權值后,都需要重新進行語音合成并對合成的語音信息的連續(xù)性效果進行人工測聽,而每次調(diào)整后的連續(xù)性效果不一定比上一次的連續(xù)性結(jié)果更優(yōu),通常需要很多次的人工測聽和手工調(diào)整操作才能獲得較優(yōu)的權值和滿意的連續(xù)性效果。即便如此,最終得到的權值仍然不夠準確。技術實現(xiàn)要素:為了解決需要很多次的人工測聽和手工調(diào)整操作才能獲得較優(yōu)的權值和滿意的連續(xù)性效果的問題,本發(fā)明實施例提供了一種語音合成方法及裝置。所述技術方案如下:第一方面,提供了一種模型生成方法,所述方法包括:獲取測試語音信息,所述測試語音信息是將目標代價最小的語音片段進行拼接所得到的語音信息;從所述測試語音信息中提取具有第一標注類型的測試語音片段,所述第一標注類型用于標注所述測試語音片段的語音連續(xù)性優(yōu)于預設條件;根據(jù)具有所述第一標注類型的測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣;每個所述平均差異矩陣與一類拼接組合關系對應,每個所述平均差異矩陣用于表征屬于同一類所述拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異;根據(jù)所述平均差異矩陣,生成具有目標拼接權值的拼接代價模型,每個所述拼接代價模型與一類所述拼接組合關系對應。第二方面,提供了一種語音合成方法,采用如第一方面所述的模型生成方法所生成的所述拼接代價模型,所述方法包括:對輸入的文本信息進行拆分,得到文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n;根據(jù)預設聲學模型,得到與每個文本基元wi對應的預測聲學特征;對于每個所述文本基元wi,從語料庫中選擇出若干個候選語音片段;根據(jù)目標代價模型計算每個所述文本基元wi與對應的候選語音片段之間的目標代價;根據(jù)所述拼接代價模型計算相鄰的所述候選語音片段之間的拼接代價;選擇出所述目標代價和所述拼接代價所對應的總代價最小的一組目標語音片段序列(v1,v2,…,vn)進行語音合成,得到與輸入的所述文本信息對應的所述語音信息。第三方面,提供了一種模型生成裝置,所述裝置包括:獲取模塊,用于獲取測試語音信息,所述測試語音信息是將目標代價最小的語音片段進行拼接所得到的語音信息;提取模塊,用于從所述測試語音信息中提取具有第一標注類型的測試語音片段,所述第一標注類型用于標注所述測試語音片段的語音連續(xù)性優(yōu)于預設條件;第一計算模塊,用于根據(jù)具有所述第一標注類型的測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣;每個所述平均差異矩陣與一類拼接組合關系對應,每個所述平均差異矩陣用于表征屬于同一類所述拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異;生成模塊,用于根據(jù)所述平均差異矩陣,生成具有目標拼接權值的拼接代價模型,每個所述拼接代價模型與一類所述拼接組合關系對應。第四方面,提供了一種語音合成裝置,采用如第三方面所述的模型生成裝置所生成的所述拼接代價模型,所述裝置包括:拆分模塊,用于對輸入的文本信息進行拆分,得到文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n;得到模塊,用于根據(jù)預設聲學模型,得到與每個文本基元wi對應的預測聲學特征;選擇模塊,用于對于每個所述文本基元wi,從語料庫中選擇出若干個候選語音片段;第二計算模塊,用于根據(jù)目標代價模型計算每個所述文本基元wi與對應的候選語音片段之間的目標代價;根據(jù)所述拼接代價模型計算相鄰的所述候選語音片段之間的拼接代價;合成模塊,用于選擇出所述目標代價和所述拼接代價所對應的總代價最小的一組目標語音片段序列(v1,v2,…,vn)進行語音合成,得到與輸入的所述文本信息對應的所述語音信息。本發(fā)明實施例提供的技術方案至少具有如下有益效果:通過根據(jù)具有第一標注類型的多個測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣,根據(jù)平均差異矩陣生成具有目標拼接權值的拼接代價模型;由于每個平均差異矩陣與一類拼接組合關系對應,用于表征屬于同一類拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異,使得根據(jù)平均差異矩陣生成出的每個拼接代價模型與一類拼接組合關系對應,且每個拼接代價模型具有精準的權值;避免了需要多次手工調(diào)整拼接代價模型中的權值,且最終得到的權值仍然不夠準確的情況,從而達到了減少手工調(diào)整次數(shù),直接通過平均差異矩陣計算出較為精準的權值的效果。附圖說明為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1A是一種基于波形拼接的語音合成方法的原理示意圖;圖1B是本發(fā)明另一個實施例提供的語音合成方法的原理示意圖;圖2是本發(fā)明一個實施例提供的語音合成方法的方法流程圖;圖3是本發(fā)明另一個實施例提供的語音合成方法的方法流程圖;圖4A是本發(fā)明另一個實施例提供的語音合成方法的方法流程圖;圖4B是本發(fā)明另一個實施例提供的語音合成方法的方法流程圖;圖5是本發(fā)明另一個實施例提供的語音合成方法的原理示意圖;圖6是本發(fā)明另一個實施例提供的語音合成方法的原理示意圖;圖7是本發(fā)明另一個實施例提供的語音合成方法的方法流程圖;圖8是本發(fā)明另一個實施例提供的語音合成方法的界面示意圖;圖9是本發(fā)明一個實施例提供的模塊生成裝置的結(jié)構(gòu)示意圖;圖10是本發(fā)明另一個實施例提供的模塊生成裝置的結(jié)構(gòu)示意圖;圖11是本發(fā)明一個實施例提供的語音合成裝置的結(jié)構(gòu)示意圖;圖12是本發(fā)明一個實施例提供的終端的結(jié)構(gòu)方框圖;圖13是本發(fā)明一個實施例提供的服務器的結(jié)構(gòu)方框圖。具體實施方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。請參考圖1A,其示出了一種基于波形拼接的語音合成方法的原理示意圖。用戶向服務器輸入一個文本信息,服務器對輸入的文本信息進行拆分,得到一組文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n,經(jīng)過一系列的步驟,最終服務器將該組文本基元序列轉(zhuǎn)化為一組目標語音片段序列(v1,v2,…,vn)進行語音合成,得到與輸入的文本信息對應的語音信息。以兩個前后相鄰的文本基元即文本基元w1、文本基元w2為例進行具體說明,服務器根據(jù)預設聲學模型,將文本基元w1和文本基元w2進行前端處理,分別得到與文本基元w1對應的預測聲學特征1,與文本基元w2對應的預測聲學特征2。對于文本基元w1對應的預測聲學特征1,從語料庫中選擇出三個第一候選語音片段,三個第一候選語音片段包括候選語音片段a1、候選語音片段a2、候選語音片段a3;對于文本基元w2對應的預測聲學特征2,從語料庫中選擇出兩個第二候選語音片段,兩個第二候選語音片段包括候選語音片段b1、候選語音片段b2,當將三個第一候選語音片段和兩個第二候選語音片段進行拼接時,一共存在6組候選拼接方案。第一組候選拼接方案為候選語音片段a1與候選語音片段b1拼接,第二組候選拼接方案為候選語音片段a2與候選語音片段b1拼接,第三組候選拼接方案為候選語音片段a3與候選語音片段b1拼接,第四組候選拼接方案為候選語音片段a1與候選語音片段b2拼接,第五組候選拼接方案為候選語音片段a2與候選語音片段b2拼接,第六組候選拼接方案為候選語音片段a3與候選語音片段b2拼接。具體來說,對于第一組候選拼接方案,服務器根據(jù)目標代價模型計算文本基元w1與對應的候選語音片段a1之間的第一目標代價,文本基元w2與對應的候選語音片段b1之間的第二目標代價,根據(jù)拼接代價模型計算候選語音片段a1與候選語音片段b1之間的第一拼接代價,計算得到與第一組候選拼接方案對應的第一總代價,第一總代價包括第一目標代價、第二目標代價和第一拼接代價;依次類推,分別計算得到與第二組候選拼接方案對應的第二總代價,與第三組候選拼接方案對應的第三總代價,與第四組候選拼接方案對應的第四總代價,與第五組候選拼接方案對應的第五總代價,與第六組候選拼接方案對應的第六總代價,將這六組候選拼接方案對應的總代價進行比較,若第二組候選拼接方案所對應的總代價最小,即確定出候選語音片段a1與候選語音片段b2屬于目標語音片段,進行最終的語音拼接,并得到最終的合成語音。以第二組候選拼接方案為例,拼接代價模型可以采用如下公式定義:CC=Σt′=1Twt′·(Σn=1Nwn·|Δf|)=Σt=t0t0+T-1wt·(Σn=1Nwn·|fa,t-fb,t-T+1|)=wnT·F·wt]]>wn=[wn=1wn=2…wn=N]Twt=wt=t0wt=t0+1...wt=t0+T-1T]]>F=|fa,t0n=1-fb,t0-T+1n=1||fa,t0+1n=1-fb,t0-T+2n=1|...|fa,t0n=2-fb,t0-T+1n=2|............|fa,t0+T-1n=N-fb,t0n=N|]]>其中,CC為拼接代價,拼接代價用于表征候選語音片段a1和候選語音片段b2的連續(xù)性,T為候選語音片段a1或候選語音片段b2的重疊幀的幀數(shù),wt為候選語音片段a1和候選語音片段b2的第t個重疊幀的聲學特征對應的第二權值,N為候選語音片段a1或候選語音片段b2包含的聲學特征的個數(shù),wn為候選語音片段a1和候選語音片段b2的第n個聲學特征對應的第一權值,|Δf|為候選語音片段a1和候選語音片段b2的第n個聲學特征的聲學距離測度,F(xiàn)為候選語音片段a1和候選語音片段b2對應的拼接差異矩陣。結(jié)合參考圖1B,當候選語音片段a1和候選語音片段b2拼接時,假設候選語音片段a1和候選語音片段b2只有1個重疊幀,候選語音片段a1在該重疊幀上具有N個聲學特征(或者說N維聲學特征),候選語音片段b2在該重疊幀上對應存在N個聲學特征(或者說N維聲學特征)文本基元w1文本基元w2。由于用戶發(fā)音時,對于不同的相鄰候選語音片段,口型過渡和音調(diào)過渡是不同的,即不同的相鄰候選語音片段所對應的第n個聲學特征對應的第一權值wn和第t個重疊幀(圖1B中假設只有1個重疊幀)的聲學特征對應的第二權值wt也是不同的。根據(jù)候選語音片段a1或候選語音片段b2包含的聲學特征的個數(shù),將候選語音片段a1和候選語音片段b2的每個聲學特征的聲學距離測度與相對應的第一權值wn相乘求和,再根據(jù)候選語音片段a1或候選語音片段b2的重疊幀的幀數(shù),將與第i個重疊幀相對應的第一權值wn相乘求和的結(jié)果再與相對應的第二權值wt相乘求和得到拼接代價。發(fā)明人發(fā)現(xiàn),通過奇異值矩陣分解,可以將拼接代價的計算公式進行如下變形:CC=wnT·F·wt=wnT·UΣV·wt=u·Σ·v]]>根據(jù)上述的幾個公式可知,服務器可以預先通過測試語音信息(相當于訓練樣本)計算得到拼接差異矩陣F,根據(jù)拼接差異矩陣F,計算得到第一權值wn和第二權值wt,即當?shù)谝粰嘀祑n與第一分解矩陣U正交且第二權值wt與第二分解矩陣V正交,即u=0、v=0時,拼接代價最小,將此時的第一權值wn和第二權值wt確定為目標拼接權值。為此,提供有如下實施例。請參考圖2,其示出了本發(fā)明實施例提供的一種語音合成方法的方法流程圖。該語音合成方法可由具有語音處理能力的服務器或終端來執(zhí)行,該語音合成方法包括:步驟202,獲取測試語音信息??蛇x的,服務器獲取測試語音信息??蛇x的,測試語音信息是將目標代價最小的語音片段進行拼接所得到的語音信息。測試語音信息在語音合成過程中,假設拼接代價為0,也即不考慮拼接代價的影響,只考慮目標代價。目標代價用于表征文本基元對應的預測聲學特征與候選語音片段的聲學特征之間的差異性。該預測聲學特征可以采用聲學參數(shù)概率模型來表征。步驟204,從測試語音信息中提取具有第一標注類型的測試語音片段??蛇x的,測試語音信息包括多個測試語音片段。服務器從測試語音信息中提取具有第一標注類型的測試語音片段。可選的,每個測試語音片段的標注類型由人工測聽后標注得到。每個測試語音片段的標注類型為第一標注類型或第二標注類型,第一標注類型所對應的語音連續(xù)性優(yōu)于第二標注類型所對應的語音連續(xù)性,第一標注類型用于標注測試語音片段的語音連續(xù)性優(yōu)于預設條件。簡單來講,若人工測聽結(jié)果為該測試語音片段的連續(xù)性較優(yōu),則將該測試語音片段標注為第一標注類型;若人工測聽結(jié)果為該測試語音片段的連續(xù)性較差,則將該測試語音片段標注為第二標識類型。步驟206,根據(jù)具有第一標注類型的測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣。可選的,服務器根據(jù)具有第一標注類型的多個測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣。換句話說,一個測試語音片段是由第一候選語音片段和第二候選語音片段拼接得到的,通過第一候選語音片段和第二候選語音片段在聲學特征上的差異,能夠求得第一候選語音片段和第二候選語音片段的拼接差異矩陣。對多組屬于同一類拼接組合關系的拼接差異矩陣求均值,能夠得到該類拼接組合關系所對應的平均差異矩陣??蛇x的,每個平均差異矩陣與一類拼接組合關系對應,每個平均差異矩陣用于表征屬于同一類拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異。若語音片段采用音素為單位進行劃分,則拼接組合關系是音素單元a在前且音素單元b在后所組成的組合關系。示例性的,拼音“y”和拼音“i”所形成的組合關系就是一種拼接組合關系。步驟208,根據(jù)平均差異矩陣,生成具有目標拼接權值的拼接代價模型??蛇x的,服務器根據(jù)平均差異矩陣,生成具有目標拼接權值的拼接代價模型??蛇x的,每個拼接代價模型與一類拼接組合關系對應。步驟210,通過具有目標拼接權值的拼接代價模型進行語音合成,得到合成的語音信息。可選的,終端通過具有目標拼接權值的拼接代價模型進行語音合成,得到合成的語音信息。需要說明的是,步驟202至步驟208可以單獨實現(xiàn)成為一種模型生成方法,該模型生成方法用于生成具有目標拼接權值的拼接代價模型;步驟210為一種語音生成方法,該語音生成方法采用步驟202至步驟208所生成的拼接代價模型,該語音生成方法用于將輸入的文本信息進行語音合成,得到合成的語音信息。可選的,上述步驟202至步驟208通常由服務器來完成,本實施例對此不加以限制??蛇x的,上述步驟210通常由服務器或終端來完成,本實施例對此不加以限制。綜上所述,本實施例通過根據(jù)具有第一標注類型的多個測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣,根據(jù)平均差異矩陣生成具有目標拼接權值的拼接代價模型;由于每個平均差異矩陣與一類拼接組合關系對應,用于表征屬于同一類拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異,使得根據(jù)平均差異矩陣生成出的每個拼接代價模型與一類拼接組合關系對應,且每個拼接代價模型具有精準的權值;避免了需要多次手工調(diào)整拼接代價模型中的這些權值,且最終得到的權值仍然不夠準確的情況,從而達到了減少手工調(diào)整次數(shù),直接通過平均差異矩陣計算出較為精準的權值的效果。請參考圖3,其示出了本發(fā)明實施例提供的一種語音合成方法的方法流程圖。該語音合成方法可由具有語音處理能力的服務器或終端來執(zhí)行,該語音合成方法包括:步驟301,獲取測試語音信息??蛇x的,服務器獲取測試語音信息??蛇x的,測試語音信息是將目標代價最小的語音片段進行拼接所得到的語音信息,測試語音信息在語音合成過程中,假設拼接代價為0,也即不考慮拼接代價的影響,只考慮目標代價。目標代價用于表征文本基元對應的預測聲學特征與候選語音片段的聲學特征之間的差異性。??蛇x的,步驟301可以被替代實現(xiàn)為步驟301a、步驟301b、步驟301c和步驟301d,如圖4A所示:步驟301a,對測試用的文本信息進行拆分,得到文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n??蛇x的,服務器基于音素或音節(jié)對測試用的文本信息進行拆分,得到文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n。步驟301b,根據(jù)預設聲學模型,得到與每個文本基元wi對應的預測聲學特征。可選的,服務器根據(jù)預設聲學模型,得到與每個文本基元wi對應的預測聲學特征。可選的,預測聲學特征可以是由具體的聲學參數(shù)數(shù)值來表示;預測聲學特征也可以是由概率模型來表示。其中,預測聲學特征是基頻、頻譜特征、基頻的一階變化率以及高階變化率、頻譜的一階變化率以及高階變化率、信號的能量、信號的過零率中的至少一種。可選的,服務器將每個文本基元wi對應的語言學模型輸出預設的聲學模型中,由該預設的聲學模型輸出與每個文本基元wi對應的預測聲學特征。步驟301c,對于每個文本基元wi,從語料庫中選擇出目標代價最小的語音片段vi??蛇x的,服務器對于每個文本基元wi,計算得到與每個文本基元wi對應的候選語音片段的目標代價,從語料庫中選擇出目標代價最小的語音片段viwt。其中,目標代價用于表征文本基元wi對應的預測聲學特征與語料庫中的候選語音片段的聲學特征之間的相似性。目標代價越小,代表兩者越相似。可選的,對于每個文本基元wi,服務器通過如下公式計算對應的目標代價:TCi=Σn=1Nwn·|fa,n-fa′,n|]]>其中,TCi為文本基元wi對應的目標代價,wn為預設的第一權值,|fa,n-fa',n|為文本基元wi對應的預測聲學特征a’中的第n個聲學特征與候選語音片段a的第n個聲學特征之間的聲學距離測度。可選地,若聲學特征采用具體的聲學參數(shù)取值來表示,則聲學距離測度可以取歐幾里德距離或差值絕對值。示意性的,若存在10個文本基元wi,則服務器從語料庫中對應選擇出10個具有最小目標代價的語音片段vi。步驟301d,根據(jù)選擇出的語音片段vi所組成的測試語音片段序列(v1,v2,…,vn)進行語音合成,得到與測試用的文本信息對應的測試語音信息??蛇x的,服務器根據(jù)選擇出的語音片段vi所組成的測試語音片段序列(v1,v2,…,vn)進行語音合成,得到與測試用的文本信息對應的測試語音信息。顯然,上述拼接過程中,假設拼接代價為0,不考慮拼接代價對語音合成過程的影響。步驟302,從測試語音信息中提取具有第一標注類型的測試語音片段??蛇x的,每個測試語音片段的標注類型由人工測聽后標注得到。每個測試語音片段的標注類型為第一標注類型或第二標注類型,第一標注類型所對應的語音連續(xù)性優(yōu)于第二標注類型所對應的語音連續(xù)性,第一標注類型用于標注測試語音片段的語音連續(xù)性優(yōu)于預設條件。簡單來講,若人工測聽結(jié)果為該測試語音片段的連續(xù)性較優(yōu),則將該測試語音片段標注為第一標注類型;若人工測聽結(jié)果為該測試語音片段的連續(xù)性較差,則將該測試語音片段標注為第二標識類型。第一標注類型所對應的語音連續(xù)性優(yōu)于所述第二標注類型所對應的語音連續(xù)性??蛇x的,步驟302可以被替代實現(xiàn)為步驟302a和步驟302b,如圖4B所示:步驟302a,獲取測試語音信息中至少一個測試語音片段的標注類型??蛇x的,服務器獲取測試語音信息中至少一個測試語音片段的標注類型。步驟302b,提取出具有第一標注類型的測試語音片段??蛇x的,服務器提取出具有第一標注類型的測試語音片段,即提取出語音連續(xù)性效果較好的測試語音片段。具體來說,通過對測試語音信息進行人工測聽,標注出第一標注類型或第二標注類型的測試語音片段,由服務器獲取每個測試語音片段的標注類型。第一標注類型用于標注測試語音片段的語音連續(xù)性優(yōu)于預設條件即語音連續(xù)性效果較好的測試語音片段,第二標注類型用于標注測試語音片段的語音連續(xù)性低于預設條件即語音連續(xù)性效果較差的測試語音片段。然后,服務器從測試語音信息中提取具有第一標注類型的測試語音片段。步驟303,對于每個具有第一標注類型的測試語音片段,根據(jù)測試語音片段在拼接前所對應的相鄰候選語音片段計算得到拼接差異矩陣??蛇x的,測試語音片段為多個,比如幾百個、幾千個或者上萬個。服務器對于每個具有第一標注類型的測試語音片段,根據(jù)該測試語音片段在拼接前所對應的相鄰候選語音片段計算得到與該測試語音片段所對應的拼接差異矩陣。具體的,服務器計算得到拼接差異矩陣的步驟包括:1)對于每個具有第一標注類型的測試語音片段,服務器獲取測試語音片段在拼接前所對應的候選語音片段a和候選語音片段b。2)服務器獲取候選語音片段a的每個重疊幀對應的第一組聲學特征和候選語音片段b的每個重疊幀對應的第二組聲學特征??蛇x的,候選語音片段a和候選語音片段b的重疊幀的幀數(shù)可以是一幀,也可以是多幀。示意性的,如圖5所示,設當前時刻為t0,候選語音片段a的最后一幀所在時刻為t0,候選語音片段b的第一幀所在時刻為t0,當拼接窗口長度T=1幀時,候選語音片段a的最后一幀與候選語音片段b的第一幀重疊,即“a(t0)+b(t0)”;也即,在拼接過程中,候選語音片段a和候選語音片段b存在一個重疊幀。示意性的,如圖6所示,設當前時刻為t0,候選語音片段a的最后一幀所在時刻為t0,候選語音片段b的第一幀所在時刻為t0,當拼接窗口長度T取任意值時,候選語音片段a的第t0幀至第t0+T-1幀分別與候選語音片段b的第t0-T+1幀至第t0幀重疊,即“a(t0:t0+T-1)+b(t0-T+1:t0)”,本發(fā)明實施例對重疊幀的幀數(shù)T不加以限定,示意性的,該重疊幀的幀數(shù)T為20幀??蛇x的,候選語音片段a的每個重疊幀上對應第一組聲學特征,該第一組聲學特征包含n個聲學特征(或者說n維聲學特征),候選語音片段b的每個重疊幀上對應第二組聲學特征,該第二組聲學特征包含n個聲學特征(或者說n維聲學特征)。該聲學特征是基頻、頻譜特征、基頻的一階變化率以及高階變化率、頻譜的一階變化率以及高階變化率、信號的能量、信號的過零率中的至少一種。3)服務器根據(jù)第一組聲學特征和第二組聲學特征,按照如下公式計算得到拼接差異矩陣F。F=|fa,t0n=1-fb,t0-T+1n=1||fa,t0+1n=1-fb,t0-T+2n=1|...|fa,t0n=2-fb,t0-T+1n=2|............|fa,t0+T-1n=N-fb,t0n=N|]]>其中,F(xiàn)為候選語音片段a和候選語音片段b對應的拼接差異矩陣,拼接差異矩陣中的第n行第t列表示候選語音片段a中的第t個重疊幀的第n個聲學特征與候選語音片段b中的第t-T+1個重疊幀的第n個聲學特征的聲學距離測度,fa,t是與候選語音片段a的第t個重疊幀對應的第n個聲學特征,fb,t-T+1是與候選語音片段b的第t-T+1個重疊幀對應的第n個聲學特征。步驟304,根據(jù)相鄰候選語音片段的拼接組合關系對拼接差異矩陣進行分類,得到與每一種拼接組合關系所對應的拼接差異矩陣集合。其中,拼接差異矩陣集合包括屬于同一種拼接組合關系的若干個拼接差異矩陣??蛇x的,每個測量語音片段所對應的相鄰候選語音片段能夠計算出一個拼接差異矩陣,若測量語音片段為一萬個,則可以計算出一萬個拼接差異矩陣。服務器根據(jù)相鄰候選語音片段的拼接組合關系對多個拼接差異矩陣進行分類,得到與每一種拼接組合關系所對應的拼接差異矩陣集合。候選語音片段具有不同的音素或音節(jié)類型,若一個測試語音片段是由a類型的語音片段在前且b類型的語音片段所拼接得到的,則該測試語音片段所對應的拼接組合關系是:a類型的語音片段在前且b類型的語音片段在后。示意性的,若候選語音片段采用音素為單位進行劃分,比如候選語音片段a是拼音“y”所對應的語音片段,候選語音片段b是拼音“i”所對應的語音片段,則拼音“y”和拼音“i”所形成的組合關系就是一種拼接組合關系。對于拼音“y”和拼音“i”所形成的拼接組合關系,可能存在幾百個拼接差異矩陣,則這幾百個拼接差異矩陣都歸類至與拼接組合關系“y+i”所對應的拼接差異矩陣集合。步驟305,對每個拼接差異矩陣集合中的拼接差異矩陣計算均值,得到與每一種拼接組合關系所對應的平均差異矩陣??蛇x的,服務器對每個拼接差異矩陣集合中的拼接差異矩陣計算均值,得到與每一種拼接組合關系所對應的平均差異矩陣。示意性的,當拼接差異矩陣集合為Fab,i時,對Fab,i中的所有拼接差異矩陣計算均值,得到與選語音片段a和候選語音片段b的拼接組合關系所對應的平均差異矩陣Fab。步驟306,對于每個平均差異矩陣Fab,對平均差異矩陣Fab進行奇異值分解Fab=U∑V,得到第一分解矩陣U和第二分解矩陣V。可選的,服務器對于每個平均差異矩陣Fab,對平均差異矩陣Fab進行奇異值分解Fab=U∑V,得到第一分解矩陣U和第二分解矩陣V。其中,ab代表由a類型的語音片段在前且b類型的語音片段在后的拼接組合關系;示意性的,該類型是指音素類型。步驟307,將第一分解矩陣U的正交矩陣生成為第一權值wn,將第二分解矩陣V的正交矩陣生成為第二權值wt??蛇x的,服務器將第一分解矩陣U的正交矩陣生成為第一權值wn,將第二分解矩陣V的正交矩陣生成為第二權值wt。可選的,通過如下公式定義拼接代價:CC=wnT·F·wt=wnT·UΣV·wt=u·Σ·v]]>根據(jù)上述公式可知,當?shù)谝粰嘀祑n與第一分解矩陣U正交且第二權值wt與第二分解矩陣V正交,即u=0、v=0時,拼接代價最小,將此時的第一權值wn和第二權值wt確定為目標拼接權值。步驟308,生成拼接代價模型如下:CC=Σt=1Twt·(Σn=1Nwn·|Δf|)]]>其中,CC為拼接代價,拼接代價用于表征兩個相鄰候選語音片段之間的連續(xù)性,T為兩個相鄰候選語音片段的重疊幀的幀數(shù),wt為兩個相鄰候選語音片段的第t個重疊幀的聲學特征對應的第二權值,N為每個候選語音片段包含的聲學特征的個數(shù),wn為兩個相鄰候選語音片段的第n個聲學特征對應的第一權值,|Δf|為兩個相鄰候選語音片段的第n個聲學特征的聲學距離測度??蛇x的,服務器生成拼接代價模型。步驟309,通過具有目標拼接權值的拼接代價模型進行語音合成,得到合成的語音信息。其中,目標拼接權值包括第一權值和第二權值。可選的,服務器或其它終端通過具有目標拼接權值的拼接代價模型進行語音合成,得到合成的語音信息。綜上所述,本實施例通過根據(jù)具有第一標注類型的多個測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣,根據(jù)平均差異矩陣生成具有目標拼接權值的拼接代價模型;由于每個平均差異矩陣與一類拼接組合關系對應,用于表征屬于同一類拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異,使得根據(jù)平均差異矩陣生成出的每個拼接代價模型與一類拼接組合關系對應,且每個拼接代價模型具有精準的權值;避免了需要多次手工調(diào)整拼接代價模型中的這些權值,且最終得到的權值仍然不夠準確的情況,從而達到了減少手工調(diào)整次數(shù),直接通過平均差異矩陣計算出較為精準的權值的效果。本實施例還通過對每個拼接差異矩陣集合中的拼接差異矩陣計算均值,得到與每一種拼接組合關系所對應的平均差異矩陣,對于每個平均差異矩陣Fab,對平均差異矩陣Fab進行奇異值分解Fab=U∑V,得到第一分解矩陣U和第二分解矩陣V,將第一分解矩陣U的正交矩陣生成為第一權值wn,將第二分解矩陣V的正交矩陣生成為第二權值wt;使得根據(jù)進行奇異值分解后的平均差異矩陣Fab,當?shù)谝粰嘀祑n與第一分解矩陣U正交且第二權值wt與第二分解矩陣V正交,即u=0、v=0時,拼接代價最小,從而確定出目標拼接權值,保證了每個拼接代價模型具有精準的權值,達到了減少手工調(diào)整次數(shù),直接將第一分解矩陣U的正交矩陣生成為第一權值wn,將第二分解矩陣V的正交矩陣生成為第二權值wt計算出較為精準的權值的效果。在一種可能的實施例中,上述實施例中,由服務器得到的拼接代價模型可以傳輸給終端在實際的語音合成過程中進行應用。此時,步驟309可以被替代實現(xiàn)為步驟309a、步驟309b、步驟309c、步驟309d和步驟309e,如圖7所示:步驟309a,對輸入的文本信息進行拆分,得到文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n??蛇x的,輸入的文本信息是由用戶輸入的文本信息,比如,新聞文本或者小說文本。終端對輸入的文本信息進行拆分,得到文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n。步驟309b,根據(jù)預設聲學模型,得到與每個文本基元wi對應的預測聲學特征??蛇x的,終端根據(jù)預設聲學模型,得到與每個文本基元wi對應的預測聲學特征。步驟309c,對于每個文本基元wi,從語料庫中選擇出若干個候選語音片段??蛇x的,終端對于每個文本基元wi,從語料庫中選擇出若干個候選語音片段。步驟309d,根據(jù)目標代價模型計算每個文本基元wi與對應的候選語音片段之間的目標代價;根據(jù)拼接代價模型計算相鄰候選語音片段之間的拼接代價。可選的,終端根據(jù)目標代價模型,通過如下公式計算每個文本基元wi與對應的候選語音片段之間的目標代價:TC=Σn=1Nwn·|fa,n-fa′,n|]]>其中,TC為輸入的文本基元a對應的目標代價,wn為采用模型生成方法生成的拼接代價模型中的候選語音片段第n個聲學特征對應的第一權值,|fa,n-fa',n|為候選語音片段a和預測聲學特征a’的第n個聲學特征的聲學距離測度??蛇x的,終端根據(jù)拼接代價模型,通過如下公式計算相鄰候選語音片段之間的拼接代價:CCT=Σt=t0t0+T-1wt·(Σn=1Nwn·|fa,t-fb,t-T+1|)]]>其中,CCT為相鄰的候選語音片段a和候選語音片段b對應的拼接代價,wt為候選語音片段a或候選語音片段b的第t個重疊幀的聲學特征對應的第二權值,wn為候選語音片段a或候選語音片段b的第n個聲學特征對應的第一權值,|fa,t-fb,t-T+1|為候選語音片段a的第t個重疊幀和候選語音片段b的第t-T+1個重疊幀的第n個聲學特征的聲學距離測度。步驟309e,選擇出目標代價和拼接代價所對應的總代價最小的一組目標語音片段序列(v1,v2,…,vn)進行語音合成,得到與輸入的文本信息對應的語音信息??蛇x的,終端從所有候選拼接方式中,選擇出目標代價和拼接代價所對應的總代價最小的一組目標語音片段序列(v1,v2,…,vn)進行語音合成,得到與輸入的文本信息對應的語音信息??蛇x地,所有候選拼接方式所對應的目標代價和拼接代價,能夠形成一個矩陣,通過動態(tài)規(guī)劃算法,能夠求出該矩陣中從左到右的取值最小的一條路徑,則該條路徑所對應的各個語音片段,構(gòu)成總代價最小的一組目標語音片段序列。結(jié)合參考圖8,在一個具體的例子中,語音合成方法應用于終端設備的應用程序如“企鵝FM”上,當用戶在具有語音合成功能的應用程序中輸入一段新聞文本或者小說文本,應用程序?qū)⒑铣膳c輸入的新聞文本或者小說文本相對應的語音信息。下面為本發(fā)明中的裝置實施例,對于裝置實施例中未詳盡描述的細節(jié),可以結(jié)合參考上述一一對應的方法實施例。請參考圖9,其示出了本發(fā)明一個實施例提供的模塊生成裝置的結(jié)構(gòu)示意圖。該裝置可以通過軟件、硬件或者兩者的結(jié)合,實現(xiàn)成為服務器的全部或一部分。該模塊生成裝置包括:獲取模塊910,用于獲取測試語音信息,測試語音信息是將目標代價最小的語音片段進行拼接所得到的語音信息;提取模塊920,用于從測試語音信息中提取具有第一標注類型的測試語音片段,第一標注類型用于標注測試語音片段的語音連續(xù)性優(yōu)于預設條件;第一計算模塊930,用于根據(jù)具有第一標注類型的測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣;每個平均差異矩陣與一類拼接組合關系對應,每個平均差異矩陣用于表征屬于同一類拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異;生成模塊940,用于根據(jù)平均差異矩陣,生成具有目標拼接權值的拼接代價模型,每個拼接代價模型與一類拼接組合關系對應。綜上所述,本實施例通過根據(jù)具有第一標注類型的多個測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣,根據(jù)平均差異矩陣生成具有目標拼接權值的拼接代價模型;由于每個平均差異矩陣與一類拼接組合關系對應,用于表征屬于同一類拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異,使得根據(jù)平均差異矩陣生成出的每個拼接代價模型與一類拼接組合關系對應,且每個拼接代價模型具有精準的權值;避免了需要多次手工調(diào)整拼接代價模型中的這些權值,且最終得到的權值仍然不夠準確的情況,從而達到了減少手工調(diào)整次數(shù),直接通過平均差異矩陣計算出較為精準的權值的效果。請參考圖10,其示出了本發(fā)明另一個實施例提供的模塊生成裝置的結(jié)構(gòu)示意圖。本實施例為基于圖9所示實施例提供的更為優(yōu)選的實施例。生成模塊940,包括:分解單元941、第一生成單元942和第二生成單元943;分解單元941,用于對于每個平均差異矩陣Fab,對平均差異矩陣Fab進行奇異值分解Fab=U∑V,得到第一分解矩陣U和第二分解矩陣V;第一生成單元942,用于將第一分解矩陣U的正交矩陣生成為第一權值wn,將第二分解矩陣V的正交矩陣生成為第二權值wt;第二生成單元943,用于生成具有第一權值wn和第二權值wt的拼接代價模型;其中,ab代表由a類型的語音片段在前且b類型的語音片段在后的拼接組合關系。第二生成單元943,具體用于生成所述拼接代價模型如下:CC=Σt=1Twt·(Σn=1Nwn·|Δf|)]]>其中,CC為拼接代價,所述拼接代價用于表征兩個相鄰候選語音片段之間的連續(xù)性,T為兩個相鄰候選語音片段的重疊幀的幀數(shù),wt為兩個相鄰候選語音片段的第t個所述重疊幀的所述聲學特征對應的第二權值,N為每個所述候選語音片段包含的所述聲學特征的個數(shù),wn為兩個相鄰候選語音片段的第n個所述聲學特征對應的第一權值,|Δf|為兩個相鄰候選語音片段的第n個所述聲學特征的聲學距離測度。第一計算模塊930,包括:第一計算單元931、分類單元932和第二計算單元933;第一計算單元931,用于對于每個具有第一標注類型的測試語音片段,根據(jù)測試語音片段在拼接前所對應的相鄰候選語音片段計算得到拼接差異矩陣;分類單元932,用于根據(jù)相鄰候選語音片段的拼接組合關系對拼接差異矩陣進行分類,得到與每一種拼接組合關系所對應的拼接差異矩陣集合,拼接差異矩陣集合包括屬于同一種拼接組合關系的若干個拼接差異矩陣;第二計算單元933,用于對每個拼接差異矩陣集合中的拼接差異矩陣計算均值,得到與每一種拼接組合關系所對應的平均差異矩陣。第一計算單元931,包括:第一獲取子單元931a、第二獲取子單元931b和計算子單元931c;第一獲取子單元931a,用于對于每個具有第一標注類型的測試語音片段,獲取測試語音片段在拼接前所對應的候選語音片段a和候選語音片段b;第二獲取子單元931b,用于獲取候選語音片段a的重疊幀對應的第一組聲學特征和候選語音片段b的重疊幀對應的第二組聲學特征,第一組聲學特征包含n個聲學特征,第二組聲學特征包含n個聲學特征;計算子單元931c,用于根據(jù)第一組聲學特征和第二組聲學特征,按照如下公式計算得到拼接差異矩陣F;F=|fa,t0n=1-fb,t0-T+1n=1||fa,t0+1n=1-fb,t0-T+2n=1|...|fa,t0n=2-fb,t0-T+1n=2|............|fa,t0+T-1n=N-fb,t0n=N|]]>其中,F(xiàn)為候選語音片段a和候選語音片段b對應的拼接差異矩陣,拼接差異矩陣中的第n行第t列表示候選語音片段a中的第t個重疊幀的第n個聲學特征與候選語音片段b中的第t-T+1個重疊幀的第n個聲學特征的聲學距離測度,fa,t是與候選語音片段a的第t個重疊幀對應的第n個聲學特征,fb,t-T+1是與候選語音片段b的第t-T+1個重疊幀對應的第n個聲學特征。提取模塊920,包括:獲取單元921和提取單元922;獲取單元921,用于獲取測試語音信息中至少一個測試語音片段的標注類型,每個測試語音片段的標注類型為第一標注類型或第二標注類型,第一標注類型所對應的語音連續(xù)性優(yōu)于第二標注類型所對應的語音連續(xù)性;提取單元922,用于提取出具有第一標注類型的測試語音片段。獲取模塊910,包括:拆分單元911、得到單元912、選擇單元913和合成單元914;拆分單元911,用于對測試用的文本信息進行拆分,得到文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n;得到單元912,用于根據(jù)預設聲學模型,得到與每個文本基元wi對應的預測聲學特征;選擇單元913,用于對于每個文本基元wi,從語料庫中選擇出目標代價最小的語音片段vi,目標代價用于表征文本基元wi對應的預測聲學特征與語料庫中的候選語音片段的聲學特征之間的相似性;合成單元914,用于根據(jù)選擇出的語音片段vi所組成的測試語音片段序列(v1,v2,…,vn)進行語音合成,得到與測試用的文本信息對應的測試語音信息。綜上所述,本實施例通過根據(jù)具有第一標注類型的多個測試語音片段在拼接前所對應的相鄰候選語音片段,計算得到平均差異矩陣,根據(jù)平均差異矩陣生成具有目標拼接權值的拼接代價模型;由于每個平均差異矩陣與一類拼接組合關系對應,用于表征屬于同一類拼接組合關系的多組相鄰候選語音片段在聲學特征上的平均差異,使得根據(jù)平均差異矩陣生成出的每個拼接代價模型與一類拼接組合關系對應,且每個拼接代價模型具有精準的權值;避免了需要多次手工調(diào)整拼接代價模型中的這些權值,且最終得到的權值仍然不夠準確的情況,從而達到了減少手工調(diào)整次數(shù),直接通過平均差異矩陣計算出較為精準的權值的效果。本實施例還通過對每個拼接差異矩陣集合中的拼接差異矩陣計算均值,得到與每一種拼接組合關系所對應的平均差異矩陣,對于每個平均差異矩陣Fab,對平均差異矩陣Fab進行奇異值分解Fab=U∑V,得到第一分解矩陣U和第二分解矩陣V,將第一分解矩陣U的正交矩陣生成為第一權值wn,將第二分解矩陣V的正交矩陣生成為第二權值wt;使得根據(jù)進行奇異值分解后的平均差異矩陣Fab,當?shù)谝粰嘀祑n與第一分解矩陣U正交且第二權值wt與第二分解矩陣V正交,即u=0、v=0時,拼接代價最小,從而確定出目標拼接權值,保證了每個拼接代價模型具有精準的權值,達到了減少手工調(diào)整次數(shù),直接將第一分解矩陣U的正交矩陣生成為第一權值wn,將第二分解矩陣V的正交矩陣生成為第二權值wt計算出較為精準的權值的效果。請參考圖11,其示出了本發(fā)明一個實施例提供的語音合成裝置的結(jié)構(gòu)示意圖。該語音合成裝置采用如圖9或圖10所示實施例中提供的拼接代價模型,該語音合成裝置包括:拆分模塊1100,用于對輸入的文本信息進行拆分,得到文本基元序列(w1,w2,…,wn),wi為第i個文本基元,1≤i≤n;得到模塊1110,用于根據(jù)預設聲學模型,得到與每個文本基元wi對應的預測聲學特征;選擇模塊1120,用于對于每個文本基元wi,從語料庫中選擇出若干個候選語音片段;第二計算模塊1130,用于根據(jù)目標代價模型計算每個文本基元wi與對應的候選語音片段之間的目標代價;根據(jù)拼接代價模型計算相鄰的候選語音片段之間的拼接代價;合成模塊1140,用于選擇出目標代價和拼接代價所對應的總代價最小的一組目標語音片段序列(v1,v2,…,vn)進行語音合成,得到與輸入的文本信息對應的語音信息。請參考圖12,其示出了本發(fā)明一個實施例提供的終端1200的框圖。具體來講:設備1200可以包括RF(RadioFrequency,射頻)電路1210、包括有一個或一個以上計算機可讀存儲介質(zhì)的存儲器1220、輸入單元1230、顯示單元1240、傳感器1250、音頻電路1260、WiFi(wirelessfidelity,無線保真)模塊1270、包括有一個或者一個以上處理核心的處理器1280、以及電源1290等部件。本領域技術人員可以理解,圖12中示出的設備結(jié)構(gòu)并不構(gòu)成對設備的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:RF電路1210可用于收發(fā)信息或通話過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個或者一個以上處理器1280處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路1210包括但不限于天線、至少一個放大器、調(diào)諧器、一個或多個振蕩器、用戶身份模塊(SIM)卡、收發(fā)信機、耦合器、LNA(LowNoiseAmplifier,低噪聲放大器)、雙工器等。此外,RF電路1210還可以通過無線通信與網(wǎng)絡和其他設備通信。無線通信可以使用任一通信標準或協(xié)議,包括但不限于GSM(GlobalSystemofMobilecommunication,全球移動通訊系統(tǒng))、GPRS(GeneralPacketRadioService,通用分組無線服務)、CDMA(CodeDivisionMultipleAccess,碼分多址)、WCDMA(WidebandCodeDivisionMultipleAccess,寬帶碼分多址)、LTE(LongTermEvolution,長期演進)、電子郵件、SMS(ShortMessagingService,短消息服務)等。存儲器1220可用于存儲軟件程序以及模塊。處理器1280通過運行存儲在存儲器1220的軟件程序以及模塊,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理。存儲器1220可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)設備1200的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲器1220可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應地,存儲器1220還可以包括存儲器控制器,以提供處理器1280和輸入單元1230對存儲器1220的訪問。輸入單元1230可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設置以及功能控制有關的鍵盤、鼠標、操作桿、光學或者軌跡球信號輸入。具體地,輸入單元1230可包括觸敏表面1231以及其他輸入設備1232。觸敏表面1231,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面1231上或在觸敏表面1231附近的操作),并根據(jù)預先設定的程式驅(qū)動相應的連接裝置??蛇x的,觸敏表面1231可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點坐標,再送給處理器1280,并能接收處理器1280發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸敏表面1231。除了觸敏表面1231,輸入單元1230還可以包括其他輸入設備1232。具體地,其他輸入設備1232可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。顯示單元1240可用于顯示由用戶輸入的信息或提供給用戶的信息以及設備120的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標、視頻和其任意組合來構(gòu)成。顯示單元1240可包括顯示面板1241,可選的,可以采用LCD(LiquidCrystalDisplay,液晶顯示器)、OLED(OrganicLight-EmittingDiode,有機發(fā)光二極管)等形式來配置顯示面板1241。進一步的,觸敏表面1231可覆蓋在顯示面板1241之上,當觸敏表面1231檢測到在其上或附近的觸摸操作后,傳送給處理器1280以確定觸摸事件的類型,隨后處理器1280根據(jù)觸摸事件的類型在顯示面板1241上提供相應的視覺輸出。雖然在圖12中,觸敏表面1231與顯示面板1241是作為兩個獨立的部件來實現(xiàn)輸入和輸入功能,但是在某些實施例中,可以將觸敏表面1231與顯示面板1241集成而實現(xiàn)輸入和輸出功能。設備1200還可包括至少一種傳感器1250,比如光傳感器、運動傳感器以及其它傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調(diào)節(jié)顯示面板1241的亮度,接近傳感器可在設備1200移動到耳邊時,關閉顯示面板1241和/或背光。作為運動傳感器的一種,重力加速度傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別手機姿態(tài)的應用(比如橫豎屏切換、相關游戲、磁力計姿態(tài)校準)、振動識別相關功能(比如計步器、敲擊)等;至于設備1200還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其它傳感器,在此不再贅述。音頻電路1260、揚聲器1221,傳聲器1222可提供用戶與設備1200之間的音頻接口。音頻電路1260可將接收到的音頻數(shù)據(jù)轉(zhuǎn)換后的電信號,傳輸?shù)綋P聲器1221,由揚聲器1221轉(zhuǎn)換為聲音信號輸出;另一方面,傳聲器1222將收集的聲音信號轉(zhuǎn)換為電信號,由音頻電路1260接收后轉(zhuǎn)換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)輸出處理器1280處理后,經(jīng)RF電路1210以發(fā)送給另一設備,或者將音頻數(shù)據(jù)輸出至存儲器1220以便進一步處理。音頻電路1260還可能包括耳塞插孔,以提供外設耳機與設備1200的通信。WiFi屬于短距離無線傳輸技術,設備1200通過WiFi模塊1270可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖12示出了WiFi模塊1270,但是可以理解的是,其并不屬于設備1200的必須構(gòu)成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。處理器1280是設備1200的控制中心,利用各種接口和線路連接整個設備的各個部分,通過運行或執(zhí)行存儲在存儲器1220內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器1220內(nèi)的數(shù)據(jù),執(zhí)行設備1200的各種功能和處理數(shù)據(jù),從而對設備進行整體監(jiān)控??蛇x的,處理器1280可包括一個或多個處理核心;可選的,處理器1280可集成應用處理器和調(diào)制解調(diào)處理器,其中,應用處理器主要處理操作系統(tǒng)、用戶界面和應用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖?,上述調(diào)制解調(diào)處理器也可以不集成到處理器1280中。設備1200還包括給各個部件供電的電源1290(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器1280邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源1290還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。盡管未示出,設備1200還可以包括攝像頭、藍牙模塊等,在此不再贅述。設備1200還包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行,使得裝置1200能夠執(zhí)行上述由終端執(zhí)行的語音合成方法。請參考圖13,其示出了本發(fā)明一個實施例提供的服務器的結(jié)構(gòu)框架圖。具體來講:所述服務器1300包括中央處理單元(CPU)1301、包括隨機存取存儲器(RAM)1302和只讀存儲器(ROM)1303的系統(tǒng)存儲器1304,以及連接系統(tǒng)存儲器1304和中央處理單元1301的系統(tǒng)總線1305。所述服務器1300還包括幫助計算機內(nèi)的各個器件之間傳輸信息的基本輸入/輸出系統(tǒng)(I/O系統(tǒng))1306,和用于存儲操作系統(tǒng)1313、應用程序1314和其他程序模塊1315的大容量存儲設備1307。所述基本輸入/輸出系統(tǒng)1306包括有用于顯示信息的顯示器1308和用于用戶輸入信息的諸如鼠標、鍵盤之類的輸入設備1309。其中所述顯示器1308和輸入設備1309都通過連接到系統(tǒng)總線1305的輸入輸出控制器1310連接到中央處理單元1301。所述基本輸入/輸出系統(tǒng)1306還可以包括輸入輸出控制器1310以用于接收和處理來自鍵盤、鼠標、或電子觸控筆等多個其他設備的輸入。類似地,輸入輸出控制器1310還提供輸出到顯示屏、打印機或其他類型的輸出設備。所述大容量存儲設備1307通過連接到系統(tǒng)總線1305的大容量存儲控制器(未示出)連接到中央處理單元1301。所述大容量存儲設備1307及其相關聯(lián)的計算機可讀介質(zhì)為服務器1300提供非易失性存儲。也就是說,所述大容量存儲設備1307可以包括諸如硬盤或者CD-ROM驅(qū)動器之類的計算機可讀介質(zhì)(未示出)。不失一般性,所述計算機可讀介質(zhì)可以包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括以用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括RAM、ROM、EPROM、EEPROM、閃存或其他固態(tài)存儲其技術,CD-ROM、DVD或其他光學存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設備。當然,本領域技術人員可知所述計算機存儲介質(zhì)不局限于上述幾種。上述的系統(tǒng)存儲器1304和大容量存儲設備1307可以統(tǒng)稱為存儲器。根據(jù)本發(fā)明的各種實施例,所述服務器1300還可以通過諸如因特網(wǎng)等網(wǎng)絡連接到網(wǎng)絡上的遠程計算機運行。也即服務器1300可以通過連接在所述系統(tǒng)總線1305上的網(wǎng)絡接口單元1311連接到網(wǎng)絡1312,或者說,也可以使用網(wǎng)絡接口單元1311來連接到其他類型的網(wǎng)絡或遠程計算機系統(tǒng)(未示出)。所述存儲器還包括一個或者一個以上的程序,所述一個或者一個以上程序存儲于計算機可讀介質(zhì)中,所述一個或者一個以上程序包含用于進行本發(fā)明實施例提供的語音合成方法中由服務器或終端所執(zhí)行的步驟。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。本領域普通技術人員可以理解實現(xiàn)上述實施例的語音合成方法中全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。當前第1頁1 2 3