一種混搭語音合成方法和系統(tǒng)的制作方法

文檔序號：2825161閱讀：237來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種混搭語音合成方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音合成技術(shù)領(lǐng)域，特別是涉及一種混搭語音合成方法與系統(tǒng)。
背景技術(shù)：
語音合成技術(shù)，又稱文語轉(zhuǎn)換(TTS，Text To Speech)技術(shù)，其能將任意文字信息轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音表達出來?，F(xiàn)有的通用語音合成技術(shù)主要是只預(yù)先錄制一個單音色語音庫，然后基于該語音庫制作一個語音合成系統(tǒng)，此方法的合成語音取決于語音庫，即合成的聲音像是錄音人在說話。此過程僅僅將用戶輸入的文本轉(zhuǎn)換成單一音色的語音，這種語音的音色、語氣等屬性
也非常單一化。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明提供一種混搭語音合成方法和系統(tǒng)，用于對一次輸入的文本產(chǎn)生不同音色、不同口音、不同語氣等的混搭合成語音效果。為了解決上述問題，本發(fā)明公開了一種混搭語音合成方法，其步驟包括步驟101，接收用戶輸入的文本；步驟102，對所述文本進行自然語言處理，獲得與用戶輸入的文本對應(yīng)的音韻結(jié)構(gòu) fn息；步驟103，針對所獲得的音韻結(jié)構(gòu)信息，結(jié)合混搭定制語音庫合成與所述文本對應(yīng)的混搭語音數(shù)據(jù)。進一步的，所述步驟103具體包括步驟201，針對所獲得的音韻結(jié)構(gòu)信息，與混搭定制語音庫中的定制文本進行匹配；如果匹配，轉(zhuǎn)入步驟202，如果未匹配，轉(zhuǎn)入步驟203 ；步驟202，通過被匹配定制文本調(diào)用混搭定制語音庫的定制語音數(shù)據(jù)合成定制語音數(shù)據(jù)；步驟203，將未匹配音韻結(jié)構(gòu)信息采用通用語音技術(shù)合成通用語音數(shù)據(jù)；步驟204，將所述的定制語音數(shù)據(jù)和通用語音數(shù)據(jù)調(diào)整合成與所述文本對應(yīng)的混搭語音數(shù)據(jù)。進一步的，所述步驟202包括由被匹配定制文本調(diào)用混搭定制語音庫中儲存的語音片段，然后將所得到的語音片段進行解碼得到定制語音數(shù)據(jù)。進一步的，所述的調(diào)用為隨機調(diào)用或者選定調(diào)用，所述的隨機調(diào)用為由定位單元隨機選擇混搭定制語音庫中的定制語音，所述的選定調(diào)用是用戶通過定位單元自己選用混搭定制語音庫中的定制語音。進一步的，所述的混搭定制語音庫中的每一條定制文本對應(yīng)多個與定制文本語義相同的語音片段，所述語音片段的風(fēng)格互不相同。
進一步的，所述的風(fēng)格包括音色，和/或方言，和/或語氣。進一步的，所述的匹配是以音韻結(jié)構(gòu)信息中最小的韻律短語為單位與混搭定制語音庫中的定制文本進行最長匹配。本發(fā)明還公開了一種混搭語音合成系統(tǒng)，包括接口模塊，用于接收用戶輸入的文本；自然語言處理模塊，用于獲得與用戶輸入的文本對應(yīng)的音韻結(jié)構(gòu)信息；混搭語音合成模塊，用于將所獲得的音韻結(jié)構(gòu)信息何處為混搭語音數(shù)據(jù)。進一步的，所述的混搭語音合成模塊包括文本匹配子模塊，定制語音合成子模塊，通用語音合成子模塊，語音調(diào)整合成子模塊；所述文本匹配子模塊，用于將所述的音韻結(jié)構(gòu)信息與混搭定制語音庫中的定制文本進行匹配，得到已匹配定制文本的音韻結(jié)構(gòu)信息和未與定制文本匹配的音韻結(jié)構(gòu)信息；所述定制語音合成子模塊，用于合成已匹配定制文本的音韻結(jié)構(gòu)信息的定制語音數(shù)據(jù)；所述通用語音合成子模塊，用于合成未與定制文本匹配的音韻結(jié)構(gòu)信息的通用語音數(shù)據(jù)；所述語音調(diào)整合成子模塊，用于將所述的定制語音數(shù)據(jù)和所述的通用語音數(shù)據(jù)按用戶輸入文本的處理順序合成混搭語音數(shù)據(jù)。進一步的，所述混搭定制語音合成子模塊包括定位單元，混搭定制語音庫，和解碼器；定位單元按照被音韻結(jié)構(gòu)信息匹配的定制文本從混搭定制語音庫的索引中隨機或者設(shè)置調(diào)用一種風(fēng)格的語音片段壓縮數(shù)據(jù)，然后由解碼器對所述的語音片段壓縮數(shù)據(jù)進行解碼合成匹配語音數(shù)據(jù)。與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點本發(fā)明的混搭語音合成方法和系統(tǒng)增加了混搭語音合成技術(shù)，通過事先定制完成了一個混搭定制語音庫，混搭定制語音庫中的同一定制文本對應(yīng)了許多語義相同但風(fēng)格不同的語音片段，用戶可以依據(jù)個人愛好，通過該技術(shù)針對用戶所輸入的文本選擇隨機或者設(shè)置選定混搭定制語音庫中的不同音色、不同口音、不同語氣等多種風(fēng)格的語音片段，最終合成風(fēng)格多樣化的混搭合成語音。

圖1是本發(fā)明實施例的一種混搭語音合成方法流程圖；圖2是本發(fā)明優(yōu)選的一種混搭語音合成方法實施例流程圖；圖3是本發(fā)明優(yōu)選的一種混搭語音合成系統(tǒng)實施例結(jié)構(gòu)圖；圖4是本發(fā)明進一步優(yōu)選的一種混搭語音合成系統(tǒng)實施例結(jié)構(gòu)圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。在具體合成語音之前，本發(fā)明需建立一個混搭定制語音庫。混搭定制語音庫包含兩部分內(nèi)容定制文本和定制語音片段，其中每條定制文本對應(yīng)多個定制語音片段，每個定制語音片段均可選用不同音色、不同方言、不同語氣等多種風(fēng)格。參照圖1，示出了本發(fā)明一種混搭語音合成方法實施例，包括以下步驟步驟101，接收用戶輸入文本。所述用戶輸入文本可以包括文字和數(shù)字符號，其中，所述的文字可以是漢字、英文、日文、韓文等，或者，上述多種文字中的一種或者幾種，如漢英組合等，本發(fā)明對具體文本不加以限制，以下主要以漢字為例。步驟102，對所述文本進行自然語言處理，獲得與用戶輸入的文本對應(yīng)的音韻結(jié)構(gòu) fn息ο此步驟包括語法分詞(詞性標(biāo)注、拼音標(biāo)注)、數(shù)字符號處理、多音字處理、韻律邊界預(yù)測、變調(diào)處理等步驟。自然語言處理的最終結(jié)果是以字為單位的儲存的音韻結(jié)構(gòu)信息，它包含了拼音、音調(diào)、韻律短語、韻律邊界、重音等信息。步驟103，將獲得的音韻結(jié)構(gòu)信息，結(jié)合混搭定制語音庫合成與所述文本對應(yīng)的混搭語音數(shù)據(jù)。將所得到的音韻結(jié)構(gòu)信息，比如拼音、音調(diào)、韻律短語、韻律邊界、重音等信息，隨機或者按照用戶喜好設(shè)定調(diào)用混搭定制語音庫事先定制好的具有相同語義的多種語音片段中的一種，然后合成混搭定制語音數(shù)據(jù)。在實際中，由于成本等原因，混搭定制語音庫定制范圍可能制作的不足夠大，需要結(jié)合通用語音庫對未定制到的語言部分進行補充。在實際中混搭定制語音庫中存儲有大量定制文本和定制語音片段，其中每個語音片段的索引由其對應(yīng)的定制文本及一個附屬編號確定；每一段定制語音都先由真人按照定制文本錄音，然后將這些錄音采用或G723等編碼方法進行壓縮。以漢字為例，定制文本“天氣真好”可以對應(yīng)四川方言、廣東方言、東北方言、湖南方言、成年男聲、成年女生、小男孩聲、小女孩聲等不同風(fēng)格，通過錄音得到對應(yīng)的具有相同語義而風(fēng)格不同的定制語音片段。然后將所述錄音得到的語音片段用或G723等編碼方法進行壓縮儲存在混搭定制語音庫中。優(yōu)選的，參照圖2，示出了本發(fā)明優(yōu)選的一種混搭語音合成方法實施例流程圖，具體可以包括步驟201，接收用戶輸入文本。所述用戶輸入文本可以包括文字和數(shù)字符號，其中，所述的文字可以是漢字、英文、日文、韓文等，或者，上述多種文字中的一種或者幾種，如漢英組合等，本發(fā)明對具體文本不加以限制，以下主要以漢字為例。步驟202，對所述文本進行自然語言處理，獲得與用戶輸入的文本對應(yīng)的音韻結(jié)構(gòu) fn息ο此步驟包括語法分詞(詞性標(biāo)注、拼音標(biāo)注)、數(shù)字符號處理、多音字處理、韻律邊界預(yù)測、變調(diào)處理等步驟。自然語言處理的最終結(jié)果是以字為單位的儲存的音韻結(jié)構(gòu)信息，它包含了拼音、音調(diào)、韻律短語等信息。例如，當(dāng)輸入“2009年中華人民共和國建國60周年?！?，本步驟對本句話進行處理后得到“二零零九年/中華人民共和國/建國60周年?！?，其中包含了三個韻律短語，當(dāng)然還包含了相應(yīng)的拼音、音調(diào)等信息，此時系統(tǒng)先按順序處理這三個韻律短語。當(dāng)輸入文本較短，比如輸入“中間”，那么韻律邊界智能劃分到“間”后，為“中間/”，系統(tǒng)也會將其按照一個韻律短語處理。步驟203，針對所獲得的音韻結(jié)構(gòu)信息，按處理順序與混搭定制語音庫中的定制文本進行匹配；如果音韻結(jié)構(gòu)信息與定制文本匹配，轉(zhuǎn)入步驟204，反之，則轉(zhuǎn)入步驟205。此步驟中，首先將所獲得的音韻結(jié)構(gòu)信息中的韻律短語，與混搭定制語音庫中事先定制好的定制文本進行匹配，匹配時以最小韻律短語為單位與定制文本進行最長匹配。例如，在定制庫中的定制文本有“中華人民”和“中華人民共和國”，但不含“二零零九年”和“建國60周年”。當(dāng)由步驟102得到“二零零九年/中華人民共和國/建國60周年?！逼渲邢到y(tǒng)按文本處理先后順序處理其中的韻律短語，處理順序為“二零零九年”，“中華人民共和國”，“建國60周年”。此時，系統(tǒng)會首先依次序進行字符串對比匹配。首先對“二零零九年”進行第一輪匹配，發(fā)現(xiàn)“二零零九年”無法匹配定制文本，轉(zhuǎn)入步驟204，將其合成通用語音；然后對“中華人民共和國，，進行第一輪匹配，匹配到中華人民，其匹配長度為4，再進行第二輪匹配，匹配到“中華人民共和國”，匹配長度為7，再進行第三輪匹配，沒有即停止，最終的匹配結(jié)果為“中華人民共和國”，轉(zhuǎn)入步驟205，將其合成定制語音；最后對“建國60周年”進行第一輪匹配，發(fā)現(xiàn)無法匹配，轉(zhuǎn)入步驟104，將其合成通用語音。實際中，每條定制文本的長度至少為一個語法詞，定制文本按照編碼順序排序，定制文本在定制庫中按照編碼順序排序。步驟204，由被匹配定制文本結(jié)合混搭定制語音庫合成與定制文本對應(yīng)的定制語音數(shù)據(jù)。此步驟將由步驟203得到的被匹配定制文本，合成結(jié)合混搭定制語音庫合成定制語首。例如，步驟203中得到的被匹配文本“中華人民共和國”，調(diào)用混搭定制語音庫中的的定制語音片段合成語音數(shù)據(jù)。步驟205將未匹配的音韻結(jié)構(gòu)信息按照通用語音合成流程合成通用語音數(shù)據(jù)。例如，將步驟203中得到的“二零零九年”，“建國60周年”，采用現(xiàn)有的通用語音合成技術(shù)合成通用語音數(shù)據(jù)。其中通用語音合成數(shù)據(jù)可以為現(xiàn)有技術(shù)中的任何一種語音合成方法。步驟206，針對所述的定制語音數(shù)據(jù)和通用語音數(shù)據(jù)，按照用戶輸入文本的處理順序合成混搭語音數(shù)據(jù)。此步驟按前述步驟的文本處理順序接收以合成的定制語音數(shù)據(jù)和通用語音數(shù)據(jù)，并按此順序調(diào)整合作完整的混搭語音數(shù)據(jù)。例如，首先，步驟206接收步驟203按文本處理順序?qū)Α岸懔憔拍辍边M行匹配判斷后轉(zhuǎn)入步驟205合成的通用語音數(shù)據(jù)；然后，步驟206接收步驟203按文本處理順序?qū)Α爸腥A人民共和國”進行匹配判斷后轉(zhuǎn)入步驟204合成的定制語音數(shù)據(jù)，并將“中華人民共和國”的語音數(shù)據(jù)與前面接收的 “二零零九年”語音數(shù)據(jù)進行銜接整合；然后，步驟206接收步驟203按文本處理順序?qū)Α爸腥A人民共和國”進行匹配判斷后轉(zhuǎn)入步驟204合成的定制語音數(shù)據(jù)，并將“建國60周年”語音數(shù)據(jù)與前面接收的“2009年中華人民共和國”語音數(shù)據(jù)進行銜接整合；最終，輸出完整的“2009年中華人民共和國建國60周年。”語音數(shù)據(jù)，其中“中華人民共和國”的風(fēng)格為隨機選擇或者按照用戶愛好選擇的某種風(fēng)格的語音數(shù)據(jù)。當(dāng)然，混搭定制語音庫中的定制文本的范圍可以定制很寬，比如將上述“2009年”等也可以設(shè)為定制文本并錄取不同風(fēng)格的定制語音片段，從而可以匹配更多用戶輸入的文本，使風(fēng)格更加鮮明多彩。在圖2所述的一種混搭語音合成方法流程圖步驟中優(yōu)選的，步驟204包含以下步驟步驟Al，針對由步驟203得到的被匹配定制文本，由定位單元在混搭定制語音庫的索引中隨機定位或者設(shè)置定位與定制文本對應(yīng)的各語音片段的帶有附屬編號的定制文本。所述的隨機定位是指由定位單元產(chǎn)生一個隨機數(shù)，然后與被匹配定制文本結(jié)合確定某條語音片段壓縮數(shù)據(jù)的索引。所述的設(shè)置定位是指由用戶根據(jù)自己的喜好選擇相應(yīng)的風(fēng)格的語音片段壓縮數(shù)據(jù)的索引。例如，首先，索引可以由如下方法編制帶有編號的定制文本和語音片段是一一對應(yīng)的，每條帶有編號的定制文本對應(yīng)一段定制語音；如上述定制文本“中華人民共和國”可對應(yīng)四川方言、廣東方言、東北方言、湖南方言、成年男聲、成年女生、小男孩聲、小女孩聲8種風(fēng)格的語音片段，將每個語音片段的
索引編為“中華人民共和國10001”、“中華人民共和國10002”........“中華人民共和國
10007”、“中華人民共和國10008”，那么定位單元將結(jié)合被匹配定制文本在此8個風(fēng)格語音片段的對應(yīng)的索引中隨機選定或者設(shè)置選定一個索引。如果用戶選擇隨機定位，那么由定位單元在定制文本“中華人民共和國”相關(guān)的編號范圍中隨機產(chǎn)生一個數(shù)，接下來由此隨機數(shù)和定制文本結(jié)合調(diào)用混搭定制語音庫中對應(yīng)的語音片段壓縮數(shù)據(jù)。如果用戶選擇設(shè)置定位，那么由用戶直接選定喜歡風(fēng)格的索引編號即可調(diào)用混搭定制語音庫中的對應(yīng)的語音片段壓縮數(shù)據(jù)。步驟A2，根據(jù)步驟Al選定的索引，調(diào)用混搭定制語音庫中的對應(yīng)的語音片段壓縮數(shù)據(jù)。步驟A3，根據(jù)步驟A2調(diào)用的語音片段壓縮數(shù)據(jù)，對其進行解碼，得到匹配音韻結(jié)構(gòu)信息的定制語音數(shù)據(jù)。在實際中，語音片段的壓縮方法可以為或G723等編碼算法進行壓縮，語音片段壓縮數(shù)據(jù)最終解碼格式一般默認為16KHz 16Bit PCM格式音頻數(shù)據(jù)。
在圖2所述的一種混搭語音合成方法流程圖步驟中，在步驟205中，優(yōu)選的現(xiàn)有的通用語音技術(shù)可以為如下步驟步驟Bi，針對未匹配上定制文本的音韻結(jié)構(gòu)信息，結(jié)合原用戶輸入的文本上下文進行音素信息預(yù)測與規(guī)劃，得到未匹配上定制文本的音韻結(jié)構(gòu)信息的語音參數(shù)；即通過音素信息預(yù)測與規(guī)劃得到的音節(jié)信息、音節(jié)位置、重音位置等信息。步驟B2，根據(jù)步驟Bl得到的音節(jié)信息、音節(jié)位置、重音位置等信息，結(jié)合通用語音庫規(guī)劃出語音參數(shù)，所述的語音參數(shù)包括時長、基頻、譜等等參數(shù)。步驟B3，根據(jù)步驟B2得到語音參數(shù)利用合成器合成通用語音數(shù)據(jù)。另外，此步驟中也可以采用其它通用語音合成步驟合成通用語音數(shù)據(jù)。參照圖3，示出了本發(fā)明優(yōu)選的的一種混搭語音合成系統(tǒng)結(jié)構(gòu)圖。接口模塊301，用于接收用戶輸入文本。自然語言處理模塊302，用于對所述文本進行自然語言處理，獲得與用戶輸入的文本對應(yīng)的音韻結(jié)構(gòu)信息。文本匹配子模塊303，用于將所述的音韻結(jié)構(gòu)信息與混搭定制語音庫中的定制文本進行匹配，得到已匹配定制文本的音韻結(jié)構(gòu)信息和未與定制文本匹配的音韻結(jié)構(gòu)信息。如果音韻結(jié)構(gòu)信息與定制文本匹配，則將被音韻結(jié)構(gòu)信息匹配的定制文本信息輸入定制語音合成子模塊304，反之，則將未匹配定制文本的音韻結(jié)構(gòu)信息輸入通用語音合成子模塊 305 ；定制語音合成子模塊304，用于將被音韻結(jié)構(gòu)信息匹配的定制文本結(jié)合定制語音庫合成定制語音數(shù)據(jù)。通用語音合成子模塊305，用于合成未與定制文本匹配的音韻結(jié)構(gòu)信息的通用語音數(shù)據(jù)。語音調(diào)整合成子模塊306，用于將所述的定制語音數(shù)據(jù)和所述的通用語音數(shù)據(jù)按用戶輸入文本的處理順序合成混搭語音數(shù)據(jù)。優(yōu)選的，所述定制語音合成?？?04包括定位單元401，混搭定制語音庫402，和解碼器403。所述的定位單元401將被匹配定制文本從混搭定制語音庫402的索引中隨機定位或者設(shè)置定位從混搭定制語音庫402中調(diào)用被匹配定制文本的某一種風(fēng)格的語音片段壓縮數(shù)據(jù)，然后由解碼器403將語音片段壓縮數(shù)據(jù)進行解碼合成定制語音數(shù)據(jù)。在實際中，所述的通用語音合成子模塊305可以包括以下幾個模塊音素信息預(yù)測與規(guī)劃單元501，通用語音庫502和合成器503。所述的音素信息預(yù)測與規(guī)劃單元501對未匹配上定制文本的音韻結(jié)構(gòu)信息，結(jié)合原用戶輸入的文本的上下文進行音素信息預(yù)測與規(guī)劃，得到音節(jié)信息、音節(jié)位置、重音位置等信息，然后將從音素信息預(yù)測與規(guī)劃單元501得到的信息結(jié)合通用語音庫502得到未匹配上定制文本的音韻結(jié)構(gòu)信息的時長、基頻、譜等語音參數(shù)，最后通過合成器503把語音參數(shù)合成通用語音數(shù)據(jù)。參照圖4，示出了本發(fā)明采用進一步優(yōu)選方案時的混搭語音合成系統(tǒng)結(jié)構(gòu)圖。其中定制語音合成子模塊和通用語音合成子模塊如上所述，此處不再詳述。以上對本發(fā)明所提供的一種混搭語音合成方法和系統(tǒng)進行了詳細介紹，本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實施方式
及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.一種混搭語音合成方法，其特征在于步驟101，接收用戶輸入的文本；步驟102，對所述文本進行自然語言處理，獲得與用戶輸入的文本對應(yīng)的音韻結(jié)構(gòu)信息；步驟103，針對所獲得的音韻結(jié)構(gòu)信息，結(jié)合混搭定制語音庫合成與所述文本對應(yīng)的混搭語音數(shù)據(jù)。
2.按照權(quán)利要求1所述的混搭語音合成方法其特征在于所述步驟103具體包括步驟201，針對所獲得的音韻結(jié)構(gòu)信息，與混搭定制語音庫中的定制文本進行匹配；如果匹配，轉(zhuǎn)入步驟202，如果未匹配，轉(zhuǎn)入步驟203 ；步驟202，通過被匹配定制文本調(diào)用混搭定制語音庫的定制語音數(shù)據(jù)合成定制語音數(shù)據(jù)；步驟203，將未匹配音韻結(jié)構(gòu)信息采用通用語音技術(shù)合成通用語音數(shù)據(jù)；步驟204，將所述的定制語音數(shù)據(jù)和通用語音數(shù)據(jù)調(diào)整合成與所述文本對應(yīng)的混搭語音數(shù)據(jù)。
3 按照權(quán)利要求2所述的混搭語音合成方法，其特征在于所述步驟202包括由被匹配定制文本調(diào)用混搭定制語音庫中儲存的語音片段，然后將所得到的語音片段進行解碼得到定制語音數(shù)據(jù)。
4.按照權(quán)利要求3所述的混搭語音合成方法，其特征在于所述的調(diào)用為隨機調(diào)用或者選定調(diào)用，所述的隨機調(diào)用為由定位單元隨機選擇混搭定制語音庫中的定制語音，所述的選定調(diào)用是用戶通過定位單元自己選用混搭定制語音庫中的定制語音。
5.按照權(quán)利要求1或2所述的混搭語音合成方法，其特征在于所述的混搭定制語音庫中的每一條定制文本對應(yīng)多個與定制文本語義相同的語音片段，所述語音片段的風(fēng)格互不相同。
6.按照權(quán)利要求5所述的混搭語音合成方法，其特征在于所述的風(fēng)格包括音色，和/或方言，和/或語氣。
7.按照權(quán)利要求1所述的混搭語音合成方法，其特征在于所述的匹配是以音韻結(jié)構(gòu)信息中最小的韻律短語為單位與混搭定制語音庫中的定制文本進行最長匹配。
8.一種混搭語音合成系統(tǒng)，其特征在于，包括接口模塊，用于接收用戶輸入的文本；自然語言處理模塊，用于獲得與用戶輸入的文本對應(yīng)的音韻結(jié)構(gòu)信息；混搭語音合成模塊，用于將所獲得的音韻結(jié)構(gòu)信息何處為混搭語音數(shù)據(jù)。
9.按照權(quán)利要求8所述的混搭語音合成系統(tǒng)，其特征在于所述的混搭語音合成模塊包括文本匹配子模塊，定制語音合成子模塊，通用語音合成子模塊，語音調(diào)整合成子模塊；所述文本匹配子模塊，用于將所述的音韻結(jié)構(gòu)信息與混搭定制語音庫中的定制文本進行匹配，得到已匹配定制文本的音韻結(jié)構(gòu)信息和未與定制文本匹配的音韻結(jié)構(gòu)信息；所述定制語音合成子模塊，用于合成已匹配定制文本的音韻結(jié)構(gòu)信息的定制語音數(shù)據(jù)；所述通用語音合成子模塊，用于合成未與定制文本匹配的音韻結(jié)構(gòu)信息的通用語音數(shù)據(jù)；所述語音調(diào)整合成子模塊，用于將所述的定制語音數(shù)據(jù)和所述的通用語音數(shù)據(jù)按用戶輸入文本的處理順序合成混搭語音數(shù)據(jù)。
10.按照權(quán)利要求9所述的混搭語音合成系統(tǒng)，其特征在于所述混搭定制語音合成子模塊包括定位單元，混搭定制語音庫，和解碼器；定位單元按照被音韻結(jié)構(gòu)信息匹配的定制文本從混搭定制語音庫的索引中隨機或者設(shè)置調(diào)用一種風(fēng)格的語音片段壓縮數(shù)據(jù)，然后由解碼器對所述的語音片段壓縮數(shù)據(jù)進行解碼合成匹配語音數(shù)據(jù)。
全文摘要
本發(fā)明提供的一種混搭語音合成方法，包括接收用戶輸入的文本；對所述文本進行自然語言處理，獲得與用戶輸入的文本對應(yīng)的音韻結(jié)構(gòu)信息；針對所獲得的音韻結(jié)構(gòu)信息，結(jié)合混搭定制語音庫合成與所述文本對應(yīng)的混搭語音數(shù)據(jù)。本發(fā)明還提供一種實現(xiàn)前述方法的混搭語音合成系統(tǒng)。本發(fā)明的混搭語音合成方法和系統(tǒng)通過事先定制完成的一個混搭定制語音庫，用戶可以依據(jù)個人愛好，通過該技術(shù)針對用戶所輸入的文本選擇隨機或者設(shè)置選定混搭定制語音庫中的不同音色、不同口音、不同語氣等多種風(fēng)格的語音片段，最終得到風(fēng)格多樣化的混搭合成語音。
文檔編號G10L19/14GK102201233SQ201110132768
公開日2011年9月28日申請日期2011年5月20日優(yōu)先權(quán)日2011年5月20日
發(fā)明者劉暢, 李健, 武衛(wèi)東, 鄭曉明申請人:北京捷通華聲語音技術(shù)有限公司

完整全部詳細技術(shù)資料下載