生成的個性化聲學模型之中。
[0146]本實施例中,通過根據(jù)個性化數(shù)據(jù)和基準聲學模型進行自適應模型訓練,可以降低所需的個性化數(shù)據(jù)量,從而降低樣本采集所需的時間,降低模型生成所需周期,實現(xiàn)模型的快速生成,通過獲取個性化數(shù)據(jù)可以滿足個性化需求。另外,通過大規(guī)模樣本生成基準聲學模型,可以保證根據(jù)該基準聲學模型生成的個性化聲學模型的準確性和可靠性。進一步的,在模型訓練時采用神經(jīng)網(wǎng)絡模型訓練方式,可以提高模型參數(shù)的連貫性,從而提高合成語音的自然性。
[0147]圖9是本發(fā)明另一實施例提出的語音合成裝置的結構示意圖,該裝置90包括:處理模塊91、獲取模塊92、生成模塊93和合成模塊94。
[0148]處理模塊91,用于對輸入文本進行處理,得到處理后的文本;
[0149]例如,參見圖6,處理流程可以包括:文本預處理(S61)、分詞(S62)、詞性標注(S63)、注音(S64)、韻律預測(S65)等。
[0150]獲取模塊92,用于獲取預先生成的個性化聲學模型;
[0151]其中,個性化聲學模型可以采用上述實施例生成,在此不再贅述。
[0152]生成模塊93,用于根據(jù)所述個性化聲學模型和處理后的文本進行聲學參數(shù)生成;
[0153]合成模塊94,用于根據(jù)生成的聲學參數(shù)進行語音合成,得到個性化合成語音;
[0154]聲學參數(shù)生成及語音合成的原理可以采用已有方式,與已有方式不同的是,本實施例采用個性化聲學模型以區(qū)分于已有方式的普通聲學模型。
[0155]本實施例中,通過采用個性化聲學模型,可以生成個性化合成語音,以滿足用戶個性化語音需求。
[0156]需要說明的是,在本發(fā)明的描述中,術語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本發(fā)明的描述中,除非另有說明,“多個”的含義是指至少兩個。
[0157]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬技術領域的技術人員所理解。
[0158]應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0159]本技術領域的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
[0160]此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。
[0161 ] 上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
[0162]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
[0163]盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在本發(fā)明的范圍內可以對上述實施例進行變化、修改、替換和變型。
【主權項】
1.一種聲學模型的生成方法,其特征在于,包括: 獲取個性化數(shù)據(jù),所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應的個性化文本數(shù)據(jù)進行處理后得到的; 獲取預先生成的基準聲學模型,所述基準聲學模型是根據(jù)已有的大規(guī)模樣本生成的; 根據(jù)所述個性化數(shù)據(jù)和所述基準聲學模型進行自適應模型訓練,生成個性化聲學模型。2.根據(jù)權利要求1所述的方法,其特征在于,所述獲取個性化數(shù)據(jù),包括: 獲取個性化語音數(shù)據(jù),對所述個性化語音數(shù)據(jù)進行數(shù)據(jù)加工,以及,對數(shù)據(jù)加工后的個性化語音數(shù)據(jù)進行特征提??;以及, 獲取與所述個性化語音數(shù)據(jù)對應的個性化文本標注數(shù)據(jù),所述個性化文本標注數(shù)據(jù)是對所述個性化語音數(shù)據(jù)對應的個性化文本進行標注后得到的。3.根據(jù)權利要求2所述的方法,其特征在于,當所述個性化語音數(shù)據(jù)包括:目標發(fā)音人的語音數(shù)據(jù)和相似發(fā)音人的語音數(shù)據(jù)時,所述獲取個性化語音數(shù)據(jù),包括: 獲取目標發(fā)音人的語音數(shù)據(jù); 確定與目標發(fā)音人語音相似的相似發(fā)音人; 獲取相似發(fā)音人的語音數(shù)據(jù)作為相似語音數(shù)據(jù)。4.根據(jù)權利要求3所述的方法,其特征在于,所述確定與目標發(fā)音人語音相似的相似發(fā)首人,包括: 對所述目標發(fā)音人的語音數(shù)據(jù)進行特征提??; 根據(jù)提取得到的目標發(fā)音人的特征,以及預設生成的多說話人模型,確定與目標發(fā)音人語音相似的發(fā)音人,其中,所述多說話人模型是預先對作為樣本的語音數(shù)據(jù)進行特征提取以及根據(jù)提取后的特征進行模型訓練后生成的。5.根據(jù)權利要求3所述的方法,其特征在于,所述與所述個性化語音數(shù)據(jù)對應的個性化文本標注數(shù)據(jù)包括:與所述目標發(fā)音人的語音數(shù)據(jù)對應的文本標注數(shù)據(jù),以及,與所述相似語音數(shù)據(jù)對應的文本標注數(shù)據(jù),所述獲取與所述個性化語音數(shù)據(jù)對應的個性化文本標注數(shù)據(jù),包括: 從預先生成的多說話人語音數(shù)據(jù)庫中,獲取與相似語音數(shù)據(jù)對應的文本標注數(shù)據(jù);從預先生成的多說話人語音數(shù)據(jù)庫中或者采用人工標注或自動標注的方式,獲取與目標發(fā)音人的語音數(shù)據(jù)對應的文本標注數(shù)據(jù)。6.根據(jù)權利要求5所述的方法,其特征在于,當與目標發(fā)音人的語音數(shù)據(jù)對應的文本標注數(shù)據(jù)是采用人工標注或自動標注方式得到的,所述方法還包括: 將所述目標發(fā)音人的語音數(shù)據(jù)和與目標發(fā)音人的語音數(shù)據(jù)對應的文本標注數(shù)據(jù)關聯(lián)保存到所述多說話人語音數(shù)據(jù)庫中。7.根據(jù)權利要求1-6任一項所述的方法,其特征在于,所述基準聲學模型是基準神經(jīng)網(wǎng)絡模型,所述自適應模型訓練是自適應神經(jīng)網(wǎng)絡模型訓練,所述個性化聲學模型是個性化神經(jīng)網(wǎng)絡模型。8.一種語音合成方法,其特征在于,包括: 對輸入文本進行處理,得到處理后的文本; 獲取預先生成的個性化聲學模型; 根據(jù)所述個性化聲學模型和處理后的文本進行聲學參數(shù)生成; 根據(jù)生成的聲學參數(shù)進行語音合成,得到個性化合成語音; 其中,所述個性化聲學模型采用如權利要求1-7任一項所述的方法生成。9.一種聲學模型的生成裝置,其特征在于,包括: 第一獲取模塊,用于獲取個性化數(shù)據(jù),所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應的個性化文本數(shù)據(jù)進行處理后得到的; 第二獲取模塊,用于獲取預先生成的基準聲學模型,所述基準聲學模型是根據(jù)已有的大規(guī)模樣本生成的; 生成模塊,用于根據(jù)所述個性化數(shù)據(jù)和所述基準聲學模型進行自適應模型訓練,生成個性化聲學模型。10.一種語音合成裝置,其特征在于,包括: 處理模塊,用于對輸入文本進行處理,得到處理后的文本; 獲取模塊,用于獲取預先生成的個性化聲學模型; 生成模塊,用于根據(jù)所述個性化聲學模型和處理后的文本進行聲學參數(shù)生成; 合成模塊,用于根據(jù)生成的聲學參數(shù)進行語音合成,得到個性化合成語音; 其中,所述個性化聲學模型采用如權利要求1-7任一項所述的方法生成。
【專利摘要】本發(fā)明提出一種聲學模型的生成方法和裝置及語音合成方法和裝置,該聲學模型的生成方法包括:獲取個性化數(shù)據(jù),所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應的個性化文本數(shù)據(jù)進行處理后得到的;獲取預先生成的基準聲學模型,所述基準聲學模型是根據(jù)已有的大規(guī)模樣本生成的;根據(jù)所述個性化數(shù)據(jù)和所述基準聲學模型進行自適應模型訓練,生成個性化聲學模型。該方法能夠實現(xiàn)聲學模型的快速生成,并且可以滿足用戶的個性化需求。
【IPC分類】G10L13/04, G10L13/02
【公開號】CN105206258
【申請?zhí)枴緾N201510680816
【發(fā)明人】李秀林
【申請人】百度在線網(wǎng)絡技術(北京)有限公司
【公開日】2015年12月30日
【申請日】2015年10月19日