呼叫正在較低頻帶(例如,窄帶)上進(jìn)行時激活。在窄帶呼叫期間,接收器165使用來自說話者的窄帶語音信號連同經(jīng)訓(xùn)練的模型123、163(先前產(chǎn)生且存儲)以產(chǎn)生對應(yīng)于說話者的語音發(fā)聲105的寬帶版本的寬帶語音信號。
[0035]特征提取模塊130、170還可在電話呼叫期間從電話呼叫提取窄帶特征,且將這些窄帶特征提供到語音合成器135、175。取決于實施方案,近端臺110和/或遠(yuǎn)端臺150可包括語音合成器(例如,語音合成器135、175)。語音合成器135、175使用與所提取窄帶特征組合的個人化帶寬擴(kuò)展訓(xùn)練模型執(zhí)行寬帶語音合成??呻S后輸出寬帶語音。
[0036]圖2是用于個人化帶寬擴(kuò)展的訓(xùn)練的方法200的實施方案的操作流程。訓(xùn)練階段用以產(chǎn)生可隨后在窄帶呼叫中使用的模型。取決于實施方案,如在此進(jìn)一步所描述,在遠(yuǎn)端臺以傳入寬帶呼叫、在近端臺在寬帶呼叫期間或離線地執(zhí)行訓(xùn)練階段。在210,例如通過用戶將其名稱或其它識別符鍵入或輸入臺中或通過例如呼叫者ID來識別說話者(在本文中也被稱作用戶)。
[0037]在220,說話者發(fā)出發(fā)聲(也被稱作語音發(fā)聲),其由所述臺俘獲或另外接收。在230,從所述發(fā)聲(例如,從對應(yīng)于所述發(fā)聲的話音數(shù)據(jù))提取寬帶特征。在240執(zhí)行特征訓(xùn)練(直到已收集足夠數(shù)據(jù)用于恰當(dāng)訓(xùn)練)以產(chǎn)生訓(xùn)練模型??墒占瘮?shù)據(jù)直到滿足一或多個預(yù)定條件,例如直到所述數(shù)據(jù)足夠不同(滿足分集閾值或準(zhǔn)則)和/或已收集數(shù)據(jù)達(dá)足夠長時間(例如,取決于實施方案而為若干分鐘、小時、天)。此時,在250可存儲訓(xùn)練模型,且可在窄帶呼叫中使用。
[0038]預(yù)期如果未收集足夠數(shù)據(jù)以產(chǎn)生用于個人化帶寬擴(kuò)展的訓(xùn)練模型,那么可以迄今已收集的個人化數(shù)據(jù)來調(diào)適已針對一般群體訓(xùn)練的帶寬擴(kuò)展模型(即,“一般化模型”)。舉例來說,在其中表(例如下文相對于圖7-10描述的表)含有用于一般化模型的數(shù)據(jù)且所述表將經(jīng)修改為含有個人化數(shù)據(jù)以用作(或一起使用)個人化訓(xùn)練模型的表的實施方案中,可使用迄今已接收的個人化數(shù)據(jù)來調(diào)適所述表。此允許更平穩(wěn)地過渡到個人化數(shù)據(jù)的完整集合已收集(例如,當(dāng)滿足上述一或多個預(yù)定條件時)且并入所述表中時(即,當(dāng)使用已收集的個人化數(shù)據(jù)的完整集合修改所述表時)。在另一實施方案中,如果未收集足夠數(shù)據(jù)以產(chǎn)生用于個人化帶寬擴(kuò)展的訓(xùn)練模型,那么可使用一般化模型直到已收集足夠個人化數(shù)據(jù)。
[0039]圖3是執(zhí)行個人化帶寬擴(kuò)展的方法300的實施方案的操作流程。在310,窄帶呼叫在近端臺與遠(yuǎn)端臺之間發(fā)生,且?guī)挃U(kuò)展階段開始。在320(例如,使用呼叫者ID)識別說話者,且在330從存儲裝置(例如,在再生臺側(cè),例如在遠(yuǎn)端臺)檢索或從發(fā)射臺側(cè)(例如,窄帶語音源,例如近端臺)接收適當(dāng)帶寬擴(kuò)展訓(xùn)練模型(與所述說話者相關(guān)聯(lián))??刹捎媚撤N方式的說話者識別來確保當(dāng)前說話的人是在模型的產(chǎn)生期間已說話的同一個人。如果無法識別說話者,那么可拒絕或終止個人化帶寬擴(kuò)展。
[0040]在340,提取來自電話呼叫中的語音發(fā)聲(例如,來自話音數(shù)據(jù))的窄帶特征且使用所述模型映射到說話者的個人化寬帶特征。在350使用與所提取窄帶特征組合的個人化帶寬擴(kuò)展訓(xùn)練模型執(zhí)行寬帶語音合成。在360輸出寬帶語音。
[0041]圖4是用于個人化帶寬擴(kuò)展的訓(xùn)練的方法的另一實施方案的操作流程。在此實施方案中,在其中可識別(例如,通過呼叫者ID)用戶的寬帶呼叫期間在遠(yuǎn)端臺150處訓(xùn)練(對用戶個人化)模型。
[0042]在410,在來自近端臺的寬帶呼叫期間在遠(yuǎn)端臺處接收說話者的話音(例如,語音發(fā)聲)。在415,確定說話者的話音或語音發(fā)聲的聲學(xué)條件是否具有足夠高的質(zhì)量以用于訓(xùn)練。所述質(zhì)量可基于例如信噪比(SNR)或其它基于噪聲的統(tǒng)計數(shù)據(jù)和/或測量值。因此,舉例來說,如果SNR高于預(yù)定閾值,那么所述發(fā)聲的質(zhì)量足夠高以在個人化帶寬擴(kuò)展訓(xùn)練模型的產(chǎn)生中使用。如果不是,那么處理返回到410且繼續(xù)直到聲學(xué)條件可接受。
[0043]如果在415確定聲學(xué)條件可接受,那么在420從語音發(fā)聲提取窄帶和寬帶特征,且在430通過例如說話者、遠(yuǎn)端臺的用戶或呼叫者ID 425識別說話者。如果任何帶寬擴(kuò)展特征已先前產(chǎn)生且存儲,那么在435可從存儲裝置(例如本地數(shù)據(jù)庫)檢索關(guān)于說話者的帶寬擴(kuò)展(BWE)特征,因為這是迭代過程。
[0044]在440,使用從420提取的特征和從435檢索的帶寬擴(kuò)展特征執(zhí)行特征訓(xùn)練。此特征訓(xùn)練可包含更新特征空間且采用用于說話者的窄帶寬帶映射??墒褂糜糜诖_定相似性測量和匹配的任何技術(shù),例如上述特征域相似性比較、上述合成語音信號域相似性比較以及任何距離度量,包含但不限于具有可允許時間調(diào)整(在時域或頻域中)的最小二乘擬合、基于特征的方法(例如使用LPC/LPCC、MFCC或音頻指紋)或基于較高階的方法(例如交叉累積量、經(jīng)驗庫爾貝克-萊伯爾發(fā)散(Kullback-Leibler Divergence),或板倉-西都(Itakura-Saito)距離)。
[0045]在一實施方案中,可從初始化特征空間(例如,用于一般群體的通用碼簿)朝向個人化特征空間(例如,用于說話者的個人化碼簿)執(zhí)行更新??梢援?dāng)前特征向量與最近的現(xiàn)有碼簿條目之間的經(jīng)加權(quán)和替換碼簿條目。如果太多的存儲器消耗變成問題,那么在一實施方案中通過減輕從通用特征空間的更新條件而可對某些說話者給出存儲器消耗的優(yōu)先級?;蛘呋蛄硗?,可存儲僅不同特征空間或僅從通用特征空間的差量或改變。一般化特征空間可預(yù)先存儲在所述臺處或者發(fā)送或另外提供到所述臺用于后續(xù)使用。
[0046]預(yù)期即使不具有特征空間的更新,個人化帶寬擴(kuò)展仍可使用個人化窄帶寬帶映射模型來獲得。
[0047]在450,可以訓(xùn)練的完成百分比(例如,相對于預(yù)定閾值量的特征和/或在訓(xùn)練模型的完成之前發(fā)生的映射)來存儲(例如,在本地數(shù)據(jù)庫中)用于說話者的帶寬擴(kuò)展特征空間和映射。在一實施方案中,可通過或基于測量用于以恰當(dāng)VAD(話音活動檢測)訓(xùn)練以排除非語音部分且測量構(gòu)造多少新窄帶寬帶映射的計數(shù)而獲得模型訓(xùn)練完成百分比。
[0048]在一實施方案中,指示符可提供于地址簿中對用戶可存取,以指示寬帶以某個訓(xùn)練完成百分比而可用。地址簿可包括(例如)存儲且列出各種用戶的數(shù)據(jù)庫以及指示寬帶是否可用于每一用戶和/或訓(xùn)練完成百分比的指示符。用戶可決定是否基于用戶接口以訓(xùn)練完成百分比使用對寬帶的帶寬擴(kuò)展?;蛘呋蛄硗?,可設(shè)定默認(rèn)值以使得每當(dāng)訓(xùn)練完成百分比到達(dá)某一水平(例如,99%)時,那么當(dāng)寬帶不可用時或例如當(dāng)一些譯碼資源將保存或保藏(例如,在呼叫期間的不良網(wǎng)絡(luò)條件或繁重數(shù)據(jù)傳送)時自動切換到對寬帶的帶寬擴(kuò)展。
[0049]在460,確定是否存在所存儲的足夠帶寬擴(kuò)展數(shù)據(jù)(例如,相對于預(yù)定閾值)以當(dāng)寬帶連接不可用時在呼叫中使用。如果不是,那么處理在410繼續(xù)以搜集更多發(fā)聲且產(chǎn)生更多帶寬擴(kuò)展數(shù)據(jù)。然而,如果已產(chǎn)生且存儲足夠帶寬擴(kuò)展數(shù)據(jù),那么在470處處理停止且所得模型準(zhǔn)備好在窄帶話音通信中使用。
[0050]取決于實施方案,個人化帶寬擴(kuò)展可在任何若干情況中使用,例如(I)當(dāng)寬帶在整個呼叫中不可用時;(2)當(dāng)寬帶對于呼叫的一部分可用但對于呼叫的另一部分不可用且當(dāng)寬帶不可用時個人化帶寬擴(kuò)展變成激活時;以及(3)當(dāng)寬帶始終可用或?qū)τ诤艚械哪骋徊糠挚捎脮r,且即使當(dāng)寬帶可用時在個人化帶寬擴(kuò)展模型變成足夠良好且運(yùn)營商公司決定切換到個人化帶寬擴(kuò)展模式的情況下個人化帶寬擴(kuò)展變成激活。
[0051]圖5是用于個人化帶寬擴(kuò)展的訓(xùn)練的方法500的另一實施方案的操作流程。在此實施方案中,在呼叫期間在近端臺110(例如,在用戶的移動電話)訓(xùn)練模型。應(yīng)注意不管網(wǎng)絡(luò)條件如何,近端臺110都可俘獲寬帶語音。
[0052]在510,電話呼叫發(fā)生(S卩,在線呼叫),其中說話者在所述呼叫上且對所述說話者的臺發(fā)聲(提供語音發(fā)聲)。在515,確定說話者的話音或語音發(fā)聲的聲學(xué)條件是否具有足夠高的質(zhì)量以用于訓(xùn)練。如上所述,SNR技術(shù)可用以確定所述聲學(xué)條件是否可接受。如果不是,那么處理返回到510且繼續(xù)直到聲學(xué)條件可接受。
[0053]如果在515確定聲學(xué)條件可接受,那么在520經(jīng)由例如用戶輸入525由說話者識別說話者。在530,確定所識別說話者是否為經(jīng)登記用戶(例如,通過將說話者的識別與存儲裝置中與說話者的臺相關(guān)聯(lián)的登記用戶的列表)。確定所識別說話者是否為經(jīng)登記用戶用以防止對除了作為所述臺的所有者(例如,移動電話的所有者)的經(jīng)登記用戶之外的其它人的不希望的訓(xùn)練。如果說話者不是經(jīng)登記用戶,那么處理返回到510。然而,如果確定所識別說話者是經(jīng)登記用戶,那么在540從語音發(fā)聲提取窄帶和寬帶特征,且如果任何帶寬擴(kuò)展特征已經(jīng)先前產(chǎn)生且所存儲,那么在545可從存儲裝置(例如本地數(shù)據(jù)庫)檢索關(guān)于說話者的帶寬擴(kuò)展特征,因為這是迭代過程。
[0054]在550,使用從540提取的特征和從545檢索的帶寬擴(kuò)展特征執(zhí)行特征訓(xùn)練。此特征訓(xùn)練可包含更新特征空間且調(diào)適用于說話者的