技術(shù)領(lǐng)域
下面的描述涉及語音識別技術(shù),更具體地講,涉及一種用于生成聲學(xué)模型的設(shè)備和方法,和用于語音識別的設(shè)備和方法。
背景技術(shù):
對語音識別技術(shù)存在很大的興趣,因為語音識別使得用戶能夠以更方便和容易的方式從互聯(lián)網(wǎng)、電子商務(wù)和各種普遍存在的環(huán)境中訪問信息。例如,在用戶的雙手忙于駕駛車輛或進行其他活動的情況下,語音識別使得用戶能夠訪問互聯(lián)網(wǎng)、搜索、撥號、進行電話呼叫或者進行其他活動或工作,因此,滿足用戶的各種需要。
語音識別的一個重點在于有效地移除環(huán)境條件產(chǎn)生的噪音。訓(xùn)練環(huán)境和真實的語音識別環(huán)境之間的由這樣的噪音引起的差異是系統(tǒng)的語音識別性能下降的主要因素之一。
因此,存在對這樣的技術(shù)的需要:可生成聲學(xué)模型以在電子設(shè)備(諸如,手機)中將語音識別系統(tǒng)訓(xùn)練為具有魯棒性并且不受或不顯著受噪音影響,并且可被用于存在各種噪音的真實的語音識別環(huán)境。
技術(shù)實現(xiàn)要素:
提供發(fā)明內(nèi)容從而以簡化的形式介紹構(gòu)思的選擇,其將在下面的具體實施方式中將被進一步描述。發(fā)明內(nèi)容不意在確定所要求保護主題的關(guān)鍵特征或必要特征,也不意在用于輔助確定所要求保護的主題的范圍。
提供了一種用于生成對噪音具有魯棒性的聲學(xué)模型的設(shè)備和方法,和一種用于通過使用對噪音具有魯棒性的聲學(xué)模型進行語音識別的設(shè)備和方法。
根據(jù)一個實施例,提供一種用于生成聲學(xué)模型的設(shè)備,所述設(shè)備包括:處理器,被配置為:通過使用噪音模型計算代表噪音數(shù)據(jù)的噪音表現(xiàn),以及通過使用也可包括語音數(shù)據(jù)和噪音數(shù)據(jù)的訓(xùn)練帶噪語音數(shù)據(jù)、與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn)進行訓(xùn)練,生成聲學(xué)模型。
該設(shè)備還可包括:被配置為存儲指令的存儲器,其中,處理器還可被配置為執(zhí)行指令以配置處理器,來通過使用噪音模型計算代表噪音數(shù)據(jù)的噪音表現(xiàn),并通過使用也可包括語音數(shù)據(jù)和噪音數(shù)據(jù)的訓(xùn)練帶噪語音數(shù)據(jù)、與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn)進行訓(xùn)練,生成聲學(xué)模型。
處理器還可包括:噪音表現(xiàn)計算器,被配置為通過使用噪音模型計算代表噪音數(shù)據(jù)的噪音表現(xiàn);聲學(xué)模型生成器,被配置為通過使用也可包括語音數(shù)據(jù)和噪音數(shù)據(jù)的訓(xùn)練帶噪語音數(shù)據(jù)、與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn)進行訓(xùn)練,生成聲學(xué)模型。
噪音表現(xiàn)計算器也可包括:特征提取器,被配置為提取噪音數(shù)據(jù)的特征;噪音建模器,被配置為通過使用噪音模型基于提取的特征計算代表噪音數(shù)據(jù)的噪音表現(xiàn)。
可使用訓(xùn)練噪音數(shù)據(jù)通過自動編碼器預(yù)先生成噪音模型。
生成的聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
處理器可被配置為通過使用多任務(wù)學(xué)習(xí)方法來生成聲學(xué)模型。
處理器通過使用從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到的第三目標(biāo)函數(shù),生成聲學(xué)模型,其中,第一目標(biāo)函數(shù)可用于估計音素概率,第二目標(biāo)函數(shù)可用于估計噪音表現(xiàn)。
聲學(xué)模型生成器也可包括:組合器,被配置為組合語音數(shù)據(jù)和噪音數(shù)據(jù)以生成訓(xùn)練帶噪語音數(shù)據(jù);特征提取器,被配置為提取生成的訓(xùn)練帶噪語音數(shù)據(jù)的特征;聲學(xué)模型訓(xùn)練器,被配置為用提取的特征、與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn),訓(xùn)練聲學(xué)模型。
根據(jù)另一實施例,提供一種生成聲學(xué)模型的方法,該方法包括:通過使用噪音模型計算噪音數(shù)據(jù)的噪音表現(xiàn);通過使用也可包括語音數(shù)據(jù)和噪音數(shù)據(jù)的訓(xùn)練帶噪語音數(shù)據(jù)、與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn)進行訓(xùn)練,生成聲學(xué)模型。
計算噪音表現(xiàn)的步驟也可包括:提取噪音數(shù)據(jù)的特征;通過使用噪音模型基于提取的噪音數(shù)據(jù)的特征計算噪音表現(xiàn)。
可使用訓(xùn)練噪音數(shù)據(jù)通過自動編碼器預(yù)先生成噪音模型。
生成的聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
生成聲學(xué)模型的步驟也可包括:通過使用多任務(wù)學(xué)習(xí)方法生成聲學(xué)模型。
生成聲學(xué)模型的步驟也可包括:通過使用從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到的第三目標(biāo)函數(shù),生成聲學(xué)模型,其中,第一目標(biāo)函數(shù)可用于估計音素概率,第二目標(biāo)函數(shù)可用于估計噪音表現(xiàn)。
生成聲學(xué)模型的步驟也可包括:組合語音數(shù)據(jù)和噪音數(shù)據(jù)以生成訓(xùn)練帶噪語音數(shù)據(jù);提取生成的訓(xùn)練帶噪語音模型的特征;用提取的特征、與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn),訓(xùn)練聲學(xué)模型。
根據(jù)一個實施例,提供一種語音識別設(shè)備,包括:存儲器,被配置為存儲聲學(xué)模型;計算器,被配置通過使用存儲的聲學(xué)模型計算輸入的帶噪語音數(shù)據(jù)的音素概率,其中,可通過使用包括語音數(shù)據(jù)和噪音數(shù)據(jù)的組合的訓(xùn)練帶噪語音數(shù)據(jù)、與語音數(shù)據(jù)對應(yīng)的音素串和代表噪音數(shù)據(jù)的噪音表現(xiàn)進行訓(xùn)練,生成聲學(xué)模型。
計算器也可包括:特征提取器,被配置為提取輸入的帶噪語音數(shù)據(jù)的特征;音素概率計算器,被配置為使用聲學(xué)模型計算與提取的特征對應(yīng)的音素概率。
可通過使用噪音模型計算噪音表現(xiàn)。
可使用訓(xùn)練噪音數(shù)據(jù)通過自動編碼器預(yù)先生成噪音模型。
聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
可通過使用多任務(wù)學(xué)習(xí)方法生成聲學(xué)模型。
可通過使用從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到的第三目標(biāo)函數(shù),生成聲學(xué)模型,其中,第一目標(biāo)函數(shù)可用于估計音素概率,以及第二目標(biāo)函數(shù)可用于估計噪音表現(xiàn)。
可用定義為輸入數(shù)據(jù)的訓(xùn)練帶噪語音數(shù)據(jù)和定義為目標(biāo)數(shù)據(jù)的與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn),生成聲學(xué)模型。
根據(jù)進一步的實施例,提供一種語音識別方法,包括:提取輸入的帶噪語音數(shù)據(jù)的特征;通過使用聲學(xué)模型計算與提取的特征相應(yīng)的音素概率,其中,可通過使用包括語音數(shù)據(jù)和噪音數(shù)據(jù)的組合的訓(xùn)練帶噪語音數(shù)據(jù)、與語音數(shù)據(jù)對應(yīng)的音素串以及代表噪音數(shù)據(jù)的噪音表現(xiàn)進行訓(xùn)練,生成聲學(xué)模型。
可通過使用噪音模型計算噪音表現(xiàn)。
可使用訓(xùn)練噪音數(shù)據(jù)通過自動編碼器預(yù)先生成噪音模型。
聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
可通過使用多任務(wù)學(xué)習(xí)方法生成聲學(xué)模型。
可通過使用從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到的第三目標(biāo)函數(shù),生成聲學(xué)模型,其中,第一目標(biāo)函數(shù)可用于估計音素概率,以及第二目標(biāo)函數(shù)可用于估計噪音表現(xiàn)。
可用定義為輸入數(shù)據(jù)的訓(xùn)練帶噪語音數(shù)據(jù)和定義為目標(biāo)數(shù)據(jù)的與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn),生成聲學(xué)模型。
根據(jù)另一實施例,提供一種用于生成聲學(xué)模型的設(shè)備,包括:組合器,被配置為組合語音數(shù)據(jù)和噪音數(shù)據(jù)以生成訓(xùn)練帶噪語音數(shù)據(jù);特征提取器,被配置為通過將用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)與其他噪音數(shù)據(jù)區(qū)別開來,從帶噪語音數(shù)據(jù)提取特征;聲學(xué)模型訓(xùn)練器,被配置為用來自帶噪語音數(shù)據(jù)、與語音數(shù)據(jù)對應(yīng)的音素串和噪音表現(xiàn)的特征,訓(xùn)練聲學(xué)模型,其中,同時執(zhí)行音素的分類和噪音表現(xiàn)的提取。
該設(shè)備還可包括:自動編碼器,被配置為接收特征的輸入以基于接收的訓(xùn)練語音數(shù)據(jù)的輸入計算輸入表現(xiàn),并基于輸入表現(xiàn)重構(gòu)最相似于輸入的輸出。
自動編碼器使用訓(xùn)練噪音數(shù)據(jù)預(yù)先生成噪音模型。
生成的聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
其他特征和方面從下面的具體實施方式、附圖和權(quán)利要求將是清楚的。
附圖說明
圖1是示出根據(jù)實施例的用于生成聲學(xué)模型的設(shè)備的框圖。
圖2是解釋根據(jù)實施例的生成噪音模型的示例的示圖。
圖3是解釋根據(jù)實施例的生成聲學(xué)模型的示例的示圖。
圖4是示出根據(jù)實施例的語音識別設(shè)備的框圖。
圖5是示出根據(jù)另一實施例的生成聲學(xué)模型的方法的流程圖。
圖6是示出在圖5中示出的噪音表現(xiàn)的計算的示例的流程圖。
圖7是示出在圖5中示出的聲學(xué)模型的生成的示例的流程圖。
圖8是示出根據(jù)實施例的語音識別方法的流程圖。
圖9是示出根據(jù)實施例的用于生成噪音模型的設(shè)備的框圖。
圖10是示出根據(jù)實施例的用于生成噪音模型的方法的流程圖。
貫穿附圖和具體實施方式,除非另外被描述,相同的附圖標(biāo)記將被理解為表示相同的元件、特征和結(jié)構(gòu)。為了清楚、說明和便利,這些元件的相對大小和描寫可被夸大。
具體實施方式
下面的詳細(xì)描述被提供以協(xié)助讀者獲得對在此描述的方法、設(shè)備和/或系統(tǒng)的全面理解。然而,在對本申請的公開的理解后,在此描述的方法、設(shè)備和/或系統(tǒng)的各種變化、修改和等同物將是明顯的。例如,在此描述的操作的順序僅是示例,操作的順序不被局限于在此闡述的那些順序,而是除了必需按特定順序發(fā)生的操作之外可被改變,這在對本申請的公開理解之后將是明顯的。同樣,為了更加清楚和簡潔,對本領(lǐng)域中已知的特征的描述可以被省略。
在此描述的特征可以不同的形式被實現(xiàn),并且不應(yīng)被解釋為被局限于在此描述的示例。相反,在此描述的示例僅被提供于示出實施在此描述的執(zhí)行方法、設(shè)備和/或系統(tǒng)的許多可能方式中的一些方式,這在對本申請的公開理解之后將是明顯的。
貫穿說明書,當(dāng)一個元件(諸如層、區(qū)域或基底)被描述為“在……之上”、“連接”或“結(jié)合”到另一元件時,其可直接“在……之上”、“連接”或“結(jié)合”到該另一元件,或者可存在一個或多個介于它們之間的元件。相反,當(dāng)元件被描述為“直接在……之上”、“直接連接”或“直接結(jié)合”到另一元件時,不存在介于它們之間的其他元件。
盡管術(shù)語(諸如“第一”、“第二”和“第三”)在此可用于描述各種部件、組件、區(qū)域、層或部分,這些部件、組件、區(qū)域、層或部分不被這些術(shù)語限制。相反,這些術(shù)語僅用于區(qū)分一個部件、組件、區(qū)域、層或部分與另一個部件、組件、區(qū)域、層或部分。因此,在不脫離示例的教導(dǎo)的情況下,在這里描述的示例中被稱為的第一部件、組件、區(qū)域、層或部分,也可被稱為第二部件、組件、區(qū)域、層或部分。
此處使用的術(shù)語僅用于描述各種示例,并不用于限制該公開。除非上下文另有清楚的指示,否則單數(shù)形式也意在包括復(fù)數(shù)形式。術(shù)語“包含”、“包括”以及“具有”表示存在敘述的特征、數(shù)字、操作、部件、元件和/或它們的組合,但并不排除存在或添加一個或多個其他特征、數(shù)字、操作、部件、元件和/或它們的組合。
在此描述的示例的特征可以各種方式被組合,這在對本申請的公開理解之后將是明顯的。此外,盡管在此描述的示例具有各種配置,其他配置是可能的,這在對本申請的公開理解之后將是明顯的。
圖1是示出根據(jù)實施例的用于生成聲學(xué)模型的設(shè)備的框圖。
參照圖1,用于生成聲學(xué)模型的設(shè)備100包括:輸入110、噪音表現(xiàn)計算器120和聲學(xué)模型生成器130。
輸入110是對用于生成聲學(xué)模型的訓(xùn)練語音數(shù)據(jù)(以下稱為用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù))的輸入和也用于生成聲學(xué)模型的訓(xùn)練噪音數(shù)據(jù)(以下稱為用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù))的輸入進行接收的門、終端或麥克風(fēng)。
噪音表現(xiàn)計算器120是被配置為使用預(yù)先生成的噪音模型計算噪音表現(xiàn)的處理器、控制器、電路或計算器。噪音表現(xiàn)代表用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)。為此,噪音表現(xiàn)計算器120包括:特征提取器121、噪音模型存儲部分122和噪音建模器123。
特征提取器121是被配置為通過執(zhí)行提取算法提取用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的特征的處理器、控制器或電路。提取算法可以是任何類型或功能的算法,只要該算法可用于提取將用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)與其他噪音數(shù)據(jù)區(qū)別開來的特征。
噪音模型存儲部分122是被配置為存儲噪音模型的存儲器或電路。在一個實施例中,通過使用各種訓(xùn)練噪音數(shù)據(jù)(以下稱為用于噪音模型訓(xùn)練的噪音數(shù)據(jù)),通過自動編碼器預(yù)先進行訓(xùn)練來生成噪音模型。用于噪音模型訓(xùn)練的噪音數(shù)據(jù)可包括所有類型的包括用來生成聲學(xué)模型的用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音數(shù)據(jù)。
噪音模型存儲部分122是包括閃存類型、硬盤類型、微型多媒體卡類型、卡類型存儲器(諸如SD或XD存儲器等)、隨機訪問存儲器(RAM)、靜態(tài)隨機訪問存儲器(SRAM)、只讀存儲器(ROM)、電可擦可編程只讀存儲器(EEPROM)、可編程序只讀存儲器(PROM)、磁存儲器、磁盤、光盤和其他相似裝置中的至少一個存儲介質(zhì)的存儲器或電路。
盡管在圖1中噪音模型存儲部分122包括在噪音表現(xiàn)計算器120中,但噪音模型存儲部分122不限于此。換句話說,噪音模型存儲部分122可被放置成為噪音表現(xiàn)計算器120的一部分,或者成為噪音表現(xiàn)計算器120之外的外部構(gòu)件。
通過使用存儲在噪音模型存儲部分122中的噪音模型,基于特征提取器121提取的用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的特征,噪音建模器123計算代表用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn)。
將參照圖2描述噪音模型的生成和使用。
聲學(xué)模型生成器130是被配置為通過基于用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)、用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)、與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn)進行訓(xùn)練來生成聲學(xué)模型的處理器、控制器或者結(jié)構(gòu)生成器。在一個實施例中,聲學(xué)模型生成器130通過使用多任務(wù)學(xué)習(xí)方法生成聲學(xué)模型。為此,聲學(xué)模型生成器130包括:組合器131、特征提取器132、和聲學(xué)模型訓(xùn)練器133。
組合器131是被配置為組合用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)和噪音數(shù)據(jù)以生成訓(xùn)練帶噪語音數(shù)據(jù)(以下稱為用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù))的處理器、控制器或電路。
特征提取器132是被配置為通過使用,例如,可將用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)與其他噪音數(shù)據(jù)區(qū)別開來的算法,從用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)提取特征的處理器、控制器或電路。如上面描述的,該算法可以是任何類型或功能的算法,只要該算法可用來提取將用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)與其他噪音數(shù)據(jù)區(qū)別開來的特征。
聲學(xué)模型訓(xùn)練器133是被配置為用來自特征提取器132的用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)的特征、以及被定義為目標(biāo)數(shù)據(jù)的與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的來自噪音建模器123的噪音表現(xiàn),訓(xùn)練聲學(xué)模型的處理器或控制器。換句話說,聲學(xué)模型訓(xùn)練器133訓(xùn)練聲學(xué)模型,以便聲學(xué)模型通過使用多任務(wù)學(xué)習(xí)方法同時執(zhí)行音素的分類和噪音表現(xiàn)的提取。
聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,但不限于此。
該基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型可包括多個隱藏層,并可通過典型的誤差反向傳播方法進行訓(xùn)練。
在一個實施例中,聲學(xué)模型訓(xùn)練器133通過使用由下面的等式1表示的目標(biāo)函數(shù)來訓(xùn)練聲學(xué)模型。
[等式1]
L=(1-λ)LA+λLN
其中,LA是用于估計音素概率的用于訓(xùn)練聲學(xué)模型的目標(biāo)函數(shù)(以下稱為第一目標(biāo)函數(shù)),LN是用于估計噪音表現(xiàn)的用于訓(xùn)練聲學(xué)模型的目標(biāo)函數(shù)(以下稱為第二目標(biāo)函數(shù)),λ是權(quán)重。
如通過等式1所表示的,用于訓(xùn)練聲學(xué)模型的目標(biāo)函數(shù)從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到。
在一個實施例中,第一目標(biāo)函數(shù)LA使用一般用于多類分類的交叉熵(cross-entropy),由下面的等式2表示。
[等式2]
tk=0或1,
其中,K指示輸出類的數(shù)量(例如,音素的數(shù)量),tk指示第k輸出類是否為目標(biāo)類,tk在目標(biāo)類的情況下取值為1,tk在不是目標(biāo)類的情況下取值為0,yk表示模型的輸出層的激活函數(shù)。
在一個實施例中,第二目標(biāo)函數(shù)LN使用一般用于回歸的歐幾里德距離,由下面的等式3表示。
[等式3]
其中,P指示輸入(輸出)特征的維度,fp指示第p個輸入節(jié)點的激活值,gp表明第p個輸出節(jié)點的激活值。
盡管在圖1中用于生成聲學(xué)模型的設(shè)備100包括輸入110和噪音模型存儲部分122,但是輸入110和噪音模型存儲部分122是可基于系統(tǒng)的性能和使用被包括的可選的結(jié)構(gòu)元件。
圖2是解釋根據(jù)實施例的用于生成噪音模型的示例的示圖。圖2中示出的噪音模型是基于自動編碼器的噪音模型。
在一個實施例中,可通過自動編碼器訓(xùn)練噪音模型。自動編碼器包括多個隱藏層,并且被訓(xùn)練為接收特征的輸入(諸如,濾波器組(filterbank))、基于接收的輸入計算輸入表現(xiàn)210、并基于所述表現(xiàn)210重構(gòu)最相似于所述輸入的輸出。
例如,通過使用由下面的等式4表示的目標(biāo)函數(shù),訓(xùn)練基于自動編碼器的噪音模型。
[等式4]
其中,xk指示輸入,zk指示輸出,k指示用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的樣本索引。
在一個實施例中,自動編碼器的位于中間的隱藏層的節(jié)點的數(shù)量被期望小于輸入/輸出的維度,或者期望稀疏的約束(諸如,L1范數(shù))。例如,在輸入123個濾波器組(41維靜態(tài)濾波器組+δ+δ-δ(其中,δ是濾波器組的導(dǎo)數(shù),δ-δ是濾波器組的二階導(dǎo)數(shù)))的情況下,自動編碼器的位于中間的隱藏層的節(jié)點的數(shù)量被設(shè)為40,其比123要小。通過使用自動編碼器進行訓(xùn)練,可獲得與維度縮減相同的效果,并且噪音模型被訓(xùn)練以計算代表輸入的輸入表現(xiàn)。
自動編碼器包括:將輸入轉(zhuǎn)化為表現(xiàn)的編碼器220和將表現(xiàn)轉(zhuǎn)化為輸出的解碼器230。編碼器220和解碼器230均為結(jié)構(gòu)裝置,所述結(jié)構(gòu)裝置包括但不限于:處理器、控制器或電路。通過從訓(xùn)練的自動編碼器移除解碼器230,可生成噪音模型。即,噪音模型可被配置為僅包括編碼器220。
圖3是解釋根據(jù)實施例的生成聲學(xué)模型的示例的示圖。
參照圖3,特征提取器121接收用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)310,并從用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)310提取特征(fbank_noise(濾波器組_噪音))。
噪音建模器123,通過使用預(yù)先生成的噪音模型340,基于提取的特征(fbank_noise),計算與用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)310相應(yīng)的噪音表現(xiàn)350。
組合器131將用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)310與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)320進行組合,以生成用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)330。
特征提取器132接收用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)330,并且從用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)330提取特征(fbank_noisy_speech(濾波器組_帶噪語音))。
聲學(xué)模型訓(xùn)練器133用定義為輸入數(shù)據(jù)的特征(fbank_noisy_speech)、定義為目標(biāo)數(shù)據(jù)的與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和定義為目標(biāo)數(shù)據(jù)的用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn)350,訓(xùn)練聲學(xué)模型370。換句話說,聲學(xué)模型訓(xùn)練器133訓(xùn)練聲學(xué)模型370以便聲學(xué)模型370可同時執(zhí)行音素分類360和噪音表現(xiàn)350的計算。
圖4是示出根據(jù)實施例的語音識別設(shè)備的框圖。
參照圖4,語音識別設(shè)備400包括:輸入410、聲學(xué)模型存儲部分420和計算器430。
輸入410接收在其中將被識別的語音數(shù)據(jù)和噪音數(shù)據(jù)被組合的帶噪語音數(shù)據(jù)的輸入。
聲學(xué)模型存儲部分420存儲通過預(yù)先訓(xùn)練已被生成的聲學(xué)模型。聲學(xué)模型可以是被在圖1示出的用于生成聲學(xué)模型的設(shè)備100生成的聲學(xué)模型。
例如,聲學(xué)模型是通過使用用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)、用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)、與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn),進行訓(xùn)練而生成的聲學(xué)模型??赏ㄟ^使用噪音模型計算噪音表現(xiàn),并可基于各種類型的用于噪音模型訓(xùn)練的噪音數(shù)據(jù),通過自動編碼器生成噪音模型。
聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的和通過使用多任務(wù)學(xué)習(xí)方法生成的聲學(xué)模型。換句話說,聲學(xué)模型可以是使用用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)(在帶噪語音數(shù)據(jù)中,用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)被組合)的特征(被定義為輸入數(shù)據(jù))、以及定義為目標(biāo)數(shù)據(jù)的與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn),進行訓(xùn)練而生成的聲學(xué)模型??赏ㄟ^使用由等式1至3表示的目標(biāo)函數(shù)來訓(xùn)練聲學(xué)模型。
聲學(xué)模型存儲部分420可包括閃存類型、硬盤類型、微型多媒體卡類型、卡類型存儲器(例如,SD或XD存儲器等)、隨機訪問存儲器(RAM)、靜態(tài)隨機訪問存儲器(SRAM)、只讀存儲器(ROM)、電可擦可編程只讀存儲器(EEPROM)、可編程序只讀存儲器(PROM)、磁存儲器、磁盤、光盤和其他相似存儲結(jié)構(gòu)設(shè)備中的至少一個存儲介質(zhì)。
計算器430通過使用存儲的聲學(xué)模型計算輸入的帶噪語音數(shù)據(jù)的音素概率。為此,計算器430包括:特征提取器431和音素概率計算器432。
根據(jù)一個實施例,特征提取器431通過使用算法來提取輸入的帶噪語音數(shù)據(jù)的特征。如上面描述的,該算法可以是任何類型或功能的算法,只要該算法可用于提取將帶噪語音數(shù)據(jù)與其他噪音數(shù)據(jù)區(qū)別開來的特征。
音素概率計算器432通過使用存儲的聲學(xué)模型,計算與特征提取器431提取的帶噪語音數(shù)據(jù)的特征相應(yīng)的音素概率。
盡管在圖4中語音識別設(shè)備400包括:輸入410和聲學(xué)模型存儲部分420,但是輸入410和聲學(xué)模型存儲部分420是取決于系統(tǒng)的性能和使用而可被省略的結(jié)構(gòu)元件。
圖5是示出根據(jù)另一實施例的生成聲學(xué)模型的方法的流程圖。
參照圖1和圖5,在操作510中,用于生成聲學(xué)模型的設(shè)備100使用噪音表現(xiàn)計算器120,通過使用預(yù)先生成的噪音模型計算代表用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn)。
通過自動編碼器使用用于噪音模型訓(xùn)練的各種噪音數(shù)據(jù)進行預(yù)先訓(xùn)練,生成噪音模型。用于噪音模型訓(xùn)練的噪音數(shù)據(jù)包括所有類型的具有用于生成聲學(xué)模型的用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音數(shù)據(jù)。
參照圖2描述了噪音模型的生成,從而將省略其具體描述。
在操作520中,用于生成聲學(xué)模型的設(shè)備100使用聲學(xué)模型生成器130,基于用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)、用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)、與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn),生成聲學(xué)模型。
圖6是示出在圖5中示出的噪音表現(xiàn)的中計算510的流程圖。
參照圖1和圖6,在操作610中,用于生成聲學(xué)模型的設(shè)備100使用特征提取器121,通過使用算法提取用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的特征。所述算法可以是任何類型或功能的算法,只要該算法可用于提取將用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)與其他噪音數(shù)據(jù)區(qū)別開來的特征。
在操作620中,用于生成聲學(xué)模型的設(shè)備100使用噪音建模器123,基于提取的用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的特征,計算代表用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn)。
圖7是示出在圖5中示出的聲學(xué)模型的中的生成過程520的流程圖。
參照圖1和圖7,用于生成聲學(xué)模型的設(shè)備100使用組合器131,組合用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù),以生成用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)。
在操作720中,用于生成聲學(xué)模型的設(shè)備100使用特征提取器132,通過使用算法來提取用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)的特征。如上面描述的,算法可以是任何類型或功能的算法,只要該算法可用于提取將用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)與其他噪音數(shù)據(jù)區(qū)別開來的特征。
在操作730中,用于生成聲學(xué)模型的設(shè)備100使用聲學(xué)模型訓(xùn)練器133,用定義為輸入數(shù)據(jù)的用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)的特征、以及定義為目標(biāo)數(shù)據(jù)的與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn),訓(xùn)練聲學(xué)模型。換句話說,用于生成聲學(xué)模型的設(shè)備100使用聲學(xué)模型訓(xùn)練器133訓(xùn)練聲學(xué)模型,以便聲學(xué)模型通過使用多任務(wù)學(xué)習(xí)方法同時執(zhí)行音素分類和噪音表現(xiàn)。
聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,但不限于此。
基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型可包括多個隱藏層,并可通過典型的誤差反向傳播方法訓(xùn)練。
在一個實施例中,用于生成聲學(xué)模型的設(shè)備100可通過使用由等式1至3表示的目標(biāo)函數(shù)訓(xùn)練聲學(xué)模型。
圖8是示出根據(jù)實施例的語音識別方法的流程圖。
參照圖4和圖8,在操作810中,語音識別設(shè)備400使用特征提取器431,通過使用算法來從帶噪語音數(shù)據(jù)提取特征。如上面描述的,所述算法可以是任何類型或功能的算法,只要該算法可用于提取將用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)與其他帶噪語音數(shù)據(jù)區(qū)別開來的特征。
在操作820中,語音識別設(shè)備400使用音素概率計算器432,通過使用聲學(xué)模型來計算與提取的帶噪語音數(shù)據(jù)相應(yīng)的音素概率。
聲學(xué)模型可以是通過基于用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)、用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)、與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪聲表現(xiàn)進行訓(xùn)練而生成的聲學(xué)模型??赏ㄟ^使用噪音模型計算噪音表現(xiàn),且可基于各種類型的用于噪音模型訓(xùn)練的噪音數(shù)據(jù)通過自動編碼器生成噪音模型。
聲學(xué)模型可以是基于神經(jīng)網(wǎng)絡(luò)的并通過使用多任務(wù)學(xué)習(xí)方法而生成的聲學(xué)模型。換句話說,聲學(xué)模型可以是使用用于聲學(xué)模型訓(xùn)練的帶噪語音數(shù)據(jù)(在帶噪語音數(shù)據(jù)中,用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)被組合)的特征(被定義為輸入數(shù)據(jù))、以及定義為目標(biāo)數(shù)據(jù)的與用于聲學(xué)模型訓(xùn)練的語音數(shù)據(jù)相應(yīng)的音素串和用于聲學(xué)模型訓(xùn)練的噪音數(shù)據(jù)的噪音表現(xiàn),進行訓(xùn)練而生成的聲學(xué)模型。可通過使用由等式1至3表示的目標(biāo)函數(shù)來訓(xùn)練聲學(xué)模型。圖9是示出根據(jù)實施例的生成噪音模型的設(shè)備的框圖。
參照圖9,用于生成噪音模型的設(shè)備900包括:訓(xùn)練器910和生成器920。
訓(xùn)練器910是被配置為通過使用各種訓(xùn)練噪音數(shù)據(jù)訓(xùn)練自動編碼器的處理器、電路或控制器。自動編碼器包括:將輸入轉(zhuǎn)化為表現(xiàn)的編碼器和將表現(xiàn)轉(zhuǎn)化為輸出的解碼器。
在一個實施例中,訓(xùn)練器910通過使用等式4的目標(biāo)函數(shù)訓(xùn)練自動編碼器。
生成器920是被配置為通過從自動編碼器中移除解碼器生成噪音模型的處理器、電路或控制器。
圖10是示出根據(jù)實施例的生成噪音模型的方法的流程圖。
參照圖9和圖10,在操作1010,用于生成噪音模型的設(shè)備900使用訓(xùn)練器910,通過使用各種訓(xùn)練噪音數(shù)據(jù)來訓(xùn)練編碼器。自動編碼器包括:將輸入轉(zhuǎn)化為表現(xiàn)的編碼器和將表現(xiàn)轉(zhuǎn)化為輸出的解碼器。
在一個實施例中,用于生成噪音模型的設(shè)備900通過使用等式4的目標(biāo)函數(shù)來訓(xùn)練自動編碼器。
在操作1020,用于生成噪音模型的設(shè)備900使用生成器920,通過從自動編碼器中移除解碼器生成噪音模型。
通過被配置為執(zhí)行由硬件組件所執(zhí)行的在本申請中描述的操作的硬件組件,實施執(zhí)行在本申請中描述的操作的在圖1、圖4和圖9中的輸入110、噪音表現(xiàn)120、特征提取器121、噪音建模器123、噪音模型存儲部分122、聲學(xué)模型生成器130、組合器131、特征提取器132、聲學(xué)模型訓(xùn)練器133、輸入410、特征提取器431、聲學(xué)模型存儲部分420、音素概率計算器432、訓(xùn)練器910、生成器920??捎糜趫?zhí)行在本申請中的適當(dāng)位置描述的操作的硬件組件的示例包括:控制器、傳感器、生成器、驅(qū)動器、存儲器、比較器、算術(shù)邏輯單元、加法器、減法器、乘法器、除法器、積分器和任何其他被配置為執(zhí)行在本申請中描述的操作的電子組件。在其他示例中,一個或多個執(zhí)行在本申請中描述的操作的硬件組件通過計算機硬件(例如,通過一個或多個處理器或計算機)實施。處理器或計算機可通過一個或多個處理元件(諸如,邏輯門陣列、控制器和算術(shù)邏輯單元)、數(shù)字信號處理器、微型計算機、可編程邏輯控制器、現(xiàn)場可編輯門陣列、可編程邏輯陣列、微處理器或任何其他被配置為以定義的方式響應(yīng)并執(zhí)行指令去實現(xiàn)期望的結(jié)果的裝置或裝置的組合被實施。在一個示例中,處理器或計算機包括或被連接到,一個或多個存儲有被處理器或計算機執(zhí)行的指令或軟件的存儲器。被處理器和計算器實施的硬件組件可執(zhí)行指令或軟件(諸如操作系統(tǒng)(OS)和運行在OS中的一個或多個軟件應(yīng)用)來執(zhí)行在本申請中描述的操作。響應(yīng)于指令或軟件的執(zhí)行,硬件組件還可訪問、操縱、處理、生成和存儲數(shù)據(jù)。為了簡明,單數(shù)術(shù)語“處理器”或“計算機”可用于在本申請中描述的示例的描述中,但在其他示例中,多處理器或多計算機可被使用,或者一個處理器或計算機可包括多處理器元件或多種類型的處理器元件或者兩者均有。例如,單個硬件組件或兩個或更多個硬件組件可通過單個處理器或者兩個或更多個處理器或者一個處理器和控制器實施。一個或多個硬件組件可通過一個或多個處理器,或者一個處理器和一個控制器實施,并且一個或多個其他硬件組件可通過一個或多個其他處理器,或者另一處理器和另一控制器實施。一個或多個處理器,或者一個處理器和一個控制器可實施單個硬件組件,或者兩個或更多個硬件組件。硬件組件可具有任何一個或多個不同的處理配置,其示例包括:單處理器、獨立的處理器、并行處理器、單指令單數(shù)據(jù)(SISD)多重處理、多指令單數(shù)據(jù)(MISD)多重處理、單指令多數(shù)據(jù)(SIMD)多重處理以及多指令多數(shù)據(jù)(MIMD)多重處理。
圖5至圖8和圖10中示出的執(zhí)行在本申請中描述的操作的方法由如上描述的那樣被實施為執(zhí)行指令或軟件以執(zhí)行所述方法所執(zhí)行的在本申請中描述的操作的計算機硬件(例如,一個或多個處理器或計算機)執(zhí)行。例如,單個操作或者兩個或更多個操作可通過單處理器或者兩個或更多個處理器,或者處理器和控制器來執(zhí)行。一個或多個操作可通過一個或多個處理器,或者處理器和控制器來執(zhí)行,且一個或多個其他操作可通過一個或多個其他處理器,或者另一處理器和另一控制器來執(zhí)行。一個或多個處理器,或者處理器和控制器,可執(zhí)行單個操作,或者兩個或更多個操作。
為了單獨地或共同地指示或配置一個或多個處理器或計算機來作為機器或?qū)S糜嬎銠C執(zhí)行被如上面所描述的硬件組件和方法所執(zhí)行的操作,用于控制計算機硬件(例如,一個或多個處理器或計算機)以實施硬件組件并執(zhí)行如上面所描述的方法的指令或軟件可被寫為計算機程序、代碼段、指令或它們的任意組合。在一個示例中,指令或軟件包括直接被一個或多個處理器或計算機執(zhí)行的機器代碼(諸如,被編譯器產(chǎn)生的機器代碼)。在另一示例中,指令或軟件包括被一個或多個處理器或計算機使用解釋器執(zhí)行的高級代碼。指令或軟件可基于公開了用于執(zhí)行被如上所述的硬件組件和方法執(zhí)行的操作的算法的在附圖中示出的框圖和流程圖和說明書的相應(yīng)描述使用任意編程語言被編寫。
用于控制計算機硬件(例如,一個或多個處理器或計算機)以實施硬件組件并執(zhí)行如上所述的方法的指令或軟件、以及任何相關(guān)的數(shù)據(jù)、數(shù)據(jù)文件以及數(shù)據(jù)結(jié)構(gòu)可被記錄、存儲或安裝在一個或多個非暫時計算機可讀存儲介質(zhì)中或上。非暫時性計算機可讀存儲介質(zhì)的示例包括:只讀存儲器(ROM)、隨機存取存儲器(RAM)、閃存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-Re、磁帶、軟盤、磁光數(shù)據(jù)存儲裝置、光學(xué)數(shù)據(jù)存儲裝置、硬盤、固態(tài)盤、和被配置為以非暫時方式存儲指令或軟件、以及任何相關(guān)的數(shù)據(jù)、數(shù)據(jù)文件以及數(shù)據(jù)結(jié)構(gòu),并向一個或多個處理器或計算機提供指令或軟件、以及任何相關(guān)的數(shù)據(jù)、數(shù)據(jù)文件以及數(shù)據(jù)結(jié)構(gòu)以便所述一個或多個處理器和計算機能夠執(zhí)行指令的任何其他設(shè)備。在一個示例中,指令或軟件、以及任何相關(guān)數(shù)據(jù)、數(shù)據(jù)文件以及數(shù)據(jù)結(jié)構(gòu)分布在聯(lián)網(wǎng)的計算機系統(tǒng)上,以便指令和軟件、以及任何相關(guān)的數(shù)據(jù)、數(shù)據(jù)文件以及數(shù)據(jù)結(jié)構(gòu)被一個或多個處理器或計算機以分布式方式存儲、訪問和執(zhí)行。
盡管本公開包括特定的示例,但是在不脫離權(quán)利要求和它們的等同物的精神和范圍的情況下可在這些示例中做出形式和細(xì)節(jié)上各種改變,在對本申請的公開的理解后將是清楚的。在此描述的示例被認(rèn)為僅是描述性的,而非為了限制的目的。在每一示例中的特征和方面的描述將被認(rèn)為適用于其他示例中的相似特征和方面。如果描述的技術(shù)以不同的順序被執(zhí)行,和/或如果在描述的系統(tǒng)、架構(gòu)、裝置、或電路中的組件以不同的方式組合,和/或被其他組件或者它們的等同物代替或增補,可實現(xiàn)合適的結(jié)果。因此,公開的范圍不是通過具體實施方式所限定,而是由權(quán)利要求和它們的等同物限定,并且在權(quán)利要求和它們的等同物的范圍內(nèi)的所有變化將被解釋為被包括在該公開之內(nèi)。