1.一種用于生成聲學(xué)模型的設(shè)備,所述設(shè)備包括:
處理器,被配置為:
通過使用噪音模型計(jì)算代表噪音數(shù)據(jù)的噪音表現(xiàn);
通過使用包括語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和噪音表現(xiàn)進(jìn)行訓(xùn)練,生成聲學(xué)模型。
2.如權(quán)利要求1所述設(shè)備,還包括:存儲(chǔ)器,被配置為存儲(chǔ)指令,
其中,處理器還被配置為執(zhí)行所述指令以配置處理器,來(lái)通過使用噪音模型計(jì)算代表噪音數(shù)據(jù)的噪音表現(xiàn),并通過使用包括語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和噪音表現(xiàn)進(jìn)行訓(xùn)練來(lái)生成聲學(xué)模型。
3.如權(quán)利要求1所述設(shè)備,其中,處理器包括:
噪音表現(xiàn)計(jì)算器,被配置為通過使用噪音模型,計(jì)算代表噪音數(shù)據(jù)的噪音表現(xiàn);
聲學(xué)模型生成器,被配置為通過使用包括語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和噪音表現(xiàn)進(jìn)行訓(xùn)練,生成聲學(xué)模型。
4.如權(quán)利要求3所述設(shè)備,其中,噪音表現(xiàn)計(jì)算器包括:
特征提取器,被配置為提取噪音數(shù)據(jù)的特征;
噪音建模器,被配置為通過使用噪音模型基于提取的特征,計(jì)算代表噪音數(shù)據(jù)的噪音表現(xiàn)。
5.如權(quán)利要求1所述設(shè)備,其中,使用訓(xùn)練噪音數(shù)據(jù)通過自動(dòng)編碼器預(yù)先生成噪音模型。
6.如權(quán)利要求3所述設(shè)備,其中,生成的聲學(xué)模型是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
7.如權(quán)利要求1所述設(shè)備,其中,處理器被配置為:通過使用多任務(wù)學(xué)習(xí)方法生成聲學(xué)模型。
8.如權(quán)利要求1所述設(shè)備,其中,處理器通過使用從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到的第三目標(biāo)函數(shù),生成聲學(xué)模型,其中,第一目標(biāo)函數(shù)用于估計(jì)音素概率,第二目標(biāo)函數(shù)用于估計(jì)噪音表現(xiàn)。
9.如權(quán)利要求3所述設(shè)備,其中,聲學(xué)模型生成器包括:
組合器,被配置為組合語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)以生成訓(xùn)練帶噪語(yǔ)音數(shù)據(jù);
特征提取器,被配置為提取生成的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)的特征;
聲學(xué)模型訓(xùn)練器,被配置為用提取的特征、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串以及噪音表現(xiàn),訓(xùn)練聲學(xué)模型。
10.一種生成聲學(xué)模型的方法,所述方法包括:
通過使用噪音模型計(jì)算噪音數(shù)據(jù)的噪音表現(xiàn);
使用包括語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和噪音表現(xiàn),生成聲學(xué)模型。
11.如權(quán)利要求10所述方法,其中,計(jì)算噪音表現(xiàn)的步驟包括:
提取噪音數(shù)據(jù)的特征;
通過使用噪音模型基于提取的噪音數(shù)據(jù)的特征計(jì)算噪音表現(xiàn)。
12.如權(quán)利要求10所述方法,其中,通過自動(dòng)編碼器使用訓(xùn)練噪音數(shù)據(jù)預(yù)先生成噪音模型。
13.如權(quán)利要求10所述方法,其中,生成的聲學(xué)模型是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
14.如權(quán)利要求10所述方法,其中,生成聲學(xué)模型的步驟包括:通過使用多任務(wù)學(xué)習(xí)方法生成聲學(xué)模型。
15.如權(quán)利要求14所述方法,其中,生成聲學(xué)模型的步驟包括:通過使用從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到的第三目標(biāo)函數(shù),生成聲學(xué)模型,其中,第一目標(biāo)函數(shù)用于估計(jì)音素概率,第二目標(biāo)函數(shù)用于估計(jì)噪音表現(xiàn)。
16.如權(quán)利要求10所述方法,其中,生成聲學(xué)模型的步驟包括:
組合語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)以生成訓(xùn)練帶噪語(yǔ)音數(shù)據(jù);
提取生成的訓(xùn)練帶噪語(yǔ)音模型的特征;
用提取的特征、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串以及噪音表現(xiàn)訓(xùn)練聲學(xué)模型。
17.一種語(yǔ)音識(shí)別設(shè)備,包括:
存儲(chǔ)器,被配置為存儲(chǔ)聲學(xué)模型;
計(jì)算器,被配置為通過使用存儲(chǔ)的聲學(xué)模型計(jì)算輸入的帶噪語(yǔ)音數(shù)據(jù)的音素概率,
其中,通過使用包括語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)的組合的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和代表噪音數(shù)據(jù)的噪音表現(xiàn)進(jìn)行訓(xùn)練,生成聲學(xué)模型。
18.如權(quán)利要求17所述設(shè)備,其中,計(jì)算器包括:
特征提取器,被配置為提取輸入的帶噪語(yǔ)音數(shù)據(jù)的特征;
音素概率計(jì)算器,被配置為使用聲學(xué)模型計(jì)算與提取的特征對(duì)應(yīng)的音素概率。
19.如權(quán)利要求17所述設(shè)備,其中,通過使用噪音模型計(jì)算噪音表現(xiàn)。
20.如權(quán)利要求19所述設(shè)備,其中,通過自動(dòng)編碼器使用訓(xùn)練噪音數(shù)據(jù)預(yù)先生成噪音模型。
21.如權(quán)利要求17所述設(shè)備,其中,聲學(xué)模型是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
22.如權(quán)利要求17所述設(shè)備,其中,通過使用多任務(wù)學(xué)習(xí)方法生成聲學(xué)模型。
23.如權(quán)利要求22所述設(shè)備,其中,通過使用從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到的第三目標(biāo)函數(shù),生成聲學(xué)模型,其中,第一目標(biāo)函數(shù)用于估計(jì)音素概率,第二目標(biāo)函數(shù)用于估計(jì)噪音表現(xiàn)。
24.如權(quán)利要求17所述設(shè)備,其中,用定義為輸入數(shù)據(jù)的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)和定義為目標(biāo)數(shù)據(jù)的與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和噪音表現(xiàn),生成聲學(xué)模型。
25.一種語(yǔ)音識(shí)別方法,包括:
提取輸入的帶噪語(yǔ)音數(shù)據(jù)的特征;
通過使用聲學(xué)模型,計(jì)算與提取的特征相應(yīng)的音素概率,
其中,通過使用包括語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)的組合的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和代表噪音數(shù)據(jù)的噪音表現(xiàn)進(jìn)行訓(xùn)練,生成聲學(xué)模型。
26.如權(quán)利要求25所述方法,其中,通過使用噪音模型計(jì)算噪音表現(xiàn)。
27.如權(quán)利要求26所述方法,其中,通過自動(dòng)編碼器使用訓(xùn)練噪音數(shù)據(jù)預(yù)先生成噪音模型。
28.如權(quán)利要求25所述方法,其中,聲學(xué)模型是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
29.如權(quán)利要求25所述方法,其中,通過使用多任務(wù)學(xué)習(xí)方法生成聲學(xué)模型。
30.如權(quán)利要求29所述方法,其中,通過使用從第一目標(biāo)函數(shù)和第二目標(biāo)函數(shù)的加權(quán)和得到的第三目標(biāo)函數(shù),生成聲學(xué)模型,其中,第一目標(biāo)函數(shù)用于估計(jì)音素概率,第二目標(biāo)函數(shù)用于估計(jì)噪音表現(xiàn)。
31.如權(quán)利要求25所述方法,其中,用定義為輸入數(shù)據(jù)的訓(xùn)練帶噪語(yǔ)音數(shù)據(jù)和定義為目標(biāo)數(shù)據(jù)的與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和噪音表現(xiàn),生成聲學(xué)模型。
32.一種用于生成聲學(xué)模型的設(shè)備,包括:
組合器,被配置為組合語(yǔ)音數(shù)據(jù)和噪音數(shù)據(jù)以生成訓(xùn)練帶噪語(yǔ)音數(shù)據(jù);
特征提取器,被配置為通過將用于聲學(xué)模型訓(xùn)練的帶噪語(yǔ)音數(shù)據(jù)與其他噪音數(shù)據(jù)區(qū)別開來(lái),從帶噪語(yǔ)音數(shù)據(jù)提取特征;
聲學(xué)模型訓(xùn)練器,被配置為用來(lái)自帶噪語(yǔ)音數(shù)據(jù)的特征、與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的音素串和噪音表現(xiàn),訓(xùn)練聲學(xué)模型,其中,同時(shí)執(zhí)行音素的分類和噪音表現(xiàn)的提取。
33.如權(quán)利要求32所述設(shè)備,還包括:
自動(dòng)編碼器,被配置為接收噪音數(shù)據(jù)的特征的輸入以基于接收的輸入計(jì)算輸入表現(xiàn),并基于輸入表現(xiàn)重構(gòu)最相似于所述輸入的輸出。
34.如權(quán)利要求33所述設(shè)備,其中,自動(dòng)編碼器使用訓(xùn)練噪音數(shù)據(jù)預(yù)先生成噪音模型。
35.如權(quán)利要求32所述設(shè)備,其中,生成的聲學(xué)模型是基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。