亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

聯(lián)合分段與自動(dòng)語音識(shí)別的制作方法

文檔序號(hào):40442385發(fā)布日期:2024-12-24 15:16閱讀:來源:國知局

技術(shù)特征:

1.一種聯(lián)合分段與自動(dòng)語音識(shí)別(asr)模型(200),其特征在于,包括:

2.如權(quán)利要求1所述的聯(lián)合分段與asr模型(200),其中所述解碼器(260)包括:

3.如權(quán)利要求2所述的聯(lián)合分段與asr模型(200),其中,在所述多個(gè)輸出步驟中的每一個(gè)中:

4.如權(quán)利要求2所述的聯(lián)合分段與asr模型(200),其中所述預(yù)測網(wǎng)絡(luò)(300)包括v2嵌入查找表。

5.如權(quán)利要求1至4中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中訓(xùn)練過程(130)通過以下操作用所述一組訓(xùn)練樣本來訓(xùn)練所述聯(lián)合分段與asr模型(200):

6.如權(quán)利要求1至5中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中所述編碼器(220)包括因果編碼器(220),所述因果編碼器包括conformer層或transformer層的堆疊。

7.如權(quán)利要求1至6中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中所述語音段結(jié)束真實(shí)值詞元是在沒有任何人工標(biāo)注的情況下自動(dòng)地插入到所述對(duì)應(yīng)轉(zhuǎn)錄中的。

8.如權(quán)利要求1至7中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中應(yīng)用于所述一組訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本的所述一組基于啟發(fā)式的規(guī)則和例外包括:

9.如權(quán)利要求8所述的聯(lián)合分段與asr模型(200),其中當(dāng)所述口頭話語中的所述詞的音素持續(xù)時(shí)間滿足標(biāo)準(zhǔn)差閾值時(shí),所述口頭話語中的所述詞被標(biāo)識(shí)為所述加長詞。

10.如權(quán)利要求8所述的聯(lián)合分段與asr模型(200),其中,在訓(xùn)練所述聯(lián)合分段與asr模型(200)之后,所述解碼器(260)被配置為早于標(biāo)識(shí)聲學(xué)幀(110)的所述序列中滿足所述閾值持續(xù)時(shí)間的多個(gè)連續(xù)的非語音聲學(xué)幀(110),發(fā)出關(guān)于所述對(duì)應(yīng)輸出步驟對(duì)應(yīng)于所述語音段結(jié)束的所述指示(212)。

11.如權(quán)利要求1至10中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中所述聯(lián)合分段與asr模型(200)經(jīng)過訓(xùn)練以最大化發(fā)出語音段結(jié)束真實(shí)值標(biāo)簽的概率。

12.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(400),所述計(jì)算機(jī)實(shí)現(xiàn)的方法在數(shù)據(jù)處理硬件(510)上執(zhí)行,從而導(dǎo)致所述數(shù)據(jù)處理硬件(510)執(zhí)行操作,其特征在于,所述操作包括:

13.如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中:

14.如權(quán)利要求13所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中:

15.如權(quán)利要求13所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中所述預(yù)測網(wǎng)絡(luò)(300)包括v2嵌入查找表。

16.如權(quán)利要求12至15中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中訓(xùn)練過程(130)通過以下操作用所述一組訓(xùn)練樣本來訓(xùn)練所述聯(lián)合分段與asr模型(200):

17.如權(quán)利要求12至16中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中所述編碼器(220)包括因果編碼器(220),所述因果編碼器包括conformer層或transformer層的堆疊。

18.如權(quán)利要求12至17中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中所述語音段結(jié)束真實(shí)值詞元是在沒有任何人工標(biāo)注的情況下自動(dòng)地插入到所述對(duì)應(yīng)轉(zhuǎn)錄中的。

19.如權(quán)利要求12至18中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中應(yīng)用于所述一組訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本的所述一組基于啟發(fā)式的規(guī)則和例外包括:

20.如權(quán)利要求19所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中當(dāng)所述口頭話語(106)中的所述詞的音素持續(xù)時(shí)間滿足標(biāo)準(zhǔn)差閾值時(shí),所述口頭話語(106)中的所述詞被標(biāo)識(shí)為所述加長詞。

21.如權(quán)利要求19所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中,在訓(xùn)練所述聯(lián)合分段與asr模型(200)之后,所述操作還包括:早于標(biāo)識(shí)聲學(xué)幀(110)的所述序列中滿足所述閾值持續(xù)時(shí)間的多個(gè)連續(xù)的非語音聲學(xué)幀(110),由所述解碼器(260)發(fā)出關(guān)于所述對(duì)應(yīng)輸出步驟對(duì)應(yīng)于所述語音段結(jié)束的所述指示(212)。

22.如權(quán)利要求12至21中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中所述聯(lián)合分段與asr模型(200)經(jīng)過訓(xùn)練以最大化發(fā)出語音段結(jié)束真實(shí)值標(biāo)簽的概率。


技術(shù)總結(jié)
一種聯(lián)合分段與ASR模型(200)包括編碼器(220)和解碼器(260)。該編碼器被配置為:接收表征一個(gè)或多個(gè)話語(106)的聲學(xué)幀(110);并且在每個(gè)輸出步驟中為對(duì)應(yīng)聲學(xué)幀生成高階特征表示(224)。該解碼器被配置為:接收該高階特征表示(224);并且在每個(gè)輸出步驟中生成:可能的語音識(shí)別假設(shè)的概率分布(242);以及關(guān)于對(duì)應(yīng)輸出步驟是否對(duì)應(yīng)于語音段結(jié)束的指示(212)。該聯(lián)合分段與ASR模型是用一組訓(xùn)練樣本進(jìn)行訓(xùn)練,每個(gè)訓(xùn)練樣本包括:表征口頭話語的音頻數(shù)據(jù);以及口頭話語的對(duì)應(yīng)轉(zhuǎn)錄,該對(duì)應(yīng)轉(zhuǎn)錄具有語音段結(jié)束真實(shí)值詞元,該語音段結(jié)束真實(shí)值詞元是基于應(yīng)用于該訓(xùn)練樣本的一組基于啟發(fā)式的規(guī)則和例外自動(dòng)地插入到該對(duì)應(yīng)轉(zhuǎn)錄中的。

技術(shù)研發(fā)人員:羅尼·黃,張碩英,大衛(wèi)·里巴赫,羅希特·普拉卡什·普拉巴瓦爾卡爾,塔拉·N·薩納特,西里爾·阿洛藏,查爾斯·凱萊布·佩瑟,盧志云
受保護(hù)的技術(shù)使用者:谷歌有限責(zé)任公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1