聯(lián)合分段與自動(dòng)語音識(shí)別的制作方法

文檔序號(hào)：40442385發(fā)布日期：2024-12-24 15:16閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>聯(lián)合分段與自動(dòng)語音識(shí)別的制作方法

技術(shù)特征：

1.一種聯(lián)合分段與自動(dòng)語音識(shí)別(asr)模型(200)，其特征在于，包括：

2.如權(quán)利要求1所述的聯(lián)合分段與asr模型(200)，其中所述解碼器(260)包括：

3.如權(quán)利要求2所述的聯(lián)合分段與asr模型(200)，其中，在所述多個(gè)輸出步驟中的每一個(gè)中：

4.如權(quán)利要求2所述的聯(lián)合分段與asr模型(200)，其中所述預(yù)測網(wǎng)絡(luò)(300)包括v2嵌入查找表。

5.如權(quán)利要求1至4中任一項(xiàng)所述的聯(lián)合分段與asr模型(200)，其中訓(xùn)練過程(130)通過以下操作用所述一組訓(xùn)練樣本來訓(xùn)練所述聯(lián)合分段與asr模型(200)：

6.如權(quán)利要求1至5中任一項(xiàng)所述的聯(lián)合分段與asr模型(200)，其中所述編碼器(220)包括因果編碼器(220)，所述因果編碼器包括conformer層或transformer層的堆疊。

7.如權(quán)利要求1至6中任一項(xiàng)所述的聯(lián)合分段與asr模型(200)，其中所述語音段結(jié)束真實(shí)值詞元是在沒有任何人工標(biāo)注的情況下自動(dòng)地插入到所述對(duì)應(yīng)轉(zhuǎn)錄中的。

8.如權(quán)利要求1至7中任一項(xiàng)所述的聯(lián)合分段與asr模型(200)，其中應(yīng)用于所述一組訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本的所述一組基于啟發(fā)式的規(guī)則和例外包括：

9.如權(quán)利要求8所述的聯(lián)合分段與asr模型(200)，其中當(dāng)所述口頭話語中的所述詞的音素持續(xù)時(shí)間滿足標(biāo)準(zhǔn)差閾值時(shí)，所述口頭話語中的所述詞被標(biāo)識(shí)為所述加長詞。

10.如權(quán)利要求8所述的聯(lián)合分段與asr模型(200)，其中，在訓(xùn)練所述聯(lián)合分段與asr模型(200)之后，所述解碼器(260)被配置為早于標(biāo)識(shí)聲學(xué)幀(110)的所述序列中滿足所述閾值持續(xù)時(shí)間的多個(gè)連續(xù)的非語音聲學(xué)幀(110)，發(fā)出關(guān)于所述對(duì)應(yīng)輸出步驟對(duì)應(yīng)于所述語音段結(jié)束的所述指示(212)。

11.如權(quán)利要求1至10中任一項(xiàng)所述的聯(lián)合分段與asr模型(200)，其中所述聯(lián)合分段與asr模型(200)經(jīng)過訓(xùn)練以最大化發(fā)出語音段結(jié)束真實(shí)值標(biāo)簽的概率。

12.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，所述計(jì)算機(jī)實(shí)現(xiàn)的方法在數(shù)據(jù)處理硬件(510)上執(zhí)行，從而導(dǎo)致所述數(shù)據(jù)處理硬件(510)執(zhí)行操作，其特征在于，所述操作包括：

13.如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中：

14.如權(quán)利要求13所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中：

15.如權(quán)利要求13所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中所述預(yù)測網(wǎng)絡(luò)(300)包括v2嵌入查找表。

16.如權(quán)利要求12至15中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中訓(xùn)練過程(130)通過以下操作用所述一組訓(xùn)練樣本來訓(xùn)練所述聯(lián)合分段與asr模型(200)：

17.如權(quán)利要求12至16中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中所述編碼器(220)包括因果編碼器(220)，所述因果編碼器包括conformer層或transformer層的堆疊。

18.如權(quán)利要求12至17中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中所述語音段結(jié)束真實(shí)值詞元是在沒有任何人工標(biāo)注的情況下自動(dòng)地插入到所述對(duì)應(yīng)轉(zhuǎn)錄中的。

19.如權(quán)利要求12至18中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中應(yīng)用于所述一組訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本的所述一組基于啟發(fā)式的規(guī)則和例外包括：

20.如權(quán)利要求19所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中當(dāng)所述口頭話語(106)中的所述詞的音素持續(xù)時(shí)間滿足標(biāo)準(zhǔn)差閾值時(shí)，所述口頭話語(106)中的所述詞被標(biāo)識(shí)為所述加長詞。

21.如權(quán)利要求19所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中，在訓(xùn)練所述聯(lián)合分段與asr模型(200)之后，所述操作還包括：早于標(biāo)識(shí)聲學(xué)幀(110)的所述序列中滿足所述閾值持續(xù)時(shí)間的多個(gè)連續(xù)的非語音聲學(xué)幀(110)，由所述解碼器(260)發(fā)出關(guān)于所述對(duì)應(yīng)輸出步驟對(duì)應(yīng)于所述語音段結(jié)束的所述指示(212)。

22.如權(quán)利要求12至21中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400)，其中所述聯(lián)合分段與asr模型(200)經(jīng)過訓(xùn)練以最大化發(fā)出語音段結(jié)束真實(shí)值標(biāo)簽的概率。

技術(shù)總結(jié)
一種聯(lián)合分段與ASR模型(200)包括編碼器(220)和解碼器(260)。該編碼器被配置為：接收表征一個(gè)或多個(gè)話語(106)的聲學(xué)幀(110)；并且在每個(gè)輸出步驟中為對(duì)應(yīng)聲學(xué)幀生成高階特征表示(224)。該解碼器被配置為：接收該高階特征表示(224)；并且在每個(gè)輸出步驟中生成：可能的語音識(shí)別假設(shè)的概率分布(242)；以及關(guān)于對(duì)應(yīng)輸出步驟是否對(duì)應(yīng)于語音段結(jié)束的指示(212)。該聯(lián)合分段與ASR模型是用一組訓(xùn)練樣本進(jìn)行訓(xùn)練，每個(gè)訓(xùn)練樣本包括：表征口頭話語的音頻數(shù)據(jù)；以及口頭話語的對(duì)應(yīng)轉(zhuǎn)錄，該對(duì)應(yīng)轉(zhuǎn)錄具有語音段結(jié)束真實(shí)值詞元，該語音段結(jié)束真實(shí)值詞元是基于應(yīng)用于該訓(xùn)練樣本的一組基于啟發(fā)式的規(guī)則和例外自動(dòng)地插入到該對(duì)應(yīng)轉(zhuǎn)錄中的。

技術(shù)研發(fā)人員：羅尼·黃,張碩英,大衛(wèi)·里巴赫,羅希特·普拉卡什·普拉巴瓦爾卡爾,塔拉·N·薩納特,西里爾·阿洛藏,查爾斯·凱萊布·佩瑟,盧志云
受保護(hù)的技術(shù)使用者：谷歌有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

自動(dòng)語音識(shí)別技術(shù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

聯(lián)合分段與自動(dòng)語音識(shí)別的制作方法