1.一種聯(lián)合分段與自動(dòng)語音識(shí)別(asr)模型(200),其特征在于,包括:
2.如權(quán)利要求1所述的聯(lián)合分段與asr模型(200),其中所述解碼器(260)包括:
3.如權(quán)利要求2所述的聯(lián)合分段與asr模型(200),其中,在所述多個(gè)輸出步驟中的每一個(gè)中:
4.如權(quán)利要求2所述的聯(lián)合分段與asr模型(200),其中所述預(yù)測網(wǎng)絡(luò)(300)包括v2嵌入查找表。
5.如權(quán)利要求1至4中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中訓(xùn)練過程(130)通過以下操作用所述一組訓(xùn)練樣本來訓(xùn)練所述聯(lián)合分段與asr模型(200):
6.如權(quán)利要求1至5中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中所述編碼器(220)包括因果編碼器(220),所述因果編碼器包括conformer層或transformer層的堆疊。
7.如權(quán)利要求1至6中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中所述語音段結(jié)束真實(shí)值詞元是在沒有任何人工標(biāo)注的情況下自動(dòng)地插入到所述對(duì)應(yīng)轉(zhuǎn)錄中的。
8.如權(quán)利要求1至7中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中應(yīng)用于所述一組訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本的所述一組基于啟發(fā)式的規(guī)則和例外包括:
9.如權(quán)利要求8所述的聯(lián)合分段與asr模型(200),其中當(dāng)所述口頭話語中的所述詞的音素持續(xù)時(shí)間滿足標(biāo)準(zhǔn)差閾值時(shí),所述口頭話語中的所述詞被標(biāo)識(shí)為所述加長詞。
10.如權(quán)利要求8所述的聯(lián)合分段與asr模型(200),其中,在訓(xùn)練所述聯(lián)合分段與asr模型(200)之后,所述解碼器(260)被配置為早于標(biāo)識(shí)聲學(xué)幀(110)的所述序列中滿足所述閾值持續(xù)時(shí)間的多個(gè)連續(xù)的非語音聲學(xué)幀(110),發(fā)出關(guān)于所述對(duì)應(yīng)輸出步驟對(duì)應(yīng)于所述語音段結(jié)束的所述指示(212)。
11.如權(quán)利要求1至10中任一項(xiàng)所述的聯(lián)合分段與asr模型(200),其中所述聯(lián)合分段與asr模型(200)經(jīng)過訓(xùn)練以最大化發(fā)出語音段結(jié)束真實(shí)值標(biāo)簽的概率。
12.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(400),所述計(jì)算機(jī)實(shí)現(xiàn)的方法在數(shù)據(jù)處理硬件(510)上執(zhí)行,從而導(dǎo)致所述數(shù)據(jù)處理硬件(510)執(zhí)行操作,其特征在于,所述操作包括:
13.如權(quán)利要求12所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中:
14.如權(quán)利要求13所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中:
15.如權(quán)利要求13所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中所述預(yù)測網(wǎng)絡(luò)(300)包括v2嵌入查找表。
16.如權(quán)利要求12至15中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中訓(xùn)練過程(130)通過以下操作用所述一組訓(xùn)練樣本來訓(xùn)練所述聯(lián)合分段與asr模型(200):
17.如權(quán)利要求12至16中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中所述編碼器(220)包括因果編碼器(220),所述因果編碼器包括conformer層或transformer層的堆疊。
18.如權(quán)利要求12至17中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中所述語音段結(jié)束真實(shí)值詞元是在沒有任何人工標(biāo)注的情況下自動(dòng)地插入到所述對(duì)應(yīng)轉(zhuǎn)錄中的。
19.如權(quán)利要求12至18中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中應(yīng)用于所述一組訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本的所述一組基于啟發(fā)式的規(guī)則和例外包括:
20.如權(quán)利要求19所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中當(dāng)所述口頭話語(106)中的所述詞的音素持續(xù)時(shí)間滿足標(biāo)準(zhǔn)差閾值時(shí),所述口頭話語(106)中的所述詞被標(biāo)識(shí)為所述加長詞。
21.如權(quán)利要求19所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中,在訓(xùn)練所述聯(lián)合分段與asr模型(200)之后,所述操作還包括:早于標(biāo)識(shí)聲學(xué)幀(110)的所述序列中滿足所述閾值持續(xù)時(shí)間的多個(gè)連續(xù)的非語音聲學(xué)幀(110),由所述解碼器(260)發(fā)出關(guān)于所述對(duì)應(yīng)輸出步驟對(duì)應(yīng)于所述語音段結(jié)束的所述指示(212)。
22.如權(quán)利要求12至21中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(400),其中所述聯(lián)合分段與asr模型(200)經(jīng)過訓(xùn)練以最大化發(fā)出語音段結(jié)束真實(shí)值標(biāo)簽的概率。