本公開涉及語音分段與自動語音識別。
背景技術:
1、現代自動語音識別(asr)系統(tǒng)不僅專注于提供高質量(例如,低詞錯誤率),而且還專注于提供低延遲(例如,用戶說話與轉錄出現之間的短暫延遲)。例如,當現今使用實現asr系統(tǒng)的裝置時,通常會期望asr系統(tǒng)以對應于實時或甚至比實時更快的流式傳輸方式對話語進行解碼。
技術實現思路
1、本公開的一個方面提供一種聯合分段與自動語音識別(asr)模型,該聯合分段與自動語音識別(asr)模型包括編碼器和解碼器。該編碼器被配置為:接收表征一個或多個話語的聲學幀的序列作為輸入;并且在多個輸出步驟中的每一個中,為聲學幀的序列中的對應聲學幀生成高階特征表示。該解碼器被配置為:接收由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入;并且在該多個輸出步驟中的每一個中生成:可能的語音識別假設的概率分布;以及關于對應輸出步驟是否對應于語音段結束的指示。該聯合分段與asr模型是用一組訓練樣本進行訓練,該組訓練樣本中的每個訓練樣本包括:表征口頭話語的音頻數據;以及口頭話語的對應轉錄,該對應轉錄具有語音段結束真實值詞元,該語音段結束真實值詞元是基于應用于訓練樣本的一組基于啟發(fā)式的規(guī)則和例外自動地插入到對應轉錄中的。
2、本公開的實現方式可以包括以下可選特征中的一個或多個。在一些實現方式中,解碼器包括預測網絡、第一聯合網絡和第二聯合網絡。預測網絡被配置為在該多個輸出步驟中的每一個中:接收由最后的softmax層輸出的非空白符號的序列作為輸入;并且生成隱藏表示。第一聯合網絡被配置為:接收由預測網絡在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入;并且在該多個輸出步驟中的每一個中生成關于對應輸出步驟是否對應于語音段結束的指示。第二聯合網絡被配置為:接收由預測網絡在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入;并且在該多個輸出步驟中的每一個中,生成可能的語音識別假設的概率分布。
3、在一些示例中,在該多個輸出步驟中的每一個中,在預測網絡處被作為輸入接收的先前非空白符號的序列包括由最后的softmax層輸出的n個先前非空白符號的序列。此處,預測網絡被配置為通過以下操作生成隱藏表示:對于n個先前非空白符號的序列中的每個非空白符號,生成相應嵌入;并且通過對相應嵌入求平均來生成平均嵌入,該平均嵌入包括隱藏表示。在一些示例中,預測網絡包括v2嵌入查找表。在一些實現方式中,訓練過程通過以下操作用該組訓練樣本來訓練該聯合分段與asr模型:在第一階段期間,訓練第二聯合網絡以學習如何預測由每個訓練樣本的音頻數據表征的口頭話語的對應轉錄;并且在訓練第二聯合網絡之后,在第二階段期間,使用與經訓練的第二聯合網絡相同的參數來初始化第一聯合網絡,并且使用插入到由每個訓練樣本的音頻數據表征的口頭話語的對應轉錄中的語音段結束真實值詞元。
4、在一些實現方式中,編碼器包括因果編碼器,該因果編碼器包括conformer層或transformer層的堆疊。在一些示例中,語音段結束真實值詞元是在沒有任何人工標注的情況下自動地插入到對應轉錄中的。
5、在一些示例中,應用于該組訓練樣本中的每個訓練樣本的該組基于啟發(fā)式的規(guī)則和例外包括:在對應轉錄的末尾處插入真實值語音段結束詞元;以及在與音頻數據的非語音段對齊的位置處將真實值語音段結束詞元插入到對應轉錄中,該非語音段具有滿足閾值持續(xù)時間的持續(xù)時間,除非該音頻數據的非語音段跟在口頭話語中被標識為加長詞的詞后面,或者該音頻數據的非語音段跟在口頭話語中被標識為填充詞的詞后面。在一些實現方式中,當口頭話語中的詞的音素持續(xù)時間滿足標準差閾值時,口頭話語中的詞被標識為加長詞。在一些示例中,在訓練該聯合分段與asr模型之后,解碼器被配置為早于標識聲學幀的序列中滿足閾值持續(xù)時間的多個連續(xù)的非語音聲學幀,發(fā)出關于對應輸出步驟對應于語音段結束的指示。在一些實現方式中,該聯合分段與asr模型經過訓練以最大化發(fā)出語音段結束真實值標簽的概率。
6、本公開的另一個方面提供一種計算機實現的方法,該計算機實現的方法在數據處理硬件上執(zhí)行,從而導致數據處理硬件執(zhí)行操作,這些操作包括:接收表征一個或多個話語的聲學幀的序列;以及在該多個輸出步驟中的每一個中:由聯合分段與自動語音識別(asr)模型的編碼器為聲學幀的序列中的對應聲學幀生成高階特征表示;并且由該聯合分段與asr模型的解碼器生成:可能的語音識別假設的概率分布;以及關于對應輸出步驟是否對應于語音段結束的指示。該聯合分段與asr模型是用一組訓練樣本進行訓練,該組訓練樣本中的每個訓練樣本包括:表征口頭話語的音頻數據;以及口頭話語的對應轉錄,該對應轉錄具有語音段結束真實值詞元,該語音段結束真實值詞元是基于應用于訓練樣本的一組基于啟發(fā)式的規(guī)則和例外自動地插入到對應轉錄中的。
7、本公開的實現方式可以包括以下可選特征中的一個或多個。在一些實現方式中,操作還包括在該多個輸出步驟中的每一個中,使用解碼器的預測網絡基于由最后的softmax層輸出的非空白符號的序列來生成隱藏表示;生成關于對應輸出步驟是否對應于語音段結束的指示包括:使用解碼器的第一聯合網絡,基于由預測網絡在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示來生成關于對應輸出步驟是否對應于語音段結束的指示;并且生成可能的語音識別假設的概率分布包括:使用解碼器的第二聯合網絡,基于由預測網絡在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示來生成可能的語音識別假設的概率分布。
8、在一些示例中,在預測網絡處被作為輸入接收的先前非空白符號的序列包括由最后的softmax層輸出的n個先前非空白符號的序列;并且使用預測網絡生成隱藏表示包括通過以下操作來生成隱藏表示:對于n個先前非空白符號的序列中的每個非空白符號,生成相應嵌入;并且通過對相應嵌入求平均來生成平均嵌入,該平均嵌入包括隱藏表示。在一些實現方式中,預測網絡包括v2嵌入查找表。在一些示例中,訓練過程通過以下操作用該組訓練樣本來訓練該聯合分段與asr模型:在第一階段期間,訓練第二聯合網絡以學習如何預測由每個訓練樣本的音頻數據表征的口頭話語的對應轉錄;并且在訓練第二聯合網絡之后,在第二階段期間:使用與經訓練的第二聯合網絡相同的參數來初始化第一聯合網絡;并且使用插入到由每個訓練樣本的音頻數據表征的口頭話語的對應轉錄中的語音段結束真實值詞元。
9、在一些實現方式中,編碼器包括因果編碼器,該因果編碼器包括conformer層或transformer層的堆疊。在一些示例中,語音段結束真實值詞元是在沒有任何人工標注的情況下自動地插入到對應轉錄中的。在一些實現方式中,應用于該組訓練樣本中的每個訓練樣本的該組基于啟發(fā)式的規(guī)則和例外包括:在對應轉錄的末尾處插入真實值語音段結束詞元;以及在與音頻數據的非語音段對齊的位置處將真實值語音段結束詞元插入到對應轉錄中,該非語音段具有滿足閾值持續(xù)時間的持續(xù)時間,除非該音頻數據的非語音段跟在口頭話語中被標識為加長詞的詞后面,或者該音頻數據的非語音段跟在口頭話語中被標識為填充詞的詞后面。在一些示例中,當口頭話語中的詞的音素持續(xù)時間滿足標準差閾值時,口頭話語中的詞被標識為加長詞。在一些實現方式中,在訓練該聯合分段與asr模型之后,操作還包括:早于標識聲學幀的序列中滿足閾值持續(xù)時間的多個連續(xù)的非語音聲學幀,由解碼器發(fā)出關于對應輸出步驟對應于語音段結束的指示。
10、在一些示例中,該聯合分段與asr模型經過訓練以最大化發(fā)出語音段結束真實值標簽的概率。
11、本公開的一個或多個實現方式的細節(jié)在附圖和以下描述中進行闡述。從說明書和附圖中以及從權利要求書中,其他方面、特征和優(yōu)點將顯而易見。