基于大語言模型的語音識別方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號：40383448發(fā)布日期：2024-12-20 12:06閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識別，尤其涉及一種基于大語言模型的語音識別方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、由于同聲傳譯使用場景中，說話者的說話節(jié)奏不是按照標(biāo)準(zhǔn)的自然語言進行表達(dá)的，會導(dǎo)致獲取的說話者的很多音頻是長時間不停頓的，故需要對其進行中斷以保證后續(xù)的輸出，而目前的直接中斷的方式很容易使得獲取到的音頻不完整，從而無法準(zhǔn)確識別被中斷的音頻位置，影響語音識別效果，并會導(dǎo)致后續(xù)翻譯結(jié)果出現(xiàn)發(fā)聲延遲等問題。

技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供了一種基于大語言模型的語音識別方法、裝置、設(shè)備及介質(zhì)，旨在解決現(xiàn)有技術(shù)方法中語音識別不準(zhǔn)確的問題。

2、第一方面，本發(fā)明實施例提供了一種基于大語言模型的語音識別方法，其中，所述方法應(yīng)用于管理服務(wù)器，所述方法包括：

3、將接收到的實時輸入的音頻流輸入預(yù)設(shè)的流式識別模型，以得到相應(yīng)的一階段語音識別文本，直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件；

4、根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識別文本判斷所接收到的音頻流是否需要斷句，所述斷句條件至少包括強制斷句條件；

5、若是，則確定相應(yīng)的斷句點，并根據(jù)所確定的斷句點將所述音頻流按時間順序依次分割成若干段子音頻流，并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識別模型以得到對應(yīng)的二階段子語音識別文本；其中，與所述強制斷句條件對應(yīng)的斷句點為第一斷句點；

6、將與不同的第一斷句點相關(guān)的二階段子語音識別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個相應(yīng)的修正后二階段子語音識別文本；

7、將所有修正后的二階段子語音識別文本以及剩余未修正的二階段子語音識別文本依時間順序進行組合，以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識別文本。

8、第二方面，本發(fā)明實施例還提供了一種基于大語言模型的語音識別裝置，其中，所述裝置應(yīng)用于管理服務(wù)器，所述裝置包括：

9、流式識別單元，用于將接收到的實時輸入的音頻流輸入預(yù)設(shè)的流式識別模型，以得到相應(yīng)的一階段語音識別文本，直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件；

10、斷句判斷單元，用于根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識別文本判斷所接收到的音頻流是否需要斷句，所述斷句條件至少包括強制斷句條件；

11、語音識別單元，用于若是，則確定相應(yīng)的斷句點，并根據(jù)所確定的斷句點將所述音頻流按時間順序依次分割成若干段子音頻流，并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識別模型以得到對應(yīng)的二階段子語音識別文本；其中，與所述強制斷句條件對應(yīng)的斷句點為第一斷句點；

12、文本修正單元，用于將與不同的第一斷句點相關(guān)的二階段子語音識別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個相應(yīng)的修正后二階段子語音識別文本；

13、目標(biāo)確定單元，用于將所有修正后的二階段子語音識別文本以及剩余未修正的二階段子語音識別文本依時間順序進行組合，以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識別文本。

14、第三方面，本發(fā)明實施例還提供了一種計算機設(shè)備，其中，所述設(shè)備包括處理器、通信接口、存儲器和通信總線，其中，處理器、通信接口、存儲器通過通信總線完成相互間的通信；

15、存儲器，用于存放計算機程序；

16、處理器，用于執(zhí)行存儲器上所存放的程序時，實現(xiàn)上述第一方面所述的基于大語言模型的語音識別方法的步驟。

17、第四方面，本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其中，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的基于大語言模型的語音識別方法的步驟。

18、本發(fā)明實施例提供了一種基于大語言模型的語音識別方法、裝置、設(shè)備及介質(zhì)，方法包括：將接收到的實時輸入的音頻流輸入預(yù)設(shè)的流式識別模型，以得到相應(yīng)的一階段語音識別文本，直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件；根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識別文本判斷所接收到的音頻流是否需要斷句，所述斷句條件至少包括強制斷句條件；若是，則確定相應(yīng)的斷句點，并根據(jù)所確定的斷句點將所述音頻流按時間順序依次分割成若干段子音頻流，并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識別模型以得到對應(yīng)的二階段子語音識別文本；其中，與所述強制斷句條件對應(yīng)的斷句點為第一斷句點；?將與不同的第一斷句點相關(guān)的二階段子語音識別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個相應(yīng)的修正后二階段子語音識別文本；將所有修正后的二階段子語音識別文本以及剩余未修正的二階段子語音識別文本依時間順序進行組合，以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識別文本。上述的基于大語言模型的語音識別方法應(yīng)用于管理服務(wù)器中，該方法能夠提高語音識別的準(zhǔn)確度，即通過大語言模型對斷句位置進行修正和優(yōu)化，提高了語音內(nèi)容的還原度，使得識別出來的語音識別文本中的句子更為通順，以便在同聲傳譯過程中提高翻譯的準(zhǔn)確性和流暢性。

技術(shù)特征：

1.一種基于大語言模型的語音識別方法，其特征在于，所述方法應(yīng)用于管理服務(wù)器，所述方法包括：

2.根據(jù)權(quán)利要求1所述的基于大語言模型的語音識別方法，其特征在于，所述強制斷句條件包括字間停頓時長不超過預(yù)設(shè)時間閾值且當(dāng)前階段累計識別的字符數(shù)達(dá)到預(yù)設(shè)字符數(shù)量，所述根據(jù)預(yù)設(shè)的斷句條件以及一階段語音識別文本判斷所接收到的音頻流中是否需要斷句的步驟，包括：

3.根據(jù)權(quán)利要求2所述的基于大語言模型的語音識別方法，其特征在于，所述斷句條件還包括句末斷句條件，所述句末斷句條件包括字間停頓時長超過預(yù)設(shè)時間閾值，與所述句末斷句條件對應(yīng)的斷句點為第二斷句點，所述判斷所接收到的音頻流的字間停頓時長是否不超過預(yù)設(shè)時間閾值的步驟之后，還包括：

4.根據(jù)權(quán)利要求3所述的基于大語言模型的語音識別方法，其特征在于，所述將與不同的第一斷句點相關(guān)的二階段子語音識別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個相應(yīng)的修正后二階段子語音識別文本的步驟，包括；

5.根據(jù)權(quán)利要求4所述的基于大語言模型的語音識別方法，其特征在于，所述第一中間文本包括第一主體內(nèi)容和末尾內(nèi)容，所述根據(jù)預(yù)處理規(guī)則對每個第一斷句點的前段子音頻流對應(yīng)的二階段子語音識別文本進行預(yù)處理，以得到對應(yīng)的第一中間文本的步驟，包括：

6.根據(jù)權(quán)利要求4所述的基于大語言模型的語音識別方法，其特征在于，所述方法還包括：

7.根據(jù)權(quán)利要求6所述的基于大語言模型的語音識別方法，其特征在于，所述第二中間文本包括第二主體內(nèi)容和首部內(nèi)容，所述根據(jù)預(yù)處理規(guī)則對每個第一斷句點的后段子音頻流對應(yīng)的二階段子語音識別文本進行預(yù)處理，以得到對應(yīng)的第二中間文本的步驟，包括：

8.一種基于大語言模型的語音識別裝置，其特征在于，所述裝置應(yīng)用于管理服務(wù)器，所述裝置包括：

9.一種計算機設(shè)備，其特征在于，所述設(shè)備包括處理器、通信接口、存儲器和通信總線，其中，處理器、通信接口、存儲器通過通信總線完成相互間的通信；

10.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的基于大語言模型的語音識別方法的步驟。

技術(shù)總結(jié)
本發(fā)明公開了基于大語言模型的語音識別方法、裝置、設(shè)備及介質(zhì)，該方法應(yīng)用于管理服務(wù)器，包括將接收到的實時輸入的音頻流輸入預(yù)設(shè)的流式識別模型，以得到相應(yīng)的一階段語音識別文本；根據(jù)所確定的斷句點將音頻流按時間順序依次分割成若干段子音頻流，并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識別模型以得到對應(yīng)的二階段子語音識別文本；將與不同的第一斷句點相關(guān)的二階段子語音識別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個相應(yīng)的修正后二階段子語音識別文本，以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識別文本。本方法可提高語音識別的準(zhǔn)確度，通過大語言模型對斷句位置進行修正和優(yōu)化，提高了語音內(nèi)容的還原度。

技術(shù)研發(fā)人員：李剛,程鵬
受保護的技術(shù)使用者：深圳市易思態(tài)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李剛,程鵬
技術(shù)所有人：深圳市易思態(tài)科技有限公司
我是此專利的發(fā)明人

上一篇：一種電力配網(wǎng)線損檢測裝置的制作方法
上一篇：一種干燥機用雙螺旋加熱送料一體傳輸裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于大語言模型的語音識別方法、裝置、設(shè)備及介質(zhì)與流程

基于大語言模型的語音識別方法、裝置、設(shè)備及介質(zhì)與流程