音頻處理方法、視頻處理方法及裝置、介質(zhì)和電子設(shè)備與流程

文檔序號(hào)：40393252發(fā)布日期：2024-12-20 12:16閱讀：6來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及音頻處理，具體而言，涉及一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備。

背景技術(shù)：

1、隨著終端技術(shù)的發(fā)展，用戶對(duì)相冊(cè)的需求不再局限于回顧照片和視頻，對(duì)于多模態(tài)智能編創(chuàng)的需求也日益提高。在此背景下，活動(dòng)語(yǔ)音檢測(cè)(voice?activity?detection，vad)技術(shù)扮演著重要的角色，其作為音頻智能處理的預(yù)處理技術(shù)，可以自動(dòng)將音頻信號(hào)的幀分為語(yǔ)音和非語(yǔ)音。此外，語(yǔ)音識(shí)別、人聲檢測(cè)、人聲分離等技術(shù)的效果也依賴于活動(dòng)語(yǔ)音檢測(cè)的處理結(jié)果。

2、目前，活動(dòng)語(yǔ)音檢測(cè)可能存在檢測(cè)準(zhǔn)確度低、語(yǔ)音識(shí)別效果差的問題。

技術(shù)實(shí)現(xiàn)思路

1、本公開提供一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備，進(jìn)而至少在一定程度上克服活動(dòng)語(yǔ)音檢測(cè)準(zhǔn)確度低的問題。

2、根據(jù)本公開的第一方面，提供了一種音頻處理方法，包括：對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作，以得到第一音頻特征；對(duì)第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程，以得到第二音頻特征；基于注意力機(jī)制增強(qiáng)第二音頻特征中語(yǔ)音特征與非語(yǔ)音特征的差異，以得到第三音頻特征；對(duì)第三音頻特征進(jìn)行全連接映射操作，以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。

3、根據(jù)本公開的第二方面，提供了一種視頻處理方法，包括：獲取視頻，提取視頻中的音頻數(shù)據(jù)；利用上述音頻處理方法對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音檢測(cè)，以確定視頻中的語(yǔ)音片段。

4、根據(jù)本公開的第三方面，提供了一種音頻處理裝置，包括：第一特征確定模塊，用于對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作，以得到第一音頻特征；第二特征確定模塊，用于對(duì)第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程，以得到第二音頻特征；第三特征確定模塊，用于基于注意力機(jī)制增強(qiáng)第二音頻特征中語(yǔ)音特征與非語(yǔ)音特征的差異，以得到第三音頻特征；語(yǔ)音檢測(cè)模塊，用于對(duì)第三音頻特征進(jìn)行全連接映射操作，以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。

5、根據(jù)本公開的第四方面，提供了一種視頻處理裝置，包括：音頻提取模塊，用于獲取視頻，提取視頻中的音頻數(shù)據(jù)；片段確定模塊，用于利用上述音頻處理方法對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音檢測(cè)，以確定視頻中的語(yǔ)音片段。

6、根據(jù)本公開的第五方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的音頻處理方法或視頻處理方法。

7、根據(jù)本公開的第六方面，提供了一種電子設(shè)備，包括處理器；存儲(chǔ)器，用于存儲(chǔ)一個(gè)或多個(gè)程序，當(dāng)一個(gè)或多個(gè)程序被處理器執(zhí)行時(shí)，使得所述處理器實(shí)現(xiàn)上述的音頻處理方法或視頻處理方法。

8、在本公開的一些實(shí)施例所提供的技術(shù)方案中，對(duì)從音頻數(shù)據(jù)中提取的第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程，以得到第二音頻特征，基于注意力機(jī)制增強(qiáng)語(yǔ)音與非語(yǔ)音的差異，以得到第三音頻特征，并對(duì)第三音頻特征進(jìn)行全連接映射操作，以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。一方面，通過基于時(shí)域上特征差分的處理過程，可以有效確定時(shí)域上多層次的特征，有助于提高語(yǔ)音檢測(cè)的準(zhǔn)確度；另一方面，本公開方案結(jié)合了注意力機(jī)制，可以增強(qiáng)語(yǔ)音特征與非語(yǔ)音特征的差異，為之后的分類操作提供良好的數(shù)據(jù)基礎(chǔ)，可以進(jìn)一步提高語(yǔ)音檢測(cè)的準(zhǔn)確度。

9、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本公開。

技術(shù)特征：

1.一種音頻處理方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，所述基于時(shí)域上特征拆分的處理過程包括至少一級(jí)時(shí)域特征拆分子處理過程；其中，對(duì)所述第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程，以得到第二音頻特征，包括：

3.根據(jù)權(quán)利要求2所述的音頻處理方法，其特征在于，在對(duì)所述第一音頻特征執(zhí)行兩級(jí)以上時(shí)域特征拆分子處理過程的情況下，每一級(jí)時(shí)域特征拆分子處理過程的輸出是下一級(jí)時(shí)域特征拆分子處理過程的輸入；其中，基于所述兩級(jí)以上時(shí)域特征拆分子處理過程的輸出結(jié)果生成所述第二音頻特征包括：

4.根據(jù)權(quán)利要求2所述的音頻處理方法，其特征在于，所述時(shí)域特征拆分子處理過程包括：

5.根據(jù)權(quán)利要求4所述的音頻處理方法，其特征在于，對(duì)輸入所述時(shí)域特征拆分子處理過程的音頻特征進(jìn)行時(shí)域上的特征拆分操作，以得到多個(gè)第一中間特征，包括：

6.根據(jù)權(quán)利要求4所述的音頻處理方法，其特征在于，對(duì)所述多個(gè)第一中間特征進(jìn)行卷積處理，以得到多個(gè)第二中間特征，包括：

7.根據(jù)權(quán)利要求4所述的音頻處理方法，其特征在于，對(duì)所述第三中間特征進(jìn)行特征增強(qiáng)，以得到所述時(shí)域特征拆分子處理過程輸出的音頻特征，包括：

8.根據(jù)權(quán)利要求7所述的音頻處理方法，其特征在于，對(duì)所述第三中間特征進(jìn)行特征增強(qiáng)，以得到第四中間特征，包括：

9.根據(jù)權(quán)利要求4所述的音頻處理方法，其特征在于，對(duì)所述第三中間特征進(jìn)行特征增強(qiáng)包括：

10.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，對(duì)所述第三音頻特征進(jìn)行全連接映射操作，以得到所述音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果，包括：

11.根據(jù)權(quán)利要求10所述的音頻處理方法，其特征在于，對(duì)所述第三音頻特征進(jìn)行全連接映射操作，以確定所述音頻數(shù)據(jù)中每一音頻幀的語(yǔ)音檢測(cè)結(jié)果，包括：

12.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作，以得到第一音頻特征，包括：

13.根據(jù)權(quán)利要求1至12中任一項(xiàng)所述的音頻處理方法，其特征在于，通過音頻處理模型實(shí)現(xiàn)所述音頻處理方法；

14.根據(jù)權(quán)利要求13所述的音頻處理方法，其特征在于，所述音頻處理方法還包括：

15.根據(jù)權(quán)利要求14所述的音頻處理方法，其特征在于，利用所述第一訓(xùn)練音頻特征對(duì)所述音頻處理模型進(jìn)行訓(xùn)練包括：

16.一種視頻處理方法，其特征在于，包括：

17.根據(jù)權(quán)利要求16所述的視頻處理方法，其特征在于，所述視頻處理方法還包括：

18.一種音頻處理裝置，其特征在于，包括：

19.一種視頻處理裝置，其特征在于，包括：

20.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至15中任一項(xiàng)所述的音頻處理方法或者權(quán)利要求16或17所述的視頻處理方法。

21.一種電子設(shè)備，其特征在于，包括：

技術(shù)總結(jié)
本公開提供了一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備，涉及音頻處理技術(shù)領(lǐng)域。該音頻處理方法包括：對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作，以得到第一音頻特征；對(duì)第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程，以得到第二音頻特征；基于注意力機(jī)制增強(qiáng)第二音頻特征中語(yǔ)音特征與非語(yǔ)音特征的差異，以得到第三音頻特征；對(duì)第三音頻特征進(jìn)行全連接映射操作，以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。本公開可以提高語(yǔ)音檢測(cè)的準(zhǔn)確度。

技術(shù)研發(fā)人員：張圣,嚴(yán)鋒貴
受保護(hù)的技術(shù)使用者：OPPO廣東移動(dòng)通信有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張圣,嚴(yán)鋒貴
技術(shù)所有人：OPPO廣東移動(dòng)通信有限公司
我是此專利的發(fā)明人

上一篇：一種番茄醬加工用原料批量清洗裝置的制作方法
上一篇：一種用于醫(yī)用耗材的安全監(jiān)控裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音頻處理方法、視頻處理方法及裝置、介質(zhì)和電子設(shè)備與流程

音頻處理方法、視頻處理方法及裝置、介質(zhì)和電子設(shè)備與流程