亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音頻處理方法、視頻處理方法及裝置、介質(zhì)和電子設(shè)備與流程

文檔序號(hào):40393252發(fā)布日期:2024-12-20 12:16閱讀:6來(lái)源:國(guó)知局
音頻處理方法、視頻處理方法及裝置、介質(zhì)和電子設(shè)備與流程

本公開涉及音頻處理,具體而言,涉及一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備。


背景技術(shù):

1、隨著終端技術(shù)的發(fā)展,用戶對(duì)相冊(cè)的需求不再局限于回顧照片和視頻,對(duì)于多模態(tài)智能編創(chuàng)的需求也日益提高。在此背景下,活動(dòng)語(yǔ)音檢測(cè)(voice?activity?detection,vad)技術(shù)扮演著重要的角色,其作為音頻智能處理的預(yù)處理技術(shù),可以自動(dòng)將音頻信號(hào)的幀分為語(yǔ)音和非語(yǔ)音。此外,語(yǔ)音識(shí)別、人聲檢測(cè)、人聲分離等技術(shù)的效果也依賴于活動(dòng)語(yǔ)音檢測(cè)的處理結(jié)果。

2、目前,活動(dòng)語(yǔ)音檢測(cè)可能存在檢測(cè)準(zhǔn)確度低、語(yǔ)音識(shí)別效果差的問題。


技術(shù)實(shí)現(xiàn)思路

1、本公開提供一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備,進(jìn)而至少在一定程度上克服活動(dòng)語(yǔ)音檢測(cè)準(zhǔn)確度低的問題。

2、根據(jù)本公開的第一方面,提供了一種音頻處理方法,包括:對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作,以得到第一音頻特征;對(duì)第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征;基于注意力機(jī)制增強(qiáng)第二音頻特征中語(yǔ)音特征與非語(yǔ)音特征的差異,以得到第三音頻特征;對(duì)第三音頻特征進(jìn)行全連接映射操作,以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。

3、根據(jù)本公開的第二方面,提供了一種視頻處理方法,包括:獲取視頻,提取視頻中的音頻數(shù)據(jù);利用上述音頻處理方法對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音檢測(cè),以確定視頻中的語(yǔ)音片段。

4、根據(jù)本公開的第三方面,提供了一種音頻處理裝置,包括:第一特征確定模塊,用于對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作,以得到第一音頻特征;第二特征確定模塊,用于對(duì)第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征;第三特征確定模塊,用于基于注意力機(jī)制增強(qiáng)第二音頻特征中語(yǔ)音特征與非語(yǔ)音特征的差異,以得到第三音頻特征;語(yǔ)音檢測(cè)模塊,用于對(duì)第三音頻特征進(jìn)行全連接映射操作,以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。

5、根據(jù)本公開的第四方面,提供了一種視頻處理裝置,包括:音頻提取模塊,用于獲取視頻,提取視頻中的音頻數(shù)據(jù);片段確定模塊,用于利用上述音頻處理方法對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音檢測(cè),以確定視頻中的語(yǔ)音片段。

6、根據(jù)本公開的第五方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的音頻處理方法或視頻處理方法。

7、根據(jù)本公開的第六方面,提供了一種電子設(shè)備,包括處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被處理器執(zhí)行時(shí),使得所述處理器實(shí)現(xiàn)上述的音頻處理方法或視頻處理方法。

8、在本公開的一些實(shí)施例所提供的技術(shù)方案中,對(duì)從音頻數(shù)據(jù)中提取的第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征,基于注意力機(jī)制增強(qiáng)語(yǔ)音與非語(yǔ)音的差異,以得到第三音頻特征,并對(duì)第三音頻特征進(jìn)行全連接映射操作,以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。一方面,通過基于時(shí)域上特征差分的處理過程,可以有效確定時(shí)域上多層次的特征,有助于提高語(yǔ)音檢測(cè)的準(zhǔn)確度;另一方面,本公開方案結(jié)合了注意力機(jī)制,可以增強(qiáng)語(yǔ)音特征與非語(yǔ)音特征的差異,為之后的分類操作提供良好的數(shù)據(jù)基礎(chǔ),可以進(jìn)一步提高語(yǔ)音檢測(cè)的準(zhǔn)確度。

9、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。



技術(shù)特征:

1.一種音頻處理方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,所述基于時(shí)域上特征拆分的處理過程包括至少一級(jí)時(shí)域特征拆分子處理過程;其中,對(duì)所述第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征,包括:

3.根據(jù)權(quán)利要求2所述的音頻處理方法,其特征在于,在對(duì)所述第一音頻特征執(zhí)行兩級(jí)以上時(shí)域特征拆分子處理過程的情況下,每一級(jí)時(shí)域特征拆分子處理過程的輸出是下一級(jí)時(shí)域特征拆分子處理過程的輸入;其中,基于所述兩級(jí)以上時(shí)域特征拆分子處理過程的輸出結(jié)果生成所述第二音頻特征包括:

4.根據(jù)權(quán)利要求2所述的音頻處理方法,其特征在于,所述時(shí)域特征拆分子處理過程包括:

5.根據(jù)權(quán)利要求4所述的音頻處理方法,其特征在于,對(duì)輸入所述時(shí)域特征拆分子處理過程的音頻特征進(jìn)行時(shí)域上的特征拆分操作,以得到多個(gè)第一中間特征,包括:

6.根據(jù)權(quán)利要求4所述的音頻處理方法,其特征在于,對(duì)所述多個(gè)第一中間特征進(jìn)行卷積處理,以得到多個(gè)第二中間特征,包括:

7.根據(jù)權(quán)利要求4所述的音頻處理方法,其特征在于,對(duì)所述第三中間特征進(jìn)行特征增強(qiáng),以得到所述時(shí)域特征拆分子處理過程輸出的音頻特征,包括:

8.根據(jù)權(quán)利要求7所述的音頻處理方法,其特征在于,對(duì)所述第三中間特征進(jìn)行特征增強(qiáng),以得到第四中間特征,包括:

9.根據(jù)權(quán)利要求4所述的音頻處理方法,其特征在于,對(duì)所述第三中間特征進(jìn)行特征增強(qiáng)包括:

10.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,對(duì)所述第三音頻特征進(jìn)行全連接映射操作,以得到所述音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果,包括:

11.根據(jù)權(quán)利要求10所述的音頻處理方法,其特征在于,對(duì)所述第三音頻特征進(jìn)行全連接映射操作,以確定所述音頻數(shù)據(jù)中每一音頻幀的語(yǔ)音檢測(cè)結(jié)果,包括:

12.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作,以得到第一音頻特征,包括:

13.根據(jù)權(quán)利要求1至12中任一項(xiàng)所述的音頻處理方法,其特征在于,通過音頻處理模型實(shí)現(xiàn)所述音頻處理方法;

14.根據(jù)權(quán)利要求13所述的音頻處理方法,其特征在于,所述音頻處理方法還包括:

15.根據(jù)權(quán)利要求14所述的音頻處理方法,其特征在于,利用所述第一訓(xùn)練音頻特征對(duì)所述音頻處理模型進(jìn)行訓(xùn)練包括:

16.一種視頻處理方法,其特征在于,包括:

17.根據(jù)權(quán)利要求16所述的視頻處理方法,其特征在于,所述視頻處理方法還包括:

18.一種音頻處理裝置,其特征在于,包括:

19.一種視頻處理裝置,其特征在于,包括:

20.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至15中任一項(xiàng)所述的音頻處理方法或者權(quán)利要求16或17所述的視頻處理方法。

21.一種電子設(shè)備,其特征在于,包括:


技術(shù)總結(jié)
本公開提供了一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備,涉及音頻處理技術(shù)領(lǐng)域。該音頻處理方法包括:對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作,以得到第一音頻特征;對(duì)第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征;基于注意力機(jī)制增強(qiáng)第二音頻特征中語(yǔ)音特征與非語(yǔ)音特征的差異,以得到第三音頻特征;對(duì)第三音頻特征進(jìn)行全連接映射操作,以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。本公開可以提高語(yǔ)音檢測(cè)的準(zhǔn)確度。

技術(shù)研發(fā)人員:張圣,嚴(yán)鋒貴
受保護(hù)的技術(shù)使用者:OPPO廣東移動(dòng)通信有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1