本公開涉及音頻處理,具體而言,涉及一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備。
背景技術(shù):
1、隨著終端技術(shù)的發(fā)展,用戶對(duì)相冊(cè)的需求不再局限于回顧照片和視頻,對(duì)于多模態(tài)智能編創(chuàng)的需求也日益提高。在此背景下,活動(dòng)語(yǔ)音檢測(cè)(voice?activity?detection,vad)技術(shù)扮演著重要的角色,其作為音頻智能處理的預(yù)處理技術(shù),可以自動(dòng)將音頻信號(hào)的幀分為語(yǔ)音和非語(yǔ)音。此外,語(yǔ)音識(shí)別、人聲檢測(cè)、人聲分離等技術(shù)的效果也依賴于活動(dòng)語(yǔ)音檢測(cè)的處理結(jié)果。
2、目前,活動(dòng)語(yǔ)音檢測(cè)可能存在檢測(cè)準(zhǔn)確度低、語(yǔ)音識(shí)別效果差的問題。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備,進(jìn)而至少在一定程度上克服活動(dòng)語(yǔ)音檢測(cè)準(zhǔn)確度低的問題。
2、根據(jù)本公開的第一方面,提供了一種音頻處理方法,包括:對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作,以得到第一音頻特征;對(duì)第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征;基于注意力機(jī)制增強(qiáng)第二音頻特征中語(yǔ)音特征與非語(yǔ)音特征的差異,以得到第三音頻特征;對(duì)第三音頻特征進(jìn)行全連接映射操作,以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。
3、根據(jù)本公開的第二方面,提供了一種視頻處理方法,包括:獲取視頻,提取視頻中的音頻數(shù)據(jù);利用上述音頻處理方法對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音檢測(cè),以確定視頻中的語(yǔ)音片段。
4、根據(jù)本公開的第三方面,提供了一種音頻處理裝置,包括:第一特征確定模塊,用于對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作,以得到第一音頻特征;第二特征確定模塊,用于對(duì)第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征;第三特征確定模塊,用于基于注意力機(jī)制增強(qiáng)第二音頻特征中語(yǔ)音特征與非語(yǔ)音特征的差異,以得到第三音頻特征;語(yǔ)音檢測(cè)模塊,用于對(duì)第三音頻特征進(jìn)行全連接映射操作,以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。
5、根據(jù)本公開的第四方面,提供了一種視頻處理裝置,包括:音頻提取模塊,用于獲取視頻,提取視頻中的音頻數(shù)據(jù);片段確定模塊,用于利用上述音頻處理方法對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音檢測(cè),以確定視頻中的語(yǔ)音片段。
6、根據(jù)本公開的第五方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的音頻處理方法或視頻處理方法。
7、根據(jù)本公開的第六方面,提供了一種電子設(shè)備,包括處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被處理器執(zhí)行時(shí),使得所述處理器實(shí)現(xiàn)上述的音頻處理方法或視頻處理方法。
8、在本公開的一些實(shí)施例所提供的技術(shù)方案中,對(duì)從音頻數(shù)據(jù)中提取的第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征,基于注意力機(jī)制增強(qiáng)語(yǔ)音與非語(yǔ)音的差異,以得到第三音頻特征,并對(duì)第三音頻特征進(jìn)行全連接映射操作,以得到音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果。一方面,通過基于時(shí)域上特征差分的處理過程,可以有效確定時(shí)域上多層次的特征,有助于提高語(yǔ)音檢測(cè)的準(zhǔn)確度;另一方面,本公開方案結(jié)合了注意力機(jī)制,可以增強(qiáng)語(yǔ)音特征與非語(yǔ)音特征的差異,為之后的分類操作提供良好的數(shù)據(jù)基礎(chǔ),可以進(jìn)一步提高語(yǔ)音檢測(cè)的準(zhǔn)確度。
9、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種音頻處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,所述基于時(shí)域上特征拆分的處理過程包括至少一級(jí)時(shí)域特征拆分子處理過程;其中,對(duì)所述第一音頻特征執(zhí)行基于時(shí)域上特征拆分的處理過程,以得到第二音頻特征,包括:
3.根據(jù)權(quán)利要求2所述的音頻處理方法,其特征在于,在對(duì)所述第一音頻特征執(zhí)行兩級(jí)以上時(shí)域特征拆分子處理過程的情況下,每一級(jí)時(shí)域特征拆分子處理過程的輸出是下一級(jí)時(shí)域特征拆分子處理過程的輸入;其中,基于所述兩級(jí)以上時(shí)域特征拆分子處理過程的輸出結(jié)果生成所述第二音頻特征包括:
4.根據(jù)權(quán)利要求2所述的音頻處理方法,其特征在于,所述時(shí)域特征拆分子處理過程包括:
5.根據(jù)權(quán)利要求4所述的音頻處理方法,其特征在于,對(duì)輸入所述時(shí)域特征拆分子處理過程的音頻特征進(jìn)行時(shí)域上的特征拆分操作,以得到多個(gè)第一中間特征,包括:
6.根據(jù)權(quán)利要求4所述的音頻處理方法,其特征在于,對(duì)所述多個(gè)第一中間特征進(jìn)行卷積處理,以得到多個(gè)第二中間特征,包括:
7.根據(jù)權(quán)利要求4所述的音頻處理方法,其特征在于,對(duì)所述第三中間特征進(jìn)行特征增強(qiáng),以得到所述時(shí)域特征拆分子處理過程輸出的音頻特征,包括:
8.根據(jù)權(quán)利要求7所述的音頻處理方法,其特征在于,對(duì)所述第三中間特征進(jìn)行特征增強(qiáng),以得到第四中間特征,包括:
9.根據(jù)權(quán)利要求4所述的音頻處理方法,其特征在于,對(duì)所述第三中間特征進(jìn)行特征增強(qiáng)包括:
10.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,對(duì)所述第三音頻特征進(jìn)行全連接映射操作,以得到所述音頻數(shù)據(jù)的語(yǔ)音檢測(cè)結(jié)果,包括:
11.根據(jù)權(quán)利要求10所述的音頻處理方法,其特征在于,對(duì)所述第三音頻特征進(jìn)行全連接映射操作,以確定所述音頻數(shù)據(jù)中每一音頻幀的語(yǔ)音檢測(cè)結(jié)果,包括:
12.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,對(duì)音頻數(shù)據(jù)進(jìn)行初始特征提取操作,以得到第一音頻特征,包括:
13.根據(jù)權(quán)利要求1至12中任一項(xiàng)所述的音頻處理方法,其特征在于,通過音頻處理模型實(shí)現(xiàn)所述音頻處理方法;
14.根據(jù)權(quán)利要求13所述的音頻處理方法,其特征在于,所述音頻處理方法還包括:
15.根據(jù)權(quán)利要求14所述的音頻處理方法,其特征在于,利用所述第一訓(xùn)練音頻特征對(duì)所述音頻處理模型進(jìn)行訓(xùn)練包括:
16.一種視頻處理方法,其特征在于,包括:
17.根據(jù)權(quán)利要求16所述的視頻處理方法,其特征在于,所述視頻處理方法還包括:
18.一種音頻處理裝置,其特征在于,包括:
19.一種視頻處理裝置,其特征在于,包括:
20.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至15中任一項(xiàng)所述的音頻處理方法或者權(quán)利要求16或17所述的視頻處理方法。
21.一種電子設(shè)備,其特征在于,包括: