1.一種基于人工智能的音頻處理方法,其特征在于,所述方法包括:
轉(zhuǎn)換待處理音頻為待處理圖片;
提取所述待處理圖片的內(nèi)容特征;
根據(jù)風(fēng)格特征和所述待處理圖片的內(nèi)容特征確定目標(biāo)圖片,所述風(fēng)格特征從模板音頻轉(zhuǎn)換成的模板圖片中得到;
將所述目標(biāo)圖片轉(zhuǎn)換為處理后的音頻。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述轉(zhuǎn)換待處理音頻為待處理圖片,包括:
按照預(yù)設(shè)時間間隔將所述待處理音頻切分為音頻片段;
將所述音頻片段的聲波圖、頻譜圖或語譜圖確定為待處理圖片。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取所述待處理圖片的內(nèi)容特征,包括:
將所述待處理圖片輸入預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),所述卷積神經(jīng)網(wǎng)絡(luò)用于提取圖像特征;
將所述卷積神經(jīng)網(wǎng)絡(luò)中至少一個卷積層輸出的矩陣,作為所述待處理圖片的內(nèi)容特征。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述風(fēng)格特征是經(jīng)由以下步驟確定的:
將所述模板圖片輸入預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),所述卷積神經(jīng)網(wǎng)絡(luò)用于提取圖像特征;
將所述卷積神經(jīng)網(wǎng)絡(luò)中至少一個卷積層輸出的矩陣作為所述模板圖片的風(fēng)格特征。
5.根據(jù)權(quán)利要求1-4中任一項所述的方法,其特征在于,所述根據(jù)風(fēng)格特征和所述待處理圖片的內(nèi)容特征確定目標(biāo)圖片,包括:
將所述待處理圖片的內(nèi)容特征導(dǎo)入預(yù)設(shè)的風(fēng)格遷移模型,獲取所述風(fēng)格遷移模型的輸出作為目標(biāo)圖片。
6.根據(jù)權(quán)利要求1-4中任一項所述的方法,其特征在于,所述根據(jù)風(fēng)格特征和所述待處理圖片的內(nèi)容特征確定目標(biāo)圖片,包括:
提取初始目標(biāo)圖片的內(nèi)容特征和風(fēng)格特征;
根據(jù)所述待處理圖片的內(nèi)容特征,和所述初始目標(biāo)圖片的內(nèi)容特征確定內(nèi)容損失函數(shù);
根據(jù)所述模板圖片的風(fēng)格特征,和所述初始目標(biāo)圖片的風(fēng)格特征確定風(fēng)格損失函數(shù);
根據(jù)所述內(nèi)容損失函數(shù)和所述風(fēng)格損失函數(shù)確定總損失函數(shù);
根據(jù)所述總損失函數(shù)調(diào)整所述初始目標(biāo)圖片,得到目標(biāo)圖片。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述內(nèi)容損失函數(shù)根據(jù)所述待處理圖片的內(nèi)容特征和所述初始目標(biāo)圖片的內(nèi)容特征的均方差得到。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述風(fēng)格損失函數(shù)根據(jù)以下步驟確定:
根據(jù)所述模板圖片的風(fēng)格特征和所述初始目標(biāo)圖片的風(fēng)格特征,分別確定所述模板圖片的格拉姆矩陣和所述初始目標(biāo)圖片的格拉姆矩陣;
根據(jù)所述模板圖片的格拉姆矩陣和所述初始目標(biāo)圖片的格拉姆矩陣的均方差,確定所述風(fēng)格損失函數(shù)。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述總損失函數(shù)根據(jù)加權(quán)后的所述內(nèi)容損失函數(shù)和加權(quán)后的所述風(fēng)格損失函數(shù)之和得到。
10.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述總損失函數(shù)調(diào)整所述初始目標(biāo)圖片,得到目標(biāo)圖片,進一步包括:
基于梯度下降法和所述總損失函數(shù)調(diào)整所述初始目標(biāo)圖片,使得所述總損失函數(shù)取得極小值;
將所述總損失函數(shù)的極小值對應(yīng)的調(diào)整后的圖片作為目標(biāo)圖片。
11.一種基于人工智能的音頻處理裝置,其特征在于,所述裝置包括:
第一轉(zhuǎn)換單元,用于轉(zhuǎn)換待處理音頻為待處理圖片;
提取單元,用于提取所述待處理圖片的內(nèi)容特征;
確定單元,用于根據(jù)風(fēng)格特征和所述待處理圖片的內(nèi)容特征確定目標(biāo)圖片,所述風(fēng)格特征從模板音頻轉(zhuǎn)換成的模板圖片中得到;
第二轉(zhuǎn)換單元,用于將所述目標(biāo)圖片轉(zhuǎn)換為處理后的音頻。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一轉(zhuǎn)換單元包括:
切分子單元,用于按照預(yù)設(shè)時間間隔將所述待處理音頻切分為音頻片段;
待處理圖片確定子單元,用于將所述音頻片段的聲波圖、頻譜圖或語譜圖確定為待處理圖片。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述提取單元包括:
輸入子單元,用于將所述待處理圖片輸入預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),所述卷積神經(jīng)網(wǎng)絡(luò)用于提取圖像特征;
內(nèi)容特征確定子單元,用于將所述卷積神經(jīng)網(wǎng)絡(luò)中至少一個卷積層輸出的矩陣,作為所述待處理圖片的內(nèi)容特征。
14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括:
風(fēng)格特征確定單元,用于將所述模板圖片輸入預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),所述卷積神經(jīng)網(wǎng)絡(luò)用于提取圖像特征;將所述卷積神經(jīng)網(wǎng)絡(luò)中至少一個卷積層輸出的矩陣作為所述模板圖片的風(fēng)格特征。
15.根據(jù)權(quán)利要求11-14中任一項所述的裝置,其特征在于,所述確定單元進一步用于:
將所述待處理圖片的內(nèi)容特征導(dǎo)入預(yù)設(shè)的風(fēng)格遷移模型,獲取所述風(fēng)格遷移模型的輸出作為目標(biāo)圖片。
16.根據(jù)權(quán)利要求11-14中任一項所述的裝置,其特征在于,所述確定單元包括:
提取子單元,用于提取初始目標(biāo)圖片的內(nèi)容特征和風(fēng)格特征;
內(nèi)容損失函數(shù)確定子單元,用于根據(jù)所述待處理圖片的內(nèi)容特征,和所述初始目標(biāo)圖片的內(nèi)容特征確定內(nèi)容損失函數(shù);
風(fēng)格損失函數(shù)確定子單元,用于根據(jù)所述模板圖片的風(fēng)格特征,和所述初始目標(biāo)圖片的風(fēng)格特征確定風(fēng)格損失函數(shù);
總損失函數(shù)確定子單元,用于根據(jù)所述內(nèi)容損失函數(shù)和所述風(fēng)格損失函數(shù)確定總損失函數(shù);
調(diào)整子單元,用于根據(jù)所述總損失函數(shù)調(diào)整所述初始目標(biāo)圖片,得到目標(biāo)圖片。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述內(nèi)容損失函數(shù)確定子單元進一步用于:根據(jù)所述待處理圖片的內(nèi)容特征和所述初始目標(biāo)圖片的內(nèi)容特征的均方差得到所述內(nèi)容損失函數(shù)。
18.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述風(fēng)格損失函數(shù)確定子單元進一步用于:
根據(jù)所述模板圖片的風(fēng)格特征和所述初始目標(biāo)圖片的風(fēng)格特征,分別確定所述模板圖片的格拉姆矩陣和所述初始目標(biāo)圖片的格拉姆矩陣;
根據(jù)所述模板圖片的格拉姆矩陣和所述初始目標(biāo)圖片的格拉姆矩陣的均方差,確定所述風(fēng)格損失函數(shù)。
19.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述總損失函數(shù)確定子單元進一步用于:根據(jù)加權(quán)后的所述內(nèi)容損失函數(shù)和加權(quán)后的所述風(fēng)格損失函數(shù)之和得到所述總損失函數(shù)。
20.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述調(diào)整子單元進一步用于:
基于梯度下降法和所述總損失函數(shù)調(diào)整所述初始目標(biāo)圖片,使得所述總損失函數(shù)取得極小值;
將所述總損失函數(shù)的極小值對應(yīng)的調(diào)整后的圖片作為目標(biāo)圖片。