本發(fā)明涉及數(shù)據(jù)處理,具體為一種基于人工智能的音視頻合成處理方法。
背景技術(shù):
1、音視頻,即音頻和視頻的統(tǒng)稱,目前用戶常使用的短視頻和長視頻等均屬于音視頻;音視頻通過視覺數(shù)據(jù)和聽覺數(shù)據(jù),給予用戶多方面的信息感受,通過大量的立體信息以提升用戶的沉浸感。
2、隨著音視頻編輯技術(shù)的進(jìn)步,大量的自媒體行業(yè)通過現(xiàn)有的編輯手段對(duì)原始音視頻進(jìn)行進(jìn)一步地背景音加工,使得編輯后的音視頻無論在娛樂、工作或教育等領(lǐng)域,都呈現(xiàn)出比未編輯前的音視頻有著更加豐富的表現(xiàn)。
3、從技術(shù)層面上,由于音視頻的背景音加工需要很多專業(yè)的編輯軟件,相關(guān)工作者就需要基于大量的技術(shù)經(jīng)驗(yàn)和工作經(jīng)驗(yàn)才能呈現(xiàn)出較好的音視頻加工效果,這也導(dǎo)致了相關(guān)工作者編輯后的音視頻呈現(xiàn)出參差不齊的結(jié)果;為了降低相關(guān)工作者的技術(shù)門檻,cn110958386b提出了一種視頻合成方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),通過識(shí)別選取視頻合成的目標(biāo)對(duì)象特征,自動(dòng)生成對(duì)應(yīng)的音樂信息候選,用戶在選定音樂后可以將音樂與視頻進(jìn)行融合以達(dá)到簡化視頻合成步驟,減少相關(guān)工作者的操作;cn113329258b通過自動(dòng)提取歌曲曲風(fēng)等特征,自動(dòng)選取對(duì)應(yīng)的場景將畫面與歌曲能夠更好的融合,以提升mtv的音視頻效果,減少相關(guān)工作者的編輯工作量,提升效率;cn116320611b提出了一種音視頻的合成方法及系統(tǒng),通過提取視頻中配音的特征獲取該視頻畫面想表達(dá)的情緒特征,對(duì)需要合成的音頻進(jìn)行對(duì)應(yīng)情緒特征的優(yōu)化,以降低目前相關(guān)工作者的創(chuàng)作門檻,提升音視頻效果。
4、然而在實(shí)際工作中,背景音在不同畫面間的效果過渡,對(duì)于音視頻效果也具有一定的影響;而目前的技術(shù)問題在于,僅從背景音素材的添加進(jìn)行優(yōu)化,缺少背景音在音視頻不同畫面間的效果過渡調(diào)整優(yōu)化,對(duì)背景音的優(yōu)化內(nèi)容較為單一。
5、為此,本發(fā)明提出一種基于人工智能的音視頻合成處理方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于人工智能的音視頻合成處理方法,通過分析音視頻的視頻音頻數(shù)據(jù)的音頻變化特征,依據(jù)變化特征獲取音頻情緒特征標(biāo)簽、音頻背景特征標(biāo)簽和音頻內(nèi)容特征標(biāo)簽,依據(jù)相似度計(jì)算結(jié)果獲取音視頻中相同音頻編輯素材的分割序列時(shí)間戳,通過該時(shí)間戳劃分視頻圖像數(shù)據(jù)并分析視頻內(nèi)容標(biāo)簽對(duì)音頻情緒特征標(biāo)簽、音頻背景特征標(biāo)簽和音頻內(nèi)容特征標(biāo)簽進(jìn)行評(píng)估,生成視頻內(nèi)容和音頻內(nèi)容一致的第一主題標(biāo)簽;依據(jù)第一主題標(biāo)簽計(jì)算背景音場景相關(guān)度,若小于背景音場景相關(guān)度閾值;依據(jù)分割間隔時(shí)間時(shí)長和相鄰的音頻變化特征進(jìn)行背景音的過渡調(diào)整;通過該方法能對(duì)已編輯的音視頻的背景音實(shí)現(xiàn)背景音過渡調(diào)整,進(jìn)一步降低相關(guān)工作者的技術(shù)門檻,對(duì)整個(gè)音視頻進(jìn)行更進(jìn)一步地優(yōu)化。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、獲取目標(biāo)音視頻的視頻圖像數(shù)據(jù)和視頻音頻數(shù)據(jù),提取所述視頻音頻數(shù)據(jù)的音頻變化特征;依據(jù)所述音頻變化特征獲取音頻情緒特征標(biāo)簽、音頻背景特征標(biāo)簽和音頻內(nèi)容特征標(biāo)簽;
4、所述視頻圖像數(shù)據(jù)為加入圖像編輯效果的視頻圖像數(shù)據(jù),所述圖像編輯效果包括文字素材、文字效果素材和圖像效果素材;所述視頻音頻數(shù)據(jù)為加入音頻編輯效果的視頻音頻數(shù)據(jù);所述音頻編輯效果包括未調(diào)整背景音樂素材、未調(diào)整背景聲音效果素材和未調(diào)整背景聲音素材;
5、進(jìn)一步地,所述音頻變化特征、所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽通過音視頻特征音頻提取分類模型獲??;
6、所述音視頻特征音頻提取模型包括音視頻音頻特征處理單元、音視頻音頻輸入單元、音視頻音頻特征提取單元、音視頻音頻特征輸出單元和音視頻音頻標(biāo)簽分類輸出單元;
7、所述音視頻音頻特征處理單元將所述視頻音頻數(shù)據(jù)和音頻編輯效果進(jìn)行分離,生成多個(gè)音視頻音頻預(yù)輸入數(shù)據(jù);所述音視頻音頻輸入單元將多個(gè)所述音視頻音頻預(yù)輸入數(shù)據(jù)進(jìn)行等量分割,獲取音視頻音頻輸入數(shù)據(jù)集;
8、所述等量分割為基于多個(gè)所述音視頻音頻預(yù)輸入數(shù)據(jù)各自的振幅的最大值和頻率的均值進(jìn)行分割,具體分割長度為:
9、
10、其中,length為所述分割長度,max()為最大值,為第m條數(shù)據(jù)的振幅,為第m條數(shù)據(jù)的頻率;
11、所述音視頻音頻特征提取單元提取所述音視頻音頻輸入數(shù)據(jù)集的變化特征,生成音視頻音頻變化特征數(shù)據(jù),所述音視頻音頻特征輸出單元對(duì)所述音視頻音頻變化特征數(shù)據(jù)進(jìn)行分類并輸出所述音頻變化特征;
12、進(jìn)一步地,將等量分割后的所述音視頻音頻輸入數(shù)據(jù)集中的每條數(shù)據(jù)進(jìn)行相同時(shí)間步長的劃分,并將劃分后的所述音視頻音頻輸入數(shù)據(jù)集輸入到所述音視頻音頻特征提取單元中;
13、所述音視頻音頻特征提取單元采用卷積神經(jīng)網(wǎng)絡(luò)、transformer編碼器和膨脹卷積獲取;具體表示如下:
14、
15、
16、
17、output=fea(output1,output2);
18、其中,output為輸出,input為輸入,output1為所述卷積神經(jīng)網(wǎng)絡(luò)和所述transformer編碼器的輸出,encodetransform為所述transformer編碼器,liner為融合線性變換,cnn為所述卷積神經(jīng)網(wǎng)絡(luò),input1,input2,inputn-1,inputn為劃分后的輸入數(shù)據(jù),θn為劃分后的數(shù)據(jù)數(shù)量,tcn1和tcn2為所述膨脹卷積,dropout為dropout層,relu為激活層,nor為歸一化層,fea()為特征融合;
19、所述分類為通過softmax分類輸出所述音頻變化特征;
20、所述音視頻音頻標(biāo)簽分類輸出單元對(duì)所述音視頻音頻變化特征數(shù)據(jù)進(jìn)行進(jìn)一步特征分類計(jì)算,輸出所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽;
21、所述音視頻音頻標(biāo)簽分類輸出單元采用特征聚類獲取所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽,特征聚類采用k-means聚類方法;
22、所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽則是依據(jù)所述音視頻音頻變化特征數(shù)據(jù)與標(biāo)準(zhǔn)庫中的音視頻音頻對(duì)照特征數(shù)據(jù)進(jìn)行相似度計(jì)算,獲取相似度最高的作為對(duì)應(yīng)的標(biāo)簽數(shù)據(jù);
23、依據(jù)所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽的音視頻音頻相似度分割所述視頻音頻數(shù)據(jù),生成音頻分割序列和分割序列時(shí)間戳;
24、進(jìn)一步地,將所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽按時(shí)間戳順序進(jìn)行排序,并選取固定數(shù)量為ni個(gè)的所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽計(jì)算所述音視頻音頻相似度:
25、
26、其中,δn為所述音視頻音頻相似度,βdet為所述音頻內(nèi)容特征標(biāo)簽的相同連續(xù)性權(quán)重,βemt為所述音頻情緒特征標(biāo)簽的相同連續(xù)性權(quán)重,βback為所述音頻背景特征標(biāo)簽的相同連續(xù)性權(quán)重,αdet、αemt和αback為音頻相似度權(quán)重,所述音頻相似權(quán)重關(guān)系為αdet+αemt+αback=1;
27、通過所述分割序列時(shí)間戳對(duì)所述視頻圖像數(shù)據(jù)進(jìn)行分割,生成視頻分割序列;
28、提取各個(gè)所述視頻分割序列的視頻內(nèi)容標(biāo)簽;結(jié)合對(duì)應(yīng)各個(gè)所述音頻分割序列的所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽,生成對(duì)應(yīng)的第一主題標(biāo)簽;將所述第一主題標(biāo)簽按所述分割序列時(shí)間戳順序進(jìn)行排序;
29、所述視頻內(nèi)容標(biāo)簽的提取則是同yolov5模型獲取畫面中的類型數(shù)據(jù),并對(duì)所述類型數(shù)據(jù)進(jìn)行統(tǒng)計(jì),依據(jù)統(tǒng)計(jì)結(jié)果的歸類獲取對(duì)應(yīng)的視頻內(nèi)容標(biāo)簽;
30、進(jìn)一步地,依據(jù)所述音視頻音頻相似度對(duì)所述音頻分割序列進(jìn)行分割,生成新的所述音頻情緒特征標(biāo)簽、所述音頻背景特征標(biāo)簽和所述音頻內(nèi)容特征標(biāo)簽;
31、依據(jù)所述音頻分割序列和所述視頻分割序列的時(shí)間順序,選取對(duì)應(yīng)時(shí)間順序的所述視頻內(nèi)容標(biāo)簽tvideo、新的所述音頻情緒特征標(biāo)簽tdet、新的所述音頻背景特征標(biāo)簽temt和新的所述音頻內(nèi)容特征標(biāo)簽tback計(jì)算所述第一主題標(biāo)簽生成:
32、
33、
34、
35、其中,δf為所述第一主題標(biāo)簽;為所述第一主題標(biāo)簽的標(biāo)簽類型;對(duì)應(yīng)標(biāo)簽類型出現(xiàn)的數(shù)量;cl()為音視頻主題標(biāo)簽聚類模型計(jì)算的標(biāo)簽集合,simcount()為統(tǒng)計(jì)所有標(biāo)簽中各個(gè)所述標(biāo)簽的出現(xiàn)次數(shù),nn為所述第一主題標(biāo)簽的總數(shù);
36、所述音視頻主題標(biāo)簽聚類模型的計(jì)算如下:
37、
38、
39、其中,cl為標(biāo)簽集合,clp為第p個(gè)標(biāo)簽,tip()為距離標(biāo)簽計(jì)算,dipp為第p個(gè)聚類距離,為第p個(gè)聚類中心坐標(biāo),為需要計(jì)算距離的聚類坐標(biāo),||?||為距離計(jì)算,dippc為第p個(gè)距離中心的半徑,cn為所有聚類標(biāo)簽總數(shù),為聚類中心的音頻數(shù)據(jù)標(biāo)簽坐標(biāo);為聚類中心的所述視頻內(nèi)容標(biāo)簽;為輸入的音頻數(shù)據(jù)標(biāo)簽坐標(biāo);為輸入的所述視頻內(nèi)容標(biāo)簽;為聚類中心的所述音頻情緒特征標(biāo)簽,為聚類中心的所述音頻背景特征標(biāo)簽,為聚類中心的所述音頻內(nèi)容特征標(biāo)簽;
40、遍歷所述第一主題標(biāo)簽,計(jì)算相鄰音頻分割序列的所述第一主題標(biāo)簽的背景音場景相關(guān)度;若所述背景音場景相關(guān)度大于或等于背景音場景相關(guān)度閾值;則不用進(jìn)行所述視頻音頻數(shù)據(jù)調(diào)整并繼續(xù)遍歷;若所述背景音場景相關(guān)度小于背景音場景相關(guān)度閾值;則獲取相鄰所述音頻分割序列的分割間隔時(shí)間時(shí)長,依據(jù)所述分割間隔時(shí)間時(shí)長和相鄰的所述音頻變化特征進(jìn)行背景音的過渡調(diào)整;
41、進(jìn)一步地,按時(shí)間戳的先后順序?qū)λ兴龅谝恢黝}標(biāo)簽進(jìn)行排序并進(jìn)行遍歷,獲取需要計(jì)算的相鄰音頻分割序列的所述第一主題標(biāo)簽和
42、
43、
44、其中,δrele為所述背景音場景相關(guān)度,為的標(biāo)簽總數(shù),為的標(biāo)簽總數(shù),為第i個(gè)標(biāo)簽的權(quán)重,tsim()為識(shí)別和相同第一主題標(biāo)簽計(jì)算,為第i個(gè)的標(biāo)簽,為第j個(gè)的標(biāo)簽,為第i個(gè)標(biāo)簽類型出現(xiàn)的數(shù)量,為標(biāo)簽類型總數(shù);
45、進(jìn)一步地,所述過渡調(diào)整為判斷第t個(gè)背景音所述分割間隔時(shí)間時(shí)長的大??;若所述分割間隔時(shí)間時(shí)長大于或等于所述背景音調(diào)整時(shí)長閾值,則獲取需要調(diào)整的所述音頻分割序列的振幅數(shù)據(jù),結(jié)合所述分割間隔時(shí)間時(shí)長,生成調(diào)整振幅數(shù)據(jù)均值并按所述分割間隔時(shí)間時(shí)長的時(shí)間戳對(duì)所述振幅數(shù)據(jù)進(jìn)行下調(diào)直至0;
46、若所述分割間隔時(shí)間時(shí)長小于所述背景音調(diào)整時(shí)長閾值,則獲取第t+1個(gè)背景音的所述音頻變化特征的類型;從素材庫調(diào)用相同類型的所述音頻變化特征的背景音素材;所述背景音素材加入所述第t個(gè)背景音和第t+1個(gè)背景音的背景音過渡區(qū)間,當(dāng)?shù)趖個(gè)所述背景音到達(dá)所述背景音過渡區(qū)間時(shí),下調(diào)所述振幅數(shù)據(jù)為0;所述背景音過渡區(qū)間計(jì)算如下:
47、tstart=(1-αt)·tt;
48、tend=αt+1·tt+1;
49、其中,tstart為所述背景音過渡區(qū)間的開始時(shí)間戳,tend為所述背景音過渡區(qū)間的結(jié)束時(shí)間戳,tt為第t個(gè)背景音的時(shí)間戳總數(shù),tt+1為第t+1個(gè)背景音的時(shí)間戳總數(shù);αt為第t個(gè)背景音的計(jì)算權(quán)重,αt+1為第t+1個(gè)背景音的計(jì)算權(quán)重。
50、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
51、1、為了能夠獲取音視頻中各個(gè)背景音間的銜接關(guān)系,因此本發(fā)明通過音視頻特征音頻提取模型,對(duì)初步加工的音視頻數(shù)據(jù)中的原始背景音數(shù)據(jù)和加工背景音數(shù)據(jù)的特征進(jìn)行提??;并對(duì)各個(gè)音頻數(shù)據(jù)的關(guān)系特征生成對(duì)應(yīng)的標(biāo)簽,通過這個(gè)標(biāo)簽?zāi)茏詣?dòng)識(shí)別音視頻數(shù)據(jù)中背景音的關(guān)系特征,以為接下來的背景音數(shù)據(jù)的進(jìn)一步過渡調(diào)節(jié)提供數(shù)據(jù)支撐,提升調(diào)節(jié)的準(zhǔn)確度,以實(shí)現(xiàn)對(duì)初步編輯的音視頻背景音實(shí)現(xiàn)進(jìn)一步的優(yōu)化。
52、2、為了在背景音的調(diào)整過程中,實(shí)現(xiàn)更自然的過渡,為此提取音視頻中視頻數(shù)據(jù)和音頻數(shù)據(jù)的相似度后,對(duì)相似度高的各畫面數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行分割,確定當(dāng)前音視頻片段的主題;由于音頻數(shù)據(jù)標(biāo)簽和視頻數(shù)據(jù)標(biāo)簽具有一定差異,為了對(duì)當(dāng)前片段主題確定主要的幾種內(nèi)容標(biāo)簽便于后續(xù)背景音的過渡,因此結(jié)合聚類算法對(duì)所有標(biāo)簽進(jìn)行評(píng)估,獲得第一主題標(biāo)簽以便于減少對(duì)后續(xù)背景音過渡調(diào)整過程中的干擾,保證調(diào)整過程的準(zhǔn)確度,實(shí)現(xiàn)進(jìn)一步的優(yōu)化過程。
53、3、當(dāng)確定音視頻各個(gè)分割片段的第一主題標(biāo)簽后,為了判斷音視頻的背景音是否進(jìn)行調(diào)整,為此通過遍歷所有第一主題標(biāo)簽,通過與相鄰的片段的第一主題標(biāo)簽計(jì)算兩者的相關(guān)度,通過相關(guān)度計(jì)算結(jié)果對(duì)比背景音相關(guān)度閾值,以達(dá)到獲取與相鄰片段背景音的相關(guān)度,為后續(xù)過渡調(diào)整的實(shí)現(xiàn)提供進(jìn)一步地?cái)?shù)據(jù)支撐,實(shí)現(xiàn)進(jìn)一步的背景音優(yōu)化過程。