本發(fā)明涉及視頻質(zhì)量評價,具體的是一種視頻質(zhì)量評價方法及系統(tǒng)。
背景技術:
1、隨著互聯(lián)網(wǎng)和多媒體技術的快速發(fā)展,用戶生成內(nèi)容(ugc)視頻在社交媒體平臺上呈爆炸式增長。評估這些視頻的質(zhì)量成為一個至關重要的問題。近年來,深度學習技術在計算機視覺和自然語言處理領域取得了顯著進展,尤其是卷積神經(jīng)網(wǎng)絡(cnn)和transformer架構的發(fā)展,使得特征提取和信息融合的能力大大增強。然而,這些傳統(tǒng)的基于深度學習的方法通常僅依賴于視頻的視覺特征,忽視了視頻內(nèi)容的多模態(tài)信息,導致其在復雜場景中的表現(xiàn)受限。目前現(xiàn)有的視頻質(zhì)量評估方法很少同時利用視覺和文本信息進行綜合評估。然而在實際應用中,視頻的質(zhì)量不僅僅取決于其視覺特征,還與其內(nèi)容的語義信息密切相關,例如用戶對視頻內(nèi)容的描述和評價,這些文本信息提供了關于視頻質(zhì)量的主觀判斷和內(nèi)容背景。此外,視頻內(nèi)容的動態(tài)變化和復雜性也對視頻質(zhì)量評估提出了更高的要求?,F(xiàn)有的深度學習方法雖然能夠捕捉視頻的靜態(tài)特征,但在提取時間特征和運動信息方面仍存在一定的局限性。
技術實現(xiàn)思路
1、為解決上述背景技術中提到的不足,本發(fā)明的目的在于提供一種視頻質(zhì)量評價方法及系統(tǒng),利用深度學習技術融合視覺編碼器和文本編碼器提取和分析視頻及其對應文本信息的特征,從而實現(xiàn)更加準確和全面的視頻質(zhì)量評估。
2、第一方面,本發(fā)明的目的可以通過以下技術方案實現(xiàn):一種視頻質(zhì)量評價方法,方法包括以下步驟:
3、獲取ugc視頻以及ugc視頻對應的文本描述,將ugc視頻分別輸入至預先建立的conv2former模型和slowfast模型內(nèi),輸出得到空間特征和時間特征,將空間特征和時間特征進行融合,得到最終輸出特征;
4、將ugc視頻對應的文本描述輸入至預先建立的transformer模型內(nèi),輸出得到文本特征,其中,所述文本特征包括視頻內(nèi)容的語義信息和視頻質(zhì)量的評價;
5、將最終輸出特征與文本特征相融合,得到融合特征,將融合特征輸入至預先建立的mlp網(wǎng)絡模型內(nèi),輸出得到視頻質(zhì)量分數(shù)。
6、結合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述ugc視頻的采集過程:
7、從youtube-8m數(shù)據(jù)庫中收集若干視頻,然后,對每個視頻應用高斯模糊、高斯噪聲、對比度調(diào)整和hevc壓縮的失真扭曲處理。
8、結合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述將ugc視頻分別輸入至預先建立的conv2former模型和slowfast模型內(nèi),輸出得到空間特征和時間特征的過程:
9、所述conv2former模型作為空間特征提取器,slowfast模型作為時間特征提取器;
10、給定ugc視頻,n代表幀數(shù),conv2former模型作為空間分支,其輸入是視頻的關鍵幀,slowfast模型作為時間分支,其輸入是視頻序列;
11、其中,視頻的關鍵幀的提取通過對視頻幀序列的第一幀進行采樣來獲得:
12、
13、r代表視頻的幀采樣率,代表獲得的視頻序列,它作為時間分支的輸入,中的第一幀會被抽取出來作為關鍵幀,作為空間分支的輸入;
14、其中,將關鍵幀輸入conv2former模型內(nèi)得到空間特征:
15、
16、將獲得的視頻序列輸入slowfast模型內(nèi),計算時間特征:
17、
18、其中表示沒有分類頭的slowfast,代表全局平均池化方法。
19、結合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述將空間特征和時間特征進行融合,得到最終輸出特征的過程:
20、
21、其中,ffusion為最終輸出特征,為特征融合的權重。
22、結合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述預訓練的transformer模型架構作為文本編碼器,然后對文本進行編碼得到文本編碼器的輸出,作為文本特征。
23、結合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述將最終輸出特征與文本特征相融合時,將文本特征進行映射得到映射后的文本特征,融合特征ffinal如下:
24、
25、其中表示特征的拼接操作。
26、結合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述將融合特征輸入至預先建立的mlp網(wǎng)絡模型內(nèi),輸出得到視頻質(zhì)量分數(shù)的計算過程:
27、
28、式中,fc1和fc2是兩個全連接層,gelu為使用的激活函數(shù)。
29、結合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述視頻質(zhì)量分數(shù)評價的過程:
30、通過最小化plcc損失來訓練模型,模型預測出來的質(zhì)量分數(shù)以及真實的質(zhì)量分數(shù)分別表示為和q;
31、plcc損失計算loss如下:
32、
33、其中,為和q之間的協(xié)方差,和分別表示為和q的方差。
34、第二方面,為了達到上述目的,本發(fā)明公開了一種視頻質(zhì)量評價系統(tǒng),包括:
35、視覺編碼模塊,用于獲取ugc視頻以及ugc視頻對應的文本描述,將ugc視頻分別輸入至預先建立的conv2former模型和slowfast模型內(nèi),輸出得到空間特征和時間特征,將空間特征和時間特征進行融合,得到最終輸出特征;
36、文本編碼模塊,用于將ugc視頻對應的文本描述輸入至預先建立的transformer模型內(nèi),輸出得到文本特征,其中,所述文本特征包括視頻內(nèi)容的語義信息和視頻質(zhì)量的評價;
37、特征回歸模塊,用于將最終輸出特征與文本特征相融合,得到融合特征,將融合特征輸入至預先建立的mlp網(wǎng)絡模型內(nèi),輸出得到視頻質(zhì)量分數(shù)。
38、結合第二方面,在第二方面的某些實現(xiàn)方式中,該系統(tǒng)還包括:所述視覺編碼模塊內(nèi)ugc視頻的采集過程:
39、從youtube-8m數(shù)據(jù)庫中收集若干視頻,然后,對每個視頻應用高斯模糊、高斯噪聲、對比度調(diào)整和hevc壓縮的失真扭曲處理;
40、視覺編碼模塊內(nèi)將ugc視頻分別輸入至預先建立的conv2former模型和slowfast模型內(nèi),輸出得到空間特征和時間特征的過程:
41、所述conv2former模型作為空間特征提取器,slowfast模型作為時間特征提取器;
42、給定ugc視頻,n代表幀數(shù),conv2former模型作為空間分支,其輸入是視頻的關鍵幀,slowfast模型作為時間分支,其輸入是視頻序列;
43、其中,視頻的關鍵幀的提取通過對視頻幀序列的第一幀進行采樣來獲得:
44、
45、r代表視頻的幀采樣率,代表獲得的視頻序列,它作為時間分支的輸入,中的第一幀會被抽取出來作為關鍵幀,作為空間分支的輸入;
46、其中,將關鍵幀輸入conv2former模型內(nèi)得到空間特征:
47、
48、將獲得的視頻序列輸入slowfast模型內(nèi),計算時間特征:
49、
50、其中表示沒有分類頭的slowfast,代表全局平均池化方法;
51、視覺編碼模塊內(nèi)將空間特征和時間特征進行融合,得到最終輸出特征的過程:
52、
53、其中,ffusion為最終輸出特征,為特征融合的權重。
54、文本編碼模塊內(nèi),通過預訓練的transformer模型架構,作為文本編碼器,然后對文本進行編碼得到文本編碼器的輸出,作為文本特征;
55、特征回歸模塊內(nèi)將最終輸出特征與文本特征相融合時,將文本特征進行映射得到映射后的文本特征,融合特征ffinal如下:
56、
57、其中表示特征的拼接操作;
58、特征回歸模塊內(nèi)將融合特征輸入至預先建立的mlp網(wǎng)絡模型內(nèi),輸出得到視頻質(zhì)量分數(shù)的計算過程:
59、
60、式中,fc1和fc2是兩個全連接層,gelu為使用的激活函數(shù)。
61、特征回歸模塊內(nèi)視頻質(zhì)量分數(shù)評價的過程:
62、通過最小化plcc損失來訓練模型,模型預測出來的質(zhì)量分數(shù)以及真實的質(zhì)量分數(shù)分別表示為和q;
63、plcc損失計算如下:
64、
65、其中,為和q之間的協(xié)方差,和分別表示為和q的方差。
66、本發(fā)明的有益效果:
67、本發(fā)明通過融合視覺編碼器和文本編碼器提取的特征,綜合利用視頻的視覺信息和文本信息,實現(xiàn)了更全面和準確的評估,在視頻質(zhì)量評估領域具有顯著的優(yōu)勢。本發(fā)明使用文本編碼器提取與視頻相關的文本特征,包括視頻內(nèi)容的語義背景和用戶對視頻質(zhì)量的主觀評價,這些文本信息彌補了傳統(tǒng)方法中僅依賴視覺特征的不足。其次,本發(fā)明結合了conv2former用于空間特征提取和slowfast模型的快速路徑用于時間特征提取,有效解決了現(xiàn)有技術中對視頻動態(tài)變化和復雜性捕捉不足的問題。綜上所述,本發(fā)明通過多模態(tài)特征融合的方法,不僅提升了視頻質(zhì)量評估的準確性和全面性,而且在復雜場景的視頻內(nèi)容中表現(xiàn)出色,具有廣泛的應用前景。