本發(fā)明實(shí)施例涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種視頻圖像的處理方法、裝置和終端設(shè)備。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,文字、圖片和視頻等皆可以視頻的形式實(shí)現(xiàn)在視頻直播平臺(tái)中直播。視頻直播平臺(tái)中的視頻通常以人物為主角(單一人物或少量人物),在人物的后方是視頻的背景區(qū)域。
然而,現(xiàn)有的視頻直播平臺(tái)中視頻的背景區(qū)域是固定不變的,而且固定不變的背景區(qū)域無法吸引觀眾的注意,甚至?xí)?duì)視頻直播的內(nèi)容產(chǎn)生影響。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了視頻圖像的處理技術(shù)方案。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種視頻圖像的處理方法,包括:檢測(cè)視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對(duì)象;采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對(duì)象,以使所述業(yè)務(wù)對(duì)象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述檢測(cè)視頻圖像中的背景區(qū)域包括:通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)所述視頻圖像的背景區(qū)域。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的預(yù)先訓(xùn)練包括:獲取待訓(xùn)練的樣本圖像的特征向量,其中,所述樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;對(duì)所述特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;對(duì)所述特征向量卷積結(jié)果進(jìn)行放大處理;判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件;若滿足,則完成對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若不滿足,則根據(jù)放大后的所述特征向量卷積結(jié)果調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足所述收斂條件。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述對(duì)所述特征向量卷積結(jié)果進(jìn)行放大處理包括:通過對(duì)所述特征向量卷積結(jié)果進(jìn)行雙線性插值,放大所述特征向量卷積結(jié)果。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述對(duì)所述特征向量卷積結(jié)果進(jìn)行放大處理包括:將所述特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對(duì)應(yīng)的圖像的大小與原始圖像大小一致。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件包括:使用設(shè)定的損失函數(shù)計(jì)算放大后的所述特征向量卷積結(jié)果和設(shè)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)所述損失值判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述方法還包括:獲取測(cè)試樣本圖像,使用訓(xùn)練后的所述卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)所述測(cè)試樣本圖像進(jìn)行前背景區(qū)域的預(yù)測(cè);檢驗(yàn)預(yù)測(cè)的前背景區(qū)域是否正確;若不正確,則使用所述測(cè)試樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述使用所述測(cè)試樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練包括:從所述測(cè)試樣本圖像中獲取前背景區(qū)域預(yù)測(cè)不正確的樣本圖像;使用預(yù)測(cè)不正確的樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練,其中,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練的所述預(yù)測(cè)不正確的樣本圖像包含有前景信息和背景信息。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述獲取待訓(xùn)練的樣本圖像的特征向量之前,所述方法還包括:將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型之前,所述方法還包括:確定所述視頻流的多個(gè)關(guān)鍵幀的圖像為樣本圖像,對(duì)所述樣本圖像進(jìn)行前景區(qū)域和背景區(qū)域的標(biāo)注。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述業(yè)務(wù)對(duì)象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述方法還包括:獲取待顯示的所述業(yè)務(wù)對(duì)象。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述獲取待顯示的所述業(yè)務(wù)對(duì)象包括:從預(yù)定存儲(chǔ)位置獲取所述業(yè)務(wù)對(duì)象,或者從視頻源接收所述業(yè)務(wù)對(duì)象。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述視頻圖像為直播類視頻圖像。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理方法,其中,所述直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,提供了一種視頻圖像的處理裝置,包括:檢測(cè)模塊,用于檢測(cè)視頻圖像中的背景區(qū)域;確定模塊,用于確定待顯示的業(yè)務(wù)對(duì)象;繪制模塊,用于采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對(duì)象,以使所述業(yè)務(wù)對(duì)象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述檢測(cè)模塊,用于通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)所述視頻圖像的背景區(qū)域。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述裝置還包括:訓(xùn)練模塊,用于對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)先訓(xùn)練;所述訓(xùn)練模塊包括:向量獲取模塊,用于獲取待訓(xùn)練的樣本圖像的特征向量,其中,所述樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;卷積獲取模塊,用于對(duì)所述特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;放大模塊,用于對(duì)所述特征向量卷積結(jié)果進(jìn)行放大處理;判斷模塊,用于判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件;執(zhí)行模塊,用于若所述判斷模塊的判斷結(jié)果為滿足收斂條件,則完成對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若所述判斷模塊的判斷結(jié)果為不滿足收斂條件,則根據(jù)放大后的所述特征向量卷積結(jié)果調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足所述收斂條件。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述放大模塊,用于通過對(duì)所述特征向量卷積結(jié)果進(jìn)行雙線性插值,放大所述特征向量卷積結(jié)果。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述放大模塊,用于將所述特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對(duì)應(yīng)的圖像的大小與原始圖像大小一致。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述判斷模塊,用于使用設(shè)定的損失函數(shù)計(jì)算放大后的所述特征向量卷積結(jié)果和設(shè)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)所述損失值判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述訓(xùn)練模塊還包括:預(yù)測(cè)模塊,用于獲取測(cè)試樣本圖像,使用訓(xùn)練后的所述卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)所述測(cè)試樣本圖像進(jìn)行前背景區(qū)域的預(yù)測(cè);檢驗(yàn)?zāi)K,用于檢驗(yàn)預(yù)測(cè)的前背景區(qū)域是否正確;再訓(xùn)練模塊,用于若所述檢驗(yàn)?zāi)K的檢驗(yàn)結(jié)果為不正確,則使用所述測(cè)試樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述再訓(xùn)練模塊,用于若所述檢驗(yàn)?zāi)K的檢驗(yàn)結(jié)果為不正確,則從所述測(cè)試樣本圖像中獲取前背景區(qū)域預(yù)測(cè)不正確的樣本圖像;使用預(yù)測(cè)不正確的樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練,其中,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練的所述預(yù)測(cè)不正確的樣本圖像包含有前景信息和背景信息。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述待訓(xùn)練的樣本圖像包括至少一個(gè)視頻序列的樣本圖像,其中,每個(gè)視頻序列的樣本圖像包括時(shí)間上連續(xù)的多張圖像。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述訓(xùn)練模塊還包括:視頻流模塊,用于在所述向量獲取模塊獲取待訓(xùn)練的樣本圖像的特征向量之前,將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述訓(xùn)練模塊還包括:標(biāo)注模塊,用于在所述視頻流模塊將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型之前,確定所述視頻流的多個(gè)關(guān)鍵幀的圖像為樣本圖像,對(duì)所述樣本圖像進(jìn)行前景區(qū)域和背景區(qū)域的標(biāo)注。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述業(yè)務(wù)對(duì)象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述裝置還包括:獲取模塊,用于獲取待顯示的所述業(yè)務(wù)對(duì)象。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述獲取模塊,用于從預(yù)定存儲(chǔ)位置獲取所述業(yè)務(wù)對(duì)象,或者從視頻源接收所述業(yè)務(wù)對(duì)象。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述視頻圖像為直播類視頻圖像。
可選地,結(jié)合本發(fā)明實(shí)施例提供的任一種視頻圖像的處理裝置,其中,所述直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
根據(jù)本發(fā)明實(shí)施例的再一方面,還提供了一種終端設(shè)備,包括:處理器、存儲(chǔ)器、通信接口和通信總線,所述處理器、所述存儲(chǔ)器和所述通信接口通過所述通信總線完成相互間的通信;所述存儲(chǔ)器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行前述任一所述的視頻圖像的處理方法對(duì)應(yīng)的操作。
根據(jù)本發(fā)明實(shí)施例的又一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有:用于檢測(cè)視頻圖像中的背景區(qū)域的可執(zhí)行指令;用于確定待顯示的業(yè)務(wù)對(duì)象的可執(zhí)行指令;用于采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對(duì)象,以使所述業(yè)務(wù)對(duì)象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容的可執(zhí)行指令。
根據(jù)本發(fā)明實(shí)施例提供的技術(shù)方案,檢測(cè)視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對(duì)象;采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實(shí)現(xiàn)預(yù)想的業(yè)務(wù)對(duì)象投放效果。
附圖說明
圖1是根據(jù)本發(fā)明實(shí)施例一的視頻圖像的處理方法的步驟流程圖;
圖2是根據(jù)本發(fā)明實(shí)施例二的視頻圖像的處理方法的步驟流程圖;
圖3是根據(jù)本發(fā)明實(shí)施例三的視頻圖像的處理裝置的結(jié)構(gòu)框圖;
圖4是根據(jù)本發(fā)明實(shí)施例四的視頻圖像的處理裝置的結(jié)構(gòu)框圖;
圖5是根據(jù)本發(fā)明實(shí)施例五的終端設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖(若干附圖中相同的標(biāo)號(hào)表示相同的元素)和實(shí)施例,對(duì)本發(fā)明實(shí)施例的具體實(shí)施方式作進(jìn)一步詳細(xì)說明。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
本領(lǐng)域技術(shù)人員可以理解,本發(fā)明實(shí)施例中的“第一”、“第二”等術(shù)語僅用于區(qū)別不同步驟、設(shè)備或模塊等,既不代表任何特定技術(shù)含義,也不表示它們之間的必然邏輯順序。
實(shí)施例一
參照?qǐng)D1,示出了根據(jù)本發(fā)明實(shí)施例一的視頻圖像的處理方法的步驟流程圖??梢栽诶鐖D3所示的視頻圖像的處理裝置或包括該處理裝置的終端設(shè)備中執(zhí)行實(shí)施例一的視頻圖像的處理方法。
本實(shí)施例的視頻圖像的處理方法包括以下步驟。
步驟s100、檢測(cè)視頻圖像中的背景區(qū)域。
本實(shí)施例中,視頻圖像可以是直播場(chǎng)景中當(dāng)前正在顯示的視頻圖像;視頻圖像還可以視頻錄制場(chǎng)景中當(dāng)前正在錄制的視頻圖像;視頻圖像又可以是錄制完成的視頻中當(dāng)前播放的視頻圖像等。本實(shí)施例對(duì)視頻圖像的具體場(chǎng)景以及具體形式不做限制。
本實(shí)施例中,可以從視頻圖像中檢測(cè)視頻圖像的前景區(qū)域和背景區(qū)域;或者,可以從視頻圖像中直接檢測(cè)視頻圖像的背景區(qū)域;或者可以從視頻圖像中檢測(cè)視頻圖像的前景區(qū)域,然后將視頻圖像的前景區(qū)域以外的區(qū)域確定為視頻圖像的背景區(qū)域。本實(shí)施例對(duì)檢測(cè)視頻圖像的背景區(qū)域的技術(shù)手段不做限制。
步驟s102、確定待顯示的業(yè)務(wù)對(duì)象。
待顯示的業(yè)務(wù)對(duì)象用于在后續(xù)繪制的步驟中繪制在視頻圖像的背景區(qū)域,目的是使業(yè)務(wù)對(duì)象覆蓋視頻圖像的背景區(qū)域中的原始內(nèi)容。因此,待顯示的業(yè)務(wù)對(duì)象可以包括多種形式,本實(shí)施例對(duì)業(yè)務(wù)對(duì)象的具體形式不做限制。例如,待顯示的業(yè)務(wù)對(duì)象為包含沙灘場(chǎng)景的圖片a,視頻圖像的背景區(qū)域中的原始內(nèi)容為包含室內(nèi)場(chǎng)景的圖片b。
步驟s104、采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
在確定了背景區(qū)域以后,采用計(jì)算機(jī)繪圖方式將業(yè)務(wù)對(duì)象繪制在視頻圖像的背景區(qū)域。需要說明的是,采用計(jì)算機(jī)繪圖方式將業(yè)務(wù)對(duì)象繪制在視頻圖像的背景區(qū)域即采用計(jì)算機(jī)繪圖方式將業(yè)務(wù)對(duì)象繪制在視頻圖像的整個(gè)背景區(qū)域。實(shí)現(xiàn)繪制業(yè)務(wù)對(duì)象后的背景區(qū)域替換背景區(qū)域的原始內(nèi)容。例如,視頻圖像的背景區(qū)域?yàn)橐环覂?nèi)場(chǎng)景圖片,業(yè)務(wù)對(duì)象為一幅瀑布圖片,繪制業(yè)務(wù)對(duì)象后的背景區(qū)域中顯示的是一幅瀑布圖片,而不是原始的室內(nèi)場(chǎng)景圖片,同時(shí),視頻圖像的前景區(qū)域可以保持不變。
其中,采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象可以通過適當(dāng)?shù)挠?jì)算機(jī)圖形圖像繪制或渲染等方式實(shí)現(xiàn),包括但不限于:基于opengl圖形繪制引擎進(jìn)行繪制等。opengl定義了一個(gè)跨編程語言、跨平臺(tái)的編程接口規(guī)格的專業(yè)的圖形程序接口,其與硬件無關(guān),可以方便地進(jìn)行2d或3d圖形圖像的繪制。通過opengl,不僅可以實(shí)現(xiàn)2d效果如2d貼紙的繪制,還可以實(shí)現(xiàn)3d特效的繪制及粒子特效的繪制等等。但不限于opengl,其它方式,如unity或opencl等也同樣適用。
需要說明的是,上述步驟s100和步驟s102之間的執(zhí)行順序可以為先執(zhí)行步驟s100,后執(zhí)行步驟s102;還可以為先執(zhí)行步驟s102,后執(zhí)行步驟s100;或者可以為同時(shí)執(zhí)行步驟s100和步驟s102,本實(shí)施例對(duì)步驟s100和步驟s102的執(zhí)行順序不做限制,本實(shí)施例僅以先執(zhí)行步驟s100,后執(zhí)行步驟s102為例進(jìn)行說明。
通過本實(shí)施例提供的視頻圖像的處理方法,檢測(cè)視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對(duì)象;采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實(shí)現(xiàn)預(yù)想的業(yè)務(wù)對(duì)象投放效果。
實(shí)施例二
參照?qǐng)D2,示出了根據(jù)本發(fā)明實(shí)施例二的視頻圖像的處理方法的步驟流程圖。可以在例如圖4所示的視頻圖像的處理裝置或包括該處理裝置的終端設(shè)備中執(zhí)行實(shí)施例二的視頻圖像的處理方法。
本實(shí)施例的視頻圖像處理方法可以由任意具有數(shù)據(jù)采集、處理和傳輸功能的設(shè)備執(zhí)行,包括但不限于移動(dòng)終端和pc等。本實(shí)施例以移動(dòng)終端為例,對(duì)本發(fā)明實(shí)施例提供的視頻圖像的處理方法進(jìn)行說明,其它設(shè)備可參照本實(shí)施例執(zhí)行。
本實(shí)施例重點(diǎn)強(qiáng)調(diào)與上述實(shí)施例的不同之處,相同之處可以參照上述實(shí)施例的介紹和說明,在此不再贅述。
本實(shí)施例的視頻圖像的處理方法包括以下步驟。
步驟s200、獲取待顯示的業(yè)務(wù)對(duì)象。
待顯示的業(yè)務(wù)對(duì)象用于在后續(xù)繪制的步驟中繪制在視頻圖像的背景區(qū)域,目的是使業(yè)務(wù)對(duì)象覆蓋視頻圖像的背景區(qū)域中的原始內(nèi)容。因此,待顯示的業(yè)務(wù)對(duì)象可以包括多種形式,具體地,業(yè)務(wù)對(duì)象可以為目標(biāo)視頻、目標(biāo)圖像或者目標(biāo)特效中的任意一種。例如,目標(biāo)視頻可以為景象視頻,既可以為錄制完畢的景象視頻,又可以為正在直播的景象視頻;目標(biāo)視頻還可以為體育視頻,既可以為錄制完畢的體育視頻,又可以為正在直播的體育視頻。本實(shí)施例對(duì)目標(biāo)視頻的具體形式和內(nèi)容不做限制。目標(biāo)特效可以為包括包含廣告信息的以下至少一種形式的特效:二維貼紙?zhí)匦?、三維特效、粒子特效等等。
本步驟中,獲取待顯示的業(yè)務(wù)對(duì)象包括:從預(yù)定存儲(chǔ)位置獲取業(yè)務(wù)對(duì)象,或者從視頻源接收業(yè)務(wù)對(duì)象。例如,業(yè)務(wù)對(duì)象存儲(chǔ)在移動(dòng)終端本地,可以從移動(dòng)終端本地直接讀取業(yè)務(wù)對(duì)象,本地存儲(chǔ)的業(yè)務(wù)對(duì)象可以為上述介紹的目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效中的任意一種或者幾種;當(dāng)業(yè)務(wù)對(duì)象為目標(biāo)視頻時(shí),可以從視頻源接收目標(biāo)視頻,若目標(biāo)視頻為直播視頻,則可以從直播攝影機(jī)接收直播視頻。
步驟s202、通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)視頻圖像的背景區(qū)域。
本實(shí)施例中,使用已訓(xùn)練好的、用于分割視頻圖像中的前景區(qū)域和背景區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)視頻圖像進(jìn)行檢測(cè),確定其背景區(qū)域。用于分割視頻圖像中的前景區(qū)域和背景區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)模型通過標(biāo)注有前景區(qū)域和背景區(qū)域的樣本圖像進(jìn)行訓(xùn)練后,能夠準(zhǔn)確且高效地確定視頻圖像中的前景區(qū)域和背景區(qū)域。
當(dāng)需要預(yù)先訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型時(shí),一種可行的訓(xùn)練方式包括以下過程:
(1)獲取待訓(xùn)練的樣本圖像的特征向量。
其中,待訓(xùn)練的樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像,也即,待訓(xùn)練的樣本圖像為已標(biāo)記了前景區(qū)域和背景區(qū)域的樣本圖像。本實(shí)施例中,前景區(qū)域可以為圖像主體所在區(qū)域,例如人物所在區(qū)域;背景區(qū)域可以為除了主體所在區(qū)域外的其它區(qū)域,可以是其它區(qū)域中的全部或者部分。
在一種優(yōu)選的實(shí)施方式中,待訓(xùn)練的樣本圖像可以包括至少一個(gè)視頻流的多幀樣本圖像。因此,在此方式中,在獲取待訓(xùn)練的樣本圖像的特征向量之前,還需要將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型。在實(shí)現(xiàn)時(shí),一種可行方式包括:先確定視頻流的多個(gè)關(guān)鍵幀的圖像為樣本圖像,對(duì)這些樣本圖像進(jìn)行前景區(qū)域和背景區(qū)域的標(biāo)注;在此基礎(chǔ)上,將進(jìn)行了標(biāo)注的樣本圖像進(jìn)行組合,再將組合后的包括多幀進(jìn)行了標(biāo)注的樣本圖像的視頻流輸入卷積網(wǎng)絡(luò)模型。其中,對(duì)視頻流抽取關(guān)鍵幀,并對(duì)抽取的關(guān)鍵幀進(jìn)行標(biāo)注均可以由本領(lǐng)域技術(shù)人員采用任意適當(dāng)?shù)姆绞綄?shí)現(xiàn),如通過均勻采樣的方式抽取關(guān)鍵幀等。在抽取了關(guān)鍵幀后,可以結(jié)合視頻上下文對(duì)抽取的關(guān)鍵幀標(biāo)注區(qū)分前景和背景,得到精確的標(biāo)注邊界。將進(jìn)行了標(biāo)注后的樣本圖像作為待訓(xùn)練的樣本圖像,提取其特征向量。
此外,本步驟中,對(duì)特征向量的提取可以采用相關(guān)技術(shù)中的適當(dāng)方式實(shí)現(xiàn),本實(shí)施例在此不再贅述。
(2)對(duì)特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果。
獲取的特征向量卷積結(jié)果中包含有用于分辨視頻圖像的前景區(qū)域和背景區(qū)域的信息。
對(duì)特征向量的卷積處理次數(shù)可以根據(jù)實(shí)際需要進(jìn)行設(shè)定,也即,卷積網(wǎng)絡(luò)模型中,卷積層的層數(shù)根據(jù)實(shí)際需要進(jìn)行設(shè)置,最終的特征向量卷積結(jié)果滿足獲得的特征能夠足夠表征區(qū)分前景和背景的標(biāo)準(zhǔn)(如交并比大于90%)即可。
卷積結(jié)果是對(duì)特征向量進(jìn)行了特征提取后的結(jié)果,該結(jié)果能夠有效表征視頻圖像中前景區(qū)域和背景區(qū)域的特征和分類。
(3)對(duì)特征向量卷積結(jié)果進(jìn)行放大處理。
一種可行方式中,對(duì)特征向量卷積結(jié)果的放大可以采用線性插值的方式,包括但不限于線性插值、雙線性插值、三線性插值等。其中,具體的線性插值公式可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際需要采用適當(dāng)?shù)墓剑緦?shí)施例對(duì)此不做限制。優(yōu)選地,可以通過對(duì)特征向量卷積結(jié)果進(jìn)行雙線性插值來放大特征向量卷積結(jié)果。通過對(duì)特征向量卷積結(jié)果進(jìn)行放大處理,可以得到與用于訓(xùn)練的原始圖像同樣大小的輸出圖像,獲得每一個(gè)像素點(diǎn)的特征信息,以更為精確地確定圖像的前景區(qū)域和背景區(qū)域。同時(shí),通過對(duì)卷積處理后的特征向量的放大處理,卷積神經(jīng)網(wǎng)絡(luò)模型可以學(xué)習(xí)到一個(gè)較為準(zhǔn)確的放大系數(shù),基于該放大系數(shù)和放大后的特征向量,可以減少卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)調(diào)整和計(jì)算量,降低卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練成本,提高訓(xùn)練效率,縮短訓(xùn)練時(shí)間。
本實(shí)施例中,在獲得特征向量卷積結(jié)果后,通過線性插值層對(duì)特征向量卷積結(jié)果進(jìn)行雙線性插值,以放大卷積處理后的圖像特征,并得到的原始圖像同樣大小(圖像長寬相同)的輸出。需要說明的是,本實(shí)施例中對(duì)雙線性插值的具體實(shí)現(xiàn)手段不做限制。
(4)判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件。
其中,收斂條件可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際需求適當(dāng)設(shè)定。當(dāng)滿足收斂條件時(shí),可以認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)設(shè)置適當(dāng);當(dāng)不能滿足收斂條件時(shí),可以認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)設(shè)置不適當(dāng),需要對(duì)其進(jìn)行調(diào)整,該調(diào)整是一個(gè)迭代的過程,直至使用調(diào)整后的參數(shù)(如,卷積核的值、層間輸出線性變化的權(quán)重,等等)對(duì)特征向量進(jìn)行卷積處理的結(jié)果滿足收斂條件。
本實(shí)施例中,在通過線性插值層對(duì)特征向量卷積結(jié)果進(jìn)行放大后,在損失層使用損失函數(shù)對(duì)其進(jìn)行計(jì)算,進(jìn)而根據(jù)計(jì)算結(jié)果確定是否滿足收斂條件。也即,使用設(shè)定的損失函數(shù)計(jì)算放大后的特征向量卷積結(jié)果的損失值;根據(jù)損失值判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件。其中,損失層和損失函數(shù)可以根據(jù)實(shí)際情況由本領(lǐng)域技術(shù)人員適當(dāng)設(shè)定,如通過softmax函數(shù)或者logistic函數(shù)等。通過損失函數(shù)對(duì)特征向量卷積結(jié)果進(jìn)行計(jì)算,獲得損失值。在獲得損失值后,一種可行方式中,可以根據(jù)該損失值確定本次訓(xùn)練結(jié)果是否滿足收斂條件,如該損失值是否小于或等于設(shè)定閾值;另一種可行方式中,可判斷對(duì)該損失值的計(jì)算是否已達(dá)到設(shè)定次數(shù),也即,在本次訓(xùn)練中對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的迭代訓(xùn)練次數(shù)是否已達(dá)到設(shè)定次數(shù),如達(dá)到則滿足收斂條件。其中,設(shè)定閾值可由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際需要適當(dāng)設(shè)置,本發(fā)明實(shí)施例對(duì)此不做限制。
需要說明的是,當(dāng)輸入的是視頻流中的多幀圖像時(shí),損失層的損失函數(shù)也可以同時(shí)對(duì)該視頻流中的多幀圖像進(jìn)行損失值計(jì)算,同時(shí)輸出多幀的結(jié)果,使卷積神經(jīng)網(wǎng)絡(luò)模型在得到視頻上更加穩(wěn)定的結(jié)果的同時(shí),通過多幀圖像的并行計(jì)算,提升計(jì)算效率。
(5)若滿足收斂條件,則完成對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若不滿足收斂條件,則根據(jù)放大后的特征向量卷積結(jié)果調(diào)整卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足收斂條件。
通過對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行上述訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)模型可以對(duì)視頻圖像的圖像特征進(jìn)行特征提取和分類,從而具有確定視頻圖像中的前景區(qū)域和背景區(qū)域的功能。在后續(xù)應(yīng)用中,可以使用該卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別出視頻圖像中的背景區(qū)域,進(jìn)而在該背景區(qū)域顯示業(yè)務(wù)對(duì)象。
為了使訓(xùn)練的結(jié)果更為精準(zhǔn),在一種優(yōu)選的實(shí)施方式中,可以通過測(cè)試樣本測(cè)試該訓(xùn)練出的卷積神經(jīng)網(wǎng)絡(luò)模型是否準(zhǔn)確,進(jìn)而根據(jù)測(cè)試結(jié)果決定使用該卷積神經(jīng)網(wǎng)絡(luò)模型還是對(duì)該卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再訓(xùn)練。在此方式中,在完成了對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的初步訓(xùn)練后,還可以獲取測(cè)試樣本圖像,使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本圖像進(jìn)行前背景區(qū)域的預(yù)測(cè),其中,測(cè)試樣本圖像為未進(jìn)行任何標(biāo)注的樣本圖像;進(jìn)而,檢驗(yàn)預(yù)測(cè)的前背景區(qū)域是否正確;若不正確,則對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練;若正確,則可以確定使用該卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行視頻圖像的前背景確定,或者,為了使卷積神經(jīng)網(wǎng)絡(luò)模型更為精準(zhǔn),再獲取其它測(cè)試樣本圖像進(jìn)行測(cè)試;或者,使用與原訓(xùn)練樣本圖像不同的樣本圖像進(jìn)行再次訓(xùn)練。
當(dāng)通過測(cè)試樣本檢驗(yàn)到使用卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的前背景區(qū)域不正確時(shí),需要對(duì)該卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練。在一種再次訓(xùn)練方式中,可以僅使用從測(cè)試樣本圖像中獲取的前背景區(qū)域預(yù)測(cè)不正確的樣本圖像作為再次訓(xùn)練使用的樣本圖像;然后,使用這些預(yù)測(cè)不正確的樣本圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練。這些進(jìn)行再次訓(xùn)練的樣本在用于首次訓(xùn)練前,進(jìn)行了前背景信息的標(biāo)注。如,在這些樣本中標(biāo)注出前景區(qū)域和背景區(qū)域。通過將預(yù)測(cè)不正確的樣本作為一個(gè)新的樣本圖像集對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行再訓(xùn)練,不僅使得訓(xùn)練更有針對(duì)性,也大大節(jié)約了訓(xùn)練成本。當(dāng)然,不限于此,在實(shí)際使用中,也可以使用其它進(jìn)行了前背景標(biāo)注的樣本圖像進(jìn)行訓(xùn)練。
此外,在一種優(yōu)選方式中,訓(xùn)練的卷積網(wǎng)絡(luò)模型為全卷積網(wǎng)絡(luò)模型,與具有全連接層的卷積網(wǎng)絡(luò)模型相比,采用全卷積網(wǎng)絡(luò)模型所需的卷積層參數(shù)少,訓(xùn)練速度更快。
本實(shí)施例中,一種具體的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)的簡(jiǎn)要說明如下:
(1)輸入層
例如,可以輸入待訓(xùn)練的樣本圖像的特征向量,該特征向量中包含有樣本圖像的背景區(qū)域的信息,或者,該特征向量中包含有樣本圖像的前景區(qū)域的信息和背景區(qū)域的信息。
(2)卷積層
//第一階段,對(duì)待訓(xùn)練的樣本圖像的特征向量進(jìn)行卷積處理,獲得卷積結(jié)果。
2.<=1卷積層1_1(3x3x64)
3.<=2非線性響應(yīng)relu層
4.<=3卷積層1_2(3x3x64)
5.<=4非線性響應(yīng)relu層
6.<=5池化層(3x3/2)
7.<=6卷積層2_1(3x3x128)
8.<=7非線性響應(yīng)relu層
9.<=8卷積層2_2(3x3x128)
10.<=9非線性響應(yīng)relu層
11.<=10池化層(3x3/2)
12.<=11卷積層3_1(3x3x256)
13.<=12非線性響應(yīng)relu層
14.<=13卷積層3_2(3x3x256)
15.<=14非線性響應(yīng)relu層
16.<=15卷積層3_3(3x3x256)
17.<=16非線性響應(yīng)relu層
18.<=17池化層(3x3/2)
19.<=18卷積層4_1(3x3x512)
20.<=19非線性響應(yīng)relu層
21.<=20卷積層4_2(3x3x512)
22.<=21非線性響應(yīng)relu層
23.<=22卷積層4_3(3x3x512)
24.<=23非線性響應(yīng)relu層
25.<=24池化層(3x3/2)
26.<=25卷積層5_1(3x3x512)
27.<=26非線性響應(yīng)relu層
28.<=27卷積層5_2(3x3x512)
29.<=28非線性響應(yīng)relu層
30.<=29卷積層5_3(3x3x512)
31.<=30非線性響應(yīng)relu層
//第二階段,對(duì)第一階段獲得的卷積結(jié)果進(jìn)行插值放大,并進(jìn)行損失函數(shù)的計(jì)算。
32.<=31線性差值層
33.<=32損失層,進(jìn)行損失函數(shù)的計(jì)算
(3)輸出層
第一,在通過前31層的處理獲得特征向量后,線性插值層通過雙線性插值法對(duì)前31層處理后的特征向量進(jìn)行插值,以放大中間層特征,得到和訓(xùn)練的樣本圖像同樣大小(圖像長寬一樣)的輸出圖像。
第二,本實(shí)施例中,33層的損失層采用softmax函數(shù)進(jìn)行處理。一種可行的softmax函數(shù)如下:
其中,x表示輸入的特征,j表示第j類別,y表示輸出的類別,k表示總共類別數(shù),k表示第k類別,wj表示第j類別的分類參數(shù),xt表示x向量的轉(zhuǎn)置,p(y=j(luò)|x)表示給定輸入x,預(yù)測(cè)為第j類的概率。
但不限于此,在實(shí)際使用中,本領(lǐng)域技術(shù)人員也可以采用其它softmax函數(shù),本發(fā)明實(shí)施例對(duì)此不做限制。
第三,上述卷積層對(duì)特征向量進(jìn)行的處理是迭代多次進(jìn)行的,每完成一次,就根據(jù)損失層計(jì)算出的結(jié)果調(diào)整卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)(如卷積核的值、層間輸出線性變化的權(quán)重,等等),基于參數(shù)調(diào)整后的卷積神經(jīng)網(wǎng)絡(luò)模型再進(jìn)行處理,迭代多次,直至滿足收斂條件。
第四,本實(shí)施例中,收斂條件可以是對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練的次數(shù)達(dá)到最大迭代次數(shù),如10000~20000次。
第五,上述卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)于視頻圖像的學(xué)習(xí),可以單幀視頻圖像輸入,也可以通過多幀視頻圖像同時(shí)輸入,同時(shí)輸出多幀視頻圖像的結(jié)果。即第一層輸入層可以輸入一幀視頻圖像,也可以是一個(gè)視頻流,這個(gè)視頻流包含多幀視頻圖像。
同樣,最后一層損失層,可以針對(duì)一幀視頻圖像計(jì)算損失函數(shù),也可以對(duì)視頻流的多幀視頻圖像計(jì)算損失函數(shù)。
通過視頻流方式的訓(xùn)練和學(xué)習(xí),可以使卷積神經(jīng)網(wǎng)絡(luò)模型得到視頻上更加穩(wěn)定的結(jié)果,同時(shí)通過多幀視頻圖像的并行計(jì)算,提升計(jì)算效率。
其中,可以通過修改輸入層和輸出層的featuremap的大小實(shí)現(xiàn)多幀視頻圖像的同時(shí)輸入和輸出。
第六,上述卷積網(wǎng)絡(luò)結(jié)構(gòu)的說明中,2.<=1表明當(dāng)前層為第二層,輸入為第一層;卷積層后面括號(hào)為卷積層參數(shù)(3x3x64)表明卷積核大小為3x3,通道數(shù)為64;池化層后面括號(hào)(3x3/2)表明池化核大小為3x3,間隔為2。其它依此類推,不再贅述。
在上述卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)中,每個(gè)卷積層之后都有一個(gè)非線性響應(yīng)單元,該非線性響應(yīng)單元采用糾正線性單元relu(rectifiedlinearunits),通過在卷積層后增加上述糾正線性單元,將卷積層的映射結(jié)果盡量稀疏,更接近人的視覺反應(yīng),從而使圖像處理效果更好。
將卷積層的卷積核設(shè)為3x3,能更好的綜合局部信息。
設(shè)定池化層(maxpooling)的步長stride,使上層特征在不增加計(jì)算量的前提下獲得更大的視野,同時(shí)池化層的步長stride還有增強(qiáng)空間不變性的特征,即允許同樣的輸入出現(xiàn)在不同的圖像位置上,而輸出結(jié)果響應(yīng)相同。
線性差值層可以將之前的特征放大到原圖大小,得到每個(gè)像素的預(yù)測(cè)值。
綜上所述,該全卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層可以用于信息歸納和融合,最大池化層(maxpooling)主要進(jìn)行高層信息的歸納,該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以進(jìn)行微調(diào)來適應(yīng)不同的性能和效率的權(quán)衡。
但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明了的是,上述卷積核的大小、通道數(shù)、池化核的大小、間隔以及卷積層的層數(shù)數(shù)量均為示例性說明,在實(shí)際應(yīng)用中,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要進(jìn)行適應(yīng)性調(diào)整,本發(fā)明實(shí)施例對(duì)此不做限制。此外,本實(shí)施例中的卷積神經(jīng)網(wǎng)絡(luò)模型中的所有層的組合及參數(shù)都是可選的,可以任意組合。
通過本實(shí)施例中的卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了對(duì)視頻圖像中前背景區(qū)域的有效分割。
步驟s204、采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
在確定了背景區(qū)域以后,采用計(jì)算機(jī)繪圖方式將業(yè)務(wù)對(duì)象繪制在視頻圖像的背景區(qū)域。需要說明的是,采用計(jì)算機(jī)繪圖方式將業(yè)務(wù)對(duì)象繪制在視頻圖像的背景區(qū)域即采用計(jì)算機(jī)繪圖方式將業(yè)務(wù)對(duì)象繪制在視頻圖像的整個(gè)背景區(qū)域。實(shí)現(xiàn)繪制業(yè)務(wù)對(duì)象后的背景區(qū)域替換背景區(qū)域的原始內(nèi)容。例如,視頻圖像的背景區(qū)域?yàn)橐环覂?nèi)場(chǎng)景圖片,業(yè)務(wù)對(duì)象為一幅瀑布圖片,繪制業(yè)務(wù)對(duì)象后的背景區(qū)域中顯示的是一幅瀑布圖片,而不是原始的室內(nèi)場(chǎng)景圖片,同時(shí),視頻圖像的前景區(qū)域可以保持不變。
步驟s206、發(fā)送在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像。
例如,上述步驟s200-s204在移動(dòng)終端a上執(zhí)行,可以在移動(dòng)終端a上顯示在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像,以及/或者發(fā)送在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像至移動(dòng)終端b、移動(dòng)終端c、服務(wù)器d等等。
除了上述當(dāng)前設(shè)備直接將在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像發(fā)送至其他設(shè)備以外,還可以直接在其他設(shè)備上繪制業(yè)務(wù)對(duì)象。具體可以先獲取到待顯示的業(yè)務(wù)對(duì)象,可以獲取業(yè)務(wù)對(duì)象本身,還可以獲取業(yè)務(wù)對(duì)象的屬性信息,根據(jù)業(yè)務(wù)對(duì)象的屬性信息,從業(yè)務(wù)對(duì)象的存儲(chǔ)庫中獲取到業(yè)務(wù)對(duì)象本身;再繪制業(yè)務(wù)對(duì)象在視頻圖像的背景區(qū)域中。其中,業(yè)務(wù)對(duì)象的屬性信息可以來源于包括視頻圖像和業(yè)務(wù)對(duì)象的屬性信息的傳輸流。
需要說明的是,業(yè)務(wù)對(duì)象的存儲(chǔ)庫可以包括當(dāng)前設(shè)備的業(yè)務(wù)對(duì)象的存儲(chǔ)庫和其他設(shè)備的業(yè)務(wù)對(duì)象的存儲(chǔ)庫。并且,當(dāng)前設(shè)備的業(yè)務(wù)對(duì)象的存儲(chǔ)庫和其他設(shè)備的業(yè)務(wù)對(duì)象的存儲(chǔ)庫中的業(yè)務(wù)對(duì)象本身及業(yè)務(wù)對(duì)象的屬性信息保持同步。業(yè)務(wù)對(duì)象的屬性信息可以用于標(biāo)識(shí)業(yè)務(wù)對(duì)象本身,一個(gè)業(yè)務(wù)對(duì)象的屬性信息可以對(duì)應(yīng)著唯一一個(gè)業(yè)務(wù)對(duì)象本身或者唯一一類業(yè)務(wù)對(duì)象本身。例如,業(yè)務(wù)對(duì)象的屬性信息可以為具有唯一標(biāo)識(shí)的編號(hào)等等。
上述各步驟可以應(yīng)用在一種具體的應(yīng)用場(chǎng)景中,例如,主播終端獲取主播直播時(shí)的視頻圖像,其中,視頻圖像為直播類視頻圖像。從視頻圖像檢測(cè)背景區(qū)域,在主播終端本地獲取業(yè)務(wù)對(duì)象或者從第三方攝像機(jī)實(shí)時(shí)接收業(yè)務(wù)對(duì)象,采用計(jì)算機(jī)繪圖方式在視頻圖像的背景區(qū)域繪制業(yè)務(wù)對(duì)象,在主播終端上顯示繪制業(yè)務(wù)對(duì)象后的視頻圖像,并將繪制業(yè)務(wù)對(duì)象后的視頻圖像發(fā)送至服務(wù)器或者粉絲終端,在服務(wù)器進(jìn)行中轉(zhuǎn)或者存儲(chǔ),在粉絲終端進(jìn)行顯示。其中,直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
需要說明的是,上述步驟s200和步驟s202之間的執(zhí)行順序可以為先執(zhí)行步驟s200,后執(zhí)行步驟s202;還可以為先執(zhí)行步驟s202,后執(zhí)行步驟s200;或者可以為同時(shí)執(zhí)行步驟s200和步驟s202,本實(shí)施例對(duì)步驟s200和步驟s202的執(zhí)行順序不做限制,本實(shí)施例僅以先執(zhí)行步驟s200,后執(zhí)行步驟s202為例進(jìn)行說明。
通過本實(shí)施例提供的視頻圖像的處理方法,檢測(cè)視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對(duì)象;采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實(shí)現(xiàn)預(yù)想的業(yè)務(wù)對(duì)象投放效果。
業(yè)務(wù)對(duì)象可以為目標(biāo)視頻、目標(biāo)圖像或者目標(biāo)特效等等,在背景區(qū)域繪制業(yè)務(wù)對(duì)象后的視頻圖像,相對(duì)于傳統(tǒng)的只包含純粹為圖片形式的背景區(qū)域的視頻圖像,豐富了背景區(qū)域的類型。而且,若在視頻圖像的背景區(qū)域繪制接收到的目標(biāo)視頻,實(shí)現(xiàn)了在視頻圖像的背景區(qū)域觀看視頻的效果。若業(yè)務(wù)對(duì)象的內(nèi)容與視頻圖像的內(nèi)容具有相關(guān)性,例如,業(yè)務(wù)對(duì)象為目標(biāo)視頻,目標(biāo)視頻為自由女神的介紹視頻,主播在視頻圖像中正在介紹自由女神,則繪制業(yè)務(wù)對(duì)象后的背景區(qū)域可以作為視頻圖像的輔助顯示,提升了視頻圖像的顯示效果。
除了將在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像在本地顯示之外,還可以將在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像發(fā)送至其他設(shè)備,例如,移動(dòng)終端、pc、服務(wù)器或者平板電腦等等,可以實(shí)現(xiàn)在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像的共享。
實(shí)施例三
參照?qǐng)D3,示出了根據(jù)本發(fā)明實(shí)施例三的視頻圖像的處理裝置的結(jié)構(gòu)框圖。
本實(shí)施例的視頻圖像的處理裝置包括:檢測(cè)模塊300,用于檢測(cè)視頻圖像中的背景區(qū)域;確定模塊302,用于確定待顯示的業(yè)務(wù)對(duì)象;繪制模塊304,用于采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
通過本實(shí)施例提供的視頻圖像的處理裝置,檢測(cè)視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對(duì)象;采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實(shí)現(xiàn)預(yù)想的業(yè)務(wù)對(duì)象投放效果。
實(shí)施例四
參照?qǐng)D4,示出了根據(jù)本發(fā)明實(shí)施例四的視頻圖像的處理裝置的結(jié)構(gòu)框圖。
本實(shí)施例的視頻圖像的處理裝置包括:檢測(cè)模塊400,用于檢測(cè)視頻圖像中的背景區(qū)域;確定模塊402,用于確定待顯示的業(yè)務(wù)對(duì)象;繪制模塊404,用于采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
可選地,檢測(cè)模塊400,用于通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)視頻圖像的背景區(qū)域。
可選地,本實(shí)施例的視頻圖像的處理裝置還包括:訓(xùn)練模塊406,用于對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)先訓(xùn)練。訓(xùn)練模塊406包括:向量獲取模塊4060,用于獲取待訓(xùn)練的樣本圖像的特征向量其中,樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;卷積獲取模塊4061,用于對(duì)特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;放大模塊4062,用于對(duì)特征向量卷積結(jié)果進(jìn)行放大處理;判斷模塊4063,用于判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件;執(zhí)行模塊4064,用于若判斷模塊4063的判斷結(jié)果為滿足收斂條件,則完成對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若判斷模塊4063的判斷結(jié)果為不滿足收斂條件,則根據(jù)放大后的特征向量卷積結(jié)果調(diào)整卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足收斂條件。
可選地,放大模塊4062,用于通過對(duì)特征向量卷積結(jié)果進(jìn)行雙線性插值,放大特征向量卷積結(jié)果。
可選地,放大模塊4062,用于將特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對(duì)應(yīng)的圖像的大小與原始圖像大小一致。
可選地,判斷模塊4063,用于使用設(shè)定的損失函數(shù)計(jì)算放大后的特征向量卷積結(jié)果和預(yù)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)損失值判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件。
可選地,訓(xùn)練模塊406還包括:預(yù)測(cè)模塊4065,用于獲取測(cè)試樣本圖像,使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本圖像進(jìn)行前背景區(qū)域的預(yù)測(cè);檢驗(yàn)?zāi)K4066,用于檢驗(yàn)預(yù)測(cè)的前背景區(qū)域是否正確;再訓(xùn)練模塊4067,用于若檢驗(yàn)?zāi)K4066的檢驗(yàn)結(jié)果為不正確,則使用測(cè)試樣本圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練。
可選地,再訓(xùn)練模塊4067,用于若檢驗(yàn)?zāi)K4066的檢驗(yàn)結(jié)果為不正確,則從測(cè)試樣本圖像中獲取前背景區(qū)域預(yù)測(cè)不正確的樣本圖像;使用預(yù)測(cè)不正確的樣本圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練,其中,對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練的預(yù)測(cè)不正確的樣本圖像包含有前景信息和背景信息。
可選地,訓(xùn)練模塊406還包括:視頻流模塊4068,用于在向量獲取模塊4060獲取待訓(xùn)練的樣本圖像的特征向量之前,將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,訓(xùn)練模塊406還包括:標(biāo)注模塊4069,用于在視頻流模塊4068將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型之前,確定視頻流的多個(gè)關(guān)鍵幀的圖像為樣本圖像,對(duì)樣本圖像進(jìn)行前景區(qū)域和背景區(qū)域的標(biāo)注。
可選地,卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
可選地,業(yè)務(wù)對(duì)象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
可選地,本實(shí)施例的視頻圖像的處理裝置還包括:獲取模塊408,用于獲取待顯示的業(yè)務(wù)對(duì)象。
可選地,獲取模塊408,用于從預(yù)定存儲(chǔ)位置獲取業(yè)務(wù)對(duì)象,或者從視頻源接收業(yè)務(wù)對(duì)象。
可選地,視頻圖像為直播類視頻圖像。
可選地,直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
本實(shí)施例的視頻圖像的處理裝置用于實(shí)現(xiàn)前述多個(gè)方法實(shí)施例中相應(yīng)的視頻圖像的處理方法,并具有相應(yīng)的方法實(shí)施例的有益效果,在此不再贅述。
此外,本實(shí)施例的視頻圖像的處理裝置可以設(shè)置于適當(dāng)?shù)慕K端設(shè)備中,包括但不限于移動(dòng)終端、pc等。
實(shí)施例五
參照?qǐng)D5,示出了根據(jù)本發(fā)明實(shí)施例五的終端設(shè)備的結(jié)構(gòu)示意圖,本發(fā)明具體實(shí)施例并不對(duì)終端設(shè)備的具體實(shí)現(xiàn)做限定。
如圖5所示,該終端設(shè)備可以包括:處理器(processor)502、通信接口(communicationsinterface)504、存儲(chǔ)器(memory)506、以及通信總線508。
處理器502、通信接口504、以及存儲(chǔ)器506通過通信總線508完成相互間的通信。
通信接口504,用于與其它設(shè)備比如其它客戶端或服務(wù)器等的網(wǎng)元通信。
處理器502,用于執(zhí)行程序510,具體可以執(zhí)行上述方法實(shí)施例中的相關(guān)步驟。
具體地,程序510可以包括程序代碼,該程序代碼包括計(jì)算機(jī)操作指令。
處理器510可能是中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路,或者是圖形處理器gpu(graphicsprocessingunit)。終端設(shè)備包括的一個(gè)或多個(gè)處理器,可以是同一類型的處理器,如一個(gè)或多個(gè)cpu,或者,一個(gè)或多個(gè)gpu;也可以是不同類型的處理器,如一個(gè)或多個(gè)cpu以及一個(gè)或多個(gè)gpu。
存儲(chǔ)器506,用于存放程序510。存儲(chǔ)器506可能包含高速ram存儲(chǔ)器,也可能還包括非易失性存儲(chǔ)器(non-volatilememory),例如至少一個(gè)磁盤存儲(chǔ)器。
程序510具體可以用于使得處理器502執(zhí)行以下操作:檢測(cè)視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對(duì)象;采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)視頻圖像的背景區(qū)域。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502獲取待訓(xùn)練的樣本圖像的特征向量,其中,樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;對(duì)特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;對(duì)特征向量卷積結(jié)果進(jìn)行放大處理;判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件;若滿足,則完成對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若不滿足,則根據(jù)放大后的特征向量卷積結(jié)果調(diào)整卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足收斂條件。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502通過對(duì)特征向量卷積結(jié)果進(jìn)行雙線性插值,放大特征向量卷積結(jié)果。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502將特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對(duì)應(yīng)的圖像的大小與原始圖像大小一致。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502使用設(shè)定的損失函數(shù)計(jì)算放大后的特征向量卷積結(jié)果和預(yù)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)損失值判斷放大后的特征向量卷積結(jié)果是否滿足收斂條件。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502獲取測(cè)試樣本圖像,使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本圖像進(jìn)行前背景區(qū)域的預(yù)測(cè);檢驗(yàn)預(yù)測(cè)的前背景區(qū)域是否正確;若不正確,則使用測(cè)試樣本圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502從測(cè)試樣本圖像中獲取前背景區(qū)域預(yù)測(cè)不正確的樣本圖像;使用預(yù)測(cè)不正確的樣本圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練,其中,對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練的預(yù)測(cè)不正確的樣本圖像包含有前景信息和背景信息。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502在獲取待訓(xùn)練的樣本圖像的特征向量之前,將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502在將包括多幀樣本圖像的視頻流輸入卷積神經(jīng)網(wǎng)絡(luò)模型之前,確定視頻流的多個(gè)關(guān)鍵幀的圖像為樣本圖像,對(duì)樣本圖像進(jìn)行前景區(qū)域和背景區(qū)域的標(biāo)注。
在一種可選的實(shí)施方式中,卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
在一種可選的實(shí)施方式中,業(yè)務(wù)對(duì)象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502獲取待顯示的業(yè)務(wù)對(duì)象。
在一種可選的實(shí)施方式中,程序510還用于使得處理器502從預(yù)定存儲(chǔ)位置獲取業(yè)務(wù)對(duì)象,或者從視頻源接收業(yè)務(wù)對(duì)象。
在一種可選的實(shí)施方式中,視頻圖像為直播類視頻圖像。
在一種可選的實(shí)施方式中,直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
程序510中各步驟的具體實(shí)現(xiàn)可以參見上述實(shí)施例中的相應(yīng)步驟和單元中對(duì)應(yīng)的描述,在此不贅述。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的設(shè)備和模塊的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程描述,在此不再贅述。
通過本實(shí)施例提供的終端設(shè)備,檢測(cè)視頻圖像中的背景區(qū)域;確定待顯示的業(yè)務(wù)對(duì)象;采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制業(yè)務(wù)對(duì)象,以使業(yè)務(wù)對(duì)象覆蓋視頻圖像中的背景區(qū)域的原始內(nèi)容。使得業(yè)務(wù)對(duì)象與視頻播放相結(jié)合,節(jié)約了網(wǎng)絡(luò)資源和/或客戶端的系統(tǒng)資源,可以有效實(shí)現(xiàn)預(yù)想的業(yè)務(wù)對(duì)象投放效果。
業(yè)務(wù)對(duì)象可以為目標(biāo)視頻、目標(biāo)圖像或者目標(biāo)特效等等,在背景區(qū)域繪制業(yè)務(wù)對(duì)象后的視頻圖像,相對(duì)于傳統(tǒng)的只包含純粹為圖片形式的背景區(qū)域的視頻圖像,豐富了背景區(qū)域的類型。而且,若在視頻圖像的背景區(qū)域繪制接收到的目標(biāo)視頻,實(shí)現(xiàn)了在視頻圖像的背景區(qū)域觀看視頻的效果。若業(yè)務(wù)對(duì)象的內(nèi)容與視頻圖像的內(nèi)容具有相關(guān)性,例如,業(yè)務(wù)對(duì)象為目標(biāo)視頻,目標(biāo)視頻為自由女神的介紹視頻,主播在視頻圖像中正在介紹自由女神,則繪制業(yè)務(wù)對(duì)象后的背景區(qū)域可以作為視頻圖像的輔助顯示,提升了視頻圖像的顯示效果。
除了將在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像在本地顯示之外,還可以將在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像發(fā)送至其他設(shè)備,例如,移動(dòng)終端、pc、服務(wù)器或者平板電腦等等,可以實(shí)現(xiàn)在背景區(qū)域繪制了業(yè)務(wù)對(duì)象的視頻圖像的共享。
需要指出,根據(jù)實(shí)施的需要,可將本發(fā)明實(shí)施例中描述的各個(gè)部件/步驟拆分為更多部件/步驟,也可將兩個(gè)或多個(gè)部件/步驟或者部件/步驟的部分操作組合成新的部件/步驟,以實(shí)現(xiàn)本發(fā)明實(shí)施例的目的。
上述根據(jù)本發(fā)明實(shí)施例的方法可在硬件、固件中實(shí)現(xiàn),或者被實(shí)現(xiàn)為可存儲(chǔ)在記錄介質(zhì)(諸如cdrom、ram、軟盤、硬盤或磁光盤)中的軟件或計(jì)算機(jī)代碼,或者被實(shí)現(xiàn)通過網(wǎng)絡(luò)下載的原始存儲(chǔ)在遠(yuǎn)程記錄介質(zhì)或非暫時(shí)機(jī)器可讀介質(zhì)中并將被存儲(chǔ)在本地記錄介質(zhì)中的計(jì)算機(jī)代碼,從而在此描述的方法可被存儲(chǔ)在使用通用計(jì)算機(jī)、專用處理器或者可編程或?qū)S糜布?諸如asic或fpga)的記錄介質(zhì)上的這樣的軟件處理。可以理解,計(jì)算機(jī)、處理器、微處理器控制器或可編程硬件包括可存儲(chǔ)或接收軟件或計(jì)算機(jī)代碼的存儲(chǔ)組件(例如,ram、rom、閃存等),當(dāng)所述軟件或計(jì)算機(jī)代碼被計(jì)算機(jī)、處理器或硬件訪問且執(zhí)行時(shí),實(shí)現(xiàn)在此描述的處理方法。此外,當(dāng)通用計(jì)算機(jī)訪問用于實(shí)現(xiàn)在此示出的處理的代碼時(shí),代碼的執(zhí)行將通用計(jì)算機(jī)轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計(jì)算機(jī)。
本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及方法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明實(shí)施例的范圍。
以上實(shí)施方式僅用于說明本發(fā)明實(shí)施例,而并非對(duì)本發(fā)明實(shí)施例的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明實(shí)施例的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明實(shí)施例的范疇,本發(fā)明實(shí)施例的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
本發(fā)明實(shí)施例提供了a1、一種視頻圖像的處理方法,包括:
檢測(cè)視頻圖像中的背景區(qū)域;
確定待顯示的業(yè)務(wù)對(duì)象;
采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對(duì)象,以使所述業(yè)務(wù)對(duì)象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容。
a2、根據(jù)a1所述的方法,其中,所述檢測(cè)視頻圖像中的背景區(qū)域包括:
通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)所述視頻圖像的背景區(qū)域。
a3、根據(jù)a2所述的方法,其中,所述對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的預(yù)先訓(xùn)練包括:
獲取待訓(xùn)練的樣本圖像的特征向量,其中,所述樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;
對(duì)所述特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;
對(duì)所述特征向量卷積結(jié)果進(jìn)行放大處理;
判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件;
若滿足,則完成對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;
若不滿足,則根據(jù)放大后的所述特征向量卷積結(jié)果調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足所述收斂條件。
a4、根據(jù)a3所述的方法,其中,所述對(duì)所述特征向量卷積結(jié)果進(jìn)行放大處理包括:
通過對(duì)所述特征向量卷積結(jié)果進(jìn)行雙線性插值,放大所述特征向量卷積結(jié)果。
a5、根據(jù)a3或a4所述的方法,其中,所述對(duì)所述特征向量卷積結(jié)果進(jìn)行放大處理包括:
將所述特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對(duì)應(yīng)的圖像的大小與原始圖像大小一致。
a6、根據(jù)a3-a5任一所述的方法,其中,所述判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件包括:
使用設(shè)定的損失函數(shù)計(jì)算放大后的所述特征向量卷積結(jié)果和預(yù)定的標(biāo)準(zhǔn)輸出特征向量的損失值;
根據(jù)所述損失值判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件。
a7、根據(jù)a3-a6任一所述的方法,其中,所述方法還包括:
獲取測(cè)試樣本圖像,使用訓(xùn)練后的所述卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)所述測(cè)試樣本圖像進(jìn)行前背景區(qū)域的預(yù)測(cè);
檢驗(yàn)預(yù)測(cè)的前背景區(qū)域是否正確;
若不正確,則使用所述測(cè)試樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練。
a8、根據(jù)a7所述的方法,其中,所述使用所述測(cè)試樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練包括:
從所述測(cè)試樣本圖像中獲取前背景區(qū)域預(yù)測(cè)不正確的樣本圖像;
使用預(yù)測(cè)不正確的樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練,其中,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練的所述預(yù)測(cè)不正確的樣本圖像包含有前景信息和背景信息。
a9、根據(jù)a3-a8任一所述的方法,其中,所述獲取待訓(xùn)練的樣本圖像的特征向量之前,所述方法還包括:
將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型。
a10、根據(jù)a9所述的方法,其中,所述將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型之前,所述方法還包括:
確定所述視頻流的多個(gè)關(guān)鍵幀的圖像為樣本圖像,對(duì)所述樣本圖像進(jìn)行前景區(qū)域和背景區(qū)域的標(biāo)注。
a11、根據(jù)a2-a10任一所述的方法,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
a12、根據(jù)a1-a11任一所述的方法,其中,所述業(yè)務(wù)對(duì)象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
a13、根據(jù)a1-a12任一所述的方法,其中,所述方法還包括:獲取待顯示的所述業(yè)務(wù)對(duì)象。
a14、根據(jù)a13所述的方法,其中,所述獲取待顯示的所述業(yè)務(wù)對(duì)象包括:
從預(yù)定存儲(chǔ)位置獲取所述業(yè)務(wù)對(duì)象,或者從視頻源接收所述業(yè)務(wù)對(duì)象。
a15、根據(jù)a1-a14任一所述的方法,其中,所述視頻圖像為直播類視頻圖像。
a16、根據(jù)a15所述的方法,其中,所述直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
本發(fā)明實(shí)施例還提供了b17、一種視頻圖像的處理裝置,包括:
檢測(cè)模塊,用于檢測(cè)視頻圖像中的背景區(qū)域;
確定模塊,用于確定待顯示的業(yè)務(wù)對(duì)象;
繪制模塊,用于采用計(jì)算機(jī)繪圖方式在確定出的背景區(qū)域繪制所述業(yè)務(wù)對(duì)象,以使所述業(yè)務(wù)對(duì)象覆蓋所述視頻圖像中的背景區(qū)域的原始內(nèi)容。
b18、根據(jù)b17所述的裝置,其中,所述檢測(cè)模塊,用于通過預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)所述視頻圖像的背景區(qū)域。
b19、根據(jù)b18所述的裝置,其中,所述裝置還包括:訓(xùn)練模塊,用于對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)先訓(xùn)練;
所述訓(xùn)練模塊包括:
向量獲取模塊,用于獲取待訓(xùn)練的樣本圖像的特征向量,其中,所述樣本圖像為包含有前景標(biāo)注信息和背景標(biāo)注信息的樣本圖像;
卷積獲取模塊,用于對(duì)所述特征向量進(jìn)行卷積處理,獲取特征向量卷積結(jié)果;
放大模塊,用于對(duì)所述特征向量卷積結(jié)果進(jìn)行放大處理;
判斷模塊,用于判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件;
執(zhí)行模塊,用于若所述判斷模塊的判斷結(jié)果為滿足收斂條件,則完成對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;若所述判斷模塊的判斷結(jié)果為不滿足收斂條件,則根據(jù)放大后的所述特征向量卷積結(jié)果調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)并根據(jù)調(diào)整后的所述卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,直至迭代訓(xùn)練后的特征向量卷積結(jié)果滿足所述收斂條件。
b20、根據(jù)b19所述的裝置,其中,所述放大模塊,用于通過對(duì)所述特征向量卷積結(jié)果進(jìn)行雙線性插值,放大所述特征向量卷積結(jié)果。
b21、根據(jù)b19或b20所述的裝置,其中,所述放大模塊,用于將所述特征向量卷積結(jié)果放大到放大后的特征向量卷積結(jié)果對(duì)應(yīng)的圖像的大小與原始圖像大小一致。
b22、根據(jù)b19-b21任一所述的裝置,其中,所述判斷模塊,用于使用設(shè)定的損失函數(shù)計(jì)算放大后的所述特征向量卷積結(jié)果和預(yù)定的標(biāo)準(zhǔn)輸出特征向量的損失值;根據(jù)所述損失值判斷放大后的所述特征向量卷積結(jié)果是否滿足收斂條件。
b23、根據(jù)b19-b22任一所述的裝置,其中,所述訓(xùn)練模塊還包括:
預(yù)測(cè)模塊,用于獲取測(cè)試樣本圖像,使用訓(xùn)練后的所述卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)所述測(cè)試樣本圖像進(jìn)行前背景區(qū)域的預(yù)測(cè);
檢驗(yàn)?zāi)K,用于檢驗(yàn)預(yù)測(cè)的前背景區(qū)域是否正確;
再訓(xùn)練模塊,用于若所述檢驗(yàn)?zāi)K的檢驗(yàn)結(jié)果為不正確,則使用所述測(cè)試樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練。
b24、根據(jù)b23所述的裝置,其中,所述再訓(xùn)練模塊,用于若所述檢驗(yàn)?zāi)K的檢驗(yàn)結(jié)果為不正確,則從所述測(cè)試樣本圖像中獲取前背景區(qū)域預(yù)測(cè)不正確的樣本圖像;使用預(yù)測(cè)不正確的樣本圖像對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練,其中,對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行再次訓(xùn)練的所述預(yù)測(cè)不正確的樣本圖像包含有前景信息和背景信息。
b25、根據(jù)b19-b24任一所述的裝置,其中,所述訓(xùn)練模塊還包括:
視頻流模塊,用于在所述向量獲取模塊獲取待訓(xùn)練的樣本圖像的特征向量之前,將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型。
b26、根據(jù)b25所述的裝置,其中,所述訓(xùn)練模塊還包括:
標(biāo)注模塊,用于在所述視頻流模塊將包括多幀樣本圖像的視頻流輸入所述卷積神經(jīng)網(wǎng)絡(luò)模型之前,確定所述視頻流的多個(gè)關(guān)鍵幀的圖像為樣本圖像,對(duì)所述樣本圖像進(jìn)行前景區(qū)域和背景區(qū)域的標(biāo)注。
b27、根據(jù)b18-b26任一所述的裝置,其中,所述卷積神經(jīng)網(wǎng)絡(luò)模型為全卷積神經(jīng)網(wǎng)絡(luò)模型。
b28、根據(jù)b17-b27任一所述的裝置,其中,所述業(yè)務(wù)對(duì)象包括以下至少之一:目標(biāo)視頻、目標(biāo)圖像、目標(biāo)特效。
b29、根據(jù)b17-b28任一所述的裝置,其中,所述裝置還包括:
獲取模塊,用于獲取待顯示的所述業(yè)務(wù)對(duì)象。
b30、根據(jù)b29所述的裝置,其中,所述獲取模塊,用于從預(yù)定存儲(chǔ)位置獲取所述業(yè)務(wù)對(duì)象,或者從視頻源接收所述業(yè)務(wù)對(duì)象。
b31、根據(jù)b17-b30任一所述的裝置,其中,所述視頻圖像為直播類視頻圖像。
b32、根據(jù)b31所述的裝置,其中,所述直播類視頻圖像的背景區(qū)域包括直播類視頻圖像中除了主播圖像之外的區(qū)域。
本發(fā)明實(shí)施例還提供了c33、一種終端設(shè)備,包括:處理器、存儲(chǔ)器、通信接口和通信總線,所述處理器、所述存儲(chǔ)器和所述通信接口通過所述通信總線完成相互間的通信;
所述存儲(chǔ)器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如a1-a16任一所述的視頻圖像的處理方法對(duì)應(yīng)的操作。