手勢控制方法、裝置和終端設備與流程

文檔序號：12905719閱讀：430來源：國知局

本發(fā)明涉及信息處理技術，尤其涉及一種手勢控制方法、裝置和終端設備。

背景技術：

隨著互聯(lián)網技術的發(fā)展，人們越來越多地使用互聯(lián)網觀看視頻，由此，互聯(lián)網視頻為許多新的業(yè)務提供了商機。因為互聯(lián)網視頻可以成為重要的業(yè)務流量入口，因而被認為是廣告植入的優(yōu)質資源。

現(xiàn)有視頻廣告主要通過植入的方式，在視頻播放的某個時間插入固定時長的廣告，或在視頻播放的區(qū)域及其周邊區(qū)域固定位置放置廣告。

但是，一方面，這種視頻廣告方式不但占用網絡資源，也占用客戶端的系統(tǒng)資源；另一方面，這種視頻廣告方式往往打擾觀眾的正常視頻觀看體驗，引起觀眾反感，不能達到預想的廣告效果。

技術實現(xiàn)要素：

本發(fā)明的目的在于，提供一種手勢控制的方案。

根據本發(fā)明實施例的一方面，提供一種手勢控制方法。所述方法包括，對當前播放的視頻圖像進行手勢檢測；在檢測到手勢與預定手勢匹配時，確定待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置；在所述展現(xiàn)位置采用計算機繪圖方式繪制所述業(yè)務對象。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述確定待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置，包括：提取與檢測到的所述手勢相應的人手候選區(qū)域內手部的特征點；根據所述手部的特征點，確定與檢測到的所述手勢相應的待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述根據所述手部的特征點，確定與檢測到的所述手勢相應的待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置，包括：根據所述手部的特征點和所述待顯示的業(yè)務對象的類型，確定與檢測到的所述手勢相應的所述待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述根據所述手部的特征點和所述待顯示的業(yè)務對象的類型，確定與檢測到的所述手勢相應的所述待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置，包括：根據所述手部的特征點和所述待顯示的業(yè)務對象的類型，確定與檢測到的所述手勢相應的所述待顯示的業(yè)務對象在所述視頻圖像中的多個展現(xiàn)位置；從所述多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述確定待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置，包括：從預先存儲的手勢與展現(xiàn)位置的對應關系中，獲取所述預定手勢對應的目標展現(xiàn)位置作為與檢測到的所述手勢相應的待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述業(yè)務對象為包含有語義信息的特效，所述視頻圖像為直播類視頻圖像。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述業(yè)務對象包括包含廣告信息的以下至少一種形式的特效：二維貼紙?zhí)匦А⑷S特效、粒子特效。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述展現(xiàn)位置包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設定范圍內的區(qū)域、視頻圖像中預先設定的區(qū)域。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述手勢包括以下至少之一：揮手、剪刀手、握拳、托手、鼓掌、手掌張開、手掌閉合、豎大拇指、擺手槍姿勢、擺v字手和擺ok手。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述對當前播放的視頻圖像進行手勢檢測，包括：采用預先訓練的第一卷積網絡檢測所述視頻圖像，獲得所述視頻圖像的第一特征信息和人手候選區(qū)域的預測信息，所述第一特征信息包括手部特征信息；將所述第一特征信息和所述人手候選區(qū)域的預測信息作為預先訓練的第二卷積網絡模型的第二特征信息，并采用所述第二卷積網絡模型根據所述第二特征信息進行所述視頻圖像的手勢檢測，得到所述視頻圖像的手勢檢測結果；其中，所述第二卷積網絡模型和所述第一卷積網絡模型共享特征提取層。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述對當前播放的視頻圖像進行手勢檢測之前，所述方法還包括所述方法還包括：根據含有人手標注信息的樣本圖像訓練第一卷積網絡模型，得到所述第一卷積網絡模型針對所述樣本圖像的人手候選區(qū)域的預測信息；修正所述人手候選區(qū)域的預測信息；根據修正后的所述人手候選區(qū)域的預測信息和所述樣本圖像訓練第二卷積網絡模型，其中，所述第二卷積網絡模型和所述第一卷積網絡模型共享特征提取層，并在所述第二卷積網絡模型訓練過程中保持所述特征提取層的參數(shù)不變。

可選地，結合本發(fā)明實施例提供的任一種手勢控制方法，其中，所述確定待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置，包括：通過所述手勢和預先訓練的、用于從視頻圖像檢測業(yè)務對象的展現(xiàn)位置的第三卷積網絡模型，確定與檢測到的所述手勢相應的待顯示的業(yè)務對象的展現(xiàn)位置。

根據本發(fā)明實施例的另一方面，提供一種手勢控制裝置。所述裝置包括：手勢檢測模塊，用于對當前播放的視頻圖像進行手勢檢測；展現(xiàn)位置確定模塊，用于在檢測到手勢與預定手勢匹配時，確定待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置；業(yè)務對象繪制模塊，用于在所述展現(xiàn)位置采用計算機繪圖方式繪制所述業(yè)務對象。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述展現(xiàn)位置確定模塊包括：特征點提取單元，用于提取與檢測到的所述手勢相應的人手候選區(qū)域內手部的特征點；展現(xiàn)位置確定單元，用于根據所述手部的特征點，確定與檢測到的所述手勢相應的待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述展現(xiàn)位置確定單元，用于根據所述手部的特征點和所述待顯示的業(yè)務對象的類型，確定與檢測到的所述手勢相應的所述待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述展現(xiàn)位置確定單元，用于根據所述手部的特征點和所述待顯示的業(yè)務對象的類型，確定與檢測到的所述手勢相應的所述待顯示的業(yè)務對象在所述視頻圖像中的多個展現(xiàn)位置；從所述多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述展現(xiàn)位置確定模塊，用于當確定檢測到的所述手勢與對應的預定手勢相匹配時，確定與所述預定手勢相應的待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置作為與檢測到的所述手勢相應的待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述展現(xiàn)位置確定模塊，用于從預先存儲的手勢與展現(xiàn)位置的對應關系中，獲取所述預定手勢對應的目標展現(xiàn)位置作為與檢測到的所述手勢相應的待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述業(yè)務對象為包含有語義信息的特效，所述視頻圖像為直播類視頻圖像。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述業(yè)務對象包括包含廣告信息的以下至少一種形式的特效：二維貼紙?zhí)匦?、三維特效、粒子特效。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述展現(xiàn)位置包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設定范圍內的區(qū)域、視頻圖像中預先設定的區(qū)域。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述手勢包括以下至少之一：揮手、剪刀手、握拳、托手、鼓掌、手掌張開、手掌閉合、豎大拇指、擺手槍姿勢、擺v字手和擺ok手。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述手勢檢測模塊，用于采用預先訓練的第一卷積網絡檢測所述視頻圖像，獲得所述視頻圖像的第一特征信息和人手候選區(qū)域的預測信息，所述第一特征信息包括手部特征信息；將所述第一特征信息和所述人手候選區(qū)域的預測信息作為預先訓練的第二卷積網絡模型的第二特征信息，并采用所述第二卷積網絡模型根據所述第二特征信息進行所述視頻圖像的手勢檢測，得到所述視頻圖像的手勢檢測結果；其中，所述第二卷積網絡模型和所述第一卷積網絡模型共享特征提取層。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述裝置還包括：人手區(qū)域確定模塊，用于根據含有人手標注信息的樣本圖像訓練第一卷積網絡模型，得到所述第一卷積網絡模型針對所述樣本圖像的人手候選區(qū)域的預測信息；修正模塊，用于修正所述人手候選區(qū)域的預測信息；卷積模型訓練模塊，用于根據修正后的所述人手候選區(qū)域的預測信息和所述樣本圖像訓練第二卷積網絡模型，其中，所述第二卷積網絡模型和所述第一卷積網絡模型共享特征提取層，并在所述第二卷積網絡模型訓練過程中保持所述特征提取層的參數(shù)不變。

可選地，結合本發(fā)明實施例提供的任一種手勢控制裝置，其中，所述展現(xiàn)位置確定模塊，用于通過所述手勢和預先訓練的、用于從視頻圖像檢測業(yè)務對象的展現(xiàn)位置的第三卷積網絡模型，確定與檢測到的所述手勢相應的待顯示的業(yè)務對象的展現(xiàn)位置。

根據本發(fā)明實施例的又一方面，提供一種終端設備。所述終端設備包括：處理器、存儲器、通信接口和通信總線，所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信；所述存儲器用于存放至少一可執(zhí)行指令，所述可執(zhí)行指令使所述處理器執(zhí)行如上述提供的手勢控制方法對應的操作。

根據本發(fā)明實施例的又一方面，還提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有：用于對當前播放的視頻圖像進行手勢檢測的可執(zhí)行指令；用于在檢測到手勢與預定手勢匹配時，確定待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置的可執(zhí)行指令；用于在所述展現(xiàn)位置采用計算機繪圖方式繪制所述業(yè)務對象的可執(zhí)行指令。

根據本發(fā)明實施例提供的手勢控制方法、裝置和終端設備，通過對當前播放的視頻圖像進行人手和手勢檢測，并確定與檢測到的手勢相應的展現(xiàn)位置，進而在視頻圖像的上述展現(xiàn)位置采用計算機繪圖方式繪制待顯示的業(yè)務對象，這樣當業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，該業(yè)務對象與視頻播放相結合，無須通過網絡傳輸與視頻無關的額外廣告視頻數(shù)據，節(jié)約了網絡資源和/或客戶端的系統(tǒng)資源；另一方面，業(yè)務對象與視頻圖像中的手勢緊密結合，既保留了視頻圖像中視頻主體(如主播)的主要形象和動作，又為視頻圖像增加了趣味性，同時還不會打擾用戶正常觀看視頻，從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務對象的反感，而且能夠在一定程度上吸引觀眾的注意力，提高業(yè)務對象的影響力。

附圖說明

圖1是示出根據本發(fā)明實施例一的一種手勢控制方法的流程圖；

圖2是示出根據本發(fā)明實施例二的一種第一卷積網絡模型和第二卷積網絡模型的獲取方法的流程圖；

圖3是示出根據本發(fā)明實施例三的一種手勢控制方法的流程圖；

圖4是示出根據本發(fā)明實施例四的一種手勢控制方法的流程圖；

圖5是示出根據本發(fā)明實施例五的一種手勢控制裝置的結構框圖；

圖6是示出根據本發(fā)明實施例六的一種手勢控制裝置的結構框圖；

圖7是示出根據本發(fā)明實施例七的一種終端設備的結構示意圖。

具體實施方式

下面結合附圖詳細描述本發(fā)明的示例性實施例。

實施例一

圖1是示出根據本發(fā)明實施例一的手勢控制方法的流程圖。通過包括手勢控制裝置的計算機系統(tǒng)執(zhí)行所述方法。

參照圖1，在步驟s110，對當前播放的視頻圖像進行手勢檢測。

其中，視頻圖像可以是正在直播的直播視頻的圖像，也可以是已錄制完成的視頻中的視頻圖像，還可以是正在錄制過程中的視頻圖像等。手勢可以包括揮手、剪刀手、握拳、托手、手掌的閉合或張開等。

在實施中，以視頻直播為例，目前，視頻直播平臺包括多個，如花椒直播平臺、yy直播平臺等，每一個直播平臺包括有多個直播房間，而每個直播房間中會包括至少一個主播，主播可以通過終端設備(如手機、平板電腦或pc等)的攝像頭向其所在的直播房間中的粉絲直播視頻圖像。上述視頻圖像中的主體通常為一個主要人物(即主播)和簡單的背景，主播常常在視頻圖像中所占的區(qū)域較大。當需要在視頻直播的過程中插入業(yè)務對象(如廣告等)時，可以獲取當前視頻直播過程中的視頻圖像作為待處理的視頻圖像。

此外，視頻圖像也可以是已錄制完成的短視頻中的視頻圖像，對于此種情況，用戶可以使用其終端設備播放該短視頻，在播放的過程中，終端設備可以獲取每一幀視頻圖像作為待處理的視頻圖像。

另外，對于視頻圖像是正在錄制過程中的視頻圖像的情況，在錄制的過程中，終端設備可以獲取錄制的每一幀視頻圖像作為待處理的視頻圖像。

進一步地，播放視頻圖像的終端設備或者主播使用的終端設備中設置有對視頻圖像進行人手檢測和人手所在的人手候選區(qū)域中的手勢檢測的機制，通過上述機制可以對當前播放的每一幀視頻圖像(即上述待處理的視頻圖像)進行檢測，確定待處理的視頻圖像中是否包括主播的手部信息，如果包括，則獲取該視頻圖像，如果不包括，則可以丟棄該視頻圖像或者不對該視頻圖像做任何處理，并獲取下一幀視頻圖像繼續(xù)進行上述處理。其中，手部信息可包括但不限于手指狀態(tài)和位置、手掌的狀態(tài)和位置、手部的合攏和張開等。

對于包含手部信息(或者說人手)的視頻圖像，可從該視頻圖像中檢測人手所在的人手候選區(qū)域，其中，人手候選區(qū)域可以是視頻圖像中能覆蓋整個人手候選區(qū)域的最小矩形區(qū)域或者其它形狀(如橢圓形等)的區(qū)域。一種可行的處理過程可以為，終端設備獲取當前正在播放的一幀視頻圖像作為待處理的視頻圖像，通過預先設定的機制可以從該視頻圖像中截取出包括人手候選區(qū)域的圖像，然后，可以通過預先設定的機制對人手候選區(qū)域的圖像進行分析和特征提取，得到人手候選區(qū)域中各個部分(包括手指、手掌等)的特征數(shù)據，通過對該特征數(shù)據的分析，確定視頻圖像中人手候選區(qū)域中的手勢屬于揮手、剪刀手、握拳、托手、手掌的閉合或張開等手勢中的哪一種。

此外，為了后續(xù)更準確快速的確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置，可以通過手部位置對業(yè)務對象的展現(xiàn)位置進行限制，其中，手部位置可以是上述人手候選區(qū)域的中心位置，也可以是人手候選區(qū)域的矩形區(qū)域或橢圓形區(qū)域等的多個邊緣位置確定的坐標位置等。例如，可以在視頻圖像中確定手部所在的區(qū)域后，對該人手候選區(qū)域進行分析計算，確定該人手候選區(qū)域的中心位置作為手部位置，具體如，人手候選區(qū)域為矩形區(qū)域，則可以計算該矩形區(qū)域的對角線長度，可以選取該對角線的中間位置作為手部位置，從而可得到基于人手候選區(qū)域確定的手部位置。其中，除了可以使用人手候選區(qū)域的中心位置作為手部位置外，還可以通過人手候選區(qū)域的矩形區(qū)域或橢圓形區(qū)域等的多個邊緣位置作為手部位置，具體處理可以參見上述以中心位置作為手部位置的內容，在此不再贅述。

在步驟s120，在檢測到手勢與預定手勢匹配時，確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

其中，待顯示的業(yè)務對象是根據一定的業(yè)務需求而創(chuàng)建的對象，例如廣告等。展現(xiàn)位置可以是視頻圖像中指定區(qū)域的中心位置，或者可以是上述指定區(qū)域中多個邊緣位置的坐標位置等。

在實施中，可以預先存儲多種不同的手勢的特征數(shù)據，并對不同的手勢進行相應的標記，以區(qū)分各個手勢所代表的含義。通過上述步驟s110的處理可以從待處理的視頻圖像中檢測人手和人手所在的人手候選區(qū)域以及該人手候選區(qū)域中的手勢，可以將檢測到的手部的手勢分別與預先存儲的每一種手勢進行比對，如果預先存儲的多種不同的手勢中包括與檢測到手部的手勢相同的手勢，則可以確定檢測到的手勢與對應的預定手勢相匹配。

為了提高匹配的準確度，可以通過計算的方式確定上述匹配結果，例如，可以設置匹配算法計算任意兩個手勢之間的匹配度，例如，可以使用檢測到手勢的特征數(shù)據和預先存儲的任一種手勢的特征數(shù)據進行匹配計算，得到兩者之間的匹配度數(shù)值。通過上述方式分別計算得到檢測到的手勢與預先存儲的每一種手勢之間的匹配度數(shù)值，從得到的匹配度數(shù)值中選取最大的匹配度數(shù)值，如果該最大的匹配度數(shù)值超過預定的匹配閾值，則可以確定最大的匹配度數(shù)值對應的預先存儲的手勢與檢測到的手部的手勢相匹配。如果該最大的匹配度數(shù)值未超過預定的匹配閾值，則匹配失敗，即檢測到的手部的手勢不是預定手勢，此時，可以繼續(xù)執(zhí)行上述步驟s110的處理。

進一步地，當確定檢測到的手勢與對應的預定手勢相匹配時，可以先確定匹配到的手部的手勢所代表的含義，可以在預先設定的多個展現(xiàn)位置中選取與其含義相關或相應的展現(xiàn)位置作為待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。另外，對于上述步驟s110的處理中確定的手部位置的情況，還可以在預先設定的多個展現(xiàn)位置中選取與其含義、以及手部位置相關或相應的展現(xiàn)位置作為待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。例如，以視頻直播為例，當檢測到主播進行托手的手勢時，可以將人手候選區(qū)域的上部區(qū)域選取為與其相關或相應的展現(xiàn)位置。又例如，當檢測到主播揮手的手勢時，可以將手掌區(qū)域或其背景區(qū)域選取為與其相關或相應的展現(xiàn)位置。

在步驟s130，在展現(xiàn)位置采用計算機繪圖方式繪制業(yè)務對象。

例如，以視頻直播為例，當檢測到主播進行托手的手勢時，可以在視頻圖像中主播的人手候選區(qū)域中手掌的上方區(qū)域內采用計算機繪圖方式繪制相應的業(yè)務對象(如帶有預定商品標識的圖片廣告等)，如果粉絲對該業(yè)務對象感興趣，則可以點擊該業(yè)務對象所在的區(qū)域，粉絲的終端設備可以獲取該業(yè)務對象對應的網絡鏈接，并通過該網絡鏈接進入與該業(yè)務對象相關的頁面，粉絲可以在該頁面中獲取與該業(yè)務對象相關的資源。

其中，對業(yè)務對象的繪制可以通過適當?shù)膱D形圖像繪制或渲染等方式實現(xiàn)，包括但不限于：基于opengl、opencl或unity圖形繪制引擎進行繪制等。opengl和opencl定義了一個跨編程語言、跨平臺的編程接口規(guī)格的專業(yè)的圖形程序接口，其與硬件無關，可以方便地進行2d或3d圖形圖像的繪制。通過opengl、opencl或unity，不僅可以實現(xiàn)2d效果如2d貼紙的繪制，還可以實現(xiàn)3d特效的繪制及粒子特效的繪制等等。

本發(fā)明實施例提供的手勢控制方法，通過對當前播放的視頻圖像進行人手和手勢檢測，并確定與檢測到的手勢相應的展現(xiàn)位置，進而在視頻圖像的上述展現(xiàn)位置采用計算機繪圖方式繪制待顯示的業(yè)務對象，這樣當業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，該業(yè)務對象與視頻播放相結合，無須通過網絡傳輸與視頻無關的額外廣告視頻數(shù)據，節(jié)約了網絡資源和/或客戶端的系統(tǒng)資源；另一方面，業(yè)務對象與視頻圖像中的手勢緊密結合，既保留了視頻圖像中視頻主體(如主播)的主要形象和動作，又為視頻圖像增加了趣味性，同時還不會打擾用戶正常觀看視頻，從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務對象的反感，而且能夠在一定程度上吸引觀眾的注意力，提高業(yè)務對象的影響力。

實施例二

圖2是示出根據本發(fā)明實施例二的第一卷積網絡模型和第二卷積網絡模型的獲取方法的流程圖。

上述實施例一中步驟s110的對當前播放的視頻圖像進行手勢檢測的處理可以采用相應的特征提取算法或者使用神經網絡模型如卷積網絡模型等實現(xiàn)。本實施例中以卷積網絡模型為例，對視頻圖像進行人手所在的人手候選區(qū)域和手勢檢測，為此，可以預先訓練用于檢測圖像中人手候選區(qū)域的第一卷積網絡模型和用于從人手候選區(qū)域檢測手勢的第二卷積網絡模型。其中，手勢包括：揮手、剪刀手、握拳、托手、鼓掌、手掌張開、手掌閉合、豎大拇指、擺手槍姿勢、擺v字手和擺ok手，業(yè)務對象為包含有語義信息的特效，該業(yè)務對象包括包含廣告信息的以下至少一種形式的特效：二維貼紙?zhí)匦А⑷S特效、粒子特效。

本實施例的手勢控制方法可以由任意具有數(shù)據采集、處理和傳輸功能的設備執(zhí)行，包括但不限于移動終端和pc等，本發(fā)明實施對此不做限定。

參照圖2，在步驟s210，根據含有人手標注信息的樣本圖像訓練第一卷積網絡模型，得到第一卷積網絡模型針對樣本圖像的人手候選區(qū)域的預測信息。

其中，含有人手標注信息的樣本圖像可以是來源于圖像采集設備的視頻圖像，由一幀一幀的圖像組成，也可以為單獨的一幀圖像或者一幅圖像，還可以來源于其他設備，然后在樣本圖像中進行標注操作。具體可以在樣本圖像中標注多個候選區(qū)域。本實施例對含有人手標注信息的樣本圖像的來源和獲得途徑等不做限定。本發(fā)明實施例中，人手候選區(qū)域與上述內容提到的人手候選區(qū)域相同。

人手候選區(qū)域的預測信息可以包括：樣本圖像中的人手所在區(qū)域的位置信息，例如，坐標點信息或者像素點信息；人手所在區(qū)域中人手的完整度信息，例如，人手所在區(qū)域中包括一只完整的人手或者只包括一只手指；人手所在區(qū)域中具體的手勢信息，例如，手勢類型，等等。本實施例對人手候選區(qū)域的預測信息的具體內容不做限定。

在實施中，由于圖像的分辨率越大其數(shù)據量也就越大，后續(xù)進行人手候選區(qū)域和手勢檢測時，所需要的計算資源越多，檢測速度越慢，鑒于此，在本發(fā)明的一種具體實現(xiàn)方式中，上述樣本圖像可以是滿足預設分辨率條件的圖像。例如，上述預設分辨率條件可以是：圖像的最長邊不超過640個像素點，最短邊不超過480個像素點等等。

得到樣本圖像后，可以在每張樣本圖像中標注(可以通過人工標注的方式)人手候選區(qū)域和手勢的信息，得到標注有人手候選區(qū)域的多個樣本圖像。其中，標注的人手候選區(qū)域可以是圖像中能覆蓋整手的最小矩形區(qū)域或橢圓形區(qū)域等。

第一卷積網絡模型可以包括：第一輸入層、第一輸出層和多個第一卷積層，其中，第一輸入層用于輸入圖像，多個第一卷積層用于對圖像進行檢測得到人手候選區(qū)域，然后將人手候選區(qū)域通過第一輸出層輸出。各層的網絡參數(shù)以及第一卷積層的層數(shù)可以由人工設定，也可以隨機設定，具體可以是依據實際需求確定。

具體地，第一卷積網絡模型采用多個第一卷積層對樣本圖像進行處理時，即對樣本圖像進行特征提取，第一卷積網絡模型獲得樣本圖像中的人手候選區(qū)域時，通過第一輸入層獲得樣本圖像，然后通過第一卷積層提取樣本圖像的特征，并結合所提取的特征確定樣本圖像中的人手候選區(qū)域，然后將結果通過第一輸出層輸出。

獲取樣本圖像中手部所在區(qū)域的標注信息，以該標注信息作為訓練依據，將樣本圖像輸入道第一卷積網絡模型的初始模型中，可采用梯度下降法和反向傳播算法進行模型訓練，得到第一卷積網絡模型。訓練得到第一卷積網絡模型時，可以先訓練得到第一輸入層參數(shù)、第一輸出層參數(shù)和多個第一卷積層參數(shù)，然后再根據所獲得的參數(shù)，構建第一卷積網絡模型。

具體可以使用含有人手標注信息的樣本圖像對第一卷積網絡模型進行訓練，為使得訓練得到的第一卷積網絡模型更加準確，在選擇樣本圖像時可以選擇多種情況下的樣本圖像，樣本圖像中可以包括標注有人手信息的樣本圖像，還可以包括未標注有人手信息的樣本圖像。

而且，本實施例中，第一卷積網絡模型可以是rpn(regionproposalnetwork)，當然，本實施例只是以此為例進行說明，實際應用中第一卷積網絡模型并不僅限于此，例如，還可以是multi-boxnetwork或者yolo等。

在步驟s220，修正人手候選區(qū)域的預測信息。

本實施例中，訓練第一卷積網絡模型得到的樣本圖像的人手候選區(qū)域的預測信息是粗略判斷結果，可能存在一定的錯誤率。而且，人手候選區(qū)域的預測信息在后續(xù)步驟中作為訓練第二卷積網絡模型的輸入項，因此在訓練第二卷積網絡模型之前，將訓練第一卷積網絡模型得到的粗略判斷結果進行修正。

具體的修正過程可以通過手動修正，或引入其他卷積網絡模型進行錯誤結果的過濾等，修正的目的在于，在保證第二卷積網絡模型的輸入信息準確的情況下，提高訓練第二卷積網絡模型的準確率。本實施例對具體的修正過程不做限定。

在步驟s230，根據修正后的人手候選區(qū)域的預測信息和樣本圖像訓練第二卷積網絡模型。

其中，第二卷積網絡模型和第一卷積網絡模型共享特征提取層，并在第二卷積網絡模型訓練過程中保持特征提取層的參數(shù)不變。

在實施中，第二卷積網絡模型可以包括：第二輸入層、第二輸出層、多個第二卷積層和多個全連接層。第二卷積層主要用于進行特征提取，全連接層相當于分類器，對第二卷積層提取出的特征進行分類，第二卷積網絡模型獲得針對樣本圖像中的手勢檢測結果時，通過第二輸入層獲得人手候選區(qū)域，然后通過第二卷積層提取上述人手候選區(qū)域的特征，全連接層根據人手候選區(qū)域的特征進行分類處理，確定樣本圖像中是否包含人手，以及包含人手的情況下，人手候選區(qū)域和手部的手勢，最后將分類結果通過第二輸出層輸出。

由于第一卷積網絡模型和第二卷積網絡模型中均包含卷積層，為了便于進行模型訓練，減小計算量，可以將上述兩個卷積網絡模型中的特征提取層的網絡參數(shù)設置為相同的網絡參數(shù)，即第二卷積網絡模型和第一卷積網絡模型共享特征提取層，并在第二卷積網絡模型訓練過程中保持特征提取層的參數(shù)不變。

基于此，在本實施例中，訓練得到第二卷積網絡模型時，可以先訓練得到輸入層的網絡參數(shù)和分類層的網絡參數(shù)，再將第一卷積網絡模型的特征提取層的網絡參數(shù)確定為第二卷積網絡模型的特征提取層的網絡參數(shù)，然后根據輸入層的網絡參數(shù)、分類層的網絡參數(shù)和特征提取層的網絡參數(shù)構建第二卷積網絡模型。

具體可以使用修正后的人手候選區(qū)域的預測信息和樣本圖像對第二卷積網絡模型進行訓練，為使得訓練得到的第二卷積網絡模型更加準確，在選擇樣本圖像時可以選擇多種情況下的樣本圖像，樣本圖像中可以包括標注有手勢的樣本圖像，還可以包括未標注有手勢的樣本圖像。

而且，本實施例中的樣本圖像可以為滿足上述分辨率條件或者其他分辨率條件的樣本圖像。

通過本實施例提供的手勢控制方法，分別訓練兩個卷積網絡模型：根據含有人手標注信息的樣本圖像訓練第一卷積網絡模型，得到第一卷積網絡模型針對樣本圖像的人手候選區(qū)域的預測信息；修正人手候選區(qū)域的預測信息；根據修正后的人手候選區(qū)域的預測信息和樣本圖像訓練第二卷積網絡模型。其中，第一卷積網絡模型和第二卷積網絡模型存在如下關聯(lián)關系：第一卷積網絡模型和第二卷積網絡模型共享特征提取層，并在第二卷積網絡模型訓練過程中保持特征提取層的參數(shù)不變。

由于訓練第一卷積網絡模型得到的樣本圖像的人手候選區(qū)域的預測信息是粗略判斷結果，可能存在一定的錯誤率，因此在訓練第二卷積網絡模型之前，先將訓練第一卷積網絡模型得到的粗略判斷結果進行修正(如通過手動進行修正，或引入其他卷積網絡模型進行錯誤結果的過濾等)，再將修正后的人手候選區(qū)域的預測信息和樣本圖像作為第二卷積網絡模型的輸入，在保證第二卷積網絡模型的輸入信息準確的情況下，提高了訓練第二卷積網絡模型的準確率。

而且，第一卷積網絡模型和第二卷積網絡模型共享特征提取層，并在第二卷積網絡模型訓練過程中保持特征提取層的參數(shù)不變，第二卷積網絡模型的特征提取層可以直接利用第一卷積網絡模型的特征提取層，為訓練第二卷積網絡模型提供了便利，減少了訓練第二卷積網絡模型的計算量。

本實施例中，通過訓練得到的第一卷積網絡模型和第一卷積網絡模型，可方便后續(xù)對當前播放的視頻圖像進行人手和手勢檢測，并確定與檢測到的手勢相應的展現(xiàn)位置，進而在視頻圖像的上述展現(xiàn)位置采用計算機繪圖方式繪制待顯示的業(yè)務對象，這樣當業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，該業(yè)務對象與視頻播放相結合，無須通過網絡傳輸與視頻無關的額外廣告視頻數(shù)據，節(jié)約了網絡資源和/或客戶端的系統(tǒng)資源；另一方面，業(yè)務對象與視頻圖像中的手勢緊密結合，既保留了視頻圖像中視頻主體(如主播)的主要形象和動作，又為視頻圖像增加了趣味性，同時還不會打擾用戶正常觀看視頻，從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務對象的反感，而且能夠在一定程度上吸引觀眾的注意力，提高業(yè)務對象的影響力。

實施例三

圖3是示出根據本發(fā)明實施例三的手勢控制方法的流程圖。其中，視頻圖像為直播類視頻圖像，業(yè)務對象為包含有語義信息的特效，具體可包括包含廣告信息的以下至少一種形式的特效：二維貼紙?zhí)匦?、三維特效、粒子特效等。

在步驟s310，獲取當前播放的視頻圖像。

其中，上述步驟s310的步驟內容可以參見上述實施例一中步驟s110中的相關內容，在此不再贅述。

本實施例中，可以通過視頻圖像和預先訓練的卷積網絡模型確定手部信息對應的人手候選區(qū)域，并在人手候選區(qū)域檢測手部的手勢，相應的處理參見下述步驟s320～步驟s330。

在步驟s320，采用預先訓練的第一卷積網絡檢測視頻圖像，獲得視頻圖像的第一特征信息和人手候選區(qū)域的預測信息。

其中，第一特征信息包括手部特征信息。第一卷積網絡模型可以用于檢測圖像劃分的多個候選區(qū)域是否為人手候選區(qū)域。

在實施中，可以將獲取到的包含手部信息的視頻圖像輸入到上述實施例二中訓練得到的第一卷積網絡模型中，通過第一卷積網絡模型中的網絡參數(shù)可以分別對視頻圖像進行如特征提取、映射和變換等處理，以對視頻圖像進行人手候選區(qū)域檢測，得到視頻圖像中包含的人手候選區(qū)域。人手候選區(qū)域的預測信息可以參照上述實施例中的介紹和說明，在此不再贅述。

在步驟s330，將第一特征信息和人手候選區(qū)域的預測信息作為預先訓練的第二卷積網絡模型的第二特征信息，并采用第二卷積網絡模型根據第二特征信息進行視頻圖像的手勢檢測，得到視頻圖像的手勢檢測結果。

其中，第二卷積網絡模型和第一卷積網絡模型共享特征提取層。手勢包括以下至少之一：揮手、剪刀手、握拳、托手、鼓掌、手掌張開、手掌閉合、豎大拇指、擺手槍姿勢、擺v字手和擺ok手。

上述步驟s330的處理過程可以參見上述實施例中的相關內容，在此不再贅述。

在步驟s340，在檢測到手勢與預定手勢匹配時，提取與檢測到的手勢相應的人手候選區(qū)域內手部的特征點。

在實施中，對于包含手部信息的每個視頻圖像，其中手部都會包含有一定的特征點，如手指、手掌、手部輪廓等特征點。對視頻圖像中的人手進行檢測并確定特征點，可以采用任意適當?shù)南嚓P技術中的方式實現(xiàn)，本發(fā)明實施例對此不作限定。例如，線性特征提取方式如pca主成分分析、lda線性判別分析、ica獨立成分分析等；再例如非線性特征提取方式如kernelpca核主成分分析、流形學習等；也可以使用訓練完成的神經網絡模型如本發(fā)明實施例中的卷積網絡模型進行手部的特征點的提取。

以視頻直播為例，在進行視頻直播的過程中，從直播的視頻圖像中檢測人手并確定手部的特征點；再例如，在某一已錄制完成的視頻的播放過程中，從播放的視頻圖像中檢測人手并確定手部的特征點；又例如，在某一視頻的錄制過程中，從錄制的視頻圖像中檢測人手并確定手部的特征點等等。

在步驟s350，根據手部的特征點，確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

在實施中，在手部的特征點確定后，可以以手部的特征點為依據，確定待顯示的業(yè)務對象在視頻圖像中的一個或多個展現(xiàn)位置。

在本實施例中，在根據手部的特征點確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置時，可行的實現(xiàn)方式包括：

方式一，根據手部的特征點，使用預先訓練的、用于從視頻圖像檢測業(yè)務對象的展現(xiàn)位置的第三卷積網絡模型，在視頻圖像中確定與手部位置相應的待顯示的業(yè)務對象的展現(xiàn)位置；方式二，根據手部的特征點和待顯示的業(yè)務對象的類型，在視頻圖像中確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

以下，分別對上述兩種方式進行詳細說明。

方式一

在使用方式一確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置時，需要預先訓練一個卷積網絡模型(即第三卷積網絡模型)，訓練完成的第三卷積網絡模型具有確定業(yè)務對象在視頻圖像中的展現(xiàn)位置的功能；或者，也可以直接使用第三方已訓練完成的、具有確定業(yè)務對象在視頻圖像中的展現(xiàn)位置的功能的卷積網絡模型。

需要說明的是，本實施例中，著重對業(yè)務對象的訓練進行說明，但本領域技術人員應當明了，第三卷積網絡模型在對業(yè)務對象進行訓練的同時，也可以對手部進行訓練，實現(xiàn)手部和業(yè)務對象的聯(lián)合訓練。

當需要預先訓練第三卷積網絡模型時，一種可行的訓練方式包括以下過程：

(1)獲取待訓練的業(yè)務對象樣本圖像的特征向量。

其中，特征向量中包含有業(yè)務對象樣本圖像中的業(yè)務對象的位置信息和/或置信度信息。業(yè)務對象的置信度信息指示了業(yè)務對象展示在當前位置時，能夠達到的效果(如被關注或被點擊或被觀看)的概率，該概率可以根據對歷史數(shù)據的統(tǒng)計分析結果設定，也可以根據仿真實驗的結果設定，還可以根據人工經驗進行設定。在實際應用中，可以根據實際需要，僅對業(yè)務對象的位置信息進行訓練，也可以僅對業(yè)務對象的置信度信息進行訓練，還可以對二者均進行訓練。對二者均進行訓練，能夠使得訓練后的第三卷積網絡模型更為有效和精準地確定業(yè)務對象的位置信息和置信度信息，以便為業(yè)務對象的展示提供依據。

第三卷積網絡模型通過大量的樣本圖像進行訓練，本發(fā)明實施例中，需要使用包含有業(yè)務對象的業(yè)務對象樣本圖像對第三卷積網絡模型進行訓練，本領域技術人員應當明了的是，用來訓練的業(yè)務對象樣本圖像中，除了包含業(yè)務對象外，也應當包含手部信息。此外，本發(fā)明實施例中的業(yè)務對象樣本圖像中的業(yè)務對象可以被預先標注位置信息，或者置信度信息，或者二種信息都有。當然，在實際應用中，這些信息也可以通過其它途徑獲取。而通過預先在對業(yè)務對象進行相應信息的標注，可以有效節(jié)約數(shù)據處理的數(shù)據和交互次數(shù)，提高數(shù)據處理效率。

將具有業(yè)務對象的位置信息和/或置信度信息的業(yè)務對象樣本圖像作為訓練樣本，對其進行特征向量提取，獲得包含有業(yè)務對象的位置信息和/或置信度信息的特征向量。

可選地，可以使用第三卷積網絡模型對手部和業(yè)務對象同時進行訓練，在此情況下，業(yè)務對象樣本圖像的特征向量中，也應當包含手部的特征。

對特征向量的提取可以采用相關技術中的適當方式實現(xiàn)，本發(fā)明實施例在此不再贅述。

(2)對特征向量進行卷積處理，獲取特征向量卷積結果。

在實施中，獲取的特征向量卷積結果中包含有業(yè)務對象的位置信息和/或置信度信息。在對手部和業(yè)務對象進行聯(lián)合訓練的情況下，特征向量卷積結果中還包含手部信息。

對特征向量的卷積處理次數(shù)可以根據實際需要進行設定，也即，第三卷積網絡模型中，卷積層的層數(shù)根據實際需要進行設置，在此不再贅述。

卷積結果是對特征向量進行了特征提取后的結果，該結果能夠有效表征視頻圖像中手部的特征。

本發(fā)明實施例中，當特征向量中既包含業(yè)務對象的位置信息，又包含業(yè)務對象的置信度信息時，也即，對業(yè)務對象的位置信息和置信度信息均進行了訓練的情況下，該特征向量卷積結果在后續(xù)分別進行收斂條件判斷時共享，無須進行重復處理和計算，減少了由數(shù)據處理引起的資源損耗，提高了數(shù)據處理速度和效率。

(3)判斷特征向量卷積結果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件。

其中，收斂條件由本領域技術人員根據實際需求適當設定。當信息滿足收斂條件時，可以認為第三卷積網絡模型中的網絡參數(shù)設置適當；當信息不能滿足收斂條件時，可以認為第三卷積網絡模型中的網絡參數(shù)設置不適當，需要對其進行調整，該調整是一個迭代的過程，直至使用調整后的網絡參數(shù)對特征向量進行卷積處理的結果滿足收斂條件。

一種可行方式中，收斂條件可以根據預設的標準位置和/或預設的標準置信度進行設定，如，將特征向量卷積結果中業(yè)務對象的位置信息指示的位置與預設的標準位置之間的距離是否滿足一定閾值作為業(yè)務對象的位置信息的收斂條件；將特征向量卷積結果中業(yè)務對象的置信度信息指示的置信度與預設的標準置信度之間的差別是否滿足一定閾值作為業(yè)務對象的置信度信息的收斂條件等。

其中，優(yōu)選地，預設的標準位置可以是對待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的位置進行平均處理后獲得的平均位置；預設的標準置信度可以是對待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的置信度進行平均處理后獲取的平均置信度。因樣本圖像為待訓練樣本且數(shù)據量龐大，可依據待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的位置和/或置信度設定標準位置和/或標準置信度，這樣設定的標準位置和標準置信度也更為客觀和精確。

在具體進行特征向量卷積結果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件的判斷時，一種可行的方式包括：

獲取特征向量卷積結果中對應的業(yè)務對象的位置信息，通過計算對應的業(yè)務對象的位置信息指示的位置與預設的標準位置之間的歐式距離，得到對應的業(yè)務對象的位置信息指示的位置與預設的標準位置之間的第一距離，根據第一距離判斷對應的業(yè)務對象的位置信息是否滿足收斂條件；

和/或，

獲取特征向量卷積結果中對應的業(yè)務對象的置信度信息，計算對應的業(yè)務對象的置信度信息指示的置信度與預設的標準置信度之間的歐式距離，得到對應的業(yè)務對象的置信度信息指示的置信度與預設的標準置信度之間的第三距離，根據第三距離判斷對應的業(yè)務對象的置信度信息是否滿足收斂條件。其中，采用歐式距離的方式，實現(xiàn)簡單且能夠有效指示收斂條件是否被滿足。但不限于此，其它方式，如馬式距離，巴式距離等也同樣適用。

優(yōu)選地，如前所述，預設的標準位置為對待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的位置進行平均處理后獲得的平均位置；和/或，預設的標準置信度為對待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的置信度進行平均處理后獲取的平均置信度。

(4)若滿足收斂條件，則完成對卷積網絡模型的訓練；若不滿足收斂條件，則根據特征向量卷積結果中對應的業(yè)務對象的位置信息和/或置信度信息，調整第三卷積網絡模型的網絡參數(shù)并根據調整后的第三卷積網絡模型的網絡參數(shù)對第三卷積網絡模型進行迭代訓練，直至迭代訓練后的業(yè)務對象的位置信息和/或置信度信息滿足收斂條件。

通過對第三卷積網絡模型進行上述訓練，第三卷積網絡模型可以對基于手部進行展示的業(yè)務對象的展現(xiàn)位置進行特征提取和分類，從而具有確定業(yè)務對象在視頻圖像中的展現(xiàn)位置的功能。其中，當展現(xiàn)位置包括多個時，通過上述業(yè)務對象置信度的訓練，第三卷積網絡模型還可以確定出多個展現(xiàn)位置中的展示效果的優(yōu)劣順序，從而確定最優(yōu)的展現(xiàn)位置。在后續(xù)應用中，當需要展示業(yè)務對象時，根據視頻中的當前圖像即可確定出有效的展現(xiàn)位置。

此外，在對第三卷積網絡模型進行上述訓練之前，還可以預先對業(yè)務對象樣本圖像進行預處理，包括：獲取多個業(yè)務對象樣本圖像，其中，每個業(yè)務對象樣本圖像中包含有業(yè)務對象的標注信息；根據標注信息確定業(yè)務對象的位置，判斷確定的業(yè)務對象的位置與預設位置的距離是否小于或等于設定閾值；將小于或等于設定閾值的業(yè)務對象對應的業(yè)務對象樣本圖像，確定為待訓練的業(yè)務對象樣本圖像。其中，預設位置和設定閾值均可以由本領域技術人員采用任意適當方式進行適當設置，如根據數(shù)據統(tǒng)計分析結果或者相關距離計算公式或者人工經驗等，本發(fā)明實施例對此不作限定。

通過預先對業(yè)務對象樣本圖像進行預處理，可以過濾掉不符合條件的樣本圖像，以保證訓練結果的準確性。

通過上述過程實現(xiàn)了第三卷積網絡模型的訓練，訓練完成的第三卷積網絡模型可以用來確定業(yè)務對象在視頻圖像中的展現(xiàn)位置。例如，在視頻直播過程中，若主播點擊業(yè)務對象指示進行業(yè)務對象展示時，在第三卷積網絡模型獲得了直播的視頻圖像中主播的手部特征點后，可以指示出展示業(yè)務對象的最優(yōu)位置如主播的額頭位置，進而控制直播應用在該位置展示業(yè)務對象；或者，在視頻直播過程中，若主播點擊業(yè)務對象指示進行業(yè)務對象展示時，第三卷積網絡模型可以直接根據直播的視頻圖像確定業(yè)務對象的展現(xiàn)位置。

方式二

根據手部的特征點和待顯示的業(yè)務對象的類型，在視頻圖像中確定與手部位置相應的待顯示的業(yè)務對象的展現(xiàn)位置。

在實施中，在獲取了手部的特征點之后，可以按照設定的規(guī)則確定待顯示的業(yè)務對象的展現(xiàn)位置。其中，確定待顯示的業(yè)務對象的展現(xiàn)位置包括以下至少之一：視頻圖像中人物的手掌區(qū)域、手掌的上方區(qū)域、手掌的下方區(qū)域、手掌的背景區(qū)域、手部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設定范圍內的區(qū)域、視頻圖像中預先設定的區(qū)域等。

在確定了展現(xiàn)位置后，可以進一步確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。例如，以展現(xiàn)位置對應的展現(xiàn)區(qū)域的中心點為業(yè)務對象的展現(xiàn)位置中心點進行業(yè)務對象的展示；再例如，將展現(xiàn)位置對應的展現(xiàn)區(qū)域中的某一坐標位置確定為展現(xiàn)位置的中心點等，本發(fā)明實施例對此不作限定。

在一種優(yōu)選的實施方案中，在確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置時，不僅根據手部的特征點，還根據待顯示的業(yè)務對象的類型，確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。其中，業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型，除此外，還可以包括虛擬瓶蓋類型，虛擬杯子類型、文字類型等等。

另外，還根據業(yè)務對象的類型，可以以手部的特征點和手部位置為參考，為業(yè)務對象選擇適當?shù)恼宫F(xiàn)位置。

此外，在根據手部的特征點和待顯示的業(yè)務對象的類型，獲得待顯示的業(yè)務對象在視頻圖像中的多個展現(xiàn)位置的情況下，可以從多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。例如，對于文字類型的業(yè)務對象，可以展示在背景區(qū)域，也可以展示在人物的手掌區(qū)域或手部上方區(qū)域等。

此外，可以預先存儲手勢與展現(xiàn)位置的對應關系，在確定檢測到的手勢與對應的預定手勢相匹配時，可從預先存儲的手勢與展現(xiàn)位置的對應關系中，獲取預定手勢對應的目標展現(xiàn)位置作為待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。其中，需要說明的是，盡管存在上述手勢與展現(xiàn)位置的對應關系，但是，手勢與展現(xiàn)位置并沒有必然關系，手勢僅僅是觸發(fā)業(yè)務對象展現(xiàn)的一種方式，而且展現(xiàn)位置與人手也不存在必然關系，也即是業(yè)務對象可以展現(xiàn)在手部的某一個區(qū)域，也可以顯示在手部之外的其它區(qū)域，如視頻圖像的背景區(qū)域等。而且，相同的手勢也可以觸發(fā)不同業(yè)務對象的顯示，例如，主播連續(xù)做了兩次揮手的手勢，第一次手勢可以展示二維貼紙?zhí)匦?，第二次手勢可以展示三維特效等，而且兩次特效對應的廣告等內容可以相同，也可以不同。

在步驟s360，在展現(xiàn)位置采用計算機繪圖方式繪制待顯示的業(yè)務對象。

當業(yè)務對象為包含有語義信息的二維貼紙?zhí)匦r，可以使用該貼紙進行廣告投放和展示。在進行業(yè)務對象的繪制之前，可以先獲取業(yè)務對象的相關信息，如業(yè)務對象的標識、大小等。在確定了展現(xiàn)位置后，可以根據展現(xiàn)位置的坐標，對業(yè)務對象進行縮放、旋轉等調整，然后，通過相應的繪圖方式如opengl方式對待顯示的業(yè)務對象進行繪制。在某些情況下，廣告還可以以三維特效形式展示，如通過粒子特效方式展示廣告的文字或logo等。例如，通過虛擬瓶蓋類型的二維貼紙?zhí)匦д故灸骋划a品的名稱，吸引觀眾觀看，提高廣告投放和展示效率。

本發(fā)明實施例提供的手勢控制方法，通過手勢觸發(fā)業(yè)務對象的展示，在當業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，該業(yè)務對象與視頻播放相結合，無須通過網絡傳輸與視頻無關的額外廣告視頻數(shù)據，節(jié)約了網絡資源和/或客戶端的系統(tǒng)資源；另一方面，業(yè)務對象與視頻圖像中的手勢緊密結合，既保留了視頻圖像中視頻主體(如主播)的主要形象和動作，又為視頻圖像增加了趣味性，同時還不會打擾用戶正常觀看視頻，從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務對象的反感，而且能夠在一定程度上吸引觀眾的注意力，提高業(yè)務對象的影響力。

實施例四

圖4是示出根據本發(fā)明實施例四的手勢控制方法的流程圖。

本實施例以業(yè)務對象為包含有語義信息的特效，該業(yè)務對象包括包含廣告信息的以下至少一種形式的特效：二維貼紙?zhí)匦А⑷S特效、粒子特效，具體為二維貼紙?zhí)匦槔?，對本發(fā)明實施例的手勢控制方案進行說明。

本實施例的手勢控制方法包括以下步驟：

在步驟s401，根據含有人手標注信息的樣本圖像訓練第一卷積網絡模型，得到第一卷積網絡模型針對樣本圖像的人手候選區(qū)域的預測信息。

在步驟s402，修正人手候選區(qū)域的預測信息。

在步驟s403，根據修正后的人手候選區(qū)域的預測信息和樣本圖像訓練第二卷積網絡模型。

其中，第二卷積網絡模型和第一卷積網絡模型共享特征提取層，并在第二卷積網絡模型訓練過程中保持特征提取層的參數(shù)不變。

上述步驟s401～步驟s403的步驟內容可以參見上述實施例中的相關內容，在此不再贅述。

在步驟s404，獲取待訓練的業(yè)務對象樣本圖像的特征向量。

其中，特征向量中包含有業(yè)務對象樣本圖像中的業(yè)務對象的位置信息和/或置信度信息，以及手勢對應的特征向量。待訓練的業(yè)務對象樣本圖像可以是上述含有人手標注信息的樣本圖像。

在實施中，業(yè)務對象樣本圖像中存在一些不符合第三卷積網絡模型的訓練標準的樣本圖像，需要通過對業(yè)務對象樣本圖像的預處理將這部分樣本圖像過濾掉。

首先，本實施例中，每個業(yè)務對象樣本圖像中都包含有業(yè)務對象，且每個業(yè)務對象都標注有位置信息和置信度信息。一種可行的實施方案中，將業(yè)務對象的中心點的位置信息作為該業(yè)務對象的位置信息。本步驟中，僅根據業(yè)務對象的位置信息對樣本圖像進行過濾。獲得位置信息指示的位置的坐標，將該坐標與預設的該類型的業(yè)務對象的位置坐標進行比對，計算二者的位置方差。若該位置方差小于或等于設定的閾值，則該業(yè)務對象樣本圖像可以作為待訓練的樣本圖像；若該位置方差大于設定的閾值，則過濾掉該業(yè)務對象樣本圖像。其中，預設的位置坐標和設定的閾值均可以由本領域技術人員根據實際情況適當設置，例如，因為一般用于第三卷積網絡模型訓練的圖像具有相同的大小，因此設定的閾值可以為圖像長或寬的1/20～1/5，優(yōu)選地，可以為圖像長或寬的1/10。

此外，還可以對確定的待訓練的業(yè)務對象樣本圖像中的業(yè)務對象的位置和置信度進行平均，獲取平均位置和平均置信度，該平均位置和平均置信度可以作為后續(xù)確定收斂條件的依據。

當以業(yè)務對象為二維貼紙?zhí)匦閷嵗龝r，本實施例中用于訓練的業(yè)務對象樣本圖像需要標注有最優(yōu)廣告位置的坐標和該廣告位的置信度。其中，最優(yōu)廣告位置可以在手部、前背景等地方標注，因此可以實現(xiàn)手部特征點、前背景等地方的廣告位的聯(lián)合訓練，這相對于基于手部一項技術單獨訓練的方案，有利于節(jié)省計算資源。置信度的大小表示了這個廣告位是最優(yōu)廣告位的概率，例如，如果這個廣告位是被遮擋多，則置信度低。

在步驟s405，對特征向量進行卷積處理，獲取特征向量卷積結果。

在步驟s406，判斷該特征向量卷積結果中對應的業(yè)務對象的位置信息和/或置信度信息是否滿足收斂條件。

在步驟s407，若滿足，則完成對第三卷積網絡模型的訓練；若不滿足，則根據特征向量卷積結果中對應的業(yè)務對象的位置信息和/或置信度信息，調整第三卷積網絡模型的網絡參數(shù)并根據調整后的第三卷積網絡模型的網絡參數(shù)對第三卷積網絡模型進行迭代訓練，直至迭代訓練后的業(yè)務對象的位置信息和/或置信度信息滿足收斂條件。

上述步驟s404～步驟s407的具體處理可以參見上述實施例中的相關內容，在此不再贅述。

通過上述步驟s404～步驟s407的處理可以得到訓練完成的第三卷積網絡模型。其中，第三卷積網絡模型的結構可以參考上述實施例二中第一卷積網絡模型或第二卷積網絡模型的結構，在此不再贅述。

通過上述訓練得到的第一卷積網絡模型、第二卷積網絡模型和第三卷積網絡模型可以對視頻圖像進行相應的處理，具體可以包括以下步驟s408～步驟s413。

在步驟s408，獲取當前播放的視頻圖像。

在步驟s409，采用預先訓練的第一卷積網絡檢測視頻圖像，獲得視頻圖像的第一特征信息和人手候選區(qū)域的預測信息。

在步驟s410，將第一特征信息和人手候選區(qū)域的預測信息作為預先訓練的第二卷積網絡模型的第二特征信息，并采用第二卷積網絡模型根據第二特征信息進行視頻圖像的手勢檢測，得到視頻圖像的手勢檢測結果。

其中，在進行人手候選區(qū)域檢測后確定視頻圖像中包含人手的情況下，可以概率的形式確定人手候選區(qū)域中的手勢。例如，以手掌張開手勢和手掌閉合手勢為例，當手掌張開手勢的概率高時，可以認為視頻圖像中包含手掌張開手勢的人手，當手掌閉合手勢的概率高時，可以認為視頻圖像中包含手掌閉合手勢的人手。

進而，在本申請的一種可選實現(xiàn)方式中，第二卷積網絡模型模型的輸出結果可以包括：人手候選區(qū)域不包含人手的概率、人手候選區(qū)域包含手掌張開手勢的人手的概率、人手候選區(qū)域包含手掌閉合手勢的人手的概率等等。

為提高檢測速度，在第一卷積層參數(shù)與第二卷積層參數(shù)一致的情況下，第二卷積網絡模型模型根據人手候選區(qū)域和各種預定的手勢的特征，獲得針對視頻圖像的手勢檢測結果時，第二卷積網絡模型模型可以直接將多個第一卷積層提取的視頻圖像的第一特征，確定為多個第二卷積層提取的人手候選區(qū)域的第二特征，然后根據上述第二特征，通過多個全連接層對人手候選區(qū)域進行分類處理，獲得針對視頻圖像的手勢檢測結果。這樣可以大大節(jié)省計算量，提高檢測速度。

在步驟s411，當確定檢測到的手部的手勢與對應的預定手勢相匹配時，提取與檢測到的手勢相應的人手候選區(qū)域內手部的特征點。

在步驟s412，根據手部的特征點，使用預先訓練的、用于確定業(yè)務對象在視頻圖像中的展現(xiàn)位置的第三卷積網絡模型，在視頻圖像中確定與手部位置相應的待顯示的業(yè)務對象的展現(xiàn)位置。

在步驟s413，在展現(xiàn)位置采用計算機繪圖方式繪制待顯示的業(yè)務對象。

隨著互聯(lián)網直播和短視頻分享的興起，越來越多的視頻以直播或者短視頻的方式出現(xiàn)。這類視頻常常以人物為主角(單一人物或少量人物)，以人物加簡單背景為主要場景，觀眾主要在手機等移動終端上觀看。在此情況下，對于某些業(yè)務對象的投放(如廣告投放)來說，一方面，由于移動終端的屏幕展示區(qū)域有限，如果以傳統(tǒng)的固定位置放置廣告，往往占用主要的用戶體驗區(qū)域，容易引起用戶反感；另一方面，對于主播類直播應用，由于直播的即時性，傳統(tǒng)的插入固定時長的廣告會明顯打擾用戶與主播交流的連貫性，影響用戶觀看體驗；再一方面，對于短視頻廣告，由于直播或者短視頻的內容時長本來就較短，也給采用傳統(tǒng)方式插入固定時長的廣告帶來了困難。而通過本實施例提供的方案，可以實時對視頻播放過程中的視頻圖像進行檢測，給出效果最優(yōu)的廣告投放位置，且不影響用戶的觀看體驗，投放效果更好；通過將業(yè)務對象與視頻播放相結合，從而無須通過網絡傳輸與視頻無關的額外廣告視頻數(shù)據，節(jié)約了網絡資源和/或客戶端的系統(tǒng)資源；而且，業(yè)務對象與視頻圖像中的手勢緊密結合，既保留了視頻圖像中視頻主體(如主播)的主要形象和動作，又為視頻圖像增加了趣味性，同時還不會打擾用戶正常觀看視頻，從而可以減少用戶對視頻圖像中展示業(yè)務對象的反感，而且能夠在一定程度上吸引觀眾的注意力，提高業(yè)務對象的影響力。

實施例五

基于相同的技術構思，圖5是示出根據本發(fā)明實施例五的手勢控制裝置的邏輯框圖。參照圖5，所述裝置包括手勢檢測模塊501、展現(xiàn)位置確定模塊502和業(yè)務對象繪制模塊503。

手勢檢測模塊501，用于對當前播放的視頻圖像進行手勢檢測。

展現(xiàn)位置確定模塊502，用于在檢測到手勢與預定手勢匹配時，確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

業(yè)務對象繪制模塊503，用于在展現(xiàn)位置采用計算機繪圖方式繪制業(yè)務對象。

本實施例提供的手勢控制裝置，通過對當前播放的包含手部信息的視頻圖像進行人手候選區(qū)域和手勢檢測，并將檢測到的手勢與對應的預定手勢進行匹配，當兩者相匹配時，通過手部位置確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置，在當業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，該業(yè)務對象與視頻播放相結合，無須通過網絡傳輸與視頻無關的額外廣告視頻數(shù)據，節(jié)約了網絡資源和/或客戶端的系統(tǒng)資源；另一方面，業(yè)務對象與視頻圖像中的手勢緊密結合，既保留了視頻圖像中視頻主體(如主播)的主要形象和動作，又為視頻圖像增加了趣味性，同時還不會打擾用戶正常觀看視頻，從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務對象的反感，而且能夠在一定程度上吸引觀眾的注意力，提高業(yè)務對象的影響力。

實施例六

基于相同的技術構思，參見圖6的手勢控制裝置的邏輯框圖。

本實施例的手勢控制裝置包括：手勢檢測模塊501，用于對當前播放的視頻圖像進行手勢檢測；位置確定模塊502，用于在檢測到手勢與預定手勢匹配時，確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置；業(yè)務對象繪制模塊503，用于在展現(xiàn)位置采用計算機繪圖方式繪制業(yè)務對象。

可選地，展現(xiàn)位置確定模塊503包括：特征點提取單元，用于提取與檢測到的手勢相應的人手候選區(qū)域內手部的特征點；展現(xiàn)位置確定單元，用于根據手部的特征點，確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

可選地，展現(xiàn)位置確定單元503，用于根據手部的特征點和待顯示的業(yè)務對象的類型，確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

可選地，展現(xiàn)位置確定單元503，用于根據手部的特征點和待顯示的業(yè)務對象的類型，確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的多個展現(xiàn)位置；從多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。

可選地，展現(xiàn)位置確定模塊503，用于當確定檢測到的手勢與對應的預定手勢相匹配時，確定與預定手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置作為與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

可選地，展現(xiàn)位置確定模塊503，用于從預先存儲的手勢與展現(xiàn)位置的對應關系中，獲取預定手勢對應的目標展現(xiàn)位置作為與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

可選地，業(yè)務對象為包含有語義信息的特效，視頻圖像為直播類視頻圖像。

可選地，該業(yè)務對象包括包含廣告信息的以下至少一種形式的特效：二維貼紙?zhí)匦?、三維特效、粒子特效。

可選地，展現(xiàn)位置包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設定范圍內的區(qū)域、視頻圖像中預先設定的區(qū)域。

可選地，業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。

可選地，手勢包括以下至少之一：揮手、剪刀手、握拳、托手、鼓掌、手掌張開、手掌閉合、豎大拇指、擺手槍姿勢、擺v字手和擺ok手。

可選地，手勢檢測模塊502，用于采用預先訓練的第一卷積網絡檢測視頻圖像，獲得視頻圖像的第一特征信息和人手候選區(qū)域的預測信息，第一特征信息包括手部特征信息；將第一特征信息和人手候選區(qū)域的預測信息作為預先訓練的第二卷積網絡模型的第二特征信息，并采用第二卷積網絡模型根據第二特征信息進行視頻圖像的手勢檢測，得到視頻圖像的手勢檢測結果；其中，第二卷積網絡模型和第一卷積網絡模型共享特征提取層。

可選地，該裝置還包括：人手區(qū)域確定模塊504，用于根據含有人手標注信息的樣本圖像訓練第一卷積網絡模型，得到第一卷積網絡模型針對樣本圖像的人手候選區(qū)域的預測信息；修正模塊505，用于修正人手候選區(qū)域的預測信息；卷積模型訓練模塊506，用于根據修正后的人手候選區(qū)域的預測信息和樣本圖像訓練第二卷積網絡模型，其中，第二卷積網絡模型和第一卷積網絡模型共享特征提取層，并在第二卷積網絡模型訓練過程中保持特征提取層的參數(shù)不變。

可選地，展現(xiàn)位置確定模塊503，用于通過手勢和預先訓練的、用于從視頻圖像檢測業(yè)務對象的展現(xiàn)位置的第三卷積網絡模型，確定與檢測到的手勢相應的待顯示的業(yè)務對象的展現(xiàn)位置。

通過本實施例提供的手勢控制裝置，通過對當前播放的包含手部信息的視頻圖像進行人手候選區(qū)域和手勢檢測，并將檢測到的手勢與對應的預定手勢進行匹配，當兩者相匹配時，通過手部位置確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置，在當業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，該業(yè)務對象與視頻播放相結合，無須通過網絡傳輸與視頻無關的額外廣告視頻數(shù)據，節(jié)約了網絡資源和/或客戶端的系統(tǒng)資源；另一方面，業(yè)務對象與視頻圖像中的手勢緊密結合，既保留了視頻圖像中視頻主體(如主播)的主要形象和動作，又為視頻圖像增加了趣味性，同時還不會打擾用戶正常觀看視頻，從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務對象的反感，而且能夠在一定程度上吸引觀眾的注意力，提高業(yè)務對象的影響力。

實施例七

參照圖7，示出了根據本發(fā)明實施例七的一種終端設備的結構示意圖，本發(fā)明具體實施例并不對終端設備的具體實現(xiàn)做限定。

如圖7所示，該終端設備可以包括：處理器(processor)702、通信接口(communicationsinterface)704、存儲器(memory)706、以及通信總線708。

其中：

處理器702、通信接口704、以及存儲器706通過通信總線708完成相互間的通信。

通信接口704，用于與其它設備比如其它客戶端或服務器等的網元通信。

處理器702，用于執(zhí)行程序710，具體可以執(zhí)行上述方法實施例中的相關步驟。

具體地，程序710可以包括程序代碼，該程序代碼包括計算機操作指令。

處理器710可能是中央處理器cpu，或者是特定集成電路asic(applicationspecificintegratedcircuit)，或者是被配置成實施本發(fā)明實施例的一個或多個集成電路，或者是圖形處理器gpu(graphicsprocessingunit)。終端設備包括的一個或多個處理器，可以是同一類型的處理器，如一個或多個cpu，或者，一個或多個gpu；也可以是不同類型的處理器，如一個或多個cpu以及一個或多個gpu。

存儲器706，用于存放程序710。存儲器706可能包含高速ram存儲器，也可能還包括非易失性存儲器(non-volatilememory)，例如至少一個磁盤存儲器。

程序710具體可以用于使得處理器702執(zhí)行以下操作：對當前播放的視頻圖像進行手勢檢測；在檢測到手勢與預定手勢匹配時，確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置；在展現(xiàn)位置采用計算機繪圖方式繪制業(yè)務對象。

在一種可選的實施方式中，程序710還用于使得處理器702在確定待顯示的業(yè)務對象在所述視頻圖像中的展現(xiàn)位置，包括：提取與檢測到的手勢相應的人手候選區(qū)域內手部的特征點；根據手部的特征點，確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

在一種可選的實施方式中，程序710還用于使得處理器702在根據手部的特征點，確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置，包括：根據手部的特征點和待顯示的業(yè)務對象的類型，確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

在一種可選的實施方式中，程序710還用于使得處理器702在根據手部的特征點和待顯示的業(yè)務對象的類型，確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置，包括：根據手部的特征點和待顯示的業(yè)務對象的類型，確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的多個展現(xiàn)位置；從多個展現(xiàn)位置中選擇至少一個展現(xiàn)位置。

在一種可選的實施方式中，程序710還用于使得處理器702在確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置，包括：從預先存儲的手勢與展現(xiàn)位置的對應關系中，獲取預定手勢對應的目標展現(xiàn)位置作為與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置。

在一種可選的實施方式中，業(yè)務對象為包含有語義信息的特效，視頻圖像為直播類視頻圖像。

在一種可選的實施方式中，上述業(yè)務對象包括包含廣告信息的以下至少一種形式的特效：二維貼紙?zhí)匦А⑷S特效、粒子特效。

在一種可選的實施方式中，展現(xiàn)位置包括以下至少之一：視頻圖像中人物的頭發(fā)區(qū)域、額頭區(qū)域、臉頰區(qū)域、下巴區(qū)域、頭部以外的身體區(qū)域、視頻圖像中的背景區(qū)域、視頻圖像中以手部所在的區(qū)域為中心的設定范圍內的區(qū)域、視頻圖像中預先設定的區(qū)域。

在一種可選的實施方式中，業(yè)務對象的類型包括以下至少之一：額頭貼片類型、臉頰貼片類型、下巴貼片類型、虛擬帽子類型、虛擬服裝類型、虛擬妝容類型、虛擬頭飾類型、虛擬發(fā)飾類型、虛擬首飾類型。

在一種可選的實施方式中，手勢包括以下至少之一：揮手、剪刀手、握拳、托手、鼓掌、手掌張開、手掌閉合、豎大拇指、擺手槍姿勢、擺v字手和擺ok手。

在一種可選的實施方式中，程序710還用于使得處理器702在對當前播放的視頻圖像進行手勢檢測，包括：采用預先訓練的第一卷積網絡檢測視頻圖像，獲得視頻圖像的第一特征信息和人手候選區(qū)域的預測信息，第一特征信息包括手部特征信息；將第一特征信息和人手候選區(qū)域的預測信息作為預先訓練的第二卷積網絡模型的第二特征信息，并采用第二卷積網絡模型根據第二特征信息進行視頻圖像的手勢檢測，得到視頻圖像的手勢檢測結果；其中，第二卷積網絡模型和第一卷積網絡模型共享特征提取層。

在一種可選的實施方式中，程序710還用于使得處理器702在對當前播放的視頻圖像進行手勢檢測之前，根據含有人手標注信息的樣本圖像訓練第一卷積網絡模型，得到第一卷積網絡模型針對樣本圖像的人手候選區(qū)域的預測信息；修正人手候選區(qū)域的預測信息；根據修正后的人手候選區(qū)域的預測信息和樣本圖像訓練第二卷積網絡模型，其中，第二卷積網絡模型和第一卷積網絡模型共享特征提取層，并在第二卷積網絡模型訓練過程中保持特征提取層的參數(shù)不變。

在一種可選的實施方式中，程序710還用于使得處理器702在確定與檢測到的手勢相應的待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置，包括：通過手勢和預先訓練的、用于從視頻圖像檢測業(yè)務對象的展現(xiàn)位置的第三卷積網絡模型，確定與檢測到的手勢相應的待顯示的業(yè)務對象的展現(xiàn)位置。

通過本實施例提供的終端設備，通過對當前播放的包含手部信息的視頻圖像進行人手候選區(qū)域和手勢檢測，并將檢測到的手勢與對應的預定手勢進行匹配，當兩者相匹配時，通過手部位置確定待顯示的業(yè)務對象在視頻圖像中的展現(xiàn)位置，在當業(yè)務對象用于展示廣告時，與傳統(tǒng)的視頻廣告方式相比，一方面，該業(yè)務對象與視頻播放相結合，無須通過網絡傳輸與視頻無關的額外廣告視頻數(shù)據，節(jié)約了網絡資源和/或客戶端的系統(tǒng)資源；另一方面，業(yè)務對象與視頻圖像中的手勢緊密結合，既保留了視頻圖像中視頻主體(如主播)的主要形象和動作，又為視頻圖像增加了趣味性，同時還不會打擾用戶正常觀看視頻，從而可以減少用戶對視頻圖像中展現(xiàn)的業(yè)務對象的反感，而且能夠在一定程度上吸引觀眾的注意力，提高業(yè)務對象的影響力。

需要指出，根據實施的需要，可將本申請中描述的各個步驟/部件拆分為更多步驟/部件，也可將兩個或多個步驟/部件或者步驟/部件的部分操作組合成新的步驟/部件，以實現(xiàn)本發(fā)明的目的。

上述根據本發(fā)明的方法可在硬件、固件中實現(xiàn)，或者被實現(xiàn)為可存儲在記錄介質(諸如cdrom、ram、軟盤、硬盤或磁光盤)中的軟件或計算機代碼，或者被實現(xiàn)通過網絡下載的原始存儲在遠程記錄介質或非暫時機器可讀介質中并將被存儲在本地記錄介質中的計算機代碼，從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或專用硬件(諸如asic或fpga)的記錄介質上的這樣的軟件處理。可以理解，計算機、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如，ram、rom、閃存等)，當所述軟件或計算機代碼被計算機、處理器或硬件訪問且執(zhí)行時，實現(xiàn)在此描述的處理方法。此外，當通用計算機訪問用于實現(xiàn)在此示出的處理的代碼時，代碼的執(zhí)行將通用計算機轉換為用于執(zhí)行在此示出的處理的專用計算機。

以上所述，僅為本發(fā)明的具體實施方式，但本發(fā)明的保護范圍并不局限于此，任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內，可輕易想到變化或替換，都應涵蓋在本發(fā)明的保護范圍之內。因此，本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。

完整全部詳細技術資料下載

當前第1頁1 2