用于控制視頻界面的方法、用于操作視頻界面的方法、面部朝向檢測器以及視頻會議服務(wù)器的制造方法
【專利摘要】本發(fā)明涉及一種用于控制在會議情形等中使用的與用戶(12)相關(guān)聯(lián)的視頻界面(4)的方法,包括:捕獲源自所述用戶(12)的視頻流的幀(11);識別所述視頻幀(11)內(nèi)所述用戶(12)的面部(10);檢測所述視頻幀(11)內(nèi)所述用戶(12)的所述面部(10)的朝向;以及提供指示所述面部(10)的所述朝向的控制信號。本發(fā)明還涉及一種用于操作視頻界面(4)的方法,包括:上述控制方法的步驟;基于控制信號將面部(10)的朝向映射到所述視頻界面(4)的焦點(diǎn)區(qū)域(15);以及突出所述焦點(diǎn)區(qū)域(15)。本發(fā)明進(jìn)一步涉及用于執(zhí)行上述方法的面部朝向檢測器(6)和視頻會議服務(wù)器(5)。
【專利說明】用于控制視頻界面的方法、用于操作視頻界面的方法、面部朝向檢測器以及視頻會議服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及用于控制在會議情形等中使用的與用戶相關(guān)聯(lián)的視頻界面的方法。本發(fā)明還涉及用于操作在會議情形等中使用的與用戶相關(guān)聯(lián)的視頻界面的方法。本發(fā)明進(jìn)一步涉及面部朝向檢測器,其包括用于接收視頻流的視頻輸入和用于提供指示視頻流內(nèi)面部的朝向的控制信號的信令輸出,其中面部朝向檢測器適于執(zhí)行上述方法。本發(fā)明還涉及用于向用戶提供用戶界面的視頻會議服務(wù)器,其中,視頻會議服務(wù)器適于執(zhí)行上述方法。
【背景技術(shù)】
[0002]對彼此地域分離的人們的通信的需求日益增長。為了便于通信和信息的交換,視頻會議正變得越來越重要,以允許用戶彼此交談,看見彼此和/或交換任何類型的信息。為了提高會議結(jié)果,希望用戶可以在類似會議的情形下討論任何問題,在該情形下用戶可以自然地彼此交互。
[0003]視頻會議通常基于不同用戶之間的IP連接,其用于將信息從一個參加者傳輸?shù)搅硪粋€。該信息通常包括能夠看到和聽到用戶的音頻/視頻流,還包括將要在會議參加者之間共享的任何類型的數(shù)字文件。因此,視頻會議的每個用戶具有用于在本地生成用戶的音頻/視頻流的視頻攝像機(jī),所生成的音頻/視頻流被提供給其它用戶,并且每個用戶還使用視頻界面,其在本地顯示在接口設(shè)備上以用于再現(xiàn)用戶的音頻/視頻流和在會議中使用的任何類型的數(shù)據(jù)。
[0004]視頻會議服務(wù)器被提供以在視頻會議的所有用戶之間分發(fā)信息。因此,視頻會議服務(wù)器將視頻界面提供給用戶,用戶可使用任何類型的接口設(shè)備以參加視頻會議,例如,用于再現(xiàn)音頻/視頻信息的屏幕和揚(yáng)聲器的組合。信息可例如以用戶的音頻/視頻流的個體流(individual streams)的形式提供,或者作為包括個體流和附加文件(如果適用)的單一流(single s ter am)提供。
[0005]在這種會議情形等中,用戶與視頻界面的交互用于改善所接收信息的表現(xiàn)。一個可能性是依靠連接到視頻接口設(shè)備的輸入設(shè)備(例如鼠標(biāo))的交互。正如已知的,鼠標(biāo)可用作來自個人計算機(jī)的人機(jī)接口,以突出和操作部分視頻界面,其中用戶專心于或者配置視頻會議本身。對于沉浸式(immersive)會議,這是不能令人滿意的,因為它打破了自然交互的感覺。它要求用戶隨時專心于交互設(shè)備的操作,以便實現(xiàn)所期望的交互,并且將用戶的焦點(diǎn)從類似會議情形的實際會議流程轉(zhuǎn)移開。視頻會議服務(wù)器接收來自用戶的控制輸入,并相應(yīng)地更新他們各自的視頻界面。
[0006]另一種用于在會議情形中交互的方法基于注視控制。注視控制是指監(jiān)控人類眼睛的位置,以便確定屏幕的用戶聚焦的區(qū)域。注視控制依靠用戶的眼睛的監(jiān)控,其具有若干缺點(diǎn),阻礙了該控制對于沉浸式視頻會議等情形的一般使用。首先,注視控制要求高分辨率攝像機(jī),因此并不適合于目前所用的許多普通攝像機(jī),例如,帶有攝像機(jī)的普通膝上型電腦或智能電話,其不能為注視控制提供足夠的分辨率。此外,視頻攝像機(jī)的視頻流通常被編碼以用于通過IP連接傳輸。特別是在低帶寬或高延遲的連接中,視頻流的質(zhì)量會降低,這對注視控制的準(zhǔn)確性和性能具有負(fù)面影響。諸如眼鏡或太陽眼鏡的眼睛佩戴物的使用也可阻礙注視控制的使用。由于注視控制要求高質(zhì)量的視頻信息,因此,也要求高計算能力以處理該信息。因此,注視控制只能用提供所要求的計算能力的特定硬件來執(zhí)行。
【發(fā)明內(nèi)容】
[0007]因此,本發(fā)明的目的是提供用于控制視頻界面的方法、用于操作視頻界面的方法、面部朝向檢測器和視頻會議服務(wù)器,其克服上述的缺點(diǎn)和限制。
[0008]該目的通過獨(dú)立權(quán)利要求實現(xiàn)。有利的實施例在從屬權(quán)利要求中給出。
[0009]具體地,提供了用于控制在會議情形等中使用的與用戶相關(guān)聯(lián)的視頻界面的方法,其包括:捕獲源自用戶的視頻流的幀;識別視頻幀內(nèi)用戶的面部;檢測視頻幀內(nèi)用戶的面部的朝向;以及提供指示面部的朝向的控制信號。
[0010]進(jìn)一步地,提供了用于操作在會議情形等中使用的與用戶相關(guān)聯(lián)的視頻界面的方法,其包括:執(zhí)行如上所述的用于控制視頻界面的方法;基于控制信號將面部的朝向映射到視頻界面的焦點(diǎn)區(qū)域;以及突出焦點(diǎn)區(qū)域。
[0011]此外,提供了面部朝向檢測器,其包括:用于接收視頻流的視頻輸入;以及用于提供指示視頻流內(nèi)面部的朝向的控制信號的信令輸出;其中,面部朝向檢測器適于執(zhí)行上述方法。
[0012]此外,提供了用于向用戶提供用戶界面的視頻會議服務(wù)器,其中,視頻會議服務(wù)器適于執(zhí)行上述方法。
[0013]基本思想是檢測面部的朝向以用于控制和操作視頻界面。面部的朝向的檢測可被執(zhí)行而無需強(qiáng)大的硬件要求,例如,生成具有特定分辨率的視頻流,或者提供特定計算能力。面部的朝向的檢測可基于低分辨率攝像機(jī)進(jìn)行,這種攝像機(jī)是大多數(shù)膝上型電腦、智能電話或其它數(shù)據(jù)處理設(shè)備的一部分。即使提供給面部檢測器的視頻流是被編碼的,也可適用。在會議情形等中,假定人位于攝像機(jī)的前面,以使得即使是數(shù)據(jù)低質(zhì)量的視頻流,也可顯示足夠的細(xì)節(jié)以用于面部的朝向的檢測。眼睛佩戴物或其它面部佩戴物的使用僅僅部分遮蓋面部,這使得面部的朝向的檢測能夠基于沒被眼睛佩戴物或其它面部佩戴物遮蓋的面部的部分。該方法適合于在云內(nèi)使用或者由位于因特網(wǎng)中的服務(wù)器使用,因為視頻流可以低數(shù)據(jù)速率提供以用于執(zhí)行面部的朝向的檢測。對于視頻流的傳輸不存在高帶寬要求。
[0014]面部朝向檢測器是一種設(shè)備,其可以在用戶側(cè)本地提供,例如與用于直接將視頻流傳遞給面部朝向檢測器的視頻攝像機(jī)整體連接。因此,視頻攝像機(jī)可提供指示面部的朝向的控制信號以及其視頻流。此外,面部朝向檢測器可位于遠(yuǎn)離用戶的地方,例如,作為位于因特網(wǎng)中的網(wǎng)絡(luò)設(shè)備。面部朝向檢測器可被實現(xiàn)為云服務(wù)。
[0015]面部朝向檢測器要求用于接收視頻流的視頻輸入,其可以是任何類型的合適輸入。視頻流可以例如直接從視頻攝像機(jī)經(jīng)由已知的模擬視頻連接器或者從視頻攝像機(jī)作為數(shù)字視頻流經(jīng)由IP連接而被提供為模擬或數(shù)字視頻流。
[0016]視頻會議服務(wù)器產(chǎn)生如上所述的視頻界面。視頻界面的操作由用戶的面部的朝向來控制。用戶通常位于顯示視頻界面的顯示器的前面,該視頻界面例如可以是視頻屏幕或視頻屏幕的投影。視頻攝像機(jī)通常位于視頻界面處并面向用戶,以使得用戶的本地視頻流可被提供給視頻會議服務(wù)器。采用該假設(shè),控制信號可指示面部的朝向,僅僅作為例如預(yù)定義坐標(biāo)系統(tǒng)中的一種矢量或位置。指示面部的朝向的控制信號被視頻會議服務(wù)器用于提供面部的朝向到視頻界面的區(qū)域的映射,其中該區(qū)域也稱為焦點(diǎn)區(qū)域。
[0017]焦點(diǎn)區(qū)域被認(rèn)為是用戶最感興趣的區(qū)域,并因此被突出以便于接收在該區(qū)域中顯示的信息。焦點(diǎn)區(qū)域可以僅僅通過顯示器的點(diǎn)或者通過顯示器的具有任何形狀的區(qū)域來表示。例如,焦點(diǎn)區(qū)域可以是具有某一直徑的圓形區(qū)域、或者方形或矩形區(qū)域。焦點(diǎn)區(qū)域也可以利用在視頻界面上顯示的視頻會議的項目來定義。這種項目例如是視頻會議的用戶的視頻流的表現(xiàn)、或者是由包括本地用戶的視頻會議的用戶提供的任何類型的信息的再現(xiàn)。在這種情況下,面部的朝向被映射到最匹配面部的朝向的項目。
[0018]面部檢測器可例如使用HAAR分類器執(zhí)行,其被應(yīng)用在視頻流的視頻幀上。HAAR分類器對視頻幀內(nèi)多個面部的檢測進(jìn)行標(biāo)記,并提供邊界框作為面部的標(biāo)識。優(yōu)選地,具有最大尺寸的邊界框被選擇為用戶的面部以用于進(jìn)一步處理。因此,即使多個人與視頻流中可見的用戶在一起,也可以可靠地檢測用戶的面部的朝向。面部特征的標(biāo)識優(yōu)選使用例如Sobel或Canny的邊緣算子,并應(yīng)用SIFT特征檢測器或“用于跟蹤的好特征(good featuresto track)” 算法。
[0019]優(yōu)選實施例還包括執(zhí)行皮膚識別以用于驗證視頻幀內(nèi)至少一個面部的標(biāo)識的步驟。優(yōu)選地,基于顏色的皮膚分割被應(yīng)用于幀以用于執(zhí)行例如由HAAR分類器識別的面部的真實性檢查。因為所識別的面部的出現(xiàn)必須匹配皮膚顏色光譜,因此,可拒絕面部的錯誤出現(xiàn)。
[0020]根據(jù)優(yōu)選實施例,檢測視頻幀內(nèi)用戶的面部的朝向的步驟包括以下步驟:標(biāo)識視頻幀內(nèi)所識別的面部的至少一個面部特征;將視頻幀內(nèi)至少一個面部特征的當(dāng)前位置與其在先前視頻幀中的位置進(jìn)行比較;根據(jù)視頻幀內(nèi)至少一個面部特征與其在先前視頻幀中的位置的比較,導(dǎo)出面部朝向。面部特征是指面部的容易跟蹤的部分,例如鼻尖、下巴、嘴角或其它。將要用于本方法的面部特征的數(shù)量和種類可以根據(jù)例如視頻流質(zhì)量或者可用處理能力來自由選擇。原則上,本方法用單個面部特征已經(jīng)有效。然而,更多數(shù)量的面部特征可增加面部的朝向的檢測的可靠性和準(zhǔn)確性。為了檢測面部的朝向,這些面部特征的位置在不同的視頻幀之間跟蹤。視頻幀可以是連續(xù)的視頻幀或者有延遲的視頻幀。處理的視頻幀越少,計算的工作量就越低,然而,連續(xù)視頻幀的處理可增加面部的朝向的檢測的可靠性?;诓煌拿娌刻卣鞯奈恢玫牟町悾蓪?dǎo)出面部朝向。在評估多個面部特征時,面部朝向可被提供為不同面部特征的朝向的變化的平均值。
[0021]優(yōu)選實施例還包括初始化所識別的面部的面部朝向的步驟。初始化可在視頻會議開始時執(zhí)行,或者在會議期間的任何時間執(zhí)行。此外,初始化也可在視頻會議期間在面部的檢測丟失時執(zhí)行。初始化能夠?qū)崿F(xiàn)用戶的面部的可靠檢測,并將用戶的面部的朝向設(shè)置為預(yù)定義值,例如,指示面部朝向中心區(qū)域的空(NULL)值。
[0022]根據(jù)優(yōu)先實施例,將視頻幀內(nèi)至少一個面部特征的當(dāng)前位置與其在先前視頻幀中的位置進(jìn)行比較的步驟包括:應(yīng)用光流估計方法。優(yōu)選地,光流估計方法是金字塔Lukas-Kanade光流估計方法。該方法容易移植到不同平臺上,并進(jìn)一步適合于基于GPU的執(zhí)行,以使得該方法在基于云的實現(xiàn)中執(zhí)行良好。
[0023]根據(jù)優(yōu)選實施例,根據(jù)視頻幀內(nèi)的至少一個面部特征與其在先前視頻幀中的位置的比較而導(dǎo)出面部朝向的步驟包括:基于至少一個對每個面部特征包含一個矢量的矢量場計算朝向矢量。矢量場優(yōu)選地包括表示面部的旋轉(zhuǎn)的旋轉(zhuǎn)分量、表示面部朝向或遠(yuǎn)離攝像機(jī)移動的散度分量、以及表示平行于視頻攝像機(jī)的平面的平移運(yùn)動的輻射分量。優(yōu)選地,這三個分量通過面部特征的光流集合的Helmholtz-Hodge分解而獲得。進(jìn)一步優(yōu)選地,可采用Kalman濾波器以減少噪聲影響。
[0024]根據(jù)優(yōu)選實施例,將面部的朝向映射到焦點(diǎn)區(qū)域的步驟包括:根據(jù)視頻界面提供虛擬網(wǎng)格,以及將虛擬網(wǎng)格的至少一個網(wǎng)孔映射到焦點(diǎn)區(qū)域。即使沒有關(guān)于由用戶用于再現(xiàn)視頻界面的顯示器的知識,虛擬網(wǎng)格也可被提供并用于計算。焦點(diǎn)區(qū)域的突出優(yōu)選地包括突出網(wǎng)格的至少一個網(wǎng)孔。因此,控制信號可通過標(biāo)識一個網(wǎng)孔來指示面部的朝向。虛擬網(wǎng)格的網(wǎng)孔可根據(jù)視頻會議的項目來設(shè)計。
[0025]在優(yōu)選實施例中,突出焦點(diǎn)區(qū)域的步驟包括:執(zhí)行焦點(diǎn)區(qū)域的放大操作。放大或擴(kuò)大可對焦點(diǎn)區(qū)域本身或者對焦點(diǎn)區(qū)域和周圍區(qū)域執(zhí)行。優(yōu)選地,放大操作針對在視頻界面上顯示的視頻會議的全部項目執(zhí)行。
[0026]根據(jù)優(yōu)選實施例,突出焦點(diǎn)區(qū)域的步驟包括:執(zhí)行除了焦點(diǎn)區(qū)域外的區(qū)域的縮小操作。根據(jù)放大操作,縮小操作可在焦點(diǎn)區(qū)域本身或者焦點(diǎn)區(qū)域和周圍區(qū)域的周圍執(zhí)行。優(yōu)選地,縮小也基于在視頻界面上顯示的項目??s小可在本地例如在焦點(diǎn)區(qū)域周圍的邊界區(qū)域中或者在視頻界面的除了焦點(diǎn)區(qū)域以外的整個剩余區(qū)域上執(zhí)行。優(yōu)選地,放大和縮小可被組合以用于有效地突出焦點(diǎn)區(qū)域。
[0027]在優(yōu)選實施例中,突出焦點(diǎn)區(qū)域的步驟包括在視頻界面的高亮區(qū)域中顯示焦點(diǎn)區(qū)域的內(nèi)容。根據(jù)放大,焦點(diǎn)區(qū)域本身或者焦點(diǎn)區(qū)域和周圍區(qū)域可在聞売區(qū)域中顯不。聞売區(qū)域允許操作視頻界面而無需修改其主要部分。例如,視頻界面的至少一部分,例如視頻界面的邊界區(qū)域或者邊框,可顯示視頻會議的所有項目,而視頻界面的另一個部分,例如其中心區(qū)域,顯示與焦點(diǎn)區(qū)域?qū)?yīng)的項目。在可選實施例中,焦點(diǎn)區(qū)域的內(nèi)容可被移動到高亮區(qū)域。
[0028]根據(jù)優(yōu)選實施例,視頻會議服務(wù)器還包括上述面部朝向檢測器。
【專利附圖】
【附圖說明】
[0029]現(xiàn)參考附圖并僅以示例的方式描述根據(jù)本發(fā)明的裝置和/或方法的一些實施例,其中:
[0030]圖1示出根據(jù)實施例的用于控制和操作視頻界面的方法的流程圖;
[0031]圖2是說明根據(jù)上述方法的檢測面部的朝向的圖;
[0032]圖3是說明根據(jù)上述方法的突出與焦點(diǎn)區(qū)域?qū)?yīng)的視頻界面的項目的圖;
[0033]圖4是說明根據(jù)上述方法的基于矢量場導(dǎo)出面部的朝向的圖;
[0034]圖5是說明根據(jù)上述方法的突出與焦點(diǎn)區(qū)域?qū)?yīng)的視頻界面的項目的另一個圖;
[0035]圖6示出根據(jù)第一實施例的包括視頻攝像機(jī)、視頻會議服務(wù)器和面部朝向檢測器的視頻會議系統(tǒng)的示意圖。
【具體實施方式】
[0036]圖6示出根據(jù)第一實施例的視頻會議系統(tǒng)I的示意圖。在該實施例中,視頻會議系統(tǒng)I包括視頻接口設(shè)備2和數(shù)字視頻攝像機(jī)3。視頻接口設(shè)備2在該實施例中是LCD顯示器,其再現(xiàn)從視頻會議服務(wù)器5提供的視頻界面4。視頻會議系統(tǒng)I進(jìn)一步包括面部朝向檢測器6。視頻接口設(shè)備2、數(shù)字視頻攝像機(jī)3、視頻會議服務(wù)器5和面部朝向檢測器6經(jīng)由IP連接7連接。在可選實施例中,面部朝向檢測器6與視頻會議服務(wù)器5整體地提供。
[0037]面部朝向檢測器6經(jīng)由IP連接器8從數(shù)字視頻攝像機(jī)3接收視頻流。如以下詳細(xì)描述的,面部朝向檢測器6檢測面部10的朝向,并經(jīng)由IP連接器8將指示面部的朝向的控制信號提供給視頻會議服務(wù)器5。因此,面部朝向檢測器6的IP連接器8充當(dāng)用于從數(shù)字視頻攝像機(jī)3接收數(shù)字視頻流的視頻輸入,以及用于提供指示在視頻幀中顯示的面部10的朝向的控制信號的信令輸出。
[0038]視頻會議服務(wù)器5產(chǎn)生視頻界面4,即,會議流內(nèi)視頻會議的再現(xiàn),并經(jīng)由IP連接7提供給視頻接口設(shè)備2,其中示出了視頻界面4的再現(xiàn)。
[0039]圖1示出了根據(jù)實施例的方法的流程圖。方法以步驟SlOO開始。步驟SlOO包括方法的初始化,其包括初始化面部識別和在視頻流中顯示的面部10的朝向,如以下詳細(xì)說明的。
[0040]在初始化步驟S100,對數(shù)字視頻攝像機(jī)3的視頻幀11應(yīng)用例如配置了 Intel的OpenCV庫的正面面部HAAR分類器。與時刻h與I1對應(yīng)的個體視頻幀11在圖2中示出。視頻幀11顯示如由會議情形中的數(shù)字視頻攝像機(jī)3提供的視頻會議的本地用戶12,其中該本地用戶12位于數(shù)字視頻攝像機(jī)3的前面并面向視頻接口設(shè)備2上的視頻界面2。初始化包括用戶12的面部10的檢測和面部10的初始位置。面部檢測使用正面面部HAAR分類器實施。訓(xùn)練普通正面面部HAAR分類器的方式要求用戶12的面部10必須筆直地朝向數(shù)字視頻攝像機(jī)3,以便發(fā)生檢測。
[0041]對于每個視頻幀11,HAAR分類器提供面部出現(xiàn)的列表作為一組邊界框BBi,i =1..η,其中η表示所檢測的面部出現(xiàn)的數(shù)量。每個BBi被表示為四元組〈X,Y, W, H〉,其中〈X,Y〉表示幀中BB中心的坐標(biāo),〈W,H〉表示其在圖像像素中的尺寸(寬度,高度)。圖2示出指示視頻幀11內(nèi)用戶12的面部10的邊界框ΒΒ。
[0042]此外,將基于顏色的皮膚識別和分割應(yīng)用于視頻幀11,并通過所連接部件分析來確定皮膚碎片。然后,根據(jù)以下公式選擇最大的邊界框BBmax:
[0043]BBmax = arg maxBB {A (BBi) | SRiSTsJ , i = 1..η (I)
[0044]其中:
[0045]-SRi =皮膚比(skin rat1)=標(biāo)記為皮膚的像素的數(shù)量/框區(qū)域中像素的總數(shù);
[0046]-A(BBi) = BB1.WXBB1.H =邊界框面積泛函;
[0047]-Tse =專用皮膚比閾值(例如,0.8);
[0048]-arg max =最大化函數(shù)的參數(shù)。
[0049]這確保了如果在場景中有多個人面向數(shù)字視頻攝像機(jī)3,則只有最靠近數(shù)字視頻攝像機(jī)3的人將被選擇以用于進(jìn)一步處理。由于來自Haar分類器的錯誤正面識別而導(dǎo)致的錯誤出現(xiàn)可以被拒絕,因為出現(xiàn)必須匹配皮膚顏色光譜。因此,皮膚識別提供了視頻幀11內(nèi)至少一個面部10的標(biāo)識的驗證。
[0050]如果在視頻幀11中發(fā)現(xiàn)BB_,面部朝向矢量Vtl被初始化為:
[0051 ]-原點(diǎn)=<BBmax.X,BBmax.Y〉;
[0052]-方向=垂直于幀平面;
[0053]-大小=BBmax.H/像素中的幀高度。
[0054]在步驟SI 10,該方法繼續(xù)相對于初始化而檢測視頻幀11中最大的面部10,如上所述的。
[0055]在步驟S120,執(zhí)行面部特征14的跟蹤。因此,在圖2中被標(biāo)記為Itl的發(fā)生了初始面部檢測的視頻幀11通過邊緣算子(例如,Sobel或Canny)傳遞以提供發(fā)生了初始面部檢測的視頻幀11 (也稱為Itl)的邊緣圖像Ec^邊緣圖像Etl包括一組邊緣13。在初始面部檢測后的任何時間t,當(dāng)如視頻巾貞11被稱為It,而Et是其對應(yīng)的邊緣圖像。
[0056]可被跟蹤的面部特征14的特征集合Ftl通過將SIFT特征檢測器或者Shi和Tomasi的稱為“用于跟蹤的好特征”算法的算法應(yīng)用于由BBmax定義的感興趣區(qū)域(ROI)內(nèi)的Etl來獲得,如圖2中所示的。
[0057]然后,特征集合Ftl在下一個邊緣圖像E1中通過使用光流算法來跟蹤,例如,金字塔Lukas-Kanade光流估計方法。一般地,關(guān)于邊緣圖像Et的特征集合Ft通過使用光流算法估計來自集合Fw的每個面部特征14的位置來產(chǎn)生。
[0058]特征集合Ft數(shù)學(xué)上表示為:
[0059]Ft = {fj I i = 1...nt} (2)
[0060]其中,稱為&的每個被跟蹤的面部特征14被表示為四元組<X,y,X’,y’ >,其中,〈X,y>表示集合Fw中面部特征14的先前位置,〈X’,y’ >表示新估計的位置。考慮到Δχ=X’ = - y,很明顯地,面部特征14可以用矢量Vfi的形式表示,其中:
[0061]-原點(diǎn)=〈x,y>;
[0062]-方向=arctg(Ay/Ax);
[0063]-速率=sqrt(( Δ χ)2+ ( Δ y)2)。
[0064]算法必須確保面部特征14在被跟蹤一定數(shù)量的視頻幀11后仍然屬于用戶12的面部10。這通過去除由于噪聲或累積誤差而造成的異常值(其是錯誤估計的特征),并周期性地再生特征集合Ft以避免在去除異常值后特征集合Ft基數(shù)的減少來實現(xiàn)。
[0065]異常值通過相對于幀差異Λ It = It -1h約束特征集合Ft來去除。過濾特征集合Ft中的面部特征14,以使得:
[0066]Ft = {fi I Δ It (fj.χ’,fj.y')關(guān) 0} (3)
[0067]特征集合Ft根據(jù)以下算法周期性地再生(在若干Nf幀后):
[0068]-對于特征集合Ft,當(dāng)t是Nf的倍數(shù)時,計算凸多邊形C(Ft);
[0069]-C(Ft)被設(shè)置為用于邊緣圖像Et的ROI ;
[0070]-對于在先前所考慮的ROI內(nèi)的Et再計算可被跟蹤的面部特征14的集合Ft’;
[0071]-在t+Ι處,從Ft’開始計算跟蹤。
[0072]由于用于基于GPU執(zhí)行的金字塔Lukas-Kanade流估計方法的可移植性,因此,該方法執(zhí)行得非???,并適合于服務(wù)器側(cè)的實現(xiàn)。
[0073]在步驟S130,驗證所跟蹤的面部特征14的集合Ft是否由于用戶12的面部10移動到數(shù)字視頻攝像機(jī)3的覆蓋區(qū)域之外而丟失。如果所跟蹤的面部特征14的集合Ft丟失,則方法返回到步驟S110,檢測最大的面部10。否則,方法繼續(xù)步驟S140。
[0074]在步驟S140,根據(jù)當(dāng)前分析的視頻幀11更新面部朝向矢量Vt。光流算法的輸出被建模為在域Ω (幾乎處處都是利普希茨(Lipschitz)連續(xù))中的矢量場U,其中可跟蹤特征的集合Ft根據(jù)下式而類似于矢量場u:
[0075]? = { Vi^fi ^ Ft)
[0076]在本方案中,域Ω由在其中計算了光流的邊界框BB所定義的感興趣區(qū)域給出。每個矢量場u可如下被分解(在某一組情況下,其中在該例中遇見這些情況)成3個矢量場,其也在圖4中示出:
[0077]u = d+r+h
[0078]其中:
[0079]d =無旋分量(即是無旋場),
[0080]r =無散度(純旋轉(zhuǎn))場,
[0081 ] h =諧波場(即是梯度)。
[0082]執(zhí)行由公式(3)給出的所跟蹤的面部特征14的光流集合Ft的Helmholtz-Hodge分解。Helmholtz-Hodge分解產(chǎn)生三個分量:
[0083]-旋轉(zhuǎn)分量,表示面部10的旋轉(zhuǎn);
[0084]-散度分量,表示面部10朝向數(shù)字視頻攝像機(jī)3或者遠(yuǎn)離它的移動;以及
[0085]-梯度分量,表示平行于攝像機(jī)平面的純平移運(yùn)動。
[0086]Helmholtz-Hodge分解使用從存在于解決線性系統(tǒng)中的流體動力學(xué)中受到啟發(fā)的無網(wǎng)格算法(meshless algorithm)來執(zhí)行。
[0087]然后,矢量場Ft的旋轉(zhuǎn)、散度和諧波分量被投影為圍繞以頭部為中心的參考框架的旋轉(zhuǎn)。這些旋轉(zhuǎn)即是:
[0088]-滾動(roll):圍繞χ軸旋轉(zhuǎn),
[0089]-傾斜(pitch):圍繞y軸旋轉(zhuǎn),
[0090]-偏轉(zhuǎn)(yaw):圍繞z軸旋轉(zhuǎn),
[0091]并被表示為{Λρ,Aq, Ar}三元組,其存儲相對先前已知的臉部朝向Vw的角度偏差。用這些值更新Vw給出了當(dāng)前的頭部姿態(tài)的,其也采用角度的形式表示為{p,q, r}三元組。
[0092]使用這三個旋轉(zhuǎn)分量直接作為頭部姿態(tài)的指示符(即,用戶12的面部10正聚焦到的點(diǎn))可被改進(jìn)以減少噪聲的影響。噪聲源自基于像素的表示的不準(zhǔn)確和視頻攝像機(jī)3的非線性。
[0093]為了消除噪聲影響,采用Kalman濾波器。直接跟蹤頭部姿態(tài)矢量的Kalman濾波器會涉及奇點(diǎn)(由于{p,q,r}三元組的角度表示),因此,按照四元數(shù)進(jìn)行公式化。四元數(shù)是R4= {q1; q2, q3, q4}中的矢量,表示圍繞以頭部為中心的參考框架的旋轉(zhuǎn)。四元數(shù)和經(jīng)典R3矢量之間的轉(zhuǎn)換是簡單的,并對于本領(lǐng)域技術(shù)人員是已知的。
[0094]Kalman符號可以通過應(yīng)用簡化的假設(shè)而從飛行動力學(xué)中采用并改編,其中該假設(shè)是對頭部的絕對位置不感興趣,而僅僅關(guān)注它的姿態(tài)矢量。因此,離散Kalman濾波器的內(nèi)部狀態(tài)僅僅由四元數(shù)朝向建模。矩陣[A]和[B]從剛體的力學(xué)中采用并改變,誤差矩陣[Q]、[P]和[R](過程、估計和測量誤差協(xié)方差或噪聲)被定義為[Q] = σ I4x4, [P]僅對于t =O是必需的,并被選擇為對角線上的大值的矩陣(例如15),這在數(shù)學(xué)上說明了相對于例如狀態(tài)跟蹤,測量在跟蹤器的早期是非常重要的。矩陣[R]是:
[0095]
【權(quán)利要求】
1.一種用于控制在會議情形等中使用的與用戶(12)相關(guān)聯(lián)的視頻界面(4)的方法,包括以下步驟: 捕獲源自所述用戶(12)的視頻流的幀(11); 識別所述視頻幀(11)內(nèi)所述用戶(12)的面部(10); 檢測所述視頻幀(11)內(nèi)所述用戶(12)的所述面部(10)的朝向;以及 提供指示所述面部(10)的所述朝向的控制信號。
2.根據(jù)權(quán)利要求1所述的方法,還包括以下步驟: 執(zhí)行皮膚識別以用于驗證所述視頻幀(11)內(nèi)至少一個面部(10)的標(biāo)識。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述檢測所述視頻幀(11)內(nèi)所述用戶(12)的所述面部(10)的朝向的步驟包括以下步驟: 標(biāo)識所述視頻幀(11)內(nèi)所識別的面部(10)的至少一個面部特征(14); 將所述視頻幀(11)內(nèi)所述至少一個面部特征(14)的當(dāng)前位置與其在先前視頻幀(11)中的位置進(jìn)行比較;以及 根據(jù)所述視頻幀(11)內(nèi)所述至少一個面部特征(14)與其在先前視頻幀(11)中的位置的比較,導(dǎo)出面部朝向。
4.根據(jù)權(quán)利要求3所述的方法,還包括以下步驟: 初始化所述所識別的面部(10)的所述面部朝向。
5.根據(jù)權(quán)利要求3所述的方法,其中,所述將所述視頻幀(11)內(nèi)所述至少一個面部特征(14)的當(dāng)前位置與其在先前視頻幀(11)中的位置進(jìn)行比較的步驟包括:應(yīng)用光流估計方法。
6.根據(jù)權(quán)利要求3所述的方法,其中,所述根據(jù)所述視頻幀(11)內(nèi)所述至少一個面部特征(14)與其在先前視頻幀(11)中的位置的比較來導(dǎo)出面部朝向的步驟包括:基于至少一個矢量場計算朝向矢量(Vt),其中所述矢量場對于每個面部特征(14)包含一個矢量。
7.一種用于操作在會議情形等中使用的與用戶(12)相關(guān)聯(lián)的視頻界面(4)的方法,包括以下步驟: 執(zhí)行根據(jù)前述任一方法權(quán)利要求的用于控制視頻界面(4)的方法; 基于控制信號將面部(10)的朝向映射到所述視頻界面⑷的焦點(diǎn)區(qū)域(15);以及 突出所述焦點(diǎn)區(qū)域(15)。
8.根據(jù)權(quán)利要求7所述的方法,其中,所述將面部(10)的朝向映射到焦點(diǎn)區(qū)域(15)的步驟包括: 根據(jù)視頻界面⑵提供虛擬網(wǎng)格(16);以及 將所述虛擬網(wǎng)格(16)的至少一個網(wǎng)孔(17)映射到所述焦點(diǎn)區(qū)域(15)。
9.根據(jù)權(quán)利要求7所述的方法,其中,所述突出所述焦點(diǎn)區(qū)域(15)的步驟包括:執(zhí)行所述焦點(diǎn)區(qū)域(15)的放大操作。
10.根據(jù)權(quán)利要求7所述的方法,其中,所述突出所述焦點(diǎn)區(qū)域(15)的步驟包括:執(zhí)行除了所述焦點(diǎn)區(qū)域(15)以外的區(qū)域的縮小操作。
11.根據(jù)權(quán)利要求7所述的方法,其中,所述突出所述焦點(diǎn)區(qū)域(15)的步驟包括:在所述視頻界面(2)的高亮區(qū)域中顯示所述焦點(diǎn)區(qū)域(15)的內(nèi)容。
12.—種面部朝向檢測器¢),包括: 用于接收視頻流的視頻輸入(8);以及 用于提供控制信號的信令輸出(8),其中所述控制信號指示所述視頻流內(nèi)面部(10)的朝向; 其中,所述面部朝向檢測器(6)用于執(zhí)行根據(jù)權(quán)利要求1至6的任意一項的方法。
13.一種用于向用戶(12)提供用戶界面(4)的視頻會議服務(wù)器(5),其中,所述視頻會議服務(wù)器(5)用于執(zhí)行根據(jù)權(quán)利要求1至11的任意一項的方法。
14.根據(jù)權(quán)利要求13所述的視頻會議服務(wù)器(5),還包括:根據(jù)權(quán)利要求12的面部朝向檢測器(6)。
【文檔編號】G06F3/03GK104169842SQ201380013687
【公開日】2014年11月26日 申請日期:2013年3月5日 優(yōu)先權(quán)日:2012年3月12日
【發(fā)明者】M·法加達(dá)爾-科斯馬, M·卡薩斯-桑切斯 申請人:阿爾卡特朗訊公司