視頻會議中的面部識別和面部圖像的傳輸?shù)闹谱鞣椒?br>【專利說明】視頻會議中的面部識別和面部圖像的傳輸
[0001]相關(guān)申請的交叉引用
[0002]本申請要求于2012年10月8日提交的序列號為13/647,205、題名為“在視頻會議中的面部識別和面部圖像的傳輸(Facial Recognit1n and Transmiss1n of FacialImages in a Videoconference) ”的美國專利申請的優(yōu)先權(quán),通過引用將它整體并入本申請。
技術(shù)領(lǐng)域
[0003]本公開中所描述的各個方面涉及在一個房間中的一個或多個人的面部圖像的捕捉、處理和傳輸。
[0004]背景
[0005]當(dāng)視頻會議在發(fā)生在多方之間時,往往難以確定誰正在發(fā)言。通常,發(fā)言人的面部被指定了房間的座位安排的相同房間內(nèi)的另一個人擋住。此外,面部圖像的大小可能是不同的,這取決于每個人與正在捕捉視頻會議的攝影機(jī)的距離。另外,取決于攝影機(jī)的視場,一個或多個發(fā)言者的面部可能是模糊的導(dǎo)致很難準(zhǔn)確地確定誰正在講話。此外,攝影機(jī)捕捉視頻會議中參與者的面部圖像的角度可能導(dǎo)致一個或多個視頻會議的參與者不期望的側(cè)面或后部頭像。因此,發(fā)送到另一方的視頻可能提供很少或沒有提供關(guān)于誰正在發(fā)言的信息。
[0006]在視頻會議期間,發(fā)言者的面部表情和嘴唇動作可能是部分不可見或全部不可見。這些面部表情和嘴唇動作確定正在發(fā)言的人或可以有助于更好的理解發(fā)言人所講的話和他講話時的表情。此外,發(fā)言者的面部表情也可以提供對他陳述的情感內(nèi)容的理解(例如,發(fā)言者是高興、憤怒、悲傷、興奮等)。因此,多方之間通過視頻會議呼叫的通信可能會遇到不能夠看到發(fā)言者的面部圖像的情況。
[0007]此外,如果發(fā)言者移動到攝影機(jī)視場范圍內(nèi)的房間中的另一個人的后面,那么攝影機(jī)可能不能繼續(xù)捕捉發(fā)言者的圖像。因此,在這種情況下,發(fā)言者可能徹底的從視頻會議中消失,并且發(fā)言者的嘴唇動作可能不能夠被攝影機(jī)捕捉到。
[0008]因此,基于以上內(nèi)容,在從一方到一方或從一方到其它更多方的視頻會議呼叫中存在提供捕捉、處理和傳輸面部圖像的視圖的更好的方法的需求。
[0009]概述
[0010]根據(jù)前述的背景,以下提出本公開的簡要概述以便提供對本發(fā)明中所描述的一些方面的基本的理解。本概述不是綜述的擴(kuò)展,并不是意圖識別關(guān)鍵或重要元素或劃定權(quán)利要求的范圍。下面的概述僅僅以簡要的形式提出各種所描述的方面作為下面所提供的更詳細(xì)的描述的序目。
[0011]為了闡述上述缺點(diǎn)和將通過閱讀本公開認(rèn)識到的另外的益處,本文說明性的各個方面的各個方面描述了用于捕捉、處理和從主機(jī)向客戶端傳輸參與者的面部圖像的新方法和新系統(tǒng)。
[0012]說明性實(shí)施例的各個方面基本上在至少一個下面的圖中示出和/或結(jié)合至少一個下面的圖進(jìn)行了描述,同時在權(quán)利要求中更全面的進(jìn)行闡述。
[0013]本公開的這些和其他優(yōu)點(diǎn)、各個方面和新穎的特征,還有其中所說明的實(shí)施例的細(xì)節(jié)將從下面的描述和附圖中得到更充分地理解。
【附圖說明】
[0014]已經(jīng)以通用的術(shù)語如此描述了本公開的多個方面,現(xiàn)在將參考附圖,這些附圖不需要按照比例繪制,并且其中:
[0015]圖IA示出了本公開的各個方面可以被實(shí)現(xiàn)在其中的操作環(huán)境。
[0016]圖IB示出了來自根據(jù)圖IA中說明的說明性的操作環(huán)境的攝影機(jī)的透鏡(perspective)的視場。
[0017]圖IC示出了在由根據(jù)圖IA中說明的說明性的操作環(huán)境的攝影機(jī)所捕捉的圖像內(nèi)識別或檢測面部圖像。
[0018]圖ID示出了根據(jù)圖IA中說明的說明性的操作環(huán)境的、參與者的面部圖像已經(jīng)被歸一化之后的參與者的面部圖像。
[0019]圖IE示出了根據(jù)圖IA中說明的說明性的操作環(huán)境,分類(collating)和和/或整理(sorting)參與者的歸一化的面部圖像。
[0020]圖IF示出了根據(jù)圖IA中說明的說明性的操作環(huán)境,將參與者的歸一化的面部圖像定位或布置到輸出網(wǎng)格圖案中。
[0021]圖2A示出了本公開的各個方面可以在其中實(shí)現(xiàn)的示例性操作環(huán)境。
[0022]圖2B示出了從由根據(jù)圖2A中說明的說明性的操作環(huán)境的第一攝影機(jī)捕捉的圖像采集的面部圖像。
[0023]圖2C示出了從由根據(jù)圖2A中說明的說明性的操作環(huán)境的第二攝影機(jī)捕捉的圖像采集的面部圖像。
[0024]圖2D示出了從由根據(jù)圖2A中說明的說明性的操作環(huán)境的第三攝影機(jī)捕捉的圖像采集的面部圖像。
[0025]圖2E示出了由根據(jù)圖2A中說明的說明性的操作環(huán)境的第一攝影機(jī)所捕捉的、選出的面部圖像的歸一化。
[0026]圖2F示出了由根據(jù)圖2A中說明的說明性的操作環(huán)境的第二攝影機(jī)所捕捉的、選出的面部圖像的歸一化。
[0027]圖2G示出了由根據(jù)圖2A中說明的說明性的操作環(huán)境的第三攝影機(jī)所捕捉的、選出的面部圖像的歸一化。
[0028]圖2H示出了對由根據(jù)圖2A中說明的說明性的操作環(huán)境的每個攝影機(jī)所捕捉的面部圖像進(jìn)行整理和處理。
[0029]圖21示出了根據(jù)圖2A中說明的說明性的操作環(huán)境,將參與者的歸一化的面部圖像定位或布置到空間圖案中。
[0030]圖2J示出了根據(jù)圖2A中說明的說明性的操作環(huán)境,將參與者的歸一化的面部圖像定位或布置到輸出網(wǎng)格圖案中。
[0031]圖3示出了對應(yīng)于結(jié)合根據(jù)本公開的一個或多個說明性實(shí)施例的圖IA和2A中的每個圖所示的每個計(jì)算設(shè)備的通用計(jì)算設(shè)備的一個示例框圖。
[0032]圖4是說明在根據(jù)本發(fā)明的說明性實(shí)施例的主機(jī)處的一個或多個攝影機(jī)如何捕捉、處理和傳輸一個或多個面部圖像到客戶端的操作流程圖。
[0033]詳細(xì)說明
[0034]下面的各種實(shí)施例的描述參考了附圖,附圖形成了描述的一部分,并且在附圖中通過圖示的方式說明了各種實(shí)施例,在各種實(shí)施例中可以實(shí)踐所描述的各個方面。應(yīng)該理解的是,在不違背本公開的范圍和精神的前提下,可以利用其它實(shí)施例,并且可以做結(jié)構(gòu)和功能的修改。
[0035]正如本領(lǐng)域技術(shù)人員在閱讀了以下公開所理解的,本公開中所描述的各個方面可以體現(xiàn)為方法、數(shù)據(jù)處理系統(tǒng)或儀器、或計(jì)算機(jī)程序產(chǎn)品。因此,這些方面可以采取純硬件實(shí)施例、純軟件實(shí)施例或軟件方面和硬件方面結(jié)合的實(shí)施例的形式。此外,這樣的方面可以采取由一個或多個計(jì)算機(jī)可讀儲存介質(zhì)所儲存的計(jì)算機(jī)程序產(chǎn)品的形式,其中計(jì)算機(jī)可讀儲存介質(zhì)具有體現(xiàn)在儲存介質(zhì)中或體現(xiàn)在儲存介質(zhì)上的計(jì)算機(jī)可讀程序編碼或指令??梢岳萌魏魏线m的計(jì)算機(jī)可讀儲存介質(zhì),包括硬盤驅(qū)動器、光盤(諸如CD和DVD)、和/或其他光學(xué)介質(zhì)或光學(xué)驅(qū)動器、NAS(網(wǎng)絡(luò)附加的儲存器)設(shè)備、和/或任何它們的組合。此外,各種信號,諸如一個或多個數(shù)字信號,可以包括可在計(jì)算設(shè)備間傳輸?shù)臄?shù)據(jù)(未編碼的數(shù)據(jù)、編碼的數(shù)據(jù)或加密的數(shù)據(jù))。計(jì)算設(shè)備可以包括一個或多個計(jì)算機(jī)(例如,PC、臺式計(jì)算機(jī)、筆記本計(jì)算機(jī))、一個或多個便攜式無線計(jì)算設(shè)備(例如,無線電話、PDA、筆記本計(jì)算機(jī)、平板電腦)或包含能夠執(zhí)行固件和/或軟件的處理器和存儲器的任何一種計(jì)算設(shè)備。
[0036]圖IA示出了本公開的各個方面可以在其中被實(shí)現(xiàn)的示例操作環(huán)境。該操作環(huán)境包括一個或多個人/參與者136、一個或多個人/參與者136圍繞的會議室桌子132、顯示器/電視/監(jiān)視器140、攝影機(jī)104、計(jì)算設(shè)備112、局域網(wǎng)(LAN) 124、廣域網(wǎng)(WAN) 128和互聯(lián)網(wǎng)120。雖然圖IA示出了單個計(jì)算設(shè)備112,在其它實(shí)施例中,單個計(jì)算設(shè)備112可以被兩個或多于兩個協(xié)同工作的計(jì)算設(shè)備代替以提供本公開所描述的功能。示例性的實(shí)施例說明了來自操作環(huán)境頂部的視圖。在這個示例性的實(shí)施例中,攝影機(jī)104位于如所示的顯示器140的頂部,但是它可以位于參與者前面的任何地方。攝影機(jī)104可以位于任何合適的高度以便允許所有參與者136的面部的清晰的視圖。攝影機(jī)140可以位于提供房間內(nèi)的參與者向下的視場的高度。在可代替的實(shí)施例中,顯示器140可以包含攝影機(jī)104。攝影機(jī)140可被集成到顯示器140中。在這個實(shí)施例中,可以使用單個攝影機(jī)140,因?yàn)楫?dāng)參與者看顯示器時,參與者的位置定位成面對攝影機(jī)140。單個攝影機(jī)140能夠提供捕捉所有參與者面部圖像的視場。攝影機(jī)140的視場和角度可以被調(diào)整為捕捉房間內(nèi)所有參與者。
[0037]攝影機(jī)104通過通信鏈路116通信耦合到計(jì)算設(shè)備112。通信鏈路116可以包括接線器,該接線器可被配置為遵從下面的硬接線協(xié)議來發(fā)送和接收信號:USB版本、火線(IEEE 1394)、以太網(wǎng)(IEEE 802. 3版本)或任何其他有線協(xié)議??纱娴氖?,通信鏈路116可包含無線連接,下面的無線通信協(xié)議中的一個可以在該無線連接中使用:WLAN(IEEE802. llx)、藍(lán)牙、或任何其他類型的無線通信協(xié)議。計(jì)算設(shè)備112可以包含任何類型的計(jì)算機(jī)、便攜式無線計(jì)算設(shè)備或包含能夠執(zhí)行固件和/或軟件的處理器和存儲器中的任何一種的計(jì)算設(shè)備。在另一個實(shí)施例中,可以并行使用幾個計(jì)算設(shè)備112以處理由攝影機(jī)104提供的已捕捉的圖像。計(jì)算設(shè)備112通過有線或無線連接126通信耦合到局域網(wǎng)(LAN) 124。例如,有線連接可包含IEEE 802. 3xx連接并且有線連接可包含IEEE 802. Ilxx連接。LAN124可包含一個或多個與計(jì)算設(shè)備112合作的其他計(jì)算設(shè)備(未示出),可以用于處理攝影機(jī)104輸出的圖像。一個或多個其他計(jì)算設(shè)備可以執(zhí)行由已捕捉的圖像提供的視頻數(shù)據(jù)的并行處理。計(jì)算設(shè)備112可以通信耦合到LAN 124。計(jì)算設(shè)備也可以通信耦合到WAN 128。LAN 124可以包括路由器(未示出),用于路由和交換與示例性的802. 3xx通信協(xié)議相關(guān)的數(shù)據(jù)包。例如,WAN 128可以通過調(diào)制解調(diào)器或網(wǎng)關(guān)(未示出)的方式連接到互聯(lián)網(wǎng)120。互聯(lián)網(wǎng)120可以由一個或多個互聯(lián)網(wǎng)服務(wù)供應(yīng)商(ISP)或電信運(yùn)營商擁有和操作。雖然沒有在圖IA中示出,從攝影機(jī)所傳輸?shù)?、并由?jì)算設(shè)備112所處理的視頻數(shù)據(jù)通過互聯(lián)網(wǎng)120傳送到一個或多個接收方或接收客戶端。一個或多個接收方可以使用它們各自的調(diào)制解調(diào)器或網(wǎng)關(guān)接收視頻數(shù)據(jù),而且視頻數(shù)據(jù)可以被適當(dāng)?shù)奶幚聿⒈伙@示在每方各自的顯示器/電視/監(jiān)視器處。
[0038]如在圖IA中所示出的,視頻會議的參與者136圍坐在會議室桌子132周圍。在這個示例性實(shí)施例中,一共有5個參與者(標(biāo)記為1、2、3、4和P)。主持人(標(biāo)記為P)在如所示的會議室桌的一個末端處。在這個實(shí)施例中,攝影機(jī)104定位成使得它在參與者136看顯示器140時,面對參與者。因此,用于本示例性的操作環(huán)境的由攝影機(jī)104所捕捉的典型頭像可出現(xiàn),如在圖IB中所示。
[0039]圖IB示出了來自根據(jù)在圖IA中所示的示例性操作環(huán)境的攝影機(jī)的透鏡的視場。該視場說明了之前結(jié)合圖IA所描述的由攝影機(jī)所捕捉的圖像。根據(jù)攝影機(jī)的鏡頭,距它較近的物體將會較大,而遠(yuǎn)離它的物體將會較小。因此,參與者2和3相對于攝影機(jī)顯得比參與者I和4更大。坐在會議室桌子132的最遠(yuǎn)端的主持人,P,在攝影機(jī)中顯得最小。因而,參與者2和3的面部圖像可能比參與者I和4的面部圖像更大。根據(jù)攝影機(jī)140的透鏡,位于距離攝影機(jī)140最遠(yuǎn)處的參與者,諸如參與者P,可能