專利名稱:用于記錄的會(huì)議時(shí)間線的自動(dòng)臉部提取的制作方法
有關(guān)申請(qǐng)的交叉引用本申請(qǐng)是于2002年6月21日提交的序號(hào)為10/177315,發(fā)明名稱為“分布式會(huì)議的系統(tǒng)與方法(A System and Method for Distributed Meetings)”的美國專利申請(qǐng)的部分延續(xù),該申請(qǐng)已轉(zhuǎn)讓給微軟公司,本申請(qǐng)的受讓人。申請(qǐng)人要求所述申請(qǐng)的申請(qǐng)日的優(yōu)先權(quán),該專利申請(qǐng)整體引用在此作為參考。
(1)技術(shù)領(lǐng)域下文的說明一般地涉及視頻圖像處理。更具體地,下文的說明涉及提供一條索引的時(shí)間線用于視頻回放。
(2)背景技術(shù)包含多于一個(gè)發(fā)言者的場(chǎng)景的記錄的視頻的回放——如記錄的會(huì)議的回放——通常是通過一條索引的時(shí)間線同期顯示的。使用時(shí)間線,用戶可以快速移至?xí)h中的一個(gè)特定的時(shí)間通過操縱一個(gè)或多個(gè)時(shí)間線的控件。當(dāng)視頻包含多于一個(gè)發(fā)言者時(shí),可以使用多條時(shí)間線其中每條時(shí)間線與一個(gè)特定的發(fā)言者相關(guān)聯(lián)。每條時(shí)間線指示了對(duì)應(yīng)的發(fā)言者何時(shí)發(fā)言。那樣,用戶可以導(dǎo)航至?xí)h中某個(gè)特定發(fā)言者正在發(fā)言的部分。
這種多條時(shí)間線可以用一般的方法標(biāo)上標(biāo)簽以識(shí)別每一個(gè)發(fā)言者,例如,“發(fā)言者1”、“發(fā)言者2”等。用于自動(dòng)將時(shí)間線標(biāo)記于具體的發(fā)言者姓名的現(xiàn)有技術(shù)是不準(zhǔn)確的并且還可能需要一個(gè)用戶的數(shù)據(jù)庫以及用戶的相關(guān)的聲音樣本和臉部樣本,這可能會(huì)蒙受安全性與隱私的問題。
(3)
通過參考下文的具體的說明書,并結(jié)合附圖,前述的方面與本發(fā)明的許多伴隨的優(yōu)勢(shì)將變得更容易體會(huì)以及變得更好理解,其中圖1是一幅方框圖,描述了構(gòu)成用于實(shí)現(xiàn)本發(fā)明的示例性系統(tǒng)的通用計(jì)算/攝像設(shè)備。
圖2是一幅方框圖,表述了一個(gè)示例性的全景攝像機(jī)和客戶端設(shè)備。
圖3是一個(gè)示例性的回放屏幕的示意圖,帶有一個(gè)全景圖像和一條面部圖像時(shí)間線。
圖4是一個(gè)示例性的回放屏幕,帶有一個(gè)全景圖像和一條面部圖像時(shí)間線。
圖5是一個(gè)示例性的用于創(chuàng)建帶有面部圖像的時(shí)間線的方法的實(shí)施例的流程圖。
圖6是一個(gè)示例性的用于創(chuàng)建面部數(shù)據(jù)庫的方法的實(shí)施例的流程圖。
(4)具體實(shí)施方式
下文的描述涉及用于在多發(fā)言者環(huán)境中自動(dòng)檢測(cè)每個(gè)發(fā)言者的臉部并將一個(gè)或多個(gè)發(fā)言者的臉部圖像與對(duì)應(yīng)于該發(fā)言者的一部分時(shí)間線相關(guān)聯(lián)的各種實(shí)施方式與實(shí)施例。這類特殊的標(biāo)記對(duì)于一般標(biāo)記的優(yōu)勢(shì)在于觀看者可以更容易地確定哪一部分時(shí)間線對(duì)應(yīng)于多個(gè)發(fā)言者中的某一個(gè)。
在下面的討論中,將描述一個(gè)全景攝像機(jī)的例子,其中全景攝像機(jī)用于記錄一個(gè)具有多于一個(gè)參與者和/或發(fā)言者的會(huì)議。雖然所描述全景攝像機(jī)包括多個(gè)攝像機(jī),但下面的描述還是涉及到單個(gè)攝像機(jī)和具有兩個(gè)或更多攝像頭的多攝像頭設(shè)備。
全景圖像被輸入至一個(gè)臉部跟蹤器(FT),該跟蹤器在會(huì)議中檢測(cè)并跟蹤臉部。一個(gè)麥克風(fēng)陣列被輸入至一個(gè)聲音源定位器(SSL),該定位器根據(jù)聲音檢測(cè)發(fā)言者的位置。臉部追蹤系統(tǒng)和聲音源定位器的輸出被輸入至一個(gè)虛擬電影放映機(jī)以檢測(cè)發(fā)言者的位置。
發(fā)言者通過一個(gè)發(fā)言者聚集模塊被后置處理,該模塊將發(fā)言者在時(shí)間上和在空間上聚集以更好地描繪具有兩根或多條獨(dú)立時(shí)間線的集合時(shí)間線。該(集合)時(shí)間線儲(chǔ)存在一個(gè)時(shí)間線數(shù)據(jù)庫中。創(chuàng)建一個(gè)臉部數(shù)據(jù)庫為每一個(gè)發(fā)言者儲(chǔ)存一張或多張照片,每個(gè)臉部的至少一張將用于與發(fā)言者相關(guān)聯(lián)的時(shí)間線。
這里表述和聲明的概念在下文中會(huì)非常詳細(xì)的描述,有關(guān)于一個(gè)或多個(gè)適合的工作環(huán)境。下文描述的元件中的一些也描述于2002年6月21日提交的第10/177,315號(hào),題為“分布式會(huì)議的系統(tǒng)和方法”(A System andMethod for Distributed Meetings)美國專利申請(qǐng)中。參考并合并于此。
示例性工作環(huán)境圖1是一幅方框圖,描述了一個(gè)通用計(jì)算/攝像設(shè)備。圖1示出了適用的計(jì)算系統(tǒng)環(huán)境100的例子。計(jì)算系統(tǒng)環(huán)境100僅僅是適用的計(jì)算環(huán)境的一個(gè)例子,并不打算暗示對(duì)本發(fā)明的使用范圍或功能的任何限制。也不應(yīng)將計(jì)算環(huán)境100解釋成相對(duì)于示例性操作環(huán)境100中示出的組件的任一個(gè)或其組合具有任何依賴或要求。
本發(fā)明可以用各種其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置來運(yùn)行。適用于本發(fā)明使用的公知的計(jì)算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、包括任何以上系統(tǒng)或設(shè)備的任一個(gè)的分布式計(jì)算環(huán)境等等。
本發(fā)明可以在諸如由計(jì)算機(jī)執(zhí)行的程序模塊等計(jì)算機(jī)可執(zhí)行指令的通用上下文中描述。一般而言,程序模塊包括完成特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。本發(fā)明還可以在分布式計(jì)算環(huán)境中實(shí)踐,其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來完成。在分布式計(jì)算環(huán)境中,程序模塊可以位于本地或遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中,包括存儲(chǔ)器存儲(chǔ)設(shè)備。
參照?qǐng)D1,用于實(shí)現(xiàn)本發(fā)明的示例性系統(tǒng)包括計(jì)算機(jī)110形式的通用計(jì)算設(shè)備。計(jì)算機(jī)110的組件可包括但不限于處理單元120、系統(tǒng)存儲(chǔ)器130和將包括系統(tǒng)存儲(chǔ)器的各種系統(tǒng)組件耦合到處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)的任何一種,包括存儲(chǔ)器總線或存儲(chǔ)器控件、外圍總線、和使用多種總線體系結(jié)構(gòu)的任何一種的局部總線。作為例子,而非限制,這種體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)、增強(qiáng)型ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線、以及外圍部件互連(PCI)總線(也稱為Mezzanine總線)。
計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可以由計(jì)算機(jī)110訪問的任何可用介質(zhì),包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。作為例子,但非限制,計(jì)算機(jī)可讀介質(zhì)可包含計(jì)算機(jī)儲(chǔ)存介質(zhì)或通信介質(zhì)。計(jì)算機(jī)儲(chǔ)存介質(zhì)包括以任何方法和技術(shù)實(shí)現(xiàn)來存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性、可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)儲(chǔ)存介質(zhì)包括,但不限于RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲(chǔ)、磁帶盒、磁帶、磁盤儲(chǔ)存或其它磁儲(chǔ)存設(shè)備,或者能夠用來存儲(chǔ)所要求的信息并能夠由計(jì)算機(jī)110訪問的任何其它介質(zhì)。通信介質(zhì)通常在載波或其它傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號(hào)中具體化計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并且包括任何信息遞送介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號(hào)”指其一個(gè)或多個(gè)特征以在信號(hào)中編碼信息的方式而設(shè)置或改變的信號(hào)。作為例子,但非限制,通信介質(zhì)包括有限介質(zhì),如有限網(wǎng)絡(luò)或直接線路連接,以及無線介質(zhì),如聲學(xué)、RF、紅外和其它無線介質(zhì)。以上各種組合也應(yīng)該被包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲(chǔ)器130包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)儲(chǔ)存介質(zhì),例如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)包含如在啟動(dòng)時(shí)幫助在計(jì)算機(jī)110中的元件之間傳輸信息的基本例程,通常儲(chǔ)存在ROM 131中。RAM 132通常包含處理單元120可直接訪問和/或當(dāng)前正在操作的數(shù)據(jù)和/或程序模塊。作為例子,但非限制,圖1示出操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110還可包括其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)儲(chǔ)存介質(zhì)。僅僅作為例子,圖1示出讀取或?qū)懭氩豢梢苿?dòng)、非易失性磁介質(zhì)的硬盤驅(qū)動(dòng)器141、讀取或?qū)懭肟梢苿?dòng)、非易失性磁盤152的磁盤驅(qū)動(dòng)器151、以及讀取或?qū)懭肟梢苿?dòng)、非易失性光盤156,例如CD-ROM或其它光介質(zhì)的光盤驅(qū)動(dòng)器155。可用于示例性操作環(huán)境中的其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)儲(chǔ)存介質(zhì)包括但不限于磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器141通常通過不可移動(dòng)存儲(chǔ)器接口(如接口140)連接到系統(tǒng)總線121,而磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155通常由可移動(dòng)存儲(chǔ)器接口(例如接口150)連接到系統(tǒng)總線121。
以上討論并且在圖1中示出的驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)儲(chǔ)存介質(zhì)為計(jì)算機(jī)110提供了計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。例如,在圖1中,例如,在圖1中,硬盤驅(qū)動(dòng)器141被示出為儲(chǔ)存操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同或不同。操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147在此被給以不同的標(biāo)號(hào)以表示至少它們是不同的副本。用戶可以通過輸入設(shè)備,如鍵盤162和定點(diǎn)設(shè)備161(通常指鼠標(biāo)、跟蹤球或觸摸墊)輸入命令和信息到計(jì)算機(jī)110。其它輸入設(shè)備(未示出)可包括話筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等等。這些和其它輸入設(shè)備經(jīng)常通過耦合到系統(tǒng)總線121的用戶輸入接口160連接到處理單元120,但是也可以由其它接口和總線結(jié)構(gòu),如并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器191或其它類型顯示設(shè)備也通過接口,如視頻接口190連接到系統(tǒng)總線121。除了監(jiān)視器以外,計(jì)算機(jī)還可包括其它外圍輸入設(shè)備,如揚(yáng)聲器197和打印機(jī)196,它們可以通過輸出外圍接口195連接。能夠捕捉圖像序列193的攝像機(jī)192(如數(shù)字/電子靜態(tài)或視頻攝像機(jī),或者膠卷/照片掃描儀)也能夠作為個(gè)人計(jì)算機(jī)110的輸入設(shè)備被包括在內(nèi)。此外,盡管僅僅描述了一臺(tái)攝像機(jī),然而也可包括多臺(tái)攝像機(jī),作為個(gè)人計(jì)算機(jī)110的輸入設(shè)備。來自一臺(tái)或多臺(tái)攝像機(jī)的圖像193通過適當(dāng)?shù)臄z像機(jī)接口194輸入到計(jì)算機(jī)110。該接口194連接到系統(tǒng)總線121,因此允許圖像被路由到并儲(chǔ)存在RAM 132中,或者與計(jì)算機(jī)110相關(guān)聯(lián)的其它數(shù)據(jù)儲(chǔ)存設(shè)備之一中。然而,要注意,圖像數(shù)據(jù)也能夠從上述任一計(jì)算機(jī)可讀介質(zhì)輸入到計(jì)算機(jī)110,而不要求使用攝像機(jī)192。
計(jì)算機(jī)110可以使用到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)(如遠(yuǎn)程計(jì)算機(jī)180)的邏輯連接在網(wǎng)絡(luò)環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它公共網(wǎng)絡(luò)結(jié)點(diǎn),并且通常包括許多或所有關(guān)于計(jì)算機(jī)110所描述的元件,盡管在圖1中僅僅示出了存儲(chǔ)器儲(chǔ)存設(shè)備181。在圖1中描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但是還可以包括其它網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)環(huán)境普遍存在于辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通過網(wǎng)絡(luò)接口或適配器170連接到LAN 171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通常包括調(diào)制解調(diào)器172或通過WAN 173(例如因特網(wǎng))建立通信的其它裝置。調(diào)制解調(diào)器172可以是內(nèi)置或者外置的,它可以通過用戶輸入接口160或者其它適當(dāng)?shù)臋C(jī)制連接到系統(tǒng)總線121。在網(wǎng)絡(luò)環(huán)境中,相對(duì)于計(jì)算機(jī)110所描述的程序模塊或其部分可以存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器儲(chǔ)存設(shè)備中。作為例子,但非限制,圖1示出遠(yuǎn)程應(yīng)用程序185駐留在存儲(chǔ)器設(shè)備181上。將會(huì)明白,示出的網(wǎng)絡(luò)連接是示例性的,并且可以使用在計(jì)算機(jī)之間建立通信鏈路的其它手段。
示例性全景攝像機(jī)和客戶機(jī)設(shè)備圖2是一幅方框圖,表述了一個(gè)示例性的全景攝像機(jī)設(shè)備200和示例性的客戶端設(shè)備222。雖然示出了一個(gè)詳細(xì)的配置,但需注意的是全景攝像機(jī)200可以是任何包含全景攝像機(jī)或等同功能的設(shè)備。比全景攝像機(jī)設(shè)備200中所包括的比所示的更多或更少的組件可能包含在一個(gè)實(shí)際的申請(qǐng)中,結(jié)合了此處所述的一項(xiàng)或多項(xiàng)技術(shù)特征。
全景攝像機(jī)設(shè)備200包括一個(gè)處理器202和存儲(chǔ)器204。全景攝像機(jī)設(shè)備200通過將由多個(gè)攝像機(jī)206(從206 1至206n)產(chǎn)生的幾幅獨(dú)立圖像拼接在一起生成一個(gè)全景圖像。全景圖像可以是一幅完整的360度圖像或者是其中的一部分。需注意的是雖然這里示出并描繪了全景攝像機(jī)設(shè)備200,但所述的技術(shù)也可用單個(gè)攝像機(jī)完成。
全景攝像機(jī)設(shè)備200也包括一個(gè)麥克風(fēng)陣列208。如下文將要更詳細(xì)的描述的,配置一個(gè)麥克風(fēng)陣列使聲音方向可以被定位。換句話說,輸入至麥克風(fēng)陣列的聲音的分析產(chǎn)生一個(gè)被檢測(cè)到的聲音產(chǎn)生的方向。發(fā)言者210也可包含在全景攝像機(jī)設(shè)備200中以打開一個(gè)擴(kuò)音器或者發(fā)送通知信號(hào)及其類似至用戶。
存儲(chǔ)器204存儲(chǔ)幾個(gè)攝像機(jī)設(shè)置212如校準(zhǔn)數(shù)據(jù)、曝光設(shè)置、拼接表等??刂茢z像機(jī)功能的操作系統(tǒng)214與一個(gè)或多個(gè)攝像機(jī)軟件應(yīng)用程序216一起也存儲(chǔ)在存儲(chǔ)器204中。
全景攝像機(jī)設(shè)備200還包括一個(gè)輸入/輸出(I/O)模塊218用于發(fā)送來自全景攝像機(jī)設(shè)備200的數(shù)據(jù)并接受送至全景攝像機(jī)設(shè)備200以及各種其它攝像功能中所需的硬件220元件的數(shù)據(jù)。
全景攝像機(jī)設(shè)備200與至少一個(gè)客戶機(jī)設(shè)備222通信,該客戶機(jī)設(shè)備包括一個(gè)處理器224、存儲(chǔ)器226、大容量存儲(chǔ)設(shè)備242(如硬盤驅(qū)動(dòng)器)以及執(zhí)行下文的客戶機(jī)設(shè)備222的功能所需要的其它硬件230。
存儲(chǔ)器226儲(chǔ)存一個(gè)臉部跟蹤器(FT)模塊230和一個(gè)聲音源定位(SSL)模塊232。臉部跟蹤器模塊230和聲音源定位(SSL)模塊232連同一個(gè)虛擬電影放映機(jī)234用于檢測(cè)攝像機(jī)場(chǎng)景中的人物并確定該人物是否在發(fā)言以及何時(shí)在發(fā)言。幾種傳統(tǒng)的聲音定位方法中的任一種都可使用。各種臉部跟蹤方法(或人物檢測(cè)和跟蹤系統(tǒng)),包括在相關(guān)的源申請(qǐng)中的所描述的方法,可如所描述的用在此處。
存儲(chǔ)器226還儲(chǔ)存一個(gè)發(fā)言者聚集模塊236,該模塊配置為當(dāng)兩個(gè)或多個(gè)人在發(fā)言時(shí)確定一個(gè)主要的發(fā)言者并集中一個(gè)特殊的時(shí)間線部分給主要發(fā)言者。在大多數(shù)會(huì)議環(huán)境中,存在同時(shí)又多于一個(gè)人發(fā)言的實(shí)例。一般地,一個(gè)主要的發(fā)言者在發(fā)言而另一個(gè)人打斷該發(fā)言者一小段時(shí)間或者與發(fā)言者進(jìn)行討論。發(fā)言者聚集模塊236配置成將發(fā)言者在時(shí)間上和在空間上聚集以理清時(shí)間線。
虛擬電影放映機(jī)234生成時(shí)間線238。時(shí)間線238儲(chǔ)存在大容量儲(chǔ)存設(shè)備242上的時(shí)間線數(shù)據(jù)庫224中。時(shí)間線數(shù)據(jù)庫238包括多個(gè)域,包括但不限于,時(shí)間、發(fā)言者編號(hào)、以及在一幅攝像機(jī)圖像(x、y、寬、高)內(nèi)的發(fā)言者邊界框。時(shí)間線數(shù)據(jù)庫238還可包括一個(gè)或多個(gè)發(fā)言者臉部角度(方位角和仰角)。
臉部提取模塊240也儲(chǔ)存在存儲(chǔ)器226中并配置成從攝像機(jī)圖像的臉部邊界框中(由臉部跟蹤器230識(shí)別)提取發(fā)言者臉部的圖像。臉部提取模塊240將經(jīng)提取的臉部圖像存儲(chǔ)到大容量儲(chǔ)存設(shè)備242上的臉部數(shù)據(jù)庫246中。
在至少一個(gè)實(shí)施例中,可以為一個(gè)或多個(gè)發(fā)言者儲(chǔ)存多個(gè)臉部圖像??梢韵薅▍?shù)以確定在什么特殊時(shí)間使用哪幅臉部圖像。或者,用戶可以手動(dòng)從多個(gè)臉部圖像中選擇一個(gè)特殊的臉部圖像。
在至少一個(gè)可選擇的實(shí)施例中,只為每個(gè)發(fā)言者儲(chǔ)存了一幅單獨(dú)的臉部圖像。儲(chǔ)存的臉部圖像可以使一幅由臉部提取模塊提取的單獨(dú)圖像,但臉部提取圖像240也可配置成選擇一幅發(fā)言者最佳的圖像。
選擇一幅發(fā)言者最佳的圖像可以通過識(shí)別正面臉部角度(假設(shè)一幅具有正面臉部圖像的圖像相比可選擇圖像有更好的表現(xiàn)性),通過識(shí)別存在最小量的動(dòng)作的臉部圖像、或者通過識(shí)別最大化臉部對(duì)稱性的臉部圖像來實(shí)現(xiàn)。
經(jīng)記錄的會(huì)議248也儲(chǔ)存在大容量儲(chǔ)存設(shè)備242上這使它可以在之后重播和回放。
關(guān)于圖2所示出并描述的元件和功能,結(jié)合下面的附圖,將會(huì)在下文更全面的描述。
示例性的回放屏幕圖3是一個(gè)示例性的回放屏幕300的示意圖,帶有一個(gè)全景圖像302和一條面部圖像時(shí)間線304。全景圖像302顯示了具有第一會(huì)議參與者303以及第二會(huì)議參與者305。回放屏幕300還顯示了具有一個(gè)標(biāo)題欄306和一個(gè)獨(dú)立圖像308。獨(dú)立圖像308是一個(gè)可任選的特征,其中聚焦了一個(gè)特殊的個(gè)人,典型地是主要發(fā)言者。在圖3中,獨(dú)立圖像308顯示了第一會(huì)議參與者303的臉部圖像。
示例性的回放屏幕300還包括一個(gè)控制部分310,該控制部分包含了控件,典型地可以在一個(gè)媒體播放器中找到,比如一個(gè)播放按鈕、一個(gè)快進(jìn)按鈕、一個(gè)后退按鈕等?;胤牌聊?00中包括一個(gè)信息區(qū)域312,在其中可以顯示有關(guān)于回放屏幕300的主體。例如,會(huì)議題目、會(huì)議室編號(hào)、會(huì)議出席者名單、諸如此類可以顯示在信息區(qū)域312中。
臉部圖像時(shí)間線304包括一個(gè)第一副時(shí)間線314對(duì)應(yīng)于第一會(huì)議參與者303以及一個(gè)第二副時(shí)間線316對(duì)應(yīng)于第二會(huì)議參與者。每個(gè)副時(shí)間線314、316顯示了時(shí)間連接區(qū)域的相應(yīng)會(huì)議參與者正在發(fā)言的部分。用戶可以直接訪問副時(shí)間線314、316上的任何時(shí)間點(diǎn)以立即訪問特殊的會(huì)議參與者正在發(fā)言的那部分會(huì)議。
第一會(huì)議參與者303的第一臉部圖像318出現(xiàn)在第一副時(shí)間線314相鄰處以表示第一副時(shí)間線314與第一會(huì)議參與者303相關(guān)聯(lián)。第二會(huì)議參與者305的臉部圖像320出現(xiàn)在第二副時(shí)間線316相鄰處以表示第二副時(shí)間線316與第二會(huì)議參與者305相關(guān)聯(lián)。
圖4顯示了一個(gè)示例性的回放屏幕400,包括與圖3所示并描述的示例性的回放屏幕300相似的元件。關(guān)于圖3中顯示和描述的元件和參考數(shù)字也會(huì)使用在關(guān)于圖4的示例性回放屏幕400中。
示例性回放屏幕400包括一個(gè)全景圖像302和一個(gè)臉部圖像時(shí)間線304。全景圖像302顯示了第一會(huì)議參與者303和第二會(huì)議參與者305。標(biāo)題欄306橫跨回放屏幕400的頂部,一幅獨(dú)立圖像408顯示了第二會(huì)議參與者303。
示例性的回放屏幕400還包括一個(gè)白色書寫板發(fā)言者圖像402顯示了一個(gè)位于白色書寫板前面的會(huì)議參與者(在這個(gè)例子中,是第二會(huì)議參與者305)。白色書寫板發(fā)言者圖像402并不包括在圖3的回放屏幕300中,并在此處用于顯示其它圖像是如何被包括在任何特殊的回放屏幕300和400中的。
控制部分310包括多媒體控件和一個(gè)顯示回放屏幕400上所顯示的會(huì)議的有關(guān)信息的信息區(qū)域312。
臉部圖像時(shí)間線304包括第一副時(shí)間線314、第二副時(shí)間線316以及第三副時(shí)間線404。需要注意的是雖然圖3中只有兩根副時(shí)間線,但一條時(shí)間線可包含任何可管理的數(shù)量的副時(shí)間線。例如,在圖4中,有三根時(shí)間線。
需要注意的是雖然在本例中只有兩個(gè)會(huì)議參與者,但卻有三根時(shí)間線。這是因?yàn)閱蝹€(gè)發(fā)言者可與多于一條的副時(shí)間線相關(guān)聯(lián)。在本例中,當(dāng)?shù)诙?huì)議參與者305處于白色書寫板時(shí),第二副時(shí)間線316與第二會(huì)議參與者305相關(guān)聯(lián),而當(dāng)?shù)诙?huì)議參與者305處于白色書寫板之外的其它位置時(shí),第三副時(shí)間線404與第二會(huì)議參與者305相關(guān)聯(lián)。
這種情況可發(fā)生于在會(huì)議中一個(gè)會(huì)議參與者具有多于一個(gè)位置時(shí)。在本例中虛擬電影放映機(jī)234在三個(gè)位置檢測(cè)到發(fā)言者。不需要知道在那些位置上只有兩個(gè)發(fā)言者在場(chǎng)。這個(gè)特性在用戶主要對(duì)一個(gè)發(fā)言者在某一位置上的發(fā)言感興趣的情況下對(duì)用戶起到幫助。例如,用戶可能只想播放發(fā)言者在白色書寫板前時(shí)的那部分經(jīng)記錄的會(huì)議。
示例性的回放屏幕400還包括第一會(huì)議參與者303的第一臉部圖像318以及第二會(huì)議參與者305的第二臉部圖像320。另外,還包括第三臉部圖像406,其與第三副時(shí)間線404相關(guān)聯(lián)。第三臉部圖像406對(duì)應(yīng)于第二會(huì)議參與者305的第二個(gè)位置。
用于表述示例性的回放屏幕300和400的技術(shù),結(jié)合其它附圖,將會(huì)在下文更詳細(xì)的描述。
示例性的方法的實(shí)施例臉部圖像時(shí)間線的創(chuàng)立圖5是一個(gè)示例性的用于創(chuàng)建帶有面部圖像的時(shí)間線的方法的實(shí)施例的流程圖500。在下面的示例性的流程圖500的討論中,以前的附圖中所示的元件和參考數(shù)字將繼續(xù)沿用。
在方框502,全景攝像機(jī)設(shè)備200對(duì)一幅或多幅視頻圖像進(jìn)行采樣以生成一幅全景圖像。全景圖像被輸入至臉部跟蹤器230(方框504),臉部追蹤器在圖像中檢測(cè)并跟蹤臉部。在方框506大致同步地,麥克風(fēng)陣列208對(duì)與全景圖像相對(duì)應(yīng)的聲音進(jìn)行采樣,并輸入該聲音至聲音源定位器232,在方框508,音源定位器根據(jù)經(jīng)采樣的聲音檢測(cè)發(fā)言者的位置。
在方框510,虛擬電影放映機(jī)234處理來自臉部跟蹤器230和聲音源定位器232的數(shù)據(jù),并創(chuàng)建時(shí)間線238。在方框512,發(fā)言者聚集模塊236將發(fā)言者在時(shí)間上和在空間上聚集以鞏固和闡明時(shí)間線238的部分,如前文所述。
時(shí)間線儲(chǔ)存在時(shí)間線數(shù)據(jù)庫244,數(shù)據(jù)庫有下述域時(shí)間、發(fā)言者編號(hào)、圖像內(nèi)的發(fā)言者邊界框(x、y、寬、高)、發(fā)言者臉部角度(方位角和仰角)等。
使用全景圖像和得自臉部跟蹤器230的臉部識(shí)別坐標(biāo)(即臉部邊界框),在方框514,臉部提取器240提取一幅發(fā)言者的面部圖像。經(jīng)提取的臉部圖像儲(chǔ)存在臉部數(shù)據(jù)庫246中并與發(fā)言者編號(hào)相關(guān)聯(lián)。
如以前所述的,臉部跟蹤器240可配置成為每位發(fā)言者提取多于一幅的圖像并使用臉部提取器240確定的時(shí)間線238中最佳的那幅圖像。
選擇一幅“最佳”面部圖像和創(chuàng)建臉部數(shù)據(jù)庫246的示例性的方法的實(shí)施例將結(jié)合圖6在下文中示出并描述。
示例性的方法的實(shí)施例創(chuàng)建一個(gè)臉部數(shù)據(jù)庫圖6是一個(gè)示例性的流程圖600表述了用于創(chuàng)建面部數(shù)據(jù)庫的方法的實(shí)施例。在下文的關(guān)于圖6的討論中,以前的一幅或多幅附圖中所示的元件和參考數(shù)字將繼續(xù)沿用。
在方框602,臉部提取器240從以前所述的全景圖像中提取一幅臉部圖像。如果發(fā)言者的臉部圖像還沒有儲(chǔ)存在臉部數(shù)據(jù)庫246中(“否”分支,方框604),那么在方框610,臉部圖像會(huì)儲(chǔ)存入臉部數(shù)據(jù)庫246。需要注意的是確定臉部圖像是否已存儲(chǔ)不必取決于在臉部圖像中出現(xiàn)的個(gè)人是否具有已存儲(chǔ)的他們的相似的圖像,而取決于經(jīng)識(shí)別的發(fā)言者是否具有已存儲(chǔ)的與該發(fā)言者相對(duì)的圖像。這樣,如果位于第一個(gè)位置的一個(gè)發(fā)言者具有已存儲(chǔ)的面部圖像而隨后發(fā)言者被檢測(cè)到處于第二位置,處于第二位置的該發(fā)言者的面部圖像不會(huì)與已存儲(chǔ)的處于第一位置的該發(fā)言者的面部圖像做比較以確定是否發(fā)言者已有面部圖像被存儲(chǔ)。
如果該發(fā)言者的面部圖像已存儲(chǔ)在面部數(shù)據(jù)庫246——在下文中,“已存儲(chǔ)的面部圖像”——(“是”分支,方框604),則在606,面部圖像與已存儲(chǔ)的面部圖像做比較。如果臉部提取器240確定臉部圖像比已存儲(chǔ)的面部圖像更好或更容易接受(“是”分支,方框608),則面部圖像被存入面部數(shù)據(jù)庫246,這樣就覆蓋了原先已存儲(chǔ)的面部圖像。
如果確定臉部圖像不比已存儲(chǔ)的面部圖像更好(“否”分支,方框608),則該面部圖像被丟棄而保留已存儲(chǔ)的面部圖像。
確定哪幅面部圖像是較好的面部圖像的標(biāo)準(zhǔn)可以是多種多樣的。例如,臉部提取器240可配置成確定一幅“最佳的”面部圖像是一個(gè)發(fā)言者處于某一位置時(shí)所拍攝的,在該位置發(fā)言者的臉部大多數(shù)是處于正面的位置。或者,如果一個(gè)第一面部圖像顯示了運(yùn)動(dòng)的跡象而第二面部圖像沒有,則提取器240可確定第二面部圖像是最佳面部圖像?;蛘?,臉部提取器240可配置成確定發(fā)言者的多幅圖像中哪一幅具有最大的對(duì)稱性,就將那幅面部圖像用于時(shí)間線中。其它此處未列舉的標(biāo)準(zhǔn)也可用作確定最適用于時(shí)間線的面部圖像。
如果有另一個(gè)發(fā)言者(“是”分支,方框612),則流程回到方框602并為每個(gè)唯一的發(fā)言者重復(fù)該流程。重申的是,在上下文中使用的“唯一的發(fā)言者”指的并不必定指的是一個(gè)唯一的發(fā)言者,因?yàn)橐粋€(gè)人出現(xiàn)在不同的發(fā)言位置也解釋成是不同的發(fā)言者。當(dāng)沒有更多的唯一的發(fā)言者需識(shí)別時(shí)(“否”分支,方框612)流程終止。
總結(jié)雖然已圖示并描述了一個(gè)或多個(gè)示例性實(shí)施例,可以理解的是可以做出各種改變而不背離附加的權(quán)利要求的精神和范圍。
權(quán)利要求
1.一種方法,包括在一個(gè)視頻樣本中檢測(cè)一幅或多幅面部圖像;在一個(gè)與視頻樣本相對(duì)應(yīng)的音頻樣本中檢測(cè)一個(gè)或多個(gè)發(fā)言者;儲(chǔ)存由發(fā)言者標(biāo)識(shí)符標(biāo)識(shí)的發(fā)言者時(shí)間線和每次沿發(fā)言者時(shí)間線上的發(fā)言者位置;為每個(gè)檢測(cè)到的發(fā)言者在臉部數(shù)據(jù)庫中儲(chǔ)存至少一幅臉部圖像;以及把發(fā)言者時(shí)間線和臉部圖像與每個(gè)檢測(cè)到的發(fā)言者相關(guān)聯(lián)。
2.如權(quán)利要求1所述的方法,其特征在于,所述的檢測(cè)一幅或多幅臉部圖像進(jìn)一步包括使用臉部跟蹤檢測(cè)一幅或多幅臉部圖像。
3.如權(quán)利要求1所述的方法,其特征在于,所述的檢測(cè)一個(gè)或多個(gè)發(fā)言者進(jìn)一步包括使用聲音源定位來檢測(cè)一個(gè)或多個(gè)發(fā)言者。
4.如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括為每個(gè)發(fā)言者識(shí)別多于一幅臉部圖像;以及選擇一幅最佳的臉部圖像儲(chǔ)存在臉部數(shù)據(jù)庫中。
5.如權(quán)利要求4所述的方法,其特征在于,所述的選擇進(jìn)一步包括選擇一幅具有最多的正面臉部視圖的臉部圖像作為最佳臉部圖像。
6.如權(quán)利要求4所述的方法,其特征在于,所述的選擇進(jìn)一步包括選擇一幅呈現(xiàn)最少運(yùn)動(dòng)的臉部圖像作為最佳臉部圖像。
7.如權(quán)利要求4所述的方法,其特征在于,所述的選擇進(jìn)一步包括選擇一幅呈現(xiàn)最大對(duì)稱性的臉部圖像作為最佳臉部圖像。
8.如權(quán)利要求1所述的方法,其特征在于,所述的發(fā)言者位置由視頻樣本坐標(biāo)標(biāo)識(shí)的發(fā)言者邊界框所標(biāo)記。
9.如權(quán)利要求1所述的方法,其特征在于,所述的發(fā)言者位置由視頻樣本中的方位角和仰角標(biāo)識(shí)的發(fā)言者臉部角度所標(biāo)記。
10.一種方法,包括顯示一個(gè)其中包含了一個(gè)或多個(gè)發(fā)言者的音頻/視頻(A/V)樣本;顯示一個(gè)對(duì)應(yīng)于每個(gè)發(fā)言者的發(fā)言者時(shí)間線,所述發(fā)言者時(shí)間線指示了對(duì)應(yīng)于該發(fā)言者時(shí)間線的發(fā)言者在時(shí)間連續(xù)區(qū)的哪些時(shí)間點(diǎn)上正在進(jìn)行發(fā)言;將發(fā)言者臉部圖像與每個(gè)發(fā)言者時(shí)間線相關(guān)聯(lián),所述發(fā)言者臉部圖像對(duì)應(yīng)于與發(fā)言者時(shí)間線相關(guān)聯(lián)的發(fā)言者;以及與相應(yīng)發(fā)言者時(shí)間線一起顯示臉部圖像。
11.如權(quán)利要求10所述的方法,其特征在于,進(jìn)一步包括從時(shí)間線數(shù)據(jù)庫中檢索發(fā)言者時(shí)間線,所述時(shí)間線數(shù)據(jù)庫通過發(fā)言者標(biāo)識(shí)符、發(fā)言者位置以及發(fā)言者發(fā)言時(shí)的一個(gè)或多個(gè)時(shí)間來標(biāo)識(shí)每個(gè)發(fā)言者。
12.如權(quán)利要求10所述的方法,其特征在于,進(jìn)一步包括從臉部數(shù)據(jù)庫中獲取發(fā)言者臉部圖像,所述臉部數(shù)據(jù)庫將每個(gè)發(fā)言者標(biāo)識(shí)符與對(duì)應(yīng)于發(fā)言者標(biāo)識(shí)符的發(fā)言者的至少一幅臉部圖像相關(guān)聯(lián)
13.一種或多種包含可執(zhí)行指令的計(jì)算機(jī)可讀媒體,當(dāng)所述指令被執(zhí)行時(shí),實(shí)現(xiàn)了下述方法在音頻/視頻樣本中通過發(fā)言者標(biāo)識(shí)符識(shí)別每個(gè)發(fā)言者;在音頻/視頻樣本中為每個(gè)發(fā)言者識(shí)別位置;為音頻/視頻樣本中所識(shí)別的每個(gè)發(fā)言者提取至少一副臉部圖像;為音頻/視頻樣本中所識(shí)別的每個(gè)發(fā)言者創(chuàng)建一條發(fā)言者時(shí)間線,每條發(fā)言者時(shí)間線指示了時(shí)間、發(fā)言者標(biāo)識(shí)符和發(fā)言者位置;以及將發(fā)言者的臉部圖像與對(duì)應(yīng)于同一發(fā)言者的發(fā)言者時(shí)間線相關(guān)聯(lián)。
14.如權(quán)利要求13所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,進(jìn)一步包括使用聲音源定位來識(shí)別每個(gè)發(fā)言者。
15.如權(quán)利要求13所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,進(jìn)一步包括使用臉部跟蹤器識(shí)別每個(gè)發(fā)言者。
16.如權(quán)利要求13所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,所述發(fā)言者位置由音頻/視頻樣本中的發(fā)言者邊界框所標(biāo)示。
17.如權(quán)利要求13所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,進(jìn)一步包括儲(chǔ)存發(fā)言者時(shí)間線和臉部圖像,并將每條發(fā)言者時(shí)間線與合適的臉部圖像相鏈接。
18.如權(quán)利要求13所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,進(jìn)一步包括為每個(gè)發(fā)言者提取多于一幅的臉部圖像。
19.如權(quán)利要求18所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,進(jìn)一步包括選擇一幅最佳的臉部圖像與發(fā)言者時(shí)間線相關(guān)聯(lián)。
20.如權(quán)利要求19所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,所述的選擇一最佳臉部圖像進(jìn)一步包括選擇一幅具有最多的正面臉部視圖的臉部圖像。
21.如權(quán)利要求19所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,所述的選擇最佳臉部圖像進(jìn)一步包括選擇一幅呈現(xiàn)最少運(yùn)動(dòng)的臉部圖像。
22.如權(quán)利要求19所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,所述的選擇最佳臉部圖像進(jìn)一步包括選擇一幅呈現(xiàn)最大對(duì)稱性的臉部圖像。
23.一種或多種計(jì)算機(jī)可讀媒體,包括發(fā)言者時(shí)間線數(shù)據(jù)庫為音頻/視頻樣本中的每一個(gè)發(fā)言者包括了一條發(fā)言者時(shí)間線,每條發(fā)言者時(shí)間線為沿時(shí)間連續(xù)區(qū)域上多個(gè)時(shí)間識(shí)別發(fā)言者和發(fā)言者位置;以及臉部數(shù)據(jù)庫在發(fā)言者時(shí)間線中為所識(shí)別的每個(gè)發(fā)言者包括至少一幅臉部圖像和一個(gè)將每個(gè)臉部圖像與發(fā)言者時(shí)間線數(shù)據(jù)庫中合適的發(fā)言者時(shí)間線相鏈接的發(fā)言者標(biāo)識(shí)符。
24.如權(quán)利要求23所述的一種或多種計(jì)算機(jī)可讀媒體,其特征在于,所述的發(fā)言者時(shí)間線數(shù)據(jù)庫中的每個(gè)發(fā)言者時(shí)間線包括合適的發(fā)言者標(biāo)識(shí)符將發(fā)言者時(shí)間線數(shù)據(jù)庫與臉部數(shù)據(jù)庫相鏈接。
25.一種系統(tǒng),包括音頻/視頻樣本;用于識(shí)別音頻/視頻樣本中所出現(xiàn)的每個(gè)發(fā)言者的裝置;用于識(shí)別音頻/視頻樣本中所識(shí)別的每個(gè)發(fā)言者的臉部圖像的裝置;用于為音頻/視頻樣本中所識(shí)別的每個(gè)發(fā)言者創(chuàng)建時(shí)間線的裝置;以及用于將臉部圖像與合適的發(fā)言者時(shí)間線相關(guān)聯(lián)的裝置。
26.如權(quán)利要求25所述的系統(tǒng),其特征在于,所述用于識(shí)別每個(gè)發(fā)言者的裝置進(jìn)一步包括聲音源定位器。
27.如權(quán)利要求25所述的系統(tǒng),其特征在于,所述用于識(shí)別臉部圖像的裝置進(jìn)一步包括臉部跟蹤器。
28.如權(quán)利要求25所述的系統(tǒng),其特征在于,所述發(fā)言者時(shí)間線通過發(fā)言者標(biāo)識(shí)符識(shí)別與發(fā)言者時(shí)間線相關(guān)聯(lián)的發(fā)言者和沿時(shí)間連續(xù)區(qū)域上對(duì)于多個(gè)時(shí)間中的每一個(gè)的發(fā)言者的位置。
29.如權(quán)利要求28所述的系統(tǒng),其特征在于,所述的將臉部圖像與合適的發(fā)言者時(shí)間線相關(guān)聯(lián)進(jìn)一步包括將每個(gè)臉部圖像與發(fā)言者標(biāo)識(shí)符相關(guān)聯(lián)。
30.如權(quán)利要求25所述的系統(tǒng),其特征在于,進(jìn)一步包括儲(chǔ)存發(fā)言者時(shí)間線和臉部圖像。
31.如權(quán)利要求30所述的系統(tǒng),其特征在于,所述發(fā)言者時(shí)間線和臉部圖像被分開存儲(chǔ)。
32.如權(quán)利要求25所述的系統(tǒng),其特征在于,所述音頻/視頻樣本進(jìn)一步包括一記錄的會(huì)議。
全文摘要
一次聚會(huì)或會(huì)議中的發(fā)言者的臉部被自動(dòng)檢測(cè),對(duì)應(yīng)于每個(gè)發(fā)言者的臉部圖像儲(chǔ)存在臉部數(shù)據(jù)庫中。創(chuàng)建一條時(shí)間線在會(huì)議記錄的回放中圖形化地標(biāo)識(shí)發(fā)言者的發(fā)言時(shí)間。示出臉部圖像以標(biāo)識(shí)與時(shí)間線相關(guān)聯(lián)的每個(gè)發(fā)言者,取代了一般地在時(shí)間線中識(shí)別每個(gè)用戶。
文檔編號(hào)G06T1/00GK1783998SQ200510118590
公開日2006年6月7日 申請(qǐng)日期2005年10月25日 優(yōu)先權(quán)日2004年10月30日
發(fā)明者R·G·卡特勒 申請(qǐng)人:微軟公司