增強(qiáng)現(xiàn)實(shí)已經(jīng)變得可用在各種平臺(tái)上,包括電視、平視顯示器以及在有限程度上用在手持裝置諸如蜂窩電話上,在增強(qiáng)現(xiàn)實(shí)中使用計(jì)算機(jī)生成的輸入增強(qiáng)對(duì)現(xiàn)實(shí)世界環(huán)境的觀察。
手持裝置(諸如蜂窩電話)作為相機(jī)的使用已經(jīng)通過(guò)小型的、專門(mén)的可下載程序(被通俗地稱為應(yīng)用程序,app)的可用性而得到增強(qiáng)。這些程序中的許多包括可以通過(guò)相機(jī)與“實(shí)時(shí)(live)視圖”結(jié)合的計(jì)算機(jī)生成的視覺(jué)效果,從而向用戶提供一定程度的增強(qiáng)現(xiàn)實(shí)以用于改善圖像或者娛樂(lè)。然而,由于在大多數(shù)手持裝置中可用的處理能力有限,以及缺乏配置有內(nèi)置框架的功能代碼庫(kù),將視頻片段(video footage,錄像)合并到相機(jī)的實(shí)時(shí)視圖中已經(jīng)被證明是很困難的。
申請(qǐng)人的已公開(kāi)的英國(guó)專利申請(qǐng)GB 2 508 070描述了用于在手持裝置上生成有效的增強(qiáng)現(xiàn)實(shí)體驗(yàn)的技術(shù)示例。
本發(fā)明的實(shí)施方案旨在提供用于在相機(jī)裝置上捕獲被攝體(subject,主體)的圖像、從背景中提取圖像并且共享所提取的圖像的設(shè)備和方法。
本發(fā)明的實(shí)施方案還旨在提供用于共享將在增強(qiáng)現(xiàn)實(shí)顯示器中使用的圖像的系統(tǒng)和方法。
在現(xiàn)在應(yīng)參考的隨附的獨(dú)立權(quán)利要求中限定了本發(fā)明。此外,優(yōu)選特征可以在隨附的從屬權(quán)利要求中找到。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種提供增強(qiáng)現(xiàn)實(shí)圖像的方法,所述方法包括使用記錄設(shè)備記錄基本圖像,所述基本圖像包括被攝體和第一背景,從基本圖像提取被攝體圖像,以及將提取的被攝體圖像提供給顯示裝置以用于與第二背景組合。
第二背景可以包括以下中的任一項(xiàng)但不限于:桌面背景,例如,裝置的顯示屏幕;由應(yīng)用程序提供的背景或者由相機(jī)捕獲的背景。該背景可以通過(guò)待要在其上觀看被攝體圖像的裝置的相機(jī)被捕獲。
優(yōu)選地,將提取的被攝體圖像提供給顯示裝置,用于與通過(guò)顯示裝置的相機(jī)被成像的第二背景進(jìn)行組合。
在一個(gè)實(shí)施方案中,記錄裝置和顯示裝置是常用裝置的一部分,該常用裝置可以是手持裝置。替代地或者另外地,記錄裝置和顯示裝置可以是分立的,并且可以遠(yuǎn)程地定位。記錄裝置和顯示裝置可以各自是分立裝置的一部分,記錄裝置和顯示裝置可以是手持裝置,并且記錄裝置和顯示裝置可以包括但不限于移動(dòng)電話和平板計(jì)算機(jī)。
記錄裝置和顯示裝置可以包括不同類型的裝置。
在優(yōu)選的布置中,第一背景和第二背景在時(shí)間和/或空間上是分立的。第一背景可以包括與被攝體圖像同時(shí)出現(xiàn)的圖像,并且第二背景可以包括與被攝體圖像不同時(shí)出現(xiàn)的圖像。
在優(yōu)選的布置中,相對(duì)于記錄裝置在本地并且優(yōu)選地在裝置內(nèi)執(zhí)行從基本圖像提取被攝體的步驟。替代地,可以相對(duì)于記錄裝置遠(yuǎn)程地執(zhí)行從基本圖像提取被攝體圖像的步驟。
從基本圖像提取被攝體圖像的步驟可以相對(duì)于記錄基本圖像實(shí)時(shí)地執(zhí)行,或者可以在記錄基本圖像之后執(zhí)行。
優(yōu)選地,該方法包括將提取的被攝體圖像從一個(gè)裝置發(fā)送到另一個(gè)裝置。優(yōu)選地,該圖像是運(yùn)動(dòng)圖像,并且更優(yōu)選地,該圖像是運(yùn)動(dòng)的、真實(shí)世界圖像。
提取的被攝體圖像可以包括用戶的頭部和/或臉部,所述用戶諸如是圖像的發(fā)送者。更優(yōu)選地,該圖像是運(yùn)動(dòng)圖像并且可以包括、被附加到或者被關(guān)聯(lián)到音頻文件,所述音頻文件諸如是運(yùn)動(dòng)圖像的聲音記錄或者屬于運(yùn)動(dòng)圖像。
圖像可以包括一個(gè)或者多個(gè)圖形元素,例如增強(qiáng)現(xiàn)實(shí)圖像組成部分。增強(qiáng)現(xiàn)實(shí)圖像組成部分可以被錨定到提取的被攝體圖像,以給出是提取的被攝體圖像的真實(shí)元素或者原始元素的外觀(appearance)。
在優(yōu)選的布置中,該方法包括通過(guò)網(wǎng)絡(luò)將提取的被攝體圖像(優(yōu)選為運(yùn)動(dòng)圖像)發(fā)送給接收者,以在接收者裝置中觀看??蛇x地,聲音記錄可以與提取的被攝體圖像一起發(fā)送。替代地或者另外地,該方法可以包括將提取的被攝體圖像直接發(fā)送到接收者裝置。
在優(yōu)選的布置中,該方法包括:記錄包括被攝體和第一背景的基本圖像,從背景中提取被攝體作為被攝體圖像,將被攝體圖像發(fā)送到遠(yuǎn)程裝置,以及在遠(yuǎn)程裝置處將被攝體圖像與第二背景組合。
該方法可以包括通過(guò)使用以下過(guò)程中的一個(gè)或者多個(gè)從基本圖像提取被攝體:被攝體特征檢測(cè)、被攝體顏色建模和被攝體形狀檢測(cè)。
根據(jù)本發(fā)明的另一方面,提供了用于提供增強(qiáng)現(xiàn)實(shí)圖像的設(shè)備,所述設(shè)備包括:相機(jī),該相機(jī)用于使用記錄裝置記錄包括被攝體和第一背景的基本圖像;圖像處理器,該圖像處理器用于從基本圖像提取被攝體圖像;以及顯示裝置,該顯示裝置用于將提取的被攝體圖像與第二背景組合。
優(yōu)選地,提取的被攝體圖像被布置為在使用中與通過(guò)顯示裝置的相機(jī)被成像的第二背景組合。
在一個(gè)實(shí)施方案中,記錄裝置和顯示裝置是常用裝置的一部分,該常用裝置可以是手持裝置。替代地或者另外地,記錄裝置和顯示裝置可以是分立的,并且可以遠(yuǎn)程地定位。記錄裝置和顯示裝置可以各自是分立裝置的一部分,該記錄裝置和顯示裝置中的一個(gè)或者兩個(gè)可以是手持裝置。
在優(yōu)選的布置中,第一背景和第二背景在時(shí)間和/或空間上是分立的。第一背景可以包括與被攝體圖像同時(shí)出現(xiàn)的圖像,并且第二背景可以包括與被攝體圖像不同時(shí)出現(xiàn)的圖像。
處理器可以被布置為在使用中相對(duì)于記錄裝置在本地——并且優(yōu)選地在裝置內(nèi)——從基本圖像中提取被攝體。替代地,處理器可以被布置為在使用中從記錄裝置遠(yuǎn)程地從基本圖像提取被攝體圖像。
處理器可以被布置為在使用中相對(duì)于基本圖像的記錄實(shí)時(shí)地從基本圖像提取被攝體圖像。替代地,處理器可以被布置為在使用中在記錄基本圖像之后執(zhí)行提取。
被攝體圖像可以包括先前已經(jīng)存儲(chǔ)的被攝體圖像。
被攝體圖像可以包括從運(yùn)動(dòng)視頻獲取的靜止圖像序列。
替代地或者另外地,被攝體圖像可以包括連續(xù)的運(yùn)動(dòng)視頻圖像。
被攝體圖像可以包括人或者生物的圖像,或者可以是任何其他“真實(shí)世界”物體(object,對(duì)象)或者物品(item)的圖像。
為了觀看圖像,可以在使用中布置場(chǎng)景(context)識(shí)別單元以識(shí)別被攝體圖像的場(chǎng)景。這可以通過(guò)將視場(chǎng)中的至少一個(gè)物體與來(lái)自多個(gè)物體的存儲(chǔ)數(shù)據(jù)進(jìn)行比較來(lái)實(shí)現(xiàn)。圖像檢索單元可以被布置為根據(jù)由場(chǎng)景識(shí)別單元確定的場(chǎng)景信息從多個(gè)存儲(chǔ)的圖像中選擇圖像。定位單元可以被布置為在使用中將被攝體圖像定位在背景中。這可以根據(jù)通過(guò)場(chǎng)景識(shí)別單元確定的場(chǎng)景信息來(lái)實(shí)現(xiàn)。
通過(guò)定位單元定位被攝體圖像可以包括在顯示器中調(diào)整被攝體圖像的大小,并且可以包括優(yōu)選地相對(duì)于通過(guò)場(chǎng)景識(shí)別單元確定的場(chǎng)景信息,將被攝體圖像錨定在顯示器中。
場(chǎng)景識(shí)別單元、和/或檢索單元、和/或定位單元可以包括被布置為在使用中由一個(gè)或者多個(gè)電子處理裝置執(zhí)行的過(guò)程。
本發(fā)明還提供了一種用于使裝置執(zhí)行提供增強(qiáng)現(xiàn)實(shí)圖像的方法的程序,所述方法包括:使用記錄裝置記錄包括被攝體和第一背景的基本圖像,從所述基本圖像提取被攝體圖像,以及將提取的被攝體圖像提供給顯示裝置用于與第二背景組合。
所述程序可以包含在應(yīng)用程序中。該應(yīng)用程序還可以包含數(shù)據(jù),諸如被攝體圖像數(shù)據(jù)和/或背景圖像數(shù)據(jù)。
本發(fā)明還提供了一種計(jì)算機(jī)程序產(chǎn)品,在該計(jì)算機(jī)程序產(chǎn)品上存儲(chǔ)、承載或者通過(guò)該計(jì)算機(jī)程序產(chǎn)品傳送用于使裝置執(zhí)行提供增強(qiáng)現(xiàn)實(shí)圖像的方法的程序,所述方法包括:使用記錄裝置記錄包括被攝體和第一背景的基本圖像,從所述基本圖像提取被攝體圖像,以及將提取的被攝體圖像提供給顯示裝置用于與第二背景組合。
根據(jù)另一方面,提供了一種消息收發(fā)系統(tǒng),包括多個(gè)裝置,其中至少第一發(fā)送用戶裝置被布置為在使用中向至少第二接收用戶裝置發(fā)送圖像,該圖像包括電子捕獲的圖像,以作為增強(qiáng)現(xiàn)實(shí)中的虛擬圖像顯示在第二用戶裝置的顯示器上。
所述裝置可以被布置為直接通信,和/或經(jīng)由包括基于處理器的服務(wù)器的通信網(wǎng)絡(luò)通信。
在優(yōu)選的布置中,所述接收用戶裝置至少包括用于從通過(guò)該裝置被捕獲的至少一個(gè)真實(shí)圖像中識(shí)別場(chǎng)景的場(chǎng)景識(shí)別單元,以及用于在顯示器中定位虛擬圖像的虛擬圖像定位單元。
優(yōu)選地,所述虛擬圖像是先前已經(jīng)存儲(chǔ)的虛擬圖像。
在優(yōu)選的布置中,所述虛擬圖像包括從運(yùn)動(dòng)視頻獲取的靜止圖像序列。
替代地或者另外地,所述虛擬圖像可包括連續(xù)的運(yùn)動(dòng)視頻圖像。
所述虛擬圖像可以包括人或者生物的圖像,或者可以是任何其他“真實(shí)世界”物體或者物品的圖像。
在優(yōu)選的布置中,場(chǎng)景識(shí)別單元被布置為在使用中通過(guò)將視場(chǎng)中的至少一個(gè)物體與來(lái)自多個(gè)物體的存儲(chǔ)數(shù)據(jù)進(jìn)行比較來(lái)識(shí)別場(chǎng)景。優(yōu)選地,圖像檢索單元被布置為根據(jù)通過(guò)場(chǎng)景識(shí)別單元確定的場(chǎng)景信息從多個(gè)存儲(chǔ)的圖像中選擇圖像。優(yōu)選地,定位單元被布置為在使用中根據(jù)由場(chǎng)景識(shí)別單元確定的場(chǎng)景信息來(lái)定位虛擬圖像。
通過(guò)定位單元對(duì)圖像進(jìn)行定位可以包括調(diào)整顯示器中圖像的大小,以及可以包括相對(duì)于由場(chǎng)景識(shí)別單元確定的場(chǎng)景信息,將圖像錨定在顯示器中。
場(chǎng)景識(shí)別單元、和/或虛擬圖像檢索單元、和/或虛擬圖像定位單元可以包括被布置為在使用中由一個(gè)或者多個(gè)電子處理裝置執(zhí)行的處理。
虛擬圖像可以包括根據(jù)本文的任何陳述的所提取的被攝體圖像。
本發(fā)明還包括一種將圖像從一個(gè)裝置發(fā)送到另一裝置的方法,其中至少第一發(fā)送用戶裝置將圖像發(fā)送到至少第二接收用戶裝置,該圖像包括電子捕獲的圖像,并且該圖像作為增強(qiáng)現(xiàn)實(shí)中的虛擬圖像顯示在第二用戶裝置的顯示器上。
所述圖像可以經(jīng)由包括基于處理器的服務(wù)器的通信網(wǎng)絡(luò)發(fā)送。
所述圖像可以是根據(jù)本文的任何陳述的圖像。
除了如相互排斥的特征的組合之外,本發(fā)明可以包括本文所述的特征或者限制的任何組合。
現(xiàn)在將參考隨附的示意性附圖僅通過(guò)示例的方式描述本發(fā)明的優(yōu)選實(shí)施方案,在附圖中:
圖1示出了根據(jù)本發(fā)明的實(shí)施方案疊加在真實(shí)圖像的相機(jī)視圖上的虛擬圖像;
圖2示意性地示出了根據(jù)本發(fā)明的實(shí)施方案的在場(chǎng)景識(shí)別過(guò)程中的第一步驟;
圖3和圖3a示意性地示出了場(chǎng)景識(shí)別過(guò)程中的替代的第一步驟,其中在相機(jī)實(shí)時(shí)視圖中存在多個(gè)可視的物體;
圖4示意性地示出了用于本發(fā)明的實(shí)施方案的動(dòng)畫(huà)技術(shù);
圖5示意性地示出了根據(jù)本發(fā)明的實(shí)施方案的定位過(guò)程;
圖6示意性地示出了根據(jù)本發(fā)明的實(shí)施方案的用于虛擬圖像的可選用戶控制;
圖7示出了用于圖6的圖像的錨定過(guò)程中的第一步驟;
圖8示出了圖7的錨定過(guò)程中的另一步驟;
圖9示意性地示出了根據(jù)本發(fā)明的實(shí)施方案的替代的錨定過(guò)程;
圖10示意性地示出了根據(jù)本發(fā)明的實(shí)施方案的用于虛擬圖像的自動(dòng)重新調(diào)整大小的過(guò)程;
圖11示意性地示出了替代情景中的虛擬圖像的自動(dòng)重新調(diào)整大小的過(guò)程;
圖12至圖15示意性地示出了根據(jù)本發(fā)明的實(shí)施方案的用于拍攝包含真實(shí)圖像和虛擬圖像二者的照片的過(guò)程中的不同步驟;
圖16示意性地示出了用于獲取包含真實(shí)圖像和虛擬圖像二者的視頻片段的過(guò)程;
圖17是示出根據(jù)本發(fā)明的實(shí)施方案在相機(jī)的實(shí)時(shí)視圖中顯示虛擬圖像的過(guò)程中的一些關(guān)鍵步驟的示意性流程圖;
圖18至圖23示出了用于從背景中提取被攝體圖像并且將提取的圖像發(fā)送到遠(yuǎn)程裝置的方法;
圖19至圖31示出了根據(jù)本發(fā)明的實(shí)施方案的消息收發(fā)(messaging)平臺(tái);
圖32和圖33示出了根據(jù)本發(fā)明的實(shí)施方案在接收裝置的屏幕上顯示的多個(gè)提取的被攝體圖像;
圖34示出了根據(jù)本發(fā)明的消息收發(fā)的另一實(shí)施方案,
圖35示意性地示出了在從包括被攝體和背景的基本圖像提取被攝體圖像中使用的一部分過(guò)程。
下面描述的實(shí)施方案旨在向手持裝置(諸如移動(dòng)電話)的用戶提供增強(qiáng)現(xiàn)實(shí)體驗(yàn),該手持裝置包括電子處理器、相機(jī)和顯示器。具體地,從視頻片段獲取的圖像與實(shí)時(shí)相機(jī)視圖一起顯示在手持裝置的顯示器中,以產(chǎn)生視頻的被攝體(即虛擬運(yùn)動(dòng)圖像)實(shí)時(shí)存在于相機(jī)視場(chǎng)中的錯(cuò)覺(jué)。
在這種情況下,術(shù)語(yǔ)“真實(shí)世界”圖像是指使用電子照片捕獲技術(shù),例如視頻記錄,從現(xiàn)實(shí)諸如物理的、真實(shí)世界的情景中獲取的圖像。
為了實(shí)現(xiàn)這一點(diǎn),裝置必須進(jìn)行各種處理,包括從相機(jī)視圖獲取場(chǎng)景信息,獲得適當(dāng)?shù)奶摂M圖像,將虛擬圖像定位在相機(jī)視圖內(nèi),可選地相對(duì)于場(chǎng)景錨定虛擬圖像,并且可選地調(diào)整虛擬圖像在相機(jī)視圖內(nèi)的大小。
所述處理可以由手持裝置的電子處理器執(zhí)行。
重建虛擬運(yùn)動(dòng)圖像所需的數(shù)據(jù)以及用于促進(jìn)必要處理來(lái)操作該數(shù)據(jù)以提供增強(qiáng)現(xiàn)實(shí)體驗(yàn)的一個(gè)或者多個(gè)程序可以用專用程序或者軟件應(yīng)用程序(被廣泛地稱為應(yīng)用程序)的形式下載到手持裝置。優(yōu)選地,可以更新該應(yīng)用程序以向用戶呈現(xiàn)新鮮的觀看體驗(yàn)。
下面詳細(xì)描述的第一示例是用作在旅游景點(diǎn)的向?qū)У脑鰪?qiáng)現(xiàn)實(shí)系統(tǒng),其中人物的虛擬圖像顯示在真實(shí)世界相機(jī)視圖內(nèi),從而經(jīng)由相關(guān)聯(lián)的音頻文件提供關(guān)于景點(diǎn)的信息。
轉(zhuǎn)向圖1,該圖示意性地示出了手持裝置的相機(jī)10,在這種情況下瞄準(zhǔn)可被該裝置識(shí)別的知名物體12,以及由于與該物體12相關(guān)而被選擇的扮演歷史人物角色的演員的運(yùn)動(dòng)虛擬圖像14。該裝置基于唯一的一組矩陣點(diǎn)12a識(shí)別物體(在這個(gè)例子中是雕像),該組矩陣點(diǎn)在早期階段已經(jīng)存儲(chǔ)在下載的應(yīng)用程序中并且可以向該裝置提供用于隨后的選擇、顯示和操縱虛擬圖像14所需的場(chǎng)景信息。
當(dāng)下載了應(yīng)用程序并且在確定場(chǎng)景之后選擇適當(dāng)?shù)囊粋€(gè)場(chǎng)景時(shí),移動(dòng)虛擬圖像14被作為從視頻文件獲取的靜止圖像的序列存儲(chǔ)在裝置中,并且與適當(dāng)?shù)囊纛l文件同步。
轉(zhuǎn)向圖2,該圖示出了所選擇的虛擬圖像14,在裝置的相機(jī)視圖中,該虛擬圖像顯示在物體12旁邊。
圖3示意性地示出了其中裝置檢測(cè)到多個(gè)物體的情景。在這種情況下,檢測(cè)到物體12,并且檢測(cè)到兩個(gè)另外的物體16和18。如圖3a所示,裝置顯示所有三個(gè)物體以及在該三個(gè)物體上疊加的相應(yīng)的虛擬按鈕,使得用戶可以通過(guò)觸摸屏幕上的適當(dāng)按鈕來(lái)選擇感興趣的物體。
圖4示意性地示出了用于虛擬圖像的動(dòng)畫(huà)制作的一種方法。該方法使用很久前確立的技術(shù),將運(yùn)動(dòng)圖像裁剪成綠色屏幕背景(未示出)上的一系列靜止幀20。然后裝置播放靜止圖像序列,需要時(shí)自動(dòng)移除綠色屏幕背景。由于以大于每秒6幀的速率替換單個(gè)圖像,所以人眼將其理解為連續(xù)的運(yùn)動(dòng)圖像??蛇x地,具有MP3格式的聲跡與動(dòng)畫(huà)同步播放,以加強(qiáng)連續(xù)視頻片段的錯(cuò)覺(jué)。在該示例中,動(dòng)畫(huà)人物是羅馬士兵,其解說(shuō)和動(dòng)作與通過(guò)相機(jī)顯示器觀看的景點(diǎn)相關(guān)。
圖5示意地示出了用于相對(duì)于物體12定位圖像14的技術(shù)。在創(chuàng)建特定的應(yīng)用程序期間,當(dāng)首先研究特定情景時(shí),創(chuàng)意總監(jiān)將基于若干因素(藝術(shù)和實(shí)踐二者)選擇虛擬圖像的最佳放置。一旦選擇了最佳位置,系統(tǒng)使用三角學(xué)來(lái)計(jì)算圖像相對(duì)于物體12在真實(shí)世界空間坐標(biāo)x、y和z處的位置。一種替代方案是決定物體內(nèi)的零點(diǎn),并且使用距離零點(diǎn)的絕對(duì)x、y和/或z坐標(biāo)來(lái)定位圖像。
圖6示意性地示出了用戶可以如何相對(duì)于物體重新調(diào)整圖像大小或者重新定位圖像??梢栽诮佑|屏幕的同時(shí)使用手指和拇指的收縮和擴(kuò)展技術(shù)(pinching and spreading technique)22來(lái)調(diào)整圖像大小??梢允褂猛戏偶夹g(shù)24移動(dòng)圖像,并且錨定系統(tǒng)(在下面進(jìn)行描述)也可以通過(guò)雙指雙擊技術(shù)26來(lái)啟用或者停用。在播放模式中,還提供虛擬暫停按鈕28,該虛擬暫停按鈕在暫停模式中轉(zhuǎn)換為虛擬播放按鈕(未示出)。
為了保持人物實(shí)際上存在于景點(diǎn)旁邊的錯(cuò)覺(jué),有必要使人物—即圖像14—的位置相對(duì)于物體12在空間上錨定。這是因?yàn)槿绻脩粼谕ㄟ^(guò)相機(jī)觀看物體和虛擬圖像時(shí)移動(dòng),相對(duì)于相機(jī)屏幕固定的圖像將很快無(wú)法保持對(duì)現(xiàn)實(shí)的錯(cuò)覺(jué)。
圖7示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方案的錨定系統(tǒng)。該系統(tǒng)使用預(yù)定義的算法來(lái)尋找在相機(jī)視圖內(nèi)引人注目或者具有確定形狀的物體。一旦已經(jīng)定位若干個(gè)物體,系統(tǒng)使用先進(jìn)的三角技術(shù)來(lái)評(píng)估在相機(jī)視圖中顯示的情景并且向虛擬圖像分配比例數(shù)據(jù)。然后該系統(tǒng)相對(duì)于圖像的真實(shí)世界場(chǎng)景將圖像鎖定在x,y和z坐標(biāo)中。
圖8更詳細(xì)地示意性地示出了根據(jù)本發(fā)明的上述實(shí)施方案的錨定系統(tǒng)。首先,標(biāo)簽30指示錨定系統(tǒng)已經(jīng)被啟用。然后,裝置動(dòng)態(tài)地檢測(cè)在相機(jī)視圖中最近的物體32。在這種情況下,所使用的方法是其中算法試圖通過(guò)檢測(cè)圖案而不是使用預(yù)處理的矩陣點(diǎn)(按照?qǐng)D1的示例)來(lái)識(shí)別物體。這允許該算法尋找可以錨定表現(xiàn)物——即虛擬圖像——的真實(shí)世界物體。例如,算法可以識(shí)別斯諾克桌臺(tái)的四個(gè)邊緣。這允許改進(jìn)的錨定技術(shù),這是由于創(chuàng)建了識(shí)別規(guī)則,該識(shí)別規(guī)則允許基于具體物體或者物體類型而應(yīng)用更高或者更低的閾值。一種適合的先前考慮的算法被稱為FAST(Features from Accelerated Segment Test,加速段試驗(yàn)特征)。
然后裝置檢測(cè)第二物體34,以提供深度信息。然后將圖像錨定到第一物體,即,確定圖像在x,y和z坐標(biāo)中的位置相對(duì)于第一物體32的位置。然后,裝置定期檢查以確定物體圖案——即物體32和34的圖案——是否已經(jīng)改變,如果持有裝置的用戶已經(jīng)移動(dòng),則會(huì)發(fā)生這種改變。如果裝置確定已經(jīng)移動(dòng),則裝置重新掃描視場(chǎng),并且確定與物體32和34的初始圖案最接近的匹配,以確保虛擬圖像14的位置仍然正確。
上述方法允許用戶在幾乎任何位置處有效地并且不可見(jiàn)地將錨鎖定至顯示器內(nèi)的已知物體。例如,如果沒(méi)有特定物體作為參考,諸如曠野,則系統(tǒng)首先恢復(fù)到預(yù)加載的識(shí)別庫(kù),并且然后如果沒(méi)有識(shí)別到視圖,則使用數(shù)字羅盤(pán)和GPS參考來(lái)修復(fù)圖像在真實(shí)空間中的定位。
在圖9中示意性地描繪了通過(guò)錨定系統(tǒng)使用GPS和數(shù)字羅盤(pán)方位。該配置通過(guò)使用GPS坐標(biāo)和羅盤(pán)方位來(lái)構(gòu)建基本的真實(shí)世界地圖。GPS坐標(biāo)用于鎖定已知的經(jīng)度和緯度配置,而方位用于檢測(cè)用戶的360度圓周運(yùn)動(dòng)。如果系統(tǒng)檢測(cè)到這樣的移動(dòng),則影片返回到其原始鎖定位置。動(dòng)畫(huà)使用提供平滑且快速返回的算法返回到基于移動(dòng)的距離確認(rèn)衰減(dampening)和返回速度的坐標(biāo)。
圖像相對(duì)于相機(jī)視圖中的物體的外觀尺寸對(duì)于維持現(xiàn)實(shí)錯(cuò)覺(jué)也是重要的。圖10示出了一種自動(dòng)調(diào)整大小操作,其中當(dāng)正通過(guò)相機(jī)裝置觀看物體的用戶更接近或者遠(yuǎn)離物體移動(dòng)時(shí),相對(duì)于物體12調(diào)整圖像14。
當(dāng)用戶朝向或者遠(yuǎn)離物體12移動(dòng)時(shí),裝置采用復(fù)雜的算法來(lái)平滑地調(diào)整圖像的大小。可以采用相機(jī)透鏡的自動(dòng)聚焦功能來(lái)提供與距物體的距離變化有關(guān)的數(shù)據(jù)。如果裝置不具有自動(dòng)聚焦功能,則可以使用所存儲(chǔ)的關(guān)于裝置的原點(diǎn)的數(shù)據(jù)來(lái)計(jì)算到所識(shí)別的物體的距離。在可用的情況下,可以使用這兩種技術(shù)來(lái)提供更精確的讀數(shù)。
或者,用戶可以使用早先描述的收縮技術(shù)22手動(dòng)地調(diào)整圖像14的大小。
如果系統(tǒng)檢測(cè)到相對(duì)狹窄的位置,例如,諸如室內(nèi)位置或者老式街道情景,則裝置自動(dòng)將圖像大小調(diào)整為更大的尺寸以保持現(xiàn)實(shí)性。圖11描繪了在這種情況下放大的圖像14。
該系統(tǒng)還允許捕獲具有真實(shí)視圖和虛擬圖像的靜止或者視頻圖像。圖12至圖15示意性地示出了用于拍攝包括虛擬圖像14的照片的過(guò)程。在圖12中,真人36走進(jìn)已經(jīng)放置了人物的虛擬圖像14的情景中。在圖13中,拍攝并且存儲(chǔ)照片,并且記錄虛擬圖像的坐標(biāo)。在圖14中,系統(tǒng)對(duì)圖像14進(jìn)行后期處理,并且自動(dòng)檢測(cè)立體圖。然后重新保存合成圖像。在圖15中,用戶被邀請(qǐng)經(jīng)由訪問(wèn)若干公共媒體的虛擬按鈕38共享存儲(chǔ)的合成圖像。短視頻序列可以以類似的方式被記錄和共享。
圖16示意性地示出了根據(jù)上述實(shí)施方案的一過(guò)程的示例。
在步驟100,過(guò)程開(kāi)始。在步驟102,從數(shù)據(jù)庫(kù)讀取物體識(shí)別規(guī)則。在步驟104,裝置讀取視圖,并且在步驟106,裝置檢查可識(shí)別的圖案。所述裝置循環(huán),直到檢測(cè)到圖案。一旦檢測(cè)到圖案,在步驟108從庫(kù)中選擇適當(dāng)?shù)倪\(yùn)動(dòng)圖像。在步驟110,圖像被定位并且開(kāi)始播放。步驟112等待用戶輸入。退出114、重新調(diào)整大小116、錨定118或者重新定位120的選項(xiàng)是可用的。如果用戶在步驟114選擇退出應(yīng)用程序,則應(yīng)用程序在步驟122停止。否則,在步驟124視頻圖像繼續(xù)播放。
圖17示出了一個(gè)替代實(shí)施方案,其中根據(jù)用戶位置將物體識(shí)別數(shù)據(jù)庫(kù)40分成若干較小的數(shù)據(jù)庫(kù)42、44、46、48。檢查物體的三個(gè)或者更多個(gè)角度50,并且一旦檢測(cè)到物體,則啟用虛擬圖像52。
上述示例描述了使用觸摸控制,其可以不同于已描述的觸摸控制。然而,在設(shè)備支持的情況下,可以采用非接觸手勢(shì)來(lái)控制裝置。類似地,在設(shè)備支持的情況下,語(yǔ)音命令可以用于控制設(shè)備。
如本文所使用的,術(shù)語(yǔ)“場(chǎng)景”在大多數(shù)情況下可以被認(rèn)為是相機(jī)視圖。同樣,術(shù)語(yǔ)“場(chǎng)景信息”在大多數(shù)情況下可以被視為“相機(jī)視圖信息”。
場(chǎng)景信息可以從如通過(guò)裝置的相機(jī)觀看的“真實(shí)世界”圖像得到,或者可以從二維圖像(諸如打印頁(yè)面、照片或者電子顯示圖像)得到。這允許使用上述技術(shù)來(lái)增強(qiáng)各種情形(諸如查看打印的出版物或者廣告)下的用戶體驗(yàn)。在一個(gè)實(shí)施方案(未示出)中,可以使虛擬圖像看起來(lái)從這樣的二維場(chǎng)景升起或者“突然出現(xiàn)”(“pop”up)。
可以采用圖像處理技術(shù)來(lái)為虛擬圖像創(chuàng)建虛擬陰影,以增強(qiáng)虛擬圖像是真實(shí)圖像的感覺(jué)。類似地,可以采用圖像處理技術(shù)來(lái)平衡虛擬圖像相對(duì)于通過(guò)裝置觀看的真實(shí)世界場(chǎng)景的明顯亮度。
盡管上述示例具有二維觀看體驗(yàn),但是本文所描述的技術(shù)還可以在裝置支持(諸如3D視頻播放格式)的情況下應(yīng)用于明顯的三維觀看體驗(yàn)。
在上面的描述中,術(shù)語(yǔ)“虛擬圖像”旨在指代在用戶觀看由裝置的相機(jī)捕獲的真實(shí)圖像或者當(dāng)前圖像時(shí),顯示在裝置的顯示器上的先前捕獲或者單獨(dú)獲得的圖像—優(yōu)選地是運(yùn)動(dòng)圖像。虛擬圖像本身是來(lái)自不同現(xiàn)實(shí)的被有效地從其他現(xiàn)實(shí)中裁剪出并且移植到另一個(gè)現(xiàn)實(shí)中的真實(shí)圖像,該另一個(gè)現(xiàn)實(shí)是觀看者在其裝置的顯示器中看到的。
轉(zhuǎn)到圖18至圖23,這些圖示出了記錄被攝體和背景的基本圖像、從背景提取被攝體的圖像并且將其發(fā)送到遠(yuǎn)程裝置的方法。
該方法包括三個(gè)基本步驟,如圖18所示:
1.拍攝視頻剪輯(clip)。
2.選擇并且發(fā)送。
3.出現(xiàn)在接收者的環(huán)境中。
更詳細(xì)地(圖19):
用戶拍攝被攝體的視頻序列。對(duì)視頻序列監(jiān)視達(dá)最佳持續(xù)時(shí)間。
本發(fā)明的高級(jí)形式可以允許更長(zhǎng)的視頻序列。
用戶將決定保留或者刪除視頻序列。如果接受,該方法將向前推進(jìn)。
編輯第一幀(圖20):
一旦用戶對(duì)視頻序列滿意,則呈現(xiàn)視頻序列的第一幀。
第一幀將用于識(shí)別被攝體。
一旦被攝體已被識(shí)別,將通過(guò)系統(tǒng)逐幀地跟蹤該被攝體。
用戶通過(guò)以下任一方式選擇被攝體:
整個(gè)圖像將是灰度的,并且用戶將使用手指通過(guò)替換缺失的顏色值來(lái)加亮物體。這種方法形成邊界邊緣。
或者
用戶將選擇圍繞物體形成“暈圈(halo)”,以限定邊界邊緣。
為了直接的目的,將解釋上述技術(shù)中的第一種技術(shù)。
選擇物體(圖21):
用戶使用手指選擇被攝體。
應(yīng)用程序/方法將允許不同大小的區(qū)域選擇器,并且允許用于微小精確度的縮放(zoom)特征。
應(yīng)用程序/方法還將允許純色(solid colour)覆蓋,以顯示用戶已經(jīng)錯(cuò)過(guò)的被攝體的任何區(qū)域。
一旦用戶對(duì)所選擇的被攝體感到滿意,他們將隨后把該物體傳遞到該方法的下一階段。
實(shí)現(xiàn)背景(圖22):
所選擇的被攝體現(xiàn)在允許背景的逆識(shí)別。
將選擇背景并且從被攝體中刪除背景。
將用限定的純色、或者陰影或者以其他與被攝體區(qū)分的方式填充背景。
應(yīng)當(dāng)注意的是,被攝體與背景之間的區(qū)別不必是簡(jiǎn)單的、二進(jìn)制背景/被攝體標(biāo)簽。相反,每個(gè)像素可以用該像素屬于被攝體的概率來(lái)標(biāo)記,并且可以根據(jù)概率值進(jìn)行確定。
跟蹤物體(圖23):
初始幀背景現(xiàn)在已經(jīng)刪除。
系統(tǒng)現(xiàn)在將分析每個(gè)幀:
1.跟隨被攝體的運(yùn)動(dòng)。
2.刪除背景信息。
3.用純色或者其他對(duì)比指標(biāo)替換背景。
一旦每個(gè)幀都已被渲染,它們可以被“拼接(stitch)”在一起成為視頻序列,或者作為一組幀返回。
這可以在移動(dòng)裝置上完成,或者可以在外部計(jì)算系統(tǒng)上脫機(jī)完成,在外部計(jì)算系統(tǒng)中一旦準(zhǔn)備好就將其返回到用戶的裝置。
用戶將決定圖像是否是他們需要的。如果他們希望保留,則將該圖像與非現(xiàn)場(chǎng)集線器/數(shù)據(jù)庫(kù)中的版本一起存儲(chǔ)在裝置上。
然后,可以將該渲染的圖像發(fā)送到在他們的裝置上安裝了應(yīng)用程序技術(shù)的任何其他用戶。
存在可以從包括背景的基本圖像提取被攝體圖像的若干種方法。實(shí)際使用的方法可以包括以下方法中的一種或者它們的組合。
方法1.簡(jiǎn)單的背景。
在該方法中,用戶/被攝體站在純色墻的前面,在墻的前面有足夠的空間以避免陰影。用戶需要穿著在柔和照明下從背景中凸顯出來(lái)的對(duì)比色的衣服。
然后基于圖像邊緣處(頂部/側(cè)面)的顏色提取背景。
如果要在移動(dòng)裝置上播放轉(zhuǎn)換的視頻,則背景alpha可以被淡化,使得在背景/前景圖像邊界處沒(méi)有銳利邊緣。在這種情況下,alpha將不會(huì)被編碼為簡(jiǎn)單的綠色屏幕,而是將在視頻的每個(gè)幀中使用額外尺度的圖像對(duì)alpha通道編碼。
這種提取方法實(shí)施起來(lái)相對(duì)直接。然而,為了獲得最好的結(jié)果將需要一些實(shí)驗(yàn),并且可以用一些用戶輸入來(lái)指導(dǎo)完成的結(jié)果。例如,繪制待包括/排除的視頻幀的期望部分的粗略輪廓將給出將被定義為背景的更大范圍的顏色。
轉(zhuǎn)換時(shí)間可以很快,實(shí)時(shí)或者接近實(shí)時(shí)。
方法2,背景靜態(tài)。
背景減法是許多基于視覺(jué)的應(yīng)用中的主要預(yù)處理步驟。OpenCV已經(jīng)實(shí)現(xiàn)了三種這樣的算法?;舅枷胧羌僭O(shè)背景是靜態(tài)的,并且識(shí)別圖像中的變化。這些方法還將提取陰影作為前景,并且可能不檢測(cè)大的純色塊作為前景。相機(jī)移動(dòng)會(huì)是一個(gè)問(wèn)題,因?yàn)檫@將作為新的前景出現(xiàn)在圖像的邊緣。用戶可以限制相機(jī)移動(dòng),并且在移動(dòng)裝置中存在相機(jī)移動(dòng)時(shí)可以使用視頻穩(wěn)定。
還可以將一些用戶輸入添加到背景檢測(cè),以識(shí)別已知的背景/前景的區(qū)。
該方法可以與方法1結(jié)合以給出比單獨(dú)的方法1更好的結(jié)果,因?yàn)檫@將允許比空白墻更多變的背景。
此方法可能在視頻拍攝后需要處理階段。
方法3(與用戶輸入交互-使用OpenCV的示例)
使用GrabCut算法的交互式前景提取(OpenCV)
OpenCV具有產(chǎn)生非常好的結(jié)果的一種用于提取前景被攝體的算法,即GrabCut算法。GrabCut要求用戶在感興趣區(qū)域提供信息和/或給可能的前景/背景提供暗示。在第一遍,完成提取并且呈現(xiàn)結(jié)果。然后用戶必須標(biāo)記想要但已被移除的區(qū)域或者被移除但是想要的區(qū)域作為可能的前景/背景。
對(duì)于視頻,用戶限定的信息可以向前攜帶到下一幀。如果需要,可以更新感興趣區(qū)域和可能的前景/背景。一種智能實(shí)現(xiàn)方式將嘗試跟蹤可能的前景/背景以使過(guò)程盡可能自動(dòng)化。
對(duì)原始算法的改變將允許背景/前景alpha基于每次允許選擇軟邊緣的概率。
這種方法可能不是實(shí)時(shí)的,并且可能在拍攝視頻后需要處理階段,但是可以實(shí)現(xiàn)高質(zhì)量的結(jié)果。
后面將描述第四種方法,該方法基于特定類型的被攝體,例如面部。
實(shí)現(xiàn)方式
轉(zhuǎn)向圖24至圖30,這些圖示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方案的聊天系統(tǒng)或者消息收發(fā)平臺(tái),其中移動(dòng)電話是執(zhí)行本發(fā)明的手持裝置的示例。
首先,將手機(jī)傾斜到接近垂直,并且以磨砂(frosted)效果(圖24)打開(kāi)相機(jī)。
用戶鍵入消息或者按下應(yīng)用程序按鈕以打開(kāi)圖像包。例如,圖像可以是用戶預(yù)先記錄的圖像,或者可以包括從商業(yè)網(wǎng)站下載的圖像。
下一步(圖25)是從集合中選擇包。
然后,用戶觸摸所選擇的圖像,并且在屏幕上啟用該圖像(圖26)。然后再次點(diǎn)擊該圖像以發(fā)送。
圖27示出了下一個(gè)階段。接收者在其屏幕上看到發(fā)送的圖像。他們可以點(diǎn)擊以獲取/查看包。
用戶能夠創(chuàng)建他/她自己的個(gè)性化圖像(圖28)。例如,用戶能夠炫耀新衣服,邀請(qǐng)某人參加聚會(huì)或者僅僅顯示一系列的情感。
可以做出視頻剪輯(圖29),然后可以如上所述地選擇和發(fā)送該視頻剪輯,使其出現(xiàn)在接收者的環(huán)境中(圖30)。
圖31示意性地示出了步驟的順序。在步驟A,將人(在這個(gè)例子中是兒童)記錄為運(yùn)動(dòng)圖像。然后在將所選圖像發(fā)送給可以在世界上任何地方的接收者之前分離出圖像的背景并且將該背景丟棄。圖像B描繪了在遠(yuǎn)程位置的真實(shí)情景。在這種情況下,該情景是孩子的聚會(huì)。在接收到女孩的運(yùn)動(dòng)圖像之后,然后接收者可以播放被疊加到在接收者的屏幕上顯示的相機(jī)視圖上的所接收到的圖像,如C處所示。然后可以制作虛擬相遇的視頻,由此在遠(yuǎn)程位置的人可以看起來(lái)出現(xiàn)存在于接收者的世界中,虛擬圖像看起來(lái)錨定在接收者的環(huán)境中,以便產(chǎn)生圖像中描繪的被攝體實(shí)際存在于接收者的空間中的錯(cuò)覺(jué)。
轉(zhuǎn)到圖32,該圖示出了顯示器110上由接收者接收的各種圖像100。上述方法和設(shè)備允許在文本消息交換與視頻呼叫之間的某些操作。消息發(fā)送者使用智能電話中的前置相機(jī)或者后置相機(jī)來(lái)捕獲他們交談的短視頻,并且應(yīng)用程序軟件在發(fā)送待要出現(xiàn)在接收者的屏幕110上的視頻剪輯之前剪裁出發(fā)送者的頭部100。剪裁出的頭部可以方便地作為消息收發(fā)屏幕的一部分出現(xiàn)在接收者的桌面上?;蛘?,也具有該應(yīng)用程序的接收者可以打開(kāi)他們電話的后置相機(jī),使得頭部看起來(lái)在其環(huán)境112中浮動(dòng),如同它在進(jìn)行短的表演。該過(guò)程被反過(guò)來(lái)進(jìn)行以作出回應(yīng)。
圖33示意性地示出了該過(guò)程。在A處,發(fā)送人使用應(yīng)用程序來(lái)記錄自己的頭部的運(yùn)動(dòng)圖像—即視頻—通過(guò)應(yīng)用程序?qū)⒃撨\(yùn)動(dòng)圖像與背景分離。在優(yōu)選的布置中,背景可以被自動(dòng)丟棄。然而,作為替代或者附加的特征,進(jìn)行記錄的人可以代替地手動(dòng)地移除背景。然后將圖像發(fā)送給B處的接收者,該接收者在他們的桌面上或者在智能手機(jī)/平板計(jì)算機(jī)的相機(jī)視圖中看到頭部與他們對(duì)話(如果他們?nèi)绱诉x擇的話)。
根據(jù)該實(shí)施方案的這種消息不同于文本消息,因?yàn)椋?/p>
-它使用起來(lái)比點(diǎn)擊字符鍵更快,
-它傳達(dá)情感,因?yàn)榭梢钥吹矫娌勘砬橐约奥?tīng)到聲音的語(yǔ)調(diào),而不僅僅是屏幕上的文字,
-它能夠既有趣又個(gè)性化,
-如果發(fā)送人授予權(quán)限,用戶可以拍攝/存儲(chǔ)頭部的照片。
該消息與視頻通話不同,因?yàn)椋?/p>
-它使用非常少量的移動(dòng)用戶的數(shù)據(jù)額度。
-它傳遞謹(jǐn)慎、獨(dú)特的“聲音節(jié)選(sound-bites)”的消息,
-在示出的示例中,它具有添加增強(qiáng)現(xiàn)實(shí)圖像的選項(xiàng),該增強(qiáng)現(xiàn)實(shí)圖像被鎖定到頭部,諸如在114處示出的那些,包括在示出的示例中的喇叭、帽子和星星。
-它可以很容易地保存用于將來(lái)參考。
通過(guò)如上所述的本發(fā)明的實(shí)施方案,發(fā)送者可以將圖像(包括移動(dòng)圖像或者視頻圖像)發(fā)送到接收者,以在通過(guò)接收者的裝置的顯示器觀看時(shí)作為虛擬圖像出現(xiàn)在接收者的環(huán)境中,對(duì)照由接收者的裝置的相機(jī)成像的接收者的背景??梢韵鄬?duì)于正在觀看的背景鎖定或者錨定該圖像,以給出現(xiàn)實(shí)的外觀。
圖像可以包括由發(fā)送者創(chuàng)建的并且作為被攝體從發(fā)送者的背景中提取的、待要對(duì)照著接收者的背景觀看的圖像。此外,可以通過(guò)便利的消息網(wǎng)絡(luò)將圖像從用戶發(fā)送到用戶。
應(yīng)當(dāng)注意的是,利用上述方法,發(fā)送者能夠發(fā)送他自己的圖像而不向接收者透露他的背景/所在之處。
可以在沒(méi)有背景的情況下發(fā)送前景圖像或者被攝體圖像,而不僅僅是使背景不可見(jiàn)(例如,alpha值為零)但仍然保留圖像的一部分。
此外,上述示例使得接收者通過(guò)接收者的裝置的相機(jī)視圖查看接收到的圖像,但不一定是這種情況。例如,作為替代,接收者可以觀看在他的桌面上或者在他裝置上的應(yīng)用程序皮膚上方浮動(dòng)的圖像。取決于在觀看時(shí)用戶的位置,這對(duì)于用戶來(lái)說(shuō)可能更方便。
在待發(fā)送的圖像包括例如只是發(fā)送者的頭部的情況下,這表示相對(duì)少量的數(shù)據(jù),并且因此本發(fā)明可以提供發(fā)送視頻圖像的系統(tǒng)化方法而不需要通常的記錄視頻剪輯、保存、編輯然后將其發(fā)送到接收者的步驟。
圖34示出了消息處理中的一系列步驟(從左到右),其中可以將上述選項(xiàng)的組合帶入用戶體驗(yàn)。根據(jù)已知的呈現(xiàn)方式,手持裝置200用于在通信方A與通信方B之間以對(duì)話框形式傳遞消息。然而,通信方A也可選擇將她自己的面部的移動(dòng)圖像210以傳遞消息的方式發(fā)送給通信方B。
在該示例中,對(duì)話談到了一位音樂(lè)藝術(shù)家的表演的話題。通信方A和通信方B中的一個(gè)可以選擇向?qū)Ψ桨l(fā)送該藝術(shù)家的頭部的圖像220,然后該圖像220出現(xiàn)在桌面上。運(yùn)動(dòng)圖像還可以說(shuō)出簡(jiǎn)短的介紹性消息。這可以通過(guò)由通信方在其相應(yīng)設(shè)備上運(yùn)行的消息收發(fā)應(yīng)用程序來(lái)獲得。如果用手指230點(diǎn)擊頭部220,則表演者的更完整的圖像240出現(xiàn)在桌面上看到的圖形特征的頂部,以傳遞歌曲或者其他表演。
如果手指230再次點(diǎn)擊完整圖像240,則打開(kāi)裝置的相機(jī)(未示出),使得表演者的完整圖像250與用戶的環(huán)境的背景圖像260集成一體,按比例并且錨定到背景圖像內(nèi)的位置,使得如果相機(jī)向左/向右移動(dòng)或者向內(nèi)/向外移動(dòng),所述完整圖像相對(duì)于背景保持靜止,以給出現(xiàn)實(shí)的錯(cuò)覺(jué)。
因此,利用上述本發(fā)明的各種方面和/或?qū)嵤┓桨?,用戶可以在所選擇的運(yùn)動(dòng)圖像、較完整的圖像的剪裁部分(諸如頭部)和完整的增強(qiáng)現(xiàn)實(shí)體驗(yàn)之間切換。此外,該措施可以在消息收發(fā)系統(tǒng)中用于兩個(gè)或者更多個(gè)通信方之間。
上述技術(shù)可以用在其他平臺(tái)(諸如不需要網(wǎng)絡(luò)的直接消息收發(fā)平臺(tái)或者對(duì)等消息收發(fā)平臺(tái))中。該技術(shù)還可以用于商業(yè),諸如商務(wù)會(huì)議中,以及用于純粹的社交互動(dòng)。
上述實(shí)施方案還可以用作視頻語(yǔ)音郵件系統(tǒng)的一部分。
此外,盡管在上述示例中用戶使用手持裝置(諸如移動(dòng)電話和/或平板計(jì)算機(jī))進(jìn)行通信,但是對(duì)于消息收發(fā)系統(tǒng)中的發(fā)送者和接收者二者,或者對(duì)于兩個(gè)/所有的通信方而言,所使用的裝置不必是相同類型的。所使用的裝置的類型可以是具有顯示器或者可以連接到顯示器的多種類型中的任意一種。游戲控制臺(tái)或者其他游戲裝置是可以與本發(fā)明的一個(gè)或者多個(gè)方面一起使用的設(shè)備的示例。
從包括不想要的背景的圖像提取被攝體的過(guò)程有時(shí)被稱為“分割(segmentation)”。以下描述是用于當(dāng)被攝體屬于已知類別的物體時(shí)執(zhí)行分割的技術(shù)。
方法4:面部分割
當(dāng)源視頻包括從已知物體類別獲取的物體時(shí),則可以采用用于分割的特定物體方法。在下面的示例中,將分割人臉,其中視頻是用前置相機(jī)捕獲的口語(yǔ)片段(即,“視頻自拍照(selfie)”)。對(duì)于可以構(gòu)建特定類別的特征檢測(cè)器的任何物體類別,可以采用同樣的方法。
專用于面部的流水線包括多個(gè)處理步驟。在圖35中的流程圖中以300總體示出這些步驟之間的關(guān)系。為了提高處理的計(jì)算效率,這些步驟中的一些不需要應(yīng)用于輸入視頻序列IS的每個(gè)幀F(xiàn)(而是應(yīng)用于每第n幀)。每個(gè)步驟的詳細(xì)描述如下:
在處理310中,執(zhí)行面部特征檢測(cè)??梢允褂媒?jīng)訓(xùn)練以定位面部特征的特征檢測(cè)器來(lái)定位面部及其內(nèi)部特征的大致位置。哈爾式(Haar-like)特征是用于物體識(shí)別的數(shù)字圖像特征。例如,哈爾式特征的級(jí)聯(lián)可以用于計(jì)算圍繞面部的邊界框。然后,在面部區(qū)域內(nèi),可以使用相同的策略來(lái)定位特征,諸如眼中心、鼻尖和嘴中心。
在處理320中,執(zhí)行皮膚顏色建模。使用參數(shù)模型表示正被分析的面部的可能的皮膚顏色的范圍。為了考慮由于姿態(tài)和照明變化而改變的外觀,每第n幀更新參數(shù)。在最簡(jiǎn)單的實(shí)現(xiàn)中,參數(shù)可以僅是在相對(duì)于面部特征固定的位置處獲得的顏色值以及閾值參數(shù)。在采樣顏色的閾值距離內(nèi)觀察到的顏色被認(rèn)為是像皮膚的顏色。
更復(fù)雜的方法是將統(tǒng)計(jì)模型擬合到皮膚像素的樣本。例如,使用面部特征位置,選擇可能在面部?jī)?nèi)的一組像素。在移除異常值之后,通過(guò)計(jì)算樣本的平均值和偏差來(lái)擬合正態(tài)分布。然后可以評(píng)估落入皮膚顏色分布中的任何顏色的概率。
為了減少由照明效果引起的顏色變化的影響,可以在諸如HSV或者LCrCb的顏色空間中構(gòu)建模型。使用H通道或者Cr通道和Cb通道,模型捕獲皮膚的底層顏色,而不是其亮度。在處理330中,確定形狀特征。皮膚顏色模型提供逐像素分類。單獨(dú)地,這些提供了可能包括面部中的背景區(qū)或者缺失區(qū)的噪聲分割。有許多可以與皮膚顏色分類結(jié)合使用的形狀特征。在最簡(jiǎn)單的實(shí)現(xiàn)方式中,根據(jù)面部特征位置來(lái)變換面部模板諸如橢圓,并且僅考慮模板內(nèi)的像素。稍微更復(fù)雜的方法使用到特征的距離作為面部可能性的度量,其中較大距離不太可能是面部的一部分(并且因此需要更信任顏色分類)。
更復(fù)雜的方法還考慮圖像內(nèi)的邊緣特征。例如,可以將活動(dòng)形狀模型擬合到圖像內(nèi)的特征位置和邊緣特征。替代地,可以為圖像計(jì)算超像素。超像素邊界自然地與圖像中的邊緣對(duì)齊。因此,通過(guò)對(duì)每個(gè)超像素而不是對(duì)每個(gè)像素執(zhí)行分類,我們將邊緣信息合并到分類中。此外,由于皮膚顏色和形狀分類器可以聚集在超像素內(nèi),從而提高了魯棒性。
在處理340中,進(jìn)行分割。最后,計(jì)算輸出分割掩碼OM。該分割掩碼用二進(jìn)制面部/背景標(biāo)簽或者該像素屬于面部的alpha掩碼編碼置信度對(duì)每個(gè)像素進(jìn)行標(biāo)記。這種標(biāo)記將皮膚顏色分類的結(jié)果和形狀特征相組合。在使用超像素的實(shí)現(xiàn)方式中,對(duì)每個(gè)超像素進(jìn)行標(biāo)記。這通過(guò)對(duì)超像素內(nèi)的每個(gè)像素標(biāo)簽求和并且測(cè)試總和是否高于閾值來(lái)完成。
雖然在前述說(shuō)明書(shū)中關(guān)注的是那些被認(rèn)為對(duì)本發(fā)明特別重要的特征,但是應(yīng)當(dāng)理解,無(wú)論是否已經(jīng)進(jìn)行了特別強(qiáng)調(diào),申請(qǐng)人要求保護(hù)關(guān)于本文所提及的和/或在附圖中示出的任何可授予專利權(quán)的特征或者特征的組合。