相關(guān)申請的交叉引用
本pct申請要求申請日為2014年5月15日美國非臨時申請?zhí)?4/278,186的優(yōu)先權(quán);其全部內(nèi)容及實質(zhì)通過引用結(jié)合在此。
背景技術(shù):
本背景技術(shù)描述是為了一般地呈現(xiàn)本公開的場境的目的而提供的。除非在此以其他方式指示,本段描述的材料既不明確也不隱含地承認是本公開或所附權(quán)利要求的現(xiàn)有技術(shù)。
目前標記諸如照片和視頻剪輯的視覺媒體的技術(shù)是耗時和繁瑣的。例如,智能電話用戶可以通過選擇標記界面、選擇照片、標記她朋友的面部,并且然后從聯(lián)系目錄中選擇朋友名字或者替代地選擇朋友名字的類型,來手動標記照片以指示照片中的特定面部是她的朋友。即使是對一張照片中的一個人而言,這也是繁瑣的過程,對于許多照片或視頻中的許多人或物體而言,加視覺標記能夠?qū)е潞臅r和繁瑣的用戶體驗。
附圖說明
用于標記移動設(shè)備中的視覺媒體的技術(shù)和裝置參照附圖進行描述。相同的附圖標記被用來在整個附圖中指示同樣的特征和組件。
圖1圖示了在其中能夠?qū)嵤擞浺苿釉O(shè)備上的視覺媒體的示例環(huán)境。
圖2圖示了圖1所示的計算設(shè)備的具體示例。
圖3圖示了標記移動設(shè)備上的視覺媒體的示例方法。
圖4圖示了3個朋友的照片。
圖5圖示了帶有標記界面、3張面部、和物體子圖像的圖4的照片。
圖6圖示了用戶可以通過其選擇確認或拒絕識別的單個圖像確認/拒絕界面。
圖7圖示了用戶可以通過其選擇確認或拒絕一個或多個識別的多個圖像確認/拒絕界面。
圖8圖示了用于標記視覺媒體、包括基于精確度閾值自動標記的示例方法。
圖9圖示了可以實施標記移動設(shè)備上的視覺媒體的技術(shù)的示例裝置的各種組件。
具體實施方式
本文描述了標記移動設(shè)備上的視覺媒體的技術(shù)。在某些情況中,基于滿足人或物體的手動標記的閾值,該技術(shù)能對移動設(shè)備上存儲的視覺媒體加上“大量”標記。因此,該技術(shù)能快速連續(xù)地呈現(xiàn)帶有所識別的人或物體的照片和視頻,以使得用戶快速且簡單的確認或拒絕該識別。同時,該技術(shù)能一次在顯示器上呈現(xiàn)所識別的人的多個面部、或所識別的物體的子圖像,因此使其能快速且簡單地確認或拒絕該識別。閾值可以基于標記選擇的數(shù)目、或者基于已經(jīng)被執(zhí)行的手動標記而被滿足的精確度閾值。在某些情況下,這實現(xiàn)了在所執(zhí)行的識別中的高度置信度,因此減少了用戶將需要更正或拒絕識別的可能性。
接下來的討論中首先描述操作環(huán)境,之后描述了可以在此環(huán)境中被采用并且處理示例用戶接口和裝置的技術(shù)。
圖1圖示了示例環(huán)境100,在此環(huán)境中能夠?qū)嵤擞浺苿釉O(shè)備上的視覺媒體的技術(shù)以及其他涉及視覺媒體的技術(shù)。環(huán)境100包括計算設(shè)備102、遠程設(shè)備104、以及通信網(wǎng)絡(luò)106。這些技術(shù)可被執(zhí)行,并且體現(xiàn)在所圖示設(shè)備(諸如多個計算設(shè)備)的一個或組合中的裝置是遠程的或是本地的。因此,用戶的智能電話可以捕捉(例如,拍照或視頻)或者從其他設(shè)備接收媒體,諸如被朋友先前從她或他的膝上型電腦上傳至遠程設(shè)備104的媒體、通過近場通信直接來自另一個朋友的相機的媒體、在物理介質(zhì)(如dvd或者藍光盤)上的媒體,等等。無論是來自多個還是僅一個源,所述技術(shù)能標記在用戶移動設(shè)備上或關(guān)聯(lián)于用戶移動設(shè)備的視覺媒體,即使該視覺媒體沒有被捕捉到移動設(shè)備中。
在更多的細節(jié)中,圖1的遠程設(shè)備104包括或者可訪問一個或多個遠程處理器108以及遠程計算機可讀存儲介質(zhì)(“crm”)110。遠程crm110包括標記模塊112以及視覺媒體114。標記模塊112能夠確定手動標記選擇滿足或者超過閾值、對多個視覺圖像執(zhí)行面部或物體識別、實現(xiàn)選擇以確認或拒絕該識別、并且標記或反向標記以響應(yīng)。該閾值可以是手動標記的數(shù)目、手動或非手動標記的總數(shù)目、某時間段內(nèi)的手動標記的數(shù)目、和/或基于該手動標記針對識別引擎而滿足的精確度閾值。
在更多的細節(jié)中,標記模塊112包括閾值116、人118以及物體120。因而,人118或者物體120中的每一個可以包括閾值116,該閾值116被滿足時可以提示標記模塊112來執(zhí)行本文提到的方法。閾值116可以是超過標記閾值數(shù)目122的手動選擇標記閾值,諸如當(dāng)用戶對人118中的一個人第10次手動標記的情況。注意上述對人的第10次標記可以是10次手動標記或者手動和非手動標記的組合,諸如第10次總標記是手動的,但是所述10次總標記中的4次標記是以其他方式接收的。這些其他標記可以通過社交媒體或其他方式接收或確定,其自身可以是手動的或非手動的標記。
閾值同樣可基于具有標記閾值時間的手動選擇的數(shù)目。因此,當(dāng)用戶在3分鐘內(nèi)為5張照片手動標記時,標記模塊112可對多個先前未標記的照片或視頻執(zhí)行物體識別。此數(shù)目和時間指示用戶希望標記許多不同的視覺媒體,并且因此能夠執(zhí)行大量識別和標記來幫助用戶。
進一步地,閾值116可以是基于特定精確度來確定的精確度閾值124,所述特定精確度很可能用于使用單獨手動選擇標記或者與用于提高識別精確度的其他方式組合的識別引擎。在此情況下,閾值數(shù)目可能不是決定性的,因為基于面部、視覺質(zhì)量、面部定向等,小數(shù)目的手動和/或非手動標記可足以滿足特定人118或物體120的精確閾值124。
此外,閾值116可以是基于閾值數(shù)目122和精確閾值124的組合。響應(yīng)于手動和非手動標記足以滿足精確度閾值124以及通過計算設(shè)備接收的足夠數(shù)目的手動標記選擇指示用戶想要大量標記他或她的視覺媒體114,標記模塊112可確定大量標記是合適的。
視覺媒體114包括照片126、視頻128、以及幻燈片/精彩130。視頻128以及幻燈片/精彩130可包括音頻,并且也可包括各種更改,諸如加入到幻燈片中的歌曲、在精彩集錦上的圖像或視頻的轉(zhuǎn)變等。其他類型的視覺媒體也可被包括,這些僅是以示例方式的說明。
遠程crm110同樣包括面部識別引擎132和物體標記引擎134。標記模塊112可使用這些引擎來識別在視覺媒體114內(nèi)的人和物體(如人118和物體120)。這些引擎能夠經(jīng)?;谙惹皹擞浝锰岣叩木_度或置信度來識別人和物體。識別中的置信度可以影響技術(shù)如何實現(xiàn)識別的確認/拒絕,其在下面進一步描述。
關(guān)于圖1中的示例計算設(shè)備102考慮圖2的細節(jié)圖示。每個計算設(shè)備102可以是各種設(shè)備中的一個或組合,在此以八種示例來說明:膝上型計算機102-1、平板計算機102-2、智能電話102-3、攝像機102-4、相機102-5、計算手表102-6、計算指環(huán)102-7、以及計算眼鏡102-8,但是諸如電視機、桌面型計算機、上網(wǎng)本、以及蜂窩電話的其他計算設(shè)備和系統(tǒng)也同樣可以使用。下面將更進一步地細節(jié)描述,在一些實施例中所述技術(shù)通過遠程設(shè)備104來操作。在這些情況下,計算設(shè)備102可放棄執(zhí)行與技術(shù)相關(guān)的一些計算操作,并且因此無需能夠進一步計算操作。
計算設(shè)備102包括或能夠與顯示器202(在圖2中示出的八個)、視覺媒體捕捉設(shè)備204(如模擬或數(shù)字相機)、一個或多個處理器206、計算機可讀存儲介質(zhì)208(crm208)、以及發(fā)射器或收發(fā)器210通信。crm208包括(單獨的或與遠程設(shè)備104的組合)標記模塊112、視覺媒體114、閾值116、人118、物體120、閾值數(shù)目122、精確度閾值124、照片126、視頻128、幻燈片/精彩集錦130、面部標記引擎132、以及物體識別引擎134。因此,可在有或沒有來自遠程設(shè)備104的幫助的情況下對計算設(shè)備102執(zhí)行所述技術(shù)。發(fā)射器/收發(fā)器210通過通信網(wǎng)絡(luò)106來與諸如遠程設(shè)備104的其他設(shè)備通信,但是也可以使用諸如近場通信或個域網(wǎng)通信的其他通信方式。
這些和其他能力,以及圖1和2的實體行動及交互方式在下文中進一步說明。這些實體可進一步分離,組合等等。圖1的環(huán)境100以及圖2細節(jié)圖示說明了能夠采用所描述的技術(shù)的許多可能的環(huán)境。
用于標記視覺媒體的示例方法
圖3圖示了用于標記視覺媒體的示例方法300。這里描述的這些和其他方法的方法塊的順序并不旨在被解釋為限制,并且任何數(shù)目或組合的所述方法塊能夠以任何順序組合以實施方法或替選方法。進一步地,所描述的方法可被整體或部分的分立或結(jié)合操作。當(dāng)一些操作或操作的示例涉及用戶交互,許多操作能夠無需用戶交互而自動被執(zhí)行。
在步驟302,用以標記人或物體的手動標記選擇被接收。該手動標記選擇可以通過移動設(shè)備接收,諸如通過圖1和圖2的計算設(shè)備102的姿勢敏感顯示器。因此,用戶可以選擇所存儲的或新捕捉的照片或視頻并且選擇標記照片中的人或物體。
通過示例,參考圖4,其圖示了用戶和她在自行車旅行中的兩個朋友的新捕捉的照片402,照片是通過她的智能電話102-3捕捉的(如圖2所示),并且示出在智能電話顯示器的媒體用戶接口404中。用戶可以在獲得或沒有獲得來自引擎132和134之一的幫助時通過選擇照片402的面部或子圖像來選擇手動標記。這里假設(shè)面部識別引擎132和物體識別引擎134每一個提供用于標記的可選擇區(qū)域。如圖5所示,其圖示了帶有標記界面502的照片402,具有第一面部504、第二面部506、第三面部508以及子圖像510。子圖像是物體可以位于其中的視覺媒體的部分,諸如子圖像510處示出自行車頭盔。同時注意,手動標記選擇512是通過敲擊第二面部506(名為“bella”的人)的姿勢選擇來接收的。
在步驟304,手動標記選擇被確定為滿足或超過所選的人或物體的標記閾值。如上部分所述,確定手動標記選擇滿足或超過標記閾值可以是確定該選擇超過閾值數(shù)目,諸如通過圖5的手動標記選擇512敲擊的該人的第15次標記。在某些情況下,標記模塊112確定手動標記選擇在閾值時間內(nèi)滿足或超過閾值數(shù)目,如在兩分鐘之內(nèi)對同樣的人的第三次選擇。手動標記人或物體多次或者“接連”標記可指示用戶期望標記許多照片或視頻,并因此提示標記模塊112來為用戶分析多個媒體。
在步驟306,對多個視覺圖像執(zhí)行面部或物體識別,以確定視覺圖像具有面部或子圖像,所述面部或子圖像被識別為與利用手動標記選擇來標記的人或物體相匹配。標記模塊112連同面部識別引擎132分析許多視覺媒體以找到人或物體,尚未對視覺媒體114的主要部分或者視覺媒體的全部或?qū)嵸|(zhì)上全部執(zhí)行針對該人或物體的識別。
繼續(xù)該示例,假定智能電話的用戶(bella)有396張照片、112個視頻,以及3個精彩集錦(通常帶有隨附音頻、變換等的突出精彩照片和視頻的幻燈片視頻)。注意面部識別引擎132的精確度和置信度能夠基于bella所進行的手動標記選擇來提高,這里她已經(jīng)在上個5分鐘內(nèi)選擇了5次手動標記她自己(bella),例如盡管非手動標記也可以幫助識別。這里以精確標記幫助5次手動標記。標記模塊112連同面部識別引擎132分析392張照片(4張已經(jīng)被標記為bella)、111個視頻(一個已經(jīng)被標記為)、以及3個精彩集錦。這里假定結(jié)果包括14張照片和兩個視頻具有被識別為bella的面部。
在步驟308,可以實現(xiàn)選擇來確認或拒絕面部或子標記被識別為與所確定的視覺圖像中的每一個中的人或物體相匹配。這可通過呈現(xiàn)具有指示所述面部或子圖像的標識(indicia)的所確定的視覺圖像。進一步地,標記模塊112可諸如通過具有面部或子圖像的圖像的快速幻燈片來快速連續(xù)地呈現(xiàn)所確定的視覺圖像。在這樣的情況下,不拒絕該面部或子圖像可包括在快速連續(xù)期間不選擇該圖像。
作為示例考慮圖6,圖示出所確定的視覺圖像602具有被識別為bella的面部604。在此,標識為方框606和文本608“bella?”,但是也能改僅使用方框、高亮等。在某些情況下,面部或子圖像被以比該圖像的其他部分更高的分辨率呈現(xiàn),從而提供用戶在決定確認或拒絕時所考慮的標識,諸如bella的面部以高分辨率呈現(xiàn)并且所確定的視覺圖像602的剩余部分以低分辨率呈現(xiàn),制作為半透明或者“陰影”。
如所述,在此示例中,16個視覺媒體(14個照片以及2個視頻)通過標記模塊112對bella(貝拉)的智能電話102-3上的視覺媒體114執(zhí)行面部識別而確定。所確定的視覺圖像602是那些14個照片之一。在此假定標記模塊112通過單個圖像確認/拒絕界面610快速連續(xù)地呈現(xiàn)這16個。此外,假定用戶(在此為bella)翻過每個照片和視頻而沒有拒絕它們,從而準許標記模塊112將這16個視覺媒體中的每一個標記為包括bella。需要注意的是,即使是視頻中的單個圖像也可以被快速連續(xù)地呈現(xiàn)。因此,能夠呈現(xiàn)在其中識別面部或子圖像的視頻的第一或第二部分,而不是該視頻的大部分或全部。更進一步地,視頻的此部分也可以按照被調(diào)整(例如兩倍或三倍)的速率來呈現(xiàn)。
標記模塊112也可以或者替代地通過一次或在一個界面中呈現(xiàn)所確定的視覺圖像的部分,實現(xiàn)選擇以來確認或拒絕被識別為與該人或該物體相匹配的面部或者子圖像。因此,替代呈現(xiàn)視覺照片(例如,照片或者視頻、幻燈片或精彩集錦中的靜態(tài)圖像),標記模塊112一次呈現(xiàn)多個部分。
作為示例考慮圖7,其圖示了多圖像確認/拒絕界面702。此界面702呈現(xiàn)了16個視覺媒體中的12個,其每個具有與被識別為bella的面部相關(guān)的視覺媒體的部分704。在此標記模塊112準許明確的選擇以確認或拒絕,或者通過允許該界面簡單地繼續(xù)示出bella被識別的其他視覺媒體來隱含地選擇。在此確認控制706被提供以明確的選擇以確認bella在所有這些12個視覺媒體中被正確的識別。
然而,假定bella不認為她在視頻708或照片710中。她可以選擇拒絕或者選擇查看更多諸如敲擊視頻708來查看更大版本、所有視頻、或者在視頻708中的其他靜態(tài)圖像,其中標記模塊112已經(jīng)確定識別了bella。
標記模塊112也可以基于識別是正確的置信度來呈現(xiàn)這些單個或多個所確定的視覺媒體。因此,標記模塊112可以基于置信度加速呈現(xiàn)在單個圖像確認/拒絕界面610中的所確定的圖像,因此,那些具有高置信度識別的圖像可比那些更低置信度的圖像更快的呈現(xiàn)。相似地,標記模塊112可以為圖7中的多圖像確認/拒絕界面702呈現(xiàn)更少的部分和/或更大的尺寸。例如,標記模塊112可以在一個界面中呈現(xiàn)所確定的16個視覺媒體中具有最高置信度的12個,以及在第二界面中以更大的尺寸呈現(xiàn)具有更低置信度的剩下的4個視覺媒體。
回到方法300,在步驟308處實現(xiàn)選擇之后,在步驟310,人或物體響應(yīng)于確認或沒有拒絕該識別而被標記。
圖8圖示了用于標記視覺媒體的示例方法800,包括自動基于精確度閾值來標記視覺媒體。方法800可以全部地或部分地作為替選或結(jié)合方法300來進行操作。
在步驟802,類似于針對方法300的操作302所描述的,用以標記人或物體的手動標記選擇被接收。
在步驟804,確定能夠以精確度閾值或超過精確度閾值來執(zhí)行人或物體的自動識別。確定自動識別超過精確度閾值可包括在其他視覺圖像中人或物體的面部或物體因素被手動或非手動地標記,而非已經(jīng)執(zhí)行手動標記的簡單數(shù)目。面部識別引擎132或物體識別引擎134能夠使用的面部或物體因素可用于建立或提高識別精確度閾以達到精確度閾值。
如上所述,此精確度閾值至少部分地基于人或物體的手動標記選擇以及先前的手動或非手動標記選擇,而無論是在計算設(shè)備102處執(zhí)行還是諸如通過社交網(wǎng)絡(luò)接收。因此,在圖5中對bella的最近手動標記選擇之后,并且基于對bella的9個先前手動標記選擇,標記模塊112可確定面部識別引擎132能夠以高精確度在其他視覺媒體中識別bella。此精確度閾值可以被設(shè)置為默認或者以選擇來設(shè)置,諸如用戶選擇以90%、95%或99%閾值來自動標記視覺媒體。
此精確度閾值可由標記模塊112通過對先前已經(jīng)在其中標記過人或物體的視覺圖像執(zhí)行面部或物體識別來確定或檢驗。因此,如果bella在10張圖像中標記了她自己,則標記模塊112可以分析這10張圖像來確定在這10張圖像中識別bella的精確度作為識別引擎精確度的檢驗。如果手動標記匹配被識別的面部達到所有10次,則未來識別的精確度會被確定為高(但是并非100%)。
在步驟806,對多重視覺圖像的面部或物體識別被執(zhí)行。如此,標記模塊112確定視覺圖像具有被識別為匹配人或物體的面部或子圖像。
在步驟808,響應(yīng)于面部或物體識別來執(zhí)行在所確定的視覺圖像中標記面部或子圖像。這能夠被自動執(zhí)行并且無需除了不同視覺媒體的某些先前時間(例如,在操作802處)的手動標記外的用戶交互。
替選地,在步驟810,本技術(shù)可以實現(xiàn)對所標記的面部或子圖像的拒絕。這能夠如圖6或圖7中所示地執(zhí)行,但是確定或不拒絕被替換為明確選擇來拒絕所標記的面部或子圖像。因此,用戶可以敲擊圖6中的面部604或者文本608來拒絕將面部604標記為bella或者選擇圖7中的控件706或部分704之一來拒絕標記。標記模塊112之后可移除選擇上的標記。
示例設(shè)備
圖9圖示出了包括標記模塊112也包括或可訪問圖1或圖2的其他組件的示例設(shè)備900的各種組件。這些組件可被以硬件、固件、和/或軟件以及參照先前的圖1-8中的任何一個所描述的來實施。
示例設(shè)備900可在固定或移動設(shè)備中實施,所述固定或移動設(shè)備是以下中的一個組合:媒體設(shè)備、桌面型計算設(shè)備、電視機、機頂盒、視頻處理和/或渲染設(shè)備、電器設(shè)備(例如,關(guān)上封閉計算資源,諸如一些數(shù)字視頻刻錄機或者全球定位衛(wèi)星設(shè)備)、游戲設(shè)備、電子設(shè)備、交通工具、工作站、膝上型計算機、平板計算機、智能電話、攝像機、相機、計算手表、計算指環(huán)、計算眼鏡、以及上網(wǎng)本。
示例設(shè)備900能夠與電子電路、微處理器、存儲器、輸入輸出(i/o)邏輯控制、通信接口以及組件、其他硬件、固件、和/或需要整臺設(shè)備運行的軟件集成。示例設(shè)備900也可包括整合的數(shù)據(jù)總線(未示出),其耦合計算設(shè)備的各種組件以提供組件間的數(shù)據(jù)通信。
示例設(shè)備900包括諸如輸入-輸出(i/o)邏輯控制902(例如包括電子電路)以及微處理器904(如微控制器或數(shù)字信號處理器)的各種組件。示例設(shè)備900也包括存儲器906,存儲器906能夠是任意類型的隨機存取存儲器(ram)、低延遲非易失存儲器(如閃存存儲器)、只讀存儲器(rom)、和/或其他適合的電子數(shù)據(jù)存儲。存儲器906包括或能夠訪問標記模塊112、視覺媒體114、面部識別引擎132、和/或物體識別引擎134。標記模塊112能夠執(zhí)行針對所述技術(shù)描述的一個或多個動作,雖然也可以包括其他組件。
示例設(shè)備900也可包括各種固件和/或軟件,諸如操作系統(tǒng)908,其連同其他組件一起能夠是由存儲器906所維護并且由微處理器904所執(zhí)行的計算機可執(zhí)行指令。示例設(shè)備900也可以包括其他各種通信接口和組件,無線lan(wlan)或者無線pan(wpan)組件、其他硬件、固件、和/或軟件。
參照上述描述和附圖描述了這些閾值的其他示例、能力以及功能。這些閾值既可獨立地也可與其他模塊或閾值組合來被實施為由存儲器906所維護并且由微處理器904所執(zhí)行的計算機可執(zhí)行指令,以實施所述的各種組件和/或特征。
替選地或附加地,這些組件的任何或全部可以被實施為硬件、固件、固定邏輯電路、或者其組合,與示例設(shè)備900的i/o邏輯控制902和/或其他信號處理及控制電路連接結(jié)合實施。更多地,這些組件中的一些可與設(shè)備900分離作用,諸如當(dāng)遠程(基于云計算的)服務(wù)針對標記模塊112執(zhí)行一個或多個操作時。例如照片和視頻無需都處于一個位置,一些可位于用戶的智能電話、一些位于服務(wù)器上、一些被下載到另一個設(shè)備(例如,膝上型或桌面型計算機)中。更進一步地,某些圖像可被設(shè)備獲取、索引、以及之后遠程存儲,諸如以節(jié)省設(shè)備中的存儲器資源。
總結(jié)
盡管標記移動設(shè)備上的視覺媒體的技術(shù)和裝置已經(jīng)被以特定于結(jié)構(gòu)特征和/或方法動作的語言描述,但是所附的權(quán)利要求不能解釋為限制于所描述的特定的特征或動作。而是,特定的特征和動作被公開作為實施用于標記移動設(shè)備上的視覺媒體的技術(shù)和裝置的示例形式。