專利名稱:支持視覺受損的個體的擴(kuò)增的現(xiàn)實(shí)全景的制作方法
受損人士提供指示接近一個或多個對象的觸覺或聽覺反饋,或可以控制選擇一個或多個適用的對象識別算法或例程以獲取額外的數(shù)據(jù)。在一些實(shí)施例中,擴(kuò)增的現(xiàn)實(shí)全景包括多形態(tài)的全景數(shù)據(jù),其中擴(kuò)增的現(xiàn)實(shí)中的對象包括多個類型的感測數(shù)據(jù),可能包括視覺數(shù)據(jù)、觸覺數(shù)據(jù)、動覺數(shù)據(jù)、可聽到的數(shù)據(jù)或其它類型的傳感器數(shù)據(jù)。可以用包括不可視數(shù)據(jù)的元數(shù)據(jù)對對象加標(biāo)簽。示例的不可視數(shù)據(jù)包括觸覺元數(shù)據(jù)標(biāo)簽、聽覺元數(shù)據(jù)標(biāo)簽或可由助理影響(leverage)以幫助視覺受損的用戶的其它類型的標(biāo)簽。多形態(tài)的元數(shù)據(jù)標(biāo)簽或不可視的標(biāo)簽可以以設(shè)備命令的形式發(fā)回遠(yuǎn)程視覺受損人士的設(shè)備。因此,視覺受損人士可以基于不可視的反饋導(dǎo)航通過他們自身的個人化環(huán)境。本發(fā)明主題的各個對象、特征、方面和優(yōu)點(diǎn)將從以下對優(yōu)選實(shí)施例的詳細(xì)描述并連同附圖而變得顯而易見,在附圖中類似的數(shù)字代表類似的部件。
圖I示出根據(jù)本發(fā)明的一個實(shí)施例的用于提供實(shí)時的對象識別和增強(qiáng)的視力的系統(tǒng);圖2示出根據(jù)本發(fā)明的另一個實(shí)施例的用于提供實(shí)時的對象識別和增強(qiáng)的視力的系統(tǒng);圖3示出根據(jù)本發(fā)明的一個實(shí)施例的在其上捕獲了由圖I中的識別應(yīng)用124產(chǎn)生的示例顯示的可視框(visual frame);圖4示出根據(jù)本發(fā)明的一個實(shí)施例的用于提供實(shí)時的對象識別和增強(qiáng)的視力的系統(tǒng)的功能概覽;以及圖5是根據(jù)本發(fā)明的一個實(shí)施例的表示用于提供實(shí)時的對象識別和增強(qiáng)的視力的方法的流程圖。圖6示出能夠向視覺受損人士提供增強(qiáng)的視力的另一個系統(tǒng)。圖7示出配置為展現(xiàn)遠(yuǎn)程環(huán)境的擴(kuò)增的現(xiàn)實(shí)全景的可能的能看見的助理界面。
具體實(shí)施例方式應(yīng)當(dāng)注意,盡管以下的描述被引到基于計(jì)算機(jī)/服務(wù)器的擴(kuò)增的現(xiàn)實(shí)引擎(engine),但認(rèn)為各種可選的配置也是適合的,且可以采用包括服務(wù)器、接口、系統(tǒng)、數(shù)據(jù)庫、引擎、適配器、控制器或其它類型的計(jì)算設(shè)備的單獨(dú)或集體操作的各種計(jì)算設(shè)備。應(yīng)該理解,計(jì)算設(shè)備包括配置為執(zhí)行存儲在有形的、非臨時性計(jì)算機(jī)可讀存儲介質(zhì)(例如,硬盤驅(qū)動器、固態(tài)驅(qū)動器、RAM、閃存、ROM等)上的軟件指令的處理器。軟件指令優(yōu)選地配置計(jì)算設(shè)備來提供如下面關(guān)于公開的裝置所討論的作用、職責(zé)或其它功能。在特別優(yōu)選的實(shí)施例中,各種服務(wù)器、系統(tǒng)、數(shù)據(jù)庫或接口使用標(biāo)準(zhǔn)化的協(xié)議或算法——可能基于HTTP、HTTPS、AES、公共-私有密鑰交換、萬維網(wǎng)服務(wù)API、已知的金融業(yè)務(wù)協(xié)議或其它的電子信息交換方法,來交換數(shù)據(jù)。優(yōu)選地,在分組交換網(wǎng)絡(luò)、因特網(wǎng)、LAN、WAN、VPN或其它類型的分組交換網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)交換。應(yīng)該理解,公開的技術(shù)提供了很多有益的技術(shù)效果,包括配置遠(yuǎn)程感測設(shè)備以輔助視覺受損人士。例如,遠(yuǎn)程能看見的助理可以使用擴(kuò)增的現(xiàn)實(shí)引擎以向遠(yuǎn)程的視覺受損人士的智能電話發(fā)出設(shè)備命令。該命令可以指示電話對于視覺受損人士提供指導(dǎo)。如這里所使用的,除非上下文另外地指出,術(shù)語“耦接到”旨在包括直接耦接(其中相互耦接的兩個元件相互接觸)和間接耦接(其中至少一個額外的元件位于兩個元件之間)兩者。因此,術(shù)語“耦接到”和“與…耦接”作為同義使用。本申請針對提供實(shí)時的對象識別和視力增強(qiáng)的系統(tǒng)和方法。以下描述包括有關(guān)本發(fā)明的實(shí)現(xiàn)的具體信息。本領(lǐng)域的技術(shù)人員會認(rèn)識到可以以不同于本申請中具體討論的方式實(shí)現(xiàn)本發(fā)明。此外,沒有討論本發(fā)明的一些具體的細(xì)節(jié)以避免混淆本發(fā)明。本申請中沒有描述的具體細(xì)節(jié)在本領(lǐng)域普通技術(shù)人員的知識中。本申請中的附圖及其附隨的詳細(xì)描述只針對本發(fā)明的示例性實(shí)施例。為了保持簡明,使用本發(fā)明的原理的本發(fā)明的其它實(shí)施例沒有在本申請中具體描述并且也沒有通過本附圖具體圖示。應(yīng)當(dāng)記住,除非另外說明,圖中類似或?qū)?yīng)的元件可以由類似或?qū)?yīng)的參考數(shù)字指示。本發(fā)明人已經(jīng)意識到提供計(jì)算機(jī)居間的對象識別的傳統(tǒng)方法通常導(dǎo)致不理想的用戶體驗(yàn)。此外,本發(fā)明人已經(jīng)認(rèn)識到技術(shù)中對實(shí)現(xiàn)作為視覺受損人士增強(qiáng)視力的方法的 一部分的細(xì)致入微且復(fù)雜的對象識別解決方案的急切的需要。本申請公開了旨在提供靈活、強(qiáng)大且用戶易應(yīng)答的解決方案的系統(tǒng)和方法,所述解決方案配置為精確且方便地提供對象、面部、上下文(context)以及環(huán)境識別作為擴(kuò)增視力的完整的方案的一部分。例如在一個實(shí)施例中,根據(jù)本發(fā)明概念的系統(tǒng)和方法可以使能(enable)捕獲包括臉部特征的視覺圖像并提供具有那些特征的人士的實(shí)時識別。此外,在一個實(shí)施例中,根據(jù)本發(fā)明概念的系統(tǒng)和方法可以使能捕獲包括環(huán)境特征的視覺圖像并提供位置的實(shí)時識別,以及有可能根據(jù)該位置向遠(yuǎn)程用戶提供導(dǎo)航信息。由本申請公開的許多益處之一是用于通過可訪問的接口向移動用戶提供實(shí)時的能看見的輔助、信息以及通信的設(shè)備、系統(tǒng)和方法。例如在一個實(shí)施例中,可以使用連接到用戶個人計(jì)算機(jī)(PC)的相機(jī)使能的便攜式通信設(shè)備和/或其它集中或分布式計(jì)算和通信服務(wù)提供擴(kuò)增的現(xiàn)實(shí)和增強(qiáng)的視力服務(wù)。例如,這里具體化的系統(tǒng)允許視覺受損的用戶使用相機(jī)使能的便攜式通信設(shè)備(諸如移動電話或個人數(shù)字助理(PDA))以例如與能看見的助理或者自動的計(jì)算機(jī)視覺引擎實(shí)時地通信,該能看見的助理或者自動的計(jì)算機(jī)視覺引擎允許它們實(shí)時檢測、認(rèn)出并跟蹤對于低分辨率視頻分析而言過遠(yuǎn)的對象、地標(biāo)、特別的標(biāo)簽(tag)、文本、標(biāo)牌(signage)或條形碼。本系統(tǒng)的實(shí)施例以非常高的速度提供高分辨率圖像識別,所述速度例如大約5至10巾貞每秒(fps)或更高。根據(jù)本發(fā)明的一個實(shí)施例,通過開發(fā)(tap)用戶的PC的處理能力使能這樣的性能。在一些實(shí)施例中,對象或環(huán)境識別處理的結(jié)果可以使用文本到語音或預(yù)錄音的標(biāo)簽大聲發(fā)音(enunciated)。也就是說,可以通過實(shí)時提供對象的發(fā)音的語音識別來識別出對象。可以使用利用本發(fā)明的實(shí)施例分布或訪問的識別數(shù)據(jù)庫進(jìn)行處理和識別。那些數(shù)據(jù)庫例如可以包括對大多數(shù)用戶共同的缺省條目。在一些實(shí)施例中,識別數(shù)據(jù)庫可以是開放的,從而使得可以在用戶的PC本地的存儲資源、或在中央共享的社區(qū)數(shù)據(jù)庫中存儲并且訪問對于用戶個人而言重要的額外的信息層。除了發(fā)音的語音識別之外,諸如超鏈接、圖像、二維(2D)和三維(3D)圖形等的圖形元素可以以低延遲和高幀速率實(shí)時地附連和配準(zhǔn)(register)到視頻流中的特征。此外,使用圖形以及觸覺和語音使能的觸摸屏界面實(shí)現(xiàn)的可訪問界面,當(dāng)與語音識別和手勢識別結(jié)合時,使能寬范圍的受到挑戰(zhàn)的用戶的使用,所述用戶諸如視覺受損、年老和其他具有交流和認(rèn)知障礙的人士。專門的標(biāo)簽可以在系統(tǒng)中預(yù)先訓(xùn)練,允許用戶簡單地將標(biāo)簽貼到?jīng)]有被該系統(tǒng)另外地識別出的各個對象和地標(biāo)。這種貼標(biāo)簽的方法可以使用可通過實(shí)時的視頻分析而識別的特征,諸如識別為對于各種對象識別算法最優(yōu)的圖像,所述對象識別算法例如尺度不變特征變換算法(SIFT)、加速魯棒特征算法(SURF)或其它較簡單的基于顏色或形狀的技術(shù)。當(dāng)用戶將便攜式通信設(shè)備相機(jī)指向一個或多個場景中的一個或多個對象時,可以由系統(tǒng)實(shí)時自動地分析對象以識別一個或多個對象。該系統(tǒng)還可配置為圖形地或通過音頻或觸覺界面在便攜式通信設(shè)備的顯示器中提供有關(guān)識別的對象的鏈接信息或動作選項(xiàng)。基于對例如對象、文本、電話號碼、電子郵件、SMS聯(lián)系人或街道標(biāo)牌的識別而生成的鏈接以及展現(xiàn)為用戶先前的輸入的那些可以產(chǎn)生更多的用戶選項(xiàng),用于訪問額外的信息層或用于初始化通信或基于位置的服務(wù)。本發(fā)明的實(shí)施例實(shí)現(xiàn)混合式點(diǎn)對點(diǎn)(P2P)和中央處理架構(gòu),由此使能使用超過相 機(jī)使能的便攜式通信設(shè)備的限制的處理、能力和存儲資源,同時避免與集中主機(jī)服務(wù)實(shí)現(xiàn)相關(guān)聯(lián)的費(fèi)用。例如,通過傳送分層編碼的壓縮視頻和從高分辨率圖像內(nèi)捕獲選擇的感興趣的區(qū)域用于在用戶PC或PC群上進(jìn)行處理,視頻圖像可以接收另外超過便攜式通信設(shè)備自身的處理能力的分析的深度。以該方式,可以實(shí)時分析和識別例如對象、地標(biāo)、文本、條形碼和面部。根據(jù)本發(fā)明的一個實(shí)施例,遠(yuǎn)程存在和增強(qiáng)的視覺服務(wù)允許經(jīng)過由便攜式通信設(shè)備捕獲的圖像或?qū)崨r視頻向遠(yuǎn)程助理的顯示的遠(yuǎn)程輔助和訓(xùn)練。此外,例如經(jīng)過PC鏈接到便攜式通信設(shè)備的遠(yuǎn)程助理可以使用該便攜式通信設(shè)備基于到來的圖像遠(yuǎn)程地拍攝高分辨率的圖像。此外,使用PC的遠(yuǎn)程助理可以通過使用分布的處理特征和系統(tǒng)提供的分級和分層的編碼近乎實(shí)時地生成全景,允許基于到來的圖像或視頻巾貞的配準(zhǔn)(registering)和自動縫合(stitching)來形成逐行地較高分辨率且α混合的全景。然后這樣的全景能夠基于實(shí)況到來的視頻的位置全景搖攝(pan tilted)和變焦,允許移動用戶或其遠(yuǎn)程助理獲得場景的較高分辨率視圖,并由此具有增強(qiáng)的視力能力,例如看到更遠(yuǎn)的距離或甚至閱讀那些具有正常視力的人都不能閱讀的標(biāo)牌,或通過訪問先前的圖像而在暗處都能看見。在遠(yuǎn)程助理能夠是雙向音頻/視頻通信同時例如依靠地理信息系統(tǒng)(GIS)具有對移動用戶的實(shí)時位置信息的訪問時,可使能用于遠(yuǎn)程助理的實(shí)況擴(kuò)增的現(xiàn)實(shí)。個人化的訓(xùn)練允許移動用戶使用便攜式通信設(shè)備或者借助于可以遠(yuǎn)程地針對用戶執(zhí)行訓(xùn)練的能看見的助理的幫助,將對象訓(xùn)練為數(shù)據(jù)庫的一個或多個系統(tǒng)。這樣的數(shù)據(jù)庫的社區(qū)分享以及對集中提供的數(shù)據(jù)庫的訪問允許在基于便攜式通信設(shè)備/PC的系統(tǒng)上創(chuàng)建本地?cái)?shù)據(jù)庫,以使能上述的實(shí)時性能。該系統(tǒng)的實(shí)施例可配置用于例如通用產(chǎn)品代碼(UPC)條形碼檢測和識別,以訪問額外的電子產(chǎn)品目錄信息或其它用戶生成的信息。該系統(tǒng)的實(shí)施例還可以將這樣的信息與這里公開的實(shí)時識別引擎和分布的結(jié)構(gòu)支持的圖像和特征數(shù)據(jù)庫相關(guān)聯(lián)。移動用戶可以通過可訪問的界面拍攝感興趣的對象的圖像,然后該移動用戶或其遠(yuǎn)程的能看見的助理可以手動定位條形碼和/或使用早期視覺特征,以捕獲高分辨率的照片。例如包括UPC條形碼的區(qū)域的感興趣的區(qū)域然后可以被傳送到PC基站,在PC基站該條形碼就這樣被識別,且在本地或者通過網(wǎng)絡(luò)訪問UPC數(shù)據(jù)庫。如上所述,可以通過將合適地配置的相機(jī)使能的便攜式通信設(shè)備連接到用戶的或社會上的聯(lián)網(wǎng)的PC而高效且可靠地獲得支持實(shí)時檢測、識別、跟蹤以及圖形重疊元素(例如超鏈接)的使用所需的高幀速率視頻和快速高分辨率照片分析所需的處理資源。這樣的連接可以通過授權(quán)這樣的資源共享的便攜式通信設(shè)備、PC或PC群經(jīng)由基于網(wǎng)際協(xié)議(IP)的覆蓋網(wǎng)絡(luò)支持處理提供,其中這樣的分布式架構(gòu)由冗余的集中主機(jī)服務(wù)的服務(wù)組支持。由便攜式通信設(shè)備和移動互聯(lián)網(wǎng)設(shè)備(MID)或上網(wǎng)本(netbook)共享的本地服務(wù)器使能的設(shè)備-設(shè)備網(wǎng)絡(luò)可以例如導(dǎo)致針對所描述的分布的實(shí)況視頻和高分辨率圖像識別處理的單獨(dú)的系統(tǒng)。在一個實(shí)施例中,在便攜式通信設(shè)備和PC之間分布的早期視覺系統(tǒng)可以用來分析低分辨率視頻和用來識別對象和場景以及很可能包含諸如文本、條形碼、數(shù)字、顏色等信息的區(qū)域。這個早期視覺系統(tǒng)的結(jié)果以及例如移動用戶選擇、移動用戶位置以及一天中的時間可以用來有效地控制經(jīng)由IP覆蓋網(wǎng)絡(luò)的圖像捕獲和傳輸功能。然后感興趣的假定區(qū) 域可以被傳達(dá)給圖像捕獲控制以便識別已經(jīng)接收和分析的視頻或較低分辨率圖像的那些區(qū)域,但是要求來自便攜式通信設(shè)備的高分辨率圖像傳送。然后那些高分辨率圖像可以按優(yōu)先級排序用于傳遞到PC。解碼的圖像和視頻還可被指引到后端識別和動態(tài)數(shù)據(jù)庫產(chǎn)生引擎。基于以上產(chǎn)生的隊(duì)列而動態(tài)重組數(shù)據(jù)庫可以對識別性能具有顯著的影響。如上所述,可以使用諸如SIFTS和SURFS的算法進(jìn)行來自便攜式通信設(shè)備的實(shí)時視頻的分析和對象識別,同時進(jìn)行用于文本、條形碼或其它細(xì)微特征區(qū)域的視頻的同時分析。針對諸如光學(xué)字符識別(OCR)的技術(shù),諸如文本或條形碼的細(xì)微特征的檢測可以被用于觸發(fā)感興趣區(qū)域的高分辨率成像的優(yōu)先級排序。在一個實(shí)施例中,結(jié)合對象識別分析和特定細(xì)微特征分析的結(jié)果,從而即使不理想的OCR分析也可被用來增強(qiáng)識別性能。本發(fā)明人設(shè)想了一個維基(Wiki)類型的社區(qū)數(shù)據(jù)庫,其中用戶可以提交他們的個人訓(xùn)練數(shù)據(jù)庫。那些社區(qū)數(shù)據(jù)庫可以使用UPC和電子產(chǎn)品目錄號和信息來規(guī)范化,和/或用用戶產(chǎn)生和檢查過的數(shù)據(jù)庫來加注解。數(shù)據(jù)庫條目可以包括例如視頻內(nèi)容、高分辨率圖像或感興趣的區(qū)域、位置、時間信息、文本以及音頻。此外,數(shù)據(jù)庫條目可以包括如上所述且將在以下更詳細(xì)地描述的全景,其已經(jīng)用搖攝傾斜變焦(PTZ)序列加標(biāo)簽、注釋或者敘述過。在本系統(tǒng)的實(shí)施例中包括配置有可訪問界面的便攜式通信設(shè)備使得移動用戶或其能看見的遠(yuǎn)程助理可以將一個或多個數(shù)據(jù)庫條目動態(tài)地直接下載到其便攜式通信設(shè)備和基站PC。可以對于廣泛種類的具體使用實(shí)現(xiàn)本發(fā)明的實(shí)施例。例如,醫(yī)療保健和緊急護(hù)理界面可以通過音頻發(fā)音的觸摸屏及語音和手勢識別界面,以及通過與緊急個人應(yīng)答和遠(yuǎn)程患者監(jiān)控服務(wù)的兼容性來使能。此外,本發(fā)明的實(shí)施例可以配置為檢測3G或4G移動網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量以及在可靠的流和潛在有損耗的實(shí)時數(shù)據(jù)傳輸之間切換。此外,本發(fā)明的實(shí)施例可配置為通過添加到已有的PDA、智能電話或MID的外圍設(shè)備,使用多個網(wǎng)絡(luò)連接(諸如3G和/或4G及以上、電路交換的全球移動通信系統(tǒng)(GSM)以及公共交換電話網(wǎng)絡(luò)標(biāo)準(zhǔn)),用于諸如遠(yuǎn)距離醫(yī)學(xué)和或遠(yuǎn)程幫助的重要應(yīng)用中增加的冗余度和可靠性。在一些實(shí)施例中,視頻內(nèi)容的使用作為取景器以及遠(yuǎn)程高分辨率圖像捕獲(例如,遠(yuǎn)程攝影師功能),對于諸如藥物攝入監(jiān)控和或遠(yuǎn)程檢察和現(xiàn)場修理的遠(yuǎn)程存在功能可以特別有價值。可替換地,在和由遠(yuǎn)程人事部門使用的多媒體基于位置的服務(wù)(LBS)考勤卡系統(tǒng)一起使用時,以安全的方式記錄音頻/視頻內(nèi)容以及位置數(shù)據(jù)可以附加價值。圖I示出根據(jù)本發(fā)明的一個實(shí)施例的用于提供實(shí)時對象識別和增強(qiáng)的視力的系統(tǒng)100。如圖I所示,系統(tǒng)100包括便攜式通信設(shè)備110、客戶端-服務(wù)器主機(jī)設(shè)備120和中央主機(jī)服務(wù)器130。注意,示出便攜式通信設(shè)備110、客戶端-服務(wù)器主機(jī)設(shè)備120和中央主機(jī)服務(wù)器130的組合是為了概念清楚而決不是意圖作為限制。例如,在一個實(shí)施例中,系統(tǒng)100可包括便攜式設(shè)備110和一個或多個客戶端-服務(wù)器主機(jī)設(shè)備120,但是省略中央主機(jī)服務(wù)器130,而在另一個實(shí)施例中,系統(tǒng)100可包括便攜式設(shè)備110和中央主機(jī)服務(wù)器130,但省略客戶端-服務(wù)器主機(jī)設(shè)備120。此外,如現(xiàn)有技術(shù)所公知的,便攜式通信設(shè)備110、客戶端-服務(wù)器主機(jī)設(shè)備120和中央主機(jī)服務(wù)器130中的每個的操作由位于執(zhí)行存儲在每個設(shè)備或服務(wù)器中的存儲器(未示出)中的軟件的每個設(shè)備或服務(wù)器中的微處理器或中央處理單元(未示出)執(zhí)行。如圖I所示,客戶端-服務(wù)器主機(jī)設(shè)備120和中央主機(jī)服務(wù)器130遠(yuǎn)離便攜式設(shè)備110。配備有相機(jī)112的便攜式設(shè)備110配置為使用相應(yīng)的網(wǎng)絡(luò)通信鏈路102和104訪·問客戶端服務(wù)器主機(jī)和/或中央主機(jī)服務(wù)器130。此外,在存在客戶端-服務(wù)器主機(jī)設(shè)備120和中央主機(jī)服務(wù)器130兩者的實(shí)施例中,網(wǎng)絡(luò)通信鏈路106可以在那些系統(tǒng)元件之間作為通信媒介。在本發(fā)明的各個實(shí)施例中,網(wǎng)絡(luò)通信鏈路102、104和106可對應(yīng)于同樣的或不同的網(wǎng)絡(luò)上的通信。例如,網(wǎng)絡(luò)通信鏈路102可對應(yīng)于在諸如Wi-Fi或WiMax的局部網(wǎng)絡(luò)上的通信,網(wǎng)絡(luò)通信鏈路104可對應(yīng)于支持?jǐn)?shù)據(jù)頻帶通信的無線移動載波網(wǎng)絡(luò),并且網(wǎng)絡(luò)通信鏈路106可對應(yīng)于在諸如因特網(wǎng)的分組網(wǎng)絡(luò)上的數(shù)據(jù)傳輸。便攜式設(shè)備110被示出為包括相機(jī)112和識別應(yīng)用114的移動版本。便攜式設(shè)備110可包括裝備有例如智能電話或個人數(shù)字助理(PDA)的相機(jī)。相機(jī)112可包括攝像機(jī)和/或照相機(jī),并且能夠捕獲高分辨率的視頻和/或靜態(tài)圖像。根據(jù)圖I的實(shí)施例,識別應(yīng)用114的移動版本能夠例如在HTC Windows移動智能電話上運(yùn)行,或在其它合適地配置的移動通信設(shè)備上運(yùn)行。這樣的設(shè)備由在美國和國際上運(yùn)營的基本所有無線通信提供商提供。識別應(yīng)用114的無線版本可配置為提供可訪問的界面,其使得移動用戶能夠?yàn)榱送ㄐ藕陀?xùn)練的目的而連接到遠(yuǎn)程助理,或連接到移動用戶的基站客戶端-服務(wù)器主機(jī)設(shè)備120 (諸如移動用戶家中的PC),其通常執(zhí)行訓(xùn)練和實(shí)時對象識別??蛻舳?服務(wù)器主機(jī)設(shè)備120也可以具有可訪問的界面,其允許移動用戶和遠(yuǎn)程助理兩者容易地管理該移動用戶的訓(xùn)練和數(shù)據(jù)庫管理的需要。如圖I中進(jìn)一步示出的,根據(jù)本實(shí)施例,客戶端-服務(wù)器主機(jī)設(shè)備120包括識別應(yīng)用124和識別數(shù)據(jù)庫126。雖然識別數(shù)據(jù)庫126被示出為駐留在客戶端-服務(wù)器主機(jī)設(shè)備120上,但是并非必需是這種情況。相反地,本發(fā)明概念可以通過系統(tǒng)100的變型來實(shí)現(xiàn),在該系統(tǒng)100中對應(yīng)于識別數(shù)據(jù)庫126的識別數(shù)據(jù)庫僅可由客戶端-服務(wù)器主機(jī)設(shè)備120訪問,諸如可由客戶端-服務(wù)器主機(jī)設(shè)備經(jīng)由網(wǎng)絡(luò)通信鏈路106訪問的識別數(shù)據(jù)庫136,或通過可由客戶端-服務(wù)器主機(jī)設(shè)備120經(jīng)由P2P網(wǎng)絡(luò)連接(圖I中也未示出)訪問的另一個客戶端-服務(wù)器主機(jī)設(shè)備(圖I中未示出)上駐留的識別數(shù)據(jù)庫126。駐留在客戶端-服務(wù)器主機(jī)設(shè)備120上的識別應(yīng)用114配置為使用識別數(shù)據(jù)庫126和136的兩者或其中之一,以向便攜式通信設(shè)備110的遠(yuǎn)程移動用戶提供對使用便攜式通信設(shè)備捕獲的視覺圖像的實(shí)時對象識別。中央主機(jī)服務(wù)器130被示出為包括識別應(yīng)用134的服務(wù)器版本、識別數(shù)據(jù)庫136以及其它特征。圖I中還表示出由中央主機(jī)服務(wù)器130提供的服務(wù),并且可包括在客戶端-服務(wù)器主機(jī)設(shè)備120和識別應(yīng)用114的移動版之間建立通信的安全裝置。公開的網(wǎng)絡(luò)架構(gòu)的P2P傳輸消除了對繁重帶寬主機(jī)服務(wù)的需要,并且因此允許經(jīng)濟(jì)的客戶端-服務(wù)器配置用于系統(tǒng)100的用戶。盡管如此,發(fā)明人也設(shè)想了使用中央主機(jī)服務(wù)器,諸如中央主機(jī)服務(wù)器130,用于在用戶自己的個人基站計(jì)算機(jī)(例如運(yùn)行識別應(yīng)用124的計(jì)算機(jī),諸如客戶端-服務(wù)器主機(jī)設(shè)備120)不可用時訪問。識別應(yīng)用134的中央主機(jī)服務(wù)器版本還可配置為在例如客戶端-服務(wù)器主機(jī)設(shè)備120上操作,這使能基本自含(self contained)的配置,在該配置中便攜式通信設(shè)備110可連接到運(yùn)行識別應(yīng)用134的服務(wù)器版本和識別應(yīng)用124的上網(wǎng)本或PC。這可以通過便攜式通信設(shè)備和PC或上網(wǎng)本之間的P2P Wi-Fi連接完成。這樣的配置允許用戶解決移動載波數(shù)據(jù)頻帶覆蓋問題或用于成本節(jié)約目的,但是將需要移動用戶攜帶兩個系統(tǒng)。在家庭設(shè)置中,這可以是非常實(shí)際的系統(tǒng)設(shè)置?!は到y(tǒng)100還具體化了個人云計(jì)算模型的前提,由此,移動用戶開發(fā)作為遠(yuǎn)程識別或訓(xùn)練引擎的他們自己的上網(wǎng)本或PC的處理能力。根據(jù)本實(shí)施例,用戶可以選擇他們自己的PC,或家庭成員或者朋友的PC,作為客戶端-服務(wù)器,同時還具有對由中央主機(jī)服務(wù)器130提供的集中主機(jī)服務(wù)選項(xiàng)的訪問,中央主機(jī)服務(wù)器130的使用可能與一些對用戶附加的財(cái)務(wù)費(fèi)用相關(guān)。所描述的配置導(dǎo)致提供高用戶可用性的靈活的系統(tǒng)。如圖2所示,本發(fā)明的一些實(shí)施例使用混合分布式/集中式計(jì)算平臺,諸如專有的iVisit 網(wǎng)絡(luò)架構(gòu),以使能圖I的便攜式通信設(shè)備110和客戶端-服務(wù)器主機(jī)設(shè)備120和/或中央主機(jī)服務(wù)器130之間的交互。圖2示出根據(jù)本發(fā)明的一個實(shí)施例的系統(tǒng)200,包括與客戶端-服務(wù)器主機(jī)設(shè)備220和/或與中央主機(jī)服務(wù)器230通信的便攜式通信設(shè)備210a和210b。注意,便攜式通信設(shè)備210a和210b、客戶端-服務(wù)器主機(jī)設(shè)備220和中央主機(jī)服務(wù)器230分別對應(yīng)于圖I中的便攜式通信設(shè)備110、客戶端-服務(wù)器主機(jī)設(shè)備120和中央主機(jī)服務(wù)器130。如圖2所示,在一個實(shí)例中,諸如便攜式通信設(shè)備210a的便攜式通信設(shè)備可與多個客戶端-服務(wù)器主機(jī)設(shè)備220以及中央主機(jī)服務(wù)器230通信??商鎿Q地,便攜式通信設(shè)備210a可與多個客戶端-服務(wù)器主機(jī)設(shè)備220通信,但是從中央主機(jī)服務(wù)器230臨時斷開。在那些情況的任一種中,中央主機(jī)服務(wù)器230和/或多個客戶端-服務(wù)器設(shè)備220配置為提供分布式計(jì)算平臺處理例如使用便攜式通信設(shè)備210a捕獲的視覺圖像。如圖2中進(jìn)一步示出的,在另一個實(shí)例中,諸如便攜式通信設(shè)備210b的便攜式通信設(shè)備可以只與中央主機(jī)服務(wù)器230通信。在該情況下,例如運(yùn)行識別應(yīng)用134的服務(wù)器版本并且使用識別數(shù)據(jù)庫136的中央主機(jī)服務(wù)器230可配置為提供計(jì)算平臺用于處理使用便攜式通信設(shè)備210b捕獲的視覺圖像。作為對由iVisit提供的特征的介紹,iVisit (www. ivisit. com)是IP視頻會議領(lǐng)域的先鋒之一,且運(yùn)營過第一個因特網(wǎng)IP視頻會議服務(wù)之一,至今為止有20億會議記錄(minutes)和4百萬下載。與商業(yè)可獲得的服務(wù)一起,iVisit目前使用其獨(dú)有的P2P網(wǎng)絡(luò)架構(gòu)每個月免費(fèi)對超過2千萬會議記錄的多方視頻會議提供主機(jī)服務(wù)。iVisit—直在開發(fā)和運(yùn)營可縮放的客戶端-服務(wù)器平臺并且對工作在便攜式通信設(shè)備和PC上的IP網(wǎng)絡(luò)提供主機(jī)服務(wù)。iVisit已經(jīng)注冊了用機(jī)構(gòu)內(nèi)自建的(on-premises)服務(wù)器軟件運(yùn)營他們自己的服務(wù)的超過50個客戶端-服務(wù)器被許可方以及超過80萬用戶。最近,在展示全雙工視頻通話(即以14fps的160x 120的分辨率)的Windows便攜式通信設(shè)備上支持配置為在本發(fā)明的實(shí)施例中使用的移動客戶端的完成的beta版。這樣的性能已經(jīng)在不夠理想的網(wǎng)絡(luò)性能條件下、在Ev-DO Rev. A之上的Windows Mobile PDA上展不。此外,320 x 240的Wi-Fi分辨率可以支持全屏模式用于PDA電話上的實(shí)況視頻會議。 再次參考圖I,客戶端-服務(wù)器主機(jī)設(shè)備120和便攜式通信設(shè)備110可配置為提供集成的多方音頻/視頻會議、演示和桌面共享,基于位置的服務(wù),按鍵通話,消息傳送和更多。配置了 Windows Mobile、iPhone、PC和Mac的beta版的客戶端正在展不出用于實(shí)況和存儲及轉(zhuǎn)發(fā)通信的較高性能,同時避免對無線網(wǎng)絡(luò)或設(shè)備的不利影響。在較高性能的便攜式通信設(shè)備上能夠支持24小時的待機(jī)時間和超過兩小時的激活的(active)視頻通話?;旌系募?分布式介質(zhì)傳輸、自適應(yīng)帶寬管理、分層多比特率視頻和音頻編碼的實(shí)現(xiàn)還使得本發(fā)明的實(shí)施例為針對3G和4G應(yīng)用服務(wù)及以上的有希望的平臺。簡而言之,本方法的 可縮放性允許這里公開的實(shí)時對象識別和視力增強(qiáng)功能變得可實(shí)現(xiàn)。本發(fā)明人相信這里公開的發(fā)明提供了目前能夠在固定移動平臺上以接近IOfps的幀速率進(jìn)行實(shí)時對象識別的唯一方案。除了支持固定的帶寬之外,本發(fā)明的實(shí)施例支持在Wi-Fi、WiMAX和任何3G移動網(wǎng)絡(luò)上的實(shí)況視頻。對WiMax的支持將允許到達(dá)鄉(xiāng)村的和服務(wù)匱乏的地區(qū),因?yàn)檫@是在鄉(xiāng)村設(shè)置中理想的寬帶方案顯示采用。如果可獲得允許在IOkbps的數(shù)量級的數(shù)據(jù)速率的合理一致連通性,則在IX網(wǎng)絡(luò)上也可發(fā)生異步的視頻消息傳送。更高的帶寬可以用來提高視頻質(zhì)量直到達(dá)到便攜式通信設(shè)備的處理限制,或用來支持使用公開的分布式介質(zhì)傳輸?shù)脑黾拥挠脩魯?shù)目。本發(fā)明的實(shí)施例還考慮到相當(dāng)大數(shù)目的用戶可能在PC客戶端上,并且將允許基于他們的處理能力和支持高帶寬的能力,在這些PC用戶之間的通信具有較高的質(zhì)量。例如,可能只在具有AT0M/SnapDragon、Core Duo或類似的處理器的PC、上網(wǎng)本或MID上使能大且高清晰度(HD)的視頻格式??梢栽诳焖俸透咝У挠脩魯?shù)據(jù)報協(xié)議上(UDP)構(gòu)建適合用在本發(fā)明的實(shí)施例中的音頻和視頻傳輸。根據(jù)本發(fā)明的實(shí)施例,客戶端的帶寬需求可以基于相機(jī)、光照、運(yùn)動和視頻窗口尺寸而自動調(diào)節(jié)以最優(yōu)化帶寬使用。系統(tǒng)100的基于客戶端和主機(jī)服務(wù)器的服務(wù)可以以簡單的基礎(chǔ)設(shè)施擴(kuò)張擴(kuò)大到允許例如從好幾萬并發(fā)用戶到幾百萬并發(fā)用戶。此外,在本系統(tǒng)的實(shí)施例上發(fā)生的通信可以被加密且與健康保險便利和責(zé)任法案(HIPPA)相適應(yīng)。只有授權(quán)訪問專用域的用戶可以和在該域基站服務(wù)器上的其它用戶通信。在一些實(shí)施例中,驗(yàn)證使用高級加密標(biāo)準(zhǔn)(AES)加密、基于類似Kerberos的票據(jù)(ticket)。由本發(fā)明的實(shí)施例使能的多方視頻通話例如允許針對語音和聽力受損人士的咨詢(consultations)、翻譯或解釋服務(wù)。用戶選項(xiàng)菜單下簡單的“添加到通話”按鍵可以允許用戶邀請額外的用戶參加通話?!皡⒓訒h”功能起到類似于呼入(call-in)會議橋的作用。這些P2P視頻會議服務(wù)可以在產(chǎn)品發(fā)布時作為對用戶的額外的向上銷售,或者作為基本封裝的一部分得到支持。本發(fā)明的實(shí)施例允許用戶在通話和消息傳送期間“快照和發(fā)送”高分辨率的照片。在這些圖像的傳輸期間,視頻傳輸會受到影響。然而,“快照和發(fā)送”功能使能可以在通話期間被發(fā)送或者可以作為帶有音頻/視頻注釋的照片在消息和記錄期間被發(fā)送的非常高質(zhì)量的圖像的分發(fā)。此外,本發(fā)明的一些實(shí)施例包括集成的全球定位系統(tǒng)(GPS)和映射服務(wù)。這些選項(xiàng)使得能夠?qū)⒁苿佑脩舻腉PS位置傳送給例如授權(quán)的組、聯(lián)系人列表或特定個體。實(shí)況或記錄的GPS位置可以上傳并顯示在地圖上,其可以進(jìn)而使能各種各樣的其它基于位置的服務(wù)。這樣基于連接的位置的服務(wù)可以被用來使能例如“跟著我”或“朋友發(fā)現(xiàn)器”類型的服務(wù)或用于企業(yè)車隊(duì)管理和遠(yuǎn)程勞動力管理應(yīng)用。如上所討論的,本發(fā)明的一些實(shí)施例包括配置用于便于例如新手(novice)、年長者或感測受損的用戶(諸如視覺受損的遠(yuǎn)程用戶)的易訪問性的特征。這些包括添加新的可訪問的觸摸屏界面,新的可訪問的便攜式通信設(shè)備狀態(tài)指示(諸如電力、網(wǎng)絡(luò)狀態(tài)、到來的通話或信息)。對于年長者和/或新手視覺受損的用戶,可以預(yù)編程用于一個或多個遠(yuǎn)程能看見的助理的聯(lián)系信息,從而使得系統(tǒng)可以響應(yīng)于按下單個按鍵或其它輸入而自動發(fā)送信息。對于更高級的用戶,以用于用戶的音頻菜單的形式念出選項(xiàng)網(wǎng)格(grid)的方向鍵和可訪問的觸摸屏界面允許通過分級音頻菜單選擇來訪問所有的系統(tǒng)功能。記錄的人類聲音可 以在嘈雜環(huán)境中用于這些發(fā)音,具有極大的成功和對于移動用戶的易理解性。在一些實(shí)施例中,與合適的文本到語音引擎(例如Accapela)結(jié)合的鍵盤接口可以被用來使系統(tǒng)更加可訪問。非特定語者人名撥號(SIND)和語音命令也可用來使能語音驅(qū)動接口。經(jīng)由例如Nokia視頻連通性電纜(CA-75U)或無線LAN/UpnP到兼容的TV的直接連接可以使能數(shù)字放大器應(yīng)用。在本系統(tǒng)的一些實(shí)施例中使用的識別應(yīng)用124將允許在訓(xùn)練過程期間通過遠(yuǎn)程助理的相當(dāng)大量的控制。這樣的控制包含例如以下特征例如在訓(xùn)練期間選擇移動相機(jī)的分辨率的遠(yuǎn)程能力、擦除檢測到的特征的能力、通告有關(guān)檢測到和識別出的對象的范圍和方向信息的能力、以及使用一種語調(diào)快速地念出之前檢測到的對象不再在視野中的能力。該系統(tǒng)還配置為通知移動用戶關(guān)于光的條件,以及允許遠(yuǎn)程助理控制在大多數(shù)相機(jī)使能的便攜式通信設(shè)備上可獲得的照明特征,例如諸如發(fā)光二極管(LED)相機(jī)閃光燈或“手電筒”應(yīng)用。由于一個或多個能看見的助理的遠(yuǎn)程訓(xùn)練很可能是配置系統(tǒng)用于由便攜式通信設(shè)備110的視覺受損的移動用戶的獨(dú)立使用的手段,因此訓(xùn)練數(shù)據(jù)庫的同步是重要的。加元標(biāo)簽(meta-tagging)的方法允許每個數(shù)據(jù)庫條目具有圖像的多個實(shí)例,每個具有用于訓(xùn)練的范圍輸入。因此,可能擴(kuò)展系統(tǒng)的范圍,并且與其它情況相比,從各個距離處的對象得到更準(zhǔn)確的范圍估計(jì)。高分辨率圖像可以被用于識別在更大距離處的更小的對象。市場上現(xiàn)在有5兆像素相機(jī)便攜式通信設(shè)備,如果用戶可以等待傳輸數(shù)據(jù),則該便攜式通信設(shè)備將允許從更遠(yuǎn)距離處檢測和識別對象。用于家中使用的Wi-Fi配置可以使這種模式更加實(shí)際。圖3示出根據(jù)本發(fā)明的一個實(shí)施例的在其上捕獲了由圖I中的識別應(yīng)用124產(chǎn)生的示例顯示的可視框(visual frame),其包括適合由具有基本電腦技能的遠(yuǎn)程助理使用的可訪問的用戶界面。界面324可以被認(rèn)為是能看見的助理界面?;诎聪码p觸按鍵,移動用戶可以利用音頻和單向視頻連接連接到遠(yuǎn)程助理,允許該遠(yuǎn)程助理充當(dāng)遠(yuǎn)程攝影師來訓(xùn)練該系統(tǒng)。例如,遠(yuǎn)程助理首先可以使用在小觀看窗口 322中的來自便攜式通信設(shè)備110的實(shí)況視頻,以音頻命令指導(dǎo)便攜式通信設(shè)備110的移動用戶使感興趣的對象進(jìn)入到視野中。一旦感興趣的對象在全視野(full view)中,遠(yuǎn)程助理可以按下捕獲圖像按鍵323a或323b之一以記錄視頻的幀,或者請求高分辨率的圖像,例如捕獲的視覺圖像325。然后遠(yuǎn)程助理可以在文本描述域328中輸入對象ID,其可以在系統(tǒng)處于識別模式中時念出該對象。本發(fā)明的一些實(shí)施例實(shí)現(xiàn)例如諸如SIFTS的對象識別算法,其與在移動機(jī)器人中使用以支持導(dǎo)航定位、映射以及視覺伺服的那些類似。通常,對象識別算法在被應(yīng)用到平面的、有紋理的對象時表現(xiàn)最佳。該算法還可靠地識別由平坦的、有紋理的結(jié)構(gòu)構(gòu)成的三維對象,或由略微彎曲的成分構(gòu)成的那些。對象識別算法的優(yōu)點(diǎn)在于其可以提供在光照條件、遮蔽(occlusions)和方向劇烈變化的現(xiàn)實(shí)環(huán)境中的可靠識別。然而,諸如人臉的三維可變形對象通常并不是以健壯(robust)的方式來處理。很多對象識別算法能夠在一對一驗(yàn)證場景和在小數(shù)據(jù)庫中實(shí)現(xiàn)高識別性能。這樣的一對一場景還更容易地允許多個圖像被用于匹配和作為訓(xùn)練集,允許系統(tǒng)相對于對象的 光照和方向的變化變得更加健壯。然而,在試圖識別例如受到遮蔽的對象時,當(dāng)與非常大的數(shù)據(jù)庫比較、且當(dāng)數(shù)據(jù)庫包括非常例如類似的對象(例如,無糖可樂瓶和經(jīng)典可樂瓶)時,那些同樣的算法會降至大約80%到95%的識別率。本發(fā)明概念包含對上述缺陷的多種補(bǔ)救方法。一種這樣的補(bǔ)救方法包括圖像處理算法的集成,諸如例如將對象識別算法與OCR融合。無糖可樂和經(jīng)典可樂之間的區(qū)分、或建筑物或街道標(biāo)牌的識別展示可能具有與其它對象非常相似的圖案,或者對于對象識別算法可能不表現(xiàn)出足夠的區(qū)別特征的對象。很多忍受類似性問題或缺乏足夠的區(qū)別特征的對象將包括文本。因此,以上描述的很多挑戰(zhàn)可以使用各種融合策略來解決。OCR典型地要求橫過要讀取的文本的大約3兆像素圖像或大約100_200dpi。本系統(tǒng)可以配置為用于實(shí)況視頻模式以支持對象識別,并且自動切換到3兆像素圖像捕獲模式以獲取用于OCR的所要求的分辨率??梢曰诶缁诠烙?jì)的對象識別的范圍測量來調(diào)整便攜式通信設(shè)備相機(jī)的數(shù)字變焦。除了使用OCR用于讀取各種對象標(biāo)簽上的文本,可以使用UPC條形碼作為另一種驗(yàn)證手段。可以在實(shí)況視頻分析模式時檢測出產(chǎn)品上的條形碼,然后系統(tǒng)可以切換到靜態(tài)圖像模式以捕獲較高分辨率的靜態(tài)圖像。高分辨率的靜態(tài)圖像可以使能UPC條形碼的讀取,用于對于UPC數(shù)據(jù)庫進(jìn)行驗(yàn)證。此外,在一對一驗(yàn)證場景中,使用多個圖像用于訓(xùn)練是可行的,由此使能橫過光照條件和/或方向的范圍的對象識別。對于某一固定建造的對象,諸如例如建筑物入口,有可能在一天的不同時間從不同的方向捕獲訓(xùn)練圖像,代表能遇到的不一樣但是可重復(fù)的光照條件。還應(yīng)當(dāng)注意,基于焦點(diǎn)組交互,即使識別率低于90%也能對視覺受損的移動用戶有重要的價值。人類具有大約135x200度的視野,但是典型的緊湊相機(jī)只具有35x50度的視野。因此,本發(fā)明的實(shí)施例包括從實(shí)況視頻或較高分辨率的圖像提供自動全景產(chǎn)生的特征,可以對諸如遠(yuǎn)程助理的遠(yuǎn)程客戶端-服務(wù)器主機(jī)設(shè)備用戶具有重要的價值。例如,全景特征可以被用于克服對于遠(yuǎn)程助理的隧道視覺問題,以及用于克服對于視覺受損的移動用戶的由于相機(jī)指向(pointing)問題造成的標(biāo)識檢測和識別的圖像裁剪問題。用于產(chǎn)生全景的一種方案使用自動-縫合(stitch)技術(shù),該技術(shù)目前通過使用普通的相機(jī)捕獲大量圖像并且將各個圖像縫合到一起形成具有大得多的視野(例如高達(dá)360度的視野)的合成圖像而起作用。自動縫合的結(jié)果可以被視作允許移動用戶或遠(yuǎn)程助理從任何方向看的計(jì)算機(jī)圖形模型??商鎿Q地,圖像可以映射到球體或圓柱形的表面以給出360度照片。在本發(fā)明的一 些實(shí)施例中,客戶端-服務(wù)器主機(jī)設(shè)備識別應(yīng)用124配置為以例如大約5fps、大約8fps或大約IOfps的速率接收無損視頻巾貞。那些視頻巾貞可以預(yù)期是適當(dāng)次序的。因此,可以實(shí)現(xiàn)配置用來進(jìn)行圖像配準(zhǔn)(imageregistration)的自動-縫合軟件模型,以按實(shí)況圖像序列被接收的樣子處理所述實(shí)況圖像序列。至少一個自動-縫合實(shí)現(xiàn)允許離散的場景改變?yōu)楸蛔R別為新的全景。本發(fā)明的實(shí)施例中包括的客戶端-服務(wù)器主機(jī)設(shè)備識別應(yīng)用124的一些版本可以配置為當(dāng)檢測到這樣的場景改變時自動初始化新的全景。此外,可以允許遠(yuǎn)程助理例如手動地或基于移動用戶的位置在全景之間來回導(dǎo)航。圖像的SIFT配準(zhǔn)比多-帶混合耗時少。因此,在一些實(shí)施例中,首先顯示未混合的結(jié)果和不完整的全景、然后當(dāng)額外的圖像到達(dá)時對它們進(jìn)行填充被證明是有利的。例如,可通過SIFT配準(zhǔn)模型分析實(shí)況視頻數(shù)據(jù),提供可以在系統(tǒng)認(rèn)為便攜式通信設(shè)備相機(jī)所指向的全景部分之上顯示的圖形重疊?;趤碜阅芸匆姷闹淼倪h(yuǎn)程請求、或響應(yīng)于識別感興趣的區(qū)域的位置的自動圖像剖析,本系統(tǒng)可以拍攝全景的任何部分的較高分辨率的圖像??梢允褂梅謱泳幋a以允許對于感興趣的區(qū)域發(fā)送較高分辨率圖像的額外的層,減少系統(tǒng)的數(shù)據(jù)傳輸簡檔(profile)。圖像分析算法已經(jīng)在使用SIFT方法可靠地識別位置具體特征和確定基于圖像的地標(biāo)的方向和距離中示出巨大的希望。SIFT方法可以用于使局部不變的特征相關(guān),以在任意的旋轉(zhuǎn)、縮放、亮度和對比度改變及其它變換下有效地匹配雜亂圖像的小的部分。圖像典型地分割為小的重疊部分,每個重疊部分以對可能的變換不變的方式描述。然后,每個部分可以被單獨(dú)地匹配,且匹配片重新集合??梢砸孕∮贗秒執(zhí)行描述的處理序列,即使在將圖像與大數(shù)據(jù)庫匹配時。SIFT算法還可應(yīng)用于室內(nèi)設(shè)置中移動用戶的全球定位問題。例如,可以隨時間在數(shù)據(jù)庫中捕獲SIFT地標(biāo),導(dǎo)致產(chǎn)生環(huán)境的3D地圖,允許系統(tǒng)使用3D地標(biāo)用于定位。可以使用測距法來減少對3D全球定位結(jié)果的搜索,但是系統(tǒng)完全能夠獨(dú)自找到基于位置的SIFT特征。關(guān)于本系統(tǒng)的實(shí)施例,發(fā)明人設(shè)想視覺受損的移動用戶可能需要作為驗(yàn)證手段來沿著他們意欲的路線訪問地標(biāo),或者他們可能需要識別和定位終點(diǎn)目的地??梢允褂梅浅O∈璧牡貓D來滿足那些需要。此外,通過實(shí)現(xiàn)諸如例如路線限制、大致GPS位置的估計(jì)、或可從無線網(wǎng)絡(luò)獲得的基于位置服務(wù)(LBS)的成流線型技術(shù),可以減少相關(guān)地標(biāo)數(shù)據(jù)庫的搜索空間,消除對里程計(jì)的需要。此外,2D地圖對某些視覺受損的移動用戶應(yīng)用可以是足夠的。例如,地標(biāo)可以用允許2D地圖和定位的GIS數(shù)據(jù)來貼標(biāo)簽。可替換地,這樣的地標(biāo)可以與GIS數(shù)據(jù)庫不相關(guān),而是相對于路線地標(biāo)和目的地的ID表示報告行進(jìn)。SIFT地標(biāo)即使沒有用GIS數(shù)據(jù)來貼標(biāo)簽,也可以提供例如對于到街區(qū)上的房屋的終端導(dǎo)引有用的相關(guān)范圍和方向信息。SIFT特征相對于噪音和遮蔽最為健壯,但是也有特別容易受到光照、反射的變化莫測的影響的地標(biāo),或否則缺乏足夠的SIFT特征而不獨(dú)特的地標(biāo)。在那些實(shí)例中,可以使用文本標(biāo)牌檢測和OCR來擴(kuò)增地標(biāo)或場景識別。
如之前提到的,文本和標(biāo)牌識別是本發(fā)明的一些實(shí)施例的特征。然而,對于視覺受損的移動用戶,不加區(qū)別的自動的文本或標(biāo)牌識別產(chǎn)生了信息過載的重大風(fēng)險。與可以阻擋不相關(guān)的視覺圖像以集中在與他們的需要或興趣一致的文本或標(biāo)牌上的能看見的用戶不同,視覺受損的用戶不能進(jìn)行這樣的初始區(qū)分。因此,本系統(tǒng)的實(shí)施例包括對標(biāo)牌的“根據(jù)請求的(on demand)”識別以及某些導(dǎo)航幫助和安全特征,例如諸如信號燈和人行道激活按鍵。由于環(huán)境條件的相當(dāng)大的可變性以及“根據(jù)請求的”文本自身的特征的可變性,因此在自然設(shè)置中自動檢測并且讀取“根據(jù)請求的”特征在傳統(tǒng)上是很困難的。本系統(tǒng)的實(shí)施例包括使用強(qiáng)分類符的可調(diào)級聯(lián)實(shí)現(xiàn)的“根據(jù)請求的”識別功能,并且用視頻流實(shí)時操作,且在高分辨率靜態(tài)圖像上具有非常高的準(zhǔn)確度。例如,實(shí)時分析160x120,320x240或640x480的視頻流的客戶端-服務(wù)器主機(jī)設(shè)備識別應(yīng)用124可以將可能的感興趣的文本區(qū)域擴(kuò)展到超出初始檢測到的區(qū)域,然后初始化I兆像素或更高分辨率的靜止捕獲和傳輸,其可被用于OCR或其它增強(qiáng)的檢測和識別算法。在其中感興趣的文本區(qū)域擴(kuò)展超出圖像的邊界的情況下,檢測器應(yīng)該向移動用戶·提供方向性掃描指導(dǎo),允許另一個高分辨率圖像被捕獲和傳輸?shù)娇蛻舳?服務(wù)器主機(jī)設(shè)備識別應(yīng)用124且縫合到相鄰區(qū)域的圖像,由此克服無意地裁剪的圖像的問題。這種方法的一個目的在于使能對于視覺受損的移動用戶的自動系統(tǒng)輔助,以幫助確保掃描適當(dāng)?shù)母信d趣區(qū)域并且沒有向OCR引擎提交不完整的(例如,過度裁剪的)文本區(qū)域。為此,可以將客戶端-服務(wù)器主機(jī)設(shè)備識別應(yīng)用124配置為確定感興趣的文本標(biāo)識的方向,并為移動用戶提供指導(dǎo)以改變他們相對于標(biāo)識或文本區(qū)域的位置。此外,客戶端-服務(wù)器主機(jī)設(shè)備識別應(yīng)用124可以確定成功識別文本區(qū)域、遠(yuǎn)處的地標(biāo)或標(biāo)識所需的最低分辨率圖像??梢砸苑謱拥姆绞骄幋a這樣的感興趣的區(qū)域,以允許通過例如基于客戶端-服務(wù)器主機(jī)設(shè)備的遠(yuǎn)程助理的更快的遞增的分辨率增強(qiáng)。隨后可以將這些感興趣的區(qū)域二進(jìn)制化并傳遞到準(zhǔn)備好的OCR引擎(諸如例如ABBYY商業(yè)引擎)??梢苑治鼋Y(jié)果以確保他們構(gòu)成了完整的單詞或詞組,并且沒有意義的結(jié)果可以這樣被識別出并被丟棄。注意,將需要訓(xùn)練和測試數(shù)據(jù)用于“根據(jù)請求的”文本和標(biāo)牌識別。該訓(xùn)練數(shù)據(jù)可以包括收集的代理(proxy)的數(shù)據(jù)集、模擬視頻流和圖像、以及示例的縫合的全景,并且可包括視頻、圖像和/或全景的手動標(biāo)記用于期望的文本區(qū)域的識別。訓(xùn)練可以包括例如用于大訓(xùn)練集的組合的主動學(xué)習(xí),并且可以使用額外的界面以允許基于PC/上網(wǎng)本的遠(yuǎn)程助理與移動用戶合作來捕獲并標(biāo)記數(shù)據(jù)。在一個實(shí)施例中,可以以C++來實(shí)現(xiàn),對性能優(yōu)化。在本發(fā)明的一些實(shí)施例中實(shí)現(xiàn)的識別算法通過將高分辨率兆像素圖像分割為碎片并以不同的比例尺分析它們,來對高分辨率兆像素圖像進(jìn)行工作。因此,那些實(shí)施例被配置為處理實(shí)況視頻流分辨率和較高的兆像素分辨率兩者。以下概述本發(fā)明的系統(tǒng)的實(shí)施例的一些特征、性能能力和優(yōu)點(diǎn)。本系統(tǒng)的實(shí)施例支持從相機(jī)使能的便攜式通信設(shè)備110 (例如,智能電話,PDA)到遠(yuǎn)程客戶端-服務(wù)器主機(jī)設(shè)備120的30fps的160x120、15fps的320x240以及5fps的640x480的視頻傳輸速率??梢砸韵率鏊俾手С掷缃?jīng)由Wi-Fi的到客戶端-服務(wù)器主機(jī)設(shè)備120的高分辨率圖像傳輸假設(shè)3. 5G移動網(wǎng)絡(luò)上400kbps的上行帶寬,所述速率對應(yīng)于I兆像素以小于約2秒傳輸,并且5兆像素以小于約8秒。此外,在自動全景創(chuàng)建模式中,傳輸速率可以對應(yīng)于I兆像素大約36秒,并且5兆像素大約3分鐘?;趯?shí)況視頻I兆以上像素全景的近乎實(shí)時的低分辨率全景創(chuàng)建可以在3. 5G網(wǎng)絡(luò)上以從僅僅是大約2秒到幾分鐘的范圍的時間間隔來產(chǎn)生。從實(shí)況、低分辨率全景到I兆以上像素全景的轉(zhuǎn)變可以作為背景操作逐漸地進(jìn)行,隨著時間向自動的視力增強(qiáng)系統(tǒng)或基于客戶端-服務(wù)器主機(jī)設(shè)備的遠(yuǎn)程助理提供對提高的分辨率的獲取(access)。對于自動的模式,系統(tǒng)可以配置為使得只有感興趣的區(qū)域才會基于實(shí)況全景的先前的SIFT算法分析而被提取和傳輸。例如,本發(fā)明的實(shí)施例可以配置為使用1.5GHzPentium處理器用于相對于數(shù)百個條目的數(shù)據(jù)集的SIFT分析,以獲得20fps的160x120、IOfps的320x240和5fps的640x480。對于遠(yuǎn)處的對象,需要更高的分辨率,這將取決于地標(biāo)的范圍而使系統(tǒng)執(zhí)行變慢。可以以大約2到15fps的檢測速率和大約I到2fps的識別速率,基于實(shí)況視頻圖像進(jìn)行文本和標(biāo)牌檢測??梢砸源蠹sI到15fps的速率從PC/上網(wǎng)本向便攜式通信設(shè)備發(fā)送感興趣區(qū)域命令。可以在Wi-Fi上以大約2秒或在3. 5G網(wǎng)絡(luò)上以大約36秒進(jìn)行I兆像素圖像的捕獲和傳輸。感興趣的兆像素區(qū)域裁剪可以導(dǎo)致數(shù)據(jù)大小和傳輸速度的5到10倍(fold)的提高。OCR可以以大約I到2秒進(jìn)行,加上執(zhí)行標(biāo)識內(nèi)·容的文本到語音的發(fā)音所需要的時間。假定如上所述的系統(tǒng)視頻傳輸和后端圖像識別速度,接近的地標(biāo)和對象的SIFT特征即使在低分辨率也可以被識別,且因此可以被實(shí)時識別。SIFT可以既識別地標(biāo)也確定其范圍和方向。本發(fā)明的實(shí)施例中實(shí)現(xiàn)的訓(xùn)練數(shù)據(jù)集可以配置為使用多個范圍和方向表示地標(biāo)。然而,遠(yuǎn)處的對象會要求較高分辨率的圖像且會缺少壓縮偽像。因此,那些遠(yuǎn)處的對象通常在3. 5G移動網(wǎng)絡(luò)上傳輸較慢。給定移動用戶遇到的典型的距離和文本大小,文本標(biāo)牌的成功的OCR幾乎總是將要求兆像素圖像分辨率??蛻舳?服務(wù)器主機(jī)設(shè)備配置可以通過使能使用從便攜式通信設(shè)備到客戶端-服務(wù)器主機(jī)設(shè)備識別應(yīng)用124的Wi-Fi連接來克服移動網(wǎng)絡(luò)延遲,但是其它方法可以用于智能多-分辨率視頻和場景捕獲、編碼和傳輸,以加速(speed)識別和在3. 5G移動網(wǎng)絡(luò)上的數(shù)據(jù)傳輸。如上所述,可以由便攜式通信設(shè)備提供各種分辨率的實(shí)時視頻。可以由自動視力增強(qiáng)系統(tǒng)、由基于客戶端-服務(wù)器主機(jī)設(shè)備的遠(yuǎn)程助理、或由移動用戶或便攜式通信設(shè)備110分別請求實(shí)時視頻。便攜式通信設(shè)備的移動用戶、基于客戶端-服務(wù)器主機(jī)設(shè)備(例如,PC/上網(wǎng)本)的遠(yuǎn)程助理、或視力增強(qiáng)系統(tǒng)也可以啟動全景創(chuàng)建,全景創(chuàng)建可以顯示實(shí)況視頻以及單獨(dú)地使用之前描述的SIFT自動-縫合方法開始在全景中進(jìn)行貼片(tile)。可以調(diào)整實(shí)況視頻的位置/視角,使得其相對于其周圍的全景保持位于中心。自動縫合SIFT匹配和配準(zhǔn)階段通常不要求大量的處理時間,且假設(shè)視頻圖像在從便攜式通信設(shè)備接收到時可以是被排序的,在客戶端-服務(wù)器主機(jī)設(shè)備120上,全景創(chuàng)建可以是近乎實(shí)時的。混合和顏色校正會耗時較長且通常將在背景中發(fā)生。在移動用戶或基于客戶端-服務(wù)器主機(jī)設(shè)備的遠(yuǎn)程助理選擇高分辨率(例如,兆像素)的全景時,系統(tǒng)可被配置為顯示實(shí)況視頻全景,同時指導(dǎo)移動用戶掃描他們的周圍,在該掃描期間捕獲在選擇的點(diǎn)處的移動用戶或基于客戶端服務(wù)器設(shè)備的助理的選擇的高分辨率圖像。這些高分辨率圖像可以以金字塔(pyramid)方式編碼,從而可以在背景中發(fā)送附加的流,由此針對基于客戶端-服務(wù)器主機(jī)設(shè)備的遠(yuǎn)程助理使能分辨率的逐漸增強(qiáng)。在自動視力增強(qiáng)模式中,可以使用例如識別數(shù)據(jù)庫126/136和為圖像剖析訓(xùn)練的檢測器以及用于接近地標(biāo)識別的同樣的低分辨率SIFT方法在遠(yuǎn)離便攜式通信設(shè)備110的移動用戶的客戶端-服務(wù)器主機(jī)設(shè)備120上實(shí)時分析這些實(shí)況視頻。該分析的結(jié)果可被用來確定可以以可獲得的分辨率實(shí)時識別出的地標(biāo),同時文本標(biāo)牌檢測器還可以在感興趣的文本區(qū)域在視野中時實(shí)時提示用戶。該移動用戶隨后可以被文本檢測器提示以調(diào)整便攜式通信設(shè)備相機(jī)的目標(biāo)(aim),并且視力增強(qiáng)系統(tǒng)可從被確定為最可能避免截?cái)嗟臉?biāo)識或地標(biāo)的視角拍攝高分辨率圖像。各種感興趣區(qū)域擴(kuò)展策略可以被用于基于實(shí)況視頻的分析和構(gòu)造的全景向移動用戶提供相機(jī)瞄準(zhǔn)提示。隨后該移動用戶可被訓(xùn)練以穩(wěn)定地握住便攜式通信設(shè)備相機(jī)用于視力增強(qiáng)系統(tǒng)拍攝兆像素圖像。這些高分辨率圖像可再次以金字塔的方式編碼,從而附加的流可以在背景中發(fā)送并被處理以逐漸增強(qiáng)分辨率用于OCR識別后端。在一些實(shí)施例中,可以使用較低分辨率的檢測器來確定識別所識別出的感興趣的區(qū)域所需的最可能的分辨率。然而,根據(jù)移動用戶和/或基于客戶端-服務(wù)器主機(jī)設(shè)備的遠(yuǎn)程助理,自動缺省設(shè)置可被覆蓋,使得用戶能夠選擇適合于他們選擇的觀看距離的分辨率。
圖4示出根據(jù)本發(fā)明的一個實(shí)施例的、所描述的視力增強(qiáng)系統(tǒng)的功能性概述。視力增強(qiáng)系統(tǒng)400包括由便攜式通信設(shè)備410提供的功能、由客戶端-服務(wù)器主機(jī)設(shè)備420提供的功能、以及那些系統(tǒng)節(jié)點(diǎn)之間的相互關(guān)系。返回參考圖1,由圖4中的便攜式通信設(shè)備410和客戶端-服務(wù)器主機(jī)設(shè)備420提供的功能可以被視為分別對應(yīng)于圖I中的便攜式通信設(shè)備110上的識別應(yīng)用114的無線版本和客戶端-服務(wù)器主機(jī)設(shè)備120上的識別應(yīng)用124的操作。以上概括的方法被設(shè)計(jì)為對應(yīng)于人的周邊視覺和中央視覺,并且因此使能用于視覺受損的那些神經(jīng)生理學(xué)(neurophysiological)系統(tǒng)的擴(kuò)增。例如,所描述的低分辨率實(shí)況視頻分析可以被視為對應(yīng)于能看見的人士使用周邊視覺辨認(rèn)出大致形狀和地標(biāo)的能力,而需要較高敏銳度的中央視覺來讀取和識別具有細(xì)微的細(xì)節(jié)的文本、遠(yuǎn)處的對象或區(qū)域。在本發(fā)明的實(shí)施例中,可以在將資源交給更耗時的高分別率識別之前使用實(shí)況視頻或低分辨率全景進(jìn)行感興趣區(qū)域的檢測。根據(jù)本發(fā)明的一些實(shí)施例,可以實(shí)現(xiàn)空間和時間分層的視頻和靜止圖像編碼和解碼,以增強(qiáng)例如諸如H263+視頻編碼解碼器的視頻編碼解碼器的性能??梢詫?shí)現(xiàn)金字塔方式編碼的逐行分辨率算法,以便最佳地支持寬帶和撥號連接的不用種類的混合。在點(diǎn)對點(diǎn)(point-to-point)設(shè)置中,例如,可以連續(xù)地調(diào)整媒體傳輸速率,以最佳地使用點(diǎn)對點(diǎn)路徑上可獲得的能力。該方法允許系統(tǒng)傳遞最佳用戶體驗(yàn),而不會有對共享該路徑的其它通信量的過分的影響。當(dāng)存在多個接收者時,幾乎可以肯定在任意給定的時刻每個接收者可以接收的數(shù)據(jù)量將變化。這可能是由于在較大群體會議設(shè)置中的寬帶對撥號用戶的不同種類混合導(dǎo)致的,或僅僅是由于網(wǎng)絡(luò)擁塞和/或延遲導(dǎo)致的。如果發(fā)送者要將相同的數(shù)據(jù)發(fā)送給所有客戶端節(jié)點(diǎn),則該發(fā)送者通常必須在以下兩者中做出選擇以最低能力接收節(jié)點(diǎn)作為目標(biāo),由此使配備較好的接收者的體驗(yàn)降低;或在知道到較低配備的接收者的路徑將很可能過載的情況下以較高速率發(fā)送。為了解決這一問題,本發(fā)明的實(shí)施例配置為在多個層中編碼視頻,其可以被有選擇地轉(zhuǎn)發(fā)以產(chǎn)生不同速率的數(shù)據(jù)流,同時保持解碼的視頻的完整性。這樣的分層可以通過對H. 263+編碼解碼器的修改來獲得,該修改允許從單個流中選擇不同幀速率。本方法被配置為支持在大約6比1(6:1)比率(例如,如果視頻以60kbps編碼,則其可以以從IOkbps到60kbps的范圍的數(shù)據(jù)率向接收者提供)內(nèi)變化的數(shù)據(jù)率。因此,不同的接收者可以以不同的幀速率接收具有相同的空間質(zhì)量的視頻。還可以實(shí)現(xiàn)類似的編碼機(jī)制以支持不同的空間層。因此,例如,一個接收者可以以160x120的分辨率接收視頻,而另一個接收允許320x240分辨率的額外的增強(qiáng)層。本發(fā)明的實(shí)施例包括新的復(fù)制和轉(zhuǎn)發(fā)協(xié)議(RFP),其提供了路由能力的幾個顯著的發(fā)展。在通過例如因特網(wǎng)對中央主機(jī)服務(wù)器的并發(fā)訪問是得不到的或不期望的情況下分布式處理和對PC/上網(wǎng)本客戶端-服務(wù)器資源的訪問需要使能自包含的群,其中視頻和圖像可以例如諸如在無線LAN上在設(shè)備之間傳輸。為完成此,使用P2P媒體傳輸?shù)淖园目蛻舳?服務(wù)器架構(gòu)可以被有效地使用,以便(I)獨(dú)立地對待每個媒體資源,使得對于群的不同成員可在網(wǎng)絡(luò)中的不同點(diǎn)處產(chǎn)生數(shù)據(jù)復(fù)制,以及(2)使能數(shù)據(jù)復(fù)制的多個點(diǎn)的級聯(lián),以創(chuàng)建可變深度的分布樹。 利用上述的兩個發(fā)展,本系統(tǒng)架構(gòu)的一個實(shí)施例配置為使得每個媒體發(fā)源(origination)節(jié)點(diǎn)與復(fù)制和轉(zhuǎn)發(fā)節(jié)點(diǎn)位于同一地點(diǎn)。事實(shí)上,每個客戶端(例如,移動客戶端或PC/上網(wǎng)本客戶端-服務(wù)器)可以對于在客戶端產(chǎn)生的媒體充當(dāng)媒體分布服務(wù)器。該方法以下述的方式支持對稱的P2P分布模型每當(dāng)這樣的復(fù)制的可替換點(diǎn)經(jīng)由分布的路由樹變得可用,數(shù)據(jù)復(fù)制的點(diǎn)就可以容易地從發(fā)源源節(jié)點(diǎn)離開。除了這些路由能力的改變,系統(tǒng)RFP的實(shí)施例被設(shè)計(jì)為支持在現(xiàn)實(shí)世界部署中必需的傳輸層服務(wù)。那些可以包括逐跳流控制/擁塞避免,以確保例如沒有以比下行流節(jié)點(diǎn)可以成功接收更高的速率向該下行流節(jié)點(diǎn)發(fā)送數(shù)據(jù)。此外,系統(tǒng)RFP的實(shí)施例包括用于必須可靠地傳遞的數(shù)據(jù)的確認(rèn)和重新發(fā)送的設(shè)施,而無需要求從發(fā)源源節(jié)點(diǎn)重新發(fā)送。因此,本系統(tǒng)RFP的實(shí)施例可以被看做傳統(tǒng)應(yīng)用級分布式服務(wù)器和網(wǎng)絡(luò)級多播解決方案的混合。類似IP多播,公開的RFP可以允許創(chuàng)建具有任意數(shù)目的復(fù)制點(diǎn)的分布樹。然而與IP多播不同的是,公開的RFP還可以解決在I對任意N的路由的上下文環(huán)境中難以解決的關(guān)鍵傳輸層問題。利用目前部署和測試的基本的傳輸能力,本發(fā)明人在這里公開使用位于媒體發(fā)源客戶端(例如,源節(jié)點(diǎn))之外的RFP節(jié)點(diǎn)的分布方案的三個額外的實(shí)施例。一個這樣的實(shí)施例的特征可以在于“會議服務(wù)器”模型,其中具有高速網(wǎng)絡(luò)連接的位于中心的RFP節(jié)點(diǎn)對于星型拓?fù)渲械臅h群的所有成員提供復(fù)制。第二實(shí)施例的特征可以在于“本地代理/高速緩存”模型,其中位于接收者群附近的專用RFP節(jié)點(diǎn)向去往該群的所有媒體提供復(fù)制服務(wù)。例如,位于校園或在LAN上的RFP節(jié)點(diǎn)可以向所有本地接收者提供復(fù)制服務(wù)。第三實(shí)施例采用動態(tài)P2P模型的形式,其中端用戶對于接收同樣流的其他客戶端執(zhí)行復(fù)制和轉(zhuǎn)發(fā)服務(wù)。圖5示出根據(jù)本發(fā)明的一個實(shí)施例的、描述提供實(shí)時對象識別和增強(qiáng)的視力的方法的步驟的流程圖500。已經(jīng)從流程圖500略去了對本領(lǐng)域的普通技術(shù)人員顯而易見的某些細(xì)節(jié)和特征。例如,如現(xiàn)有技術(shù)中已知的,一個步驟可以包括一個或多個子步驟或可以涉及專門的裝備或材料。盡管流程圖500中指示的步驟510到550足以描述本方法的一個實(shí)施例,但其它實(shí)施例可以使用與流程圖500中所示的那些不同的步驟,或可包括更多或更少的步驟。結(jié)合圖I參照流程圖500的步驟510,步驟510包括通過包括相機(jī)的便攜式通信設(shè)備捕獲對象的視覺圖像。可以使用包括相機(jī)112的便攜式通信設(shè)備110執(zhí)行步驟510。作為具體的實(shí)施例,讓我們考慮便攜式通信設(shè)備110為包括能夠捕獲高分辨率圖像的攝像機(jī)的智能電話。在該例中,步驟510可以對應(yīng)于智能電話的用戶使用高分辨率攝像機(jī)拍攝視頻。流程圖500的方法繼續(xù)到步驟520,其包括將視覺圖像經(jīng)由網(wǎng)絡(luò)發(fā)送給至少一個客戶端-服務(wù)器主機(jī)設(shè)備。步驟520可以通過便攜式通信設(shè)備110使用網(wǎng)絡(luò)通信鏈路102發(fā)送捕獲的視覺圖像到客戶端-服務(wù)器主機(jī)設(shè)備120來執(zhí)行。在一些實(shí)施例中,如例如由圖2所示,便攜式通信設(shè)備110可以例如經(jīng)由P2P網(wǎng)絡(luò)鏈接到多個客戶端-服務(wù)器主機(jī)設(shè)備?,F(xiàn)在參考圖5中的步驟530,流程圖500的步驟530包括使用客戶端-服務(wù)器主機(jī)設(shè)備上的識別應(yīng)用處理視覺圖像來產(chǎn)生對象識別數(shù)據(jù)。在一個實(shí)施例中,可由客戶端-服務(wù)器主機(jī)設(shè)備120上的識別應(yīng)用124執(zhí)行步驟530。此外,參照圖2,在一個實(shí)施例中,每 一個都運(yùn)行識別應(yīng)用124的多個客戶端-服務(wù)器主機(jī)設(shè)備220可充當(dāng)用于步驟530中執(zhí)行的處理的分布式計(jì)算平臺??商鎿Q地,在一個實(shí)施例中,可通過中央主機(jī)服務(wù)器130使用服務(wù)器版識別應(yīng)用134來執(zhí)行該處理。如之前提到的,可以使用SIFT算法、SURF算法和OCR的一個或多個來執(zhí)行步驟530的處理。前進(jìn)到流程圖500的步驟540,步驟540包括通過便攜式通信設(shè)備經(jīng)由網(wǎng)絡(luò)從至少一個客戶端-服務(wù)器主機(jī)設(shè)備接收對象識別數(shù)據(jù)。如可從圖I看到的,步驟540可對應(yīng)于通過便攜式通信設(shè)備110經(jīng)由網(wǎng)絡(luò)通信鏈路102接收由識別應(yīng)用124產(chǎn)生的對象識別數(shù)據(jù)。在流程圖500的步驟550中,對象實(shí)時地被便攜式通信設(shè)備110的遠(yuǎn)程用戶識別。使用便攜式通信設(shè)備Iio執(zhí)行步驟550。在一個實(shí)施例中,便攜式通信設(shè)備110可包括識別應(yīng)用114的移動版本,其可包括配置為實(shí)時提供對象的發(fā)音語音識別、和/或使能由視覺受損的遠(yuǎn)程用戶使用當(dāng)前方法的界面。在一個實(shí)施例中,視覺圖像包括環(huán)境特征并且識別對象包括位置識別。在后一個實(shí)施例中,本方法還可包括根據(jù)識別的位置向遠(yuǎn)程用戶提供導(dǎo)航信息。在圖6中,類似于參照圖I和圖2描述的系統(tǒng),系統(tǒng)600通過與擴(kuò)增的現(xiàn)實(shí)引擎660的交互向視覺受損的人士 605提供增強(qiáng)的感測能力。擴(kuò)增的現(xiàn)實(shí)引擎660構(gòu)造包括其對象的遠(yuǎn)程環(huán)境635的擴(kuò)增的現(xiàn)實(shí)全景,其經(jīng)由助理界面650直接展現(xiàn)給能看見的助理。不僅使視覺受損的人士 605與擴(kuò)增的現(xiàn)實(shí)全景交互,而是能看見的助理也直接與擴(kuò)增的現(xiàn)實(shí)全景交互,以便如以下討論中所述地輔助視覺受損的人士 605。以下的討論是從能看見的助理的視角來展現(xiàn)的。因此,視覺受損的人士 605和遠(yuǎn)程環(huán)境635被認(rèn)為相對于能看見的助理是遠(yuǎn)程的。術(shù)語“遠(yuǎn)程”被委婉地用來指示能看見的助理與視覺受損的人士 605物理地分開足以使得不能實(shí)行物理幫助的距離(典型地為大于約50米)。例如,視覺受損的人士 605可位于與助理界面650不同的大陸上。因此,能看見的助理可以與視覺受損的人士 605地理上分隔開。視覺受損的人士 605使用移動感測設(shè)備610經(jīng)由一個或多個傳感器來捕獲周圍環(huán)境傳感器數(shù)據(jù)。如之前討論的,移動感測設(shè)備610可以包括智能電話或其它類型的便攜式設(shè)備。其它便攜式設(shè)備的例子可包括眼鏡、專用設(shè)備、或配置為經(jīng)由網(wǎng)絡(luò)615獲取和發(fā)送數(shù)據(jù)的其他計(jì)算設(shè)備。移動感測設(shè)備610包括至少一個能夠獲取傳感器數(shù)據(jù)的傳感器(優(yōu)選地為相機(jī))。移動感測設(shè)備610可以包括其它類型的傳感器,包括加速計(jì)、擴(kuò)音器、磁力計(jì)、生物傳感器、條形碼讀取器、RFID讀取器、里程計(jì)、GPS、收音機(jī)或其它類型的傳感器。在一些實(shí)施例中,傳感器還可以包括一個或多個互連的生物傳感器的個人區(qū)域傳感器網(wǎng)絡(luò),所述生物傳感器配置為獲得有關(guān)視覺受損的人士 605的身體健康的數(shù)據(jù);例如血壓、神經(jīng)活動、心率、體溫、呼吸率、灌注數(shù)據(jù),或其它健康度量。移動感測設(shè)備610從其傳感器中的每一個獲取數(shù)據(jù),并準(zhǔn)備用于經(jīng)由網(wǎng)絡(luò)615傳輸?shù)綌U(kuò)增的現(xiàn)實(shí)引擎660的傳感器數(shù)據(jù)。在一些實(shí)施例中,移動感測設(shè)備610可以配置為經(jīng)由輔助的適配器612而獲得超過其意欲的目的的能力。輔助的適配器612經(jīng)由一個或多個耦接接口(例如,藍(lán)牙或802. 15x、USB、無線 USB、火線(Firewire)、PCIe、Light Peak、RS_232、Zigbee、eSATA、以太網(wǎng)等),有線或無線地與移動感測設(shè)備610耦接。適配器612可以包括不在移動感測設(shè)備610中存在的額外的傳感器。例如,缺少RFID讀取器的iPhone 。適配器612可以包括配置為經(jīng)由USB連接與iPhone耦接的RFID讀取器,其中RFID讀取器可以捕獲無線RFID數(shù)據(jù),例如IDBLUE 讀取器(見URL www. idblue. com)可以話配為與所公開的主題一起使用。此 夕卜,適配器612可以提供其它類型的增強(qiáng)的能力,可能包括寬帶通信(例如,WiMAX、WiGIG、ad-hoc聯(lián)網(wǎng)、UWB、WirelessHD等)、回聲定位能力、觸覺反饋致動器(例如,振動器、盲文界面等)、增強(qiáng)的音頻輸出/輸入(例如立體聲、過濾器等),或其它增強(qiáng)的能力。有可能與適配器612或其它外部傳感器合作的移動感測設(shè)備610優(yōu)選地配置為獲取代表遠(yuǎn)程環(huán)境635的周圍環(huán)境傳感器數(shù)據(jù),或更具體地,當(dāng)前視野(FoV) 630。鑒于移動感測設(shè)備610可以配置為從其傳感器連續(xù)地獲取數(shù)據(jù)而不需要來自視覺受損的人士 605的有指導(dǎo)的動作,傳感器數(shù)據(jù)可以被認(rèn)為是周圍環(huán)境傳感器數(shù)據(jù)。甚至可以逐個傳感器地主動收集或被動收集周圍環(huán)境傳感器數(shù)據(jù)。主動收集的傳感器數(shù)據(jù)被認(rèn)為包括在視覺受損人士 605的命令下或在能看見的助理的命令下收集的數(shù)據(jù)。被動收集的傳感器數(shù)據(jù)包括簡單地在傳感器激活時收集的數(shù)據(jù)。例如,移動感測設(shè)備610可以使所有傳感器在“收集”模式下,在該模式中移動感測設(shè)備610獲得周圍環(huán)境傳感器數(shù)據(jù)而不考慮遠(yuǎn)程環(huán)境635中的情況。代表遠(yuǎn)程環(huán)境635的周圍環(huán)境傳感器數(shù)據(jù)還可以通過除了移動感測設(shè)備610或適配器612之外的其它數(shù)據(jù)源收集。例如,公開地可訪問的實(shí)況相機(jī)源(feed)也可以被訪問,其中擴(kuò)增的現(xiàn)實(shí)引擎660將這樣的“外部”周圍環(huán)境數(shù)據(jù)集成到擴(kuò)增的現(xiàn)實(shí)全景的構(gòu)造中。系統(tǒng)600內(nèi)的其它數(shù)據(jù)源可以包括政府?dāng)?shù)據(jù)庫(例如地理勘察等),軍隊(duì)或私人車輛(例如,無人駕駛飛機(jī)、飛機(jī)、汽車等),市政傳感器(例如警用無線電、實(shí)況公路相機(jī)源、消防站等)、安全機(jī)構(gòu)、衛(wèi)星、Google StreetView 、或公開或私人的周圍環(huán)境傳感器數(shù)據(jù)的其它源。周圍傳感器數(shù)據(jù)經(jīng)由網(wǎng)絡(luò)615發(fā)送到擴(kuò)增的現(xiàn)實(shí)引擎660,其中擴(kuò)增的現(xiàn)實(shí)引擎660可以包括遠(yuǎn)程設(shè)備接口 622、全景引擎620、全景數(shù)據(jù)庫624或?qū)ο笈錅?zhǔn)模塊626。應(yīng)該理解,網(wǎng)絡(luò)615可以包括有線或無線的一個或多個聯(lián)網(wǎng)基礎(chǔ)設(shè)施,包括因特網(wǎng)、蜂窩網(wǎng)絡(luò)、WAN、LAN、VPN、PAN或其它類型的網(wǎng)絡(luò)。遠(yuǎn)程設(shè)備接口 622可以配置為根據(jù)各種期望的方法從移動感測設(shè)備610接收周圍環(huán)境傳感器數(shù)據(jù)。在一些實(shí)施例中,遠(yuǎn)程設(shè)備接口 622可以包括提供移動感測設(shè)備610可訪問的URL或網(wǎng)絡(luò)服務(wù)API的網(wǎng)絡(luò)服務(wù)器。在其它實(shí)施例中,遠(yuǎn)程設(shè)備接口 622可包括支持一個或多個私有協(xié)議的專用通信鏈路。例如,移動感測設(shè)備610可以使安裝的應(yīng)用(例如,圖I的識別應(yīng)用114)被配置為與作為遠(yuǎn)程設(shè)備接口 622 (例如圖I的識別應(yīng)用124或134)操作的補(bǔ)充應(yīng)用直接通信。可能記得,公開的基礎(chǔ)設(shè)施可以以點(diǎn)對點(diǎn)的方式工作(見圖2)。類似地,全景引擎620可以包括經(jīng)由網(wǎng)絡(luò)彼此耦接的多個組件。例如,對等體620A可以代表一個或多個在網(wǎng)絡(luò)615上布置的分離的計(jì)算設(shè)備,可能包括遠(yuǎn)離能看見的助理的、或者甚至相對于視覺受損人士 605本地或遠(yuǎn)程的計(jì)算機(jī)。此外,對等體620A可以或許基于由Google、Salesforce 、Microsoft 、Amazon 或其它服務(wù)提供的基于云的系統(tǒng),跨越云計(jì)算架構(gòu)的一個或多個節(jié)點(diǎn)分布。每個對等體620A至少在一定程度上可提供對在捕獲的周圍環(huán)境傳感器數(shù)據(jù)中的對象識別的支持。例如,一個或多個對象配準(zhǔn)模塊626可以在對等體620A之間分布,其中每個對等體620A如前所述具有不同的對象識別或配準(zhǔn)職責(zé)。例如,通過對等體620A的通信路徑可以構(gòu)造為其中每個對等體620A根據(jù)金字塔編碼/解碼方案(見圖4)以不同的圖像分辨率提供配準(zhǔn)信息。在其它實(shí)施例中,全景引擎620可以代表單個計(jì)算設(shè)備,該計(jì)算設(shè)備作為向遠(yuǎn)程視覺受損的人提供服務(wù)的基于網(wǎng)絡(luò)的服務(wù)器而操作。
全景引擎620從移動感測設(shè)備610獲得周圍環(huán)境傳感器數(shù)據(jù),優(yōu)選地,其中傳感器數(shù)據(jù)包括與當(dāng)前視野(FoV) 630有關(guān)的信息。FoV 630代表針對部分遠(yuǎn)程環(huán)境635的當(dāng)前的數(shù)據(jù)收集。術(shù)語“當(dāng)前”是用來傳達(dá)FoV 630代表遭受延遲的傳感器數(shù)據(jù)的基本實(shí)時的表示的概念。被認(rèn)為落入所述當(dāng)前概念的可接受的延遲可以小于I分鐘,更優(yōu)選地小于10秒,更優(yōu)選地小于I秒,或甚至更優(yōu)選地小于0. 25秒??梢酝ㄟ^從與移動感測設(shè)備610相關(guān)聯(lián)的傳感器獲得的圖像數(shù)據(jù)(例如靜態(tài)的、視頻等)和位置數(shù)據(jù)表示FoV 630。全景引擎620將可能包括方向數(shù)據(jù)的圖像數(shù)據(jù)和位置數(shù)據(jù)轉(zhuǎn)化為呈現(xiàn)的FoV,用于經(jīng)由助理界面650向能見的助理展現(xiàn)。此外,全景引擎620配置為構(gòu)造擴(kuò)增的現(xiàn)實(shí)全景,該擴(kuò)增的現(xiàn)實(shí)全景至少部分基于周圍環(huán)境傳感器數(shù)據(jù)構(gòu)造代表遠(yuǎn)程環(huán)境635及其關(guān)聯(lián)的對象的模型。該擴(kuò)增的現(xiàn)實(shí)全景還可以包括集成的當(dāng)前FoV 630。應(yīng)該理解,如之前討論的,全景引擎620還可將除了視覺數(shù)據(jù)之外其它類型的周圍環(huán)境數(shù)據(jù)并入擴(kuò)增的現(xiàn)實(shí)全景,從而擴(kuò)增的現(xiàn)實(shí)全景可以包括多形態(tài)的數(shù)據(jù)。當(dāng)全景引擎620收集或否則獲取周圍環(huán)境數(shù)據(jù)時,全景引擎620將數(shù)據(jù)縫合在一起以創(chuàng)建包括視覺數(shù)據(jù)、音頻數(shù)據(jù)、觸覺數(shù)據(jù)、動覺數(shù)據(jù)、元數(shù)據(jù)數(shù)據(jù)或其它類型的數(shù)據(jù)的多形態(tài)全景??梢允褂冒ㄗR別對象特征的各種適合的技術(shù)(可能通過SIFT配準(zhǔn))將視覺數(shù)據(jù)縫合在一起以組合圖像。一種可以適配為和本發(fā)明主題一起使用的用于從圖像數(shù)據(jù)構(gòu)造全景的適合的方法包括在Baudish等人于2005年7月28日提交的題為“Real-TimePreview for Panoramic Images” 的美國專利 7424218 中描述的那些。當(dāng)構(gòu)造擴(kuò)增的現(xiàn)實(shí)全景時,全景引擎620還可以將不同類型的數(shù)據(jù)縫合在一起。例如,可以從Google StreetView收集街道的基本圖像,同時可以從自服務(wù)的訂戶使用的一個或多個移動感測設(shè)備610接收的圖像數(shù)據(jù)收集街道中的對象。一些對象可以是永久的(例如,燈柱)而其它對象可以是臨時的(例如左下角的報紙機(jī))。這樣的對象可以和其它數(shù)據(jù)疊加以形成擴(kuò)增的現(xiàn)實(shí)全景。此外,周圍環(huán)境傳感器數(shù)據(jù)中的音頻數(shù)據(jù)可以和對象綁定在一起??紤]駛過的汽車或卡車??梢酝ㄟ^比較由音頻或圖像數(shù)據(jù)(例如位置、方向、大小、形狀、制造、模型等)代表的與對象關(guān)聯(lián)的普通屬性或特征而將來自車輛的聲音綁定到車輛的圖像。
全景引擎620還優(yōu)選地配置為識別遠(yuǎn)程環(huán)境635的傳感器范圍內(nèi)的對象??梢越?jīng)由不同的形態(tài)或形態(tài)的組合來識別對象,所述形態(tài)包括圖像數(shù)據(jù)、音頻數(shù)據(jù)、無線數(shù)據(jù)(例如,Wi-Fi、RFID等)或其它類型的數(shù)據(jù)。例如,可以或許基于在Boncyk等人于2001年11月 5 日提交的題為“Image Capture and Identification System and Process,,的美國專利7016532中描述的技術(shù),通過SIFT特征確定圖像數(shù)據(jù)中的對象。不管如何識別對象,全景對象可以和全景數(shù)據(jù)庫624中的其它全景參數(shù)一起存儲。對象可以作為包括屬性的可管理數(shù)據(jù)對象存儲。屬性可以包括對象特征、名字、元數(shù)據(jù)、時間戳、位置、呈現(xiàn)指示或其它信肩、O應(yīng)該注意,擴(kuò)增的現(xiàn)實(shí)全景可以包括時間信息,或可被認(rèn)為是動態(tài)結(jié)構(gòu)。全景的部分可以包括代表歷史的周圍環(huán)境傳感器數(shù)據(jù)的歷史部分。歷史部分可以在收集當(dāng)前周圍環(huán)境傳感器數(shù)據(jù)時更新。鑒于全景具有歷史內(nèi)容,敏銳的讀者將理解,擴(kuò)增的現(xiàn)實(shí)全景可以被時移以凍結(jié)或者甚至回放遠(yuǎn)程環(huán)境635中視覺受損人士 605的經(jīng)歷,或回放遠(yuǎn)程環(huán)境635的部分??梢詫U(kuò)增的現(xiàn)實(shí)全景作為遠(yuǎn)程環(huán)境635的虛擬“黑盒子”擴(kuò)增的現(xiàn)實(shí)。
如果期望或需要,全景引擎620還可以過濾構(gòu)造的擴(kuò)增的現(xiàn)實(shí)全景中的內(nèi)容。在一些場景中,周圍環(huán)境傳感器數(shù)據(jù)可以被認(rèn)為是私人的而不是公開的。私人數(shù)據(jù)代表被認(rèn)為是在視覺受損人士 605、或其它采用合適的驗(yàn)證、授權(quán)或許可級別的授權(quán)個體的管理或控制下的數(shù)據(jù)。鑒于周圍環(huán)境數(shù)據(jù)可以包括私人數(shù)據(jù),擴(kuò)增的現(xiàn)實(shí)全景可以包括與視覺受損人士 605或其它授權(quán)的能看見的助理關(guān)聯(lián)的個人化全景。如果需要,擴(kuò)增的現(xiàn)實(shí)全景可以包括作為私人傳感器數(shù)據(jù)的函數(shù)的過濾的部分。例如,當(dāng)視覺受損人士 605正在與ATM機(jī)的鍵盤交互時,全景引擎620可以過濾、抖動或否則模糊能看見的助理對鍵盤的可視性。雖然擴(kuò)增的現(xiàn)實(shí)全景被構(gòu)造用于經(jīng)由助理界面650向能看見的助理展現(xiàn),但是擴(kuò)增的現(xiàn)實(shí)全景也可以被認(rèn)為是和視覺受損人士 605共享的擴(kuò)增的現(xiàn)實(shí)全景。全景引擎620可以以指示移動感測設(shè)備610采取合適的動作的設(shè)備命令的形式將對象信息提供回移動感測設(shè)備610。動作可以包括通知視覺受損人士 605接近對象(例如,聽覺或觸覺反饋)、調(diào)整傳感器獲取速率、過濾傳感器數(shù)據(jù)、或否則從全景引擎620控制遠(yuǎn)程移動感測設(shè)備610以展現(xiàn)擴(kuò)增的現(xiàn)實(shí)全景信息。在這樣的場景下,能看見的助理和視覺受損的人士 605兩者共享構(gòu)造的擴(kuò)增的現(xiàn)實(shí)全景。額外的動作還可以包括指示移動感測設(shè)備610與現(xiàn)實(shí)世界的對象(例如,售賣機(jī)、醫(yī)療設(shè)備、亭子、打印機(jī)等)交互。類似于圖3,圖7展現(xiàn)了能看見的助理界面750,通過該界面,全景引擎將構(gòu)造的擴(kuò)增的現(xiàn)實(shí)全景770展現(xiàn)給能看見的助理。在示出的例子中,助理界面750圖示為可能運(yùn)行在臺式計(jì)算機(jī)上的2D桌面應(yīng)用。盡管如此,在其它實(shí)施例中,界面750可以經(jīng)由眼鏡或其它合適的觀看設(shè)備(提供4 π球面度觀看的頭盔或房間)在網(wǎng)頁內(nèi)作為3D界面或其它期望的界面展現(xiàn)在移動設(shè)備上。能看見的助理使用助理界面750以向遠(yuǎn)程視覺受損人士提供自動或手動援助。雖然擴(kuò)增的現(xiàn)實(shí)全景770展現(xiàn)為視覺受損人士目前發(fā)現(xiàn)自身的遠(yuǎn)程環(huán)境的平面的2D圖像,但是應(yīng)當(dāng)理解,擴(kuò)增的現(xiàn)實(shí)全景770代表遠(yuǎn)程環(huán)境的數(shù)字模型且包括該環(huán)境中對象的模型。擴(kuò)增的現(xiàn)實(shí)全景770中展現(xiàn)的對象被認(rèn)為是允許助理如所期望的更新對象信息的交互的對象。此外,如以上間接提到的,擴(kuò)增的現(xiàn)實(shí)全景770可以被認(rèn)為是環(huán)境的3D數(shù)字模型,其還可以包括時間分量。因此,擴(kuò)增的現(xiàn)實(shí)全景770可以被認(rèn)為是遠(yuǎn)程環(huán)境的4D模型。擴(kuò)增的現(xiàn)實(shí)全景770代表從一個或多個周圍環(huán)境數(shù)據(jù)源接收的、縫合在一起的信息。擴(kuò)增的現(xiàn)實(shí)全景770可以包括當(dāng)前、更新的部分以及反映之前接收的周圍環(huán)境傳感器數(shù)據(jù)的歷史部分兩者。優(yōu)選地,擴(kuò)增的現(xiàn)實(shí)全景770包括集成的當(dāng)前FoV 730,其可能如所指示的疊加在擴(kuò)增的現(xiàn)實(shí)全景770上,其中FoV 730實(shí)質(zhì)上對應(yīng)于由遠(yuǎn)程視覺受損人士使用的移動感測設(shè)備捕獲的當(dāng)前的FoV。如之前所述,在從遠(yuǎn)程環(huán)境獲取傳感器數(shù)據(jù)和展現(xiàn)擴(kuò)增的現(xiàn)實(shí)全景的部分之間可以存在延遲??梢詫τ谌暗囊粋€或多個部分展現(xiàn)延遲,甚至以不同等級的粒度。在例子中,對于FoV 730展現(xiàn)延遲。然而,可以對于擴(kuò)增的現(xiàn)實(shí)全景770的當(dāng)前部分、擴(kuò)增的現(xiàn)實(shí)全景770的歷史部分、或擴(kuò)增的現(xiàn)實(shí)全景770中的對象展現(xiàn)延遲。提供延遲信息被認(rèn)為是有利的,因?yàn)槟芸匆姷闹砜梢岳斫饽P偷母鞑糠钟卸嗝搓惻f或最新,這在幫助遠(yuǎn)程環(huán)境中的視覺受損的人士時可以是有用的。
能看見的助理可以或許通過一個或多個全景命令753如所期望地與擴(kuò)增的現(xiàn)實(shí)全景770交互。鑒于擴(kuò)增的現(xiàn)實(shí)全景770代表比僅僅是圖像要復(fù)雜的遠(yuǎn)程環(huán)境及其對象的模型,助理可以與視覺受損人士分離地在該擴(kuò)增的現(xiàn)實(shí)全景770周圍導(dǎo)航。例如,助理可以變焦放大擴(kuò)增的現(xiàn)實(shí)全景770以便形象化地走在視覺受損的人士前面(假定擴(kuò)增的現(xiàn)實(shí)全景770包括基于額外的傳感器數(shù)據(jù)的部分),以確定道路是否沒有障礙。其它全景命令753可以包括全景搖攝(pan)、傾斜、旋轉(zhuǎn)、過濾、時移或者另外地調(diào)整擴(kuò)增的現(xiàn)實(shí)全景770的展現(xiàn)。擴(kuò)增的現(xiàn)實(shí)全景770包括可能如所示的以列表形式展現(xiàn)的一個或多個擴(kuò)增的現(xiàn)實(shí)對象752。擴(kuò)增的現(xiàn)實(shí)對象可以或許通過FoV 730中的那些對象和FoV 730外的對象如所期望地分隔開。根據(jù)這樣的方案來分離對象被認(rèn)為是有利的,因?yàn)樵摻M織向能看見的助理提供對于擴(kuò)增的現(xiàn)實(shí)全景770中的那些對象很可能比其它對象更加時間相關(guān)的了解。FoV730之外的擴(kuò)增的現(xiàn)實(shí)對象752 (例如報紙售賣機(jī))可能是基于舊數(shù)據(jù)的陳舊的。擴(kuò)增的現(xiàn)實(shí)全景770還可以展現(xiàn)與擴(kuò)增的現(xiàn)實(shí)對象752相關(guān)的額外的信息。每個擴(kuò)增的現(xiàn)實(shí)對象752還可如所期望的用相關(guān)聯(lián)的屬性或元數(shù)據(jù)來展現(xiàn)。例如,標(biāo)簽761被夸飾地示出,以代表分配給對象的屬性或元數(shù)據(jù)。可以如所期望的根據(jù)很多不同的方案來展現(xiàn)對象信息。示例對象信息包括對象名字、對象位置、對象更新的時間戳、相關(guān)特征或?qū)ο蟮貥?biāo)(例如,SIFT配準(zhǔn)、邊緣、角落等)、元數(shù)據(jù)分配、對象尺寸、顏色或可以綁定到擴(kuò)增的現(xiàn)實(shí)對象752的其它類型的信息。負(fù)責(zé)創(chuàng)建擴(kuò)增的現(xiàn)實(shí)全景770的全景引擎還可以用擴(kuò)增的現(xiàn)實(shí)對象752來自動填充(populate)擴(kuò)增的現(xiàn)實(shí)全景770并且自動填充其對象屬性。由于擴(kuò)增的現(xiàn)實(shí)對象752通過他們的特征(例如SIFT配準(zhǔn)地標(biāo)、位置、顏色,等)來識別,因此引擎可以將屬性綁定到對象。在示出的例子中,被自動填充的一種類型的屬性包括從FoV 730的原點(diǎn)到各個對象的相對距離。取決于全景引擎多么近期地收集周圍環(huán)境數(shù)據(jù),某些距離可能比其它距離更精確。例如,如果由于收集的數(shù)據(jù)的低延遲,F(xiàn)oV730中的擴(kuò)增的現(xiàn)實(shí)對象752是動態(tài)移動的對象,則其可能具有更精確的距離,而FoV 730之外的對象可能有相關(guān)聯(lián)的陳舊數(shù)據(jù),其很可能導(dǎo)致不那么精確的距離估計(jì)。應(yīng)該記住,人類的能看見的助理還可以手動管理擴(kuò)增的現(xiàn)實(shí)對象752。例如,助理界面750還可以向人類的能看見的助理提供一個或多個對象命令,允許該助理管理擴(kuò)增的現(xiàn)實(shí)對象752。設(shè)想的對象命令可以包括添加、刪除、分配元數(shù)據(jù)、更新、選擇、過濾、保存或另外的管理對象??紤]一個場景,其中燈柱尚未被識別出或者還沒有被自動填充在擴(kuò)增的現(xiàn)實(shí)全景770中。能看見的助理可以使用鼠標(biāo)指針追蹤燈柱的輪廓,并且指示全景引擎創(chuàng)建或添加該燈柱作為對象。該助理可以進(jìn)一步如所期望地向?qū)ο蠓峙湟粋€或多個元標(biāo)簽,或全景引擎還可以基于將來自助理的輸入與限定的對象的特征或配準(zhǔn)地標(biāo)相關(guān)聯(lián)而向?qū)ο?例如,位置、顏色、形狀等)分配元標(biāo)簽。另一個場景可以包括能看見的助理在擴(kuò)增的現(xiàn)實(shí)全景770中放置虛擬的道路點(diǎn)對象,其隨后可以被發(fā)送到視覺受損人士的設(shè)備。該人士可以使用來自道路點(diǎn)對象的音頻或觸覺反饋(即,設(shè)備命令)以導(dǎo)航對應(yīng)的現(xiàn)實(shí)世界。FoV 730可以集成在擴(kuò)增的現(xiàn)實(shí)全景770中,作為在周圍環(huán)境傳感器數(shù)據(jù)中接收的移動感測設(shè)備位置信息的函數(shù)(function)。在更優(yōu)選的實(shí)施例中,全景引擎將FoV 730疊加在擴(kuò)增的現(xiàn)實(shí)全景770上,以確保能看見的助理理解遠(yuǎn)程移動感測設(shè)備當(dāng)前相對于擴(kuò)增的現(xiàn)實(shí)全景770中的擴(kuò)增的現(xiàn)實(shí)對象752位于哪里??梢詮脑谥車h(huán)境傳感器數(shù)據(jù)中接收的對應(yīng)的數(shù)據(jù)確定FoV730的位置和方向。在一些實(shí)施例中,該位置數(shù)據(jù)可以包括GPS 坐標(biāo),并且方向數(shù)據(jù)可以從加速計(jì)數(shù)據(jù)或磁力計(jì)數(shù)據(jù)獲得??梢酝ㄟ^組合多個形態(tài)的數(shù)據(jù)以校正、調(diào)整或細(xì)化其位置而細(xì)化FoV 730的放置。組合兩個或更多個形態(tài)被認(rèn)為提供更精確的放置。例如,對象特征(例如,對象地標(biāo)、SIFT配準(zhǔn)地標(biāo)等)可以與GPS數(shù)據(jù)組合以通過相對于對象地標(biāo)的三角測量來校正FoV730的位置。此外,可能包括幅度、頻率或相位信息的音頻數(shù)據(jù)(例如,回聲位置,多普勒等)可以與圖像數(shù)據(jù)甚至加速計(jì)數(shù)據(jù)組合,以確定對象或FoV730的位置。加速計(jì)數(shù)據(jù)可以被積分(integrate) —次以確定速度,或被積分兩次以確定覆蓋的距離,然后和GPS信息或其它數(shù)據(jù)類型相結(jié)合以減少確定位置或方向時的誤差。簡而言之,可以基于至少兩個傳感器數(shù)據(jù)類型校正FoV730的放置。傳感器數(shù)據(jù)類型可以包括GPS位置、圖像配準(zhǔn)數(shù)據(jù)、加速計(jì)數(shù)據(jù)、磁力計(jì)數(shù)據(jù)、無線數(shù)據(jù)(例如,Wi-Fi定位、RFID數(shù)據(jù)、無線三角測量等)、測距法數(shù)據(jù)、音頻數(shù)據(jù)(例如,聲音、回聲定位等)、或其它類型的數(shù)據(jù)。應(yīng)該注意,當(dāng)能看見的助理導(dǎo)航通過擴(kuò)增的現(xiàn)實(shí)全景770時,即使助理轉(zhuǎn)動他們的視野,F(xiàn)oV 730也可以相對于擴(kuò)增的現(xiàn)實(shí)全景770保持其正確的位置或方向。因此,設(shè)想助理界面750也可以如圖所示獨(dú)立地展現(xiàn)FoV 730。擴(kuò)增的現(xiàn)實(shí)對象752可以如由疊加的標(biāo)簽761夸飾地(euphuistically)表示的在擴(kuò)增的現(xiàn)實(shí)全景770中被加亮。可以通過各種方法實(shí)現(xiàn)加亮擴(kuò)增的現(xiàn)實(shí)對象752。在一些實(shí)施例中,對象包括加亮的輪廓、圖標(biāo)或圖示擴(kuò)增的現(xiàn)實(shí)對象752存在于擴(kuò)增的現(xiàn)實(shí)全景770中的其它指示符。特別優(yōu)選的指示符包括指示擴(kuò)增的現(xiàn)實(shí)全景770的歷史部分和擴(kuò)增的現(xiàn)實(shí)全景770的最近的更新之間的區(qū)別的加亮顯示。在遠(yuǎn)程視覺受損人士進(jìn)入其中擴(kuò)增的現(xiàn)實(shí)對象752可能移動或改變的動態(tài)環(huán)境時,這樣的方法是有用的。例如,右下角的報紙售賣機(jī)可能是新放置在街道上的,如標(biāo)簽761的展現(xiàn)所示。如上所簡述的,能看見的助理還可將元標(biāo)簽、標(biāo)簽761例如作為元數(shù)據(jù)經(jīng)由標(biāo)簽命令754分配給在擴(kuò)增的現(xiàn)實(shí)全景770中的擴(kuò)增的現(xiàn)實(shí)對象752。標(biāo)簽可以包括可視標(biāo)簽或不可視標(biāo)簽。可視標(biāo)簽可以被表示為圖標(biāo)或其它對于能看見的助理可視的指示符,并且可以提供該對象的特性的列表。還應(yīng)當(dāng)理解,不可視標(biāo)簽可以包括聽覺或甚至觸覺元數(shù)據(jù),其可以用于將對象識別給遠(yuǎn)程視覺受損人士。設(shè)想的標(biāo)簽命令可以包括很多不同的標(biāo)簽管理動作,包括創(chuàng)建、刪除、修改、移動、保存、過濾或另外地管理對象標(biāo)簽。分配元標(biāo)簽給對象向?qū)τ诰唧w客戶端個人化擴(kuò)增的現(xiàn)實(shí)全景770提供了很多的靈活性。當(dāng)能看見的助理或視覺受損人士與共享的擴(kuò)增的現(xiàn)實(shí)全景770交互時,擴(kuò)增的現(xiàn)實(shí)對象752可以如上所述動態(tài)地更新。應(yīng)該記得,很多擴(kuò)增的現(xiàn)實(shí)對象752可以被認(rèn)為是公共對象,其可以被并入到來自服務(wù)的其它客戶端或訂戶的其它的擴(kuò)增的現(xiàn)實(shí)全景。因此,服從隱私擔(dān)憂,擴(kuò)增的現(xiàn)實(shí)全景770或其擴(kuò)增的現(xiàn)實(shí)對象752可以在多個使用者之間共享。此外,還可以考慮擴(kuò)增的現(xiàn)實(shí)全景770包括反映擴(kuò)增的現(xiàn)實(shí)全景770的共享或公共可獲得或可更新方面的Wiki部分。示例的像Wiki的部分的例子可以包括注解、對象、修訂或其它用戶提交的擴(kuò)增的現(xiàn)實(shí)內(nèi)容。為了說明的目的,擴(kuò)增的現(xiàn)實(shí)全景770展現(xiàn)如由擴(kuò)增的現(xiàn)實(shí)全景770中的人的空白的臉?biāo)甘镜囊呀?jīng)過濾的部分,其中至少對于該示例,臉部數(shù)據(jù)被認(rèn)為是私人數(shù)據(jù)。即
使獲得了私人圖像數(shù)據(jù),全景引擎也可以認(rèn)出私人數(shù)據(jù)的特征(例如,臉部、安全項(xiàng)等)并且出于隱私擔(dān)憂而移除或否則模糊該私人數(shù)據(jù)。擴(kuò)增的現(xiàn)實(shí)全景770可以如期望的或如配置的包括其它類型的過濾部分。過濾部分的示例使用可以包括模糊住宅環(huán)境、模糊具體個體、模糊安全輸入、或者模糊被認(rèn)為私密的其他項(xiàng)目。還可以對其它類型的數(shù)據(jù)應(yīng)用迷惑化(obfuscation),所述其它類型的數(shù)據(jù)包括音頻數(shù)據(jù)、位置數(shù)據(jù)、目的地、移動速率或其它信息。全景引擎可以將對象特征(例如SIFT配準(zhǔn)、音頻簽名等)與對象相關(guān)聯(lián)。當(dāng)特征滿足過濾標(biāo)準(zhǔn)時,對象可在擴(kuò)增的現(xiàn)實(shí)全景中被模糊。能看見的助理具有用來幫助遠(yuǎn)程視覺受損人士的多個可獲得的選項(xiàng)。一種選項(xiàng)簡單地包括經(jīng)由智能電話與該人士建立語音通信鏈路。該能看見的助理可以討論該人士的當(dāng)前情況并提供口頭幫助。更優(yōu)選的方法包括使用助理界面750,以發(fā)送一個或多個設(shè)備命令751給遠(yuǎn)程移動感測設(shè)備以控制該設(shè)備的操作。設(shè)備命令751可包括指導(dǎo)移動感測設(shè)備捕獲與擴(kuò)增的現(xiàn)實(shí)全景770中擴(kuò)增的現(xiàn)實(shí)對象752或要識別的對象相關(guān)聯(lián)的額外的對象信息的寬范圍的指令。取決于助理的需求或期望,設(shè)備命令751可以采用很多不同的形式。示例命令可以包括對于視頻改變數(shù)據(jù)獲取幀速率、調(diào)整捕獲圖像的分辨率、對于音頻捕獲改變采樣率、調(diào)整交換的數(shù)據(jù)的壓縮或加密參數(shù)、交替遠(yuǎn)程感測設(shè)備和全景引擎之間的通信路徑、指示設(shè)備觸發(fā)一個或多個致動器(受力活塞、振動器、Braille墊等)、發(fā)出代表對象接近的可聽到的信號、或其它控制命令。因此,能看見的助理可以控制遠(yuǎn)程感測設(shè)備以增強(qiáng)擴(kuò)增的現(xiàn)實(shí)全景770并且?guī)椭h(yuǎn)程視覺受損的人士??紤]其中視覺受損的人士希望購買報紙的場景。能看見的助理可以向設(shè)備發(fā)出設(shè)備命令751,使得設(shè)備在視覺受損的人士接近報紙售賣機(jī)時振動或發(fā)出聲音。如關(guān)于圖I所討論的,可以在遠(yuǎn)程感測設(shè)備或附加的(add-on)適配器中部署對象識別技術(shù)的方面。鑒于基于設(shè)備的識別應(yīng)用可以接近設(shè)備駐留或甚至在設(shè)備中,因此設(shè)備命令751還可包括朝著識別應(yīng)用定向以控制或管理該應(yīng)用的操作的高級指令。例如,助理可以指示設(shè)備切換(toggle)更適于捕獲有關(guān)遠(yuǎn)程環(huán)境或遠(yuǎn)程環(huán)境中的對象的額外信息的一個或多個識別算法的操作。一種算法可能更適合于0CR,而非臉部識別或?qū)ο笞R別。考慮其中遠(yuǎn)程視覺受損人士與錢打交道的場景。能看見的助理可以或許基于地理位置(例如,國家)而非需要額外的處理器能力的通用對象識別算法來指示遠(yuǎn)程設(shè)備使用專用于識別匯率的識別算法。這樣的方法提供與現(xiàn)實(shí)世界對象的優(yōu)化的交互,其中對于當(dāng)前的環(huán)境,所選擇的算法可以比其它算法更有效地使用。雖然以上的討論提到助理作為人類操作者,但是應(yīng)該理解,全景引擎或甚至助理界面750的部分還可作為自動的能看見的助理來操作。在遠(yuǎn)程視覺受損人士和擴(kuò)增的現(xiàn)實(shí)全景之間的很多交互可以是自動的。如之前所討論的,當(dāng)以自動的方式操作時,助理界面750可以向視覺受損人士發(fā)送反饋,指示到擴(kuò)增的現(xiàn)實(shí)全景770中的已知或已發(fā)現(xiàn)的對象的相對距離。在這樣的實(shí)施例中,助理界面750可以作為全景引擎中的模塊操作,其中該模塊作為專家系統(tǒng)操作,該專家系統(tǒng)經(jīng)由一個或多個應(yīng)用程序接口回過頭來向視覺受損人士提供建議。此外,視覺受損的人士或人類的能看見的助理可以基于視覺受損的人士通過現(xiàn)實(shí)世界的移動而以編程來配置自動的響應(yīng)或動作,其基于取決于擴(kuò)增的現(xiàn)實(shí)全景770中的對象特征(例如,SIFT配準(zhǔn)、音頻簽名、紋理等)的標(biāo)準(zhǔn)觸發(fā)動作。因此,本應(yīng)用公開了旨在提供靈活、強(qiáng)大和用戶響應(yīng)的解決方案的系統(tǒng)和方法,該解決方案被配置為作為集成的方法的一部分準(zhǔn)確且方便地提供對象、臉部、上下文或環(huán)境 識別,以特別在共享的擴(kuò)增的現(xiàn)實(shí)全景中增強(qiáng)視力。由本申請公開的許多益處之一是用于向移動用戶提供實(shí)時能看見的助理、信息或通過可訪問的接口的通信的設(shè)備、系統(tǒng)和方法。例如,可以使用連接到用戶的個人計(jì)算機(jī)(PC)和/或其它集中式或分布式計(jì)算和通信服務(wù)的相機(jī)使能或傳感器使能的便攜式通信設(shè)備提供擴(kuò)增的現(xiàn)實(shí)或增強(qiáng)的視力服務(wù)。對本領(lǐng)域技術(shù)人員應(yīng)當(dāng)顯而易見的是,除了那些已經(jīng)描述的之外的很多更多的修改是可能,而不會偏離這里的發(fā)明概念。因此,本發(fā)明性主題除了在所附權(quán)利要求的范圍內(nèi)之外不被限制。此外,在解釋說明書和權(quán)利要求兩者時,所有術(shù)語應(yīng)當(dāng)按照與上下文一致的最寬的可能方式解釋。特別的,術(shù)語“包括”應(yīng)該被解釋為以非排他的方式提到元件、組件或步驟,指示所提到的元件、組件或步驟可以存在或使用或與其它沒有明確涉及的元件、組件或步驟組合。在說明書權(quán)利要求提到從包括A、B、C……和N的組中選擇的某事物的至少一個時,該文本應(yīng)該被解釋為只要求來自該組的一個元素,不是A和N,或B和N等。
權(quán)利要求
1.一種擴(kuò)增的現(xiàn)實(shí)引擎,包括 遠(yuǎn)程設(shè)備接口,配置為經(jīng)由網(wǎng)絡(luò)從遠(yuǎn)程移動感測設(shè)備接收周圍環(huán)境傳感器數(shù)據(jù),該周圍環(huán)境傳感器數(shù)據(jù)反映視覺受損人士的遠(yuǎn)程環(huán)境并且包括當(dāng)前的視野和設(shè)備位置數(shù)據(jù); 全景引擎,配置為至少部分地基于所述周圍環(huán)境傳感器數(shù)據(jù)來構(gòu)造代表遠(yuǎn)程環(huán)境及該環(huán)境的一些對象的模型的擴(kuò)增的現(xiàn)實(shí)全景,當(dāng)前視野集成到擴(kuò)增的現(xiàn)實(shí)全景中作為設(shè)備位置的函數(shù);以及 能看見的助理界面,配置為 向能看見的助理視覺地展現(xiàn)具有集成的當(dāng)前視野的擴(kuò)增的現(xiàn)實(shí)全景,以及 經(jīng)由遠(yuǎn)程設(shè)備接口,向遠(yuǎn)程移動感測設(shè)備發(fā)送設(shè)備命令,所述設(shè)備命令指示所述移動感測設(shè)備捕獲與所述擴(kuò)增的現(xiàn)實(shí)全景中的對象相關(guān)聯(lián)的額外的對象數(shù)據(jù)。
2.根據(jù)權(quán)利要求I所述的引擎,其中當(dāng)前視野包括由所述遠(yuǎn)程感測設(shè)備捕獲的圖像數(shù)據(jù)。
3.根據(jù)權(quán)利要求I所述的引擎,其中所述擴(kuò)增的現(xiàn)實(shí)全景包括多形態(tài)的全景數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的引擎,其中所述多形態(tài)的全景數(shù)據(jù)包括觸覺數(shù)據(jù),并且其中設(shè)備命令包括與遠(yuǎn)程環(huán)境中所述視覺受損人士附近的的真實(shí)世界對象相關(guān)聯(lián)的觸覺反饋指令,且所述真實(shí)世界對象對應(yīng)于所述擴(kuò)增的現(xiàn)實(shí)全景中的對象。
5.根據(jù)權(quán)利要求I所述的引擎,其中所述移動感測設(shè)備包括智能電話。
6.根據(jù)權(quán)利要求I所述的引擎,擴(kuò)增的現(xiàn)實(shí)全景包括與視覺受損人士相關(guān)聯(lián)的個人化的全景。
7.根據(jù)權(quán)利要求6所述的引擎,所述個人化的全景包括在視覺受損人士的管理下的私人周圍環(huán)境傳感器數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的引擎,其中所述個人化的全景包括作為私人周圍環(huán)境傳感器數(shù)據(jù)的函數(shù)的過濾的部分。
9.根據(jù)權(quán)利要求I所述的引擎,其中所述擴(kuò)增的現(xiàn)實(shí)全景包括代表歷史的周圍環(huán)境傳感器數(shù)據(jù)的歷史部分。
10.根據(jù)權(quán)利要求9所述的引擎,其中所述擴(kuò)增的現(xiàn)實(shí)全景包括基于當(dāng)前視野指示擴(kuò)增的現(xiàn)實(shí)全景的歷史部分和最近更新的部分之間的區(qū)別的加亮的對象。
11.根據(jù)權(quán)利要求I所述的引擎,其中所述擴(kuò)增的現(xiàn)實(shí)全景包括代表公開地收集的傳感器數(shù)據(jù)的公共部分。
12.根據(jù)權(quán)利要求I所述的引擎,其中能看見的助理界面還配置為展現(xiàn)指示周圍環(huán)境傳感器數(shù)據(jù)的獲取和當(dāng)前視野的展現(xiàn)之間的時間差的延遲。
13.根據(jù)權(quán)利要求I所述的引擎,其中能看見的助理界面還配置為基于下述周圍環(huán)境傳感器數(shù)據(jù)中的至少兩個校正所述擴(kuò)增的現(xiàn)實(shí)全景中當(dāng)前視野的布置=GPS位置數(shù)據(jù)、圖像配準(zhǔn)數(shù)據(jù)、加速計(jì)數(shù)據(jù)、磁力計(jì)數(shù)據(jù)、無線信號數(shù)據(jù)、測距法數(shù)據(jù)和音頻數(shù)據(jù)。
14.根據(jù)權(quán)利要求I所述的引擎,其中所述擴(kuò)增的現(xiàn)實(shí)全景包括分配給擴(kuò)增的現(xiàn)實(shí)全景內(nèi)的對象的元標(biāo)簽。
15.根據(jù)權(quán)利要求14所述的引擎,其中所述元標(biāo)簽包括對于能看見的助理可視的、且疊加在擴(kuò)增的現(xiàn)實(shí)全景上的元數(shù)據(jù)。
16.根據(jù)權(quán)利要求14所述的引擎,其中所述元標(biāo)簽包括非視覺的元數(shù)據(jù)。
17.根據(jù)權(quán)利要求I所述的引擎,其中所述能看見的助理界面還配置為指示相對于當(dāng)前視野到對象的距離。
18.根據(jù)權(quán)利要求I所述的引擎,其中所述設(shè)備命令包括針對移動感測設(shè)備的激活指示對象相對于移動感測設(shè)備的位置的致動器的指令。
19.根據(jù)權(quán)利要求I所述的引擎,其中所述設(shè)備命令包括針對移動感測設(shè)備的發(fā)出指示對象相對于移動感測設(shè)備的位置的可聽信號的指令。
20.根據(jù)權(quán)利要求I所述的引擎,其中所述全景引擎包括配置為將所述周圍環(huán)境傳感器數(shù)據(jù)轉(zhuǎn)換為擴(kuò)增的現(xiàn)實(shí)全景中的對象地標(biāo)的對象特征配準(zhǔn)模塊。
21.根據(jù)權(quán)利要求20所述的引擎,其中所述擴(kuò)增的現(xiàn)實(shí)全景中的對象地標(biāo)包括圖像配準(zhǔn)地標(biāo)。
22.根據(jù)權(quán)利要求21所述的引擎,其中所述圖像配準(zhǔn)地標(biāo)包括尺度不變特征變換(SIFT)地標(biāo)。
23.根據(jù)權(quán)利要求I所述的引擎,其中設(shè)備位置數(shù)據(jù)包括設(shè)備方向數(shù)據(jù)。支持視覺受損的個體的擴(kuò)增的現(xiàn)實(shí)全景
本申請要求于2011年2月24日提交、具有序列號61/307,675和于2010年2月26日提交、具有序列號61/339,071的美國臨時申請的優(yōu)先權(quán)的權(quán)益。這里討論的這些和所有其它外來的材料通過引用整體并入。當(dāng)并入的參考資料中術(shù)語的定義或使用不一致或者與這里提供的該術(shù)語的定義相反,則應(yīng)用這里提供的術(shù)語的定義而不應(yīng)用參考資料中該術(shù)語的定義。技術(shù)領(lǐng)域
本發(fā)明的領(lǐng)域是用于殘疾個體的輔助技術(shù)。
背景技術(shù):
不論是稱作計(jì)算機(jī)視覺、機(jī)器視覺諸如此類,提供自動的(automated)對象識別的系統(tǒng)傳統(tǒng)上一直是在工業(yè)和軍事應(yīng)用中頗感興趣的要實(shí)現(xiàn)的課題。提供對象識別的任何系·統(tǒng)所遇到的正在發(fā)生的挑戰(zhàn)之一是由同樣的對象、甚至是由從同樣的視角(perspective)觀看的同樣的對象所表示的圖像中的可變性,這種可變性是諸如由天氣模式、季節(jié)轉(zhuǎn)換以及單獨(dú)一天的過程中日光的偏移產(chǎn)生的光和影的變化的環(huán)境因素的結(jié)果。為了解決這個和其它重大的技術(shù)挑戰(zhàn),提供可靠的對象識別的大多數(shù)系統(tǒng)使用一個或多個復(fù)雜的算法,該算法需要大量的計(jì)算資源用于其執(zhí)行。因此,實(shí)現(xiàn)對象識別的很多傳統(tǒng)方法只在相當(dāng)大的延遲后才能提供感興趣的對象的識別,需要用于對象圖像的處理的昂貴和復(fù)雜的計(jì)算平臺,或可能經(jīng)受這兩個缺點(diǎn)。盡管如此,如在Fink等人于2005年I月5日提交的題為“Digital Object Recognition Audio-Assistant for the Visually Impaired,,的美國專利申請公開2005/0208457中所討論的,已經(jīng)針對提供對象識別做出了一些努力。
不幸的是,根據(jù)傳統(tǒng)的技術(shù)水平,對象識別系統(tǒng)可以例如向遭受感測損傷的個體(諸如盲人或視覺受損人士)提供特別的益處。原則上,視覺受損的個體的視力可以通過提供對象識別能力功能的電子助理類型設(shè)備的對象識別能力而有效地?cái)U(kuò)增。然而,為了使提供對象識別的電子設(shè)備最充分地有益于視覺受損的個體,該設(shè)備應(yīng)處理至少三個標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)中的一個是期望提供電子的視力擴(kuò)增的該設(shè)備是便攜的,從而使得視覺受損的個體可以容易地按照期望地運(yùn)送該設(shè)備。這些標(biāo)準(zhǔn)中的一個是期望該設(shè)備提供靈活且用戶友好的界面使得視覺受損的用戶能夠激活并控制該設(shè)備的對象識別功能。此外,為了最充分地使能(empower )視覺受損的個體,同時還保護(hù)他們的安全,期望該提供對象識別的設(shè)備可靠且實(shí)時地進(jìn)行對象識別,從而使得視覺受損的用戶參與(engage)他或她當(dāng)前環(huán)境中的特征。
然而,如上面所討論的,傳統(tǒng)的方法用來實(shí)現(xiàn)對象識別所需要的計(jì)算資源通常是大量的。該計(jì)算能力要求可能相當(dāng)大地超過甚至在相對寬松的性能標(biāo)準(zhǔn)下單個便攜設(shè)備的資源。如Kurzweil等人于2005年4月I日提交的題為“Gesture Processing withLow Resolution Images with High Resolution Processing for Optical CharacterRecognition for a Reading Machine”的美國專利7,627,142中所討論的,便攜設(shè)備至多提供對于特征識別的最小支持。當(dāng)提供對象識別功能的系統(tǒng)的用戶的個人安全和效能要求對象的識別是高度可靠且實(shí)時提供時,所需要的計(jì)算資源遠(yuǎn)遠(yuǎn)超過單個便攜使電子設(shè)備所能夠獲得的資源。
用來幫助視覺受損的用戶的一種可能的途徑包括與遠(yuǎn)程助理交互。理想地,遠(yuǎn)程助理應(yīng)該可以和視覺受損的用戶的整個環(huán)境交互。其它人已經(jīng)朝著使能視覺受損的用戶和遠(yuǎn)程助理之間的交互做出了努力。Espenlaub等人于2007年4月6日提交的題為“Systemand Method for Assisting a Visually Impaired Individual”的美國專利7864991 討論了視覺受損的個體無線地向助理發(fā)送有關(guān)一個情況的視聽信息。該助理然后可以用對該情況的解決方案進(jìn)行回復(fù)。遺憾的是,助理缺少對個體的周圍環(huán)境的完整視野。
另一個例子包括Gallick于2006年8月4日提交的題為“Communications Devicefor Visually Impaired Persons”的美國專利申請公開2008/0043934,其討論了向視覺受損人士提供具有表面?zhèn)鞲衅鞯脑O(shè)備,其中遠(yuǎn)程助理可以觀察該人與該設(shè)備的交互。
一個更先進(jìn)的努力包括Gowda于2008年2月4日提交的題為“Systems and·Method for Tele-presence”的美國專利申請公開2008/0198222,其使遠(yuǎn)程助理的概念更進(jìn)一步。Gowda指出視覺受損的主體可以與向?qū)нB接,其中該向?qū)Э墒褂糜嘘P(guān)主體的環(huán)境的多形態(tài)(multi-modal)信息(或許通過將主體指引到對象)來幫助該主體。助理仍舊被限制到由主體提供的視野并且還是缺少獲取有關(guān)環(huán)境的額外數(shù)據(jù)的能力。
有趣的是,只有有限的努力是針對使用擴(kuò)增的現(xiàn)實(shí)系統(tǒng)來幫助視覺受損的個體。仍需要意識到的是遠(yuǎn)程助理可以與表示視覺受損人士的環(huán)境的擴(kuò)增的現(xiàn)實(shí)全景及其對象相交互。可以基于經(jīng)由個體的智能電話或周圍數(shù)據(jù)的其他源收集的傳感器數(shù)據(jù)構(gòu)造擴(kuò)增的現(xiàn)實(shí)全景。該助理可以與對象或擴(kuò)增的現(xiàn)實(shí)全景的其它方面相交互,并將設(shè)備命令發(fā)送回個體的智能電話以幫助該個體或獲得有關(guān)環(huán)境的更多的信息。
除非上下文指明是相反的,否則這里闡明的所有范圍應(yīng)解釋為包含其端點(diǎn),且開放性的范圍應(yīng)解釋為包括商業(yè)上實(shí)際的值。類似地,除非上下文指明是相反的,否則值的所有列舉應(yīng)該認(rèn)為包括中間的值。
因此,仍存在對于用于視覺受損的個體的遠(yuǎn)程幫助的需要。發(fā)明內(nèi)容
本發(fā)明主題提供其中視覺受損的人士可以從能看見的助理尋求幫助的裝置、系統(tǒng)和方法。本發(fā)明主題的一個方面包括一種擴(kuò)增的現(xiàn)實(shí)引擎,包括能夠構(gòu)造代表遠(yuǎn)程環(huán)境及其對象的模型的擴(kuò)增的現(xiàn)實(shí)全景的全景引擎。該全景可至少部分地基于從遠(yuǎn)程視覺受損的人士的智能電話或接近視覺受損人士的其他移動感測設(shè)備收集的周圍環(huán)境傳感器數(shù)據(jù)來構(gòu)造。優(yōu)選地,該周圍環(huán)境傳感器數(shù)據(jù)反映該人士的遠(yuǎn)程環(huán)境,可能包括與圖像、視頻、音頻、加速度、方向、位置、測距法關(guān)聯(lián)的數(shù)據(jù)或其它傳感器數(shù)據(jù)。能看見的助理使用能看見的助理界面與擴(kuò)增的現(xiàn)實(shí)全景及其對象交互,以向遠(yuǎn)程的視覺受損人士提供輔助的反饋。該助理界面展現(xiàn)具有集成的遠(yuǎn)程人士的感測設(shè)備的當(dāng)前視野的擴(kuò)增的現(xiàn)實(shí)全景。人類的或自動的能看見的助理共享遠(yuǎn)程視覺受損人士的經(jīng)歷并且與擴(kuò)增的現(xiàn)實(shí)全景中的對象交互,使得一個或多個設(shè)備命令被發(fā)送回該人士的智能電話。設(shè)備命令可以指示智能電話或其它移動感測設(shè)備捕獲與對應(yīng)的現(xiàn)實(shí)世界的對象有關(guān)的額外的信息。例如,設(shè)備命令可以向視覺
全文摘要
提出了一種向遠(yuǎn)程用戶提供實(shí)時對象識別的方法和系統(tǒng)。該系統(tǒng)包括包含相機(jī)的便攜式通信設(shè)備、遠(yuǎn)離該便攜式通信設(shè)備并可由該便攜式通信設(shè)備經(jīng)由網(wǎng)絡(luò)訪問的至少一個客戶端-服務(wù)器主機(jī)、以及可由所述客戶端-服務(wù)器主機(jī)設(shè)備訪問的識別數(shù)據(jù)庫。駐留在所述客戶端-服務(wù)器主機(jī)設(shè)備上的識別應(yīng)用能夠利用該識別數(shù)據(jù)庫來向便攜式通信設(shè)備的遠(yuǎn)程用戶提供使用便攜的通信設(shè)備捕獲的視覺圖像的實(shí)時對象識別。在一個實(shí)施例中,能看見的助理與便攜的通信設(shè)備的視覺受損的用戶分享擴(kuò)增的現(xiàn)實(shí)全景,其中該全景由來自該設(shè)備的傳感器數(shù)據(jù)構(gòu)造。
文檔編號G09G5/00GK102906810SQ201180020715
公開日2013年1月30日 申請日期2011年2月24日 優(yōu)先權(quán)日2010年2月24日
發(fā)明者O.迪亞拉梅, D.米勒, C.布蘭查德, T.C.多塞, J.M.蘇多爾 申請人:愛普萊克斯控股公司