用于使用光學(xué)字符識(shí)別來提供增強(qiáng)現(xiàn)實(shí)的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本文所描述的實(shí)施例一般涉及數(shù)據(jù)處理,并且更具體地涉及用于使用光學(xué)字符識(shí)別來提供增強(qiáng)現(xiàn)實(shí)的方法和裝置。
【背景技術(shù)】
[0002]數(shù)據(jù)處理系統(tǒng)可以包括允許數(shù)據(jù)處理系統(tǒng)的用戶捕獲和顯示視頻的特征。在已經(jīng)捕獲到視頻之后,視頻編輯軟件可以用于例如通過疊加題目來更改視頻的內(nèi)容。另外,最近的發(fā)展已經(jīng)導(dǎo)致已知為增強(qiáng)現(xiàn)實(shí)(AR)的領(lǐng)域的出現(xiàn)。如在“WIKIPEDIA”商標(biāo)下提供的在線百科全書中的“增強(qiáng)現(xiàn)實(shí)”條目解釋的那樣,AR是“物理、真實(shí)世界環(huán)境的實(shí)況、直接或間接的視圖,其元素通過計(jì)算機(jī)生成的諸如聲音之類的感官輸入、視頻、圖形或GPS數(shù)據(jù)而增強(qiáng)”。典型地,在AR的情況下,視頻被實(shí)時(shí)修改。例如,當(dāng)電視(TV)臺(tái)正在廣播美式橄欖球比賽的實(shí)況視頻時(shí),TV臺(tái)可以使用數(shù)據(jù)處理系統(tǒng)來實(shí)時(shí)地修改視頻。例如,數(shù)據(jù)處理系統(tǒng)可以跨橄欖球場地疊加黃色線以示出攻擊隊(duì)伍必須將球移動(dòng)得多遠(yuǎn)以獲得第一次進(jìn)攻。
[0003]此外,一些公司正在致力于允許AR使用在更個(gè)人的水平上的技術(shù)。例如,一些公司正在發(fā)展使得智能電話能夠基于智能電話所捕獲的視頻而提供AR的技術(shù)。這種類型的AR可以被視為移動(dòng)AR的示例。移動(dòng)AR世界主要包括兩種不同類型的體驗(yàn):基于地理位置的AR和基于視覺的AR?;诘乩砦恢玫腁R使用全球定位系統(tǒng)(GPS)傳感器、羅盤傳感器、攝像機(jī)和/或用戶移動(dòng)設(shè)備中的其它傳感器來為“平視(head-up)”顯示器提供描繪各種地理位置上的興趣點(diǎn)的AR內(nèi)容?;谝曈X的AR可以使用一些相同種類的傳感器來通過追蹤真實(shí)世界對象(例如雜志、明信片、產(chǎn)品包裝)的視覺特征而在具有這些對象的情境中顯示AR內(nèi)容。AR內(nèi)容還可以稱為數(shù)字內(nèi)容、計(jì)算機(jī)生成的內(nèi)容、虛擬內(nèi)容、虛擬對象等。
[0004]然而,在許多相關(guān)聯(lián)的挑戰(zhàn)被克服之前基于視覺的AR成為普遍存在將是不可能的。
[0005]典型地,在數(shù)據(jù)處理系統(tǒng)能夠提供基于視覺的AR之前,數(shù)據(jù)處理系統(tǒng)必須檢測視頻場景中的某種事物,其實(shí)際上告知數(shù)據(jù)處理系統(tǒng)當(dāng)前視頻場景適合于AR。例如,如果意圖的AR體驗(yàn)涉及無論何時(shí)場景包括特定物理對象或圖像都向視頻場景添加特定虛擬對象,系統(tǒng)必須首先檢測視頻場景中的物理對象或圖像。第一對象可以稱為“AR可識(shí)別圖像”或簡單地稱為“AR標(biāo)記物”或“AR目標(biāo)”。
[0006]基于視覺的AR的領(lǐng)域中的挑戰(zhàn)之一是對于開發(fā)者而言仍舊相對難以創(chuàng)建合適作為AR目標(biāo)的圖像或?qū)ο?。有效的AR目標(biāo)包含高級別的視覺復(fù)雜性和非對稱性。并且如果AR系統(tǒng)支持多于一個(gè)AR目標(biāo),則每一個(gè)AR目標(biāo)必須足夠不同于所有其它AR目標(biāo)??赡茏畛蹩瓷先タ捎米鰽R目標(biāo)的許多圖像或?qū)ο髮?shí)際上缺少以上特性中的一個(gè)或多個(gè)。
[0007]另外,當(dāng)AR應(yīng)用支持較大數(shù)目的不同AR目標(biāo)時(shí),識(shí)別AR應(yīng)用的部分的圖像可能要求較大量的處理資源(例如存儲(chǔ)器和處理器周期)和/或AR應(yīng)用可能花費(fèi)較多時(shí)間來識(shí)別圖像。因此,可縮放性可能成問題。
【附圖說明】
[0008]圖1是使用光學(xué)字符識(shí)別來提供增強(qiáng)現(xiàn)實(shí)(AR)的示例數(shù)據(jù)處理系統(tǒng)的框圖;
圖2A是示出視頻圖像內(nèi)的示例OCR區(qū)(zone)的示意圖;
圖2B是示出視頻圖像內(nèi)的示例AR內(nèi)容的示意圖;
圖3是用于配置AR系統(tǒng)的示例過程的流程圖;
圖4是用于提供AR的示例過程的流程圖;以及圖5是用于從內(nèi)容提供者檢索AR內(nèi)容的示例過程的流程圖。
【具體實(shí)施方式】
[0009]如以上所指示的,AR系統(tǒng)可以使用AR目標(biāo)來確定對應(yīng)AR對象應(yīng)當(dāng)被添加到視頻場景。如果可以使得AR系統(tǒng)識(shí)別許多不同的AR目標(biāo),則可以使AR系統(tǒng)提供許多不同的AR對象。然而,如以上所指示的,對于開發(fā)者而言不容易創(chuàng)建合適的AR目標(biāo)。此外,利用常規(guī)AR技術(shù),創(chuàng)建許多不同的獨(dú)特目標(biāo)以提供足夠有用的AR體驗(yàn)可能是必要的。
[0010]與創(chuàng)建大量不同的AR目標(biāo)相關(guān)聯(lián)的一些挑戰(zhàn)可以在使用AR來向使用公共汽車系統(tǒng)的人們提供信息的假想應(yīng)用的上下文中說明。汽車系統(tǒng)的運(yùn)營者可能想要在數(shù)百個(gè)汽車站站牌上放置唯一的AR目標(biāo),并且運(yùn)營者可能想要AR應(yīng)用使用AR來通知每一個(gè)汽車站處的乘車人預(yù)計(jì)下一班汽車何時(shí)到達(dá)該站。此外,運(yùn)營者可能想要AR目標(biāo)充當(dāng)對乘車人的可識(shí)別標(biāo)記,或多或少地像是商標(biāo)。換言之,運(yùn)營者可能想要AR目標(biāo)具有對用于該運(yùn)營者的所有AR目標(biāo)公共而同時(shí)還由人類觀看者將其與其它實(shí)體使用的標(biāo)記、徽標(biāo)或設(shè)計(jì)容易地區(qū)分開的可識(shí)別外觀。
[0011]根據(jù)本公開,取代于要求用于每一個(gè)不同AR對象的不同AR目標(biāo),AR系統(tǒng)可以將光學(xué)字符識(shí)別(OCR)區(qū)與AR目標(biāo)相關(guān)聯(lián),并且系統(tǒng)可以使用OCR來從OCR區(qū)提取文本。根據(jù)一個(gè)實(shí)施例,系統(tǒng)使用AR目標(biāo)和來自O(shè)CR的結(jié)果來確定要添加到視頻的AR對象。關(guān)于OCR的另外的細(xì)節(jié)可以在questvisual.com/us/處的用于Quest Visual Inc.的網(wǎng)站上找到,關(guān)于已知為Word Lens的應(yīng)用。關(guān)于AR的另外的細(xì)節(jié)可以在www.hitl.Washington.edu/artoolkit/documentat1n處的用于ARToolKit軟件庫的網(wǎng)站上找到。
[0012]圖1是使用光學(xué)字符識(shí)別來提供增強(qiáng)現(xiàn)實(shí)(AR)的示例數(shù)據(jù)處理系統(tǒng)的框圖。在圖1的實(shí)施例中,數(shù)據(jù)處理系統(tǒng)10包括協(xié)作以為用戶提供AR體驗(yàn)的多個(gè)處理設(shè)備。那些處理設(shè)備包括由用戶或消費(fèi)者操作的本地處理設(shè)備21、由AR代理者(bicker)操作的遠(yuǎn)程處理設(shè)備12、由AR標(biāo)記創(chuàng)建者操作的另一遠(yuǎn)程處理設(shè)備16和由AR內(nèi)容提供者操作的另一遠(yuǎn)程處理設(shè)備18。在圖1的實(shí)施例中,本地處理設(shè)備21是移動(dòng)處理設(shè)備(例如智能電話、平板等)并且遠(yuǎn)程處理設(shè)備12、16和18是膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)或服務(wù)器系統(tǒng)。但是在其它實(shí)施例中,任何合適類型的處理設(shè)備可以用于以上描述的每一個(gè)處理設(shè)備。
[0013]如本文所使用的,術(shù)語“處理系統(tǒng)”和“數(shù)據(jù)處理系統(tǒng)”意圖寬泛地涵蓋單個(gè)機(jī)器或一起操作的通信耦合的機(jī)器或設(shè)備的系統(tǒng)。例如,兩個(gè)或更多機(jī)器可以使用對等模型、客戶端/服務(wù)器模型或云計(jì)算模型上的一個(gè)或多個(gè)變型進(jìn)行協(xié)作來提供本文所描述的一些或全部功能。在圖1的實(shí)施例中,處理系統(tǒng)10中的處理設(shè)備經(jīng)由一個(gè)或多個(gè)網(wǎng)絡(luò)14連接到彼此或與彼此通信。網(wǎng)絡(luò)可以包括局域網(wǎng)(LAN)和/或廣域網(wǎng)(WAN)(例如因特網(wǎng))。
[0014]為了引用的簡單,本地處理設(shè)備21可以被稱為“移動(dòng)設(shè)備”、“個(gè)人設(shè)備”、“AR客戶端”或簡單地稱為“消費(fèi)者”。類似地,遠(yuǎn)程處理設(shè)備12可以被稱為“AR代理者”,遠(yuǎn)程處理設(shè)備16可以被稱為“AR目標(biāo)創(chuàng)建者”,并且遠(yuǎn)程處理設(shè)備18可以被稱為“AR內(nèi)容提供者”。如以下更加詳細(xì)地描述的,AR代理者可以幫助AR目標(biāo)創(chuàng)建者、AR內(nèi)容提供者和AR瀏覽器協(xié)作。AR瀏覽器、AR代理者、AR內(nèi)容提供者和AR目標(biāo)創(chuàng)建者可以集體地稱為AR系統(tǒng)。關(guān)于一個(gè)或多個(gè)AR系統(tǒng)的AR代理者、AR瀏覽器和其它組件的另外的細(xì)節(jié)可以在www.layar.com 處的 Layar 公司的網(wǎng)站上和 / 或在 www.meta1.com 處的 meta1 GmbH/meta1 Inc.(“meta1公司”)的網(wǎng)站上找到。
[0015]在圖1的實(shí)施例中,移動(dòng)設(shè)備21特征在于至少一個(gè)中央處理單元(CPU)或處理器22,連同響應(yīng)于或耦合到處理器的隨機(jī)存取存儲(chǔ)器(RAM) 24、只讀存儲(chǔ)器(ROM) 26、硬盤驅(qū)動(dòng)器或其它非易失性數(shù)據(jù)儲(chǔ)存器28、網(wǎng)絡(luò)端口 32、攝像機(jī)34和顯示面板23。附加的輸入/輸出(I/O)組件(例如鍵盤)也可以響應(yīng)于或耦合到處理器。在一個(gè)實(shí)施例中,攝像機(jī)(或移動(dòng)設(shè)備中的另一 1.0組件)能夠處理超出利用人眼可檢測的那些的電磁波長,諸如紅外。并且移動(dòng)設(shè)備可以使用涉及那些波長的視頻來檢測AR目標(biāo)。
[0016]數(shù)據(jù)儲(chǔ)存器包含操作系統(tǒng)(OS) 40和AR瀏覽器42。AR瀏覽器可以是使得移動(dòng)設(shè)備能夠?yàn)橛脩籼峁〢R體驗(yàn)的應(yīng)用。AR瀏覽器可以被實(shí)現(xiàn)為設(shè)計(jì)成提供針對僅單個(gè)AR內(nèi)容提供者的AR服務(wù)的應(yīng)用,或者AR瀏覽器可以能夠提供針對多個(gè)AR內(nèi)容提供者的AR服務(wù)。移動(dòng)設(shè)備可以將OS的一些或全部和AR瀏覽器的一些或全部復(fù)制到RAM以供運(yùn)行,特別是當(dāng)使用AR瀏覽器來提供AR時(shí)。此外,數(shù)據(jù)儲(chǔ)存器包括AR數(shù)據(jù)庫44,其中的一些或全部也可以被復(fù)制到RAM以促進(jìn)AR瀏覽器的操作。AR瀏覽器可以使用顯示面板來顯示視頻圖像25和/或其它輸出。顯示面板也可以是觸敏的,在這種情況中顯示面板還可以用于輸入。
[0017]用于AR代理者、AR標(biāo)記創(chuàng)建者和AR內(nèi)容提供者的處理設(shè)備可以包括與以上關(guān)于移動(dòng)設(shè)備描述的那些相似的特征。此外,如以下更加詳細(xì)地描述的,AR代理者可以包含AR代理者應(yīng)用50和代理者數(shù)據(jù)庫51,AR目標(biāo)創(chuàng)建者(TC)可以包含TC應(yīng)用52和TC數(shù)據(jù)庫53,并且AR內(nèi)容提供者(CP)可以包含CP應(yīng)用54和CP數(shù)據(jù)庫55。移動(dòng)計(jì)算機(jī)中的AR數(shù)據(jù)庫44還可以稱為客戶端數(shù)據(jù)庫44。
[0018]如以下更加詳細(xì)地描述的,除了創(chuàng)建AR目標(biāo)之外,AR目標(biāo)創(chuàng)建者還可以相對于AR目標(biāo)定義一個(gè)或多個(gè)OCR區(qū)和一個(gè)或多個(gè)AR內(nèi)容區(qū)。出于本公開的目的,OCR區(qū)是從其中提取文本的視頻場景內(nèi)的區(qū)域或空間,并且AR內(nèi)容區(qū)是其中呈現(xiàn)AR內(nèi)容的視頻場景內(nèi)的區(qū)域或空間。AR內(nèi)容區(qū)還可以簡單地稱為AR區(qū)。在一個(gè)實(shí)施例中,AR目標(biāo)創(chuàng)建者定義一個(gè)或多個(gè)AR區(qū)。在另一實(shí)施例中,AR內(nèi)容提供者定義一個(gè)或多個(gè)AR區(qū)。如以下更加詳細(xì)地描述的,坐標(biāo)系可以用于相對于AR目標(biāo)而定義AR區(qū)。