光學(xué)字符辨識(ocr)高速緩沖存儲器更新的制作方法
【專利摘要】本文中所描述的技術(shù)提供一種用于自動地及智能地創(chuàng)建及更新OCR高速緩沖存儲器同時使用計算裝置執(zhí)行OCR的方法??蓪⑹褂民詈系剿鲇嬎阊b置的相機俘獲的圖像與存儲于所述OCR高速緩沖存儲器中的現(xiàn)有圖像進(jìn)行匹配。如果發(fā)現(xiàn)匹配,那么可用利用新圖像的新或較佳信息來更新所述OCR高速緩沖存儲器。所述匹配的現(xiàn)有圖像可保留在所述OCR高速緩沖存儲器中,或新俘獲的圖像可替換所述OCR高速緩沖存儲器中的所述匹配的現(xiàn)有圖像。在一個實施例中,描述了用以在將所述圖像存儲于所述OCR高速緩沖存儲器中之前移除或減少眩光的技術(shù)。在一些實施例中,在不執(zhí)行OCR的情況下移除或減少眩光。
【專利說明】光學(xué)字符辨識(OCR)高速緩沖存儲器更新
【背景技術(shù)】
[0001] 光學(xué)字符辨識(OCR)為手寫的、用打字機打出的或印刷的文本、圖形或符號到機 器編碼的文本的機械或電子轉(zhuǎn)譯。OCR為計算機視覺及擴增實境應(yīng)用中的正在發(fā)展的研究 領(lǐng)域。計算機視覺允許裝置感知其附近的環(huán)境。計算機視覺通過允許來自終端用戶與真實 世界的互動的感測輸入擴展到虛擬世界中而實現(xiàn)擴增實境中的應(yīng)用。在真實生活實例應(yīng)用 中,具備計算機視覺能力的OCR可幫助視覺殘障人士感知例如智能電話等個人移動裝置的 相機的視野中的書面文本及符號。
【發(fā)明內(nèi)容】
[0002] 本文中所描述的技術(shù)提供一種用于在擴增實境的應(yīng)用中自動地及智能地創(chuàng)建及/ 或更新OCR高速緩沖存儲器同時使用移動裝置執(zhí)行OCR的方法。使用耦合到所述移動裝置 的相機俘獲的圖像與存儲于所述OCR高速緩沖存儲器中的現(xiàn)有圖像進(jìn)行匹配。如果發(fā)現(xiàn)匹 配,那么用利用新圖像的新及/或較佳信息來更新所述OCR高速緩沖存儲器,而不是將所述 新圖像作為單獨條目存儲于所述OCR高速緩沖存儲器中。或者,所述新圖像可替換所述OCR 高速緩沖存儲器中的所述現(xiàn)有圖像。另外,描述了用以使用多個圖像從圖像移除眩光的技 術(shù)。舉例來說,來自圖像的區(qū)的眩光可通過使用來自相同場景的不具有與關(guān)鍵圖像相同的 區(qū)的眩光的另一圖像的信息來移除。在一個實施例中,可甚至在無OCR的情況下從圖像減 少或移除眩光。在一個實施例中,可組合地執(zhí)行眩光減少及OCR高速緩存。
[0003] 智能及自動OCR高速緩沖存儲器更新對用戶來說是有利的,因為其允許用戶存取 與相同場景相關(guān)聯(lián)的所有信息及/或可允許用戶存取與多個場景相關(guān)聯(lián)的信息。此外,在 隨著時間的過去與相同場景的多個圖像之間的圖像信息重疊的情況下,本文中所描述的技 術(shù)可存儲與場景相關(guān)聯(lián)的最佳或新獲得的信息,因此隨著時間的過去進(jìn)一步細(xì)化結(jié)果。與 本文中所描述的技術(shù)相關(guān)聯(lián)的其它優(yōu)勢可包含用于存儲OCR結(jié)果的減少的存儲器空間及 對OCR高速緩沖存儲器的減少的命中數(shù)目,從而導(dǎo)致整個系統(tǒng)中的較快性能。
[0004] 通過實例,如果用戶正坐在餐館里且使用用于使用快照模式或預(yù)覽模式獲取圖像 的傳統(tǒng)手段對晚餐菜單執(zhí)行0CR,那么用戶可需要獲取多個圖像且單獨地處理與所述圖像 相關(guān)聯(lián)的信息。如果用戶離晚餐菜單太遠(yuǎn)地抓住獲取圖像的相機,那么圖像可不具有足夠 的分辨率來適當(dāng)?shù)貙D像執(zhí)行OCR。另一方面,如果用戶使獲取圖像的相機太靠近,那么圖 像可不包含所關(guān)注的整個區(qū)域。然而,使用具有自動及智能OCR高速緩沖存儲器更新的OCR 高速緩存模式,本文中所描述的技術(shù)允許用戶產(chǎn)生包含來自菜單的用戶所關(guān)注的區(qū)域的單 個圖像,其中以良好的分辨率進(jìn)行恰當(dāng)聚焦。在一個情況中,用戶可選擇從菜單中選擇文本 且將其轉(zhuǎn)譯為另一語言或使用在線搜索引擎執(zhí)行搜索。
[0005] 在上文實例中,來自場景的圖像中的一者可具有與圖像的區(qū)相關(guān)聯(lián)的眩光。所描 述的技術(shù)可通過從第一圖像中識別具有眩光的第一區(qū),從第二圖像中識別不具有眩光的第 二區(qū)來促進(jìn)移除眩光,其中第一區(qū)及第二區(qū)表示來自相同場景的相同區(qū)。使用第一圖像及 來自第二圖像的不具有眩光的第二區(qū)來合成最終圖像以移除眩光。
[0006] 用于執(zhí)行本發(fā)明的實施例的示范性方法可包含接收多個圖像,辨識所述多個圖像 中的每一者中的數(shù)據(jù),其中辨識所述多個圖像中的每一者中的數(shù)據(jù)包括對所述多個圖像執(zhí) 行光學(xué)字符辨識,至少部分基于所述辨識的數(shù)據(jù)確定所述多個圖像中的至少兩個圖像包括 來自第一場景的信息,及使用所述至少兩個圖像中的至少一個圖像及與所述至少一個圖像 相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來存儲表示所述第一場景的最終圖像。在一個實施例中,接收包 括使用相機連續(xù)俘獲所述多個圖像。在一個實施方案中,維持所述多個圖像中的所述至少 一個圖像及所述至少一個圖像的所述辨識的數(shù)據(jù)的存儲,同時俘獲后面的圖像且在所述后 面的圖像中辨識數(shù)據(jù)。在一個方面中,確定所述多個圖像中的至少兩個圖像包括來自第一 場景的信息可包含比較兩個或兩個以上圖像中的每一者中的圖形對象值、圖形對象顏色、 背景顏色及前景顏色中的一或多者。
[0007] 在一個實施例中,在存儲所述最終圖像之前,所述方法進(jìn)一步包括使用所述至少 兩個圖像及與所述至少兩個圖像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來合成所述最終圖像及接著隨 后存儲所述最終圖像。在一個實施方案中,所述合成包括將來自所述至少兩個圖像中的第 二圖像的元素并入到所述至少一個圖像中以創(chuàng)建所述最終圖像。在另一實施例中,所述最 終圖像包括所述至少一個圖像,其中所述合成包括將所述至少兩個圖像中的第二圖像的相 關(guān)聯(lián)的數(shù)據(jù)并入到所述至少一個圖像的相關(guān)聯(lián)的數(shù)據(jù)中。
[0008] 在另一實施例中,在存儲所述最終圖像之前,所述方法進(jìn)一步包括從用以表示所 述第一場景的所述至少兩個圖像中選擇所述至少一個圖像作為所述最終圖像,及接著隨后 存儲所述最終圖像。選擇可包括比較所述兩個或兩個以上圖像中的每一者的能量。計算所 述兩個或兩個以上圖像中的每一者的所述能量可基于每一圖像中辨識的數(shù)個圖形對象及 用于所述數(shù)個圖形對象中的每一者的辨識的置信度。
[0009] 所述方法可進(jìn)一步包含確定所述多個圖像中的一或多個圖像包括來自除了所述 第一場景之外的一或多個場景的信息,及顯示所述最終圖像及分別表示所述一或多個場景 的一或多個圖像或所述至少一個圖像及所述一或多個場景的所述辨識的數(shù)據(jù)。此外,由本 發(fā)明的實施例執(zhí)行的所述方法還可包含確定所顯示的圖像中的用戶選定的圖像或一個圖 像的所顯示的辨識的數(shù)據(jù),及將與所述選定的圖像或辨識的數(shù)據(jù)相關(guān)的信息輸入到程序或 應(yīng)用程序中。
[0010] 在一個實施方案中,所述方法還可通過從來自所述第一場景的所述兩個或兩個以 上圖像的第一圖像中識別具有眩光的第一區(qū),從來自所述第一場景的所述兩個或兩個以上 圖像的第二圖像中識別不具有眩光的第二區(qū),其中所述第一區(qū)及所述第二區(qū)表示所述第一 場景的相同區(qū),且使用所述第一圖像及來自所述第二圖像的不具有眩光的所述第二區(qū)合成 具有減少的眩光的所述最終圖像。
[0011] 用于執(zhí)行本發(fā)明的實施例的示范性裝置可包含:圖像模塊,其經(jīng)配置以接收多個 圖像;OCR引擎,其經(jīng)配置以使用光學(xué)字符辨識來辨識所述多個圖像中的每一者中的數(shù)據(jù); 匹配模塊,其經(jīng)配置以至少部分基于所述辨識的數(shù)據(jù)確定所述多個圖像中的至少兩個圖像 包括來自第一場景的信息;及集成模塊,其經(jīng)配置以使用所述至少兩個圖像中的至少一個 圖像及與所述至少一個圖像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來存儲表示所述第一場景的最終圖 像??墒褂民詈系剿鲅b置的相機連續(xù)俘獲或獲得所述圖像。在一個實施例中,確定包括 比較所述兩個或兩個以上圖像中的每一者中的圖形對象值、圖形對象顏色、背景顏色、前景 顏色及邊界框中的一或多者。
[0012] 集成模塊可經(jīng)進(jìn)一步配置以使用所述至少兩個圖像及與所述至少兩個圖像相關(guān) 聯(lián)的所述辨識的數(shù)據(jù)來合成所述最終圖像,及接著隨后存儲所述最終圖像。在一個實施例 中,所述合成包括將來自所述至少兩個圖像中的第二圖像的元素并入到所述至少一個圖像 中以創(chuàng)建所述最終圖像。在另一實施例中,所述最終圖像包括所述至少一個圖像,其中所述 合成包括將所述至少兩個圖像中的第二圖像的相關(guān)聯(lián)的數(shù)據(jù)并入到所述至少一個圖像的 相關(guān)聯(lián)的數(shù)據(jù)中。
[0013] 在存儲所述最終圖像之前,選擇模塊可經(jīng)配置以從用以表示所述第一場景的所述 至少兩個圖像中選擇所述至少一個圖像作為所述最終圖像,及接著隨后存儲所述最終圖 像。在一個實施方案中,選擇包括比較所述兩個或兩個以上圖像中的每一者的能量?;?每一圖像中辨識的數(shù)個圖形對象及用于所述數(shù)個圖形對象中的每一者的辨識的置信度,計 算所述兩個或兩個以上圖像中的每一者的所述能量。
[0014] 裝置還可包括裝置顯示器,其經(jīng)配置以顯示至少兩個圖像或針對所述至少兩個圖 像所辨識的數(shù)據(jù)。所述裝置可進(jìn)一步包括確定所述所顯示的圖像中的用戶觸摸的圖像或所 述一個圖像的所顯示的辨識的數(shù)據(jù),及將與所述觸摸的圖像或辨識的數(shù)據(jù)相關(guān)的信息輸入 到程序或應(yīng)用程序中。輸入可包括提交因特網(wǎng)查詢,確定轉(zhuǎn)譯或鍵入文本。
[0015] 在裝置的一個實例中,在存儲所述最終圖像之前,所述裝置經(jīng)進(jìn)一步配置以從來 自所述第一場景的所述兩個或兩個以上圖像的第一圖像中識別具有眩光的第一區(qū),從來自 所述第一場景的所述兩個或兩個以上圖像的第二圖像中識別不具有眩光的第二區(qū),其中所 述第一區(qū)及所述第二區(qū)表示所述第一場景的相同區(qū),且使用所述第一圖像及來自所述第二 圖像的不具有眩光的所述第二區(qū)合成具有減少的眩光的所述最終圖像。
[0016] 一種示范性非暫時性計算機可讀存儲媒體,其中所述非暫時性計算機可讀存儲媒 體包括可由處理器執(zhí)行的指令,所述指令包括用以進(jìn)行以下操作的指令:接收多個圖像; 辨識所述多個圖像中的每一者中的數(shù)據(jù),其中辨識所述多個圖像中的每一者中的數(shù)據(jù)包括 對所述多個圖像執(zhí)行光學(xué)字符辨識;至少部分基于所述辨識的數(shù)據(jù)確定所述多個圖像中的 至少兩個圖像包括來自第一場景的信息;及使用所述至少兩個圖像中的至少一個圖像及與 所述至少一個圖像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來存儲表示所述第一場景的最終圖像。
[0017] 示范性設(shè)備可包含用于接收多個圖像的裝置,用于辨識所述多個圖像中的每一者 中的數(shù)據(jù)的裝置,其中辨識所述多個圖像中的每一者中的數(shù)據(jù)包括對所述多個圖像執(zhí)行光 學(xué)字符辨識,用于至少部分基于所述辨識的數(shù)據(jù)確定所述多個圖像中的至少兩個圖像包括 來自第一場景的信息的裝置,及用于使用所述至少兩個圖像中的至少一個圖像及與所述至 少一個圖像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來存儲表示所述第一場景的最終圖像的裝置??墒褂?相機來連續(xù)俘獲所述多個圖像。可維持所述多個圖像中的所述至少一個圖像及所述至少一 個圖像的所述辨識的數(shù)據(jù)的存儲,同時俘獲后面的圖像且在所述后面的圖像中辨識數(shù)據(jù)。 在一個方面中,確定所述多個圖像中的至少兩個圖像包括來自第一場景的信息可包含比較 兩個或兩個以上圖像中的每一者中的圖形對象值、圖形對象顏色、背景顏色及前景顏色中 的一或多者。
[0018] 在一個實施例中,在存儲所述最終圖像之前,所述方法可進(jìn)一步包括用于使用所 述至少兩個圖像及與所述至少兩個圖像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來合成所述最終圖像及 接著隨后存儲所述最終圖像的裝置。在另一實施例中,在存儲所述最終圖像之前,所述設(shè)備 進(jìn)一步可包括用于從用以表示所述第一場景的所述至少兩個圖像中選擇所述至少一個圖 像作為所述最終圖像及接著隨后存儲所述最終圖像的裝置。選擇可包括用于比較所述兩個 或兩個以上圖像中的每一者的能量的裝置。計算所述兩個或兩個以上圖像中的每一者的所 述能量可基于每一圖像中辨識的數(shù)個圖形對象及用于所述數(shù)個圖形對象中的每一者的辨 識的置信度。
[0019] 在一個實施例中,在存儲所述最終圖像之前,可包含用于從來自所述第一場景的 所述兩個或兩個以上圖像的第一圖像中識別具有眩光的第一區(qū)的裝置,用于從來自所述第 一場景的所述兩個或兩個以上圖像的第二圖像中識別不具有眩光的第二區(qū)的裝置,其中所 述第一區(qū)及所述第二區(qū)表示所述第一場景的相同區(qū),及用于使用所述第一圖像及來自所述 第二圖像的不具有眩光的所述第二區(qū)合成具有減少的眩光的所述最終圖像的裝置。
[0020] 前文已相當(dāng)廣泛地概述了實例的特征及技術(shù)優(yōu)勢以便下面的詳細(xì)描述可被更好 地理解。下文中將描述額外特征及優(yōu)勢。所揭示的概念及特定實例可容易用作用于修改或 設(shè)計用于實現(xiàn)本發(fā)明的相同目的的其它結(jié)構(gòu)的基礎(chǔ)。此些等效構(gòu)造并不偏離所附權(quán)利要求 書的精神及范圍。咸信為本文中所揭示的概念的特性的特征(關(guān)于其組織及操作方法兩 者)以及相關(guān)聯(lián)的優(yōu)勢將在結(jié)合附圖考慮時從以下描述中更好地來理解。圖中的每一者僅 是出于說明及描述的目的而提供的,且并不作為權(quán)利要求書的界限的定義。
【專利附圖】
【附圖說明】
[0021] 通過實例來說明本發(fā)明的方面。參考圖式來提供以下描述,其中遍及全文相似參 考數(shù)字用以指相似元件。雖然本文中描述了一或多個技術(shù)的各種細(xì)節(jié),但其它技術(shù)也是可 能的。在一些情況下,按框圖形式展示熟知結(jié)構(gòu)及裝置以便促進(jìn)各種技術(shù)的描述。
[0022] 由本發(fā)明提供的實例的性質(zhì)及優(yōu)勢的進(jìn)一步理解可參考說明書的剩余部分及圖 式來實現(xiàn),其中相似參考數(shù)字遍及若干圖式用以指類似組件。在一些情況下,子標(biāo)簽與參考 數(shù)字相關(guān)聯(lián)以表示多個類似組件中的一者。當(dāng)在無對現(xiàn)存子標(biāo)簽的說明的情況下對參考數(shù) 字進(jìn)行參考時,參考數(shù)字是指所有此些類似組件。
[0023] 圖1說明并有在實踐本發(fā)明的實施例時使用的裝置的部分的示范性計算機裝置。
[0024] 圖2為說明用于隨著時間的過去對圖像進(jìn)行OCR處理的本發(fā)明的示范性實施例的 流程圖。
[0025] 圖3A說明展示用于圖像的OCR處理的本發(fā)明的非限制性示范性實施例的流程圖。
[0026] 圖3B說明展示用于圖像的OCR處理的本發(fā)明的另一非限制性示范性實施例的流 程圖。
[0027] 圖4描繪展示根據(jù)本發(fā)明的示范性實施例的圖書封面的代表性圖像及相關(guān)聯(lián)的 場景描述符的兩個框圖。
[0028] 圖5描繪展示從表示與存儲的圖像相同的場景的多個圖像中選擇圖像的框圖。
[0029] 圖6說明展示用于檢測來自與存儲的圖像相同的場景的圖像的非限制性示范性 方法的流程圖。
[0030] 圖7描繪展示從多個圖像選擇圖像作為關(guān)鍵圖像的框圖。
[0031] 圖8說明展示用于從多個圖像選擇圖像作為關(guān)鍵圖像的非限制性示范性方法的 流程圖。
[0032] 圖9描繪展示從來自相同場景的多個圖像中集成圖像作為最終圖像的框圖。
[0033] 圖10說明展示用于從來自相同場景的多個圖像合成最終圖像的非限制性示范性 方法的流程圖。
[0034] 圖11描繪展示用于執(zhí)行由本發(fā)明的實施例提供的方法的示范性組件的框圖。
[0035] 圖12描繪展示用于執(zhí)行由本發(fā)明的實施例提供的方法的示范性組件的另一框 圖。
[0036] 圖13A及13B描繪用于含有文本的圖像的示范性場景描述符。
[0037] 圖14描繪說明用于從圖像移除或減少眩光的本發(fā)明的實施例的圖。
[0038] 圖15為說明根據(jù)本發(fā)明的一或多個說明性方面的用于減少或移除圖像中的反射 眩光的本發(fā)明的實施例的流程圖。
[0039] 圖16A、16B、16C及16D描繪使用在具有自動及智能OCR高速緩沖存儲器更新的 OCR高速緩存模式中操作的過度簡化移動裝置的用戶接口的示范性實施方案。
【具體實施方式】
[0040] 在一些實施方案中,在耦合到移動裝置的相機的視野中包括文本的圖像可使用快 照模式或預(yù)覽模式來獲得。在快照模式中,用戶將相機聚焦在文本上,使得用戶關(guān)注于從視 野中俘獲及拍攝照片。所得圖片可由計算機裝置分析且產(chǎn)生OCR結(jié)果。另一方面,預(yù)覽模 式持續(xù)地循環(huán)視野中的文本的辨識及對所獲得的每一圖像或幀執(zhí)行OCR。此模式展示了裝 置正辨識的事物的動態(tài)實時顯示,在一些情況下就在相機取景器旁邊。當(dāng)用戶將可能花費 更多時間來復(fù)查圖像的OCR結(jié)果或利用所述結(jié)果時,用戶可停止圖像俘獲/OCR辨識,且其 后可開始處理當(dāng)前由凍結(jié)俘獲/辨識所顯示的結(jié)果。
[0041] 如相關(guān)技術(shù)應(yīng)用中所實施的,快照模式及預(yù)覽模式不具有用于自動歷史存檔的機 制。當(dāng)用戶面對大輸入目標(biāo)或許多目標(biāo)時,用戶必須依靠通過快照模式或預(yù)覽模式拍攝多 個圖像,凍結(jié)每一圖像的OCR引擎及單獨地分析每一圖像。尤其是在預(yù)覽模式中,用戶處充 斥著在用戶在所關(guān)注的區(qū)域之上使移動裝置緩慢地移動時重復(fù)地拍攝的相同場景的許多 圖像。而且,當(dāng)前OCR系統(tǒng)不具有聚集來自不同OCR結(jié)果的信息以改進(jìn)OCR性能或減少所 得經(jīng)高速緩存圖像中的眩光的機制。
[0042] 本發(fā)明的實施例處理這些及其它問題。
[0043] 圖1說明并有在實踐本發(fā)明的實施例時使用的裝置的部分的示范性計算機裝置。 如圖1中所說明的計算機裝置可作為任何計算機化系統(tǒng)的部分并入于本文中。舉例來說, 計算機裝置100可表示移動裝置的組件中的一些。移動裝置可為具有例如相機150等一或 多個輸入感測輸入或輸入裝置115及例如顯示單元或觸摸屏等一或多個輸入/輸出裝置的 任何計算裝置100。移動裝置的實例包含,但不限于,視頻游戲控制臺、平板計算機、智能電 話、膝上型計算機、上網(wǎng)本或其它便攜式裝置。圖1提供計算機裝置100的一個實施例的 示意性說明,所述計算機裝置可執(zhí)行如本文中所描述的由各種其它實施例提供的方法,及/ 或可充當(dāng)主計算機裝置、遠(yuǎn)程網(wǎng)亭/終端、銷售點裝置、移動裝置、機頂盒及/或計算機裝 置。圖1只是用以提供各種組件的一般性說明,所述組件中的任一者或全部可在適當(dāng)時被 利用。因此,圖1廣泛地說明可如何以相對分離或相對更集成方式來實施個別系統(tǒng)元件。
[0044] 計算機裝置100經(jīng)展示成包括可經(jīng)由總線105電耦合(或可在適當(dāng)時以其它方式 通信)的硬件元件。硬件元件可包含一或多個處理器110,包含但不限于一或多個通用處 理器及/或一或多個專用處理器(例如,數(shù)字信號處理芯片、圖形加速處理器及/或其類似 者);一或多個輸入裝置115,其可包含但不限于相機、傳感器(包含慣性傳感器)、鼠標(biāo)、鍵 盤及/或其類似者;及一或多個輸出裝置120,其可包含但不限于例如圖11及圖12的裝置 顯示器(1118)等顯示單元、打印機及/或其類似者。
[0045] 計算機裝置100可進(jìn)一步包含一或多個非暫時性存儲裝置125 (及/或與其通 信),所述非暫時性存儲裝置可包括但不限于本地及/或網(wǎng)絡(luò)可存取存儲裝置,及/或可包 含但不限于可以編程、閃存可以更新及/或其類似者的磁盤驅(qū)動器、驅(qū)動器陣列、光學(xué)存儲 裝置、固態(tài)存儲裝置(例如,隨機存取存儲器("RAM")及/或只讀存儲器("ROM"))。所 述存儲裝置可經(jīng)配置以實施任何適當(dāng)數(shù)據(jù)存儲裝置,包含但不限于各種文件系統(tǒng)、數(shù)據(jù)庫 結(jié)構(gòu)及/或其類似者。來自圖11及圖12的裝置存儲器1120可使用如上文所論述的一或 多個非暫時性存儲裝置。
[0046] 計算機裝置100還可包含通信子系統(tǒng)130,所述通信子系統(tǒng)可包含但不限于調(diào) 制解調(diào)器、網(wǎng)卡(無線或有線)、紅外線通信裝置、無線通信裝置及/或芯片組(例如, Bluetooth?裝置、802. 11裝置、WiFi裝置、WiMax裝置、蜂窩式通信設(shè)施等)及/或其類似 者。通信子系統(tǒng)130可準(zhǔn)許與網(wǎng)絡(luò)(例如,僅舉一個例子,下文所描述的網(wǎng)絡(luò))、其它計算機 裝置及/或本文中所描述的任何其它裝置交換數(shù)據(jù)。通信子系統(tǒng)130可在一些實施例中被 省略,例如在經(jīng)配置以與其它裝置通信的裝置中。在許多實施例中,計算機裝置100將進(jìn)一 步包括非暫時性工作存儲器135,所述非暫時性工作存儲器可包含RAM或ROM裝置,如上文 所描述。OCR高速緩沖存儲器(1112)可使用非暫時性工作存儲器135來實施,如上文所描 述。
[0047] 計算機裝置100還可包括經(jīng)展示成當(dāng)前位于工作存儲器135內(nèi)的軟件元件,包含 操作系統(tǒng)140、裝置驅(qū)動程序、可執(zhí)行庫及/或其它代碼,例如一或多個應(yīng)用程序145,所述 應(yīng)用程序可包括由各種實施例提供的計算機程序,及/或可經(jīng)設(shè)計以實施方法,及/或配置 由其它實施例提供的系統(tǒng),如本文中所描述。僅通過實例,關(guān)于上文所論述的方法所描述的 一或多個程序可實施為可由計算機(及/或計算機內(nèi)的處理器)執(zhí)行的代碼及/或指令; 接著,在一方面中,所述代碼及/或指令可用以配置及/或調(diào)適通用計算機(或其它裝置) 以執(zhí)行根據(jù)所描述的方法的一或多個操作。
[0048] 這些指令及/或代碼的集合可存儲于計算機可讀存儲媒體上,例如上文所描述的 存儲裝置125。在一些狀況下,存儲媒體可并入于例如計算機裝置100等計算機裝置內(nèi)。在 其它實施例中,存儲媒體可與計算機裝置相分離(例如,可移動媒體,例如壓縮光盤),及/ 或設(shè)置于安裝包中,以使得存儲媒體可用以使用存儲于其上的指令/代碼編程、配置及/或 調(diào)適通用計算機。這些指令可采取可由計算機裝置100執(zhí)行的可執(zhí)行代碼的形式,及/或 可采取源及/或可安裝代碼的形式,所述源及/或可安裝代碼在編譯及/或安裝于計算機 裝置100上(例如,使用多種通??捎玫木幾g器、安裝程序、壓縮/解壓實用程序等中的任 一者)之后接著采取可執(zhí)行代碼的形式。
[0049] 實質(zhì)變化可根據(jù)特定要求來進(jìn)行。舉例來說,還可使用經(jīng)定制的硬件,及/或特定 元件可實施于硬件、軟件(包含便攜式軟件,例如小應(yīng)用程序等)或兩者中。此外,可使用 到其它計算裝置(例如,網(wǎng)絡(luò)輸入/輸出裝置)的連接。
[0050] -些實施例可使用計算機裝置(例如,計算機裝置100)來執(zhí)行根據(jù)本發(fā)明的方 法。舉例來說,所描述的方法的程序中的一些或全部可由計算機裝置100響應(yīng)于處理器110 執(zhí)行含于工作存儲器135中的一或多個指令(其可并入到操作系統(tǒng)140及/或其它代碼中, 例如應(yīng)用程序145)的一或多個序列而執(zhí)行。所述指令可從另一計算機可讀媒體(例如,存 儲裝置125中的一者或一者以上)讀取到工作存儲器135中。僅通過實例,含于工作存儲 器135中的指令序列的執(zhí)行可致使處理器110執(zhí)行本文中所描述的方法的一或多個程序。
[0051] 如本文中所使用,術(shù)語"機器可讀媒體"及"計算機可讀媒體"指參與提供致使機 器以特定方式操作的數(shù)據(jù)的任何媒體。在使用計算機裝置100實施的實施例中,各種計算 機可讀媒體可涉及提供指令/代碼到處理器110以用于執(zhí)行,及/或可用以存儲及/或載 運所述指令/代碼(例如,作為信號)。在許多實施方案中,計算機可讀媒體為物理及/或 有形存儲媒體。所述媒體可采取許多形式,包含但不限于非易失性媒體、易失性媒體及發(fā)射 媒體。非易失性媒體包含例如光盤及/或磁盤,例如存儲裝置125。易失性媒體包含但不限 于動態(tài)存儲器,例如工作存儲器135。發(fā)射媒體包含但不限于同軸電纜、銅線及光纖(包含 電線,所述電線包括總線105)以及通信子系統(tǒng)130的各種組件(及/或通信子系統(tǒng)130提 供與其它裝置的通信的媒體)。因此,發(fā)射媒體還可采取波的形式(包含但不限于無線電、 聲及/或光波,例如在無線電波及紅外線數(shù)據(jù)通信期間產(chǎn)生的波)。
[0052] 舉例來說,物理及/或有形計算機可讀媒體的常見形式包含軟盤、軟磁盤、硬盤、 磁帶或任何其它磁性媒體、CD-ROM、任何其它光學(xué)媒體、穿孔卡片、紙帶、具有孔模式的任何 其它物理媒體、狀1、?1?01』?1?0141^3^?1?01、任何其它存儲器芯片或匣、如下文中所描述 的載波或計算機可讀取指令及/或代碼的任何其它媒體。
[0053] 各種形式的計算機可讀媒體可涉及將一或多個指令的一或多個序列載運到處理 器110以用于執(zhí)行。僅通過實例,指令最初可載運于遠(yuǎn)程計算機的磁盤及/或光盤上。遠(yuǎn) 程計算機可將指令加載到其動態(tài)存儲器中,及將待由計算機裝置100接收及/或執(zhí)行的指 令作為信號經(jīng)由發(fā)射媒體發(fā)送。根據(jù)本發(fā)明的各種實施例,可呈電磁信號、聲信號、光學(xué)信 號及/或其類似者的形式的這些信號皆為載波的實例,可在所述載波上對指令編碼。
[0054] 通信子系統(tǒng)130 (及/或其組件)通常將接收信號,且總線105接著可將信號(及 /或由信號載運的數(shù)據(jù)、指令等)載運到工作存儲器135,處理器110從所述工作存儲器檢 索及執(zhí)行指令。由工作存儲器135接收的指令可視情況在由處理器110執(zhí)行之前或之后存 儲于非暫時性存儲裝置125上。
[0055] 上文所論述的方法、系統(tǒng)及裝置為實例。各種實施例可在適當(dāng)時省略、替換或添加 各種程序或組件。舉例來說,在替代配置中,所描述的方法可按不同于所描述的次序的次序 執(zhí)行,及/或可添加、省略及/或組合各種階段。而且,參考某些實施例所描述的特征可組 合于各種其它實施例中。實施例的不同方面及元件可以類似方式組合。而且,技術(shù)演進(jìn)且 因此許多元件為不將本發(fā)明的范圍限于所述特定實例的實例。
[0056] 在描述中給出特定細(xì)節(jié)以提供對實施例的全面理解。然而,可在無這些特定細(xì)節(jié) 的情況下實踐實施例。舉例來說,已展示熟知電路、過程、算法、結(jié)構(gòu)及技術(shù)而無不必要的細(xì) 節(jié)以便避免混淆實施例。此描述僅提供實例實施例,且不意欲限制本發(fā)明的范圍、適用性或 配置。而是,實施例的先前描述將會將有利地用于實施本發(fā)明的實施例的描述提供給所屬 領(lǐng)域的技術(shù)人員??蓪υ墓δ芗安贾米鞒龈鞣N改變而不脫離本發(fā)明的精神及范圍。
[0057] 而且,將一些實施例描述為經(jīng)描繪為流程圖或框圖的過程。盡管各自可將操作描 述為順序過程,但許多操作可并行地或同時來執(zhí)行。另外,可重新布置操作的次序。過程可 具有圖中所不包含的額外步驟。此外,方法的實施例可由硬件、軟件、固件、中間件、微碼、硬 件描述語言或其任何組合來實施。當(dāng)以軟件、固件、中間件或微碼來實施時,用以執(zhí)行相關(guān) 聯(lián)的任務(wù)的程序代碼或代碼段可存儲于計算機可讀媒體中,例如存儲媒體。處理器可執(zhí)行 相關(guān)聯(lián)的任務(wù)。
[0058] 本文中描述了若干實施例,但可使用各種修改、替代構(gòu)造及等效物而不脫離本發(fā) 明的精神。舉例來說,上文元件可僅為較大系統(tǒng)的組件,其中其它規(guī)則可優(yōu)先于或以其它方 式修改本發(fā)明的應(yīng)用。而且,可在考慮元件之前、期間或之后開始進(jìn)行數(shù)個步驟。因此,本 文中的描述不限制本發(fā)明的范圍。
[0059] 如本文中所描述,來自圖像的圖形對象可包含,但不限于,一或多個符號、字母數(shù) 字字符、字、標(biāo)記、數(shù)字、文本或姿勢。舉例來說,圖像中的圖形對象可為任何語言中的字或 語句。字可在一些語言中表示為符號。類似地,一種語言或文化中的語句可簡單地使用另 一語言或文化中的符號來表示。在另一實例中,圖形對象可為例如ST0P、YIELD等路標(biāo)。不 同圖形對象可在不同區(qū)、語言或文化中用以表示相同含義。
[0060] 圖2為說明用于隨著時間的過去對圖像進(jìn)行處理的本發(fā)明的示范性實施例的流 程圖。上文參考圖1所論述的計算機裝置100可表示用于執(zhí)行圖2中所描述的本發(fā)明的實 施例的移動裝置的組件中的一些。圖11中所論述的模塊及組件可實施為圖1中所論述的 計算裝置100的組件,且可用于執(zhí)行如圖2中所論述的本發(fā)明的實施例。下文所論述的模 塊及組件可使用軟件、硬件、固件或其任何組合來執(zhí)行。在一方面中,在本文中被稱作OCR 高速緩存模式的模式中,耦合到計算機裝置100的相機隨著時間的過去持續(xù)地獲得圖像。
[0061] 在圖2中,多個圖像由1 (202)表示,其中每一 1202表示不同的接收的圖像。在一 個實施例中,圖像俘獲模塊1102可使用耦合到計算裝置100的一或多個相機150獲得或接 收圖像。在本發(fā)明的方面中,在接收到圖像時,OCR引擎206(圖11的1104)可處理圖像, 產(chǎn)生每一圖像的OCR結(jié)果210,辨識多個圖像中的每一者中的數(shù)據(jù)。OCR引擎206可實施 于硬件、軟件或固件中。用于實施于軟件/固件中的OCR的指令可暫時存儲于工作存儲器 135中且執(zhí)行于計算裝置100的一或多個處理器110上。在一些實施例中,由OCR引擎206 處理的OCR中的一些或全部可由經(jīng)由網(wǎng)絡(luò)連接到計算裝置100的遠(yuǎn)程服務(wù)器(未圖示)執(zhí) 行。在一些實施例中,隨著時間的過去改進(jìn)了所存儲的結(jié)果的圖像質(zhì)量。舉例來說,在一個 實施例中,除了執(zhí)行OCR之外或獨立于執(zhí)行0CR,可從圖像移除眩光。在OCR高速緩存模式 中,隨著時間的過去使用快照模式獲得的圖像還可使用本文中所描述的技術(shù)將圖像智能地 及自動地存儲于OCR高速緩沖存儲器中。OCR高速緩沖存儲器可使用存儲裝置125、工作存 儲器135、硬件寄存器(未圖示)或緩沖器或其任何組合來實施。
[0062] OCR結(jié)果可由描述圖像的特性的關(guān)于圖像的額外數(shù)據(jù)組成。在一個實施方案中,場 景描述符產(chǎn)生器模塊1106產(chǎn)生圖像的OCR結(jié)果作為圖像的場景描述符,且將其暫時地存儲 于OCR高速緩沖存儲器中。在場景描述符模塊1106產(chǎn)生場景描述符之后,計算裝置100的 例如匹配模塊1108等組件可通過使用匹配過程來檢測與相同場景相關(guān)聯(lián)的圖像。在一個 實施方案中,匹配模塊可在匹配過程期間比較與圖像相關(guān)聯(lián)的場景描述符。在圖2中,來自 OCR結(jié)果212及214的辨識的數(shù)據(jù)與場景A相關(guān)聯(lián),OCR結(jié)果216與場景B相關(guān)聯(lián),OCR結(jié) 果218及222與場景C相關(guān)聯(lián),且OCR結(jié)果220與場景D相關(guān)聯(lián)。
[0063] 替代將全部212到222 OCR結(jié)果及相關(guān)聯(lián)的圖像存儲于OCR高速緩沖存儲器224 中,OCR高速緩存系統(tǒng)可智能地及自動地存儲用于每一場景的僅一個細(xì)化的圖像及OCR結(jié) 果。計算裝置100的例如選擇模塊1110等組件可從來自場景的多個圖像中選擇圖像以存 儲于OCR高速緩沖存儲器224中。由選擇模塊1110選擇圖像的過程可被稱作選擇過程。 舉例來說,在圖2中,表示場景A的對應(yīng)于OCR結(jié)果212及214的圖像可作為V (228)存 儲于OCR高速緩沖存儲器224中。最終合成或選擇的圖像及場景描述符使用對應(yīng)于212及 214的圖像存儲于OCR高速緩沖存儲器224中。在一個方面中,選擇模塊作為選擇過程的部 分計算與每一圖像相關(guān)聯(lián)的能量。與圖像相關(guān)聯(lián)的能量可表示與圖像相關(guān)聯(lián)的清晰度及分 辨率。圖像及與來自兩個圖像(對應(yīng)于212及214)的較高能量相關(guān)聯(lián)的場景描述符可作 為A' (228)存儲于OCR高速緩沖存儲器224中。OCR高速緩沖存儲器(224)可使用非暫 時性工作存儲器135來實施,如上文參考圖1所描述。
[0064] 在另一實施方案中,集成模塊1114可使用212與214之間的不同圖像質(zhì)量及OCR 結(jié)果加上從關(guān)鍵圖像丟失的圖像數(shù)據(jù),同時合成最終A' (228)。合成最終結(jié)果的過程可被 稱作集成過程。在一個實例中,來自場景的圖像中的一者(據(jù)稱對應(yīng)于212)可具有與圖像 的區(qū)相關(guān)聯(lián)的眩光。集成過程可通過從對應(yīng)于212的圖像識別具有眩光的第一區(qū),從對應(yīng) 于214的圖像識別具有眩光的第二區(qū)來促進(jìn)移除眩光,其中第一區(qū)及第二區(qū)表示場景A的 相同區(qū);及使用對應(yīng)于212的圖像及來自對應(yīng)于214的圖像的不具有眩光的第二區(qū)合成最 終圖像以移除眩光。
[0065] 類似地,對應(yīng)于218及222的圖像經(jīng)辨識為與相同場景C相關(guān)聯(lián)且經(jīng)合成以形成 最終圖像及場景描述符C' (232)。如本文中所描述,合成圖像可包含但不限于:更新或替 換圖像或包含OCR高速緩沖存儲器中的圖像的場景描述符或圖像的表示的任何相關(guān)聯(lián)的 數(shù)據(jù)。因此,在一些實施例中,合成圖像或?qū)⒍鄠€圖像合成在一起可包含例如用來自第二圖 像(或具有多個圖像)的數(shù)據(jù)更新或修改與第一圖像相關(guān)聯(lián)的數(shù)據(jù),而不改變或修改第一 圖像的外觀或視覺表示。對應(yīng)于216的圖像為唯一的表示場景B的圖像。一旦匹配模塊 1108確定對應(yīng)于216的圖像為唯一的表示場景B的圖像,插入模塊1116便可將對應(yīng)于216 的圖像存儲于OCR高速緩沖存儲器224中高速緩沖存儲器位置230處。類似地,對應(yīng)于220 的圖像為唯一的表示場景D的圖像,且可存儲于OCR高速緩沖存儲器224中高速緩沖存儲 器位置234處。
[0066] 接收的圖像可與具有與存儲于暫時緩沖器、OCR高速緩沖存儲器224或其它合適 的存儲媒體中的相同場景相關(guān)聯(lián)的其它圖像的場景相關(guān)聯(lián)。如果新近接收的圖像匹配存儲 于OCR高速緩沖存儲器224中的相同場景的圖像及OCR結(jié)果,那么OCR高速緩沖存儲器224 中的信息可由集成模塊1114在集成最近接收的圖像的結(jié)果之后針對所述場景進(jìn)行更新。 [0067] 在一個方面中,在接收到圖像時立即處理所述圖像。在另一實施例中,所獲得的圖 像被暫時存儲且分批一起處理,從而潛在地允許較少的OCR高速緩沖存儲器更新。在又一 實施例中,滑動窗口可用以一起處理屬于特定時間窗口內(nèi)的圖像。處理可在移動裝置(例 如,計算裝置100)處執(zhí)行,或可將信息發(fā)射到遠(yuǎn)程服務(wù)器或處理器以供處理。舉例來說,在 一個實施方案中,計算裝置100可接收多個圖像及將圖像或與圖像相關(guān)的信息發(fā)射到遠(yuǎn)程 服務(wù)器以執(zhí)行OCR、匹配過程、選擇過程及/或集成過程。
[0068] 此智能及自動OCR高速緩沖存儲器更新對用戶來說是有利的,因為這可允許用戶 存取與相同場景或與多個場景相關(guān)聯(lián)的所有信息。此外,在隨著時間的過去與相同場景的 多個圖像之間的圖像信息重疊的情況下,本文中所描述的技術(shù)可存儲與場景相關(guān)聯(lián)的最佳 信息或新獲取的信息,因此隨著時間的過去進(jìn)一步細(xì)化結(jié)果。與本文中所描述的技術(shù)相關(guān) 聯(lián)的其它優(yōu)勢可包含存儲OCR結(jié)果所需的存儲器空間減少及對OCR高速緩沖存儲器的命中 數(shù)目減少,從而導(dǎo)致整個系統(tǒng)中的較快性能。
[0069] 通過實例,如果用戶正坐在餐館里且使用用于使用快照模式或預(yù)覽模式獲取圖像 的傳統(tǒng)手段對晚餐菜單執(zhí)行0CR,那么用戶可需要單獨地獲取多個圖像且順序地處理與所 述圖像中的每一者相關(guān)聯(lián)的信息。如果用戶離晚餐菜單太遠(yuǎn)地抓住獲取圖像的相機,那么 圖像可不具有足夠的分辨率來適當(dāng)?shù)貙D像執(zhí)行OCR。另一方面,如果用戶使獲取圖像的相 機太靠近,那么圖像可不包含所關(guān)注的整個區(qū)域。然而,在具有自動及智能OCR高速緩沖存 儲器更新的OCR高速緩存模式中使用本發(fā)明的方面,本文中所描述的技術(shù)允許用戶產(chǎn)生包 含來自菜單的用戶所關(guān)注的區(qū)域的單個圖像,其中以良好的分辨率進(jìn)行恰當(dāng)聚焦。在一個 情況中,用戶可選擇從菜單中選擇文本且將其轉(zhuǎn)譯為另一語言或使用專屬或在線搜索引擎 執(zhí)行搜索。在一些實施例中,用戶可從菜單選擇文本以進(jìn)入到應(yīng)用程序或程序(例如,文本 消息傳遞或電子郵件程序或字處理器)中。
[0070] 圖3A說明展示根據(jù)本發(fā)明的一或多個說明性方面的用于處理圖像的本發(fā)明的非 限制性示范性實施例的流程圖。根據(jù)一或多個方面,本文中所描述的方法及/或方法步驟 中的任一者及/或全部可由計算裝置100實施及/或?qū)嵤┯谟嬎阊b置100中,例如計算裝 置100及/或例如圖1中更詳細(xì)所描述的裝置。在一個實施例中,下文參看圖3A所描述的 方法步驟中的一者或一者以上由裝置100的處理器(例如,處理器110或另一處理器)實 施。圖11及圖12中所論述的模塊及組件也可實施為計算裝置100的組件,且可用于執(zhí)行 如圖3A中所論述的本發(fā)明的實施例。另外或替代性地,本文中所描述的方法及/或方法步 驟中的任一者及/或全部可實施于計算機可讀指令中,例如存儲于計算機可讀媒體(例如, 存儲器135、存儲裝置125或另一計算機可讀媒體)上的計算機可讀指令。
[0071] 在圖3A中,上文參考圖1論述的計算裝置100及圖11及圖12中所論述的模塊及 組件可表示用于執(zhí)行本發(fā)明的實施例的裝置的模塊及組件中的一些。在步驟302處,耦合 到計算裝置100的相機150接收或獲得多個圖像。相機150可表示圖1中所描述的輸入裝 置115中的一者。在一個實施方案中,來自圖11的圖像俘獲模塊1102可用于獲得圖像。在 一些實施例中,可連續(xù)地接收多個圖像。在其它實施例中,例如在多個相機150或立體相機 耦合到計算裝置100時,可同時接收圖像。在步驟304處,接收的圖像及與圖像相關(guān)聯(lián)的數(shù) 據(jù)彼此間進(jìn)行比較且還與存儲于OCR高速緩沖存儲器224中的OCR結(jié)果及圖像進(jìn)行比較, 以確定一個以上圖像是否與相同場景相關(guān)聯(lián)。在一個實施方案中,OCR高速緩沖存儲器從 圖1中所描述的工作存儲器135開始操作。
[0072] 在框306處,如果檢測到與相同場景相關(guān)聯(lián)的一個以上圖像,那么圖像可經(jīng)由集 成過程集成或合成在一起以形成合成的圖像。在一個方面中,選擇過程在集成過程之前。在 選擇過程期間,表示場景的關(guān)鍵圖像可選自表示場景的多個圖像,其中多個圖像中的一或 多者可存儲于計算裝置1〇〇上。關(guān)鍵圖像可通過計算與每一圖像相關(guān)聯(lián)的能量來確定。在 一個實施方案中,與每一圖像相關(guān)聯(lián)的能量與使用OCR引擎辨識的字的數(shù)目及與每一圖像 的OCR結(jié)果相關(guān)聯(lián)的置信度成正比。在一個實施例中,關(guān)鍵圖像可為存儲于OCR高速緩沖 存儲器中的圖像。在其它實施方案中,關(guān)鍵圖像可通過使用來自相同場景的各種圖像的信 息合成最終圖像,之后將所述圖像存儲于OCR高速緩沖存儲器中來增強或擴增。舉例來說, 如果關(guān)鍵圖像中所顯示的字可不被譯碼或不可被檢測到,那么來自相同場景的其它圖像的 信息可用以增強圖像及與圖像相關(guān)聯(lián)的數(shù)據(jù)。在另一實例中,來自關(guān)鍵圖像的區(qū)的眩光可 通過使用來自相同場景的不具有與關(guān)鍵圖像相同的區(qū)的眩光的另一圖像的信息來移除。如 上文所描述,可甚至在無 OCR的情況下從圖像減少或移除眩光。來自各種圖像的信息可用 于合成可存儲于OCR高速緩沖存儲器或另一高速緩沖存儲器(例如,可或可不包含OCR信 息的圖像高速緩沖存儲器)中的最終圖像。舉例來說,圖像高速緩沖存儲器可用以存儲具 有減少的眩光的最終圖像。在一些實施例中,此圖像1?速緩沖存儲器可省略O(shè)CR /[目息或可 包含OCR信息。
[0073] 在框308處,一旦由計算裝置100合成最終圖像,所述圖像便可存儲于OCR高速緩 沖存儲器中。在一些情況下,更新或替換OCR高速緩沖存儲器中的預(yù)先存在的圖像及OCR 結(jié)果。舉例來說,如果接收的或獲得的圖像與同存儲于OCR高速緩沖存儲器中的場景相同 的場景相關(guān)聯(lián),但具有比存儲于OCR高速緩沖存儲器中的圖像更佳的分辨率及清晰度,那 么可更新或替換OCR高速緩沖存儲器中的圖像及OCR結(jié)果以反映與新接收的圖像相關(guān)聯(lián)的 信息。如本文中所描述,合成圖像可包含,但不限于,更新或替換圖像或包含OCR高速緩沖 存儲器中的圖像的場景描述符的部分或圖像的表示的任何相關(guān)聯(lián)的數(shù)據(jù)。
[0074] 應(yīng)了解,圖3A中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間 切換的特定方法。也可在替代實施例中相應(yīng)地執(zhí)行步驟的其它序列。舉例來說,本發(fā)明的替 代實施例可執(zhí)行上文中按不同次序概述的步驟。為了進(jìn)行說明,用戶可選擇從第三操作模 式改變到第一操作模式,從第四模式改變到第二模式,或其間的任何組合。此外,圖3A中所 說明的個別步驟可包含可在對個別步驟來說適當(dāng)時按各種序列執(zhí)行的多個子步驟。此外, 取決于特定應(yīng)用,可添加或移除額外步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識到及了解到過程的 許多變化、修改及替代例。
[0075] 圖3B說明展示根據(jù)本發(fā)明的一或多個說明性方面的用于處理圖像的本發(fā)明的另 一非限制性示范性實施例的流程圖。根據(jù)一或多個方面,本文中所描述的方法及/或方法 步驟中的任一者及/或全部可由計算裝置100實施及/或?qū)嵤┯谟嬎阊b置100中,例如計 算裝置100及/或例如圖1中更詳細(xì)所描述的裝置。在一個實施例中,下文參看圖3B所描 述的方法步驟中的一者或一者以上由裝置100的處理器(例如,處理器110或另一處理器) 實施。圖11及圖12中所論述的模塊及組件也可實施為計算裝置100的組件,且可用于執(zhí) 行如圖3B中所論述的本發(fā)明的實施例。另外或替代性地,本文中所描述的方法及/或方法 步驟中的任一者及/或全部可實施于計算機可讀指令中,例如存儲于計算機可讀媒體(例 如,存儲器135、存儲裝置125或另一計算機可讀媒體)上的計算機可讀指令。
[0076] 在圖3B中,上文參考圖1論述的計算裝置100及圖11及圖12中所論述的模塊及 組件可表示用于執(zhí)行本發(fā)明的實施例的裝置的模塊及組件中的一些。在步驟310處,耦合 到計算裝置100的相機150接收或獲得多個圖像。相機150可表示圖1中所描述的輸入裝 置115中的一者。在一個實施方案中,來自圖11的圖像俘獲模塊1102可用于獲得圖像。在 一些實施例中,可連續(xù)地接收多個圖像。在其它實施例中,例如在多個相機150或立體相機 耦合到計算裝置100時,可同時接收圖像。
[0077] 在步驟312處,計算裝置100的例如OCR引擎1104或/及場景描述符模塊1106 等組件可辨識多個圖像中的每一者中的數(shù)據(jù),其中辨識多個圖像中的每一者中的數(shù)據(jù)包括 對多個圖像執(zhí)行光學(xué)字符辨識。在辨識數(shù)據(jù)時由OCR引擎1104及場景描述符1106執(zhí)行的 步驟更詳細(xì)地描述于圖4及圖11中。
[0078] 在步驟314處,計算裝置100的例如匹配模塊1108等組件可至少部分基于辨識的 數(shù)據(jù)確定多個圖像中的至少兩個圖像包括來自第一場景的信息。在圖5、6、7、8及11中更 詳細(xì)地描述由匹配模塊1108執(zhí)行的步驟。
[0079] 在步驟316處,計算裝置100的例如集成模塊1114等組件可使用至少兩個圖像中 的至少一個圖像及與所述至少一個圖像相關(guān)聯(lián)的辨識的數(shù)據(jù)來存儲表示第一場景的最終 圖像。在一個實施例中,如果檢測到與相同場景相關(guān)聯(lián)的一個以上圖像,那么圖像可經(jīng)由集 成過程集成或合成在一起以形成合成的圖像。在圖8、9、10及11中更詳細(xì)地描述由集成模 塊1114執(zhí)行的步驟。
[0080] 應(yīng)了解,圖3B中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間 切換的特定方法。也可在替代實施例中相應(yīng)地執(zhí)行步驟的其它序列。舉例來說,本發(fā)明的替 代實施例可執(zhí)行上文中按不同次序概述的步驟。為了進(jìn)行說明,用戶可選擇從第三操作模 式改變到第一操作模式,從第四模式改變到第二模式,或其間的任何組合。此外,圖3B中所 說明的個別步驟可包含可在對個別步驟來說適當(dāng)時按各種序列執(zhí)行的多個子步驟。此外, 取決于特定應(yīng)用,可添加或移除額外步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識到及了解到過程的 許多變化、修改及替代例。
[0081] 可處理由計算裝置100接收的圖像以產(chǎn)生場景描述符。在圖4及圖13中更詳細(xì) 地描述產(chǎn)生場景描述符的結(jié)構(gòu)及過程。一旦產(chǎn)生接收的圖像的場景描述符,接收的圖像便 與其它圖像進(jìn)行匹配或比較,以確定其是否屬于存儲于計算裝置100上的圖像的場景中的 至少一者。圖5及圖6更詳細(xì)地描述匹配過程。如果發(fā)現(xiàn)匹配,那么使用與每一圖像相關(guān) 聯(lián)的能量從屬于相同場景的多個圖像中選擇關(guān)鍵圖像。圖7及圖8更詳細(xì)地描述關(guān)鍵圖像 的選擇過程。一旦選擇關(guān)鍵圖像,便可集成圖像以形成具有更新的場景描述符的新合成的 圖像,且可更新OCR高速緩沖存儲器。在圖9及圖10中更詳細(xì)地描述集成過程。圖11描 述本發(fā)明的實施例的不同模塊及組件以及所述組件之間的相關(guān)聯(lián)的流程。圖12進(jìn)一步描 述圖11,且具有額外的跟蹤組件。圖14及15描述用于在將圖像存儲于高速緩沖存儲器中 時從圖像減少或移除眩光的本發(fā)明的示范性實施例。圖16A、16B、16C及16D描述使用本文 中針對示范性計算裝置100所描述的技術(shù)的示范性O(shè)CR高速緩沖存儲器更新情形。
[0082] 圖4描繪展示根據(jù)本發(fā)明的示范性實施例的圖書封面的代表性圖像及相關(guān)聯(lián)的 場景描述符的圖。在本發(fā)明的方面中,圖像俘獲模塊1102接收一或多個圖像且OCR引擎 1104對一或多個圖像執(zhí)行OCR。場景描述符模塊1106可處理圖像,且可為圖像產(chǎn)生表示與 圖像相關(guān)聯(lián)的特性的場景描述符。在確定接收的或存儲的圖像中的任一者是否屬于相同場 景的匹配過程期間,場景描述符可由匹配模塊在比較各種圖像時使用。
[0083] 場景描述符可關(guān)于圖像的表示圖形對象的部分進(jìn)行定義。圖形對象可包含,但不 限于,符號、字符、字、文本、標(biāo)記及數(shù)字。如圖4中所示,在一個實施方案中,場景描述符為 關(guān)于文本的數(shù)據(jù)(例如,文本顏色、背景顏色及圍繞一或多個字的邊界框)編目錄。由計算 裝置100檢測的圖形對象的特性可包含一元特性及二元特性。一元特性可包含,但不限于, 圖形對象內(nèi)容、圖形對象顏色、前景顏色、背景顏色及圖像的包括圖形對象的部分的尺寸。 圖形對象的二元特性可包括圖形對象相對于彼此及圖像的幾何關(guān)系。在本發(fā)明的一些方面 中,二元特性可使用描述圖像中的圖形對象彼此間的不同幾何關(guān)系的關(guān)聯(lián)矩陣來表示。
[0084] 返回參看圖4的框402,場景描述符模塊1106可識別圖像的包括字"從數(shù)據(jù)學(xué)習(xí)"、 "概念、理論及方法"及"第二版"的部分。每一字可被當(dāng)作場景描述符內(nèi)的單獨描述實體, 例如圖4中的"數(shù)據(jù)"406。而且,字可分組在一起以形成集體描述實體,例如"第二版"412。
[0085] 在圖4中,包括文本"數(shù)據(jù)"的由框406表示的部分被描述為場景描述符404中由 "字3"表示的單獨描述實體408。字描述實體408的一元特性可經(jīng)由數(shù)據(jù)結(jié)構(gòu)表示,所述數(shù) 據(jù)結(jié)構(gòu)具有表示文本/內(nèi)容(即,數(shù)據(jù))、文本顏色(即,白色)、背景顏色(即,黑色)及邊 界框或/及尺寸的字段。場景描述符模塊1106可組織用于每一字的信息,且將其存儲于數(shù) 據(jù)結(jié)構(gòu)、類對象或任何其它合適的手段中。類似地,表示與圖像的場景描述符相關(guān)聯(lián)的字的 結(jié)構(gòu)可使用鏈表、隊列或用于檢索、索引及/或更新信息的任何其它合適的手段來組織及 存儲于存儲裝置125或存儲器135中。
[0086] 除了一元特性之外,每一字的二元特性還可由圖像(未圖示)中的每一字的場景 描述模塊1106存儲。二元特性包含,但不限于,字相對于彼此的幾何關(guān)系。在圖4中,字 "學(xué)習(xí)"的二元特性可包含字相對于其它字及圖像自身的空間關(guān)系。舉例來說,"學(xué)習(xí)"是空 間上在左上方的第一字,且其右邊具有字"從",且下邊具有"概念"。比較不同場景的二元 特性可為有利的,其中具有類似字符的類似字在不同場景中用以產(chǎn)生不同語句。在一個實 例中,比較字的二元特性可允許計算裝置使用字相對于彼此的相對位置而更有效地發(fā)現(xiàn)匹 配。
[0087] 圖5描繪說明由計算裝置100接收的多個圖像與各種場景之間的匹配過程的圖。 上文參考圖1所論述的計算裝置100可表示用于執(zhí)行圖5中所描述的本發(fā)明的實施例的裝 置的組件中的一些。圖11及圖12中所論述的模塊及組件(例如,匹配模塊1108)也可實 施為計算裝置100的組件,且可用于執(zhí)行如圖5中所論述的本發(fā)明的實施例。圖像502表 示使用耦合到計算裝置100的相機150接收的圖像。在一個實施例中,圖像俘獲模塊1102 俘獲圖像以供進(jìn)一步處理且將圖像數(shù)據(jù)傳遞到OCR引擎1104。OCR引擎1104處理圖像502 以產(chǎn)生OCR結(jié)果,例如與圖像相關(guān)聯(lián)的數(shù)據(jù)。如圖4中所論述,產(chǎn)生場景描述符,且其與圖 像502相關(guān)聯(lián)。圖像504及圖像506為在圖像502之前獲得的圖像且具有相關(guān)聯(lián)的場景描 述符。計算裝置1〇〇的組件可在暫時緩沖器處或在OCR高速緩沖存儲器中存儲圖像504及 506。在一個實施方案中,暫時緩沖器或OCR高速緩沖存儲器1112可使用圖1中所描述的 工作存儲器135的區(qū)段。
[0088] 計算裝置100的例如匹配模塊1108等組件可將圖像502的場景描述符的一元及/ 或二元特性與圖像504及506的場景描述符的一元及/或二元特性進(jìn)行比較。舉例來說,圖 像502具有用于"學(xué)習(xí)"、"從"及"數(shù)據(jù)"的字描述實體。然而,圖像506僅具有用于"學(xué)習(xí)" 的字描述實體。即使在來自圖像502的"學(xué)習(xí)"與來自圖像506的"學(xué)習(xí)"之間存在正一元 匹配,兩個字的二元特性仍將不匹配。在圖像506中,"學(xué)習(xí)"并不是左邊的第一字,且其右 邊并不具有從,如圖像502中的狀況。因此,本發(fā)明的實施例可推斷圖像502及圖像506不 屬于相同場景。
[0089] 相對比地,與圖像502及圖像504的場景描述符相關(guān)聯(lián)的一元及二元特性可形成 正匹配。兩個圖像具有以因子按比例縮放以考慮到不同分辨率的圖像中的每一字的相同一 元特性。而且,字之間的幾何關(guān)系在兩個圖像中是相同的。圖像502與圖像504之間的唯 一顯著差異在于圖像504不具有"第二版"作為圖像的部分。本發(fā)明的方面可實施用于折 減來自相同場景的圖像之間的此些差異的機制。
[0090] 在一個實施方案中,計算裝置100的例如匹配模塊1108等組件可將權(quán)重指派給場 景描述符的任何兩個給定特性之間的每一相似性及差異。經(jīng)指派的權(quán)重對于相似性來說可 是做加法,且對于差異來說是做減法。閾值可被產(chǎn)生或預(yù)定。如果兩個圖像的場景描述符 中的相似性及差異的加權(quán)求和高于閾值,那么匹配模塊1108可將兩個給定圖像與相同場 景相關(guān)聯(lián)。如果兩個圖像的場景描述符中的相似性及差異的加權(quán)求和低于閾值,那么圖像 可被視為表示不同場景。
[0091] 圖6說明展示用于將所獲得的圖像與所存儲的圖像的場景相關(guān)聯(lián)的非限制性示 范性匹配過程的流程圖。在步驟602處,計算裝置100的例如匹配模塊1108等組件對接收 的圖像執(zhí)行OCR。上文參考圖1所論述的計算機裝置100可表示用于執(zhí)行圖6中所描述的 本發(fā)明的實施例的移動裝置的組件中的一些。使用耦合到計算裝置100的相機150獲得圖 像。在步驟604處,可例如使用場景描述符產(chǎn)生器1106產(chǎn)生接收的圖像的場景描述符。如 參考圖4所描述,圖像的包括圖形對象(例如文本)的部分可經(jīng)辨識及在場景描述符中進(jìn) 一步表征。對于每一圖形對象,可定義一元及二元特性兩者。一元特性可包含,但不限于,圖 形對象內(nèi)容、圖形對象顏色、前景顏色、背景顏色及圖像的包括圖形對象的部分的尺寸。圖 形對象的二元特性可包括圖形對象相對于彼此及圖像的幾何關(guān)系。每一圖形對象的經(jīng)定義 的特性可存儲于數(shù)據(jù)結(jié)構(gòu)、類對象中或使用任何其它合適手段。
[0092] 在步驟610處,例如由匹配模塊1108將接收的圖像的場景描述符與先前獲得且存 儲或緩存于計算裝置100上的圖像的場景描述符進(jìn)行比較。先前獲得的圖像及其相關(guān)聯(lián)的 場景描述符可存儲于暫時緩沖器、OCR高速緩沖存儲器或使用存儲裝置125、存儲器135或 硬件寄存器的任何其它合適的存儲媒體中。在比較場景描述符(步驟610)時,在步驟606 處,接收的圖像的場景描述符的一元特性可與同存儲的圖像相關(guān)聯(lián)的場景描述符的一元特 性進(jìn)行比較。在步驟608處,接收的圖像的場景描述符的二元特性可與同存儲的圖像相關(guān) 聯(lián)的場景描述符的二元特性進(jìn)行比較。
[0093] 在一個實施方案中,場景描述符的任何兩個給定特性之間的每一相似性可具有與 其相關(guān)聯(lián)的經(jīng)指派的權(quán)重。經(jīng)指派的權(quán)重對于相似性來說可為反射的,且對于差異來說是 做減法。閾值可被產(chǎn)生或預(yù)定。在步驟612處,如果兩個圖像的場景描述符中的相似性的加 權(quán)求和高于閾值,那么計算裝置100的組件可例如使用選擇模塊1110及/或集成模塊1114 將圖像與相同場景相關(guān)聯(lián)(框616)。另一方面,如果兩個圖像的場景描述符中的相似性的 加權(quán)求和低于閾值,那么圖像可被視為表示不同場景(框614)。可反復(fù)地或遞歸地重復(fù)方 法600中所描述的部分流程以比較所有先前存儲的圖像的場景描述符與其來自暫時存儲 器、OCR高速緩沖存儲器1112或任何其它合適的存儲媒體的相關(guān)聯(lián)的場景描述符。
[0094] 應(yīng)了解,圖6中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切 換的特定方法。也可在替代實施例中相應(yīng)地執(zhí)行步驟的其它序列。舉例來說,本發(fā)明的替 代實施例可執(zhí)行上文中按不同次序概述的步驟。為了進(jìn)行說明,用戶可選擇從第三操作模 式改變到第一操作模式,從第四模式改變到第二模式,或其間的任何組合。此外,圖6中所 說明的個別步驟可包含可在對個別步驟來說適當(dāng)時按各種序列執(zhí)行的多個子步驟。此外, 取決于特定應(yīng)用,可添加或移除額外步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識到及了解到過程的 許多變化、修改及替代例。
[0095] 圖7描繪展示從屬于相同場景的多個圖像選擇圖像作為關(guān)鍵圖像的過程的框圖。 如圖4、圖5及圖6中所描述,在由計算裝置100接收的圖像之后,計算裝置100可產(chǎn)生圖像 的場景描述符,且將所述圖像與先前獲得及存儲的其它圖像進(jìn)行匹配。在一個實施方案中, 計算裝置從屬于相同場景的多個圖像中選擇關(guān)鍵圖像。從多個圖像中選擇關(guān)鍵圖像的過程 可被稱作選擇過程,且可由計算裝置100的例如來自圖11及12的選擇模塊1110等組件執(zhí) 行。參看圖7,群組I具有與第一場景相關(guān)聯(lián)的3個圖像,且群組II具有與第二場景相關(guān)聯(lián) 的3個圖像。最終關(guān)鍵圖像被選擇及顯示于群組I及群組II的最右列中。關(guān)鍵圖像可為 表示場景的存儲于OCR高速緩沖存儲器1112中的候選圖像。在一些情況下,與關(guān)鍵圖像相 關(guān)的關(guān)鍵圖像或信息可在存儲關(guān)鍵圖像之前使用來自其它圖像的信息而增強。舉例來說, 除了關(guān)鍵圖像之外的一或多個圖像中所辨識的字可添加到與關(guān)鍵圖像相關(guān)聯(lián)的數(shù)據(jù)。下文 所描述的機制可致力于從圖像的每一群組中發(fā)現(xiàn)關(guān)鍵圖像。
[0096] 關(guān)鍵圖像可表示具有比與相同場景相關(guān)聯(lián)的其它圖像更佳的分辨率及清晰度的 圖像。在一個方面中,計算裝置100的組件可計算與每一圖像相關(guān)聯(lián)的能量。能量值可被 存儲為圖像的場景描述符的部分。具有最高能量的圖像可從與相同場景相關(guān)聯(lián)的多個圖像 中被選擇為關(guān)鍵圖像。在一個實施方案中,計算裝置1〇〇(使用例如選擇模塊1110)可使用 來自圖像的經(jīng)辨識的字的數(shù)目及來自O(shè)CR的字的置信度均值確定能量值。
[0097] 圖8說明展示用于從來自相同場景的多個圖像選擇圖像作為關(guān)鍵圖像的過程的 非限制性示范性方法的流程圖。根據(jù)一或多個方面,本文中所描述的方法及/或方法步驟 中的任一者及/或全部可由計算裝置100實施及/或?qū)嵤┯谟嬎阊b置100中,例如計算裝 置100及/或例如圖1中更詳細(xì)所描述的裝置。在一個實施例中,下文參看圖8所描述的 方法步驟中的一者或一者以上由裝置100的處理器(例如,處理器110或另一處理器)實 施。圖11及圖12中所論述的模塊及組件(例如,選擇模塊1110)也可實施為計算裝置100 的組件,且可用于執(zhí)行如圖8中所論述的本發(fā)明的實施例。另外或替代性地,本文中所描述 的方法及/或方法步驟中的任一者及/或全部可實施于計算機可讀指令中,例如存儲于計 算機可讀媒體(例如,存儲器135、存儲裝置125或另一計算機可讀媒體)上的計算機可讀 指令。
[0098] 在步驟802處,將一或多個(M)圖像檢測為屬于與圖5及6中所論述的場景相同 的場景。在一些實施方案中,OCR高速緩沖存儲器1112僅具有與任何給定場景相關(guān)聯(lián)的一 個圖像。與同存儲于OCR高速緩沖存儲器1112中的場景相同的場景相關(guān)聯(lián)的任何獲得的 圖像可被立即處理及集成到OCR高速緩沖存儲器1112中。如果新獲得的圖像被選擇為關(guān) 鍵圖像或具有額外信息,那么可更新OCR圖像。在此實施方案中,選擇過程可僅在兩個圖像 (即,存儲于OCR高速緩沖存儲器中的圖像及新近由相機獲得的圖像)之間。
[0099] 然而,在本發(fā)明的其它實施方案中,可同時比較多個圖像以發(fā)現(xiàn)關(guān)鍵圖像。舉例來 說,在一個實施方案中,可實施窗口協(xié)議,其中可在一段時間內(nèi)獲得及同時處理一個以上圖 像。來自暫時獲得及存儲的多個圖像的通常一個以上圖像可屬于相同場景,因為用戶可在 短時間跨度內(nèi)在相同場景之上滑動移動裝置多次。因此,與相同場景相關(guān)聯(lián)的來自任何給 定時間窗口的一或多個圖像可彼此相比較或與存儲于OCR高速緩沖存儲器1112中的與相 同場景相關(guān)聯(lián)的圖像進(jìn)行比較。
[0100] Μ表示在任何給定時間點與特定場景相關(guān)聯(lián)的圖像的數(shù)目??煞磸?fù)地或遞歸地計 算與每一圖像相關(guān)聯(lián)的能量。反復(fù)的數(shù)目由X表示。在一個示范性實施方案中,X可初始 化為1。X還表示當(dāng)前所處理的圖像。在一個方面中,圖像的能量存儲于圖像的場景描述符 中。
[0101] 在步驟804處,使用OCR來辨識圖像X中的字的數(shù)目(Ν)。在步驟806處,導(dǎo)出來 自O(shè)CR的字的置信度均值(C)。在步驟808處,與辨識的字相關(guān)聯(lián)的置信度以比例因子(λ ) 按比例縮放。在一個實施例中,可根據(jù)經(jīng)驗確定比例因子(λ)。在步驟810處,根據(jù)以下等 式計算圖像X的能量:
[0102] ΕΧ = Ν+λ(:。
[0103] 在步驟812處,針對圖像導(dǎo)出的能量可視情況存儲于圖像場景描述符中。在步驟 814處,如果X == Μ,那么具有最大能量值的圖像從與相同場景相關(guān)聯(lián)的多個圖像被選擇 為關(guān)鍵圖像(步驟816)。如果X不等于Μ,那么X遞增(步驟818),且可經(jīng)由方法800提取 及處理下一圖像X,返回到步驟804處開始。
[0104] 在另一實施例中,不使用圖像的能量的反復(fù)/遞歸計算??稍讷@得圖像之后或在 用可影響與圖像相關(guān)聯(lián)的能量的額外信息來更新圖像的情況下,針對圖像計算圖像的能 量。在一個實施方案中,圖像的能量存儲于圖像的場景描述符中。
[0105] 應(yīng)了解,圖8中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切 換的特定方法。也可在替代實施例中相應(yīng)地執(zhí)行步驟的其它序列。舉例來說,本發(fā)明的替 代實施例可執(zhí)行上文中按不同次序概述的步驟。為了進(jìn)行說明,用戶可選擇從第三操作模 式改變到第一操作模式,從第四模式改變到第二模式,或其間的任何組合。此外,圖8中所 說明的個別步驟可包含可在對個別步驟來說適當(dāng)時按各種序列執(zhí)行的多個子步驟。此外, 取決于特定應(yīng)用,可添加或移除額外步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識到及了解到過程的 許多變化、修改及替代例。
[0106] 圖9描繪展示從來自相同場景的多個圖像中將圖像合成為存儲于OCR高速緩沖存 儲器1112中的最終圖像的圖。在一個實施方案中,經(jīng)由用于分別識別與圖像相關(guān)聯(lián)的圖 形對象及產(chǎn)生場景描述符的OCR引擎1104及接著場景描述符產(chǎn)生器1106來投送圖像902 及904。匹配模塊1108將圖像902及904與相同場景相關(guān)聯(lián)。在一個實施例中,在匹配過 程之后,經(jīng)由選擇過程由選擇模塊1110投送圖像及其相關(guān)聯(lián)的場景描述符,以確定關(guān)鍵圖 像。為了說明的目的,圖像902從選擇過程中被假想地選擇為關(guān)鍵圖像。
[0107] 在選擇過程之后,可經(jīng)由用于集成過程的集成模塊1114投送圖像,其中兩個圖像 可被集成到單個合成圖像906中。在圖9中,圖像902被選擇為可保存在OCR高速緩沖存 儲器中的圖像。然而,圖像904可具有圖像902中并未描繪的額外獨特信息。獨特于圖像 904的額外信息可與圖像902合成以形成最終圖像906。在一個實施例中,可從圖像902及 圖像904新產(chǎn)生圖像906,使得可在圖像906中展示所有OCR結(jié)果。
[0108] 還可更新場景描述符。舉例來說,圖像906的場景描述符將具有針對902的場景 描述符定義的特性。然而,因為從圖像904添加了額外獨特字,所以圖像906的場景描述符 可從圖像904繼承針對"方法"定義的特性。
[0109] 圖10說明展示用于從來自相同場景的多個圖像合成圖像的非限制性示范性方法 的流程圖。根據(jù)一或多個方面,本文中所描述的方法及/或方法步驟中的任一者及/或全 部可由計算裝置100實施及/或?qū)嵤┯谟嬎阊b置100中,例如計算裝置100及/或例如圖 1中更詳細(xì)所描述的裝置。在一個實施例中,下文參看圖10所描述的方法步驟中的一者或 一者以上由裝置100的處理器(例如,處理器110或另一處理器)實施。圖11及圖12中 所論述的模塊及組件(例如,集成模塊1114)也可實施為計算裝置100的組件,且可用于執(zhí) 行如圖8中所論述的本發(fā)明的實施例。另外或替代性地,本文中所描述的方法及/或方法 步驟中的任一者及/或全部可實施于計算機可讀指令中,例如存儲于計算機可讀媒體(例 如,存儲器135、存儲裝置125或另一計算機可讀媒體)上的計算機可讀指令。
[0110] 如本文中所描述,合成圖像可包含,但不限于,更新或替換圖像或包含OCR高速緩 沖存儲器中的圖像的場景描述符或圖像的表示的任何相關(guān)聯(lián)的數(shù)據(jù)。舉例來說,存儲于OCR 高速緩沖存儲器中的來自餐館的晚餐菜單的圖像可在相機在預(yù)覽模式或快照模式中懸停 在晚餐菜單上且接收更多圖像時用來自接收的圖像的額外信息進(jìn)行擴增。在步驟1002處, 使用選擇模塊1110從屬于相同場景的多個圖像中選擇關(guān)鍵圖像,如圖7及圖8中所論述。 在步驟1004處,由本發(fā)明的組件(例如,場景描述符產(chǎn)生器1106)識別的還不是關(guān)鍵圖像 的部分的任何獨特圖形對象可被添加到關(guān)鍵圖像。在一些情況下,接收的圖像可具有額外 信息,例如還未存儲于OCR高速緩沖存儲器中的場景的區(qū)。反過來,接收的圖像可不具有包 含于OCR高速緩沖存儲器1112中存儲的圖像中的所有信息。在一個情況中,一旦關(guān)鍵圖像 被選定,還不是關(guān)鍵圖像的部分的來自其它圖像的任何圖形對象被添加到圖像。
[0111] 在步驟1006處,也可視情況更新合成的圖像的能量以考慮到添加到圖像的任何 新信息。在一個實施例中,計算裝置100計算合成的圖像的能量,如圖8中的810處所論述。 在步驟1008處,場景描述符還可用額外信息來更新。舉例來說,與圖形對象相關(guān)聯(lián)的額外 圖像數(shù)據(jù)及場景描述符數(shù)據(jù)可與關(guān)鍵圖像的數(shù)據(jù)集成,從而形成合成的圖像,之后將所述 合成的圖像存儲于OCR高速緩沖存儲器1112中。對于任何兩個或兩個以上圖像(例如,多 個接收的圖像及存儲于OCR高速緩沖存儲器1112中的圖像)來說,上文所論述的相同過程 可同時發(fā)生。
[0112] 應(yīng)了解,圖10中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間 切換的特定方法。也可在替代實施例中相應(yīng)地執(zhí)行步驟的其它序列。舉例來說,本發(fā)明的替 代實施例可執(zhí)行上文中按不同次序概述的步驟。為了進(jìn)行說明,用戶可選擇從第三操作模 式改變到第一操作模式,從第四模式改變到第二模式,或其間的任何組合。此外,圖10中所 說明的個別步驟可包含可在對個別步驟來說適當(dāng)時按各種序列執(zhí)行的多個子步驟。此外, 取決于特定應(yīng)用,可添加或移除額外步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識到及了解到過程的 許多變化、修改及替代例。
[0113] 圖11描繪展示用于執(zhí)行由本發(fā)明的實施例提供的方法的示范性組件及模塊的框 圖。上文參考圖1所論述的計算機裝置100可表示用于執(zhí)行圖11中所描述的本發(fā)明的實 施例的移動裝置的組件中的一些。圖11中所論述的組件及模塊可以硬件、軟件、固件或其 任一組合來實施。
[0114] 在一個實施例中,計算裝置100可切換成使用自動及智能OCR高速緩沖存儲器的 OCR高速緩存模式。OCR高速緩沖存儲器1112可利用圖1中所描述的工作存儲器135的部 分。在一個實施例中,具有自動及智能OCR高速緩沖存儲器更新的預(yù)覽模式在例如相機鍵 盤等程序或應(yīng)用程序打開時被觸發(fā),且在相機鍵盤關(guān)閉時被關(guān)閉。
[0115] 圖像俘獲模塊1102可獲得、俘獲或接收一或多個圖像。在一個實施例中,圖像俘 獲模塊1102使用耦合到計算裝置的一或多個相機150獲得一或多個圖像。OCR引擎1104 處理圖像(例如,使用處理器110)且辨識圖像的包括嵌入于圖像中的圖形對象的部分。圖 形對象可包含,但不限于,符號、字符、字、標(biāo)記及數(shù)字。另外,OCR引擎可處理圖像及開始填 入每一圖像的場景描述符。
[0116] 場景描述符產(chǎn)生器1106可實施為OCR高速緩沖存儲器系統(tǒng)1124的部分,且可產(chǎn) 生及填入場景描述符。場景描述符描述了與圖像相關(guān)聯(lián)的圖形對象的特性。場景描述符可 關(guān)于圖像的表示多個圖形對象的部分進(jìn)行定義。圖形對象的特性可包含一元特性及二元特 性。一元特性可包含,但不限于,圖形對象內(nèi)容、圖形對象顏色、前景顏色、背景顏色、與OCR 結(jié)果相關(guān)聯(lián)的置信度及圖像的包括圖形對象的部分的尺寸及邊界。圖形對象的二元特性可 包括圖形對象相對于彼此及圖像的幾何關(guān)系。在本發(fā)明的一些方面中,二元特性可使用描 述圖像中的圖形對象彼此間的不同幾何關(guān)系的關(guān)聯(lián)矩陣來表示。圖4及圖6更詳細(xì)地論述 了由場景描述符產(chǎn)生器1106執(zhí)行的步驟中的一些。
[0117] 匹配模塊1108可將一或多個接收的圖像的場景描述符與來自O(shè)CR高速緩沖存儲 器1112的存儲的圖像進(jìn)行匹配。任何兩個圖像的場景描述符之間的匹配表示兩個圖像與 相同場景相關(guān)聯(lián)。圖像之間的場景描述符中的相似性及差異可用以發(fā)現(xiàn)彼此足夠密切地對 準(zhǔn)從而合理地屬于相同場景的圖像。圖5及圖6更詳細(xì)地描述了用于發(fā)現(xiàn)匹配的示范性實 施例。
[0118] 如果匹配模塊1108未發(fā)現(xiàn)從圖像俘獲模塊1102接收的圖像與存儲于OCR高速緩 沖存儲器1112中的圖像之間的匹配,那么將圖像傳遞到插入模塊1116以存儲于OCR高速 緩沖存儲器1112中。存儲于OCR高速緩沖存儲器1112中的新圖像表示由計算裝置100獲 得的新場景。
[0119] 如果匹配模塊1108發(fā)現(xiàn)接收的圖像與來自O(shè)CR高速緩沖存儲器1112的圖像之間 的匹配,那么將匹配的圖像(或指向圖像的指針)轉(zhuǎn)遞到選擇模塊1110以用于選擇關(guān)鍵圖 像。在框1114處,使用選擇過程使用與接收的圖像及來自O(shè)CR高速緩沖存儲器1112的匹 配的圖像相關(guān)聯(lián)的能量來確定來自兩個圖像的關(guān)鍵圖像。在一個實施例中,能量存儲于圖 像的場景描述符中。在另一實施例中,在選擇模塊1110處導(dǎo)出與每一圖像相關(guān)聯(lián)的能量。 在一個實施方案中,圖像的能量經(jīng)定義為與針對圖像所辨識的字的數(shù)目及與其相關(guān)聯(lián)的置 信度成正比。以下等式可表示用于導(dǎo)出能量的實施方案,
[0120] E = N+AC,其中
[0121] N為圖像中所辨識的字的數(shù)目,C為來自O(shè)CR的字的置信度均值,且λ為比例因 子。在一個方面中,使用經(jīng)驗數(shù)據(jù)導(dǎo)出λ??稍诮邮請D像之后或在用可影響與圖像相關(guān)聯(lián) 的能量的額外信息來更新圖像的情況下,針對圖像計算圖像的能量。
[0122] 集成模塊1114可將來自非關(guān)鍵圖像的場景描述符及其它圖像數(shù)據(jù)與關(guān)鍵圖像集 成以形成合成的圖像。如本文中所描述,合成圖像可包含但不限于:更新或替換圖像或包含 OCR高速緩沖存儲器中的圖像的場景描述符或圖像的表示的任何相關(guān)聯(lián)的數(shù)據(jù)。在一個情 況中,OCR高速緩沖存儲器1112中存儲的圖像與所接收的圖像可具有重疊的區(qū),所述重疊 的區(qū)具有在同樣的圖形對象的兩個圖像之間相同的場景描述符信息。然而,在一些情況下, 接收的圖像可具有額外信息,例如還未存儲于OCR高速緩沖存儲器中的場景的區(qū)。反過來, 接收的圖像可不具有包含于OCR高速緩沖存儲器1112中存儲的圖像中的所有信息。在一 個情況中,一旦關(guān)鍵圖像被選定,還不是關(guān)鍵圖像的部分的來自其它圖像的任何圖形對象 即被添加到圖像。圖10更詳細(xì)地論述了由集成模塊1114執(zhí)行的步驟中的一些。
[0123] 在一個實例中,存儲于OCR高速緩沖存儲器中的來自餐館的晚餐菜單的圖像可在 相機在預(yù)覽模式或快照模式中懸停在晚餐菜單上且接收更多圖像時用來自接收的圖像的 額外信息進(jìn)行擴增。在另一實例中,集成模塊可在將合成的圖像存儲于例如OCR高速緩沖 存儲器1112等高速緩沖存儲器中之前移除或減少來自圖像的眩光。集成過程可通過從關(guān) 鍵圖像識別具有眩光的第一區(qū),從非關(guān)鍵圖像識別具有眩光的第二區(qū)來促進(jìn)移除眩光,其 中第一區(qū)及第二區(qū)表示場景的相同區(qū);及使用關(guān)鍵圖像及來自非關(guān)鍵圖像的不具有眩光的 第二區(qū)合成最終圖像以移除眩光。
[0124] 在一個實施例中,具有自動及智能OCR高速緩沖存儲器更新的OCR高速緩存模式 可在例如相機鍵盤等程序或應(yīng)用程序打開時進(jìn)行操作,且此模式在相機鍵盤關(guān)閉或以其它 方式停止或暫停時被撤銷啟動。在一些實施例中,相機鍵盤可允許將由相機俘獲的信息 (例如,在圖像中辨識或與場景的關(guān)鍵圖像相關(guān)聯(lián)的文本)輸入到應(yīng)用程序。此外,耦合到 計算裝置100的裝置顯示器還可在OCR高速緩存模式(在一些實施例中具有自動及智能 OCR高速緩沖存儲器更新)可進(jìn)行操作(即,相機鍵盤打開,或者程序或應(yīng)用程序被恢復(fù)或 可以其他方式進(jìn)行操作)時持續(xù)地顯示OCR高速緩沖存儲器1112的內(nèi)容。而且,當(dāng)相機 鍵盤停止時,OCR高速緩沖存儲器1112的高速緩存數(shù)據(jù)可從存儲器被保存到裝置存儲器 1120。裝置存儲器1120可為圖1中所描述的存儲裝置125中的一者。并且,當(dāng)相機鍵盤開 始時,OCR高速緩沖存儲器1112的高速緩存數(shù)據(jù)可從裝置存儲器1120被加載到存儲器。在 一個實施方案中,使用圖像隊列來實施OCR高速緩沖存儲器1112。然而,鏈表、類對象或包 括圖像數(shù)目或數(shù)據(jù)量的任何其它合適的手段可用于實施OCR高速緩沖存儲器1112。
[0125] 圖12描繪展示用于執(zhí)行由本發(fā)明的實施例提供的方法的示范性組件的另一框 圖。除了圖11中所說明的組件之外,圖12具有跟蹤模塊1222,其持續(xù)地跟蹤來自圖像俘獲 模塊1102的在OCR高速緩存模式中的場景,且在框1108中將輸入饋送到匹配邏輯。在用 戶在相同場景之上持續(xù)地滑動移動裝置以產(chǎn)生與場景相關(guān)聯(lián)的較佳或較大圖像時,跟蹤場 景尤其有助于幫助匹配邏輯。在此情形下,對于獲得的每一新圖像來說,匹配邏輯的復(fù)雜性 及處理時間及功率顯著降低。在一個實施例中,圖形對象(及圍繞圖形對象用以將圖形對 象裝框的相關(guān)聯(lián)的框)的移動可用于解決匹配問題。從圖11返回參看晚餐菜單實例,跟蹤 模塊可在計算裝置100懸停于晚餐菜單之上時經(jīng)常地跟蹤圖像,且?guī)椭嬎阊b置100建立 晚餐菜單的單個集成圖像。在一些實施例中,模塊1104、1106、1108、1110、1112、1114、1116、 1124及1222中的一或多者實施于裝置100的一或多個處理器或處理核心中,例如處理器 110 中。
[0126] 圖13A及圖13B描繪用于含有文本的圖像的示范性場景描述符。圖13A為由場景 描述符產(chǎn)生器1106產(chǎn)生的場景描述符。場景描述符包括例如圖像分辨率、顏色深度及其它 此些圖像特性等圖像數(shù)據(jù)。另外,場景描述符可包括與每一文本字相關(guān)聯(lián)的特性,例如文本 內(nèi)容、所關(guān)注的區(qū)(ROI)、與使用OCR的字的恰當(dāng)辨識相關(guān)聯(lián)的置信度、估計的文本顏色及 背景顏色。
[0127] 圖13B說明更新的場景描述符。一旦計算或更新每一圖像的能量,場景描述符的 能量值便可由選擇模塊1110及集成模塊1114更新。類似地,如果在集成模塊1114處將新 文本添加到OCR高速緩沖存儲器1112的關(guān)鍵圖像,那么可添加新文本的額外條目(例如, 圖13B中的文本N+1)。
[0128] 圖14描繪說明用于從圖像移除或減少眩光的本發(fā)明的實施例的圖。在室內(nèi)設(shè)定 中使用相機150獲得的圖像有時會受反射眩光影響。舉例來說,晚餐菜單可具有來自晚餐 燈的從菜單反射的眩光。反射眩光可使用于俘獲、檢測及辨識圖像的基于相機的應(yīng)用(例 如光學(xué)字符辨識(OCR))的性能降級。反射眩光可由所關(guān)注的區(qū)與眩光源之間的顯著輝度 比引起。例如所關(guān)注的區(qū)、眩光源及相機之間的角度等因素會對眩光的體驗具有顯著影響。
[0129] 本發(fā)明的實施例提供用于使用來自兩個或兩個以上位置的相同所關(guān)注的主體的 圖像檢測及減少反射眩光的技術(shù)。圖像可通過在兩個或兩個以上位置之間移動相機150或 通過使用例如立體相機等多個相機150獲得圖像。從兩個或兩個以上位置獲得圖像允許改 變相機相對于眩光源及所關(guān)注的區(qū)之間的角度。兩個從稍微不同有利位置獲得的圖像可 表示相同的所關(guān)注的對象的圖像的不同部分中的眩光,從而允許合成具有減少的眩光的圖 像。
[0130] 圖14為表示本發(fā)明的示范性實施例的框圖。在圖14中,具有耦合到裝置(裝置 1402)的立體相機150的立體相機計算裝置用于獲取相同的所關(guān)注的對象的兩個或兩個以 上圖像。在一個實施方案中,同時獲取圖像。在另一實施例中,可在不同時間使用單個相機 從不同有利位置一個接一個地獲取圖像。如圖14中所見,使用左視圖獲取的圖像(圖像 1404)及使用右視圖獲取的圖像(圖像1406)兩者皆具有反射眩光(1410及1412)。然而, 因為相對于眩光源及所關(guān)注的對象的兩個相機俘獲圖像的角度是不同的,所以眩光存在于 圖像的不同部分中。如圖14中所示,本發(fā)明的實施例使用左視圖圖像及右視圖圖像合成增 強圖像。在一個實施例中,將兩個圖像合成為一個增強圖像可由集成模塊1114執(zhí)行。一旦 計算裝置100在匹配模塊1110處識別兩個匹配圖像,集成模塊可通過移除或減少眩光增強 圖像,從而產(chǎn)生最終圖像1408,之后將所述最終圖像存儲于OCR高速緩沖存儲器1112中,如 下文圖15中所進(jìn)一步論述。
[0131] 圖15為說明根據(jù)本發(fā)明的一或多個說明性方面的用于減少或移除圖像中的反射 眩光的本發(fā)明的實施例的流程圖。根據(jù)一或多個方面,本文中所描述的方法及/或方法步 驟中的任一者及/或全部可由計算裝置100實施及/或?qū)嵤┯谟嬎阊b置100中,例如計算裝 置100及/或例如圖1中更詳細(xì)所描述的裝置。在一個實施例中,下文參看圖15所描述的 方法步驟中的一者或一者以上由裝置100的處理器(例如,處理器110或另一處理器)實 施。圖11及圖12中所論述的模塊及組件(例如,場景描述符產(chǎn)生器1106、匹配模塊1108 及/或集成模塊1114)也可實施為計算裝置100的組件,且可用于執(zhí)行如圖16中所論述的 本發(fā)明的實施例。另外或替代性地,本文中所描述的方法及/或方法步驟中的任一者及/ 或全部可實施于計算機可讀指令中,例如存儲于計算機可讀媒體(例如,存儲器135、存儲 裝置125或另一計算機可讀媒體)上的計算機可讀指令。
[0132] 在一個實施例中,立體相機150可用以從兩個不同位置獲取所關(guān)注的對象的兩個 圖像。在另一實施例中,從兩個不同位置一個接一個地獲取兩個圖像。在步驟1502處,獲 取來自左視圖的第一圖像,且在框1504處,獲取來自右視圖的第二圖像。在框1502及1504 處執(zhí)行的步驟可同時或一個接一個地發(fā)生。在另一實施例中,從相機150接收的圖像及來 自O(shè)CR高速緩沖存儲器1112的圖像可用于從存儲于OCR高速緩沖存儲器1112中的圖像移 除眩光,或可使用來自O(shè)CR高速緩沖存儲器1112的兩個圖像。在步驟1506處,可提取來自 兩個圖像的特征,且可導(dǎo)出兩個圖像之間的幾何關(guān)系。在一個實施例中,OCR引擎1104及 場景描述符產(chǎn)生器1106可識別圖像中的各種圖形對象及其彼此的關(guān)系,如先前在圖4中所 論述的。在另一實施例中,使用常規(guī)特征提取算法(例如,哈里斯角點、快速角點等)來提 取特征??晒烙嫾跋9鈪^(qū)中的特征。匹配模塊1110可使用匹配過程將圖像與圖像的 例如圖形對象等特征進(jìn)行匹配。在另一實施例中,可使用常規(guī)描述符(SIFT、SURF等)及例 如RANSAC(隨機抽樣一致性)等匹配方案來匹配特征?;€約束系統(tǒng)可用于限制用于發(fā)現(xiàn) 特征之間的對應(yīng)的搜索空間。在框1508處,圖像可基于其幾何關(guān)系而對準(zhǔn)。此外,檢測圖 像的眩光區(qū)。在一個實施例中,通過檢測兩個圖像的重疊區(qū)之間的差異來確定眩光區(qū)。在 一個實施方案中,計算裝置100通過檢測來自相同場景的第一圖像及第二圖像的多個特征 的差異而識別圖像中的一者的一個區(qū)中的眩光。舉例來說,在一些實施例中,區(qū)中的減少數(shù) 目個特征可用以識別眩光。
[0133] 最終,在框1510處,例如用集成模塊1114使用集成過程,可通過合成兩個圖像,使 用來自具有較少眩光的兩個圖像的重疊區(qū)以用于減少眩光效果來產(chǎn)生增強圖像。在一個實 施例中,本發(fā)明的實施例從來自第一場景的兩個或兩個以上圖像的圖像中的一者識別具有 眩光的第一區(qū),及從來自第一場景的兩個或兩個以上圖像的第二圖像識別不具有眩光的第 二區(qū),其中第一區(qū)及第二區(qū)表示第一場景的相同區(qū)。使用第一圖像及第二圖像,可合成具有 減少眩光或不具有眩光的最終圖像。例如選擇在兩個圖像之間的信息補丁、擴增前景及背 景以用于較佳辨識等不同技術(shù)可用于合成圖像。具有減少或移除的眩光的合成的圖像可存 儲于例如OCR高速緩沖存儲器1112等高速緩沖存儲器中。
[0134] 應(yīng)了解,圖15中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間 切換的特定方法。也可在替代實施例中相應(yīng)地執(zhí)行步驟的其它序列。舉例來說,本發(fā)明的替 代實施例可執(zhí)行上文中按不同次序概述的步驟。為了進(jìn)行說明,用戶可選擇從第三操作模 式改變到第一操作模式,從第四模式改變到第二模式,或其間的任何組合。此外,圖15中所 說明的個別步驟可包含可在對個別步驟來說適當(dāng)時按各種序列執(zhí)行的多個子步驟。此外, 取決于特定應(yīng)用,可添加或移除額外步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識到及了解到過程的 許多變化、修改及替代例。
[0135] 圖16描繪使用計算裝置100 (在具有自動及智能OCR高速緩沖存儲器更新的OCR 高速緩存模式中操作的移動裝置)的簡化表示的用戶接口的示范性實施方案。舉例來說, 用戶接口可由輸出裝置120顯示。圖16A、16B、16C及16D表示在連續(xù)時間點處的計算裝置 100。位于計算裝置100的頂部處的區(qū)域1604表示經(jīng)由耦合到計算裝置100的相機的透鏡 對用戶可見的視野。描繪成朝向圖的底部的窄條帶表示OCR高速緩沖存儲器1112。在一 個方面中,OCR高速緩沖存儲器1112中的圖像的表示可由用戶檢視為描繪為朝向移動裝置 (1606U608及1610)的底部的窄條帶中的縮略圖。在一個實施例中,在條帶而不是圖像中 描繪OCR結(jié)果。在另一實施例中,描繪圖像及OCR結(jié)果兩者。用戶可選擇OCR高速緩沖存 儲器圖像且通過選擇文本及執(zhí)行常見文本編輯功能(例如,剪輯、復(fù)制及粘貼)來操縱圖像 中的文本。在示范性用戶狀況下,用戶可通過通過觸摸顯示上文所描述的用戶接口的觸摸 屏上的圖像或OCR結(jié)果從OCR高速緩沖存儲器中選擇文本。選擇窄條帶中的圖像可致使例 如待顯示于區(qū)域1604中的圖像的大小增加,使得可以更大精度來選擇OCR結(jié)果。在一些實 施例中,選擇可直接來自窄條帶。由用戶例如基于用戶的觸摸或無觸摸手勢(其可由用戶 的手、手指、眼睛、頭或由用戶控制的其它條目執(zhí)行)識別或選擇的信息可經(jīng)轉(zhuǎn)譯、提交以 供執(zhí)行搜索,或以其它方式輸入到程序或應(yīng)用程序中,例如輸入到文本框中。在一些實施例 中,圖像或OCR結(jié)果的數(shù)目可大于可顯示于計算裝置100的屏幕上的數(shù)目。在一個此類實 施例中,例如通過在觸摸屏上輕劃手指以便使條帶前進(jìn)或收回,用戶可在圖像或結(jié)果之間 進(jìn)行滾動或以其它方式雙態(tài)觸發(fā)可見圖像或結(jié)果。
[0136] 參看圖16A,場景1可表示相機150的視野。根據(jù)本發(fā)明的實施例,相機150可俘 獲表示場景1的圖像,且將具有場景描述符的圖像存儲于OCR高速緩沖存儲器中,因為在與 圖16A相關(guān)聯(lián)的時間處,OCR高速緩沖存儲器1112是空的。在圖16B中,場景2在相機的 視野中。相機150可俘獲表示場景2的圖像。使用本文中所論述的技術(shù),裝置100的組件 執(zhí)行匹配過程且比較來自O(shè)CR高速緩沖存儲器的針對場景1所俘獲的圖像與針對場景2所 俘獲的圖像。因為圖像屬于不同場景,所以未發(fā)現(xiàn)匹配,且用針對場景2所俘獲的圖像來更 新OCR高速緩沖存儲器。
[0137] 在圖16C中,場景1再次在相機150的視野中。表示場景1的圖像由相機150獲 得。這時當(dāng)裝置的組件執(zhí)行接收的圖像的場景描述符與存儲于OCR高速緩沖存儲器中的圖 像的場景描述符之間的比較時,發(fā)現(xiàn)匹配。使用來自場景描述符的兩個圖像的計算的能量, 可從兩個圖像中選擇關(guān)鍵圖像。作為集成過程的部分,在非關(guān)鍵圖像中發(fā)現(xiàn)的任何獨特字 可被添加到圖像,且可更新場景描述符。此外,場景描述符中的任何字或結(jié)果可由具有較高 置信度的其它字或結(jié)果來更新或替換。在圖9及圖10中更詳細(xì)地描述集成過程。在一個 實施方案中,另外,還可從關(guān)鍵圖像減少或移除眩光,如圖14及15中所論述。如圖16C中 所示,用新圖像及場景描述符來更新場景1的OCR高速緩沖存儲器1112。類似于圖16B,圖 16D具有在視野中的新場景。俘獲表示場景3的圖像,且用新圖像來更新OCR高速緩沖存儲 器1112。在一些實施例中,關(guān)鍵圖像按識別場景的次序顯示于窄條帶中,例如圖圖16A到 16D中所說明。在一些實施例中,關(guān)鍵圖像的次序基于最近所檢測的哪一場景而變化。舉例 來說,表示最近檢測到的場景的關(guān)鍵圖像可總是展示于窄條帶的遠(yuǎn)端左側(cè)處??闪硗饣蛱?代地使用顯示關(guān)鍵圖像的其它次序或技術(shù)。
[0138] 如本文中所描述的高速緩沖存儲器更新可能對用戶來說是有利的,因為這可允許 用戶存取與相同場景或與多個場景相關(guān)聯(lián)的所有信息。此外,在隨著時間的過去與相同場 景的多個圖像之間的圖像信息重疊的情況下,本文中所描述的技術(shù)可存儲與場景相關(guān)聯(lián)的 最佳信息或新獲取的信息,因此隨著時間的過去進(jìn)一步細(xì)化結(jié)果。與本文中所描述的技術(shù) 相關(guān)聯(lián)的其它優(yōu)勢可包含存儲OCR結(jié)果所需要的減少的存儲器空間及對OCR高速緩沖存儲 器的減少的命中數(shù)目,從而導(dǎo)致整個系統(tǒng)中的較快性能。
【權(quán)利要求】
1. 一種方法,其包括: 接收多個圖像; 辨識所述多個圖像中的每一者中的數(shù)據(jù),其中辨識所述多個圖像中的每一者中的數(shù)據(jù) 包括對所述多個圖像執(zhí)行光學(xué)字符辨識; 至少部分基于所述辨識的數(shù)據(jù)確定所述多個圖像中的至少兩個圖像包括來自第一場 景的?目息;及 使用所述至少兩個圖像中的至少一個圖像及與所述至少一個圖像相關(guān)聯(lián)的所述辨識 的數(shù)據(jù)來存儲表示所述第一場景的最終圖像。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述接收包括使用相機連續(xù)俘獲所述多個圖像。
3. 根據(jù)權(quán)利要求1所述的方法,其中維持所述多個圖像中的所述至少一個圖像及所述 至少一個圖像的所述辨識的數(shù)據(jù)的存儲,同時俘獲后面的圖像且在所述后面的圖像中辨識 數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的方法,其中在存儲所述最終圖像之前,所述方法進(jìn)一步包括 使用所述至少兩個圖像及與所述至少兩個圖像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來合成所述最終 圖像,其中所述存儲包括存儲所述合成的圖像。
5. 根據(jù)權(quán)利要求4所述的方法,其中所述合成包括將來自所述至少兩個圖像中的第二 圖像的元素并入到所述至少一個圖像中以創(chuàng)建所述最終圖像。
6. 根據(jù)權(quán)利要求4所述的方法,其中所述最終圖像包括所述至少一個圖像,其中所述 合成包括將所述至少兩個圖像中的第二圖像的所述辨識的數(shù)據(jù)并入到所述至少一個圖像 的所述辨識的數(shù)據(jù)中。
7. 根據(jù)權(quán)利要求1所述的方法,其中在存儲所述最終圖像之前,所述方法進(jìn)一步包括 從用以表示所述第一場景的所述至少兩個圖像中選擇所述至少一個圖像作為所述最終圖 像,其中所述存儲包括存儲所述選定的圖像。
8. 根據(jù)權(quán)利要求7所述的方法,其中所述選擇包括比較所述至少兩個圖像中的每一者 的能量。
9. 根據(jù)權(quán)利要求8所述的方法,其進(jìn)一步包括基于每一圖像中辨識的數(shù)個圖形對象及 用于所述數(shù)個圖形對象中的每一者的辨識的置信度,計算所述至少兩個圖像中的每一者的 所述能量。
10. 根據(jù)權(quán)利要求1所述的方法,其中所述確定包括比較所述至少兩個圖像中的每一 者中的圖形對象值、圖形對象顏色、背景顏色及前景顏色中的一或多者。
11. 根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括確定所述多個圖像中的一或多個圖像 包括來自除了所述第一場景之外的一或多個場景的信息,及顯示所述最終圖像及分別表示 所述一或多個場景的一或多個圖像,或顯示所述至少一個圖像及所述一或多個場景的所述 辨識的數(shù)據(jù)。
12. 根據(jù)權(quán)利要求11所述的方法,其進(jìn)一步包括確定用戶選擇了所述所顯示的圖像中 的一者或所述一個圖像的所顯示的辨識的數(shù)據(jù),及將與所述選定的圖像或辨識的數(shù)據(jù)相關(guān) 的信息輸入到程序或應(yīng)用程序中。
13. 根據(jù)權(quán)利要求1所述的方法,其中在存儲所述最終圖像之前,所述方法進(jìn)一步包 括: 從來自所述第一場景的兩個或兩個以上圖像的第一圖像中識別具有眩光的第一區(qū); 從來自所述第一場景的所述兩個或兩個以上圖像的第二圖像中識別不具有眩光的第 二區(qū),其中所述第一區(qū)及所述第二區(qū)表示所述第一場景的相同區(qū);及 使用所述第一圖像及來自所述第二圖像的不具有眩光的所述第二區(qū)合成具有減少的 眩光的所述最終圖像。
14. 一種裝置,其包括: 圖像模塊,其經(jīng)配置以接收多個圖像; 0CR引擎,其經(jīng)配置以使用光學(xué)字符辨識來辨識所述多個圖像中的每一者中的數(shù)據(jù); 匹配模塊,其經(jīng)配置以至少部分基于所述辨識的數(shù)據(jù)確定所述多個圖像中的至少兩個 圖像包括來自第一場景的信息;及 集成模塊,其經(jīng)配置以使用所述至少兩個圖像中的至少一個圖像及與所述至少一個圖 像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來存儲表示所述第一場景的最終圖像。
15. 根據(jù)權(quán)利要求14所述的裝置,其中所述圖像模塊經(jīng)配置以使用耦合到所述裝置的 相機連續(xù)俘獲所述多個圖像。
16. 根據(jù)權(quán)利要求14所述的裝置,其中在存儲所述最終圖像之前,所述集成模塊經(jīng)進(jìn) 一步配置以使用所述至少兩個圖像及與所述至少兩個圖像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來合 成所述最終圖像,且其中所述存儲包括存儲所述合成的圖像。
17. 根據(jù)權(quán)利要求16所述的裝置,其中所述合成包括將來自所述至少兩個圖像中的第 二圖像的元素并入到所述至少一個圖像中以創(chuàng)建所述最終圖像。
18. 根據(jù)權(quán)利要求16所述的裝置,其中所述最終圖像包括所述至少一個圖像,其中所 述合成包括將所述至少兩個圖像中的第二圖像的所述辨識的數(shù)據(jù)并入到所述至少一個圖 像的所述辨識的數(shù)據(jù)中。
19. 根據(jù)權(quán)利要求14所述的裝置,其進(jìn)一步包括選擇模塊,其中在所述集成模塊存儲 所述最終圖像之前,所述選擇模塊經(jīng)配置以從用以表示所述第一場景的所述至少兩個圖像 中選擇所述至少一個圖像作為所述最終圖像,且其中所述存儲包括隨后存儲所述選定的圖 像。
20. 根據(jù)權(quán)利要求19所述的裝置,其中所述選擇包括比較所述至少兩個圖像中的每一 者的能量。
21. 根據(jù)權(quán)利要求20所述的裝置,其中所述選擇模塊經(jīng)進(jìn)一步配置以基于每一圖像中 辨識的數(shù)個圖形對象及用于所述數(shù)個圖形對象中的每一者的辨識的置信度,計算所述至少 兩個圖像中的每一者的所述能量。
22. 根據(jù)權(quán)利要求14所述的裝置,其中所述確定包括比較所述至少兩個圖像中的每一 者中的圖形對象值、圖形對象顏色、背景顏色、前景顏色及圍繞辨識的文本的邊界框中的一 或多者。
23. 根據(jù)權(quán)利要求14所述的裝置,其中所述匹配模塊確定所述多個圖像中的一或多個 圖像包括來自除了所述第一場景之外的一或多個場景的信息,且其中所述裝置進(jìn)一步包括 經(jīng)配置以顯示所述最終圖像及分別表示所述一或多個場景的一或多個圖像或針對所述至 少一個圖像所辨識的數(shù)據(jù)或顯示所述至少一個圖像及所述一或多個場景的所述辨識的數(shù) 據(jù)的裝置顯示器。
24. 根據(jù)權(quán)利要求23所述的裝置,其進(jìn)一步包括輸入裝置,其經(jīng)配置以接收所述所顯 示的圖像中的一者的用戶選擇或所述一個圖像的所顯示的辨識的數(shù)據(jù),其中將與所述選定 的圖像或辨識的數(shù)據(jù)相關(guān)的信息輸入到程序或應(yīng)用程序中。
25. 根據(jù)權(quán)利要求24所述的裝置,其中使用所述輸入信息提交因特網(wǎng)查詢,基于所述 輸入信息確定轉(zhuǎn)譯,或?qū)?yīng)于所述輸入信息的文本鍵入到文本框中。
26. 根據(jù)權(quán)利要求14所述的裝置,其中在所述集成模塊存儲所述最終圖像之前,所述 匹配模塊經(jīng)進(jìn)一步配置以: 從來自所述第一場景的兩個或兩個以上圖像的第一圖像中識別具有眩光的第一區(qū);及 從來自所述第一場景的所述兩個或兩個以上圖像的第二圖像中識別不具有眩光的第 二區(qū),其中所述第一區(qū)及所述第二區(qū)表示所述第一場景的相同區(qū), 其中所述集成模塊經(jīng)配置以使用所述第一圖像及來自所述第二圖像的不具有眩光的 所述第二區(qū)合成具有減少的眩光的所述最終圖像。
27. -種非暫時性計算機可讀存儲媒體,其中所述非暫時性計算機可讀存儲媒體包括 可由處理器執(zhí)行的指令,所述指令包括用以進(jìn)行以下操作的指令: 接收多個圖像; 辨識所述多個圖像中的每一者中的數(shù)據(jù),其中辨識所述多個圖像中的每一者中的數(shù)據(jù) 包括對所述多個圖像執(zhí)行光學(xué)字符辨識; 至少部分基于所述辨識的數(shù)據(jù)確定所述多個圖像中的至少兩個圖像包括來自第一場 景的?目息;及 使用所述至少兩個圖像中的至少一個圖像及與所述至少一個圖像相關(guān)聯(lián)的所述辨識 的數(shù)據(jù)來存儲表示所述第一場景的最終圖像。
28. -種設(shè)備,其包括: 用于接收多個圖像的裝置; 用于辨識所述多個圖像中的每一者中的數(shù)據(jù)的裝置,其中辨識所述多個圖像中的每一 者中的數(shù)據(jù)包括對所述多個圖像執(zhí)行光學(xué)字符辨識; 用于至少部分基于所述辨識的數(shù)據(jù)確定所述多個圖像中的至少兩個圖像包括來自第 一場景的信息的裝置;及 用于使用所述至少兩個圖像中的至少一個圖像及與所述至少一個圖像相關(guān)聯(lián)的所述 辨識的數(shù)據(jù)來存儲表示所述第一場景的最終圖像的裝置。
29. 根據(jù)權(quán)利要求28所述的設(shè)備,其中所述用于接收的裝置包括用于使用相機連續(xù)俘 獲所述多個圖像的裝置。
30. 根據(jù)權(quán)利要求28所述的設(shè)備,其中維持所述多個圖像中的所述至少一個圖像及所 述至少一個圖像的所述辨識的數(shù)據(jù)的存儲,同時俘獲后面的圖像且在所述后面的圖像中辨 識數(shù)據(jù)。
31. 根據(jù)權(quán)利要求28所述的設(shè)備,其中所述設(shè)備進(jìn)一步包括用于在存儲所述最終圖像 之前使用所述至少兩個圖像及與所述至少兩個圖像相關(guān)聯(lián)的所述辨識的數(shù)據(jù)來合成所述 最終圖像的裝置,其中所述存儲包括存儲所述合成的圖像。
32. 根據(jù)權(quán)利要求28所述的設(shè)備,其中所述設(shè)備進(jìn)一步包括用于在存儲所述最終圖像 之前從用以表示所述第一場景的所述至少兩個圖像中選擇所述至少一個圖像作為所述最 終圖像的裝置,其中所述存儲包括存儲所述選定的圖像。
33. 根據(jù)權(quán)利要求32所述的設(shè)備,其中所述用于選擇的裝置包括用于比較所述至少兩 個圖像中的每一者的能量的裝置。
34. 根據(jù)權(quán)利要求33所述的設(shè)備,其進(jìn)一步包括用于基于每一圖像中辨識的數(shù)個圖形 對象及用于所述數(shù)個圖形對象中的每一者的辨識的置信度計算所述至少兩個圖像中的每 一者的所述能量的裝置。
35. 根據(jù)權(quán)利要求28所述的設(shè)備,其中所述用于確定的裝置包括用于比較所述至少兩 個圖像中的每一者中的圖形對象值、圖形對象顏色、背景顏色及前景顏色中的一或多者的 裝直。
36. 根據(jù)權(quán)利要求28所述的設(shè)備,其包括用于確定所述多個圖像中的一或多個圖像包 括來自除了所述第一場景之外的一或多個場景的信息的裝置,及用于顯示所述最終圖像及 分別表示所述一或多個場景的一或多個圖像的裝置,或用于顯示所述至少一個圖像及所述 一或多個場景的所述辨識的數(shù)據(jù)的裝置。
37. 根據(jù)權(quán)利要求36所述的設(shè)備,其進(jìn)一步包括用于確定用戶選擇了所述所顯示的圖 像中的一者或所述一個圖像的所顯示的數(shù)據(jù)的裝置,及用于將與所述選定的圖像或辨識的 數(shù)據(jù)相關(guān)的信息輸入到程序或應(yīng)用程序中的裝置。
38. 根據(jù)權(quán)利要求28所述的設(shè)備,其進(jìn)一步包括: 用于從來自所述第一場景的兩個或兩個以上圖像的第一圖像中識別具有眩光的第一 區(qū)的裝置; 用于從來自所述第一場景的所述兩個或兩個以上圖像的第二圖像中識別不具有眩光 的第二區(qū)的裝置,其中所述第一區(qū)及所述第二區(qū)表示所述第一場景的相同區(qū);及 用于使用所述第一圖像及來自所述第二圖像的不具有眩光的所述第二區(qū)合成具有減 少的眩光的所述最終圖像的裝置。
【文檔編號】G06K9/22GK104106078SQ201380008369
【公開日】2014年10月15日 申請日期:2013年1月8日 優(yōu)先權(quán)日:2012年1月9日
【發(fā)明者】百永基, 邱衡伊, 金杜勛 申請人:高通股份有限公司