專利名稱:使用圖像識(shí)別算法識(shí)別目標(biāo)圖像的方法
技術(shù)領(lǐng)域:
本發(fā)明公開的實(shí)施例總體上涉及圖像識(shí)別,并且更具體地涉及用于移動(dòng)增強(qiáng)現(xiàn)實(shí) (mobile augmented reality)的基于約束的圖像識(shí)別技術(shù)。
背景技術(shù):
移動(dòng)互聯(lián)網(wǎng)設(shè)備(MID)代表快速增長的全球市場(chǎng)。這些移動(dòng)計(jì)算設(shè)備的特點(diǎn)是尺 寸小、廣泛可用的互聯(lián)網(wǎng)連接和健壯的計(jì)算能力。這些特征允許移動(dòng)增強(qiáng)現(xiàn)實(shí)應(yīng)用,其通過 基于參數(shù)(例如,在MID的集成攝像頭視野中的人的位置和物體)提供額外的背景信息來 增強(qiáng)人的感覺和體驗(yàn)。允許該使用模型的關(guān)鍵技術(shù)是基于背景信息(例如,位置和方向) 找到并匹配圖像和視頻中的物體。
結(jié)合附圖,根據(jù)以下詳細(xì)的描述,將更好地理解本公開的實(shí)施例,其中圖1是根據(jù)本發(fā)明的實(shí)施例的基于約束的圖像識(shí)別系統(tǒng)流程的示意圖;圖2和3是根據(jù)本發(fā)明的實(shí)施例的圖像識(shí)別算法的示意圖;圖4是根據(jù)本發(fā)明的實(shí)施例的圖1的基于約束的圖像識(shí)別系統(tǒng)流程的示意圖;圖5是說明了根據(jù)本發(fā)明的實(shí)施例的用于識(shí)別目標(biāo)圖像的方法的流程圖;以及圖6是說明了根據(jù)本發(fā)明的實(shí)施例的用于選擇數(shù)據(jù)以傳輸?shù)奖銛y式電子設(shè)備的 方法的流程圖。為了說明的簡(jiǎn)潔和清楚,
了結(jié)構(gòu)的一般的方式,公知特征和技術(shù)的描述 和細(xì)節(jié)被省略以避免不必要地模糊對(duì)本發(fā)明的所描述的實(shí)施例的討論。此外,附圖中的元 件并非必然按照比例來繪制。例如,附圖中一些元件的尺寸相對(duì)于其它的元件被放大以幫 助改進(jìn)對(duì)本發(fā)明的實(shí)施例的理解。在不同的附圖中,相同的附圖標(biāo)記表示相同元件,但是類 似的附圖標(biāo)記可以但并不必然表示類似的元件。在說明書和權(quán)利要求中的術(shù)語“第一”、“第二”、“第三”、“第四”等(如果有的話) 被用于區(qū)分相似的元件,并不必然用于描述特定的順序或時(shí)間順序。應(yīng)當(dāng)理解,在適當(dāng)?shù)那?況下,所使用的術(shù)語是可互換的,以使得本文描述的本發(fā)明的實(shí)施例例如能夠按照與本文 說明或描述的順序不同的順序來操作。類似的,如果本文描述的方法包括一系列步驟,那么 本文所示的這些步驟的順序并不必然是可以執(zhí)行這些步驟的唯一順序,并且某些步驟可能 被省略和/或某些本文沒有描述的其它步驟可能被加入所述方法。此外,術(shù)語“包含”、“包 括”、“具有”和它們的任何變型旨在覆蓋非排它性的包括,以使得包括所列出的元素的過 程、方法、制品或裝置并不必然被限定為這些元素,而是可以包括沒有明確列出的或這種過 程、方法、制品或裝置所固有的其它元素。說明書以及權(quán)利要求中的術(shù)語“左”、“右”、“前”、“后”、“頂”、“底”、“上方”、“下方”
等(如果有的話)被用于描述性的目的,并不必然用于描述固定的相對(duì)位置。應(yīng)該理解,在 適當(dāng)?shù)那闆r下,所使用的這些術(shù)語是可互換的,以使得本文描述的本發(fā)明的實(shí)施例例如能夠按照與本文說明或描述的方位不同的方位來操作。本文使用的術(shù)語“耦合”被定義為用電 或非電的方式直接或間接地連接。根據(jù)使用短語的上下文的不同,本文描述為彼此“相鄰” 的物體可以彼此物理地接觸,彼此緊密的靠近或者彼此在大致相同的區(qū)域或地區(qū)中。在本 文中,短語“在一個(gè)實(shí)施例中”的出現(xiàn)并不必然都指代同一實(shí)施例。
具體實(shí)施例方式在本發(fā)明的一個(gè)實(shí)施例中,圖像識(shí)別算法包括基于關(guān)鍵點(diǎn)比較以及基于區(qū)域顏色 比較。算法還可以包括可視符號(hào)比較。在本發(fā)明的一個(gè)實(shí)施例中,使用圖像識(shí)別算法來識(shí) 別目標(biāo)圖像的方法包括在處理設(shè)備處接收輸入,所述輸入包括有關(guān)目標(biāo)圖像的數(shù)據(jù);執(zhí) 行檢索步驟,包括從圖像數(shù)據(jù)庫中檢索圖像直到圖像被接受或者被拒絕,將圖像指定為候 選圖像;執(zhí)行圖像識(shí)別步驟,包括使用處理設(shè)備對(duì)目標(biāo)圖像和候選圖像執(zhí)行圖像識(shí)別算法, 以便獲得圖像識(shí)別算法輸出;執(zhí)行比較步驟,包括如果圖像識(shí)別算法輸出在預(yù)先選擇的 范圍內(nèi),那么接受候選圖像作為目標(biāo)圖像;如果圖像識(shí)別算法輸出不在預(yù)先選擇的范圍內(nèi), 那么拒絕候選圖像并重復(fù)檢索步驟、圖像識(shí)別步驟以及比較步驟。因此,本發(fā)明的實(shí)施例允許用于移動(dòng)增強(qiáng)現(xiàn)實(shí)的基于約束的圖像識(shí)別。想要對(duì)地 點(diǎn)或物體了解更多的用戶可以利用MID或其它移動(dòng)設(shè)備來拍攝地點(diǎn)或物體的圖像,并且可 以接收關(guān)于所拍攝的地點(diǎn)或物體的相關(guān)信息,其可以是覆蓋在移動(dòng)設(shè)備上的拍攝圖像上的 增強(qiáng)信息的形式。在一些實(shí)施例中,用戶可以通過執(zhí)行嵌入在MID或其它設(shè)備上的自動(dòng)區(qū) 域分割算法來選擇感興趣的區(qū)域進(jìn)行查詢。在這種算法中,用戶可以通過觸摸在被分割成 預(yù)先選擇的多個(gè)區(qū)域的觸摸屏上自動(dòng)生成的區(qū)域分塊,而不是通過使用繪圖工具來容易地 選擇感興趣的區(qū)域。實(shí)時(shí)響應(yīng)以及良好的信息檢索精度是移動(dòng)設(shè)備應(yīng)用的兩個(gè)關(guān)鍵的部分。然而,對(duì) 于大多數(shù)圖像識(shí)別算法,隨著圖像數(shù)據(jù)庫的尺寸的增長,匹配的速度和精度都在下降。此 外,僅基于可視內(nèi)容的圖像識(shí)別被證明是非常有挑戰(zhàn)性的,因?yàn)楫?dāng)前的計(jì)算機(jī)視覺和模式 識(shí)別技術(shù)還不能完美地識(shí)別在不同的照明條件、視角、旋轉(zhuǎn)、分辨率以及遮蔽(occlusion) 的情況下拍攝的圖像。本發(fā)明的實(shí)施例使用傳感器模態(tài)(sensor modality),例如定位系統(tǒng)數(shù)據(jù)、3D加速 計(jì)數(shù)據(jù)、以及陀螺儀和數(shù)字指南針信息來減少圖像搜索復(fù)雜度。定位系統(tǒng)數(shù)據(jù)可以包括來 自全球定位系統(tǒng)(GPS)、廣域網(wǎng)(WAN)、無線網(wǎng)絡(luò)等的數(shù)據(jù)。例如,如果查詢圖像的GPS位置 在“紐約曼哈頓中城,第33和34街之間,第五大道350號(hào)”(帝國大廈的地址)附近,那么 查詢圖像不需要與在與GPS位置明顯不同處的圖像進(jìn)行比較。因此,例如,查詢圖像就不會(huì) 與芝加哥的西爾斯大廈或者法蘭克福的商業(yè)銀行大廈的圖像(這兩者以及許多其它摩天 大樓,至少看起來與帝國大廈有某些相似之處)混淆。此外,本發(fā)明的實(shí)施例使用光學(xué)字符識(shí)別(OCR)和語音識(shí)別技術(shù),利用在場(chǎng)景中 出現(xiàn)的文本和標(biāo)識(shí)以及來自用戶輸入的語音關(guān)鍵字來補(bǔ)助圖像識(shí)別?;谖谋镜臋z索具有 計(jì)算成本低、存儲(chǔ)需求小、傳輸帶寬低的優(yōu)點(diǎn)。這些基于文本的輸入幫助搜索系統(tǒng)實(shí)時(shí)地變 換到減小的搜索空間中。文本信息還有助于區(qū)分具有相似外觀的物體。如上所述,一些實(shí) 施例還使用組合了基于區(qū)域顏色比較和基于關(guān)鍵點(diǎn)比較的高級(jí)圖像識(shí)別算法。兩種可視特 征空間的匹配結(jié)果的組合具有兩個(gè)特征的優(yōu)點(diǎn),并且提供健壯的圖像識(shí)別系統(tǒng)來應(yīng)對(duì)不同的照明條件、視角、旋轉(zhuǎn)等?,F(xiàn)在參照附圖,圖1是根據(jù)本發(fā)明實(shí)施例的基于約束的圖像識(shí)別系統(tǒng)流程100的 示意圖。如圖1所示,系統(tǒng)流程100接受輸入110,如圖所示,所述輸入110包括可視內(nèi)容 111、傳感器模態(tài)112、音頻內(nèi)容113以及從圖像數(shù)據(jù)庫120檢索的信息;執(zhí)行匹配以及排序 過程130以便得到檢索的結(jié)果140。下文將更詳細(xì)地討論系統(tǒng)流程100。圖2是根據(jù)本發(fā)明實(shí)施例的圖像識(shí)別算法200的示意圖。如圖2所示,圖像識(shí)別 算法200包括基于關(guān)鍵點(diǎn)比較210以及基于區(qū)域顏色比較220?;陉P(guān)鍵點(diǎn)比較不會(huì)隨圖像縮放和圖像旋轉(zhuǎn)而變化,并且部分地不會(huì)隨觀察點(diǎn)和 照明中的變化而變化。因此,當(dāng)使用基于關(guān)鍵點(diǎn)比較技術(shù)來處理圖像時(shí),即使相同物體的多 個(gè)圖像是在不同的照明條件、從不同的角度和距離等拍攝的,這些圖像也不太可能被錯(cuò)誤 地識(shí)別為不匹配。作為示例,基于關(guān)鍵點(diǎn)比較210可以包括顯著關(guān)鍵點(diǎn)提取過程211,其導(dǎo) 致關(guān)鍵點(diǎn)212被識(shí)別。關(guān)鍵點(diǎn)特征提取213產(chǎn)生一組關(guān)鍵點(diǎn)特征向量214。這可以使用兩 兩比較215來處理,下文將更詳細(xì)地描述??梢酝ㄟ^使用對(duì)極(bipolar)幾何約束216或 本領(lǐng)域公知的其它投影幾何技術(shù)來改進(jìn)比較,以便去除關(guān)鍵點(diǎn)匹配離群點(diǎn)(outlier)并且 執(zhí)行代表所關(guān)注的特定物體的特征點(diǎn)的幾何協(xié)同定位。根據(jù)一個(gè)實(shí)施例,兩兩比較215涉及使用來自每個(gè)圖像的關(guān)鍵點(diǎn)直接比較兩個(gè)圖 像。例如,如果圖像1具有關(guān)鍵點(diǎn)A和B,圖像2具有關(guān)鍵點(diǎn)C和D,那么兩兩比較215包 括建立包括距離A-C、A-D、B-C、B-D的二分圖(bi-partite graph)。距離被排序并且確定 最短距離,之后識(shí)別不涉及來自最短距離的點(diǎn)的下一最短距離。使用上述示例的小樣本尺 寸,一旦A-C被識(shí)別為最短距離,那么B-D就是唯一剩下的不包括A或C的距離。然后,距 離A-C和B-D被相加以獲得它們的和。如果該和“較小”,即在某個(gè)預(yù)選的范圍內(nèi),那么圖像 1和圖像2可以被識(shí)別為相同物體的圖像。該預(yù)選的范圍取決于應(yīng)用,并且根據(jù)需要,可以 被調(diào)大或調(diào)小以便識(shí)別更多或更少的匹配圖像。兩兩比較215具有對(duì)稱的優(yōu)點(diǎn)。其它比較可能不是對(duì)稱的,即,可能取決于哪個(gè)圖 像被識(shí)別為第一圖像,包括那些將圖像的每個(gè)關(guān)鍵點(diǎn)與來自數(shù)據(jù)庫的多個(gè)圖像(而不是每 次與一個(gè)圖像)的關(guān)鍵點(diǎn)進(jìn)行比較,以嘗試找到最接近的匹配的方式。因?yàn)橄袼氐膮^(qū)域在噪聲和失真方面來說比單個(gè)像素更穩(wěn)定并且比包含多個(gè)物體 的整個(gè)圖像更精確,所以基于區(qū)域顏色比較是健壯的比較策略。在各種實(shí)施例中,基于區(qū)域 顏色比較220可以涉及使用顏色相關(guān)圖、顏色紅-綠-藍(lán)直方圖或者其它合適的顏色相關(guān) 特征。作為示例,基于區(qū)域顏色比較220可以包括區(qū)域分割過程221,其導(dǎo)致區(qū)域222的識(shí) 別。顏色特征提取223產(chǎn)生一組顏色特征向量224,其可以被使用該領(lǐng)域公知的地球移動(dòng)距 離(EMD, Earth mover' s distance)比較 225 來處理。如圖2進(jìn)一步所說明的,圖像識(shí)別算法200還可以包括可視符號(hào)比較230。作為示 例,可視符號(hào)比較230可以比較文本、標(biāo)志、字母字符以及出現(xiàn)在圖像中的物體上的或與其 有關(guān)的其它字符和符號(hào)。作為另一個(gè)示例,可視符號(hào)比較230可以使用技術(shù)231 (例如,OCR 和語音識(shí)別)以得到關(guān)鍵字232。這些可以利用根據(jù)本領(lǐng)域公知的技術(shù)的余弦比較233來 進(jìn)行比較??梢暦?hào)比較230、基于關(guān)鍵點(diǎn)比較210和基于區(qū)域顏色比較220可以被組合 250在類似于匹配和排序過程130的過程中,以便得到檢索結(jié)果140(參見圖1)。圖像識(shí)別算法200可以對(duì)輸入201操作,在所說明的實(shí)施例中,該輸入201包括可視內(nèi)容205和音頻內(nèi)容206。作為一個(gè)例子,基于關(guān)鍵點(diǎn)比較210、基于區(qū)域顏色比較220 和可視符號(hào)比較230可以從可視內(nèi)容205得到它們的輸入。作為另一個(gè)示例,音頻內(nèi)容206 可以包括語音命令、圖像內(nèi)容的可聽見的描述等。圖像識(shí)別算法200還可以包括音頻內(nèi)容 206的分析??梢允褂脗鹘y(tǒng)的語音識(shí)別技術(shù)來從音頻內(nèi)容206獲得關(guān)鍵字。在一個(gè)實(shí)施例中,圖像識(shí)別算法200還包括傳感器模態(tài)分析。這在圖3中說明,它 是根據(jù)本發(fā)明的實(shí)施例的圖像識(shí)別算法200的示意圖。為了簡(jiǎn)潔起見,圖3中省略了圖2 中出現(xiàn)的圖像識(shí)別算法200的某些元素。如圖3所示,圖像識(shí)別算法200的輸入201還包括傳感器模態(tài)305。這些模態(tài)可以 包括GPS數(shù)據(jù)310或其它合適的位置傳感器數(shù)據(jù)、校準(zhǔn)(alignment)信息311、時(shí)間320、視 角和方向數(shù)據(jù)330等。因此,一個(gè)實(shí)施例將圖像內(nèi)容(例如,可視內(nèi)容205和音頻內(nèi)容206) 與傳感器模態(tài)(305)結(jié)合,以提高圖像識(shí)別精度和效率。例如,給定GPS定位、視角、方向等, 在關(guān)鍵點(diǎn)提取之前,可以使用視角和方向數(shù)據(jù)330,將從不同視角和方向拍攝的相同物體的 兩個(gè)圖像進(jìn)行校準(zhǔn)。通過使用上述方法,可以更精確地匹配在不同的旋轉(zhuǎn)331、視角等處拍 攝的相同物體。作為另一個(gè)示例,如果拍攝時(shí)間(320)表明一個(gè)圖像是在白天拍攝的并且 另一個(gè)圖像在夜晚拍攝的,那么將不使用顏色比較,以減少匹配錯(cuò)誤,在白天/晚上以及白 天/晚上照明的不同引起較大的顏色改變的情況下可能會(huì)產(chǎn)生這種錯(cuò)誤。此外,OCR準(zhǔn)確 度要求文本處于水平位置。如果需要的話,通過利用例如視角、方向等傳感器信息330,可以 將圖像旋轉(zhuǎn)到水平位置,以便增加OCR處理(231)的準(zhǔn)確度。如圖3所示,傳感器模態(tài)305可以作為圖像識(shí)別算法200中的初始步驟而出現(xiàn)。 傳感器模態(tài)305可以用作圖像識(shí)別過程中的、可以減少圖像搜索空間的大小的額外細(xì)化的 層。這在圖4中進(jìn)行了說明,圖4是根據(jù)本發(fā)明的實(shí)施例的基于約束的圖像識(shí)別系統(tǒng)流程 100的示意圖。圖4顯示了輸入110,其包括傳感器模態(tài)112(所述傳感器模態(tài)112與圖3 中的傳感器模態(tài)305等同)。傳感器模態(tài)112用于(例如,如圖3及上文所述)使用過濾 方案420 (例如,如圖所示以及上文所述)來估計(jì)410圖像搜索空間。這會(huì)產(chǎn)生圖像數(shù)據(jù)庫 120中的必須被搜索的一組候選430,其中,組430可以顯著地比圖像數(shù)據(jù)庫120中的圖像 數(shù)量少。圖5是說明根據(jù)本發(fā)明的實(shí)施例的用于識(shí)別目標(biāo)圖像的方法500的流程圖。如上 所述,目標(biāo)圖像可以是由移動(dòng)計(jì)算設(shè)備拍攝的用戶生成的圖像。作為示例,用戶可以可選地 指定感興趣的區(qū)域而不是整個(gè)圖像作為查詢。圖像可視內(nèi)容本身,以及文本、語音關(guān)鍵字和 傳感器模態(tài)(例如,GPS、加速計(jì)、陀螺儀以及數(shù)字指南針信息)被傳輸?shù)綀D像匹配服務(wù)。取 決于計(jì)算/帶寬資源,該圖像匹配服務(wù)可以位于移動(dòng)計(jì)算設(shè)備上,或者可以作為無線連接 到移動(dòng)計(jì)算設(shè)備的后臺(tái)服務(wù)來運(yùn)行。方法500的步驟510用于在處理設(shè)備處接收包括有關(guān)目標(biāo)圖像的數(shù)據(jù)的輸入。作 為示例,輸入可以與首先在圖ι中顯示的輸入Iio相似。在一個(gè)實(shí)施例中,步驟510包括接 收可視內(nèi)容數(shù)據(jù)、傳感器模態(tài)數(shù)據(jù)以及音頻數(shù)據(jù)中的至少一個(gè)。在相同的或另一個(gè)實(shí)施例 中,步驟510包括從便攜式電子設(shè)備(例如,MID、蜂窩電話等)接收輸入。在一個(gè)實(shí)施例中, 步驟510包括接收傳感器模態(tài)數(shù)據(jù),其包括來自GPS、加速計(jì)或其它合適的運(yùn)動(dòng)傳感器、陀 螺儀以及指南針中的至少一個(gè)的數(shù)據(jù)。在一個(gè)實(shí)施例中,加速計(jì)可以是3D加速計(jì)。作為示例,處理設(shè)備可以處在服務(wù)器或其它后臺(tái)服務(wù)處、在MID或其它便攜式計(jì)算設(shè)備處或在類似的位置。處理設(shè)備可以是運(yùn)行軟件算法的計(jì)算平臺(tái)的一部分,除了別的 任務(wù)以外,其還執(zhí)行圖像/視頻處理任務(wù),例如物體檢測(cè)和識(shí)別、用戶接口以及圖像/視頻 渲染等。作為示例,這種算法可以與圖像識(shí)別算法200相似。視頻顯示器可以用于渲染處 理的結(jié)果,可選地將它與實(shí)際圖像/視頻數(shù)據(jù)和由圖像數(shù)據(jù)庫提供的額外信息相結(jié)合。計(jì)算平臺(tái)還可以包括圖像傳感器,其連接到能夠拍攝并處理靜態(tài)圖像和視頻的像 素處理器。像素處理器可以被編程以具有以下功能從處理簡(jiǎn)單操作(例如,直方圖計(jì)算、 2D濾波和關(guān)于像素陣列的算術(shù)操作)的性能到處理更復(fù)雜的任務(wù)(例如,物體檢測(cè)、3D濾 波等)的性能。主機(jī)中央處理單元(CPU)協(xié)調(diào)整個(gè)平臺(tái)的操作并且可以執(zhí)行軟件算法的一 部分。除了像素處理器,通過在平臺(tái)中包括多個(gè)加速器,可以獲得改進(jìn)的功率和性能;這些 加速器可以包括視頻編解碼器、圖像/視頻穩(wěn)定模塊和其它圖像處理模塊?;ヂ?lián)結(jié)構(gòu)可以將主機(jī)CPU和圖像處理模塊連接到主存儲(chǔ)器、顯示器和存儲(chǔ)設(shè)備。 此外,互聯(lián)結(jié)構(gòu)可以允許單獨(dú)的圖像處理模塊彼此直接連接以執(zhí)行某些任務(wù)。在這種情況 下,未使用的平臺(tái)部件可以被置于低功率狀態(tài),以改進(jìn)平臺(tái)的功率/性能特性。所有平臺(tái)部 件都可以訪問平臺(tái)時(shí)鐘,以便同步傳感、計(jì)算以及開動(dòng)操作。平臺(tái)可以包括支持基于中斷、 信箱區(qū)和其它方法的直接的部件到部件的通信機(jī)制的硬件。方法500的步驟520使用傳感器模態(tài)數(shù)據(jù)來過濾多個(gè)潛在的匹配圖像。作為示例, 如上所述,(可選的)該過濾可以減小圖像搜索空間并可以提高圖像識(shí)別算法輸出的準(zhǔn)確 度以及獲得該輸出的速度。方法500的步驟530執(zhí)行檢索步驟,其包括從包含多個(gè)潛在的匹配圖像的圖像數(shù) 據(jù)庫中檢索圖像,并且直到圖像被接受或拒絕;指定圖像作為候選圖像。作為示例,該圖像 數(shù)據(jù)庫可以類似于圖像數(shù)據(jù)庫120(參見圖1)或者類似于圖像數(shù)據(jù)庫120的子集,例如組 430(參見圖4)。方法500的步驟540執(zhí)行圖像識(shí)別步驟,其包括使用處理設(shè)備來對(duì)目標(biāo)圖像和候 選圖像執(zhí)行圖像識(shí)別算法,以便獲得圖像識(shí)別算法輸出。作為示例,圖像識(shí)別算法可以類似 于圖2中首先示出的圖像識(shí)別算法200。因此,在一個(gè)實(shí)施例中,步驟540包括使用處理設(shè) 備來執(zhí)行基于關(guān)鍵點(diǎn)比較、基于區(qū)域顏色比較以及可視符號(hào)比較。在特定實(shí)施例中,執(zhí)行基 于關(guān)鍵點(diǎn)比較包括執(zhí)行至少兩個(gè)關(guān)鍵點(diǎn)特征向量的兩兩比較;執(zhí)行基于區(qū)域顏色比較包 括執(zhí)行至少兩個(gè)顏色特征向量的EMD比較;并且執(zhí)行可視符號(hào)比較包括執(zhí)行余弦比較。方法500的步驟550執(zhí)行比較步驟,在該步驟中,如果圖像識(shí)別算法輸出在預(yù)選的 范圍內(nèi)(因此指示期望的匹配的質(zhì)量),那么接受候選圖像作為目標(biāo)圖像;如果圖像識(shí)別算 法輸出不在預(yù)選的范圍內(nèi)(指示沒有達(dá)到期望的匹配的質(zhì)量),那么拒絕候選圖像,并且重 復(fù)檢索步驟、圖像識(shí)別步驟以及比較步驟。圖6是說明了根據(jù)本發(fā)明的實(shí)施例的、用于選擇數(shù)據(jù)以傳輸?shù)奖銛y式電子設(shè)備的 方法600的流程圖。方法600的步驟610在處理設(shè)備處接收來自便攜式電子設(shè)備的、有關(guān)目標(biāo)圖像的 信息。在一個(gè)實(shí)施例中,步驟610包括接收可視內(nèi)容數(shù)據(jù)、傳感器模態(tài)數(shù)據(jù)以及音頻內(nèi)容數(shù) 據(jù)中的至少一種。在一個(gè)實(shí)施例中,步驟610包括接收傳感器模態(tài)數(shù)據(jù),其包括來自GPS、 3D(或其它)加速計(jì)或其它運(yùn)動(dòng)傳感器、陀螺儀以及指南針中的至少一個(gè)的數(shù)據(jù)。在一個(gè)實(shí) 施例中,方法600還包括使用傳感器模態(tài)數(shù)據(jù)來過濾多個(gè)潛在匹配的圖像。
8
方法600的步驟620執(zhí)行檢索步驟,其包括從包含多個(gè)潛在匹配圖像的圖像數(shù)據(jù) 庫中檢索有關(guān)圖像的信息,并且直到圖像被接受或拒絕;指定圖像作為候選圖像。作為示 例,所檢索的信息可以包括顏色特征或其它可視內(nèi)容數(shù)據(jù)等。方法600的步驟630執(zhí)行圖像識(shí)別步驟,其包括使用處理設(shè)備來對(duì)有關(guān)目標(biāo)圖像 和候選圖像的信息執(zhí)行圖像識(shí)別算法,以獲得圖像識(shí)別算法輸出。在一個(gè)實(shí)施例中,步驟 630包括使用處理設(shè)備來執(zhí)行基于關(guān)鍵點(diǎn)比較、基于區(qū)域的顏色比較以及可視符號(hào)比較。在 各種實(shí)施例中,執(zhí)行基于關(guān)鍵點(diǎn)比較包括執(zhí)行至少兩個(gè)關(guān)鍵點(diǎn)特征向量的兩兩比較;執(zhí)行 基于區(qū)域顏色比較包括執(zhí)行至少兩個(gè)顏色特征向量的EMD比較;并且執(zhí)行可視符號(hào)比較包 括執(zhí)行余弦比較。方法600的步驟640執(zhí)行比較步驟,在該步驟中,如果圖像識(shí)別算法輸出在預(yù)選的 范圍內(nèi)(因此指示期望的匹配的質(zhì)量),那么接受候選圖像作為目標(biāo)圖像;如果圖像識(shí)別算 法輸出不在預(yù)選的范圍內(nèi)(指示沒有達(dá)到期望的匹配的質(zhì)量),那么拒絕候選圖像,并且重 復(fù)檢索步驟、圖像識(shí)別步驟以及比較步驟。方法600的步驟650在接受候選圖像作為目標(biāo)圖像之后,將與目標(biāo)圖像關(guān)聯(lián)的數(shù) 據(jù)集發(fā)送到個(gè)人電子設(shè)備。雖然參照具體的實(shí)施例描述了本發(fā)明,但是本領(lǐng)域的技術(shù)人員將理解,可以在不 脫離本發(fā)明的精神或范圍的情況下,做出各種改變。因此,本發(fā)明的實(shí)施例的公開旨在說明 本發(fā)明的范圍而不是旨在對(duì)其限定。本發(fā)明的范圍應(yīng)當(dāng)僅限制到所附權(quán)利要求所要求的程 度。例如,對(duì)于本領(lǐng)域的技術(shù)人員來說,可以在各種實(shí)施例中實(shí)現(xiàn)圖像識(shí)別算法和本文討論 的有關(guān)方法,這是顯而易見的,并且上文中對(duì)這些實(shí)施例中的某些的討論并不必然代表對(duì) 所有可能的實(shí)施例的完整描述。此外,關(guān)于具體的實(shí)施例描述了益處、其它優(yōu)點(diǎn)和問題的解決方案。然而,益處、優(yōu) 點(diǎn)和問題的解決方案以及可以使得任何益處、優(yōu)點(diǎn)和解決方案出現(xiàn)或變得更顯著的任何元 素不應(yīng)被解釋為任何權(quán)利要求或所有權(quán)利要求的關(guān)鍵的、必需的或必要的特征。此外,如果實(shí)施例和/或限定⑴沒有在權(quán)利要求中明確地聲明;并且⑵根據(jù) 等價(jià)物的原則,是或者潛在的是權(quán)利要求中的明確的元素和/或限定的等價(jià)物,那么根據(jù) 專用原則,本文公開的實(shí)施例和限定并不專用于公眾。
權(quán)利要求
一種用于識(shí)別目標(biāo)圖像的方法,所述方法包括執(zhí)行圖像識(shí)別算法,其包括基于關(guān)鍵點(diǎn)比較;基于區(qū)域顏色比較;以及傳感器模態(tài)分析。
2.根據(jù)權(quán)利要求1所述的方法,其中 所述圖像識(shí)別算法還包括可視符號(hào)比較。
3.根據(jù)權(quán)利要求2所述的方法,其中 所述可視符號(hào)比較包括余弦比較。
4.根據(jù)權(quán)利要求1所述的方法,其中所述基于關(guān)鍵點(diǎn)比較包括至少兩個(gè)關(guān)鍵點(diǎn)特征向量的兩兩比較。
5.根據(jù)權(quán)利要求1所述的方法,其中所述基于區(qū)域顏色比較包括至少兩個(gè)顏色特征向量的地球移動(dòng)距離(EMD)比較。
6.根據(jù)權(quán)利要求1所述的方法,其中 所述圖像識(shí)別算法還包括音頻內(nèi)容分析。
7.一種用于識(shí)別目標(biāo)圖像的方法,所述方法包括在處理設(shè)備處接收輸入,所述輸入包括有關(guān)所述目標(biāo)圖像的數(shù)據(jù); 執(zhí)行檢索步驟,所述檢索步驟包括從圖像數(shù)據(jù)庫檢索圖像,所述圖像數(shù)據(jù)庫包含多個(gè) 潛在匹配圖像,并且直到所述圖像被接受或被拒絕;指定所述圖像作為候選圖像;執(zhí)行圖像識(shí)別步驟,所述圖像識(shí)別步驟包括使用所述處理設(shè)備來對(duì)所述目標(biāo)圖像和所 述候選圖像執(zhí)行圖像識(shí)別算法,以便獲得圖像識(shí)別算法輸出;以及 執(zhí)行比較步驟,所述比較步驟包括如果所述圖像識(shí)別算法輸出在預(yù)選的范圍內(nèi),那么接受所述候選圖像作為所述目標(biāo)圖 像;以及如果所述圖像識(shí)別算法輸出不在所述預(yù)選的范圍內(nèi),那么拒絕所述候選圖像并且重復(fù) 所述檢索步驟、所述圖像識(shí)別步驟和所述比較步驟。
8.根據(jù)權(quán)利要求7所述的方法,其中使用所述處理設(shè)備來執(zhí)行所述圖像識(shí)別算法包括使用所述處理設(shè)備來執(zhí)行基于關(guān)鍵 點(diǎn)比較、基于區(qū)域顏色比較和可視符號(hào)比較中的至少一個(gè)。
9.根據(jù)權(quán)利要求8所述的方法,其中執(zhí)行所述基于關(guān)鍵點(diǎn)比較包括執(zhí)行至少兩個(gè)關(guān)鍵點(diǎn)特征向量的兩兩比較。
10.根據(jù)權(quán)利要求8所述的方法,其中執(zhí)行所述基于區(qū)域顏色比較包括執(zhí)行至少兩個(gè)顏色特征向量的地球移動(dòng)距離(EMD) 比較。
11.根據(jù)權(quán)利要求8所述的方法,其中執(zhí)行所述可視符號(hào)比較包括執(zhí)行余弦比較。
12.根據(jù)權(quán)利要求7所述的方法,其中在所述處理設(shè)備處接收所述輸入包括接收傳感器模態(tài)數(shù)據(jù);以及所述傳感器模態(tài)數(shù)據(jù)包括來自定位系統(tǒng)、運(yùn)動(dòng)傳感器、陀螺儀和指南針中的至少一個(gè)的數(shù)據(jù)。
13.根據(jù)權(quán)利要求12所述的方法,還包括使用所述傳感器模態(tài)數(shù)據(jù)來過濾所述多個(gè)潛在匹配圖像。
14.根據(jù)權(quán)利要求7所述的方法,其中在所述處理設(shè)備處接收所述輸入包括接收可視內(nèi)容數(shù)據(jù)、傳感器模態(tài)數(shù)據(jù)和音頻內(nèi) 容數(shù)據(jù)中的至少一個(gè)。
15.根據(jù)權(quán)利要求7所述的方法,其中在所述處理設(shè)備處接收所述輸入包括從便攜式電子設(shè)備接收所述輸入。
16.一種用于選擇數(shù)據(jù)以傳輸?shù)奖銛y式電子設(shè)備的方法,所述方法包括在處理設(shè)備處接收有關(guān)目標(biāo)圖像的信息,所述信息是從所述便攜式電子設(shè)備發(fā)送的; 執(zhí)行檢索步驟,所述檢索步驟包括從圖像數(shù)據(jù)庫檢索有關(guān)圖像的信息,所述圖像數(shù)據(jù) 庫包含多個(gè)潛在匹配圖像,并且直到所述圖像被接受或被拒絕;指定所述圖像作為候選圖 像;執(zhí)行圖像識(shí)別步驟,所述圖像識(shí)別步驟包括使用所述處理設(shè)備來對(duì)與所述目標(biāo)圖像和 所述候選圖像相關(guān)的信息執(zhí)行圖像識(shí)別算法,以便獲得圖像識(shí)別算法輸出; 執(zhí)行比較步驟,所述比較步驟包括如果所述圖像識(shí)別算法輸出在預(yù)選的范圍內(nèi),那么接受所述候選圖像作為所述目標(biāo)圖 像;以及如果所述圖像識(shí)別算法輸出不在所述預(yù)選的范圍內(nèi),那么拒絕所述候選圖像并且重復(fù) 所述檢索步驟、所述圖像識(shí)別步驟和所述比較步驟;以及在接受所述候選圖像作為所述目標(biāo)圖像之后,將與所述目標(biāo)圖像相關(guān)聯(lián)的數(shù)據(jù)集傳輸 到所述便攜式電子設(shè)備。
17.根據(jù)權(quán)利要求16所述的方法,其中使用所述處理設(shè)備來執(zhí)行所述圖像識(shí)別算法包括使用所述處理設(shè)備來執(zhí)行基于關(guān)鍵 點(diǎn)比較、基于區(qū)域顏色比較和可視符號(hào)比較中的至少一個(gè);執(zhí)行所述基于關(guān)鍵點(diǎn)比較包括執(zhí)行至少兩個(gè)關(guān)鍵點(diǎn)特征向量的兩兩比較; 執(zhí)行基于區(qū)域顏色比較包括執(zhí)行至少兩個(gè)顏色特征向量的地球移動(dòng)距離(EMD)比較;執(zhí)行所述可視符號(hào)比較包括執(zhí)行余弦比較。
18.根據(jù)權(quán)利要求16所述的方法,其中在所述處理設(shè)備處接收有關(guān)所述目標(biāo)圖像的信息包括接收傳感器模態(tài)數(shù)據(jù); 所述傳感器模態(tài)數(shù)據(jù)包括來自定位系統(tǒng)、加速計(jì)、陀螺儀和指南針中的至少一個(gè)的數(shù) 據(jù);并且所述方法還包括使用所述傳感器模態(tài)數(shù)據(jù)來過濾所述多個(gè)潛在匹配圖像。
19.根據(jù)權(quán)利要求16所述的方法,其中在所述處理設(shè)備處接收有關(guān)所述目標(biāo)圖像的信息包括接收可視內(nèi)容數(shù)據(jù)、傳感器模 態(tài)數(shù)據(jù)以及音頻內(nèi)容數(shù)據(jù)中的至少一個(gè)。
全文摘要
一種圖像識(shí)別算法包括基于關(guān)鍵點(diǎn)比較和基于區(qū)域顏色比較。一種用于使用所述算法來識(shí)別目標(biāo)圖像的方法包括在處理設(shè)備處接收輸入,所述輸入包括有關(guān)目標(biāo)圖像的數(shù)據(jù);執(zhí)行檢索步驟,包括從圖像數(shù)據(jù)庫檢索圖像,并且直到圖像被接受或被拒絕,指定所述圖像為候選圖像;執(zhí)行圖像識(shí)別步驟,包括使用處理設(shè)備對(duì)目標(biāo)圖像和候選圖像執(zhí)行圖像識(shí)別算法以獲得圖像識(shí)別算法輸出;以及執(zhí)行比較步驟,包括如果所述圖像識(shí)別算法輸出在預(yù)選的范圍內(nèi),那么接受候選圖像作為目標(biāo)圖像;如果圖像識(shí)別算法輸出不在預(yù)選的范圍內(nèi),那么拒絕候選圖像并且重復(fù)檢索步驟、圖像識(shí)別步驟和比較步驟。
文檔編號(hào)G06K9/00GK101950351SQ200911000228
公開日2011年1月19日 申請(qǐng)日期2009年12月2日 優(yōu)先權(quán)日2008年12月2日
發(fā)明者H·豪斯科爾, I·科津采夫, Y·吳 申請(qǐng)人:英特爾公司