本申請要求于2015年4月14日提交的序列號為14/686,644的美國專利申請的優(yōu)先權,其要求于2014年4月15日提交的、序列號為61/979,949的美國臨時專利申請的優(yōu)先權,其全部內(nèi)容通過引用并入本文。
技術領域
本發(fā)明的公開涉及移動設備的使用一個或多個光學元件的輸入/輸出(I/O)。更具體地,本概念涉及將移動設備的光學輸入功能集成到該移動設備的輸出功能,并且甚至更具體地,針對手機的工作流或應用執(zhí)行從移動設備攝像頭的光學輸入到文本輸出的整合。
背景技術:
移動設備在發(fā)展的市場領域中占據(jù)著越來越突出的地位,充當著指導看似無限數(shù)目的活動的多個階段的接入點。隨著這一趨勢的繼續(xù),移動設備和其提供的網(wǎng)絡能力被用于與日俱增的數(shù)目和寬度的場景中。最近的例子包括對移動技術的擴展提供了大量的金融服務,例如支票存款、分期付款、金融管理等。此外,通過移動設備匯集的位置數(shù)據(jù)被用于越來越多的應用中,例如提供定向廣告、環(huán)境感知等等。
隨著移動開發(fā)界發(fā)現(xiàn)設備的新功用,呈現(xiàn)給用戶越來越多、復雜并且特殊的機會以提供被要求或有利于移動設備被用來執(zhí)行的潛在進程的輸入。此外,用戶可能與之交互或向其提供輸入的程序中的環(huán)境的上下文持續(xù)多樣化。
當從用戶的觀點來看,被實現(xiàn)的技術可能未必是最佳的或甚至是可接受的方法,這一多樣化自然包括市場地位的擴展。在轉瞬間就決定一定的挑戰(zhàn)的可接受和不可接受的解決方案的差別的文化中,開發(fā)人員尋求每個有利于實現(xiàn)上級技術的每個可能的性能。
例如,關于用戶經(jīng)由移動設備接收輸入,存在著幾個眾所周知的低效性。第一個低效性是移動設備典型的小屏幕尺寸,尤其是移動電話。因為傳統(tǒng)的“智能手機”排除了物理鍵盤和指針設備,而是依靠觸摸屏技術,在移動設備屏幕上顯示的虛擬“鍵盤”上分配給一個給定鍵的實體空間的大小遠小于人類的手指精確地以及準確地調(diào)用的可能。因此,當考慮到用戶經(jīng)由移動設備接收的輸入的文本時,打字錯誤是常見的。
為了打破這一限制,典型的移動設備采用強大的預測性分析學和詞典以“學習”一個給定用戶的輸入習慣。基于該開發(fā)的預測模型,移動設備能夠在用戶實際的輸入相當于不符合其中定義的標準、模式等的文本時預測用戶打算輸入的文本。使用這種預測分析和詞典的最明顯的例子體現(xiàn)在多數(shù)典型的移動設備可用的傳統(tǒng)的“自動修正”功能中。
然而,這些“自動修正”方法在移動界因為制造錯誤的,甚至不恰當?shù)念A測而聲名狼藉。而在一些上下文中這些不準確是可笑的,錯誤預測的普遍性導致詞不達意和錯誤,挫敗了潛在進程,用戶,并最終擊敗了移動設備在移動設備本可以用于巨大好處的多種上下文中的可采納性和實用性。
結果是,一些開發(fā)人員已轉向了輸入的替代來源,以及通過移動設備聚集輸入的技術。例如,多數(shù)解決方案集中于利用音頻輸入作為文本輸入(也就是通過移動設備顯示屏上顯示的虛擬鍵盤所得到的觸覺輸入)的替換物或補充。在實際中,這種技術已經(jīng)照慣例被呈現(xiàn)為移動設備語音識別功能的綜合(例如通過“虛擬助手”被授予,例如蘋果移動設備(IOS 5.0或以上)中的“Siri”)。
這一被加入到手機鍵盤的音頻輸入擴展在下面的附圖中被例示。而這一圖片顯示了使用蘋果IOS操作系統(tǒng)生成的界面,類似的功能也可以被發(fā)現(xiàn)于其他的平臺,例如ANDROID、MICROSOFT SURFACE RT等。
音頻輸入可以通過整合擴展到手機虛擬鍵盤中而被接收,其輔助用戶提供提供移動設備顯示器接收的典型的觸覺輸入以外的輸入。在一種方法中,音頻擴展表現(xiàn)為描繪麥克風圖標或符號的按鈕,直接臨近于空格鍵(在左側)。用戶可以與配置為接收文本輸入的域交互,例如在線表單上的一個域、PDF等等。移動設備利用操作系統(tǒng)調(diào)用移動虛擬鍵盤用戶界面以響應用戶與域的交互。接著用戶可選地提供觸覺輸入以輸入想要的文本,或與音頻擴展交互以調(diào)用音頻輸入界面。在本領域中,這一技術通常被稱為“語音轉文字”功能,其接受音頻輸入并將接收到的音頻輸入轉換為文本信息。
一經(jīng)調(diào)用音頻輸入界面,以及可選地響應經(jīng)由移動設備顯示器接收來自用戶的附加輸入(例如再次點擊音頻擴展以指示開啟音頻輸入),用戶提供音頻輸入,其被移動設備語音識別組件分析,轉換為文本并輸入到用戶與之交互的域以調(diào)用移動虛擬鍵盤。
通過整合音頻輸入到移動設備的文本輸入/輸出能力,用戶能夠以免手動的方法輸入文本信息,其將設備可接受的功用擴大到原本不可能的大量上下文。例如,根據(jù)這些方法,用戶可以僅使用音頻輸入生成文本信息。然而,這些方法也被目前存在的語音識別技術中眾所周知的相似的令人沮喪的性能退化誤差和矛盾所困擾。結果是,現(xiàn)有的補充和替代文本輸入的語音識別方法并不令人滿意。
當前可用的語音識別因受制于錯誤而聞名-通常語音識別軟件簡單地不能識別獨特個體所展現(xiàn)的獨特發(fā)音。類似的,語音識別易于出現(xiàn)“聲音圖示”錯誤(即類似于音頻輸入的“打字錯誤”的錯誤,例如錯誤地識別被發(fā)聲的單詞)。
進一步的,語音識別天生被預定的規(guī)則組所制約(例如可能基于被說的語言所定義的一組假定或條件)。進一步地,因為同一語言的說法和寫法版本之間的慣例通常明顯不同,也許甚至不可能利用音頻輸入作為文本輸入的補充或替代。例如,在預期的表達形式和/或用法(其通常定義了聲音識別所依賴的“規(guī)則”)相當于一種語言的寫法形式的情況下,音頻輸入通常是觸覺輸入的不切實際的替代物。
用于獲取或驗證對應于非典型的或不能夠用語言表達的信息的用戶輸入時,語音識別是一種劣質(zhì)的使用工具。從用戶輸入包括符號,例如通常用于標記計量的單位的角度看,這些限制的典型例子是顯而易見的。即使這些計量單位有著公認的發(fā)聲(例如被稱為“美元”的貨幣單位對應著符號“$”),但這些發(fā)聲并不一定是相應單詞的唯一用法(例如“鎊”可能對應著一個重量的計量單位即“l(fā)bs”,也可能是貨幣的單位,即“£”,這取決于上下文)。
語音識別也不適于接收和處理包含語法符號(例如用于傳達語法信息的一個或多個“符號”,如逗號“,”分號“;”句號“?!钡?的文本輸入,或包含在語言表達中不一定有相應的物理表示的符號(例如回車、制表符、空格、尤其是文本對齊方式等)的格式化的表達。
其它現(xiàn)有的方法包括使用光學輸入作為文本輸入的補充,但這些技術僅僅呈現(xiàn)出結合文本輸入與圖像或視頻剪輯的能力,并通過用戶偏愛的通信方式(即短信,電子郵件,視頻聊天等)來分配這些結合的輸入。這些傳統(tǒng)的方法代表性地包括一個結合的的輸入界面,以移動設備虛擬鍵盤來輔助通過移動裝置虛擬鍵盤的觸覺輸入、以及通過置于輸入界面上的單獨的按鈕(但是在上述的音頻輸入功能中它并不必包含于虛擬鍵盤上)的光學輸入的接收。
一旦用戶與該單獨的按鈕交互,設備輔助包括預先捕捉的光學輸入或可選地調(diào)用捕捉界面以捕捉新的光學輸入,并且除了用戶輸入的任意文本信息輸入之外,包括預先或最近捕捉的光學輸入提供觸覺輸入到手機虛擬鍵盤。
作為前述事項的結果,目前通過移動設備的光學和音頻輸入整合嚴重受限為接收和處理用戶經(jīng)由移動裝置的輸入的補充或可選的方法。現(xiàn)存的策略允許語音識別的累贅的聲音的輸入,或圖像的輸入以補充文本輸入。然而,這些技術不能夠?qū)⑦@些不同的輸入能力整合為提供智能的替代物和/或補充經(jīng)由移動設備的文本輸入的上下文相關的方法。
確保額外的輸入能力在幫助而非降低設備性能的生產(chǎn)方法中被調(diào)用以及用戶與其交互是一項復雜的工作,這要求認真考慮光學輸入可能有用的不同的上下文,以及捕捉和/或分析所述光學輸入以完成上下文相關的智能整合移動設備攝像頭作為輸入的來源以接收來自用戶的文本信息所提供的效益的適當?shù)臈l件。
因此,提供被配置為補充和/或替代觸覺和語音輸入的新的方法、系統(tǒng)和/或計算機程序產(chǎn)品技術以作為接收用戶輸入和生成輸出的機制是極其有益的,特別是全部或部分基于接收的輸入和輸入所接收的狀態(tài)的上下文或輸入被提供的目的而決定的輸出。
附圖說明
圖1A例示了與一個實施例一致的、配置為接收用戶輸入的移動設備用戶界面。
圖1B例示了與一個實施例一致的、配置為接收用戶輸入的移動設備用戶界面。
圖2是根據(jù)一個實施例的一種方法的流程圖。
圖3是根據(jù)一個實施例的一種方法的流程圖。
發(fā)明綜述
在一個實施例中,一種方法包括調(diào)用移動設備上的用戶輸入界面;調(diào)用用戶輸入界面的光學輸入擴展;通過移動設備的一個或多個光學傳感器捕捉光學輸入;從所捕捉的光學輸入中確定文本信息;以及向用戶輸入界面提供所確定的文本信息。
在另一個實施例中,一種方法包括通過移動設備的一個或多個光學傳感器接收光學輸入;使用移動設備的處理器分析所述光學輸入以確定所述光學輸入的上下文;以及基于所述光學輸入的上下文自動地調(diào)用上下文適用的工作流。
在另一個實施例中,計算機程序產(chǎn)品包括具有體現(xiàn)于其上的程序代碼的計算機可讀存儲介質(zhì)。所述程序代碼可被處理器讀取/執(zhí)行以:調(diào)用移動設備的用戶輸入界面;調(diào)用該用戶輸入界面的光學輸入擴展;通過所述移動設備的一個或多個光學傳感器捕捉光學輸入;從所捕捉的光學輸入中確定文本信息;以及提供所確定的文本信息到用戶輸入界面。
本發(fā)明的另外的方面和實施例將從下述詳細描述中變得明顯,其在結合附圖時通過例示本發(fā)明的原理的方式來闡述。
詳細描述
下列描述是用于說明本發(fā)明的一般原理,并且不意味著限制此處要求的發(fā)明構思。進一步,此處描述的具體特征可以用于與其它描述的特征以各種可能的組合和置換中的每一種進行組合。
除非在此處另有特別的定義,所有的術語都被給出它們最廣泛的可能的解釋,包括說明書中隱含的解釋以及本領域技術人員所能理解的含義和/或在辭典、論文等中所定義的。
還應該注意的是,在用于說明書和附加的權利要求書中時,除非另有說明,單數(shù)形式“一(a)”、“一個(an)”、“那個(the)”包括復數(shù)的參照對象。
本申請指由照相機,特別是移動設備的照相機捕捉的圖像(例如圖片、圖形、圖示的圖表、電影的單幀、視頻、電影、剪輯等)的圖像處理。此處所理解的是,移動設備是任何能夠接受數(shù)據(jù)而不具有經(jīng)由物理連接的電力供應(例如電線、繩、電纜等)以及能夠無需物理數(shù)據(jù)連接(例如電線、繩、電纜等)而接收數(shù)據(jù)的設備。在本公開中的范圍內(nèi)的移動設備包括典型的設備例如移動電話、智能手機、平板電腦、個人數(shù)字助理、設備等。
當然、此處提出的不同實施例可以利用硬件、軟件、或其需要的任意結合來實現(xiàn)。就此而言,任意類型的能夠?qū)崿F(xiàn)此處提出的不同功能的邏輯都可被使用。
使用移動設備的一個優(yōu)點是,具有了數(shù)據(jù)計劃,相對曾經(jīng)依賴掃描儀的方法而言,基于被捕捉的圖像的圖像處理和信息處理可以以更加方便、流線型以及整合的方式來完成。然而,因為多種原因,移動設備作為一個或多個文檔捕捉和/或處理設備迄今為止一直被認為難以實施。
在一種方法中,圖像可以由移動設備的照相機來捕捉?!罢障鄼C”這一詞語應該被廣泛地解釋為任意類型的能夠捕捉設備以外的物理對象,例如一張紙的圖像的設備?!罢障鄼C”這一詞語并不包含外部的掃描儀或多功能設備。任意類型的照相機都可以被使用。優(yōu)選的實施例可以使用較高分辨率的照相機,例如8MP或更高,理想地12MP或更高。圖像可以被捕捉為彩色的、灰度的、黑白的、或任何其他已知的光學效應。術語“圖像”在此處被提及是意味著包括任意類型的對應于照相機輸出數(shù)據(jù),包括原始數(shù)據(jù)、被處理后的數(shù)據(jù)等。
如此處所討論的,術語“語音識別”被認為是相當于或包含一些移動設備提供的允許音頻輸入向文本輸出轉換的所謂的“語音轉文本”功能(再次例如“Siri”)。相比之下,此處討論的創(chuàng)新的技術可以被稱為“圖像轉文本”或“視頻轉文本”功能。
本領域的技術人員將領會的是,本發(fā)明的方面可以被呈現(xiàn)為系統(tǒng)、方法或計算機程序產(chǎn)品。相應地,本發(fā)明的方法可以表現(xiàn)為全部硬件的實施例、全部軟件的實施例(包括固件、常駐軟件、微代碼等)或結合了軟件和硬件方面的實施例的形式,其全部一般地在此處被稱為“邏輯”、“電路”、“模塊”、或系統(tǒng)。進一步地,本發(fā)明的方面可以表現(xiàn)為計算機程序產(chǎn)品的形式,具體為一個或多個具有計算機可讀程序代碼實施于其上的計算機可讀介質(zhì)。
所述一個或多個計算機可讀介質(zhì)的任意結合都可被利用。所述計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)可以是,例如而不限于電子的、磁性的、光學的、電磁的、紅外線的、或半導體系統(tǒng)、裝置或設備,或上述的任意合適的結合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)可以包括下述的:便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦可編程只讀存儲器(EPROM或閃存)、便攜式光盤只讀存儲器(CD-ROM)、光存儲設備、磁存儲設備、或前述的任意合適的結合。在本文檔的文本中,計算機可讀存儲介質(zhì)可以是任何能夠包含或存儲程序以便指令執(zhí)行系統(tǒng)、裝置、處理器或設備執(zhí)行或與之結合的有形的介質(zhì)。
計算機可讀信號介質(zhì)可以包括具有計算機可讀程序代碼執(zhí)行于其中的數(shù)據(jù)信號的傳播,例如,在基帶中、作為載波的一部分、具有一根或更多電線的電氣連接、光纖等等。這樣的傳播信號可以采取任意多種形式,包括而不限于電磁的、光學的、或其任意合適的結合。計算機可讀信號介質(zhì)可以是不是計算機可讀存儲介質(zhì)并可以通信、傳播、傳輸程序以便使用或與指令執(zhí)行系統(tǒng)、裝置或設備結合的任意計算機可讀介質(zhì)。
可以使用任何適當?shù)慕橘|(zhì)傳輸實施于計算機可讀介質(zhì)上的程序代碼,包括而不限于無線的、有線的、光纖電纜、RF等,或任意前述的合適的結合。
用于實施本發(fā)明的方面的操作的計算機程序代碼可以寫為一種或多種編程語言的任意結合,包括面向?qū)ο缶幊陶Z言,例如Java、Smalltalk、C++或類似的以及傳統(tǒng)的過程化編程語言,例如“C”編程語言或類似的編程語言。程序代碼可以完全在用戶的計算機上、部分在用戶的計算機上、作為獨立的軟件包、部分在用戶的計算機上以及部分在遠程的計算機上或完全在遠程的計算機或服務器上執(zhí)行。在后一種方案中,遠程計算機可以通過任意類型的網(wǎng)絡與用戶的計算機連接,包括本地局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),或可以與外部的計算機連接(例如,通過使用互聯(lián)網(wǎng)服務提供商的互聯(lián)網(wǎng))。
根據(jù)本發(fā)明的實施例,本發(fā)明的方面在下文中參照方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖進行描述??梢岳斫獾氖?,流程圖中的每個塊和/或框圖可以由計算機程序指令來執(zhí)行。這些計算機程序指令可以用于通用計算機或?qū)S糜嬎銠C的處理器,或其他可編程的數(shù)據(jù)處理裝置以生產(chǎn)機器,如此通過計算機的處理器或其他可編程的數(shù)據(jù)處理裝置執(zhí)行的指令創(chuàng)造實施流程圖和/或框圖或塊中指定的功能/動作。
這些計算機程序指令還可以存儲在能夠指導計算機、其他可編程的數(shù)據(jù)處理裝置、或其他設備以獨特的方式運行的計算機可讀介質(zhì)中,如此存儲于計算機可讀介質(zhì)中的指令生產(chǎn)一件包括實施在流程圖和/或框圖或塊中指定的功能/動作的指令的產(chǎn)品。
計算機程序指令還可以加載于計算機、其它可編程的數(shù)據(jù)處理裝置、或其他設備上以引起一系列操作的步驟在計算機、其它可編程的數(shù)據(jù)處理裝置、或其他設備上執(zhí)行以產(chǎn)生計算機實施的進程,如此在計算機或其他可編程的裝置上執(zhí)行的指令提供用于實施在流程圖和/或框圖或塊中指定的功能/動作。
根據(jù)本發(fā)明的不同實施例,附圖中的流程圖和框圖例示了系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。就這一點而言,流程圖中的每個塊或框圖可以代表一個模塊、段或代碼的一部分,其包含一個或多個可執(zhí)行的指令用于執(zhí)行指定的一個或多個邏輯功能。還應該注意的是,在一些可選的實現(xiàn)中,標注在框圖中的功能可能不以圖中標注的順序發(fā)生。例如,連續(xù)顯示的兩個塊可能實際上同時被執(zhí)行,或塊有時可能以逆序被執(zhí)行,取決于涉及的功能。還應該注意的是框圖中的每個塊和/或流程圖,以及框圖中的每個塊和/或流程圖的結合可以由專用的執(zhí)行特定功能或動作的基于硬件的系統(tǒng)、或?qū)S玫挠布陀嬎銠C指令的結合來執(zhí)行。
應用程序可以安裝于移動設備中,例如存儲于設備的非易失性存儲器中。在一種方法中,應用程序可以包括執(zhí)行移動設備上圖像的處理的指令。在另一種方法中,應用程序包括發(fā)送圖像到例如網(wǎng)絡服務器的遠程服務器的指令。在另一種方法中,應用程序可以包括決定是否在該移動設備上執(zhí)行部分或全部處理和/或發(fā)送圖像到遠程站點的指令。
在一個一般的實施例中,一種方法包括調(diào)用移動設備上的用戶輸入界面;調(diào)用所述用戶輸入界面的光學輸入擴展;通過所述移動設備的一個或多個光學傳感器捕捉光學輸入;從被捕捉的光學輸入中確定文本信息;以及向所述用戶輸入界面提供確定的文本信息。
在另一個一般的實施例中,一種方法包括通過移動設備的一個或多個光學傳感器接收光學輸入;使用移動設備的處理器分析所述光學輸入以確定所述光學輸入的上下文;以及基于所述光學輸入的上下文自動地調(diào)用上下文適用的工作流。
在另一個實施例中,計算機程序產(chǎn)品包括具有隨之呈現(xiàn)的程序代碼的計算機可讀存儲介質(zhì)。所述程序代碼可被處理器讀取/執(zhí)行以:調(diào)用移動設備的用戶輸入界面;調(diào)用該用戶輸入界面的光學輸入擴展;通過所述移動設備的一個或多個光學傳感器捕捉光學輸入;從被捕捉的光學輸入中確定文本信息;以及提供所確定的文本信息到用戶輸入界面。
在不同的實施例中,目前公開的方法、系統(tǒng)和/或計算機程序產(chǎn)品可以可選地利用和/或包括相關的2013年1月11日提交的美國專利No.8,855,375;2013年7月22日提交的美國專利No.13/948,046;2013年3月13日提交的美國專利出版物No.2014/0270349;2014年3月13日提交的美國專利出版物No.2014/0270536;2014年5月2日提交的美國專利No.8,885,229;和/或2014年3月19日提交的美國專利申請No.14/220,029中公開的任意功能。任意前述的專利申請通過引用合并于此。例如,在幾個例示的實施例中,可以優(yōu)選地分類從中獲得文本信息的文檔以在文檔上執(zhí)行數(shù)據(jù)析??;驗證從文檔中提取的文檔或信息;在捕捉操作之前、之中或之后使圖像數(shù)據(jù)經(jīng)歷額外的處理(例如提高圖像質(zhì)量)等,如本領域技術人員通過閱讀本說明書所能理解的那樣。
根據(jù)目前公開的算法,適合于處理的數(shù)字圖像可以經(jīng)受在上述專利申請中公開的任何圖像處理操作,例如頁面檢測、矩形化、照度不勻的檢測、光照補償、分辨率計算、模糊檢測、分類、數(shù)據(jù)析取、文檔驗證等。
在更多的方法中,目前公開的方法、系統(tǒng)、和/或計算機程序產(chǎn)品可以被利用、實施和/或包括一個或多個配置為輔助執(zhí)行任何此處公開的和/或在前述的相關的專利申請中的功能的用戶界面,例如在多個實施例中的圖像處理移動應用程序、事件管理應用程序、分類應用程序、和/或數(shù)據(jù)析取應用程序。
在更多的方法中,目前公開的系統(tǒng)、方法和/或計算機程序產(chǎn)品可以優(yōu)選地適用于一個或多個前述相關專利申請中公開的使用方法論和/或腳本,其將被本領域的技術人員通過閱讀這些說明而領會。
將進一步被領會的是此處提出的實施例可以被提供為為了顧客提供自選服務而部署的服務的形式。
目前公開的發(fā)明構思涉及以一種智能的方式將光學輸入整合到移動設備I/O的能力中,輔助對文本信息的精確和靈活的輸入。這些構思將最為適用的典型的情景包括輸入文本信息到文檔、窗口、網(wǎng)頁等,如本領域技術人員通過閱讀本說明書所將理解的那樣。有益地,目前公開的技術完成了文本信息的輸入而無需忍受音頻輸入的固有的劣勢(例如語音識別的低精確度)或通過虛擬移動鍵盤的觸覺輸入的固有的劣勢(例如小的“鍵”尺寸導致的錯誤輸入,使用預測性詞典的不正確“修正”或自動更正功能等)。
最顯著的是,本技術為用戶提供優(yōu)越的性能和便利性。優(yōu)越的性能包括例如通過移動設備提供文本輸入的提高的精確性和縮短的輸入時間等特征(特別是當光學輸入適用于多種上下文或域時)。在某種程度上,性能的優(yōu)勢歸因于此處公開的發(fā)明方法配置為捕捉、分析以及提供來自光學輸入的文本信息而無需依賴來自用戶的觸覺反饋。結果是,這些技術免受上述利用小型虛擬鍵盤的輸入界面所常見的缺點。
同時,本技術提供超越目前的光學輸入用于與文本輸入結合的整合的優(yōu)越性能。例如,參照上述包括構成和派遣包括文本輸入和光學輸入的信息的傳統(tǒng)的方案,本技術有利地整合了移動設備的光學輸入能力與文本I/O,如此用戶不需要提供觸覺輸入以傳達文本信息。
此外,光學輸入可以以上下文相關的方式被捕捉、分析以及轉換至文本信息。光學輸入的上下文相關的調(diào)用、捕捉和分析將在下文以進一步的細節(jié)進行討論。
移動虛擬鍵盤用戶界面(UI)的光學輸入擴展
根據(jù)包括功能的具體的移動操作系統(tǒng),本公開的光學輸入功能通過利用本地工具、程序、呼叫、部件、庫等被提供以捕捉光學輸入和觸覺輸入。通過這種方式,本技術代表了光學輸入向文本的無縫集成,代表性地限于通過觸覺或音頻輸入捕捉文本信息。
這種無縫集成顯示了超越現(xiàn)有的原產(chǎn)自移動操作系統(tǒng)的光學和觸覺輸入捕捉能力的優(yōu)點,因為這些現(xiàn)有的能力沒有構想為了捕捉和提供文本信息的目的使用光學輸入作為觸覺輸入的替換或補充。
最顯著的是,即便傳統(tǒng)的移動操作系統(tǒng)可以提供獨立的光學輸入捕捉能力和觸覺輸入捕捉能力,也不存在目前已知的技術能夠整合光學輸入作為通過移動設備接收、確定和/或利用文本信息的補充的和/或可選的技術。
而罕見的是,一些移動操作系統(tǒng)可以進一步提供分析被捕捉的圖像數(shù)據(jù)和識別、定位和/或解釋其中描述的文本信息的能力(例如通過光學字符標識(OCR)或其他類似的功能,如本領域技術人員所認識到的那樣)。然而,這些罕見的實施例沒有提出任何允許用戶利用光學輸入和分析結合的能力以有效地完成通過捕捉光學輸入而輸入文本信息的本地OS能力的整合。
例如,沒有目前已知的技術允許用戶輸入文本信息例如以一種形式的域,直接通過捕捉光學輸入描繪包含期望的文本信息或其他信息的可能被用于確定或獲得期望的文本信息的標識符?!捌渌毙畔⒖梢园ū绢I域技術人員通過閱讀本說明書所能理解的對獲得或確定期望的文本信息有用的任意類型的信息。
一般而言,在本光學輸入擴展和對文本敏感的調(diào)用應用程序中適于提取的標識符可以包括可能對執(zhí)行商業(yè)工作流的進程例如保險索賠或申請;賬單支付進程例如開發(fā)票;導航進程;通信進程;追蹤進程;金融交易或工作流例如稅務申報或結單回顧;瀏覽進程;許可或顧客車載進程等有用的任意類型的識別信息(優(yōu)選地為文本信息),如本領域技術人員通過閱讀本說明書所能理解的。而合適的標識符可以一般地包括任意類型的識別適用于上述典型的實施例的信息,應該理解的是幾種類型的信息特別有助于選擇應用程序,例如訪問某一特定資源或完成特定工作流所必要的唯一標識符。
因此,不同的實施例中提取的標識符優(yōu)選地包含任意一個或多個電話號碼、完整的或部分的地址、全球資源定位符(URL)、車輛識別號碼(VIN)、車輛制造/型號/和/或年份、社會安全號碼(SSN)、產(chǎn)品名稱或編碼(例如通用產(chǎn)品代碼(UPC)或庫存單位(SKU)或其他類似的通常描述在發(fā)票上的文本信息;保險集團數(shù)量或保單號碼、保險提供者姓名、人的姓名、日期(例如出生日期或到期日)、(優(yōu)選為手寫的)署名等,如本領域技術人員通過閱讀本說明書所能理解的。
類似地,可以使用任何合適的技術獲得或確定“其他信息”,包括已知技術例如查找操作、反向搜索、身份驗證等,如本領域技術人員通過閱讀本說明書所能理解的。
當然,為了使用當前可獲得的技術完成這一結果,用戶將需要通過手動調(diào)用本地OS的分離的功能來執(zhí)行一系列單獨的步驟(例如下述關于使用當前的技術所需要的十二步的常規(guī)程序)。
通過“擴展”,本公開涉及包括于移動設備的另外存在的特征中的一種功能。再次根據(jù)接收音頻輸入結合或代替觸覺輸入的典型方案,上述描述為圖形的擴音器“按鈕”可以被認為是移動虛擬鍵盤用戶界面的音頻擴展。與此相反,要求被用戶獨立調(diào)用的獨立應用程序、功能或特征(例如調(diào)用所述應用程序、功能或特征而不與具有移動操作系統(tǒng)的標準用戶界面之一交互)不被認為是現(xiàn)存功能的擴展。
在優(yōu)選的實施例中,所述光學輸入擴展配置為輔助用戶在捕捉光學輸入期間無縫地貫穿用戶界面提供的復數(shù)域(例如網(wǎng)頁、應用程序、窗口、域等)操縱。在一些方法中,這一功能可以被體現(xiàn)為包括于光學輸入捕捉界面的“下一個”或“結束”按鈕、手勢、符號、選項等。
實際上,根據(jù)一個示例性的方案,用戶可以希望捕捉對應于文本信息的數(shù)據(jù)用來輸入到窗口、網(wǎng)頁等的多個不同域。響應用戶的“焦點”在數(shù)據(jù)輸入域(可以是呈現(xiàn)于用戶界面上的多個這種數(shù)據(jù)輸入域中的第一用戶輸入域)上,例如通過點擊、敲擊、懸停、選擇、標記所表明的,以與數(shù)據(jù)輸入域交互,包括光學輸入擴展的本地的用戶輸入/虛擬鍵盤界面被調(diào)用。
用戶可以與第一數(shù)據(jù)輸入域交互、調(diào)用所述光學輸入擴展,例如通過點擊虛擬鍵盤上顯示的“照相機”按鈕。響應所述光學輸入擴展的調(diào)用,用戶可以被呈現(xiàn)包含被捕捉的光學輸入的“預覽”的捕捉界面(例如實質(zhì)上表示照相機或其他光學輸入設備的“取景器”)。優(yōu)選地,光學輸入擴展的“預覽”和捕捉能力可以被利用而無需根據(jù)用戶與之交互的數(shù)據(jù)輸入域的顯示從瀏覽器、應用程序等轉換移動設備的焦距。
換言之,此處描述的虛擬鍵盤界面的光學輸入擴展優(yōu)選地為一種允許用戶定位數(shù)據(jù)輸入域、調(diào)用光學輸入擴展、通過所述光學輸入擴展捕捉光學輸入、以及使用從被捕捉的光學輸入中確定的文本信息填充一個或多個光學輸入域的無縫集成功能。優(yōu)選地,前述進程的全部是“無縫的”,由于用戶可以完成所有組成的功能而無需利用例如通過移動設備的多重任務處理能力或使用配置為在移動設備上可執(zhí)行的獨立的應用程序之間“復制和粘貼”數(shù)據(jù)的剪貼板等,如本領域技術人員通過閱讀本說明書所能理解的。
在用戶與之交互的瀏覽器頁面、應用程序等包括多個數(shù)據(jù)輸入域的場景中,用戶可以優(yōu)選地利用通過光學輸入擴展提供的額外的功能操縱于所述多個數(shù)據(jù)輸入域之間。以這種方式,用戶可以通過針對所提供的數(shù)據(jù)域的全部數(shù)目的期望的子集捕捉光學輸入而有選擇地利用光學輸入擴展輸入文本信息。類似地,用戶可以利用所述光學輸入擴展連續(xù)地輸入多個數(shù)據(jù)輸入域的任意數(shù)目的文本信息。
優(yōu)選地,在多個數(shù)據(jù)輸入域之中的用戶導航通過光學輸入配置的按鈕或手勢來完成。示例性的實施例可以使用例如“下一個”或“前一個”按鈕,以配置為解釋一個或多個滑動或多點觸摸手勢以在多個數(shù)據(jù)輸入域之間導航。甚至更優(yōu)選地,所述光學輸入界面還包括用戶可以用來終止或表明光學輸入捕捉進程完結的功能。例如,在一些實施例中用戶輸入界面可以包括“最終”按鈕、“結束”或“完成”按鈕等,以允許用戶終止光學輸入捕捉進程,以及優(yōu)選地重新開始與瀏覽器頁面、應用界面等的交互。
因此,在至少一些實施例中,目前公開的發(fā)明構思是將光學輸入能力直接整合到移動操作系統(tǒng)具有的現(xiàn)存的界面中。光學輸入能力作為該虛擬鍵盤用戶界面的一個擴展被特別地整合到移動操作系統(tǒng)具有的本地虛擬鍵盤用戶界面之中。
本技術因此不同于可能試圖低效地將現(xiàn)有的例如通過分離的(即非整合的)移動設備照相機傳輸?shù)哪芰εc虛擬鍵盤用戶界面部件“縫合”在一起的方法。簡單地利用將觸覺輸入與通過完全分離的界面、功能、應用程序等接受的光學輸入結合的技術使輸入復雜化而非促進了輸入的簡單化和準確性。
例如,一種配置為捕捉光學輸入和分析該光學輸入以確定文本信息的存在(以及可選地確定和/或輸出所描述的文本)的獨立的應用程序或功能不能以上下文相關的方式執(zhí)行這種光學輸入的捕捉和/或分析。例如,所述獨立的應用程序、功能等不配置為產(chǎn)生特定的域的上下文中的期望的文本信息或形成顯示于,例如所述獨立的應用程序、功能、特征等不配置為首先實施的網(wǎng)頁上。
結果是,用戶可能不得不調(diào)用幾種獨立的進程,并參與每個進程所需要的全過程。例如,沒有本公開的光學輸入和觸覺輸入的整合,用戶嘗試一項使用傳統(tǒng)技術的類似的進程將需要從事一項調(diào)用執(zhí)行使用多個分別被用戶安裝、配置、調(diào)用以及執(zhí)行的獨立進程的分離的功能的過于累贅的和相當差的進程。
上述示例性的傳統(tǒng)進程實質(zhì)上如下所述進行:
(1)調(diào)用一項移動網(wǎng)頁瀏覽器應用程序(例如iOS的Safari);
(2)使用該移動設備網(wǎng)頁瀏覽器導航到需要文本信息的網(wǎng)頁;
(3)關閉或暫停該手機瀏覽器應用程序;
(4)調(diào)用一項分離的光學輸入功能(例如“照相機”功能);
(5)通過該分離的光學輸入應用程序捕捉包含期望的文本信息的光學輸入;
(6)關閉或暫停所述光學捕捉應用程序;
(7)調(diào)用一項分離的光學分析功能(例如OCR應用程序);
(8)使用該分離的光學分析應用程序分析被捕捉的光學信息以確定其中描述的文本信息;
(7)從被確定的文本信息中定位期望的文本信息;
(8)從被確定的文本信息中選擇期望的文本信息(或等效地取消選擇、刪除或相反放棄所有不想要的文本信息);
(9)復制期望的文本信息(例如使用移動設備的“剪貼板”或等效地簡單地通過用戶記住期望的文本信息);以及
(10)關閉或暫停該光學分析應用程序;
(11)調(diào)用或重新開始關閉的/暫停的網(wǎng)頁瀏覽器應用程序(如果該網(wǎng)頁瀏覽器被關閉而不是暫停,必須如上述步驟(2)中的重復導航到網(wǎng)頁瀏覽器);以及
(12)以來自步驟(2)中的網(wǎng)頁的合適的域粘貼(或也可以再現(xiàn))期望的文本信息,以上。
前述的涉及多個獨立進程的使用的方案也許甚至不可能,例如,如果特定的移動設備不支持必備的多重任務處理能力或不具有足夠的系統(tǒng)資源以有效地在完成期望的結果所需要的獨立的應用程序之間“轉換”。
相比而言,利用整合的光學輸入和通過虛擬鍵盤用戶界面的光學輸入擴展的觸覺輸入功能的示例性進程將有效得多(既有關于系統(tǒng)資源的消耗還有從用戶的便利和時間的視角來看,如根據(jù)圖2中方法200中的一個實施例所述。
方法200可以在任何環(huán)境中執(zhí)行,包括圖1A-1B中所描繪的那些,以及本領域技術人員通過閱讀本說明書所能領會到的任何其他合適的環(huán)境。
在操作202中,在移動設備上調(diào)用一個用戶輸入用戶界面(UI)。
在操作204中,調(diào)用所述用戶輸入UI的一種光學輸入擴展。
在操作206中,通過移動設備的一個或多個光學傳感器捕捉光學輸入。
在操作208中,從被捕捉的光學輸入中確定文本信息。
在操作210中,被確定的文本信息被提供給用戶輸入UI。
方法200可以包括此處公開的任意一個或多個附加的或可選的特征。在不同的方法中,方法200可以額外地或可選地包括功能例如從光學輸入到用戶輸入UI的選擇性的識別、標準化、驗證以及提供。
所述用戶輸入界面優(yōu)選地調(diào)用于對發(fā)現(xiàn)用戶與配置為接收文本信息的用戶界面元素交互的響應。在這種方法中,所述方法可以有利地包括分析所述光學輸入以確定文本信息。因此,所述分析可以包括一個或多個光學字符識別(OCR)的執(zhí)行;在基于所述OCR確定的文本信息中識別期望的文本信息;以及有選擇地向用戶輸入界面提供期望的文本信息。
優(yōu)選地,期望的文本信息包括多個標識符,并且每個標識符相當于多個配置為接收文本信息的用戶界面元素中的一個。在一些實施例中,部分或全部的標識符包括所述用戶界面元素中的一個所要求的文本信息。因此,其有利于確定標識符中的哪一個包括這種要求的文本信息以及有選擇地向適當?shù)挠脩艚缑嬖靥峁┟總€相應的標識符,優(yōu)選地以適當?shù)母袷健?/p>
這非常有利于全部的用戶體驗,以提供自動糾正OCR錯誤的功能,例如,以確保被捕捉的內(nèi)容的精確的復制,以及確保信息以被工作流期望的方式適當?shù)母袷交?。因此,在一些方法中,所述方法包括一個或多個驗證和標準化至少一個所述標識符以符合一個或多個期望的期望的文本信息的預期格式以及期望的文本信息的預期的值的范圍是有有利的。
在不同的方法中,驗證可以包括從適用于所述一個或多個標識符的補充文檔到商業(yè)規(guī)則中確定一個或多個參考內(nèi)容。這一判定優(yōu)選地基于對應于所述一個或多個標識符的元素,并且所述驗證基于一個或多個參考內(nèi)容和商業(yè)規(guī)則。類似地,標準化可以包括包括從用戶所調(diào)用的補充文檔、商業(yè)規(guī)則、和/或元素中確定格式。
在更多的實施例中,所述方法還可以包括一個或多個驗證(即校核內(nèi)容和/或格式的精確度,例如針對參考內(nèi)容)以及標準化(即修正格式或顯示以匹配期望的格式或其他商業(yè)規(guī)則等)期望的文本信息以符合期望的文本信息的某一或全部的格式以及期望的文本信息的期望的數(shù)值范圍。這輔助修正了OCR錯誤,以確保被捕捉的文本的精確的復制以及信息以工作流所期望的方式適當?shù)母袷交?。在一些實施例中,驗證和標準化是基于來自補充文檔和商業(yè)規(guī)則的一個或多個參考內(nèi)容。因此,所述方法還可以包括基于用戶與之交互的元素來確定所述一個或多個補充文檔和商業(yè)規(guī)則。
在一些方法中,光學輸入擴展與被調(diào)用的輸入界面的呈現(xiàn)同時呈現(xiàn)。優(yōu)選地,所述用戶輸入界面包含顯示于移動設備上的虛擬鍵盤,其包括顯示在所述虛擬鍵盤上的照相機按鈕。
所述方法可以附加地或可選地包括自動地調(diào)用光學輸入捕捉界面以響應檢測到光學輸入擴展的調(diào)用。
在不同的實施例中,所述方法可以附加地或可選地包括在捕捉光學輸入之前預分析光學輸入。預分析包括的操作例如:檢測在所述光學輸入中描述的對象;確定在所述光學輸入中描繪的對象的一個或多個特征;以及至少部分基于所確定的特征確定一個或多個分析參數(shù)。所述一個或多個分析參數(shù)優(yōu)選地包括OCR參數(shù)。
雖然上述例子參照用戶與手機瀏覽器交互提出,本領域的技術人員將領會的是,原則上本公開的發(fā)明構思適用于任何用戶與任何數(shù)據(jù)輸入域交互,在不同的實施例中,無論是通過手機瀏覽器、移動設備操作系統(tǒng)功能、第三方應用程序、本地OS應用程序等呈現(xiàn)。
如根據(jù)上述示例性的方案所演示的,本公開的技術可以將完成一個優(yōu)秀的結果所要求的單獨的動作的數(shù)目減少了至少兩倍。當考慮到下述關于上下文獨立的調(diào)用、光學輸入的捕捉和分析所討論的額外的優(yōu)點時,熟練的技術人員將領會到此處討論的發(fā)明技術相反于利用傳統(tǒng)技術所帶來的顯著的優(yōu)點,即能夠完成本公開中描述的一個或多個組成的動作但絕不能帶有將這些功能整合為具有出眾能力和性能特點的統(tǒng)一的程序所獲得的的性能優(yōu)點。
光學輸入的上下文相關的調(diào)用、捕捉和分析
在優(yōu)選的方法中,本公開的發(fā)明的光學輸入技術可以利用關于數(shù)據(jù)將要被輸入到的光學或文本信息、數(shù)據(jù)輸入操作、格式、自動等的的上下文信息,如本領域的技術人員通過閱讀本說明書所能理解的。
尤其有利的是,使用光學輸入而非文本輸入來捕捉特定類型的文本信息。光學輸入的上下文相關的有利的選擇作為數(shù)據(jù)輸入的優(yōu)選形式可以包括在觸覺或音頻輸入可能有問題的情況下優(yōu)先地捕捉光學輸入。
例如,當文本信息不遵循任何確定的協(xié)定或規(guī)則組時(例如代表性地被預測性的詞典所利用)則嘗試通過觸覺或音頻輸入來輸入文本信息(例如在移動設備虛擬鍵盤界面上“鍵入”、讀或背誦所述文本信息等)易于出錯的。預測性的詞典或聲音識別功能可能為了執(zhí)行一個或多個不適用的約定或規(guī)則而錯誤地“糾正”或翻譯用戶提供的輸入。
在更多的實施例中,在光學輸入可以優(yōu)選地要求文本信息的大量的和/或復雜的收集。例如,如果通過他們的移動裝置參與一項活動的用戶希望完成具有要求不同類型的文本信息的幾個域的窗口,并且部分或全部文本信息被描繪于一個或多個文檔上,則通過捕捉包含描繪該文本信息的文件的圖像的光學輸入來確定或獲得所述文本信息可能比要求用戶手動地輸入期望的文本信息的每一單獨片段更為有利。
類似地,根據(jù)其上下文來分析光學輸入可能是有利的。例如,在一種方法中,用戶可以利用一個文檔作為將要通過光學輸入提供的文本信息的來源。所述文檔可以采用任意形式,并且可以顯示獨特的特征,象征該文檔術語一個預先確定的文檔的分類(例如信用卡、信用報告、駕駛員的執(zhí)照、財政報表、稅務單等,如本領域技術人員通過閱讀本說明書所能理解的)。進一步的,全部或部分由于這些獨特的特征,使用預先確定的已知的分析參數(shù)、設置、技術、假定來分析描繪屬于所述預先確定的分類的文檔的光學輸入以為了該文檔的分類產(chǎn)生理想的分析結果可以是有利的。
例如,使用預先確定的已知的設置來分析光學輸入以針對描述具有獨特顏色輪廓的文本信息的或具有獨特顏色輪廓的背景的文檔產(chǎn)生特別優(yōu)異的結果可以是有利的,特別是如果這種顏色輪廓是不標準的(即不是黑色和白色)顏色輪廓時。
類似地,如果一個文檔分類是由文本信息的已知的維度、已知的方位、已知的布局或組織等來定義,則利用配置為為這些布局、組織、方向等產(chǎn)生優(yōu)秀的分析結果的分析參數(shù)、設置等可以是有利的。
此外,利用配置為分析代表為獨特的字體或類型的獨特分析參數(shù)可以是有利的,例如,利用該字體的已知的特征,例如每個可能的字符的平均字符寬度、高度、預期的大小等,如本領域技術人員通過閱讀本公開所理解的。
在不同的實施例中,所使用的預先確定的分析參數(shù)、設置、技術等,優(yōu)選地包括一個或多個OCR參數(shù)、設置、技術等。
因此,更為優(yōu)選地是在一些方案中包括配置為在捕捉所述光學輸入前執(zhí)行呈現(xiàn)給一個或多個移動設備光學傳感器的光學輸入的預分析的功能。例如,在優(yōu)選的實施例中一旦調(diào)用了一個捕捉界面(不論是自動地、響應命令捕捉界面的調(diào)用的用戶輸入、還是其他的),移送設備可以確定所述光學輸入的特征,包括但不限于是否所述光學輸入包含可識別的對象或多個對象,并且理想地是任意這種被檢測到的一個或多個對象的身份或分類?;谶@種預分析所達成的確定,預先確定的已知的捕捉設置為隨后可能采用的分析產(chǎn)生理想的光學輸入。
在更多的方法中,可以基于判定自或基于用戶與之交互以調(diào)用用戶輸入界面(例如其虛擬鍵盤和/或光學輸入擴展,在不同的實施例中)的網(wǎng)頁、應用程序、窗口、域等的上下文的信息分析光學輸入。例如,以及將被本領域技術人員所理解的是,現(xiàn)存的技術允許用戶界面限制用戶可能為該用戶界面提供的輸入,例如,通過有選擇地調(diào)用受限的輸入界面(例如,用于輸入出生日期或社會安全號碼的由數(shù)值的特征組成的界面、用于輸入“名字”的由字母的特征組成的界面等)。
在一種類似的方式中,此處描述的光學輸入擴展可以影響、確定或限制用于分析使用該擴展捕捉的光學輸入的分析參數(shù)。在示例性的方案中分析包括光學特征識別,例如,用于域只接收數(shù)字的參數(shù)的分析參數(shù)可以包括限制為數(shù)字符號的OCR字母表,或相反地限制為字母的OCR字母表使域只接受字母的特征。在優(yōu)選的方法中,所述光學輸入擴展可以自動地以及透明地基于所述可接受的輸入的類型、格式等為一個給定的數(shù)據(jù)輸入域定義分析參數(shù),并且可以直接執(zhí)行所述定義以響應接收為該特定域識別一類可接受的輸入的指令,一旦用戶與所述數(shù)據(jù)輸入域交互。舉例而言,在一種方案中,例如,用戶與一個期待電話號碼作為輸入的可填充的數(shù)據(jù)輸入域交互。然而按照傳統(tǒng)的例子,與這一數(shù)據(jù)輸入域交互的用戶被提供了由數(shù)字0-9組成的鍵盤,根據(jù)此處公開的發(fā)明構思,與同一數(shù)據(jù)輸入域交互并利用此處所述的光學輸入擴展的用戶可以使用包括限于數(shù)字0-9的OCR字母表的分析參數(shù)。
在根據(jù)前述的實施例的說明性方案中,用戶可以使用移動設備導航到網(wǎng)頁、窗口、手機應用程序等。用戶可以與呈現(xiàn)在網(wǎng)頁上的一個或多個可填充的域、網(wǎng)頁瀏覽器的導航欄或用戶與之交互的接受文本信息作為合適的輸入的介質(zhì)的任意其他元素交互。作為對檢測到這一交互的響應,和/或?qū)碜杂脩舻妮斎氲捻憫?,移動設備可以調(diào)用實質(zhì)上代表了“照相機”應用程序的光學捕捉界面,例如,如代表性地在傳統(tǒng)的移動設備中包括的本地OS功能。
一旦調(diào)用了光學捕捉界面,移動設備顯示器表現(xiàn)描繪移動設備光學傳感器的視野的“取景器”,優(yōu)選地在實時或近實時。所述移動設備可以對用戶輸入作出響應或(優(yōu)選地)以對用戶透明的自動方式執(zhí)行上述的利用移動設備光學傳感器接收的光學輸入的預分析(例如,用于生成取景器顯示器的光學輸入)。
在特別優(yōu)選的方法中,所述預分析可以包括識別光學傳感器的視野的一部分中描述的任意文本信息(例如一個限位框)并顯示任意被識別的文本信息的預覽。甚至更優(yōu)選地,被識別的文本可以顯示在用戶與之交互以調(diào)用用戶輸入界面和/或其光學輸入擴展的數(shù)據(jù)輸入域中。
在更多的方法中,目前公開的方法、系統(tǒng)、和/或計算機程序產(chǎn)品可以與之一起使用、在其中實施和/或包括一個或多個配置為促進接收用戶輸入和產(chǎn)生相應的輸出的用戶界面。所述一個或多個用戶輸入UI可以以標準的UI的形式包括于移動設備操作系統(tǒng),例如與標準的SMS信息傳送功能和應用程序一同使用的鍵盤界面、瀏覽器應用程序等;一個例如與標準的電話功能和應用程序一同使用的數(shù)字鍵盤界面,或任意其他配置為接收用戶輸入的標準的操作系統(tǒng)UI,特別是包含或?qū)谖谋拘畔⒌妮斎?即包含在屏幕的不同位置輕敲或可以轉換為文本信息的講話的用戶輸入)。
例如在圖1A中所示,用戶輸入UI 100包括導航UI 110、窗口或頁面120、以及鍵盤UI 130。每個UI 110、120、130可以是通過移動設備操作系統(tǒng)、或移動設備操作系統(tǒng)中包括的標準的瀏覽器或手機應用程序提供的標準的UI,或者也可以通過單獨安裝的獨立的應用程序提供。獨立的應用程序?qū)嵤├齼?yōu)選地應歸于有效地將上下文相關的功能和捕捉/提取功能的能力整合整合為無縫的工作流和用戶體驗。
繼續(xù)參考圖1A,在本申請的上下文中,通過用戶輸入UI 100所輔助的工作流、導航UI 110包括導航元件112,例如手機瀏覽器的地址欄、前進和/后退按鈕(未示出)以幫助在工作流的各個階段之間導航等,如本領域技術人員通過閱讀本發(fā)明書所能理解的。
工作流的窗口/頁面120包括多個域122-128,其優(yōu)選地配置為接收多個標識符(可選地如文中所述標準化的和/或經(jīng)過驗證的)從工作流的捕捉和提取操作中輸出。如圖1A所示,域包括城市域122、郵政編碼域124、電話號碼域126和州域128。當然,在窗口/頁面120中也可以包括額外的域并且用戶可以使用本領域技術人員通過閱讀本發(fā)明書所將領會的任意合適的技術航行于窗口/頁面120周圍以有選擇地顯示其不同的域。
此外,每個域可以為了作為對其輸入的接收的文本信息與期望的格式和/或數(shù)值或數(shù)值范圍相關聯(lián)。例如,城市域122可以期待一串以大寫字母開頭并跟著多個小寫字母的字母字符,可選地包括一個或多個空格或連字符,但不包括數(shù)字或其他特殊的字符。相反地,郵政編碼域124可以期待包括數(shù)字以及可選的連字符或空格的一串五個數(shù)字或十個字符。郵政編碼域124可以進一步期待十個字符的字符串服從一種特定的格式,例如“#####-####”。類似地,電話號碼域126可以期待七個數(shù)字以及可選地一個或多個空格、括號、句號、逗號和/或連字符。電話號碼域126還可以期待輸入其中的文本信息服從對應于幾種標準的電話號碼格式之一的掩飾,例如美國的“(XXX)###-####”,或其他根據(jù)該設備所使用的區(qū)域的相應的一直管理。州域128可以期待兩個字符的字符串的大寫字母。當然,其他域可以類似地關聯(lián)期待的格式和/或數(shù)值或數(shù)值范圍,根據(jù)已知的慣例、標準等,關聯(lián)于用于接收到其中的輸入的信息。
用戶可以使用任意方式與域122-128之一交互,例如通過輕敲對應于該域的移動設備顯示器上的區(qū)域,以及作為響應鍵盤界面130可能被調(diào)用??蛇x地,如果所述域不接受用戶定義的文本信息,鍵盤界面可能不被調(diào)用,例如,在下拉菜單域的情況下,例如州域128。對于不接受用戶定義的文本信息的域來說,用戶與該域的交互可以由光標121來指示。用戶與一個特定域的交互還可以調(diào)用或安排工作流的上下文相關的元件,例如,配置為應用特定商業(yè)規(guī)則、執(zhí)行校驗、文件分類等的元件,在這里描述進一步的細節(jié)。
鍵盤界面130可以有選擇地包括字母字符集(例如圖1A中顯示的對用戶與城市域122的交互的響應)或數(shù)字/符號字符集(例如圖1B中顯示的對用戶與郵政編碼域124的交互的響應),基于與用戶交互的域的上下文(例如輸入到該域的文本信息的期望的數(shù)值或數(shù)值范圍)。優(yōu)選地,鍵盤界面130包括配置為輔助用戶將文本信息“鍵入”域中的多個鍵132,以及配置為使用移動設備的I/O元件執(zhí)行一個或多個操作的功能按鈕134,例如移動設備的麥克風和/或照相機。
一旦調(diào)用了鍵盤界面130,并且如圖1A中所表現(xiàn)的,所述鍵盤界面130的功能按鈕134(例如一般地與聲音捕捉或語音轉文本功能關聯(lián)的按鈕,如圖1B所示)可以與用戶交互以調(diào)用手機應用程序或工作流的光學輸入擴展。實際上,所述光學輸入擴展調(diào)用一個捕捉界面并啟動捕捉和提取操作(可選地包括校驗、分類等),如下文描述的進一步細節(jié)。
附加地和/或可選地,所述光學輸入擴展可以與鍵盤界面130分開顯示,例如,作為在窗口/頁面120中的分離的按鈕136,一般地如圖1B所描述的。
在一種方法中,文檔中的圖像可以被移動設備捕捉或接收,并且圖像處理操作例如光學字符識別(OCR)可以在該圖像上執(zhí)行。在更多的方法中,用戶將鼠標懸停于移動設備在一個文檔中并且標識符通過OCR直接從視頻中提取不需要單獨調(diào)用的捕捉操作。部分或全部基于OCR結果,標識符,并且優(yōu)選地為唯一標識符可以從圖像中被提取。
標準化、驗證
被提取的標識符可以與參考內(nèi)容對比或鑒于一個或多個商業(yè)規(guī)則被分析。所述參考內(nèi)容和/或商業(yè)規(guī)則優(yōu)選地本地地存儲在移動設備上以輔助有效的比較和/或分析,并可以以任何合適的形式提供。
在大量的方法中,參考內(nèi)容可以表現(xiàn)為從中提取文檔標識符的文檔的補充文檔的形式。補充文檔可能包括文檔、文件、或任何其他適當?shù)奈谋拘畔⒌膩碓矗惶崛〉臉俗R符可能會對其執(zhí)行一個簡單的比較。例如,在一個優(yōu)選的方法中,手機應用程序包括其中具有一個或多個補充文檔的數(shù)據(jù)存儲,每個補充文檔對應于至少一個用于所述手機應用程序的一個或多個工作流的標識符或標識符的類型。
所述補充文檔可以包含標識符,例如,可以是獲得并存儲于數(shù)據(jù)存儲中,基于之前的使用移動應用程序的捕捉和提取操作。有利地,所述補充文檔可以包含描述標識符的文檔的經(jīng)處理的圖像,所述處理配置為針對數(shù)據(jù)提取的目的改善圖像的質(zhì)量(例如通過基于顏色配置文件、投影效果的修正、方向修正等等的自定義二值化)。文檔圖像可以作為校驗工具以確保從在手機應用程序或特定的工作流的后續(xù)調(diào)用中成像的文檔中提取的標識符準確性。當然,當補充文檔只包含經(jīng)過驗證的標識符,例如已知是準確的一串字符、符號、或標識符,類似的功能可以實現(xiàn)。
在附加的和/或可選的實施例中,商業(yè)規(guī)則可以表明被提取的標識符的期望的格式,并且可以進一步包括關于如何有選擇地提取所述標識符的規(guī)則(例如使用基于文件的特定顏色輪廓的OCR參數(shù)、限制為之搜索標識符的文檔中的位置),和/或修改被提取的標識符以匹配期望的格式,例如使用掩蔽(mask)、正規(guī)表達式、例如通過改變OCR字母表修飾OCR參數(shù)以排除特定的符號或字符集等,如本領域技術人員通過閱讀本說明書所將理解的。
在一種方法中,商業(yè)規(guī)則可以表明,在一個特定的工作流的上下文中,只需要或要求被適當?shù)卣J為是在本公開的范圍中的標識符的信息的一部分。例如,一個工作流可以僅僅要求一個地址的郵政編碼、僅僅社會安全號碼或信用卡號碼的最后四位、僅僅一個日期的月和年、僅僅發(fā)票上的行項目的一部分、例如價格或產(chǎn)品代碼但非二者兼有,等等,如本領域的技術人員通過閱讀本說明書所理解的。
利用商業(yè)規(guī)則與本公開的發(fā)明構思的一個特別的優(yōu)勢是,應用于特定的提取操作的特定的商業(yè)規(guī)則可以是上下文敏感的,并且因此自動地確定應用于一個提取嘗試的商業(yè)規(guī)則。
為了說明,以及自動地糾正OCR錯誤,在一些方法中可以糾正被提取標識符。例如,優(yōu)選地,使用來自補充文件的文本信息和/或預先確定的商業(yè)規(guī)則來糾正被提取的標識符。
在這一背景下,預先確定的商業(yè)規(guī)則可以優(yōu)選地包括用于處理數(shù)據(jù)的面向商業(yè)的標準/條件,例如為可接受的可能應用糾正的錯配的數(shù)目(例如糾正可以被應用到少于字符數(shù)的最大閾值或字符數(shù)的最大百分比的錯配等,糾正可能只被應用到符合于預定義的一組“可接受的”錯誤的錯配,例如數(shù)字“1”代替字母“l(fā)”,反之亦然,包括破折號“—”代替連字號“-”等),以及其他的面向商業(yè)的標準/條件,如本領域的技術人員通過閱讀本說明書所理解的。
附加地和/或可選地,可以修改被提取的標識符。例如,使用本技術可以自動地處理由于OCR錯誤所引起的差異。在一個實施例中,根據(jù)商業(yè)規(guī)則,標識符以預定的格式被提取。例如,在例如信用卡的投標文件的上下文中,該標識符可以是預期為 16位的數(shù)值格式的賬號,匹配“####-####-####-####”,如典型地在傳統(tǒng)的信用/借記卡上所見到的,或是“MM/YY”格式的截止日期等,如本領域的技術人員通過閱讀本說明書所理解的。
在更多的實施例中,被提取的標識符可以被精確地提取,但盡管如此被呈現(xiàn)為與預期不同的格式(例如,所述標識符可以包括或不包括預期的符號或格式化,例如空格、破折號或不允許的字符(例如日期中的月份名稱,例如“一月(Jan)”或“一月(January)”包括字母字符,而預期的格式是嚴格地數(shù)字的,例如“01”)。
這一性質(zhì)的差異可以利用數(shù)據(jù)標準化功能來自動地解決。在一些方法中被提取的標識符包含日期,存在有限集的合適的格式可以表達該日期,例如01一月,2001;一月 01,2001,01/01/01,一月.1,01等,如本領域的技術人員通過閱讀本說明書所理解的。其他類型的標識符日期可以類似地表達為有限數(shù)的格式,包括賬號(例如格式為####-####-####-####,################,################的傳統(tǒng)的16位賬號等),持卡者姓名(例如,名,姓;名,姓,中間名首字母(MI);名姓;名MI.姓;等),安全碼(例如,三位數(shù)字或四位數(shù)字,包括字母和數(shù)字二者的字母數(shù)字字符串,等)等,如本領域的技術人員通過閱讀本說明書所理解的。
基于為標志符數(shù)據(jù)定義預期的格式或有限集的可能的格式的商業(yè)規(guī)則,本公開的技術可以配置為自動地標準化從圖像化的金融文檔中所獲得的數(shù)據(jù)(例如通過提取),以一種從金融文檔中獲得的數(shù)據(jù)匹配相應數(shù)據(jù)的例如被包含/描述在補充文件的文本信息中的期望的格式的方式。例如,一旦確定被提取的數(shù)據(jù)例如一個日期是以一種特定的格式(例如一月 01,2001)而非被期望的格式(例如MM/YY),則將被提取的數(shù)據(jù)從該特定的格式轉換為期望的格式是有利的,允許在來源于圖像的標識符數(shù)據(jù)各來自補充文檔的相應的文本信息之間的簡便的和精確的匹配。
在其他的例子中,利用迭代方法實現(xiàn)數(shù)據(jù)標準化是有益的。例如,在一個實施例中,第一迭代如上所述大體地操作—從文檔的圖像中提取標識符并將提取的標識符與來自一個或多個數(shù)據(jù)源的相應的數(shù)據(jù)進行對比(例如,來自補充文檔、數(shù)據(jù)庫記錄和預定的商業(yè)規(guī)則的文本信息等)。然而,第一迭代對比沒能在被提取的標識符和來自一個或多個數(shù)據(jù)來源的相應數(shù)據(jù)之間產(chǎn)生任何匹配。在一些方法中,所述不匹配可能是OCR錯誤的結果,而不是數(shù)據(jù)化的文檔上的標識符和來自一個或多個來源的相應數(shù)據(jù)之間真的不匹配。
在一些方法中,該種類的OCR錯誤可以通過確定對應于該標識符的數(shù)據(jù)的一個或多個特征來糾正。在一個實施例中,第一OCR迭代可以以不被接受的格式提取標識符(例如,數(shù)據(jù)沒有被正確地標準化)和/或以一種方式執(zhí)行所述OCR,這樣被提取的標識符包含一個或多個OCR錯誤。結果是,被提取的標識符不能匹配在一個或多個數(shù)據(jù)來源中的任何相應的數(shù)據(jù),盡管事實上如文檔上描述的“真正的”標識符實際上匹配至少部分相應的數(shù)據(jù)。這一多樣化的偽陰性結果可以通過基于標識符特征修飾OCR運算的參數(shù)、規(guī)則和/或假設來減輕或避免。
例如,在一個實施例中一個標識符被提取,并且與來自一個或多個數(shù)據(jù)來源的相應數(shù)據(jù)對比。包含被提取的標識符的字符串不匹配任何在相應的數(shù)據(jù)中的帳號。響應于未能識別數(shù)據(jù)來源中的任何相應的數(shù)據(jù),被提取的標識符被進一步分析來確定其特征。
在一種方法中,被提取的標識符可以與多個預定義的標識符類型(例如“名”、“姓”、“賬號”、“截止日期”、“密碼”等)進行對比以確定被提取的標識符是否顯示了任何符合預定的標識符類型之一的一個或多個特征。例如,可以對比被提取的標識符和預定義的標識符類型以確定關于數(shù)據(jù)格式和/或數(shù)據(jù)值的相似之處的存在。
在一些方法種,適合這樣的比較的示例性的標識符特征包括字符串長度、字符串字母(即可能會形成標識符的一組字符,如“字母”、“數(shù)字”、“字數(shù)”、等等),對某一特定類型的標識符常見的一個或多個可識別的模式的存在、或如本領域的技術人員通過閱讀本說明書所理解的任何其他特征。在優(yōu)選的方法中,標識符特征可能包括任何可以使用已知的模式匹配工具,例如正則表達式來識別的模式。
附加地和/或可選地,標識符類型可以全部或部分基于一個或多個文檔特征來確定,例如:從中提取該標識符的文檔中的位置;從中提取該標識符的文檔的分類(例如公開于相關的2013年3月13日提交的美國專利申請No.13/802,226,2014年9月18日出版為美國專利出版物No.2014/0270349,并通過引用被合并于此);和/或位于相鄰、以上、以下或相反空間地鄰近于該文檔上的標識符的數(shù)據(jù)的特征等,或如本領域的技術人員通過閱讀本說明書所理解的。例如,在一個優(yōu)選的實施例中,標識符特征可以基于從中提取標識符的位置位于描繪相關信息的數(shù)據(jù)之下而判定,例如一個位于街道地址線之下的標識符,其代表性地符合于城市、州、和/或郵政編碼,特別是在描述郵寄地址的文檔中。在另一個優(yōu)選的實施例中,可以基于從水平地臨近于相關數(shù)據(jù)的地址中提取的標識符來確定標識符特征,例如通常是分別如示例性的信用卡和借記卡文檔所描述的截止日期或帳號。
在一種說明性的方法中,分析被提取的標識符,并確定其具有“支付金額”標識符類型的特征。特別地,被提取的標識符:展示一個或多個示例性的“支付金額”字符串長度(例如六個字符);字符串字母表(例如字母、數(shù)詞、以及貨幣符號);和/或圖案(例如貨幣符號字符例如“$”,“£”,或“€”,接著是兩個數(shù)字的字符、小數(shù)點或句號符號“.”和兩個額外的數(shù)字的字符,例如“$19.99”“£10.00”或“€01.23”等)。在其他的方法中,所述標識符可以被確定為展示例如只包含由數(shù)位表達的字符的特征,例如一個地址的街道或房間號碼等。
一旦確定了所述標識符特征,可以分析被提取的標識符以確定是否違反了任何描述所述標識符的一個或多個慣例或特征,其可能表示在不同的實施例中被提取的標識符包括OCR錯誤、不正確的數(shù)據(jù)規(guī)范化、或二者兼有。在一個例子中,被提取的標識符未能基于其間的第一對比而匹配一個或多個數(shù)據(jù)源中的任何相應的數(shù)據(jù)。響應于該匹配失敗,分析被提取的標識符并確定其為標識符類型“賬號”,至少部分基于被提取的字符串是十六位的長度。進一步分析被提取的字符并確定其違背了“賬號”的特征。該分析揭示了賬號字符串由數(shù)字的字符組成,被提取的字符包括非數(shù)字的字符,例如,因為被提取的字符串中的一個字符被錯誤地確定為字母“B”代替了數(shù)字“8”,字母“l(fā)”代替了數(shù)字“1”,字母“O”代替了數(shù)字“0”等等,如本領域技術人員通過閱讀本說明書所將理解的。
至少部分基于建立一個或多個字符串特征,所述OCR錯誤可以使用第二OCR迭代來糾正。在前述的、賬號錯誤地包括字母字符代替了數(shù)字的例子中,OCR引擎可以被限制為完全由數(shù)位組成的候選字符的字母表。反過來,限制OCR字母表的決定是基于預定的應用于賬號格式的商業(yè)規(guī)則,即賬號由數(shù)位組成。因此,所述第二迭代適當?shù)刈R別標識符中的數(shù)字“8”,而非錯誤地從第一迭代中確定的字母“B”。優(yōu)選地,標識符遵守至少一個商業(yè)規(guī)則,例如上文所述。更優(yōu)選地,所述一個或多個商業(yè)規(guī)則可以表示成至少一個邏輯表達式(例如規(guī)則、公式、模式、慣例、結構、組織等,或由此的任意數(shù)目或結合)。
本領域的技術人員將領會到,類似地商業(yè)規(guī)則可以通知OCR進程關于如何在各種情況中定義被提取的字符串不同于上文例示的數(shù)字/字符區(qū)別。
例如,在一個實施例中一種商業(yè)規(guī)則可以表明應當使用一個特別的符號的字母表,例如,與更完整的或不同的符號的字母表相反。所述商業(yè)規(guī)則表明賬號遵循包括連字號字符(即“-”),但不包括破折號字符,(即“—”)、下劃線字符(即“_”)、和空格符號(即“”)的慣例。因此,如果第一迭代沒有成功地提取匹配相應數(shù)據(jù)的標識符等,在補充文檔中,可以根據(jù)商業(yè)規(guī)則中反應的期望使用更受限制的字母表執(zhí)行第二迭代以標準化提取結果。
示例性的上下文相關的工作流使用案例
例如,在手機應用程序或工作流中工作的用戶可以與該應用程序、網(wǎng)頁等中的一個域交互,以及可以基于所述特殊的域?qū)ⅹ毺氐纳虡I(yè)規(guī)則應用到隨后的捕捉和提取工作中。例如,要求ZIP碼的域(例如圖1中的域124)可以表明或調(diào)用一種商業(yè)規(guī)則,其中被提取的標識符應該具有5個(或9個)數(shù)字的格式,所有的字符應該是數(shù)字化的(或包括連字符),并且臨近5個(或9個)數(shù)字字符串的字母字符不應該被包括于被提取的標識符中。因此,用戶與這一特殊的域的交互可以提供合適的商業(yè)規(guī)則的上下文敏感的確定以應用在隨后的來自文檔的標識符的捕捉和提取中。
以這種方式,用戶可以有選擇地只從描述全街道地址的文檔中捕捉ZIP碼,并填充相應的手機應用程序或工作流的ZIP碼域,不需提供向移動應用程序或工作流提供任何指示以及無需向域輸入任何文本信息。
同樣地,商業(yè)規(guī)則可能部分或完全基于考慮到移動應用程序或工作流程的文檔的上下文。例如,在與上述類似的情況下用戶可能與一個期待郵政編碼的窗口或網(wǎng)頁頁面交互。然而,所述窗口或頁面還包括要求不同信息的其他的域,例如電話號碼、一個地址的城市或州、名字、社會安全號碼、截止日期、信用卡號碼等。與用戶交互的域可能是在單一文檔上(例如駕駛員的執(zhí)照、賬單、信用卡等)要求其他信息的窗口/頁面的一部分的這一事實可以調(diào)用商業(yè)規(guī)則憑借隨后的捕捉和提取操作試圖提取多個標識符并填充單一進程中的窗口的多個域,即便用戶可能沒有與其他的域交互。為了清晰,這根據(jù)上述的例子而不是文檔的上下文構成了工作流的上下文。
為了確定文檔的上下文,在一種方法中,一旦調(diào)用了捕捉界面,可以分析取景器中的文檔并確定該文檔的類型?;谶@一確定,可以執(zhí)行(例如,如果該文檔類型是可能包括對應于多個域的多個標識符的文檔的類型)或規(guī)避(例如,如果該文檔不是適合嘗試多提取的文檔類型因為該文檔類型代表性地不描述對應于該窗口/頁面中的信息)多個標識符提取和域全體進程。
以這種方法,可能利用手機應用程序和工作流二者的上下文,例如,如用戶與域的交互所表明的,以及從中提取標識符的文檔的上下文。有利地,這一雙上下文方法允許基于光學輸入的自動填充功能,而無需依賴任何在先的數(shù)據(jù)輸入。自動填充可以被執(zhí)行在近實時的第一捕捉上。
在優(yōu)選的方法中,用戶可以捕捉一個或多個文檔的圖像。優(yōu)選地通過調(diào)用經(jīng)由光學I/O擴展(例如分別在圖1A和1B中的擴展134或136)的捕捉界面使用移動設備的捕捉元件來捕捉所述圖像(例如上述的“照相機”)。被捕捉的圖像可以可選地存儲于存儲器中,例如移動設備的存儲器,用于將來使用和/或如此處所述的再使用。尤其是,在被公開的其他實施例中還概述了文檔圖像未被捕捉,但被接收在一個設備上的情景(優(yōu)選地是具有處理器的設備,例如移動電話)用于隨后在提取和/或驗證描述于文檔上或與其相關的信息的使用(例如描述于不同的文檔上的相應的標識符)。
文檔的圖像通過執(zhí)行其上的OCR來分析。所述OCR可以實質(zhì)上如上所述被利用以從圖像中識別和/或提取標識符,尤其是文本字符。甚至更優(yōu)選地,被提取的字符包括唯一地識別該文檔的標識符。所述標識符可以采取現(xiàn)有技術中已知的任何形式,并且在一些方法中可以實現(xiàn)為字符的字母數(shù)字字符串,例如招標文件帳號(例如16位的賬號,代表性地關聯(lián)于信用卡/借記卡賬號),安全碼(例如借記卡/信用卡上的CCV碼、粘貼驗證代碼、個人識別號碼(PIN)等等)、截止日期(例如以“MM/YY”的格式)等,如本領域技術人員通過閱讀本說明書所將理解的。
本公開的技術可以利用若干有利的特征以向文檔所有人提供有用的信息和/或關于他們的文檔的服務。例如,以及可選地考慮到上下文信息例如在移動設備上運行的手機應用程序,可以自動地將數(shù)據(jù)提供給手機應用程序而不需要求用戶輸入任何文本信息,因此避免了耗時的進程、用戶錯誤、預測性詞典的偏差以及其他的傳統(tǒng)的用于移動設備的基于用戶的文本輸入所常見的錯誤。
示例性地,在一個實施例中一種手機應用程序,其可能是顯示特定網(wǎng)頁的標準的瀏覽器、獨立的應用程序等,包括配置為幫助用戶申請汽車保險的工作流。該工作流可以包括要求例如申請人的姓名、駕駛執(zhí)照號碼、車輛制造、型號和/或年限、居住州等的信息的域。
基于用戶調(diào)用手機應用程序的一個域,和/或基于用戶調(diào)用通過移動設備顯示的鍵盤或其他用戶輸入界面(例如圖1A中所示的UI 110、120、130)的一個光學輸入擴展(例如圖1A中所示的擴展134或圖1B中所示的擴展136),例如取景器的捕捉界面在移動設備上被調(diào)用。
所述捕捉界面可以包括指導用戶去捕捉描繪所述工作流的域所要求的部分或全部信息的一個或多個文檔的圖像的提示,例如駕駛執(zhí)照和車輛登記。優(yōu)選地,所述捕捉界面配置為自動地檢測取景器中描繪的文檔,并在達到最佳的捕捉狀態(tài)(例如照明、視角和縮放/分辨率)時捕捉其中的圖像。取景器可以包括標線,例如排成矩形樣式的四個角以幫助捕捉全部文檔的圖像,矩形盒子以幫助捕捉文檔中描繪的文本信息的線條、域等,如本領域技術人員通過閱讀本說明書所將理解的。所述標線優(yōu)選地配置為幫助用戶定向設備和/或文檔以獲得最佳的捕捉狀態(tài)。
更優(yōu)選地,所述捕捉操作是上下文敏感的以促進來自文檔的標識符的精確的和精密的捕捉,以及在工作流的域中相應文本信息的精確的和精密的輸出。在不同的方法中,相應的文本信息可以與被提取的標識符一致,或者可以根據(jù)期望的格式標準化和/或糾正OCR錯誤。在更多的方法中,標識符可以針對參考內(nèi)容或商業(yè)規(guī)則而被驗證以促進精確的、精密的提取和輸出,如此處描述的進一步的細節(jié)。
在一些方法中,文檔可以被分析并分類以確定該文檔的上下文和/或確定是否嘗試多域的提取操作,如此處進一步的描述。
上下文敏感的進程調(diào)用
在更多的實施例中,基于通過移動設備光學傳感器接收的光學輸入來自動地調(diào)用一個或多個上下文適當?shù)倪M程將是有利的。
根據(jù)多個實施例,通常,這種進程如圖3所示的方法300以圖形的方式被描繪。方法300可以執(zhí)行在任何適當?shù)沫h(huán)境中,包括圖1A-1B所示的那些,以及本領域技術人員通過閱讀本說明書所將領會的任意其他適當?shù)沫h(huán)境。
如圖3所示,方法300包括操作302-306。在操作302中,通過移動設備的一個或多個光學傳感器來接收光學輸入,例如取景器界面被調(diào)用并且一個視頻描述了一個或多個移動設備光學傳感器顯示的視野。
在操作304中,使用移動設備的處理器分析光學輸入以確定所述光學輸入的上下文。
在操作306中,基于所述光學輸入的上下文調(diào)用上下文適當?shù)墓ぷ髁鳌?/p>
所述上下文可以包括關于在相應的工作流中執(zhí)行操作的任意合適的信息,并且優(yōu)選地包含下述中的一個或多個:在所述光學輸入中表現(xiàn)的文檔的類型;以及在所述光學輸入中表現(xiàn)的文檔的內(nèi)容。
其中上下文包括文檔類型,優(yōu)選地所述文檔的類型選自由下述組成的一組:合同、投標文件、身份證件、保險單據(jù)、頭銜、報價和車輛登記。其中上下文包含文檔內(nèi)容,優(yōu)選地所述內(nèi)容選自:電話號碼、社會安全號碼、簽名、發(fā)票目的行項、部分或完整的地址、全球資源定位器、保險集團號碼、信用卡號碼、追蹤號碼、照片、和文檔上描述的域的分布。
在一種方法中,用戶可以在移動設備的光學傳感器中定位描繪簽名的文檔,例如駕駛員的執(zhí)照、個人或商務發(fā)票、合同等。移動設備可以檢測簽名的存在,優(yōu)選地結合文檔的一個或多個其他的特征(例如駕駛員執(zhí)照上的照片、特定的字體例如支票上的磁性墨水字符識別字體、窗口上的域的分布等)并自動地或半自動地調(diào)用移動設備上的適當?shù)氖謾C應用程序。附加地或可選地,在一個特定的手機應用程序中,上下文相關的商業(yè)進程或工作流可以簡單地被調(diào)用。
不同的信息可以表明將被調(diào)用的合適的工作流是保險報價、醫(yī)療入院流程、簽字儀式、存款或其任意的結合。駕駛執(zhí)照號碼和車輛識別號碼可能表明適當?shù)钠嚤kU報價。醫(yī)療保險提供者名稱、投保人(患者姓名)和/或組數(shù)量可能表明適當?shù)男l(wèi)生保健許可工作流或健康保險報價工作流程,可選地。包含貸款協(xié)議中常見的文本信息,例如抵押貸款或貸款申請,連同簽名或署名區(qū)的文檔可能表明適當?shù)墓ぷ髁骱炞謨x式。包括簽名和帳號或存款數(shù)目的文檔可能表明適當?shù)拇婵罟ぷ髁?。當然,目前披露的發(fā)明構思可以適用于其他工作流,如本領域技術人員通過閱讀本公開所能理解的,而不脫離本說明書的范圍。
例如,響應于檢測到簽名和照片,移動應用程序可以調(diào)用保險報價工作流以幫助用戶獲得車輛保險。響應于檢測到簽名和特定的字體,可以調(diào)用移動支票存款工作流。響應于檢測到簽名和域的分布,抵押貸款申請程序或文檔簽字儀式進程可能被調(diào)用。類似地,在不同的實施例中,如果沒有已經(jīng)在一個手機應用程序操作,移動設備可以調(diào)用配置為促進如前所述的上下文相關的動作的應用程序。
上下文敏感的進程調(diào)用的其他例子可以包括任意一個或多個下列項。響應于檢測到在移動設備光學傳感器的視野中描述的文檔是一張支票(例如,通過檢測詞語“支票”、支票號碼、一致的服務提供者實體名、地址等的存在),調(diào)用系統(tǒng)、應用程序、產(chǎn)品(SAP)或其他類似的企業(yè)應用程序并自動地顯示所述支票的狀態(tài)。
響應于檢測到在移動設備光學傳感器的視野中描述的文本信息是電話號碼,可以調(diào)用移動設備操作系統(tǒng)的電話應用程序,并且可以自動地將所述號碼輸入和/或撥號。
響應于檢測到在移動設備光學傳感器的視野中描述的文本信息是全球資源定位符,可以調(diào)用移動設備的網(wǎng)頁瀏覽器應用程序,并且可以將URL輸入到導航或地址欄,和/或瀏覽器可以自動地指向URL表明的資源。
響應于檢測到在移動設備光學傳感器的視野中描述的文本信息是信用卡號碼,可以調(diào)用金融服務應用程序或信用卡公司網(wǎng)站(通過瀏覽器在網(wǎng)站被調(diào)用的情況下)并且可以將信用卡賬號聲明、余額、到期日等顯示給用戶。
響應于檢測到在移動設備光學傳感器的視野中描述的文本信息是社會安全號碼,可以調(diào)用稅務籌劃的應用程序或網(wǎng)站。
當然,如本領域的技術人員通過閱讀本說明所將理解的,此處公開的發(fā)明構思可以應用于調(diào)用光學輸入的使用作為文本信息的來源的任何合適的方案、實施或應用等。在特別優(yōu)選的方法中,工作流的用戶輸入UI可以被根據(jù)上下文地調(diào)用,基于在移動設備的視野中的光學輸入,并且在移動設備視野中的任何合適的信息都被自動地捕捉并以適當?shù)母袷捷敵龅奖徽{(diào)用的UI的適當?shù)挠蛑?,并且任何OCR錯誤都已被糾正。
盡管幾個示例性的方案已在上文被提出以例示此處公開的發(fā)明主題的思想和特征,本領域的技術人員將領會到這些思想同樣適用于類似的方案、實施、實際應用等。例如,盡管此處描述的一些例子可能已經(jīng)以用戶與網(wǎng)頁交互并想要輸入文檔中描述的文本信息到網(wǎng)頁的可填充的域的視角被提出,上文討論的發(fā)明主題同樣適用于本領域技術人員通過閱讀這些公開所將領會到的任意類似的或等價的方案。例如,本主題可以被等效地應用于任意涉及用戶通過虛擬鍵盤用戶界面輸入文本信息的情況,例如用戶寫郵件、與應用程序交互等。
盡管本說明書主要參考方法進行了描述,本領域技術人員將領會到此處描述的發(fā)明構思可以同樣地執(zhí)行于或作為系統(tǒng)和/或計算機程序產(chǎn)品。
例如,本說明書的范圍內(nèi)的一種系統(tǒng)可以包括處理器和邏輯在和/或可由處理器執(zhí)行以引起處理器執(zhí)行此處描述的方法的步驟。
類似地,本說明書的范圍內(nèi)的一種計算程序產(chǎn)品可以是具有隨其執(zhí)行的程序代碼的計算機可讀存儲介質(zhì),所述程序代碼可由處理器可讀/執(zhí)行以引起處理器執(zhí)行此處描述的方法的步驟。
盡管不同的實施例已在上文被描述,應該理解的是它們只以例示的方式被呈現(xiàn),而非限制性的。例如,本領域技術人員通過閱讀本公開所應理解的任意此處公開的實施例的等價物都應被理解為包括在此處描述的發(fā)明構思的范圍內(nèi)。類似地,這些發(fā)明構思可以合并為本領域技術人員通過閱讀本說明書所應理解的其任意合適的方式、置換、合成、修改等。
因此,本發(fā)明的實施例的廣度和范圍不應被上述示例性的實施例所限制,而應該只被下述的權利要求及其等價物所定義。