版本。數(shù)字拷貝110可包括單個圖像或多個圖像,其中,例如,每個圖像可表示諸如書或雜志的印刷物品的至少一頁(或者有時表示至少一頁的僅一部分)??梢栽陉P(guān)聯(lián)列表IlOA中預(yù)先定義相關(guān)電子內(nèi)容120到源對象100的鏈接。關(guān)聯(lián)列表IlOA包括鏈接的對象(字、句子、圖片等)以及在數(shù)字內(nèi)容的URL下其在頁面中的坐標(biāo);或者可以作為超鏈接嵌入源對象100的數(shù)字拷貝110內(nèi)。
[0039]例如,一個或多個超鏈接可以嵌入由數(shù)字拷貝110的出版方160提供的數(shù)字拷貝110中(例如,以PDF格式的形式)。根據(jù)該示例,出版方160可以發(fā)送/上傳數(shù)字拷貝110(例如,源頁面的圖像和關(guān)聯(lián)列表110A)或具有所嵌入的到服務(wù)器130的超鏈接的最終布局的PDF文件。
[0040]對數(shù)字拷貝110和關(guān)聯(lián)列表IlOA進(jìn)行處理以提取源對象100的相關(guān)特征。該處理包括:a.從PDF文件提取鏈接/超鏈接或者保存具有其坐標(biāo)的鏈接列表110A,如同實際上應(yīng)當(dāng)出現(xiàn)在源對象100中那樣;以及b.將數(shù)字拷貝110轉(zhuǎn)換成描述符,然后轉(zhuǎn)換成文本串(即,哈希字)。如同在下文中將更詳細(xì)地描述那樣,這使得能夠保存大小較小的文件以及之后進(jìn)行較快的搜索和比較處理。
[0041]在MMD側(cè),在用戶利用MMD 150對印刷源對象100進(jìn)行拍照之后,指定的MMD應(yīng)用對所獲取的圖像進(jìn)行處理,并且將表示處理結(jié)果的數(shù)據(jù)發(fā)送至服務(wù)器130。指定的MMD應(yīng)用包括將所獲取的圖像轉(zhuǎn)換成編碼形式(描述符)的編碼算法140A。根據(jù)本發(fā)明的實施例,該處理將捕獲的圖像變換成由多個聚類向量定義的編碼圖像,其中,每個向量表示所拍攝的照片中的一部分的信息。在下文中將更詳細(xì)地以及還參照圖2和圖3對用于生成編碼圖像的方法/算法進(jìn)行說明。
[0042]在服務(wù)器側(cè),系統(tǒng)10使用編碼算法140A來將數(shù)字拷貝的頁面布局轉(zhuǎn)換成描述符,并且使用搜索算法140B (類似于由MMD 150對源對象100進(jìn)行的處理),搜索算法140B在服務(wù)器的數(shù)據(jù)庫130處的源對象100的現(xiàn)有圖像(即,數(shù)字拷貝110)與從MMD 150發(fā)送的編碼圖像之間進(jìn)行識別和匹配,編碼圖像可以包含與源對象100的僅一些相似性(例如,圖像的僅一部分,失真、暗淡、未對焦等)。
[0043]由本發(fā)明提供的另外的優(yōu)點是從數(shù)字拷貝110提取鏈接,其中,系統(tǒng)10提取源對象100的數(shù)字拷貝110形式中的或者與該數(shù)字拷貝110形式相關(guān)聯(lián)的每個鏈接的位置(例如,頁面中的每個鏈接的坐標(biāo))。當(dāng)發(fā)現(xiàn)源對象100的數(shù)字拷貝與從MMD 150發(fā)送的數(shù)據(jù)之間的匹配時,任意熱點(即,坐標(biāo))出現(xiàn),這是因為數(shù)據(jù)可以與相應(yīng)的鏈接匹配,然后,相關(guān)的電子內(nèi)容或到其的鏈接可以被發(fā)送至MMD 150。例如,MMD 150可以用于向用戶示出/顯示電子內(nèi)容。
[0044]根據(jù)本發(fā)明的實施例,系統(tǒng)10設(shè)置有網(wǎng)絡(luò)賬戶能力,從而允許用戶打開個人用戶網(wǎng)絡(luò)賬戶160。例如,到電子內(nèi)容的鏈接也被保存在個人用戶網(wǎng)絡(luò)賬戶160中以供以后使用(例如,重放,共享,評論等)。
[0045]現(xiàn)在轉(zhuǎn)到圖像編碼算法,其中,根據(jù)本發(fā)明,數(shù)字圖像的圖像處理用于區(qū)分圖像中的兩類對象:文本對象和非文本對象(例如,圖片)。通常,相同的處理適用于MMD 150所捕獲的圖像和存儲在服務(wù)器130中的數(shù)字拷貝兩者。然而,由于其屬性(即,由于MMD的相機角度、光照條件、失真等),捕獲的圖像通常在編碼處理之前要求一些數(shù)字拷貝通常不需要的預(yù)處理任務(wù),諸如由于MMD的相機角度而要求捕獲的圖像的對準(zhǔn)。
[0046]然而,為了簡明起見,在下文中將對被發(fā)現(xiàn)得到最好結(jié)果的圖像編碼的處理以及示例進(jìn)行描述。雖然當(dāng)然可以使用替選的算法來獲得較不精確的結(jié)果,但是此外,可以采用與本文中所描述的算法相當(dāng)?shù)乃惴?,本發(fā)明包含所有上述算法。
[0047]MMD 150對捕獲的圖像的處理可以包括以下步驟:
[0048]-通過MMD150的指定的應(yīng)用來捕獲源對象100 (例如,印刷物品)的圖像。該指定可以包括可見目標(biāo)幀(例如,顯示在智能手機的觸摸屏上同時使相機旨在捕獲圖像)以幫助用戶相對于頁面的整個布局對感興趣區(qū)域進(jìn)行拍照;
[0049]-對捕獲的圖像進(jìn)行處理,這可以包括諸如灰度轉(zhuǎn)換、圖像對準(zhǔn)等常見預(yù)處理任務(wù)以及將捕獲的圖像轉(zhuǎn)換成利用描述符陣列的向量表示(即,轉(zhuǎn)換成編碼圖像)。該轉(zhuǎn)換包括使用不同的算法來從捕獲的圖像提取文本描述符和非文本描述符并且對所提取的描述符進(jìn)行聚類;以及
[0050]-將編碼圖像發(fā)送至服務(wù)器130以查找與捕獲的圖像相關(guān)聯(lián)的電子內(nèi)容。
[0051]在服務(wù)器130處,使用相同方法和詞典作為數(shù)字拷貝的描述符的轉(zhuǎn)換,將從MMD150接收的描述符聚類轉(zhuǎn)換成哈希字。然后,進(jìn)行搜索以查找與所獲取的從MMD發(fā)送的圖像匹配的數(shù)字拷貝中的相關(guān)部分,然后查找與捕獲圖像目標(biāo)相關(guān)聯(lián)的電子內(nèi)容。通常,搜索過程可以包括以下步驟:
[0052]-將捕獲的圖像的哈希字與所存儲的數(shù)字拷貝的哈希字進(jìn)行匹配;
[0053]-利用MMD的應(yīng)用查找其坐標(biāo)與被用戶當(dāng)作目標(biāo)的目標(biāo)幀匹配的鏈接;
[0054]-與相關(guān)的電子內(nèi)容相關(guān)聯(lián);以及
[0055]-將電子內(nèi)容或其鏈接發(fā)送至MMD150。例如,在MMD 150處,用戶可以播放電子內(nèi)容,共享電子內(nèi)容或者存儲電子內(nèi)容以供以后使用。
[0056]根據(jù)本發(fā)明的一些實施例,捕獲圖像編碼處理可以包括以下步驟,如圖2中總體上所示:
[0057]-從印刷物品捕獲圖像(步驟20);
[0058]-對捕獲圖像進(jìn)行預(yù)處理(步驟21),這可以包括常見任務(wù),諸如灰度轉(zhuǎn)換、圖像對準(zhǔn)等;
[0059]-應(yīng)用分割處理以將圖像中的文本元素和非文本元素分開(步驟22);以及
[0060]-進(jìn)行文本和非文本描述符提取(步驟23和步驟24),以將捕獲的圖像中的每個文本對象轉(zhuǎn)換成向量表示。
[0061]描述符提取處理可以包括以下步驟:
[0062]A.描述符提取一文本描述符
[0063]1.如果需要,將捕獲的圖像轉(zhuǎn)換到灰度級;
[0064]2.對捕獲的圖像應(yīng)用抗扭斜(deskew)算法以將捕獲的圖像中出現(xiàn)的文本行水平對準(zhǔn)。該算法可以是任何抗扭斜算法或等同算法,諸如由Leptonica圖像處理庫提供的公共域抗扭斜算法;
[0065]3.對抗扭斜的圖像應(yīng)用圖像二值化(例如,通過使用用于局部二值化的Sauvola方法);
[0066]4.查找二值化圖像中的所有斑點(blob),其中,對于圖像中的文本對象,斑點可以表示字或字的一部分,而對于非文本對象,斑點可以表示圖的部分或其他圖像對象?;诓东@的圖像中的行間距和字間距,得到表示捕獲的圖像中的字的可見部署的斑點陣列。斑點可以是指一種包括彎曲或非對稱輪廓的邊界框;
[0067]5.對于每個斑點中心,求出像素到與其最靠近的斑點中心的距離;
[0068]6.計算求出的距離的中值;
[0069]7.通過逼近大小為f*中值(例如,f = 2)的矩形內(nèi)核來應(yīng)用形態(tài)學(xué)運算(morphological operat1n),其中,f是該應(yīng)用的可調(diào)參數(shù)。術(shù)語“逼近”在本文中是指形態(tài)學(xué)噪聲去除的運算,因此,