識(shí)別便攜文件格式文件中圖注的方法和裝置制造方法【專利摘要】本發(fā)明公開(kāi)了一種識(shí)別便攜文件格式文件中圖注的方法和裝置,該方法包括:解析并識(shí)別出PDF文件當(dāng)前頁(yè)的文本塊對(duì)象和圖片塊對(duì)象;對(duì)待匹配的圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象;判斷最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符,若是則判定最相鄰的文本塊對(duì)象為對(duì)應(yīng)的圖注塊對(duì)象;將識(shí)別出的圖注塊對(duì)象與對(duì)應(yīng)的圖片塊對(duì)象匹配并關(guān)聯(lián)。本發(fā)明識(shí)別PDF文件中圖注的方法和裝置,通過(guò)對(duì)識(shí)別出的文本塊對(duì)象和圖片塊對(duì)象進(jìn)行匹配,實(shí)現(xiàn)了PDF文件中圖片塊對(duì)象和作為圖注的文本塊對(duì)象的自動(dòng)關(guān)聯(lián),免去了編輯文檔時(shí)對(duì)圖片手動(dòng)添加圖注的操作,即提高了工作效率,又提高了圖注添加的準(zhǔn)確性?!緦@f(shuō)明】識(shí)別便攜文件格式文件中圖注的方法和裝置【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及便攜文件格式PDF文本識(shí)別領(lǐng)域,特別地,涉及一種識(shí)別PDF文件中圖注的方法和裝置?!?br>背景技術(shù):
】[0002]PDF是PortableDocumentFormat(便攜文件格式)的縮寫,是由Adobe公司開(kāi)發(fā)的一種開(kāi)放式的電子文件格式。PDF文件格式的優(yōu)點(diǎn)在于,文件格式與軟硬件以及操作系統(tǒng)的平臺(tái)無(wú)關(guān),無(wú)論在Windows、Unix還是蘋果的Mac0S操作系統(tǒng)中都可以無(wú)障礙的使用,并且能夠達(dá)到相同的顯示效果。PDF文件格式以其卓越的特性成為在互聯(lián)網(wǎng)上進(jìn)行電子文檔發(fā)行和格式化信息傳播的理想文件格式。當(dāng)前,在互聯(lián)網(wǎng)上發(fā)布的科技論文和電子書籍大部分是以PDF格式提交。但是,PDF文件格式產(chǎn)生的初衷即在于精確的描繪頁(yè)面,滿足電子出版領(lǐng)域高質(zhì)量的要求,而將文件內(nèi)容的編輯需要置于次要的位置,故PDF格式文件的著重點(diǎn)在于描述文檔的打印格式,而沒(méi)有描述原始文檔內(nèi)的數(shù)據(jù)結(jié)構(gòu),因此,在實(shí)際應(yīng)用中時(shí)常出現(xiàn)PDF文件"只能看不能改"的現(xiàn)象。[0003]在制作電子書,需要調(diào)整編輯打印文檔,故需解析PDF文檔,從PDF文檔里抽取出想要的元素,比如文本段落、圖片、表格、公式等。在TOF電子書中,如果該文檔有插圖,一般在編輯的時(shí)候都會(huì)給插圖附注一個(gè)圖片的說(shuō)明,即圖注。在抽取pdf文檔里的圖片元素時(shí),現(xiàn)有技術(shù)只能從pdf文檔里抽取出該文檔里的插圖,然后在用抽取出的插圖編輯文檔的時(shí)候,手動(dòng)給抽取出的插圖加上圖注。這種方式不僅效率不高,而且準(zhǔn)確性也無(wú)法保證,因?yàn)榭吹綀D片,不知道圖注,編輯人員是不太清楚這張圖片想說(shuō)明什么,且若圖片數(shù)量過(guò)大,不僅會(huì)造成手動(dòng)編輯的工作量大,耗時(shí)長(zhǎng),而且容易造成圖注錯(cuò)標(biāo)或者漏標(biāo)等問(wèn)題?!?br/>發(fā)明內(nèi)容】[0004]本發(fā)明目的在于提供一種識(shí)別PDF文件中圖注的方法和裝置,以解決現(xiàn)有的TOF文件中圖注無(wú)法自動(dòng)識(shí)別導(dǎo)致的編輯工作量大及圖片的圖注容易漏標(biāo)或者錯(cuò)標(biāo)的技術(shù)問(wèn)題。[0005]為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:[0006]根據(jù)本發(fā)明的一個(gè)方面,提供一種識(shí)別PDF文件中圖注的方法,該方法包括:[0007]解析并識(shí)別出PDF文件當(dāng)前頁(yè)的文本塊對(duì)象和圖片塊對(duì)象;[0008]對(duì)待匹配的圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象;[0009]判斷最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符,若是則判定最相鄰的文本塊對(duì)象為對(duì)應(yīng)的圖注塊對(duì)象;[0010]將識(shí)別出的圖注塊對(duì)象與對(duì)應(yīng)的圖片塊對(duì)象匹配并關(guān)聯(lián)。[0011]進(jìn)一步地,在對(duì)待匹配的圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象的步驟之前,該方法還包括:[0012]從識(shí)別出的文本塊對(duì)象中選擇在垂直方向上的高度低于待匹配的圖片塊對(duì)象的高度的文本塊對(duì)象作為候選的圖注塊對(duì)象;[0013]再在候選的圖注塊對(duì)象中確定與待匹配的圖片塊對(duì)象在垂直方向上最相鄰的文本塊對(duì)象。[0014]進(jìn)一步地,在對(duì)待匹配的圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象的步驟之前,該方法還包括:[0015]從識(shí)別出的文本塊對(duì)象中選擇字體字號(hào)不同于PDF文件正文的字體字號(hào)的文本塊對(duì)象作為候選的圖注塊對(duì)象;[0016]再在候選的圖注塊對(duì)象中確定與待匹配的圖片塊對(duì)象在垂直方向上最相鄰的文本塊對(duì)象。[0017]進(jìn)一步地,在判斷最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符的步驟之前,該方法還包括:[0018]判斷最相鄰的文本塊對(duì)象的行高是否為一行或者兩行文字高度,若是則執(zhí)行后續(xù)步驟,若否則判定待匹配的圖片塊對(duì)象無(wú)圖注。[0019]進(jìn)一步地,在對(duì)待匹配的圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象的步驟之前,該方法還包括:[0020]判斷待匹配的圖片塊對(duì)象是否位于當(dāng)前頁(yè)的最下方,若是則判定下一頁(yè)最上方的文本塊對(duì)象為其圖注塊對(duì)象。[0021]根據(jù)本發(fā)明的另一方面,提供一種識(shí)別PDF文件中圖注的裝置,包括:[0022]解析識(shí)別模塊,用于解析并識(shí)別出PDF文件當(dāng)前頁(yè)的文本塊對(duì)象和圖片塊對(duì)象;[0023]間距匹配模塊,用于對(duì)待匹配的圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象;[0024]字符判斷模塊,用于判斷最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符,若是則判定最相鄰的文本塊對(duì)象為圖注塊對(duì)象;[0025]關(guān)聯(lián)模塊,用于將識(shí)別出的圖注塊對(duì)象與對(duì)應(yīng)的圖片塊對(duì)象匹配并關(guān)聯(lián)。[0026]進(jìn)一步地,該裝置還包括:[0027]第一選擇模塊,用于對(duì)待匹配的圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象之前,從識(shí)別出的文本塊對(duì)象中選擇在垂直方向上的高度低于待匹配的圖片塊對(duì)象的高度的文本塊對(duì)象作為候選的圖注塊對(duì)象。[0028]進(jìn)一步地,該裝置還包括:[0029]第二選擇模塊,用于對(duì)待匹配的圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象之前,從識(shí)別出的文本塊對(duì)象中選擇字體字號(hào)不同于PDF文件正文的字體字號(hào)的文本塊對(duì)象作為候選的圖注塊對(duì)象。[0030]進(jìn)一步地,該裝置還包括:[0031]行高判斷模塊,用于在判斷最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符之前,判斷最相鄰的文本塊對(duì)象的行高是否為一行或者兩行文字高度,若是則跳轉(zhuǎn)至字符判斷模塊,若否則判定待匹配的圖片塊對(duì)象無(wú)圖注。[0032]進(jìn)一步地,該裝置還包括:[0033]位置判斷模塊,用于判斷待匹配的圖片塊對(duì)象是否位于當(dāng)前頁(yè)的最下方,若是則判定下一頁(yè)最上方的文本塊對(duì)象為其圖注塊對(duì)象。[0034]本發(fā)明具有以下有益效果:[0035]本發(fā)明識(shí)別PDF文件中圖注的方法和裝置,通過(guò)對(duì)識(shí)別出的文本塊對(duì)象和圖片塊對(duì)象進(jìn)行匹配,實(shí)現(xiàn)了PDF文件中圖片塊對(duì)象和作為圖注的文本塊對(duì)象的自動(dòng)關(guān)聯(lián),免去了編輯文檔時(shí)對(duì)圖片手動(dòng)添加圖注的操作,即提高了工作效率,又提高了圖注添加的準(zhǔn)確性。[0036]除了上面所描述的目的、特征和優(yōu)點(diǎn)之外,本發(fā)明還有其它的目的、特征和優(yōu)點(diǎn)。下面將參照?qǐng)D,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明?!緦@綀D】【附圖說(shuō)明】[0037]構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:[0038]圖1是本發(fā)明優(yōu)選實(shí)施例一識(shí)別PDF文件中圖注的方法的步驟流程示意圖;[0039]圖2是本發(fā)明優(yōu)選實(shí)施例二識(shí)別PDF文件中圖注的方法的步驟流程示意圖;[0040]圖3是本發(fā)明優(yōu)選實(shí)施例三識(shí)別PDF文件中圖注的方法的步驟流程示意圖;[0041]圖4是本發(fā)明優(yōu)選實(shí)施例四識(shí)別PDF文件中圖注的方法的步驟流程示意圖;[0042]圖5是本發(fā)明優(yōu)選實(shí)施例五識(shí)別PDF文件中圖注的方法的步驟流程示意圖;[0043]圖6是本發(fā)明優(yōu)選實(shí)施例識(shí)別PDF文件中圖注的裝置的原理方框示意圖;以及[0044]圖7是本發(fā)明優(yōu)選實(shí)施例識(shí)別PDF文件中圖注的裝置的另一原理方框示意圖?!揪唧w實(shí)施方式】[0045]以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說(shuō)明,但是本發(fā)明可以由權(quán)利要求限定和覆蓋的多種不同方式實(shí)施。[0046]為了使本【
技術(shù)領(lǐng)域:
】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。[0047]需要說(shuō)明的是,本發(fā)明的說(shuō)明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)"第一"、"第二"等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語(yǔ)"包括"和"具有"以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。[0048]參照?qǐng)D1,本發(fā)明的優(yōu)選實(shí)施例一提供一種識(shí)別PDF文件中圖注的方法,該方法包括:[0049]步驟S101,解析并識(shí)別出PDF文件當(dāng)前頁(yè)的文本塊對(duì)象和圖片塊對(duì)象;[0050]可選地,本實(shí)施例中,解析PDF文件包括解析PDF文件格式的協(xié)議,如本實(shí)施例中,使用的PDF文件格式為Adobe的PDF協(xié)議1.5版本;其次,解析PDF文檔的內(nèi)容,從中抽取出文本段落、圖片、表格、公式等數(shù)據(jù),具體可采用xpdf、podofo等開(kāi)源技術(shù)來(lái)解析PDF文檔的內(nèi)容,優(yōu)選地,本實(shí)施例采用mupdf開(kāi)源技術(shù)解析以識(shí)別出PDF文件當(dāng)前頁(yè)的內(nèi)容。在解析PDF文檔的內(nèi)容時(shí),pdf文檔里的圖片、文本段落等被一個(gè)個(gè)矩形框圈起來(lái),識(shí)別成block,即一個(gè)塊,可以有圖片塊對(duì)象的矩形框和文本塊對(duì)象的矩形框。塊對(duì)象里記錄了該矩形框的對(duì)角兩個(gè)點(diǎn)的坐標(biāo)信息。在解析的過(guò)程中,圖注也是一個(gè)文本塊對(duì)象,即也當(dāng)成一個(gè)block處理,亦對(duì)應(yīng)有矩形框。[0051]在本實(shí)施例中,在解析PDF文檔的時(shí)候,是按頁(yè)為單位進(jìn)行處理的。首先,解析出PDF文檔一頁(yè)的所有的block對(duì)象。這里面的block對(duì)象既包括文本塊對(duì)象,也包括圖片塊對(duì)象,根據(jù)block結(jié)構(gòu)體中的objecttype參數(shù)來(lái)分辨出哪些block對(duì)象是文本塊對(duì)象,哪些是圖片塊對(duì)象。本實(shí)施例的block數(shù)據(jù)結(jié)構(gòu)如下:[0052]【權(quán)利要求】1.一種識(shí)別便攜文件格式文件中圖注的方法,其特征在于,包括:解析并識(shí)別出便攜文件格式PDF文件當(dāng)前頁(yè)的文本塊對(duì)象和圖片塊對(duì)象;對(duì)待匹配的所述圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象;判斷所述最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符,若是則判定所述最相鄰的文本塊對(duì)象為對(duì)應(yīng)的圖注塊對(duì)象;將識(shí)別出的所述圖注塊對(duì)象與對(duì)應(yīng)的所述圖片塊對(duì)象匹配并關(guān)聯(lián)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述對(duì)待匹配的所述圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象的步驟之前,還包括:從識(shí)別出的文本塊對(duì)象中選擇在垂直方向上的高度低于待匹配的所述圖片塊對(duì)象的高度的文本塊對(duì)象作為候選的圖注塊對(duì)象;再在所述候選的圖注塊對(duì)象中確定與所述待匹配的所述圖片塊對(duì)象在垂直方向上最相鄰的文本塊對(duì)象。3.根據(jù)權(quán)利要求1或者2所述的方法,其特征在于,在所述對(duì)待匹配的所述圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象的步驟之前,還包括:從識(shí)別出的文本塊對(duì)象中選擇字體字號(hào)不同于PDF文件正文的字體字號(hào)的文本塊對(duì)象作為候選的圖注塊對(duì)象;再在所述候選的圖注塊對(duì)象中確定與所述待匹配的所述圖片塊對(duì)象在垂直方向上最相鄰的文本塊對(duì)象。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在判斷所述最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符的步驟之前,還包括:判斷所述最相鄰的文本塊對(duì)象的行高是否為一行或者兩行文字高度,若是則執(zhí)行后續(xù)步驟,若否則判定待匹配的所述圖片塊對(duì)象無(wú)圖注。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述對(duì)待匹配的所述圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象的步驟之前,還包括:判斷待匹配的所述圖片塊對(duì)象是否位于當(dāng)前頁(yè)的最下方,若是則判定下一頁(yè)最上方的文本塊對(duì)象為其圖注塊對(duì)象。6.-種識(shí)別便攜文件格式文件中圖注的裝置,其特征在于,包括:解析識(shí)別模塊,用于解析并識(shí)別出便攜文件格式PDF文件當(dāng)前頁(yè)的文本塊對(duì)象和圖片塊對(duì)象;間距匹配模塊,用于對(duì)待匹配的所述圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象;字符判斷模塊,用于判斷所述最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符,若是則判定所述最相鄰的文本塊對(duì)象為圖注塊對(duì)象;關(guān)聯(lián)模塊,用于將識(shí)別出的圖注塊對(duì)象與對(duì)應(yīng)的所述圖片塊對(duì)象匹配并關(guān)聯(lián)。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,該裝置還包括:第一選擇模塊,用于對(duì)待匹配的所述圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象之前,從識(shí)別出的文本塊對(duì)象中選擇在垂直方向上的高度低于待匹配的所述圖片塊對(duì)象的高度的文本塊對(duì)象作為候選的圖注塊對(duì)象。8.根據(jù)權(quán)利要求6或者7所述的裝置,其特征在于,該裝置還包括:第二選擇模塊,用于對(duì)待匹配的所述圖片塊對(duì)象確定與其在垂直方向上最相鄰的文本塊對(duì)象之前,從識(shí)別出的文本塊對(duì)象中選擇字體字號(hào)不同于PDF文件正文的字體字號(hào)的文本塊對(duì)象作為候選的圖注塊對(duì)象。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,該裝置還包括:行高判斷模塊,用于在判斷所述最相鄰的文本塊對(duì)象是否含有用于標(biāo)識(shí)圖片的標(biāo)識(shí)字符之前,判斷所述最相鄰的文本塊對(duì)象的行高是否為一行或者兩行文字高度,若是則跳轉(zhuǎn)至所述字符判斷模塊,若否則判定待匹配的所述圖片塊對(duì)象無(wú)圖注。10.根據(jù)權(quán)利要求1所述的裝置,其特征在于,該裝置還包括:位置判斷模塊,用于判斷待匹配的所述圖片塊對(duì)象是否位于當(dāng)前頁(yè)的最下方,若是則判定下一頁(yè)最上方的文本塊對(duì)象為其圖注塊對(duì)象?!疚臋n編號(hào)】G06F17/24GK104156345SQ201410379218【公開(kāi)日】2014年11月19日申請(qǐng)日期:2014年8月4日優(yōu)先權(quán)日:2014年8月4日【發(fā)明者】雷陸峰申請(qǐng)人:中南出版?zhèn)髅郊瘓F(tuán)股份有限公司