專利名稱::一種從pdf格式文件頁面中提取圖像的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及文檔處理領(lǐng)域,特別是涉及一種從PDF格式文件頁面中提取圖像的方法及系統(tǒng)。
背景技術(shù):
:PDF是PortableDocumentformat(便攜文件格式)的縮寫,是一種電子文件格式。PDF文件格式以其卓越的特性成為在互聯(lián)網(wǎng)上進行電子文檔發(fā)行和格式化信息傳播的理想文件格式。當前,在互聯(lián)網(wǎng)上發(fā)布的科技論文大部分以PDF格式提交。但是,PDF格式文件的著重點在于描述文檔的打印格式,而沒有描述原始文檔內(nèi)的數(shù)據(jù)結(jié)構(gòu),并且不易編輯。因此,如果需要將PDF格式文件轉(zhuǎn)換為其它格式的文件,是比較困難的。尤其是PDF格式文件中的圖像,是PDF格式文件轉(zhuǎn)換中最難解決的問題?,F(xiàn)有技術(shù)中,在將PDF格式文件轉(zhuǎn)換為其它格式的文件時,對于圖像的提取主要有兩種方式一種是將PDF格式文件中的所有圖像元素(一幅圖片可能由大量的圖像元素構(gòu)成)原封不動的提取出來。該方式提取出的圖像元素,往往有成千上萬個。由于該方式提取出的是大量的圖像元素,同時并沒有明確哪些圖像元素構(gòu)成一幅圖像。因此,該方式提取出的圖像,只能對圖像元素進行編輯而無法對圖像整體進行編輯。還有一種是直接將PDF格式文件中的整個頁面作為一個圖片提取出來。該方式提取出的圖像,同樣存在不易編輯的問題。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種從PDF格式文件頁面中提取圖像的方法及系統(tǒng),能夠使得提取出的圖像易于編輯,同時具有較高的提取效率。為實現(xiàn)上述目的,本發(fā)明提供了如下方案一種從PDF格式文件頁面中提取圖像的方法,包括獲取PDF格式文件頁面中每個圖像元素的位置信息;根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;將每個集合中的全部圖像元素作為整體進行圖像提取。優(yōu)選的,所述獲取PDF格式文件頁面中每個圖像元素的位置信息包括獲取PDF格式文件頁面中每個圖像元素的左上角頂點位置坐標信息,并記錄所述坐標信息作為該圖像元素的基準點。優(yōu)選的,所述根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合,包括對所述圖像元素進行水平方向的劃分,得到一個或多個行集合;對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合。優(yōu)選的,所述對所述圖像元素進行水平方向的劃分,得到一個或多個行集合,包4括A、按照圖像元素的基準點的縱坐標,對全部圖像元素進行排序;B、按照縱坐標的排序結(jié)果,將第一個圖像元素劃分至第一個行集合;C、判斷下一個圖像元素與剛劃分的圖像元素的縱坐標范圍是否相交;D、如果是,則將所述下一個圖像元素劃分至所述剛劃分的圖像元素所在的行集合;否則,將所述下一個圖像元素劃分至新的行集合,返回步驟C。優(yōu)選的,所述對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合,包括E、對于每個行集合,按照所述圖像元素的基準點的橫坐標,對行集合中的圖像元素進行排序;F、按照橫坐標的排序結(jié)果,將行集合中的第一個圖像元素劃分至第一個列集合;所述列集合為對應(yīng)于整個頁面的行列集合;G、判斷下一個圖像元素與剛劃分的圖像元素在橫坐標方向是否相交;H、如果是,則將所述下一個圖像元素劃分至所述剛劃分的圖像元素所在的列集合;否則,將所述下一個圖像元素劃分至新的列集合,返回步驟G。優(yōu)選的,所述將每個行列集合中的全部圖像元素作為整體進行圖像提取,包括獲取每個行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進行提取。優(yōu)選的,所述獲取每個行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進行提取,包括獲取每個行列集合的外圍矩形;根據(jù)該外圍矩形對該行列集合中的全部圖像元素作為整體進行截圖提取。一種從PDF格式文件頁面中提取圖像的系統(tǒng),包括位置信息獲取模塊,用于獲取PDF格式文件頁面中每個圖像元素的位置信息;集合劃分模塊,用于根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;提取模塊,用于將每個集合中的全部圖像元素作為整體進行圖像提取。優(yōu)選的,所述位置信息獲取模塊包括坐標信息獲取單元,用于獲取PDF格式文件頁面中每個圖像元素的左上角頂點位置坐標信息,并記錄所述坐標信息作為該圖像元素的基準點。優(yōu)選的,所述集合劃分模塊包括行集合劃分單元,用于對所述圖像元素進行水平方向的劃分,得到一個或多個行集合;行列集合劃分單元,用于對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合。根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術(shù)效果本發(fā)明所公開的從PDF格式文件頁面中提取圖像的方法,通過根據(jù)圖像元素在文件頁面中的位置信息,對其進行行列劃分,對劃分后的行列集合進行整體提取,使得提取出的圖像易于編輯,同時具有較高的提取效率。為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例所述從PDF格式文件頁面中提取圖像的方法流程圖;圖2為本發(fā)明實施例所述從PDF格式文件頁面中提取圖像的系統(tǒng)結(jié)構(gòu)圖。具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本發(fā)明的目的是提供一種從PDF格式文件頁面中提取圖像的方法及系統(tǒng),能夠根據(jù)PDF格式文件中的原始圖像信息,將圖像元素劃分為少量有意義的集合,并提取出來。為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。參見圖1,為本發(fā)明實施例所述從PDF格式文件頁面中提取圖像的方法流程圖。如圖1所示,該方法包括步驟SlOl獲取PDF格式文件頁面中每個圖像元素的位置信息;圖像元素可以是各種不同的類型。具體的,可以用坐標的方式記錄每個圖像元素的位置信息。對于不同的圖像元素來說,該元素所占的區(qū)域面積大小也不盡相同。本發(fā)明中可以采用該元素平面坐標(x,y)來記錄該元素的位置信息。其中,χ表示橫坐標,y表示縱坐標。區(qū)域面積越大的元素,其覆蓋的坐標區(qū)域也越大。因此步驟SlOl可以包括獲取PDF格式文件頁面中每個圖像元素的坐標信息。具體的,可以獲取PDF格式文件頁面中每個圖像元素的左上角頂點位置坐標信息,并記錄所述坐標信息作為該圖像元素的基準點。S102根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;通常,一幅圖片中可能包含多個圖像元素(例如像素)。由于這些圖像元素同屬于一幅圖片,因此這些圖像元素的位置是很緊湊的。步驟S102的含義就是按照PDF格式文件頁面中原本的圖片組成方式,盡可能的將同屬于一個圖片的圖像元素,劃分到同一個集合中,以便作為一個整體進行提取。實際應(yīng)用中,步驟S102可以包括對所述圖像元素進行水平方向的劃分,得到一個或多個行集合;對所述行的集合中的圖像元素進行垂直方向的劃分,得到行列集合。具體的,對于采用坐標方式表示每個圖像元素的位置信息,行的集合的劃分可以包括步驟A、按照所述圖像元素的基準點的縱坐標,對全部圖像元素進行排序;對于每個圖像元素,需要按照其相同位置處的點的坐標進行排序。具體的,可以采用每個圖像元素的左上點的縱坐標,對全部圖像元素進行排序;也可以采用每個圖像元素的右上點、左下點或右下點等的縱坐標進行排序。這些點可以認為是圖像元素的基準點。排序的目的是為了能夠?qū)⑺轿恢孟嘟膱D像元素劃分為同一行集合。因此,如果坐標系中,縱坐標軸是由上指向下的,那么位于頁面上方的元素的縱坐標將小于位于頁面下方的元素的縱坐標,此時可以按照縱坐標由小到大的順序進行排序;如果坐標系中,縱坐標軸是由下指向上的,那么位于頁面上方的元素的縱坐標將大于位于頁面下方的元素的縱坐標,此時可以按照縱坐標由大到小的順序進行排序。B、按照縱坐標的排序結(jié)果,將第一個圖像元素劃分至第一個行集合;C、判斷下一個圖像元素與剛劃分的圖像元素的縱坐標范圍是否相交;D、如果是,則將所述下一個圖像元素劃分至所述剛劃分的圖像元素所在的行集合;否則,將所述下一個圖像元素劃分至新的行集合,返回步驟C。舉例來說,假設(shè)剛劃分的圖像元素的縱坐標范圍在10-100,下一個圖像元素的縱坐標范圍在20-50,顯然兩個范圍存在相交的部分。此時將下一個圖像元素劃分至所述剛劃分的圖像元素所在的行集合,即認為兩者基本處在同一行的位置上。如果剛劃分的圖像元素的縱坐標范圍在10-100,下一個圖像元素的縱坐標范圍在200460,則兩個范圍不存在相交的部分。此時將所述下一個圖像元素劃分至新的行集合,即認為兩者不屬于同一行。重復(fù)步驟C和D,直至將全部圖像元素都劃分完。對所述行的集合中的圖像元素進行垂直方向的劃分,得到行列集合,具體可以包括步驟E、對于每個行集合,按照所述圖像元素的基準點的橫坐標,對行集合中的圖像元素進行排序;排序的目的是為了能夠?qū)⒋怪蔽恢孟嘟膱D像元素劃分為同一列集合。因此,如果坐標系中,橫坐標軸是由左指向右的,那么位于頁面左方的元素的橫坐標將小于位于頁面右方的元素的橫坐標,此時可以按照橫坐標由小到大的順序進行排序;如果坐標系中,橫坐標軸是右下指向左的,那么位于頁面左方的元素的橫坐標將大于位于頁面右方的元素的橫坐標,此時可以按照橫坐標由大到小的順序進行排序。F、按照橫坐標的排序結(jié)果,將行集合中的第一個圖像元素劃分至第一個列集合;所述列集合為對應(yīng)于整個頁面的行列集合;G、判斷下一個圖像元素與剛劃分的圖像元素在橫坐標方向是否相交;H、如果是,則將所述下一個圖像元素劃分至所述剛劃分的圖像元素所在的列集合;否則,將所述下一個圖像元素劃分至新的列集合,返回步驟G。舉例來說,假設(shè)剛劃分的圖像元素的橫坐標范圍在10-100,下一個圖像元素的橫坐標范圍在20-150,顯然兩個范圍存在相交的部分。此時將下一個圖像元素劃分至所述剛劃分的圖像元素所在的列集合,即認為兩者基本處在同一列的位置上。如果剛劃分的圖像元素的橫坐標范圍在10-100,下一個圖像元素的橫坐標范圍在200460,則兩個范圍不存在相交的部分。此時將所述下一個圖像元素劃分至新的列集合,即認為兩者不屬于同一列。重復(fù)步驟G和H,直至將某個行集合中的圖像元素劃分完,然后對另一個行集合進行劃分,最終完成對所有行集合的劃分。需要說明的是,步驟E-H是針對每個行集合來說的。對于每個行集合中劃分出的列集合,就可以認為是對于整個頁面的行列集合。S103將每個集合中的全部圖像元素作為整體進行圖像提取。因為進行行列劃分之后的每個行列集合,在水平和垂直位置都是十分接近的,這些元素很可能共同構(gòu)成同一幅圖像。因此,可以將每個行列集合中的全部圖像元素作為整體進行提取。具體的,可以采用下述方式進行提取獲取每個行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進行提取。更具體的,為便于理解以及操作,獲取每個行列集合的外圍輪廓,可以是獲取每個行列集合的外圍矩形;然后根據(jù)該外圍矩形對該行列集合中的全部圖像元素進行截圖提取。綜上所述,本發(fā)明所公開的從PDF格式文件頁面中提取圖像的方法,通過根據(jù)圖像元素在文件頁面中的位置信息,對其進行行列劃分,對劃分后的行列集合進行整體提取,使得提取出的圖像易于編輯,同時具有較高的提取效率。與本發(fā)明所公開的從PDF格式文件頁面中提取圖像的方法相對應(yīng),本發(fā)明還公開了一種從PDF格式文件頁面中提取圖像的系統(tǒng)。參見圖2,為本發(fā)明實施例所述從PDF格式文件頁面中提取圖像的系統(tǒng)結(jié)構(gòu)圖。如圖2所示,該系統(tǒng)包括位置信息獲取模塊201,用于獲取PDF格式文件頁面中每個圖像元素的位置信息;集合劃分模塊202,用于根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;提取模塊203,用于將每個集合中的全部圖像元素作為整體進行圖像提取。實際應(yīng)用中,所述位置信息獲取模塊201可以包括坐標信息獲取單元,用于獲取PDF格式文件頁面中每個圖像元素的左上角頂點位置坐標信息,并記錄所述坐標信息作為該圖像元素的基準點。所述集合劃分模塊202可以包括行集合劃分單元,用于對所述圖像元素進行水平方向的劃分,得到一個或多個行集合;行列集合劃分單元,用于對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合。本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的系統(tǒng)而言,由于其與實施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。權(quán)利要求1.一種從PDF格式文件頁面中提取圖像的方法,其特征在于,包括獲取PDF格式文件頁面中每個圖像元素的位置信息;根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;將每個集合中的全部圖像元素作為整體進行圖像提取。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取PDF格式文件頁面中每個圖像元素的位置信息,包括獲取PDF格式文件頁面中每個圖像元素的左上角頂點位置坐標信息,并記錄所述坐標信息作為該圖像元素的基準點。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合,包括對所述圖像元素進行水平方向的劃分,得到一個或多個行集合;對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對所述圖像元素進行水平方向的劃分,得到一個或多個行集合,包括A、按照圖像元素的基準點的縱坐標,對全部圖像元素進行排序;B、按照縱坐標的排序結(jié)果,將第一個圖像元素劃分至第一個行集合;C、判斷下一個圖像元素與剛劃分的圖像元素的縱坐標范圍是否相交;D、如果是,則將所述下一個圖像元素劃分至所述剛劃分的圖像元素所在的行集合;否則,將所述下一個圖像元素劃分至新的行集合,返回步驟C。5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合,包括E、對于每個行集合,按照所述圖像元素的基準點的橫坐標,對行集合中的圖像元素進行排序;F、按照橫坐標的排序結(jié)果,將行集合中的第一個圖像元素劃分至第一個列集合;所述列集合為對應(yīng)于整個頁面的行列集合;G、判斷下一個圖像元素與剛劃分的圖像元素在橫坐標方向是否相交;H、如果是,則將所述下一個圖像元素劃分至所述剛劃分的圖像元素所在的列集合;否則,將所述下一個圖像元素劃分至新的列集合,返回步驟G。6.根據(jù)權(quán)利要求3-5任一項所述的方法,其特征在于,所述將每個行列集合中的全部圖像元素作為整體進行圖像提取,包括獲取每個行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進行提取。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述獲取每個行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進行提取,包括獲取每個行列集合的外圍矩形;根據(jù)該外圍矩形對該行列集合中的全部圖像元素作為整體進行截圖提取。8.—種從PDF格式文件頁面中提取圖像的系統(tǒng),其特征在于,包括位置信息獲取模塊,用于獲取PDF格式文件頁面中每個圖像元素的位置信息;集合劃分模塊,用于根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;提取模塊,用于將每個集合中的全部圖像元素作為整體進行圖像提取。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述位置信息獲取模塊包括坐標信息獲取單元,用于獲取PDF格式文件頁面中每個圖像元素的左上角頂點位置坐標信息,并記錄所述坐標信息作為該圖像元素的基準點。10.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述集合劃分模塊包括行集合劃分單元,用于對所述圖像元素進行水平方向的劃分,得到一個或多個行集合;行列集合劃分單元,用于對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合。全文摘要本發(fā)明公開一種從PDF格式文件頁面中提取圖像的方法,包括獲取PDF格式文件頁面中每個圖像元素的位置信息;根據(jù)所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;將每個集合中的全部圖像元素作為整體進行圖像提取。本發(fā)明還公開了一種從PDF格式文件頁面中提取圖像的系統(tǒng)。采用本發(fā)明所公開的方法或系統(tǒng),能夠使得提取出的圖像易于編輯,同時具有較高的提取效率。文檔編號G06K9/46GK102306294SQ201110243119公開日2012年1月4日申請日期2011年8月23日優(yōu)先權(quán)日2011年8月23日發(fā)明者晏檢平申請人:深圳市萬興軟件有限公司