專利名稱:一種提取見報資料數(shù)據(jù)信息的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機信息處理領(lǐng)域,尤其涉及見報資料的提取技術(shù)。
背景技術(shù):
見報資料是報社的核心數(shù)字資產(chǎn),其包括的數(shù)據(jù)信息有稿件的內(nèi)容信息,如報紙版面上文章(正文、段落和標題等)、表格中的文字和圖片內(nèi)容;稿件的版式信息,包括稿件的位置信息(如坐標信息)、標題及正文的字體、字號等格式信息;文章與圖片、圖片與文字說明的關(guān)聯(lián)信息;報紙版面信息,包括報紙版次、版面名稱、日期等。這些數(shù)據(jù)信息的提取是在完成報紙版面制作過程之后進行的。通常將從制作完成的報紙版面信息中提取見報資料中的數(shù)據(jù)信息的方法,稱為見報資料的反解方法。
隨著互聯(lián)網(wǎng)的普及和信息技術(shù)的快速發(fā)展,見報資料中的數(shù)據(jù)信息對報社來講越來越重要。這些數(shù)據(jù)信息不僅要作為歷史資料被完整地保存下來以備將來查詢,而且還需要通過多種數(shù)字媒體技術(shù)實時地進行跨媒體發(fā)布,如通過新聞網(wǎng)站、數(shù)字報刊和光盤出版等,因此各個商家不斷研究新的見報資料的反解方法,以便高效高質(zhì)量地提取所述見報資料中的數(shù)據(jù)信息。
與本發(fā)明有關(guān)的現(xiàn)有技術(shù)提供了一種見報資料的反解方法,其核心是從排版系統(tǒng)輸出的版面描述文件中提取見報資料的數(shù)據(jù)信息。
由于版面描述文件,如PS(Adobe公司定義的PostScript language)、S2(方正定義的版面結(jié)果描述語言)文件主要是用來描述版式印刷的輸出信息的,所以,對印刷沒有意義、但對于見報資料非常有意義的數(shù)據(jù)信息,如文章段落、順序、位置和標題等信息已經(jīng)被改變或丟失,而且文章與圖片、圖片與文字說明的關(guān)聯(lián)信息等也被丟掉,因此基于所述版面描述文件提取見報資料中的數(shù)據(jù)信息時,普遍存在文章內(nèi)容不全,段落、標題或圖文的次序錯誤,以及不同文章錯分、誤合等問題,因此,在反解過程完成后,還需要大量人工對稿件信息進行細致、繁瑣的手工標引、修改和校對,這樣不但耗費了大量的人力物力,而且難以保證見報資料中的數(shù)據(jù)信息的質(zhì)量(即完整性、準確性)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種見報資料的反解方法,通過本發(fā)明,不僅能夠節(jié)約人力對數(shù)據(jù)信息進行的手工標引、修改和校對等工作,而且能夠保證見報資料中的數(shù)據(jù)信息的質(zhì)量。
本發(fā)明是通過如下的技術(shù)方案實現(xiàn)的本發(fā)明提供一種提取見報資料數(shù)據(jù)信息的方法,其包括A、根據(jù)報紙版面的排版文件的版面信息結(jié)構(gòu)提取版面信息和所有稿件區(qū)域信息;B、根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件;C、根據(jù)稿件的重要性以及所述稿件區(qū)域信息將提取出的稿件進行排序,并根據(jù)排序后的稿件對所述版面信息和稿件信息進行修改和標引,得到見報資料的數(shù)據(jù)信息。
其中,所述稿件區(qū)域信息包括稿件區(qū)位置信息和標題區(qū)位置信息。
其中,所述步驟B具體包括B1、根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件的稿件內(nèi)容;B2、根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件的特定屬性信息,并根據(jù)所述稿件區(qū)域信息中的標題區(qū)位置信息將所述特定屬性信息添加到所述稿件內(nèi)容中,得到對應(yīng)的文本稿件和/或圖片稿件。
其中,所述步驟B1具體包括當提取的稿件內(nèi)容為文章稿件內(nèi)容時,如果發(fā)現(xiàn)所述文章中有豎排的符號或文字,則采用豎排文件提取規(guī)則提取正文;如果遇到段首空格,則插入段落標記,并過濾空格;如果遇到特殊符號,則將其過濾掉,最后形成文本稿件;和/或,當提取的稿件內(nèi)容為圖片稿件內(nèi)容時,則提取圖片本身的信息,并提取所述圖片所在的文件名,以及所述文件名對應(yīng)的文件所在的路徑,最后形成圖片稿件;和/或,當提取的稿件內(nèi)容為表格稿件內(nèi)容時,則按照從左至右、從上到下的單元格次序提取正文,并對提取出的正文添加間隔符,最后合成一篇文本稿件。
其中,步驟B2中,所述根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件的特定屬性信息的過程,具體包括當所述稿件中包括文章稿件內(nèi)容時,如果所述文章稿件內(nèi)容中存在標題區(qū)內(nèi)容信息,則從稿件信息結(jié)構(gòu)中的標題區(qū)內(nèi)容信息中提取出所述文章的標題;如果不存在標題區(qū)內(nèi)容信息,則將稿件區(qū)內(nèi)容信息中的字體字號最大的一段標識為標題;若正文字數(shù)小于系統(tǒng)設(shè)定的字數(shù),則將該正文標識為標題;和/或,當所述稿件中包括圖片稿件內(nèi)容時,從稿件信息結(jié)構(gòu)中的標題區(qū)信息中提取出所述圖片的標題;和/或,當所述稿件中包括表格稿件內(nèi)容時,從稿件信息結(jié)構(gòu)中的標題區(qū)信息中提取出所述表格的標題,并通過注釋符提取出表格說明或注釋,并形成表格的簡圖。
其中,在所述步驟B與步驟C之間還包括根據(jù)所述稿件區(qū)域信息中的稿件區(qū)位置信息確定得到的稿件中是否有存在關(guān)聯(lián)關(guān)系的稿件,當確認有時,則根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并。
其中,所述關(guān)聯(lián)關(guān)系包括圖文稿件關(guān)聯(lián)關(guān)系,和/或,圖片說明關(guān)聯(lián)關(guān)系。
其中,當僅僅一個文本稿件和一個圖片稿件間存在關(guān)聯(lián)關(guān)系,并且所述關(guān)聯(lián)關(guān)系為圖文稿件關(guān)聯(lián)關(guān)系時,所述根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并的過程,具體包括將文本稿件的正文為新文本稿件的正文信息,文本稿件的標題作為新文本稿件的標題,圖片稿件作為所述新文本稿件的附圖信息。
其中,當僅僅一個文本稿件和一個圖片稿件存在關(guān)聯(lián)關(guān)系,并且所述關(guān)聯(lián)關(guān)系為圖片說明關(guān)聯(lián)關(guān)系時,所述根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并的過程,具體包括將圖片稿件中的圖片作為合并后的新圖片稿件的內(nèi)容信息,圖片稿件的標題作為新圖片稿件的標題;文本稿件作為所述新圖片稿件的圖片說明信息。
其中,當多個文本稿件和/或多個圖片稿件間存在關(guān)聯(lián)關(guān)系,并且所述關(guān)聯(lián)關(guān)系為圖文稿件關(guān)聯(lián)關(guān)系時,所述根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并的過程,具體包括將多個文本稿件的正文組合后,作為合并后新文本稿件的正文信息;以及,所有圖片稿件均作為所述新文本稿件的附圖;以及,所述新文本稿件的標題取自最大字號的文本稿件的標題,并將需要合并的其它文本稿件的標題保留在正文信息中;當附圖有標題時,則將所述附圖的標題保留在該附圖的說明文字中。
其中,當多個圖片稿件和/或多個文本稿件間存在關(guān)聯(lián)關(guān)系,并且所述關(guān)聯(lián)關(guān)系為圖片說明關(guān)聯(lián)關(guān)系時,所述根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并的過程,具體包括首先按照圖片大小的順序?qū)⒍鄠€圖片稿件中的圖片進行排序,并根據(jù)所述排序結(jié)果確定主圖和附圖;如果圖片大小相同,則按照從左到右、從上到下的順序?qū)⑾嗤笮〉膱D片進行排序,并根據(jù)排序結(jié)果確定主圖和附圖,并將所述所有主圖和附圖作為合并后新圖片稿件的圖片信息;以及,將多個文本稿件合并成一篇文字說明,并將其作為所述新圖片稿件的圖片說明信息;
合并后的新稿件的標題取自最大字號的圖片稿件的標題,并將需要合并的其它圖片稿件的標題保留在圖片說明信息中。
其中,步驟C中,所述根據(jù)稿件的重要性以及所述稿件區(qū)域信息將提取出的稿件進行排序的過程,具體包括按照各個稿件的位置信息對應(yīng)的垂直坐標值確定稿件的排列序號,若垂直坐標值相同,則依照稿件水平坐標值確定稿件的排列序號。
其中,步驟C中,所述根據(jù)稿件的重要性以及所述稿件區(qū)域信息將提取出的稿件進行排序的過程,還包括如果所述排版文件的版面信息的版次為第一版,則將報頭之下,且垂直坐標和水平坐標值最小的稿件排列在頭條。
其中,所述的方法還包括將得到的見報資料的數(shù)據(jù)信息導(dǎo)出。
由上述本發(fā)明提供的技術(shù)方案可以看出,本發(fā)明直接基于排版文件進行見報資料中的數(shù)據(jù)信息的反解,因此能夠保證提取出的見報資料的數(shù)據(jù)信息的完整性和準確性,解決了現(xiàn)有技術(shù)中由于版面描述文件方法中稿件信息缺失而導(dǎo)致提取出的見報資料的數(shù)據(jù)信息不完整和不準確的技術(shù)問題。另外,本發(fā)明通過排版文件的版面信息和稿件區(qū)域信息,能夠自動確定提取出稿件間關(guān)聯(lián)關(guān)系,還可以自動對文章進行排序,簡化了人工操作,提高了見報資料的反解速度。
圖1為本發(fā)明提供的第一實施例的流程圖。
具體實施例方式
常用的排版文件,包括飛騰排版文件、InDesign(產(chǎn)品名稱)排版文件、QuarkXPress(產(chǎn)品名稱)排版文件中的排版數(shù)據(jù)結(jié)構(gòu)中包括版面信息結(jié)構(gòu)和稿件信息結(jié)構(gòu)。
所述版面信息結(jié)構(gòu)包括版面信息和稿件區(qū)域信息。其中所述版面信息包括報紙名稱、版面與欄目名稱、版次(如A01、第一版)、組版員等信息;所述稿件區(qū)域信息包括稿件區(qū)位置信息和標題區(qū)位置信息等。
所述稿件信息結(jié)構(gòu)中包括位于稿件區(qū)域的圖片、文章和表格等稿件內(nèi)容信息,其中所述內(nèi)容信息包括標題區(qū)內(nèi)容信息和稿件區(qū)內(nèi)容信息。其中所述標題區(qū)內(nèi)容信息包括標題文字和格式信息等;所述稿件區(qū)內(nèi)容信息包括文章和/或表格的正文文字、段落信息以及格式信息,以及表格正文的注釋符、注釋信息,圖片本身的內(nèi)容信息、圖片所在的文件名以及所述文件名對應(yīng)的文件所在的路徑等。其中所述格式信息包括字體和字號等信息。
通過所述版面信息結(jié)構(gòu)中的稿件區(qū)域信息和所述稿件信息結(jié)構(gòu)中的稿件內(nèi)容信息,可以確定稿件之間是否存在關(guān)聯(lián)關(guān)系信息。
考慮到上述排版文件中的排版數(shù)據(jù)結(jié)構(gòu)中包含的數(shù)據(jù)信息的完整性,如果基于所述排版文件進行見報資料的反解,能夠提取出相對完整的見報資料的數(shù)據(jù)信息,為此,本發(fā)明提供的具體實施例是基于所述排版文件對見報資料進行反解的方法,該實施例的具體實施過程如圖1所示,包括如下步驟步驟S101,通過排版系統(tǒng)打開需要反解的報紙版面的排版文件。
步驟S102,根據(jù)所述排版文件的版面信息結(jié)構(gòu)提取版面信息和所有稿件區(qū)域信息。
所述版面信息包括報紙名稱、版面與欄目名稱、版次、組版員等信息。
所述稿件區(qū)域信息包括稿件區(qū)位置信息和標題區(qū)位置信息等信息。
步驟S103,根據(jù)所述排版文件的稿件信息結(jié)構(gòu)中包括的稿件區(qū)內(nèi)容信息提取步驟S102中所述所有稿件區(qū)域中的稿件的稿件內(nèi)容。
當提取的稿件內(nèi)容為文章稿件內(nèi)容時,如果發(fā)現(xiàn)所述文章中有豎排的符號或文字,則采用豎排文件提取規(guī)則提取正文(即按照從上至下、從左至右的順序提取正文)。如果遇到段首空格,則插入段落標記,并過濾空格。如果遇到特殊符號,如排版控制符,則將其過濾掉,最后形成文本稿件。
當提取的稿件內(nèi)容為圖片稿件內(nèi)容時,則除了提取圖片本身的信息外,還要在所述圖片稿件的稿件信息結(jié)構(gòu)中提取所述圖片所在的文件名以及所述文件名對應(yīng)的文件所在的路徑,最后形成圖片稿件。
當提取的稿件內(nèi)容為表格稿件內(nèi)容時,則按照從左至右、從上到下的單元格次序提取正文,并對提取出的正文添加間隔符,如在行與行之間添加換行符,在同行單元格之間添加制表鍵(TAB)字符,最后合成一篇文本稿件。若正文中存在注釋符(正文文字的上標標記),則提取相應(yīng)的注釋信息作為稿件正文的注釋信息。
步驟S104,根據(jù)所述排版文件的稿件信息結(jié)構(gòu)中包括的標題區(qū)內(nèi)容信息提取步驟S102中所述的稿件區(qū)域中的稿件的特定屬性信息,如標題屬性信息等。
對于每篇文章,如果存在標題區(qū)內(nèi)容信息,則從標題區(qū)內(nèi)容信息中提取出文章的標題、引題和副題;如果不存在標題區(qū)內(nèi)容信息,則將稿件區(qū)內(nèi)容信息中的字體字號最大的一段標識為標題;若正文字數(shù)小于系統(tǒng)設(shè)定的字數(shù),則將該正文標識為標題。
對于每幅圖片,從標題區(qū)信息中提取出所述圖片的標題;對于每個表格,從標題區(qū)信息中提取出所述表格的標題,并形成表格的簡圖。若表格標題區(qū)中存在注釋符(標題文字的上標標記),則提取相應(yīng)的注釋信息作為稿件的說明信息。
步驟S105,根據(jù)排版文件中的稿件區(qū)域信息中的標題區(qū)位置信息,將經(jīng)過步驟S104得到的特定屬性信息添加到經(jīng)過步驟S103得到的圖片稿件和文本稿件中。
步驟S106,根據(jù)步驟S102中提取出的稿件區(qū)域信息中的稿件區(qū)位置信息,確定得到的各個稿件間是否存在關(guān)聯(lián)關(guān)系,并當確定存在關(guān)聯(lián)關(guān)系時確定出關(guān)聯(lián)關(guān)系的類型。
如果文本稿件區(qū)域包含圖片稿件,則確定存在關(guān)聯(lián)關(guān)系,并且關(guān)聯(lián)關(guān)系的類型為圖文稿件關(guān)聯(lián);如果圖片稿件區(qū)域包含文本稿件,則確定存在關(guān)聯(lián)關(guān)系,并且關(guān)聯(lián)關(guān)系的類型為圖片說明關(guān)聯(lián)。
步驟S107,根據(jù)確定出的所述關(guān)聯(lián)關(guān)系合并存在關(guān)聯(lián)關(guān)系的稿件。
如果僅僅一個文本稿件和一個圖片稿件存在關(guān)聯(lián)關(guān)系,則合并稿件的具體實施過程如下如果稿件關(guān)系為圖文稿件關(guān)聯(lián),則將圖片稿件作為附圖合并到文本稿件之中,文本稿件的正文為新稿件的正文信息,文本稿件的標題作為新稿件的標題。
如果稿件關(guān)系為圖文說明關(guān)聯(lián),則將文本稿件作為圖片說明合并到圖片稿件之中,圖片作為新稿件的稿件內(nèi)容信息,圖片稿件的標題作為新稿件的標題。
如果多個文本稿件和多個圖片稿件存在關(guān)聯(lián)關(guān)系,則還需要將所述多個稿件合并成一個稿件。具體合并的過程如下對于稿件關(guān)系為圖文稿件關(guān)聯(lián)的多個稿件(即一個文本稿件區(qū)域包括多個文本或/和圖片稿件區(qū)),在合并稿件時,將多個文本稿件合并成新稿件的正文信息;所有圖片稿件均作為新稿件的附圖;合并后的新稿件的標題、引題、副題取自最大字號的稿件的標題、引題、副題,其它稿件的標題、引題、副題保留在正文信息中;若附圖有標題,則保留在該附圖的說明文字中。
對于稿件關(guān)系為圖文說明關(guān)聯(lián)的多個稿件(即一個圖片稿件區(qū)域包括多個文本或/和圖片稿件區(qū)),在合并稿件時,若有多幅圖片,則首先按照圖片大小的順序確定主圖和附圖,如果圖片大小相同,則按照從左到右、從上到下的順序確定主圖和附圖,并將圖片稿件作為新稿件的正文信息;若有文本稿件,則合并成一個文字說明(例如復(fù)雜圖表),并將其作為新稿件的圖片說明信息。合并后的新稿件的標題取自最大字號的圖片稿件的標題,其它稿件的標題保留在圖片說明信息中。
步驟S108,根據(jù)稿件的重要程度和稿件區(qū)位置信息對合并處理后的稿件,以及沒有關(guān)聯(lián)關(guān)系的稿件進行排序。
首先,按照各個稿件的位置信息對應(yīng)的垂直坐標值確定稿件的排列序號;如果各個稿件的位置信息對應(yīng)的垂直坐標值相同,則按照各個稿件的位置信息對應(yīng)的水平坐標值確定稿件的排列序號。
所述稿件的位置信息對應(yīng)的垂直坐標值越小,則排列的序號越小。如果各個稿件的位置信息對應(yīng)的垂直坐標值相同,則按照各個稿件的位置信息對應(yīng)的水平坐標值確定稿件的排列序號,所述稿件的位置信息對應(yīng)的水平坐標值越小,則排列的序號越小。
然后,判斷所述排版文件的版面信息是否為第一版信息,若為第一版,則將報頭之下,且垂直坐標和水平坐標值最小的稿件排列在頭條,即標識其排列序號為1。
步驟S109,在排版系統(tǒng)界面上顯示版面信息、稿件信息及其相關(guān)數(shù)據(jù)信息。
步驟S110,修改和標引版面信息與稿件信息,完善見報資料的數(shù)據(jù)信息。如稿件甩版信息、作者姓名等數(shù)據(jù)信息。
步驟S111,從排版系統(tǒng)中導(dǎo)出反解制作完畢的見報資料中的數(shù)據(jù)信息,并導(dǎo)出報紙版面的簡圖和PDF(可移植文檔格式)文件,并記錄當前稿件在版面上的位置信息和區(qū)域信息,最后輸出所有見報資料的數(shù)據(jù)信息(含文字、圖片、版面文件及關(guān)聯(lián)關(guān)系等)。
輸出所有見報資料的數(shù)據(jù)信息時,可以通過XML(可擴展標記語言)格式打包后輸出,或通過其它語言格式轉(zhuǎn)換后輸出。
經(jīng)過上述步驟后,能夠得到完整的見報資料的數(shù)據(jù)信息,以便通過網(wǎng)站發(fā)布、光盤出版和數(shù)字報刊等方式提供見報資料信息服務(wù)。
通過上述本發(fā)明提供的具體實施方案可以看出,本發(fā)明直接基于排版文件進行見報資料中的數(shù)據(jù)信息的反解,因此能夠保證提取出的見報資料的數(shù)據(jù)信息的完整性和準確性,解決了現(xiàn)有技術(shù)中由于版面描述文件方法中稿件信息缺失而導(dǎo)致提取出的見報資料的數(shù)據(jù)信息不完整和不準確的技術(shù)問題。另外,本發(fā)明通過排版文件的版面信息和稿件區(qū)域信息,能夠自動確定提取出稿件間關(guān)聯(lián)關(guān)系,還可以自動對文章進行排序,簡化了人工操作,提高了見報資料的反解速度。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種提取見報資料數(shù)據(jù)信息的方法,其特征在于,包括A、根據(jù)報紙版面的排版文件的版面信息結(jié)構(gòu)提取版面信息和所有稿件區(qū)域信息;B、根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件;C、根據(jù)稿件的重要性以及所述稿件區(qū)域信息將提取出的稿件進行排序,并根據(jù)排序后的稿件對所述版面信息和稿件信息進行修改和標引,得到見報資料的數(shù)據(jù)信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述稿件區(qū)域信息包括稿件區(qū)位置信息和標題區(qū)位置信息。
3.如權(quán)利要求2所述的方法,其特征在于,所述步驟B具體包括B1、根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件的稿件內(nèi)容;B2、根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件的特定屬性信息,并根據(jù)所述稿件區(qū)域信息中的標題區(qū)位置信息將所述特定屬性信息添加到所述稿件內(nèi)容中,得到對應(yīng)的文本稿件和/或圖片稿件。
4.如權(quán)利要求3所述的方法,其特征在于,所述步驟B1具體包括當提取的稿件內(nèi)容為文章稿件內(nèi)容時,如果發(fā)現(xiàn)所述文章中有豎排的符號或文字,則采用豎排文件提取規(guī)則提取正文;如果遇到段首空格,則插入段落標記,并過濾空格;如果遇到特殊符號,則將其過濾掉,最后形成文本稿件;和/或,當提取的稿件內(nèi)容為圖片稿件內(nèi)容時,則提取圖片本身的信息,并提取所述圖片所在的文件名,以及所述文件名對應(yīng)的文件所在的路徑,最后形成圖片稿件;和/或,當提取的稿件內(nèi)容為表格稿件內(nèi)容時,則按照從左至右、從上到下的單元格次序提取正文,并對提取出的正文添加間隔符,最后合成一篇文本稿件。
5.如權(quán)利要求3所述的方法,其特征在于,步驟B2中,所述根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件的特定屬性信息的過程,具體包括當所述稿件中包括文章稿件內(nèi)容時,如果所述文章稿件內(nèi)容中存在標題區(qū)內(nèi)容信息,則從稿件信息結(jié)構(gòu)中的標題區(qū)內(nèi)容信息中提取出所述文章的標題;如果不存在標題區(qū)內(nèi)容信息,則將稿件區(qū)內(nèi)容信息中的字體字號最大的一段標識為標題;若正文字數(shù)小于系統(tǒng)設(shè)定的字數(shù),則將該正文標識為標題;和/或,當所述稿件中包括圖片稿件內(nèi)容時,從稿件信息結(jié)構(gòu)中的標題區(qū)信息中提取出所述圖片的標題;和/或,當所述稿件中包括表格稿件內(nèi)容時,從稿件信息結(jié)構(gòu)中的標題區(qū)信息中提取出所述表格的標題,并通過注釋符提取出表格說明或注釋,并形成表格的簡圖。
6.如權(quán)利要求1所述的方法,其特征在于,在所述步驟B與步驟C之間還包括根據(jù)所述稿件區(qū)域信息中的稿件區(qū)位置信息確定得到的稿件中是否有存在關(guān)聯(lián)關(guān)系的稿件,當確認有時,則根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并。
7.如權(quán)利要求6所述的方法,其特征在于,所述關(guān)聯(lián)關(guān)系包括圖文稿件關(guān)聯(lián)關(guān)系,和/或,圖片說明關(guān)聯(lián)關(guān)系。
8.如權(quán)利要求7所述的方法,其特征在于,當僅僅一個文本稿件和一個圖片稿件間存在關(guān)聯(lián)關(guān)系,并且所述關(guān)聯(lián)關(guān)系為圖文稿件關(guān)聯(lián)關(guān)系時,所述根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并的過程,具體包括將文本稿件的正文為新文本稿件的正文信息,文本稿件的標題作為新文本稿件的標題,圖片稿件作為所述新文本稿件的附圖信息。
9.如權(quán)利要求7所述的方法,其特征在于,當僅僅一個文本稿件和一個圖片稿件存在關(guān)聯(lián)關(guān)系,并且所述關(guān)聯(lián)關(guān)系為圖片說明關(guān)聯(lián)關(guān)系時,所述根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并的過程,具體包括將圖片稿件中的圖片作為合并后的新圖片稿件的內(nèi)容信息,圖片稿件的標題作為新圖片稿件的標題;文本稿件作為所述新圖片稿件的圖片說明信息。
10.如權(quán)利要求7所述的方法,其特征在于,當多個文本稿件和/或多個圖片稿件間存在關(guān)聯(lián)關(guān)系,并且所述關(guān)聯(lián)關(guān)系為圖文稿件關(guān)聯(lián)關(guān)系時,所述根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并的過程,具體包括將多個文本稿件的正文組合后,作為合并后新文本稿件的正文信息;以及,所有圖片稿件均作為所述新文本稿件的附圖;以及,所述新文本稿件的標題取自最大字號的文本稿件的標題,并將需要合并的其它文本稿件的標題保留在正文信息中;當附圖有標題時,則將所述附圖的標題保留在該附圖的說明文字中。
11.如權(quán)利要求7所述的方法,其特征在于,當多個圖片稿件和/或多個文本稿件間存在關(guān)聯(lián)關(guān)系,并且所述關(guān)聯(lián)關(guān)系為圖片說明關(guān)聯(lián)關(guān)系時,所述根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并的過程,具體包括首先按照圖片大小的順序?qū)⒍鄠€圖片稿件中的圖片進行排序,并根據(jù)所述排序結(jié)果確定主圖和附圖;如果圖片大小相同,則按照從左到右、從上到下的順序?qū)⑾嗤笮〉膱D片進行排序,并根據(jù)排序結(jié)果確定主圖和附圖,并將所述所有主圖和附圖作為合并后新圖片稿件的圖片信息;以及,將多個文本稿件合并成一篇文字說明,并將其作為所述新圖片稿件的圖片說明信息;合并后的新稿件的標題取自最大字號的圖片稿件的標題,并將需要合并的其它圖片稿件的標題保留在圖片說明信息中。
12.如權(quán)利要求1所述的方法,其特征在于,步驟C中,所述根據(jù)稿件的重要性以及所述稿件區(qū)域信息將提取出的稿件進行排序的過程,具體包括按照各個稿件的位置信息對應(yīng)的垂直坐標值確定稿件的排列序號,若垂直坐標值相同,則依照稿件水平坐標值確定稿件的排列序號。
13.如權(quán)利要求12所述的方法,其特征在于,步驟C中,所述根據(jù)稿件的重要性以及所述稿件區(qū)域信息將提取出的稿件進行排序的過程,還包括如果所述排版文件的版面信息的版次為第一版,則將報頭之下,且垂直坐標和水平坐標值最小的稿件排列在頭條。
14.如權(quán)利要求1所述的方法,其特征在于,還包括將得到的見報資料的數(shù)據(jù)信息導(dǎo)出。
全文摘要
本發(fā)明公開了一種提取見報資料數(shù)據(jù)信息的方法,其核心是根據(jù)報紙版面的排版文件的版面信息結(jié)構(gòu)提取版面信息和所有稿件區(qū)域信息;根據(jù)所述排版文件的稿件信息結(jié)構(gòu)提取所述所有稿件區(qū)域中的稿件;根據(jù)所述稿件區(qū)域的位置關(guān)系提取稿件之間存在的關(guān)聯(lián)關(guān)系,并根據(jù)所述關(guān)聯(lián)關(guān)系將存在關(guān)聯(lián)關(guān)系的稿件進行合并;根據(jù)稿件的重要性以及所述稿件區(qū)域信息將稿件進行排序,并根據(jù)排序后的稿件對所述版面信息內(nèi)容和稿件信息進行修改和標引,得到見報資料的數(shù)據(jù)信息。通過本發(fā)明,能夠保證提取出的見報資料的數(shù)據(jù)信息的完整性和準確性,并能夠提高見報資料的反解速度。
文檔編號G06F17/00GK1912874SQ200610112710
公開日2007年2月14日 申請日期2006年8月30日 優(yōu)先權(quán)日2006年8月30日
發(fā)明者趙東巖, 劉萬福 申請人:北京大學(xué), 北京北大方正電子有限公司