一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)。包括PDF處理子系統(tǒng),PDF版面分析與信息抽取子系統(tǒng),跨終端自適應(yīng)重組子系統(tǒng)。PDF處理子系統(tǒng)主要任務(wù)就是接受用戶提交的PDF文檔,經(jīng)過PDF處理引擎,輸出結(jié)構(gòu)良好的XML文檔。PDF版面分析與信息抽取子系統(tǒng)接受結(jié)構(gòu)良好的XML文檔,根據(jù)用戶界面分析得到的版面分析和信息抽取得到的結(jié)果輸出具有自描述性的XML文檔,即具有語義信息的XML文檔。實(shí)際上是把抽取規(guī)則中的語義項(xiàng)與數(shù)據(jù)項(xiàng)特征的映射關(guān)系轉(zhuǎn)換為語義項(xiàng)與數(shù)據(jù)項(xiàng)的映射關(guān)系。跨終端自適應(yīng)重組子系統(tǒng)則是實(shí)現(xiàn)不同終端的設(shè)備特點(diǎn),實(shí)現(xiàn)數(shù)字內(nèi)容在不同終端的展現(xiàn)。本發(fā)明可以實(shí)現(xiàn)不同終端的自適應(yīng)的數(shù)字內(nèi)容出版。
【專利說明】一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)和人工智能應(yīng)用領(lǐng)域,具體是一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的 系統(tǒng)。
【背景技術(shù)】
[0002] 國內(nèi)外學(xué)者對(duì)數(shù)字內(nèi)容跨終端出版的研究做了大量有價(jià)值的工作。比如,亞馬遜 Kindle閱讀器的專有格式,提供一種可以識(shí)別原生TOF,使用E-ink技術(shù),使閱讀如同紙張 一般,且通過與出版集團(tuán)的合作提供教科書。微軟等IT公司于出版商、出版物經(jīng)銷商等聯(lián) 合主導(dǎo)研發(fā)的開放格式Epub,該格式的國際影響力不斷加強(qiáng),且漸漸成為國際電子書格式 的通用標(biāo)準(zhǔn)。國內(nèi)方面,方正主導(dǎo)的面向移動(dòng)終端研發(fā)的XEB電子書格式體系成為國內(nèi)該 領(lǐng)域的事實(shí)標(biāo)準(zhǔn),并推出了一種獨(dú)立于軟件、硬件、操作系統(tǒng)、打印設(shè)備的CEBX文檔格式規(guī) 范,其能夠保留原文件的字符、字體、版式和色彩等重要信息。
[0003] 跨終端出版,需要出版者同時(shí)將傳輸相同內(nèi)容到不同媒體上以滿足受眾的不同需 求的過程。即需要將傳統(tǒng)的出版內(nèi)容進(jìn)行知識(shí)化、碎片化,根據(jù)終端的不同需求進(jìn)行內(nèi)容的 自適應(yīng)重組,以實(shí)現(xiàn)一次創(chuàng)建、多次出版的需要。但是國內(nèi)外跨終端數(shù)字出版的研究,所建 立的終端電子書格式都具有自身的知識(shí)產(chǎn)權(quán),不愿意對(duì)外公開自己的格式標(biāo)準(zhǔn)。而開放格 式Epub雖然具有版面結(jié)構(gòu)信息和文檔邏輯語義信息,對(duì)閱讀呈現(xiàn)效果的規(guī)范性存在不足, 而且由于傳統(tǒng)的出版物版式制作主要為了印刷,較少考慮數(shù)字出版,因此有傳統(tǒng)的排版技 術(shù)轉(zhuǎn)化成Epub存在著很多困難,特別是版面中數(shù)學(xué)公式、表格、圖形等復(fù)雜對(duì)象,在移動(dòng)終 端上無法高質(zhì)量地呈現(xiàn)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng),以解決現(xiàn) 有技術(shù)存在的問題。
[0005] 為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案為: 一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng),其特征在于:包括PDF處理子系統(tǒng)、PDF版面 分析與信息抽取子系統(tǒng)、跨終端自適應(yīng)重組子系統(tǒng)、日志管理子系統(tǒng)、以及具有版式信息的 XML文檔庫,其中: 所述的PDF處理子系統(tǒng)從用戶獲得PDF文檔,然后根據(jù)TOF固有的物理結(jié)構(gòu)和邏輯結(jié) 構(gòu),經(jīng)過PDF處理子系統(tǒng)自帶的PDF處理引擎將TOF內(nèi)容流輸出,形成結(jié)構(gòu)良好的XML文 檔; 所述的PDF版面分析與信息抽取子系統(tǒng),對(duì)結(jié)構(gòu)良好的XML文檔進(jìn)行進(jìn)一步的處理,分 析TOF的版面信息,將抽取規(guī)則中的語義項(xiàng)與數(shù)據(jù)項(xiàng)特征的映射關(guān)系轉(zhuǎn)換為語義項(xiàng)與數(shù)據(jù) 項(xiàng)的映射關(guān)系,利用PDF源碼中的版式數(shù)據(jù)中存在的版式信息,輔以語義分析,提取版式數(shù) 據(jù)的邏輯結(jié)構(gòu),將無序、無結(jié)構(gòu)的數(shù)據(jù)組織成有序、有機(jī)構(gòu)的數(shù)據(jù),從而提取必要的文字和 版式信息,自動(dòng)判定排版方向、合并正文塊,自動(dòng)還原正文閱讀順序,自動(dòng)關(guān)聯(lián)文章標(biāo)題和 正文,并進(jìn)行附圖與圖說、文章與附圖之間的自動(dòng)關(guān)聯(lián),自動(dòng)進(jìn)行版心定位、頁眉頁腳和頁 碼處理; 所述的跨終端自適應(yīng)重組子系統(tǒng),由服務(wù)器端根據(jù)客戶端的請(qǐng)求生成合適閱讀終端的 頁面,下載到移動(dòng)閱讀終端并在終端上進(jìn)行顯示,服務(wù)器端負(fù)責(zé)數(shù)字內(nèi)容的繪制工作,對(duì) 于PC或者具有較大屏幕的移動(dòng)閱讀終端,服務(wù)器端生成原始版面終端,供終端客戶端或者 通用瀏覽器實(shí)現(xiàn)下載閱讀,對(duì)于小屏幕的移動(dòng)閱讀終端,服務(wù)器端會(huì)根據(jù)移動(dòng)閱讀終端的 具體的設(shè)備信息,將存儲(chǔ)的流式和結(jié)構(gòu)化數(shù)據(jù)的XML文檔快速重新繪制成客戶端頁面; 所述的日志管理子系統(tǒng)包括日志分析器和用戶行為日志數(shù)據(jù)庫,通過檢索器建立用戶 接口,方便用戶查詢檢索信息,將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中,作為日志分析 器的依據(jù),日志管理子系統(tǒng)記錄用戶在各個(gè)子系統(tǒng)中的行為情況,并且將日志情況匯集到 日志管理子系統(tǒng)中,用于數(shù)據(jù)的查詢和分析。
[0006] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:跨終端自適應(yīng)重組子 系統(tǒng)的自適應(yīng)過程如下: 將XML文檔進(jìn)行格式化處理:分析如何利用工具將XML文檔轉(zhuǎn)化為XML樹; 終端設(shè)備信息的獲取:分析如何獲取終端設(shè)備的信息以及提取終端設(shè)備信息,并為終 端建立數(shù)據(jù)庫,記錄終端設(shè)備信息參數(shù); 圖片資源的下載和適配:分析如何將從roF中抽取得到的圖片進(jìn)行處理,并利用終端 設(shè)備信息庫對(duì)圖片進(jìn)行相應(yīng)的格式轉(zhuǎn)換和大小自適應(yīng)改變; 文本資源的適配:分析如何利用建立的終端設(shè)備信息庫對(duì)文本設(shè)置進(jìn)行自適應(yīng)重組, 并添加新的版式風(fēng)格。
[0007] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的具有版式信息 的XML文檔庫包括數(shù)據(jù)庫、文本庫、圖片庫、版式信息庫,其中版式信息庫是經(jīng)過標(biāo)引形成 的PDF版式信息庫。
[0008] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的TOF引擎,可以 解析不同版本的PDF文檔,可以對(duì)PDF文檔進(jìn)行內(nèi)容提取和結(jié)構(gòu)分析。
[0009] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的PDF版面分析 與信息抽取,提供用戶PDF編輯視圖,提供自定義語義標(biāo)引操作,能夠滿足用戶自主進(jìn)行版 面分析操作和信息抽取,形成具有語義、版式、文本、圖片等PDF文檔信息庫。
[0010] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的終端自適應(yīng)重 組,能夠根據(jù)終端設(shè)備的具體設(shè)備信息,進(jìn)行終端自適應(yīng)重組算法處理,將具有版式信息的 XML文檔進(jìn)行自適應(yīng)重組,完成跨終端的數(shù)字內(nèi)容出版。
[0011] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的日志管理,能夠 采集用戶在系統(tǒng)中操作過程中的行為操作,且能夠根據(jù)日志分析器分析用戶行為操作。
[0012] 本發(fā)明的有益效果是: 現(xiàn)有技術(shù)中的對(duì)PDF轉(zhuǎn)化為XML的描述,無法做到對(duì)PDF內(nèi)容和版式的完全解析,無法 對(duì)PDF頁面信息準(zhǔn)確的附加語義,無法根據(jù)用戶自主標(biāo)引PDF頁面語義。而在跨終端自適 應(yīng)方面,也僅僅局限于將版式的出版文檔轉(zhuǎn)化為流式文檔,沒有添加相應(yīng)版式信息,無法滿 足跨終端出版的多樣化需求。
[0013] 本發(fā)明方法中:用戶通過用戶接口,利用PDF處理引擎將PDF文檔轉(zhuǎn)化為結(jié)構(gòu)良好 的XML文檔,同時(shí)將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中,作為日志分析器的依據(jù)。轉(zhuǎn) 化成結(jié)構(gòu)良好的XML文檔經(jīng)過PDF版面分析與信息抽取引擎,以PDF視圖的形式呈現(xiàn)在用 戶的客戶端,根據(jù)用戶自定義的語義描述轉(zhuǎn)化為具有語義信息的XML文檔,并存入數(shù)字內(nèi) 容管理的XML庫,并建立具有版式信息的XML文檔庫。XML文檔庫記錄了版式數(shù)據(jù)中存在的 版式信息,包括:位置、字體、字號(hào)、顏色、輔助信息、版式風(fēng)格等。終端使用者通過終端設(shè)備 可以通過網(wǎng)絡(luò)訪問具有版式信息的XML文檔庫,并由服務(wù)器根據(jù)終端設(shè)備信息,查詢?cè)O(shè)備 庫信息,將具有版式信息的XML文檔進(jìn)行終端自適應(yīng)重組,重新加上版式渲染,顯示在終端 設(shè)備上。
[0014] 本發(fā)明對(duì)出版社進(jìn)行數(shù)字化內(nèi)容跨終端的出版將有更加迫切的需求。目前國內(nèi)數(shù) 字內(nèi)容跨終端出版還處于技術(shù)突破的前沿,因此實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法為我國蓬 勃發(fā)展的數(shù)字出版、語義出版提供跨終端的個(gè)性化服務(wù)。有效的緩解數(shù)字出版過程的關(guān)鍵 技術(shù)問題,對(duì)促進(jìn)數(shù)字內(nèi)容的跨終端出版起著關(guān)鍵作用。同時(shí),改方法對(duì)建立其它格式的跨 終端出版具有指導(dǎo)性意義。
【專利附圖】
【附圖說明】
[0015] 圖1本發(fā)明的數(shù)字內(nèi)容跨終端出版平臺(tái)示意圖。
[0016] 圖2實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版方法實(shí)施方框圖。
[0017] 圖3實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版方法的流程圖。
【具體實(shí)施方式】
[0018] 一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng),其特征在于:包括PDF處理子系統(tǒng)、PDF版 面分析與信息抽取子系統(tǒng)、跨終端自適應(yīng)重組子系統(tǒng)、日志管理子系統(tǒng)、以及具有版式信息 的XML文檔庫,其中: 所述的PDF處理子系統(tǒng)從用戶獲得PDF文檔,然后根據(jù)TOF固有的物理結(jié)構(gòu)和邏輯結(jié) 構(gòu),經(jīng)過PDF處理子系統(tǒng)自帶的PDF處理引擎將TOF內(nèi)容流輸出,形成結(jié)構(gòu)良好的XML文 檔; 所述的PDF版面分析與信息抽取子系統(tǒng),對(duì)結(jié)構(gòu)良好的XML文檔進(jìn)行進(jìn)一步的處理,分 析TOF的版面信息,將抽取規(guī)則中的語義項(xiàng)與數(shù)據(jù)項(xiàng)特征的映射關(guān)系轉(zhuǎn)換為語義項(xiàng)與數(shù)據(jù) 項(xiàng)的映射關(guān)系,利用PDF源碼中的版式數(shù)據(jù)中存在的版式信息,輔以語義分析,提取版式數(shù) 據(jù)的邏輯結(jié)構(gòu),將無序、無結(jié)構(gòu)的數(shù)據(jù)組織成有序、有機(jī)構(gòu)的數(shù)據(jù),從而提取必要的文字和 版式信息,自動(dòng)判定排版方向、合并正文塊,自動(dòng)還原正文閱讀順序,自動(dòng)關(guān)聯(lián)文章標(biāo)題和 正文,并進(jìn)行附圖與圖說、文章與附圖之間的自動(dòng)關(guān)聯(lián),自動(dòng)進(jìn)行版心定位、頁眉頁腳和頁 碼處理; 所述的跨終端自適應(yīng)重組子系統(tǒng),由服務(wù)器端根據(jù)客戶端的請(qǐng)求生成合適閱讀終端的 頁面,下載到移動(dòng)閱讀終端并在終端上進(jìn)行顯示,服務(wù)器端負(fù)責(zé)數(shù)字內(nèi)容的繪制工作,對(duì) 于PC或者具有較大屏幕的移動(dòng)閱讀終端,服務(wù)器端生成原始版面終端,供終端客戶端或者 通用瀏覽器實(shí)現(xiàn)下載閱讀,對(duì)于小屏幕的移動(dòng)閱讀終端,服務(wù)器端會(huì)根據(jù)移動(dòng)閱讀終端的 具體的設(shè)備信息,將存儲(chǔ)的流式和結(jié)構(gòu)化數(shù)據(jù)的XML文檔快速重新繪制成客戶端頁面; 所述的日志管理子系統(tǒng)包括日志分析器和用戶行為日志數(shù)據(jù)庫,通過檢索器建立用戶 接口,方便用戶查詢檢索信息,將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中,作為日志分析 器的依據(jù),日志管理子系統(tǒng)記錄用戶在各個(gè)子系統(tǒng)中的行為情況,并且將日志情況匯集到 日志管理子系統(tǒng)中,用于數(shù)據(jù)的查詢和分析。
[0019] 跨終端自適應(yīng)重組子系統(tǒng)的自適應(yīng)過程如下: 將XML文檔進(jìn)行格式化處理:分析如何利用工具將XML文檔轉(zhuǎn)化為XML樹; 終端設(shè)備信息的獲取:分析如何獲取終端設(shè)備的信息以及提取終端設(shè)備信息,并為終 端建立數(shù)據(jù)庫,記錄終端設(shè)備信息參數(shù); 圖片資源的下載和適配:分析如何將從TOF中抽取得到的圖片進(jìn)行處理,并利用終端 設(shè)備信息庫對(duì)圖片進(jìn)行相應(yīng)的格式轉(zhuǎn)換和大小自適應(yīng)改變; 文本資源的適配:分析如何利用建立的終端設(shè)備信息庫對(duì)文本設(shè)置進(jìn)行自適應(yīng)重組, 并添加新的版式風(fēng)格。
[0020] 具有版式信息的XML文檔庫包括數(shù)據(jù)庫、文本庫、圖片庫、版式信息庫,其中版式 信息庫是經(jīng)過標(biāo)引形成的PDF版式信息庫。
[0021] PDF引擎,可以解析不同版本的PDF文檔,可以對(duì)PDF文檔進(jìn)行內(nèi)容提取和結(jié)構(gòu)分 析。
[0022] PDF版面分析與信息抽取,提供用戶PDF編輯視圖,提供自定義語義標(biāo)引操作,能 夠滿足用戶自主進(jìn)行版面分析操作和信息抽取,形成具有語義、版式、文本、圖片等PDF文 檔信息庫。
[0023] 終端自適應(yīng)重組,能夠根據(jù)終端設(shè)備的具體設(shè)備信息,進(jìn)行終端自適應(yīng)重組算法 處理,將具有版式信息的XML文檔進(jìn)行自適應(yīng)重組,完成跨終端的數(shù)字內(nèi)容出版。
[0024] 日志管理,能夠采集用戶在系統(tǒng)中操作過程中的行為操作,且能夠根據(jù)日志分析 器分析用戶行為操作。
[0025] 圖1是本發(fā)明的數(shù)字內(nèi)容跨終端出版平臺(tái)示意圖。在圖1中: PDF處理模塊,PDF版面分析與信息抽取模塊,跨終端自適應(yīng)重組模塊作為平臺(tái)的三個(gè) 重要的主體模塊。
[0026] PDF處理模塊,負(fù)責(zé)接收用戶提交的PDF文檔,根據(jù)PDF處理引擎,將PDF內(nèi)容解析 并生成結(jié)構(gòu)良好的XML文檔。
[0027] PDF版面分析與信息抽取模塊,對(duì)結(jié)構(gòu)良好的XML文檔進(jìn)行處理,并根據(jù)PDF版式 和用戶版面分析的結(jié)果形成具有版式信息的XML文檔。
[0028] 跨終端自適應(yīng)重組模塊,則是跨終端出版的具體實(shí)現(xiàn)模塊,根據(jù)終端設(shè)備的設(shè)備 信息,結(jié)合平臺(tái)自身建立的終端設(shè)備信息,將具有版式信息的XML文檔庫在服務(wù)器上進(jìn)行 自適應(yīng)重組并發(fā)送給終端設(shè)備上。
[0029] 平臺(tái)建立的結(jié)構(gòu)良好的XML文檔庫屬于中間過渡文檔庫,保存初步解析的PDF文 檔,主要保存TOF內(nèi)容及其對(duì)應(yīng)的坐標(biāo)信息等。
[0030] 具有版式信息的XML文檔庫則保存了 PDF具體的版式信息和用戶自定義的語義信 息,可以用于具體的語義查詢。也是作為數(shù)字內(nèi)容跨終端出版的重要信息依據(jù)。
[0031] 終端設(shè)備庫則記錄了終端設(shè)備信息,包括屏幕大小、型號(hào)等,作為自適應(yīng)重組的主 要依據(jù)。
[0032] 圖2是實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版方法實(shí)施方框圖。
[0033] 從功能模塊上劃分,用于實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版系統(tǒng)由PDF處理子系統(tǒng),PDF版 面分析與信息抽取子系統(tǒng),跨終端自適應(yīng)重組子系統(tǒng),日志管理子系統(tǒng)構(gòu)成。
[0034] PDF處理子系統(tǒng)經(jīng)過系統(tǒng)控制器,將PDF文檔轉(zhuǎn)化處理進(jìn)入結(jié)構(gòu)良好的XML文檔 庫。
[0035] 系統(tǒng)控制由DTD文檔定義、PDF處理引擎。其中DTD文檔定義負(fù)責(zé)XML描述,根據(jù) 用戶的具體需求,提供XML描述的DTD文檔定義,PDF處理引擎則負(fù)責(zé)原始PDF文檔的解析, 對(duì)PDF文檔的內(nèi)容和結(jié)構(gòu)進(jìn)行描述。
[0036] PDF版面分析與信息抽取子系統(tǒng)包括PDF視圖、PDF版面分析、PDF信息抽取。TOF 視圖將PDF文檔轉(zhuǎn)化為用戶可以交互操作視圖模式,并將PDF文檔進(jìn)行簡(jiǎn)單的版面劃分; PDF版面分析提供用戶交互操作,根據(jù)用戶劃分TOF的版面結(jié)構(gòu)進(jìn)行標(biāo)引,并能夠自定義編 輯PDF版面;PDF信息抽取根據(jù)用戶標(biāo)引的版面結(jié)構(gòu),進(jìn)行PDF的信息抽取并生成具有版式 信息的XML文檔。
[0037] 終端自適應(yīng)重組子系統(tǒng),服務(wù)器根據(jù)用戶客戶端的終端設(shè)備信息,查詢?cè)O(shè)備庫的 終端設(shè)備信息,從XML文檔庫中取出相應(yīng)的文檔,在服務(wù)器上進(jìn)行自適應(yīng)重組,將文檔發(fā)送 到用戶的客戶端。
[0038] 日志管理子系統(tǒng)包括用戶行為日志數(shù)據(jù)庫和日志分析器。用戶行為日志數(shù)據(jù)庫記 錄用戶在整體系統(tǒng)中的行為操作。日志分析器則負(fù)責(zé)分析整體系統(tǒng)的用戶行為數(shù)據(jù)。
[0039] 圖3是實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版方法的流程圖。
[0040] PDF處理引擎開始初始化,用戶提交PDF文檔,開始進(jìn)行PDF文檔引擎的處理,對(duì) PDF文檔進(jìn)行內(nèi)容和結(jié)構(gòu)解析,將解析的結(jié)果保存到XML文檔庫,對(duì)PDF文檔進(jìn)行版面分析 額信息抽取,建立具有版式信息的XML文檔庫,如果有新的PDF轉(zhuǎn)化任務(wù)需要處理,則繼續(xù) 進(jìn)行PDF的轉(zhuǎn)化,獲取終端設(shè)備信息,查詢?cè)O(shè)備庫設(shè)備信息,在服務(wù)器上進(jìn)行自適應(yīng)重組, 最終實(shí)現(xiàn)終端出版。
【權(quán)利要求】
1. 一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng),其特征在于:包括PDF處理子系統(tǒng)、PDF版面 分析與信息抽取子系統(tǒng)、跨終端自適應(yīng)重組子系統(tǒng)、日志管理子系統(tǒng)、以及具有版式信息的 XML文檔庫,其中: 所述的PDF處理子系統(tǒng)從用戶獲得PDF文檔,然后根據(jù)TOF固有的物理結(jié)構(gòu)和邏輯結(jié) 構(gòu),經(jīng)過PDF處理子系統(tǒng)自帶的PDF處理引擎將TOF內(nèi)容流輸出,形成結(jié)構(gòu)良好的XML文 檔; 所述的PDF版面分析與信息抽取子系統(tǒng),對(duì)結(jié)構(gòu)良好的XML文檔進(jìn)行進(jìn)一步的處理,分 析TOF的版面信息,將抽取規(guī)則中的語義項(xiàng)與數(shù)據(jù)項(xiàng)特征的映射關(guān)系轉(zhuǎn)換為語義項(xiàng)與數(shù)據(jù) 項(xiàng)的映射關(guān)系,利用PDF源碼中的版式數(shù)據(jù)中存在的版式信息,輔以語義分析,提取版式數(shù) 據(jù)的邏輯結(jié)構(gòu),將無序、無結(jié)構(gòu)的數(shù)據(jù)組織成有序、有機(jī)構(gòu)的數(shù)據(jù),從而提取必要的文字和 版式信息,自動(dòng)判定排版方向、合并正文塊,自動(dòng)還原正文閱讀順序,自動(dòng)關(guān)聯(lián)文章標(biāo)題和 正文,并進(jìn)行附圖與圖說、文章與附圖之間的自動(dòng)關(guān)聯(lián),自動(dòng)進(jìn)行版心定位、頁眉頁腳和頁 碼處理; 所述的跨終端自適應(yīng)重組子系統(tǒng),由服務(wù)器端根據(jù)客戶端的請(qǐng)求生成合適閱讀終端的 頁面,下載到移動(dòng)閱讀終端并在終端上進(jìn)行顯示,服務(wù)器端負(fù)責(zé)數(shù)字內(nèi)容的繪制工作,對(duì) 于PC或者具有較大屏幕的移動(dòng)閱讀終端,服務(wù)器端生成原始版面終端,供終端客戶端或者 通用瀏覽器實(shí)現(xiàn)下載閱讀,對(duì)于小屏幕的移動(dòng)閱讀終端,服務(wù)器端會(huì)根據(jù)移動(dòng)閱讀終端的 具體的設(shè)備信息,將存儲(chǔ)的流式和結(jié)構(gòu)化數(shù)據(jù)的XML文檔快速重新繪制成客戶端頁面; 所述的日志管理子系統(tǒng)包括日志分析器和用戶行為日志數(shù)據(jù)庫,通過檢索器建立用戶 接口,方便用戶查詢檢索信息,將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中,作為日志分析 器的依據(jù),日志管理子系統(tǒng)記錄用戶在各個(gè)子系統(tǒng)中的行為情況,并且將日志情況匯集到 日志管理子系統(tǒng)中,用于數(shù)據(jù)的查詢和分析。
2. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:跨終端 自適應(yīng)重組子系統(tǒng)的自適應(yīng)過程如下: 將XML文檔進(jìn)行格式化處理:分析如何利用工具將XML文檔轉(zhuǎn)化為XML樹; 終端設(shè)備信息的獲?。悍治鋈绾潍@取終端設(shè)備的信息以及提取終端設(shè)備信息,并為終 端建立數(shù)據(jù)庫,記錄終端設(shè)備信息參數(shù); 圖片資源的下載和適配:分析如何將從roF中抽取得到的圖片進(jìn)行處理,并利用終端 設(shè)備信息庫對(duì)圖片進(jìn)行相應(yīng)的格式轉(zhuǎn)換和大小自適應(yīng)改變; 文本資源的適配:分析如何利用建立的終端設(shè)備信息庫對(duì)文本設(shè)置進(jìn)行自適應(yīng)重組, 并添加新的版式風(fēng)格。
3. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的 具有版式信息的XML文檔庫包括數(shù)據(jù)庫、文本庫、圖片庫、版式信息庫,其中版式信息庫是 經(jīng)過標(biāo)引形成的PDF版式信息庫。
4. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的 PDF引擎,可以解析不同版本的PDF文檔,可以對(duì)PDF文檔進(jìn)行內(nèi)容提取和結(jié)構(gòu)分析。
5. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的 PDF版面分析與信息抽取,提供用戶PDF編輯視圖,提供自定義語義標(biāo)引操作,能夠滿足用 戶自主進(jìn)行版面分析操作和信息抽取,形成具有語義、版式、文本、圖片等PDF文檔信息庫。
6. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的 終端自適應(yīng)重組,能夠根據(jù)終端設(shè)備的具體設(shè)備信息,進(jìn)行終端自適應(yīng)重組算法處理,將具 有版式信息的XML文檔進(jìn)行自適應(yīng)重組,完成跨終端的數(shù)字內(nèi)容出版。
7. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法,其特征在于:所述的 日志管理,能夠采集用戶在系統(tǒng)中操作過程中的行為操作,且能夠根據(jù)日志分析器分析用 戶行為操作。
【文檔編號(hào)】G06F17/21GK104090920SQ201410270214
【公開日】2014年10月8日 申請(qǐng)日期:2014年6月17日 優(yōu)先權(quán)日:2014年6月17日
【發(fā)明者】吳雷, 阮懷偉, 昌磊, 虞勇勇 申請(qǐng)人:安徽教育網(wǎng)絡(luò)出版有限公司