一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)的制作方法

文檔序號(hào)：6549899閱讀：149來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)。包括PDF處理子系統(tǒng)，PDF版面分析與信息抽取子系統(tǒng)，跨終端自適應(yīng)重組子系統(tǒng)。PDF處理子系統(tǒng)主要任務(wù)就是接受用戶提交的PDF文檔，經(jīng)過PDF處理引擎，輸出結(jié)構(gòu)良好的XML文檔。PDF版面分析與信息抽取子系統(tǒng)接受結(jié)構(gòu)良好的XML文檔，根據(jù)用戶界面分析得到的版面分析和信息抽取得到的結(jié)果輸出具有自描述性的XML文檔，即具有語義信息的XML文檔。實(shí)際上是把抽取規(guī)則中的語義項(xiàng)與數(shù)據(jù)項(xiàng)特征的映射關(guān)系轉(zhuǎn)換為語義項(xiàng)與數(shù)據(jù)項(xiàng)的映射關(guān)系。跨終端自適應(yīng)重組子系統(tǒng)則是實(shí)現(xiàn)不同終端的設(shè)備特點(diǎn)，實(shí)現(xiàn)數(shù)字內(nèi)容在不同終端的展現(xiàn)。本發(fā)明可以實(shí)現(xiàn)不同終端的自適應(yīng)的數(shù)字內(nèi)容出版。
【專利說明】一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)和人工智能應(yīng)用領(lǐng)域，具體是一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)。

【背景技術(shù)】
[0002] 國內(nèi)外學(xué)者對(duì)數(shù)字內(nèi)容跨終端出版的研究做了大量有價(jià)值的工作。比如，亞馬遜 Kindle閱讀器的專有格式，提供一種可以識(shí)別原生TOF，使用E-ink技術(shù)，使閱讀如同紙張一般，且通過與出版集團(tuán)的合作提供教科書。微軟等IT公司于出版商、出版物經(jīng)銷商等聯(lián) 合主導(dǎo)研發(fā)的開放格式Epub，該格式的國際影響力不斷加強(qiáng)，且漸漸成為國際電子書格式的通用標(biāo)準(zhǔn)。國內(nèi)方面，方正主導(dǎo)的面向移動(dòng)終端研發(fā)的XEB電子書格式體系成為國內(nèi)該領(lǐng)域的事實(shí)標(biāo)準(zhǔn)，并推出了一種獨(dú)立于軟件、硬件、操作系統(tǒng)、打印設(shè)備的CEBX文檔格式規(guī) 范，其能夠保留原文件的字符、字體、版式和色彩等重要信息。
[0003] 跨終端出版，需要出版者同時(shí)將傳輸相同內(nèi)容到不同媒體上以滿足受眾的不同需求的過程。即需要將傳統(tǒng)的出版內(nèi)容進(jìn)行知識(shí)化、碎片化，根據(jù)終端的不同需求進(jìn)行內(nèi)容的自適應(yīng)重組，以實(shí)現(xiàn)一次創(chuàng)建、多次出版的需要。但是國內(nèi)外跨終端數(shù)字出版的研究，所建立的終端電子書格式都具有自身的知識(shí)產(chǎn)權(quán)，不愿意對(duì)外公開自己的格式標(biāo)準(zhǔn)。而開放格式Epub雖然具有版面結(jié)構(gòu)信息和文檔邏輯語義信息，對(duì)閱讀呈現(xiàn)效果的規(guī)范性存在不足，而且由于傳統(tǒng)的出版物版式制作主要為了印刷，較少考慮數(shù)字出版，因此有傳統(tǒng)的排版技術(shù)轉(zhuǎn)化成Epub存在著很多困難，特別是版面中數(shù)學(xué)公式、表格、圖形等復(fù)雜對(duì)象，在移動(dòng)終端上無法高質(zhì)量地呈現(xiàn)。

【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)，以解決現(xiàn) 有技術(shù)存在的問題。
[0005] 為了達(dá)到上述目的，本發(fā)明所采用的技術(shù)方案為：一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)，其特征在于：包括PDF處理子系統(tǒng)、PDF版面分析與信息抽取子系統(tǒng)、跨終端自適應(yīng)重組子系統(tǒng)、日志管理子系統(tǒng)、以及具有版式信息的 XML文檔庫，其中：所述的PDF處理子系統(tǒng)從用戶獲得PDF文檔，然后根據(jù)TOF固有的物理結(jié)構(gòu)和邏輯結(jié) 構(gòu)，經(jīng)過PDF處理子系統(tǒng)自帶的PDF處理引擎將TOF內(nèi)容流輸出，形成結(jié)構(gòu)良好的XML文檔；所述的PDF版面分析與信息抽取子系統(tǒng)，對(duì)結(jié)構(gòu)良好的XML文檔進(jìn)行進(jìn)一步的處理，分析TOF的版面信息，將抽取規(guī)則中的語義項(xiàng)與數(shù)據(jù)項(xiàng)特征的映射關(guān)系轉(zhuǎn)換為語義項(xiàng)與數(shù)據(jù) 項(xiàng)的映射關(guān)系，利用PDF源碼中的版式數(shù)據(jù)中存在的版式信息，輔以語義分析，提取版式數(shù) 據(jù)的邏輯結(jié)構(gòu)，將無序、無結(jié)構(gòu)的數(shù)據(jù)組織成有序、有機(jī)構(gòu)的數(shù)據(jù)，從而提取必要的文字和版式信息，自動(dòng)判定排版方向、合并正文塊，自動(dòng)還原正文閱讀順序，自動(dòng)關(guān)聯(lián)文章標(biāo)題和正文，并進(jìn)行附圖與圖說、文章與附圖之間的自動(dòng)關(guān)聯(lián)，自動(dòng)進(jìn)行版心定位、頁眉頁腳和頁碼處理；所述的跨終端自適應(yīng)重組子系統(tǒng)，由服務(wù)器端根據(jù)客戶端的請(qǐng)求生成合適閱讀終端的頁面，下載到移動(dòng)閱讀終端并在終端上進(jìn)行顯示，服務(wù)器端負(fù)責(zé)數(shù)字內(nèi)容的繪制工作，對(duì) 于PC或者具有較大屏幕的移動(dòng)閱讀終端，服務(wù)器端生成原始版面終端，供終端客戶端或者通用瀏覽器實(shí)現(xiàn)下載閱讀，對(duì)于小屏幕的移動(dòng)閱讀終端，服務(wù)器端會(huì)根據(jù)移動(dòng)閱讀終端的具體的設(shè)備信息，將存儲(chǔ)的流式和結(jié)構(gòu)化數(shù)據(jù)的XML文檔快速重新繪制成客戶端頁面；所述的日志管理子系統(tǒng)包括日志分析器和用戶行為日志數(shù)據(jù)庫，通過檢索器建立用戶接口，方便用戶查詢檢索信息，將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中，作為日志分析器的依據(jù)，日志管理子系統(tǒng)記錄用戶在各個(gè)子系統(tǒng)中的行為情況，并且將日志情況匯集到日志管理子系統(tǒng)中，用于數(shù)據(jù)的查詢和分析。
[0006] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：跨終端自適應(yīng)重組子系統(tǒng)的自適應(yīng)過程如下：將XML文檔進(jìn)行格式化處理：分析如何利用工具將XML文檔轉(zhuǎn)化為XML樹；終端設(shè)備信息的獲取：分析如何獲取終端設(shè)備的信息以及提取終端設(shè)備信息，并為終端建立數(shù)據(jù)庫，記錄終端設(shè)備信息參數(shù)；圖片資源的下載和適配：分析如何將從roF中抽取得到的圖片進(jìn)行處理，并利用終端設(shè)備信息庫對(duì)圖片進(jìn)行相應(yīng)的格式轉(zhuǎn)換和大小自適應(yīng)改變；文本資源的適配：分析如何利用建立的終端設(shè)備信息庫對(duì)文本設(shè)置進(jìn)行自適應(yīng)重組，并添加新的版式風(fēng)格。
[0007] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的具有版式信息的XML文檔庫包括數(shù)據(jù)庫、文本庫、圖片庫、版式信息庫，其中版式信息庫是經(jīng)過標(biāo)引形成的PDF版式信息庫。
[0008] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的TOF引擎，可以解析不同版本的PDF文檔，可以對(duì)PDF文檔進(jìn)行內(nèi)容提取和結(jié)構(gòu)分析。
[0009] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的PDF版面分析與信息抽取，提供用戶PDF編輯視圖，提供自定義語義標(biāo)引操作，能夠滿足用戶自主進(jìn)行版面分析操作和信息抽取，形成具有語義、版式、文本、圖片等PDF文檔信息庫。
[0010] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的終端自適應(yīng)重組，能夠根據(jù)終端設(shè)備的具體設(shè)備信息，進(jìn)行終端自適應(yīng)重組算法處理，將具有版式信息的 XML文檔進(jìn)行自適應(yīng)重組，完成跨終端的數(shù)字內(nèi)容出版。
[0011] 所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的日志管理，能夠采集用戶在系統(tǒng)中操作過程中的行為操作，且能夠根據(jù)日志分析器分析用戶行為操作。
[0012] 本發(fā)明的有益效果是：現(xiàn)有技術(shù)中的對(duì)PDF轉(zhuǎn)化為XML的描述，無法做到對(duì)PDF內(nèi)容和版式的完全解析，無法對(duì)PDF頁面信息準(zhǔn)確的附加語義，無法根據(jù)用戶自主標(biāo)引PDF頁面語義。而在跨終端自適應(yīng)方面，也僅僅局限于將版式的出版文檔轉(zhuǎn)化為流式文檔，沒有添加相應(yīng)版式信息，無法滿足跨終端出版的多樣化需求。
[0013] 本發(fā)明方法中：用戶通過用戶接口，利用PDF處理引擎將PDF文檔轉(zhuǎn)化為結(jié)構(gòu)良好的XML文檔，同時(shí)將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中，作為日志分析器的依據(jù)。轉(zhuǎn) 化成結(jié)構(gòu)良好的XML文檔經(jīng)過PDF版面分析與信息抽取引擎，以PDF視圖的形式呈現(xiàn)在用戶的客戶端，根據(jù)用戶自定義的語義描述轉(zhuǎn)化為具有語義信息的XML文檔，并存入數(shù)字內(nèi) 容管理的XML庫，并建立具有版式信息的XML文檔庫。XML文檔庫記錄了版式數(shù)據(jù)中存在的版式信息，包括：位置、字體、字號(hào)、顏色、輔助信息、版式風(fēng)格等。終端使用者通過終端設(shè)備可以通過網(wǎng)絡(luò)訪問具有版式信息的XML文檔庫，并由服務(wù)器根據(jù)終端設(shè)備信息，查詢?cè)O(shè)備庫信息，將具有版式信息的XML文檔進(jìn)行終端自適應(yīng)重組，重新加上版式渲染，顯示在終端設(shè)備上。
[0014] 本發(fā)明對(duì)出版社進(jìn)行數(shù)字化內(nèi)容跨終端的出版將有更加迫切的需求。目前國內(nèi)數(shù) 字內(nèi)容跨終端出版還處于技術(shù)突破的前沿，因此實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法為我國蓬勃發(fā)展的數(shù)字出版、語義出版提供跨終端的個(gè)性化服務(wù)。有效的緩解數(shù)字出版過程的關(guān)鍵技術(shù)問題，對(duì)促進(jìn)數(shù)字內(nèi)容的跨終端出版起著關(guān)鍵作用。同時(shí)，改方法對(duì)建立其它格式的跨終端出版具有指導(dǎo)性意義。

【專利附圖】

【附圖說明】
[0015] 圖1本發(fā)明的數(shù)字內(nèi)容跨終端出版平臺(tái)示意圖。
[0016] 圖2實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版方法實(shí)施方框圖。
[0017] 圖3實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版方法的流程圖。

【具體實(shí)施方式】
[0018] 一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)，其特征在于：包括PDF處理子系統(tǒng)、PDF版面分析與信息抽取子系統(tǒng)、跨終端自適應(yīng)重組子系統(tǒng)、日志管理子系統(tǒng)、以及具有版式信息的XML文檔庫，其中：所述的PDF處理子系統(tǒng)從用戶獲得PDF文檔，然后根據(jù)TOF固有的物理結(jié)構(gòu)和邏輯結(jié) 構(gòu)，經(jīng)過PDF處理子系統(tǒng)自帶的PDF處理引擎將TOF內(nèi)容流輸出，形成結(jié)構(gòu)良好的XML文檔；所述的PDF版面分析與信息抽取子系統(tǒng)，對(duì)結(jié)構(gòu)良好的XML文檔進(jìn)行進(jìn)一步的處理，分析TOF的版面信息，將抽取規(guī)則中的語義項(xiàng)與數(shù)據(jù)項(xiàng)特征的映射關(guān)系轉(zhuǎn)換為語義項(xiàng)與數(shù)據(jù) 項(xiàng)的映射關(guān)系，利用PDF源碼中的版式數(shù)據(jù)中存在的版式信息，輔以語義分析，提取版式數(shù) 據(jù)的邏輯結(jié)構(gòu)，將無序、無結(jié)構(gòu)的數(shù)據(jù)組織成有序、有機(jī)構(gòu)的數(shù)據(jù)，從而提取必要的文字和版式信息，自動(dòng)判定排版方向、合并正文塊，自動(dòng)還原正文閱讀順序，自動(dòng)關(guān)聯(lián)文章標(biāo)題和正文，并進(jìn)行附圖與圖說、文章與附圖之間的自動(dòng)關(guān)聯(lián)，自動(dòng)進(jìn)行版心定位、頁眉頁腳和頁碼處理；所述的跨終端自適應(yīng)重組子系統(tǒng)，由服務(wù)器端根據(jù)客戶端的請(qǐng)求生成合適閱讀終端的頁面，下載到移動(dòng)閱讀終端并在終端上進(jìn)行顯示，服務(wù)器端負(fù)責(zé)數(shù)字內(nèi)容的繪制工作，對(duì) 于PC或者具有較大屏幕的移動(dòng)閱讀終端，服務(wù)器端生成原始版面終端，供終端客戶端或者通用瀏覽器實(shí)現(xiàn)下載閱讀，對(duì)于小屏幕的移動(dòng)閱讀終端，服務(wù)器端會(huì)根據(jù)移動(dòng)閱讀終端的具體的設(shè)備信息，將存儲(chǔ)的流式和結(jié)構(gòu)化數(shù)據(jù)的XML文檔快速重新繪制成客戶端頁面；所述的日志管理子系統(tǒng)包括日志分析器和用戶行為日志數(shù)據(jù)庫，通過檢索器建立用戶接口，方便用戶查詢檢索信息，將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中，作為日志分析器的依據(jù)，日志管理子系統(tǒng)記錄用戶在各個(gè)子系統(tǒng)中的行為情況，并且將日志情況匯集到日志管理子系統(tǒng)中，用于數(shù)據(jù)的查詢和分析。
[0019] 跨終端自適應(yīng)重組子系統(tǒng)的自適應(yīng)過程如下：將XML文檔進(jìn)行格式化處理：分析如何利用工具將XML文檔轉(zhuǎn)化為XML樹；終端設(shè)備信息的獲取：分析如何獲取終端設(shè)備的信息以及提取終端設(shè)備信息，并為終端建立數(shù)據(jù)庫，記錄終端設(shè)備信息參數(shù)；圖片資源的下載和適配：分析如何將從TOF中抽取得到的圖片進(jìn)行處理，并利用終端設(shè)備信息庫對(duì)圖片進(jìn)行相應(yīng)的格式轉(zhuǎn)換和大小自適應(yīng)改變；文本資源的適配：分析如何利用建立的終端設(shè)備信息庫對(duì)文本設(shè)置進(jìn)行自適應(yīng)重組，并添加新的版式風(fēng)格。
[0020] 具有版式信息的XML文檔庫包括數(shù)據(jù)庫、文本庫、圖片庫、版式信息庫，其中版式信息庫是經(jīng)過標(biāo)引形成的PDF版式信息庫。
[0021] PDF引擎，可以解析不同版本的PDF文檔，可以對(duì)PDF文檔進(jìn)行內(nèi)容提取和結(jié)構(gòu)分析。
[0022] PDF版面分析與信息抽取，提供用戶PDF編輯視圖，提供自定義語義標(biāo)引操作，能夠滿足用戶自主進(jìn)行版面分析操作和信息抽取，形成具有語義、版式、文本、圖片等PDF文檔信息庫。
[0023] 終端自適應(yīng)重組，能夠根據(jù)終端設(shè)備的具體設(shè)備信息，進(jìn)行終端自適應(yīng)重組算法處理，將具有版式信息的XML文檔進(jìn)行自適應(yīng)重組，完成跨終端的數(shù)字內(nèi)容出版。
[0024] 日志管理，能夠采集用戶在系統(tǒng)中操作過程中的行為操作，且能夠根據(jù)日志分析器分析用戶行為操作。
[0025] 圖1是本發(fā)明的數(shù)字內(nèi)容跨終端出版平臺(tái)示意圖。在圖1中： PDF處理模塊，PDF版面分析與信息抽取模塊，跨終端自適應(yīng)重組模塊作為平臺(tái)的三個(gè) 重要的主體模塊。
[0026] PDF處理模塊，負(fù)責(zé)接收用戶提交的PDF文檔，根據(jù)PDF處理引擎，將PDF內(nèi)容解析并生成結(jié)構(gòu)良好的XML文檔。
[0027] PDF版面分析與信息抽取模塊，對(duì)結(jié)構(gòu)良好的XML文檔進(jìn)行處理，并根據(jù)PDF版式和用戶版面分析的結(jié)果形成具有版式信息的XML文檔。
[0028] 跨終端自適應(yīng)重組模塊，則是跨終端出版的具體實(shí)現(xiàn)模塊，根據(jù)終端設(shè)備的設(shè)備信息，結(jié)合平臺(tái)自身建立的終端設(shè)備信息，將具有版式信息的XML文檔庫在服務(wù)器上進(jìn)行自適應(yīng)重組并發(fā)送給終端設(shè)備上。
[0029] 平臺(tái)建立的結(jié)構(gòu)良好的XML文檔庫屬于中間過渡文檔庫，保存初步解析的PDF文檔，主要保存TOF內(nèi)容及其對(duì)應(yīng)的坐標(biāo)信息等。
[0030] 具有版式信息的XML文檔庫則保存了 PDF具體的版式信息和用戶自定義的語義信息，可以用于具體的語義查詢。也是作為數(shù)字內(nèi)容跨終端出版的重要信息依據(jù)。
[0031] 終端設(shè)備庫則記錄了終端設(shè)備信息，包括屏幕大小、型號(hào)等，作為自適應(yīng)重組的主要依據(jù)。
[0032] 圖2是實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版方法實(shí)施方框圖。
[0033] 從功能模塊上劃分，用于實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版系統(tǒng)由PDF處理子系統(tǒng)，PDF版面分析與信息抽取子系統(tǒng)，跨終端自適應(yīng)重組子系統(tǒng)，日志管理子系統(tǒng)構(gòu)成。
[0034] PDF處理子系統(tǒng)經(jīng)過系統(tǒng)控制器，將PDF文檔轉(zhuǎn)化處理進(jìn)入結(jié)構(gòu)良好的XML文檔庫。
[0035] 系統(tǒng)控制由DTD文檔定義、PDF處理引擎。其中DTD文檔定義負(fù)責(zé)XML描述，根據(jù) 用戶的具體需求，提供XML描述的DTD文檔定義，PDF處理引擎則負(fù)責(zé)原始PDF文檔的解析，對(duì)PDF文檔的內(nèi)容和結(jié)構(gòu)進(jìn)行描述。
[0036] PDF版面分析與信息抽取子系統(tǒng)包括PDF視圖、PDF版面分析、PDF信息抽取。TOF 視圖將PDF文檔轉(zhuǎn)化為用戶可以交互操作視圖模式，并將PDF文檔進(jìn)行簡(jiǎn)單的版面劃分； PDF版面分析提供用戶交互操作，根據(jù)用戶劃分TOF的版面結(jié)構(gòu)進(jìn)行標(biāo)引，并能夠自定義編輯PDF版面；PDF信息抽取根據(jù)用戶標(biāo)引的版面結(jié)構(gòu)，進(jìn)行PDF的信息抽取并生成具有版式信息的XML文檔。
[0037] 終端自適應(yīng)重組子系統(tǒng)，服務(wù)器根據(jù)用戶客戶端的終端設(shè)備信息，查詢?cè)O(shè)備庫的終端設(shè)備信息，從XML文檔庫中取出相應(yīng)的文檔，在服務(wù)器上進(jìn)行自適應(yīng)重組，將文檔發(fā)送到用戶的客戶端。
[0038] 日志管理子系統(tǒng)包括用戶行為日志數(shù)據(jù)庫和日志分析器。用戶行為日志數(shù)據(jù)庫記錄用戶在整體系統(tǒng)中的行為操作。日志分析器則負(fù)責(zé)分析整體系統(tǒng)的用戶行為數(shù)據(jù)。
[0039] 圖3是實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版方法的流程圖。
[0040] PDF處理引擎開始初始化，用戶提交PDF文檔，開始進(jìn)行PDF文檔引擎的處理，對(duì) PDF文檔進(jìn)行內(nèi)容和結(jié)構(gòu)解析，將解析的結(jié)果保存到XML文檔庫，對(duì)PDF文檔進(jìn)行版面分析額信息抽取，建立具有版式信息的XML文檔庫，如果有新的PDF轉(zhuǎn)化任務(wù)需要處理，則繼續(xù) 進(jìn)行PDF的轉(zhuǎn)化，獲取終端設(shè)備信息，查詢?cè)O(shè)備庫設(shè)備信息，在服務(wù)器上進(jìn)行自適應(yīng)重組，最終實(shí)現(xiàn)終端出版。
【權(quán)利要求】
1. 一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)，其特征在于：包括PDF處理子系統(tǒng)、PDF版面分析與信息抽取子系統(tǒng)、跨終端自適應(yīng)重組子系統(tǒng)、日志管理子系統(tǒng)、以及具有版式信息的 XML文檔庫，其中：所述的PDF處理子系統(tǒng)從用戶獲得PDF文檔，然后根據(jù)TOF固有的物理結(jié)構(gòu)和邏輯結(jié) 構(gòu)，經(jīng)過PDF處理子系統(tǒng)自帶的PDF處理引擎將TOF內(nèi)容流輸出，形成結(jié)構(gòu)良好的XML文檔；所述的PDF版面分析與信息抽取子系統(tǒng)，對(duì)結(jié)構(gòu)良好的XML文檔進(jìn)行進(jìn)一步的處理，分析TOF的版面信息，將抽取規(guī)則中的語義項(xiàng)與數(shù)據(jù)項(xiàng)特征的映射關(guān)系轉(zhuǎn)換為語義項(xiàng)與數(shù)據(jù) 項(xiàng)的映射關(guān)系，利用PDF源碼中的版式數(shù)據(jù)中存在的版式信息，輔以語義分析，提取版式數(shù) 據(jù)的邏輯結(jié)構(gòu)，將無序、無結(jié)構(gòu)的數(shù)據(jù)組織成有序、有機(jī)構(gòu)的數(shù)據(jù)，從而提取必要的文字和版式信息，自動(dòng)判定排版方向、合并正文塊，自動(dòng)還原正文閱讀順序，自動(dòng)關(guān)聯(lián)文章標(biāo)題和正文，并進(jìn)行附圖與圖說、文章與附圖之間的自動(dòng)關(guān)聯(lián)，自動(dòng)進(jìn)行版心定位、頁眉頁腳和頁碼處理；所述的跨終端自適應(yīng)重組子系統(tǒng)，由服務(wù)器端根據(jù)客戶端的請(qǐng)求生成合適閱讀終端的頁面，下載到移動(dòng)閱讀終端并在終端上進(jìn)行顯示，服務(wù)器端負(fù)責(zé)數(shù)字內(nèi)容的繪制工作，對(duì) 于PC或者具有較大屏幕的移動(dòng)閱讀終端，服務(wù)器端生成原始版面終端，供終端客戶端或者通用瀏覽器實(shí)現(xiàn)下載閱讀，對(duì)于小屏幕的移動(dòng)閱讀終端，服務(wù)器端會(huì)根據(jù)移動(dòng)閱讀終端的具體的設(shè)備信息，將存儲(chǔ)的流式和結(jié)構(gòu)化數(shù)據(jù)的XML文檔快速重新繪制成客戶端頁面；所述的日志管理子系統(tǒng)包括日志分析器和用戶行為日志數(shù)據(jù)庫，通過檢索器建立用戶接口，方便用戶查詢檢索信息，將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中，作為日志分析器的依據(jù)，日志管理子系統(tǒng)記錄用戶在各個(gè)子系統(tǒng)中的行為情況，并且將日志情況匯集到日志管理子系統(tǒng)中，用于數(shù)據(jù)的查詢和分析。
2. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：跨終端自適應(yīng)重組子系統(tǒng)的自適應(yīng)過程如下：將XML文檔進(jìn)行格式化處理：分析如何利用工具將XML文檔轉(zhuǎn)化為XML樹；終端設(shè)備信息的獲?。悍治鋈绾潍@取終端設(shè)備的信息以及提取終端設(shè)備信息，并為終端建立數(shù)據(jù)庫，記錄終端設(shè)備信息參數(shù)；圖片資源的下載和適配：分析如何將從roF中抽取得到的圖片進(jìn)行處理，并利用終端設(shè)備信息庫對(duì)圖片進(jìn)行相應(yīng)的格式轉(zhuǎn)換和大小自適應(yīng)改變；文本資源的適配：分析如何利用建立的終端設(shè)備信息庫對(duì)文本設(shè)置進(jìn)行自適應(yīng)重組，并添加新的版式風(fēng)格。
3. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的具有版式信息的XML文檔庫包括數(shù)據(jù)庫、文本庫、圖片庫、版式信息庫，其中版式信息庫是經(jīng)過標(biāo)引形成的PDF版式信息庫。
4. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的 PDF引擎，可以解析不同版本的PDF文檔，可以對(duì)PDF文檔進(jìn)行內(nèi)容提取和結(jié)構(gòu)分析。
5. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的 PDF版面分析與信息抽取，提供用戶PDF編輯視圖，提供自定義語義標(biāo)引操作，能夠滿足用戶自主進(jìn)行版面分析操作和信息抽取，形成具有語義、版式、文本、圖片等PDF文檔信息庫。
6. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的終端自適應(yīng)重組，能夠根據(jù)終端設(shè)備的具體設(shè)備信息，進(jìn)行終端自適應(yīng)重組算法處理，將具有版式信息的XML文檔進(jìn)行自適應(yīng)重組，完成跨終端的數(shù)字內(nèi)容出版。
7. 根據(jù)權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的方法，其特征在于：所述的日志管理，能夠采集用戶在系統(tǒng)中操作過程中的行為操作，且能夠根據(jù)日志分析器分析用戶行為操作。
【文檔編號(hào)】G06F17/21GK104090920SQ201410270214
【公開日】2014年10月8日申請(qǐng)日期:2014年6月17日優(yōu)先權(quán)日:2014年6月17日
【發(fā)明者】吳雷, 阮懷偉, 昌磊, 虞勇勇申請(qǐng)人:安徽教育網(wǎng)絡(luò)出版有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳雷;阮懷偉;昌磊;虞勇勇
技術(shù)所有人：安徽教育網(wǎng)絡(luò)出版有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)字終端相關(guān)技術(shù)

數(shù)字轉(zhuǎn)換ip終端相關(guān)技術(shù)

數(shù)字廣播終端相關(guān)技術(shù)

數(shù)字電視終端相關(guān)技術(shù)

數(shù)字集群終端相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實(shí)現(xiàn)數(shù)字內(nèi)容跨終端出版的系統(tǒng)的制作方法