技術(shù)總結(jié)
本發(fā)明公開了一種版式文檔正文碎片化的方法,包括:版面預(yù)處理;識別正文基本元素(表格、邏輯圖、公式和段落);提取正文閱讀順序;正文層次分析;正文后處理;輸出正文碎片化結(jié)果。本發(fā)明不僅給出了版式文檔正文碎片化方法的整體思路,還對正文碎片化過程中的關(guān)鍵環(huán)節(jié)給出了具體的解決方案。
技術(shù)研發(fā)人員:鄒季英;張鑌;袁仁慧;梁洵
受保護(hù)的技術(shù)使用者:同方知網(wǎng)(北京)技術(shù)有限公司
文檔號碼:201710085522
技術(shù)研發(fā)日:2017.02.17
技術(shù)公布日:2017.06.06