技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種版式文檔中腳注識(shí)別方法及腳注與腳注引用關(guān)聯(lián)方法。本方法為:1)從版式文檔中抽取底層信息;2)根據(jù)底層信息從該版式文檔中識(shí)別出候選腳注區(qū)域;3)將識(shí)別出的每一候選腳注區(qū)域構(gòu)造一特征向量,然后對(duì)特征向量進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果確定一目標(biāo)特征向量,計(jì)算其與每一候選腳注區(qū)域的特征向量之間的相似度,剔除相似度小于設(shè)定閾值的候選腳注區(qū)域;4)對(duì)經(jīng)步驟3)篩選后得到的候選腳注區(qū)域中的腳注條目進(jìn)行分割;5)將分割后得到的腳注條目的序號(hào)與該版式文檔的正文中的腳注序號(hào)進(jìn)行匹配,如果序號(hào)對(duì)應(yīng)則將該腳注條目與對(duì)應(yīng)腳注序號(hào)建立關(guān)聯(lián)。不依賴于特定的特征與規(guī)則,在識(shí)別不同樣式腳注時(shí),具有更高的正確率和召回率。
技術(shù)研發(fā)人員:高良才;黎斯達(dá);湯幟
受保護(hù)的技術(shù)使用者:北京大學(xué)
文檔號(hào)碼:201510342271
技術(shù)研發(fā)日:2015.06.18
技術(shù)公布日:2017.01.11