專利名稱:古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標(biāo)識的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種古籍文檔檢索系統(tǒng)中檢索字/詞在古籍快照圖片上進行高亮標(biāo)識的方法。
背景技術(shù):
信息檢索系統(tǒng)能夠幫助用戶在海量信息中找到自己需要得有用信息。信息積累不僅體現(xiàn)在有不斷有新信息的加入,而且中國幾千年來積累的主要保存在紙質(zhì)上的信息也不斷被電子化。近幾年出現(xiàn)越來越多的對古代紙本知識的電子化信息。這些信息一部分由圖片掃描設(shè)備將古籍掃描,以圖片形式存儲于計算機中。通過對古籍電子化處理,既利于對古籍原本的保存,又利于廣大學(xué)者對其進行研究。近幾年,大部分古籍電子化系統(tǒng)通過OCR光學(xué)文字辨識或者人工對這些古籍進行整理,將其中文字錄入到計算機中,形成古籍文本文檔。對古籍文本文檔的錄入,方便了對古籍內(nèi)容的編輯,拷貝,傳輸。同時也實現(xiàn)了對這些古籍電子化文檔的全文檢索。這更進一步方便了古籍研究者對古籍文檔的查閱。
很多學(xué)者在使用含有古籍的數(shù)據(jù)庫時,常常需要查看其對應(yīng)的原始的古籍原始頁面的快照圖片。當(dāng)前的古籍?dāng)?shù)字化檢索系統(tǒng)往往通過用戶的查詢詞匹配到古籍快照的某一頁,然后將該頁古籍圖片返回給檢索用戶。此時用戶往往需要對圖片上的文檔逐字瀏覽,用來找到與自己檢索內(nèi)容相關(guān)的部分。由于古籍原始頁面快照中的內(nèi)容往往并不分段落,也不帶標(biāo)點,對今人而言不易閱讀,因此用戶在古籍頁面快照圖片上定位到與自己檢索內(nèi)容相關(guān)的位置時往往比較吃力。在文本檢索系統(tǒng)中,系統(tǒng)會在結(jié)果文本中對出現(xiàn)的用戶檢索詞進行高亮標(biāo)識,用以幫助用戶更快定位自己所關(guān)注的內(nèi)容。因此,在古籍圖片瀏覽時也急需一種類似的方法,使檢索系統(tǒng)能夠自動標(biāo)識出用戶檢索字/詞在古籍原始頁面快照圖片上與相關(guān)文字內(nèi)容匹配命中的區(qū)域。
發(fā)明內(nèi)容
鑒于上述分析,本發(fā)明的主要目的是提供一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標(biāo)識的方法。該方法通過捕捉與記錄古籍原始頁面快照圖片中每個文字字符的位置信息,按照一定順序使其與OCR光學(xué)辨識或者人工錄入文檔的每個錄入字符相對應(yīng)。在檢索時,首先對用戶的檢索字符串進行分詞處理,形成分詞結(jié)果字符串。接下來計算分詞結(jié)果字符串與檢索結(jié)果文檔中相匹配的每個字符的位置,形成匹配位置序列。將這些位置序列作為索引,得出其對應(yīng)的坐標(biāo)序列。在顯示快照圖片時,根據(jù)坐標(biāo)序列在快照圖片上進行高亮標(biāo)識,從而達(dá)到將查詢字符串在古籍快照圖片上進行高亮標(biāo)識的效果。
該方法的實現(xiàn)主要包括兩步第一步完成坐標(biāo)序列的生成;第二步完成查詢字符串在快照圖片上的高亮顯示。
坐標(biāo)序列生成的具體實現(xiàn)方法是A、根據(jù)快照圖片將其中內(nèi)容信息以文本形式錄入計算機。
B、以步驟A中字符錄入的順序獲取古籍快照圖片上每個字符的坐標(biāo)信息,將其存入計算機。
查詢字符串在快照圖片上的高亮顯示方法是A、將查詢字符串進行分詞處理,形成分詞結(jié)果字符串。分詞結(jié)果字符串為由詞(包括單個字的詞)組成的序列。
B、讀入要高亮顯示的快照圖片對應(yīng)的文本文檔。計算分詞結(jié)果字符串中的詞序列中每個詞在文本文檔中存在的位置。形成位置序列。
C、讀入要高亮顯示的快照圖片對應(yīng)的字符坐標(biāo)序列。根據(jù)B步形成的位置序列得到相應(yīng)位置字符在圖片上的坐標(biāo),形成命中坐標(biāo)序列。
D、根據(jù)C步形成的命中坐標(biāo)序列,在顯示圖片時,在圖片上相應(yīng)的坐標(biāo)進行標(biāo)識。
本發(fā)明的特點本發(fā)明通過坐標(biāo)標(biāo)識的方法,使得在古籍檢索系統(tǒng)中,實現(xiàn)對查詢字符串在古籍原始快照圖片中進行高亮標(biāo)識。大大提高了用戶在古籍圖片上查找自己關(guān)注內(nèi)容時的查找速度。
具體實施例方式
本發(fā)明的主要目的是提供一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標(biāo)識的方法。
具體的實施方法如下1、生成坐標(biāo)序列A、生成古籍文本記錄。一張古籍頁面快照圖片對應(yīng)一條記錄。古籍文本記錄的信息包括記錄編號、圖片位置、文本內(nèi)容以及與之對應(yīng)的坐標(biāo)信息序列。其中文本內(nèi)容為按照閱讀順序?qū)⒐偶煺丈厦娴奈谋咀址浫胗嬎銠C后形成的文本。其文本編碼采用Unicode編碼,并且含有四字節(jié)字符,以符合中國古代典籍使用漢字的具體情況。坐標(biāo)序列為文本內(nèi)容中每個字符在圖片中出現(xiàn)時的坐標(biāo)。每個字符的坐標(biāo)為覆蓋字符的最小矩形的坐標(biāo)。包括矩形左上頂點在圖片中的坐標(biāo),與右下頂點在圖片中的坐標(biāo)。該坐標(biāo)序列的順序要與文本內(nèi)容中的字符順序保持一致。
B、對古籍文本記錄建立倒排索引,其中索引字段為文本內(nèi)容。采用基于含有四字節(jié)字符的切詞方式對文本內(nèi)容建立索引。四字節(jié)切詞方式為將所有四字節(jié)字符單獨作為詞進行處理,其它二字節(jié)字符按照常規(guī)的中文切詞方法進行處理。
2、用戶查詢A、獲取用戶輸入的查詢字符串,并且對查詢字符串進行切詞處理。切詞的方式同樣采用基于四字節(jié)的切詞方式。切詞后形成查詢詞序列。
B、將步驟A形成的查詢詞序列在倒排索引表中進行檢索。將檢索的結(jié)果返回給用戶。
C、當(dāng)用戶選擇查看某條記錄的原始快照時,得到用戶選擇的記錄編號以及查詢字符串。根據(jù)記錄編號得到相應(yīng)的古籍頁面快照圖片以及內(nèi)容文本和坐標(biāo)序列,將用戶查詢詞序列和內(nèi)容文本進行匹配,計算查詢詞中每個字符在內(nèi)容文本中的位置。將這些字符位置的數(shù)值信息按照先后關(guān)系進行排列,形成位置序列,并以位置序列中的位置為索引,得到其相對應(yīng)的坐標(biāo)序列。重復(fù)的位置序列只記錄一次。
D、根據(jù)步驟C中形成的坐標(biāo)序列讀出其中每個字符矩形的坐標(biāo),并根據(jù)坐標(biāo)在步驟C中得到的快照圖片上進行標(biāo)識。標(biāo)識的方法可以但不限定為在圖片上對應(yīng)檢索字符串(詞或者字)的位置上畫出半透明的矩形框或者空心的矩形框。
E、將步驟D合成的帶有矩形標(biāo)識的古籍圖片返回給用戶。這樣用戶就可以迅速找到其所檢索的查詢條件在古籍原始頁面快照圖片中對應(yīng)的位置。
本發(fā)明的優(yōu)點與技術(shù)效果本發(fā)明很好的實現(xiàn)了古籍文檔檢索系統(tǒng)中檢索詞在古籍原始頁面快照圖片上進行高亮標(biāo)識。能夠使得用戶在古籍原始頁面快照圖片上快速定位到自己所關(guān)注的內(nèi)容出現(xiàn)的區(qū)域。
權(quán)利要求
1.一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標(biāo)識的方法,該方法將古籍快照圖片上的文本字符順序錄入計算機,并按照同樣的順序記錄快照圖片中每個文本字符的坐標(biāo)。
2.如在權(quán)利要求1所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標(biāo)識的方法,其特征在于將用戶提交的查詢字符串進行基于四字節(jié)字符的分詞處理,處理結(jié)果形成查詢詞(字)序列。
3.如在權(quán)利要求1,2所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標(biāo)識的方法,其特征在于計算查詢詞(字)序列中每個詞的字符在古籍快照圖片所對應(yīng)的文本文檔中出現(xiàn)的位置。根據(jù)該位置得到其對應(yīng)的字符在古籍快照圖片上出現(xiàn)的坐標(biāo)。由此得到查詢詞(字)序列中每個字符在古籍快照圖片上出現(xiàn)的坐標(biāo)。
4.如在權(quán)利要求1,2,3所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標(biāo)識的方法,其特征在于根據(jù)查詢詞(字)序列中每個字符在古籍快照圖片上出現(xiàn)的坐標(biāo),在圖片上對該字符進行高亮標(biāo)識別,將帶有高亮識別的古籍快照圖片返回給檢索用戶。
全文摘要
本發(fā)明公開了一種古籍文檔檢索系統(tǒng)中檢索詞在古籍原始頁面快照圖片上進行高亮標(biāo)識的方法。該方法首先記錄古籍快照圖片中每個字符的坐標(biāo)位置,然后將用戶提交的檢索字符串進行切詞處理,并且計算得到切詞處理后的詞序列中每個字符在古籍快照圖片所對應(yīng)的文本文檔中出現(xiàn)的位置信息,進而根據(jù)該位置信息得到每個字符在古籍快照圖片中的坐標(biāo),然后根據(jù)字符坐標(biāo)在古籍快照圖片的相應(yīng)位置進行高亮標(biāo)識,最后將標(biāo)識后的圖片返回給查詢用戶。通過這種方法,用戶可以根據(jù)古籍原始頁面快照圖片上的高亮標(biāo)識,很快定位到自己檢索內(nèi)容所在的位置。
文檔編號G06F17/30GK101093545SQ20061008687
公開日2007年12月26日 申請日期2006年6月22日 優(yōu)先權(quán)日2006年6月22日
發(fā)明者馮建康, 王宏源, 趙鋒 申請人:王宏源