一種基于圖書(shū)知識(shí)元構(gòu)建數(shù)字圖書(shū)館的方法

文檔序號(hào)：6619234閱讀：294來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種基于圖書(shū)知識(shí)元構(gòu)建數(shù)字圖書(shū)館的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)領(lǐng)域，具體涉及一種基于知識(shí)元構(gòu)建數(shù)字圖書(shū)館的方法。
背景技術(shù)：
繼Google在2004年12月宣布其“圖書(shū)全文檢索項(xiàng)目(Google Books SearchProject)”之后，微軟于2005年11月4日宣布，已同英國(guó)圖書(shū)館簽訂了一項(xiàng)協(xié)議，將通過(guò)掃描把該館的10萬(wàn)本圖書(shū)數(shù)字化。亞馬遜也表示，2006年將使消費(fèi)者付費(fèi)購(gòu)買(mǎi)書(shū)籍在線閱讀權(quán)，一本價(jià)值20美元的書(shū)在網(wǎng)上的閱讀權(quán)可能只賣(mài)1.99美元左右。美國(guó)國(guó)會(huì)圖書(shū)館隨即宣布了被評(píng)論家稱(chēng)為“最具雄心的文明復(fù)興計(jì)劃”——組建規(guī)模最大的“世界數(shù)字圖書(shū)館”，旨在讓世界各地人民足不出戶(hù)，就可以近距離欣賞其他國(guó)家、民族的古老文明和精粹文化。
二十世紀(jì)九十年代以來(lái)，隨著因特網(wǎng)的迅猛發(fā)展，高新技術(shù)的日益普及，特別是知識(shí)經(jīng)濟(jì)的興起，網(wǎng)上信息的有序組織越來(lái)越引起世界各國(guó)的重視。為在新世紀(jì)掌握政治、經(jīng)濟(jì)主導(dǎo)權(quán)，各國(guó)紛紛提出發(fā)展經(jīng)濟(jì)的戰(zhàn)略措施。1993年美國(guó)制訂了“國(guó)家信息基礎(chǔ)結(jié)構(gòu)”(NII)行動(dòng)計(jì)劃，繼而提出了建設(shè)“全球信息基礎(chǔ)設(shè)施”(GII)的主張；1994年歐盟宣布在歐洲建立信息社會(huì)的計(jì)劃，確定了歐洲信息社會(huì)應(yīng)用領(lǐng)域；同年俄羅斯成立了俄聯(lián)邦信息政策委員會(huì)；1995年俄杜馬通過(guò)了《俄羅斯信息、信息化和信息保護(hù)法》；日本、加拿大、法、英、南非等許多國(guó)家也都以政府行為采取了相應(yīng)的對(duì)策和行動(dòng)。為在競(jìng)爭(zhēng)中處于領(lǐng)先地位，不少?lài)?guó)家和地區(qū)的圖書(shū)館在政府的大力支持下積極行動(dòng)起來(lái)，配合NII的建設(shè)開(kāi)展數(shù)字圖書(shū)館的研究和建設(shè)，并取得相當(dāng)成效。
我國(guó)于2000年底，國(guó)家發(fā)改委和教育部開(kāi)始支持浙江大學(xué)、北京大學(xué)等高校研究數(shù)字圖書(shū)館。2002年9月，教育部確定在第二期“211工程”中設(shè)立專(zhuān)項(xiàng)，支持浙江大學(xué)、北京大學(xué)、清華大學(xué)等16所重點(diǎn)大學(xué)及中科院研究生院等單位與美國(guó)CMU及美國(guó)自然科學(xué)基金會(huì)合作研究“高等學(xué)校中英文圖書(shū)數(shù)字化合作計(jì)劃”，即CADAL項(xiàng)目。四年來(lái)經(jīng)過(guò)數(shù)百位研究開(kāi)發(fā)人員的努力，CADAL項(xiàng)目已經(jīng)實(shí)現(xiàn)了一個(gè)集海量數(shù)據(jù)檢索、個(gè)性化服務(wù)、雙語(yǔ)翻譯、知識(shí)服務(wù)、中國(guó)書(shū)法庫(kù)檢索和多媒體資源檢索等技術(shù)為一體的，包含百萬(wàn)冊(cè)數(shù)字圖書(shū)的全球最大公益性數(shù)字圖書(shū)館，訪問(wèn)者遍布70余個(gè)國(guó)家和地區(qū)，目前月訪問(wèn)量已經(jīng)突破900萬(wàn)人次，項(xiàng)目一期獲得巨大影響和成功。該項(xiàng)目也是基于圖書(shū)掃描影像和OCR文字辨識(shí)技術(shù)實(shí)施的。
數(shù)字化不但使圖書(shū)得到數(shù)字保存、同時(shí)提供檢索和研究功能，從某種意義上講，它還使每一本書(shū)中的每一個(gè)詞都互相耦合、串聯(lián)、引用、摘錄、排序、注釋、混合、重組，并且被融會(huì)到比以往更深化的文化中成了現(xiàn)實(shí)。圖書(shū)一旦被數(shù)字化，就可以通過(guò)知識(shí)發(fā)掘、語(yǔ)義連接等技術(shù)使之從信息變?yōu)橹R(shí)源，并通過(guò)跨媒體技術(shù)與圖像、聲音、視頻打通，成為一個(gè)巨大的知識(shí)情報(bào)網(wǎng)絡(luò)，能對(duì)教育、科研、文化、經(jīng)濟(jì)的發(fā)展和自主創(chuàng)新產(chǎn)生強(qiáng)大的支撐與推動(dòng)作用。是國(guó)家知識(shí)創(chuàng)新的主要基礎(chǔ)設(shè)施，也是21世紀(jì)競(jìng)爭(zhēng)的新焦點(diǎn)之一。
目前，使用者普遍接受了字段檢索、引文鏈接、電子期刊文獻(xiàn)知識(shí)分類(lèi)等數(shù)字化圖書(shū)管理與瀏覽檢索方式。Google Books數(shù)據(jù)庫(kù)首次“擴(kuò)軍”就增添了來(lái)自密歇根大學(xué)、哈佛大學(xué)、斯坦福大學(xué)、紐約公共圖書(shū)館的10000多冊(cè)圖書(shū)。這些圖書(shū)均被逐頁(yè)掃描，用戶(hù)可以通過(guò)Google Books站點(diǎn)對(duì)這些圖書(shū)的文本內(nèi)容進(jìn)行搜索和閱讀，但是，用戶(hù)每次只能檢索和瀏覽一頁(yè)的內(nèi)容。除Google的圖書(shū)全文檢索項(xiàng)目外，包括史密森學(xué)會(huì)、惠普、雅虎、微軟的MSN在內(nèi)的合作伙伴聯(lián)合公布的一項(xiàng)對(duì)全世界上所有圖書(shū)進(jìn)行數(shù)字化處理并開(kāi)放的計(jì)劃，并通過(guò)此計(jì)劃成立了“開(kāi)放內(nèi)容聯(lián)盟(OCA)”。上述提到的數(shù)字圖書(shū)館(庫(kù))的實(shí)施方法大都是基于書(shū)頁(yè)掃描的方法，并將頁(yè)面內(nèi)的圖像文字利用OCR文字辨識(shí)技術(shù)進(jìn)行抽取，使用者在使用數(shù)字圖書(shū)館(庫(kù))的過(guò)程中均采取逐頁(yè)檢索和瀏覽的方式，提供下載則多為PDF可攜式文件格式整篇文章或者圖書(shū)。上述這種電子圖書(shū)的管理方式我們可以稱(chēng)其為“數(shù)字圖書(shū)館(庫(kù))圖書(shū)的逐頁(yè)管理方式”。
這種逐頁(yè)管理模式的最大優(yōu)點(diǎn)在于它可以憑借高速掃描設(shè)備和全自動(dòng)的OCR文字辨識(shí)工具快速構(gòu)建數(shù)字圖書(shū)館(庫(kù))。基于圖書(shū)每個(gè)頁(yè)面逐頁(yè)構(gòu)建的數(shù)字圖書(shū)館的圖書(shū)文本在建立索引的時(shí)候或許不用關(guān)心書(shū)本中每個(gè)章節(jié)、段落的內(nèi)容是什么，而僅僅依據(jù)在特定頁(yè)面內(nèi)的文字進(jìn)行檢索、管理、呈現(xiàn)。然而，圖書(shū)雖然主要以頁(yè)面為知識(shí)內(nèi)容的載體，但是其內(nèi)容一般卻是不取決于圖書(shū)頁(yè)面的。因此，這種對(duì)圖書(shū)中的內(nèi)容知識(shí)采取逐頁(yè)管理的方式顯然是存在問(wèn)題的，即它不關(guān)心存在于圖書(shū)中的特定的知識(shí)點(diǎn)，或稱(chēng)之為知識(shí)元，與特定頁(yè)面中的關(guān)系?；蛘哒f(shuō)圖書(shū)中的知識(shí)元是受制于圖書(shū)每個(gè)頁(yè)面的。雖然我們可以采取根據(jù)圖書(shū)特定頁(yè)面上下頁(yè)面翻頁(yè)的方法對(duì)上述缺陷進(jìn)行修補(bǔ)，但是如果圖書(shū)的上下頁(yè)面分割了某一個(gè)知識(shí)元或者一個(gè)頁(yè)面包括少于一個(gè)或者多于一個(gè)知識(shí)元的情況下，就會(huì)出現(xiàn)信息量冗余或者信息殘損兩個(gè)方面的問(wèn)題，從而給使用帶來(lái)不便，出現(xiàn)諸如檢索匹配關(guān)聯(lián)度降低，或者信息檢索不到的情況。
人類(lèi)的知識(shí)是具有體系的。各種知識(shí)體系往往是由眾多的知識(shí)點(diǎn)所構(gòu)成，我們稱(chēng)其為知識(shí)元素或知識(shí)元。在信息爆炸的時(shí)代，人類(lèi)有更關(guān)注小的知識(shí)元的傾向。歷史上對(duì)圖書(shū)采用知識(shí)元的管理方式比較著名的例子是對(duì)《圣經(jīng)》的管理。在《圣經(jīng)》中，每篇文章的每個(gè)句子都有編號(hào)，如果能說(shuō)出特定號(hào)碼，就唯一指定《圣經(jīng)》中的一句話(huà)。換言之，一部《圣經(jīng)》就是被人類(lèi)切分成了數(shù)量眾多的知識(shí)元。人們可以不關(guān)心各種不同語(yǔ)言文本或者不同版本的《圣經(jīng)》頁(yè)碼與內(nèi)容的對(duì)應(yīng)關(guān)系，只要說(shuō)出編號(hào)，就能夠知道是指《圣經(jīng)》中的哪一句話(huà)。
本發(fā)明公開(kāi)了一種通過(guò)切分和摘取存在于圖書(shū)內(nèi)的，依托于圖書(shū)的獨(dú)立的知識(shí)元，以構(gòu)建數(shù)字圖書(shū)館(庫(kù))的方法。其中心特征是在一定的條件下，從特定圖書(shū)中抽取的每個(gè)知識(shí)元素都具有唯一性，獨(dú)立性和完整性，我們稱(chēng)其為圖書(shū)知識(shí)元。進(jìn)而采用XML文件格式存放這些眾多的知識(shí)元，并建立索引，提供檢索服務(wù)。這種將知識(shí)元素的思想引入數(shù)字圖書(shū)館(庫(kù))的圖書(shū)管理中的方法，我們稱(chēng)其為“數(shù)字圖書(shū)館(庫(kù))圖書(shū)的知識(shí)元管理方式”。即在每本圖書(shū)放入數(shù)字圖書(shū)館(庫(kù))之前，不但將其圖書(shū)在相關(guān)的知識(shí)領(lǐng)域上做出分類(lèi)，還會(huì)進(jìn)一步細(xì)化到圖書(shū)的每一行文字內(nèi)容上，精細(xì)地對(duì)其每個(gè)自然段落甚至每個(gè)字、詞條進(jìn)行分析、分類(lèi)，形成一個(gè)個(gè)獨(dú)立的相關(guān)信息單元。每個(gè)單元圍繞一個(gè)話(huà)題，或者說(shuō)，每個(gè)單元所要告訴讀者的信息在全書(shū)、全文中可以被看作是相對(duì)獨(dú)立的知識(shí)點(diǎn)，即知識(shí)元。這種方式并不關(guān)心圖書(shū)頁(yè)面中的知識(shí)元與特定頁(yè)面的物理關(guān)系，但是強(qiáng)調(diào)以知識(shí)元為主。這種方法與“逐頁(yè)管理方式”不同在于，在以知識(shí)元管理的圖書(shū)中，圖書(shū)的頁(yè)面是受制于頁(yè)面上的內(nèi)容，即知識(shí)元的。例如一部字典中的一個(gè)字、詞條可以被看作是一個(gè)知識(shí)元，一個(gè)中醫(yī)典籍中的藥方可以看成一個(gè)知識(shí)元，等等。當(dāng)然，就字典而言某個(gè)字、詞條中的某項(xiàng)解釋也可以再切分稱(chēng)新的知識(shí)元。如果我們基于知識(shí)元來(lái)建構(gòu)知識(shí)庫(kù)，則圖書(shū)中的頁(yè)面就變成了輔助因素，在讀者需要驗(yàn)證特定數(shù)字格式的知識(shí)元的圖像形式的時(shí)候，可以調(diào)出特定頁(yè)面瀏覽，當(dāng)然這時(shí)候可能是一個(gè)頁(yè)面中的一部分，也可能是多個(gè)頁(yè)面?；谥R(shí)元管理的數(shù)字圖書(shū)館(庫(kù))將知識(shí)脫離開(kāi)圖書(shū)的頁(yè)面，可以克服逐頁(yè)管理的缺陷，提高數(shù)字圖書(shū)館(庫(kù))的使用效能。通過(guò)我們的實(shí)踐發(fā)現(xiàn)，這種基于知識(shí)元的管理方式對(duì)學(xué)術(shù)類(lèi)電子圖書(shū)管理的優(yōu)點(diǎn)明顯，對(duì)辭書(shū)類(lèi)圖書(shū)的作用尤其突出。管理好了這些知識(shí)元，并將其做為數(shù)字化圖書(shū)館的基本構(gòu)建單位，還將會(huì)對(duì)知識(shí)元之間的相互引用，進(jìn)而對(duì)不同圖書(shū)之間的相互引用，即人類(lèi)知識(shí)鏈的建立和管理打下堅(jiān)實(shí)的基礎(chǔ)，從而為檢索提供便利，為研究提供更高效準(zhǔn)確的服務(wù)。
此外，基于知識(shí)元構(gòu)建的數(shù)字圖書(shū)館(庫(kù))，在數(shù)據(jù)管理和保管上更加安全可靠。這是因?yàn)榘凑罩R(shí)元的內(nèi)容切分方法往往比逐頁(yè)切分內(nèi)容來(lái)得更加細(xì)小，不利于他人非法復(fù)制還原。以中國(guó)古代的字書(shū)類(lèi)圖書(shū)為例，我們每管理100本圖書(shū)，頁(yè)面的總數(shù)量在五萬(wàn)左右，而形成的知識(shí)元總量在200萬(wàn)條上下，增加約40倍。對(duì)一般圖書(shū)，頁(yè)面和知識(shí)元的比例在3～5之間。

發(fā)明內(nèi)容
鑒于上述說(shuō)明，本發(fā)明提供一種基于知識(shí)元構(gòu)建數(shù)字圖書(shū)館的方法。該方法是將知識(shí)元的概念應(yīng)用到數(shù)字圖書(shū)數(shù)據(jù)館(庫(kù))的圖書(shū)管理中，突破書(shū)本中以頁(yè)為基本管理單位的限制，通過(guò)對(duì)書(shū)中內(nèi)容進(jìn)行切分，形成一個(gè)個(gè)相對(duì)獨(dú)立的知識(shí)元，再將其建入索引庫(kù)，從而使用戶(hù)能夠得到更為為精確、準(zhǔn)確的檢索結(jié)果。切分圖書(shū)知識(shí)元的過(guò)程是一個(gè)面向知識(shí)的提取過(guò)程，在這個(gè)過(guò)程中唯一的依據(jù)就是圖書(shū)本身，因此這個(gè)過(guò)程沒(méi)有編輯的成分。
本發(fā)明中的圖書(shū)包括但不限于人類(lèi)出版的各種文字的書(shū)籍、刊物、論文和圖表、圖紙等，也包括各類(lèi)出土文獻(xiàn)，例如中國(guó)的甲骨文、金文和簡(jiǎn)帛文字，以及諸如詩(shī)歌、歌曲等等。
我們將每個(gè)知識(shí)元視為一個(gè)節(jié)點(diǎn)，首先需要對(duì)其定義諸如路徑、來(lái)源、標(biāo)題、作者、頁(yè)碼信息、內(nèi)容、注釋等等不同的域，以滿(mǎn)足用戶(hù)對(duì)相應(yīng)字段檢索的需求。由于信息技術(shù)的發(fā)展，信息管理手段的提升，將所有人類(lèi)知識(shí)采用知識(shí)元的方式存儲(chǔ)和按照眾多知識(shí)元本身或者不同域進(jìn)行檢索已經(jīng)成為可能。對(duì)于具體的知識(shí)元的切分是根據(jù)不同圖書(shū)種類(lèi)來(lái)進(jìn)行的，處理的中心思路是借助圖書(shū)原有的知識(shí)分類(lèi)和管理體系，例如章節(jié)目錄和編號(hào)等等，在定義好特定圖書(shū)的知識(shí)元的域之后，連續(xù)進(jìn)行分割編號(hào)，并且以一個(gè)知識(shí)元作為一個(gè)存儲(chǔ)和抽取單位。由于圖書(shū)種類(lèi)繁多，這里我們分類(lèi)事實(shí)型圖書(shū)知識(shí)元和數(shù)值型知識(shí)元，采用列舉的方式提供一些具體的圖書(shū)種類(lèi)的知識(shí)元切分處理的原則方法。
對(duì)于事實(shí)型圖書(shū)知識(shí)元的切分，包括自然與社會(huì)科學(xué)中存在和演變的存在于圖書(shū)中的實(shí)際信息的切分。例如對(duì)于字書(shū)、辭書(shū)、類(lèi)書(shū)類(lèi)圖書(shū)的知識(shí)元切分基本上以每個(gè)字/詞的解釋為依據(jù)，每項(xiàng)字/詞條的含義為一個(gè)知識(shí)元。具體實(shí)施中也可以將每個(gè)字/詞條中的多個(gè)解釋小項(xiàng)進(jìn)一步細(xì)化切分，形成更細(xì)小的知識(shí)元。對(duì)于其他帶有編號(hào)的專(zhuān)業(yè)文獻(xiàn)內(nèi)容，例如出土文獻(xiàn)中的甲骨文、簡(jiǎn)帛等內(nèi)容，可以直接根據(jù)甲骨文片號(hào)碼或者竹簡(jiǎn)的編號(hào)、帛書(shū)的編號(hào)或行號(hào)等信息進(jìn)行切分。
對(duì)于文學(xué)類(lèi)作品諸如詩(shī)歌，可以根據(jù)每一首詩(shī)歌，也可以根據(jù)詩(shī)歌中的每一個(gè)句子進(jìn)行知識(shí)元的切分。對(duì)于小說(shuō)、劇本等性質(zhì)的書(shū)籍，可以以自然段落為知識(shí)元。對(duì)于重要的典籍，知識(shí)元的切分可以直接細(xì)分到每一個(gè)句子?！妒ソ?jīng)》就是很好的例子。
對(duì)于樹(shù)狀結(jié)構(gòu)的文獻(xiàn)內(nèi)容，可以將樹(shù)狀結(jié)構(gòu)中的每一個(gè)節(jié)點(diǎn)作為一個(gè)知識(shí)元。例如家譜中的每一個(gè)人可以看成是一個(gè)知識(shí)元。對(duì)圖表等信息，可以直接利用圖表記錄，每個(gè)記錄成為一個(gè)知識(shí)元，等等。
在上述處理過(guò)程中一個(gè)重要點(diǎn)在于，需要保留每個(gè)知識(shí)元的出處，包括特定知識(shí)元所在的圖書(shū)章節(jié)信息、文獻(xiàn)的結(jié)構(gòu)信息、起止頁(yè)碼信息等，并將其記錄到知識(shí)元的一個(gè)或者多個(gè)域中。同時(shí)頁(yè)碼信息可以將原始圖書(shū)的頁(yè)面影像與相關(guān)的知識(shí)元對(duì)應(yīng)起來(lái)，并且建立鏈接，以便利具體應(yīng)用。采用這種保留知識(shí)元的出處的措施，可以有效保證每個(gè)知識(shí)元的唯一性，同時(shí)也能夠便捷使用這在線或者離線驗(yàn)證特定知識(shí)元的完整性和正確性。
對(duì)于數(shù)據(jù)型圖書(shū)知識(shí)元，常見(jiàn)于各類(lèi)科學(xué)數(shù)據(jù)和社會(huì)經(jīng)濟(jì)數(shù)據(jù)。例如對(duì)于科技論文，可以根據(jù)內(nèi)容摘要部分的論述層次進(jìn)行全文的知識(shí)元的切分。對(duì)于圖書(shū)和科學(xué)論文中的引文，每一條作為一個(gè)知識(shí)元，并在路徑中標(biāo)注原文獻(xiàn)，這樣有利于日后利用知識(shí)元建立知識(shí)鏈。對(duì)于各類(lèi)批注，一般作為知識(shí)元的一個(gè)域進(jìn)行處理。對(duì)于書(shū)籍和文獻(xiàn)的插圖等信息也可以獨(dú)立作為知識(shí)元進(jìn)行加工處理。
還有一些內(nèi)容，例如印章的管理我們也是采取知識(shí)元的管理模式進(jìn)行管理的，主要是管理每個(gè)印章的拓本和印章本身影像(也可以是三維的動(dòng)畫(huà)的影像)。上述舉例只是在于說(shuō)明利用圖書(shū)切分知識(shí)元的原則。由于圖書(shū)和文獻(xiàn)的種類(lèi)眾多，針對(duì)具體情況實(shí)施方法會(huì)根據(jù)要求定義不同的知識(shí)元的域。我們采用這種圖書(shū)數(shù)據(jù)元的方式建構(gòu)了《瀚堂典藏典籍?dāng)?shù)據(jù)庫(kù)》，具體實(shí)施放置在互聯(lián)網(wǎng)的www.hytung.com處。
具體實(shí)施例方式
本發(fā)明的主體是提供一種基于知識(shí)元構(gòu)建數(shù)字圖書(shū)館的方法。具體采用這種處理方法進(jìn)行數(shù)字圖書(shū)館建構(gòu)包括以下步驟A.將紙本書(shū)籍的文字或多媒體內(nèi)容錄入轉(zhuǎn)換成電子文檔，并且保留其對(duì)應(yīng)的圖書(shū)影像。
B.根據(jù)圖書(shū)種類(lèi)分析并定義特定圖書(shū)的知識(shí)元的域。
C.借助XML文檔管理的方法，人工或者使用程序?qū)⑽臋n切分、摘編成若干條記錄，每條記錄即為一個(gè)相對(duì)獨(dú)立的知識(shí)元。對(duì)于具體的知識(shí)元的切分是根據(jù)不同圖書(shū)種類(lèi)來(lái)進(jìn)行的，處理的中心思路是借助圖書(shū)原有的知識(shí)分類(lèi)和管理體系，例如章節(jié)目錄和編號(hào)等等，在定義好特定圖書(shū)的知識(shí)元的域之后，連續(xù)進(jìn)行分割編號(hào)，并且以一個(gè)知識(shí)元作為一個(gè)存儲(chǔ)和抽取單位。
D.保留知識(shí)元所在的章節(jié)信息、起止頁(yè)碼信息等，并將其記錄到XML文件中的每一個(gè)知識(shí)元里面的對(duì)應(yīng)的域中。
E.通過(guò)程序加工處理XML文件，將每個(gè)知識(shí)元的所有域的信息填充完善。
F.采取上述A-D加工步驟之后的XML文件的簡(jiǎn)單結(jié)構(gòu)示意如下，為減少篇幅，我們這里假設(shè)其切分的知識(shí)元內(nèi)容的長(zhǎng)度都小于圖書(shū)一個(gè)頁(yè)面的內(nèi)容
<book>圖書(shū)名稱(chēng)<chapter>第一章(某某某)<section>第一節(jié)(某某某)<book-Page>頁(yè)碼1開(kāi)始<record>
<page></page>
<path></path>
<title>標(biāo)題1</title>
<content>內(nèi)容1</content>
</record>
<record>
<page></page>
<path></path>
<title>標(biāo)題1</title>
<content>內(nèi)容1</content>
</record>
…</book-Page>
…</section>
</chapter>
<chapter>第二章(某某某)<section>第一節(jié)(某某某)<book-Page>頁(yè)碼m開(kāi)始<record>
<page></page>
<path></path>
<title>標(biāo)題n</title>
<content>內(nèi)容n</content>
</record>
…</book-Page>
…</section>
…</chapter>
…</book>
G.經(jīng)過(guò)處理之后的含有知識(shí)元的XML文件的簡(jiǎn)單結(jié)構(gòu)示意如下，每個(gè)<record></record>對(duì)中包絡(luò)的內(nèi)容就是一個(gè)加工完成的知識(shí)元<book>圖書(shū)名稱(chēng)<chapter>第一章(某某某)<section>第一節(jié)(某某某)<book-Page>頁(yè)碼1開(kāi)始
<record>
<page>頁(yè)碼1</page>
<path>圖書(shū)名稱(chēng)·第一章(某某某)·第一節(jié)(某某某)</path>
<title>標(biāo)題1</title>
<content>內(nèi)容1</content>
</record>
<record>
<page>頁(yè)碼1</page>
<path>圖書(shū)名稱(chēng)·第一章(某某某)·第一節(jié)(某某某)</path>
<title>標(biāo)題1</title>
<content>內(nèi)容1</content>
</record>
…</book-Page>
…</section>
</chapter>
<chapter>第二章(某某某)<section>第一節(jié)(某某某)<book-Page>頁(yè)碼m開(kāi)始<record>
<page>頁(yè)碼m</page>
<path>圖書(shū)名稱(chēng)·第二章(某某某)·第一節(jié)(某某某)</path>
<title>標(biāo)題n</title>
<content>內(nèi)容n</content>
</record>
…</book-Page>
…</section>
…</chapter>
…</book>
H.確定好與知識(shí)元對(duì)應(yīng)的圖書(shū)頁(yè)面的呈現(xiàn)方式，是圖文同步呈現(xiàn)還是連接方式呈現(xiàn)，是左右圖文對(duì)照還是上下圖文對(duì)照等等。
I.將完成好的封裝有眾多圖書(shū)知識(shí)元的XML文檔中的每一個(gè)知識(shí)元建立索引。
J.圖書(shū)的索引和影像對(duì)應(yīng)放置到數(shù)字圖書(shū)館(庫(kù))。
K.用戶(hù)可以根據(jù)全文或者不同的域進(jìn)行檢索。
權(quán)利要求
1.一種通過(guò)切分和摘取存在于圖書(shū)內(nèi)的，依托于圖書(shū)的獨(dú)立的知識(shí)元，以構(gòu)建數(shù)字圖書(shū)館(庫(kù))的方法，具體包括以下步驟1)將紙本書(shū)籍的文字或多媒體內(nèi)容錄入轉(zhuǎn)換成電子文檔，并且保留其對(duì)應(yīng)的圖書(shū)影像。2)根據(jù)不同圖書(shū)種類(lèi)分析并定義特定圖書(shū)知識(shí)元及其域。
2.如權(quán)利要求1所述的基于知識(shí)元構(gòu)建數(shù)字圖書(shū)館(庫(kù))的方法，其特征在于根據(jù)所定義的圖書(shū)知識(shí)元的域?qū)ζ湮淖只蚨嗝襟w內(nèi)容進(jìn)行切分。切分出來(lái)的每個(gè)知識(shí)元都是圍繞特定內(nèi)容的盡可能小的知識(shí)單位或知識(shí)點(diǎn)，但內(nèi)容不得為空。
3.如權(quán)利要求1和2所述的基于知識(shí)元構(gòu)建數(shù)字圖書(shū)館(庫(kù))的方法，其特征在于所有切分出來(lái)的圖書(shū)的知識(shí)元都要帶有該知識(shí)元的原始圖書(shū)的章節(jié)信息和頁(yè)碼信息，放置于對(duì)應(yīng)的知識(shí)元的特定的域中，并確定好與知識(shí)元對(duì)應(yīng)的圖書(shū)頁(yè)面的呈現(xiàn)方式。
4.如權(quán)利要求1、2和3所述的基于知識(shí)元構(gòu)建數(shù)字圖書(shū)館(庫(kù))的方法，其特征在于采用XML文件格式封裝這些圖書(shū)知識(shí)元及其域中的內(nèi)容，并對(duì)XML文檔中的每一個(gè)知識(shí)元建立索引。
5.如權(quán)利要求1、2、3和4所述的基于知識(shí)元構(gòu)建數(shù)字圖書(shū)館(庫(kù))的方法，其特征在于利用檢索引擎提供數(shù)字化的圖書(shū)知識(shí)元層級(jí)的信息服務(wù)。
全文摘要
本發(fā)明公開(kāi)了一種通過(guò)切分和摘取存在于圖書(shū)內(nèi)的，依托于圖書(shū)的獨(dú)立的知識(shí)元，用以構(gòu)建數(shù)字圖書(shū)館(庫(kù))的方法。該方法突破傳統(tǒng)數(shù)字圖書(shū)管理中以書(shū)頁(yè)為基本管理單位的限制，以知識(shí)元的概念進(jìn)行數(shù)據(jù)加工并與圖書(shū)原始頁(yè)面的影像建立連接。本發(fā)明不限于處理歷史上出版印刷的各種文字的書(shū)籍、刊物、論文和圖表、圖紙等，也包括各類(lèi)出土文獻(xiàn)，以及諸如詩(shī)詞、歌曲等等。這種方式可以克服傳統(tǒng)的以書(shū)頁(yè)為管理單位的方式所出現(xiàn)的信息量冗余或者信息殘損兩個(gè)方面的問(wèn)題，從而提高數(shù)字圖書(shū)館(庫(kù))的使用效能，使用戶(hù)能夠得到更為精確、有效的檢索結(jié)果。
文檔編號(hào)G06F17/30GK101013440SQ200710062659
公開(kāi)日2007年8月8日申請(qǐng)日期2007年1月12日優(yōu)先權(quán)日2007年1月12日
發(fā)明者王宏源, 張晶晶, 趙鋒申請(qǐng)人:王宏源

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王宏源;張晶晶;趙鋒
技術(shù)所有人：王宏源
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中小學(xué)生數(shù)字圖書(shū)館相關(guān)技術(shù)

重慶中小學(xué)數(shù)字圖書(shū)館相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于圖書(shū)知識(shí)元構(gòu)建數(shù)字圖書(shū)館的方法