出版物數(shù)字資源的自動(dòng)采集方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種出版物數(shù)字資源的自動(dòng)采集方法及系統(tǒng),該方法包括:獲取出版物數(shù)字資源中的資源文件;根據(jù)預(yù)設(shè)的識(shí)別規(guī)則對(duì)所述資源文件進(jìn)行識(shí)別,得到識(shí)別結(jié)果,所述識(shí)別結(jié)果包括:文件類型、文件關(guān)系及排序;將所述資源文件上傳到服務(wù)器;根據(jù)所述識(shí)別結(jié)果生成所述資源文件的屬性信息;將所述屬性信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。利用本發(fā)明,可以提高采集出版物數(shù)字資源的效率,節(jié)省大量的工作量。
【專利說明】出版物數(shù)字資源的自動(dòng)采集方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字出版領(lǐng)域,具體而言,涉及一種出版物數(shù)字資源的自動(dòng)采集方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 目前的出版物如圖書、期刊、課件等的數(shù)字資源,內(nèi)容眾多,類型復(fù)雜。如以圖書 數(shù)字資源為例,一本圖書的資源文件可能有上萬個(gè)之多,包括封面、插圖、排版文件、配套音 頻、配套視頻等。再比如一個(gè)課件,包含多個(gè)PPT,每個(gè)PPT的內(nèi)容中可能會(huì)以鏈接的形式引 用多個(gè)音視頻、圖片、WORD等附件,PPT和其附屬文件屬于主從關(guān)系,另外,PPT及附屬文件 在硬盤中的相對(duì)路徑在入庫(kù)后必須保持,否則無法根據(jù)PPT中的鏈接打開附屬文件,最后, 多個(gè)PPT之間是有前后順序的。
[0003] 為了更有效地利用這些出版物數(shù)字資源,目前通過人工錄入,將出版物數(shù)字資源 錄入到數(shù)據(jù)庫(kù)中。然而人工操作容易出錯(cuò)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提供一種出版物數(shù)字資源的自動(dòng)采集方法及系統(tǒng),以解決現(xiàn)有技術(shù) 中出版物數(shù)字資源采集管理中人工參與程度高,效率低下、耗時(shí)長(zhǎng)的問題。
[0005] 為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:
[0006] -種出版物數(shù)字資源的自動(dòng)采集方法,包括:
[0007] 獲取出版物數(shù)字資源中的資源文件;
[0008] 根據(jù)預(yù)設(shè)的識(shí)別規(guī)則對(duì)所述資源文件進(jìn)行識(shí)別,得到識(shí)別結(jié)果,所述識(shí)別結(jié)果包 括:文件類型、文件關(guān)系及排序;
[0009] 將所述資源文件上傳到服務(wù)器;
[0010] 根據(jù)所述識(shí)別結(jié)果生成所述資源文件的屬性信息;
[0011] 將所述屬性信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0012] 優(yōu)選地,所述方法還包括:
[0013] 獲取并解析XML格式的配置文件,從中得到所述識(shí)別規(guī)則。
[0014] 優(yōu)選地,所述根據(jù)所述識(shí)別結(jié)果生成所述資源文件的屬性信息包括:
[0015] 根據(jù)所述識(shí)別結(jié)果生成XML格式的通知文件;
[0016] 解析所述通知文件,得到所述資源文件的屬性信息。
[0017] 優(yōu)選地,所述方法還包括:
[0018] 在得到所述識(shí)別結(jié)果后,向用戶展現(xiàn)手動(dòng)修改操作界面,以使用戶在所述操作界 面上調(diào)整文件的類型、文件關(guān)系及排序。
[0019] 優(yōu)選地,所述方法還包括:
[0020] 從數(shù)據(jù)庫(kù)讀取資源文件的屬性信息,并在瀏覽器中進(jìn)行展示所述屬性信息。
[0021] 一種出版物數(shù)字資源的自動(dòng)采集系統(tǒng),包括:
[0022] 獲取模塊,用于獲取出版物數(shù)字資源中的資源文件;
[0023] 識(shí)別模塊,用于根據(jù)預(yù)設(shè)的識(shí)別規(guī)則對(duì)所述資源文件進(jìn)行識(shí)別,得到識(shí)別結(jié)果,所 述識(shí)別結(jié)果包括:文件類型、文件關(guān)系及排序;
[0024] 上傳模塊,用于將所述資源文件上傳到服務(wù)器;
[0025] 資源入庫(kù)模塊,用于根據(jù)所述識(shí)別結(jié)果生成所述資源文件的屬性信息,并將所述 屬性信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0026] 優(yōu)選地,所述識(shí)別模塊,還用于獲取并解析XML格式的配置文件,從中得到所述識(shí) 別規(guī)則。
[0027] 優(yōu)選地,所述資源入庫(kù)模塊包括:
[0028] 解析單元,用于從所述識(shí)別模塊獲取XML格式的通知文件,解析所述XML文件得到 資源文件的屬性信息;
[0029] 入庫(kù)單元,用于將所述屬性信息存儲(chǔ)進(jìn)數(shù)據(jù)庫(kù)。
[0030] 優(yōu)選地,所述系統(tǒng)還包括:
[0031] 展現(xiàn)模塊,用于在所述識(shí)別模塊得到識(shí)別結(jié)果后,向用戶展現(xiàn)手動(dòng)修改操作界面, 以使用戶在所述操作界面上調(diào)整文件的類型、文件關(guān)系及排序。
[0032] 優(yōu)選地,所述系統(tǒng)還包括:
[0033] 資源管理模塊,用于從數(shù)據(jù)庫(kù)讀取資源文件的屬性信息,并在瀏覽器中進(jìn)行展示 所述屬性信息。
[0034] 本發(fā)明實(shí)施例提供的出版物數(shù)字資源的自動(dòng)采集方法及系統(tǒng),可以提高采集出版 物數(shù)字資源的效率,將采集工作人員從龐大的資源文件中解放出來,節(jié)省大量的工作量。而 且,利用本發(fā)明實(shí)施例的方法及系統(tǒng),可以自動(dòng)將采集結(jié)果入庫(kù),實(shí)現(xiàn)對(duì)出版物數(shù)字資源的 持久化管理應(yīng)用。從資源采集到入庫(kù),全程都是自動(dòng)進(jìn)行的,不需要用戶手動(dòng)參與,提高了 系統(tǒng)的自動(dòng)化程度。
【專利附圖】
【附圖說明】
[0035] 圖1是本發(fā)明實(shí)施例出版物數(shù)字資源的自動(dòng)采集方法的流程圖;
[0036] 圖2是本發(fā)明實(shí)施例出版物數(shù)字資源的自動(dòng)采集系統(tǒng)的結(jié)構(gòu)示意圖;
[0037] 圖3是本發(fā)明實(shí)施例中的圖書樣例的整理目錄結(jié)構(gòu);
[0038] 圖4是本發(fā)明實(shí)施例中的課件樣例的整理目錄結(jié)構(gòu);
[0039] 圖5是本發(fā)明實(shí)施例中資源采集裝置的界面展示圖;
[0040] 圖6是本發(fā)明實(shí)施例中課件樣例存儲(chǔ)的數(shù)據(jù)庫(kù)相關(guān)表及聯(lián)系;
[0041] 圖7是本發(fā)明實(shí)施例中資源管理裝置展示圖書列表的效果圖;
[0042] 圖8是本發(fā)明實(shí)施例中資源管理裝置展示課件詳細(xì)信息的效果圖。
【具體實(shí)施方式】
[0043] 下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。
[0044] 如圖1所示,是本發(fā)明實(shí)施例出版物數(shù)字資源的采集方法的流程圖,包括以下步 驟:
[0045] 步驟101、獲取出版物數(shù)字資源中的資源文件。
[0046] 步驟102、根據(jù)預(yù)設(shè)的識(shí)別規(guī)則對(duì)所述資源文件進(jìn)行識(shí)別,得到識(shí)別結(jié)果,所述識(shí) 別結(jié)果包括:文件類型、文件關(guān)系及排序。
[0047] 所述識(shí)別規(guī)則可以通過獲取并解析XML格式的配置文件來得到。
[0048] 在實(shí)際應(yīng)用中,對(duì)文件的排序可以先按照排序規(guī)則進(jìn)行排序,不符合排序規(guī)則的, 可以按照英文、字符按照首字符ASCII碼進(jìn)行排序,首字符中文按照拼音排序。而且,所述 排序規(guī)則可以通過讀取配置文件得到,默認(rèn)規(guī)則可以為阿拉伯?dāng)?shù)字1、2、3…以及大寫一、 --· · · --、___ 〇
[0049] 需要說明的是,對(duì)于已經(jīng)入庫(kù)的出版物數(shù)字資源,可以重新該出版物數(shù)字資源,進(jìn) 行再次修改調(diào)整或者追加資源文件。
[0050] 另外,對(duì)識(shí)別后的資源文件還可以進(jìn)行手動(dòng)調(diào)整,直到滿足需求。因?yàn)樽詣?dòng)識(shí)別畢 竟是機(jī)器識(shí)別,總會(huì)有識(shí)別不了的一些很個(gè)性化的地方,比如識(shí)別課件,在識(shí)別規(guī)則中設(shè)置 課件的后綴名必須是PPT,但是突然有一章的課件是HTML,僅此一個(gè),那么可以通過手工將 該是HTML文件設(shè)置為課件。具體地,可以在得到所述識(shí)別結(jié)果后,向用戶展現(xiàn)手動(dòng)修改操 作界面,以使用戶在所述操作界面上調(diào)整文件的類型、文件關(guān)系及排序。
[0051] 步驟103、將所述資源文件上傳到服務(wù)器。
[0052] 具體地,可以通過FTP或者共享方式將所述資源文件從本地上傳到服務(wù)器。
[0053] 步驟104、根據(jù)所述識(shí)別結(jié)果生成所述資源文件的屬性信息,并將所述屬性信息存 儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0054] 具體地,可以首先根據(jù)所述識(shí)別結(jié)果生成XML格式的通知文件,將該通知文件傳 輸給資源入庫(kù)模塊,由資源入庫(kù)模塊解析XML文件得到相應(yīng)的屬性信息,然后將所述屬性 信息存儲(chǔ)進(jìn)數(shù)據(jù)庫(kù)。
[0055] 所述屬性信息可以包括:文件大小、后綴名、文件類型(文檔、圖片、音頻、視頻),業(yè) 務(wù)類型(封面、插圖、低精度rof)等,圖片會(huì)有分辨率,音視頻有時(shí)長(zhǎng)等等(當(dāng)然后面這些屬 性,分辨率和時(shí)長(zhǎng)的提取需要用的其他工具,可以集成到采集環(huán)節(jié)中)。
[0056] 在本發(fā)明實(shí)施例中,還可進(jìn)一步包括以下步驟:從數(shù)據(jù)庫(kù)讀取資源文件的屬性信 息,并在瀏覽器中進(jìn)行展示所述屬性信息。
[0057] 本發(fā)明實(shí)施例提供的出版物數(shù)字資源的自動(dòng)采集方法,可以有效提高采集出版物 數(shù)字資源的效率,將采集工作人員從龐大的資源文件中解放出來,節(jié)省大量的工作量。而 且,利用本發(fā)明實(shí)施例的方法,可以自動(dòng)將采集結(jié)果入庫(kù),實(shí)現(xiàn)對(duì)出版物數(shù)字資源的持久化 管理應(yīng)用。從資源采集到入庫(kù),全程都是自動(dòng)進(jìn)行的,不需要用戶手動(dòng)參與,提高了系統(tǒng)的 自動(dòng)化程度。
[0058] 利用本發(fā)明實(shí)施例的方法,對(duì)于具體的使用者來說,只需要在部署系統(tǒng)的時(shí)候制 定一次識(shí)別規(guī)則XML即可,無需每次使用前制定??梢耘孔R(shí)別出版物數(shù)字資源??梢允?動(dòng)選擇出版物數(shù)字資源,也可以設(shè)定目錄,定時(shí)掃描識(shí)別。
[0059] 相應(yīng)地,本發(fā)明實(shí)施例還提供一種出版物數(shù)字資源的自動(dòng)采集系統(tǒng),圖2示出了 該系統(tǒng)的結(jié)構(gòu)。
[0060] 在該實(shí)施例中,所述系統(tǒng)包括:
[0061] 獲取模塊201,用于獲取出版物數(shù)字資源中的資源文件;
[0062] 識(shí)別模塊202,用于根據(jù)預(yù)設(shè)的識(shí)別規(guī)則對(duì)所述資源文件進(jìn)行識(shí)別,得到識(shí)別結(jié) 果,所述識(shí)別結(jié)果包括:文件類型、文件關(guān)系及排序;
[0063] 上傳模塊203,用于將所述資源文件上傳到服務(wù)器;
[0064] 資源入庫(kù)模塊204,用于根據(jù)所述識(shí)別結(jié)果生成所述資源文件的屬性信息,并將所 述屬性信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0065] 在實(shí)際應(yīng)用中,上述識(shí)別模塊202還用于獲取并解析XML格式的配置文件,從中得 到所述識(shí)別規(guī)則。
[0066] 所述資源入庫(kù)模塊204可以包括:解析單元和入庫(kù)單元,其中,所述解析單元用于 從所述識(shí)別模塊202獲取XML格式的通知文件,解析所述XML文件得到資源文件的屬性信 息;所述入庫(kù)單元用于將所述屬性信息存儲(chǔ)進(jìn)數(shù)據(jù)庫(kù)。
[0067] 另外,在本發(fā)明系統(tǒng)的另一實(shí)施例中,所述系統(tǒng)還可進(jìn)一步包括:展現(xiàn)模塊,用于 在所述識(shí)別模塊202得到識(shí)別結(jié)果后,向用戶展現(xiàn)手動(dòng)修改操作界面,以使用戶在所述操 作界面上調(diào)整文件的類型、文件關(guān)系及排序。用戶可以利用該界面修改資源文件類型、修改 資源文件間的關(guān)系及手動(dòng)排序。
[0068] 另外,在本發(fā)明系統(tǒng)的另一實(shí)施例中,所述系統(tǒng)還可進(jìn)一步包括:資源管理模塊, 用于從數(shù)據(jù)庫(kù)讀取資源文件的屬性信息,并在瀏覽器中進(jìn)行展示所述屬性信息。比如,可以 從數(shù)據(jù)庫(kù)獲取到出版物數(shù)字資源列表,進(jìn)行列表或封面展示,還可以瀏覽出版物數(shù)字資源 詳細(xì)信息。
[0069] 需要說明的是,在本發(fā)明實(shí)施例中,所述識(shí)別規(guī)則可以采用配置文件的方式來定 義??梢宰远x,以滿足用戶的個(gè)性化需求。采用XML格式定義,修改配置十分方便。所述 識(shí)別規(guī)則可以是文件類型識(shí)別規(guī)則和文件關(guān)系識(shí)別規(guī)則兩種。文件類型識(shí)別規(guī)則是指將單 個(gè)資源文件進(jìn)行歸類的規(guī)則;文件關(guān)系識(shí)別規(guī)則是指建立文件之間關(guān)系的自動(dòng)識(shí)別規(guī)則。
[0070] 進(jìn)一步,識(shí)別模塊202還可以對(duì)資源文件進(jìn)行排序。支持多種排序方式,并且可以 配置擴(kuò)展。
[0071] 本發(fā)明實(shí)施例提供的出版物數(shù)字資源的自動(dòng)采集系統(tǒng),可以有效提高采集出版物 數(shù)字資源的效率,將采集工作人員從龐大的資源文件中解放出來,節(jié)省大量的工作量。而 且,利用本發(fā)明實(shí)施例的系統(tǒng),可以自動(dòng)將采集結(jié)果入庫(kù),實(shí)現(xiàn)對(duì)出版物數(shù)字資源的持久化 管理應(yīng)用。從資源采集到入庫(kù),全程都是自動(dòng)進(jìn)行的,不需要用戶手動(dòng)參與,提高了系統(tǒng)的 自動(dòng)化程度。
[0072] 下面以典型的圖書及課件為例來詳細(xì)說明本發(fā)明實(shí)施例中制定XML格式的識(shí)別 規(guī)則及利用該識(shí)別規(guī)則對(duì)資源文件進(jìn)行識(shí)別及采集的過程。
[0073] 圖書最常用的整理分類方法為圖3所示的目錄結(jié)構(gòu),圖書所屬的所有資源分為封 面、正文、插圖、配套音頻、配套視頻五種。每一種分類都有一些屬性來標(biāo)識(shí)自己以及規(guī)范屬 于自己的資源文件,比如:
[0074] 識(shí)別碼(code):分類的唯一標(biāo)識(shí);
[0075] 名稱(caption):分類的顯示名;
[0076] 過濾器(filter):分類下的文件過濾;
[0077] 資源類型(fileResTypes):分類下所有文件的資源業(yè)務(wù)類型;
[0078] 附件類型(fileTypes):分類下所有文件的附件類型;
[0079] 排序?qū)傩裕╫rder):分類下文件是否需要排序,默認(rèn)不排序;
[0080] 關(guān)聯(lián)關(guān)系(relation):分類下資源之間是否有關(guān)聯(lián)關(guān)系,默認(rèn)沒有。
[0081] 由此可以制定如下的識(shí)別規(guī)則XML :
【權(quán)利要求】
1. 一種出版物數(shù)字資源的自動(dòng)采集方法,其特征在于,包括: 獲取出版物數(shù)字資源中的資源文件; 根據(jù)預(yù)設(shè)的識(shí)別規(guī)則對(duì)所述資源文件進(jìn)行識(shí)別,得到識(shí)別結(jié)果,所述識(shí)別結(jié)果包括:文 件類型、文件關(guān)系及排序; 將所述資源文件上傳到服務(wù)器; 根據(jù)所述識(shí)別結(jié)果生成所述資源文件的屬性信息; 將所述屬性信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 獲取并解析XML格式的配置文件,從中得到所述識(shí)別規(guī)則。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述識(shí)別結(jié)果生成所述資源文 件的屬性信息包括: 根據(jù)所述識(shí)別結(jié)果生成XML格式的通知文件; 解析所述通知文件,得到所述資源文件的屬性信息。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 在得到所述識(shí)別結(jié)果后,向用戶展現(xiàn)手動(dòng)修改操作界面,以使用戶在所述操作界面上 調(diào)整文件的類型、文件關(guān)系及排序。
5. 根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述方法還包括: 從數(shù)據(jù)庫(kù)讀取資源文件的屬性信息,并在瀏覽器中進(jìn)行展示所述屬性信息。
6. -種出版物數(shù)字資源的自動(dòng)采集系統(tǒng),其特征在于,包括: 獲取模塊,用于獲取出版物數(shù)字資源中的資源文件; 識(shí)別模塊,用于根據(jù)預(yù)設(shè)的識(shí)別規(guī)則對(duì)所述資源文件進(jìn)行識(shí)別,得到識(shí)別結(jié)果,所述識(shí) 別結(jié)果包括:文件類型、文件關(guān)系及排序; 上傳模塊,用于將所述資源文件上傳到服務(wù)器; 資源入庫(kù)模塊,用于根據(jù)所述識(shí)別結(jié)果生成所述資源文件的屬性信息,并將所述屬性 信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。
7. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于, 所述識(shí)別模塊,還用于獲取并解析XML格式的配置文件,從中得到所述識(shí)別規(guī)則。
8. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述資源入庫(kù)模塊包括: 解析單元,用于從所述識(shí)別模塊獲取XML格式的通知文件,解析所述XML文件得到資源 文件的屬性信息; 入庫(kù)單元,用于將所述屬性信息存儲(chǔ)進(jìn)數(shù)據(jù)庫(kù)。
9. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 展現(xiàn)模塊,用于在所述識(shí)別模塊得到識(shí)別結(jié)果后,向用戶展現(xiàn)手動(dòng)修改操作界面,以使 用戶在所述操作界面上調(diào)整文件的類型、文件關(guān)系及排序。
10. 根據(jù)權(quán)利要求6至9任一項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 資源管理模塊,用于從數(shù)據(jù)庫(kù)讀取資源文件的屬性信息,并在瀏覽器中進(jìn)行展示所述 屬性信息。
【文檔編號(hào)】G06F17/30GK104424271SQ201310385324
【公開日】2015年3月18日 申請(qǐng)日期:2013年8月29日 優(yōu)先權(quán)日:2013年8月29日
【發(fā)明者】百華睿, 陳長(zhǎng)剛 申請(qǐng)人:北大方正集團(tuán)有限公司, 方正信息產(chǎn)業(yè)控股有限公司, 北京北大方正電子有限公司