亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

出版物處理方法和裝置與流程

文檔序號(hào):12123920閱讀:386來(lái)源:國(guó)知局
出版物處理方法和裝置與流程

本發(fā)明涉及出版物加工領(lǐng)域,具體而言,涉及一種出版物處理方法和裝置。



背景技術(shù):

目前,隨著IT技術(shù)的發(fā)展,圖書期刊數(shù)字化加工是傳統(tǒng)出版向數(shù)字出版轉(zhuǎn)型的基礎(chǔ)工作,現(xiàn)有技術(shù)的圖書期刊數(shù)字化加工都是將圖書掃描或者用排版文件生成PDF等格式的文件,但是直接將圖書掃描或者用排版文件生成PDF等格式的文件類型不能滿足數(shù)字化傳播和閱讀的需要,例如,用戶想要查看某本圖書期刊的主要內(nèi)容,無(wú)法快捷查找到章節(jié)內(nèi)容設(shè)置情況,只能一頁(yè)一頁(yè)查看,或者,用戶想要從多本圖書里找到與某一學(xué)科方向的某方面內(nèi)容相關(guān)的內(nèi)容,在現(xiàn)有技術(shù)中無(wú)法實(shí)現(xiàn),由于現(xiàn)有技術(shù)無(wú)論從內(nèi)容深度挖掘還是閱讀體驗(yàn)上都無(wú)法促進(jìn)信息時(shí)代對(duì)知識(shí)內(nèi)容的傳播,而出版社對(duì)數(shù)字出版尤其是圖書期刊數(shù)字化的加工沒(méi)有成熟經(jīng)驗(yàn)可循,因此,局限性很高。

針對(duì)相關(guān)技術(shù)中出版物數(shù)字化加工方法局限性高的問(wèn)題,目前尚未提出有效的解決方案。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的主要目的在于提供一種出版物處理方法和裝置,以解決相關(guān)技術(shù)中出版物數(shù)字化加工方法局限性高的問(wèn)題。

為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種出版物處理方法,該方法包括:獲取數(shù)字化的出版物;根據(jù)所述出版物的版面信息從所述出版物中提取出信息,其中,所述信息分為多個(gè)類別,不同的類別用于表示所述出版物的內(nèi)容結(jié)構(gòu);根據(jù)所述信息對(duì)所述出版物進(jìn)行加工。

進(jìn)一步地,所述信息的類別至少包括:標(biāo)題,根據(jù)所述出版物的版面信息從所述出版物中提取出所述信息包括:根據(jù)所述出版物的版面樣式從所述出版物中提取出所有的標(biāo)題;根據(jù)所述信息對(duì)所述出版物進(jìn)行加工包括:將所述出版物的所有標(biāo)題進(jìn)行加工,形成層級(jí)化目錄。

進(jìn)一步地,所述信息的類別還包括:正文,根據(jù)所述出版物的版面信息從所述出版物中提取出所述信息包括:根據(jù)所述出版物的版面樣式從所述出版物中提取出正文;根據(jù)所述信息對(duì)所述出版物進(jìn)行加工包括:建立所述出版物的標(biāo)題與所述正文的對(duì)應(yīng)關(guān)系,或者建立所述層級(jí)化目錄與所述正文的對(duì)應(yīng)關(guān)系。

進(jìn)一步地,所述對(duì)應(yīng)關(guān)系保存在XML文件中,或者,保存在數(shù)據(jù)庫(kù)中。

進(jìn)一步地,所述出版物的版面樣式包括以下至少之一:特殊符號(hào)分割的版面樣式、字體樣式分割的版面樣式。

進(jìn)一步地,所述信息的類別至少包括:關(guān)鍵詞,根據(jù)所述出版物的版面信息從所述出版物中提取出所述信息包括:從所述出版物中提取出至少一個(gè)所述關(guān)鍵詞;根據(jù)所述信息對(duì)所述出版物進(jìn)行加工包括:根據(jù)至少一個(gè)所述關(guān)鍵詞確定所述出版物所屬的類別,并保存該類別。

進(jìn)一步地,從所述出版物中提取出至少一個(gè)所述關(guān)鍵詞包括:根據(jù)出現(xiàn)在所述出版物中的詞語(yǔ)的詞頻和/或詞語(yǔ)出現(xiàn)在所述出版物中的位置信息確定屬于關(guān)鍵詞的詞語(yǔ)。

進(jìn)一步地,根據(jù)至少一個(gè)所述關(guān)鍵詞確定所述出版物所屬的類別包括:在所述關(guān)鍵詞為多個(gè)的情況下,根據(jù)各個(gè)所述關(guān)鍵詞對(duì)應(yīng)的權(quán)重確定所述關(guān)鍵詞對(duì)應(yīng)的部分所屬的類型。

為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,還提供了一種出版物處理裝置,該裝置包括:獲取單元,用于獲取數(shù)字化的出版物;提取單元,用于根據(jù)所述出版物的版面信息從所述出版物中提取出信息,其中,所述信息分為多個(gè)類別,不同的類別用于表示所述出版物的內(nèi)容結(jié)構(gòu);加工單元,用于根據(jù)所述信息對(duì)所述出版物進(jìn)行加工。

進(jìn)一步地,所述信息的類別至少包括:標(biāo)題,所述提取單元用于根據(jù)所述出版物的版面樣式從所述出版物中提取出所有的標(biāo)題;所述加工單元用于將所述出版物的所有標(biāo)題進(jìn)行加工,形成層級(jí)化目錄。

本發(fā)明通過(guò)獲取數(shù)字化的出版物,根據(jù)出版物的版面信息從出版物中提取出信息,其中,信息分為多個(gè)類別,不同的類別用于表示出版物的內(nèi)容結(jié)構(gòu),根據(jù)信息對(duì)出版物進(jìn)行加工,解決了相關(guān)技術(shù)中出版物數(shù)字化加工方法局限性高的問(wèn)題,進(jìn)而達(dá)到了提高出版物數(shù)字化加工方法的靈活性的效果。

附圖說(shuō)明

構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:

圖1是根據(jù)本發(fā)明實(shí)施例的出版物處理方法的流程圖;

圖2是根據(jù)本發(fā)明實(shí)施例的出版物處理過(guò)程的示意圖;以及

圖3是根據(jù)本發(fā)明實(shí)施例的出版物處理裝置的示意圖。

具體實(shí)施方式

需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。

為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分的實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。

需要說(shuō)明的是,本申請(qǐng)的說(shuō)明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請(qǐng)的實(shí)施例。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。

本發(fā)明實(shí)施例提供了一種出版物處理方法。

圖1是根據(jù)本發(fā)明實(shí)施例的出版物處理方法的流程圖,如圖1所示,該方法包括以下步驟:

步驟S102:獲取數(shù)字化的出版物。

步驟S104:根據(jù)出版物的版面信息從出版物中提取出信息,其中,信息分為多個(gè)類別,不同的類別用于表示出版物的內(nèi)容結(jié)構(gòu)。

步驟S106:根據(jù)信息對(duì)出版物進(jìn)行加工。

該實(shí)施例采用獲取數(shù)字化的出版物之后,根據(jù)獲取到的數(shù)字化的出版物的版面信息從出版物中提取出多個(gè)類別的信息,以獲得出版物的內(nèi)容結(jié)構(gòu)信息,然后根據(jù)多個(gè)類別的信息對(duì)出版物進(jìn)行加工,由于本發(fā)明實(shí)施例的技術(shù)方案將紙質(zhì)圖書數(shù)字化,從數(shù)字化的出版物的版面信息中提取出表示出版物內(nèi)容的多個(gè)類別的信息,然后對(duì)出版物進(jìn)行加工,能夠?qū)崿F(xiàn)根據(jù)類別將紙質(zhì)出版物加工,以方便后續(xù)對(duì)出版物的檢索或者分類,解決了相關(guān)技術(shù)中出版物數(shù)字化加工方法局限性高的問(wèn)題,進(jìn)而達(dá)到了提高出版物數(shù)字化加工方法的靈活性的效果。

在本發(fā)明實(shí)施例中,出版物可以是圖書、期刊等多種類型的出版物,這些出版物可以是紙質(zhì)的出版物,也可以是電子化的出版物,如果是紙質(zhì)的出版物,則對(duì)這些紙質(zhì)的出版物進(jìn)行數(shù)字化處理,可以通過(guò)光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱為OCR)方法,例如,通過(guò)將紙質(zhì)出版物進(jìn)行掃描等方法,得到數(shù)字化的出版物。獲取數(shù)字化的出版物可以通過(guò)多種方法獲取,在獲取數(shù)字化的出版物之后,根據(jù)出版物的版面信息從出版物中提取出信息,出版物的版面信息可以是出版物版面上的文字,圖標(biāo),圖片等多種類型的信息,這些信息分為多個(gè)類別,多個(gè)類別用于表示出版物的內(nèi)容結(jié)構(gòu),出版物的內(nèi)容結(jié)構(gòu)包括標(biāo)題、正文、圖片、表格、圖題/圖注、表題/表注,以及頁(yè)面內(nèi)容的特殊格式,如上下標(biāo)、粗體、斜體、補(bǔ)字等,從出版物中提取出這些信息之后,根據(jù)提取出的信息對(duì)出版物進(jìn)行加工,其中,對(duì)出版物進(jìn)行加工可以是將出版物中提取出的信息構(gòu)建出版資源數(shù)據(jù)庫(kù),也可以對(duì)加工后的內(nèi)容進(jìn)行知識(shí)數(shù)據(jù)庫(kù)的構(gòu)建及內(nèi)容重組,以實(shí)現(xiàn)更多功能。可選地,對(duì)出版物進(jìn)行加工可以是將出版物內(nèi)容進(jìn)行拆分,提交至標(biāo)引系統(tǒng),根據(jù)醫(yī)學(xué)分類——關(guān)鍵詞對(duì)應(yīng)表進(jìn)行自動(dòng)分類;最后將版面信息、分類信息、標(biāo)引信息整合輸出為XML文檔或存儲(chǔ)數(shù)據(jù)庫(kù)中。在一個(gè)可選的應(yīng)用場(chǎng)景中,紙質(zhì)出版物不方便攜帶和閱讀,將紙質(zhì)出版物進(jìn)行數(shù)字化可以方便更多用戶分享該出版物,如果只是將該紙質(zhì)出版物掃描成PDF格式的圖書,用戶在閱讀時(shí)無(wú)法選擇章節(jié)進(jìn)行閱讀,而且將紙質(zhì)出版物掃描成PDF格式的圖書,受到掃描分辨率的影響,圖書閱讀質(zhì)量不佳,放大后可能不清楚,而且不容易分辨不同的內(nèi)容結(jié)構(gòu),無(wú)法提取出標(biāo)題、章節(jié)信息等內(nèi)容,因此出版物數(shù)字化加工方法局限性高,而本發(fā)明實(shí)施例的技術(shù)方案通過(guò)獲取數(shù)字化的出版物,然后根據(jù)版面信息從出版物中提取出信息,根據(jù)提取出的信息對(duì)出版物進(jìn)行加工,可以獲得內(nèi)容更精確的出版物,提高了出版物數(shù)字化加工方法的靈活性。

在一種可選的實(shí)施方式中,信息的類別至少包括:標(biāo)題,根據(jù)出版物的版面信息從出版物中提取出信息包括:根據(jù)出版物的版面樣式從出版物中提取出所有的標(biāo)題;根據(jù)信息對(duì)出版物進(jìn)行加工包括:將出版物的所有標(biāo)題進(jìn)行加工,形成層級(jí)化目錄。

出版物的信息類別至少包含出版物的標(biāo)題,標(biāo)題可以是各個(gè)章節(jié)的標(biāo)題,根據(jù)出版物的版面信息從出版物中提取出所有的標(biāo)題之后,可以將提取出的標(biāo)題進(jìn)行加工,形成層級(jí)化的目錄,方便用戶閱讀或者查找。

在一種可選的實(shí)施方式中,信息的類別還包括:正文,根據(jù)出版物的版面信息從出版物中提取出信息包括:根據(jù)出版物的版面樣式從出版物中提取出正文;根據(jù)信息對(duì)出版物進(jìn)行加工包括:建立出版物的標(biāo)題與正文的對(duì)應(yīng)關(guān)系,或者建立層級(jí)化目錄與正文的對(duì)應(yīng)關(guān)系。信息類別除了標(biāo)題,還包括正文,建立正文與標(biāo)題的對(duì)應(yīng)關(guān)系,以實(shí)現(xiàn)根據(jù)標(biāo)題查找正文的目的,方便用戶閱讀或查找。

在一種可選的實(shí)施方式中,對(duì)應(yīng)關(guān)系保存在XML文件中,或者,保存在數(shù)據(jù)庫(kù)中。在建立標(biāo)題和正文的對(duì)應(yīng)關(guān)系之后,可以將標(biāo)題和正文的對(duì)應(yīng)關(guān)系保存在XML文件中,還可以將標(biāo)題和正文的對(duì)應(yīng)關(guān)系保存在數(shù)據(jù)庫(kù)中。

在一種可選的實(shí)施方式中,出版物的版面樣式包括以下至少之一:特殊符號(hào)分割的版面樣式、字體樣式分割的版面樣式??梢愿鶕?jù)特殊符號(hào)或者字體樣式對(duì)出版物的版面樣式進(jìn)行分割,例如,可以對(duì)應(yīng)標(biāo)題對(duì)出版物的正文內(nèi)容進(jìn)行分割,也可以對(duì)應(yīng)不同字體對(duì)出版物的版面樣式進(jìn)行分割。

在一種可選的實(shí)施方式中,信息的類別至少包括:關(guān)鍵詞,根據(jù)出版物的版面信息從出版物中提取出信息包括:從出版物中提取出至少一個(gè)關(guān)鍵詞;根據(jù)信息對(duì)出版物進(jìn)行加工包括:根據(jù)至少一個(gè)關(guān)鍵詞確定出版物所屬的類別,并保存該類別。

信息的類別還可以包括關(guān)鍵詞,從出版物中提取出信息可以是從出版物中提取出關(guān)鍵詞,提取出的關(guān)鍵詞可以是多個(gè),根據(jù)提取出的一個(gè)或多個(gè)關(guān)鍵詞可以確認(rèn)出版物所述的類別,例如,醫(yī)學(xué)類出版物,歷史類出版物等。例如,可以根據(jù)關(guān)鍵詞對(duì)應(yīng)分類條目的分類編碼對(duì)出版物進(jìn)行分類,并且可以根據(jù)關(guān)鍵詞權(quán)重的差異,得到主分類編碼和參考分類編碼,以實(shí)現(xiàn)更精確的分類??蛇x地,可以根據(jù)詞頻、位置、語(yǔ)義內(nèi)容等對(duì)關(guān)鍵詞進(jìn)行排序。

在一種可選的實(shí)施方式中,從出版物中提取出至少一個(gè)關(guān)鍵詞包括:根據(jù)出現(xiàn)在出版物中的詞語(yǔ)的詞頻和/或詞語(yǔ)出現(xiàn)在出版物中的位置信息確定屬于關(guān)鍵詞的詞語(yǔ)。

從出版物中提取關(guān)鍵詞可以是從出版物中的詞語(yǔ)的詞頻確定屬于關(guān)鍵詞的詞語(yǔ),例如,將出現(xiàn)頻率較高的關(guān)鍵詞確定為出版物的關(guān)鍵詞,也可以是根據(jù)出現(xiàn)在出版物中的位置信息確定出版物的關(guān)鍵詞,例如,可以將出現(xiàn)在出版物標(biāo)題中的詞語(yǔ)確定為出版物的關(guān)鍵詞。

在一種可選的實(shí)施方式中,根據(jù)至少一個(gè)關(guān)鍵詞確定出版物所屬的類別包括:在關(guān)鍵詞為多個(gè)的情況下,根據(jù)各個(gè)關(guān)鍵詞對(duì)應(yīng)的權(quán)重確定出版物所屬的類型。

如果出版物的關(guān)鍵詞為多個(gè),則可以根據(jù)各個(gè)關(guān)鍵詞對(duì)應(yīng)的權(quán)重確定關(guān)鍵詞對(duì)應(yīng)的部分所屬的類型,例如,根據(jù)多個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)或者根據(jù)多個(gè)關(guān)鍵詞出現(xiàn)的位置確定出每個(gè)關(guān)鍵詞的權(quán)重,然后根據(jù)各個(gè)關(guān)鍵詞對(duì)應(yīng)的權(quán)重確定出版物所屬的類型,例如,可以將權(quán)重最大的關(guān)鍵詞作為出版物的關(guān)鍵詞。出版物所屬的相應(yīng)分類可以是:疾病、藥物、手術(shù)操作等醫(yī)學(xué)類型。根據(jù)關(guān)鍵詞對(duì)應(yīng)的權(quán)重確定關(guān)鍵詞對(duì)應(yīng)的部分所屬的類型可以確定關(guān)鍵詞所在的出版物的正文片段或者章節(jié)所對(duì)應(yīng)的類型,例如,某一章節(jié)屬于疾病、藥物、手術(shù)操作等醫(yī)學(xué)類型中的一種或多種,除了醫(yī)學(xué)類型,也可以是其他類型,例如,歷史學(xué)、音樂(lè)學(xué)等類型。通過(guò)關(guān)鍵詞對(duì)關(guān)鍵詞所在的片段或者章節(jié)分類能夠更加準(zhǔn)確地確定出版物正文片段所屬的類型,提高分類的準(zhǔn)確性。

出版物可以是一個(gè),也可以是多個(gè),如果出版物是多個(gè),在從多個(gè)出版物中提取出信息之后,對(duì)多個(gè)出版物的信息進(jìn)行加工,可以得到多個(gè)出版物信息的數(shù)據(jù)庫(kù),例如,對(duì)多本醫(yī)學(xué)類出版物進(jìn)行信息提取之后,對(duì)提取出的信息進(jìn)行加工并保存在數(shù)據(jù)庫(kù)中,用戶可以通過(guò)關(guān)鍵詞查詢檢索到數(shù)據(jù)庫(kù)中與該關(guān)鍵詞相關(guān)的所有內(nèi)容,能夠方便用戶從多個(gè)出版物中快速查找需要的內(nèi)容,節(jié)約時(shí)間。

可選地,出版物可以是醫(yī)學(xué)健康類圖書文獻(xiàn),該實(shí)施例可以將紙質(zhì)圖書出版時(shí)排版文件或者紙質(zhì)圖書掃描后OCR識(shí)別并轉(zhuǎn)換為數(shù)字化內(nèi)容,能夠解決圖書數(shù)字化深度加工過(guò)程中需要解決的問(wèn)題,通過(guò)建立一套成熟的加工體系,不僅僅可以完成紙質(zhì)圖書數(shù)字化、構(gòu)建出版資源數(shù)據(jù)庫(kù),并且可以對(duì)加工后內(nèi)容進(jìn)行知識(shí)數(shù)據(jù)庫(kù)的構(gòu)建及內(nèi)容重組。

該實(shí)施例的出版物處理方法能夠?qū)崿F(xiàn)對(duì)醫(yī)學(xué)類出版物的加工,在一個(gè)可選的應(yīng)用場(chǎng)景中,該方法可以構(gòu)建醫(yī)學(xué)分類體系,包括疾病分類、癥狀體征分類、實(shí)驗(yàn)室檢查分類、藥物分類、手術(shù)與操作分類以及內(nèi)容歸類。創(chuàng)建醫(yī)學(xué)專業(yè)詞庫(kù),整合中英文醫(yī)學(xué)專業(yè)術(shù)語(yǔ),合并同義詞詞條,將分類與詞庫(kù)建立關(guān)聯(lián),形成醫(yī)學(xué)專業(yè)的“分類——關(guān)鍵詞表”。采用版面分析工具對(duì)圖書的版面內(nèi)容進(jìn)行結(jié)構(gòu)化標(biāo)注,包括標(biāo)題、正文、圖片、表格、圖題/圖注、表題/表注,以及頁(yè)面內(nèi)容的特殊格式,如上下標(biāo)、粗體、斜體、補(bǔ)字等。結(jié)構(gòu)標(biāo)注后將圖書的全部標(biāo)題提取出來(lái),形成結(jié)構(gòu)化的層級(jí)目錄,根據(jù)內(nèi)容和標(biāo)題結(jié)構(gòu),將圖書拆分成知識(shí)單元,拆分后每一部分的內(nèi)容包含的正文和標(biāo)題部分分別提交標(biāo)引系統(tǒng),標(biāo)引系統(tǒng)提取關(guān)鍵詞和摘要,提取的關(guān)鍵詞應(yīng)用裝載的“分類——關(guān)鍵詞表”對(duì)應(yīng)系統(tǒng),根據(jù)拆分內(nèi)容的主題對(duì)關(guān)鍵詞進(jìn)行權(quán)重排序,涉及的因素包括圖書書名、圖書各級(jí)章節(jié)標(biāo)題內(nèi)容以及位置和詞頻信息等,通過(guò)關(guān)鍵詞識(shí)別獲得關(guān)鍵詞對(duì)應(yīng)分類條目的分類編碼,自動(dòng)進(jìn)行文獻(xiàn)的分類,并且可以根據(jù)關(guān)鍵詞權(quán)重的差異,提供主分類編碼和參考分類編碼;根據(jù)提交的標(biāo)題特征,自動(dòng)進(jìn)行內(nèi)容歸類的分類,實(shí)現(xiàn)了知識(shí)分類的自動(dòng)化。

通過(guò)這種圖書數(shù)字化轉(zhuǎn)換、知識(shí)單元內(nèi)容拆分,拆分后的標(biāo)引分類,實(shí)現(xiàn)圖書文獻(xiàn)向知識(shí)轉(zhuǎn)換的過(guò)程,該實(shí)施例可以實(shí)現(xiàn)大部分過(guò)程的自動(dòng)化完成,可以節(jié)省人力成本提高效率和加工質(zhì)量。

圖2是根據(jù)本發(fā)明實(shí)施例的出版物處理過(guò)程的示意圖,如圖2所示,該出版物處理過(guò)程包括以下步驟:

步驟S201:通過(guò)獲取接口獲取信息,獲取數(shù)字化的出版物,可以將紙質(zhì)圖書進(jìn)行掃描OCR識(shí)別,轉(zhuǎn)換為標(biāo)準(zhǔn)雙層PDF文件,或者將圖書排版的電子文件轉(zhuǎn)換為標(biāo)準(zhǔn)雙層PS/PDF格式文件。

步驟S202:通過(guò)圖書轉(zhuǎn)換加工平臺(tái)對(duì)信息進(jìn)行加工,利用圖書加工工具解析PDF文件,將圖書中的文字與圖片等部件結(jié)構(gòu)標(biāo)注識(shí)別,并將圖書按照知識(shí)單元內(nèi)容進(jìn)行拆分。

步驟S203:將圖書拆分后的知識(shí)單元內(nèi)容的文本內(nèi)容提交給內(nèi)容標(biāo)引服務(wù)器。

步驟S204:標(biāo)引服務(wù)器對(duì)內(nèi)容進(jìn)行關(guān)鍵詞標(biāo)引和分類,標(biāo)引是根據(jù)專業(yè)詞庫(kù)進(jìn)行賦詞標(biāo)引,提交到內(nèi)容標(biāo)引服務(wù)器的正文信息由內(nèi)容標(biāo)引服務(wù)器標(biāo)引出關(guān)鍵詞,標(biāo)引的關(guān)鍵詞在分類——關(guān)鍵詞表中進(jìn)行關(guān)鍵詞——分類編碼的轉(zhuǎn)換,將關(guān)鍵詞信息轉(zhuǎn)換為分類的編碼信息,從而實(shí)現(xiàn)自動(dòng)分類。另一種標(biāo)引功能是根據(jù)提交的標(biāo)題信息特征,進(jìn)行內(nèi)容歸類的分類標(biāo)引。

步驟S205:將標(biāo)引的關(guān)鍵詞利用醫(yī)學(xué)專業(yè)詞庫(kù)及分類——關(guān)鍵詞表進(jìn)行關(guān)鍵詞向編碼轉(zhuǎn)換。

步驟S206:建立基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)庫(kù)。可以建立醫(yī)學(xué)類基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)庫(kù),對(duì)醫(yī)學(xué)內(nèi)容的自動(dòng)化加工具有重要的意義,通過(guò)實(shí)驗(yàn)證明該體系具有較高的準(zhǔn)確性,工作效率較高。醫(yī)學(xué)類基礎(chǔ)數(shù)據(jù)庫(kù)可以包括醫(yī)學(xué)專業(yè)詞庫(kù),醫(yī)學(xué)專業(yè)分類,醫(yī)學(xué)專業(yè)的分類——關(guān)鍵詞表等數(shù)據(jù)。

步驟S207:將關(guān)鍵詞轉(zhuǎn)換后得到的分類編碼信息發(fā)送到內(nèi)容標(biāo)引服務(wù)器。

步驟S208:將標(biāo)引后的文本信息傳遞給圖書加工工具,其中,文本信息包括關(guān)鍵詞、分類、自動(dòng)摘要信息等。

步驟S209:將拆分的知識(shí)單元內(nèi)容、內(nèi)容標(biāo)引服務(wù)器返回的標(biāo)引信息進(jìn)行整合??梢酝ㄟ^(guò)一個(gè)人機(jī)結(jié)合的交互界面進(jìn)行對(duì)話,完成拆分、標(biāo)引、分類的人工審核過(guò)程,通過(guò)人工審核可以提高拆分、標(biāo)引、分類的準(zhǔn)確度,審核通過(guò)后,輸出為格式化的XML文件。

本發(fā)明實(shí)施例的出版物處理方法可以作為一種圖書文獻(xiàn)數(shù)字化加工方法,能夠?qū)崿F(xiàn)內(nèi)容自動(dòng)化分類,可以通過(guò)圖書轉(zhuǎn)換,獲取外部?jī)?nèi)容數(shù)據(jù),然后圖書加工,通過(guò)排版信息進(jìn)行圖書結(jié)構(gòu)化處理,進(jìn)一步通過(guò)人機(jī)結(jié)合分類標(biāo)引,信息流經(jīng)過(guò)標(biāo)引、轉(zhuǎn)換,實(shí)現(xiàn)文本內(nèi)容的主題提取和自動(dòng)分類過(guò)程,將圖書按照知識(shí)主題進(jìn)行拆分標(biāo)引后,形成具有相對(duì)獨(dú)立、含有豐富描述信息的知識(shí)內(nèi)容,輸出結(jié)構(gòu)化的XML文件,不僅表示圖書結(jié)構(gòu)信息,也包含了圖書文獻(xiàn)拆分后的單元內(nèi)容的分類信息。進(jìn)一步地,知識(shí)單元內(nèi)容根據(jù)醫(yī)學(xué)專業(yè)詞庫(kù)標(biāo)引的關(guān)鍵詞代表該部分內(nèi)容的主題,而關(guān)鍵詞與分類具有嚴(yán)格的對(duì)應(yīng)關(guān)系,關(guān)鍵詞對(duì)應(yīng)的分類也能夠反應(yīng)內(nèi)容的主題,進(jìn)而實(shí)現(xiàn)對(duì)醫(yī)學(xué)類圖書的自動(dòng)分類。進(jìn)一步地,專業(yè)的醫(yī)學(xué)詞庫(kù)與分類系統(tǒng)是揭示內(nèi)容主題的最好描述。

該實(shí)施例通過(guò)將圖書加工過(guò)程中的各個(gè)環(huán)節(jié)組合起來(lái),應(yīng)用專業(yè)的醫(yī)學(xué)詞庫(kù)及分類——關(guān)鍵詞表,實(shí)現(xiàn)對(duì)圖書的數(shù)字化加工,將圖書形成知識(shí)單元內(nèi)容,通過(guò)關(guān)鍵詞自動(dòng)標(biāo)引和醫(yī)學(xué)專業(yè)分類的標(biāo)引,并對(duì)其主題進(jìn)行規(guī)范性描述,可以實(shí)現(xiàn)出版社向數(shù)字出版轉(zhuǎn)型過(guò)程中的基礎(chǔ)數(shù)據(jù)的處理,為數(shù)字化應(yīng)用提供內(nèi)容的基礎(chǔ)元數(shù)據(jù),實(shí)現(xiàn)知識(shí)分類自動(dòng)化。

需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

本發(fā)明實(shí)施例提供了一種出版物處理裝置,該出版物處理裝置可以用于執(zhí)行本發(fā)明實(shí)施例的出版物處理方法。

圖3是根據(jù)本發(fā)明實(shí)施例的出版物處理裝置的示意圖,如圖3所示,該裝置包括:

獲取單元10,用于獲取數(shù)字化的出版物。

提取單元20,用于根據(jù)出版物的版面信息從出版物中提取出信息,其中,信息分為多個(gè)類別,不同的類別用于表示出版物的內(nèi)容結(jié)構(gòu)。

加工單元30,用于根據(jù)信息對(duì)出版物進(jìn)行加工。

可選地,信息的類別至少包括:標(biāo)題,提取單元用于根據(jù)出版物的版面樣式從出版物中提取出所有的標(biāo)題;加工單元用于將出版物的所有標(biāo)題進(jìn)行加工,形成層級(jí)化目錄??蛇x地,加工單元可以包括標(biāo)引單元,標(biāo)引單元根據(jù)出版物拆分的片段,進(jìn)行知識(shí)屬性分類標(biāo)引。

該實(shí)施例采用獲取單元10獲取數(shù)字化的出版物;提取單元20根據(jù)出版物的版面信息從出版物中提取出信息,其中,信息分為多個(gè)類別,不同的類別用于表示出版物的內(nèi)容結(jié)構(gòu);加工單元30根據(jù)信息對(duì)出版物進(jìn)行加工,解決了相關(guān)技術(shù)中出版物數(shù)字化加工方法局限性高的問(wèn)題,進(jìn)而達(dá)到了提高出版物數(shù)字化加工方法的靈活性的效果。

在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。

顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1