一種科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明屬于計(jì)算機(jī)自動(dòng)檢測(cè)與編輯【技術(shù)領(lǐng)域】,涉及一種科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),信息提取模塊從文檔中提取信息并存放到信息提取數(shù)據(jù)庫(kù)中;添加或選擇標(biāo)準(zhǔn)模塊對(duì)標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)進(jìn)行選擇、添加、查看明細(xì)、修改或刪除;修改記錄模塊檢測(cè)信息提取數(shù)據(jù)庫(kù)中提取的信息與標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)是否一致;查詢修改記錄模塊是將修改記錄添加到修改記錄數(shù)據(jù)庫(kù)中;信息提取數(shù)據(jù)庫(kù)存放從文檔中提取出的數(shù)據(jù)信息;標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)存放文檔信息檢測(cè)的各種標(biāo)準(zhǔn)化數(shù)據(jù);修改記錄數(shù)據(jù)庫(kù)存放文檔中數(shù)據(jù)項(xiàng)被修改的記錄;其系統(tǒng)簡(jiǎn)單,原理科學(xué),使用時(shí)減輕勞動(dòng)強(qiáng)度,提高工作效率,提高期刊總體質(zhì)量。
【專(zhuān)利說(shuō)明】一種科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng)
【技術(shù)領(lǐng)域】:
[0001]本發(fā)明屬于計(jì)算機(jī)自動(dòng)檢測(cè)與編輯【技術(shù)領(lǐng)域】,涉及一種科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),為科技論文的標(biāo)準(zhǔn)化部分提供由計(jì)算機(jī)軟件完成的標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯技術(shù)。
【背景技術(shù)】:
[0002]科技期刊編輯部的一項(xiàng)主要工作就是對(duì)待發(fā)表的文稿進(jìn)行審定與編輯,編輯部的主要職責(zé)是:一是審讀文稿的學(xué)術(shù)內(nèi)容,以確保其學(xué)術(shù)質(zhì)量,這項(xiàng)工作一般提交給相關(guān)領(lǐng)域的專(zhuān)家或?qū)W者完成;二是對(duì)文稿進(jìn)行“標(biāo)準(zhǔn)化”加工,使之符合國(guó)家標(biāo)準(zhǔn)及行業(yè)的出版規(guī)定,這項(xiàng)工作是由編輯部的編輯人員完成,標(biāo)準(zhǔn)化加工包括:審核文稿中的題目、各層次標(biāo)題的序號(hào)、字體和字號(hào)是否正確;以及摘要、關(guān)鍵詞和分類(lèi)號(hào)其屬性字等等是否齊全正確;中國(guó)學(xué)術(shù)期刊編輯委員會(huì)2006年指定的《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)檢索與評(píng)價(jià)數(shù)據(jù)規(guī)范》,簡(jiǎn)稱(chēng)《規(guī)范》,對(duì)發(fā)表文章中的題目、作者及其工作單位、作者簡(jiǎn)介、摘要、關(guān)鍵詞及其屬性等等都必須按照《規(guī)范》進(jìn)行標(biāo)準(zhǔn)化檢測(cè)與編輯,以方便信息檢索,相對(duì)于審核文章內(nèi)容而言,標(biāo)準(zhǔn)化加工技術(shù)含量低,但非常煩瑣,重復(fù)次數(shù)多,耗時(shí)長(zhǎng),工作效率低,且出錯(cuò)率較高。為保證科技期刊發(fā)表的論文符合中國(guó)學(xué)術(shù)期刊編輯委員會(huì)指定的《規(guī)范》要求,每一篇文稿都要經(jīng)過(guò)編輯部人員的多次校對(duì)和編輯加工,但期刊出版發(fā)行后仍有不符合標(biāo)準(zhǔn)及出錯(cuò)的現(xiàn)象發(fā)生,對(duì)于文稿的標(biāo)準(zhǔn)化編輯工作雖然占用了編輯人員大量的工作時(shí)間,卻難以保證其準(zhǔn)確度和出版質(zhì)量。這種效率低準(zhǔn)確度差的人工編輯方式,不適應(yīng)信息化社會(huì)的需要,制約了期刊事業(yè)的標(biāo)準(zhǔn)化和規(guī)范化建設(shè)的發(fā)展,阻礙了對(duì)于信息資源在更大數(shù)據(jù)規(guī)模和更高技術(shù)水平上的充分開(kāi)發(fā)和利用。
【發(fā)明內(nèi)容】
:
[0003]本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的缺點(diǎn),尋求設(shè)計(jì)提供一種科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),采用信息抽取技術(shù)提取Word文本信息,根據(jù)完全匹配算法以及位置特征完成對(duì)學(xué)術(shù)文章需要標(biāo)準(zhǔn)化的部分進(jìn)行文本信息和特征的抽取、檢測(cè)、統(tǒng)計(jì)以及自動(dòng)修改四項(xiàng)基本編輯功能,從而提高編輯學(xué)術(shù)文章的效率、準(zhǔn)確率和標(biāo)準(zhǔn)化管理水平。
[0004]為了實(shí)現(xiàn)上述目的,本發(fā)明涉及的科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng)包括信息提取模塊、添加或選擇標(biāo)準(zhǔn)模塊、修改記錄模塊、查詢修改記錄模塊、信息提取數(shù)據(jù)庫(kù)、標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)和修改記錄數(shù)據(jù)庫(kù);信息提取模塊從文檔中提取題目、摘要、關(guān)鍵詞、中圖分類(lèi)號(hào)、文獻(xiàn)標(biāo)志符、子標(biāo)題、圖形、圖表、作者簡(jiǎn)介和英文部分的信息并存放到信息提取數(shù)據(jù)庫(kù)中,信息提取模塊在提取文章標(biāo)題時(shí)提取到3級(jí)子標(biāo)題;添加或選擇標(biāo)準(zhǔn)模塊對(duì)標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)進(jìn)行選擇、添加、查看明細(xì)、修改或刪除;修改記錄模塊檢測(cè)信息提取數(shù)據(jù)庫(kù)中提取的信息與標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)是否一致,若不一致則顯示不符合標(biāo)準(zhǔn)的信息是哪幾項(xiàng),修改記錄模塊按照用戶選擇的標(biāo)準(zhǔn)自動(dòng)在Word文檔中修改這幾項(xiàng),修改后提示修改完畢的信息;查詢修改記錄模塊是將修改記錄添加到修改記錄數(shù)據(jù)庫(kù)中,方便用戶隨時(shí)查閱修改的內(nèi)容,查詢修改記錄模塊統(tǒng)一管理信息抽取數(shù)據(jù)庫(kù)、標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)和修改記錄數(shù)據(jù)庫(kù);為保證信息安全,不同的用戶級(jí)別具有不同的訪問(wèn)權(quán)限,確保系統(tǒng)運(yùn)行安全可靠;信息提取數(shù)據(jù)庫(kù)存放從文檔中提取出的數(shù)據(jù)信息,如表I所示;標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)存放《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)檢索與評(píng)價(jià)數(shù)據(jù)規(guī)范》要求的文檔信息檢測(cè)的各種標(biāo)準(zhǔn)化數(shù)據(jù),如表2所示,標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)供用戶選擇一個(gè)標(biāo)準(zhǔn)以及查看某個(gè)標(biāo)準(zhǔn)的詳細(xì)規(guī)定,能夠進(jìn)行添加、修改和刪除一個(gè)新/舊標(biāo)準(zhǔn)操作;修改記錄數(shù)據(jù)庫(kù)如表3所示,存放文檔中數(shù)據(jù)項(xiàng)被修改的記錄以備用戶查閱。
[0005]表1:信息提取數(shù)據(jù)庫(kù)
【權(quán)利要求】
1.一種科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),其特征在于包括信息提取模塊、添加或選擇標(biāo)準(zhǔn)模塊、修改記錄模塊、查詢修改記錄模塊、信息提取數(shù)據(jù)庫(kù)、標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)和修改記錄數(shù)據(jù)庫(kù);信息提取模塊從文檔中提取題目、摘要、關(guān)鍵詞、中圖分類(lèi)號(hào)、文獻(xiàn)標(biāo)志符、子標(biāo)題、圖形、圖表、作者簡(jiǎn)介和英文部分的信息并存放到信息提取數(shù)據(jù)庫(kù)中,信息提取模塊在提取文章標(biāo)題時(shí)提取到3級(jí)子標(biāo)題;添加或選擇標(biāo)準(zhǔn)模塊對(duì)標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)進(jìn)行選擇、添加、查看明細(xì)、修改或刪除;修改記錄模塊檢測(cè)信息提取數(shù)據(jù)庫(kù)中提取的信息與標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)是否一致,若不一致則顯示不符合標(biāo)準(zhǔn)的信息是哪幾項(xiàng),修改記錄模塊按照用戶選擇的標(biāo)準(zhǔn)自動(dòng)在Word文檔中修改這幾項(xiàng),修改后提示修改完畢的信息;查詢修改記錄模塊是將修改記錄添加到修改記錄數(shù)據(jù)庫(kù)中,方便用戶隨時(shí)查閱修改的內(nèi)容,查詢修改記錄模塊統(tǒng)一管理信息抽取數(shù)據(jù)庫(kù)、標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)和修改記錄數(shù)據(jù)庫(kù);為保證信息安全,不同的用戶級(jí)別具有不同的訪問(wèn)權(quán)限,確保系統(tǒng)運(yùn)行安全可靠;信息提取數(shù)據(jù)庫(kù)存放從文檔中提取出的數(shù)據(jù)信息,如表I所示;標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)存放《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)檢索與評(píng)價(jià)數(shù)據(jù)規(guī)范》要求的文檔信息檢測(cè)的各種標(biāo)準(zhǔn)化數(shù)據(jù),,如表2所示,標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)供用戶選擇一個(gè)標(biāo)準(zhǔn)以及查看某個(gè)標(biāo)準(zhǔn)的詳細(xì)規(guī)定,能夠進(jìn)行添加、修改和刪除一個(gè)新/舊標(biāo)準(zhǔn)操作;修改記錄數(shù)據(jù)庫(kù)如表3所示,存放文檔中數(shù)據(jù)項(xiàng)被修改的記錄以備用戶查閱。 表1:信息提取數(shù)據(jù)庫(kù)
2.根據(jù)權(quán)利要求1涉及的科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),其特征在于執(zhí)行流程如下:(1)系統(tǒng)根據(jù)《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)檢索與評(píng)價(jià)數(shù)據(jù)規(guī)范》要求的標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行信息提取,提取文章的題目、文章編號(hào)、作者及其工作單位、關(guān)鍵詞、文獻(xiàn)標(biāo)識(shí)碼,并存放在信息提取數(shù)據(jù)庫(kù)中; (2)對(duì)提取到的文章標(biāo)準(zhǔn)化信息,對(duì)照《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)檢索與評(píng)價(jià)數(shù)據(jù)規(guī)范》所制定的各個(gè)數(shù)據(jù)項(xiàng)的名稱(chēng)、標(biāo)識(shí)、結(jié)構(gòu)和皮安排格式等信息進(jìn)行比較、檢測(cè)、統(tǒng)計(jì)分析、判斷是否符合標(biāo)準(zhǔn)要求; (3)如果所提取的內(nèi)容不符合標(biāo)準(zhǔn)化要求,根據(jù)文章中設(shè)定好的格式進(jìn)行自動(dòng)修改,并記錄修改內(nèi)容以備用戶查詢; (4)在檢測(cè)編輯過(guò)程中,用戶能夠添加新的標(biāo)準(zhǔn)或者是修改已有的標(biāo)準(zhǔn)。
3.根據(jù)權(quán)利要求1所述的科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),其特征在于在信息提取模塊實(shí)現(xiàn)科技論文的標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯,采用完全匹配算法和按照位置特征兩種方法提取Word文檔中需要編輯的文字信息及其屬性,迅速、準(zhǔn)確地從Word文本中提取出需要編輯的標(biāo)準(zhǔn)化信息并進(jìn)行編輯;其具體執(zhí)行步驟為: (O定義所要提取的各個(gè)對(duì)象名稱(chēng); (2 )判斷是否有打開(kāi)的Word文檔,若沒(méi)有打開(kāi)的Word文檔,給出“請(qǐng)打開(kāi)要編輯的Word文檔”的提示,然后退出; 若有打開(kāi)的Word文檔,則進(jìn)入步驟(3); (3)將所有打開(kāi)的Word文檔組織成一個(gè)文章列表,獲取文章列表; (4)選擇要編輯的Word文檔,即在文章列表中選中要編輯的Word文檔; (5)對(duì)選中的Word文檔進(jìn)行信息提取并存放在信息提取數(shù)據(jù)庫(kù)中,然后在樹(shù)目錄中判斷選擇索引節(jié)點(diǎn),按照用戶的選擇分別顯示所提取的數(shù)據(jù)信息及其屬性; (6)將提取的數(shù)據(jù)信息及其屬性與標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)中的信息進(jìn)行比較、統(tǒng)計(jì)和檢測(cè),判斷是否符合標(biāo)準(zhǔn),若不符合標(biāo)準(zhǔn),則顯示該信息并進(jìn)入步驟(7);若符合標(biāo)準(zhǔn)進(jìn)入步驟(9); (7)直接在Word文檔中自動(dòng)修改不符合標(biāo)準(zhǔn)的數(shù)據(jù),修改后系統(tǒng)自動(dòng)提示修改完畢的信息; (8)將修改記錄添加到修改記錄數(shù)據(jù)庫(kù)中; (9)詢問(wèn)用戶是否需要退出檢測(cè)編輯,若是則退出,否則返回步驟(6)。
4.根據(jù)權(quán)利要求3所述的科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),其特征在于對(duì)Word文檔信息提取實(shí)現(xiàn)的方法包括以下步驟: (1)提取科技論文中的“題目、作者以及作者單位”信息,題目位于文章的第一個(gè)非空段落,其后是作者名,單位名; (2)提取科技論文的摘要、I級(jí)子標(biāo)題、2級(jí)子標(biāo)題、3級(jí)子標(biāo)題、圖題目、表題目和參考文獻(xiàn)信息;采用完全匹配方法同樣能夠提取子標(biāo)題信息,圖題目,表題目和參考文獻(xiàn)信息; (3)使用activedocument的footnote屬性以及完全匹配算法提取科技論文中的腳注信息; (4)提取圖形中的文本信息,圖形由文本框、自選圖形、任意多邊形ActiveX控件和圖片構(gòu)成,圖形分為組合圖形和單個(gè)圖形兩種; (5)提取對(duì)象中的部分信息,并將其定義為一個(gè)對(duì)象,中圖分類(lèi)號(hào)和文獻(xiàn)標(biāo)志符提取時(shí)為一個(gè)整體,程序中將中圖分類(lèi)號(hào)和文獻(xiàn)標(biāo)志符分開(kāi)使用。
5.根據(jù)權(quán)利要求4所述的科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),其特征在于在采用的完全匹配算法包括以下步驟: 先定義提取函數(shù)的參數(shù),文檔信息的段號(hào)設(shè)為i,置初值為文章正文第一段;文章正文的總段數(shù)設(shè)為N,使用while (i〈N)循環(huán)程序語(yǔ)言進(jìn)行以下循環(huán)過(guò)程: (1)提取文章第i段內(nèi)容,切分提取到該段落的第I個(gè)字符,與I級(jí)子標(biāo)題進(jìn)行匹配,若匹配成功則i+Ι ; (2)若與I級(jí)子標(biāo)題匹配不成功,則切分該段落的前2個(gè)字符后與表題目或圖題目進(jìn)行匹配,若匹配成功,則i+Ι ; (3)若與表題目或圖題目沒(méi)有匹配成功,則切分該段落的前3個(gè)字符,并與文稿的2級(jí)子標(biāo)題進(jìn)行匹配,若匹配成功,則i+Ι ; (4)若沒(méi)有與2級(jí)子標(biāo)題匹配成功,則切分該段落的前4個(gè)字符與參考文獻(xiàn)進(jìn)行匹配,若匹配成功,則i+Ι ; (5)若與參考文獻(xiàn)沒(méi)有匹配成功,則切分前5個(gè)字符與3級(jí)子標(biāo)題進(jìn)行匹配,若匹配成功,則i+Ι ; (6)若不匹配,則i+Ι后判斷i是否小于N,若小于N,則進(jìn)入下一輪循環(huán);若不小于N,則提取信息結(jié)束。
6.根據(jù)權(quán)利要求4所述的科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),其特征在于在涉及的信息提取的執(zhí)行流程如下: (1)獲取要編輯的文章的·第一段的信息,判斷該段信息是否為空行,如果為空,提取下一段信息并做判斷,直到取到的信息不是空行,則提取到文章的題目; (2)提取題目所在段的下一非空段落,并且符合開(kāi)頭信息為“——”的為副標(biāo)題;如果無(wú)副標(biāo)題,則題目下一段落的非空段落為作者; (3)提取作者下一段落的非空段落為作者單位; (4)提取作者單位所在段落的下一非空段落,拆分頭兩個(gè)字,與摘要進(jìn)行匹配,如果成功,則該段落為摘要; (5)提取摘要所在段落的下一非空段落,拆分頭三個(gè)字,與關(guān)鍵詞進(jìn)行匹配,如果成功,則該段落為關(guān)鍵詞; (6)提取關(guān)鍵詞的下一非空段落,進(jìn)行拆分,并與中圖分類(lèi)號(hào)、文獻(xiàn)標(biāo)識(shí)碼分別進(jìn)行匹配,提取中圖分類(lèi)號(hào)和文獻(xiàn)標(biāo)識(shí)碼; (7)對(duì)文章中剩下的段落進(jìn)行窮盡搜索,對(duì)每一段落提取前幾個(gè)字符,與標(biāo)題序號(hào)、圖表序號(hào)、參考文獻(xiàn)進(jìn)行匹配,同時(shí)判斷上一級(jí)標(biāo)題是否存在來(lái)確定該段落是否是所要提取的信息; (8)提取腳注信息,對(duì)每個(gè)腳注提取前幾個(gè)字符,與基金項(xiàng)目、作者簡(jiǎn)介進(jìn)行匹配,提取基金項(xiàng)目和作者簡(jiǎn)介; (9)從文章取出后面的10個(gè)段落,開(kāi)始提取英文部分;先提取第一段的8個(gè)字符,與Abstract進(jìn)行匹配,如果成功,則該段落為英文摘要; (10)提取英文段落的后續(xù)段落,提取段落的前8個(gè)字符,與Keywords匹配,如果成功,則該段落為英文關(guān)鍵詞; (11)提取到英文摘要后,向上數(shù)三個(gè)段落提取英文題目、英文作者和作者單位。
7.根據(jù)權(quán)利要求4所述的科技論文標(biāo)準(zhǔn)化自動(dòng)檢測(cè)編輯系統(tǒng),其特征在于在對(duì)Word文檔信息進(jìn)行自動(dòng)修改的方法實(shí)現(xiàn)包括以下步驟: (1)單擊【修改】按鈕,系統(tǒng)自動(dòng)執(zhí)行以下程序?qū)ord文檔信息進(jìn)行修改:
【文檔編號(hào)】G06F17/30GK103440233SQ201310407782
【公開(kāi)日】2013年12月11日 申請(qǐng)日期:2013年9月10日 優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】蔣靜, 趙志剛, 門(mén)霞, 潘振寬, 喬春秀 申請(qǐng)人:青島大學(xué)