本技術涉及電子檔案的歸檔處理,尤其涉及一種基于自定義歸檔策略的電子檔案自動化歸檔方法。
背景技術:
1、隨著信息技術的深入快速發(fā)展,電子文件歸檔的需求日益迫切。提出數字化轉型戰(zhàn)略,推進產業(yè)數字化、數字產業(yè)化,大量具有檔案價值的電子文件隨之產生,對電子文件歸檔管理與應用的需求迫切。然而,當前的電子文件歸檔和電子文件歸檔多數采用人工整理的方法,面臨生產效率低、文檔分類歸檔成本高、準確性差的問題?;谏鲜瞿壳半娮訖n案整理的現狀,提出一種基于自定義歸檔策略的自動化解決方案,以實現各行業(yè)各類成果的機器自動化歸檔技術應用。
技術實現思路
1、為了解決背景技術中的技術問題,本技術實施例提供一種基于自定義歸檔策略的電子檔案自動化歸檔方法,包括如下步驟:
2、步驟s1、待歸檔電子化文檔準備:
3、將通過各類型數字化文檔掃描設備形成的電子化文檔或現有的電子化文檔存儲于指定的安裝了歸檔軟件系統的計算機的文件系統中;
4、步驟s2、配置歸檔策略:
5、根據不同數字化成果的具體歸檔要求,配置相應的歸檔整理策略,一個整理策略配置多個歸檔規(guī)則,將其歸檔策略及配置的歸檔規(guī)則的集存儲在歸檔軟件系統數據庫當中,通過歸檔軟件系統中的策略配置功能模塊,實現歸檔策略的維護與更新,在執(zhí)行歸檔時,可以從數據庫中加載選擇指定策略方案執(zhí)行歸檔工作;
6、步驟s3、根據歸檔策略執(zhí)行歸檔任務:
7、對于待歸檔成果,在根據歸檔的要求配置好對應的歸檔策略后,對待歸檔成果進行自動化歸檔整理工作,支持兩種模式的自動化歸檔:
8、模式一、與自動化掃描儀設備聯動,將掃描儀的掃描輸出路徑設置為其待歸檔目錄,動態(tài)監(jiān)測待歸檔目錄文件變化并按其配置的策略時行文件整理分類;
9、模式二、指定靜態(tài)的待歸檔目錄,根據其配置的歸檔策略進行文件的整理分類,此模式針對已經掃描好的未分類的電子文件再歸類;
10、步驟s4、歸檔任務完整性檢查:
11、檢查待歸檔源文件目錄大小與歸檔目標目錄文件大小是否相等,檢查待歸檔源文件文件總數量與歸檔目標目錄文件數量是否一致,對tab_soucefileindex進行統計,計算文件ocr識別率rr、計算歸檔文件數量及歸檔成功率ar、獲取歸檔文件重復文件數量及詳細清單;
12、rr=(文字識別特征區(qū)域文字識別成功數量/文字識別特征區(qū)域數量)*100%;
13、ar=(歸檔成功文件數量/待歸檔電子文件數量)*100%;
14、對于ocr識別失敗的,進行人工逐個字符標注,并將其訓練數據結果增量寫入到識別數據集當中,以完善提升文字識別精度;
15、步驟s5、生成歸檔任務報告:
16、生成歸檔任務報告,并自動生成歸檔目錄在報告顯示區(qū)以pdf的形式顯示,同時將報告生成數字簽名信息的pdf輸出到歸檔輸出根目錄的上一級目錄;
17、步驟s6、歸檔任務結束:
18、完成一次基于所選歸檔策略的自動化整理后,在歸檔軟件系統中按照歸歸檔后的電子檔案目錄樹的形式顯示其歸檔檔案。
19、在本技術的其中一個實施例中,所述基于自定義歸檔策略的電子檔案自動化歸檔方法,所述步驟s2、配置歸檔策略中,歸檔策略的屬性包括策略名稱、模板文件列表、歸檔說明、參考文獻或標準、創(chuàng)建索引目錄選項、歸檔規(guī)則集;
20、屬性通過歸檔策略配置功能模塊實現可視化配置,并保存在歸檔軟件系統的系統數據庫表tab_policy及子表tab_filetemplate、tab_indexrules中;
21、模板文件列表用于選擇設置本歸檔策略要整理的所有類別文檔的樣本文件,通過打開指定文件目錄導入樣本文件的方式導入,其文件信息存入tab_filetemplate;
22、創(chuàng)建索引目錄選項,用于需要自動生成卷內目錄的情形,是一個高級可選項,系統默認不創(chuàng)建索引目錄;如需要在整理完成后自動生成卷內目錄文件,則設置一個卷內目錄的excel模板樣式,在模板中的單元格設置對應的引用的模板文件名及其它屬性的變更名,系統將自動動態(tài)賦值生成卷內目錄及其屬性;
23、歸檔規(guī)則集當中的每一個子項即一個歸檔規(guī)則,每個歸檔規(guī)則對應一種類型文件的其歸檔規(guī)則定義。
24、在本技術的其中一個實施例中,所述基于自定義歸檔策略的電子檔案自動化歸檔方法,所述步驟s2、配置歸檔策略包括:
25、步驟s2.1、新建歸檔策略,并根據其歸檔任務命名;
26、步驟s2.2、導入要歸檔的各類型文件,將待歸檔的類型文件導入到當前策略文件模板庫,系統將導入的文件存儲在程序運行根目錄下policy?子文件夾中的,并根據導入的順序分別為t1..tx;tx代表文件模板文件t1,t2...;同時將識別導入文件tx識別其主要屬性存儲于數據表tab_filetemplates中;其模板文件屬性包括文件標識名、文件類型、頁面像素寬、頁面像素高、頁數;
27、步驟s2.3、配置歸檔規(guī)則集,根據歸檔的要求制定一個或多個規(guī)則(r1..rx),以實現對文件的自動化歸檔整理,通常一個規(guī)則對應一個類型文件的歸檔任務,同一類型文件需要在不同的目標歸檔目錄中重復存放時,則一個類型文件對應可以配置兩個或以上的歸檔規(guī)則;
28、歸檔規(guī)則的屬性包含規(guī)則名稱、文件源目錄、對應模板文件(t1..tx中的一個)、頁面像素寬、頁面像素高、頁數、標識名、文件匹配規(guī)則表達式、歸檔目錄、歸檔文件命名規(guī)則和文件標識特征。
29、在本技術的其中一個實施例中,所述基于自定義歸檔策略的電子檔案自動化歸檔方法,步驟s3、根據歸檔策略執(zhí)行歸檔任務包括:
30、步驟s3.1、系統啟動,進行系統標準數據庫sysdb的連接、全局選項參數的初始化、界面初始化、ocr引擎初始化、條形碼二維碼識別引擎初始化、日志消息模塊加載并完成系統用戶的授權認證;
31、步驟s3.2、選擇當前的歸檔策略,默認系統加載最近一次使用的歸檔策略,并將其顯示在狀態(tài)欄位置,根據需求可以切換歸檔策略,切換時以列表的形式彈出,提供人工切換的人機交互界面,可以輸入關鍵字查詢歸檔策略名稱,支持模糊查詢;
32、步驟s3.3、指定待歸檔目錄,打開待歸檔文件的所在目錄,系統將根據所選歸檔策略,將重新初始化當前歸檔策略的所有配置屬性,加載當前歸檔策略所有的屬性以及所包含的歸檔規(guī)則集;
33、步驟s3.4、指定歸檔輸出目錄,指定歸檔輸出的文件夾目錄根目錄,可以是本地磁盤變可以為外部存儲設備路徑,當指定的文件夾目錄不存在時,系統將自動創(chuàng)建指定的輸出目錄;
34、步驟s3.5,待歸檔目錄的全目錄文件掃描分析,對待歸檔目錄進行全文件掃描,并依此建立全局內存文件索引表tab_soucefileindex,獲得所有的文件屬性索引信息內存表。建立的內存數據表包含的屬性有:文件名、文件路徑、文件大小、文件md5校驗碼、像素寬、像素高、總頁數、歸檔目錄、歸檔文件名、歸檔文件md5校驗碼、歸檔狀態(tài);
35、步驟s3.6,自動化歸檔整理,根據歸檔策略的歸檔規(guī)則數量n,創(chuàng)建n個歸檔規(guī)則線程tarchivethread任務,并將歸檔策略中1..n個歸檔規(guī)則的屬性集作為成員屬性賦值給對應的1..n線程,并啟動多線程歸檔處理任務,同時創(chuàng)建全局任務計數器taskcounter用于記錄子線程任務完成數量,taskcounter初始化為0,記錄歸檔開始時間g_starttime為當前時間;
36、在本技術的其中一個實施例中,所述基于自定義歸檔策略的電子檔案自動化歸檔方法,所述步驟s3.6,自動化歸檔整理包括:
37、步驟s3.6.1、創(chuàng)建n個tarchivethread子線程,設置線程屬性使其完成歸檔子任務后自銷毀;
38、步驟s3.6.2、遍歷每個tarchivethread子線程將規(guī)則的屬性集,賦給成員變量規(guī)則屬性集rulepropertys;
39、步驟s3.6.3、每個子線程tarchivethread根據其rulepropertys對應的規(guī)則的屬性文件規(guī)則表達式轉化成對應的sql語句,將sql語句執(zhí)行查詢,從內存數據索引表tab_soucefileindex快速檢索并生成該線程所對應的的歸檔規(guī)則下的要整理的文件清單到新的內存表,即待歸檔的文件列表集tab_sourcefilerule.同時對數據集tab_sourcefilerule創(chuàng)建新的x個特征區(qū)域的屬性字段識別值cx_value、識別結果cx_state、歸檔文件md5校驗碼c_md5,歸檔文件大小tab_sourcefilerule.c_filesize;
40、步驟s3.6.4、遍歷tab_sourcefilerule的所有文件,根據特征塊特征提取特征塊的位圖,并通過tesseract-ocr或條形碼二維碼引擎進行文字識別,將其文字識別的結果賦值給數據集tab_sourcefilerule的cx_value,cx_state;
41、步驟s3.6.5、獲取歸檔目錄,根據歸檔目錄規(guī)則表達式,生成歸檔目標目錄aimdir;
42、步驟s3.6.6、獲取歸檔文件名,根據歸檔文件命名規(guī)則,轉換生成新歸檔文件名稱newfilename;
43、步驟s3.6.7、文件目標位置歸檔。根據文件的歸檔目錄,歸檔文件名,將原文件復制到目標位置,復制成功后,將tab_sourcefilerule中歸檔字段成功狀態(tài)arcivestate置1。復制完成后,若設置了歸檔優(yōu)化選項則對歸檔后的文件進行優(yōu)化處理形成最終的歸檔文件,獲取最終的歸檔文件校驗碼并更新到tab_sourcefilerule.c_md5,文件大小tab_sourcefilerule.c_filesize,最后通過多線程消息,發(fā)送文件歸檔更新狀態(tài)消息,主線程收到消息后將在日志顯示顯示區(qū)刷新進度條;
44、步驟s3.6.8、當tab_sourcefilerule中所有文件完成歸檔時,將歸檔結果(歸檔目錄、歸檔文件名、歸檔文件md5校驗碼、歸檔狀態(tài)字段)更新到tab_soucefileindex。子線程任務完成,在其銷毀前事件中發(fā)送消息至主線程,在主線程中全局變量taskcounter自增1,并釋放tarchivethread子線程資源;
45、步驟s3.6.9、主線程中判斷taskcounter=n時(所有歸檔規(guī)則任務完成),若設置了創(chuàng)建索引目錄選項,則需要根據模板樣式來自動生成卷內目錄,所有操作結束完成后,記錄g_endtime,計算歸檔總用時t_totaltime=g_endtime-g_starttime。
46、本技術的有益效果:本方法能實現自動化整理和管理文件。可以掃描計算機或網絡中的文件,并根據預設的策略規(guī)則將其分類和歸檔到指定的文件夾中,其有益效果分析如下:
47、節(jié)省時間:其自動化歸檔軟件及方法可以自動執(zhí)行繁瑣的文件管理任務,從而節(jié)省用戶的時間和精力。用戶無需手動查找、移動和重命名文件,只需設置好規(guī)則,軟件就會自動完成這些工作。
48、提高效率:通過其自動化歸檔軟件及方法,可以更快組織檔案數字化歸檔,提高工作效率。軟件可以根據文件類型、創(chuàng)建日期、修改日期等屬性對文件進行分類和歸檔,使文件更加有序,便于檢索及接入三方檔案管理歸檔軟件系統。
49、減少錯誤:手動歸檔不僅需要大量人力,同時容易出錯,如誤刪重要文件、將文件移動到錯誤的文件夾等。自動化歸檔軟件及方法可以減少這些錯誤的發(fā)生,確保文件的安全和準確性。
50、可定制性:其自動化歸檔軟件及方法具有高度的可定制性,用戶可以根據自己的需求設置歸檔規(guī)則。這使得該方法及實現軟件實現可以適應各種不同的工作環(huán)境和歸檔需求,適用于各行各業(yè)檔案歸檔的工廠化生產的應用場景,提高檔案加工數字化歸檔的生產效率。