亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法及系統(tǒng)與流程

文檔序號(hào):12596333閱讀:479來源:國知局
海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法及系統(tǒng)與流程

本發(fā)明屬于文檔管理信息化技術(shù)領(lǐng)域,更具體地說,本發(fā)明涉及一種海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法及系統(tǒng)。



背景技術(shù):

核電工程資料多以圖紙,文檔,軟件輸入輸入數(shù)據(jù),三維模型為主,其非結(jié)構(gòu)化程度較高,通常使用企業(yè)內(nèi)容管理平臺(tái)(Enterprise Content Management,ECM)進(jìn)行管理,企業(yè)內(nèi)容管理平臺(tái)將部分結(jié)構(gòu)化信息存儲(chǔ)在數(shù)據(jù)庫中,便于通過特征元數(shù)據(jù)快速檢索和利用,而技術(shù)資料的主要技術(shù)信息則存儲(chǔ)在實(shí)體的電子文件中。

核電工程設(shè)計(jì)企業(yè)外部文檔資料數(shù)量龐大,達(dá)到百萬級(jí)別,尤其是AP1000、EPR三代核電技術(shù)轉(zhuǎn)讓資料,由于技術(shù)轉(zhuǎn)讓資料大部分是非結(jié)構(gòu)化或半結(jié)構(gòu)化文件檔案,這些海量資料存在時(shí)間跨度大,數(shù)量龐大,編碼復(fù)雜,文件版本多,重復(fù)提交現(xiàn)象嚴(yán)重,元數(shù)據(jù)信息不全,電子文件命名不規(guī)范等諸多問題。目前這些海量資料的結(jié)構(gòu)化梳理方式以文檔人員手動(dòng)處理為主,不僅耗費(fèi)大量人力物力,而且,海量資料人工梳理的工作效率極為低下。

因此,如何開發(fā)及提供一種能夠?qū)Π虢Y(jié)構(gòu)化甚至非結(jié)構(gòu)化核電文檔資料進(jìn)行高效的結(jié)構(gòu)化處理的核電技術(shù)資料處理方法及系統(tǒng),已成為亟待解決的技術(shù)問題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于:針對(duì)現(xiàn)有技術(shù)的上述缺陷,提供一種通過智能化分布式處理方式對(duì)海量非結(jié)構(gòu)化電子文件進(jìn)行高效的結(jié)構(gòu)化處理,節(jié)省人工成本, 顯著提高數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)換效率及準(zhǔn)確率的結(jié)構(gòu)化處理方法及系統(tǒng)。

為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法,該方法包括:

根據(jù)核電技術(shù)文件的編碼規(guī)范及匹配規(guī)則制定元數(shù)據(jù)形式化約束條件;

根據(jù)元數(shù)據(jù)形式化約束條件對(duì)海量非結(jié)構(gòu)化核電技術(shù)文件進(jìn)行結(jié)構(gòu)化處理,得到滿足核電企業(yè)內(nèi)容管理系統(tǒng)結(jié)構(gòu)要求的海量結(jié)構(gòu)化數(shù)據(jù),并將該海量結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入核電企業(yè)內(nèi)容管理系統(tǒng)。

本發(fā)明還提供了一種海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理系統(tǒng),該系統(tǒng)包括:

元數(shù)據(jù)形式化約束配置模塊,用于根據(jù)核電技術(shù)資料的編碼規(guī)范及匹配規(guī)則制定元數(shù)據(jù)形式化約束條件;

結(jié)構(gòu)化處理模塊,用于根據(jù)元數(shù)據(jù)形式化約束條件對(duì)海量非結(jié)構(gòu)化電子文件進(jìn)行結(jié)構(gòu)化處理,得到滿足核電企業(yè)內(nèi)容管理系統(tǒng)結(jié)構(gòu)要求的海量結(jié)構(gòu)化數(shù)據(jù);

內(nèi)容管理系統(tǒng)集成模塊,用于將該海量結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入核電企業(yè)內(nèi)容管理系統(tǒng)。

本發(fā)明提供了一種智能化程度高,科學(xué)嚴(yán)謹(jǐn),簡單實(shí)用,且運(yùn)行可靠穩(wěn)定的海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法及系統(tǒng),應(yīng)用本發(fā)明海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法及系統(tǒng),可顯著提高海量半結(jié)構(gòu)化或非結(jié)構(gòu)化電子文件(比如結(jié)構(gòu)化程度低的海量核電技術(shù)文件)的結(jié)構(gòu)化轉(zhuǎn)換效率及準(zhǔn)確率,降低人工成本。另外,本發(fā)明還可通過日志對(duì)元數(shù)據(jù)形式化約束條件校驗(yàn)或匹配過程中的報(bào)錯(cuò)作完整記錄,利于后期追蹤及回滾,本發(fā)明系統(tǒng)還支持對(duì)因存在數(shù)據(jù)噪聲而被濾除,但經(jīng)人工干預(yù)更正的那部分核電技術(shù)文件進(jìn)行再一次的結(jié)構(gòu)化處理,以提高非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)換的成功率。

附圖說明

下面結(jié)合附圖和具體實(shí)施方式,對(duì)本發(fā)明海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法及系統(tǒng)進(jìn)行說明,其中:

圖1為本發(fā)明較佳實(shí)施例提供的海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法的流程圖;

圖2為圖1中包含的海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化處理過程的具體流程圖;

圖3為圖2中包含的濾除海量核電技術(shù)文件中存在數(shù)據(jù)噪聲的核電技術(shù)文件的流程圖;

圖4為圖2中包含的將海量結(jié)構(gòu)化核電技術(shù)文件導(dǎo)入核電企業(yè)內(nèi)容管理系統(tǒng)的流程圖;

圖5為本發(fā)明另一較佳實(shí)施例提供的海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理系統(tǒng)的結(jié)構(gòu)框圖;

圖6為圖5中結(jié)構(gòu)化處理模塊的結(jié)構(gòu)框圖;

圖7為圖6中數(shù)據(jù)噪聲濾除子模塊的結(jié)構(gòu)框圖。

具體實(shí)施方式

為了使本發(fā)明的發(fā)明目的、技術(shù)方案及其技術(shù)效果更加清晰,以下結(jié)合附圖和具體實(shí)施方式,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解的是,本說明書中描述的具體實(shí)施方式僅僅是為了解釋本發(fā)明,并非為了限定本發(fā)明。

如圖1所示,針對(duì)現(xiàn)有技術(shù)中核電技術(shù)資料數(shù)量龐大且大部分為非結(jié)構(gòu)化或半結(jié)構(gòu)化的文件,結(jié)構(gòu)化梳理方式落后且處理效率低下,以及人工成本高的技術(shù)缺陷,本發(fā)明提出了一種海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法,該方法包括以下步驟:

S100、根據(jù)核電技術(shù)文件的編碼規(guī)范及匹配規(guī)則制定元數(shù)據(jù)形式化約束條 件。該元數(shù)據(jù)形式化約束條件用于判斷某個(gè)元數(shù)據(jù)m實(shí)例是否符合該元數(shù)據(jù)集合中對(duì)應(yīng)元素m的限制條件,判斷條件以元數(shù)據(jù)枚舉庫或形式化正則表達(dá)約束函數(shù)作為依據(jù)。

S200、根據(jù)元數(shù)據(jù)形式化約束條件對(duì)海量非結(jié)構(gòu)化核電技術(shù)文件進(jìn)行結(jié)構(gòu)化處理,得到滿足核電企業(yè)內(nèi)容管理系統(tǒng)600結(jié)構(gòu)要求的海量結(jié)構(gòu)化數(shù)據(jù)。在步驟S200中,優(yōu)選地,對(duì)海量非結(jié)構(gòu)化核電技術(shù)文件進(jìn)行分布式處理,以此提高核電技術(shù)文件的處理效率,縮短海量核電技術(shù)文件結(jié)構(gòu)化處理的耗時(shí)。

S300、將該海量結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入核電企業(yè)內(nèi)容管理系統(tǒng)600。

在本發(fā)明海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化處理方法中,應(yīng)用分布式數(shù)據(jù)處理方式對(duì)海量非結(jié)構(gòu)化核電技術(shù)文件進(jìn)行分布式處理,提高了海量非結(jié)構(gòu)化核電技術(shù)文件結(jié)構(gòu)化梳理的處理效率,縮短了海量數(shù)據(jù)結(jié)構(gòu)化處理的耗時(shí)。本發(fā)明可根據(jù)核電技術(shù)文件特點(diǎn)進(jìn)行自由組合及配置,可適應(yīng)多種核電技術(shù)路線。

進(jìn)一步地,如圖2所示,本發(fā)明步驟S200具體包括:

步驟S201、根據(jù)元數(shù)據(jù)形式化約束條件抽取海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息,將抽取的結(jié)構(gòu)化信息存儲(chǔ)于元數(shù)據(jù)結(jié)構(gòu)化信息數(shù)據(jù)庫400。

其中,海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息的抽取過程如下:

采用分布式處理方式對(duì)海量非結(jié)構(gòu)化核電技術(shù)文件中的元數(shù)據(jù)進(jìn)行掃描,獲得海量非結(jié)構(gòu)化核電技術(shù)文件的文件屬性(例如,文件名稱、文件類型、空間大小、創(chuàng)建日期、Hash碼等)及目錄屬性(如技術(shù)轉(zhuǎn)讓任務(wù)包、傳遞文件的函件編碼、傳遞文件的日期甚至文件的編碼日期);以及

對(duì)海量非結(jié)構(gòu)化核電技術(shù)文件進(jìn)行分布式內(nèi)容分析,利用Map&Reduce抽取海量非結(jié)構(gòu)化核電技術(shù)文件中的關(guān)鍵字,將抽取的關(guān)鍵字作為包含于海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息中的內(nèi)容屬性。

S202、根據(jù)設(shè)定的元數(shù)據(jù)匹配規(guī)則過濾海量非結(jié)構(gòu)化核電技術(shù)文件中存在 數(shù)據(jù)噪聲的核電技術(shù)文件。在本發(fā)明中,由于一些電子文件的結(jié)構(gòu)化數(shù)據(jù)表述模糊且形式不規(guī)范,致使該類電子文件中存在數(shù)據(jù)噪聲。通過海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化處理,濾除海量非結(jié)構(gòu)化核電技術(shù)文件中存在數(shù)據(jù)噪聲的核電技術(shù)文件,并建立關(guān)聯(lián)結(jié)構(gòu)化信息及核電技術(shù)文件的映射關(guān)系,為后面的核電技術(shù)文件的查找、索引提供了極大方便,保證了海量數(shù)據(jù)的有序、可用。

進(jìn)一步地,如圖3所示,本發(fā)明提出了包含于步驟S202中的一種數(shù)據(jù)噪聲過濾方案,該數(shù)據(jù)噪聲過濾方案具體包括如下步驟:

步驟S2021、抓取非結(jié)構(gòu)化核電技術(shù)文件自帶的結(jié)構(gòu)化信息。

步驟S2022、通過元數(shù)據(jù)形式化約束條件對(duì)該非結(jié)構(gòu)化核電技術(shù)文件自帶的結(jié)構(gòu)化信息進(jìn)行校驗(yàn),以判斷該結(jié)構(gòu)化信息是否滿足制定的元數(shù)據(jù)形式化約束條件。

步驟S2023、如該結(jié)構(gòu)化信息符合該元數(shù)據(jù)形式化約束條件,則執(zhí)行下一步驟S2024;否則,執(zhí)行步驟S2026。

步驟S2024、將該結(jié)構(gòu)化信息與元數(shù)據(jù)結(jié)構(gòu)化信息數(shù)據(jù)庫400中的結(jié)構(gòu)化信息進(jìn)行匹配分析。

該匹配分析過程具體如下:

應(yīng)用匹配分值計(jì)算公式計(jì)算該非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息在基于不同維度及權(quán)重的結(jié)構(gòu)化元數(shù)據(jù)結(jié)構(gòu)框架下的匹配分?jǐn)?shù),并將該匹配分?jǐn)?shù)與設(shè)定的匹配分?jǐn)?shù)閾值進(jìn)行比較;

該匹配分值計(jì)算公式如下所示:

其中:

MatchMeta(Δ)表示非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息在結(jié)構(gòu)化元數(shù)據(jù)結(jié)構(gòu)框架下的匹配分?jǐn)?shù);

δi表示將核電技術(shù)文件的結(jié)構(gòu)化數(shù)據(jù)按元數(shù)據(jù)規(guī)則劃分成的n個(gè)元數(shù)據(jù)/元 數(shù)據(jù)組中第i個(gè)元數(shù)據(jù)/元數(shù)據(jù)組;

λi表示第i個(gè)元數(shù)據(jù)/元數(shù)據(jù)組的權(quán)值;

Fii,mi)為用于計(jì)算劃分的每個(gè)元數(shù)據(jù)/元數(shù)據(jù)組的匹配分值的匹配函數(shù)。

步驟S2025、判斷匹配是否成功。如該非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息的匹配分?jǐn)?shù)超過該設(shè)定的匹配分?jǐn)?shù)閾值,則判定匹配成功,執(zhí)行步驟S2027;否則,判定匹配失敗,執(zhí)行步驟S2026。

步驟S2026、報(bào)錯(cuò)并通過日志記錄報(bào)錯(cuò)信息。該報(bào)錯(cuò)信息包括校驗(yàn)錯(cuò)誤信息及匹配錯(cuò)誤信息。通過日志記錄報(bào)錯(cuò)信息,本發(fā)明可完整記錄海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化轉(zhuǎn)變過程,利于追蹤及回滾,保證了數(shù)據(jù)的完整性及一致性。

步驟S2027、記錄匹配成功的結(jié)構(gòu)化信息,并建立該匹配成功的結(jié)構(gòu)化信息及其對(duì)應(yīng)的經(jīng)結(jié)構(gòu)化處理的核電技術(shù)文件的映射關(guān)系。

待步驟S2027及步驟S2026執(zhí)行完畢后,返回步驟S2021。

進(jìn)一步地,本發(fā)明還提出了一種包含在步驟S300中的基于結(jié)構(gòu)化信息的海量結(jié)構(gòu)化數(shù)據(jù)的索引及導(dǎo)入方法。

請(qǐng)結(jié)合圖4,該海量數(shù)據(jù)索引及導(dǎo)入方法具體包括:

步驟S301、根據(jù)匹配成功的結(jié)構(gòu)化信息索引與之存在映射關(guān)系的,經(jīng)結(jié)構(gòu)化處理且滿足核電企業(yè)內(nèi)容管理系統(tǒng)600結(jié)構(gòu)化要求的核電技術(shù)文件;

步驟S302、將該結(jié)構(gòu)化核電技術(shù)文件導(dǎo)入核電企業(yè)內(nèi)容管理系統(tǒng)600。

進(jìn)一步地,本發(fā)明在步驟S300之后還可以包括:

步驟S400、在完成海量結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)入之后,根據(jù)元數(shù)據(jù)中的文件屬性創(chuàng)建資料文件授權(quán)組,該資料文件授權(quán)組由文件的類別、任務(wù)包、文件所屬領(lǐng)域及文件密級(jí)數(shù)據(jù)拼接而成。

可選地,本發(fā)明還可以包括:

步驟S500、接收經(jīng)人工干預(yù)更正的核電技術(shù)文件,根據(jù)元數(shù)據(jù)形式化約束 條件對(duì)該部分更正的核電技術(shù)文件進(jìn)行再一次的結(jié)構(gòu)化處理(由于更正的核電技術(shù)文件的結(jié)構(gòu)化處理方案與本申請(qǐng)上述步驟S200基本相同,故在此不再贅述)。

本發(fā)明對(duì)已知結(jié)構(gòu)化元數(shù)據(jù)結(jié)構(gòu)框架下的多個(gè)維度(即元數(shù)據(jù)或元數(shù)據(jù)組)及不同維度的權(quán)值進(jìn)行全面考量,合理設(shè)定結(jié)構(gòu)化匹配條件,應(yīng)用科學(xué)嚴(yán)謹(jǐn)?shù)钠ヅ浞种涤?jì)算公式計(jì)算海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息與已知的結(jié)構(gòu)化元數(shù)據(jù)結(jié)構(gòu)框架下的匹配程度,達(dá)到了高效精確地過濾海量非結(jié)構(gòu)性核電技術(shù)文件中存在數(shù)據(jù)噪聲而無法滿足核電企業(yè)內(nèi)容管理系統(tǒng)600結(jié)構(gòu)化要求的核電技術(shù)文件,得到有序、可用的海量結(jié)構(gòu)化數(shù)據(jù)。因此,本發(fā)明不僅大大降低了人工成本及生產(chǎn)成本,還能顯著提高海量數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)換效率及其準(zhǔn)確率,提高了時(shí)間效率。

基于圖1至圖4所述的海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法,本發(fā)明還提出了一種海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理系統(tǒng)。

請(qǐng)結(jié)合圖5,該海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理系統(tǒng)包括:

元數(shù)據(jù)形式化約束配置模塊100,用于根據(jù)核電技術(shù)資料的編碼規(guī)范及匹配規(guī)則制定元數(shù)據(jù)形式化約束條件;

結(jié)構(gòu)化處理模塊200,用于根據(jù)元數(shù)據(jù)形式化約束條件對(duì)海量非結(jié)構(gòu)化電子文件進(jìn)行分布式的結(jié)構(gòu)化處理,得到滿足核電企業(yè)內(nèi)容管理系統(tǒng)600結(jié)構(gòu)要求的海量結(jié)構(gòu)化數(shù)據(jù);

內(nèi)容管理系統(tǒng)集成模塊300,用于將該海量結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入核電企業(yè)內(nèi)容管理系統(tǒng)600。

請(qǐng)結(jié)合圖6,進(jìn)一步地,該結(jié)構(gòu)化處理模塊200還包括:

非結(jié)構(gòu)化電子文件結(jié)構(gòu)化數(shù)據(jù)抽取子模塊201,用于根據(jù)制定的元數(shù)據(jù)形式化約束條件抽取海量非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息;該結(jié)構(gòu)化信息包括非結(jié)構(gòu)化核電技術(shù)文件的文件屬性、目錄屬性及內(nèi)容屬性。

數(shù)據(jù)噪聲濾除子模塊202,用于根據(jù)設(shè)定的元數(shù)據(jù)匹配規(guī)則過濾海量非結(jié)構(gòu)化核電技術(shù)文件中存在數(shù)據(jù)噪聲的核電技術(shù)文件。

進(jìn)一步地,該系統(tǒng)還包括:

元數(shù)據(jù)結(jié)構(gòu)化信息數(shù)據(jù)庫400,用于存儲(chǔ)該非結(jié)構(gòu)化電子文件結(jié)構(gòu)化數(shù)據(jù)抽取子模塊201抽取的結(jié)構(gòu)化信息。

請(qǐng)結(jié)合圖7,進(jìn)一步地,該數(shù)據(jù)噪聲濾除子模塊202可以包括:

結(jié)構(gòu)化信息校驗(yàn)單元2021,用于抓取非結(jié)構(gòu)化核電技術(shù)文件自帶的結(jié)構(gòu)化信息,通過元數(shù)據(jù)形式化約束條件對(duì)該結(jié)構(gòu)化信息進(jìn)行校驗(yàn),以判斷該結(jié)構(gòu)化信息是否符合元數(shù)據(jù)形式化約束條件;

匹配分析單元2022,用于該非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息通過校驗(yàn)時(shí),應(yīng)用匹配分值計(jì)算公式計(jì)算該非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息在基于不同維度及權(quán)重的結(jié)構(gòu)化元數(shù)據(jù)結(jié)構(gòu)框架下的匹配分?jǐn)?shù),將該匹配分?jǐn)?shù)與設(shè)定的匹配分?jǐn)?shù)閾值進(jìn)行比較,根據(jù)比較結(jié)果判斷該非結(jié)構(gòu)化核電技術(shù)文件的元數(shù)據(jù)是否匹配成功,據(jù)此判斷該非結(jié)構(gòu)化核電技術(shù)文件是否為存在數(shù)據(jù)噪聲的核電技術(shù)文件;其中:

該匹配分值計(jì)算公式如下所示:

其中:

MatchMeta(Δ)表示非結(jié)構(gòu)化核電技術(shù)文件的結(jié)構(gòu)化信息在結(jié)構(gòu)化元數(shù)據(jù)結(jié)構(gòu)框架下的匹配分?jǐn)?shù);

δi表示將核電技術(shù)文件的結(jié)構(gòu)化數(shù)據(jù)按元數(shù)據(jù)規(guī)則劃分成的n個(gè)元數(shù)據(jù)/元數(shù)據(jù)組中第i個(gè)元數(shù)據(jù)/元數(shù)據(jù)組;

λi表示第i個(gè)元數(shù)據(jù)/元數(shù)據(jù)組的權(quán)值;

Fii,mi)為用于計(jì)算劃分的每個(gè)元數(shù)據(jù)/元數(shù)據(jù)組的匹配分值的匹配函數(shù)。

具體地,該內(nèi)容管理系統(tǒng)集成模塊300用于根據(jù)匹配成功的結(jié)構(gòu)化信息索 引與該結(jié)構(gòu)化信息存在映射關(guān)系的結(jié)構(gòu)化核電技術(shù)文件,并將該結(jié)構(gòu)化核電技術(shù)文件導(dǎo)入核電企業(yè)內(nèi)容管理系統(tǒng)600。

進(jìn)一步地,該系統(tǒng)還可以包括一個(gè)日志記錄及報(bào)錯(cuò)模塊500,該日志記錄及報(bào)錯(cuò)模塊500用于當(dāng)該結(jié)構(gòu)化信息不符合制定的元數(shù)據(jù)形式化約束條件,或者該結(jié)構(gòu)化信息匹配失敗時(shí),報(bào)錯(cuò)并通過日志記錄報(bào)錯(cuò)信息,該報(bào)錯(cuò)信息包括校驗(yàn)錯(cuò)誤信息及匹配錯(cuò)誤信息。

可選地,該結(jié)構(gòu)化處理模塊200還用于接收由外部輸入的,經(jīng)人工干預(yù)更正的核電技術(shù)文件,根據(jù)制定的元數(shù)據(jù)形式化約束條件對(duì)該部分更正的核電技術(shù)文件進(jìn)行再一次的結(jié)構(gòu)化處理。

綜上所述,本發(fā)明提供了一種智能化程度高,科學(xué)嚴(yán)謹(jǐn),簡單實(shí)用,且運(yùn)行可靠穩(wěn)定的海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法及系統(tǒng),應(yīng)用本發(fā)明海量非結(jié)構(gòu)化電子文件的結(jié)構(gòu)化處理方法及系統(tǒng),可顯著提高海量半結(jié)構(gòu)化或非結(jié)構(gòu)化電子文件(比如結(jié)構(gòu)化程度低的海量核電技術(shù)文件)的結(jié)構(gòu)化轉(zhuǎn)換效率及準(zhǔn)確率,降低人工成本。另外,本發(fā)明還可通過日志對(duì)元數(shù)據(jù)形式化約束條件校驗(yàn)或匹配過程中的報(bào)錯(cuò)作完整記錄,利于后期追蹤及回滾,本發(fā)明系統(tǒng)還支持對(duì)因存在數(shù)據(jù)噪聲而被濾除,但經(jīng)人工干預(yù)更正的那部分核電技術(shù)文件進(jìn)行再一次的結(jié)構(gòu)化處理,以提高非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)換的成功率。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。

上面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行了描述,但是本發(fā)明并不局限于上述的具體實(shí)施方式,上述的具體實(shí)施方式僅僅是示意性的,而不是限制性的,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明宗旨和權(quán)利要求所保 護(hù)的范圍情況下,還可作出很多形式,這些均屬于本發(fā)明的保護(hù)之內(nèi)。此外,盡管本說明書中使用了一些特定的術(shù)語,但這些術(shù)語只是為了方便說明,并不對(duì)本發(fā)明構(gòu)成任何限制。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1