本發(fā)明屬于建設(shè)行業(yè)工程項(xiàng)目文件處理領(lǐng)域,具體涉及一種建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集方法及系統(tǒng)
背景技術(shù):
xml文件作為建設(shè)行業(yè)項(xiàng)目工程數(shù)據(jù)存儲(chǔ)的主要文件類型之一,已經(jīng)被廣泛使用。但是對(duì)于xml文件內(nèi)部的數(shù)據(jù)而言,建設(shè)行業(yè)還沒有一個(gè)通用、標(biāo)準(zhǔn)的歸集方案,因此建設(shè)行業(yè)的各企業(yè)主要按照各自的意愿設(shè)置各種標(biāo)準(zhǔn)進(jìn)行歸集。這些歸集標(biāo)準(zhǔn)不統(tǒng)一的xml文件數(shù)據(jù)在后期的應(yīng)用中難以自動(dòng)進(jìn)行識(shí)別及分析,因此對(duì)分析工作帶來了很大困難。現(xiàn)有的解決方案主要仍是通過人工進(jìn)行識(shí)別及分析,效率很低且成本過高。
故而,現(xiàn)有技術(shù)需要進(jìn)一步發(fā)展及改進(jìn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于解決建設(shè)行業(yè)中缺少xml文件數(shù)據(jù)的通用歸集方案的問題,由此公開一種建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集方法。同時(shí),本發(fā)明還相應(yīng)公開一種建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集系統(tǒng)。
為了實(shí)現(xiàn)以上目的,本發(fā)明公開的一種建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集方法,包括以下步驟:
a、基于分布式和高并發(fā)的計(jì)算機(jī)技術(shù),獲取各客戶端上的建設(shè)行業(yè)工程項(xiàng)目xml文件,并提取xml文件中所有的節(jié)點(diǎn)屬性信息以及關(guān)鍵屬性字段;
b、根據(jù)提取的節(jié)點(diǎn)屬性信息將關(guān)鍵屬性字段轉(zhuǎn)換為標(biāo)準(zhǔn)文本信息;
c、分析所述標(biāo)準(zhǔn)文本信息,根據(jù)分析結(jié)果將對(duì)應(yīng)工程項(xiàng)目進(jìn)行歸集分類,對(duì)應(yīng)存儲(chǔ)至文檔庫(kù)、材價(jià)庫(kù)、項(xiàng)目庫(kù)以及供應(yīng)商/品牌庫(kù)中的其中一者;
d、將所存儲(chǔ)的工程項(xiàng)目按工程編碼歸集,并按照工程結(jié)構(gòu)自動(dòng)匯總工程項(xiàng)目數(shù)據(jù)層級(jí),輸出工程指標(biāo)。
本發(fā)明的進(jìn)一步方案中,步驟b中具體包括:
b1、對(duì)包含有關(guān)鍵屬性字段的文本信息進(jìn)行ik分詞處理,并將與關(guān)鍵詞庫(kù)進(jìn)行匹配,得到有效的到關(guān)鍵屬性字段;
b2、通過simhash算法對(duì)有效的關(guān)鍵屬性字段相似對(duì)度進(jìn)行計(jì)算及統(tǒng)計(jì),提取出標(biāo)準(zhǔn)格式數(shù)據(jù),并形成標(biāo)準(zhǔn)文本信息。
本發(fā)明的進(jìn)一步方案中,步驟d包括對(duì)標(biāo)準(zhǔn)文本信息按照工程項(xiàng)目數(shù)據(jù)層級(jí)進(jìn)行統(tǒng)一編碼。
本發(fā)明的進(jìn)一步方案中,步驟d的工程項(xiàng)目數(shù)據(jù)層級(jí)包括:建設(shè)項(xiàng)目、單項(xiàng)工程、單位工程、分部分項(xiàng)、清單、定額、消耗量、工料機(jī)數(shù)據(jù)。
本發(fā)明相應(yīng)公開的一種建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集系統(tǒng),包括節(jié)點(diǎn)屬性及字段提取模塊、標(biāo)準(zhǔn)文本轉(zhuǎn)換模塊、工程項(xiàng)目歸集模塊、工程指標(biāo)輸出模塊;其中,
節(jié)點(diǎn)屬性及字段提取模塊用于在各客戶端上采集建設(shè)行業(yè)工程項(xiàng)目xml文件,并提取xml文件中所有的節(jié)點(diǎn)屬性信息以及關(guān)鍵屬性字段;標(biāo)準(zhǔn)文本轉(zhuǎn)換模塊用于根據(jù)提取的節(jié)點(diǎn)屬性信息將關(guān)鍵屬性字段轉(zhuǎn)換為標(biāo)準(zhǔn)文本信息;工程項(xiàng)目歸集模塊用于分析標(biāo)準(zhǔn)文本信息,根據(jù)分析結(jié)果將對(duì)應(yīng)工程項(xiàng)目進(jìn)行歸集分類,對(duì)應(yīng)存儲(chǔ)至文檔庫(kù)、材價(jià)庫(kù)、項(xiàng)目庫(kù)以及供應(yīng)商/品牌庫(kù)中的其中一者;工程指標(biāo)輸出模塊用于將所存儲(chǔ)的工程項(xiàng)目按工程編碼歸集,并按照工程結(jié)構(gòu)自動(dòng)匯總工程項(xiàng)目數(shù)據(jù)層級(jí),輸出工程指標(biāo)。
有益效果:本發(fā)明通過提取xml文件數(shù)據(jù)的節(jié)點(diǎn)屬性信息以及關(guān)鍵屬性字段,對(duì)工程項(xiàng)目進(jìn)行分類歸集分類及編碼歸集,并按照工程項(xiàng)目結(jié)構(gòu)自動(dòng)匯總及輸出工程指標(biāo),從而實(shí)現(xiàn)了一種高效的建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集方案,為建設(shè)行業(yè)xml文件數(shù)據(jù)的通用歸集提供了參考案例。此外,本發(fā)明還具有歸集效率更高、更準(zhǔn)確等有益效果。
附圖說明
圖1是實(shí)施例一公開的建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集方法整體流程示意圖。
圖2是實(shí)施例二公開的建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集系統(tǒng)結(jié)構(gòu)框圖。
具體實(shí)施方式
為了便于本領(lǐng)域技術(shù)人員理解,下面將結(jié)合附圖以及實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步描述。
實(shí)施例一
請(qǐng)參閱圖1,實(shí)施例一公開的一種建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集方法,主要包括以下步驟s100至s400:
s100、基于分布式和高并發(fā)的計(jì)算機(jī)技術(shù),獲取各客戶端上的建設(shè)行業(yè)工程項(xiàng)目xml文件,并提取xml文件中所有的節(jié)點(diǎn)屬性信息以及關(guān)鍵屬性字段。
步驟s100中的節(jié)點(diǎn)屬性信息用于表征該節(jié)點(diǎn)中字段的屬性,譬如某工程項(xiàng)目xml文件中的節(jié)點(diǎn)屬性信息有:序號(hào)、定額編號(hào)、項(xiàng)目名稱、單位、數(shù)量、儀表名稱、單位定額值、合計(jì)值等;其中節(jié)點(diǎn)屬性信息的“項(xiàng)目名稱”有以下關(guān)鍵屬性字段:保護(hù)倒換測(cè)試、敷設(shè)管道光纜、光纜割接、光纖連接、光纜中繼段雙窗口測(cè)試等。
s200、根據(jù)提取的節(jié)點(diǎn)屬性信息將關(guān)鍵屬性字段轉(zhuǎn)換為標(biāo)準(zhǔn)文本信息。
步驟s200中具體可采用以下s210至s220的方案:
s210、對(duì)包含有關(guān)鍵屬性字段的文本信息進(jìn)行ik分詞處理,并將與關(guān)鍵詞庫(kù)進(jìn)行匹配,得到有效的到關(guān)鍵屬性字段;
s220、通過simhash算法對(duì)有效的關(guān)鍵屬性字段相似對(duì)度進(jìn)行計(jì)算及統(tǒng)計(jì),提取出標(biāo)準(zhǔn)格式數(shù)據(jù),并形成標(biāo)準(zhǔn)文本信息。
s300、分析所述標(biāo)準(zhǔn)文本信息,根據(jù)分析結(jié)果將對(duì)應(yīng)工程項(xiàng)目進(jìn)行歸集分類,對(duì)應(yīng)存儲(chǔ)至文檔庫(kù)、材價(jià)庫(kù)、項(xiàng)目庫(kù)以及供應(yīng)商/品牌庫(kù)中的其中一者。
s400、將所存儲(chǔ)的工程項(xiàng)目按工程編碼歸集,并按照工程結(jié)構(gòu)自動(dòng)匯總工程項(xiàng)目數(shù)據(jù)層級(jí),輸出工程指標(biāo)。
步驟s400包括對(duì)標(biāo)準(zhǔn)文本信息按照工程項(xiàng)目數(shù)據(jù)層級(jí)進(jìn)行統(tǒng)一編碼。其中的工程項(xiàng)目數(shù)據(jù)層級(jí)包括:建設(shè)項(xiàng)目、單項(xiàng)工程、單位工程、分部分項(xiàng)、清單、定額、消耗量、工料機(jī)數(shù)據(jù)。其中的工程指標(biāo)可包括工程量、材料數(shù)量、成本等指標(biāo)。
本實(shí)施例通過通過提取xml文件數(shù)據(jù)的節(jié)點(diǎn)屬性信息以及關(guān)鍵屬性字段,對(duì)工程項(xiàng)目進(jìn)行分類歸集分類及編碼歸集,并按照工程項(xiàng)目結(jié)構(gòu)自動(dòng)匯總及輸出工程指標(biāo),從而實(shí)現(xiàn)了一種高效的建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集方案,為建設(shè)行業(yè)xml文件數(shù)據(jù)的通用歸集提供了參考案例。
實(shí)施例二
請(qǐng)參閱圖2,實(shí)施例二相應(yīng)公開的一種建設(shè)行業(yè)工程項(xiàng)目xml文件數(shù)據(jù)歸集系統(tǒng),包括節(jié)點(diǎn)屬性及字段提取模塊10、標(biāo)準(zhǔn)文本轉(zhuǎn)換模塊20、工程項(xiàng)目歸集模塊30、工程指標(biāo)輸出模塊40。
其中,節(jié)點(diǎn)屬性及字段提取模塊10用于在各客戶端上采集建設(shè)行業(yè)工程項(xiàng)目xml文件,并提取xml文件中所有的節(jié)點(diǎn)屬性信息以及關(guān)鍵屬性字段;標(biāo)準(zhǔn)文本轉(zhuǎn)換模塊20用于根據(jù)提取的節(jié)點(diǎn)屬性信息將關(guān)鍵屬性字段轉(zhuǎn)換為標(biāo)準(zhǔn)文本信息;工程項(xiàng)目歸集模塊30用于分析標(biāo)準(zhǔn)文本信息,根據(jù)分析結(jié)果將對(duì)應(yīng)工程項(xiàng)目進(jìn)行歸集分類,對(duì)應(yīng)存儲(chǔ)至文檔庫(kù)、材價(jià)庫(kù)、項(xiàng)目庫(kù)以及供應(yīng)商/品牌庫(kù)中的其中一者;工程指標(biāo)輸出模塊40用于將所存儲(chǔ)的工程項(xiàng)目按工程編碼歸集,并按照工程結(jié)構(gòu)自動(dòng)匯總工程項(xiàng)目數(shù)據(jù)層級(jí),輸出工程指標(biāo)。
實(shí)施例二與實(shí)施例一相對(duì),其工作原理及有益效果與實(shí)施例一相同,這里不再贅述。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。