基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法
【專利摘要】本發(fā)明公開了一種基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法,涉及信息庫構(gòu)建領(lǐng)域。該方法以資源價格采集任務(wù)方式執(zhí)行:在任務(wù)中配置獲取資源價格數(shù)據(jù)的信息參數(shù)、采集頻率、清洗規(guī)則、存儲目標位置;在任務(wù)執(zhí)行中通過配置的參數(shù)定時從互聯(lián)網(wǎng)價格網(wǎng)站上進行數(shù)據(jù)抓取、清洗、存儲等操作,從而獲得準確的價格數(shù)據(jù)。與現(xiàn)有技術(shù)相比,本發(fā)明的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法能夠解決建筑施工企業(yè)在項目管理系統(tǒng)建立資源(工、料、機)價格庫時操作繁瑣、及時性差、需人工干預(yù)的問題,大大提高了工作效率,保證了數(shù)據(jù)準確性及時性,具有很好的推廣應(yīng)用價值。
【專利說明】基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息庫構(gòu)建領(lǐng)域,具體地說是一種基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法。
【背景技術(shù)】
[0002]建筑企業(yè)在生產(chǎn)經(jīng)營活動中,對資源價格數(shù)據(jù)十分敏感,因為只有獲得準確及時的價格數(shù)據(jù)才能在項目預(yù)算中做到準確預(yù)測項目成本,對項目投標和成本控制都起到重要作用,在日常經(jīng)營采購活動中參考資源價格數(shù)據(jù)在談判中能做到知己知彼,在競價談判中處于有利位置。所以,建筑企業(yè)對資源價格數(shù)據(jù)的及時性準確性十分關(guān)注。
[0003]傳統(tǒng)項目管理系統(tǒng)中價格數(shù)據(jù)采集方式一般有兩種:一是依賴操作人員從項目管理系統(tǒng)中錄入,要想得到準確實時的價格數(shù)據(jù)就需要大量人工操作錄入,費時費力,且容易出錯,不能在第一時間拿到準確數(shù)據(jù);二是操作員先在系統(tǒng)外通過物理文件整理為系統(tǒng)需要的特定格式,然后導(dǎo)入系統(tǒng),這種方式需要大量人工干預(yù),及時性也不佳,且一旦整理數(shù)據(jù)有錯誤就會影響了數(shù)據(jù)正確性,甚至數(shù)據(jù)不能導(dǎo)入。
[0004]如何能讓價格采集工作變得簡單實時有效,提高投標報價和成本控制的準確性實時性,提高采購工作的生產(chǎn)率和工作效率,是建筑施工企業(yè)迫切要解決的一個難題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的技術(shù)任務(wù)是針對上述現(xiàn)有技術(shù)的不足,提供一種基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法。該方法能夠解決建筑施工企業(yè)在項目管理系統(tǒng)建立資源(工、料、機)價格庫時操作繁瑣、及時性差、需人工干預(yù)的技術(shù)問題。
[0006]本發(fā)明的技術(shù)任務(wù)是按以下方式實現(xiàn)的:基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法,包括價格采集任務(wù)的設(shè)置及價格采集任務(wù)的執(zhí)行兩個步驟:
價格采集任務(wù)的設(shè)置包括:
(1)任務(wù)基本屬性,包括任務(wù)的編號、名稱、地區(qū)、時間規(guī)則等屬性;
(2)任務(wù)的數(shù)據(jù)來源,指定抓取數(shù)據(jù)的價格網(wǎng)站網(wǎng)址,設(shè)置任務(wù)抓取網(wǎng)站的登錄網(wǎng)址、登錄用戶名和密碼、驗證碼獲取規(guī)則等信息,其中,驗證碼獲取規(guī)則包括:驗證碼地址、驗證碼識別方式、驗證碼識別接口(如默認識別方式不能實現(xiàn),可以通過插件方式實現(xiàn)),是否人工參與等;
(3 )任務(wù)的抓取規(guī)則,用于對每一個抓取對象設(shè)置抓取規(guī)則,指定要抓取的數(shù)據(jù)內(nèi)容和抽取規(guī)則:網(wǎng)頁上會有很多無效的數(shù)據(jù),需要指定取哪些數(shù)據(jù)例如資源名稱,資源編號,規(guī)格型號,價格單位,單價等對應(yīng)網(wǎng)頁上哪些元素。每個抓取對象通過設(shè)置正則表達式、直接查找和遞歸查找等匹配方式來從網(wǎng)頁上找到所需的數(shù)據(jù)。用戶也可在滿足抓取規(guī)則接口的情況下自行開發(fā)擴展數(shù)據(jù)抓取方法;
(4)任務(wù)的分頁方式,使之能夠獲取分頁后的數(shù)據(jù):網(wǎng)頁上數(shù)據(jù)顯示是有限的,資源價格往往會分頁顯示,可通過分頁方式訪問到有效的數(shù)據(jù)網(wǎng)頁,以節(jié)省大量的時間; (5)任務(wù)的執(zhí)行頻率和輪詢規(guī)則,用于指定任務(wù)下次執(zhí)行的最小間隔時間,和可以使用的服務(wù)器,以應(yīng)對價格網(wǎng)站服務(wù)器防DDOS (分布式拒絕服務(wù))軟件的攔截:任務(wù)執(zhí)行時,任務(wù)服務(wù)器根據(jù)可用服務(wù)器和最小執(zhí)行時間分配抓取任務(wù),只有服務(wù)器執(zhí)行完成后空閑時間大于最小間隔時間,才可執(zhí)行下一次抓??;
(6)任務(wù)的數(shù)據(jù)清洗規(guī)則,用于對采集的數(shù)據(jù)進行再次校驗整理,并對數(shù)據(jù)進行比較去重;
(7)任務(wù)的存儲規(guī)則,可以存儲到數(shù)據(jù)庫表或物理文件,所述數(shù)據(jù)庫支持各種主流數(shù)據(jù)庫,用戶也可在滿足存儲接口的情況下自行開發(fā)擴展存儲方式;數(shù)據(jù)保存時要包含發(fā)布地區(qū)、時間、資源品名、材質(zhì)、規(guī)格、價格、數(shù)量、生產(chǎn)廠、倉庫地、交易地等要素,數(shù)據(jù)存儲的規(guī)則要一致,要能方便的根據(jù)時間和地區(qū)等要素把資源價格信息分開或合并保存。
[0007]任務(wù)的數(shù)據(jù)來源可設(shè)置多個,每個來源分別配置抓取規(guī)則、分頁方式和執(zhí)行頻率輪詢規(guī)則。
[0008]任務(wù)的抓取規(guī)則支持多種方式組合,數(shù)據(jù)中不同項內(nèi)容采用不同的規(guī)則,同一項內(nèi)容可設(shè)置優(yōu)先級不同的規(guī)則進行抓取。
[0009]任務(wù)的執(zhí)行頻率可按周、天、時、分、秒或自定義時間間隔設(shè)置;任務(wù)的輪詢規(guī)則支持同一服務(wù)器等待時間和不同服務(wù)器的切換時間等設(shè)置。
[0010]價格采集任務(wù)的執(zhí)行包括:
(1)抓取指定網(wǎng)站價格數(shù)據(jù)網(wǎng)頁
任務(wù)模擬訪問某一個價格網(wǎng)站進行價格數(shù)據(jù)網(wǎng)頁抓取工作;
(2)依據(jù)抓取規(guī)則抓取數(shù)據(jù)
(3)依據(jù)清洗規(guī)則清洗數(shù)據(jù)
(4)依據(jù)存儲規(guī)則保存數(shù)據(jù)。
[0011]作為優(yōu)選,設(shè)置任務(wù)的分頁方式時,可以通過設(shè)置首頁、上頁、下頁、末頁和顯示頁序號的分頁方式或指定下一頁按鈕或指定頁序號輸入框和跳轉(zhuǎn)執(zhí)行按鈕的方式設(shè)置分頁。
[0012]數(shù)據(jù)清洗的規(guī)則包括數(shù)據(jù)一致性檢查、無效值和缺失值處理及去重規(guī)則。
[0013]抓取指定網(wǎng)站價格數(shù)據(jù)網(wǎng)頁的具體步驟為:
1)訪問價格網(wǎng)站,輸入訪問憑據(jù);然后,判斷是否需要輸入驗證碼;
2)如果不需要驗證碼,則進入網(wǎng)頁抓取操作;如果需要驗證碼,根據(jù)設(shè)置的驗證規(guī)則獲取驗證碼,并進行識別判斷或人工識別;
3)驗證碼輸入完成后,進入網(wǎng)頁抓取操作;
4)當(dāng)前網(wǎng)頁抓取完成后,讀取分頁方式,判斷是否有下一頁,如果有下一頁,則根據(jù)設(shè)定的執(zhí)行頻率和輪詢規(guī)則,執(zhí)行訪問下一頁操作,然后執(zhí)行抓取網(wǎng)頁操作,直到?jīng)]有下一頁。
[0014]抓取數(shù)據(jù)時,在某一網(wǎng)站網(wǎng)頁保存后,就可以按該網(wǎng)站設(shè)置的抓取規(guī)則抓取數(shù)據(jù),不用等到所有網(wǎng)頁保存完成后再抓取數(shù)據(jù)。數(shù)據(jù)抓取任務(wù)可以在網(wǎng)頁抓取保存的空閑時間執(zhí)行,這樣可以有效的利用服務(wù)器的資源,提高任務(wù)的執(zhí)行效率。
[0015]數(shù)據(jù)抓取后,需要對所有網(wǎng)站抓取的數(shù)據(jù)根據(jù)設(shè)置的規(guī)則進行清洗整理,才能得到最終有效的數(shù)據(jù)。數(shù)據(jù)清洗任務(wù)可以在數(shù)據(jù)抓取后執(zhí)行,但是必須保證數(shù)據(jù)清洗任務(wù)的范圍是整個任務(wù)所有網(wǎng)站的抓取數(shù)據(jù)。
[0016]數(shù)據(jù)清洗后,需要對數(shù)據(jù)根據(jù)設(shè)置的存儲規(guī)則進行保存,才能被用戶使用。
[0017]本發(fā)明的方法以資源價格采集任務(wù)方式執(zhí)行:在任務(wù)中配置獲取資源價格數(shù)據(jù)的信息參數(shù)、采集頻率、清洗規(guī)則、存儲目標位置;在任務(wù)執(zhí)行中通過配置的參數(shù)定時從互聯(lián)網(wǎng)價格網(wǎng)站上進行數(shù)據(jù)抓取、清洗、存儲等操作,從而獲得準確的價格數(shù)據(jù)。
[0018]與現(xiàn)有技術(shù)相比,本發(fā)明的方法具有以下突出的有益效果:
(一)只需發(fā)布任務(wù)并配置其執(zhí)行參數(shù),剩余工作由服務(wù)器自動執(zhí)行,減少了人工干預(yù),大大提高了工作效率,保證了數(shù)據(jù)準確性及時性;
(二)使用該方法能明顯提高建筑施工企業(yè)項目概預(yù)算使用相關(guān)資源價格的準確性、及時性,能更準確測算工程成本,提高企業(yè)競爭力;在資源采購時能及時獲得當(dāng)?shù)禺?dāng)前及歷史價格,節(jié)約采購成本。
【專利附圖】
【附圖說明】
[0019]附圖1是本發(fā)明構(gòu)建方法中價格采集任務(wù)的設(shè)置流程圖;
附圖2是本發(fā)明構(gòu)建方法中價格采集任務(wù)的執(zhí)行流程圖。
【具體實施方式】
[0020]參照說明書附圖以具體實施例對本發(fā)明的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法作以下詳細地說明。
[0021]實施例:
如附圖1所示,本發(fā)明的價格采集任務(wù)的設(shè)置過程為:
首先,設(shè)置任務(wù)基本屬性A101,確定一個價格采集任務(wù)。每個任務(wù)可以設(shè)置多個抓取網(wǎng)站A102。任務(wù)的每一個抓取網(wǎng)站設(shè)置數(shù)據(jù)來源A104、抓取規(guī)則A105、分頁方式A106和執(zhí)行頻率輪詢規(guī)則A107等屬性A103。其中,數(shù)據(jù)來源A104,包含登錄網(wǎng)址、登錄用戶名和密碼、驗證碼獲取規(guī)則等信息;抓取規(guī)則A105應(yīng)對每一個抓取對象設(shè)置抓取規(guī)則,可以包含多個抓取對象;設(shè)置完網(wǎng)站抓取規(guī)則后,進入數(shù)據(jù)清洗規(guī)則定義A108,對采集的數(shù)據(jù)進行再次校驗整理,并對數(shù)據(jù)進行比較去重,保證最終數(shù)據(jù)到有效性。最后,設(shè)置數(shù)據(jù)的存儲規(guī)則A109,數(shù)據(jù)存儲的規(guī)則要一致,要能方便的根據(jù)時間和地區(qū)等要素把資源價格信息分開或合并保存。
[0022]如圖2所示,是本發(fā)明方法的價格采集任務(wù)的執(zhí)行流程示意圖。
[0023]圖示中展示了本發(fā)明的價格采集任務(wù)的執(zhí)行流程。首先,服務(wù)器發(fā)起價格任務(wù)采集請求A201,指定采集任務(wù),采集價格數(shù)據(jù),進入任務(wù)設(shè)置的抓取網(wǎng)站抓取網(wǎng)頁數(shù)據(jù)階段A202。
[0024]任務(wù)模擬訪問某一個價格網(wǎng)站進行價格數(shù)據(jù)網(wǎng)頁抓取工作A202。首先,訪問價格網(wǎng)站,輸入訪問憑據(jù)A203。然后,判斷是否需要輸入驗證碼A204。如果不需要驗證碼,則進入網(wǎng)頁抓取操作A207。如果需要驗證碼,根據(jù)A104設(shè)置的驗證規(guī)則獲取驗證碼,并進行識別判斷A205。如果不能機器識別,則需要人工識別A206。驗證碼輸入完成后,進入網(wǎng)頁抓取操作A207。當(dāng)前網(wǎng)頁抓取完成后,根據(jù)A106設(shè)定,讀取分頁方式,判斷是否有下一頁A209,如果有下一頁,則根據(jù)A107設(shè)定的執(zhí)行頻率和輪詢規(guī)則,執(zhí)行訪問下一頁操作A208,然后執(zhí)行抓取網(wǎng)頁操作A207,然后執(zhí)行A209操作,直到?jīng)]有下一頁。
[0025]抓取數(shù)據(jù)是在某一網(wǎng)站網(wǎng)頁保存后,就可以按該網(wǎng)站設(shè)置的抓取規(guī)則A106,抓取數(shù)據(jù)A210,不用等到所有網(wǎng)頁保存完成后再抓取數(shù)據(jù)。
[0026]數(shù)據(jù)清洗后,根據(jù)A109設(shè)置的存儲規(guī)則對數(shù)據(jù)進行保存A212。
【權(quán)利要求】
1.基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法,其特征在于包括價格采集任務(wù)的設(shè)置及價格采集任務(wù)的執(zhí)行兩個步驟: 價格采集任務(wù)的設(shè)置包括: 任務(wù)基本屬性,包括任務(wù)的編號、名稱、地區(qū)、時間規(guī)則屬性; (2)任務(wù)的數(shù)據(jù)來源,指定抓取數(shù)據(jù)的價格網(wǎng)站網(wǎng)址,設(shè)置任務(wù)抓取網(wǎng)站的登錄網(wǎng)址、登錄用戶名和密碼、驗證碼獲取規(guī)則信息; (3)任務(wù)的抓取規(guī)則,用于對每一個抓取對象設(shè)置抓取規(guī)則; (4)任務(wù)的分頁方式; (5)任務(wù)的執(zhí)行頻率和輪詢規(guī)則,用于指定任務(wù)下次執(zhí)行的最小間隔時間,和可以使用的服務(wù)器; (6)任務(wù)的數(shù)據(jù)清洗規(guī)則,用于對采集的數(shù)據(jù)進行再次校驗整理,并對數(shù)據(jù)進行比較去重; (7)任務(wù)的存儲規(guī)則; 價格采集任務(wù)的執(zhí)行包括: (1)抓取指定網(wǎng)站價格數(shù)據(jù)網(wǎng)頁 任務(wù)模擬訪問某一個價格網(wǎng)站進行價格數(shù)據(jù)網(wǎng)頁抓取工作; (2)依據(jù)抓取規(guī)則抓取數(shù)據(jù) (3)依據(jù)清洗規(guī)則清洗數(shù)據(jù) (4)依據(jù)存儲規(guī)則保存數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法,其特征在于通過設(shè)置首頁、上頁、下頁、末頁和顯示頁序號的分頁方式或指定下一頁按鈕或指定頁序號輸入框和跳轉(zhuǎn)執(zhí)行按鈕的方式設(shè)置分頁。
3.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法,其特征在于數(shù)據(jù)清洗的規(guī)則包括數(shù)據(jù)一致性檢查、無效值和缺失值處理及去重規(guī)則。
4.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)建筑施工企業(yè)資源價格信息庫的構(gòu)建方法,其特征在于抓取指定網(wǎng)站價格數(shù)據(jù)網(wǎng)頁的具體步驟為: 訪問價格網(wǎng)站,輸入訪問憑據(jù);然后,判斷是否需要輸入驗證碼; 如果不需要驗證碼,則進入網(wǎng)頁抓取操作;如果需要驗證碼,根據(jù)設(shè)置的驗證規(guī)則獲取驗證碼,并進行識別判斷或人工識別; 驗證碼輸入完成后,進入網(wǎng)頁抓取操作; 當(dāng)前網(wǎng)頁抓取完成后,讀取分頁方式,判斷是否有下一頁,如果有下一頁,則根據(jù)設(shè)定的執(zhí)行頻率和輪詢規(guī)則,執(zhí)行訪問下一頁操作,然后執(zhí)行抓取網(wǎng)頁操作,直到?jīng)]有下一頁。
【文檔編號】G06Q50/08GK104484424SQ201410791468
【公開日】2015年4月1日 申請日期:2014年12月19日 優(yōu)先權(quán)日:2014年12月19日
【發(fā)明者】薛軍利, 劉本熙, 李洪營, 李偉龍, 聶明, 李煥偉, 李偉 申請人:浪潮通用軟件有限公司