本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種周報信息處理方法及裝置。
背景技術(shù):
隨著信息化技術(shù)的發(fā)展,政府、企業(yè)單位的信息化程度日益提高。大企業(yè)的項目數(shù)量與項目信息增長迅速,部門內(nèi)部、部門之間的項目進展信息共享需求迫切,項目管理信息化、自動化是企業(yè)信息化建設的重點工作方向之一。
網(wǎng)絡爬蟲是一種按照一定的規(guī)則,自動的抓取互聯(lián)網(wǎng)信息的程序。它從一個初始的網(wǎng)頁集出發(fā),遍歷自動的采集網(wǎng)絡信息。當爬蟲打開某個HTML頁面后,它會分析HTML標記結(jié)構(gòu)來獲取信息,并獲取指向其它頁面的超級鏈接,然后通過既定的搜索策略選擇下一個要訪問的站點。
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索信息的過程。數(shù)據(jù)挖掘與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)上述目標。分析方法包括分類(Classification)、估計(Estimation)、預測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、復雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻)等。
目前很多企業(yè)項目管理過程中,需要每周在網(wǎng)頁上填寫項目周報,一般由各項目的負責人填寫,并且每個項目有一個獨立的周報。為達到部門間項目信息共享的目的,需每周匯總周報,共享給各個部門。數(shù)以千計的周報普遍采用專人人工匯總周報信息方式,耗時間耗人力,并且無法實現(xiàn)數(shù)以千計的項目周報信息定期的自動更新,項目管理效率低下。
網(wǎng)絡爬蟲技術(shù)雖然能實現(xiàn)網(wǎng)頁上信息的獲取,但無法實現(xiàn)信息的二次處理及智能分析,需結(jié)合數(shù)據(jù)挖掘技術(shù)來實現(xiàn)數(shù)以千計周報信息的自動獲取、智能分析處理、定制化輸出及定期更新。
針對相關(guān)技術(shù)中,無法實現(xiàn)周報信息的自動獲取、智能分析等二次處理的問題,還未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種周報信息處理方法及裝置,以至少解決相關(guān)技術(shù)中無法實現(xiàn)周報信息的自動獲取、智能分析等二次處理的問題。
根據(jù)本發(fā)明的一個方面,提供了一種周報信息處理方法,包括:從指定網(wǎng)頁中獲取周報信息;獲取指定指令;根據(jù)所述指定指令從所述周報信息中篩選出指定周報信息。
可選地,從所述指定網(wǎng)頁中獲取所述周報信息之后包括:將所述周報信息的編碼格式轉(zhuǎn)換為指定編碼格式;將轉(zhuǎn)換為指定編碼格式的所述周報信息進行存儲。
可選地,獲取所述指定指令包括:通過預先配置的所述周報信息的清洗和對比規(guī)則獲取所述指定指令。
可選地,將所述周報信息的編碼格式轉(zhuǎn)換為指定編碼格式之前包括:采用字節(jié)流的方式對所述周報信息進行讀取。
可選地,從所述指定網(wǎng)頁中獲取所述周報信息包括:通過HTML工具從所述指定網(wǎng)頁中獲取所述周報信息。
根據(jù)本發(fā)明的另一個方面,還提供了一種周報信息處理裝置,所述裝置包括:第一獲取模塊,用于從指定網(wǎng)頁中獲取周報信息;第二獲取模塊,用于獲取指定指令;處理模塊,用于根據(jù)所述指定指令從所述周報信息中篩選出指定周報信息。
可選地,所述裝置還包括:轉(zhuǎn)換模塊,用于將所述周報信息的編碼格式轉(zhuǎn)換為指定編碼格式;存儲模塊,用于將轉(zhuǎn)換為指定編碼格式的所述周報信息進行存儲。
可選地,所述第二獲取模塊還用于通過預先配置的所述周報信息的清洗和對比規(guī)則獲取所述指定指令。
可選地,所述裝置還包括:讀取模塊,用于采用字節(jié)流的方式對所述周報信息進行讀取。
可選地,所述第一獲取模塊還用于通過HTML工具從所述指定網(wǎng)頁中獲取所述周報信息。
通過本發(fā)明,采用從指定網(wǎng)頁中獲取周報信息;獲取指定指令;根據(jù)指定指令從周報信息中篩選出指定周報信息。解決了相關(guān)技術(shù)中無法實現(xiàn)周報信息的自動獲取、智能分析等二次處理的問題,進而實現(xiàn)了網(wǎng)頁上海量項目周報相關(guān)數(shù)據(jù)的自動采集、智能分析,達到了滿足用戶可定制需求。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
圖1是根據(jù)本發(fā)明實施例的周報信息處理方法的流程圖;
圖2是根據(jù)本發(fā)明實施例的周報信息處理裝置的結(jié)構(gòu)框圖;
圖3是根據(jù)本發(fā)明實施例的周報信息處理裝置的結(jié)構(gòu)框圖(一);
圖4是根據(jù)本發(fā)明實施例的周報信息處理裝置的結(jié)構(gòu)框圖(二);
圖5是根據(jù)本發(fā)明實施例的可定制的項目管理周報自動獲取流程圖。
具體實施方式
下文中將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。
在本實施例中提供了一種周報信息處理方法,圖1是根據(jù)本發(fā)明實施例的周報信息處理方法的流程圖,如圖1所示,該流程包括如下步驟:
步驟S102,從指定網(wǎng)頁中獲取周報信息;
步驟S104,獲取指定指令;
步驟S106,根據(jù)指定指令從周報信息中篩選出指定周報信息。
通過上述步驟,首先從指定網(wǎng)頁中獲取周報相關(guān)信息,然后根據(jù)用戶輸入的指定指令從獲取到的上述周報相關(guān)信息中篩選出用戶需求的指定周報信息,相比于相關(guān)技術(shù)中,需要人工定期匯總、更新項目周報,解決了相關(guān)技術(shù)中無法實現(xiàn)周報信息的自動獲取、智能分析等二次處理的問題,進而實現(xiàn)了網(wǎng)頁上海量項目周報相關(guān)數(shù)據(jù)的自動采集、智能分析,達到了滿足用戶可定制需求。
在從指定網(wǎng)頁中獲取周報信息之后,在一個可選實施例中,將上述周報信息的編碼格式轉(zhuǎn)換為指定編碼格式,將轉(zhuǎn)換為指定編碼格式的周報信息進行存儲。進一步地,從轉(zhuǎn)換為指定編碼格式的周報信息中篩選出上述的指定周報信息。
上述步驟S104中涉及到獲取指定指令,需要說明的是,可以通過多種方式獲取上述的指定指令,下面對此進行舉例說明。在一個可選實施例中,通過預先配置的上述周報信息的清洗和對比規(guī)則獲取上述指定指令。其中,清洗和對比規(guī)則是描述周報信息字段的字段類型是否符合定義,字段取值是否符合定義,可否有值,數(shù)據(jù)是否一致等。
在一個可選實施例中,將上述周報信息的編碼格式轉(zhuǎn)換為指定編碼格式之前,采用字節(jié)流的方式對周報信息進行讀取。
上述步驟S102中涉及到從上述指定網(wǎng)頁中獲取上述周報信息,需要說明的是,可以通過多種方式從指定網(wǎng)頁中獲取上述周報信息,下面對此進行舉例說明。在一個可選實施例中,通過HTML工具從指定網(wǎng)頁中獲取上述周報信息。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實施例的方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件,但很多 情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設備(可以是手機,計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例上述的方法。
在本實施例中還提供了一種周報信息處理裝置,該裝置用于實現(xiàn)上述實施例及優(yōu)選實施方式,已經(jīng)進行過說明的不再贅述。如以下所使用的,術(shù)語“模塊”可以實現(xiàn)預定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較佳地以軟件來實現(xiàn),但是硬件,或者軟件和硬件的組合的實現(xiàn)也是可能并被構(gòu)想的。
圖2是根據(jù)本發(fā)明實施例的周報信息處理裝置的結(jié)構(gòu)框圖,如圖2所示,該裝置包括:第一獲取模塊22,用于從指定網(wǎng)頁中獲取周報信息;第二獲取模塊24,用于獲取指定指令;處理模塊26,用于根據(jù)指定指令從周報信息中篩選出指定周報信息。
圖3是根據(jù)本發(fā)明實施例的周報信息處理裝置的結(jié)構(gòu)框圖(一),如圖3所示,該裝置還包括:轉(zhuǎn)換模塊32,用于將周報信息的編碼格式轉(zhuǎn)換為指定編碼格式;存儲模塊34,用于將轉(zhuǎn)換為指定編碼格式的上述周報信息進行存儲。
可選地,第二獲取模塊24還用于通過預先配置的上述周報信息的清洗和對比規(guī)則獲取上述指定指令。
圖4是根據(jù)本發(fā)明實施例的周報信息處理裝置的結(jié)構(gòu)框圖(二),如圖4所示,該裝置還包括:讀取模塊42,用于采用字節(jié)流的方式對周報信息進行讀取。
可選地,第一獲取模塊22還用于通過HTML工具從指定網(wǎng)頁中獲取周報信息。
需要說明的是,上述各個模塊是可以通過軟件或硬件來實現(xiàn)的,對于后者,可以通過以下方式實現(xiàn),但不限于此:上述模塊均位于同一處理器中;或者,上述模塊分別位于多個處理器中。
本發(fā)明的實施例還提供了一種存儲介質(zhì)??蛇x地,在本實施例中,上述存儲介質(zhì)可以被設置為存儲用于執(zhí)行以下步驟的程序代碼:
S1,從指定網(wǎng)頁中獲取周報信息;
S2,獲取指定指令;
S3,根據(jù)指定指令從周報信息中篩選出指定周報信息。
可選地,在本實施例中,上述存儲介質(zhì)可以包括但不限于:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
可選地,本實施例中的具體示例可以參考上述實施例及可選實施方式中所描述的示 例,本實施例在此不再贅述。
本發(fā)明可選實施例的目的是提供一種自動化、智能化的數(shù)據(jù)統(tǒng)計分析應用系統(tǒng)和方法,實現(xiàn)網(wǎng)頁上海量項目周報相關(guān)數(shù)據(jù)的自動采集、智能分析、定制查詢、靈活展現(xiàn)等功能。
為實現(xiàn)上述目的,本發(fā)明可選實施例提供了一種可定制的項目管理周報自動獲取的應用系統(tǒng),包括:
1、信息采集子系統(tǒng):構(gòu)造高效的自動獲取HTML工具獲取網(wǎng)頁上的項目周報相關(guān)內(nèi)容信息。
2、數(shù)據(jù)處理子系統(tǒng):對采集的數(shù)據(jù)進行數(shù)據(jù)抽取,采用字節(jié)流的方式進行讀取,然后轉(zhuǎn)換成指定的編碼格式。
3、數(shù)據(jù)存儲子系統(tǒng):對所有抽取的數(shù)據(jù)進行入庫存儲,作為數(shù)據(jù)的載體,提供穩(wěn)定高效的海量數(shù)據(jù)存儲以及供應用訪問的數(shù)據(jù)接口。
4、智能分析子系統(tǒng):根據(jù)用戶可定制的規(guī)則智能分析和篩選數(shù)據(jù)庫同步到的周報信息。系統(tǒng)提供可視化界面配置數(shù)據(jù)源的清洗和比對規(guī)則,支持清洗和比對規(guī)則的增、刪、改、查。
周報自動獲取系統(tǒng)按用戶可定制的格式批量輸出篩選后的項目周報信息結(jié)果。系統(tǒng)可提供應用接口,以庫函數(shù)和API編程接口的形式供第三方平臺使用。
圖5是根據(jù)本發(fā)明實施例的可定制的項目管理周報自動獲取流程圖,如圖5所示,該流程包括如下步驟:
步驟一:采用開源的基于Java的開源Web抽取工具網(wǎng)絡爬蟲Web-Harvest,收集指定的Web頁面,并從這些頁面中提取所需的數(shù)據(jù)。
步驟二:根據(jù)周圍內(nèi)容的相對路徑進行數(shù)據(jù)定位,選取與網(wǎng)頁內(nèi)容相關(guān)、格式無關(guān)的屬性。
步驟三:將HTML文件映射為XML文件,構(gòu)造HashMap散列表,鍵對應XML標簽,值對應標簽內(nèi)容。
步驟四:經(jīng)過處理后的數(shù)據(jù)入庫存儲,數(shù)據(jù)存儲子系統(tǒng)完成數(shù)據(jù)定義、裝入、存儲、查詢、備份和恢復等功能。
步驟五:根據(jù)輸入所需關(guān)鍵索引字段屬性的映射關(guān)系,進行同目錄ID下的數(shù)據(jù)清洗和數(shù)據(jù)比對。清洗和數(shù)據(jù)比對規(guī)則是描述數(shù)據(jù)源字段的字段類型是否符合定義,字段取值是否符合定義,可否有值,數(shù)據(jù)是否一致等。
步驟六:根據(jù)用戶輸入的項目關(guān)聯(lián)關(guān)鍵字,按照可定制的格式批量輸出篩選后的定 制化項目周報信息結(jié)果,實現(xiàn)可定期自動更新周報內(nèi)容。
綜上所述,通過本發(fā)明提供的一種自動化、智能化的數(shù)據(jù)統(tǒng)計分析應用系統(tǒng)和方法,實現(xiàn)網(wǎng)頁上海量項目周報相關(guān)數(shù)據(jù)的自動采集、智能分析,達到了滿足用戶可定制需求,自動獲取所需查看的項目周報信息的定期自動更新,極大縮短了數(shù)以千計的項目周報的定期人工匯總、更新的時間的效果,提升項目管理工作效率。
顯然,本領(lǐng)域的技術(shù)人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。