本發(fā)明涉及一種信息的歸類方法,尤其涉及一種適用于政府發(fā)布平臺公示信息的歸類方法。
背景技術:
對于企業(yè)的項目申報來說,往往需要通過關注相關的政府發(fā)布平臺來獲取政策導向,為企業(yè)的后續(xù)發(fā)展進行提前規(guī)劃。但是,發(fā)布平臺內容多樣,如何來查找有用的相關信息,則需要企業(yè)采用人工方式,按照一定的周期進行人工檢索、存儲、分析、規(guī)劃,非常耗時,也消耗人力資源。
同時,若采用簡單方式直接全部下載發(fā)布平臺的內容,再進行關鍵詞匹配的話,會存在數(shù)據(jù)交互出現(xiàn)延遲,且設定關鍵詞過于繁雜,還容易出現(xiàn)漏檢。更為重要的是,下載的發(fā)布平臺多樣化,單一的下載數(shù)據(jù)會造成數(shù)據(jù)重復下載,影響處理效率。
有鑒于上述的缺陷,本設計人,積極加以研究創(chuàng)新,以期創(chuàng)設一種適用于政府發(fā)布平臺公示信息的歸類方法,使其更具有產業(yè)上的利用價值。
技術實現(xiàn)要素:
為解決上述技術問題,本發(fā)明的目的是提供一種適用于政府發(fā)布平臺公示信息的歸類方法。
本發(fā)明的適用于政府發(fā)布平臺公示信息的歸類方法,其中:包括有相互通訊的數(shù)據(jù)采集層、存儲層、分析層、發(fā)布層構成,其數(shù)據(jù)構建流程如下,步驟一,通過數(shù)據(jù)采集層從政府發(fā)布平臺公示信息中進行數(shù)據(jù)采集。步驟二,采集完成后的數(shù)據(jù),存儲在存儲層中,并根據(jù)不同的存儲格式進行歸類存儲。步驟三,通過分析層進行數(shù)據(jù)分析。步驟四,發(fā)布層對分析層分析后的分析結果進行加密與展示。
進一步地,上述的適用于政府發(fā)布平臺公示信息的歸類方法,其中,所述步驟一中,數(shù)據(jù)采集層通過網(wǎng)絡爬蟲進行數(shù)據(jù)采集。
更進一步地,上述的適用于政府發(fā)布平臺公示信息的歸類方法,其中,所述步驟一中,網(wǎng)絡爬蟲通過設定關鍵詞,對符合關鍵詞且擁有較高詞頻的數(shù)據(jù)進行采集,在采集過程中,網(wǎng)絡爬蟲設有自檢機制,對重復詞條進行標注,為步驟三提供敏感詞標簽。
更進一步地,上述的適用于政府發(fā)布平臺公示信息的歸類方法,其中,所述步驟一中,通過定時采集方式進行數(shù)據(jù)采集,所述定時周期為每周,或是為每個工作日,或是,通過實時采集方式進行數(shù)據(jù)采集。
更進一步地,上述的適用于政府發(fā)布平臺公示信息的歸類方法,其中,所述步驟一中,政府發(fā)布平臺公示信息包括科技類扶持項目、科技類認定項目、人才補貼項目、建設引導項目、工程技術研究項目、產學研互助項目,所述政府發(fā)布平臺包括部委、省、市、區(qū)級政府機構的網(wǎng)站、網(wǎng)頁、微博、微信。
更進一步地,上述的適用于政府發(fā)布平臺公示信息的歸類方法,其中,所述步驟二中,存儲格式包括文本格式、表格格式、html文檔格式中的一種或是多種結合。
更進一步地,上述的適用于政府發(fā)布平臺公示信息的歸類方法,其中,所述步驟三中,數(shù)據(jù)分析為通過設定檢索邏輯,將公示信息中的內容進行純文本轉碼,通過參與條件、施行周期、評選截止日、遞交截止日作為二次關鍵詞,生成信息摘要。
更進一步地,上述的適用于政府發(fā)布平臺公示信息的歸類方法,其中,所述步驟四中,分析結果以文字,和/或是數(shù)字,和/或是圖表,和/或是縮略圖進行展示。
再進一步地,上述的適用于政府發(fā)布平臺公示信息的歸類方法,其中,所述步驟四中,分析結果傳輸?shù)絧c端,和/或是智能設備,所述智能設備包括智能手機、平板電腦。
借由上述方案,本發(fā)明至少具有以下優(yōu)點:
1、可對各類公示信息進行持續(xù)化的集中抓取,免人工進行操作。
2、設有獨立的存儲層,提升數(shù)據(jù)安全性。
3、可對采集的公示信息進行分析,實現(xiàn)數(shù)據(jù)二次歸類,便于用戶快速調閱讀取。
4、發(fā)布介質多樣化,可負責多種智能設備。
上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,并可依照說明書的內容予以實施,以下以本發(fā)明的較佳實施例詳細說明如后。
具體實施方式
下面結合實施例,對本發(fā)明的具體實施方式作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
適用于政府發(fā)布平臺公示信息的歸類方法,其與眾不同之處在于:包括有相互通訊的數(shù)據(jù)采集層、存儲層、分析層、發(fā)布層構成,其數(shù)據(jù)構建流程如下。
首先,通過數(shù)據(jù)采集層從政府發(fā)布平臺公示信息中進行數(shù)據(jù)采集。在此期間,為了實現(xiàn)免人工的快速、全方位的數(shù)據(jù)采集,可在數(shù)據(jù)采集層通過網(wǎng)絡爬蟲進行數(shù)據(jù)采集。實施期間,網(wǎng)絡爬蟲通過設定關鍵詞,對符合關鍵詞且擁有較高詞頻的數(shù)據(jù)進行采集。同時,在采集過程中,網(wǎng)絡爬蟲設有自檢機制,對重復詞條進行標注,為后續(xù)的處理步驟提供敏感詞標簽。這樣,對于詞頻出現(xiàn)較多的詞組可設為敏感詞,提高采集搜集效率。
在實際實施時,可通過定時采集方式進行數(shù)據(jù)采集,采用的定時周期為每周,或是為每個工作日。這樣,可依據(jù)發(fā)布規(guī)律來進行采集,減少服務器負擔。當然,為了有效擴大數(shù)據(jù)存儲,亦可以通過實時采集方式進行數(shù)據(jù)采集。由此,一旦有新的公式信息發(fā)出,可被第一時間采集,通過后續(xù)處理后能第一時間發(fā)布。
為了便于用戶及時了解當前的政策走向,便于為企業(yè)發(fā)展提供前瞻規(guī)劃,本發(fā)明所針對的政府發(fā)布平臺公示信息,主要包括科技類扶持項目、科技類認定項目、人才補貼項目、建設引導項目、工程技術研究項目、產學研互助項目,政府發(fā)布平臺包括部委、省、市、區(qū)級政府機構的網(wǎng)站、網(wǎng)頁、微博、微信。當然,考慮到發(fā)布平臺的日新月異,也可以接納其他方式,通過對應的數(shù)據(jù)采集端口對接即可。
之后,采集完成后的數(shù)據(jù),存儲在存儲層中,并根據(jù)不同的存儲格式進行歸類存儲。這樣,可第一時間保存采集數(shù)據(jù),避免出現(xiàn)丟失,不用二次重復采集。同時,為了提升存儲格式的兼容性,滿足多種數(shù)據(jù)的保存需要,本發(fā)明采用的存儲格式包括文本格式、表格格式、html文檔格式中的一種或是多種結合。
接著,通過分析層進行數(shù)據(jù)分析。為了便于用戶根據(jù)檢索信息進行項目立項、申報與后期執(zhí)行,采用的數(shù)據(jù)分析為通過設定檢索邏輯,將公示信息中的內容進行純文本轉碼,通過參與條件、施行周期、評選截止日、遞交截止日作為二次關鍵詞,生成信息摘要。這樣,可滿足用戶的內部快速搜索,第一時間獲取想要的信息。
之后,為了進行最終的公式信息展示,可不用再次進入政府發(fā)布平臺,而是直接在本地終端顯示,發(fā)布層對分析層分析后的分析結果進行加密與展示??紤]到用戶的閱讀便利,分析結果以文字,和/或是數(shù)字,和/或是圖表,和/或是縮略圖進行展示。這樣,可以根據(jù)實際內容的不同,進行對應方式的展示,更為直觀與簡潔,讓用戶直接獲取所需要的信息??紤]到實施的便捷性,為了適應目前較為普及的電腦與智能設備。這樣,在實際操作時,可將分析結果傳輸?shù)絧c端,和/或是智能設備,進行閱讀。并且,智能設備包括智能手機、平板電腦,當然也可以是其他可供數(shù)據(jù)讀取顯示的設備。
通過上述的文字表述可以看出,采用本發(fā)明后,擁有如下優(yōu)點:
1、可對各類公示信息進行持續(xù)化的集中抓取,免人工進行操作。
2、設有獨立的存儲層,提升數(shù)據(jù)安全性。
3、可對采集的公示信息進行分析,實現(xiàn)數(shù)據(jù)二次歸類,便于用戶快速調閱讀取。
4、發(fā)布介質多樣化,可負責多種智能設備。
以上所述僅是本發(fā)明的優(yōu)選實施方式,并不用于限制本發(fā)明,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明技術原理的前提下,還可以做出若干改進和變型,這些改進和變型也應視為本發(fā)明的保護范圍。