一種電子商務(wù)稅源管理云采集監(jiān)控方法
【專利摘要】本發(fā)明提供一種電子商務(wù)稅源管理云采集監(jiān)控方法,利用將網(wǎng)絡(luò)爬蟲技術(shù)、數(shù)據(jù)挖掘技術(shù)、大數(shù)據(jù)存儲及分析技術(shù)、服務(wù)自動監(jiān)控技術(shù)及自動批處理框架技術(shù)應(yīng)用到電子商務(wù)稅務(wù)管理中,該一種電子商務(wù)稅源管理云采集監(jiān)控方法和現(xiàn)有技術(shù)相比,提高在電子商務(wù)上的稅務(wù)監(jiān)管力度,減少國家稅收流失提供有效的依據(jù)和保障。該系統(tǒng)通過采集各電子商務(wù)平臺的網(wǎng)店銷售情況,經(jīng)過匯總分析,挖掘出不同類別的非正常繳稅納稅人,提供給稅務(wù)局參考監(jiān)管,達(dá)到保障稅收的目的。
【專利說明】一種電子商務(wù)稅源管理云采集監(jiān)控方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及云計算【技術(shù)領(lǐng)域】,具體的說是一種電子商務(wù)稅源管理云采集監(jiān)控方法。
【背景技術(shù)】
[0002]我國電子商務(wù)快速發(fā)展,網(wǎng)購消費也成為一種主流的消費方式。電子商務(wù)的不斷發(fā)展也促使稅務(wù)數(shù)據(jù)不斷壯大,但由于互聯(lián)網(wǎng)的虛擬性及電子商務(wù)特殊的商品交易方式、勞務(wù)提供方式和支付方式,給互聯(lián)網(wǎng)上的稅務(wù)數(shù)據(jù)進(jìn)行有效的管理帶來了困難。而當(dāng)前市場對于稅務(wù)數(shù)據(jù)的需求卻日益突出,如稅務(wù)機關(guān)需要對通過互聯(lián)網(wǎng)上的電子商務(wù)交易數(shù)量來對企業(yè)的稅收狀況進(jìn)行監(jiān)控分析;納稅人通過稅務(wù)數(shù)據(jù)對競爭對手及當(dāng)前市場需求進(jìn)行分析,都顯示出了稅務(wù)數(shù)據(jù)的重要性?;诖耍F(xiàn)提供一種電子商務(wù)稅源管理云采集監(jiān)控方法,利用將網(wǎng)絡(luò)爬蟲技術(shù)、數(shù)據(jù)挖掘技術(shù)、大數(shù)據(jù)存儲及分析技術(shù)、服務(wù)自動監(jiān)控技術(shù)及自動批處理框架技術(shù)應(yīng)用到電子商務(wù)稅務(wù)管理中,為提高在電子商務(wù)上的稅務(wù)監(jiān)管力度,減少國家稅收流失提供有效的依據(jù)和保障。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種電子商務(wù)稅源管理云采集監(jiān)控方法。
[0004]本發(fā)明的技術(shù)方案是按以下方式實現(xiàn)的,該一種電子商務(wù)稅源管理云采集監(jiān)控方法,其具體實施過程為:
從電子商務(wù)交易平臺的網(wǎng)頁中分析出合適的種子URL,初始化到系統(tǒng)中,由系統(tǒng)自動將種子URL分配到若干采集服務(wù)器中,由網(wǎng)絡(luò)爬蟲爬取交易平臺網(wǎng)店基本信息相關(guān)網(wǎng)頁;分析網(wǎng)頁內(nèi)容,提取網(wǎng)店基本信息,與原有網(wǎng)店基本信息進(jìn)行比對,并更新網(wǎng)店基本信息;
將網(wǎng)店基本信息所在URL作為種子URL,交由網(wǎng)絡(luò)爬蟲爬取網(wǎng)店的商品銷售明細(xì)和銷售額等相關(guān)網(wǎng)頁;分析網(wǎng)頁內(nèi)容,對網(wǎng)店銷售額進(jìn)行匯總;
每月月底對網(wǎng)店銷售額進(jìn)行全部匯總,并根據(jù)公司名稱匯總,將有效字段存入數(shù)據(jù)庫分析使用。
[0005]上述數(shù)據(jù)部署通過云平臺完成:使用Hadoop作為分布式系統(tǒng)基礎(chǔ)架構(gòu);Nutch作為網(wǎng)絡(luò)爬蟲爬取交易平臺的信息;Pig作為數(shù)據(jù)分析平臺分析獲取網(wǎng)店基本信息和銷售額的統(tǒng)計匯總;使用snmp協(xié)議監(jiān)控hadoop服務(wù)器及weblogic服務(wù)的運行情況,及時發(fā)現(xiàn)并處理服務(wù)中斷或阻塞情況;使用Spring Batch框架實現(xiàn)整個采集分析過程的自動批處理;最終通過Sqoop將Hadoop分析獲取的有效數(shù)據(jù)存儲到Oracle數(shù)據(jù)庫中;與用戶的交互界面使用B/S架構(gòu),用戶通過瀏覽器界面輸入種子URL,控制監(jiān)控流程的啟停,關(guān)注服務(wù)器運行情況,采集過程的運行情況,并對系統(tǒng)無法自動處理的異常進(jìn)行干預(yù)。
[0006]采集過程中,系統(tǒng)根據(jù)各服務(wù)器負(fù)荷情況自動調(diào)整分配待抓取URL,同時系統(tǒng)自動監(jiān)控采集效率和服務(wù)運行情況,對于出現(xiàn)的異常進(jìn)行自動處理恢復(fù),并將監(jiān)控情況呈現(xiàn)給用戶;遇到不能自動處理的異常,發(fā)出報警通知用戶干預(yù)。
[0007]本發(fā)明與現(xiàn)有技術(shù)相比所產(chǎn)生的有益效果是:
本發(fā)明的一種電子商務(wù)稅源管理云采集監(jiān)控方法基于云計算和大數(shù)據(jù)處理的電子商務(wù)稅源管理采集監(jiān)控系統(tǒng),利用將網(wǎng)絡(luò)爬蟲技術(shù)、數(shù)據(jù)挖掘技術(shù)、大數(shù)據(jù)存儲及分析技術(shù)、服務(wù)自動監(jiān)控技術(shù)及自動批處理框架技術(shù)應(yīng)用到電子商務(wù)稅務(wù)管理中,提高在電子商務(wù)上的稅務(wù)監(jiān)管力度,減少國家稅收流失提供有效的依據(jù)和保障;該系統(tǒng)通過采集各電子商務(wù)平臺的網(wǎng)店銷售情況,經(jīng)過匯總分析,挖掘出不同類別的非正常繳稅納稅人,提供給稅務(wù)局參考監(jiān)管,達(dá)到保障稅收的目的,實用性強,適用范圍廣泛,易于推廣。
【專利附圖】
【附圖說明】
[0008]附圖1為本發(fā)明的邏輯構(gòu)架圖。
【具體實施方式】
[0009]下面結(jié)合附圖對本發(fā)明的一種電子商務(wù)稅源管理云采集監(jiān)控方法作以下詳細(xì)說明。
[0010]如附圖1所示,一種電子商務(wù)稅源管理云采集監(jiān)控方法,其具體實施過程為: 從電子商務(wù)交易平臺的網(wǎng)頁中分析出合適的種子URL,初始化到系統(tǒng)中,由系統(tǒng)自動將
種子URL分配到若干采集服務(wù)器中,由網(wǎng)絡(luò)爬蟲爬取交易平臺網(wǎng)店基本信息相關(guān)網(wǎng)頁;分析網(wǎng)頁內(nèi)容,提取網(wǎng)店基本信息,與原有網(wǎng)店基本信息進(jìn)行比對,并更新網(wǎng)店基本信息。
[0011]將網(wǎng)店基本信息所在URL作為種子URL,交由網(wǎng)絡(luò)爬蟲爬取網(wǎng)店的商品銷售明細(xì)和銷售額等相關(guān)網(wǎng)頁;分析網(wǎng)頁內(nèi)容,對網(wǎng)店銷售額進(jìn)行匯總。
[0012]每月月底對網(wǎng)店銷售額進(jìn)行全部匯總,并根據(jù)公司名稱匯總,將有效字段存入數(shù)據(jù)庫分析使用。
[0013]采集過程中,系統(tǒng)根據(jù)各服務(wù)器負(fù)荷情況自動調(diào)整分配待抓取URL,同時系統(tǒng)自動監(jiān)控采集效率和服務(wù)運行情況,對于出現(xiàn)的異常進(jìn)行自動處理恢復(fù),并將監(jiān)控情況呈現(xiàn)給用戶;遇到不能自動處理的異常,發(fā)出報警通知用戶干預(yù)。
[0014]上述數(shù)據(jù)部署通過云平臺完成:使用Hadoop作為分布式系統(tǒng)基礎(chǔ)架構(gòu);Nutch作為網(wǎng)絡(luò)爬蟲爬取交易平臺的信息;Pig作為數(shù)據(jù)分析平臺分析獲取網(wǎng)店基本信息和銷售額的統(tǒng)計匯總;使用snmp協(xié)議監(jiān)控hadoop服務(wù)器及weblogic服務(wù)的運行情況,及時發(fā)現(xiàn)并處理服務(wù)中斷或阻塞情況;使用Spring Batch框架實現(xiàn)整個采集分析過程的自動批處理;最終通過Sqoop將Hadoop分析獲取的有效數(shù)據(jù)存儲到Oracle數(shù)據(jù)庫中;與用戶的交互界面使用B/S架構(gòu),用戶通過瀏覽器界面輸入種子URL,控制監(jiān)控流程的啟停,關(guān)注服務(wù)器運行情況,采集過程的運行情況,并對系統(tǒng)無法自動處理的異常進(jìn)行干預(yù)。
[0015]Hadoop框架是一種可以進(jìn)行分布式計算、能夠自動保存數(shù)據(jù)的多個副本、能夠?qū)⑹〉娜蝿?wù)重新分配以及可以動態(tài)擴展的集成框架,能夠保證系統(tǒng)的高可靠性、高擴展性和高容錯性。
[0016]Pig和Nutch部署于Hadoop框架之上,能夠有效的進(jìn)行分布式數(shù)據(jù)采集和分析,使得本系統(tǒng)高效的運行,從而保證采集數(shù)據(jù)的準(zhǔn)確性。
[0017]Snmp監(jiān)控weblogic服務(wù)以及Spring Batch框架式的系統(tǒng)自動監(jiān)控整個采集過程,引入智能學(xué)習(xí)技術(shù),積累異常處理方法,并調(diào)整調(diào)度策略,減少異常的發(fā)生。
[0018]用戶界面友好,通過圖形呈現(xiàn)整個采集、分析過程以及各采集服務(wù)器的運行情況,能夠?qū)o法自行解決的異常發(fā)送報警,提示管理員盡快解決。
[0019]能夠為稅局監(jiān)管納稅人申報情況提供及時、有效、可靠的數(shù)據(jù)依據(jù)。
[0020]以上所述僅為本發(fā)明的實施例而已,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種電子商務(wù)稅源管理云采集監(jiān)控方法,其特征在于其具體實施過程為: 從電子商務(wù)交易平臺的網(wǎng)頁中分析出合適的種子URL,初始化到系統(tǒng)中,由系統(tǒng)自動將種子URL分配到若干采集服務(wù)器中,由網(wǎng)絡(luò)爬蟲爬取交易平臺網(wǎng)店基本信息相關(guān)網(wǎng)頁;分析網(wǎng)頁內(nèi)容,提取網(wǎng)店基本信息,與原有網(wǎng)店基本信息進(jìn)行比對,并更新網(wǎng)店基本信息; 將網(wǎng)店基本信息所在URL作為種子URL,交由網(wǎng)絡(luò)爬蟲爬取網(wǎng)店的商品銷售明細(xì)和銷售額等相關(guān)網(wǎng)頁;分析網(wǎng)頁內(nèi)容,對網(wǎng)店銷售額進(jìn)行匯總; 每月月底對網(wǎng)店銷售額進(jìn)行全部匯總,并根據(jù)公司名稱匯總,將有效字段存入數(shù)據(jù)庫分析使用。
2.根據(jù)權(quán)利要求1所述的一種電子商務(wù)稅源管理云采集監(jiān)控方法,其特征在于:上述數(shù)據(jù)部署通過云平臺完成:使用Hadoop作為分布式系統(tǒng)基礎(chǔ)架構(gòu);Nutch作為網(wǎng)絡(luò)爬蟲爬取交易平臺的信息;Pig作為數(shù)據(jù)分析平臺分析獲取網(wǎng)店基本信息和銷售額的統(tǒng)計匯總;使用snmp協(xié)議監(jiān)控hadoop服務(wù)器及weblogic服務(wù)的運行情況,及時發(fā)現(xiàn)并處理服務(wù)中斷或阻塞情況;使用Spring Batch框架實現(xiàn)整個采集分析過程的自動批處理;最終通過Sqoop將Hadoop分析獲取的有效數(shù)據(jù)存儲到Oracle數(shù)據(jù)庫中;與用戶的交互界面使用B/S架構(gòu),用戶通過瀏覽器界面輸入種子URL,控制監(jiān)控流程的啟停,關(guān)注服務(wù)器運行情況,采集過程的運行情況,并對系統(tǒng)無法自動處理的異常進(jìn)行干預(yù)。
3.根據(jù)權(quán)利要求1所述的一種電子商務(wù)稅源管理云采集監(jiān)控方法,其特征在于:采集過程中,系統(tǒng)根據(jù)各服務(wù)器負(fù)荷情況自動調(diào)整分配待抓取URL,同時系統(tǒng)自動監(jiān)控采集效率和服務(wù)運行情況,對于出現(xiàn)的異常進(jìn)行自動處理恢復(fù),并將監(jiān)控情況呈現(xiàn)給用戶;遇到不能自動處理的異常,發(fā)出報警通知用戶干預(yù)。
【文檔編號】G06Q40/00GK103856565SQ201410099726
【公開日】2014年6月11日 申請日期:2014年3月18日 優(yōu)先權(quán)日:2014年3月18日
【發(fā)明者】范瑩, 于治樓, 李麗 申請人:浪潮集團(tuán)有限公司