本發(fā)明涉及大數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)。
背景技術(shù):
由國(guó)家統(tǒng)計(jì)局“利用外資與外商投資企業(yè)研究”課題組完成的一份關(guān)于外資的研究報(bào)告表明,在所調(diào)查的虧損外商投資企業(yè)中,約2/3為非正常虧損。而另一方面,全球企業(yè)利用跨國(guó)稅收制度之間的差異,離岸逃稅等手段藏匿了價(jià)值129萬(wàn)億元人民幣的巨額財(cái)富,這一數(shù)額幾乎是中國(guó)GDP(2011年46.6萬(wàn)億人民幣)的近三倍。
另一組統(tǒng)計(jì)數(shù)據(jù)顯示2013年中國(guó)電子商務(wù)市場(chǎng)交易規(guī)模9.9萬(wàn)億元,同比增長(zhǎng)21.3%,預(yù)計(jì)2017年電子商務(wù)市場(chǎng)規(guī)模將達(dá)21.6萬(wàn)億元。根據(jù)現(xiàn)行稅收征管法規(guī)定,如果排除其他稅種。單純對(duì)電子商務(wù)交易額征收增值稅(以17%稅率計(jì)算),未來(lái)我國(guó)將增加將近3.6萬(wàn)億元的稅款。
某餐飲企業(yè),2013至2014年4月年申報(bào)的稅收在1664.2萬(wàn),而通過(guò)其在網(wǎng)上流通的銷售數(shù)據(jù)發(fā)現(xiàn),其在現(xiàn)金餐券從2013年10月至2014年7月的總銷量已經(jīng)達(dá)到30萬(wàn)份,通過(guò)網(wǎng)上銷售額達(dá)到2300多萬(wàn),隱藏這巨大的偷稅漏稅風(fēng)險(xiǎn)。
以上數(shù)據(jù)表明,在經(jīng)濟(jì)全球化影響力日益擴(kuò)大、科學(xué)技術(shù)迅猛發(fā)展的如今,商業(yè)組織和個(gè)人借助金融手段、資本運(yùn)作及電子商務(wù)平臺(tái),轉(zhuǎn)移隱藏了大量稅前利潤(rùn),減少了大量稅款的上繳。這給我國(guó)現(xiàn)有的市場(chǎng)經(jīng)濟(jì)體制帶來(lái)了巨大的沖擊,對(duì)現(xiàn)行稅收制度、稅收管理模式提出了全面的挑戰(zhàn)。稅務(wù)管理部門(mén)來(lái)不及研究相應(yīng)的征管對(duì)策,更沒(méi)有系統(tǒng)的法律、法規(guī)來(lái)規(guī)范和約束商業(yè)組織和個(gè)人避稅逃稅的行為,出現(xiàn)了稅收管理真空和缺位,導(dǎo)致應(yīng)征的稅款白白流失。
技術(shù)實(shí)現(xiàn)要素:
為克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的是:提供一種大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng),為稅務(wù)征管實(shí)時(shí)提供大量的涉稅情報(bào)數(shù)據(jù),利用趨勢(shì)指數(shù)找出涉稅情報(bào)的規(guī)律并對(duì)未來(lái)避稅逃稅的趨勢(shì)進(jìn)行預(yù)測(cè)。
為了解決背景技術(shù)中的技術(shù)問(wèn)題,本發(fā)明提供了一種大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng),包括以下模塊:
數(shù)據(jù)采集模塊,采用爬蟲(chóng)采集方式,在互聯(lián)網(wǎng)上對(duì)數(shù)據(jù)進(jìn)行增量式采集,通過(guò)采集資源策略配置、設(shè)定頻率和自動(dòng)去重的方式對(duì)數(shù)據(jù)采集過(guò)程進(jìn)行管理;
數(shù)據(jù)清洗模塊,通過(guò)無(wú)關(guān)字段清洗、過(guò)濾價(jià)格及折扣價(jià)、時(shí)間戳和自動(dòng)轉(zhuǎn)換幣種的方式進(jìn)行數(shù)據(jù)清洗;
數(shù)據(jù)分析模塊,通過(guò)聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的技術(shù),對(duì)涉稅情報(bào)數(shù)據(jù)進(jìn)行多維度分析,并匯總聚類歸納推理,通過(guò)數(shù)據(jù)分析得到統(tǒng)計(jì)報(bào)表;
數(shù)據(jù)存儲(chǔ)模塊,采用分布式存儲(chǔ)策略,將數(shù)據(jù)分散存儲(chǔ)在多臺(tái)獨(dú)立的設(shè)備上,采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),并將分布式數(shù)據(jù)庫(kù)中的數(shù)據(jù)傳輸至涉稅情報(bào)數(shù)據(jù)庫(kù);
數(shù)據(jù)輸出模塊,用于將用戶需要的數(shù)據(jù)按照特定規(guī)則進(jìn)行輸出,利用接口將涉稅情報(bào)數(shù)據(jù)推送至稅務(wù)稽查系統(tǒng)。
進(jìn)一步地,所述數(shù)據(jù)采集模塊采集的涉稅數(shù)據(jù)包括行業(yè)類涉稅數(shù)據(jù)、事項(xiàng)類涉稅數(shù)據(jù)和重大企業(yè)類涉稅數(shù)據(jù)。
具體地,所述數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的涉稅數(shù)據(jù)的格式為XML、文本、統(tǒng)計(jì)圖表、表格和圖片。
本發(fā)明的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)還包括接口模塊,包括二次開(kāi)發(fā)接口單元和數(shù)據(jù)接口單元。
進(jìn)一步地,所述二次開(kāi)發(fā)接口單元包括業(yè)務(wù)和數(shù)據(jù)擴(kuò)展工具、用戶自定義存儲(chǔ)過(guò)程接口、腳本編輯接口、插件接口和中間件引擎二次開(kāi)發(fā)接口。
進(jìn)一步地,本發(fā)明的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)還包括硬件支撐層,包括網(wǎng)絡(luò)設(shè)備、安全設(shè)備、存儲(chǔ)系統(tǒng)和主機(jī)系統(tǒng)。
采用上述技術(shù)方案,本發(fā)明的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)具有以下優(yōu)點(diǎn):
第一、通過(guò)自動(dòng)采集境內(nèi)外網(wǎng)絡(luò)上的多種格式的海量涉稅數(shù)據(jù),為稅務(wù)征管、稽查、監(jiān)控開(kāi)辟了第三方數(shù)據(jù)來(lái)源,作為企業(yè)上報(bào)材料及其他部門(mén)共享數(shù)據(jù)的補(bǔ)充,提供大量的有效實(shí)時(shí)涉稅情報(bào)數(shù)據(jù);
第二、基于分布式的存儲(chǔ)計(jì)算方式,在允許使用通用廉價(jià)設(shè)備建設(shè)采集分析集群的基礎(chǔ)上,突破了傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)的I/O速度,整體花費(fèi)更少、性能更穩(wěn)定、存儲(chǔ)計(jì)算速度更高、更利于稅務(wù)系統(tǒng)的拓展;
第三、在海量數(shù)據(jù)的基礎(chǔ)上,以“相關(guān)關(guān)系”而非“因果關(guān)系”的視角進(jìn)行分析,不是建立數(shù)學(xué)模型而是利用趨勢(shì)指數(shù)找出涉稅情報(bào)的規(guī)律并對(duì)未來(lái)避稅逃稅的趨勢(shì)進(jìn)行預(yù)測(cè)。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它附圖。
圖1是本發(fā)明實(shí)施例提供的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)的系統(tǒng)框圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例:關(guān)于納稅人身份及企業(yè)性質(zhì)的判定問(wèn)題,就是稅務(wù)機(jī)關(guān)應(yīng)能正確判定其管轄范圍內(nèi)的納稅人及交易活動(dòng),這種判定是以實(shí)際的物理存在為基礎(chǔ),因此,在傳統(tǒng)交易活動(dòng)中,納稅人身份的判定上并不存在問(wèn)題。但在互聯(lián)網(wǎng)的環(huán)境下,互聯(lián)網(wǎng)上的商店不是一個(gè)實(shí)體的市場(chǎng),而是一個(gè)虛擬的市場(chǎng),網(wǎng)上的任何一種產(chǎn)品都是觸摸不到的。在這樣的市場(chǎng)中,看不到傳統(tǒng)概念中的商場(chǎng)、店面、銷售人員,就連涉及商品的手續(xù),包括合同、單證,甚至資金等,都以虛擬方式出現(xiàn);而且,互聯(lián)網(wǎng)的使用者具有隱匿性、流動(dòng)性,通過(guò)互聯(lián)網(wǎng)進(jìn)行交易的雙方,可以隱匿姓名、居住地等,企業(yè)可以輕而易舉地改變經(jīng)營(yíng)地點(diǎn),從一個(gè)高稅率國(guó)家移至低稅率國(guó)家。所有這些,都造成了在對(duì)納稅人身份判定上的難度。
大多數(shù)從事電子商務(wù)的企業(yè)注冊(cè)地位于各地的高新技術(shù)園區(qū),擁有高新技術(shù)企業(yè)證書(shū),且其營(yíng)業(yè)執(zhí)照上限定的營(yíng)業(yè)范圍并沒(méi)有明確提及電子商務(wù)業(yè)務(wù)。有些企業(yè)營(yíng)業(yè)執(zhí)照上注明從事系統(tǒng)集成和軟件開(kāi)發(fā)銷售、出口,但實(shí)際上主要從事電子商務(wù)業(yè)務(wù)。這類企業(yè)是屬于所得稅意義上的先進(jìn)技術(shù)企業(yè)和出口型企業(yè),還是屬于生產(chǎn)制造企業(yè)、商業(yè)企業(yè)還是服務(wù)企業(yè),因判定性質(zhì)不同將導(dǎo)致企業(yè)享受的稅收待遇有所不同。從事電子商務(wù)服務(wù)的電訊企業(yè)按3%稅率繳納營(yíng)業(yè)稅,而從事電子商務(wù)的普通企業(yè)則需繳納5%的營(yíng)業(yè)稅。那么,被定性為什么樣的企業(yè)就成為關(guān)鍵問(wèn)題。
關(guān)于客戶身份判斷問(wèn)題,按照現(xiàn)行稅制,判斷一種商業(yè)行為是否應(yīng)課稅及課稅數(shù)量與客戶身份密切相關(guān)。比如目前實(shí)行的出口退稅和對(duì)進(jìn)口商品征收關(guān)稅的政策,這些活動(dòng)都必須查明客戶的身份。如果將現(xiàn)有的稅收原則不加修改地應(yīng)用于電子商務(wù)稅收,本來(lái)有納稅義務(wù)的企業(yè)很可能冒充自己向國(guó)外供貨并以此騙取出口退稅,或是通過(guò)隱瞞商品的真實(shí)消費(fèi)從而逃避進(jìn)口關(guān)稅。雖然科技在發(fā)展,但是從技術(shù)角度看,無(wú)論是追蹤付款過(guò)程還是供貨過(guò)程,都難以查清供貨目的國(guó)或是買方身份,從而無(wú)法確認(rèn)應(yīng)征稅的貿(mào)易究竟是國(guó)內(nèi)還是國(guó)際貿(mào)易,使傳統(tǒng)的稅制在應(yīng)用過(guò)程中遇到了極大困難。
關(guān)于服務(wù)類電子商務(wù)交易過(guò)程的可追溯性問(wèn)題,服務(wù)類電子商務(wù)交易過(guò)程的可追溯性,簡(jiǎn)單地說(shuō)就是在確定了納稅主體后,是否有足夠的依據(jù)收到應(yīng)收的稅,證據(jù)是否足夠、是否可查??紤]到電子商務(wù)交易過(guò)程中的虛擬性,相關(guān)交易環(huán)節(jié)的具體情況有賴于交易的自覺(jué)性和如實(shí)的申報(bào),所以電子商務(wù)交易過(guò)程的可追溯性問(wèn)題會(huì)更加突出,尤其是在服務(wù)類電子商務(wù)過(guò)程中。
關(guān)于電子商務(wù)過(guò)程的稅務(wù)稽查問(wèn)題,在具備稅收管轄權(quán),交易過(guò)程可追溯的前提下,電子商務(wù)稽查就成為保障電子商務(wù)稅收的重要一環(huán),即是否能定額征收的問(wèn)題。在互聯(lián)網(wǎng)這個(gè)獨(dú)特的環(huán)境中,由于訂購(gòu)、支付,甚至數(shù)字化產(chǎn)品的交付都可通過(guò)網(wǎng)上進(jìn)行,使得無(wú)紙化的程度越來(lái)越高,訂單、買賣雙方的合同,作為銷售憑證的各種票據(jù)都以電子形式存在,且電子憑證又可被輕易地修改而不留任何線索、痕跡,導(dǎo)致傳統(tǒng)的憑證追蹤審計(jì)失去了基礎(chǔ);并且,互聯(lián)網(wǎng)貿(mào)易的發(fā)展刺激了支付系統(tǒng)的完善,聯(lián)機(jī)銀行與數(shù)字現(xiàn)金的出現(xiàn),加大了稅務(wù)機(jī)關(guān)通過(guò)銀行的支付交易進(jìn)行監(jiān)管的難度;還有,隨著計(jì)算機(jī)加密技術(shù)的成熟,納稅人可以使用加密、授權(quán)等多種保護(hù)方式掩藏交易信息。如何對(duì)網(wǎng)上交易進(jìn)行監(jiān)管以確保稅收收入及時(shí)、足額地入庫(kù)是網(wǎng)上征稅的又一大難題。
縱觀各種形式與產(chǎn)品的電子商務(wù),數(shù)字產(chǎn)品的電子商務(wù)不僅具有一般形態(tài)的電子商務(wù)所具有的商流與信息流的虛擬性,更因其產(chǎn)品形態(tài)的特殊性,數(shù)字產(chǎn)品電子商務(wù)又具備物流的虛擬性的特點(diǎn),這一特點(diǎn)使其在納稅人身份的判定中、交易過(guò)程的可追溯性上與稅務(wù)稽查上有效實(shí)現(xiàn)的難度都大大增加。甚至可以說(shuō),如果一個(gè)數(shù)字產(chǎn)品電子商務(wù)的經(jīng)營(yíng)者不如實(shí)地履行各項(xiàng)納稅申報(bào),那么對(duì)于稅務(wù)機(jī)關(guān),可以說(shuō)基本上沒(méi)有什么有效的方法與途徑去追查其交易商品、資金的各項(xiàng)細(xì)節(jié)。歐洲有些國(guó)家曾提出按勞務(wù)征收數(shù)字產(chǎn)品電子商務(wù)稅的設(shè)想,但總體來(lái)看,至今還沒(méi)有太好的辦法來(lái)解決這一難題。
在電子商務(wù)交易中,實(shí)現(xiàn)了無(wú)紙化操作,且交易雙方常常“隱蔽”進(jìn)行。使得印花稅的計(jì)稅依據(jù)難以確定。網(wǎng)上訂單是否具有紙基合同的性質(zhì)和作用,是否需要繳納印花稅,目前也不明確。
電子商務(wù)的便捷性與高流動(dòng)性為跨國(guó)公司操縱利潤(rùn)、規(guī)避稅收提供了便利??鐕?guó)公司通過(guò)互聯(lián)網(wǎng),只要按幾下鼠標(biāo)就可以輕松地將其在高稅區(qū)的利潤(rùn)轉(zhuǎn)到低稅區(qū)或避稅港。
隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展,投資參股的現(xiàn)象日益普遍,股權(quán)變動(dòng)的行為也日益增多,極大的活躍了資本市場(chǎng)。但是股權(quán)變動(dòng)在為我國(guó)經(jīng)濟(jì)建設(shè)注入了活力的同時(shí),納稅人的納稅遵從度并沒(méi)有同步提高,各種偷稅行為變得越來(lái)越突出,極大影響了稅收秩序。目前主要的股權(quán)變動(dòng)偷稅行為有以下幾種:第一、股權(quán)轉(zhuǎn)讓中的偷稅行為,主要以:股權(quán)轉(zhuǎn)讓不申報(bào)納稅、股權(quán)轉(zhuǎn)讓故意隱瞞真實(shí)成交價(jià)格、股權(quán)轉(zhuǎn)讓隱瞞非貨幣性收入、股權(quán)回購(gòu)少計(jì)應(yīng)稅收入等方式偷逃稅款;第二、增資擴(kuò)股中的偷稅行為,包括盈余公積及未分配利潤(rùn)轉(zhuǎn)增實(shí)收資本未按規(guī)定繳納個(gè)稅、資產(chǎn)評(píng)估增值轉(zhuǎn)增實(shí)收資本未按規(guī)定扣繳個(gè)稅、利用從企業(yè)借款或資金空轉(zhuǎn)實(shí)現(xiàn)資本增資或股本擴(kuò)張;第三、對(duì)外股權(quán)投資的偷稅行為,主要包括:明為法人對(duì)為投資、實(shí)為個(gè)人投資;是借取企業(yè)資金、實(shí)物,以個(gè)人名義對(duì)外投資兩種方式。
而上市企業(yè)為了實(shí)現(xiàn)利潤(rùn)最大化和稅負(fù)最低化,會(huì)利用各國(guó)稅收法律之間的差異及漏洞,使用違反稅收立法意圖的各種方式規(guī)避納稅。在跨國(guó)納稅人不斷運(yùn)用各種方式避稅的情況下,國(guó)家的稅收權(quán)益不斷遭到損害,稅收收入受到影響,稅收的公平原則也相應(yīng)遭到破壞。
目前上市企業(yè)使用的避稅方法主要有以下幾種:第一、利用資本弱化避稅,資本弱化避稅是指企業(yè)為了避稅,在融資和投資方式的選擇上,刻意降低股本的比重,提高貸款的比重而造成的企業(yè)負(fù)債與所有者權(quán)益的比率超過(guò)一定限額的現(xiàn)象。企業(yè)權(quán)益資本與債務(wù)資本的比例應(yīng)為1:1,當(dāng)權(quán)益資本小于債務(wù)資本時(shí),即為資本弱化。企業(yè)的投資者通過(guò)刻意減少股權(quán)投資,通過(guò)高負(fù)債、低投資,使資本弱化,增加利息支出,減少應(yīng)稅所得,以達(dá)到避稅的目的。
第二、利用轉(zhuǎn)移定價(jià)避稅,轉(zhuǎn)移定價(jià)避稅是指跨國(guó)集團(tuán)公司、母子公司等關(guān)聯(lián)企業(yè)之間,通過(guò)人為訂定內(nèi)部交易結(jié)算價(jià)格,轉(zhuǎn)移利潤(rùn),逃避納稅義務(wù)的行為。上市企業(yè)通過(guò)抬高或壓低關(guān)聯(lián)企業(yè)之間的交易價(jià)格,或以勞務(wù)費(fèi)、咨詢費(fèi)、專利及技術(shù)轉(zhuǎn)讓等名目進(jìn)行利潤(rùn)轉(zhuǎn)移,把稅后利潤(rùn)擴(kuò)大到最大限度。
第三、利用資產(chǎn)重組避稅,集團(tuán)公司、母子公司等關(guān)聯(lián)企業(yè)之間以相互銷售資產(chǎn)的方式進(jìn)行重組,進(jìn)行資的轉(zhuǎn)移或互置。對(duì)這些形式的資產(chǎn)重組行為,按現(xiàn)行稅法規(guī)定,若收購(gòu)公司將被收購(gòu)公司作為非獨(dú)立核算單位,則被收購(gòu)公司實(shí)現(xiàn)的利潤(rùn)或發(fā)生的虧損,應(yīng)與總公司一起合并納稅。當(dāng)母公司盈利時(shí),可以通過(guò)購(gòu)并關(guān)聯(lián)虧損子公司,達(dá)到少納稅或不納稅。不同地區(qū)、不同性質(zhì)企業(yè)之間稅率不同,上市企業(yè)通過(guò)兼并、重組低稅率地區(qū)的低稅率企業(yè),把利潤(rùn)轉(zhuǎn)移到低稅率地區(qū),達(dá)到避稅目的。
在以上背景下,大數(shù)據(jù)為開(kāi)展涉稅信息的收集和利用提供了新途徑、新視角,有助于解決稅務(wù)機(jī)關(guān)與納稅人之間的信息不對(duì)稱,使涉稅信息真正成為稅收管理資源,在稅收風(fēng)險(xiǎn)管理、稽查、監(jiān)控等方面有著良好的應(yīng)用前景,包括以下方面:第一、提高征管數(shù)據(jù)質(zhì)量,通過(guò)收集納稅人散布在互聯(lián)網(wǎng)上的各類信息,與稅務(wù)機(jī)關(guān)所掌握的信息比對(duì),可及時(shí)發(fā)現(xiàn)相互間的差異,核實(shí)調(diào)整,提高征管數(shù)據(jù)的準(zhǔn)確性;提高對(duì)跨國(guó)跨地區(qū)經(jīng)營(yíng)、集團(tuán)化經(jīng)營(yíng)納稅人信息收集能力;減輕因納稅人數(shù)量快速增長(zhǎng)帶來(lái)的信息采集壓力。
第二、提高數(shù)據(jù)的時(shí)效性,大數(shù)據(jù)技術(shù)可使稅務(wù)機(jī)關(guān)獲得互聯(lián)網(wǎng)上實(shí)時(shí)、準(zhǔn)實(shí)時(shí)的涉稅信息,動(dòng)態(tài)掌握納稅人生產(chǎn)經(jīng)營(yíng)狀況。
第三、完善外部門(mén)數(shù)據(jù),通過(guò)收集各部門(mén)自行對(duì)外發(fā)布的信息,可以部分彌補(bǔ)外部門(mén)數(shù)據(jù)因交換頻率帶來(lái)的數(shù)據(jù)滯后問(wèn)題,補(bǔ)充其中缺失的部分,也能獲得公開(kāi)發(fā)布但尚未納入信息交換的外部門(mén)信息。
第四、預(yù)測(cè)稅收流失風(fēng)險(xiǎn),通過(guò)海量的看似雜亂無(wú)章的涉稅數(shù)據(jù),經(jīng)過(guò)對(duì)比發(fā)現(xiàn)其中的規(guī)律和不符合常規(guī)的數(shù)據(jù)構(gòu)建“稅收流失風(fēng)險(xiǎn)指數(shù)”,從而得到真實(shí)可信的預(yù)測(cè)。
行業(yè)類型總共分為四大類別,分別是團(tuán)購(gòu)、物業(yè)管理、影院、天貓電商,每種類型均是目前稅控監(jiān)管的真空地帶,通過(guò)大數(shù)據(jù)抓取和應(yīng)用分析,用數(shù)據(jù)說(shuō)話,舉證企業(yè)上報(bào)、漏報(bào)的真實(shí)情況,可以填補(bǔ)行業(yè)類型監(jiān)管的空白。
團(tuán)購(gòu)商家可分為商品類和服務(wù)類,由于服務(wù)類在團(tuán)購(gòu)商家的比重相對(duì)較高,(如餐飲、KTV、電影、住宿、旅游等)商家通過(guò)團(tuán)購(gòu)網(wǎng)為客戶提供服務(wù)后,通常都沒(méi)有提供交易票據(jù),而團(tuán)購(gòu)的購(gòu)買數(shù)量通常比較大,因此商家完全可以通過(guò)此渠道避開(kāi)稅收監(jiān)管,是否如實(shí)上報(bào)完全依賴于商家商業(yè)道德水平,同時(shí)稅收部門(mén)亦難以結(jié)合商家的上報(bào)數(shù)據(jù)來(lái)核對(duì)其在線銷售情況,形成稅源管控的真空地帶。在稅種方面,該類商家以營(yíng)業(yè)稅和消費(fèi)稅為主,是地方稅務(wù)機(jī)關(guān)主要的征稅監(jiān)管對(duì)象。因此,對(duì)于網(wǎng)上團(tuán)購(gòu)類的銷售情報(bào),將圍繞著服務(wù)類類商家進(jìn)行。此外,團(tuán)購(gòu)平臺(tái)將以國(guó)內(nèi)知名團(tuán)購(gòu)網(wǎng)站為主。主要包括如下需求:
1.采集店鋪-商品銷售數(shù)據(jù)
●獲取店鋪的所有商品的折扣前銷售明細(xì),按照月、季度、半年,進(jìn)行數(shù)據(jù)增量統(tǒng)計(jì)
●獲取店鋪每類商品的月、季度、半年銷售情況,可自動(dòng)增量取得銷售的數(shù)據(jù)
●獲取商品團(tuán)購(gòu)時(shí)間戳
●獲取店鋪銷售商品的所有商品目錄
2.團(tuán)購(gòu)店鋪-企業(yè)信息數(shù)據(jù)
●自動(dòng)團(tuán)購(gòu)店鋪中所有企業(yè)的詳細(xì)列表,包括:企業(yè)名稱、地址、電話
●按照性質(zhì)對(duì)企業(yè)進(jìn)行類別劃分
●采集企業(yè)的累計(jì)成交額
3.采集同企業(yè)跨平臺(tái)團(tuán)購(gòu)情報(bào)
●獲取企業(yè)在各團(tuán)購(gòu)網(wǎng)上發(fā)布團(tuán)購(gòu)的信息,獲得團(tuán)購(gòu)網(wǎng)站的清單
●能根據(jù)各團(tuán)購(gòu)網(wǎng)站上企業(yè)的累計(jì)成交額,統(tǒng)計(jì)該企業(yè)在所有團(tuán)購(gòu)網(wǎng)站的累計(jì)成交額
●可實(shí)現(xiàn)按照企業(yè)為索引,自動(dòng)對(duì)所有其關(guān)聯(lián)的所有商鋪進(jìn)行匯總
目前物業(yè)管理公司通過(guò)出租房產(chǎn)的租金收入不按規(guī)定計(jì)繳房產(chǎn)稅、違規(guī)計(jì)提固定資產(chǎn)折舊等手法,虛增成本和多報(bào)虧損。并且物業(yè)公司在提供停車位等服務(wù)獲利后也沒(méi)有主動(dòng)上繳稅款,形成稅源管控的真空地帶。需要對(duì)物業(yè)管理監(jiān)控的數(shù)據(jù)包括以下幾個(gè)方面:
1.物業(yè)公司基本情況
●包括物業(yè)公司名稱、注冊(cè)所在地、注冊(cè)資金、法人、電話、營(yíng)業(yè)注冊(cè)登記號(hào)、營(yíng)業(yè)執(zhí)照有效期、經(jīng)營(yíng)范圍等,該信息將作為稅務(wù)稽查系統(tǒng)的參考
●按照地區(qū)進(jìn)行類別劃分
2.物業(yè)費(fèi)收取情況
●自動(dòng)采集物業(yè)費(fèi)收入、支出等信息
●對(duì)可按照月、季度、年,進(jìn)行數(shù)據(jù)增量統(tǒng)計(jì)
●自動(dòng)獲取收取物業(yè)費(fèi)的時(shí)間戳
3.服務(wù)獲利情況
●自動(dòng)采集停車費(fèi)收入、房屋出租收入等信息
●對(duì)可按照月、季度、年,進(jìn)行數(shù)據(jù)增量統(tǒng)計(jì)
●自動(dòng)獲取各種服務(wù)獲利的時(shí)間戳
對(duì)影院的監(jiān)控主要是要達(dá)到兩方面效果,即電影院的銷售數(shù)據(jù)與網(wǎng)上銷售數(shù)據(jù)是否存在巨大差別,對(duì)應(yīng)實(shí)體企業(yè)的上報(bào)的營(yíng)業(yè)情況如何。
1.采集各大院線的企業(yè)情報(bào)
●自動(dòng)遍歷各大院線詳細(xì)列表,包括:院線名稱、企業(yè)名稱、所在地、電話
●按照院線名稱為索引,自動(dòng)統(tǒng)計(jì)旗下分院線情況
●采集院線官網(wǎng)入口URL
●按照月、季度、半年,進(jìn)行數(shù)據(jù)增量采集各院線的累計(jì)成交額
2.采集院線的每天銷售情況
●自動(dòng)采集各院線每日的電影放映名稱、放映檔期、場(chǎng)次、電影類別、及各場(chǎng)次銷售金額
●按照電影院線名稱為索引,自動(dòng)統(tǒng)計(jì)其下屬所有分院每日的銷售金額
●獲取電影放映檔期時(shí)間戳
●獲取各院線每天放映的所有電影目錄
本著由簡(jiǎn)入繁的原則,針對(duì)天貓類商家的涉稅數(shù)據(jù)進(jìn)行集中收集、整合分析,項(xiàng)目成果將為成為其他電商平臺(tái)商家參考依據(jù)。
1.采集地域商家列表
●獲取注冊(cè)在本地所有商家的清單,實(shí)體企業(yè)注冊(cè)地址必須是本地
●能根據(jù)銷售總額,實(shí)現(xiàn)對(duì)所有商家進(jìn)行統(tǒng)計(jì)
●對(duì)某些商家注冊(cè)地是本地,而出貨地在其他地區(qū)的店鋪,能自動(dòng)進(jìn)行篩查
●可實(shí)現(xiàn)按照商品為索引,自動(dòng)對(duì)所有類別商品的商家進(jìn)行匯總
2.采集商品全類別情報(bào)
●按照天貓商品的大類、小類,自動(dòng)按分類采集商品,形成商品總表
●能自動(dòng)抽取商品共性,如品牌,價(jià)格、剔除無(wú)關(guān)的商品參數(shù),如型號(hào)、尺碼
●獲取商品的上下架時(shí)間戳
●獲取商家銷售商品的所有商品目錄
3.采集商家店鋪信息
●自動(dòng)遍歷商家詳細(xì)列表,包括:企業(yè)名稱、注冊(cè)所在地、掌柜名稱、電話
●按照主營(yíng)商品對(duì)商家進(jìn)行類別劃分
●采集商家店鋪入口URL
●采集商家的累計(jì)成交額
●采集商家的營(yíng)業(yè)執(zhí)照信息,包括:店鋪名、公司名、營(yíng)業(yè)注冊(cè)登記號(hào)、法人姓名、經(jīng)營(yíng)場(chǎng)所、營(yíng)業(yè)執(zhí)照有效期、經(jīng)營(yíng)范圍等,該信息將作為稅務(wù)稽查系統(tǒng)企業(yè)信息配對(duì)的參考
4.采集商家整體銷售情報(bào)
●獲取商家的所有商品的折扣前銷售明細(xì),按照月、季度、半年,進(jìn)行數(shù)據(jù)增量統(tǒng)計(jì)
●獲取商家每類商品的月、季度、半年銷售情況,可自動(dòng)增量取得銷售的數(shù)據(jù)
5.采集商品詳細(xì)交易情報(bào)
●獲取商家每款商品的月、季度、半年銷售情況,可自動(dòng)增量取得銷售的數(shù)據(jù)
●自動(dòng)識(shí)別每宗交易的狀態(tài),能自動(dòng)提取成交狀態(tài)的交易信息
股權(quán)變動(dòng)類需要監(jiān)控的數(shù)據(jù)包括股權(quán)、股息分紅、股權(quán)激勵(lì)計(jì)劃、高管薪酬、原始股變化、股權(quán)分配、股本結(jié)構(gòu)等。通過(guò)實(shí)時(shí)獲取股權(quán)變動(dòng)數(shù)據(jù),根據(jù)涉稅風(fēng)險(xiǎn)指標(biāo),判斷是否有偷逃稅款的可能。
另外,重大企業(yè)是指跨國(guó)企業(yè)及上市公司,通過(guò)互聯(lián)網(wǎng)采集企業(yè)經(jīng)營(yíng)情況數(shù)據(jù),拓展了涉稅情報(bào)數(shù)據(jù)來(lái)源。從不同維度進(jìn)行分析,獲得涉稅風(fēng)險(xiǎn)指數(shù),通過(guò)該指數(shù)可以預(yù)測(cè)出經(jīng)營(yíng)情況異常的企業(yè)。要采集的數(shù)據(jù)類型包括以下幾個(gè)方面:
1.股東情況
●自動(dòng)采集企業(yè)的股東情況,包括:股東名稱、境內(nèi)企業(yè)名稱
●采集持股比例、持股金額、持股變動(dòng)情況等信息
●采集站點(diǎn)源包括中文、英文,個(gè)別涉及韓文
●按照涉稅信息語(yǔ)種自動(dòng)翻譯成中文
●自動(dòng)識(shí)別涉及的幣種,換算成約定的核算幣種
2.經(jīng)營(yíng)情況
●自動(dòng)采集營(yíng)業(yè)務(wù)收入、營(yíng)業(yè)務(wù)成本等信息
●對(duì)于經(jīng)營(yíng)情況的各數(shù)據(jù),可按照月、季度、年,進(jìn)行數(shù)據(jù)增量統(tǒng)計(jì)
●采集站點(diǎn)源包括中文、英文,個(gè)別涉及韓文
●按照涉稅信息語(yǔ)種自動(dòng)翻譯成中文
●自動(dòng)識(shí)別涉及的幣種,換算成約定的核算幣種
3.基本情況
●采集的基本信息包括:企業(yè)名稱、股東名稱、上市時(shí)間、涉及行業(yè)、主營(yíng)業(yè)務(wù)
●按照行業(yè)進(jìn)行類別劃分
●采集企業(yè)入口URL
●采集站點(diǎn)源包括中文、英文,個(gè)別涉及韓文
●按照涉稅信息語(yǔ)種自動(dòng)翻譯成中文
4.財(cái)務(wù)情況
●自動(dòng)采集資產(chǎn)、負(fù)債的金額
●可按照月、季度、年,進(jìn)行數(shù)據(jù)增量統(tǒng)計(jì)
●采集站點(diǎn)源包括中文、英文,個(gè)別涉及韓文
●按照涉稅信息語(yǔ)種自動(dòng)翻譯成中文
●自動(dòng)識(shí)別涉及的幣種,換算成約定的核算幣種
5.投資情況
●自動(dòng)采集每宗投資的對(duì)象、金額
●可按照月、季度、年,進(jìn)行數(shù)據(jù)增量統(tǒng)計(jì)
●獲取每宗投資的時(shí)間戳
●采集站點(diǎn)源包括中文、英文,個(gè)別涉及韓文
●按照涉稅信息語(yǔ)種自動(dòng)翻譯成中文
●自動(dòng)識(shí)別涉及的幣種,換算成約定的核算幣種
圖1是本發(fā)明實(shí)施例提供的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)的系統(tǒng)框圖,從圖中可以看出,所述大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)包括以下模塊:
數(shù)據(jù)采集模塊,采取爬蟲(chóng)采集方式,在互聯(lián)網(wǎng)上對(duì)四大類數(shù)據(jù)進(jìn)行增量式采集,通過(guò)采集資源策略配置、設(shè)定頻率、自動(dòng)去重等方式對(duì)數(shù)據(jù)采集過(guò)程進(jìn)行管理;
數(shù)據(jù)清洗模塊,涉稅情報(bào)數(shù)據(jù)庫(kù)中的數(shù)據(jù)是面向涉稅情報(bào)數(shù)據(jù)的集合,這些數(shù)據(jù)從互聯(lián)網(wǎng)中采集而來(lái),避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這就需要利用數(shù)據(jù)清洗技術(shù)過(guò)濾那些不符合要求的數(shù)據(jù)。本項(xiàng)目主要通過(guò)無(wú)關(guān)字段清洗、過(guò)濾價(jià)格及折扣價(jià)、時(shí)間戳、自動(dòng)轉(zhuǎn)換幣種等方式進(jìn)行數(shù)據(jù)清洗,保障數(shù)據(jù)的可用性;
數(shù)據(jù)分析模塊,通過(guò)聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘等技術(shù),對(duì)涉稅情報(bào)數(shù)據(jù)進(jìn)行多維度分析,并匯總聚類歸納推理,從中挖掘出潛在規(guī)律。對(duì)于數(shù)據(jù)分析的結(jié)果可以通過(guò)可視化的手段進(jìn)行展示,用戶可以通過(guò)數(shù)據(jù)分析功能得到需要的各種統(tǒng)計(jì)報(bào)表;
數(shù)據(jù)存儲(chǔ)模塊,將數(shù)據(jù)分散存儲(chǔ)在多臺(tái)獨(dú)立的設(shè)備上,打破I/O速度限制,采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,利用位置服務(wù)器定位存儲(chǔ)信息,可提高系統(tǒng)的可靠性、可用性和存取效率,還易于擴(kuò)展。本項(xiàng)目將分布式數(shù)據(jù)庫(kù)中的數(shù)據(jù)傳輸至涉稅情報(bào)數(shù)據(jù)庫(kù),用戶可調(diào)用數(shù)據(jù)進(jìn)行數(shù)據(jù)分析;
數(shù)據(jù)輸出模塊,系統(tǒng)可將用戶需要的數(shù)據(jù)按照特定規(guī)則進(jìn)行輸出,可以利用接口將涉稅情報(bào)數(shù)據(jù)推送至稅務(wù)稽查系統(tǒng),也可以利用嵌入式技術(shù),在稅務(wù)稽查系統(tǒng)中開(kāi)辟專欄展示涉稅情報(bào)數(shù)據(jù)。
進(jìn)一步地,所述數(shù)據(jù)采集模塊采集的涉稅數(shù)據(jù)包括行業(yè)類涉稅數(shù)據(jù)、事項(xiàng)類涉稅數(shù)據(jù)和重大企業(yè)類涉稅數(shù)據(jù)。本系統(tǒng)采集前端,利用既有部署的蜘蛛群集,并在每個(gè)蜘蛛節(jié)點(diǎn)同時(shí)運(yùn)行多個(gè)采集線程,對(duì)數(shù)據(jù)進(jìn)行爬蟲(chóng)式增量采集,蜘蛛采集的最大特點(diǎn)是每個(gè)采集線程在采集前,會(huì)有探針對(duì)目標(biāo)信源進(jìn)行自學(xué)習(xí),對(duì)更新頻率高的信源進(jìn)行自適應(yīng)地高頻率采集,反之亦然。如何發(fā)揮集群的最大效用與保證集群的整體穩(wěn)定性,是分布式計(jì)算中必須考慮的重要環(huán)節(jié)之一,在本系統(tǒng)中將采用集群性能均衡器技術(shù),即集群調(diào)度器定時(shí)掃描服務(wù)器節(jié)點(diǎn)性能占用情況、I/O負(fù)荷情況等,并調(diào)用操作系統(tǒng)日志進(jìn)行性能日志審計(jì),對(duì)異常節(jié)點(diǎn)進(jìn)行告警,并將任務(wù)調(diào)度重新哈希分配,重新平衡各任務(wù)節(jié)點(diǎn)的計(jì)算任務(wù)分配,由此增加整體集群的工作效率與穩(wěn)定性。
具體地,系統(tǒng)通過(guò)在網(wǎng)絡(luò)上搜索天貓類涉稅數(shù)據(jù)、團(tuán)購(gòu)類涉稅數(shù)據(jù)、電影類涉稅數(shù)據(jù)、大企業(yè)情報(bào)數(shù)據(jù),以爬蟲(chóng)采集的方式將XML、文本、統(tǒng)計(jì)圖表、表格、圖片等格式的涉稅數(shù)據(jù),根據(jù)分布式冗余/獲取數(shù)據(jù)的策略,采集到的數(shù)據(jù)存入采集服務(wù)集群。此時(shí)采集服務(wù)集群中以分布式存儲(chǔ)的方式存儲(chǔ)了海量的半結(jié)構(gòu)化甚至非結(jié)構(gòu)化數(shù)據(jù)。
而后根據(jù)用戶的需求,將海量數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,導(dǎo)入涉稅情報(bào)數(shù)據(jù)庫(kù),形成結(jié)構(gòu)化數(shù)據(jù)。本項(xiàng)目擬建的涉稅情報(bào)分析管理平臺(tái)將通過(guò)調(diào)取涉稅情報(bào)數(shù)據(jù)庫(kù)中的數(shù)據(jù)來(lái)進(jìn)行涉稅情報(bào)數(shù)據(jù)的分析與應(yīng)用。同時(shí)稅務(wù)稽查系統(tǒng)也可以調(diào)用涉稅情報(bào)數(shù)據(jù)庫(kù)中的數(shù)據(jù),實(shí)現(xiàn)涉稅情報(bào)數(shù)據(jù)的共享。由于監(jiān)測(cè)覆蓋范圍廣,在海量數(shù)據(jù)存儲(chǔ)與處理中,分析性能與分析準(zhǔn)確性是衡量海量數(shù)據(jù)處理質(zhì)量好壞的標(biāo)準(zhǔn)。本項(xiàng)目擬定部署的分析集群,將采用分片存儲(chǔ)機(jī)制,即對(duì)一份文件進(jìn)行橫向切割,并由調(diào)度器進(jìn)行多機(jī)器分片存儲(chǔ),在數(shù)據(jù)運(yùn)算時(shí),可通過(guò)并行讀取掃描,大大加快數(shù)據(jù)運(yùn)算速率。
不管數(shù)據(jù)庫(kù)邏輯設(shè)計(jì)(表、視圖的設(shè)計(jì))還是數(shù)據(jù)庫(kù)物理設(shè)計(jì)(如索引、Cluster),都會(huì)對(duì)系統(tǒng)性能產(chǎn)生影響。如在邏輯設(shè)計(jì)時(shí)考慮該表是很少改變的基本數(shù)據(jù)還是經(jīng)常改變的業(yè)務(wù)數(shù)據(jù)、數(shù)據(jù)量的大小等;在物理設(shè)計(jì)時(shí)對(duì)查詢?yōu)橹鞯谋響?yīng)創(chuàng)建索引,連接訪問(wèn)頻率高的主從表可建立Cluster等。
本系統(tǒng)中,從數(shù)據(jù)更新頻率和數(shù)據(jù)量分析角度,將設(shè)計(jì)專題對(duì)應(yīng)的海量涉稅數(shù)據(jù)進(jìn)行索引建立,以分類專題的ID為索引,對(duì)其所關(guān)聯(lián)的涉稅情報(bào)數(shù)據(jù)進(jìn)行索引設(shè)計(jì),在查詢時(shí)可快速得到相關(guān)數(shù)據(jù)。
根據(jù)文章內(nèi)容語(yǔ)義分析,自動(dòng)在界面顯示每篇文章是否有重復(fù)文章,以及重復(fù)文章的數(shù)量、標(biāo)題、來(lái)源和采集時(shí)間等,實(shí)現(xiàn)文章的自動(dòng)去重,良好地解決了涉稅情報(bào)檢索的范圍問(wèn)題,并能對(duì)具有連續(xù)性的多個(gè)網(wǎng)頁(yè)內(nèi)容進(jìn)行自動(dòng)合并,最后形成格式化信息,使用戶能準(zhǔn)確閱讀提取后的內(nèi)容,提高閱讀效率。
數(shù)據(jù)聚類算法可以分為結(jié)構(gòu)性或者分散性。結(jié)構(gòu)性算法利用以前成功使用過(guò)的聚類器進(jìn)行分類,而分散型算法則是一次確定所有分類。結(jié)構(gòu)性算法可以從上而下或者從下至上雙向進(jìn)行計(jì)算。從下至上算法從每個(gè)對(duì)象作為單獨(dú)分類開(kāi)始,不斷融合其中相近的對(duì)象。而從上而下算法則是把所有對(duì)象作為一個(gè)整體分類,然后逐漸細(xì)分。
在本系統(tǒng)中,同步是并行任務(wù)之間通信的方法,因?yàn)橐獙?duì)IO的完成情況以及優(yōu)先級(jí)別進(jìn)行數(shù)據(jù)交互。并行同步可分為進(jìn)程同步(或者線程同步)和數(shù)據(jù)同步,進(jìn)程同步主要是如何確定數(shù)個(gè)進(jìn)程之間的執(zhí)行順序和避免數(shù)據(jù)競(jìng)爭(zhēng)的問(wèn)題,避免數(shù)據(jù)競(jìng)爭(zhēng)的主要方法是在程序中設(shè)立臨界區(qū),即一次只允許一個(gè)線程執(zhí)行的一個(gè)任務(wù)片段,通常用于保護(hù)重要的公共變量。
在本系統(tǒng)中,多任務(wù)并行處理架構(gòu)不只是單個(gè)機(jī)器單個(gè)CPU中的并行處理,由于系統(tǒng)采用分布式存儲(chǔ)的方式,一份數(shù)據(jù)同時(shí)存在于每個(gè)平行節(jié)點(diǎn)中,借鑒哈希數(shù)據(jù)分片算法思想,當(dāng)有數(shù)據(jù)插入和查詢時(shí),任務(wù)調(diào)度器可以通過(guò)數(shù)據(jù)分片讀取再整合的形式進(jìn)行數(shù)據(jù)操作,如果數(shù)據(jù)分片存儲(chǔ)在2臺(tái)機(jī)器上,那2臺(tái)機(jī)器可并行處理各存儲(chǔ)的數(shù)據(jù),大大加速數(shù)據(jù)解析入庫(kù)和查詢處理性能。
分片存儲(chǔ)的目的,是為了使一份文件同時(shí)被多臺(tái)機(jī)器或進(jìn)程進(jìn)行讀取計(jì)算。在本項(xiàng)目中,如果按照常規(guī)串聯(lián)I/0讀取與分析,所運(yùn)行的速率將是N臺(tái)存儲(chǔ)分析服務(wù)器的1/N,甚至更慢。此外,傳統(tǒng)串行序列化處理機(jī)制在文本處理中,由于受內(nèi)存與硬盤(pán)I/O速率不匹配,容易出現(xiàn)任務(wù)死鎖等假死狀況。采用分布式多調(diào)度并行處理機(jī)制,在大大提高運(yùn)算速率的基礎(chǔ)上,更好地保證了系統(tǒng)穩(wěn)定性。
使用互聯(lián)網(wǎng)監(jiān)控涉稅情報(bào),必須面臨著訪問(wèn)大數(shù)據(jù)頁(yè)面瞬時(shí)“假死”風(fēng)險(xiǎn),因此在數(shù)據(jù)訪問(wèn)及頁(yè)面載入時(shí),必須滿足快速響應(yīng)要求。使用緩存技術(shù)應(yīng)參考數(shù)據(jù)對(duì)象的精度級(jí)別及持續(xù)使用時(shí)間,因此需要充分使用分布式緩存技術(shù)來(lái)減輕服務(wù)器負(fù)載,緩存對(duì)象可基于頁(yè)面或基于數(shù)據(jù)。
系統(tǒng)需要采集海量涉稅情報(bào)數(shù)據(jù),為保證數(shù)據(jù)的完整性,需要一種指定的算法對(duì)原始數(shù)據(jù)計(jì)算出的一個(gè)校驗(yàn)值。接收方用同樣的算法計(jì)算一次校驗(yàn)值,如果和隨數(shù)據(jù)提供的校驗(yàn)值一樣,說(shuō)明數(shù)據(jù)是完整的。本系統(tǒng)使用時(shí)間戳校驗(yàn)及md5校驗(yàn)數(shù)字簽名技術(shù)完成數(shù)據(jù)校驗(yàn)。
時(shí)間戳通常是一個(gè)字符序列,唯一地標(biāo)識(shí)某一刻的時(shí)間,是一個(gè)經(jīng)加密后形成的數(shù)據(jù)校驗(yàn)文檔,它包括需加時(shí)間戳的文件的摘要、DTS收到文件的日期和時(shí)間及DTS的數(shù)字簽名。
用戶首先將需要加時(shí)間戳的文件用Hash編碼加密形成摘要,然后將該摘要發(fā)送到DTS,DTS在加入了收到文件摘要的日期和時(shí)間信息后再對(duì)該文件加密(數(shù)字簽名)然后送回用戶,這樣就完成了利用時(shí)間戳完成數(shù)據(jù)校驗(yàn)的過(guò)程。
MD5技術(shù),旨在保證確保傳輸前后數(shù)據(jù)的完整性和一致性,發(fā)送方在每次發(fā)包前將對(duì)數(shù)據(jù)賦值MD5碼,只有在數(shù)據(jù)前后完整、一致的情況下,系統(tǒng)才會(huì)進(jìn)行下一步操作。
廠商從互聯(lián)網(wǎng)采集海量涉稅情報(bào)數(shù)據(jù),進(jìn)行預(yù)處理后推送給用戶,在推送前對(duì)數(shù)據(jù)賦值MD5碼,用戶接收前數(shù)據(jù)會(huì)進(jìn)行完整、一致性驗(yàn)證,只有在數(shù)據(jù)完整、一致的情況下,系統(tǒng)才會(huì)進(jìn)行下一步分析、處理,保證數(shù)據(jù)的完整高可用性。
本實(shí)施例中,涉稅情報(bào)涉及天貓類、團(tuán)購(gòu)類、電影類、大企業(yè)情報(bào)類四個(gè)大的方面,而需要采集的信源包括電商網(wǎng)站、企業(yè)門(mén)戶網(wǎng)站、國(guó)內(nèi)外金融網(wǎng)站、國(guó)內(nèi)外熱點(diǎn)博客微博、百度貼吧、知名論壇等各種相關(guān)站點(diǎn),采集的數(shù)據(jù)類型包括包括網(wǎng)頁(yè)、文本、表格、統(tǒng)計(jì)圖和圖片等。涉稅情報(bào)數(shù)據(jù)具有廣泛性和多樣性,還可以預(yù)見(jiàn)在未來(lái)幾年,無(wú)論從涉稅情報(bào)信源還是數(shù)據(jù)量,都會(huì)呈現(xiàn)井噴式的增長(zhǎng)。因此需要根據(jù)實(shí)際情況不斷地拓展信源,信源擴(kuò)展性的高低決定著整個(gè)項(xiàng)目的成敗,這就需要在技術(shù)架構(gòu)、存儲(chǔ)性能、硬件配置等方面進(jìn)行科學(xué)嚴(yán)謹(jǐn)?shù)脑O(shè)計(jì),保障項(xiàng)目的成功。
本發(fā)明的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)還包括接口模塊,包括二次開(kāi)發(fā)接口單元和數(shù)據(jù)接口單元。考慮到后續(xù)建設(shè)中可能需要將新舊系統(tǒng)進(jìn)行集成,本項(xiàng)目系統(tǒng)在設(shè)計(jì)開(kāi)發(fā)時(shí)將獲取目標(biāo)系統(tǒng)的數(shù)據(jù)接口規(guī)則,將各種涉稅情報(bào)數(shù)據(jù)調(diào)入需要集成的系統(tǒng)。也可以根據(jù)目標(biāo)系統(tǒng)的接口規(guī)則,在其內(nèi)部嵌入涉稅情報(bào)功能。
進(jìn)一步地,所述二次開(kāi)發(fā)接口單元包括業(yè)務(wù)和數(shù)據(jù)擴(kuò)展工具、用戶自定義存儲(chǔ)過(guò)程接口、腳本編輯接口、插件接口和中間件引擎二次開(kāi)發(fā)接口。
進(jìn)一步地,本發(fā)明的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)還包括硬件支撐層,包括網(wǎng)絡(luò)設(shè)備、安全設(shè)備、存儲(chǔ)系統(tǒng)和主機(jī)系統(tǒng)。
基于“功能模塊內(nèi)部高內(nèi)聚、功能模塊之間松耦合”的SOA思想進(jìn)行架構(gòu)設(shè)計(jì),即每個(gè)模塊既可以獨(dú)立完成某項(xiàng)涉稅情報(bào)服務(wù),又可根據(jù)用戶需求進(jìn)行梳理,快速對(duì)模塊進(jìn)行串聯(lián)對(duì)外提供整體服務(wù)。在技術(shù)層面,模塊之間通過(guò)標(biāo)準(zhǔn)數(shù)據(jù)接口進(jìn)行數(shù)據(jù)交換,以標(biāo)準(zhǔn)XML文件為數(shù)據(jù)交換載體,因此,在信源擴(kuò)展的需求提出時(shí),研發(fā)部門(mén)可僅僅只對(duì)涉及信源拓展的功能獨(dú)立開(kāi)發(fā),在縮減研發(fā)周期的同時(shí),也降低了需要整體重構(gòu)的風(fēng)險(xiǎn)。
由于涉稅情報(bào)數(shù)據(jù)普遍為非結(jié)構(gòu)化數(shù)據(jù),更多以文本、圖片、音頻等形式存在,僅用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)已不能滿足數(shù)據(jù)存儲(chǔ)和分析的需要。本項(xiàng)目采用NOSQL非關(guān)系型數(shù)據(jù)庫(kù)作為存儲(chǔ)之用,有別于關(guān)系型數(shù)據(jù)庫(kù)的二維存儲(chǔ)格式,新型數(shù)據(jù)庫(kù)采用KEY-VALUE的存儲(chǔ)架構(gòu),是當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的不二選擇,因此,底層存儲(chǔ)可完全兼容涉稅情報(bào)文本、二進(jìn)制流等音視頻信息,包容未來(lái)信源擴(kuò)展的存儲(chǔ)需要。
涉稅情報(bào)數(shù)據(jù),不僅具有數(shù)據(jù)量大、非結(jié)構(gòu)化數(shù)據(jù)多的特點(diǎn),還具有數(shù)據(jù)持續(xù)增長(zhǎng)的特性,本項(xiàng)目數(shù)據(jù)云平臺(tái)以分布式聯(lián)合計(jì)算為基礎(chǔ),利用多重?cái)?shù)據(jù)冗余、分片存儲(chǔ)和分布式緩存的技術(shù)優(yōu)勢(shì),可滿足數(shù)據(jù)的安全備份和高性能分析要求。恰恰因?yàn)榉植际郊?,具有云平臺(tái)底層硬件資源的高可用性,即在涉稅情報(bào)存儲(chǔ)容量需進(jìn)行擴(kuò)容時(shí),可熱拔插式地對(duì)硬件節(jié)點(diǎn)進(jìn)行擴(kuò)容,實(shí)現(xiàn)硬件橫向擴(kuò)展。
抓取涉稅情報(bào)數(shù)據(jù)不可能做到全網(wǎng)監(jiān)控,所謂“全網(wǎng)監(jiān)控”并非指的是對(duì)所有網(wǎng)站的數(shù)據(jù)都進(jìn)行監(jiān)控,而是對(duì)涉稅情報(bào)載體上的絕大部分?jǐn)?shù)據(jù)進(jìn)行監(jiān)控,如果要監(jiān)控所有網(wǎng)站,無(wú)論是從技術(shù)可行性的角度看還是從經(jīng)濟(jì)可行性角度看都是不可取的。因此在站點(diǎn)監(jiān)測(cè)范圍上要從權(quán)威性、影響力、準(zhǔn)確性的角度看哪些網(wǎng)站的信息需要重點(diǎn)關(guān)注。本次項(xiàng)目將根據(jù)“人工運(yùn)維+系統(tǒng)自動(dòng)策略”的方式,根據(jù)實(shí)際情況對(duì)站點(diǎn)監(jiān)測(cè)范圍進(jìn)行配置。
關(guān)鍵詞是從網(wǎng)上獲取信息的基礎(chǔ),配置準(zhǔn)確的關(guān)鍵詞在大大提高搜索效率的同時(shí)又能減少無(wú)用信息的獲取。本系統(tǒng)需監(jiān)測(cè)天貓類、團(tuán)購(gòu)類、電影類、大企業(yè)的涉稅情報(bào)數(shù)據(jù),而每大類數(shù)據(jù)又由若干個(gè)子數(shù)據(jù)類型組成,關(guān)鍵詞配置規(guī)則極其復(fù)雜。本項(xiàng)目在了解稅務(wù)大業(yè)務(wù)的基礎(chǔ)上,通過(guò)分析理解各行業(yè)所需的涉稅數(shù)據(jù)類型,編制關(guān)鍵詞配置庫(kù),用戶只需選擇配置好的關(guān)鍵詞即可獲取到相關(guān)的涉稅數(shù)據(jù)。同時(shí),考慮到行業(yè)的發(fā)展?fàn)顩r,將在系統(tǒng)運(yùn)行中,需要通過(guò)人工手段持續(xù)維護(hù)關(guān)鍵詞配置庫(kù),保證系統(tǒng)能準(zhǔn)確的通過(guò)關(guān)鍵詞找到相應(yīng)的涉稅情報(bào)數(shù)據(jù)。
本實(shí)施例提供的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)的技術(shù)路線如下:
1)基于Linux的云計(jì)算體系;
2)基于JAVA、Python、C、C#進(jìn)行開(kāi)發(fā);
3)采用XML技術(shù)統(tǒng)一數(shù)據(jù)交換格式,使用XML Schema進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的定義和描述;
4)采用Web Service作為標(biāo)準(zhǔn)的數(shù)據(jù)服務(wù)接口,包括數(shù)據(jù)交換、數(shù)據(jù)存?。?/p>
5)采用消息中間件保障數(shù)據(jù)傳輸?shù)目煽亢屯暾?/p>
6)采用對(duì)象關(guān)系模型作為公共數(shù)據(jù)模型。
7)對(duì)于業(yè)務(wù)數(shù)據(jù),使用mysql的數(shù)據(jù)架構(gòu),涉稅情報(bào)數(shù)據(jù)存儲(chǔ)使用Hadoop+MapReduce+HDFS的數(shù)據(jù)架構(gòu)。
從整體架構(gòu)看,所述大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)分為硬件支撐層、數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、平臺(tái)層及應(yīng)用層,具體如下:
硬件支撐層:包括網(wǎng)絡(luò)設(shè)備、安全設(shè)備、存儲(chǔ)系統(tǒng)、主機(jī)系統(tǒng),是整個(gè)系統(tǒng)的硬件基礎(chǔ);
數(shù)據(jù)采集層:主要負(fù)責(zé)采集互聯(lián)網(wǎng)上主流的電商網(wǎng)站、企業(yè)門(mén)戶網(wǎng)站、金融網(wǎng)站、博客微博、論壇貼吧、境外等數(shù)據(jù),并存儲(chǔ)原始數(shù)據(jù)供數(shù)據(jù)處理和分析使用,采集基于靜態(tài)IP方式或動(dòng)態(tài)IP方式,不定期訪問(wèn)目標(biāo)網(wǎng)站通過(guò)時(shí)間戳,校對(duì)信息的更新情況;
數(shù)據(jù)存儲(chǔ)層:系統(tǒng)通過(guò)分布式采集集群在互聯(lián)網(wǎng)上通過(guò)爬蟲(chóng)抓取的方式采集涉稅情報(bào)數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)加工、清洗、挖掘、分類、自動(dòng)文摘、語(yǔ)義庫(kù)管理等工作完成數(shù)據(jù)預(yù)處理,并將數(shù)據(jù)導(dǎo)入涉稅情報(bào)數(shù)據(jù)庫(kù)。數(shù)據(jù)存儲(chǔ)層是完成統(tǒng)計(jì)分析工作的基礎(chǔ);
平臺(tái)層:平臺(tái)層對(duì)整個(gè)應(yīng)用層進(jìn)行有效支撐,構(gòu)建了業(yè)務(wù)環(huán)境。良好的業(yè)務(wù)支撐平臺(tái),在系統(tǒng)開(kāi)發(fā)時(shí)能夠提高開(kāi)發(fā)效率,保證開(kāi)發(fā)質(zhì)量,在系統(tǒng)使用中又可以保證各項(xiàng)業(yè)務(wù)的順利應(yīng)用,技術(shù)含量較高;
應(yīng)用層:為用戶呈現(xiàn)數(shù)據(jù)、操作數(shù)據(jù)的主要處理層,該層根據(jù)SOA和工作門(mén)戶的思想進(jìn)行構(gòu)建,支持用戶自定義工作臺(tái),將關(guān)注涉稅數(shù)據(jù)和信息進(jìn)行合理的配置和優(yōu)化。
本實(shí)施例提供的大數(shù)據(jù)涉稅情報(bào)分析系統(tǒng)為稅務(wù)征管實(shí)時(shí)提供大量的涉稅情報(bào)數(shù)據(jù),利用趨勢(shì)指數(shù)找出涉稅情報(bào)的規(guī)律并對(duì)未來(lái)避稅逃稅的趨勢(shì)進(jìn)行預(yù)測(cè),有利于稅務(wù)稽查工作的全面開(kāi)展。
以上所揭露的僅為本發(fā)明的幾種較佳實(shí)施例而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。