一種使用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明公開一種稅務(wù)大數(shù)據(jù)分析方法,屬于計(jì)算機(jī)大數(shù)據(jù)處理領(lǐng)域,具體地說是 一種使用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法。
【背景技術(shù)】
[0002] 納稅評(píng)估過去是憑經(jīng)驗(yàn)和日常工作中掌握的稅源情況確定納稅評(píng)估對(duì)象的狀況, 既費(fèi)時(shí)又容易出現(xiàn)漏洞,同一把尺子去丈量每一個(gè)稅納人。一些問題容易被忽略,后來通過 數(shù)據(jù)分析進(jìn)行納稅評(píng)估,數(shù)據(jù)指標(biāo)錄入分析系統(tǒng),評(píng)估納稅質(zhì)效。而依托大數(shù)據(jù)分析技術(shù), 稅收風(fēng)險(xiǎn)管理將納稅人劃分為不同的風(fēng)險(xiǎn)等級(jí),對(duì)低風(fēng)險(xiǎn)的納稅人,采取風(fēng)險(xiǎn)提醒方式,給 納稅人主動(dòng)改正的機(jī)會(huì);對(duì)中風(fēng)險(xiǎn)納稅人,由稅務(wù)機(jī)關(guān)進(jìn)行納稅評(píng)估應(yīng)對(duì)處理;而對(duì)高風(fēng) 險(xiǎn)的納稅人,由稅收風(fēng)險(xiǎn)管理系統(tǒng)推送至稽查部門先行選案,通過稽查立案進(jìn)行應(yīng)對(duì)處理。 總之現(xiàn)有的納稅系統(tǒng)由于征納雙方信息不對(duì)稱,稽查選案的針對(duì)性不強(qiáng),稅收風(fēng)險(xiǎn)管理系 統(tǒng)推送的高風(fēng)險(xiǎn)企業(yè)指向性不強(qiáng),風(fēng)險(xiǎn)點(diǎn)不明確,選案準(zhǔn)確率大幅降低。本發(fā)明提供一種使 用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法,針對(duì)使用受限玻爾茲曼機(jī)的大數(shù)據(jù)分析,通過 假設(shè)二層圖,同層節(jié)點(diǎn)之間沒有鏈接,一層是可視層,一層是隱藏層,定義聯(lián)合組態(tài)能量;給 定隱藏層的基礎(chǔ)上,可視層的概率確定;給定可視層的基礎(chǔ)上,隱藏層的概率確定,完成稅 務(wù)大數(shù)據(jù)的分析。不僅稅收風(fēng)險(xiǎn)管理提高了選案的準(zhǔn)確率,還改變了基層稅務(wù)人員靠人工 尋找稅收風(fēng)險(xiǎn)點(diǎn)的狀況。
[0003] 受限玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)是一種可通過輸入數(shù)據(jù) 集學(xué)習(xí)概率分布的隨機(jī)生成神經(jīng)網(wǎng)絡(luò)。受限玻爾茲曼機(jī)在降維、分類、協(xié)同過濾、特征學(xué)習(xí) 和主題建模中得到了應(yīng)用。根據(jù)任務(wù)的不同,受限玻爾茲曼機(jī)可以使用監(jiān)督學(xué)習(xí)或無監(jiān)督 學(xué)習(xí)的方法進(jìn)行訓(xùn)練。受限玻爾茲曼機(jī)是一種玻爾茲曼機(jī)的變體,但限定模型必須為二分 圖。模型中包含對(duì)應(yīng)輸入?yún)?shù)的輸入可見單元和對(duì)應(yīng)訓(xùn)練結(jié)果的隱單元,圖中的每條邊必 須連接一個(gè)可見單元和一個(gè)隱單元。與此相對(duì),"無限制"玻爾茲曼機(jī)包含隱單元間的邊,使 之成為遞歸神經(jīng)網(wǎng)絡(luò)。這一限定使得相比一般玻爾茲曼機(jī)更高效的訓(xùn)練算法成為可能,特 別是基于梯度的對(duì)比分歧算法。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明針對(duì)現(xiàn)有納稅系統(tǒng)由于征納雙方信息不對(duì)稱,稽查選案的針對(duì)性不強(qiáng),稅 收風(fēng)險(xiǎn)管理系統(tǒng)推送的高風(fēng)險(xiǎn)企業(yè)指向性不強(qiáng),風(fēng)險(xiǎn)點(diǎn)不明確,選案準(zhǔn)確率大幅降低的問 題,提供一種使用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法,完成稅務(wù)大數(shù)據(jù)的分析。不僅稅 收風(fēng)險(xiǎn)管理提高了選案的準(zhǔn)確率,還改變了基層稅務(wù)人員靠人工尋找稅收風(fēng)險(xiǎn)點(diǎn)的狀況。
[0005] 本發(fā)明提出的具體方案是:
[0006] -種使用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法,具體為:
[0007] 利用受限玻爾茲曼機(jī)建立一個(gè)二層圖,同層節(jié)點(diǎn)之間沒有鏈接,一層為包含輸入 稅收風(fēng)險(xiǎn)數(shù)據(jù)的可視層V,一層為對(duì)應(yīng)訓(xùn)練結(jié)果的隱藏層h,隱藏層h內(nèi)訓(xùn)練結(jié)果對(duì)應(yīng)可視 層V輸入數(shù)據(jù);
[0008] 隱藏層h,定義訓(xùn)練結(jié)果聯(lián)合組態(tài)能量;通過Boltzmann分布和聯(lián)合組態(tài)的能量確 定組態(tài)的聯(lián)合概率分布;通過隱藏層h的訓(xùn)練結(jié)果確定可視層的概率;通過可視層V的輸 入數(shù)據(jù)確定隱藏層h的概率;完成稅務(wù)大數(shù)據(jù)在可視層輸入數(shù)據(jù)在隱藏層得到對(duì)應(yīng)訓(xùn)練結(jié) 果的分析。
[0009] 所述完成稅務(wù)大數(shù)據(jù)在可視層輸入數(shù)據(jù)在隱藏層得到對(duì)應(yīng)訓(xùn)練結(jié)果的過程為給 定一個(gè)滿足獨(dú)立分布的樣本集,需要學(xué)習(xí)模型參數(shù)Θ = {W,a,b},求解最大似然估計(jì)L,選 擇一個(gè)分析參數(shù)W,讓當(dāng)前的觀測(cè)樣本的概率最大,對(duì)最大對(duì)數(shù)似然函數(shù)求導(dǎo),得到L最大 時(shí)對(duì)應(yīng)的分析參數(shù)W,確定所要稅務(wù)數(shù)據(jù)分析結(jié)果。
[0010] 所述的方法使用FPGA的加速處理過程為:
[0011] 利用受限玻爾茲曼機(jī)建立一個(gè)二層圖,同層節(jié)點(diǎn)之間沒有鏈接,一層為包含輸入 稅收風(fēng)險(xiǎn)數(shù)據(jù)的可視層v,一層為對(duì)應(yīng)訓(xùn)練結(jié)果的隱藏層h,隱藏層h內(nèi)訓(xùn)練結(jié)果對(duì)應(yīng)可視 層V輸入數(shù)據(jù);
[0012] 所有的節(jié)點(diǎn)是隨機(jī)二值(0,1)變量節(jié)點(diǎn),全概率分布p (v,h)滿足Boltzmann分 布;
[0013] 聯(lián)合組態(tài)能量的確定:
【主權(quán)項(xiàng)】
1. 一種使用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法,其特征是: 利用受限玻爾茲曼機(jī)建立一個(gè)二層圖,同層節(jié)點(diǎn)之間沒有鏈接,一層為包含輸入稅收 風(fēng)險(xiǎn)數(shù)據(jù)的可視層V,一層為對(duì)應(yīng)風(fēng)險(xiǎn)數(shù)據(jù)訓(xùn)練結(jié)果的隱藏層h,隱藏層h內(nèi)訓(xùn)練結(jié)果對(duì)應(yīng) 可視層V輸入數(shù)據(jù); 隱藏層h,定義訓(xùn)練結(jié)果聯(lián)合組態(tài)能量;通過Boltzmann分布和聯(lián)合組態(tài)的能量確定組 態(tài)的聯(lián)合概率分布;通過隱藏層h的訓(xùn)練結(jié)果確定可視層的獲得風(fēng)險(xiǎn)數(shù)據(jù)概率;通過可視 層V的輸入稅收風(fēng)險(xiǎn)數(shù)據(jù)確定隱藏層h的風(fēng)險(xiǎn)概率;完成稅務(wù)大數(shù)據(jù)在可視層輸入數(shù)據(jù)在 隱藏層得到對(duì)應(yīng)訓(xùn)練結(jié)果的分析。
2. 根據(jù)權(quán)利要求1所述的一種使用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法,其特征是 所述完成稅務(wù)大數(shù)據(jù)在可視層輸入數(shù)據(jù)在隱藏層得到對(duì)應(yīng)訓(xùn)練結(jié)果的過程為給定一個(gè)滿 足獨(dú)立分布的數(shù)據(jù)樣本集,需要學(xué)習(xí)模型參數(shù)Θ = {W,a,b},求解最大似然估計(jì)L,選擇一 個(gè)分析參數(shù)W,讓當(dāng)前的觀測(cè)樣本的概率最大,對(duì)最大對(duì)數(shù)似然函數(shù)求導(dǎo),得到L最大時(shí)對(duì) 應(yīng)的分析參數(shù)W,確定所要稅務(wù)數(shù)據(jù)分析結(jié)果。
3. 根據(jù)權(quán)利要求2所述的一種使用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法,其特征是 所述的方法使用FPGA的加速處理過程為: 利用受限玻爾茲曼機(jī)建立一個(gè)二層圖,同層節(jié)點(diǎn)之間沒有鏈接,一層為包含輸入稅收 風(fēng)險(xiǎn)數(shù)據(jù)的可視層v,一層為對(duì)應(yīng)訓(xùn)練結(jié)果的隱藏層h,隱藏層h內(nèi)訓(xùn)練結(jié)果對(duì)應(yīng)可視層V 輸入數(shù)據(jù); 所有的節(jié)點(diǎn)是隨機(jī)二值(〇,1)變量節(jié)點(diǎn),全概率分布P (V,h)滿足Boltzmann分布; 聯(lián)合組態(tài)能量的確定:
Θ = {ff, a, b}model parameters. 每個(gè)可見層Vi有偏置對(duì)每個(gè)隱藏層h有偏置b j; 組態(tài)的聯(lián)合概率P分布可以通過Boltzmann分布和這個(gè)組態(tài)的能量來確定:
通過隱藏層h的訓(xùn)練結(jié)果確定可視層的概率:
通過可視層V的輸入數(shù)據(jù)確定隱藏層h的概率:
給定一個(gè)滿足獨(dú)立分布的樣本集:D= Iv(I),v (2),···,V(N) },需要學(xué)習(xí)模型參數(shù)Θ = {ff,a,b},求解最大似然估計(jì):
選擇一個(gè)分析參數(shù),讓當(dāng)前的觀測(cè)樣本的概率最大,對(duì)最大對(duì)數(shù)似然函數(shù)求導(dǎo),得到L 最大時(shí)對(duì)應(yīng)的分析參數(shù)W :
確定所要稅務(wù)數(shù)據(jù)分析結(jié)果。
【專利摘要】本發(fā)明公開一種使用受限玻爾茲曼機(jī)的稅務(wù)大數(shù)據(jù)分析方法,屬于計(jì)算機(jī)大數(shù)據(jù)處理領(lǐng)域,具體為利用受限玻爾茲曼機(jī)建立一個(gè)二層圖,同層節(jié)點(diǎn)之間沒有鏈接,一層為包含輸入稅收風(fēng)險(xiǎn)數(shù)據(jù)的可視層v,一層為對(duì)應(yīng)訓(xùn)練結(jié)果的隱藏層h,隱藏層h內(nèi)訓(xùn)練結(jié)果對(duì)應(yīng)可視層v輸入數(shù)據(jù);隱藏層h,定義訓(xùn)練結(jié)果聯(lián)合組態(tài)能量;通過Boltzmann分布和聯(lián)合組態(tài)的能量確定組態(tài)的聯(lián)合概率分布;通過隱藏層h的訓(xùn)練結(jié)果確定可視層的概率;通過可視層v的輸入數(shù)據(jù)確定隱藏層h的概率;完成稅務(wù)大數(shù)據(jù)在可視層輸入數(shù)據(jù)在隱藏層得到對(duì)應(yīng)訓(xùn)練結(jié)果的分析;本發(fā)明使稅收風(fēng)險(xiǎn)管理提高了選案的準(zhǔn)確率,還改變了基層稅務(wù)人員靠人工尋找稅收風(fēng)險(xiǎn)點(diǎn)的狀況。
【IPC分類】G06Q40-00, G06Q10-06
【公開號(hào)】CN104766167
【申請(qǐng)?zhí)枴緾N201510148411
【發(fā)明人】戴鴻君, 于治樓
【申請(qǐng)人】浪潮集團(tuán)有限公司
【公開日】2015年7月8日
【申請(qǐng)日】2015年3月31日