本發(fā)明涉及數(shù)據(jù)處理技術領域,具體涉及一種集群式文本化海量敏感數(shù)據(jù)處理方法及系統(tǒng)。
背景技術:
目前對于敏感數(shù)據(jù)進行處理時,基本分為兩種方式。第一種為手工處理方式,即工作人員手工編寫sql程序或存儲過程程序,對存儲于數(shù)據(jù)庫的敏感數(shù)據(jù)進行處理。sql是一種用于訪問和處理數(shù)據(jù)庫的標準計算機語言。第二種為工具處理方式,即使用市場上敏感數(shù)據(jù)處理產(chǎn)品進行處理,這類產(chǎn)品一般為源數(shù)據(jù)與目標數(shù)據(jù)庫建立數(shù)據(jù)處理服務,通過源數(shù)據(jù)庫系統(tǒng)所提供的dml接口進行處理。dml的全稱為datemanipulationlanguang,即數(shù)據(jù)操控語言,用于操作數(shù)據(jù)庫對象中包含的數(shù)據(jù)。以上兩種敏感數(shù)據(jù)處理方式都具有缺陷。手工處理方式無法保證脫敏數(shù)據(jù)的質量以及無法適應流程化管理,現(xiàn)已逐漸被淘汰。工具處理方式近些年才開始普遍起來,可以保證脫敏工作的質量以及可審計,滿足管理需要,但一般都是單服務器對特定數(shù)據(jù)庫進行處理,缺乏可擴展性,因為數(shù)據(jù)庫、網(wǎng)絡、硬件等一系列瓶頸等原因,對于海量數(shù)據(jù)的脫敏處理效率問題越來越凸顯。
技術實現(xiàn)要素:
本申請?zhí)峁┮环N針對海量(tb級或pb級)敏感數(shù)據(jù)進行快速處理的方法,其解決的技術問題是現(xiàn)有數(shù)據(jù)量越來越大的數(shù)據(jù)庫進行數(shù)據(jù)脫敏時,因為硬件、網(wǎng)絡、數(shù)據(jù)庫系統(tǒng)所形成的單點瓶頸造成脫敏操作效率太低,難以滿足數(shù)據(jù)量越來越大的數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)脫敏工作需要的問題。
根據(jù)第一方面,一種實施例中提供一種集群式文本化海量敏感數(shù)據(jù)處理方法,包括獲取對象數(shù)據(jù)庫的元數(shù)據(jù),獲取對象數(shù)據(jù)庫的結構化數(shù)據(jù)文本,建立服務集群,對所述結構化數(shù)據(jù)文本進行分頁和分組,對所述結構化數(shù)據(jù)文本進行脫敏處理,獲得目標數(shù)據(jù)庫,對所述對象數(shù)據(jù)庫執(zhí)行結構化文本導入,以導入所述目標數(shù)據(jù)庫。進一步的,建立服務集群為建立由web服務管控的服務集群。進一步的,對所述結構化數(shù)據(jù)文本進行脫敏處理,包括所述服務集群通過并行處理對所述結構化數(shù)據(jù)文本進行脫敏處理。進一步的,獲取對象數(shù)據(jù)庫的元數(shù)據(jù),為通過數(shù)據(jù)庫直連的方式獲取對象數(shù)據(jù)庫的元數(shù)據(jù)。
根據(jù)第二方面,一種實施例中提供一種集群式文本化海量敏感數(shù)據(jù)處理系統(tǒng),包括用于獲取對象數(shù)據(jù)庫的元數(shù)據(jù)的裝置,用于獲取對象數(shù)據(jù)庫的結構化數(shù)據(jù)文本的裝置,服務集群,用于對所述結構化數(shù)據(jù)文本進行分頁和分組的裝置,用于對所述結構化數(shù)據(jù)文本進行脫敏處理獲得目標數(shù)據(jù)庫的裝置,用于對所述對象數(shù)據(jù)庫執(zhí)行結構化文本導入以導入所述目標數(shù)據(jù)庫的裝置。
根據(jù)第三方面,一種實施例中提供一種產(chǎn)品,包括主控處理服務器和數(shù)據(jù)處理服務器。主控處理服務器用于設置脫敏處理的數(shù)據(jù)處理規(guī)則、數(shù)據(jù)處理范圍和運行參數(shù)。數(shù)據(jù)處理服務器用于對對象數(shù)據(jù)庫執(zhí)行訪問配置文件處理、數(shù)據(jù)讀取處理、數(shù)據(jù)脫敏處理和數(shù)據(jù)寫入處理,主控處理服務器和數(shù)據(jù)處理服務器的協(xié)同作用獲得目標數(shù)據(jù)庫。進一步的,數(shù)據(jù)處理服務器可根據(jù)對象數(shù)據(jù)庫中數(shù)據(jù)量的多寡進行配置。當配置多個數(shù)據(jù)處理服務器時,多個數(shù)據(jù)處理服務器采用多線程、多進程和負載均衡的處理方式并行工作。進一步的,主控處理服務器通過web服務管控的方式管控數(shù)據(jù)處理服務器的工作。
根據(jù)第四方面,一種實施例中提供一種產(chǎn)品,包括存儲器和處理器,存儲器用于存儲程序,處理器用于通過執(zhí)行存儲器存儲的程序以實現(xiàn)如第一方面實施例所述的方法。
根據(jù)第五方面,一種實施例中提供一種計算機可讀存儲介質,包括程序,所述程序能夠被處理器執(zhí)行以實現(xiàn)如第一方面實施例所述的方法。
依據(jù)上述實施例的集群式文本化海量敏感數(shù)據(jù)處理方法,由于搭配數(shù)據(jù)庫讀寫和文本讀寫兩種方式構成了數(shù)據(jù)庫敏感信息脫敏方法,利用文本的讀寫可線性并發(fā)并且不存在數(shù)據(jù)庫讀寫時的并發(fā)瓶頸的特點,使得對于數(shù)據(jù)庫數(shù)據(jù)進行結構化文本數(shù)據(jù)方式的導入和導出,能夠實現(xiàn)硬件疊加,并且該硬件疊加還能夠利用負載均衡集群的方式進行簡單擴展,實現(xiàn)了對于海量敏感數(shù)據(jù)的快速處理。
附圖說明
圖1為實施例一中集群式文本化海量敏感數(shù)據(jù)處理方法的流程圖;
圖2為實施例二中集群式文本化海量敏感數(shù)據(jù)處理系統(tǒng)的結構示意圖;
圖3為實施例三中產(chǎn)品的結構示意圖;
圖4為實施例四中產(chǎn)品的的結構示意圖。
具體實施方式
下面通過具體實施方式結合附圖對本發(fā)明作進一步詳細說明。其中不同實施方式中類似元件采用了相關聯(lián)的類似的元件標號。在以下的實施方式中,很多細節(jié)描述是為了使得本申請能被更好的理解。然而,本領域技術人員可以毫不費力的認識到,其中部分特征在不同情況下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情況下,本申請相關的一些操作并沒有在說明書中顯示或者描述,這是為了避免本申請的核心部分被過多的描述所淹沒,而對于本領域技術人員而言,詳細描述這些相關操作并不是必要的,他們根據(jù)說明書中的描述以及本領域的一般技術知識即可完整了解相關操作。
另外,說明書中所描述的特點、操作或者特征可以以任意適當?shù)姆绞浇Y合形成各種實施方式。同時,方法描述中的各步驟或者動作也可以按照本領域技術人員所能顯而易見的方式進行順序調換或調整。因此,說明書和附圖中的各種順序只是為了清楚描述某一個實施例,并不意味著是必須的順序,除非另有說明其中某個順序是必須遵循的。
在本發(fā)明實施例中,考慮到目前幾乎所有的關系數(shù)據(jù)庫都是支持高效率結構化數(shù)據(jù)文本的導入導出,如此可以搭配數(shù)據(jù)庫讀寫和文本讀寫兩種方案構成新型的數(shù)據(jù)庫敏感信息脫敏的技術方案。由于文本的讀寫可線性并發(fā),不存在數(shù)據(jù)庫讀寫時的并發(fā)瓶頸,因此,可以采用硬件疊加的方式對數(shù)據(jù)庫的數(shù)據(jù)導出或導入進行處理,以獲取結構化文本數(shù)據(jù),并且這種硬件疊加可以進行簡單擴展,可方便的滿足海量數(shù)據(jù)的處理要求。
實施例一:
實施例一提供了一種集群式文本化海量敏感數(shù)據(jù)處理方法,請參考圖1,包括以下步驟:
步驟s100:獲取對象數(shù)據(jù)庫的元數(shù)據(jù)。在一種具體實施方式中,通過數(shù)據(jù)庫直連的方式獲取對象數(shù)據(jù)庫的元數(shù)據(jù)。
步驟s110:獲取對象數(shù)據(jù)庫的結構化數(shù)據(jù)文本。
步驟s120:建立服務集群。在一種具體實施方式中,所建立的服務集群為由web服務管控的服務集群。
步驟s130:對所述結構化數(shù)據(jù)文本進行分頁和分組。
步驟s140:對所述結構化數(shù)據(jù)文本進行脫敏處理,獲得目標數(shù)據(jù)庫。在一種具體實施方式中,對結構化數(shù)據(jù)文本進行脫敏處理時,由服務集群通過并行處理對結構化數(shù)據(jù)文本進行脫敏處理。
步驟s150:對對象數(shù)據(jù)庫執(zhí)行結構化文本導入,以導入所述目標數(shù)據(jù)庫。
不同數(shù)據(jù)庫處理機制是相同的,差異性只體現(xiàn)在讀取元數(shù)據(jù)的方式以及調用數(shù)據(jù)導入導出工具的區(qū)別上。實施例一所提供的方法首先獲取對象數(shù)據(jù)庫的結構化數(shù)據(jù)文本,利用文本數(shù)據(jù)的讀寫可線性并發(fā)的特性,結合可簡單擴展的服務集群,令服務集群采用多線程、多進程和負載均衡的處理方式對結構化數(shù)據(jù)文本進行脫敏處理,在數(shù)據(jù)庫的數(shù)據(jù)量過大時,可以按照需要擴展服務集群以加快脫敏處理的進程,極大地提高了脫敏處理的效率??勺杂蓴U展的負載均衡式服務集群,實現(xiàn)了對數(shù)據(jù)文本處理的硬件疊加,可以通過提高投入的硬件的數(shù)量來獲得極高的執(zhí)行效率。實施例一所提供的方法通過對統(tǒng)一的結構化數(shù)據(jù)文本進行脫敏處理,不僅實現(xiàn)了對結構化數(shù)據(jù)文本脫敏處理的多進程、多線程和負載均衡化處理,而且實現(xiàn)了在不同數(shù)據(jù)庫應用的兼容性,通過同構數(shù)據(jù)文本的處理方式獲得不同數(shù)據(jù)庫之間的良好兼容性,能夠兼顧現(xiàn)有脫敏產(chǎn)品的安全性和可控性。
實施例二:
實施例二提供了一種集群式文本化海量敏感數(shù)據(jù)處理系統(tǒng),請參考圖2,系統(tǒng)包括用于獲取對象數(shù)據(jù)庫的元數(shù)據(jù)的裝置200,用于獲取對象數(shù)據(jù)庫的結構化數(shù)據(jù)文本的裝置210,服務集群220,用于對所述結構化數(shù)據(jù)文本進行分頁和分組的裝置230,用于對結構化數(shù)據(jù)文本進行脫敏處理獲得目標數(shù)據(jù)庫的裝置240,用于對對象數(shù)據(jù)庫執(zhí)行結構化文本導入以導入目標數(shù)據(jù)庫的裝置250。
實施例三:
實施例三提供了一種產(chǎn)品,請參考圖3,該產(chǎn)品包括主控處理服務器300和數(shù)據(jù)處理服務器310。主控處理服務器300用于設置脫敏處理的數(shù)據(jù)處理規(guī)則、數(shù)據(jù)處理范圍和運行參數(shù)。數(shù)據(jù)處理服務器310用于對對象數(shù)據(jù)庫執(zhí)行訪問配置文件處理、數(shù)據(jù)讀取處理、數(shù)據(jù)脫敏處理和數(shù)據(jù)寫入處理,主控處理服務器300和數(shù)據(jù)處理服務器310的協(xié)同作用獲得目標數(shù)據(jù)庫。在一種具體實施方式中,數(shù)據(jù)處理服務器310可根據(jù)對象數(shù)據(jù)庫中數(shù)據(jù)量的多寡進行配置。當配置多個數(shù)據(jù)處理服務器310時,多個數(shù)據(jù)處理服務器310采用多線程、多進程和負載均衡的處理方式并行工作。另外,主控處理服務器300通過web服務管控的方式管控數(shù)據(jù)處理服務器310的工作。
實施例四:
實施例四提供了一種產(chǎn)品,請參考圖4,該產(chǎn)品包括存儲器400和處理器410。存儲器400用于存儲程序,處理器410用于通過執(zhí)行存儲器400存儲的程序以實現(xiàn)如實施例一所述的方法。
實施例五:
實施例五提供了一種計算機可讀存儲介質,包括程序,所述程序能夠被處理器執(zhí)行以實現(xiàn)如實施例一所述的方法。
本領域技術人員可以理解,上述實施方式中各種方法的全部或部分功能可以通過硬件的方式實現(xiàn),也可以通過計算機程序的方式實現(xiàn)。當上述實施方式中全部或部分功能通過計算機程序的方式實現(xiàn)時,該程序可以存儲于一計算機可讀存儲介質中,存儲介質可以包括:只讀存儲器、隨機存儲器、磁盤、光盤、硬盤等,通過計算機執(zhí)行該程序以實現(xiàn)上述功能。例如,將程序存儲在設備的存儲器中,當通過處理器執(zhí)行存儲器中程序,即可實現(xiàn)上述全部或部分功能。另外,當上述實施方式中全部或部分功能通過計算機程序的方式實現(xiàn)時,該程序也可以存儲在服務器、另一計算機、磁盤、光盤、閃存盤或移動硬盤等存儲介質中,通過下載或復制保存到本地設備的存儲器中,或對本地設備的系統(tǒng)進行版本更新,當通過處理器執(zhí)行存儲器中的程序時,即可實現(xiàn)上述實施方式中全部或部分功能。
以上應用了具體個例對本發(fā)明進行闡述,只是用于幫助理解本發(fā)明,并不用以限制本發(fā)明。對于本發(fā)明所屬技術領域的技術人員,依據(jù)本發(fā)明的思想,還可以做出若干簡單推演、變形或替換。