一種hive持久化函數(shù)的控制方法及系統(tǒng)與流程

文檔序號：12124590閱讀：1118來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及大數(shù)據(jù)處理的技術(shù)領(lǐng)域，尤其涉及一種hive持久化函數(shù)的控制方法，以及hive持久化函數(shù)的控制系統(tǒng)。

背景技術(shù)：

hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。其優(yōu)點是學習成本低，可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計，不必開發(fā)專門的MapReduce應(yīng)用，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

在hive平臺上做大數(shù)據(jù)計算時通用會使用到UDF(User-Defined Functions，用戶定義函數(shù))，主要是由于UDF非常靈活易用，用戶可以在UDF中實現(xiàn)非常復(fù)雜的邏輯運算，在某些情況下UDF具有不可替代的作用。

在hive中建立持久化UDF的時候需要在每個數(shù)據(jù)庫中執(zhí)行一遍create function UDF名as包命using jar‘集群路徑’的命令，即創(chuàng)建UDF名稱并通過指定已經(jīng)上傳到集群中jar包的某個類完成該UDF的定義。在對UDF進行刪除等操作也是如此。例如，中國專利申請(申請?zhí)枺篊N201410483891.0)提供了一種Hive中自制用戶提取信息工具的方法和裝置。

如果需要加載UDF的數(shù)據(jù)庫很多，則對UDF的添加、刪除等操作將非常費時費力。如果只在一個數(shù)據(jù)庫下建立UDF，在其他數(shù)據(jù)庫中使用該UDF時，則需要在UDF名前添加該UDF所在數(shù)據(jù)庫的名稱，即：數(shù)據(jù)庫名.UDF名。這雖然降低了建立UDF的復(fù)雜性，卻使UDF的使用變得復(fù)雜。

技術(shù)實現(xiàn)要素：

為克服現(xiàn)有技術(shù)的缺陷，本發(fā)明要解決的技術(shù)問題是提供了一種hive持久化函數(shù)的控制方法，其使得在大量數(shù)據(jù)庫需要添加UDF時操作變得方便，增強了可維護性，使得UDF具有更強的易用性，保證了UDF的靈活性和安全性。

本發(fā)明的技術(shù)方案是：這種hive持久化函數(shù)的控制方法，該方法包括以下步驟：

(1)修改hive的源代碼，以便在不指定數(shù)據(jù)庫域名時，使hive的讀取和存儲UDF信息的操作指向default數(shù)據(jù)庫；

(2)優(yōu)化hive的部署；

(3)建立跨庫UDF：在hive中的任意一個數(shù)據(jù)庫下，用create function建立跨庫UDF。

本發(fā)明通過在hive中的任意一個數(shù)據(jù)庫中創(chuàng)建UDF，則可以在hive中所有庫中跨庫訪問該UDF，而不必在每個數(shù)據(jù)庫中都創(chuàng)建一遍UDF。使得在大量數(shù)據(jù)庫需要添加UDF時操作變得方便，增強了可維護性；在hive的各個數(shù)據(jù)庫中使用UDF時，可以像使用hive內(nèi)置的函數(shù)一樣方便，不需要添加任何數(shù)據(jù)庫域名前綴，使得UDF具有更強的易用性；依然可以創(chuàng)建個別數(shù)據(jù)庫自有的UDF，只需添加數(shù)據(jù)庫域名前綴即可，保證了UDF的靈活性和安全性。

還提供了一種hive持久化函數(shù)的控制系統(tǒng)，該系統(tǒng)包括：

hive的源代碼修改模塊，其配置來檢查輸入的參數(shù)是否合法；

部署優(yōu)化模塊，其配置來優(yōu)化hive的部署；

跨庫UDF建立模塊，其配置來在hive中的任意一個數(shù)據(jù)庫下，用create function建立跨庫UDF。

附圖說明

圖1所示為根據(jù)本發(fā)明的hive持久化函數(shù)的控制方法的流程圖。

具體實施方式

如圖1所示，這種hive持久化函數(shù)的控制方法，該方法包括以下步驟：

(1)修改hive的源代碼，以便在不指定數(shù)據(jù)庫域名時，使hive的讀取和存儲UDF信息的操作指向default數(shù)據(jù)庫；

(2)優(yōu)化hive的部署；

(3)建立跨庫UDF：在hive中的任意一個數(shù)據(jù)庫下，用create function建立跨庫UDF。

另外，所述步驟(1)中，首先修改類FunctionRegistry中g(shù)etFunctionInfoFromMetastore函數(shù)和getFunctionInfo，將其中的dbName＝SessionState.get().getCurrentDatabase().toLowerCase()替換為dbName＝default；再修改類FunctionUtils類中的getQualifiedFunctionNamePart函數(shù)，將其中的String dbName＝SessionState.get().getCurrentDatabase()替換為dbName＝default。

另外，所述步驟(2)中，將修改好的hive文件中的ql工程用mvn編譯成jar包，在含有pom.xml的項目路徑下執(zhí)行mvn package，生成包含依賴的jar文件，然后用該jar包替換機器上原有的jar包。

另外，所述步驟(3)中，在任意數(shù)據(jù)庫下，創(chuàng)建UDF名稱，并通過指定已經(jīng)上傳到集群中jar包的一個類完成該UDF的定義，從而建立跨庫訪問的UDF。具體地，執(zhí)行create function UDF名as包名.類名，使用jar包在hadoop集群中的路徑。

另外，該方法還包括步驟(4)，在創(chuàng)建UDF時，如果添加數(shù)據(jù)庫域名前綴，則UDF建立在該數(shù)據(jù)庫下。

本領(lǐng)域普通技術(shù)人員可以理解，實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成，所述的程序可以存儲于一計算機可讀取存儲介質(zhì)中，該程序在執(zhí)行時，包括上述實施例方法的各步驟，而所述的存儲介質(zhì)可以是：ROM/RAM、磁碟、光盤、存儲卡等。因此，與本發(fā)明的方法相對應(yīng)的，本發(fā)明還同時包括一種hive持久化函數(shù)的控制系統(tǒng)，該系統(tǒng)通常以與方法各步驟相對應(yīng)的功能模塊的形式表示。使用該方法的系統(tǒng)包括：

hive的源代碼修改模塊，其配置來檢查輸入的參數(shù)是否合法；

部署優(yōu)化模塊，其配置來優(yōu)化hive的部署；

跨庫UDF建立模塊，其配置來在hive中的任意一個數(shù)據(jù)庫下，用create function建立跨庫UDF。

本發(fā)明的有益效果如下：

1.通過在hive中的任意一個數(shù)據(jù)庫中創(chuàng)建UDF，則可以在hive中所有庫中跨庫訪問該UDF，而不必在每個數(shù)據(jù)庫中都創(chuàng)建一遍UDF。使得在大量數(shù)據(jù)庫需要添加UDF時操作變得方便，增強了可維護性。

2.在hive的各個數(shù)據(jù)庫中使用UDF時，可以像使用hive內(nèi)置的函數(shù)一樣方便，不需要添加任何數(shù)據(jù)庫域名前綴，使得UDF具有更強的易用性。

3.依然可以創(chuàng)建個別數(shù)據(jù)庫自有的UDF，只需添加數(shù)據(jù)庫域名前綴即可，保證了UDF的靈活性和安全性。

以上所述，僅是本發(fā)明的較佳實施例，并非對本發(fā)明作任何形式上的限制，凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾，均仍屬本發(fā)明技術(shù)方案的保護范圍。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張書凡;張翼;溫宗臣;何良均;馮森林;李冰;范衛(wèi)衛(wèi);
技術(shù)所有人：北京集奧聚合科技有限公司;
我是此專利的發(fā)明人

上一篇：一種基于螢火蟲算法和SOM網(wǎng)絡(luò)的瓦斯突出預(yù)測方法與流程
上一篇：一種散熱電機軸的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種hive持久化函數(shù)的控制方法及系統(tǒng)與流程