一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法

文檔序號：6358381閱讀：182來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法，適用于基于二元表即〈行號，列值 > 的列存儲(chǔ)數(shù)據(jù)庫管理系統(tǒng)環(huán)境。
背景技術(shù)：
連接(Join)在數(shù)據(jù)查詢中占有非常重的比重，特別是在列存儲(chǔ)數(shù)據(jù)系統(tǒng)中尤為重要。除了用戶查詢所需要的連接操作外，為了把各列數(shù)據(jù)重新合并成行，很多情況下就需要額外的同表各列的連接。數(shù)據(jù)庫中的經(jīng)典連接算法有嵌套循環(huán)連接、合并連接和哈希連接等實(shí)現(xiàn)方式。其中哈希連接是一種高效的連接算法，多數(shù)情況下其表現(xiàn)均優(yōu)于傳統(tǒng)的嵌套循環(huán)連接和合并連接。然而哈希連接也存在一些缺陷，主要表現(xiàn)在兩個(gè)方面。一是難以選擇合適的桶數(shù)，二是難以選擇恰當(dāng)?shù)纳⒘泻瘮?shù)。由于列存儲(chǔ)分析型應(yīng)用中數(shù)據(jù)往往具有“海量特點(diǎn)”，使得桶數(shù)和散列函數(shù)更加難以選擇，上述問題表現(xiàn)更加明顯。首先，若桶數(shù)過少，每個(gè)桶內(nèi)的數(shù)據(jù)個(gè)數(shù)可能就會(huì)太多而致使連接效率低下，而如果桶數(shù)太多則又會(huì)造成內(nèi)存浪費(fèi)和管理成本的增加。其次，由于每次哈希連接所處理的數(shù)據(jù)特性都不同，很難找到一個(gè)通用的哈希函數(shù)使數(shù)據(jù)都能很好的均勻散列，因此選擇一個(gè)通用的哈希散列函數(shù)也十分困難。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種通過在桶內(nèi)構(gòu)建索引，克服傳統(tǒng)哈希連接的缺陷，減少查找匹配時(shí)間，提高哈希連接的效率的哈希連接方法。為了達(dá)到上述目的，本發(fā)明的技術(shù)方案是提供了一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法，其特征在于，步驟為步驟I、初始化解析哈希連接兩表信息,確定哈希對象小表S,判斷哈希關(guān)鍵字，初始化哈希表HT，設(shè)置桶的個(gè)數(shù)為B，散列函數(shù)為f(x)；步驟2、先創(chuàng)建桶結(jié)點(diǎn)，隨后，對哈希對象小表S中數(shù)據(jù)Si使用散列函數(shù)f (x)計(jì)算哈希值，再根據(jù)計(jì)算的值將數(shù)據(jù)Si按大小有序填充到相應(yīng)的桶結(jié)點(diǎn)適當(dāng)?shù)奈恢弥?，若?shù)據(jù)按哈希關(guān)鍵字無序，桶內(nèi)數(shù)據(jù)采用鏈表存儲(chǔ)，若數(shù)據(jù)按哈希關(guān)鍵字有序，桶內(nèi)數(shù)據(jù)采用數(shù)組存儲(chǔ)，初始情況下僅為每個(gè)桶生成一個(gè)大小為容忍值長度的數(shù)組，當(dāng)桶內(nèi)的元組個(gè)數(shù)超過容忍值T時(shí)，再新動(dòng)態(tài)生成一個(gè)容忍值長度的數(shù)組，填充時(shí)填充到當(dāng)前數(shù)組尾部；步驟3、判斷當(dāng)前桶內(nèi)的元素個(gè)數(shù)是否大于容忍值T，若大于則轉(zhuǎn)向步驟4建立桶內(nèi)索引，否則按照普通的哈希散列算法將其散列到桶中，并轉(zhuǎn)向步驟5 ；步驟4、建立桶內(nèi)索引從第一個(gè)數(shù)據(jù)開始，將該數(shù)據(jù)重新插入到桶中，插入第一條數(shù)據(jù)記錄時(shí)，建立第一個(gè)索引節(jié)點(diǎn)，該節(jié)點(diǎn)索引第一條記錄位置，當(dāng)有新的數(shù)據(jù)進(jìn)入該桶時(shí)，首先查桶內(nèi)索引鏈，找到合適的索引節(jié)點(diǎn)，從此索引節(jié)點(diǎn)索引的的第一個(gè)數(shù)據(jù)位置開始對比找到合適位置后插入，若此索引節(jié)點(diǎn)中數(shù)據(jù)個(gè)數(shù)count值超過容忍值T時(shí)，就從當(dāng)前插入數(shù)據(jù)的位置，將這個(gè)索引節(jié)點(diǎn)一分為二，同時(shí)為新的索引節(jié)點(diǎn)賦值，該過程反復(fù)進(jìn)行，直到每個(gè)索引節(jié)點(diǎn)中數(shù)據(jù)個(gè)數(shù)均小于容忍值T ；步驟5、建立桶內(nèi)索引數(shù)組當(dāng)表中所有數(shù)據(jù)插入完成后，將各個(gè)桶的索引節(jié)點(diǎn)，按索引數(shù)據(jù)最小值的順序存生成該表的索引數(shù)組，便于二分法查找；步驟6、匹配連接建立上述哈希桶后，利用桶內(nèi)索引，進(jìn)行匹配連接。優(yōu)選地,所述步驟6包括步驟6. I、取哈希大表中數(shù)據(jù)進(jìn)行連接，該數(shù)據(jù)經(jīng)過散列函數(shù)f(x)計(jì)算后，找到對應(yīng)的桶；步驟6. 2、首先二分查找此桶對應(yīng)的索引節(jié)點(diǎn)數(shù)組，找到對應(yīng)的索引節(jié)點(diǎn)后，若數(shù)據(jù)按哈希關(guān)鍵字有序，則可取出對應(yīng)的數(shù)組，繼續(xù)使用二分查找；若數(shù)據(jù)按哈希關(guān)鍵字無序，則從索引節(jié)點(diǎn)中讀出此索引節(jié)點(diǎn)中的第一條數(shù)據(jù)的位置，接下來從哈希大表中取出的數(shù)據(jù)就從該位置起依次與桶中數(shù)據(jù)一一比對；步驟6. 3、若遇到相同值則連接成功，并繼續(xù)進(jìn)行比對，到下一個(gè)不同的值結(jié)束；如果沒有遇到相同的值，則比對到下一個(gè)索引點(diǎn)的開始數(shù)據(jù)就可以確定小表S中沒有此項(xiàng)，則數(shù)據(jù)連接不成功。本發(fā)明在桶內(nèi)構(gòu)建索引，其好處在于一是不用過分考慮桶的個(gè)數(shù)。在桶數(shù)較少的情況下通過桶內(nèi)的索引依然可以快速定位到所需要的元素。二是不用苛求一個(gè)適用于多數(shù)數(shù)據(jù)特征的哈希函數(shù)，即便哈希函數(shù)選擇不夠合理導(dǎo)致了一定程度上的數(shù)據(jù)分布不均勻，但是在數(shù)據(jù)分布較多的桶內(nèi)索引又能使系統(tǒng)快速查找到所需元素。特別的，根據(jù)列存儲(chǔ)特點(diǎn)，在桶內(nèi)索引基礎(chǔ)上提出哈希行號，在關(guān)鍵字有序數(shù)據(jù)下的散列與匹配算法，進(jìn)一步提升桶內(nèi)查找速度，提高哈希連接效率。本發(fā)明的優(yōu)點(diǎn)是通過在桶內(nèi)構(gòu)建索引，克服傳統(tǒng)哈希連接的缺陷，減少查找匹配時(shí)間，提高哈希連接的效率的哈希連接方法。
具體實(shí)施例方式為使本發(fā)明更明顯易懂，茲以一優(yōu)選實(shí)施例詳細(xì)說明如下。本發(fā)明提供了一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法，其步驟為步驟I、初始化解析哈希連接兩表信息,確定哈希對象小表S,判斷哈希關(guān)鍵字，初始化哈希表HT，設(shè)置桶的個(gè)數(shù)為B，散列函數(shù)為f (X)，該散列函數(shù)即為哈希函數(shù)；步驟2、先創(chuàng)建桶節(jié)點(diǎn)，隨后,對哈希對象小表S中數(shù)據(jù)Si使用散列函數(shù)f (X)計(jì)算哈希值，再根據(jù)計(jì)算的值將數(shù)據(jù)Si按大小有序填充到相應(yīng)的桶結(jié)點(diǎn)適當(dāng)?shù)奈恢弥校魯?shù)據(jù)按哈希關(guān)鍵字無序，桶內(nèi)數(shù)據(jù)采用鏈表存儲(chǔ)，若數(shù)據(jù)按哈希關(guān)鍵字有序，桶內(nèi)數(shù)據(jù)采用數(shù)組存儲(chǔ)，初始情況下僅為每個(gè)桶生成一個(gè)大小為容忍值長度的數(shù)組，當(dāng)桶內(nèi)的元組個(gè)數(shù)超過容忍值T時(shí)，再新動(dòng)態(tài)生成一個(gè)容忍值長度的數(shù)組，填充時(shí)填充到當(dāng)前數(shù)組尾部；步驟3、判斷當(dāng)前桶內(nèi)的元素個(gè)數(shù)是否大于容忍值T，若大于則轉(zhuǎn)向步驟4建立桶內(nèi)索引，否則按照普通的哈希散列算法將其散列到桶中，并轉(zhuǎn)向步驟5 ；步驟4、建立桶內(nèi)索引從第一個(gè)數(shù)據(jù)開始，將該數(shù)據(jù)重新插入到桶中，插入第一條數(shù)據(jù)記錄時(shí)，建立第一個(gè)索引節(jié)點(diǎn)，該節(jié)點(diǎn)索引第一條記錄位置，當(dāng)有新的數(shù)據(jù)進(jìn)入該桶時(shí)，首先查桶內(nèi)索引鏈，找到合適的索引節(jié)點(diǎn)，從此索引節(jié)點(diǎn)索引的的第一個(gè)數(shù)據(jù)位置開始對比找到合適位置后插入，若此索引節(jié)點(diǎn)中數(shù)據(jù)個(gè)數(shù)count值超過容忍值T時(shí)，就從當(dāng)前插入數(shù)據(jù)的位置，將這個(gè)索引節(jié)點(diǎn)一分為二，同時(shí)為新的索引節(jié)點(diǎn)賦值，該過程反復(fù)進(jìn)行，直到每個(gè)索引節(jié)點(diǎn)中數(shù)據(jù)個(gè)數(shù)均小于容忍值T ；步驟5、建立桶內(nèi)索引數(shù)組當(dāng)表中所有數(shù)據(jù)插入完成后，將各個(gè)桶的索引節(jié)點(diǎn)，按索引數(shù)據(jù)最小值的順序存生成該表的索引數(shù)組，便于二分法查找；步驟6、匹配連接建立上述哈希桶后，利用桶內(nèi)索引，進(jìn)行匹配連接，其步驟包括步驟6. I、取哈希大表中數(shù)據(jù)進(jìn)行連接，該數(shù)據(jù)經(jīng)過散列函數(shù)f(x)計(jì)算后，找到對應(yīng)的桶；步驟6. 2、首先二分查找此桶對應(yīng)的索引節(jié)點(diǎn)數(shù)組，找到對應(yīng)的索引節(jié)點(diǎn)后，若數(shù)據(jù)按哈希關(guān)鍵字有序，則可取出對應(yīng)的數(shù)組，繼續(xù)使用二分查找；若數(shù)據(jù)按哈希關(guān)鍵字無序，則從索引節(jié)點(diǎn)中讀出此索引節(jié)點(diǎn)中的第一條數(shù)據(jù)的位置，接下來從哈希大表中取出的數(shù)據(jù)就從該位置起依次與桶中數(shù)據(jù)一一比對；步驟6. 3、若遇到相同值則連接成功，并繼續(xù)進(jìn)行比對，到下一個(gè)不同的值結(jié)束；如果沒有遇到相同的值，則比對到下一個(gè)索引點(diǎn)的開始數(shù)據(jù)就可以確定小表S中沒有此項(xiàng)，則數(shù)據(jù)連接不成功。
權(quán)利要求
1.一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法，其特征在于，步驟為步驟I、初始化解析哈希連接兩表信息，確定哈希對象小表S,判斷哈希關(guān)鍵字,初始化哈希表HT，設(shè)置桶的個(gè)數(shù)為B，散列函數(shù)為f(x)；步驟2、先創(chuàng)建桶節(jié)點(diǎn)，隨后，對哈希對象小表S中數(shù)據(jù)Si使用散列函數(shù)f(x)計(jì)算哈希值，再根據(jù)計(jì)算的值將數(shù)據(jù)Si按大小有序填充到相應(yīng)的桶結(jié)點(diǎn)適當(dāng)?shù)奈恢弥?，若?shù)據(jù)按哈希關(guān)鍵字無序，桶內(nèi)數(shù)據(jù)采用鏈表存儲(chǔ)，若數(shù)據(jù)按哈希關(guān)鍵字有序，桶內(nèi)數(shù)據(jù)采用數(shù)組存儲(chǔ)，初始情況下僅為每個(gè)桶生成一個(gè)大小為容忍值長度的數(shù)組，當(dāng)桶內(nèi)的元組個(gè)數(shù)超過容忍值T時(shí)，再新動(dòng)態(tài)生成一個(gè)容忍值長度的數(shù)組，填充時(shí)填充到當(dāng)前數(shù)組尾部；步驟3、判斷當(dāng)前桶內(nèi)的元素個(gè)數(shù)是否大于容忍值T，若大于則轉(zhuǎn)向步驟4建立桶內(nèi)索弓丨，否則按照普通的哈希散列算法將其散列到桶中，并轉(zhuǎn)向步驟5 ;步驟4、建立桶內(nèi)索引從第一個(gè)數(shù)據(jù)開始，將該數(shù)據(jù)重新插入到桶中，插入第一條數(shù)據(jù)記錄時(shí)，建立第一個(gè)索引節(jié)點(diǎn)，該節(jié)點(diǎn)索引第一條記錄位置，當(dāng)有新的數(shù)據(jù)進(jìn)入該桶時(shí)，首先查桶內(nèi)索引鏈，找到合適的索引節(jié)點(diǎn)，從此索引節(jié)點(diǎn)索引的的第一個(gè)數(shù)據(jù)位置開始對比找到合適位置后插入，若此索引節(jié)點(diǎn)中數(shù)據(jù)個(gè)數(shù)count值超過容忍值T時(shí)，就從當(dāng)前插入數(shù)據(jù)的位置，將這個(gè)索引節(jié)點(diǎn)一分為二，同時(shí)為新的索引節(jié)點(diǎn)賦值，該過程反復(fù)進(jìn)行，直到每個(gè)索引節(jié)點(diǎn)中數(shù)據(jù)個(gè)數(shù)均小于容忍值T ；步驟5、建立桶內(nèi)索引數(shù)組當(dāng)表中所有數(shù)據(jù)插入完成后，將各個(gè)桶的索引節(jié)點(diǎn)，按索引數(shù)據(jù)最小值的順序存生成該表的索引數(shù)組，便于二分法查找；步驟6、匹配連接建立上述哈希桶后，利用桶內(nèi)索引，進(jìn)行匹配連接。
2.如權(quán)利要求I所述的一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法，其特征在于，所述步驟6包括步驟6. I、取哈希大表中數(shù)據(jù)進(jìn)行連接，該數(shù)據(jù)經(jīng)過散列函數(shù)f(x)計(jì)算后，找到對應(yīng)的桶；步驟6. 2、首先二分查找此桶對應(yīng)的索引節(jié)點(diǎn)數(shù)組，找到對應(yīng)的索引節(jié)點(diǎn)后，若數(shù)據(jù)按哈希關(guān)鍵字有序，則可取出對應(yīng)的數(shù)組，繼續(xù)使用二分查找；若數(shù)據(jù)按哈希關(guān)鍵字無序，則從索引節(jié)點(diǎn)中讀出此索引節(jié)點(diǎn)中的第一條數(shù)據(jù)的位置，接下來從哈希大表中取出的數(shù)據(jù)就從該位置起依次與桶中數(shù)據(jù)一一比對；步驟6. 3、若遇到相同值則連接成功，并繼續(xù)進(jìn)行比對，到下一個(gè)不同的值結(jié)束；如果沒有遇到相同的值，則比對到下一個(gè)索引點(diǎn)的開始數(shù)據(jù)就可以確定小表S中沒有此項(xiàng)，則數(shù)據(jù)連接不成功。
全文摘要
本發(fā)明涉及一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法，其特征在于，步驟為步驟1、初始化；步驟2、將數(shù)據(jù)Si按大小有序填充到相應(yīng)的桶結(jié)點(diǎn)適當(dāng)?shù)奈恢弥校徊襟E3、判斷當(dāng)前桶內(nèi)的元素個(gè)數(shù)是否大于容忍值T，若大于則轉(zhuǎn)向步驟4建立桶內(nèi)索引，否則按照普通的哈希散列算法將其散列到桶中，并轉(zhuǎn)向步驟5；步驟4、建立桶內(nèi)索引；步驟5、建立桶內(nèi)索引數(shù)組；步驟6、匹配連接。本發(fā)明的優(yōu)點(diǎn)是通過在桶內(nèi)構(gòu)建索引，克服傳統(tǒng)哈希連接的缺陷，減少查找匹配時(shí)間，提高哈希連接的效率的哈希連接方法。
文檔編號G06F17/30GK102609487SQ20121001927
公開日2012年7月25日申請日期2012年1月20日優(yōu)先權(quán)日2012年1月20日
發(fā)明者樂嘉錦, 夏小玲, 王梅, 郝大騰申請人:東華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王梅;樂嘉錦;夏小玲;郝大騰
技術(shù)所有人：東華大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

哈希索引相關(guān)技術(shù)

自適應(yīng)哈希索引相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向列存儲(chǔ)的桶內(nèi)索引哈希連接方法