亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法

文檔序號(hào):6608852閱讀:178來源:國知局
專利名稱:用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種估計(jì)存儲(chǔ)數(shù)據(jù)分布的技術(shù),具體地說,是涉及一種用基于小波 的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法。
背景技術(shù)
數(shù)據(jù)庫的很多功能都需要準(zhǔn)確的謂詞選擇率估計(jì),特別是査詢優(yōu)化器,其需要 使用謂詞的選擇率進(jìn)行代價(jià)估計(jì),從而選擇代價(jià)最低的計(jì)劃。
從最早的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)開始,查詢優(yōu)化就是困擾數(shù)據(jù)庫的一 個(gè)難題。選擇率通常被用來估計(jì)符合査詢條件的結(jié)果行數(shù),而謂詞選擇率通常可以 從統(tǒng)計(jì)信息的直方圖得到。數(shù)據(jù)庫的統(tǒng)計(jì)信息記錄著數(shù)據(jù)庫對(duì)象(表、索引等)的 行數(shù)、大小、分布特征等信息。當(dāng)提交到數(shù)據(jù)庫的查詢要執(zhí)行時(shí),數(shù)據(jù)庫査詢優(yōu)化 器根據(jù)數(shù)據(jù)庫對(duì)象上的統(tǒng)計(jì)信息進(jìn)行代價(jià)估計(jì),尋求最佳的執(zhí)行計(jì)劃。如果沒有統(tǒng) 計(jì)信息可用或者統(tǒng)計(jì)信息陳舊,可能會(huì)造成數(shù)據(jù)庫按照錯(cuò)誤的存取路徑讀取數(shù)據(jù), 生成相對(duì)來說不是最優(yōu)的存取方案,按照不是最佳的執(zhí)行計(jì)劃運(yùn)行,從而造成執(zhí)行 效率的低下。
傳統(tǒng)方法是使用直方圖存儲(chǔ)數(shù)據(jù)的分布特征來提供選擇率估計(jì)的依據(jù)。到目前 為止,各商業(yè)數(shù)據(jù)庫先后使用了等寬(Equal-width)直方圖、等高(Equal-height) 直方圖、最大差異(Maxdiff)直方圖、壓縮(Compressed)直方圖等直方圖技術(shù)。 如,Oracle數(shù)據(jù)庫目前采用的是等高直方圖技術(shù),SQL Server數(shù)據(jù)庫使用的是Maxdiff 直方圖技術(shù),而DB2數(shù)據(jù)庫使用的是Compressed直方圖技術(shù)。這些直方圖技術(shù)都是 一維直方圖技術(shù),它可以提供準(zhǔn)確的一維査詢選擇率估計(jì)。但是對(duì)于多維查詢,這 些一維直方圖所提供的選擇率估計(jì)常常是不準(zhǔn)確的。這是因?yàn)?,?duì)于現(xiàn)實(shí)的數(shù)據(jù)庫 數(shù)據(jù),各個(gè)屬性之間往往是存在某種聯(lián)系的,而通過一維直方圖進(jìn)行多維選擇率估 計(jì)是基于屬性獨(dú)立性假設(shè)的,而這種假設(shè)在現(xiàn)實(shí)中往往是很少存在的。
多維直方圖是對(duì)一維直方圖的擴(kuò)充,但是多維直方圖的存儲(chǔ)和構(gòu)造代價(jià)都極高, 因此各大商業(yè)數(shù)據(jù)庫都不采取多維直方圖技術(shù),而寧愿使用基于獨(dú)立性假設(shè)的一維 直方圖技術(shù)。目前,有一種方法希望通過使用多維數(shù)據(jù)的區(qū)別值個(gè)數(shù)對(duì)使用基于獨(dú) 立性假設(shè)的一維直方圖技術(shù)所得到的多維選擇率進(jìn)行修正,從而得到較為準(zhǔn)確的多 維選擇率,但是這種方法的修正結(jié)果是總是對(duì)使用基于獨(dú)立性假設(shè)的一維直方圖技 術(shù)所得到的多維選擇率進(jìn)行了一定的放大,因此,有時(shí)候這種方法能取得較好的效 果,但是有時(shí)候修正的結(jié)果會(huì)更加偏離實(shí)際結(jié)果,造成更嚴(yán)重的優(yōu)化差錯(cuò)。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的 方法,與基于屬性獨(dú)立性假設(shè)的一維直方圖技術(shù)相比,該方法所得到的選擇率估計(jì) 值更準(zhǔn)確、可靠。
為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案
一種用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法,它分為兩個(gè)階 段,第一階段是對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),第二階段是用戶査詢時(shí)的選擇率估計(jì), 其中
第一階段包括以下步驟
1) 數(shù)據(jù)采樣
對(duì)待創(chuàng)建二維統(tǒng)計(jì)信息的關(guān)系進(jìn)行隨機(jī)采樣,并獲取二維統(tǒng)計(jì)信息所涉及的屬 性的屬性值,從而構(gòu)成創(chuàng)建統(tǒng)計(jì)信息所基于的二維數(shù)據(jù)集合,
2) 提取最頻繁值MCV
計(jì)算二維數(shù)據(jù)集中的所有不同數(shù)據(jù)的數(shù)目和每一個(gè)數(shù)據(jù)出現(xiàn)的次數(shù),將出現(xiàn)次 數(shù)超過平均次數(shù)的數(shù)據(jù)作為二維最頻繁值單獨(dú)存儲(chǔ)在統(tǒng)計(jì)信息中,其余的數(shù)據(jù)作為 下一步驟中的數(shù)據(jù)分布矩陣的輸入,
3) 構(gòu)造數(shù)據(jù)分布矩陣
構(gòu)造一個(gè)用來存儲(chǔ)數(shù)據(jù)的分布特征的整型矩陣,矩陣的每一維代表數(shù)據(jù)庫屬性
的一維,矩陣的大小視每一維的數(shù)據(jù)分布范圍而定,對(duì)步驟2)輸入的數(shù)據(jù)逐條按照
各維的屬性值所在的坐標(biāo)區(qū)域進(jìn)行分發(fā),確定矩陣的每一個(gè)坐標(biāo)區(qū)域的數(shù)據(jù)分布量,
4) 小波分解
對(duì)步驟3)中構(gòu)造的數(shù)據(jù)分布矩陣,按每一維順序進(jìn)行Haar小波分解,得到一 個(gè)新的矩陣,
5) 濾波存儲(chǔ)
對(duì)小波分解后得到的矩陣進(jìn)行過濾,按照數(shù)據(jù)庫的存儲(chǔ)能力選取若干個(gè)絕對(duì)值 最大的小波系數(shù),記錄該小波系數(shù)的值和該小波系數(shù)在數(shù)據(jù)分布矩陣中的坐標(biāo)位置, 它們和步驟2)提取的最頻繁值一起構(gòu)成了基于小波的壓縮直方圖,將壓縮直方圖及 其必要的標(biāo)識(shí)信息一起作為統(tǒng)計(jì)信息存儲(chǔ),
第二階段包括以下步驟
6) 重構(gòu)數(shù)據(jù)分布矩陣
當(dāng)用戶提交一條査詢語句的時(shí)候,首先按照統(tǒng)計(jì)信息的標(biāo)識(shí)信息查找與査詢語 句所涉及的屬性相匹配的統(tǒng)計(jì)信息,然后按照Haar小波分解過程的逆過程對(duì)存儲(chǔ)的 統(tǒng)計(jì)信息進(jìn)行逆分解,重構(gòu)出數(shù)據(jù)分布矩陣,
7) 選擇率估計(jì)
當(dāng)?shù)玫揭粋€(gè)多維范圍查詢語句之后,首先從重構(gòu)的數(shù)據(jù)分布矩陣中計(jì)算符合該 查詢條件的選擇率,然后計(jì)算最頻繁值中符合查詢條件的選擇率,査詢語句的選擇
率就等于這兩個(gè)選擇率之和。 本發(fā)明具有以下優(yōu)點(diǎn)-
本發(fā)明使用小波技術(shù)對(duì)原始的數(shù)據(jù)分布矩陣進(jìn)行有損壓縮,從而使得二維數(shù)據(jù) 的聯(lián)合分布存儲(chǔ)成為可能,在使用時(shí),再將壓縮過的數(shù)據(jù)分布矩陣恢復(fù),從而進(jìn)行 二維選擇率的估計(jì)。并且,本發(fā)明在小波分解前提取了最頻繁值進(jìn)行單獨(dú)存儲(chǔ),因 此使用小波技術(shù)壓縮的數(shù)據(jù)損失被大大降低。
本發(fā)明由于使用了 MCV的單獨(dú)存儲(chǔ)技術(shù),對(duì)于二維等值查詢條件,可獲得相當(dāng) 準(zhǔn)確的選擇率估計(jì)結(jié)果,與不使用MCV的小波技術(shù)相比,二維等值査詢的準(zhǔn)確性平 均提高20%以上。
本發(fā)明是一種時(shí)間換空間的方法,在不增加巨大時(shí)間開銷的前提下,本發(fā)明使 用較少的存儲(chǔ)空間保存了二維數(shù)據(jù)的聯(lián)合分布,從而為二維査詢提供準(zhǔn)確的選擇率 估計(jì)。
使用本發(fā)明的方法所獲得二維謂詞選擇率估計(jì)比使用基于屬性獨(dú)立性假設(shè)的兩 個(gè)一維直方圖所獲得的選擇率估計(jì)要準(zhǔn)確,尤其是兩列屬性之間存在函數(shù)依賴的情 況,使用本發(fā)明的方法所得的結(jié)果與實(shí)際結(jié)果的誤差在40%以下,而使用基于屬性 獨(dú)立性假設(shè)的兩個(gè)一維直方圖所得的結(jié)果與實(shí)際結(jié)果的誤差超過100%。
本發(fā)明通過用基于小波的壓縮直方圖得到的二維謂詞選擇率估計(jì)準(zhǔn)確、可靠, 克服了使用一維直方圖進(jìn)行多維選擇率估計(jì)的不準(zhǔn)確性,且與二維直方圖技術(shù)相比, 本發(fā)明所需的存儲(chǔ)和構(gòu)造代價(jià)較低。


圖l是實(shí)現(xiàn)本發(fā)明的流程圖2是從數(shù)據(jù)分布矩陣計(jì)算選擇率的示意圖3是進(jìn)行數(shù)據(jù)分發(fā)之后構(gòu)造的數(shù)據(jù)分布矩陣;
圖4是對(duì)數(shù)據(jù)分布矩陣進(jìn)行二維Haar小波分解之后的矩陣;
圖5是根據(jù)查詢條件重構(gòu)之后得到的數(shù)據(jù)分布圖。
具體實(shí)施例方式
如圖1所示,本發(fā)明分為兩個(gè)階段,第一階段是對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì), 存儲(chǔ)為統(tǒng)計(jì)信息,用于以后的査詢優(yōu)化,第二階段是用戶查詢時(shí)的選擇率估計(jì)。 第一階段的具體步驟如下
步驟一數(shù)據(jù)采樣
采樣是從總體獲取一部分樣本,使這個(gè)樣本能夠描述總體的特征。對(duì)待創(chuàng)建二 維統(tǒng)計(jì)信息的關(guān)系進(jìn)行隨機(jī)采樣,并獲取二維統(tǒng)計(jì)信息所涉及的屬性的屬性值,從 而構(gòu)成創(chuàng)建統(tǒng)計(jì)信息所基于的二維數(shù)據(jù)集合。
步驟二提取最頻繁值MCV (Most Common Value)
首先對(duì)待創(chuàng)建統(tǒng)計(jì)信息的兩維屬性固定一個(gè)維數(shù)順序,對(duì)二維數(shù)據(jù)集中的數(shù)據(jù) 按照固定好的維數(shù)順序進(jìn)行排序,然后,按照排序順序計(jì)算所有不同的數(shù)據(jù)數(shù)目和 每一個(gè)數(shù)據(jù)出現(xiàn)的次數(shù),將出現(xiàn)次數(shù)超過平均次數(shù)25%的數(shù)據(jù)作為二維MCV單獨(dú) 存儲(chǔ)在統(tǒng)計(jì)信息中,其余的數(shù)據(jù)作為下一步驟中的數(shù)據(jù)分布矩陣的輸入。所有數(shù)據(jù) 出現(xiàn)的次數(shù)之和除以數(shù)據(jù)數(shù)就是平均次數(shù)。
步驟三構(gòu)造數(shù)據(jù)分布矩陣
構(gòu)造一個(gè)整型矩陣,用來存儲(chǔ)數(shù)據(jù)的分布特征。矩陣的每一維代表數(shù)據(jù)庫屬性 的一維,矩陣的大小視每一維的數(shù)據(jù)分布范圍而定,例如可以根據(jù)該屬性的一維直 方圖的大小確定矩陣在該維的大小,而使用一維直方圖的桶邊界作為矩陣在該維的 坐標(biāo)分位點(diǎn)。確定了坐標(biāo)分位點(diǎn)之后的矩陣就相當(dāng)于一個(gè)二維坐標(biāo)系,對(duì)從步驟二 輸入的數(shù)據(jù)逐條按照各維的屬性值所在的坐標(biāo)區(qū)域進(jìn)行分發(fā),確定矩陣的每一個(gè)坐 標(biāo)區(qū)域的數(shù)據(jù)分布量。
步驟四小波分解
對(duì)步驟三中構(gòu)造的數(shù)據(jù)分布矩陣,按每一維順序進(jìn)行Haar小波分解。先對(duì)數(shù)據(jù) 分布矩陣按第一維進(jìn)行小波分解,然后將第一維小波分解的結(jié)果作為輸入,按第二 維進(jìn)行小波分解,依此規(guī)則,進(jìn)行二維小波分解之后,得到一個(gè)新的矩陣。
步驟五濾波存儲(chǔ)
將小波分解后得到的矩陣進(jìn)行過濾,按照數(shù)據(jù)庫的存儲(chǔ)能力選取B個(gè)絕對(duì)值最 大的小波系數(shù),記錄該小波系數(shù)的值和該小波系數(shù)在數(shù)據(jù)分布矩陣中的坐標(biāo)位置, 它們和第二步驟提取的MCV—起構(gòu)成了基于小波的壓縮直方圖。壓縮直方圖和必要 的標(biāo)識(shí)信息,如直方圖所基于的關(guān)系,直方圖所基于的各維屬性,以及該直方圖的 采樣行數(shù)等一起構(gòu)成統(tǒng)計(jì)信息存儲(chǔ)。該統(tǒng)計(jì)信息將作為二維謂詞選擇率估計(jì)的依據(jù)。
當(dāng)用戶執(zhí)行查詢語句時(shí),查詢優(yōu)化器根據(jù)數(shù)據(jù)庫對(duì)象上的統(tǒng)計(jì)信息進(jìn)行估計(jì),
選擇最佳的執(zhí)行計(jì)劃,具體包括重構(gòu)數(shù)據(jù)分布矩陣和選擇率估計(jì)兩個(gè)步驟 步驟一重構(gòu)數(shù)據(jù)分布矩陣
當(dāng)用戶提交一條查詢語句的時(shí)候,按照統(tǒng)計(jì)信息的標(biāo)識(shí)信息查找與查詢語句所
涉及的屬性相匹配的統(tǒng)計(jì)信息,然后按照Haar小波分解過程的逆過程對(duì)存儲(chǔ)的統(tǒng)計(jì) 信息進(jìn)行逆分解,重構(gòu)出數(shù)據(jù)分布矩陣。由于在濾波過程損失了一定的信息,因此 重構(gòu)出的數(shù)據(jù)分布矩陣和步驟三構(gòu)建的矩陣略有不同,但是之間的誤差是很小的, 基本保留了原數(shù)據(jù)分布特征。
步驟二選擇率估計(jì)
重構(gòu)出的數(shù)據(jù)分布矩陣與MCV相結(jié)合,以對(duì)二維查詢進(jìn)行選擇率估計(jì)。 當(dāng)?shù)玫揭粋€(gè)多維范圍查詢語句之后,首先從數(shù)據(jù)分布矩陣中計(jì)算符合該查詢條 件的選擇率,然后查詢MCV計(jì)算MCV中符合査詢條件的選擇率,査詢語句的選擇 率就等于這兩個(gè)選擇率之和。其中,從數(shù)據(jù)分布矩陣計(jì)算選擇率就相當(dāng)于計(jì)算查詢
200710100361.3
說明書第5/5頁
條件所約束的坐標(biāo)范圍內(nèi)的數(shù)據(jù)之和占整個(gè)數(shù)據(jù)分布矩陣的數(shù)據(jù)總量的比例,如圖2
所示, 一個(gè)二維査詢條件所約束的范圍為虛線框的坐標(biāo)范圍,那么其選擇率就是虛
線框所包含的數(shù)據(jù)之和占整個(gè)坐標(biāo)系的數(shù)據(jù)之和的比例。而計(jì)算來自MCV的選擇 率則是通過順序掃描MCV,計(jì)算所有位于査詢條件約束范圍之內(nèi)的MCV的數(shù)據(jù)量 之和,并用這個(gè)和除以總數(shù)據(jù)量得到的。
而對(duì)于多維等值査詢條件,可以直接通過MCV計(jì)算選擇率,而不需要重構(gòu)數(shù)據(jù) 分布矩陣。
下面舉一實(shí)例,說明以上各步驟。
例如對(duì)于關(guān)系R,其需要?jiǎng)?chuàng)建統(tǒng)計(jì)信息的屬性為A和A2,假設(shè)采樣行數(shù)為13, 經(jīng)采樣獲得的二維數(shù)據(jù)集合為{(1,1), (4,5), (3,3), (4,5), (3,4), (4,5), (5,7), (5,5), (1,3), (1,1), (5,9), (1,9), (9,3)},經(jīng)二維排序后的數(shù)據(jù)集合為((l,l), (1,1), (1,3), (1,9), (3,3), (3,4), (4,5), (4,5), (4,5), (5,5), (5,7), (5,9), (9,3)},其中,不同的數(shù)據(jù)數(shù)目共有10個(gè), 總數(shù)據(jù)數(shù)為13,因此數(shù)據(jù)出現(xiàn)的平均次數(shù)為1.3。其中數(shù)據(jù)(1,1)出現(xiàn)次數(shù)為2, (4,5) 出現(xiàn)次數(shù)為3,都超過平均頻率25%,因此被提取為MCV。剩余的數(shù)據(jù)集合為 {(1,3),(1,9),(3,3),(3,4),(5,5),(5,7),(5,9),(9,3)}。
在第三步驟中,確定兩維的分位點(diǎn)都是{0,2,4,6,8,10},則進(jìn)行數(shù)據(jù)分發(fā)之后構(gòu)造 的數(shù)據(jù)分布矩陣如圖3所示。
第四步驟對(duì)數(shù)據(jù)分布矩陣進(jìn)行二維Haar小波分解之后的矩陣如圖4所示。 第五步驟中,假如數(shù)據(jù)庫能存儲(chǔ)B^20個(gè)小波系數(shù),則存儲(chǔ)的小波系數(shù)為0.4531, 0.2031, -0.0221, 0.1768, -0.1875, 0.3281, 0.0781, -0.0221, 0.1768, -0.1875, 0.0663, 0.0663, 0.1563, -0.0884, 0.0884, 0.0884, 0.0625, -0.0625, 0.0884, -0.1250。
如果用戶提交的查詢條件為A-8 and A^2 and A2<6 and A2>2,重構(gòu)之后得到的 數(shù)據(jù)分布如圖5所示。比較圖3和圖5可以發(fā)現(xiàn),重構(gòu)后的數(shù)據(jù)分布和原數(shù)據(jù)分布 基本相同。用戶査詢所約束的范圍如圖5中陰影區(qū)域所示,因此其選擇率為0.2308。
在具體實(shí)施中,對(duì)于支持基于一維直方圖得到的統(tǒng)計(jì)信息的數(shù)據(jù)庫中,根據(jù)需 要,還可同時(shí)建立支持基于小波的壓縮直方圖二維統(tǒng)計(jì)信息。如神舟OSCAR數(shù)據(jù)庫 本身支持一維直方圖統(tǒng)計(jì)信息,且該一維直方圖是自動(dòng)創(chuàng)建的,故創(chuàng)建二維統(tǒng)計(jì)信 息時(shí),可使用相關(guān)屬性的一維直方圖的桶邊界來作為二維數(shù)據(jù)分布矩陣的區(qū)域分位 點(diǎn)。這樣得到的二維統(tǒng)計(jì)信息所需的存儲(chǔ)小,為數(shù)據(jù)庫節(jié)省一定的存儲(chǔ)空間。當(dāng)查 詢優(yōu)化器對(duì)二維査詢進(jìn)行選擇率估計(jì)時(shí),如果統(tǒng)計(jì)信息中有二維統(tǒng)計(jì)信息與該兩維 查詢條件相對(duì)應(yīng),則使用該二維統(tǒng)計(jì)信息進(jìn)行選擇率估計(jì),否則就使用基于屬性獨(dú) 立性假設(shè)的一維統(tǒng)計(jì)信息進(jìn)行選擇率估計(jì)。當(dāng)二維統(tǒng)計(jì)信息所基于的一維直方圖發(fā) 生變化時(shí),二維統(tǒng)計(jì)信息也同時(shí)進(jìn)行更新。
實(shí)際應(yīng)用時(shí),由于維數(shù)越高,統(tǒng)計(jì)信息的構(gòu)造和存儲(chǔ)情況越復(fù)雜,故一般的數(shù) 據(jù)庫支持到二維統(tǒng)計(jì)信息即可。
權(quán)利要求
1、一種用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法,其特征在于它分為兩個(gè)階段,第一階段是對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),第二階段是用戶查詢時(shí)的選擇率估計(jì),其中第一階段包括以下步驟1)數(shù)據(jù)采樣對(duì)待創(chuàng)建二維統(tǒng)計(jì)信息的關(guān)系進(jìn)行隨機(jī)采樣,并獲取二維統(tǒng)計(jì)信息所涉及的屬性的屬性值,從而構(gòu)成創(chuàng)建統(tǒng)計(jì)信息所基于的二維數(shù)據(jù)集合,2)提取最頻繁值計(jì)算二維數(shù)據(jù)集中的所有不同數(shù)據(jù)的數(shù)目和每一個(gè)數(shù)據(jù)出現(xiàn)的次數(shù),將出現(xiàn)次數(shù)超過平均次數(shù)的數(shù)據(jù)作為二維最頻繁值單獨(dú)存儲(chǔ)在統(tǒng)計(jì)信息中,其余的數(shù)據(jù)作為下一步驟中的數(shù)據(jù)分布矩陣的輸入,3)構(gòu)造數(shù)據(jù)分布矩陣構(gòu)造一個(gè)用來存儲(chǔ)數(shù)據(jù)的分布特征的整型矩陣,矩陣的每一維代表數(shù)據(jù)庫屬性的一維,矩陣的大小視每一維的數(shù)據(jù)分布范圍而定,對(duì)步驟2)輸入的數(shù)據(jù)逐條按照各維的屬性值所在的坐標(biāo)區(qū)域進(jìn)行分發(fā),確定矩陣的每一個(gè)坐標(biāo)區(qū)域的數(shù)據(jù)分布量,4)小波分解對(duì)步驟3)中構(gòu)造的數(shù)據(jù)分布矩陣,按每一維順序進(jìn)行Haar小波分解,得到一個(gè)新的矩陣,5)濾波存儲(chǔ)對(duì)小波分解后得到的矩陣進(jìn)行過濾,按照數(shù)據(jù)庫的存儲(chǔ)能力選取若干個(gè)絕對(duì)值最大的小波系數(shù),記錄該小波系數(shù)的值和該小波系數(shù)在數(shù)據(jù)分布矩陣中的坐標(biāo)位置,它們和步驟2)提取的最頻繁值一起構(gòu)成了基于小波的壓縮直方圖,將壓縮直方圖及其必要的標(biāo)識(shí)信息一起作為統(tǒng)計(jì)信息存儲(chǔ),第二階段包括以下步驟6)重構(gòu)數(shù)據(jù)分布矩陣當(dāng)用戶提交一條查詢語句的時(shí)候,首先按照統(tǒng)計(jì)信息的標(biāo)識(shí)信息查找與查詢語句所涉及的屬性相匹配的統(tǒng)計(jì)信息,然后按照Haar小波分解過程的逆過程對(duì)存儲(chǔ)的統(tǒng)計(jì)信息進(jìn)行逆分解,重構(gòu)出數(shù)據(jù)分布矩陣,7)選擇率估計(jì)當(dāng)?shù)玫揭粋€(gè)多維范圍查詢語句之后,首先從重構(gòu)的數(shù)據(jù)分布矩陣中計(jì)算符合該查詢條件的選擇率,然后計(jì)算最頻繁值中符合查詢條件的選擇率,查詢語句的選擇率就等于這兩個(gè)選擇率之和。
2、 根據(jù)權(quán)利要求1所述的用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的 方法,其特征在于在所述提取最頻繁值步驟中,首先對(duì)待創(chuàng)建統(tǒng)計(jì)信息的兩維屬性固定一個(gè)維數(shù) 順序,對(duì)二維數(shù)據(jù)集中的數(shù)據(jù)按照固定好的維數(shù)順序進(jìn)行排序,然后按照排序順序 計(jì)算所有不同的數(shù)據(jù)數(shù)目和每一個(gè)數(shù)據(jù)出現(xiàn)的次數(shù),將出現(xiàn)次數(shù)超過平均次數(shù)的數(shù) 據(jù)作為二維最頻繁值單獨(dú)存儲(chǔ)在統(tǒng)計(jì)信息中。
3、 根據(jù)權(quán)利要求1或2所述的用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估 計(jì)的方法,其特征在于-在所述提取最頻繁值步驟中,將出現(xiàn)次數(shù)超過平均次數(shù)25%的數(shù)據(jù)作為二維最頻繁值單獨(dú)存儲(chǔ)在統(tǒng)計(jì)信息中。
4、 根據(jù)權(quán)利要求1所述的用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的 方法,其特征在于在所述構(gòu)造數(shù)據(jù)分布矩陣步驟中,根據(jù)該屬性的一維直方圖的大小確定矩陣在該維的大小,使用一維直方圖的桶邊界作為矩陣在該維的坐標(biāo)分位點(diǎn),對(duì)提取最頻繁值步驟中輸入的數(shù)據(jù)逐條按照各維的屬性值所在的坐標(biāo)區(qū)域進(jìn)行分發(fā),確定矩陣 的每一個(gè)坐標(biāo)區(qū)域的數(shù)據(jù)分布量。
5、 根據(jù)權(quán)利要求1所述的用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法,其特征在于-在所述小波分解步驟中,先對(duì)數(shù)據(jù)分布矩陣按第一維進(jìn)行小波分解,然后將第 一維小波分解的結(jié)果作為輸入,按第二維進(jìn)行小波分解,依此規(guī)則,進(jìn)行二維小波 分解之后,得到一個(gè)新的矩陣。
6、 根據(jù)權(quán)利要求1所述的用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法,其特征在于在所述濾波存儲(chǔ)步驟中,壓縮直方圖的必要的標(biāo)識(shí)信息包括直方圖所基于的關(guān) 系、直方圖所基于的各維屬性、以及直方圖的采樣行數(shù)。
7、 根據(jù)權(quán)利要求1所述的用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法,其特征在于,在所述選擇率估計(jì)步驟中從數(shù)據(jù)分布矩陣計(jì)算選擇率就是計(jì)算査詢條件所約束的坐標(biāo)范圍內(nèi)的數(shù)據(jù)之和 占整個(gè)數(shù)據(jù)分布矩陣的數(shù)據(jù)總量的比例,而計(jì)算來自最頻繁值的選擇率則是通過順 序掃描最頻繁值,計(jì)算所有位于查詢條件約束范圍之內(nèi)的最頻繁值的數(shù)據(jù)量之和, 并用這個(gè)和除以總數(shù)據(jù)量得到的。
8、 根據(jù)權(quán)利要求1或7所述的用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法,其特征在于-在所述選擇率估計(jì)步驟中,對(duì)于多維等值查詢條件,直接通過最頻繁值計(jì)算選 擇率,而不需重構(gòu)數(shù)據(jù)分布矩陣。
全文摘要
本發(fā)明涉及用基于小波的壓縮直方圖實(shí)現(xiàn)二維謂詞選擇率估計(jì)的方法。方法分為對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和選擇率估計(jì)兩個(gè)階段,其中第一階段包括以下步驟1)數(shù)據(jù)采樣,2)提取最頻繁值,3)構(gòu)造數(shù)據(jù)分布矩陣,4)小波分解,5)濾波存儲(chǔ),第二階段包括以下步驟6)重構(gòu)數(shù)據(jù)分布矩陣,7)選擇率估計(jì)。本發(fā)明使用小波技術(shù)對(duì)原始的數(shù)據(jù)分布矩陣進(jìn)行有損壓縮,從而使得二維數(shù)據(jù)的聯(lián)合分布存儲(chǔ)成為可能,在使用時(shí),再將壓縮過的數(shù)據(jù)分布矩陣恢復(fù),從而進(jìn)行二維選擇率的估計(jì)。并且,本發(fā)明在小波分解前提取了最頻繁值進(jìn)行單獨(dú)存儲(chǔ),因此使用小波技術(shù)壓縮的數(shù)據(jù)損失被大大降低。本發(fā)明是一種時(shí)間換空間的方法,在不增加巨大時(shí)間開銷的前提下,使用較少的存儲(chǔ)空間保存了二維數(shù)據(jù)的聯(lián)合分布,從而為二維查詢提供準(zhǔn)確的選擇率估計(jì)。
文檔編號(hào)G06F17/30GK101105802SQ20071010036
公開日2008年1月16日 申請(qǐng)日期2007年6月8日 優(yōu)先權(quán)日2007年6月8日
發(fā)明者陽 李 申請(qǐng)人:北京神舟航天軟件技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1