1.一種分布式數(shù)據(jù)庫系統(tǒng)中表連接數(shù)據(jù)分布方式的選擇方法,其特征在于,包括:
判斷表連接字段是否為hash分布列,如果為hash分布列,則直接下發(fā)至計算節(jié)點(diǎn)執(zhí)行數(shù)據(jù)連接;
如果不為hash分布列,則根據(jù)評估結(jié)果選擇數(shù)據(jù)分布方式。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述評估結(jié)果包括:
表連接字段進(jìn)行數(shù)據(jù)的hash重分布的時間或者表連接中的其中一個表在分布式系統(tǒng)的所有節(jié)點(diǎn)中拉成全量數(shù)據(jù)的復(fù)制表的時間。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法包括:
評估表連接的兩表中按照單表條件過濾后表的行數(shù)和需要動態(tài)進(jìn)行重分布的字段的總的字節(jié)數(shù);和
評估表連接的中的其中一個表在分布式系統(tǒng)的所有節(jié)點(diǎn)中拉成全量數(shù)據(jù)的復(fù)制表的數(shù)據(jù)量。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
評估表連接的兩表中按照連接字段進(jìn)行動態(tài)重分布后兩表本地join的數(shù)據(jù)量;和
或者評估表連接的選擇兩表中的選擇較小的表按照拉復(fù)制表后執(zhí)行兩表本地join的數(shù)據(jù)量。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)評估結(jié)果選擇數(shù)據(jù)分布方式,包括:
按照重分布數(shù)據(jù)量和join數(shù)據(jù)量選取連接時間最短的數(shù)據(jù)分布方式。
6.一種分布式數(shù)據(jù)庫系統(tǒng)中表連接數(shù)據(jù)分布方式的選擇裝置,其特征在于,所述方法包括:
判斷單元,用于判斷表連接字段是否為hash分布列,如果為hash分布列,則直接下發(fā)至計算接單執(zhí)行數(shù)據(jù)連接;
選擇單元,用于如果不為hash分布列,則根據(jù)評估結(jié)果選擇數(shù)據(jù)分布方式。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述評估結(jié)果包括:
表連接字段進(jìn)行數(shù)據(jù)的hash重分布的時間或者表連接中的其中一個表在分布式系統(tǒng)的所有節(jié)點(diǎn)中拉成全量數(shù)據(jù)的復(fù)制表的時間。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置包括:
第一評估單元,用于評估表連接的兩表中按照單表條件過濾后表的行數(shù)和需要動態(tài)進(jìn)行重分布的字段的總的字節(jié)數(shù);和
第二評估單元,用于評估表連接的中的其中一個表在分布式系統(tǒng)的所有節(jié)點(diǎn)中拉成全量數(shù)據(jù)的復(fù)制表的數(shù)據(jù)量。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括:
第三評估單元,用于評估表連接的兩表中按照連接字段進(jìn)行動態(tài)重分布后兩表本地join的數(shù)據(jù)量;和
第四評估單元,用于評估表連接的選擇兩表中的選擇較小的表按照拉復(fù)制表后執(zhí)行兩表本地join的數(shù)據(jù)量。
10.根據(jù)權(quán)利要求9所述的方裝置,其特征在于,所述選擇單元,用于:
按照重分布數(shù)據(jù)量和join數(shù)據(jù)量選取連接時間最短的數(shù)據(jù)分布方式。