1.一種高速數(shù)據(jù)流中top-n基數(shù)數(shù)據(jù)的估算方法,其特征在于,包括以下步驟:
步驟1:定義“HyperLogLog Sketch矩陣”數(shù)據(jù)結(jié)構(gòu),設(shè)為S,其寬m高n,每個元素為一個HLL counter,HLL counter是使用HyperLogLog Counting算法計算基數(shù)的計數(shù)器,對應(yīng)的,有n個相互獨(dú)立且哈希值為1~m的哈希函數(shù),設(shè)為f1,f2,…,fn;
步驟2:當(dāng)新數(shù)據(jù)D出現(xiàn)時,按業(yè)務(wù)進(jìn)行分類,設(shè)為類型X;
步驟3:計算出xi=fi(X),其中i=1,2,…,n;
步驟4:在S(1,x1),S(2,x2),…,S(n,xn)中的HLL counter中計入D,得到更新后的基數(shù),分別為Y1,Y2,…,Yn,再得到估算基數(shù)Y;
步驟5:將數(shù)據(jù)類型X與估算基數(shù)Y更新進(jìn)top-n。
2.如權(quán)利要求1所述的一種高速數(shù)據(jù)流中top-n基數(shù)數(shù)據(jù)的估算方法,其特征在于,估算基數(shù)Y為Y1,Y2,…,Yn的最小值或者Y1,Y2,…,Yn的平均值。