技術(shù)總結(jié)
本發(fā)明提供了一種高速數(shù)據(jù)流中top?n基數(shù)數(shù)據(jù)的估算方法,包括以下步驟:定義“HyperLogLog?Sketch矩陣”數(shù)據(jù)結(jié)構(gòu),設(shè)為S,其寬m高n,每個(gè)元素為一個(gè)HLL?counter,對(duì)應(yīng)的,有n個(gè)相互獨(dú)立且哈希值為1~m的哈希函數(shù),設(shè)為f1,f2,…,fn;當(dāng)新數(shù)據(jù)D出現(xiàn)時(shí),按業(yè)務(wù)進(jìn)行分類(lèi),設(shè)為類(lèi)型X;計(jì)算出xi=fi(X),其中i=1,2,…,n;在S(1,x1),S(2,x2),…,S(n,xn)中的HLL?counter中計(jì)入D,得到更新后的基數(shù),分別為Y1,Y2,…,Yn,再得到估算基數(shù)Y;將數(shù)據(jù)類(lèi)型X與估算基數(shù)Y更新進(jìn)top?n。本發(fā)明方法簡(jiǎn)單并方便由硬件并行實(shí)現(xiàn),可以用來(lái)計(jì)算數(shù)據(jù)類(lèi)型的基數(shù)卻不保存數(shù)據(jù)類(lèi)型本身,具有良好的安全性。
技術(shù)研發(fā)人員:羅意;王小虎;石涵;王春鵬;趙晨暉
受保護(hù)的技術(shù)使用者:成都知道創(chuàng)宇信息技術(shù)有限公司
文檔號(hào)碼:201610954101
技術(shù)研發(fā)日:2016.10.27
技術(shù)公布日:2017.03.15