專利名稱::一種對(duì)海量熱點(diǎn)頁(yè)面篩選排序的算法的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于計(jì)算機(jī)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種對(duì)海量熱點(diǎn)頁(yè)面(URL)篩選排序的算法。運(yùn)用此算法可以高效實(shí)現(xiàn)從現(xiàn)網(wǎng)的站點(diǎn)頁(yè)面中按排名要求(如訪問(wèn)次數(shù)最多的前100名)篩選出相應(yīng)的熱點(diǎn)站點(diǎn)頁(yè)面,并在此基礎(chǔ)上對(duì)選中的站點(diǎn)頁(yè)面進(jìn)行排序。
背景技術(shù):
:隨著互聯(lián)網(wǎng)應(yīng)用的快速發(fā)展,對(duì)網(wǎng)站的相關(guān)指標(biāo)進(jìn)行統(tǒng)計(jì)分析,從而掌握各種業(yè)務(wù)的開(kāi)展情況己成為運(yùn)營(yíng)商開(kāi)展WAP(無(wú)線應(yīng)用協(xié)議)業(yè)務(wù)的有用工具;然而實(shí)現(xiàn)從現(xiàn)網(wǎng)中的URL中過(guò)濾出訪問(wèn)次數(shù)最多的前100名之類的統(tǒng)計(jì)和排名,從目前來(lái)看,一般的實(shí)現(xiàn)方法是對(duì)網(wǎng)絡(luò)中所有的站點(diǎn)頁(yè)面的訪問(wèn)次數(shù)進(jìn)行排名,然后取出排名最靠前的100名。這種排名算法看起來(lái)直觀、易于實(shí)現(xiàn),并且在站點(diǎn)頁(yè)面數(shù)量不是很大的情況下,可以保證排序的效率。但是,目前網(wǎng)絡(luò)應(yīng)用空前擴(kuò)展,站點(diǎn)頁(yè)面數(shù)量成指數(shù)倍增長(zhǎng),這種排名算法的效率已與網(wǎng)絡(luò)技術(shù)的發(fā)展速度不相適應(yīng),已遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。
發(fā)明內(nèi)容本發(fā)明的目的是針對(duì)目前的排名算法在處理站點(diǎn)頁(yè)面數(shù)量較多的最值排名中效率不高的問(wèn)題,提供一種對(duì)海量熱點(diǎn)頁(yè)面篩選排序的算法,即采用一些算法和技術(shù),使在這種情況的排名可以在對(duì)URL訪問(wèn)次數(shù)過(guò)濾的基礎(chǔ)上進(jìn)行,排除排名對(duì)象數(shù)量多少對(duì)排名效率的影響,極大地提高了排名的效率和運(yùn)行的穩(wěn)定性。本發(fā)明的目的是這樣實(shí)現(xiàn)的本發(fā)明主要包括一種統(tǒng)計(jì)表組織結(jié)構(gòu)、一種統(tǒng)計(jì)采樣算法和一種篩選算法。一、一種用于記錄統(tǒng)計(jì)信息的統(tǒng)計(jì)表組織結(jié)構(gòu)統(tǒng)計(jì)表使用hash+rb_tree構(gòu)造,即主表是hash,在每個(gè)bucket中使用一個(gè)rb_tree來(lái)組織統(tǒng)計(jì)節(jié)點(diǎn),用于保存總的統(tǒng)計(jì)指標(biāo)信息及各統(tǒng)計(jì)項(xiàng)的關(guān)鍵信息。二、一種統(tǒng)計(jì)采樣算法主要是設(shè)定最低采樣門限,根據(jù)站點(diǎn)頁(yè)面査找(或創(chuàng)建)統(tǒng)計(jì)節(jié)點(diǎn),當(dāng)在統(tǒng)計(jì)表中有與該站點(diǎn)頁(yè)面對(duì)應(yīng)的統(tǒng)計(jì)節(jié)點(diǎn)時(shí),統(tǒng)計(jì)表中的"l小時(shí)內(nèi)累計(jì)點(diǎn)擊總數(shù)"加1且與該站點(diǎn)頁(yè)面對(duì)應(yīng)的采集節(jié)點(diǎn)中的"節(jié)點(diǎn)創(chuàng)建以來(lái)的點(diǎn)擊次數(shù)"加1;反之,若統(tǒng)計(jì)表中沒(méi)有與該站點(diǎn)頁(yè)面對(duì)應(yīng)的統(tǒng)計(jì)節(jié)點(diǎn),則在"記錄表中統(tǒng)計(jì)節(jié)點(diǎn)的總數(shù)目"小于最低采樣門限的情況下,直接在統(tǒng)計(jì)表中添加新的采集節(jié)點(diǎn),否則啟動(dòng)節(jié)點(diǎn)采樣過(guò)程,使采樣節(jié)點(diǎn)的增長(zhǎng)速度減緩,確保排序的效率和精度。三、一種篩選算法主要是設(shè)定最低篩選門限,當(dāng)統(tǒng)計(jì)表內(nèi)節(jié)點(diǎn)數(shù)目大于最低篩選門限時(shí),篩選過(guò)程啟動(dòng)。篩選過(guò)程首先預(yù)估有效節(jié)點(diǎn)數(shù)目、預(yù)估點(diǎn)擊次數(shù)、合理選擇篩選因子,然后在對(duì)上述指標(biāo)簡(jiǎn)單運(yùn)算的基礎(chǔ)上,合理確定篩選條件,開(kāi)始篩選。若一次篩選完成后,尚未達(dá)到篩選要求,則在上一次篩選的基礎(chǔ)上,基于上一次的經(jīng)驗(yàn),對(duì)篩選條件適當(dāng)修正,從而不斷縮小篩選目標(biāo)。如此反復(fù)篩選,直到滿足篩選要求。本發(fā)明具有下列優(yōu)點(diǎn)和積極效果1、本發(fā)明通過(guò)對(duì)統(tǒng)計(jì)表的組織結(jié)構(gòu)和統(tǒng)計(jì)節(jié)點(diǎn)的組織結(jié)構(gòu)的設(shè)計(jì),可以簡(jiǎn)明、實(shí)用地記錄URL的統(tǒng)計(jì)信息;2、通過(guò)高效的采集及篩選算法的設(shè)計(jì),在對(duì)站點(diǎn)頁(yè)面訪問(wèn)次數(shù)過(guò)濾的基礎(chǔ)上進(jìn)行排名,即使在站點(diǎn)頁(yè)面數(shù)量較多的情況下,也能實(shí)現(xiàn)高效、精確排名,極大地提高了排名的效率;3、該思想的擴(kuò)展也可應(yīng)用于統(tǒng)計(jì)目標(biāo)數(shù)量大而只要求對(duì)最前或最后N名排名的情況。圖1是本算法的總體模塊結(jié)構(gòu)圖;圖2是統(tǒng)計(jì)采樣模塊的工作流程圖;圖3是預(yù)估子模塊的工作流程圖;圖4是首次篩選子模塊的工作流程圖;圖5是再次篩選模塊的工作流程圖;圖6是調(diào)整篩選子模塊的工作流程圖。其中1—統(tǒng)計(jì)采樣模塊,1.l一統(tǒng)計(jì)子模塊,1.1—采樣子模塊;2—篩選模塊,2.l—預(yù)估子模塊,2.2—首次篩選子模塊,2.3—再次篩選子模塊,2.4—調(diào)整篩選子模塊;3—排名模塊。英譯漢URL—UniformResourceLocator,WWW上用來(lái)標(biāo)識(shí)一信息頁(yè)的語(yǔ)法形式,本文譯為海量熱點(diǎn)頁(yè)面;WAP—WirelessApplicationProtocol,無(wú)線應(yīng)用協(xié)議。具體的實(shí)施方式以下結(jié)合附圖和實(shí)施例詳細(xì)說(shuō)明一、統(tǒng)計(jì)表組織結(jié)構(gòu)前述,統(tǒng)計(jì)表使用hash+rb—tree構(gòu)造,即主表是hash,在每個(gè)bucket中使用一個(gè)rb—tree來(lái)組織統(tǒng)計(jì)節(jié)點(diǎn),用于保存總的統(tǒng)計(jì)指標(biāo)信息及各統(tǒng)計(jì)項(xiàng)的關(guān)鍵信息。在hash主表中維護(hù)如下數(shù)據(jù)統(tǒng)計(jì)起始時(shí)間、統(tǒng)計(jì)結(jié)束時(shí)間、1小時(shí)內(nèi)累計(jì)點(diǎn)擊總數(shù)、記錄表中統(tǒng)計(jì)節(jié)點(diǎn)的總數(shù)目;rb—tree節(jié)點(diǎn)中維護(hù)如下數(shù)據(jù)網(wǎng)站url、節(jié)點(diǎn)創(chuàng)建以來(lái)的點(diǎn)擊次數(shù)、節(jié)點(diǎn)的預(yù)估點(diǎn)擊次數(shù)、節(jié)點(diǎn)的創(chuàng)建時(shí)間。參見(jiàn)表l,它描述了統(tǒng)計(jì)表的組織結(jié)構(gòu)。表l:統(tǒng)計(jì)表的組織結(jié)構(gòu)<table>tableseeoriginaldocumentpage6</column></row><table>統(tǒng)計(jì)表中各字段的意義如下start—time統(tǒng)計(jì)起始時(shí)間(以秒為單位);end—time統(tǒng)計(jì)結(jié)束時(shí)間;total—count1小時(shí)內(nèi)累計(jì)點(diǎn)擊總數(shù);nodes一rmm記錄表中統(tǒng)計(jì)節(jié)點(diǎn)的總數(shù)目。參見(jiàn)表2,它描述了統(tǒng)計(jì)表中統(tǒng)計(jì)節(jié)點(diǎn)的組織結(jié)構(gòu)。表2:統(tǒng)計(jì)表中統(tǒng)計(jì)節(jié)點(diǎn)的組織結(jié)構(gòu)<table>tableseeoriginaldocumentpage6</column></row><table>統(tǒng)計(jì)節(jié)點(diǎn)中各字段的意義如下-url站點(diǎn)地址;xtotal_count節(jié)點(diǎn)創(chuàng)建以來(lái)的點(diǎn)擊次數(shù);xv—count節(jié)點(diǎn)的預(yù)估點(diǎn)擊次數(shù)(根據(jù)節(jié)點(diǎn)點(diǎn)擊速率,節(jié)點(diǎn)最大壽命計(jì)算);xstart—time記錄節(jié)點(diǎn)的創(chuàng)建時(shí)間。二、對(duì)海量熱點(diǎn)頁(yè)面篩選排序算法的總體模塊結(jié)構(gòu)參見(jiàn)圖1,對(duì)海量熱點(diǎn)頁(yè)面篩選排序算法的總體模塊結(jié)構(gòu)包括現(xiàn)有技術(shù)的排名模塊3,設(shè)置有統(tǒng)計(jì)采樣模塊1和篩選模塊2;該算法按照統(tǒng)計(jì)采樣模塊l、篩選模塊2、排名模塊3依次進(jìn)行;所述的統(tǒng)計(jì)采樣模塊1包括統(tǒng)計(jì)子模塊1.1和采樣子模塊1.2;所述的篩選模塊2包括依次進(jìn)行的預(yù)估子模塊2.1、首次篩選子模塊2.2、再次篩選子模塊2.3和調(diào)整篩選子模塊2.4。具體地說(shuō)①對(duì)海量熱點(diǎn)頁(yè)面統(tǒng)計(jì)、采樣1該算法首先對(duì)現(xiàn)網(wǎng)中所有的站點(diǎn)頁(yè)面進(jìn)行統(tǒng)計(jì)1.1,當(dāng)統(tǒng)計(jì)的指標(biāo)達(dá)到一定的限度后,啟動(dòng)采樣流程1.2,以減小系統(tǒng)的處理壓力,并確保統(tǒng)計(jì)的精確度。②對(duì)采樣后的頁(yè)面進(jìn)行篩選2對(duì)于采樣之后的頁(yè)面,該算法確定篩選條件對(duì)這些頁(yè)面進(jìn)行預(yù)估篩選2.1,又進(jìn)行首次篩選2.2,在篩選之后仍不能滿足排名要求的情況下,重新確定篩選規(guī)則,進(jìn)行再次篩選2.3,在不符合重新確定篩選規(guī)則的條件下,進(jìn)行調(diào)整篩選2.4。③對(duì)候選頁(yè)面進(jìn)行排名3在篩選出符合排名要求的頁(yè)面之后,啟動(dòng)排名流程,對(duì)頁(yè)面進(jìn)行排名。三、模塊的工作流程1、統(tǒng)計(jì)采樣模塊l的工作流程參見(jiàn)圖2,統(tǒng)計(jì)采樣模塊1的工作流程包括下列步驟-①模塊開(kāi)始初始化10模塊初始化全局變量XX,設(shè)定最低采樣門限sample—enablejowlimit和最低篩選門限fi1ter_enable—lowlimit;②判斷當(dāng)前是否存在于統(tǒng)計(jì)表中11是則將統(tǒng)計(jì)表中的total—count加1,同時(shí)將統(tǒng)計(jì)表中與該站點(diǎn)頁(yè)面對(duì)應(yīng)的統(tǒng)計(jì)節(jié)點(diǎn)中的字段x_total_count加l12;否則跳轉(zhuǎn)到步驟③,進(jìn)入采樣流程;③判斷節(jié)點(diǎn)數(shù)目nodes—num是否大于設(shè)定的最低采樣門限sample一enable—lowlimit13,是則跳轉(zhuǎn)到步驟④,構(gòu)造采樣模型,為采樣做準(zhǔn)備;否則,在統(tǒng)計(jì)表中創(chuàng)建新的采集節(jié)點(diǎn),并將統(tǒng)計(jì)表中的nodes—num字段加l16。④構(gòu)造抽樣模型當(dāng)nodes_num大于sample—enable—lowlimit,為提高統(tǒng)計(jì)的精度和效率,構(gòu)造抽樣模型;構(gòu)造抽樣模型的過(guò)程通過(guò)如下三個(gè)步驟實(shí)現(xiàn)14:z=(nodes_num-sample—enable—lowlimit)/2000;sample—module=z*z+2;XX++;站點(diǎn)頁(yè)面采樣利用步驟④構(gòu)建的采樣模型,通過(guò)(xxmodsample—module)對(duì)站點(diǎn)頁(yè)面采樣15-當(dāng)(xxmodsample—module)==0時(shí),在統(tǒng)計(jì)表中創(chuàng)建新的采集節(jié)點(diǎn),并將統(tǒng)計(jì)表中的nodes一num字段加116;否則,拋棄該站點(diǎn)頁(yè)面,以減小統(tǒng)計(jì)負(fù)荷,提高統(tǒng)計(jì)效率和精度;⑥判斷統(tǒng)計(jì)表中統(tǒng)計(jì)節(jié)點(diǎn)的數(shù)目nodes—mim是否大于最低篩選門限filter—enable—lowlimit17;若nodes—num大于filter—enable—lowlimit,則激活站點(diǎn)頁(yè)面篩選流程,否則,返回,進(jìn)入下一個(gè)統(tǒng)計(jì)流程。2、篩選模塊2的工作流程(1)預(yù)估子模塊2.1的工作流程參見(jiàn)圖3,預(yù)估子模塊2.1(為首次篩選子模塊2.2做準(zhǔn)備的)的工作流程包括下列步驟①模塊開(kāi)始初始化模塊獲取當(dāng)前時(shí)間current_time并設(shè)定最小統(tǒng)計(jì)時(shí)間20;②判斷current—time是否大于統(tǒng)計(jì)結(jié)束時(shí)間end—time21;若current—time大于end—time,貝'J先使current—time等于end—time,然后對(duì)該統(tǒng)計(jì)節(jié)點(diǎn)計(jì)算remain—time禾口deta—time;否貝U,直接對(duì)該統(tǒng)i十節(jié)點(diǎn)計(jì)算remain—time禾口deta—time,remain—time禾口deta—time的計(jì)算方法22如下remain—time=(end—time-xstart—time)deta—time=(current—time-xstart—time)③判斷步驟②計(jì)算的deta—time是否大于等于最小統(tǒng)計(jì)時(shí)間23;若deta—time大于等于最小統(tǒng)計(jì)時(shí)間,則該節(jié)點(diǎn)為有效節(jié)點(diǎn),同時(shí)計(jì)算該節(jié)點(diǎn)的xv_count=(xtotal—count/deta一time)*remain—time;否則,該節(jié)點(diǎn)為無(wú)效節(jié)點(diǎn),不參與該次預(yù)估;判斷步驟(D剛剛處理的節(jié)點(diǎn)是否是統(tǒng)計(jì)表中的最后一個(gè)節(jié)點(diǎn)24;若是剛剛處理的節(jié)點(diǎn)是統(tǒng)計(jì)表中的最后一個(gè)節(jié)點(diǎn),則匯總所有有效節(jié)點(diǎn)的xv—count值,得到總體的預(yù)估點(diǎn)擊次數(shù)v—count,和有效節(jié)點(diǎn)數(shù)目v—nodes;反之,則跳轉(zhuǎn)到步驟②,開(kāi)始下一次預(yù)估流程。(2)首次篩選子模塊2.2參見(jiàn)圖4,首次篩選子模塊2.2的工作流程包括下列步驟①模塊開(kāi)始初始化模塊從預(yù)估流程得到總體的預(yù)估點(diǎn)擊次數(shù)v—count和有效節(jié)點(diǎn)數(shù)目v_nodes30;②判斷有效節(jié)點(diǎn)數(shù)目是否小于100(排名要求)31;若有效節(jié)點(diǎn)數(shù)目小于100,則直接返回,不需對(duì)節(jié)點(diǎn)進(jìn)行篩選;否則,則跳轉(zhuǎn)到步驟③,進(jìn)入篩選流程;③初始化篩選流程篩選流程首先設(shè)定篩選因子factor,初始化v—share和v—share—nodes;然后通過(guò)v—rule=(v—count/vnodes)*factor、v—rule2=(v_count/100)設(shè)置初始的篩選指標(biāo)(32、33);④根據(jù)篩選條件,逐個(gè)篩選統(tǒng)計(jì)節(jié)點(diǎn)對(duì)于統(tǒng)計(jì)表中的每一個(gè)統(tǒng)計(jì)節(jié)點(diǎn)首先判斷xv—count是否小于v—rule(34)。若xv—count小于v_rule,則該節(jié)點(diǎn)成為待篩選節(jié)點(diǎn);否則,該節(jié)點(diǎn)是候選節(jié)點(diǎn);然后判斷上述節(jié)點(diǎn)中的xv—count〉是否大于v—rule235;若xv—count大于v—rule2,貝U先執(zhí)行v—share+二xv一count、v—share—nodes++,然后跳轉(zhuǎn)到步驟⑤;反之,則直接跳轉(zhuǎn)到步驟⑤;⑤判斷剛剛處理的節(jié)點(diǎn)是否是統(tǒng)計(jì)表中的最后一個(gè)節(jié)點(diǎn)36;若剛剛處理的節(jié)點(diǎn)是統(tǒng)計(jì)表中的最后一個(gè)節(jié)點(diǎn),則跳轉(zhuǎn)到步驟⑥,結(jié)束此論篩選;否則,則跳轉(zhuǎn)到步驟④,對(duì)統(tǒng)計(jì)表中該節(jié)點(diǎn)之后的節(jié)點(diǎn)進(jìn)行篩選;⑥判斷侯選節(jié)點(diǎn)的數(shù)目是否小于10037;若侯選節(jié)點(diǎn)的數(shù)目小于100,貝懷能滿足"前100名"的要求,跳轉(zhuǎn)到步驟36⑥,調(diào)整篩選指標(biāo),在待篩選節(jié)點(diǎn)中增補(bǔ)侯選節(jié)點(diǎn);反之,則結(jié)束篩選流程,對(duì)所有侯選節(jié)點(diǎn)排序。步驟36⑦,判斷v—share是否大于0,重新確定篩選指標(biāo)37;如果v—share大于0,則按照規(guī)則重新確定篩選指標(biāo),對(duì)所有待篩選節(jié)點(diǎn)進(jìn)行遍歷篩選,以增補(bǔ)侯選節(jié)點(diǎn)310;反之,則調(diào)小factor,重新確定篩選指標(biāo),對(duì)所有待篩選節(jié)點(diǎn)進(jìn)行遍歷篩選,以增補(bǔ)侯選節(jié)點(diǎn)(39)。(3)再次篩選子模塊2.3參見(jiàn)圖5,再次篩選子模塊2.3的工作流程包括下列步驟①模塊幵始初始化基于前述統(tǒng)計(jì)和篩選流程,模塊得到總體的預(yù)估點(diǎn)擊次數(shù)v......ccxmt(v—count=v_c()unt—v—share),并在此基礎(chǔ)上,重新設(shè)置新的篩選指標(biāo)v—rule=(v—count/v—nodes)*factor、v一rule2=(v—count/100)51、52;②遍歷所有待篩選節(jié)點(diǎn),增補(bǔ)侯選節(jié)點(diǎn)模塊根據(jù)步驟①確定的篩選規(guī)則,遍歷所有待篩選節(jié)點(diǎn),根據(jù)條件縮小待篩選節(jié)點(diǎn)數(shù)目,即若XV—count小于v—rule,則該節(jié)點(diǎn)成為待篩選節(jié)點(diǎn);否則該節(jié)點(diǎn)是候選節(jié)點(diǎn)53;若xv—.count大于vru丄e2,貝[Jv.—share十:二xv......count,v.......share......nodes+十54、55;③判斷當(dāng)前處理節(jié)點(diǎn)是否是待篩選節(jié)點(diǎn)中的最后.-個(gè)節(jié)點(diǎn),若當(dāng)前節(jié)點(diǎn)是待篩選節(jié)點(diǎn)中的最后-個(gè)節(jié)點(diǎn),則結(jié)柬該篩選流程;否則跳轉(zhuǎn)到歩驟②,對(duì)下一個(gè)節(jié)點(diǎn)進(jìn)行篩選。(4)調(diào)整篩選子模塊2.4參見(jiàn)圖6,調(diào)整篩選子模塊2.4的工作流程包括下列步驟①模塊開(kāi)始初始化基于前述統(tǒng)計(jì)、采樣和篩選流程,調(diào)小factor,并在此基礎(chǔ)上,重新設(shè)置新的篩選指標(biāo)v_rule=(v_count/v—nodes)承factor41、42;②遍歷所有待篩選節(jié)點(diǎn),增補(bǔ)侯選節(jié)點(diǎn)模塊根據(jù)步驟①確定的篩選規(guī)則,遍歷所有待篩選節(jié)點(diǎn),根據(jù)條件縮小待篩選節(jié)點(diǎn)數(shù)目43,即若xv—count小于v—rule,該節(jié)點(diǎn)成為待篩選節(jié)點(diǎn);否則,該節(jié)點(diǎn)是侯選節(jié)點(diǎn);③判斷當(dāng)前處理節(jié)點(diǎn)是否是待篩選節(jié)點(diǎn)中的最后一個(gè)節(jié)點(diǎn),若當(dāng)前節(jié)點(diǎn)是待篩選節(jié)點(diǎn)中的最后一個(gè)節(jié)點(diǎn),則結(jié)束該篩選流程;否則跳轉(zhuǎn)到步驟②,對(duì)下一個(gè)節(jié)點(diǎn)進(jìn)行篩選。權(quán)利要求1、一種用于記錄統(tǒng)計(jì)信息的統(tǒng)計(jì)表組織結(jié)構(gòu),其特征在于統(tǒng)計(jì)表使用hash+rb_tree構(gòu)造,即主表是hash,在每個(gè)bucket中使用一個(gè)rb_tree來(lái)組織統(tǒng)計(jì)節(jié)點(diǎn),用于保存總的統(tǒng)計(jì)指標(biāo)信息及各統(tǒng)計(jì)項(xiàng)的關(guān)鍵信息。2、按權(quán)利要求1所述的統(tǒng)計(jì)表組織結(jié)構(gòu),其特征在于在hash主表中維護(hù)如下數(shù)據(jù)統(tǒng)計(jì)起始時(shí)間、統(tǒng)計(jì)結(jié)束時(shí)間、1小時(shí)內(nèi)累計(jì)點(diǎn)擊總數(shù)、記錄表中統(tǒng)計(jì)節(jié)點(diǎn)的總數(shù)目;rb—tree節(jié)點(diǎn)中維護(hù)如下數(shù)據(jù)網(wǎng)站url、節(jié)點(diǎn)創(chuàng)建以來(lái)的點(diǎn)擊次數(shù)、節(jié)點(diǎn)的預(yù)估點(diǎn)擊次數(shù)、節(jié)點(diǎn)的創(chuàng)建時(shí)間。3、一種基于權(quán)利要求1所述的統(tǒng)計(jì)表組織結(jié)構(gòu)的對(duì)海量熱點(diǎn)頁(yè)面篩選排序的算法總模塊,包括排名模塊(3),其特征在于設(shè)置有統(tǒng)計(jì)采樣模塊(1)和篩選模塊(2);該算法按照統(tǒng)計(jì)采樣模塊(1)、篩選模塊(2)、排名模塊(3)依次進(jìn)行;所述的統(tǒng)計(jì)采樣模塊(1)包括統(tǒng)計(jì)子模塊(1.1)和采樣子模塊(1.2);所述的篩選模塊(2)包括依次進(jìn)行的預(yù)估子模塊(2.1)、首次篩選子模塊(2.2)、再次篩選子模塊(2.3)和調(diào)整篩選子模塊(2.4)。4、按權(quán)利要求3所述的算法總模塊,其特征在于-統(tǒng)計(jì)采樣模塊(1)的工作流程如圖2。5、按權(quán)利要求3所述的算法總模塊,其特征在于-預(yù)估子模塊(2.1)的工作流程如圖3。6、按權(quán)利要求3所述的算法總模塊,其特征在于首次篩選子模塊(2.2)的工作流程如圖4。7、按權(quán)利要求3所述的算法總模塊,其特征在于再次篩選子模塊(2.3)的工作流程如圖5。8、按權(quán)利要求3所述的算法總模塊,其特征在于調(diào)整篩選子模塊(2.4)的工作流程如圖6。全文摘要本發(fā)明公開(kāi)了一種對(duì)海量熱點(diǎn)頁(yè)面(URL)篩選排序的算法,屬于計(jì)算機(jī)數(shù)據(jù)處理領(lǐng)域。本算法總模塊,包括排名模塊(3),設(shè)置有統(tǒng)計(jì)采樣模塊(1)和篩選模塊(2);該算法按照統(tǒng)計(jì)采樣模塊(1)、篩選模塊(2)、排名模塊(3)依次進(jìn)行;所述的統(tǒng)計(jì)采樣模塊(1)包括統(tǒng)計(jì)子模塊(1.1)和采樣子模塊(1.2);所述的篩選模塊(2)包括依次進(jìn)行的預(yù)估子模塊(2.1)、首次篩選子模塊(2.2)、再次篩選子模塊(2.3)和調(diào)整篩選子模塊(2.4)。運(yùn)用此算法可以高效實(shí)現(xiàn)從現(xiàn)網(wǎng)的站點(diǎn)頁(yè)面中按排名要求篩選出相應(yīng)的熱點(diǎn)站點(diǎn)頁(yè)面,并在此基礎(chǔ)上對(duì)選中的站點(diǎn)頁(yè)面進(jìn)行排序。文檔編號(hào)G06F17/30GK101414308SQ20081019781公開(kāi)日2009年4月22日申請(qǐng)日期2008年11月24日優(yōu)先權(quán)日2008年11月24日發(fā)明者猛葉,敖偉成,磊李申請(qǐng)人:武漢虹旭信息技術(shù)有限責(zé)任公司