一種對url進(jìn)行分類的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種對統(tǒng)一資源定位符(URL)進(jìn)行分類的方法及裝置,包括根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹;當(dāng)有URL需要分類時,待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。本發(fā)明方法中,在建立分類樹時,以目標(biāo)URL字符的ASCII碼的數(shù)值作為Tree中的節(jié)點(diǎn)數(shù)組的下標(biāo)來構(gòu)建URL樹,即采用樹型結(jié)構(gòu)存儲目標(biāo)URL分類庫。這樣,在進(jìn)行URL分類時,只需要對待分類URL做一次逐一字符的訪問,即可完成分類過程,提高了分類效率并實(shí)現(xiàn)了快速分類,進(jìn)而實(shí)現(xiàn)了對萬億級的上網(wǎng)記錄數(shù)據(jù)中用戶訪問的URL的快速分類。
【專利說明】一種對URL進(jìn)行分類的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤指一種對統(tǒng)一資源定位符(URL, Uniform ResourceLocator)進(jìn)行分類的方法及裝置。
【背景技術(shù)】
[0002]目前,在對上網(wǎng)記錄數(shù)據(jù)中用戶訪問的某個URL進(jìn)行分類時,需要將該待分類URL的整個URL與分類庫中的各目標(biāo)URL逐一進(jìn)行匹配,如果能夠匹配上,則返回匹配上的分類庫中的目標(biāo)URL對應(yīng)的分類信息。以分類庫中有100個目標(biāo)URL為例,一次分類過程的平均匹配次數(shù)會在50次以上,而最大匹配系數(shù)則會是100次。
[0003]在現(xiàn)有對URL進(jìn)行分類的方法中,對URL的匹配是:將組成待分類URL的整個字符串與分類庫中的各目標(biāo)URL逐一進(jìn)行比較,效率不高;而且,當(dāng)分類庫中的目標(biāo)URL數(shù)量增加時,匹配時間將大幅增加。
[0004]由于互聯(lián)網(wǎng)產(chǎn)業(yè)的迅速發(fā)展,用戶上網(wǎng)記錄數(shù)據(jù)的數(shù)量也呈現(xiàn)爆發(fā)式的增長,這樣,要實(shí)現(xiàn)對萬億級的上網(wǎng)記錄數(shù)據(jù)中用戶訪問的URL的快速分類,成為了一個難題。
【發(fā)明內(nèi)容】
[0005]為了解決上述技術(shù)問題,本發(fā)明提供了一種對URL進(jìn)行分類的方法及裝置,能夠提高效率并實(shí)現(xiàn)快速分類。
[0006]為了達(dá)到本發(fā)明目的,本發(fā)明提供了一種對URL進(jìn)行分類的方法,包括:根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹;
[0007]當(dāng)有URL需要分類時,待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。
[0008]該方法之前還包括:
[0009]建立所述URL分類庫,URL分類庫中的內(nèi)容包括:一個或一個以上目標(biāo)URL,各目標(biāo)URL對應(yīng)的分類信息。
[0010]所述對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹包括:
[0011]依次取出所述目標(biāo)URL中的字符,以取出的字符的ASCII碼作為分類樹中的節(jié)點(diǎn)數(shù)組node[]的下標(biāo);
[0012]訪問所述node [ASCII]的節(jié)點(diǎn),直至目標(biāo)URL的最后一個字符,則將所述對應(yīng)的分類信息存儲到節(jié)點(diǎn)數(shù)組node [ASCII]的目標(biāo)obj域。
[0013]所述確定待分類URL的分類信息包括:
[0014]依次取出所述待分類URL中一個字符,以該字符的ASCII碼作為所述分類樹中的節(jié)點(diǎn)數(shù)組node []的下標(biāo),訪問所述分類樹的節(jié)點(diǎn)數(shù)組node [ASCII]的節(jié)點(diǎn),如果其對應(yīng)的目標(biāo)obj域已存有分類信息,則確定所述目標(biāo)obj域中的分類信息為待分類URL的分類信
肩、O[0015]如果所述目標(biāo)obj域?yàn)榭眨乙呀?jīng)訪問到所述待分類URL的最后一個字符,該方法還包括:確定所述分類信息為空。
[0016]本發(fā)明還公開了一種對URL進(jìn)行分類的方法,至少包括構(gòu)建模塊、分類模塊,其中,
[0017]構(gòu)建模塊,用于根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹;
[0018]分類模塊,用于當(dāng)有URL需要分類時,待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。
[0019]與現(xiàn)有技術(shù)相比,本發(fā)明包括根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹;當(dāng)有URL需要分類時,待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。本發(fā)明方法中,在建立分類樹時,以目標(biāo)URL字符的ASCII碼的數(shù)值作為Tree中的節(jié)點(diǎn)數(shù)組node[]數(shù)組的下標(biāo)來構(gòu)建URL樹,即采用樹型結(jié)構(gòu)存儲目標(biāo)URL分類庫。這樣,在進(jìn)行URL分類時,只需要對待分類URL做一次逐一字符的訪問,即可完成分類過程,提高了分類效率并實(shí)現(xiàn)了快速分類,進(jìn)而實(shí)現(xiàn)了對萬億級的上網(wǎng)記錄數(shù)據(jù)中用戶訪問的URL的快速分類。
[0020]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
【專利附圖】
【附圖說明】
[0021]附圖用來提供對本發(fā)明技術(shù)方案的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本申請的實(shí)施例一起用于解釋本發(fā)明的技術(shù)方案,并不構(gòu)成對本發(fā)明技術(shù)方案的限制。
[0022]圖1為本發(fā)明對URL進(jìn)行分類的方法的流程圖;
[0023]圖2為本發(fā)明構(gòu)建URL分類庫的分類樹的示意圖;
[0024]圖3為本發(fā)明對URL進(jìn)行分類的裝置的組成結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下文中將結(jié)合附圖對本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互任意組合。
[0026]在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0027]圖1為本發(fā)明對URL進(jìn)行分類的方法的流程圖,如圖1所示,包括:
[0028]步驟100:根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹。
[0029]本步驟的目的在于,在分類庫中的目標(biāo)URL與分類信息之間,按照目標(biāo)URL中的字符,建立樹形的對應(yīng)關(guān)系。本步驟具體實(shí)現(xiàn)包括:[0030]首先,建立一個URL分類庫,URL分類庫中的內(nèi)容包括:一個或一個以上目標(biāo)URL,以及各目標(biāo)URL對應(yīng)的分類信息。比如:
[0031]目標(biāo)URL為“www.baidu.com”,對應(yīng)的分類信息為“百度”;目標(biāo)URL為“www.sina.com”,對應(yīng)的分類信息為“新浪”,等等。
[0032]然后,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹,具體包括:依次取出目標(biāo)URL的字符,以取出的字符的ASCII碼作為分類樹(Tree)中的節(jié)點(diǎn)數(shù)組node[]的下標(biāo),從根節(jié)點(diǎn)開始訪問node[ASCII]的節(jié)點(diǎn),直至目標(biāo)URL的最后一個字符,貝U將分類信息存儲到node [ASCII]的目標(biāo)(obj)域中;如果未到目標(biāo)URL的最后一個字符,接著取出下一個字符,對*tree指向的子樹重復(fù)上述訪問過程,直至目標(biāo)URL的最后一個字符,如圖2所示。其中,分類樹包括兩類數(shù)據(jù)結(jié)構(gòu)即tree和node [],具體地,在tree節(jié)點(diǎn)中包含一個node[]數(shù)組,node[]數(shù)組中的每一個節(jié)點(diǎn)中有兩個域,一個域是*tree指向本節(jié)點(diǎn)的子樹的指針,子樹結(jié)構(gòu)和根節(jié)點(diǎn)相同;另一個域是obj,用于存儲URL的分類信息。按照本步驟建立出的分類樹,本發(fā)明分類表中的目標(biāo)URL中的每一個字符,對應(yīng)分類樹中的一層即子樹。
[0033]以目標(biāo)URL為“www.baidu.com”,對應(yīng)的分類信息為“百度”;目標(biāo)URL為“www.sina.com”,對應(yīng)的分類信息為“新浪”;目標(biāo)URL為“www.sohu.com”,對應(yīng)的分類信息為“搜狐”為例,通過本步驟按照目標(biāo)URL中的字符,建立樹形的對應(yīng)關(guān)系是:
[0034]第一層子樹對應(yīng)URL中的第一個W,第二層子樹對應(yīng)URL中的第二個W,第三層子樹對應(yīng)URL中的第三個W,這三層子樹是上述兩個URL的公共的子樹;第四層子樹有兩個分支,即對應(yīng)b的第四層子樹一和對應(yīng)s的公共的第四層子樹二 ;第五層子樹有三個分支,即對應(yīng)a的第五層子樹一、對應(yīng)i的第五層子樹二,以及對應(yīng)ο的第五層子樹三,以此類推,對于目標(biāo)URL為“www.baidu.com”的最后一層子樹對應(yīng)m,且其目標(biāo)obj域的值為“百度”,對于目標(biāo)URL為“欄.sina.com”的最后一層子樹對應(yīng)m,且其目標(biāo)obj域的值為“新浪”,對于目標(biāo)URL為“誦.sohu.com”的最后一層子樹對應(yīng)m,且其目標(biāo)obj域的值為“搜狐”。
[0035]從本步驟的具體實(shí)現(xiàn)可以清楚地看到,本發(fā)明以目標(biāo)URL中的每一個字符的ASCII碼作為Tree中的node[]數(shù)組的下標(biāo)來構(gòu)建URL分類庫的URL樹。按照本步驟對分類庫中的每一個目標(biāo)URL進(jìn)行上述處理后,將會構(gòu)建出一個URL分類庫的分類樹。本步驟強(qiáng)調(diào)的是,將URL分類庫建立為一個樹結(jié)構(gòu),而對于樹的建立屬于本領(lǐng)域技術(shù)人員的慣用技術(shù)手段,并不用于限定本發(fā)明的保護(hù)范圍,這里不再贅述。
[0036]需要說明的是,步驟100并不是每次分類都要執(zhí)行的,而是預(yù)先通過步驟100所述的方法建立了一個目標(biāo)URL分類樹。需要進(jìn)行URL分類時,按照字符在建立好的目標(biāo)URL分類樹中進(jìn)行查找即可。
[0037]需要說明的是,如果目標(biāo)URL分類樹需要擴(kuò)充,也只需按照步驟100所述的方法進(jìn)行添加即可。
[0038]步驟101:當(dāng)有URL需要分類時,待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。
[0039]本步驟具體包括:依次取出待分類URL中一個字符,以該字符的ASCII碼作為分類樹中的node []數(shù)組的下標(biāo),訪問分類樹的node [ASCII]的節(jié)點(diǎn),如果其對應(yīng)的obj域中已存儲有分類信息,則確定obj域中的分類信息為待分類URL的分類信息并返回,即獲得了待分類URL的分類信息;
[0040]如果obj域?yàn)榭?,并且已?jīng)訪問到待分類URL的最后一個字符,那么,分類處理結(jié)束,同時返回分類信息為空;
[0041]如果obj域?yàn)榭?但是未訪問到待分類URL的最后一個字符,那么,對*tree指向的子樹繼續(xù)進(jìn)行上述訪問。
[0042]還以目標(biāo)URL為“www.baidu.com”,對應(yīng)的分類信息為“百度”;目標(biāo)URL為“www.sina.com”,對應(yīng)的分類信息為“新浪”,目標(biāo)URL為“www.sohu.com”,對應(yīng)的分類信息為“搜狐”為例,而且已通過步驟100建立了目標(biāo)URL分類樹。假設(shè),此時待分類URL為“www.sohu.com”,那么,按照步驟101,確定待分類URL的分類信息具體包括:
[0043]逐一取出www.sohu.com中的字符,在木IM.URL分類樹中一層一層地171;配,按照步驟100中的實(shí)施例中建立的目標(biāo)URL分類樹,匹配會經(jīng)過建立好的第一層子樹、第二層子樹、第三層子樹、公共第四層子樹二、第五層子樹三,直至最后一層子樹,并獲得對應(yīng)的目標(biāo)obi域的倌為“捭狐”,這樣既可的倌待分類URL為www.sohu.com對應(yīng)的分類信息為“捭狐”。
[0044]本發(fā)明方法中,在建立分類樹時,以目標(biāo)URL中的每一個字符的ASCII碼作為Tree中的node[]數(shù)組的下標(biāo)來構(gòu)建URL樹,即采用樹型結(jié)構(gòu)存儲目標(biāo)URL分類庫。這樣,在進(jìn)行URL分類時,只需要對待分類URL做一次逐一字符的訪問,即可完成分類過程,提高了分類效率并實(shí)現(xiàn)了快速分類,進(jìn)而實(shí)現(xiàn)了對萬億級的上網(wǎng)記錄數(shù)據(jù)中用戶訪問的URL的快速分類。
[0045]圖3為本發(fā)明對URL進(jìn)行分類的裝置的組成結(jié)構(gòu)示意圖,如圖3所示,至少包括構(gòu)建模塊、分類模塊,其中,
[0046]構(gòu)建模塊,用于根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹;
[0047]分類模塊,用于當(dāng)有URL需要分類時,待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。
[0048]雖然本發(fā)明所揭露的實(shí)施方式如上,但所述的內(nèi)容僅為便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實(shí)施的形式及細(xì)節(jié)上進(jìn)行任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
【權(quán)利要求】
1.一種對統(tǒng)一資源定位符URL進(jìn)行分類的方法,其特征在于,包括:根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹; 當(dāng)有URL需要分類時,待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法之前還包括: 建立所述URL分類庫,URL分類庫中的內(nèi)容包括:一個或一個以上目標(biāo)URL,各目標(biāo)URL對應(yīng)的分類信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹包括: 依次取出所述目標(biāo)URL中的字符,以取出的字符的ASCII碼作為分類樹中的節(jié)點(diǎn)數(shù)組node[]的下標(biāo); 訪問所述node [ASCII]的節(jié)點(diǎn),直至目標(biāo)URL的最后一個字符,則將所述對應(yīng)的分類信息存儲到節(jié)點(diǎn)數(shù)組node [ASCII]的目標(biāo)ob j域。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定待分類URL的分類信息包括: 依次取出所述待分類URL中一個字符,以該字符的ASCII碼作為所述分類樹中的節(jié)點(diǎn)數(shù)組node []的下標(biāo),訪問所述分類樹的節(jié)點(diǎn)數(shù)組node [ASCII]的節(jié)點(diǎn),如果其對應(yīng)的目標(biāo)obj域已存有分類信息,則確定所述目標(biāo)obj域中的分類信息為待分類URL的分類信息。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,如果所述目標(biāo)obj域?yàn)榭?,且已?jīng)訪問到所述待分類URL的最后一個字符,該方法還包括:確定所述分類信息為空。
6.一種對URL進(jìn)行分類的方法,其特征在于,至少包括構(gòu)建模塊、分類模塊,其中, 構(gòu)建模塊,用于根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系,對每一個目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫的分類樹; 分類模塊,用于當(dāng)有URL需要分類時,待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。
【文檔編號】G06F17/30GK103927325SQ201410093939
【公開日】2014年7月16日 申請日期:2014年3月13日 優(yōu)先權(quán)日:2014年3月13日
【發(fā)明者】賈卷群 申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司