一種對url進(jìn)行分類的方法及裝置制造方法

文檔序號：6540436閱讀：152來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種對url進(jìn)行分類的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種對統(tǒng)一資源定位符（URL）進(jìn)行分類的方法及裝置，包括根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹；當(dāng)有URL需要分類時，待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配，確定待分類URL的分類信息。本發(fā)明方法中，在建立分類樹時，以目標(biāo)URL字符的ASCII碼的數(shù)值作為Tree中的節(jié)點(diǎn)數(shù)組的下標(biāo)來構(gòu)建URL樹，即采用樹型結(jié)構(gòu)存儲目標(biāo)URL分類庫。這樣，在進(jìn)行URL分類時，只需要對待分類URL做一次逐一字符的訪問，即可完成分類過程，提高了分類效率并實(shí)現(xiàn)了快速分類，進(jìn)而實(shí)現(xiàn)了對萬億級的上網(wǎng)記錄數(shù)據(jù)中用戶訪問的URL的快速分類。
【專利說明】一種對URL進(jìn)行分類的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤指一種對統(tǒng)一資源定位符(URL, Uniform ResourceLocator)進(jìn)行分類的方法及裝置。
【背景技術(shù)】
[0002]目前，在對上網(wǎng)記錄數(shù)據(jù)中用戶訪問的某個URL進(jìn)行分類時，需要將該待分類URL的整個URL與分類庫中的各目標(biāo)URL逐一進(jìn)行匹配，如果能夠匹配上，則返回匹配上的分類庫中的目標(biāo)URL對應(yīng)的分類信息。以分類庫中有100個目標(biāo)URL為例，一次分類過程的平均匹配次數(shù)會在50次以上，而最大匹配系數(shù)則會是100次。
[0003]在現(xiàn)有對URL進(jìn)行分類的方法中，對URL的匹配是:將組成待分類URL的整個字符串與分類庫中的各目標(biāo)URL逐一進(jìn)行比較，效率不高；而且，當(dāng)分類庫中的目標(biāo)URL數(shù)量增加時，匹配時間將大幅增加。
[0004]由于互聯(lián)網(wǎng)產(chǎn)業(yè)的迅速發(fā)展，用戶上網(wǎng)記錄數(shù)據(jù)的數(shù)量也呈現(xiàn)爆發(fā)式的增長，這樣，要實(shí)現(xiàn)對萬億級的上網(wǎng)記錄數(shù)據(jù)中用戶訪問的URL的快速分類，成為了一個難題。

【發(fā)明內(nèi)容】

[0005]為了解決上述技術(shù)問題，本發(fā)明提供了一種對URL進(jìn)行分類的方法及裝置，能夠提高效率并實(shí)現(xiàn)快速分類。
[0006]為了達(dá)到本發(fā)明目的，本發(fā)明提供了一種對URL進(jìn)行分類的方法，包括:根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹；
[0007]當(dāng)有URL需要分類時，待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配，確定待分類URL的分類信息。
[0008]該方法之前還包括:
[0009]建立所述URL分類庫，URL分類庫中的內(nèi)容包括:一個或一個以上目標(biāo)URL，各目標(biāo)URL對應(yīng)的分類信息。
[0010]所述對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹包括:
[0011]依次取出所述目標(biāo)URL中的字符，以取出的字符的ASCII碼作為分類樹中的節(jié)點(diǎn)數(shù)組node[]的下標(biāo)；
[0012]訪問所述node [ASCII]的節(jié)點(diǎn)，直至目標(biāo)URL的最后一個字符，則將所述對應(yīng)的分類信息存儲到節(jié)點(diǎn)數(shù)組node [ASCII]的目標(biāo)obj域。
[0013]所述確定待分類URL的分類信息包括:
[0014]依次取出所述待分類URL中一個字符，以該字符的ASCII碼作為所述分類樹中的節(jié)點(diǎn)數(shù)組node []的下標(biāo),訪問所述分類樹的節(jié)點(diǎn)數(shù)組node [ASCII]的節(jié)點(diǎn)，如果其對應(yīng)的目標(biāo)obj域已存有分類信息,則確定所述目標(biāo)obj域中的分類信息為待分類URL的分類信
肩、O[0015]如果所述目標(biāo)obj域?yàn)榭眨乙呀?jīng)訪問到所述待分類URL的最后一個字符，該方法還包括:確定所述分類信息為空。
[0016]本發(fā)明還公開了一種對URL進(jìn)行分類的方法，至少包括構(gòu)建模塊、分類模塊，其中，
[0017]構(gòu)建模塊，用于根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹；
[0018]分類模塊，用于當(dāng)有URL需要分類時，待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配，確定待分類URL的分類信息。
[0019]與現(xiàn)有技術(shù)相比，本發(fā)明包括根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹；當(dāng)有URL需要分類時，待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配，確定待分類URL的分類信息。本發(fā)明方法中，在建立分類樹時，以目標(biāo)URL字符的ASCII碼的數(shù)值作為Tree中的節(jié)點(diǎn)數(shù)組node[]數(shù)組的下標(biāo)來構(gòu)建URL樹，即采用樹型結(jié)構(gòu)存儲目標(biāo)URL分類庫。這樣，在進(jìn)行URL分類時，只需要對待分類URL做一次逐一字符的訪問，即可完成分類過程，提高了分類效率并實(shí)現(xiàn)了快速分類，進(jìn)而實(shí)現(xiàn)了對萬億級的上網(wǎng)記錄數(shù)據(jù)中用戶訪問的URL的快速分類。
[0020]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
【專利附圖】

【附圖說明】
[0021]附圖用來提供對本發(fā)明技術(shù)方案的進(jìn)一步理解，并且構(gòu)成說明書的一部分，與本申請的實(shí)施例一起用于解釋本發(fā)明的技術(shù)方案，并不構(gòu)成對本發(fā)明技術(shù)方案的限制。
[0022]圖1為本發(fā)明對URL進(jìn)行分類的方法的流程圖；
[0023]圖2為本發(fā)明構(gòu)建URL分類庫的分類樹的示意圖；
[0024]圖3為本發(fā)明對URL進(jìn)行分類的裝置的組成結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，下文中將結(jié)合附圖對本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說明。需要說明的是，在不沖突的情況下，本申請中的實(shí)施例及實(shí)施例中的特征可以相互任意組合。
[0026]在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。并且，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0027]圖1為本發(fā)明對URL進(jìn)行分類的方法的流程圖，如圖1所示，包括:
[0028]步驟100:根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹。
[0029]本步驟的目的在于，在分類庫中的目標(biāo)URL與分類信息之間，按照目標(biāo)URL中的字符，建立樹形的對應(yīng)關(guān)系。本步驟具體實(shí)現(xiàn)包括:[0030]首先，建立一個URL分類庫，URL分類庫中的內(nèi)容包括:一個或一個以上目標(biāo)URL，以及各目標(biāo)URL對應(yīng)的分類信息。比如:
[0031]目標(biāo)URL為“www.baidu.com”,對應(yīng)的分類信息為“百度”;目標(biāo)URL為“www.sina.com”，對應(yīng)的分類信息為“新浪”，等等。
[0032]然后，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹，具體包括:依次取出目標(biāo)URL的字符，以取出的字符的ASCII碼作為分類樹(Tree)中的節(jié)點(diǎn)數(shù)組node[]的下標(biāo),從根節(jié)點(diǎn)開始訪問node[ASCII]的節(jié)點(diǎn),直至目標(biāo)URL的最后一個字符,貝U將分類信息存儲到node [ASCII]的目標(biāo)(obj)域中；如果未到目標(biāo)URL的最后一個字符，接著取出下一個字符，對*tree指向的子樹重復(fù)上述訪問過程，直至目標(biāo)URL的最后一個字符，如圖2所示。其中，分類樹包括兩類數(shù)據(jù)結(jié)構(gòu)即tree和node []，具體地，在tree節(jié)點(diǎn)中包含一個node[]數(shù)組，node[]數(shù)組中的每一個節(jié)點(diǎn)中有兩個域,一個域是*tree指向本節(jié)點(diǎn)的子樹的指針，子樹結(jié)構(gòu)和根節(jié)點(diǎn)相同；另一個域是obj，用于存儲URL的分類信息。按照本步驟建立出的分類樹，本發(fā)明分類表中的目標(biāo)URL中的每一個字符，對應(yīng)分類樹中的一層即子樹。
[0033]以目標(biāo)URL為“www.baidu.com”,對應(yīng)的分類信息為“百度”；目標(biāo)URL為“www.sina.com”,對應(yīng)的分類信息為“新浪”;目標(biāo)URL為“www.sohu.com”,對應(yīng)的分類信息為“搜狐”為例，通過本步驟按照目標(biāo)URL中的字符，建立樹形的對應(yīng)關(guān)系是:
[0034]第一層子樹對應(yīng)URL中的第一個W，第二層子樹對應(yīng)URL中的第二個W，第三層子樹對應(yīng)URL中的第三個W，這三層子樹是上述兩個URL的公共的子樹；第四層子樹有兩個分支，即對應(yīng)b的第四層子樹一和對應(yīng)s的公共的第四層子樹二；第五層子樹有三個分支，即對應(yīng)a的第五層子樹一、對應(yīng)i的第五層子樹二，以及對應(yīng)ο的第五層子樹三，以此類推，對于目標(biāo)URL為“www.baidu.com”的最后一層子樹對應(yīng)m,且其目標(biāo)obj域的值為“百度”,對于目標(biāo)URL為“欄.sina.com”的最后一層子樹對應(yīng)m，且其目標(biāo)obj域的值為“新浪”，對于目標(biāo)URL為“誦.sohu.com”的最后一層子樹對應(yīng)m，且其目標(biāo)obj域的值為“搜狐”。
[0035]從本步驟的具體實(shí)現(xiàn)可以清楚地看到，本發(fā)明以目標(biāo)URL中的每一個字符的ASCII碼作為Tree中的node[]數(shù)組的下標(biāo)來構(gòu)建URL分類庫的URL樹。按照本步驟對分類庫中的每一個目標(biāo)URL進(jìn)行上述處理后，將會構(gòu)建出一個URL分類庫的分類樹。本步驟強(qiáng)調(diào)的是，將URL分類庫建立為一個樹結(jié)構(gòu)，而對于樹的建立屬于本領(lǐng)域技術(shù)人員的慣用技術(shù)手段，并不用于限定本發(fā)明的保護(hù)范圍，這里不再贅述。
[0036]需要說明的是，步驟100并不是每次分類都要執(zhí)行的，而是預(yù)先通過步驟100所述的方法建立了一個目標(biāo)URL分類樹。需要進(jìn)行URL分類時，按照字符在建立好的目標(biāo)URL分類樹中進(jìn)行查找即可。
[0037]需要說明的是，如果目標(biāo)URL分類樹需要擴(kuò)充，也只需按照步驟100所述的方法進(jìn)行添加即可。
[0038]步驟101:當(dāng)有URL需要分類時，待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配，確定待分類URL的分類信息。
[0039]本步驟具體包括:依次取出待分類URL中一個字符，以該字符的ASCII碼作為分類樹中的node []數(shù)組的下標(biāo)，訪問分類樹的node [ASCII]的節(jié)點(diǎn)，如果其對應(yīng)的obj域中已存儲有分類信息，則確定obj域中的分類信息為待分類URL的分類信息并返回，即獲得了待分類URL的分類信息；
[0040]如果obj域?yàn)榭?，并且已?jīng)訪問到待分類URL的最后一個字符，那么，分類處理結(jié)束，同時返回分類信息為空；
[0041]如果obj域?yàn)榭?但是未訪問到待分類URL的最后一個字符,那么，對*tree指向的子樹繼續(xù)進(jìn)行上述訪問。
[0042]還以目標(biāo)URL為“www.baidu.com”,對應(yīng)的分類信息為“百度”；目標(biāo)URL為“www.sina.com”,對應(yīng)的分類信息為“新浪”，目標(biāo)URL為“www.sohu.com”,對應(yīng)的分類信息為“搜狐”為例，而且已通過步驟100建立了目標(biāo)URL分類樹。假設(shè)，此時待分類URL為“www.sohu.com”，那么，按照步驟101，確定待分類URL的分類信息具體包括:
[0043]逐一取出www.sohu.com中的字符，在木IM.URL分類樹中一層一層地171；配，按照步驟100中的實(shí)施例中建立的目標(biāo)URL分類樹，匹配會經(jīng)過建立好的第一層子樹、第二層子樹、第三層子樹、公共第四層子樹二、第五層子樹三，直至最后一層子樹，并獲得對應(yīng)的目標(biāo)obi域的倌為“捭狐”,這樣既可的倌待分類URL為www.sohu.com對應(yīng)的分類信息為“捭狐”。
[0044]本發(fā)明方法中，在建立分類樹時，以目標(biāo)URL中的每一個字符的ASCII碼作為Tree中的node[]數(shù)組的下標(biāo)來構(gòu)建URL樹，即采用樹型結(jié)構(gòu)存儲目標(biāo)URL分類庫。這樣，在進(jìn)行URL分類時，只需要對待分類URL做一次逐一字符的訪問，即可完成分類過程，提高了分類效率并實(shí)現(xiàn)了快速分類，進(jìn)而實(shí)現(xiàn)了對萬億級的上網(wǎng)記錄數(shù)據(jù)中用戶訪問的URL的快速分類。
[0045]圖3為本發(fā)明對URL進(jìn)行分類的裝置的組成結(jié)構(gòu)示意圖，如圖3所示，至少包括構(gòu)建模塊、分類模塊，其中，
[0046]構(gòu)建模塊，用于根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹；
[0047]分類模塊，用于當(dāng)有URL需要分類時，待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配，確定待分類URL的分類信息。
[0048]雖然本發(fā)明所揭露的實(shí)施方式如上，但所述的內(nèi)容僅為便于理解本發(fā)明而采用的實(shí)施方式，并非用以限定本發(fā)明。任何本發(fā)明所屬領(lǐng)域內(nèi)的技術(shù)人員，在不脫離本發(fā)明所揭露的精神和范圍的前提下，可以在實(shí)施的形式及細(xì)節(jié)上進(jìn)行任何的修改與變化，但本發(fā)明的專利保護(hù)范圍，仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
【權(quán)利要求】
1.一種對統(tǒng)一資源定位符URL進(jìn)行分類的方法，其特征在于，包括:根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹；當(dāng)有URL需要分類時，待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配，確定待分類URL的分類信息。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，該方法之前還包括: 建立所述URL分類庫，URL分類庫中的內(nèi)容包括:一個或一個以上目標(biāo)URL，各目標(biāo)URL對應(yīng)的分類信息。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹包括: 依次取出所述目標(biāo)URL中的字符，以取出的字符的ASCII碼作為分類樹中的節(jié)點(diǎn)數(shù)組node[]的下標(biāo)；訪問所述node [ASCII]的節(jié)點(diǎn)，直至目標(biāo)URL的最后一個字符，則將所述對應(yīng)的分類信息存儲到節(jié)點(diǎn)數(shù)組node [ASCII]的目標(biāo)ob j域。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述確定待分類URL的分類信息包括: 依次取出所述待分類URL中一個字符，以該字符的ASCII碼作為所述分類樹中的節(jié)點(diǎn)數(shù)組node []的下標(biāo),訪問所述分類樹的節(jié)點(diǎn)數(shù)組node [ASCII]的節(jié)點(diǎn)，如果其對應(yīng)的目標(biāo)obj域已存有分類信息,則確定所述目標(biāo)obj域中的分類信息為待分類URL的分類信息。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，如果所述目標(biāo)obj域?yàn)榭?，且已?jīng)訪問到所述待分類URL的最后一個字符，該方法還包括:確定所述分類信息為空。
6.一種對URL進(jìn)行分類的方法，其特征在于，至少包括構(gòu)建模塊、分類模塊，其中，構(gòu)建模塊，用于根據(jù)URL分類庫中的目標(biāo)URL與分類信息的對應(yīng)關(guān)系，對每一個目標(biāo)URL按照字符進(jìn)行處理，構(gòu)建URL分類庫的分類樹；分類模塊，用于當(dāng)有URL需要分類時，待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配，確定待分類URL的分類信息。
【文檔編號】G06F17/30GK103927325SQ201410093939
【公開日】2014年7月16日申請日期:2014年3月13日優(yōu)先權(quán)日:2014年3月13日
【發(fā)明者】賈卷群申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈卷群
技術(shù)所有人：中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司
我是此專利的發(fā)明人

上一篇：一種文件夾的顯示方法及電子設(shè)備的制作方法
上一篇：一種信息推送的方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

利用下圖裝置進(jìn)行實(shí)驗(yàn)相關(guān)技術(shù)

射線裝置分類辦法相關(guān)技術(shù)

射線裝置分類相關(guān)技術(shù)

我的世界分類裝置相關(guān)技術(shù)

計(jì)量裝置分類相關(guān)技術(shù)

電能計(jì)量裝置分類相關(guān)技術(shù)

射線裝置分類管理辦法相關(guān)技術(shù)

我的世界物品分類裝置相關(guān)技術(shù)

我的世界自動分類裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種對url進(jìn)行分類的方法及裝置制造方法