亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

泛濫子域的識別方法和系統(tǒng)的制作方法

文檔序號:7981282閱讀:164來源:國知局
泛濫子域的識別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例公開了一種泛濫子域的識別方法和系統(tǒng),涉及計算機【技術(shù)領(lǐng)域】,應(yīng)用于搜索引擎,根據(jù)子域名的任一有效片段組的片段長度的離散度或集中度來識別泛濫子域,可有效提高泛濫子域識別程度。本發(fā)明實施例提供的方法包括:收集具有相同主域名的子域名;若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側(cè)域名部分和右側(cè)域名部分分別相同的片段集合。
【專利說明】泛濫子域的識別方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機【技術(shù)領(lǐng)域】,尤其涉及泛濫子域的識別方法和系統(tǒng)。
【背景技術(shù)】
[0002]計算機網(wǎng)絡(luò)技術(shù)的發(fā)展極大的提高了人們獲取信息的便利性,計算機網(wǎng)絡(luò)中存儲了海量的信息,為了使人們查找到自己所需的信息,搜索引擎被廣泛使用,搜索引擎對網(wǎng)站的收錄、質(zhì)量控制是按照子域名為單位的。子域名是指根據(jù)業(yè)務(wù)的不同,站長在主域名的基礎(chǔ)上,擴展出的多個域名,例如bbs.163.com提供論壇服務(wù),blog.163.com是網(wǎng)易博客的子域名。子域名可以任意取名,甚至可以是多級子域名,例如twocold.blog.sina.com.cn。子域名是由左側(cè)域名部分加主域名組合而成的,排除掉主域名部分,子域名剩下的部分按照符號”可以分割為多級片段。比如www.163.com可以分割“www” 一級片段,twocold.blog.sina.com.cn 可以分割成” twocold”、“blog” 兩級片段。
[0003]但是有些站長會故意生成數(shù)量龐大的、且內(nèi)容、質(zhì)量是很接近的子域名,給搜索引擎造成這個主域名的業(yè)務(wù)很龐大的假象,這種批量造出的子域名叫做泛濫子域,由于泛濫子域的內(nèi)容、質(zhì)量是很接近的,如果像對普通子域一樣對進行常規(guī)的更新、質(zhì)量評估,則大大增加了搜索引擎的負(fù)擔(dān),所以,識別泛濫子域并采取相應(yīng)的調(diào)度手段可以使資源分配更合理,且大大減小搜索引擎的負(fù)擔(dān)。
[0004]現(xiàn)有技術(shù)常用的識別泛濫子域的方法是通過統(tǒng)計相同主域名包含的子域名的數(shù)量,當(dāng)數(shù)量超過一定的閾值,則認(rèn)為是泛濫子域。
[0005]發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺點:現(xiàn)有技術(shù)單純根據(jù)數(shù)量來判斷是否為泛濫子域,只能解決最嚴(yán)重的泛濫子域問題,對泛濫子域的識別程度低。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的實施例提供一種泛濫子域的識別方法和系統(tǒng),根據(jù)子域名的任一有效片段組的片段長度的離散度或集中度進行泛濫子域的識別,可有效提高泛濫子域識別程度。
[0007]為達到上述目的,本發(fā)明實施例采用的技術(shù)方案是,
[0008]一方面,本發(fā)明實施例提供一種泛濫子域的識別方法,包括:
[0009]獲取具有相同主域名的子域名;
[0010]若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同的片段集合。
[0011]優(yōu)選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,包括:
[0012]獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到;[0013]若所述平均片段數(shù)量小于第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0014]優(yōu)選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為尚散分布,還包括:
[0015]若所述平均片段數(shù)量不小于所述第一離散度閾值,則統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式;
[0016]若所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述平均片段數(shù)量小于第二離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0017]優(yōu)選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,包括:
[0018]獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到;
[0019]獲取所述任一有效片段組包含的有效長度數(shù)量,其中,包含的片段數(shù)量大于所述平均片段數(shù)量與調(diào)整因子乘積的片段長度為所述有效長度;
[0020]若所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第一集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
[0021]優(yōu)選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,還包括:
[0022]若所述有效長度數(shù)量與所述片段長度總數(shù)的比值不小于所述第一集中度閾值,則統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式;
[0023]若所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第二集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
[0024]優(yōu)選的,所述方法還包括:
[0025]若判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段時,則將所述具有相同主域名的子域名的相鄰的至少兩有效片段組合并成一級片段;
[0026]根據(jù)所述合并后的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應(yīng)的子域名識別為泛濫子域。
[0027]優(yōu)選的,在若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域之前,所述方法還包括:
[0028]根據(jù)預(yù)先設(shè)定的豁免規(guī)則,將符合所述豁免規(guī)則的片段或者子域名過濾,不進行泛濫子域的識別。
[0029]優(yōu)選的,所述方法還包括,設(shè)置更新周期,相應(yīng)的,
[0030]所述收集具有相同主域名的子域名,包括:根據(jù)所述設(shè)置的更新周期,在每個更新周期內(nèi)收集具有相同主域名的子域名;
[0031]所述若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域,包括:根據(jù)所述設(shè)置的更新周期,在每個更新周期內(nèi)若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域。
[0032]一方面,本發(fā)明實施例提供一種泛濫子域的識別系統(tǒng),其特征在于,包括:
[0033]獲取單元,用于獲取具有相同主域名的子域名;
[0034]判斷單元,用于判斷所述獲取單元獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同的片段集合;
[0035]識別單元,用于在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域。
[0036]優(yōu)選的,所述判斷單元包括,包括:
[0037]獲取模塊,用于獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到;
[0038]第一判斷模塊,用于在確定所述獲取模塊獲取的所述平均片段數(shù)量小于第一離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
[0039]優(yōu)選的,所述判斷單元,還包括:
[0040]統(tǒng)計模塊,用于在所述第一判斷模塊判斷所述平均片段數(shù)量不小于所述第一離散度閾值后,統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式;
[0041]第二判斷模塊,用于在確定所述統(tǒng)計模塊統(tǒng)計的所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述第一判斷模塊確定所述平均片段數(shù)量小于第二離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
[0042]優(yōu)選的,所述判斷單元,包括:
[0043]第一獲取模塊,用于獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到;
[0044]第二獲取模塊,用于獲取所述任一有效片段組包含的有效長度數(shù)量,其中,包含的片段數(shù)量大于所述平均片段數(shù)量與調(diào)整因子乘積的片段長度為所述有效長度;
[0045]第一判斷模塊,用于在確定所述第二獲取模塊獲取的所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第一集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
[0046]優(yōu)選的,所述判斷單元,還包括:
[0047]統(tǒng)計模塊,用于在所述第一判斷模塊確定所述有效長度數(shù)量與所述片段長度總數(shù)的比值不小于所述第一集中度閾值后,統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式;[0048]第二判斷模塊,用于在確定所述統(tǒng)計模塊統(tǒng)計的所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述第一判斷模塊確定所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第二集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
[0049]優(yōu)選的,所述系統(tǒng)還包括:
[0050]合并單元,用于在所述判斷單元判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布后,且所述具有相同主域名的子域名具有至少兩級片段后,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并成一級片段;
[0051]所述判斷單元還用于,根據(jù)所述合并后的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布;
[0052]所述識別單元還用于,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布后,將所述新的有效片段組對應(yīng)的子域名識別為泛濫子域。
[0053]優(yōu)選的,所述系統(tǒng)還包括:
[0054]過濾單元,用于根據(jù)預(yù)先設(shè)定的豁免規(guī)則,將符合所述豁免規(guī)則的片段或者子域名過濾,以便于所述判斷單元和識別單元不針對符合所述豁免規(guī)則的片段或者子域名進行泛濫子域的識別。
[0055]優(yōu)選的,所述系統(tǒng)還包括,更新周期設(shè)置單元,用于設(shè)置更新周期,相應(yīng)的,
[0056]所述獲取單元還用于:根據(jù)所述更新周期設(shè)置單元設(shè)置的更新周期,在每個更新周期內(nèi)獲取具有相同主域名的子域名;
[0057]所述判斷單元還用于:根據(jù)所述更新周期設(shè)置單元設(shè)置的更新周期,在每個更新周期內(nèi)若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布;
[0058]所述識別單元還用于:根據(jù)所述更新周期設(shè)置單元設(shè)置的更新周期,在每個更新周期內(nèi),在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域。
[0059]本發(fā)明實施例提供的泛濫子域的識別方法和系統(tǒng),根據(jù)具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應(yīng)的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現(xiàn)有技術(shù)單純根據(jù)子域數(shù)量來判斷是否為泛濫子域,只能解決最嚴(yán)重的泛濫子域,對泛濫子域的識別程度低的問題。
【專利附圖】

【附圖說明】
[0060]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0061]圖1為本發(fā)明實施例提供的一種泛濫子域的識別方法流程圖;
[0062]圖2為本發(fā)明實施例提供的一種泛濫子域的識別系統(tǒng)圖;
[0063]圖3為本發(fā)明實施例提供的泛濫子域的識別系統(tǒng)圖中的判斷單元的一種結(jié)構(gòu)圖;[0064]圖4為本發(fā)明實施例提供的泛濫子域的識別系統(tǒng)圖中的判斷單元的另一種結(jié)構(gòu)圖;
[0065]圖5為本發(fā)明實施例提供的另一種泛濫子域的識別系統(tǒng)圖。
【具體實施方式】
[0066]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0067]本發(fā)明實施例提供了一種泛濫子域的識別方法,參見圖1,包括,
[0068]SlOl:獲取具有相同主域名的子域名;
[0069]示例性的,可以收集搜索引擎在網(wǎng)絡(luò)上收錄的所有子域名,子域名可以以列表形式表示,也可以以其它形式表示,收集的所有子域名按照主域名進行分類,每一組具有相同主域名的子域名分別作為泛濫域名識別的數(shù)據(jù)源。本實施例以針對一個主域名包含的子域名為例進行泛濫域名識別的說明,所以下文出現(xiàn)的主域名的含義指同一個特定的主域名,其他主域名包含的子域名的泛濫域名識別過程和原理相同。
[0070]優(yōu)選的,在步驟SlOl中,可以設(shè)定一個更新周期,在每個更新周期獲取具有相同主域名的子域名并進行更新。
[0071]S102:若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同的片段集合。
[0072]示例性的,本實施例稱與主域名相鄰的片段為第一級片段,與第一級片段相鄰的為第二級片段,依次類推,例如,域名twocold.blog.sina.com.cn主域名為“sina.com.cn”,第一級片段為“blog”,第二級片段為“twocold”、“twocold”為第一級片段的左側(cè)域名部分,“sina.com.cn”為第一級片段的右側(cè)域名部分。有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同的片段集合。
[0073]其中,當(dāng)所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同包括:所述同一級片段的左側(cè)域名部分和右側(cè)域名部分分別相同;
[0074]以下述子域名的第二級片段為例進行說明,
[0075]www.cid_3cl48clcd8599f5e.profile, live, com
[0076]www.cid-fc56648fc658c405.profile, live, com
[0077]www.cid-f4bd27el68f86267.profile, live, com
[0078]www.51senv.space, live, com
[0079]上述域名的第二級片段包括“cid_3cl48clcd8599f5e”,“cid-fc56648fc658c405”,“cid_f4bd27el68f86267” 以及 “51senv”,其中“cid-3cl48clcd8599f5e”,“cid_fc56648fc658c405”,“cid_f4bd27el68f86267” 的左側(cè)域名部分和右側(cè)域名部分均相同,且屬于同一級片段,所以構(gòu)成有效片段組,而片段“51senV”與片段“Cid-3C148ClCd8599f5e”等雖屬于同一級片段,但是右側(cè)域名部分不相同,所以不能和“cid-3cl48clcd8599f5e”等片段屬于同一有效片段組。
[0080]當(dāng)所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同包括:所述同一級片段右側(cè)域名部分分別相同。
[0081]例如,當(dāng)根據(jù)子域名的最高一級片段進行泛濫識別時,最高一級片段只有右側(cè)域名部分,所以,只要右側(cè)域名部分相同即可認(rèn)為構(gòu)成有效片段組,以下述子域名的第三級片段為例進行說明,
[0082]ihaz0.qh.gzszyl.g0.cn
[0083]fido0.qh.gzszyl.g0.cn
[0084]npvny.qh.gzszyl.g0.cn
[0085]tmtmk.ne.gzszyl.g0.cn
[0086]上述域名的第三級片段為最高一級片段,包括“ihazo”,“fidoo”,“npvny”以及“七!^1^”,其中“11^0”,“打(100”,“1^11/’的右側(cè)域名部分均相同,所以構(gòu)成有效片段組,而片段“tmtmk”與片段“ihazo”等雖屬于同一級片段,但是右側(cè)域名部分不相同,所以不能和“ihazo”等片段屬于同一有效片段組。
[0087]具有相同主域名的子域名可以包含多個有效片段組,本實施例以根據(jù)第一有效片段組的片段長度的離散度或集中度進行泛濫識別為例進行說明,根據(jù)其他有效片段組的片段長度的離散度或集中度進行泛濫識別額度原理和過程相同。其中,有效片段組的片段長度的集中度:指的是有效片段組包含的片段長度,在分布上集中在少數(shù)幾個長度上的程度;有效片段組的片段長度的離散度:指的是有效片段組包含的片段長度的數(shù)量比較多,并且每個長度分布的域名數(shù)量比例很低的程度。
[0088]示例性的,根據(jù)第一有效片段組包含的片段總數(shù)量,以及每一個片段的片段長度可以統(tǒng)計第一有效片段組包含的不同的片段長度總數(shù)。
[0089]另外,在步驟S102中,可以設(shè)定一個更新周期,在每個更新周期中判斷第一有效片段組的片段長度是否為離散分布或者是否為集中分布。
[0090]下面分別簡單介紹判斷第一有效片段組的片段長度是否為離散分布和是否為集中分布的方法。
[0091]一、判斷第一有效片段組的片段長度是否為離散分布,可以包括:
[0092]a、獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述有效片段組包含的片段總數(shù)量除以所述有效片段組包含的不同的片段長度總數(shù)得到;
[0093]示例性的,本實施例以第一有效片段組包含的片段總數(shù)量為1000為例進行說明;
[0094]每一個片段的片段長度是指每一個片段的包含的字符數(shù),例如,
[0095]cid-3cl48clcd8599f5e.profile, live, com 的第二級片段的片段長度是 20 ;
[0096]www.thhhhshhh.live, com的第一級片段的片段長度是9 ;
[0097]www.live, com的第一級片段的片段長度是3 ;
[0098]第一有效 片段組包含的不同的片段長度總數(shù)指第一有效片段組包含多少種片段長度;平均片段數(shù)量指第一有效片段組的總數(shù)量與第一有效片段組包含的不同的片段長度總數(shù)的比值。
[0099]本實施例以第一片段包含4種片段長度為例進行說明,假設(shè)四種片段長度分別為:
[0100]片段長度(Ien) = 2,該片段長度包含的片段數(shù)量為500個,
[0101]Ien = 3,該片段長度包含的片段數(shù)量為200個;
[0102]Ien = 8,該片段長度包含的片段數(shù)量為250個;
[0103]Ien = 11,該片段長度包含的片段數(shù)量為50個。
[0104]那么,平均片段數(shù)量為1000/4 = 250個。
[0105]b、若所述平均片段數(shù)量小于第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0106]示例性的,可以預(yù)先設(shè)置第一離散度閾值,第一離散度閾值的取值范圍可以通過根據(jù)現(xiàn)階段泛濫子域的離散程度特點進行確定,如果現(xiàn)階段經(jīng)常出現(xiàn)的泛濫子域的離散程度出現(xiàn)新的趨勢,可對第一離散度閾值進行調(diào)整。其中現(xiàn)階段泛濫子域的離散程度特點可通過統(tǒng)計的方式獲取,此處不進行限定。
[0107]例如,第一離散度閾值可以取12-40,優(yōu)選的可以取12。
[0108]當(dāng)平均片段數(shù)量小于第一離散度閾值時,可以認(rèn)為第一片段長度為離散分布。
[0109]例如,第一離散度閾值取40,當(dāng)平均片段數(shù)量為250時,不能判斷第一片段長度為離散分布,當(dāng)平均片段數(shù)量為25時,可以判斷第一片段長度為離散分布。
[0110]優(yōu)選的,當(dāng)只根據(jù)第一有效片段組的平均判斷數(shù)量判斷第一有效片段組的片段長度不為離散分布時,為了提高泛濫域名的識別程度,還可以結(jié)合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為離散分布,所以,還可以包括:
[0111]C、若平均片段數(shù)量不小于第一離散度閾值,則統(tǒng)計第一有效片段組包含分隔符的片段數(shù)量或者第一有效片段組的命名模式;
[0112]示例性的,假設(shè)第一離散度閾值取40,平均片段數(shù)量為250,不能判斷第一片段長度為離散分布,則進一步統(tǒng)計第一有效片段組包含分隔符的片段數(shù)量或者第一有效片段組的命名模式;
[0113]下面分別對統(tǒng)計第一有效片段組包含分隔符的片段數(shù)量和統(tǒng)計第一有效片段組的命名模式進行說明。
[0114]I)統(tǒng)計第一有效片段組包含分隔符的片段數(shù)量。
[0115]示例性的,分隔符可根據(jù)域名中允許出現(xiàn)的符號預(yù)先設(shè)定,例如,若域名中允許出現(xiàn)中劃線則分隔符可以預(yù)先設(shè)置為第一有效片段組包含分隔符的片段數(shù)量即為包含分隔符的片段的數(shù)量;若域名中可以出現(xiàn)等符號,則分隔符可以預(yù)先設(shè)置為等符號,第一有效片段組包含分隔符的片段數(shù)量即為包含分隔符”等符號的片段的數(shù)量和。
[0116]另外,可以預(yù)設(shè)分隔符閾值,以分析第一有效片段組包含分隔符的片段是否普遍存在,例如,預(yù)設(shè)分隔符閾值可以設(shè)置為60%,優(yōu)選的,可以設(shè)置為80%。
[0117]例如,預(yù)設(shè)分隔符閾值設(shè)置為60%,當(dāng)?shù)谝挥行谓M包含分隔符的片段數(shù)量占第一有效片段組總量的60%以上時,可以認(rèn)為第一有效片段組包含分隔符的片段是普遍存在的,當(dāng)?shù)谝挥行谓M包含分隔符的片段數(shù)量占第一有效片段組總量的不高于60%時,可以認(rèn)為第一有效片段組包含分隔符的片段不是普遍存在的。
[0118]2)統(tǒng)計第一有效片段組的命名模式。
[0119]示例性的,可以預(yù)設(shè)命名模式,例如可以包含4種命名模式(全部是數(shù)字、全部是字母、全部是數(shù)字加字母、全部是子域加數(shù)字),當(dāng)然根據(jù)域名命名規(guī)則的改變,預(yù)設(shè)的命名模式也可以進行更新,此處不進行限定。
[0120]示例性的,可以預(yù)設(shè)比例閾值,以判斷第一片段的命名模式是否統(tǒng)一,例如,預(yù)設(shè)比例閾值可以設(shè)置為60%,優(yōu)選的,可以設(shè)置為80%。
[0121]例如,預(yù)設(shè)比例閾值設(shè)置為60%,當(dāng)?shù)谝挥行谓M包含的任何一種模式的片段數(shù)量占第一有效片段組總量的60%以上時,可以認(rèn)為第一有效片段組命名模式是統(tǒng)一的,當(dāng)?shù)谝挥行谓M包含的每一種模式的片段數(shù)量占第一有效片段組總量均小于60%時,可以認(rèn)為第一有效片段組的命名模式是不統(tǒng)一的。
[0122]d、若第一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者第一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且平均片段數(shù)量小于第二離散度閾值,則判斷第一有效片段組的片段長度為離散分布。
[0123]示例性的,當(dāng)平均片段數(shù)量小于第二離散度閾值,且第一片段至少滿足包含分隔符的片段是普遍存在的、命名模式是統(tǒng)一的中的一種情況時,可以判斷第一有效片段組的片段長度為離散分布。其中,第一片段是否滿足包含分隔符的片段是普遍存在的、命名模式是統(tǒng)一的判斷同上述c所述,此處不再贅述。
[0124]第二離散度閾值可以預(yù)先設(shè)置,第二離散度閾值的取值范圍可以通過根據(jù)現(xiàn)階段泛濫子域的離散程度特點進行確定,例如可以為15-50。但是第二離散閾值應(yīng)該大于第一離散閾值。例如,第一離散度閾值取40時,第二離散度閾值可以取50,優(yōu)選的,第一離散度閾值取12時,第二離散度閾值可以取15。
[0125]二、判斷第一有效片段組的片段長度是否為集中分布,可以包括:
[0126]a、獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述有效片段組包含的片段總數(shù)量除以所述有效片段組包含的不同的片段長度總數(shù)得到;
[0127]示例性的,此處仍以第一有效片段組的總數(shù)量為1000為例進行說明;假設(shè)第一片段包含4種片段長度,例如四種片段長度分別為:
[0128]片段長度(Ien) = 2,該片段長度包含的片段數(shù)量為500個,
[0129]Ien = 3,該片段長度包含的片段數(shù)量為200個;
[0130]Ien = 8,該片段長度包含的片段數(shù)量為250個;
[0131]Ien = 11,該片段長度包含的片段數(shù)量為50個。
[0132]那么,平均片段數(shù)量為1000/4 = 250個。
[0133]b、獲取第一有效片段組包含的有效長度數(shù)量,其中,包含的片段數(shù)量大于所述平均片段數(shù)量與調(diào)整因子乘積的片段長度為所述有效長度;
[0134]示例性的,調(diào)整因子的取值范圍可以為0.9-1.5,優(yōu)選的的取值為0.9。
[0135]例如,當(dāng)調(diào)整因子為0.9時,平均片段數(shù)量與調(diào)整因子乘積為250*0.9 = 225,包含的片段數(shù)量大于225的片段長度有Ien = 2 (包含500個片段)和Ien = 8 (包含300個片段)。所以,有效長度數(shù)量為2。
[0136]C、若有效長度數(shù)量與片段長度總數(shù)的比值小于第一集中度閾值,則判斷所述第一有效片段組的片段長度為集中分布。
[0137]示例性的,可以預(yù)先設(shè)置第一集中度閾值,第一集中度閾值的取值范圍可以通過根據(jù)現(xiàn)階段泛濫子域的集中程度特點進行確定,如果現(xiàn)階段經(jīng)常出現(xiàn)的泛濫子域的集中程度出現(xiàn)新的趨勢,可對第一集中度閾值進行調(diào)整。其中現(xiàn)階段泛濫子域的集中程度特點可通過統(tǒng)計的方式獲取,此處不進行限定。
[0138]例如,第一集中度閾值可以取0.45-0.6,優(yōu)選的可以取0.45。
[0139]當(dāng)有效長度數(shù)量與片段長度總數(shù)的比值小于第一集中度閾值時,可以認(rèn)為第一片段長度為集中分布。
[0140]例如,當(dāng)?shù)谝患卸乳撝等?.45,有效長度數(shù)量為2,片段長度總數(shù)為4,則2/4 =
0.5,大于0.45,不能判斷第一片段長度為集中分布,當(dāng)?shù)谝患卸乳撝等?.6時,可以判斷第一片段長度為集中分布。
[0141]優(yōu)選的,當(dāng)根據(jù)有效長度數(shù)量與片段長度總數(shù)的比值判斷第一有效片段組的片段長度不為集中分布時,為了提高泛濫域名的識別程度,還可以結(jié)合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為集中分布,所以,還可以包括:
[0142]C、若所述有效長度數(shù)量與所述片段長度總數(shù)的比值不小于所述第一集中度閾值,則統(tǒng)計所述第一有效片段組包含分隔符的片段數(shù)量或者第一有效片段組的命名模式;
[0143]示例性的,分隔符的片段數(shù)量和命名模式的統(tǒng)計和應(yīng)用同上所述,此處不再贅述。
[0144]d、若第一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者第一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第二集中度閾值,則判斷第一有效片段組的片段長度為集中分布。
[0145]示例性的,當(dāng)有效長度數(shù)量與所述片段長度總數(shù)的比值小于第二集中度閾值,且第一片段至少滿足包含分隔符的片段是普遍存在的、命名模式是統(tǒng)一的中的一種情況時,可以判斷第一有效片段組的片段長度為集中分布。
[0146]第二集中度閾值可以預(yù)先設(shè)置,第二集中度閾值的取值范圍可以通過根據(jù)現(xiàn)階段泛濫子域的集中程度特點進行確定,例如,第二集中度閾值的取值范圍可以為0.6-0.7,但是第二集中閾值應(yīng)該大于第一集中閾值。例如,第一集中度閾值取0.6時,第二集中度閾值可以取0.7,優(yōu)選的,第一集中度閾值取0.45時,第二集中度閾值可以取0.6。
[0147]優(yōu)選的,為了提高識別的效率和可靠度,可以先根據(jù)第一級片段的有效片段組進行識別,然后將被識別為泛濫子域的子域名刪除后再根據(jù)第二級片段的有效片段組進行識另IJ,依次類推。
[0148]優(yōu)選的,當(dāng)子域名包含多級片段時,在利用上述方法根據(jù)每一個有效片段組均不能識別泛濫子域的情況下,為了提高識別程度,該方法還可以包括,
[0149]若判斷具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,則將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并為一級片段;
[0150]示例性的,合并的步驟可以將片段間的”去除。去除”的步驟可以逐步加大,第一步去除一個”,然后嘗試識別,如果還是不能識別,則加大為兩個”,這樣依次進行。
[0151]例如,對于下述域名:
[0152]www.1haz0.qh.gzszyl.g0.cn
[0153]www.fido0.edu.gzszyl.g0.cn[0154]www.npvny.hb.gzszyl.g0.cn
[0155]www.tmtmk.ne.gzszyl.g0.cn
[0156]將第二級片段和第三級片段合并后,變?yōu)?
[0157]www.1hazoqh.gzszyl.g0.cn
[0158]www.fidooedu.gzszyl.g0.cn
[0159]www.npvnyhb.gzszyl.g0.cn
[0160]www.tmtmkne.gzszyl.g0.cn
[0161]www.tlekaf j.gzszyl.g0.cn
[0162]則得到的新的一級片段為上述合并后域名的第二級片段。
[0163]根據(jù)所述合并后的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應(yīng)的子域名識別為泛濫子域。
[0164]示例性的,可根據(jù)上述合并后域名的第二級片段獲取新的有效片段組,根據(jù)新的有效片段組的片段長度分布進行泛濫子域的識別的原理和過程同上述方法,此處不再贅述。
[0165]優(yōu)選的,在步驟S102之前,所述方法還包括:
[0166]判斷所述任一有效片段組的數(shù)量是否大于預(yù)設(shè)閾值,若大于預(yù)設(shè)閾值,則進行泛濫子域的識別。
[0167]示例性的,因為泛濫子域一般是批量的產(chǎn)生,所以數(shù)目比較大,所以為了減化識別的過程,可以設(shè)置一預(yù)設(shè)閾值,當(dāng)某一有效片段組的數(shù)量大于該預(yù)設(shè)閾值時,采利用上述方法進行泛濫子域的識別。預(yù)設(shè)閾值的取值范圍可以根據(jù)現(xiàn)階段泛濫域名的數(shù)量特點進行設(shè)置,現(xiàn)階段泛濫域名的數(shù)量特點可以利用統(tǒng)計的方法獲取,例如,預(yù)設(shè)閾值的取值范圍可以為大于等于50,對于第一級片段的有效片段組,預(yù)設(shè)閾值可優(yōu)選為500,對于第二級片段的有效片段組,預(yù)設(shè)閾值可優(yōu)選為100。
[0168]優(yōu)選的,步驟S102根據(jù)預(yù)先設(shè)定的豁免規(guī)則,將符合所述豁免規(guī)則的片段或者子域名過濾,不進行泛濫子域的識別。
[0169]示例性的,作為對重要子域名的保護,可以根據(jù)豁免規(guī)則可以根據(jù)實際需要進行設(shè)定,符合豁免規(guī)則的子域名,將不會被識別為泛濫域名。
[0170]例如,根據(jù)統(tǒng)計不同主域間的子域片段,將一些有含義的,或者是普遍存在的片段預(yù)存為豁免片段。例如“bbS”、“blog”、“WWW”等。
[0171]再例如,通過分析子域的質(zhì)量,用戶訪問量,統(tǒng)計特別重要的子域名作為豁免子域。例如 qzone.163.com、bbs.163.com 等。
[0172]優(yōu)選的,在步驟S102之后,還可以包括:將每一有效片段組對應(yīng)的被識別的泛濫子域作為一個子域進行調(diào)度。
[0173]示例性的,因為泛濫子域的質(zhì)量和內(nèi)容差不多,所以可以將泛濫子域用一個虛擬子域進行調(diào)度,節(jié)約寬帶資源。
[0174]例如,可以保留有效片段組的左側(cè)域名部分和右側(cè)域名部分,將有效片段用表
/Jn ο
[0175]如,cid_3cl48clcd8599f5e.profile, live, com[0176]cid-fc56648fc658c405.profile, live, com
[0177]cid-f4bd27el68f86267.profile, live, com
[0178]等符合*.profile, live, com規(guī)則描述的子域名,可以虛擬為一個子域名:prifile.live, com。
[0179]本實施例提供的泛濫子域的識別方法,根據(jù)具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應(yīng)的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現(xiàn)有技術(shù)單純根據(jù)子域數(shù)量來判斷是否為泛濫子域,只能解決最嚴(yán)重的泛濫子域,對泛濫子域的識別程度低的問題。
[0180]本發(fā)明另一實施例提供一種泛濫子域的識別系統(tǒng),應(yīng)用于圖1所示的方法,參見圖2,該系統(tǒng)包括:
[0181]獲取單元201,用于獲取具有相同主域名的子域名;
[0182]示例性的,獲取單元201可以收集搜索引擎在網(wǎng)絡(luò)上收錄的所有子域名,子域名可以以列表形式表示,也可以以其它形式表示,收集的所有子域名按照主域名進行分類,可以分別統(tǒng)計不同主域名包含的子域名,每一個主域名包含的子域名分別作為泛濫域名識別的數(shù)據(jù)源。本實施例以針對一個主域名包含的子域名為例進行泛濫域名識別的說明,其他主域名包含的子域名的泛濫域名識別過程和原理相同。
[0183]判斷單元202,用于判斷所述獲取單元201獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同的片段集合;
[0184]示例性的,本實施例中有效片段組的含義同方法實施例,此處不再贅述。具有相同主域名的子域名可以包含多個有效片段組,本實施例以根據(jù)第一有效片段組的片段長度的離散度或集中度進行泛濫識別為例進行說明,根據(jù)其他有效片段組的片段長度的離散度或集中度進行泛濫識別額度原理和過程相同。
[0185]下面分兩種情況進行說明。
[0186]第一種情況,
[0187]所述判斷單元可以包括:
[0188]獲取模塊301,用于獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到;
[0189]示例性的,本實施例以第一有效片段組為例進行說明,假設(shè)第一有效片段組包含的片段總數(shù)量為1000 ;
[0190]每一個片段的片段長度是指每一個片段的包含的字符數(shù),例如,
[0191]cid-3cl48clcd8599f5e.profile, live, com 的第二級片段的片段長度是 20 ;
[0192]www.thhhhshhh.live, com的第一級片段的片段長度是9 ;
[0193]www.live, com的第一級片段的片段長度是3 ;
[0194]第一有效片段組包含的不同的片段長度總數(shù)指第一有效片段組包含多少種片段長度;平均片段數(shù)量指第一有效片段組的總數(shù)量與第一有效片段組包含的不同的片段長度總數(shù)的比值。[0195]本實施例以第一片段包含4種片段長度為例進行說明,假設(shè)四種片段長度分別為:
[0196]片段長度(Ien) = 2,該片段長度包含的片段數(shù)量為500個,
[0197]Ien = 3,該片段長度包含的片段數(shù)量為200個;
[0198]Ien = 8,該片段長度包含的片段數(shù)量為250個;
[0199]Ien = 11,該片段長度包含的片段數(shù)量為50個。
[0200]那么,平均片段數(shù)量為1000/4 = 250個。
[0201]第一判斷模塊302,用于在確定所述獲取模塊獲取的所述平均片段數(shù)量小于第一離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
[0202]示例性的,系統(tǒng)可以預(yù)先設(shè)置第一離散度閾值,第一離散度閾值的取值范圍可以通過根據(jù)現(xiàn)階段泛濫子域的離散程度特點進行確定,如果現(xiàn)階段經(jīng)常出現(xiàn)的泛濫子域的離散程度出現(xiàn)新的趨勢,可對第一離散度閾值進行調(diào)整。其中現(xiàn)階段泛濫子域的離散程度特點可通過統(tǒng)計的方式獲取,此處不進行限定。
[0203]例如,第一離散度閾值可以取12-40,優(yōu)選的可以取12。
[0204]當(dāng)平均片段數(shù)量小于第一離散度閾值時,可以認(rèn)為第一片段長度為離散分布。
[0205]例如,第一離散度閾值取40,當(dāng)平均片段數(shù)量為250時,不能判斷第一片段長度為離散分布,當(dāng)平均片段數(shù)量為25時,可以判斷第一片段長度為離散分布。
[0206]統(tǒng)計模塊303,用于在所述第一判斷模塊302判斷所述平均片段數(shù)量不小于所述第一離散度閾值后,統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式;
[0207]示例性的,當(dāng)只根據(jù)第一有效片段組的平均片段數(shù)量判斷第一有效片段組的片段長度不為離散分布時,為了提高泛濫域名的識別程度,還可以結(jié)合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為離散分布。
[0208]下面分別對統(tǒng)計第一有效片段組包含分隔符的片段數(shù)量和統(tǒng)計第一有效片段組的命名模式進行說明。
[0209]I)統(tǒng)計第一有效片段組包含分隔符的片段數(shù)量。
[0210]示例性的,分隔符可根據(jù)域名中允許出現(xiàn)的符號預(yù)先設(shè)定,例如,若域名中允許出現(xiàn)中劃線則分隔符可以預(yù)先設(shè)置為第一有效片段組包含分隔符的片段數(shù)量即為包含分隔符的片段的數(shù)量;若域名中可以出現(xiàn)等符號,則分隔符可以預(yù)先設(shè)置為等符號,第一有效片段組包含分隔符的片段數(shù)量即為包含分隔符”等符號的片段的數(shù)量和。
[0211]另外,可以預(yù)設(shè)分隔符閾值,以分析第一有效片段組包含分隔符的片段是否普遍存在,例如,預(yù)設(shè)分隔符閾值可以設(shè)置為60%,優(yōu)選的,可以設(shè)置為80%。
[0212]例如,預(yù)設(shè)分隔符閾值設(shè)置為60%,當(dāng)?shù)谝挥行谓M包含分隔符的片段數(shù)量占第一有效片段組總量的60%以上時,可以認(rèn)為第一有效片段組包含分隔符的片段是普遍存在的,當(dāng)?shù)谝挥行谓M包含分隔符的片段數(shù)量占第一有效片段組總量的不高于60%時,可以認(rèn)為第一有效片段組包含分隔符的片段不是普遍存在的。
[0213]2)統(tǒng)計第一有效片段組的命名模式。
[0214]示例性的,可以預(yù)設(shè)命名模式,例如可以包含4種命名模式(全部是數(shù)字、全部是字母、全部是數(shù)字加字母、全部是子域加數(shù)字),當(dāng)然根據(jù)域名命名規(guī)則的改變,預(yù)設(shè)的命名模式也可以進行更新,此處不進行限定。
[0215]示例性的,可以預(yù)設(shè)比例閾值,以判斷第一片段的命名模式是否統(tǒng)一,例如,預(yù)設(shè)比例閾值可以設(shè)置為60%,優(yōu)選的,可以設(shè)置為80%。
[0216]例如,預(yù)設(shè)比例閾值設(shè)置為60%,當(dāng)?shù)谝挥行谓M包含的任何一種模式的片段數(shù)量占第一有效片段組總量的60%以上時,可以認(rèn)為第一有效片段組命名模式是統(tǒng)一的,當(dāng)?shù)谝挥行谓M包含的每一種模式的片段數(shù)量占第一有效片段組總量均小于60%時,可以認(rèn)為第一有效片段組的命名模式是不統(tǒng)一的。
[0217]第二判斷模塊304,用于在確定所述統(tǒng)計模塊統(tǒng)計的所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述第一判斷模塊確定所述平均片段數(shù)量小于第二離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
[0218]示例性的,系統(tǒng)可以預(yù)先設(shè)置第二離散度閾值,第二離散度閾值的取值范圍可以通過根據(jù)現(xiàn)階段泛濫子域的離散程度特點進行確定,例如可以為15-50。但是第二離散閾值應(yīng)該大于第一離散閾值。例如,第一離散度閾值取40時,第二離散度閾值可以取50,優(yōu)選的,第一離散度閾值取12時,第二離散度閾值可以取15。
[0219]第二種情況,參見圖4,
[0220]所述判斷單元,包括:
[0221]第一獲取模塊401,用于獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到;
[0222]示例性的,此處仍以第一有效片段組為例進行說明,假設(shè)第一有效片段組的總數(shù)量為1000 ;假設(shè)第一片段包含4種片段長度,例如四種片段長度分別為:
[0223]片段長度(Ien) = 2,該片段長度包含的片段數(shù)量為500個,
[0224]Ien = 3,該片段長度包含的片段數(shù)量為200個;
[0225]Ien = 8,該片段長度包含的片段數(shù)量為250個;
[0226]Ien = 11,該片段長度包含的片段數(shù)量為50個。
[0227]那么,平均片段數(shù)量為1000/4 = 250個。
[0228]第二獲取模塊402,用于獲取所述任一有效片段組包含的有效長度數(shù)量,其中,包含的片段數(shù)量大于所述平均片段數(shù)量與調(diào)整因子乘積的片段長度為所述有效長度;
[0229]示例性的,調(diào)整因子的取值范圍可以為0.9-1.5,優(yōu)選的的取值為0.9。
[0230]例如,當(dāng)調(diào)整因子為0.9時,平均片段數(shù)量與調(diào)整因子乘積為250*0.9 = 225,包含的片段數(shù)量大于225的片段長度有Ien = 2 (包含500個片段)和Ien = 8 (包含300個片段)。所以,有效長度數(shù)量為2。
[0231]第一判斷模塊403,用于在確定所述第二獲取模塊獲取的所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第一集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
[0232]示例性的,可以預(yù)先設(shè)置第一集中度閾值,第一集中度閾值的取值范圍可以通過根據(jù)現(xiàn)階段泛濫子域的集中程度特點進行確定,如果現(xiàn)階段經(jīng)常出現(xiàn)的泛濫子域的集中程度出現(xiàn)新的趨勢,可對第一集中度閾值進行調(diào)整。其中現(xiàn)階段泛濫子域的集中程度特點可通過統(tǒng)計的方式獲取,此處不進行限定。
[0233]例如,第一集中度閾值可以取0.45-0.6,優(yōu)選的可以取0.45。
[0234]當(dāng)有效長度數(shù)量與片段長度總數(shù)的比值小于第一集中度閾值時,可以認(rèn)為第一片段長度為集中分布。
[0235]例如,當(dāng)?shù)谝患卸乳撝等?.45,有效長度數(shù)量為2,片段長度總數(shù)為4,則2/4 =
0.5,大于0.45,不能判斷第一片段長度為集中分布,當(dāng)?shù)谝患卸乳撝等?.6時,可以判斷第一片段長度為集中分布。
[0236]統(tǒng)計模塊404,用于在所述第一判斷模塊403確定所述有效長度數(shù)量與所述片段長度總數(shù)的比值不小于所述第一集中度閾值后,統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式;
[0237]示例性的,分隔符的片段數(shù)量和命名模式的統(tǒng)計和應(yīng)用同第一種情況所述,此處不再贅述。
[0238]第二判斷模塊405,用于在確定所述統(tǒng)計模塊404統(tǒng)計的所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述第一判斷模塊403確定所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第二集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
[0239]第二集中度閾值可以預(yù)先設(shè)置,第二集中度閾值的取值范圍可以通過根據(jù)現(xiàn)階段泛濫子域的集中程度特點進行確定,例如,第二集中度閾值的取值范圍可以為0.6-0.7,但是第二集中閾值應(yīng)該大于第一集中閾值。例如,第一集中度閾值取0.6時,第二集中度閾值可以取0.7,優(yōu)選的,第一集中度閾值取0.45時,第二集中度閾值可以取0.6。
[0240]識別單元203,用于在所述判斷單元202判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域。
[0241]優(yōu)選的,為了提高識別的效率和可靠度,判斷單元202與識別單元203可以先根據(jù)第一級片段的有效片段組進行識別,然后將被識別為泛濫子域的子域名刪除后再根據(jù)第二級片段的有效片段組進行識別,依次類推。
[0242]進一步的,參見圖5,
[0243]所述系統(tǒng)還包括:
[0244]合并單元204,用于在所述判斷單元202判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布后,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并成一級片段;
[0245]示例性的,合并的步驟可以將片段間的”去除。去除”的步驟可以逐步加大,第一步去除一個”,然后嘗試識別,如果還是不能識別,則加大為兩個”,這樣依次進行。
[0246]例如,對于下述域名:
[0247]www.1haz0.qh.gzszyl.g0.cn
[0248]www.fido0.edu.gzszyl.g0.cn
[0249]www.npvny.hb.gzszyl.g0.cn
[0250]www.tmtmk.ne.gzszyl.g0.cn
[0251]將第二級片段和第三級片段合并后,變?yōu)?[0252]www.1hazoqh.gzszyl.g0.cn
[0253]www.fidooedu.gzszyl.g0.cn
[0254]www.npvnyhb.gzszyl.g0.cn
[0255]www.tmtmkne.gzszyl.g0.cn
[0256]則得到的新的一級片段為上述合并后域名的第二級片段。
[0257]相應(yīng)的,所述判斷單元202還用于,根據(jù)所述合并后的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布;
[0258]所述識別單元203還用于,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布后,將所述新的有效片段組對應(yīng)的子域名識別為泛濫子域。
[0259]比較單元205,用于比較所述任一有效片段組的數(shù)量是否大于預(yù)設(shè)閾值,以便于所述判斷單元202和識別單元203在所述比較單元205確定所述任一有效片段組的數(shù)量大于預(yù)設(shè)閾值后,進行泛濫子域的識別。
[0260]示例性的,因為泛濫子域一般是批量的產(chǎn)生,所以數(shù)目比較大,所以為了減化識別的過程,系統(tǒng)可以設(shè)置一預(yù)設(shè)閾值,當(dāng)某一有效片段組的數(shù)量大于該預(yù)設(shè)閾值時,再進行泛濫子域的識別。預(yù)設(shè)閾值的取值范圍可以根據(jù)現(xiàn)階段泛濫域名的數(shù)量特點進行設(shè)置,現(xiàn)階段泛濫域名的數(shù)量特點可以利用統(tǒng)計的方法獲取,例如,預(yù)設(shè)閾值的取值范圍可以為大于等于50,對于第一級片段的有效片段組,預(yù)設(shè)閾值可優(yōu)選為500,對于第二級片段的有效片段組,預(yù)設(shè)閾值可優(yōu)選為100。
[0261]過濾單元206,用于根據(jù)預(yù)先設(shè)定的豁免規(guī)則,將符合所述豁免規(guī)則的片段或者子域名過濾,以便于所述判斷單元202和識別單元203不針對符合所述豁免規(guī)則的片段或者子域名進行泛濫子域的識別。
[0262]示例性的,作為對重要子域名的保護,可以根據(jù)豁免規(guī)則可以根據(jù)實際需要進行設(shè)定,符合豁免規(guī)則的子域名,將不會被識別為泛濫域名。
[0263]例如,根據(jù)統(tǒng)計不同主域間的子域片段,將一些有含義的,或者是普遍存在的片段預(yù)存為豁免片段。例如“bbS”、“blog”、“WWW”等。
[0264]再例如,通過分析子域的質(zhì)量,用戶訪問量,統(tǒng)計特別重要的子域名作為豁免子域。例如 qzone.163.com、bbs.163.com 等。
[0265]更新周期設(shè)置單元207,用于設(shè)置更新周期,相應(yīng)的,
[0266]所述獲取單元201還用于:根據(jù)所述更新周期設(shè)置單元207設(shè)置的更新周期,在每個更新周期內(nèi)獲取具有相同主域名的子域名;
[0267]所述判斷單元202還用于:根據(jù)所述更新周期設(shè)置單元207設(shè)置的更新周期,在每個更新周期內(nèi)若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布;
[0268]所述識別單元203還用于:根據(jù)所述更新周期設(shè)置單元207設(shè)置的更新周期,在每個更新周期內(nèi),在所述判斷單元202判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域。
[0269]調(diào)度單元208,用于將所述識別單元203識別的每一有效片段組對應(yīng)的泛濫子域作為一個子域進行調(diào)度。
[0270]示例性的,因為泛濫子域的質(zhì)量和內(nèi)容差不多,所以可以將泛濫子域用一個虛擬子域進行調(diào)度,節(jié)約寬帶資源。
[0271]例如,可以保留有效片段組的左側(cè)域名部分和右側(cè)域名部分,將有效片段用表
/Jn ο
[0272]如,cid-3cl48clcd8599f5e.profile, live, com,
[0273]cid-fc56648fc658c405.profile, live, com,
[0274]cid-f4bd27el68f86267.profile, live, com,
[0275]等符合*.profile, live, com規(guī)則描述的子域名,可以虛擬為一個子域名:prifile.live, com。
[0276]本實施例提供的泛濫子域的識別系統(tǒng),通過判斷具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應(yīng)的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現(xiàn)有技術(shù)單純根據(jù)子域數(shù)量來判斷是否為泛濫子域,只能解決最嚴(yán)重的泛濫子域,對泛濫子域的識別程度低的問題。
[0277]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0278]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準(zhǔn)。
【權(quán)利要求】
1.一種泛濫子域的識別方法,其特征在于,包括: 獲取具有相同主域名的子域名; 若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同的片段集合。
2.根據(jù)權(quán)利要求1所述的泛濫子域的識別方法,其特征在于, 當(dāng)所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同包括:所述同一級片段的左側(cè)域名部分和右側(cè)域名部分分別相同; 當(dāng)所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同包括:所述同一級片段右側(cè)域名部分分別相同。
3.根據(jù)權(quán)利要求1或2所述的泛濫子域的識別方法,其特征在于,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,包括: 獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到; 若所述平均片段數(shù)量小于第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
4.根據(jù)權(quán)利要求3所述的泛濫`子域的識別方法,其特征在于,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,還包括: 若所述平均片段數(shù)量不小于所述第一離散度閾值,則統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式; 若所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述平均片段數(shù)量小于第二離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
5.根據(jù)權(quán)利要求1或2所述的泛濫子域的識別方法,其特征在于,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,包括: 獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到; 獲取所述任一有效片段組包含的有效長度數(shù)量,其中,包含的片段數(shù)量大于所述平均片段數(shù)量與調(diào)整因子乘積的片段長度為所述有效長度; 若所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第一集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
6.根據(jù)權(quán)利要求5所述的泛濫子域的識別方法,其特征在于,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,還包括: 若所述有效長度數(shù)量與所述片段長度總數(shù)的比值不小于所述第一集中度閾值,則統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式; 若所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第二集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
7.根據(jù)權(quán)利要求1-6任一項所述的泛濫子域的識別方法,其特征在于,所述方法還包括: 若判斷所述具有相同主域名的子域名的每一個有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段時,則將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并為一級片段; 根據(jù)所述合并后的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應(yīng)的子域名識別為泛濫子域。
8.根據(jù)權(quán)利要求7所述的泛濫子域的識別方法,其特征在于,在若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域之前,所述方法還包括: 根據(jù)預(yù)先設(shè)定的豁免規(guī)則,將符合所述豁免規(guī)則的片段或者子域名過濾,不進行泛濫子域的識別。
9.根據(jù)權(quán)利要求8所述的泛濫子域的識別方法,其特征在于,所述方法還包括,設(shè)置更新周期; 所述獲取具有相同主域名的子域名,包括:根據(jù)所述設(shè)置的更新周期,在每個更新周期內(nèi)獲取具有相同主域名的子域名; 所述若判斷所述具有相同主·域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域,包括:根據(jù)所述設(shè)置的更新周期,在每個更新周期內(nèi)若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域。
10.一種泛濫子域的識別系統(tǒng),其特征在于,包括: 獲取單元,用于獲取具有相同主域名的子域名; 判斷單元,用于判斷所述獲取單元獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同的片段集合; 識別單元,用于在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域。
11.根據(jù)權(quán)利要求10所述的泛濫子域的識別系統(tǒng),其特征在于, 當(dāng)所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同包括:所述同一級片段的左側(cè)域名部分和右側(cè)域名部分分別相同; 當(dāng)所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側(cè)域名部分和/或右側(cè)域名部分分別相同包括:所述同一級片段右側(cè)域名部分分別相同。
12.根據(jù)權(quán)利要求10或11所述的泛濫子域的識別系統(tǒng),其特征在于,所述判斷單元,包括: 獲取模塊,用于獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到; 第一判斷模塊,用于在確定所述獲取模塊獲取的所述平均片段數(shù)量小于第一離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
13.根據(jù)權(quán)利要求12所述的泛濫子域的識別系統(tǒng),其特征在于,所述判斷單元,還包括: 統(tǒng)計模塊,用于在所述第一判斷模塊判斷所述平均片段數(shù)量不小于所述第一離散度閾值后,統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式; 第二判斷模塊,用于在確定所述統(tǒng)計模塊統(tǒng)計的所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述第一判斷模塊確定所述平均片段數(shù)量小于第二離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
14.根據(jù)權(quán)利要求10或11所述的泛濫子域的識別系統(tǒng),其特征在于,所述判斷單元,包括: 第一獲取模塊,用于獲取平均片段數(shù)量,其中,所述平均片段數(shù)量由所述任一有效片段組包含的片段總數(shù)量除以所述任一有效片段組包含的不同的片段長度總數(shù)得到; 第二獲取模塊,用于獲取所述任一有效片段組包含的有效長度數(shù)量,其中,包含的片段數(shù)量大于所述平均片段數(shù)量與調(diào)整因子乘積的片段長度為所述有效長度; 第一判斷模塊,用于在確定所述第二獲取模塊獲取的所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第一集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
15.根據(jù)權(quán)利要求14所述的泛濫子域的識別系統(tǒng),其特征在于,所述判斷單元,還包括: 統(tǒng)計模塊,用于在所述第一判斷模塊確定所述有效長度數(shù)量與所述片段長度總數(shù)的比值不小于所述第一集中度閾值后,統(tǒng)計所述任一有效片段組包含分隔符的片段數(shù)量或者所述任一有效片段組的命名模式; 第二判斷模塊,用于在確定所述統(tǒng)計模塊統(tǒng)計的所述任一有效片段組包含分隔符的片段數(shù)量大于預(yù)設(shè)分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預(yù)設(shè)比例閾值,且所述第一判斷模塊確定所述有效長度數(shù)量與所述片段長度總數(shù)的比值小于第二集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
16.根據(jù)權(quán)利要求15所述的泛濫子域的識別系統(tǒng),其特征在于,所述系統(tǒng)還包括: 合并單元,用于在所述判斷單元判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段后,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并成一級片段; 所述判斷單元還用于,根據(jù)所述合并后的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布; 所述識別單元還用于,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布后,將所述新的有效片段組對應(yīng)的子域名識別為泛濫子域。
17.根據(jù)權(quán)利要求16所述的泛濫子域的識別系統(tǒng),其特征在于,所述系統(tǒng)還包括: 過濾單元,用于根據(jù)預(yù)先設(shè)定的豁免規(guī)則,將符合所述豁免規(guī)則的片段或者子域名過濾,以便于所述判斷單元和識別單元不針對符合所述豁免規(guī)則的片段或者子域名進行泛濫子域的識別。
18.根據(jù)權(quán)利要求17所述的泛濫子域的識別系統(tǒng),其特征在于,所述系統(tǒng)還包括,更新周期設(shè)置單元,用于設(shè)置更新周期; 所述獲取單元還用于:根據(jù)所述更新周期設(shè)置單元設(shè)置的更新周期,在每個更新周期內(nèi)獲取具有相同主域名的子域名; 所述判斷單元還用于:根據(jù)所述更新周期設(shè)置單元設(shè)置的更新周期,在每個更新周期內(nèi)若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布; 所述識別單元還用于:根據(jù)所述更新周期設(shè)置單元設(shè)置的更新周期,在每個更新周期內(nèi),在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應(yīng)的子域名識別為泛濫子域。
【文檔編號】H04L29/12GK103581347SQ201210256109
【公開日】2014年2月12日 申請日期:2012年7月23日 優(yōu)先權(quán)日:2012年7月23日
【發(fā)明者】李學(xué)凱, 張鋒 申請人:深圳市世紀(jì)光速信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1