亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

廣告物料數(shù)據(jù)網(wǎng)址驗證方法和裝置與流程

文檔序號:12272755閱讀:202來源:國知局
廣告物料數(shù)據(jù)網(wǎng)址驗證方法和裝置與流程
本發(fā)明涉及廣告
技術(shù)領(lǐng)域
,具體涉及一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法和裝置。
背景技術(shù)
:對于廣告平臺,每個廣告投放方都會在該廣告平臺注冊一個廣告賬戶,然后該商家可以在其客戶端中登錄廣告平臺,將其編輯好的各條廣告物料數(shù)據(jù)上傳至該廣告平臺中,該廣告物料數(shù)據(jù)可以理解為包括廣告內(nèi)容,該廣告內(nèi)容文本、圖片等的數(shù)據(jù),還包括對應(yīng)的URL(UniformResourceLocator,統(tǒng)一資源定位符)。在實際應(yīng)用中,廣告平臺為了保證上線后可以正常被訪問,避免廣告物料數(shù)據(jù)出現(xiàn)無法訪問的情況,提高廣告召回率,廣告平臺會對所有的上傳的廣告物料數(shù)據(jù)的網(wǎng)址進行驗證。當(dāng)廣告物料數(shù)據(jù)網(wǎng)址驗證為可連通之后,廣告平臺才會將該廣告物料數(shù)據(jù)上線,使其可以被檢索以及展示。但是,實際應(yīng)用中,廣告平臺接收的各個廣告投放方上傳的廣告物料數(shù)據(jù),其數(shù)據(jù)量可能在上億條,而如果要對每個廣告物料數(shù)據(jù)的網(wǎng)址均進行驗證,其驗證量太大,并且速度慢,效率低。而如果按照廣告物料數(shù)據(jù)的網(wǎng)址的所在的主域名進行驗證,那么由于該主域名與主域名下的某些網(wǎng)址可能由于對應(yīng)的文件位置或者參數(shù)的不同,使對主域名的驗證結(jié)果不能完全代表其各個網(wǎng)址的驗證結(jié)果,該種驗證可能存在誤差。并且如果主域名驗證未通過,則需要逐個對該主域名下的各個網(wǎng)址逐個進行再次驗證,其定位范圍太廣,導(dǎo)致再次驗證的數(shù)據(jù)量也很龐大。技術(shù)實現(xiàn)要素:-鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的廣告物料數(shù)據(jù)網(wǎng)址驗證裝置和相應(yīng)的廣告物料數(shù)據(jù)網(wǎng)址驗證方法。依據(jù)本發(fā)明的一個方面,提供了一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法,包括:獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;對于各個第一分類,抽樣選擇N個網(wǎng)址進行驗證。優(yōu)選地,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類,包括:對于只有路徑信息的網(wǎng)址,將路徑信息中虛擬目錄信息相同的網(wǎng)址,聚為一個第一分類;對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類。優(yōu)選地,所述對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類,包括:針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率;對于第一頻率大于頻率閾值的路徑信息和參數(shù)名的組合,則將所述路徑信息和參數(shù)名所在的網(wǎng)址聚為一個第一分類。優(yōu)選地,所述針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率,包括:對于具備相同路徑信息的各個網(wǎng)址,針對路徑信息和參數(shù)信息進行歸一化,并統(tǒng)計每個路徑信息出現(xiàn)的第一個數(shù);對于歸一化后的網(wǎng)址,統(tǒng)計各個參數(shù)名出現(xiàn)的第二個數(shù);判斷所述第一個數(shù)是否大于第一支持度,以及所述第二個數(shù)是否大于第二支持度;如果所述第一個數(shù)大于第一支持度,以及所述第二個數(shù)大于第二支持度,則結(jié)合頻繁模式增長算法,計算各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率。優(yōu)選地,所述參數(shù)信息包括網(wǎng)址中的“?”字符之后的字符串,所述參數(shù)名包括“?”字符和“?”字符之后第一個“=”字符之間的字符串,或者“&”字符和“&”字符之后第一個“=”之間的字符串;所述路徑信息包括網(wǎng)址中的主域名之后第一個“/”字符和“?”字符之間的字符串。優(yōu)選地,所述對于各個第一分類,抽樣選擇N個網(wǎng)址進行驗證,包括:從各個第一分類中,抽樣選擇N個網(wǎng)址;根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組;對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證;其中,對每個驗證分組進行驗證時包括:從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證。優(yōu)選地,所述對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證包括:判斷是否存在還未驗證完畢的驗證分組;如果存在還未驗證完畢的驗證分組,則循環(huán)選擇下一個未驗證完畢的驗證分組以進行驗證;其中,最后一個驗證分組的下一個驗證分組為第一個驗證分組;如果不存在還未驗證完畢的驗證分組,則驗證結(jié)束。優(yōu)選地,所述從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證包括:從未驗證的網(wǎng)址中,逐個選擇網(wǎng)址進行驗證;在每次選擇網(wǎng)址后,如果選擇的網(wǎng)址達到指定個數(shù)并且還存在未驗證的網(wǎng)址,則轉(zhuǎn)入對下一個驗證分組的驗證過程;如果不存在未驗證的網(wǎng)址,則將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入對下一個驗證分組的驗證過程。優(yōu)選地,所述將各個網(wǎng)址進行驗證,包括:在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所 述第一分類中的網(wǎng)址進行驗證。優(yōu)選地,所述重新對所述第一分類中的網(wǎng)址進行驗證包括:對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。依據(jù)本發(fā)明的另外一個方面,本發(fā)明公開了一種廣告物料數(shù)據(jù)網(wǎng)址驗證裝置,包括:獲取模塊,適于獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;分類模塊,適于針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;抽樣驗證模塊,適于對于各個第一分類驗證模塊,適于將各個網(wǎng)址進行驗證。優(yōu)選地,所述分類模塊包括:第一分類模塊,適于對于只有路徑信息的網(wǎng)址,將路徑信息中虛擬目錄信息相同的網(wǎng)址,聚為一個第一分類;第二分類模塊,適于對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類。優(yōu)選地,所述第三分類模塊包括:頻率統(tǒng)計模塊,適于針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率;頻率分類模塊,適于對于第一頻率大于頻率閾值的路徑信息和參數(shù)名的組合,則將所述路徑信息和參數(shù)名所在的網(wǎng)址聚為一個第一分類。優(yōu)選地,所述頻率統(tǒng)計模塊包括:歸一化模塊,適于對于具備相同路徑信息的各個網(wǎng)址,針對路徑信息和參數(shù)信息進行歸一化,并統(tǒng)計每個路徑信息出現(xiàn)的第一個數(shù);參數(shù)合并模塊,適于對于歸一化后的網(wǎng)址,統(tǒng)計各個參數(shù)名出現(xiàn)的第二個數(shù);支持度判斷模塊,適于判斷所述第一個數(shù)是否大于第一支持度,以及所述第二個數(shù)是否大于第二支持度;第一頻率統(tǒng)計模塊,適于如果所述第一個數(shù)大于第一支持度,以及所述第二個數(shù)大于第二支持度,則結(jié)合頻繁模式增長算法,計算各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率。優(yōu)選地,所述參數(shù)信息包括網(wǎng)址中的“?”字符之后的字符串,所述參數(shù)名包括“?”字符和“?”字符之后第一個“=”字符之間的字符串,或者“&”字符和“&”字符之后第一個“=”之間的字符串;所述路徑信息包括網(wǎng)址中的主域名之后第一個“/”字符和“?”字符之間的字符串。優(yōu)選地,所述抽樣驗證模塊包括:抽樣模塊,適于從各個第一分類中,抽樣選擇N個網(wǎng)址;分組模塊,適于根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組;循環(huán)驗證模塊,適于對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證;其中,對每個驗證分組進行驗證時包括:從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證。優(yōu)選地,所述循環(huán)驗證模塊包括:循環(huán)判斷模塊,適于判斷是否存在還未驗證完畢的驗證分組;循環(huán)選擇模塊,適于如果存在還未驗證完畢的驗證分組,則循環(huán)選擇下一個未驗證完畢的驗證分組以進行驗證;其中,最后一個驗證分組的下一個驗證分組為第一個驗證分組;結(jié)束模塊,適于如果不存在還未驗證完畢的驗證分組,則驗證結(jié)束。優(yōu)選地,所述循環(huán)驗證模塊包括:逐個提取模塊,適于從未驗證的網(wǎng)址中,逐個選擇網(wǎng)址進行驗證;第一轉(zhuǎn)入判斷模塊,適于在每次選擇網(wǎng)址后,如果選擇的網(wǎng)址達到指定個數(shù)并且還存在未驗證的網(wǎng)址,則轉(zhuǎn)入對下一個驗證分組的驗證過程;第二轉(zhuǎn)入判斷模塊,適于如果不存在未驗證的網(wǎng)址,則將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入對下一個驗證分組的驗證過程。優(yōu)選地,所述抽樣驗證模塊包括:分類驗證判斷模塊,適于在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;第一通過確認模塊,適于如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;第一重新驗證模塊,適于如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。優(yōu)選地,所述第一重新驗證模塊包括:再次抽樣模塊,適于對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;通過計算模塊,適于根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;第二通過確認模塊,適于如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;第二重新驗證模塊,適于如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。根據(jù)本發(fā)明的廣告物料數(shù)據(jù)網(wǎng)址驗證方法,可以通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類,然后從各個聚類結(jié)果中抽樣N個網(wǎng)址,對各個網(wǎng)址進行驗證。由此解決了對所有網(wǎng)址進行驗證的數(shù)據(jù)量大、效率低的問題以及對于以主域名進行分類時,如果一個網(wǎng)址驗證錯誤,無法快速定位其相對精確的位置的問題,取得了可以大大減少驗證的數(shù)據(jù)量,并且在某個網(wǎng)址驗證出現(xiàn)錯 誤時,可以更精確的定位到相應(yīng)分類,可以對較小數(shù)量該分類的網(wǎng)址再校驗,再校驗數(shù)據(jù)量小,效率高的有益效果。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。附圖說明通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1示出了根據(jù)本發(fā)明一個實施例的一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法的流程示意圖;圖2示出了根據(jù)本發(fā)明一個實施例的一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法的流程示意圖;圖2A示出了本發(fā)明實施例的IP驗證分組示例;圖3示出了根據(jù)本發(fā)明一個實施例的一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法的流程示意圖;圖4示出了根據(jù)本發(fā)明一個實施例的一種廣告物料數(shù)據(jù)網(wǎng)址驗證裝置的結(jié)構(gòu)示意圖;圖5示出了根據(jù)本發(fā)明一個實施例的一種廣告物料數(shù)據(jù)網(wǎng)址驗證裝置的結(jié)構(gòu)示意圖;圖6示出了根據(jù)本發(fā)明一個實施例的一種廣告物料數(shù)據(jù)網(wǎng)址驗證裝置的結(jié)構(gòu)示意圖。具體實施方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不 應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。本發(fā)明實施例的核心思想之一在于,可以通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類,然后從各個聚類結(jié)果中抽樣N個網(wǎng)址,對各個網(wǎng)址進行驗證。由此解決了對所有網(wǎng)址進行驗證的數(shù)據(jù)量大、效率低的問題以及對于以主域名進行分類時,如果一個網(wǎng)址驗證錯誤,無法快速定位其相對精確的位置的問題,取得了可以大大減少驗證的數(shù)據(jù)量,并且在某個網(wǎng)址驗證出現(xiàn)錯誤時,可以更精確的定位到相應(yīng)分類,可以對較小數(shù)量該分類的網(wǎng)址再校驗,再校驗數(shù)據(jù)量小,效率高的有益效果。實施例一參照圖1,其示出了本發(fā)明實施例一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法的流程示意圖,具體可以包括:步驟110,獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;本發(fā)明實施例應(yīng)用于廣告平臺,該廣告平臺中可以接收各個廣告投放方注冊的廣告賬戶,該廣告投放方可以理解為商家。然后各個商家能通過該廣告賬戶登錄廣告平臺,在廣告賬戶中上傳廣告物料數(shù)據(jù)。其中,廣告平臺可以理解為廣告服務(wù)器或者廣告服務(wù)器集群。其中,所述廣告物料數(shù)據(jù)可以包括廣告內(nèi)容和URL,該廣告內(nèi)容可以包括文本、圖片等數(shù)據(jù)。廣告內(nèi)容用于在客戶端的網(wǎng)頁中展示具體類容,URL用于在用戶點擊廣告內(nèi)容后引導(dǎo)網(wǎng)頁跳轉(zhuǎn)至目標(biāo)網(wǎng)頁。對于用戶新上傳的廣告物料數(shù)據(jù),廣告平臺為了使廣告物料數(shù)據(jù)上線之后,該廣告物料數(shù)據(jù)被投放到客戶端展示以后,當(dāng)用戶點擊展示廣告物料數(shù)據(jù)時可以正常跳轉(zhuǎn)到相應(yīng)URL的頁面中,保證廣告物料數(shù)據(jù)的有效性。因為,如果用戶在客戶端中點擊該展示的廣告物料數(shù)據(jù)之后,該廣告物料數(shù)據(jù)的URL不能連通,則實際上該廣告物料數(shù)據(jù)是無效的,對于用戶來說浪費 其時間和操作。因此,廣告平臺需要首先對各個廣告物料數(shù)據(jù)的網(wǎng)址進行連通性驗證,該網(wǎng)址被驗證為可以連通后,然后才能發(fā)布到線上。在廣告平臺中,新上傳的廣告物料數(shù)據(jù)是存儲在基礎(chǔ)數(shù)據(jù)庫中,該基礎(chǔ)數(shù)據(jù)庫存儲未驗證的廣告物料數(shù)據(jù)。其存儲時,還是以廣告賬戶為數(shù)據(jù)庫的主鍵進行存儲的。當(dāng)然,如果對于廣告賬戶,用戶在廣告賬戶中設(shè)置了多個廣告分組,然后在廣告分組中上傳廣告物料數(shù)據(jù),數(shù)據(jù)庫則以廣告賬戶為一級主鍵,廣告組為下一級主鍵,存儲廣告物料數(shù)據(jù)。那么,本發(fā)明實施例中,本發(fā)明實施例可以從上述基礎(chǔ)數(shù)據(jù)庫中提取各種未驗證的廣告物料數(shù)據(jù)的網(wǎng)址。提取時,是按照廣告物料數(shù)據(jù)進行提取的,即有多少個廣告物料數(shù)據(jù),則提取多少個網(wǎng)址,網(wǎng)址的個數(shù)與廣告物料數(shù)據(jù)的個數(shù)一一對應(yīng)。并且,本發(fā)明實施例中,對于提取每個網(wǎng)址會記錄其對應(yīng)的廣告物料數(shù)據(jù)。步驟120,針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;對于廣告物料數(shù)據(jù)的網(wǎng)址來說,以http://www.aspxfans.com/news/a.html?T=5&ID=2為例,其大致包括如下幾個部分。1.協(xié)議信息:該URL的協(xié)議部分為“http:”,這代表網(wǎng)頁使用的是HTTP協(xié)議。在Internet中可以使用多種協(xié)議,如HTTP,F(xiàn)TP等等本例中使用的是HTTP協(xié)議。在"HTTP"后面的“//”為分隔符。2.主域名信息:該URL的主域名部分為“www.aspxfans.com”。一個URL中,也可以使用IP地址作為域名使用。3.虛擬目錄信息:從域名后的第一個“/”開始到最后一個“/”為止,是虛擬目錄部分。虛擬目錄也不是一個URL必須的部分。本例中的虛擬目錄是“/news/”。4.文件名信息:從域名后的最后一個“/”開始到“?”為止,是文件名部分,如果沒有“?”,則是從域名后的最后一個“/”開始到“#”為止,是文件部分,如果沒有“?”和“#”,那么從域名后的最后一個“/”開始到結(jié)束,都是文件名部分。本例中的文件名是“a.html”。文件名部分也不是一個URL必須的部分,如果省略該部分,則使用默認的文件名5、.參數(shù)信息:從“?”開始到“#”為止之間的部分為參數(shù)部分,如果沒有“#”,則從“?”開始到結(jié)束都為參數(shù)部分。參數(shù)部分又稱搜索部分、查詢部分。本例中的參數(shù)部分為“T=5&ID=2”。參數(shù)可以允許有多個參數(shù),參數(shù)與參數(shù)之間用“&”作為分隔符。其中,參數(shù)部分的每個“=”之前,“&”之后的部分為參數(shù)名,本例中參數(shù)名包括T、ID。當(dāng)然,實際應(yīng)用中,URL也可以只包括1、2,或者只包括1、2、3、4,或者只包括1、2、3、4、5。在本發(fā)明實施例中,對于廣告物料數(shù)據(jù)對應(yīng)的URL,可包括1、2、3、4、5的信息,或者1、2、3、4的信息。本發(fā)明實施例的聚類是針對同一主域名下的所有網(wǎng)址,以這些網(wǎng)址的主域名之后的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類。優(yōu)選地,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類,包括:子步驟121,對于只有路徑信息的網(wǎng)址,將路徑信息中虛擬目錄信息相同的網(wǎng)址,聚為一個第一分類;對于前述包括1、2、3、4類型信息的URL,比如http://www.aspxfans.com/news/a.html、http://www.aspxfans.com/news/mer.html、http://www.aspxfans.com/top/a.html、http://www.aspxfans.com/top/a.html等的網(wǎng)址,可以根據(jù)URL中主域名之后的參數(shù)信息中的參數(shù)名作為聚類標(biāo)準(zhǔn),即“?”之后“=”之前,或者,比如http://www.aspxfans.com/news/a.html、http://www.aspxfans.com/news/mer.html中都有news,則該兩個網(wǎng)址則可聚為一類。當(dāng)然,在實際應(yīng)用中,可設(shè)置一個針對虛擬目錄信息的個數(shù)閾值,當(dāng)具有相同虛擬目錄信息的URL的個數(shù)大于該個數(shù)閾值時,才進行聚類。該種方式,因為較少的URL,直接驗證的時間與聚類后進行抽樣檢測的時間之間,并不相差太多,反而可以減少資源的占用。和/或者子步驟122,對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類。對于前述包括1、2、3、4、5類型信息的URL,比如前述http://www.aspxfans.com/news/a.html?T=5&ID=2,可以從中獲取路徑信息“news/a.html”,和參數(shù)信息中的兩個參數(shù)名“T”和“ID”。然后對路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址進行聚類。其中,參數(shù)信息為網(wǎng)址中的“?”字符之后的字符串,所述參數(shù)名包括“?”字符和“?”字符之后第一個“=”字符之間的字符串,如上述的“T”,或者“&”字符和“&”字符之后第一個“=”之間的字符串,如上述的“ID”。路徑信息為網(wǎng)址中的主域名之后第一個“/”字符和“?”字符之間的字符串,如上述的“news/a.html”。對于URL來說,如果路徑信息和參數(shù)名可能相同,而參數(shù)名的值可能不同,那么這些URL很可能屬于同一個網(wǎng)站下處理相同業(yè)務(wù)的頁面,其所在的應(yīng)用環(huán)境和服務(wù)器相同的概率很大,因此可以對這些網(wǎng)址進行聚類,以待后續(xù)抽樣檢驗,從而降低檢驗的數(shù)量。對于前述包括1、2、3、4、5類型信息的URL中,有一種特殊類型,即其存在路徑信息,但是該路徑信息為空,因為主域名之后的“/”就指示了其路徑信息,比如http://www.aspxfans.com/?T=5&ID=2、http://www.aspxfans.com/?T=15&ID=18、該種類型,其路徑信息都是一樣,可以不用理會,從而可以根據(jù)URL中主域名之后的“?”和“?”之后第一個“=”之間的參數(shù)名信息,作為聚類標(biāo)準(zhǔn),比如http://www.aspxfans.com?T=5&ID=2、http://www.aspxfans.com?T=15&ID=18中都有參數(shù)名T和ID,則該兩個網(wǎng)址則可聚為一類。當(dāng)然,在實際應(yīng)用中,可設(shè)置一個針對參數(shù)名的個數(shù)閾值,當(dāng)具有相同參數(shù)名的URL的個數(shù)大于該個數(shù)閾值時,才進行聚類。該種方式,因為較少的URL,直接驗證的時間與聚類后進行抽樣檢測的時間之間,并不相差太多,反而可以減少資源的占用。優(yōu)選地,所述對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類,包括:子步驟A21,針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率;子步驟A22,對于第一頻率大于頻率閾值的路徑信息和參數(shù)名的組合,則將所述路徑信息和參數(shù)名所在的網(wǎng)址聚為一個第一分類。在本發(fā)明實施例中,對于路徑信息和某個或者某幾個參數(shù)名的組合,比如前述路徑信息“news/a.html”,和兩個參數(shù)名“T”和“ID”的組合,如果其在該主域名的網(wǎng)址下的出現(xiàn)頻率太低,則聚類后,進行抽樣檢測以提高效率的效果低。本發(fā)明實施例則針對上述出現(xiàn)頻率設(shè)置頻率閾值,對于第一頻率大于頻率閾值的路徑信息和參數(shù)名的組合,則將所述路徑信息和參數(shù)名所在的網(wǎng)址聚為一個第一分類。當(dāng)然,實際應(yīng)用中,本發(fā)明可以設(shè)置針對主域名的網(wǎng)址的最小個數(shù),如果該主域名下的網(wǎng)址個數(shù)小于該最小個數(shù),則不對該主域名下的網(wǎng)址進行上述聚類過程。反之,則進行上述聚類過程。優(yōu)選地,所述針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率,包括:子步驟A211,對于具備相同路徑信息的各個網(wǎng)址,針對路徑信息和參數(shù)信息進行歸一化,并統(tǒng)計每個路徑信息出現(xiàn)的第一個數(shù);比如http://www.aspxfans.com/news/a.html?T=5&CD=10,http://www.aspxfans.com/news/a.html?CD=10&T=5,上述兩個網(wǎng)址的參數(shù)信息在參數(shù)名一致,參數(shù)名的值也一致,路徑信息一致,主域名也一致,協(xié)議名 也一致,實際上該兩個網(wǎng)址就是一個網(wǎng)址。因此可以對其進行歸一化,然后再進行分類,可以降低計算量。在歸一化過程在,可以對參數(shù)名進行排序,然后將相同的參數(shù)名的參數(shù)值排列,得到的網(wǎng)址模板:……模板(1)然后即可將其中同一個參數(shù)名在的相同的參數(shù)值合并,從而把網(wǎng)址歸一化了。子步驟A212,對于歸一化后的網(wǎng)址,統(tǒng)計各個參數(shù)名出現(xiàn)的第二個數(shù);由于對所有網(wǎng)址都進行了歸一化操作,那么對于歸一化后的網(wǎng)址,統(tǒng)計各個參數(shù)名出現(xiàn)的第二個數(shù)。子步驟A213,判斷所述第一個數(shù)是否大于第一支持度,以及所述第二個數(shù)是否大于第二支持度;子步驟A214,如果所述第一個數(shù)大于第一支持度,以及所述第二個數(shù)大于第二支持度,則結(jié)合頻繁模式增長算法,計算各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率。在本發(fā)明實施例中,對于路徑信息相出現(xiàn)次數(shù)設(shè)置第一支持度,對參數(shù)名的出現(xiàn)次數(shù)設(shè)置第二支持度,只有當(dāng)路徑信息的出現(xiàn)次數(shù)和參數(shù)名出現(xiàn)次數(shù)達到或者超過相應(yīng)的支持度之后,該路徑信息和參數(shù)名的組合才具備聚類資格,降低第一分類的個數(shù),降低資源耗用。因為對于小于支持度的組合來說,說明其同時出現(xiàn)的頻率低,對應(yīng)的網(wǎng)址的出現(xiàn)頻率也低,無需進行分類和抽樣的過程,也可快速驗證,對該種網(wǎng)址的分類過程可能反而降低驗證效率。在本發(fā)明實施例中,對于第一個數(shù)大于第一支持度,以及所述第二個數(shù)大于第二支持度的情況,則可以利用FP-growth(頻繁模式增長)算法,對(主路徑信息、參數(shù)名)的組合進行提取,并記錄每個組合的次數(shù),在結(jié)合該主域名下的網(wǎng)址的總個數(shù),即可計算各路徑信息和各參數(shù)名的組合,同時 在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率。在本發(fā)明實施例中,將每個網(wǎng)址作為FP-growth算法的事務(wù),將網(wǎng)址的路徑信息、參數(shù)名作為該事務(wù)的項。那么本發(fā)明實施例實質(zhì)上是通過FP-growth算法查找路徑信息、參數(shù)名對應(yīng)的頻繁項集。比如對于一個URL,其對事務(wù)列表如下表(一):事務(wù)ID項URL1a.html、T、HURL2a.html、T、OURL3a.html、H、TURL4a.html、H、YURL5a.html、CD、HURL6a.html、CD、U…………表(一)表(一)中URL1的路徑信息為a.thml,參數(shù)名為T、H,URL2的路徑信息為a.thml,參數(shù)名為T、O。其他類似。通過前述子步驟A211-213之后,各個項的次數(shù)都已經(jīng)統(tǒng)計完畢,并且也都篩選了大于支持度的項。如表(二):項出現(xiàn)次數(shù)a.html6H4T3CD2U1O1Y1表(二)假設(shè)對路徑信息的第一支持度和第二支持度均為2,則去掉項U、O。還剩表(三)項出現(xiàn)次數(shù)a.html6T4H4CD2表(三)下面以一種FP-growth算法,介紹上述頻繁項集的計算過程:1、把表(一)中的事務(wù)的項,按出現(xiàn)次數(shù)排序,如表(四)事務(wù)ID項URL1a.html、H、TURL2a.html、T、URL3a.html、H、TURL4a.html、HURL5a.html、H、CDURL6a.html、CD、…………表(四)然后針對表(四)可以構(gòu)建頻繁樹:(1)創(chuàng)建根節(jié)點null;(2)掃描第一條事務(wù),可以URL1:a.html、H、T,可以構(gòu)建頻繁樹第一個分支<(a.html,1),(H,1),(T,1)>。掃描第二個事務(wù)URL2:a.html、T,有項目<a.html、H>與分支<(a.html,1),(T,1)>共享路徑,則樹節(jié)點<a.html>計數(shù)加一得到(a.html,2),在樹節(jié)點<a.html>下增加新的樹節(jié)點(T,1)。掃描第三個事務(wù)URL3:a.html、H、T,與<(a.html,2),(H,1),(T,1)>共享路徑,則樹節(jié)點(a.html,2)、樹節(jié)點(H,1)、樹節(jié)點 (T,1)計數(shù)加1,得到(a.html,3),(H,2),(T,2)。掃描第四個事務(wù)URL4:a.html、H,與<(a.html,3),(H,2)>共享路徑,則樹節(jié)點(a.html,3)、樹節(jié)點(H,2)計數(shù)加1,得到(a.html,4),(H,3)。以此類推,構(gòu)建了一個頻繁樹。然后基于該頻繁樹,對于每個從頻繁樹的各個分支尾部挖掘頻繁項集,可以逐個將各個頻繁項集的出現(xiàn)次數(shù)統(tǒng)計出來。在實際應(yīng)用中調(diào)用FP-Growth(Tree,x)函數(shù)輸出各個頻繁項集,其中Tree為頻繁樹,x為某條路徑P中節(jié)點的每個組合。在上述頻繁樹中的示例中,x中包括了路徑信息a.html。其為a.html與其他節(jié)點的組合。然后可結(jié)合所在主域名的網(wǎng)址的總個數(shù)計算該頻繁項集的第一頻率。在本發(fā)明實施例中,可以規(guī)定頻繁項集的個數(shù),比如2個,將所有第一頻率大于頻率閾值的頻繁項集,每個頻繁項集對應(yīng)的網(wǎng)址聚為一類。比如上述示例中(a.html、H)的第一頻率大于閾值,則將有路徑信息a.html和參數(shù)名H的網(wǎng)址聚為一類。當(dāng)然,上述的頻繁樹可以只針對一個路徑信息進行構(gòu)建,然后頻繁樹只針對該路徑信息下的參數(shù)名構(gòu)建,采用類似上述原理,得到該路徑信息下的各種參數(shù)組合的頻繁項集的出現(xiàn)次數(shù),然后可以計算其第一頻率,對于待遇第一頻率的頻繁項集,可以將該路徑信息下的具有該頻繁項集的參數(shù)組合的網(wǎng)址聚為一類。上述示例,僅示出了使用FP-growth算法的一種計算方式,當(dāng)然還可以采用其他方式,本發(fā)明不對其加以限制。采用FP-growth算法,可采用遞歸過程對頻繁項集進行統(tǒng)計,效率快,遺漏小。子步驟124,對于頻繁次數(shù)大于閾值的頻繁項集對應(yīng)的網(wǎng)址分到一個第一分類。每個頻繁項集有統(tǒng)計次數(shù),那么可以對該次數(shù)設(shè)置一個閾值,然后可對于頻繁次數(shù)大于閾值的頻繁項集對應(yīng)的網(wǎng)址分到一個第一分類。在本發(fā)明實施例,對于單個的網(wǎng)址,可以將其本身作為一個第一分類。步驟130,對于各個第一分類,抽樣選擇N個網(wǎng)址進行驗證;那么對于得到的各個第一分類,可以從中抽樣選擇N個網(wǎng)址,抽樣可以按多種規(guī)則抽樣,比如按第一分類個數(shù)的總比例進行抽樣,比如從該第一分類中抽樣5%的網(wǎng)址。當(dāng)然,抽樣可以隨機抽樣,也可以每隔一定個數(shù)抽樣。在本發(fā)明實施例中,對于每個第一分類,會對其進行記錄。然后由廣告平臺對這些網(wǎng)址進行連通性驗證。在本發(fā)明實施例中,URL的連通性驗證,可以根據(jù)該URL發(fā)起HTTP(Hypertexttransferprotocol,超文本傳送協(xié)議)請求,然后根據(jù)收到的針對該HTTP請求的HTTP響應(yīng)判斷是否連通,連通則驗證通過,不連通則驗證不通過。比如,HTTP響應(yīng)的4XX系列,和5XX系列的響應(yīng)都表示不連通,2XX系統(tǒng)的響應(yīng)表示連通。當(dāng)前,在實際應(yīng)用中,對于抽樣的網(wǎng)址,會標(biāo)識該網(wǎng)址屬于哪個第一分類。當(dāng)在驗證過程中某個網(wǎng)址沒有驗證通過,則通過標(biāo)識查找其屬于的第一分類,如果找到其第一分類,說明該第一分類的網(wǎng)址可能還存在不能通過的網(wǎng)址,則將該第一分類的網(wǎng)址重新進行連通性驗證,保證驗證的準(zhǔn)確率。在本發(fā)明實施例中,對于未分類的單個的網(wǎng)址,可以將其本身作為第一分類,然后將其抽取。對于第一分類的個數(shù)小于N的分類,則全部抽?。粚τ诜诸悅€數(shù)大于N的第一分類,則抽取N個。在實際應(yīng)用在第一分類的網(wǎng)址個數(shù)很龐大,比如10000條,本發(fā)明則可抽取其中的一部分,比如設(shè)置N為100。N可以根據(jù)實際需求設(shè)定。在本發(fā)明實施例在,如果對于一個第一分類的網(wǎng)址,其驗證通過率低于通過閾值,則需要對該第一分類重新驗證,比如再次抽樣N個進行驗證或者逐個重新驗證。優(yōu)選地,所述將各個網(wǎng)址進行驗證,包括:子步驟131,在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;子步驟132,如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;子步驟133,如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。比如,對于一個第一分類,抽樣了100個URL進行驗證。而預(yù)設(shè)的針對通過率的通過閾值為99%,即該100個URL中的要有99個通過。當(dāng)然該通過率閾值也可以設(shè)置其他值,比如100%。本發(fā)明實施例不對其加以限制。如果通過率達到該通過率閾值,則子步驟132確定對相應(yīng)第一分類的各網(wǎng)址驗證通過,不再驗證該第一分類的URL。如果通過率達未到該通過率閾值,則子步驟133重新對所述第一分類中的網(wǎng)址進行驗證。優(yōu)選地,所述重新對所述第一分類中的網(wǎng)址進行驗證包括:子步驟1331,對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;在本發(fā)明實施例中,如果第一次抽樣的N個URL的驗證未達到通過率閾值,則可重復(fù)進行多次驗證。即再抽樣M次進行M次驗證,每次還從該第一分類中抽樣N個URL。比如再抽樣10次,進行10次驗證。子步驟1332,根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;那么對于每次抽樣的N個URL的驗證,其對該N個驗證完畢之后會有一個驗證通過率。而M次驗證則有M個驗證通過率。那么以該M次驗證通過率為樣本,計算M次驗證的驗證通過率平均值,進一步的可計算M次驗證的方差。該方差越低表示波動越小,說明驗證越穩(wěn)定。那么本發(fā)明實施例可以針對驗證通過率平均值設(shè)置平均值閾值,針對方差設(shè)置方差閾值。子步驟1333,如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;子步驟1334,如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則說明對該第一分類的網(wǎng)址的驗證可信,確定所述第一分類的各網(wǎng)址驗證通過。如果所述驗證通過率平均未值達到閾值,或者方差低于方差閾值,或者驗證通過率平均未值達到閾值和方差高于方差閾值,則對該第一分類的驗證不通過,則需要對該第一分類的網(wǎng)址重新進行逐個驗證。本發(fā)明實施例可以通過對具備同一主域名的網(wǎng)址,針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類,然后從各個聚類結(jié)果中抽樣N個網(wǎng)址,對各個網(wǎng)址進行驗證??梢源蟠鬁p少驗證的數(shù)據(jù)量,并且在某個網(wǎng)址驗證出現(xiàn)錯誤時,可以更精確的定位到相應(yīng)分類,可以對較小數(shù)量該分類的網(wǎng)址再校驗,再校驗數(shù)據(jù)量小,效率高的有益效果。實施例二參照圖2,其示出了本發(fā)明實施例一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法的流程示意圖,具體可以包括:步驟210,獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;步驟220,針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;步驟230,從各個第一分類中,抽樣選擇N個網(wǎng)址;步驟240,根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組;在實際應(yīng)用中,每個URL有對應(yīng)的IP地址,那么本發(fā)明實施例可以根據(jù)URL對應(yīng)的IP地址將各個廣告物料數(shù)據(jù)的網(wǎng)址分組。也可以盡量將指向同一網(wǎng)站的廣告物料數(shù)據(jù)的網(wǎng)址分到一個驗證分組中。優(yōu)選地,步驟240所述的根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組包括:子步驟241,根據(jù)各個廣告物料數(shù)據(jù)的網(wǎng)址,獲取所述網(wǎng)址對應(yīng)的IP地 址;對于取所述網(wǎng)址對應(yīng)的IP地址,可以通過如下步驟實現(xiàn):子步驟A11,針對每個URL,構(gòu)建DNS請求;子步驟A12,將DNS請求發(fā)送至DNS服務(wù)器;子步驟A13,接收DNS服務(wù)器返回的IP地址,將該IP地址與URL進行對應(yīng)。任何一個URL,如果客戶端想要訪問該URL,那么均需要先通過DNS(DomainNameSystem,域名解析系)獲取到其IP地址,然后才能發(fā)送具體的訪問請求到該URL相應(yīng)的服務(wù)器中,以獲取URL的資源。本發(fā)明實施例則由廣告平臺對每個URL構(gòu)建DNS請求,然后向DNS服務(wù)器發(fā)送該DNS請求,即可從DNS服務(wù)器中獲取到對應(yīng)該URL的IP地址。當(dāng)然,本發(fā)明實施例中,對于沒有獲取到IP地址的URL,可以不對其進行分類。并且可以認為其連通性驗證不通過,因為該URL的查找不到相應(yīng)的IP地址,則無法訪問該廣告物料數(shù)據(jù)對應(yīng)的URL,該URL對應(yīng)的廣告物料數(shù)據(jù)則不能上線。子步驟242,將對應(yīng)同一個IP地址的網(wǎng)址分為一個驗證分組。每個廣告物料數(shù)據(jù)的網(wǎng)址有對應(yīng)的IP地址,根據(jù)該IP地址對廣告物料數(shù)據(jù)的網(wǎng)址進行分組。那么,同一個IP地址的廣告物料數(shù)據(jù)的網(wǎng)址則分到同一個驗證分組中。如圖2A所示,驗證分組為IP地址1、IP地址2等,驗證分組“IP地址1”內(nèi),有URL11、URL12、URL13等,驗證分組“IP地址2”內(nèi),有URL21、URL22等。優(yōu)選地,所述根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組,包括:子步驟243,根據(jù)各個的網(wǎng)址中的主域名,將同一主域名的網(wǎng)址分為一個第一分組;在本發(fā)明實施例中,各個第一分類都對應(yīng)一個主域名,那么對于被分到 一個第一分類中的網(wǎng)址,獲取該分類對應(yīng)的主域名即可。而對于未分類的網(wǎng)址,則可以判斷是否已經(jīng)提取了其同一主域名,如果提取了,則不用提取,如果未提取,再提取該網(wǎng)址的主域名。然后,可以將具備同一個主域名的URL分到一個第一分組中,每個第一分組以相應(yīng)的主域名進行標(biāo)識。比如http://www.tuniu.com/guide/d-ouzhou-3600/、http://www.tuniu.com/g3600/tours-bj-0/、http://www.tuniu.com/g3600/pkg-sh-0/,這三個URL就可以分到www.tuniu.com的第一分組中。子步驟244,根據(jù)每個主域名,獲取對應(yīng)所述主域名的IP地址;那么對于上述第一分組,因為每個第一分組有一個主域名,那么可以獲取該主域名的IP地址。在實際應(yīng)用中,可以針對該主域名構(gòu)建一個DNS請求,然后將該DNS請求發(fā)送到DNS服務(wù)器,從DNS服務(wù)器獲取相應(yīng)的IP地址。子步驟245,將對應(yīng)同一個IP地址的各個第一分組合為一個驗證分組。在實際應(yīng)用中,可能很多主域名指向同一個IP地址,那么本發(fā)明實施例則可以將同一個IP地址的第一分組,合并為同一個驗證分組。子步驟243-245,先將網(wǎng)址以主域名進行第一次分組,然后只對主域名獲取IP地址,再以IP地址劃分驗證分組,可以減少IP地址的獲取量,提高IP地址的獲取速度,降低資源消耗。比如對于前述三個http://www.tuniu.com/guide/d-ouzhou-3600/、http://www.tuniu.com/g3600/tours-bj-0/、http://www.tuniu.com/g3600/pkg-sh-0/,如果直接獲取IP地址則需要獲取3次,而劃分第一分組后,只需要獲取www.tuniu.com的IP地址即可,如此只需要獲取一次IP地址,減少了IP地址的獲取次數(shù)。在實際應(yīng)用中,可能同一個廣告投放方有多個IP地址,為了盡量使該廣告投放的IP地址不在驗證分組隊列中連續(xù)存在,可以對各個IP地址的驗證分組進行隨機排序。當(dāng)然,在本發(fā)明實施例中,步驟240和步驟250可以在220之前,先對 所有的網(wǎng)址分到驗證分組中。再對每個驗證分組中的同一主域名的網(wǎng)址進行分類。然后從該分類中抽樣網(wǎng)址作為檢測對象。該驗證分組中就包括了未分類的網(wǎng)址和抽樣的網(wǎng)址。步驟250,對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證;其中,對每個驗證分組進行驗證時包括:從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證。比如有10個驗證分組,從第1個分組開始進行驗證,從該驗證分組選擇10個未驗證廣告物料數(shù)據(jù)的網(wǎng)址進行驗證;然后進入第2個驗證分組,從該驗證分組中選擇10個未驗證的未驗證廣告物料數(shù)據(jù)的網(wǎng)址進行驗證;以此類推,到第10個驗證分組之后,再循環(huán)到第1個驗證分組,繼續(xù)循環(huán),直到所有驗證分組的未驗證廣告物料數(shù)據(jù)的網(wǎng)址驗證完畢。當(dāng)前,如果在驗證過程中,某個驗證分組中的未驗證的未驗證廣告物料數(shù)據(jù)的網(wǎng)址個數(shù)小于指定個數(shù),則選擇實際的個數(shù)進行驗證。在本發(fā)明實施例中,所述指定個數(shù),可以根據(jù)需要進行設(shè)定。該指定個數(shù)的數(shù)量級很小,一般不超過百位數(shù)。從而可以快速的對各個驗證分組進行一輪循環(huán)。當(dāng)然,對于需要重新驗證的第一分類,可以將其獨立出來,單獨對該第一分類進行驗證,不再將其加入原來的驗證分組中。優(yōu)選地,步驟250所述的對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證包括:子步驟261,判斷是否存在還未驗證完畢的驗證分組;如果存在還未驗證完畢的驗證分組,則進入步驟262;如果不存在還未驗證完畢的驗證分組,則進入步驟263;子步驟262,循環(huán)選擇下一個未驗證完畢的驗證分組以進行驗證;其中,最后一個驗證分組的下一個驗證分組為第一個驗證分組;子步驟263,驗證結(jié)束。在本發(fā)明實施例中,對于各驗證分組,可以先判斷是否存在未驗證完畢 的驗證分組。其中,所述未驗證完畢表示該驗證分組中還有未驗證的網(wǎng)址;如果該驗證分組的所有網(wǎng)址都驗證過了,則表示對該驗證分組驗證完畢。其中,當(dāng)對一網(wǎng)址的驗證未通過,則查找與所述網(wǎng)址對應(yīng)的主域名的驗證結(jié)果;如果所述驗證結(jié)果表示驗證通過,則確認所述網(wǎng)址的驗證通過。在實際應(yīng)用中,在驗證過程中,對于一個驗證分組,會對其進行是否驗證完畢的標(biāo)記,比如0表示未驗證完畢,1表示驗證完畢。對于初始情況下,每個驗證分組都存在未驗證的網(wǎng)址,因而每個驗證分組都被標(biāo)記為0,則從第一個驗證分組開始驗證。在對每個驗證分組進行驗證時,從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址進行驗證。對一個驗證分組進行驗證后,如果該驗證分組還存在未驗證的網(wǎng)址,則不改變0,如果不存在未驗證的網(wǎng)址,則將0改變?yōu)?。如此,在循環(huán)中,每次對一個驗證分組的指定個數(shù)的網(wǎng)址驗證完之后,可轉(zhuǎn)入子步驟261,判斷是否存在還未驗證完畢的驗證分組。當(dāng)然,在初始情況下,即第一次驗證第一個驗證分組之前,不用判斷是否存在還未驗證完畢的驗證分組。優(yōu)選地,所述從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證包括:子步驟264,從未驗證的網(wǎng)址中,逐個選擇網(wǎng)址進行驗證;在本發(fā)明實施例中,對于每個驗證分組,其未驗證的廣告物料數(shù)據(jù)的網(wǎng)址是按序排列的,可以理解為各個網(wǎng)址形成一個網(wǎng)址隊列。本發(fā)明實施例在對每個驗證分組進行驗證時,則逐個從該網(wǎng)址隊列中提取網(wǎng)址進行驗證。比如,對于驗證分組A,如果其有100條未驗證網(wǎng)址,假使指定個數(shù)為10。第一次循環(huán)到該驗證分組時,則提取1-10條網(wǎng)址進行驗證,第二次循環(huán)到該驗證分組時,則提取11-20條網(wǎng)址進行驗證。其他情況以此類推。其中,對每個URL進行驗證時包括:子步驟B11,判斷所述對所述網(wǎng)址的驗證是否通過:如果對所述網(wǎng)址的 驗證未通過,則進入子步驟B12;如果對所述網(wǎng)址的驗證通過,則進入子步驟265。子步驟B12,查找與所述網(wǎng)址對應(yīng)的主域名的驗證結(jié)果,并判斷所述驗證結(jié)果是否表示驗證通過;如果所述驗證結(jié)果表示驗證通過,則進入子步驟B13;子步驟B13,確認所述網(wǎng)址的驗證通過。子步驟B13之后,即可進入子步驟265。子步驟265,在每次選擇網(wǎng)址后,如果選擇的網(wǎng)址達到指定個數(shù)并且還存在未驗證的網(wǎng)址,則轉(zhuǎn)入對下一個驗證分組的驗證過程;對于一個驗證分組,由于設(shè)定了每次對該驗證分組進行驗證時,最多只能選擇指定個數(shù)的未驗證的網(wǎng)址進行驗證。那么當(dāng)步驟264中,逐個提取網(wǎng)址進行驗證時,會記錄提取的個數(shù),當(dāng)提取的個數(shù)達到指定個數(shù),則會判斷最后提取的網(wǎng)址之后是否還有未驗證的網(wǎng)址,如果有,則說明剩余的網(wǎng)址需要等待后續(xù)輪次的驗證。比如前述例子,驗證分組A,如果其有100條未驗證網(wǎng)址,其相當(dāng)于1-100的隊列。假使指定個數(shù)為10時。第一次循環(huán)到該驗證分組后,從該隊列中逐個提取網(wǎng)址,當(dāng)提取到第10個,發(fā)現(xiàn)還有第11個,則轉(zhuǎn)入對下一個驗證分組的驗證過程,比如驗證分組隊列中,下一個驗證分組為驗證分組B,則切換到對驗證分組B的驗證。其中,在每次選擇網(wǎng)址后,還包括:子步驟2651,在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;即每個網(wǎng)址被驗證后,判斷其所在的第一分類的所抽樣的N個網(wǎng)址是否驗證完畢,如果驗證完畢,則計算驗證通過率,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值。子步驟2652,如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;子步驟2653,如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。比如,對于一個第一分類,抽樣了100個URL進行驗證。而預(yù)設(shè)的針對通過率的通過閾值為99%,即該100個URL中的要有99個通過。當(dāng)然該通過率閾值也可以設(shè)置其他值,比如100%。本發(fā)明實施例不對其加以限制。如果通過率達到該通過率閾值,則子步驟2652確定對相應(yīng)第一分類的各網(wǎng)址驗證通過,不再驗證該第一分類的URL。如果通過率達未到該通過率閾值,則子步驟2653重新對所述第一分類中的網(wǎng)址進行驗證。優(yōu)選地,所述重新對所述第一分類中的網(wǎng)址進行驗證包括:子步驟P11,對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;在本發(fā)明實施例中,如果第一次抽樣的N個URL的驗證未達到通過率閾值,則可重復(fù)進行多次驗證。即再抽樣M次進行M次驗證,每次還從該第一分類中抽樣N個URL。比如再抽樣10次,進行10次驗證。子步驟P12,根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;那么對于每次抽樣的N個URL的驗證,其對該N個驗證完畢之后會有一個驗證通過率。而M次驗證則有M個驗證通過率。那么以該M次驗證通過率為樣本,計算M次驗證的驗證通過率平均值,進一步的可計算M次驗證的方差。該方差越低表示波動越小,說明驗證越穩(wěn)定。那么本發(fā)明實施例可以針對驗證通過率平均值設(shè)置平均值閾值,針對方差設(shè)置方差閾值。子步驟P13,如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;子步驟P14,如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則說明對該第一分類的網(wǎng)址的驗證可信,確定所述第一分類的各網(wǎng)址驗證通過。如果所述驗證通過率平均未值達到閾值,或者方差低于方差閾值,或者驗證通過率平均未值達到閾值和方差高于方差閾值,則對該第一分類的驗證不通過,則需要對該第一分類的網(wǎng)址重新進行逐個驗證。在本發(fā)明實施例中,由于對于每個第一分類,需要根據(jù)其抽煙的所有網(wǎng)址的驗證結(jié)果,來判斷是否需要對該第一分類進行重新驗證,或者確定對所述第一分類不再驗證。那么對于每次循環(huán),在每個驗證分組中記錄驗證的URL是哪個第一分類的,當(dāng)某個第一分類的URL驗證完畢,則進入步驟261進行判斷。如果需要進行重新驗證,則將該驗證分組中該第一分類的網(wǎng)址刪除,而將該第一分類中新的網(wǎng)址加入該驗證分組,再繼續(xù)進行循環(huán)驗證。當(dāng)然,對于需要重新驗證的第一分類,可以將其獨立出來,單獨對該第一分類進行驗證,不再將其加入原來的驗證分組中。子步驟266,如果不存在未驗證的網(wǎng)址,則將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入對下一個驗證分組的驗證過程。比如前述例子,驗證分組A,第10次循環(huán)到該驗證分組后,從該隊列中的91個開始,逐個提取網(wǎng)址,當(dāng)提取到第100個,發(fā)現(xiàn)沒有第101個,則表示該驗證分組驗證完畢,可以將該驗證分組退出循環(huán)過程,同時,轉(zhuǎn)入對下一個驗證分組的驗證過程。又比如,假使驗證分組A有98個未驗證網(wǎng)址,指定個數(shù)為10。從該隊列中的91個開始,逐個提取網(wǎng)址,當(dāng)提取到第98個,發(fā)現(xiàn)沒有第99個,只提取了8個,也沒達到指定個數(shù)10,但是該驗證分組A的所有網(wǎng)址也驗證完畢,則可以將該驗證分組退出循環(huán)過程同時,轉(zhuǎn)入對下一個驗證分組的驗證過程??梢岳斫猓硬襟E266中無論是否達到指定個數(shù),即選擇的網(wǎng)址個數(shù)小于或者等于指定個數(shù),當(dāng)該驗證分組的網(wǎng)址驗證完畢,將該驗證分組退出循環(huán)過程同時,轉(zhuǎn)入對下一個驗證分組的驗證過程。其中,將驗證分組退出循環(huán)過程,比如將該驗證分組退出驗證分組隊列比如原來有A、B、C、D的驗證分組隊列,驗證分組A驗證完畢,其退出循環(huán)過程,則驗證分組隊列為B、C、D。同時,切換到對驗證分組B的驗證。那么后續(xù)的驗證則在B、C、D驗證分組隊列中繼續(xù)循環(huán)。如此,驗證分組隊列的個數(shù)越來越少,減少對驗證分組的遍歷。優(yōu)選地,所述從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證。包括:子步驟267,在第一時間長度內(nèi),從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的廣告物料數(shù)據(jù)的網(wǎng)址進行驗證。本發(fā)明實施例可以設(shè)置每次循環(huán)到一個驗證分組時,對該驗證分組的驗證時間的長度限制,即所述第一時間長度,同時對該驗證分組的驗證的網(wǎng)址個數(shù),即指定個數(shù)。比如,假設(shè)第一時間長度為5秒,指定個數(shù)為10個,循環(huán)到驗證分組A時,對該驗證分組的驗證時間在5秒之內(nèi)驗證的網(wǎng)址個數(shù)不能超過10詞。由于每驗證一個網(wǎng)址均要向該網(wǎng)址的服務(wù)器發(fā)送一次驗證請求。因此,上述方式可保證對同一個IP地址的驗證請求的發(fā)送次數(shù)可以不觸發(fā)該IP地址的防火墻限制。因此,本步驟可以在該服務(wù)器封禁訪問IP的時間和數(shù)量的規(guī)定之下,對該服務(wù)器的URL進行驗證,從而避免由于服務(wù)器對廣告平臺IP的封禁,導(dǎo)致廣告物料數(shù)據(jù)的URL被誤判為驗證不通過的情況,避免本來可以正常上線的廣告物料數(shù)據(jù)無法上線。在本發(fā)明實施例中,對于驗證通過的網(wǎng)址,廣告平臺會將其該網(wǎng)址對應(yīng)的廣告物料數(shù)據(jù)上線。然后商家即可從網(wǎng)絡(luò)中查找到該廣告物料數(shù)據(jù),該廣告物料數(shù)據(jù)也可投放個各個客戶端。本實施例與實施例一類似的步驟原理類似,在此不再詳述。本發(fā)明實施例可以根據(jù)廣告物料數(shù)據(jù)的網(wǎng)址所對應(yīng)的IP地址對各個網(wǎng)址進行分組,得到各個驗證分組,每個驗證分組包括了一系列的廣告物料數(shù)據(jù)的網(wǎng)址;然后每次針對一個驗證分組的部分網(wǎng)址(比如10個網(wǎng)址)進行驗證,該驗證分組的該部分網(wǎng)址驗證完畢之后,則轉(zhuǎn)入下一個驗證分組;在 下一個驗證分組中,對下一個驗證分組的部分網(wǎng)址進行驗證,該部分網(wǎng)址驗證完畢之后,則轉(zhuǎn)入下一個驗證分組;以此類推,到最后一個驗證分組驗證完畢之后,則再循環(huán)到第一個,如此循環(huán),直到所有驗證分組的不存在未驗證的網(wǎng)址。相對于在先技術(shù)中,按照廣告賬戶提取廣告物料數(shù)據(jù)的網(wǎng)址,然后直接按照提取順序進行排序,導(dǎo)致同一個廣告賬戶的廣告物料數(shù)據(jù)的網(wǎng)址在一起,使驗證時,當(dāng)某個廣告賬戶的對于廣告物料數(shù)據(jù)的數(shù)據(jù)量特別龐大時,排序在該廣告賬戶之后的廣告賬戶,其廣告物料數(shù)據(jù)的網(wǎng)址則需要等待很長時間才能開始驗證。尤其是在一個廣告投放方在廣告平臺中的多個廣告賬戶中上傳了大量的廣告物料數(shù)據(jù)的情況下,對于排序在這這些廣告賬戶之后的廣告賬戶,其廣告物料數(shù)據(jù)的網(wǎng)址等待驗證的時間更長,相應(yīng)的廣告投放方需要非常長時間才能開始看到有廣告物料數(shù)據(jù)上線。在以各個廣告投放方位單位的驗證隊列中,在先技術(shù)的執(zhí)行過程相當(dāng)于數(shù)據(jù)量較大的廣告賬戶完全堵塞了隊列,影響后續(xù)數(shù)據(jù)量較小的廣告賬戶的驗證。本發(fā)明實施例可以使各個廣告賬戶的廣告物料數(shù)據(jù)的網(wǎng)址可以有部分的快速驗證,從而可以有部分的快速上線,使各個廣告賬戶等待上線的時間縮短,并且對于廣告驗證是數(shù)量縮小。對于各個廣告賬戶而言,其可以及時看到上線的廣告物料數(shù)據(jù)。特別是對于廣告物料數(shù)據(jù)的數(shù)據(jù)量交小的廣告賬戶,較少輪次的循環(huán)即可將其廣告物料數(shù)據(jù)的網(wǎng)址全部驗證完畢,對于各個廣告賬戶來說,從整體上來說,降低了廣告賬戶等待驗證的時間,使驗證時間分散到了各個廣告賬戶中,從而提高了廣告物料數(shù)據(jù)的上線速度。本發(fā)明實施例可以提高廣告平臺的公平性和友好性,提高了廣告平臺的用戶體驗。并且,本發(fā)明實施例可以通過對具備同一主域名的網(wǎng)址,針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類,然后從各個聚類結(jié)果中抽樣N個網(wǎng)址,對各個網(wǎng)址進行驗證??梢源蟠鬁p少驗證的數(shù)據(jù)量,并且在某個網(wǎng)址驗證出現(xiàn)錯誤時,可以更精確的定位到相應(yīng)分類,可以對較小 數(shù)量該分類的網(wǎng)址再校驗,再校驗數(shù)據(jù)量小,效率高的有益效果。實施例三參照圖3,其示出了本發(fā)明實施例一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法的流程示意圖,具體可以包括:步驟312,獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;步驟314,針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;步驟316,對于各個第一分類,抽樣選擇N個網(wǎng)址;步驟318,根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組。對于步驟312-318,與實施例二相應(yīng)步驟原理類似,在此不再贅敘。步驟320,判斷是否存在還未驗證完畢的驗證分組;如果存在還未驗證完畢的驗證分組,則進入步驟322;,如果不存在還未驗證完畢的驗證分組,則,進入步驟336。步驟322,循環(huán)選擇下一個未驗證完畢的驗證分組;其中,最后一個驗證分組的下一個驗證分組為第一個驗證分組;步驟324,從所述驗證分組的未驗證的網(wǎng)址中,逐個選擇網(wǎng)址進行驗證;步驟326,針對每個廣告物料數(shù)據(jù)的網(wǎng)址,判斷所述網(wǎng)址的驗證是否通過;如果驗證未通過,則進入步驟328;如果驗證通過,則進入步驟332;步驟328,查找與所述網(wǎng)址對應(yīng)的主域名的驗證結(jié)果,并判斷所述驗證結(jié)果是否表示驗證通過;如果所述驗證結(jié)果表示驗證通過,則進入步驟330;如果所述驗證結(jié)果表示驗證未通過,則進入步驟332;步驟330,確認所述網(wǎng)址的驗證通過。步驟332,在每次選擇網(wǎng)址后,判斷當(dāng)前選擇的網(wǎng)址的個數(shù)是否達到指定個數(shù),以及是否存在未驗證的網(wǎng)址;如果選擇的網(wǎng)址達到指定個數(shù)并且還存在未驗證的網(wǎng)址,則進入步驟320;如果不存在未驗證的網(wǎng)址,則進入步驟334;如果未達到指定個數(shù),且存在未驗證網(wǎng)址,則步驟324繼續(xù)驗證。其中,在每次選擇網(wǎng)址后,還包括:子步驟3241,在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;即每個網(wǎng)址被驗證后,判斷其所在的第一分類的所抽樣的N個網(wǎng)址是否驗證完畢,如果驗證完畢,則計算驗證通過率,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值。子步驟3242,如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;子步驟3243,如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。比如,對于一個第一分類,抽樣了100個URL進行驗證。而預(yù)設(shè)的針對通過率的通過閾值為99%,即該100個URL中的要有99個通過。當(dāng)然該通過率閾值也可以設(shè)置其他值,比如100%。本發(fā)明實施例不對其加以限制。如果通過率達到該通過率閾值,則子步驟3242確定對相應(yīng)第一分類的各網(wǎng)址驗證通過,不再驗證該第一分類的URL。如果通過率達未到該通過率閾值,則子步驟3243重新對所述第一分類中的網(wǎng)址進行驗證。優(yōu)選地,所述重新對所述第一分類中的網(wǎng)址進行驗證包括:子步驟P31,對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;在本發(fā)明實施例中,如果第一次抽樣的N個URL的驗證未達到通過率閾值,則可重復(fù)進行多次驗證。即再抽樣M次進行M次驗證,每次還從該第一分類中抽樣N個URL。比如再抽樣10次,進行10次驗證。子步驟P32,根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;那么對于每次抽樣的N個URL的驗證,其對該N個驗證完畢之后會有一個驗證通過率。而M次驗證則有M個驗證通過率。那么以該M次驗證通過率為樣本,計算M次驗證的驗證通過率平均值,進一步的可計算M次驗證的方差。該方差越低表示波動越小,說明驗證越穩(wěn)定。那么本發(fā)明實施例可以針對驗證通過率平均值設(shè)置平均值閾值,針對方差設(shè)置方差閾值。子步驟P33,如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;子步驟P34,如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則說明對該第一分類的網(wǎng)址的驗證可信,確定所述第一分類的各網(wǎng)址驗證通過。如果所述驗證通過率平均未值達到閾值,或者方差低于方差閾值,或者驗證通過率平均未值達到閾值和方差高于方差閾值,則對該第一分類的驗證不通過,則需要對該第一分類的網(wǎng)址重新進行逐個驗證。在本發(fā)明實施例中,由于對于每個第一分類,需要根據(jù)其抽煙的所有網(wǎng)址的驗證結(jié)果,來判斷是否需要對該第一分類進行重新驗證,或者確定對所述第一分類不再驗證。那么對于每次循環(huán),在每個驗證分組中記錄驗證的URL是哪個第一分類的,當(dāng)某個第一分類的URL驗證完畢,則進入步驟261進行判斷。如果需要進行重新驗證,則將該驗證分組中該第一分類的網(wǎng)址刪除,而將該第一分類中新的網(wǎng)址加入該驗證分組,再繼續(xù)進行循環(huán)驗證。當(dāng)然,對于需要重新驗證的第一分類,可以將其獨立出來,單獨對該第一分類進行驗證,不再將其加入原來的驗證分組中。步驟334,將對應(yīng)的驗證分組退出循環(huán)過程,進入步驟320。步驟336,結(jié)束驗證。對于步驟320至步驟336的循環(huán)過程,下面以一個示例進行描述:比如步驟318得到驗證分組隊列:IP地址1、IP地址2、IP地址3。其中:IP地址1中按序有80個未驗證URL。IP地址2中按序有60個未驗證URL。IP地址3中按序有35個未驗證URL。指定個數(shù)為10。第一輪循環(huán):初始情況下,步驟320判斷存在未驗證完畢的驗證分組IP地址1、IP地址2、IP地址3。則步驟322按序選擇第一個驗證分組:IP地址1。步驟324中,逐個從IP地址1中提取1-10的URL進行驗證。其中,對每個URL驗證時,當(dāng)該URL驗證通過則進入步驟332;當(dāng)該URL驗證不通過,則進入步驟328。步驟328查找與所述網(wǎng)址對應(yīng)的主域名的驗證結(jié)果,并判斷所述驗證結(jié)果是否表示驗證通過;如果所述主域名的驗證結(jié)果表示驗證通過,則進入步驟330,確認所述網(wǎng)址的驗證通過進入步驟332。如果所述主域名的驗證結(jié)果表示未通過,則直接進入步驟332。在步驟332中,當(dāng)提取到第10個時,發(fā)現(xiàn)第10個不是最后一個網(wǎng)址,則轉(zhuǎn)入步驟320。步驟320繼續(xù)判斷存在未驗證完畢的驗證分組:IP地址1、IP地址2、IP地址3。則步驟322選擇下一個驗證分組:IP地址2。步驟324中,逐個從IP地址2中提取1-10的網(wǎng)址進行驗證。然后經(jīng)過步驟326-328的步驟。進入步驟332之后,當(dāng)提取到第10個時,發(fā)現(xiàn)第10個不是最后一個網(wǎng)址,則轉(zhuǎn)入步驟320。步驟320繼續(xù)判斷存在未驗證完畢的驗證分組:IP地址1、IP地址2、IP地址3。則步驟322選擇下一個驗證分組:IP地址3。步驟324中,逐個從IP地址3中提取1-10的網(wǎng)址進行驗證,然后經(jīng)過步驟326-328的步驟。進入步驟332之后,當(dāng)提取到第10個時,發(fā)現(xiàn)第10個不是最后一個網(wǎng)址,則轉(zhuǎn)入步驟320。此時IP地址3是驗證分組隊列的最后一個,則其下一個驗證分組則為IP地址1。進入第二輪循環(huán)。按上述原理類推,進入到第四輪循環(huán)后,循環(huán)到IP地址3,在步驟332中,當(dāng)提取到第35個時,發(fā)現(xiàn)第35個是最后一個網(wǎng)址,則進入步驟334將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入步驟320。步驟320判斷存在未驗證完 畢的驗證分組:IP地址1、IP地址2。進入第五輪循環(huán)。進入第六輪循環(huán)后,循環(huán)到IP地址2,在步驟332中,當(dāng)提取到第60個時,發(fā)現(xiàn)第60個是最后一個網(wǎng)址,則將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入步驟320。步驟320判斷存在未驗證完畢的驗證分組:IP地址1。進入第七輪循環(huán)。然后就一直對該IP地址1進行驗證,直到循環(huán)完畢,進入步驟336。本發(fā)明實施例與實施例一、二類似的步驟原理類似,在此不再贅敘。本發(fā)明實施例可以使各個廣告賬戶的廣告物料數(shù)據(jù)的網(wǎng)址可以有部分的快速驗證,從而可以有部分的快速上線,使各個廣告賬戶等待上線的時間縮短,并且對于廣告驗證是數(shù)量縮小。對于各個廣告賬戶而言,其可以及時看到上線的廣告物料數(shù)據(jù)。特別是對于廣告物料數(shù)據(jù)的數(shù)據(jù)量交小的廣告賬戶,較少輪次的循環(huán)即可將其廣告物料數(shù)據(jù)的網(wǎng)址全部驗證完畢,對于各個廣告賬戶來說,從整體上來說,降低了廣告賬戶等待驗證的時間,使驗證時間分散到了各個廣告賬戶中,從而提高了廣告物料數(shù)據(jù)的上線速度。本發(fā)明實施例可以提高廣告平臺的公平性和友好性,提高了廣告平臺的用戶體驗。并且,本發(fā)明實施例可以通過對具備同一主域名的網(wǎng)址,針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類,然后從各個聚類結(jié)果中抽樣N個網(wǎng)址,對各個網(wǎng)址進行驗證。可以大大減少驗證的數(shù)據(jù)量,并且在某個網(wǎng)址驗證出現(xiàn)錯誤時,可以更精確的定位到相應(yīng)分類,可以對較小數(shù)量該分類的網(wǎng)址再校驗,再校驗數(shù)據(jù)量小,效率高的有益效果。實施例四參照圖4,其示出了本發(fā)明實施例一種廣告物料數(shù)據(jù)網(wǎng)址驗證裝置的結(jié)構(gòu)示意圖,具體可以包括:獲取模塊410,適于獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;分類模塊420,適于針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚 類,獲得各第一分類;抽樣驗證模塊430,適于對于各個第一分類,抽樣選擇N個網(wǎng)址進行驗證。優(yōu)選地,所述分類模塊包括:第一分類模塊,適于對于只有路徑信息的網(wǎng)址,將路徑信息中虛擬目錄信息相同的網(wǎng)址,聚為一個第一分類;第二分類模塊,適于對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類。優(yōu)選地,所述第三分類模塊包括:頻率統(tǒng)計模塊,適于針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率;頻率分類模塊,適于對于第一頻率大于頻率閾值的路徑信息和參數(shù)名的組合,則將所述路徑信息和參數(shù)名所在的網(wǎng)址聚為一個第一分類。優(yōu)選地,所述頻率統(tǒng)計模塊包括:歸一化模塊,適于對于具備相同路徑信息的各個網(wǎng)址,針對路徑信息和參數(shù)信息進行歸一化,并統(tǒng)計每個路徑信息出現(xiàn)的第一個數(shù);參數(shù)合并模塊,適于對于歸一化后的網(wǎng)址,統(tǒng)計各個參數(shù)名出現(xiàn)的第二個數(shù);支持度判斷模塊,適于判斷所述第一個數(shù)是否大于第一支持度,以及所述第二個數(shù)是否大于第二支持度;第一頻率統(tǒng)計模塊,適于如果所述第一個數(shù)大于第一支持度,以及所述第二個數(shù)大于第二支持度,則結(jié)合頻繁模式增長算法,計算各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率。優(yōu)選地,所述參數(shù)信息包括網(wǎng)址中的“?”字符之后的字符串,所述參數(shù)名包括“?”字符和“?”字符之后第一個“=”字符之間的字符串,或者“&”字符和“&”字符之后第一個“=”之間的字符串;所述路徑信息包括網(wǎng)址中的主域名之后第一個“/”字符和“?”字符之 間的字符串。優(yōu)選地,所述抽樣驗證模塊包括:抽樣模塊,適于從各個第一分類中,抽樣選擇N個網(wǎng)址;分組模塊,適于根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組;循環(huán)驗證模塊,適于對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證;其中,對每個驗證分組進行驗證時包括:從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證。優(yōu)選地,所述循環(huán)驗證模塊包括:循環(huán)判斷模塊,適于判斷是否存在還未驗證完畢的驗證分組;循環(huán)選擇模塊,適于如果存在還未驗證完畢的驗證分組,則循環(huán)選擇下一個未驗證完畢的驗證分組以進行驗證;其中,最后一個驗證分組的下一個驗證分組為第一個驗證分組;結(jié)束模塊,適于如果不存在還未驗證完畢的驗證分組,則驗證結(jié)束。優(yōu)選地,所述循環(huán)驗證模塊包括:逐個提取模塊,適于從未驗證的網(wǎng)址中,逐個選擇網(wǎng)址進行驗證;第一轉(zhuǎn)入判斷模塊,適于在每次選擇網(wǎng)址后,如果選擇的網(wǎng)址達到指定個數(shù)并且還存在未驗證的網(wǎng)址,則轉(zhuǎn)入對下一個驗證分組的驗證過程;第二轉(zhuǎn)入判斷模塊,適于如果不存在未驗證的網(wǎng)址,則將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入對下一個驗證分組的驗證過程。優(yōu)選地,所述抽樣驗證模塊包括:分類驗證判斷模塊,適于在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;第一通過確認模塊,適于如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;第一重新驗證模塊,適于如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。優(yōu)選地,所述第一重新驗證模塊包括:再次抽樣模塊,適于對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;通過計算模塊,適于根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;第二通過確認模塊,適于如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;第二重新驗證模塊,適于如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。實施例五參照圖5,其示出了本發(fā)明實施例一種廣告物料數(shù)據(jù)網(wǎng)址驗證裝置的結(jié)構(gòu)示意圖,具體可以包括:獲取模塊510,適于獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;分類模塊520,適于針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;抽樣驗證模塊530,具體包括:抽樣模塊531,適于對于各個第一分類,抽樣選擇N個網(wǎng)址;IP分組模塊532,適于根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組;循環(huán)驗證模塊533,適于對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證;其中,對每個驗證分組進行驗證時包括:從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證。優(yōu)選地,所述循環(huán)驗證模塊包括:驗證分組判斷模塊,適于判斷是否存在還未驗證完畢的驗證分組;循環(huán)選擇模塊,適于如果存在還未驗證完畢的驗證分組,則循環(huán)選擇下一個未驗證完畢的驗證分組以進行驗證;其中,最后一個驗證分組的下一個 驗證分組為第一個驗證分組;結(jié)束模塊,適于如果不存在還未驗證完畢的驗證分組,則驗證結(jié)束。優(yōu)選地,所述循環(huán)驗證模塊包括:逐個驗證模塊,適于從未驗證的廣告物料數(shù)據(jù)中,逐個選擇廣告物料數(shù)據(jù)進行驗證;轉(zhuǎn)入判斷模塊,適于在每次選擇廣告物料數(shù)據(jù)之后,如果選擇的廣告物料數(shù)據(jù)達到指定個數(shù)并且還存在未驗證的廣告物料數(shù)據(jù),則轉(zhuǎn)入對下一個驗證分組的驗證過程;退出模塊,適于如果不存在未驗證的廣告物料數(shù)據(jù),則將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入對下一個驗證分組的驗證過程。優(yōu)選地,所述IP分組模塊包括:IP地址獲取模塊,適于根據(jù)各個廣告物料數(shù)據(jù)的網(wǎng)址,獲取所述網(wǎng)址對應(yīng)的IP地址;第一IP分組模塊,適于將對應(yīng)同一個IP地址的網(wǎng)址分為一個驗證分組。優(yōu)選地,所述IP分組模塊包括:主域名分組模塊,適于根據(jù)各個的網(wǎng)址中的主域名,將同一主域名的網(wǎng)址分為一個第一分組;主域名IP獲取模塊,適于根據(jù)每個主域名,獲取對應(yīng)所述主域名的IP地址;第二IP分組模塊,適于將對應(yīng)同一個IP地址的各個第一分組合為一個驗證分組。優(yōu)選地,所述抽樣驗證模塊包括:分類驗證判斷模塊,適于在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;第一通過確認模塊,適于如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;第一重新驗證模塊,適于如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。優(yōu)選地,所述第一重新驗證模塊包括:再次抽樣模塊,適于對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;通過計算模塊,適于根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;第二通過確認模塊,適于如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;第二重新驗證模塊,適于如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。實施例六參照圖6,其示出了本發(fā)明實施例一種廣告物料數(shù)據(jù)網(wǎng)址驗證裝置的結(jié)構(gòu)示意圖,具體可以包括:獲取模塊610,適于獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;分類模塊620,適于針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;抽樣驗證模塊630,具體包括:抽樣模塊631,適于對于各個第一分類,抽樣選擇N個網(wǎng)址;IP分組模塊632,適于根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組;循環(huán)驗證模塊633,具體包括:驗證分組判斷模塊6331,適于判斷是否存在還未驗證完畢的驗證分組;如果存在還未驗證完畢的驗證分組,則進入循環(huán)選擇模塊6332;如果不存在還未驗證完畢的驗證分組,則進入結(jié)束模塊6339。循環(huán)選擇模塊6332,適于如果存在還未驗證完畢的驗證分組,則循環(huán)選擇下一個未驗證完畢的驗證分組以進行驗證;其中,最后一個驗證分 組的下一個驗證分組為第一個驗證分組;如果不存在未驗證的廣告物料數(shù)據(jù),則進入退出模塊6338。逐個驗證模塊6333,適于從未驗證的廣告物料數(shù)據(jù)中,逐個選擇網(wǎng)址進行驗證;驗證判斷模塊6334,適于針對每個廣告物料數(shù)據(jù)的網(wǎng)址,判斷所述網(wǎng)址的驗證是否通過;如果驗證未通過,則進入結(jié)果校驗?zāi)K6335;如果驗證通過,則進入轉(zhuǎn)入判斷模塊6337;結(jié)果校驗?zāi)K6335,適于查找與所述網(wǎng)址對應(yīng)的主域名的驗證結(jié)果,判斷所述驗證結(jié)果是否表示驗證通過;如果所述驗證結(jié)果表示驗證通過,則進入通過確認模塊6336;如果所述驗證結(jié)果表示驗證未通過,則進入轉(zhuǎn)入判斷模塊6337;通過確認模塊6336,確認所述網(wǎng)址的驗證通過。轉(zhuǎn)入判斷模塊6337,適于在每次選擇網(wǎng)址后,判斷當(dāng)前選擇的網(wǎng)址的個數(shù)是否達到指定個數(shù),以及是否存在未驗證的網(wǎng)址;如果選擇的廣告物料數(shù)據(jù)達到指定個數(shù)并且還存在未驗證的廣告物料數(shù)據(jù),則進入驗證分組判斷模塊6331;退出模塊6338,適于將對應(yīng)的驗證分組退出循環(huán)過程,進入驗證分組判斷模塊6331。結(jié)束模塊6339,適于如果不存在還未驗證完畢的驗證分組,則驗證結(jié)束。優(yōu)選地,所述抽樣驗證模塊包括:分類驗證判斷模塊,適于在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;第一通過確認模塊,適于如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;第一重新驗證模塊,適于如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。優(yōu)選地,所述第一重新驗證模塊包括:再次抽樣模塊,適于對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;通過計算模塊,適于根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;第二通過確認模塊,適于如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;第二重新驗證模塊,適于如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可 以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的廣告物料數(shù)據(jù)網(wǎng)址驗證設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。 可將這些單詞解釋為名稱。本發(fā)明公開了A1、一種廣告物料數(shù)據(jù)網(wǎng)址驗證方法,包括:獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;對于各個第一分類,抽樣選擇N個網(wǎng)址進行驗證。A2、根據(jù)A1所述的方法,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類,包括:對于只有路徑信息的網(wǎng)址,將路徑信息中虛擬目錄信息相同的網(wǎng)址,聚為一個第一分類;對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類。A3、根據(jù)A2所述的方法,所述對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類,包括:針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率;對于第一頻率大于頻率閾值的路徑信息和參數(shù)名的組合,則將所述路徑信息和參數(shù)名所在的網(wǎng)址聚為一個第一分類。A4、根據(jù)A3所述的方法,所述針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率,包括:對于具備相同路徑信息的各個網(wǎng)址,針對路徑信息和參數(shù)信息進行歸一化,并統(tǒng)計每個路徑信息出現(xiàn)的第一個數(shù);對于歸一化后的網(wǎng)址,統(tǒng)計各個參數(shù)名出現(xiàn)的第二個數(shù);判斷所述第一個數(shù)是否大于第一支持度,以及所述第二個數(shù)是否大于第二支持度;如果所述第一個數(shù)大于第一支持度,以及所述第二個數(shù)大于第二支持度,則結(jié)合頻繁模式增長算法,計算各路徑信息和各參數(shù)名的組合,同時在 所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率。A5、根據(jù)A2所述的方法,所述參數(shù)信息包括網(wǎng)址中的“?”字符之后的字符串,所述參數(shù)名包括“?”字符和“?”字符之后第一個“=”字符之間的字符串,或者“&”字符和“&”字符之后第一個“=”之間的字符串;所述路徑信息包括網(wǎng)址中的主域名之后第一個“/”字符和“?”字符之間的字符串。A6、根據(jù)A1所述的方法,所述對于各個第一分類,抽樣選擇N個網(wǎng)址進行驗證,包括:從各個第一分類中,抽樣選擇N個網(wǎng)址;根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組;對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證;其中,對每個驗證分組進行驗證時包括:從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證。A7、根據(jù)A6所述的方法,所述對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證包括:判斷是否存在還未驗證完畢的驗證分組;如果存在還未驗證完畢的驗證分組,則循環(huán)選擇下一個未驗證完畢的驗證分組以進行驗證;其中,最后一個驗證分組的下一個驗證分組為第一個驗證分組;如果不存在還未驗證完畢的驗證分組,則驗證結(jié)束。A8、根據(jù)A6或A7所述的方法,所述從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證包括:從未驗證的網(wǎng)址中,逐個選擇網(wǎng)址進行驗證;在每次選擇網(wǎng)址后,如果選擇的網(wǎng)址達到指定個數(shù)并且還存在未驗證的網(wǎng)址,則轉(zhuǎn)入對下一個驗證分組的驗證過程;如果不存在未驗證的網(wǎng)址,則將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入對下一個驗證分組的驗證過程。A9、根據(jù)A1所述的方法,所述將各個網(wǎng)址進行驗證,包括:在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。A10、根據(jù)A9所述的方法,所述重新對所述第一分類中的網(wǎng)址進行驗證包括:對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。本發(fā)明公開了B11、一種廣告物料數(shù)據(jù)網(wǎng)址驗證裝置,包括:獲取模塊,適于獲取各個未驗證的廣告物料數(shù)據(jù)的網(wǎng)址;分類模塊,適于針對具備同一主域名的網(wǎng)址,通過由網(wǎng)址構(gòu)建規(guī)則從各網(wǎng)址的主域名之后提取的路徑信息和/或參數(shù)信息,對各個網(wǎng)址進行聚類,獲得各第一分類;抽樣驗證模塊,適于對于各個第一分類驗證模塊,適于將各個網(wǎng)址進行驗證。B12、根據(jù)B11所述的裝置,所述分類模塊包括:第一分類模塊,適于對于只有路徑信息的網(wǎng)址,將路徑信息中虛擬目錄信息相同的網(wǎng)址,聚為一個第一分類;第二分類模塊,適于對于包括路徑信息和參數(shù)信息的網(wǎng)址,將路徑信息相同和參數(shù)信息中參數(shù)名相同的網(wǎng)址,聚為一個第一分類。B13、根據(jù)B12所述的裝置,所述第三分類模塊包括:頻率統(tǒng)計模塊,適于針對各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率;頻率分類模塊,適于對于第一頻率大于頻率閾值的路徑信息和參數(shù)名的組合,則將所述路徑信息和參數(shù)名所在的網(wǎng)址聚為一個第一分類。B14、根據(jù)B12所述的裝置,所述頻率統(tǒng)計模塊包括:歸一化模塊,適于對于具備相同路徑信息的各個網(wǎng)址,針對路徑信息和參數(shù)信息進行歸一化,并統(tǒng)計每個路徑信息出現(xiàn)的第一個數(shù);參數(shù)合并模塊,適于對于歸一化后的網(wǎng)址,統(tǒng)計各個參數(shù)名出現(xiàn)的第二個數(shù);支持度判斷模塊,適于判斷所述第一個數(shù)是否大于第一支持度,以及所述第二個數(shù)是否大于第二支持度;第一頻率統(tǒng)計模塊,適于如果所述第一個數(shù)大于第一支持度,以及所述第二個數(shù)大于第二支持度,則結(jié)合頻繁模式增長算法,計算各路徑信息和各參數(shù)名的組合,同時在所述主域名的各網(wǎng)址中出現(xiàn)的第一頻率。B15、根據(jù)B12所述的裝置,所述參數(shù)信息包括網(wǎng)址中的“?”字符之后的字符串,所述參數(shù)名包括“?”字符和“?”字符之后第一個“=”字符之間的字符串,或者“&”字符和“&”字符之后第一個“=”之間的字符串;所述路徑信息包括網(wǎng)址中的主域名之后第一個“/”字符和“?”字符之間的字符串。B16、根據(jù)B11所述的裝置,所述抽樣驗證模塊包括:抽樣模塊,適于從各個第一分類中,抽樣選擇N個網(wǎng)址;分組模塊,適于根據(jù)各個網(wǎng)址所對應(yīng)的IP地址,將同一IP地址的網(wǎng)址分為一個驗證分組;循環(huán)驗證模塊,適于對獲得的各驗證分組,循環(huán)對各個驗證分組進行驗證;其中,對每個驗證分組進行驗證時包括:從所述驗證分組中未驗證的網(wǎng)址中,選擇指定個數(shù)的網(wǎng)址據(jù)進行驗證。B17、根據(jù)B16所述的裝置,所述循環(huán)驗證模塊包括:循環(huán)判斷模塊,適于判斷是否存在還未驗證完畢的驗證分組;循環(huán)選擇模塊,適于如果存在還未驗證完畢的驗證分組,則循環(huán)選擇下一個未驗證完畢的驗證分組以進行驗證;其中,最后一個驗證分組的下一個驗證分組為第一個驗證分組;結(jié)束模塊,適于如果不存在還未驗證完畢的驗證分組,則驗證結(jié)束。B18、根據(jù)B16或B17所述的裝置,所述循環(huán)驗證模塊包括:逐個提取模塊,適于從未驗證的網(wǎng)址中,逐個選擇網(wǎng)址進行驗證;第一轉(zhuǎn)入判斷模塊,適于在每次選擇網(wǎng)址后,如果選擇的網(wǎng)址達到指定個數(shù)并且還存在未驗證的網(wǎng)址,則轉(zhuǎn)入對下一個驗證分組的驗證過程;第二轉(zhuǎn)入判斷模塊,適于如果不存在未驗證的網(wǎng)址,則將對應(yīng)的驗證分組退出循環(huán)過程,轉(zhuǎn)入對下一個驗證分組的驗證過程。B19、根據(jù)B11所述的裝置,所述抽樣驗證模塊包括:分類驗證判斷模塊,適于在每個第一分類抽樣的N個網(wǎng)址驗證時,判斷對所述N個網(wǎng)址的驗證通過率是否達到預(yù)設(shè)的通過閾值;第一通過確認模塊,適于如果對所述N個網(wǎng)址的驗證通過率達到預(yù)設(shè)的通過閾值,則確定對相應(yīng)第一分類的各網(wǎng)址驗證通過;第一重新驗證模塊,適于如果對所述N個網(wǎng)址的驗證通過率達未到預(yù)設(shè)的通過閾值,則重新對所述第一分類中的網(wǎng)址進行驗證。B20、根據(jù)B21所述的裝置,所述第一重新驗證模塊包括:再次抽樣模塊,適于對第一分類中再抽樣M次進行驗證,每次抽樣N個網(wǎng)址;通過計算模塊,適于根據(jù)每次對N個網(wǎng)址的驗證通過率,計算M次的驗證通過率平均值和方差;第二通過確認模塊,適于如果所述驗證通過率平均值達到平均閾值,且方差低于方差閾值,則確定所述第一分類的各網(wǎng)址驗證通過;第二重新驗證模塊,適于如果所述驗證通過率平均未值達到閾值,和/或方差高于方差閾值,則對于所述第一分類的各個網(wǎng)址,重新進行逐個驗證。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1