所述多個無效鏈接中的每個無效鏈接對應(yīng)的URL包括目錄、文件名和擴(kuò)展名,所述多個無效鏈接對應(yīng)的URL包括的目錄、文件名和擴(kuò)展名,與所述第一目錄、第一文件名和第一擴(kuò)展名中的至少一個不同; 獲取所述多個無效鏈接對應(yīng)的響應(yīng)頁面和所述待識別鏈接對應(yīng)的響應(yīng)頁面; 確定所述待識別鏈接對應(yīng)的響應(yīng)頁面和所述多個無效鏈接對應(yīng)的響應(yīng)頁面的相似度; 若所述待識別鏈接對應(yīng)的響應(yīng)頁面和所述多個無效鏈接中的任意一個無效鏈接對應(yīng)的響應(yīng)頁面的相似度大于設(shè)定的相似度閾值,則確定所述待識別鏈接為無效鏈接。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述待識別鏈接對應(yīng)的響應(yīng)頁面和所述多個無效鏈接對應(yīng)的響應(yīng)頁面的相似度,包括: 對所述多個無效鏈接對應(yīng)的響應(yīng)頁面分別進(jìn)行去噪處理; 對所述多個無效鏈接中的每個無效鏈接對應(yīng)的響應(yīng)頁面進(jìn)行聚類運算,得到所述每個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別; 對所述多個無效鏈接對應(yīng)的響應(yīng)頁面的類別進(jìn)行聚類運算,得到所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別; 對所述待識別鏈接對應(yīng)的響應(yīng)頁面進(jìn)行聚類運算,得到所述待識別鏈接對應(yīng)的響應(yīng)頁面聚合后的類別; 確定所述待識別鏈接對應(yīng)的響應(yīng)頁面聚合后的類別與所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別的相似度; 所述若所述待識別鏈接對應(yīng)的響應(yīng)頁面和所述多個無效鏈接中的任意一個無效鏈接對應(yīng)的響應(yīng)頁面的相似度大于設(shè)定的相似度閾值,則確定所述待識別鏈接為無效鏈接,包括: 若所述待識別鏈接對應(yīng)的響應(yīng)頁面聚合后的任意一個類別,與所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的任意一個類別的相似度大于所述相似度閾值,則確定所述待識別鏈接為無效鏈接。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述待識別鏈接對應(yīng)的URL構(gòu)造多個無效鏈接,包括: 獲取N個第二文件名,以及獲取M個第二擴(kuò)展名,將所述N個第二文件名和所述M個第二擴(kuò)展名進(jìn)行任意組合后,替換所述待識別鏈接對應(yīng)的URL中包括的所述第一文件名和所述第一擴(kuò)展名,得到N*M個無效鏈接,M和N均為大于或等于I的正整數(shù); 將所述第一文件名與所述M個第二擴(kuò)展名進(jìn)行任意組合后,替換所述待識別鏈接對應(yīng)的URL中包括的所述第一文件名和所述第一擴(kuò)展名,得到M個無效鏈接; 構(gòu)造I個第二目錄,用所述I個第二目錄替換所述待識別鏈接對應(yīng)的URL中包括的所述第一目錄,得到I個無效鏈接,I為大于或等于I的正整數(shù)。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述待識別鏈接對應(yīng)的URL構(gòu)造多個無效鏈接對應(yīng)的URL之前,所述方法還包括: 確定所述待識別鏈接是否已經(jīng)被識別過; 若所述待識別鏈接已經(jīng)被識別過,則從數(shù)據(jù)庫中查找所述待識別鏈接的信息,根據(jù)所述待識別鏈接的信息確定所述待識別鏈接為無效鏈接或有效鏈接; 若所述待識別鏈接沒有被識別過,則確定所述待識別鏈接對應(yīng)的頁面是否是重定向頁面; 若所述待識別對應(yīng)的頁面不是重定向頁面,則根據(jù)所述待識別鏈接對應(yīng)的URL構(gòu)造所述多個無效鏈接對應(yīng)的URL。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括: 若所述待識別鏈接對應(yīng)的頁面為重定向頁面,則獲取所述重定向頁面的響應(yīng)頁面; 若所述重定向頁面的響應(yīng)頁面中包括的狀態(tài)碼指示所述重定向頁面不存在,則確定所述重定向頁面對應(yīng)的鏈接為無效鏈接; 若所述重定向頁面的響應(yīng)頁面中包括的狀態(tài)碼指示所述重定向頁面存在,則確定所述重定向頁面對應(yīng)的鏈接是否被識別過; 若所述重定向頁面對應(yīng)的鏈接被識別過,則從所述數(shù)據(jù)庫中查找所述重定向頁面對應(yīng)的鏈接的信息,根據(jù)所述重定向頁面對應(yīng)的鏈接的信息確定所述重定向頁面對應(yīng)的鏈接為無效鏈接或有效鏈接; 若所述重定向頁面對應(yīng)的鏈接沒有被識別過,則根據(jù)所述重定向頁面對應(yīng)的鏈接構(gòu)造多個無效鏈接。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 若所述待識別鏈接對應(yīng)的響應(yīng)頁面和所述多個無效鏈接中的所有無效鏈接的響應(yīng)頁面的相似度均小于或等于所述相似度閾值,則確定所述待識別鏈接為有效鏈接。7.根據(jù)權(quán)利要求2所述的方法,其特征在于,在確定所述待識別鏈接為無效鏈接之后,所述方法還包括: 將所述待識別鏈接和所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別保存在數(shù)據(jù)庫信息中,并建立所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別與所述第一目錄的對應(yīng)關(guān)系O8.一種無效鏈接的識別裝置,其特征在于,包括: 第一獲取模塊,用于獲取待識別鏈接對應(yīng)的統(tǒng)一資源符URL,所述待識別鏈接對應(yīng)的URL包括第一目錄、第一文件名和第一擴(kuò)展名; 構(gòu)造模塊,用于根據(jù)所述待識別鏈接對應(yīng)的URL構(gòu)造多個無效鏈接,所述多個無效鏈接中的每個無效鏈接對應(yīng)的URL包括目錄、文件名和擴(kuò)展名,所述多個無效鏈接對應(yīng)的URL包括的目錄、文件名和擴(kuò)展名,與所述第一目錄、第一文件名和第一擴(kuò)展名中的至少一個不同; 第二獲取模塊,用于獲取所述多個無效鏈接對應(yīng)的響應(yīng)頁面和所述待識別鏈接對應(yīng)的響應(yīng)頁面; 確定模塊,用于確定所述待識別鏈接對應(yīng)的響應(yīng)頁面和所述多個無效鏈接對應(yīng)的響應(yīng)頁面的相似度; 識別模塊,用于若所述待識別鏈接對應(yīng)的響應(yīng)頁面和所述多個無效鏈接中的任意一個無效鏈接對應(yīng)的響應(yīng)頁面的相似度大于設(shè)定的相似度閾值,則確定所述待識別鏈接為無效鏈接。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述確定模塊包括: 去噪單元,用于對所述多個無效鏈接對應(yīng)的響應(yīng)頁面分別進(jìn)行去噪處理; 聚類單元,用于對所述多個無效鏈接中的每個無效鏈接對應(yīng)的響應(yīng)頁面進(jìn)行聚類運算,得到所述每個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別; 所述聚類單元,還用于對所述多個無效鏈接對應(yīng)的響應(yīng)頁面的類別進(jìn)行聚類運算,得到所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別; 所述聚類單元,還用于對所述待識別鏈接對應(yīng)的響應(yīng)頁面進(jìn)行聚類運算,得到所述待識別鏈接對應(yīng)的響應(yīng)頁面聚合后的類別; 確定單元,用于確定所述待識別鏈接對應(yīng)的響應(yīng)頁面聚合后的類別與所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別的相似度; 所述識別模塊具體用于:若所述待識別鏈接對應(yīng)的響應(yīng)頁面聚合后的任意一個類別,與所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的任意一個類別的相似度大于所述相似度閾值,則確定所述待識別鏈接為無效鏈接。10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述構(gòu)造模塊具體用于: 獲取N個第二文件名,以及獲取M個第二擴(kuò)展名,將所述N個第二文件名和所述M個第二擴(kuò)展名進(jìn)行任意組合后,替換所述待識別鏈接對應(yīng)的URL中包括的所述第一文件名和所述第一擴(kuò)展名,得到N*M個無效鏈接,M和N均為大于或等于I的正整數(shù); 將所述第一文件名與所述M個第二擴(kuò)展名進(jìn)行任意組合后,替換所述待識別鏈接對應(yīng)的URL中包括的所述第一文件名和所述第一擴(kuò)展名,得到M個無效鏈接; 構(gòu)造I個第二目錄,用所述I個第二目錄替換所述待識別鏈接對應(yīng)的URL中包括的所述第一目錄,得到I個無效鏈接,I為大于或等于I的正整數(shù)。11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括預(yù)處理模塊,所述預(yù)處理模塊用于: 確定所述待識別鏈接是否已經(jīng)被識別過; 若所述待識別鏈接已經(jīng)被識別過,則從數(shù)據(jù)庫中查找所述待識別鏈接的信息,根據(jù)所述待識別鏈接的信息確定所述待識別鏈接為無效鏈接或有效鏈接; 若所述待識別鏈接沒有被識別過,則確定所述待識別鏈接對應(yīng)的頁面是否是重定向頁面; 若所述待識別對應(yīng)的頁面不是重定向頁面,則指示所述構(gòu)造模塊根據(jù)所述待識別鏈接對應(yīng)的URL構(gòu)造所述多個無效鏈接。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述預(yù)處理模塊還用于: 若所述待識別鏈接對應(yīng)的頁面為重定向頁面,則獲取所述重定向頁面的響應(yīng)頁面;若所述重定向頁面的響應(yīng)頁面中包括的狀態(tài)碼指示所述重定向頁面不存在,則確定所述重定向頁面對應(yīng)的鏈接為無效鏈接; 若所述重定向頁面的響應(yīng)頁面中包括的狀態(tài)碼指示所述重定向頁面存在,則確定所述重定向頁面對應(yīng)的鏈接是否被識別過; 若所述重定向頁面對應(yīng)的鏈接被識別過,則從所述數(shù)據(jù)庫中查找所述重定向頁面對應(yīng)的鏈接的信息,根據(jù)所述重定向頁面對應(yīng)的鏈接的信息確定所述重定向頁面對應(yīng)的鏈接為無效鏈接或有效鏈接; 若所述重定向頁面對應(yīng)的鏈接沒有被識別過,則指示所述構(gòu)造模塊根據(jù)所述重定向頁面對應(yīng)的鏈接構(gòu)造多個無效鏈接。13.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述識別模塊還用于: 若所述待識別鏈接對應(yīng)的響應(yīng)頁面和所述多個無效鏈接中的所有無效鏈接的響應(yīng)頁面的相似度均小于或等于所述相似度閾值,則確定所述待識別鏈接為有效鏈接。14.根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括: 更新模塊,用于將所述待識別鏈接和所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別保存在數(shù)據(jù)庫信息中,并建立所述多個無效鏈接對應(yīng)的響應(yīng)頁面聚合后的類別與所述第一目錄的對應(yīng)關(guān)系。
【專利摘要】本發(fā)明提供一種無效鏈接的識別方法和裝置,通過獲取待識別鏈接對應(yīng)的URL,根據(jù)待識別鏈接對應(yīng)的URL構(gòu)造多個無效鏈接,進(jìn)而獲取多個無效鏈接對應(yīng)的響應(yīng)頁面和待識別鏈接對應(yīng)的響應(yīng)頁面,確定待識別鏈接對應(yīng)的響應(yīng)頁面和多個無效鏈接對應(yīng)的響應(yīng)頁面的相似度,若待識別鏈接對應(yīng)的響應(yīng)頁面和多個無效鏈接中的任意一個無效鏈接對應(yīng)的響應(yīng)頁面的相似度大于設(shè)定的相似度閾值,則確定待識別鏈接為無效鏈接。所述方法中,通過主動構(gòu)造無效鏈接的樣本,根據(jù)待識別鏈接和無效鏈接對應(yīng)的響應(yīng)頁面的相似度確定無效鏈接,提高了無效鏈接識別的準(zhǔn)確性。
【IPC分類】G06F17/30
【公開號】CN105022824
【申請?zhí)枴緾N201510430940
【發(fā)明人】李菲, 張龍, 毛沖
【申請人】北京神州綠盟信息安全科技股份有限公司, 北京神州綠盟科技有限公司
【公開日】2015年11月4日
【申請日】2015年7月21日