鏈接url的失效檢測方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種鏈接URL的失效檢測方法及裝置,所述失效檢測方法包括:步驟A、抓取顯示在所述顯示平臺(tái)上的符合特定要求的所有鏈接URL;步驟B、提取每個(gè)鏈接URL中的核心要素;步驟C、從所述預(yù)設(shè)表中查找與提取到的每個(gè)鏈接URL中的核心要素相對應(yīng)的實(shí)體;步驟D、根據(jù)所述預(yù)設(shè)表中記錄的與提取到的核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài)判斷提取的每個(gè)核心要素的當(dāng)前狀態(tài)是否異常,以檢測該核心要素對應(yīng)的鏈接URL是否失效。該失效檢測方法可以通過計(jì)算機(jī)自動(dòng)實(shí)現(xiàn),相較于現(xiàn)有技術(shù)中通過人工進(jìn)行檢測的方法,提高了檢測效率,同時(shí)也使檢測效果的誤差大大減小。
【專利說明】鏈接URL的失效檢測方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種鏈接URL的失效檢測方法和裝置。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)領(lǐng)域,信息的發(fā)布者通常通過鏈接的方式將信息發(fā)布給瀏覽者。例如,在 電子商務(wù)領(lǐng)域,商家通常通過向?yàn)g覽者發(fā)布帶有商品信息的鏈接來實(shí)現(xiàn)商品的展銷。
[0003] 所謂鏈接也稱超級鏈接,超級鏈接是指從一個(gè)網(wǎng)頁指向一個(gè)目標(biāo)的連接關(guān)系,而 在一個(gè)網(wǎng)頁中用來超鏈接的對象,可以是一段文本或者是一個(gè)圖片。當(dāng)瀏覽者單擊己經(jīng)鏈 接的文字或圖片后,鏈接目標(biāo)將顯示在瀏覽器上,并且根據(jù)目標(biāo)的類型來打開或運(yùn)行。
[0004] 然而,當(dāng)鏈接中包含的信息發(fā)生異常后如信息過期或信息刪除有可能導(dǎo)致瀏覽者 無法瀏覽該鏈接,從而使得鏈接失效,成為失效鏈接。
[0005] 目前,在發(fā)布的鏈接中,有相當(dāng)一部分鏈接尤其是人工維護(hù)的鏈接,其只通過人工 檢測鏈接的狀態(tài)。這種通過人工檢測鏈接狀態(tài)的方法,效率較低且檢測結(jié)果的誤差較大。
【發(fā)明內(nèi)容】
[0006] 有鑒于此,本發(fā)明提供了一種鏈接URL的失效檢測方法和裝置,以提高檢測的效 率并減少檢測誤差。
[0007] 為了解決上述技術(shù)問題,本發(fā)明采用了如下技術(shù)方案:
[0008] 一種鏈接URL的失效檢測方法,所述鏈接URL顯示在顯示平臺(tái)上,每個(gè)所述鏈接 URL至少包括一個(gè)核心要素,所述核心要素包括參數(shù)名及參數(shù)值;所述顯示平臺(tái)上設(shè)置有 預(yù)設(shè)表,所述預(yù)設(shè)表中記錄有與每個(gè)核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài),所述失效檢 測方法包括:
[0009] 步驟A、抓取顯示在所述顯示平臺(tái)上的符合特定要求的所有鏈接URL ;
[0010] 步驟B、提取每個(gè)鏈接URL中的核心要素;
[0011] 步驟C、從所述預(yù)設(shè)表中查找與提取到的每個(gè)鏈接URL中的核心要素相對應(yīng)的實(shí) 體;
[0012]步驟D、根據(jù)所述預(yù)設(shè)表中記錄的與提取到的核心要素相對應(yīng)的實(shí)體的生命周期 狀態(tài)判斷提取的每個(gè)核心要素的當(dāng)前狀態(tài)是否異常,以檢測該核心要素對應(yīng)的鏈接URL是 否失效。
[0013]可選地,所有各個(gè)所述鏈接URL具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)格式,所述預(yù)設(shè)表包括多個(gè) 第一表格,一個(gè)所述第一表格中記錄有一個(gè)類別的各個(gè)參數(shù)值對應(yīng)的實(shí)體的生命周期狀 態(tài);每個(gè)所述類別中的所有各個(gè)鏈接URL具有相同的參數(shù)名;
[0014] 所述步驟A之后,還包括:
[0015]步驟E、根據(jù)每個(gè)鏈接URL中的參數(shù)名對所有各個(gè)鏈接URL進(jìn)行分類,將所有各個(gè) 鏈接URL歸屬到相應(yīng)的類別;在每個(gè)類別中包含有各個(gè)核心要素的記錄;
[0016] 所述步驟B具體為:
[0017] 步驟B'、從每個(gè)所述類別中的每個(gè)記錄提取參數(shù)值;
[0018] 所述步驟C具體包括:
[0019] 步驟C1、從顯示平臺(tái)上查找與每個(gè)類別分別對應(yīng)的第一表格;
[0020] 步驟C2、從所述第一表格中查找與類別中的每個(gè)參數(shù)值相對應(yīng)的主鍵值,根據(jù)所 述主鍵值查找與所述主鍵值相對應(yīng)的實(shí)體;
[0021] 所述步驟D具體包括:
[0022] 步驟D'、根據(jù)類別對應(yīng)的異常判斷規(guī)則和所述第一表格中記錄的每個(gè)實(shí)體的生命 周期狀態(tài)判斷類別中的每個(gè)參數(shù)值對應(yīng)的每個(gè)記錄的當(dāng)前狀態(tài)是否異常,以檢測該記錄對 應(yīng)的鏈接URL是否失效。
[0023] 可選地,所述步驟E之后還包括:
[0024] 步驟F、當(dāng)歸屬于同一個(gè)類別中的鏈接URL中有N個(gè)具有相同的參數(shù)值時(shí),從該類 別中移除(N-1)個(gè)具有該相同參數(shù)值的記錄,使得在類別中只保留一個(gè)該相同參數(shù)值對應(yīng) 的記錄,其中,N彡2, N為整數(shù)。
[0025] 執(zhí)行所述步驟F的同時(shí)或之后還包括:
[0026] 步驟G、建立被移除的記錄與其包含的參數(shù)值的映射關(guān)系,以根據(jù)參數(shù)值能夠找到 包含該參數(shù)值的所有鏈接URL ;
[0027] 所述步驟D'之后,還包括:
[0028] H、當(dāng)提取的某一類別下的某一個(gè)參數(shù)值對應(yīng)的記錄的當(dāng)前狀態(tài)異常時(shí),根據(jù)所述 映射關(guān)系查找包含該參數(shù)值的所有被移除的鏈接URL。
[0029] 可選地,檢測完鏈接URL是否失效之后還包括:
[0030] 步驟I、當(dāng)提取到的某一參數(shù)名的某一個(gè)參數(shù)值的當(dāng)前狀態(tài)異常時(shí),對異常產(chǎn)生的 原因、失效鏈接所處的模塊位置以及提取時(shí)間進(jìn)行分析和整理,以得到異常分析結(jié)果;
[0031] 步驟J、顯示所述異常分析結(jié)果。
[0032] 可選地,所述步驟B'具體包括:
[0033] 確定鏈接URL的類別;
[0034] 檢驗(yàn)鏈接URL中是否存在與該類別相對應(yīng)的參數(shù)名:如果是,檢驗(yàn)所述參數(shù)名是 否位于所述鏈接URL的參數(shù)域,如果是,提取參數(shù)值,所述參數(shù)值以鏈接URL中的"="開始, 且之前為所述參數(shù)名;
[0035] 校驗(yàn)所述參數(shù)值是否滿足預(yù)設(shè)條件,如果是,記錄該提取的參數(shù)值。
[0036] 可選地,所述映射關(guān)系包括鏈接類別、參數(shù)名、參數(shù)值以及鏈接URL的對應(yīng)關(guān)系。
[0037] 可選地,當(dāng)一個(gè)鏈接URL中包括多個(gè)參數(shù)名時(shí),所述步驟E具體包括:
[0038] 根據(jù)該鏈接URL中的多個(gè)參數(shù)名將該鏈接URL分別歸屬到與其參數(shù)名相對應(yīng)的多 個(gè)類別中。
[0039] 一種鏈接URL的失效檢測裝置,所述鏈接URL顯示在顯示平臺(tái)上,每個(gè)所述鏈接 URL至少包括一個(gè)核心要素,所述核心要素包括參數(shù)名及參數(shù)值;所述顯示平臺(tái)上設(shè)置有 預(yù)設(shè)表,所述預(yù)設(shè)表中記錄有與每個(gè)核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài),所述失效檢 測裝置包括:
[0040] 抓取單元,用于抓取顯示在所述顯示平臺(tái)上的符合特定要求的所有鏈接URL ;
[0041] 提取單元,用于提取每個(gè)鏈接URL中的核心要素;
[0042]第一查找單元,用于從所述預(yù)設(shè)表中查找與提取到的每個(gè)鏈接URL中的核心要素 相對應(yīng)的實(shí)體; ^
[0043]判斷單元,用于根據(jù)所述預(yù)設(shè)表中記錄的與提取到的核心要素相對應(yīng)的實(shí)體的生 命周期狀態(tài)判斷提取的每個(gè)核心要素的當(dāng)前狀態(tài)是否異常,以檢測該核心要素對應(yīng)的鏈接 URL是否失效。
[0044]可選地,所有各個(gè)所述鏈接URL具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)格式,所述預(yù)設(shè)表包括多個(gè) 第一表格,一個(gè)所述第一表格中記錄有一個(gè)類別的各個(gè)參數(shù)值對應(yīng)的實(shí)體的生命周期狀 態(tài);每個(gè)所述類別中的所有各個(gè)鏈接URL具有相同的參數(shù)名;
[0045] 所述失效檢測裝置還包括:
[0046]分類單元,用于在接收到所述抓取單元抓取的鏈接URL后,根據(jù)每個(gè)鏈接URL中的 參數(shù)名對所有各個(gè)鏈接URL進(jìn)行分類,將所有各個(gè)鏈接URL歸屬到相應(yīng)的類別;在每個(gè)類別 中包含有各個(gè)核心要素的記錄;
[0047]所述提取單元包括從每個(gè)所述類別中的每個(gè)記錄中提取參數(shù)值的子單元;
[0048] 所述第一查找單元具體包括:
[0049] 第一查找子單元,用于從顯示平臺(tái)上查找與每個(gè)類別分別對應(yīng)的第一表格;
[0050]第二查找子單元,用于從所述第一表格中查找與類別中的每個(gè)參數(shù)值相對應(yīng)的主 鍵值,根據(jù)所述主鍵值查找與所述主鍵值相對應(yīng)的實(shí)體;
[0051] 所述判斷單元具體包括:
[0052]判斷子單元,所述判斷子單元用于根據(jù)類別對應(yīng)的異常判斷規(guī)則和所述第一表格 中記錄的每個(gè)實(shí)體的生命周期狀態(tài)判斷類別中的每個(gè)參數(shù)值對應(yīng)的每個(gè)記錄的當(dāng)前狀態(tài) 是否異常,以檢測該記錄對應(yīng)的鏈接URL是否失效。
[0053] 可選地,所述失效檢測裝置還包括:移除單元,用于當(dāng)歸屬于同一個(gè)類別中的鏈接 URL中有N個(gè)具有相同的參數(shù)值時(shí),從該類別中移除(N-1)個(gè)具有該相同參數(shù)值的記錄,使 得在類別中只保留一個(gè)該相同參數(shù)值對應(yīng)的記錄,其中,N彡2, N為整數(shù)。
[0054] 可選地,還包括:
[0055] 建立映射關(guān)系單元,用于在接收到所述移除單元移除記錄的信號(hào)的同時(shí)或之后, 建立被移除的記錄與其包含的參數(shù)值的映射關(guān)系,以根據(jù)參數(shù)值能夠找到包含該參數(shù)值的 所有鏈接URL ;
[0056] 第二查找單元,用于當(dāng)所述判斷子單元判斷的提取的某一類別下的某一個(gè)參數(shù)值 對應(yīng)的記錄的當(dāng)前狀態(tài)異常時(shí),根據(jù)所述映射關(guān)系查找包含該參數(shù)值的所有被移除的鏈接 URL。
[0057] 可選地,還包括:
[0058] 異常結(jié)果分析單元,用于當(dāng)提取到的某一參數(shù)名的某一個(gè)參數(shù)值對應(yīng)的記錄的當(dāng) 前狀態(tài)異常時(shí),對導(dǎo)致異常產(chǎn)生的原因、失效鏈接所處的模塊位置以及提取時(shí)間進(jìn)行分析 和整理,以得到異常分析結(jié)果。
[0059] 可選地,還包括:
[0060] 顯示單元,用于顯示所述異常分析結(jié)果。
[0061] 相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
[0062] 本發(fā)明提供的鏈接URL的失效檢測方法,通過根據(jù)預(yù)設(shè)表中記錄的與提取到的核 心要素相對應(yīng)的實(shí)體的生命周期狀態(tài)判斷提取的每個(gè)核心要素的當(dāng)前狀態(tài)是否異常,來判 斷鏈接URL是否失效。這是因?yàn)橐粋€(gè)鏈接URL是否失效與其包含的核心要素的生命周期狀 態(tài)是否異常相對應(yīng)。當(dāng)核心要素的生命周期狀態(tài)正常時(shí),鏈接URL有效,當(dāng)生命周期狀態(tài)異 常時(shí),鏈接URL失效。
[0063] 該失效檢測方法可以通過計(jì)算機(jī)自動(dòng)實(shí)現(xiàn),相較于現(xiàn)有技術(shù)中通過人工進(jìn)行檢測 的方法,提高了檢測效率,同時(shí)也使檢測效果的誤差大大減小。
【專利附圖】
【附圖說明】
[0064] 為了清楚地理解本發(fā)明的技術(shù)方案,下面將在描述本發(fā)明的【具體實(shí)施方式】時(shí)用到 的附圖作一簡要說明。顯而易見地,這些附圖僅是本發(fā)明實(shí)施例的部分附圖,本領(lǐng)域技術(shù)人 員在不付出創(chuàng)造性勞動(dòng)的前提下還可以獲得其它的附圖。
[0065] 圖1是本發(fā)明實(shí)施例一提供的鏈接URL的失效檢測方法流程示意圖;
[0066] 圖2是本發(fā)明實(shí)施例二提供的鏈接URL的失效檢測方法流程示意圖;
[0067] 圖3是本發(fā)明實(shí)施例提供的每個(gè)類別下的每個(gè)鏈接的參數(shù)值的提取方法流程示 意圖;
[0068] 圖4是本發(fā)明實(shí)施例三提供的鏈接URL的失效檢測方法流程示意圖;
[0069] 圖5是本發(fā)明實(shí)施例四提供的鏈接URL的失效檢測方法流程示意圖;
[0070] 圖6是本發(fā)明實(shí)施例五提供的鏈接URL的失效檢測裝置的結(jié)構(gòu)示意圖;
[0071] 圖7是本發(fā)明實(shí)施例六提供的鏈接URL的失效檢測裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0072] 為使本發(fā)明的技術(shù)方案更加清楚、完整,效果更加突出,下面結(jié)合附圖對本發(fā)明的
【具體實(shí)施方式】進(jìn)行詳細(xì)描述。
[0073] 正如【背景技術(shù)】部分所述,在顯示平臺(tái)上有一部分鏈接只能通過人工來檢測其狀 態(tài)。這種通過人工來檢測鏈接狀態(tài)的方法對于電商運(yùn)營信息的發(fā)布平臺(tái)來說更為普遍。這 是因?yàn)椋?br>
[0074] 1、電商平臺(tái)商品種類的多樣性,營銷手段的復(fù)雜性和時(shí)效性,導(dǎo)致展示給用戶的 鏈接中蘊(yùn)含的信息(即核心要素)具有復(fù)雜的生命周期。而相當(dāng)一部分鏈接,尤其是人工 維護(hù)的營銷和廣告鏈接,不由程序或應(yīng)用服務(wù)器控制,無法形成有效的通信機(jī)制。因此并不 能即時(shí)感應(yīng)其核心要素生命周期的變化,從而導(dǎo)致鏈接失效。
[0075] 例如一個(gè)鏈接中可能包含一個(gè)核心要素商品id,該商品id唯一標(biāo)示一個(gè)商品。該 商品在某時(shí)刻可能過期,或者在某時(shí)刻被修改甚至下架,而包含該信息的鏈接,除非是運(yùn)營 人員主動(dòng)測試,可能無法自動(dòng)感應(yīng)到包含的商品信息生命周期的變化,從而導(dǎo)致該鏈接失 效了仍能被用戶看到。
[0076] 2、電子商務(wù)獨(dú)特的交易模式導(dǎo)致了鏈接的發(fā)布者和鏈接所蘊(yùn)含核心要素的發(fā)布 者不一定來自同一機(jī)構(gòu)和人員。當(dāng)鏈接中蘊(yùn)含的信息出現(xiàn)異常時(shí),發(fā)布鏈接的一方往往不 能夠及時(shí)收到反饋信息。
[0077] 3、無論是手工鏈接,還是自動(dòng)生成的鏈接,當(dāng)電商平臺(tái)信息達(dá)到一定數(shù)量級時(shí),通 過人工來逐一檢測失效鏈接效率極低且不精確。
[0078] 基于上述原因,在電商營銷信息的發(fā)布平臺(tái)中,當(dāng)發(fā)布的鏈接中蘊(yùn)含的核心要素 (如商品id、咨詢id或者公告id等)出現(xiàn)異常而導(dǎo)致鏈接失效時(shí),一般無法及時(shí)地檢測 至IJ,因此,就會(huì)出現(xiàn)一些失效鏈接會(huì)顯示在電商平臺(tái)中,而當(dāng)用戶試圖打開該鏈接時(shí)卻不能 打開。
[0079] 基于此,有必要提供一種方法來自動(dòng)檢測顯示在顯示平臺(tái)上的鏈接URL是否能夠 正常顯示。
[0080] 有鑒于此,本發(fā)明提供了一種鏈接URL的失效檢測方法。需要說明的是,該失效檢 測方法不僅適用于電商平臺(tái),還適用于其它顯示平臺(tái)。
[0081] 本發(fā)明提供的鏈接URL的失效檢測方法的具體實(shí)現(xiàn)方式請參見以下實(shí)施例。
[0082] 實(shí)施例一
[0083] 需要說明的是,在本發(fā)明實(shí)施例中,用于顯示鏈接URL的顯示平臺(tái)上設(shè)置有一個(gè) 預(yù)設(shè)表,所述預(yù)設(shè)表中記錄有與每個(gè)核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài)。所述實(shí)體是 數(shù)據(jù)庫中對現(xiàn)實(shí)世界中的對象或概念的描述。
[0084] 每個(gè)鏈接URL至少包括一個(gè)核心要素,所述核心要素是指鏈接URL中所包含的參 數(shù)名以及參數(shù)值。在預(yù)設(shè)表中包括主鍵名和主鍵值。其中,主鍵名與鏈接URL中的參數(shù)名 相對應(yīng),主鍵值與鏈接URL中的參數(shù)值相對應(yīng)。在一個(gè)鏈接URL中至少包括一個(gè)核心要素。 也就是說,在一個(gè)鏈接URL中可以包括多個(gè)核心要素。該核心要素的參數(shù)名一般位于URL中 的參數(shù)域的位置。所述參數(shù)名為鏈接URL中符號(hào)"? "或"&&"后面的關(guān)鍵詞。參數(shù)值是以 符號(hào)"="開始,且"="之前為參數(shù)名,并且以空符號(hào)或者"&&"結(jié)束。在本發(fā)明實(shí)施例中, 參數(shù)名可以認(rèn)為是核心要素的key值。參數(shù)值可以認(rèn)為是核心要素的value值。
[0085] 例如,在鏈接"a. b. c. com/d. jhtml ? advld = 123"中,參數(shù)名為"advld",參數(shù)值 為 "123"。
[0086] 對于不同的核心要素來說,生命周期狀態(tài)也不盡相同。不同核心要素的生命周期 狀態(tài)可以包括:審核是否通過的狀態(tài)、是否開放的狀態(tài)、有效期等等。
[0087] 圖1是本發(fā)明實(shí)施例一提供的鏈接URL的失效檢測方法的流程示意圖。如圖1所 示,實(shí)施例一提供的鏈接URL的失效檢測方法包括以下步驟:
[0088] S101、抓取顯示在所述顯示平臺(tái)上的符合特定要求的所有鏈接URL :
[0089] 顯示平臺(tái)對某些抓包軟件進(jìn)行授權(quán),然后利用這些授權(quán)的抓包軟件抓取顯示在所 述顯示平臺(tái)上的符合特定要求的所有鏈接URL。
[0090] 抓取到的所有各個(gè)鏈接URL統(tǒng)一存儲(chǔ)在數(shù)據(jù)庫或者特定格式的文檔中,以便進(jìn)行 后續(xù)工作。
[0091] 需要說明的是,一個(gè)顯示平臺(tái)上的鏈接URL -般會(huì)多種多樣,其格式也會(huì)千差萬 別。而當(dāng)用戶需要檢測顯示平臺(tái)上的鏈接是否失效時(shí),一般只對某些種類的鏈接進(jìn)行檢測。 所以,一般情況下,不需要抓取顯示平臺(tái)上的所有鏈接URL,只需要根據(jù)用戶需求抓取顯示 平臺(tái)上的符合特定要求的所有鏈接URL。
[0092] S102、提取每個(gè)鏈接URL中的核心要素:
[0093] 在HTTP協(xié)議中,要獲取一個(gè)響應(yīng)結(jié)果集,一般需要在請求的鏈接URL中加入?yún)?shù) 域,參數(shù)域上的字段即為該鏈接的核心要素。如上所述,核心要素包括該鏈接的參數(shù)名和參 數(shù)值。
[0094] 為了保證提取到的核心要素的準(zhǔn)確性,優(yōu)選按照預(yù)設(shè)的提取規(guī)則提取每個(gè)鏈接 URL中的核心要素。需要說明的是,在本發(fā)明實(shí)施例中,可以將鏈接URL理解為一個(gè)字符串, 按照這種理解方式,從鏈接URL中提取核心要素的過程可以理解為從一個(gè)字符串中提取關(guān) 鍵詞的過程。
[0095] 例如,如果想從以下廣告鏈接中提取每個(gè)鏈接的核心要素即參數(shù)名和參數(shù)值。
[0096] Uhttp://a. b. c. com/d. jhtml ? advld = 123&&goodId = 1234;
[0097] 2、http://a. b· advld· com/d. jhtml ? advld 二 123 ;
[0098] 即提取key ="advld",value ="123"。那么首先應(yīng)查找關(guān)鍵詞"advld",但由于 一條鏈接中可能存在多個(gè)相同關(guān)鍵詞,也可能同時(shí)包含多個(gè)核心要素,因此預(yù)設(shè)提取規(guī)則 可以具體為:
[0099] 1、核心要素的參數(shù)名存在于鏈接的參數(shù)域,即符號(hào)"? "或"&&"后面的關(guān)鍵詞才是 我們所需要的。
[0100] 2、核心要素的參數(shù)值以符號(hào)開始,且之前為參數(shù)名,同時(shí)以空符號(hào)或 者" &&"符號(hào)結(jié)束。
[0101] 3、核心要素的參數(shù)值滿足預(yù)設(shè)條件,該預(yù)設(shè)條件包括數(shù)值大小和位數(shù)要求。由于 不同核心要素的起始點(diǎn)、參數(shù)值的位數(shù)一般有所區(qū)別,因此在鏈接中同時(shí)存在多個(gè)核心要 素時(shí),可以以此作為進(jìn)一步判斷和提取核心要素參數(shù)值的依據(jù)。
[0102] S103、從所述預(yù)設(shè)表中查找與提取到的每個(gè)鏈接URL中的核心要素相對應(yīng)的實(shí) 體:
[0103] 由于預(yù)設(shè)表中記錄有每個(gè)實(shí)體的生命周期狀態(tài),所以,根據(jù)預(yù)設(shè)表的實(shí)體與核心 要素的對應(yīng)關(guān)系,從預(yù)設(shè)表中可以查找到與提取到的每個(gè)鏈接URL中的核心要素相對應(yīng)的 實(shí)體。其中,需要說明的是,預(yù)設(shè)表中的實(shí)體與鏈接URL的核心要素的對應(yīng)關(guān)系是預(yù)先設(shè)置 好的。具體地說,核心要素中的參數(shù)名對應(yīng)預(yù)設(shè)表中的實(shí)體的主鍵名,參數(shù)值對應(yīng)預(yù)設(shè)表中 的主鍵值。因此,本步驟可以根據(jù)該預(yù)先設(shè)置好的對應(yīng)關(guān)系從所述預(yù)設(shè)表中查找與提取到 的每個(gè)鏈接URL中的核心要素相對應(yīng)的實(shí)體。
[0104] S104、根據(jù)預(yù)設(shè)表中記錄的與提取到的核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài)判 斷提取到的每個(gè)核心要素的當(dāng)前狀態(tài)是否異常,以檢測該核心要素對應(yīng)的鏈接URL是否失 效:
[0105] 由于預(yù)設(shè)表中記錄有每個(gè)實(shí)體的生命周期狀態(tài),所以可以根據(jù)預(yù)設(shè)表中記錄的與 提取到的核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài)判斷提取到的每個(gè)核心要素的當(dāng)前狀態(tài) 是否異常,從而檢測該核心要素對應(yīng)的每個(gè)鏈接URL是否失效。當(dāng)核心要素的當(dāng)前狀態(tài)異 常時(shí),該核心要素對應(yīng)的每個(gè)鏈接URL失效,當(dāng)核心要素的當(dāng)前狀態(tài)正常時(shí),該核心要素對 應(yīng)的每個(gè)鏈接URL有效。
[0106] 需要說明的是,判斷核心要素的當(dāng)前狀態(tài)是否異常的判斷方法隨著不同類型的鏈 接URL的不同而變化。
[0107] 步驟S104所述的過程也可以認(rèn)為是異常匹配的過程。即對提取到的核心要素的 生命周期的當(dāng)前狀態(tài)與預(yù)設(shè)表中記錄的與其相對應(yīng)的實(shí)體的正常生命周期狀態(tài)進(jìn)行匹配, 如果提取到的核心要素的當(dāng)前狀態(tài)與正常的生命周期狀態(tài)相匹配,則認(rèn)為提取到的核心要 素的當(dāng)前狀態(tài)正常,該核心要素所在的鏈接URL為有效鏈接,反之,如果提取到的核心要素 的當(dāng)前狀態(tài)與正常的生命周期狀態(tài)不相匹配,則認(rèn)為提取到的核心要素的當(dāng)前狀態(tài)異常, 該核心要素所在的鏈接URL為失效鏈接。需要說明的是,在異常匹配的過程中,需要根據(jù)鏈 接URL的不同類型選擇不同的異常匹配規(guī)則。
[0108]以廣告鏈接類型為例,其匹配規(guī)則可以如下:
[0109] 1)、該廣告的審核狀態(tài)為:通過;
[0110] 2)、該廣告的開放狀態(tài)為:開放;
[0111] 3)、該廣告的生命周期狀態(tài)為:投放中;
[0112] 4)、檢索時(shí)間點(diǎn)處于開放時(shí)間和過期時(shí)間之間。
[0113] 沒有同時(shí)滿足以上條件的核心要素的狀態(tài)為異常狀態(tài)。
[0114] 通過以上步驟S101至步驟S104就實(shí)現(xiàn)了對鏈接URL的失效的自動(dòng)檢測。相較于 現(xiàn)有技術(shù)中通過人工來對鏈接是否失效進(jìn)行檢測的方法,提高了檢測效率,而且提高了檢 測的準(zhǔn)確性,減少了檢測誤差。 需要說明的是,這種失效檢測方法尤其適用于電商平臺(tái)。
[0116] 為了能夠了解失效鏈接產(chǎn)生的原因、失效鏈接所處的模塊位置以及提取時(shí)間等信 息,方便運(yùn)行維護(hù)人員的處理,本發(fā)明實(shí)施例一提供的鏈接URL的失效檢測方法還可以包 括以下步驟:
[0117] S105、當(dāng)檢測到的某一個(gè)鏈接URL失效時(shí),對失效產(chǎn)生的原因、失效鏈接所處的模 塊位置以及提取時(shí)間進(jìn)行分析和整理,以得到異常分析結(jié)果:
[0118] 具體地,在選擇相應(yīng)的異常匹配規(guī)則對生命周期狀態(tài)進(jìn)行異常匹配時(shí),通常需要 對該鏈接URL類型的所有各個(gè)項(xiàng)目的狀態(tài)進(jìn)行匹配。當(dāng)有一個(gè)項(xiàng)目的狀態(tài)發(fā)生異常后,就 認(rèn)為包含有該異常狀態(tài)核心要素的鏈接URL為失效鏈接。
[0119] 所以,在匹配過程中,記錄狀態(tài)發(fā)生異常的項(xiàng)目,該發(fā)生異常的項(xiàng)目即為鏈接失效 產(chǎn)生的原因。
[0120] 異常結(jié)果分析中,鏈接URL在網(wǎng)站平臺(tái)中投放的位置尤其重要。因此在抓取鏈接 和對鏈接進(jìn)行分類的過程中,需要記錄每個(gè)鏈接所處的位置。
[0121] 另外,一個(gè)鏈接URL的時(shí)間有效性很重要,所以,在提取每個(gè)鏈接的核心要素時(shí), 還可以記錄每個(gè)核心要素的提取時(shí)間,從而在可以分析出核心要素的提取時(shí)間。
[0122] 為了清楚地了解鏈接失效的產(chǎn)生原因、失效鏈接所處的模塊位置以及提取時(shí)間, 本步驟對失效鏈接的失效產(chǎn)生的原因、失效鏈接所處的模塊位置以及提取時(shí)間進(jìn)行分析和 整理,從而得到異常分析結(jié)果。
[0123] S106、顯示所述異常分析結(jié)果:
[0124] 顯示上述得到的異常分析結(jié)果,以供顯示平臺(tái)的運(yùn)行維護(hù)人員對失效鏈接進(jìn)行處 理。
[0125] 通過步驟S105和步驟S106將異常分析結(jié)果展示給運(yùn)行維護(hù)人員,方便運(yùn)行維護(hù) 人員對失效鏈接的處理,例如,將那些失效鏈接從顯示平臺(tái)上刪除,這樣使得顯示在顯示平 臺(tái)上的鏈接URL均為可打開的鏈接,消除了顯示在顯示平臺(tái)上的某些鏈接URL無法打開的 現(xiàn)象,有利于提高用戶體驗(yàn)。
[0126] 以上為本發(fā)明實(shí)施例一提供的鏈接URL的失效檢測方法。通過以上方法能夠代替 人工實(shí)現(xiàn)對鏈接URL是否失效的自動(dòng)檢測,因此,上述實(shí)施例一提供的失效檢測方法能夠 提高檢測效率,減小檢測誤差。
[0127]需要說明的是,上述實(shí)施例一提供的失效檢測方法可以適用于顯示在各種平臺(tái)的 鏈接URL。例如:顯示在電商平臺(tái)上的商品鏈接、廣告鏈接等等。
[0128] 一般情況下,顯示在同一顯示平臺(tái)上的鏈接URL包括多種類型的鏈接,如用戶鏈 接、商品鏈接、資訊鏈接、廣告鏈接等等。然而相同類型的鏈接在進(jìn)行判斷核心要素的生命 周期狀態(tài)是否異常的判斷規(guī)則相同。所以,為了方便對預(yù)設(shè)表中記錄的實(shí)體的生命周期狀 態(tài)與提取的核心要素的生命周期狀態(tài)進(jìn)行匹配和判斷,優(yōu)選對所有各個(gè)鏈接URL根據(jù)其核 心要素的參數(shù)名進(jìn)行分類,然后根據(jù)類型對各個(gè)參數(shù)值進(jìn)行異常匹配,具體參見實(shí)施例二。 [0129] 實(shí)施例二
[0130] 需要說明的是,能夠?qū)︼@示在同一顯示平臺(tái)上的鏈接URL根據(jù)其核心要素的參數(shù) 名進(jìn)行分類得以進(jìn)行的條件是顯示在同一顯示平臺(tái)上的鏈接URL具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)格 式。只有具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)格式,才能按照預(yù)設(shè)的分類規(guī)則對鏈接URL進(jìn)行分類,否則容 易出現(xiàn)分類錯(cuò)誤。而大部分使用HTTP協(xié)議的網(wǎng)站平臺(tái)一般都有相對規(guī)范的命名格式,尤其 是對于電商網(wǎng)站,因此一般能滿足該條件。所以實(shí)施例二提供的鏈接URL的失效檢測方法 特別適用于電商平臺(tái)上的鏈接URL。
[0131] 另外,由于是根據(jù)鏈接URL中的參數(shù)名對鏈接URL進(jìn)行分類,所以位于同一類別下 的各個(gè)鏈接URL具有相同的參數(shù)名。
[0132]另外,在實(shí)施例二中,為了便于判斷每個(gè)類別中的每個(gè)參數(shù)值對應(yīng)的核心要素的 當(dāng)前狀態(tài)是否異常,在顯示平臺(tái)上設(shè)置有多個(gè)第一表格。每個(gè)第一表格與每個(gè)類別的對應(yīng) 關(guān)系是預(yù)設(shè)的。因此,可以根據(jù)類別查找到與其對應(yīng)的第一表格。
[0133] 一個(gè)第一表格記錄有一個(gè)類別的各個(gè)參數(shù)值對應(yīng)的實(shí)體的生命周期狀態(tài)。
[0134] 結(jié)合附圖2對實(shí)施例二提供的鏈接URL的失效檢測方法進(jìn)行描述。如圖2所示, 實(shí)施例二提供的鏈接URL的失效檢測方法包括以下步驟:
[0135] S201、抓取顯示在所述顯示平臺(tái)上的符合特定要求的所有鏈接URL :
[0136] 該步驟與實(shí)施例一中的步驟S101相同,為了簡要起見,請參見實(shí)施例一的描述。
[0137] S202、根據(jù)每個(gè)鏈接URL的參數(shù)名對所有各個(gè)鏈接URL進(jìn)行分類,以將所有各個(gè)鏈 接URL歸屬到相應(yīng)的類別中:
[0138] 每個(gè)鏈接URL的參數(shù)名表示該鏈接所屬的類別,所以根據(jù)每個(gè)鏈接URL的參數(shù)名 對所有各個(gè)鏈接URL進(jìn)行分類,以將所有各個(gè)鏈接URL歸屬到相應(yīng)的類別中。
[0139] 在每個(gè)類別中包括多條具有預(yù)設(shè)數(shù)據(jù)結(jié)構(gòu)的記錄,在將各個(gè)鏈接URL歸屬到相應(yīng) 的類別的過程就是將鏈接URL中的信息填充在記錄的預(yù)設(shè)數(shù)據(jù)結(jié)構(gòu)中。
[0140] 換句話說,該預(yù)設(shè)數(shù)據(jù)結(jié)構(gòu)的記錄用于記錄鏈接URL的完整信息。所以一條記錄 包含有一個(gè)鏈接URL的完整信息。并且,在每個(gè)類別中,一條記錄對應(yīng)一個(gè)鏈接URL。
[0141] 所述預(yù)設(shè)數(shù)據(jù)結(jié)構(gòu)的記錄是指記錄有鏈接URL對應(yīng)的鏈接類別、對應(yīng)的參數(shù)名、 以及該參數(shù)值的提取時(shí)間等信息。其中,提取時(shí)間可以精確到天。
[0142] 在本發(fā)明實(shí)施例中,每條預(yù)設(shè)數(shù)據(jù)結(jié)構(gòu)的記錄具體可以如下表所示:
[0143]
【權(quán)利要求】
1. 一種鏈接URL的失效檢測方法,所述鏈接URL顯示在顯示平臺(tái)上,每個(gè)所述鏈接URL 至少包括一個(gè)核心要素,所述核心要素包括參數(shù)名及參數(shù)值;其特征在于,所述顯示平臺(tái)上 設(shè)置有預(yù)設(shè)表,所述預(yù)設(shè)表中記錄有與每個(gè)核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài),所述 失效檢測方法包括: 步驟A、抓取顯示在所述顯示平臺(tái)上的符合特定要求的所有鏈接URL ; 步驟B、提取每個(gè)鏈接URL中的核心要素; 步驟C、從所述預(yù)設(shè)表中查找與提取到的每個(gè)鏈接URL中的核心要素相對應(yīng)的實(shí)體; 步驟D、根據(jù)所述預(yù)設(shè)表中記錄的與提取到的核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài) 判斷提取的每個(gè)核心要素的當(dāng)前狀態(tài)是否異常,以檢測該核心要素對應(yīng)的鏈接URL是否失 效。
2. 根據(jù)權(quán)利要求1所的失效檢測方法,其特征在于,所有各個(gè)所述鏈接URL具有統(tǒng)一的 數(shù)據(jù)結(jié)構(gòu)格式,所述預(yù)設(shè)表包括多個(gè)第一表格,一個(gè)所述第一表格中記錄有一個(gè)類別的各 個(gè)參數(shù)值對應(yīng)的實(shí)體的生命周期狀態(tài);每個(gè)所述類別中的所有各個(gè)鏈接URL具有相同的參 數(shù)名; 所述步驟A之后,還包括: 步驟E、根據(jù)每個(gè)鏈接URL中的參數(shù)名對所有各個(gè)鏈接URL進(jìn)行分類,將所有各個(gè)鏈接 URL歸屬到相應(yīng)的類別;在每個(gè)類別中包含有各個(gè)核心要素的記錄; 所述步驟B具體為: 步驟B'、從每個(gè)所述類別中的每個(gè)記錄提取參數(shù)值; 所述步驟C具體包括: 步驟C1、從顯示平臺(tái)上查找與每個(gè)類別分別對應(yīng)的第一表格; 步驟C2、從所述第一表格中查找與類別中的每個(gè)參數(shù)值相對應(yīng)的主鍵值,根據(jù)所述主 鍵值查找與所述主鍵值相對應(yīng)的實(shí)體; 所述步驟D具體包括: 步驟D'、根據(jù)類別對應(yīng)的異常判斷規(guī)則和所述第一表格中記錄的每個(gè)實(shí)體的生命周期 狀態(tài)判斷類別中的每個(gè)參數(shù)值對應(yīng)的每個(gè)記錄的當(dāng)前狀態(tài)是否異常,以檢測該記錄對應(yīng)的 鏈接URL是否失效。
3. 根據(jù)權(quán)利要求2所述的失效檢測方法,其特征在于,所述步驟E之后還包括: 步驟F、當(dāng)歸屬于同一個(gè)類別中的鏈接URL中有N個(gè)具有相同的參數(shù)值時(shí),從該類別中 移除(N-1)個(gè)具有該相同參數(shù)值的記錄,使得在類別中只保留一個(gè)該相同參數(shù)值對應(yīng)的記 錄,其中,2,N為整數(shù)。 執(zhí)行所述步驟F的同時(shí)或之后還包括: 步驟G、建立被移除的記錄與其包含的參數(shù)值的映射關(guān)系,以根據(jù)參數(shù)值能夠找到包含 該參數(shù)值的所有鏈接URL ; 所述步驟D'之后,還包括: H、當(dāng)提取的某一類別下的某一個(gè)參數(shù)值對應(yīng)的記錄的當(dāng)前狀態(tài)異常時(shí),根據(jù)所述映射 關(guān)系查找包含該參數(shù)值的所有被移除的鏈接URL。
4. 根據(jù)權(quán)利要求1-3任一項(xiàng)所的失效檢測方法,其特征在于,檢測完鏈接URL是否失效 之后還包括: 步驟I、當(dāng)提取到的某一參數(shù)名的某一個(gè)參數(shù)值的當(dāng)前狀態(tài)異常時(shí),對異常產(chǎn)生的原 因、失效鏈接所處的模塊位置以及提取時(shí)間進(jìn)行分析和整理,以得到異常分析結(jié)果; 步驟J、顯示所述異常分析結(jié)果。
5. 根據(jù)權(quán)利要求2所述的失效檢測方法,其特征在于,所述步驟B'具體包括: 確定鏈接URL的類別; 檢驗(yàn)鏈接URL中是否存在與該類別相對應(yīng)的參數(shù)名:如果是,檢驗(yàn)所述參數(shù)名是否位 于所述鏈接URL的參數(shù)域,如果是,提取參數(shù)值,所述參數(shù)值以鏈接URL中的"="開始,且 "="之前為所述參數(shù)名; 校驗(yàn)所述參數(shù)值是否滿足預(yù)設(shè)條件,如果是,記錄該提取的參數(shù)值。
6. 根據(jù)權(quán)利要求3所述的失效檢測方法,其特征在于,所述映射關(guān)系包括鏈接類別、參 數(shù)名、參數(shù)值以及鏈接URL的對應(yīng)關(guān)系。
7. 根據(jù)權(quán)利要求2所述的失效檢測方法,其特征在于,當(dāng)一個(gè)鏈接URL中包括多個(gè)參數(shù) 名時(shí),所述步驟E具體包括: 根據(jù)該鏈接URL中的多個(gè)參數(shù)名將該鏈接URL分別歸屬到與其參數(shù)名相對應(yīng)的多個(gè)類 別中。
8. -種鏈接URL的失效檢測裝置,所述鏈接URL顯示在顯示平臺(tái)上,每個(gè)所述鏈接URL 至少包括一個(gè)核心要素,所述核心要素包括參數(shù)名及參數(shù)值;其特征在于,所述顯示平臺(tái)上 設(shè)置有預(yù)設(shè)表,所述預(yù)設(shè)表中記錄有與每個(gè)核心要素相對應(yīng)的實(shí)體的生命周期狀態(tài),所述 失效檢測裝置包括: 抓取單元,用于抓取顯示在所述顯示平臺(tái)上的符合特定要求的所有鏈接URL ; 提取單元,用于提取每個(gè)鏈接URL中的核心要素; 第一查找單元,用于從所述預(yù)設(shè)表中查找與提取到的每個(gè)鏈接URL中的核心要素相對 應(yīng)的實(shí)體; 判斷單元,用于根據(jù)所述預(yù)設(shè)表中記錄的與提取到的核心要素相對應(yīng)的實(shí)體的生命周 期狀態(tài)判斷提取的每個(gè)核心要素的當(dāng)前狀態(tài)是否異常,以檢測該核心要素對應(yīng)的鏈接URL 是否失效。
9. 根據(jù)權(quán)利要求8所述的失效檢測裝置,其特征在于,所有各個(gè)所述鏈接URL具有統(tǒng)一 的數(shù)據(jù)結(jié)構(gòu)格式,所述預(yù)設(shè)表包括多個(gè)第一表格,一個(gè)所述第一表格中記錄有一個(gè)類別的 各個(gè)參數(shù)值對應(yīng)的實(shí)體的生命周期狀態(tài);每個(gè)所述類別中的所有各個(gè)鏈接URL具有相同的 參數(shù)名; 所述失效檢測裝置還包括: 分類單元,用于在接收到所述抓取單元抓取的鏈接URL后,根據(jù)每個(gè)鏈接URL中的參數(shù) 名對所有各個(gè)鏈接URL進(jìn)行分類,將所有各個(gè)鏈接URL歸屬到相應(yīng)的類別;在每個(gè)類別中包 含有各個(gè)核心要素的記錄; 所述提取單元包括從每個(gè)所述類別中的每個(gè)記錄中提取參數(shù)值的子單元; 所述第一查找單元具體包括: 第一查找子單元,用于從顯示平臺(tái)上查找與每個(gè)類別分別對應(yīng)的第一表格; 第二查找子單元,用于從所述第一表格中查找與類別中的每個(gè)參數(shù)值相對應(yīng)的主鍵 值,根據(jù)所述主鍵值查找與所述主鍵值相對應(yīng)的實(shí)體; 所述判斷單元具體包括: 判斷子單元,所述判斷子單元用于根據(jù)類別對應(yīng)的異常判斷規(guī)則和所述第一表格中記 錄的每個(gè)實(shí)體的生命周期狀態(tài)判斷類別中的每個(gè)參數(shù)值對應(yīng)的每個(gè)記錄的當(dāng)前狀態(tài)是否 異常,以檢測該記錄對應(yīng)的鏈接URL是否失效。
10. 根據(jù)權(quán)利要求9所述的失效檢測裝置,其特征在于,所述失效檢測裝置還包括:移 除單元,用于當(dāng)歸屬于同一個(gè)類別中的鏈接URL中有N個(gè)具有相同的參數(shù)值時(shí),從該類別中 移除(N-1)個(gè)具有該相同參數(shù)值的記錄,使得在類別中只保留一個(gè)該相同參數(shù)值對應(yīng)的記 錄,其中,N > 2,N為整數(shù)。
11. 根據(jù)權(quán)利要求9所述的失效檢測裝置,其特征在于,還包括: 建立映射關(guān)系單元,用于在接收到所述移除單元移除記錄的信號(hào)的同時(shí)或之后,建立 被移除的記錄與其包含的參數(shù)值的映射關(guān)系,以根據(jù)參數(shù)值能夠找到包含該參數(shù)值的所有 鏈接URL ; 第二查找單元,用于當(dāng)所述判斷子單元判斷的提取的某一類別下的某一個(gè)參數(shù)值對應(yīng) 的記錄的當(dāng)前狀態(tài)異常時(shí),根據(jù)所述映射關(guān)系查找包含該參數(shù)值的所有被移除的鏈接URL。
12. 根據(jù)權(quán)利要求8所述的失效檢測裝置,其特征在于,還包括: 異常結(jié)果分析單元,用于當(dāng)提取到的某一參數(shù)名的某一個(gè)參數(shù)值對應(yīng)的記錄的當(dāng)前狀 態(tài)異常時(shí),對導(dǎo)致異常產(chǎn)生的原因、失效鏈接所處的模塊位置以及提取時(shí)間進(jìn)行分析和整 理,以得到異常分析結(jié)果。
13. 根據(jù)權(quán)利要求12所述的失效檢測裝置,其特征在于,還包括: 顯示單元,用于顯示所述異常分析結(jié)果。
【文檔編號(hào)】G06F17/30GK104268289SQ201410564162
【公開日】2015年1月7日 申請日期:2014年10月21日 優(yōu)先權(quán)日:2014年10月21日
【發(fā)明者】胡建波, 何明杰, 張興強(qiáng), 王海潮, 章夢, 邱群業(yè) 申請人:中國建設(shè)銀行股份有限公司