專利名稱:用于檢測(cè)并補(bǔ)救誤導(dǎo)超鏈接的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及防止計(jì)算機(jī)犯罪的方法。更具體地,本發(fā)明涉及檢測(cè)由誤導(dǎo)超鏈接(misleading hyperlink)引起的安全威脅。
技術(shù)背景超過十億人基于常規(guī)使用英特網(wǎng)。在英特網(wǎng)上可用的大多數(shù)普遍使用的 應(yīng)用是電子郵件和即時(shí)通訊。因?yàn)榻o很多接收者發(fā)送消息的低花費(fèi)使得很多 商業(yè)實(shí)體廣泛地使用這些應(yīng)用。很多英特網(wǎng)用戶不是計(jì)算機(jī)專家(computer savvy ),并且對(duì)在他們的個(gè) 人計(jì)算機(jī)上所存儲(chǔ)的個(gè)人和機(jī)密信息的弱點(diǎn)了解很少。這些用戶對(duì)于欺詐高 手來說是有吸引力的犧牲者。使得電子郵件和即時(shí)消息對(duì)于商業(yè)和消費(fèi)者具者可以廉價(jià)地設(shè)計(jì)并發(fā)送消息至大量消費(fèi)者。這些條件導(dǎo)致了已知為"網(wǎng)上 誘騙"的英特網(wǎng)詐騙的蔓延。"網(wǎng)上誘騙"是指設(shè)計(jì)用于操縱人們泄露他們的機(jī)密信息的英特網(wǎng)上犯 罪行為的術(shù)語。網(wǎng)上誘騙,"釣魚"的有意錯(cuò)誤拼寫,指的是欺詐高手試圖誘 使無疑心的消費(fèi)者泄露他們的個(gè)人信息,比如用于訪問在線賬戶的信用卡號(hào) 或密碼。"誘騙者"可以設(shè)計(jì)并發(fā)送故意被做成像來自依賴英特網(wǎng)辦理業(yè)務(wù)的 商業(yè)實(shí)體的電子郵件或消息的電子郵件或即時(shí)消息。欺騙性的電子郵件或消 息被設(shè)計(jì)得看來好像是來自諸如通常使用的網(wǎng)站或大銀行的大量消費(fèi)者所熟 悉的合法源頭。誘騙者一般會(huì)要求接收者通過提供諸如銀行賬戶號(hào)、信用卡 號(hào)、社會(huì)保險(xiǎn)號(hào)、用戶ID或接收者的在線賬戶密碼的機(jī)密且私人的信息來答 復(fù)該電子郵件或消息。更老練的誘騙者精明地設(shè)計(jì)電子郵件或消息以引誘接收者實(shí)際上想在英 特網(wǎng)上泄露個(gè)人信息。例如,誘騙者的消息可能包含將接收者引到已經(jīng)專門 創(chuàng)建用于實(shí)現(xiàn)誘騙詐騙的網(wǎng)站的可選超鏈接。經(jīng)常,誘騙者的電子郵件消息 可能提供警告接收者的信息,以引誘接收者選擇超鏈接以便解決問題。例如,誘騙者的消息可能警告接收者有"可疑行為",比如試圖使用接收者的在線賬 戶而沒有合適的密碼,并且可能要求接收者使用所提供的超鏈接來訪問網(wǎng)站 并登錄賬戶或者另外提供個(gè)人信息以驗(yàn)證或改變密碼。諷刺的是,很多誘騙 詐騙通過虛偽地警告接收者有關(guān)接收者的在線賬戶的安全威脅來操作,以便 獲取接收者的個(gè)人信息。在電子郵件消息中提供給接收者的超鏈接可能通過看來要將接收者? 1到 與接收者的在線賬戶有關(guān)的網(wǎng)站來引誘接收者選擇該超鏈接。但是,以電子 文檔形式被提供給無疑心的接收者的超鏈接可能被做的能看出發(fā)送者所期望的。例如,消息內(nèi)的顯示名稱或文本可能^皮顯示為"www.yahoo.com",以看 起來是作為到熟悉的網(wǎng)站的實(shí)際超鏈接,但是,該文本可能實(shí)際包括了嵌入 的鏈接,該嵌入的鏈接將把用戶的瀏覽器引導(dǎo)到由誘騙者建立的用于實(shí)施詐 騙的不同網(wǎng)站。通過選擇該超鏈接而把接收者^I到的網(wǎng)站可能非常類似于與 超鏈接看起來要提供給接收者的目的地對(duì)應(yīng)的熟悉且可信的網(wǎng)站。粗心的接 收者可能不了解超鏈接如何操作,或者可能甚至不知道可以操縱超鏈接以將 接收者引到與文本中看似的網(wǎng)站不同的網(wǎng)站。到達(dá)假冒網(wǎng)站的接收者將被要 求驗(yàn)證密碼或賬戶號(hào),或者輸入被誘騙者捕獲并濫用的敏感個(gè)人信息。網(wǎng)上誘騙的一個(gè)特別精明的方法是在電子郵件消息或即時(shí)消息中警告接 收者他們的在線賬戶有問題。例如,電子郵件可能被設(shè)計(jì)得看來已經(jīng)通過銀 行、信用卡公司或接收者可能與之從事業(yè)務(wù)的其他類似實(shí)體來發(fā)送給接收者, 并警告接收者他們的賬戶有"可疑行為"。選擇超鏈接以盡力防止欺騙或身份 盜用的接收者實(shí)際被引導(dǎo)到由誘騙者創(chuàng)建的用于實(shí)施詐騙的假冒網(wǎng)站,并試 圖使用該網(wǎng)站來驗(yàn)證賬戶狀況。對(duì)于無疑心的接收者來說該網(wǎng)站通??磥硎?銀行、信用卡公司或維護(hù)接收者在線賬戶的業(yè)務(wù)的實(shí)際網(wǎng)站,并且該假冒網(wǎng) 站被設(shè)計(jì)用于接收并記錄接收者的個(gè)人信息,比如賬號(hào)、密碼或可能被誘騙 者濫用的其他個(gè)人信息。因此,需要一種檢測(cè)諸如電子郵件消息和即時(shí)消息的電子文檔中所包含 的誤導(dǎo)超鏈接的方法。同樣,需要警告或保護(hù)電子文檔的接收者免遭利用通 過電子郵件或即時(shí)通訊發(fā)送到接收者的誤導(dǎo)超鏈接的誘騙詐騙。發(fā)明內(nèi)容本發(fā)明提供了 一種用于驗(yàn)證超鏈接的可靠性并用于確定超鏈接內(nèi)的域名是否有可能涉及誘騙犯罪的方法。在本發(fā)明的一個(gè)實(shí)施例中,該方法包括步驟識(shí)別(identify)電子文檔內(nèi)的超鏈接;識(shí)別超鏈接的URL;識(shí)別URL 內(nèi)的域名;給域名分配頁面等級(jí)參數(shù);確定被分配給域名的頁面等級(jí)參數(shù)是 否大于頁面等級(jí)閾值;以及分析所識(shí)別的域名與公知或高頁面等級(jí)域名的列 表的相似性。本發(fā)明的一個(gè)實(shí)施例包括步驟相對(duì)于公知或高頁面等級(jí)的網(wǎng) 站的域名,分析該域名關(guān)于被設(shè)計(jì)用于使域名對(duì)于接收者看起來是合法的域 名的替換的字符、插入或省略的復(fù)數(shù)、冗余字符或其他字符插入、替換或省 略。該方法還可以包括給域名分配相似性參數(shù),其中該相似性參數(shù)反映該 域名被設(shè)計(jì)得看起來與公知域名的列表中的一個(gè)域名的相似的程度。該方法 還可以包括分析該相似性參數(shù)和頁面等級(jí)參數(shù),然后使用算法來確定該超 鏈接是否是誤導(dǎo)的。該方法還可以可選擇地包括步驟在包含了誤導(dǎo)超鏈接 的文檔被打開之前通知接收者有誤導(dǎo)超鏈接。該方法還可以自動(dòng)廢除文檔中 所檢測(cè)的誤導(dǎo)超鏈接,以防止接收者使用該超鏈接。
圖1是表示用于識(shí);圖。圖2是圖示用于確定電子文檔內(nèi)所包含的超鏈接是誤導(dǎo)的可能性的超鏈 接分類的象限圖。圖3是能夠接收并打開諸如電子郵件消息的電子文檔并執(zhí)行確保URL鏈 接的合法性的方法的計(jì)算機(jī)系統(tǒng)的示意圖。
具體實(shí)施方式
本發(fā)明提供了 一種用于驗(yàn)證電子文檔內(nèi)所包含的超鏈接的合法性并用于 確定超鏈接內(nèi)所包含的網(wǎng)站的域名是否可能是為欺騙目的而創(chuàng)建的方法。一 般出現(xiàn)在電子文檔內(nèi)的超鏈接很容易與周圍文本區(qū)分。通常在電子文檔中使 用高度可見字體顏色或字體大小并通過給超鏈接加下劃線來顯示超鏈接。電 子文檔中出現(xiàn)的超鏈接一般具有幾個(gè)組成部分。本發(fā)明中感興趣的主要超鏈 接組成部分是鏈接標(biāo)簽和編碼鏈接目的地的統(tǒng)一資源定位(URL)。雖然可以直接將URL復(fù)制到電子文檔中,但是不顯示嵌入超鏈接的 URL。鏈接標(biāo)簽是電子文檔在計(jì)算機(jī)監(jiān)視器上顯示給用戶的字符串。鏈接標(biāo)簽可以包括任意期望的字符串,或者可以是用戶可以選擇的用以訪問鏈接目 的地的圖形,比如照片、標(biāo)志圖案或圖標(biāo)。鏈接目的地被編碼為統(tǒng)一資源定位(URL),有時(shí)也被稱為統(tǒng)一資源識(shí)別符(URI)。雖然URI和URL在意思 上稍有差異,但是在這些術(shù)語之間的普通使用沒有差異,并且下面的公開將 涉及URL。 URL識(shí)別英特網(wǎng)上的可用網(wǎng)絡(luò)資源,比如網(wǎng)站。URL提供當(dāng)接 收者選擇超鏈接時(shí)網(wǎng)頁瀏覽器將訪問的網(wǎng)絡(luò)資源的地址。URL還提供了用于 取回資源的協(xié)議。對(duì)網(wǎng)上誘騙的問題起重要作用的因素是,編碼鏈接目的地 的URL通常隱藏在HTML代碼中,并且沒有向電子文檔的接收者示出通過 選擇超鏈接而將訪問的網(wǎng)站的URL。本發(fā)明的方法包括識(shí)別電子文檔內(nèi)的超鏈接的步驟。電子文檔可以包括 電子郵件、即時(shí)消息、網(wǎng)頁、文字處理文件、圖形表示、可移植文件格式(PDF) 文件或能夠包含并向用戶顯示超鏈接的任意電子文檔或文件??梢酝ㄟ^解析 文檔并尋找指示URL的特定樣式、比如尋找"http"、 "www"或".com"來 識(shí)別超鏈接。還可以通過在HTML源代碼中搜索超文本參考(HREE)的錨 標(biāo)簽(anchor tag)或通過可以檢測(cè)電子文檔內(nèi)的超鏈接的存在的任意其他手 段來識(shí)別超鏈接。例如,用于建立超鏈接的HTML代碼可以包括以下已經(jīng)識(shí)別超鏈接后,然后可以進(jìn)一步分析HTML代碼以識(shí)別編碼該超鏈 接的鏈接目的地的URL。在大多數(shù)情況下,尤其在網(wǎng)上誘騙中,不在超鏈接 的文本或圖形內(nèi)顯示URL。而是,顯示可能與URL有關(guān)系或毫無關(guān)系的鏈 接標(biāo)簽。因此,必須訪問HTML或其他源代碼,以便確定實(shí)際的URL。鏈接 目的地很有可能是網(wǎng)站上的特定網(wǎng)頁。例如,選擇具有到; age./2加,其存在于與j或名www.ibm.com有關(guān)的網(wǎng)站上的/"/o目錄中。通過從URL的剩余部分中解析諸如www.ibm.com的域名來識(shí)別域名???替換地,當(dāng)超鏈接包括諸如142.118.0.11的IP地址而不是域名時(shí),可以改為 識(shí)別IP地址。該方法還包括給域名分配頁面等級(jí)參數(shù)的步驟。頁面等級(jí)參數(shù)幫助確定 鏈接是否將訪問有效網(wǎng)站或網(wǎng)頁。該確定是基于如下假設(shè)的接收大量的英 特網(wǎng)"流量"或訪問的網(wǎng)頁通常是有效的并且不需要被進(jìn)一步分析。通過比 較在超鏈接內(nèi)所識(shí)別的域名與公知或高頁面等級(jí)的域名的列表可以簡(jiǎn)要確定<a href="http:〃antivirus.about.com">http:〃www.ebay.com</a>.age.htm的鏈接的超鏈接將使得瀏覽器顯示網(wǎng)頁頁面等級(jí)參數(shù)。如果超鏈接內(nèi)的域名與具有公知頁面等級(jí)的域名匹配,則將 默認(rèn)頁面等級(jí)參數(shù)值分配給所識(shí)別的域名。例如,公知和高頁面等級(jí)域名的歹ll表可以包4舌,仿J ^口, www.ibm.com 、 www.amazon.com、 www.yahoo.com和 www.whitehouse.gov,紿、所有這些分配高默認(rèn)頁面等級(jí)參凄t。諸如yahoo!或 Google的熟知的搜索引擎維護(hù)并發(fā)布允許通過各種方法來將各個(gè)網(wǎng)站分級(jí)的 統(tǒng)計(jì)表。因此,可以通過從搜索引擎中取回頁面等級(jí)來確定給定域名的頁面 等級(jí)參數(shù)。可替換地,該步驟可以包括從跟蹤英特網(wǎng)使用并發(fā)布其得到的結(jié) 果的機(jī)構(gòu)訪問最廣泛公知的域名列表。另 一種替換方法是維護(hù)訂閱帶有域名 使用統(tǒng)計(jì)表的社團(tuán)或機(jī)構(gòu)的網(wǎng)站列表。該列表還可以包括"公知"的域名,因?yàn)樗鼈円呀?jīng)被識(shí)別為欺騙性的或 誤導(dǎo)的,并且這些域名被分配了不受歡迎頁面等級(jí)參數(shù)。如果超鏈接內(nèi)所識(shí) 別的域名與公知列表中的誤導(dǎo)域名匹配,則分配與威脅程度相應(yīng)的頁面等級(jí) 參數(shù),并且該方法直接跳到采取補(bǔ)救行動(dòng)的步驟,該補(bǔ)救行動(dòng)包括根據(jù)安全 威脅的訪問級(jí)別警告接收者廢除或阻擋超鏈接。但是,如果在超鏈接內(nèi)所識(shí) 別的域名與列表中的公知域名不匹配,則該方法可以給域名分配反映安全威 脅的評(píng)估級(jí)別的頁面等級(jí)參數(shù)。如果所配置的頁面等級(jí)參數(shù)落到閾值以下,則該方法還可以包括步驟 將所識(shí)別的域名和/或鏈接標(biāo)簽與公知域名的列表比較,以及給所識(shí)別的域名 和/或鏈接標(biāo)簽分配相似性參數(shù)。例如,如果域名迷惑地與頻繁訪問和/或大量 消費(fèi)者公知的域名相似,但是不相同,則所分配的相似性參數(shù)將高。但是, 如果所識(shí)別的域名與任意頻繁訪問和/或大量消費(fèi)者公知的域名都不相似,則 相似性參數(shù)將低。設(shè)計(jì)該步驟以識(shí)別由迷惑地與公知域名相似的域名或鏈接 標(biāo)簽引起的安全隱患,這些域名或鏈接標(biāo)簽比如www.paypals .com (迷惑地與 www.paypal.com相似)、www.YAH00.com (迷惑地與www.yahoo.c.om相似)和www.wdls-fargo.com(迷惑地與www.we 1 lsfargo com相似)。一4殳識(shí)另ll誤導(dǎo)URL比誤導(dǎo)標(biāo)簽更重要,因?yàn)閁RL確定在選擇鏈接時(shí)將由瀏覽器訪問的網(wǎng)站。識(shí) 別誤導(dǎo)標(biāo)簽仍然很有用,因?yàn)橛脩艨梢曰谠撴溄訕?biāo)簽判斷是否選擇該鏈接。 分配相似性參數(shù)的步驟可以包括相似字符的替代的分析。例如,在英語 中,零(0)對(duì)大寫字母"O"的替換,以及數(shù)字一 (1)對(duì)小寫字母"l,,的替 換導(dǎo)致單詞看來與原始的正確拼寫的單詞迷惑地相似。在分配相似性參數(shù)的 步驟中,趨向于以迷惑誤導(dǎo)方式使標(biāo)簽看起來呈現(xiàn)頻繁訪問的或公知的域名的替換字符的出現(xiàn)將增加威脅和相似性參數(shù)。另一種考慮可以搜索不適當(dāng)插入"s"或"es" 的使用而使單詞變成復(fù)數(shù),可能不被接收者注意的較小改 變。例如。www.paypals.com包4舌插入的字母"s",并且可能誤導(dǎo)具有 www.pavpal.com上的在線賬戶的接收者。該步驟可以包括搜索重復(fù)字符的包 括或排除,例如,www. busines.com或www.businssses.com , 替代 www.business.com上的有效網(wǎng)站。可替換地,差異語言或字體中的字符可能 散布在鏈接標(biāo)簽內(nèi)。例如,西里爾字母"a"與拉丁字母"a"顯示得一致。 但是,計(jì)算機(jī)可以區(qū)分這兩個(gè)字符并不同地讀取字符串。如果域名的頁面等級(jí)參數(shù)在頁面等級(jí)閾值以下,則與該域名關(guān)聯(lián)的網(wǎng)站 具有低流量(traffic volume )并且不太可能是頻繁訪問的網(wǎng)站。如果頁面等級(jí) 參數(shù)在頁面等級(jí)閾值以上,則超鏈接很可能將接收者引到安全的網(wǎng)站,并且 該方法不包括進(jìn)一步的步驟??商鎿Q地,如果頁面等級(jí)參數(shù)落在閾值以下, 則與該域名關(guān)聯(lián)的網(wǎng)站具有低流量并且不太可能是頻繁訪問的網(wǎng)站。在這種 情況下,方法的隨后步驟確定相似性參數(shù)是否在警報(bào)閾值以上。如果所識(shí)別的域名的相似性參數(shù)在相似閾值以上,則該域名與公知的域 名非常相似但是不相同,并且該方法可以進(jìn)一步包括警告接收者有電子文檔 詐騙的可能性的步驟。例如,該方法可以自動(dòng)使得文本框顯示在緊鄰電子文 檔內(nèi)的超鏈接的位置,警告接收者該超鏈接可能是誤導(dǎo)的。該文本框可以包 括該超鏈接是非法的估計(jì)概率。作為替換,該顯示可以包括制定可配置的數(shù) 值范圍(scale )、顏色編碼的標(biāo)記或其他被設(shè)計(jì)用于區(qū)分安全超鏈接與誤導(dǎo)超 鏈接的可視和/或音頻手段。該方法還可以包括自動(dòng)廢除(disable)被確定是誤導(dǎo)的超鏈接的步驟。 除了或者代替警告接收者、使接收者的信息賬戶不能進(jìn)一步從該電子文檔的 發(fā)送者接收包含超鏈接的消息、通知網(wǎng)絡(luò)管理員或任何其他被設(shè)計(jì)用于保護(hù) 接收者免遭進(jìn)一步誤導(dǎo)的超鏈接的可配置補(bǔ)救行動(dòng),還可以進(jìn)行廢除超鏈接。圖1是描述本發(fā)明的一個(gè)實(shí)施例的高級(jí)流程圖。在步驟10,方法開始。 可以響應(yīng)于接收電子郵件或即時(shí)消息、存取文件、手動(dòng)開始方法或任何其他 配置條件來實(shí)施該方法。在步驟12,識(shí)別超鏈接。通過掃描文檔、電子郵件、消息和所附文件的 內(nèi)容可以在電子文檔內(nèi)識(shí)別超鏈接。可以掃描電子文檔以確定鏈接的出現(xiàn)。 在該步驟中,可以識(shí)別并掃描包括超文本標(biāo)記語言(HTML)、 JAVA腳本、XML腳本以及其他的任何腳本以確定是否出現(xiàn)超鏈接。在步驟14,識(shí)別超鏈接和/或鏈接標(biāo)簽的URL。該URL提供在選擇超鏈 接時(shí)將由瀏覽器訪問的網(wǎng)頁的地址或者網(wǎng)址。在步驟16,識(shí)別URL內(nèi)的域 名。該域名可以是完整URL的被解析部分。在步驟18,比較URL的域名與具有已知安全級(jí)別或已知頁面等級(jí)的域 名的列表??梢允褂糜⑻鼐W(wǎng)上的、在接收者的計(jì)算機(jī)上本地維持的或從遠(yuǎn)程 計(jì)算機(jī)訪問的資源來獲取公知域名的列表。如果確定超鏈接中的域名對(duì)應(yīng)于 公知域名,則在步驟20中,將與該公知域名關(guān)聯(lián)的預(yù)定頁面等級(jí)參數(shù)分配給 所識(shí)別的域名或超鏈接本身。但是,如果所識(shí)別的域名沒有出現(xiàn)在公知或高 頁面等級(jí)域名的列表中,則在步驟22中,使用英特網(wǎng)上的其他資源估計(jì)與鏈 接目的地中的域名關(guān)聯(lián)的網(wǎng)站的頁面等級(jí)值。具體地,可以通過從諸如搜索 虧1擎www.valioo,com或www.google.com的某些網(wǎng)站或4壬4可其j也網(wǎng)頁活動(dòng)性 或分級(jí)的源獲取數(shù)據(jù)來確定用于諸如網(wǎng)站的目的地的頁面等級(jí)值。在步驟24 中,比較與域名關(guān)聯(lián)的所確定的頁面等級(jí)值和與公知域名關(guān)聯(lián)的頁面等級(jí)值。 在步驟26中,基于該比較,給超鏈接分配頁面等級(jí)參數(shù)。在非限制的例子中, 頁面等級(jí)參數(shù)可以是引用被超鏈接的網(wǎng)站的網(wǎng)頁的數(shù)量和引用公知域名的網(wǎng) 頁的數(shù)量之間的關(guān)系的某種可配置的函數(shù)。最優(yōu)選地,頁面等級(jí)參數(shù)是高頁 面等級(jí)網(wǎng)站的排序列表內(nèi)的網(wǎng)站等級(jí)??商鎿Q地,頁面等級(jí)參數(shù)可以是引用 被超鏈接的網(wǎng)站或特定網(wǎng)頁的引用的數(shù)量的測(cè)量。在步驟28中,比較被分配給URL的域名的頁面等級(jí)參數(shù)與可配置的閾 值,并且如果頁面等級(jí)參數(shù)在閾值以上,則在步驟29中,則評(píng)估終止,并且 使能超鏈接并且使該超鏈接可用于接收者的選擇而不警報(bào)或通知。但是,如 果所識(shí)別的域名的頁面等級(jí)參數(shù)在閾值以下,則在步驟34中,對(duì)于字符重復(fù)、 字符替換和指示誤導(dǎo)接收者的意圖的其他內(nèi)容分析超鏈接的URL內(nèi)的字符。 該分析可以包括分析超鏈接的URL關(guān)于被替換或代替的字符,比如用小寫字 母L代替數(shù)字一(l),重復(fù)本應(yīng)該不重復(fù)的字母、省略的字母、復(fù)數(shù)、省略 的復(fù)數(shù)、以及標(biāo)簽中的任何其他誤導(dǎo)字符。基于文檔的語言,被分析的字符 可能不同。在步驟36中,基于上述相似分析的結(jié)果,將相似性參數(shù)分配給 URL。相似性參數(shù)指示URL是否包含與公知或高頁面等級(jí)域名非常相似但是 稍有不同的域名。在步驟38中,分析域名的相似性參數(shù),以確定超鏈接是否是誤導(dǎo)的。聯(lián)系圖2給出該確定的更詳細(xì)論述,圖2是圖示超鏈接是誤導(dǎo)的可能性的象限圖。域名的相似性參數(shù)的分析意要確定所識(shí)別的域名何時(shí)暗示著公知或高頁面等級(jí)域名(高相似性),而URL內(nèi)的實(shí)際域名的頁面等級(jí)參數(shù)指示其不是 公知域名(步驟28中的低頁面等級(jí))。如果在步驟38中沒發(fā)現(xiàn)超鏈接是誤導(dǎo)的,則在步驟40中,方法移至步 驟29并且終止,直到另一超鏈接需要分析(在步驟10從頭開始)。如果在步 驟38中發(fā)現(xiàn)超鏈接是誤導(dǎo)的,則在步驟40中,方法移至步驟42,并采取補(bǔ) 救行動(dòng)。該補(bǔ)救行動(dòng)可以只包括通知接收者電子文檔中所包含的超鏈接可能 是誤導(dǎo)的、廢除超鏈接、阻擋來自發(fā)送電子文檔處的地址、或任何其他行動(dòng)。圖2是圖示通過本發(fā)明的方法做出的超鏈接的分類來確定電子文檔內(nèi)所 包含的超鏈接是誤導(dǎo)的可能性的象限圖。帶有高頁面等級(jí)參數(shù)的域名將必然 具有高流量。這指示英特網(wǎng)用戶頻繁訪問,并且欺詐或誤導(dǎo)是不太可能的。 實(shí)質(zhì)上在閾值之上的所分配的頁面等級(jí)參數(shù)指示超鏈接很有可能是安全的 50。與分配給該域名的低或者高相似性參數(shù)結(jié)合的分配給域名的高頁面等級(jí) 參數(shù)指示超鏈接很有可能是有效并且安全的50。盡管與該域名關(guān)聯(lián)的網(wǎng)站的 頁面等級(jí)值是低的,但是所識(shí)別的域名不與頻繁訪問的域名混淆地相似。因 此,通過超鏈接訪問的網(wǎng)站很有可能是帶有適當(dāng)功能(niche following )的合 法網(wǎng)站。但是,該域名是被創(chuàng)建用于實(shí)施誘騙犯罪的可能性仍然存在。與分配給該域名的高相似性參數(shù)結(jié)合的分配給所識(shí)別的域名的低頁面等 級(jí)參數(shù)指示該超鏈接很有可能是誤導(dǎo)的54。在這種情況下,到與所識(shí)別的域 名關(guān)聯(lián)的網(wǎng)站的流量很少,并且所識(shí)別的域名與頻繁訪問的域名具有很高相 似性。由于相似性參數(shù)專門尋找被插入或省略以使域名看起來很像公知或具 有高頁面等級(jí)的域名的誤導(dǎo)字符,因而低頁面等級(jí)參數(shù)和高相似性參數(shù)的結(jié) 合指示具有很高可能性是誤導(dǎo)鏈接的超鏈接。相反,與分配給該域名的低相 似性參數(shù)結(jié)合的分配給域名的低頁面等級(jí)產(chǎn)生指示該超鏈接可能是良好超鏈 接52。圖3是能夠接收并打開諸如電子郵件消息的電子文檔并進(jìn)行確保URL鏈 接的合法性的方法的計(jì)算機(jī)系統(tǒng)50的示意圖。系統(tǒng)50可以是以傳統(tǒng)個(gè)人計(jì) 算機(jī)50形式的通用計(jì)算設(shè)備。 一般地,個(gè)人計(jì)算機(jī)50包括處理單元51、系 統(tǒng)存儲(chǔ)器52和系統(tǒng)總線53,其中系統(tǒng)總線53把包括系統(tǒng)存儲(chǔ)器52的公知系統(tǒng)組件耦接到處理單元51。系統(tǒng)總線53可以是包括使用任何一種總線體 系的存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線和本地總線的幾種總線結(jié)構(gòu)的任 意一種。系統(tǒng)存儲(chǔ)器包括只讀存儲(chǔ)器(ROM) 54和隨機(jī)存取存儲(chǔ)器(RAM) 55。 將基本輸入/輸出系統(tǒng)(BIOS ) 56存儲(chǔ)在ROM54中,該基本輸入/輸出系統(tǒng) (BIOS) 56包含了有助于比如在啟動(dòng)期間、在個(gè)人計(jì)算機(jī)50內(nèi)的元件之間 傳輸信息的基礎(chǔ)程序。計(jì)算機(jī)50還包括用于從硬盤57讀取或向其寫入的硬盤驅(qū)動(dòng)57、用于從 可移動(dòng)磁盤59讀取或向其寫入的磁盤驅(qū)動(dòng)58以及用于從諸如CD-ROM或其 他光介質(zhì)的—可移動(dòng)光盤61讀取或向其寫入的光盤驅(qū)動(dòng)60。硬盤驅(qū)動(dòng)57、》茲 盤驅(qū)動(dòng)58和光盤驅(qū)動(dòng)60分別通過;更盤驅(qū)動(dòng)4妻口 62、》茲盤驅(qū)動(dòng)接口 63和光 盤驅(qū)動(dòng)接口 64與系統(tǒng)總線53連接。盡管在此所述的示范環(huán)境采用了硬盤57、 可移動(dòng)磁盤59和可移動(dòng)光盤61,但是本領(lǐng)域技術(shù)人員應(yīng)該意識(shí)到,在示范 操作環(huán)境中也可以使用能夠存儲(chǔ)可由計(jì)算機(jī)訪問的數(shù)據(jù)的其它類型的計(jì)算機(jī) 可讀介質(zhì),比如磁帶、閃存卡、數(shù)字視頻盤、Bernoulli編碼磁帶、RAM、 ROM 等。驅(qū)動(dòng)和它們關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)提供了計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、 程序模塊和用于計(jì)算機(jī)50的其他數(shù)據(jù)的非易失性存儲(chǔ)。例如,可以將諸如網(wǎng) 絡(luò)瀏覽器66和電子郵件程序67的操作系統(tǒng)65和應(yīng)用程序存儲(chǔ)在計(jì)算機(jī)50 的RAM 55和/或硬盤57中。用戶可以通過諸如鍵盤70的輸入設(shè)備和諸如鼠標(biāo)71的定點(diǎn)設(shè)備 (pointing device )將指令和信息輸入到個(gè)人計(jì)算機(jī)50中。其他輸入設(shè)備(沒 有示出)包括麥克風(fēng)、操縱桿、衛(wèi)星天線、掃描儀等。這些和其他輸入設(shè)備 通常通過與系統(tǒng)總線53耦接的串口接口 68與處理單元51連接,而輸入設(shè)備 可以通過其他諸如并口、通用串行總線(USB)等的接口來連接。顯示設(shè)備 72也可以通過諸如視頻適配器69的接口與系統(tǒng)總線53連接。除了監(jiān)視器外, 個(gè)人計(jì)算機(jī)一般包括其他外圍輸出設(shè)備(沒有示出),比如揚(yáng)聲器和打印機(jī)。計(jì)算機(jī)50可以在聯(lián)網(wǎng)環(huán)境下使用與一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)74的邏輯連 接來操作。遠(yuǎn)程計(jì)算機(jī)74可以是另一個(gè)人計(jì)算機(jī)、服務(wù)器、客戶端、路由器、 網(wǎng)絡(luò)PC、對(duì)等設(shè)備、主機(jī)、個(gè)人數(shù)字助理、與英特網(wǎng)連接的移動(dòng)電話或其他 公共網(wǎng)絡(luò)節(jié)點(diǎn)。雖然遠(yuǎn)程計(jì)算機(jī)74 —般包括多個(gè)或所有與計(jì)算機(jī)50有關(guān)的 上述元件,但是在圖中僅圖示了顯示設(shè)備75。圖中所示的邏輯連接包括局域網(wǎng)(LAN)76和廣域網(wǎng)(WAN) 77。這種聯(lián)網(wǎng)環(huán)境是辦公室中普通的、企業(yè) 廣泛使用的計(jì)算機(jī)網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和英特網(wǎng)。當(dāng)被使用在LAN聯(lián)網(wǎng)環(huán)境中時(shí),計(jì)算機(jī)50通常通過網(wǎng)絡(luò)接口或適配器 78被連接到局域網(wǎng)76。當(dāng)被使用在WAN聯(lián)網(wǎng)環(huán)境中時(shí),計(jì)算機(jī)50 —般包 括調(diào)制解調(diào)器79或用于在諸如英特網(wǎng)的WAN 77上建立高速通信的其他裝 置??赡苁莾?nèi)部的或外部的調(diào)制解調(diào)器79通過串口接口 68與系統(tǒng)總線53連 接。在聯(lián)網(wǎng)環(huán)境下,可以將與個(gè)人計(jì)算機(jī)50有關(guān)的所示程序模塊或其部分存 儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備75中。將意識(shí)到,所示的網(wǎng)絡(luò)連接是示范性的,并 且可以使用在計(jì)算機(jī)間建立連接的其他裝置。可以將大量程序模塊,包括操 作系統(tǒng)65和瀏覽器66存儲(chǔ)在硬盤57、》茲盤59、光盤61 、 ROM 54、或RAM 55上。所述的計(jì)算機(jī)系統(tǒng)并不暗示體系結(jié)構(gòu)限制。例如,本領(lǐng)域技術(shù)人員將意 識(shí)到,可以在包括手持設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程的消 費(fèi)電子、網(wǎng)絡(luò)個(gè)人計(jì)算機(jī)、迷你計(jì)算機(jī)、主機(jī)計(jì)算機(jī)等的其他計(jì)算機(jī)系統(tǒng)配 置中實(shí)現(xiàn)本發(fā)明。還可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在分布式計(jì)算環(huán) 境中由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中, 可已經(jīng)被定位在邏輯和遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備兩者中。應(yīng)該將在此的權(quán)利要求和說明書中所使用的措辭"包括"、"包含"和"具 有"當(dāng)作指示可以包括沒有示出的其他元件的開放組。應(yīng)該采取措辭"一個(gè) (a)"、"一個(gè)(an)"和單詞的單數(shù)形式以包括相同單詞的復(fù)數(shù)形式,以便這 些措辭意味著提供了某物的一個(gè)或多個(gè)。措辭"一個(gè)(one)"或"單個(gè)"可 以用于指示意指某物的一個(gè)或僅一個(gè)。類似地,當(dāng)意指特定數(shù)量的某物時(shí), 可以使用諸如"兩個(gè)"的其他特定整數(shù)值。措辭"優(yōu)選地"、"作為優(yōu)選"、"優(yōu) 選"、"選擇地"、"可以"和類似措辭可以用于指示所指的項(xiàng)目、條件或步驟 是本發(fā)明的可選(不是要求的)特征。雖然已經(jīng)關(guān)于有限數(shù)量的實(shí)施例描述了本發(fā)明,但是從本公開受益的本 領(lǐng)域技術(shù)人員將意識(shí)到,不脫離如在此公開的本發(fā)明的范圍,可以設(shè)計(jì)其他 實(shí)施例。因此,本發(fā)明的范圍應(yīng)當(dāng)僅受所附權(quán)利要求的限制。
權(quán)利要求
1.一種方法,包括識(shí)別電子文檔內(nèi)的超鏈接,其中該超鏈接包括域名;以及如果確定所述域名與小于閾值的頁面等級(jí)值關(guān)聯(lián)并且如果確定所述域名相對(duì)于與大于該閾值的頁面等級(jí)值關(guān)聯(lián)的另一域名具有一個(gè)或多個(gè)誤導(dǎo)字符替換、添加或刪除,則針對(duì)該超鏈接的使用自動(dòng)地采取補(bǔ)救行動(dòng)。
2. 如權(quán)利要求l所述的方法,其中,通過以下步驟確定所述域名與小于 閾值的頁面等級(jí)值關(guān)聯(lián)如果所識(shí)別的域名出現(xiàn)在具有預(yù)定頁面等級(jí)值的域名的列表中,則分配 與所識(shí)別的域名關(guān)聯(lián)的預(yù)定頁面等級(jí)值;以及如果所識(shí)別的域名沒有出現(xiàn)在所述列表中,則根據(jù)所識(shí)別的域名的頁面 等級(jí)值和所述列表中的域名的頁面等級(jí)值來分配頁面等級(jí)參數(shù)。
3. 如權(quán)利要求l所述的方法,其中通過以下步驟確定所述域名具有一個(gè) 或多個(gè)誤導(dǎo)字符替換、添加或刪除識(shí)另纟所識(shí)另'j的域名和所列的域名的至少 一 個(gè)之間的差異;以及 找出在誤導(dǎo)字符替換、添加或刪除的列表中的每個(gè)所識(shí)別的差異。
4. 如權(quán)利要求3所述的方法,其中如果在沒有一個(gè)或多個(gè)誤導(dǎo)字符替換、 添加或刪除的情況下、所識(shí)別的域名將與所列域名中的一個(gè)相匹配,則確定 所識(shí)別的域名具有 一 個(gè)或多個(gè)誤導(dǎo)字符。
5. 如權(quán)利要求l所述的方法,還包括 比較鏈接標(biāo)簽與所識(shí)別的域名的相似性。
6. 如權(quán)利要求l所述的方法,其中所述補(bǔ)救行動(dòng)包括通知用戶所述超鏈 接很有可能是誤導(dǎo)的。
7. 如權(quán)利要求1所述的方法,其中,所述補(bǔ)救行動(dòng)包括阻擋所述超鏈接。
8. 如權(quán)利要求3所述的方法,其中識(shí)別差異的步驟還包括字符。 'z — ' 、 " ' 5' '
9. 一種計(jì)算機(jī)系統(tǒng),包括用于識(shí)別電子文檔內(nèi)的超鏈接的裝置,其中該超鏈接包括域名; 用于如果確定所述域名與小于閾值的頁面等級(jí)值關(guān)聯(lián)并且如果確定所述域名相對(duì)于與大于該閾值的頁面等級(jí)值關(guān)聯(lián)的域名具有一個(gè)或多個(gè)誤導(dǎo)字符 替換、添加或刪除,則針對(duì)該超鏈接的使用自動(dòng)采取補(bǔ)救行動(dòng)的裝置。
全文摘要
一種用于驗(yàn)證超鏈接的合法性并確定用戶被引導(dǎo)到的網(wǎng)站的域名是否合法的方法。在一個(gè)實(shí)施例中,本方法識(shí)別超鏈接、超鏈接內(nèi)的URL以及URL內(nèi)的域名。然后給所識(shí)別的域名分配頁面等級(jí)參數(shù)。如果該頁面等級(jí)參數(shù)在閾值以下,則本方法比較所識(shí)別的域名與公知或高頁面等級(jí)域名的列表。然后將相似性參數(shù)分配給所識(shí)別的域名,以指示該域名是否是誤導(dǎo)的。如果該鏈接是誤導(dǎo)的,本方法可以實(shí)施某些可配置的補(bǔ)救行動(dòng),比如警告用戶或廢除超鏈接。
文檔編號(hào)G06F21/20GK101221611SQ200810003110
公開日2008年7月16日 申請(qǐng)日期2008年1月10日 優(yōu)先權(quán)日2007年1月11日
發(fā)明者卡里·L·貝茨, 詹姆斯·E·凱里, 賈森·J·伊爾格 申請(qǐng)人:國際商業(yè)機(jī)器公司