專利名稱:一種用于url重寫的方法和設(shè)備的制作方法
一種用于URL重寫的方法和設(shè)備
本發(fā)明涉及一種用于URL重寫的方法,所述方法包括 用戶計算機一旦接收一個由用戶提供的由字符構(gòu)成的至少由域名和 TLD組成的URL,監(jiān)測錯誤消息的生成,所述錯誤消息包括數(shù)據(jù)域, 指示生成的錯誤從而URL與可識別的因特網(wǎng)協(xié)議地址不匹配; * 一旦生成所述錯誤消息,搜索所述已經(jīng)導致所述錯誤消息生成的
URL,將所述搜索的URL重路由到URL重寫站; 參該方法用于幫助例如輸入一個帶有已經(jīng)不再使用的域名的URL的用戶。
識別該不再使用的域名并由一個現(xiàn)行的域名代替。并且搜索引擎,例如 google,也被用于檢測不正確的URL并向用戶提供選擇。 現(xiàn)有的方法缺點在于這些方法執(zhí)行能力不強并通常只能改正URL中單 個字符的拼寫錯誤,因此多數(shù)情況下當用戶輸入一個不正確的URL或選擇一 個不正確的超鏈接,他將不能進入所請求的網(wǎng)頁并僅得到一個錯誤消息指示 不知道所請求的URL或不能找到所請求的URL。這樣的消息往往會擾亂不能 得到他想要的信息的用戶。
本發(fā)明的目的在于提供給用戶,特別是因特網(wǎng)用戶一個更加有執(zhí)行能力 的工具用于重寫URL并且提供給用戶更多的機會使其在使用了錯誤的URL時 進入他想要的因特網(wǎng)網(wǎng)頁。
基于該目的,根據(jù)本發(fā)明的方法特征在于所述方法還包括 *在所述重寫站中掃描所述被搜索的URL,用于在其字符中檢測一個或多個 屬于預定字符列表中的字符的存在,所述列表還包括用于每個所述預定 字符的替代字符,并且一旦檢測到這樣的預定字符,后者被給定的替代 字符所取代,用于將被搜索URL形成一個替代URL; *在所述替代URL中分離所述域名和所述TLD;*將所述域名和屬于域名字典中的補充域名進行比較, 一旦存在所述域名
和所述補充域名之間的匹配,通過將所述用于重寫URL的補充域名取代
所述域名來重寫所述替代URL; 如果以上步驟沒有得到重寫的URL,將TLD和屬于TLD字典中的補充TLD
進行比較, 一旦存在所述TLD與所述補充TLD之間的匹配,通過將所述
用于重寫URL的補充TLD取代所述TLD來重寫所述替代URL; *如果以上步驟沒有得到重寫的URL,在所述域名上應(yīng)用拼寫糾正算法,并
且如果所述25應(yīng)用導致域名的修改,用所述修改的域名代替所述域名用
于重寫所述URL;
*如果以上步驟沒有得到重寫URL,將所述域名分成多個分段,且對于每個 分段驗證是否30所述分段在語言學上可以接受,如果所述分段在語言學 上不能被接受,用與該分段具有多個相同字符的語言學上可以接受的分 段取代所述分段,通過使用所述替代分段重寫所述URL; *將所述重寫的URL呈現(xiàn)給用戶。 通過用替代字符取代一個明顯錯誤的字符可形成正確的URL,這將很快 將用戶路由到正確的站點或至少向因特網(wǎng)用戶提供一個合適的URL。通常情 況下會產(chǎn)生同樣的輸入錯誤,例如將"a"輸入為"z"或是"e",可以建 立一個考慮這些錯誤的字典。這樣一個字典的使用將有助于很容易且很快的 找到正確的URL。如果在字典中找不到正確的URL,在域名上應(yīng)用拼寫糾正 算法。由于URL中的錯誤經(jīng)常是由于拼寫錯誤,拼寫糾正算法將有助于得到 正確的URL并找到請求的URL。如果拼寫糾正算法不能提供解決方法,域名 將被分割為分段并且這些分段被分別處理以用于重寫域名。根據(jù)本發(fā)明的方 法,提供用于重寫導致無效請求的URL的一系列步驟。本發(fā)明提出的方法通 過幾次糾正嘗試,進入想要的因特網(wǎng)站點的可能性將大大增加。
根據(jù)本發(fā)明的首選實施例,其特征在于所述預定字符列表包括表示連接 或分離特性的字符的子列表,每個所述子列表的字符有作為替代字符的間隔字符以形成分段的域名。具有連接或分離特性的字符提供可靠的方式去進一 步細分域名到分段,且對組成域名的不同分段進行分段分析。
根據(jù)本發(fā)明的第二優(yōu)選實施例,其特征在于與URL分離之后,掃描所述 TLD用于檢測無關(guān)字符,且一旦檢測到所述無關(guān)字符,后者被移除。由于組 成TLD的字符數(shù)量是很有限的,掃描所述TLD以檢測無關(guān)字符可容易且快速 實現(xiàn),使得TLD被糾正且將存在錯誤的TLD尋址到請求的站點。
根據(jù)本發(fā)明的第三優(yōu)選實施例,其特征在于,對域名進一步分段分割是 基于具有預定的字符數(shù)的分段,掃描每一個分段用于檢測在一個分段和一個 所述字典中的可比字之間共同的字符,每一次檢測到共同的字符會加分,并 且基于所述得分在分段中定義對應(yīng)率,所述得到最高分的可比字被選擇進行 替換。通過設(shè)定分段的字符數(shù)的上限使得進一步分割為分段變得容易,而且, 在檢測到共同字符時分配得分,使替代選擇變得容易。
最好對所述得分設(shè)定一個低閾值,其中,如果沒有得分達到所述閾值,不 提供替代。通過設(shè)定一個低閾值,使該方法效率更高,因為成功幾率很小的替 代則不再考慮。
最好是一旦搜索所述URL,指示實際時間的時間數(shù)據(jù)也被搜索并附加到 所述URL上。在特定的環(huán)境因素下的實際時間將有助于找到正確的URL。 本發(fā)明還涉及實現(xiàn)該方法的設(shè)備。
下面將參照
根據(jù)本發(fā)明的方法和設(shè)備的優(yōu)選實施例。
圖1示意性地說明了因特網(wǎng)接入;
圖2說明了實現(xiàn)本發(fā)明提出的方法的設(shè)備結(jié)構(gòu);
圖3說明了處理URL的不同步驟。
在圖中相同的附圖標記代表相同或相似的元件。
圖1示意性的說明了請求因特網(wǎng)站點的路徑。用戶,也稱為因特網(wǎng)用戶, 具有計算機l,通常是PC(個人計算機),具有必要的軟件使其可以接入因特網(wǎng)。該計算機1例如經(jīng)由電話線連接至DNS (域名服務(wù)器)2。后者被裝 備用于將URL轉(zhuǎn)換至IP (因特網(wǎng)協(xié)議)地址。每一個URL至少由三部分組
成
* l.TLD (頂級域)域名的最高級且通常在URL的結(jié)尾處。已知的TLD例如 是"com", "org", "mil", "gov", "eu"和國家代碼例如"be",
"de" , "lu"等……
* 2.域名,指示分配給特定實例,公司或通常是站點名的名稱。域名的一 個例子為"印o"屬于歐洲專利局的因特網(wǎng)地址(www. e。o. org);
* 3.主機名,"www"(萬維網(wǎng))或"http"。 當用戶形成一個URL,例如www. domainname. com, DNS (2)搜索該URL
并將"domainname"轉(zhuǎn)換為IP地址(例如,192. xxx. xxx. xxx)。基于該 目的DNS在其緩存里已經(jīng)有該地址并很容易在其緩存中搜索到該IP地址。 如果該IP地址不在其緩存中,該DNS尋址到域名主機的根服務(wù)器。根服務(wù) 器接著將請求的IP地址發(fā)送到DNS。 一旦IP地址可用,后者被因特網(wǎng)發(fā)送 至服務(wù)器4以到達具有使用的IP地址的服務(wù)器并且在該服務(wù)器上請求的站 點搜索可用的必要信息。
用戶的PC (1)還與保存多個IP地址的代理服務(wù)器(3)進行聯(lián)系,這 些IP地址通常是用戶常用的那些。當用戶每次經(jīng)由鍵盤或經(jīng)由超鏈接形成 URL時,該URL被發(fā)送至代理服務(wù)器3,它將在因特網(wǎng)上從地址服務(wù)器中搜 索該請求數(shù)據(jù)。該代理服務(wù)器將使用IP地址用于找到存貯在自己內(nèi)部存儲 器中的請求站點的地址。當請求的數(shù)據(jù)已經(jīng)保存在請求的站點內(nèi)部存儲器中 時,因為有了一個較早的請求,該請求的數(shù)據(jù)將直接從代理服務(wù)器的緩存中 搜索。
可能發(fā)生用戶輸入一個錯誤的URL的情況,例如由于輸入錯誤,或由于 誤解信息,導致URL不能被代理服務(wù)器或DNS識別。還可能是用戶通過使用 一個有差錯超鏈接生成一個請求。這樣的錯誤例如是在域名中使用了一個或多個錯誤的字符,例如拼寫錯誤, 一個或多個字符的遺漏或URL中含有過多 的字符。在所有這些情況下,由于代理服務(wù)器或DNS不能識別該URL且不能 與一個可識別的工P相匹配,該代理服務(wù)器或DNS不能分配一個正確的IP地 址。如果有必要,將生成一個指示URL是錯誤的錯誤消息給用戶。該錯誤消 息包括指示錯誤的數(shù)據(jù)域。
本發(fā)明要解決的問題就是針對生成所述錯誤消息。在DNS 2或代理服務(wù) 器3的層上,安裝監(jiān)測設(shè)備用于監(jiān)測上述錯誤消息的產(chǎn)生。后者的檢測將導 致引起錯誤消息的URL被監(jiān)測設(shè)備搜索并且重路由到連接至因特網(wǎng)的URL重 寫站6。
當監(jiān)測設(shè)備識別出一個錯誤消息,將引起錯誤消息的URL提取出來并且 使用http協(xié)議向網(wǎng)頁中加入HTML碼。當識別出URL中的錯誤,該代理服務(wù) 器或DNS也將識別該錯誤的類型和錯誤的數(shù)據(jù)。優(yōu)選地,該錯誤的類型和錯 誤的數(shù)據(jù)信息也被提供給重寫站6。
在DNS階段中的監(jiān)測設(shè)備將指示不存在該域的NXDOMAIN消息取代為重 寫站6的IP地址。它也將被視為在出錯信息中提供選擇并僅重路由給定類 型的錯誤,例如那些請求連接至可接受的登記的域名。這樣反垃圾郵件過濾 器將能使得已經(jīng)使用了反向域名發(fā)送郵件的服務(wù)器生效。反向域名表明使用 IP地址而不是使用域名。
ACL (接入/出控制表)控制URL的重路由。ACL中的一個重路由IP列 表或集合,而另一個ACL在IP地址或IP集合中進行搜索。當URL被重路由, 用戶最好也將收到指示生成的URL被重路由的消息。并且,監(jiān)測設(shè)備也將提 出重路由包含有效的可識別域名的URL?;诜傻脑?,提供者必須能使 提出違法主題內(nèi)容的或因間諜軟件對PC的污染而指向的站點的有效域名變 得無效。下面將給出一些例子。
9域名
請求(a)
MX郵件交換請求(b) NS請求至在域內(nèi)權(quán)威的服務(wù)器(c) 正確—IP服務(wù)器
(a)
錯誤 正確
(b)
錯誤-
正確
到重寫站
IP服務(wù)器MX區(qū)域
NX廳AIN
IP服務(wù)器NS區(qū)域
(c)
錯誤—NXDOMAIN
為了提供一個有效的重寫站,后者最好具有圖2所示的結(jié)構(gòu)。該重寫 站連接到因特網(wǎng)4且包括多個防火墻7-1, 7-2, 7-3。后者過濾輸入的請求 并且只選擇尋址到重寫站的那些請求。每個防火墻服務(wù)一個包括多個http 服務(wù)器9.1/1, ... 9.2/1, .... 9.3/1的族8-1, 8-2, 8-3。相同族中的 http服務(wù)器被連接至數(shù)據(jù)庫服務(wù)器10-1, 10-2, 10-3,其依次連接至處理 服務(wù)器ll。所有的族8由一個同樣的5處理服務(wù)器11服務(wù), 一起形成一個 平臺。http服務(wù)器9檢査并過濾例如病毒等有害輸入。他們分析句法誤差 且掃描和分析收到的URL用于檢査錯誤且提供一個正確的URL。數(shù)據(jù)庫服務(wù) 器10為http服務(wù)器提供數(shù)據(jù),最好通過使用緩存和恢復處理以將他們提供 到處理服務(wù)器11。處理服務(wù)器的功能是恢復來自數(shù)據(jù)庫服務(wù)器的信息,分 析他們并且處理他們以使他們變得可用。
如果錯誤消息已經(jīng)生成,它將被經(jīng)由代理服務(wù)器或DNS路由至重寫站。 代理服務(wù)器為生成錯誤消息的URL重路由,并在URL上添加附加數(shù)據(jù)。DNS 直接將URL路由至重寫站。當URL被重路由,重寫站點也將接收到頭數(shù)據(jù)。下面給出數(shù)據(jù)發(fā)送到重寫站點的例子。
GET/HTTP/1.1請求
Host: www.goIog.net請求域名
User-Agent : Moailla/5.0 ( Windows;U;Windows NT因特網(wǎng)瀏覽器類
5.1 ;en-US;rv: 1.8b5) Gecko/20051006型
Firefoc/1.4.1
Accept: Text/xml,application/xml,application/xhtml+xml,text/html; Q=0.9,text/plain;q=0.8,image/png,*/*,q=0.5瀏覽器接受的文 件類型
Aceecpt-Language:en-us,en;q=0.5缺省語言
Accept-Charset:ISO-8859-l,utf-8;q=0.7,*;q=0.7缺省字符類型
Referer:http:〃www.golog.net/請求的URL頁
當存在"referrer",也就是當由超鏈接引起錯誤消息生成的URL,搜 索"referrer"中的域名且與URL中的域名結(jié)合。這將能比較"referrer" 和URL,該比較將允許下面描述的一些處理。該"referrer"指示最后的URL 請求的地址,且包括URL的域名和路徑。
當發(fā)生重路由時,該重路由發(fā)生的日期和實際時間最好也發(fā)送給重寫 站。此外,最好從URL中推斷出的地理位置數(shù)據(jù)并發(fā)送給重寫站。該地理位 置數(shù)據(jù)從用戶的地理連接點和IP地址中被推斷出來。用戶的"反向的"IP 地址也能用于識別用戶發(fā)布URL的地理區(qū)域。日期和實際時間和地理位置數(shù) 據(jù)是用于糾正URL的有用信息。
源于預付費網(wǎng)頁的數(shù)據(jù)也將發(fā)送至重寫站。該處理過程能添加java腳 本請求到用戶登陸的每個HTML頁。該添加使得當重寫URL呈現(xiàn)給用戶時添 加廣告數(shù)據(jù)。
圖3說明了重寫站點執(zhí)行的為了重寫引起錯誤消息的URL的不同步驟。 當URL被重路由(20),對URL進行過材料濾處理(21)。該材料過濾被通 常使用防火墻的硬件組件執(zhí)行,且使得對TCP/IP每個幀進行分析。該分析 例如包括a) IP包過濾,IP地址頭的認證,用于驗證源地址和目的地址。該過濾對應(yīng) 于路由器中的接入列表;
b) 狀態(tài)包過濾,其中通信狀態(tài)被驗證。例如包括序列號檢查和通信一 致性檢查;
c) 應(yīng)用層過濾,包括一致性認證和協(xié)議數(shù)據(jù)內(nèi)容認證。 過濾之后,http服務(wù)器應(yīng)用邏輯濾波(22)。該邏輯濾波基于網(wǎng)頁服
務(wù)器軟件的"改寫"功能。該濾波使用公式列表刪除被識別的請求。該操作 的結(jié)果將通過重置的答復關(guān)閉接入路由。
過濾之后,http服務(wù)器將URL分成幾部分。如果有必要,在消除(24) 特殊字符例如將6, 6, 6, tl對應(yīng)轉(zhuǎn)換為a, e, e, u之后,URL被解碼(23)。 其后被劃分后屬于子列表和表示連接或分離特性的部分的URL例如","; "&"; "+",....這些字符將被間隔字符代替用于形成一個分段的域名。所以, 例如如果域名包括〃terra + world〃,該分段操作將得到結(jié)果〃terra world"。 實際上用戶輸入了 " + "是由于自然語言錯誤,代替"U+"的將會是"and" 通過在字符"+ "層上將URL分段,相關(guān)的字"terra"和"world"將被檢 索以用于進一步的處理。
將URL分段也能用于分開不包括域名數(shù)據(jù)的部分比如http: 〃www..
為了分別進行分析TLD也將被分開。通常提到重寫站掃描接收到的URL 檢測它的字符中存在屬于預定字符列表中一或多個字符。正如已經(jīng)描述的那 樣, 一些字符例如"ei, +, U,...。該列表包括每個字符的一個替代字符。 例如替代"ii"的字符是"u"。當掃描操作結(jié)果檢測到了列表中包含的這樣的字 符,該字符將被他的替代字符所取代以形成一個替代URL。當替代URL形成 時,為了檢査該替代URL是否導致因特網(wǎng)中的有效請求的嘗試就已作出。如 果是,該替代URL被提供給用戶并且重寫結(jié)束。
將URL分段之后,用于URL重寫的對URL的分析將會開始。三種類型的 分析將被執(zhí)行。首先,執(zhí)行"SPE" (26)分析。該SPE分析包括域名比對,或替代域名比對,如果有任何具有屬于域名字典中的補充域名的替代域名。 例如如果替代域名對應(yīng)一個字典中的補充域名,將會發(fā)生替代域名和補充域
名之間的匹配,該URL將被重寫,即由現(xiàn)在的域名替代補充域名。包括補充 域名的URL的將被呈現(xiàn)給用戶,因此結(jié)束該重寫操作。
如果域名的"SPE"分析沒有得到重寫的URL, TLD將被和TLD字典中的 補充TLD進行比較。當?shù)玫綄嶋H的TLD和補充TLD匹配時,補充TLD將替代 實際的TLD,且通過使用該補充TLD實現(xiàn)URL的重寫。
該重寫URL也將被展現(xiàn)給用戶并且重寫過程將結(jié)束。該SPE分析可以被 用于整個的域名和其中的分段。
如果域名和TLD的SPE分析都沒有得到URL的重寫結(jié)果,將執(zhí)行稱為 "SPE-" (27)的進一步分析,該"SPE-"分析使域名倒置,增加或刪除一 個或多個字符。例如如果原始的URL是"domain",該"SPE-"分析能將 "ddmain"改為"domain",如果該修改在字典中存在或應(yīng)用拼寫糾正算法 得到。實際上,域名中的錯誤常常源于當輸入URL時的拼寫錯誤。該"SPE-" 分析允許對域名應(yīng)用拼寫糾正算法。如果該拼寫糾正算法導致修改的域名, 后者將取代原始的域名從而生成重寫的URL。
可以使用多種拼寫糾正算法?;贚ivenshtein距離的算法是最佳的。 一旦使用該算法Livenshtein距離最大為2是最佳的,也就是說糾正兩個字 符。如果字典中的補充域名產(chǎn)生的Livenshtein距離小于2,分析將停止且 將修改的域名提供給用戶。該算法被應(yīng)用于完整的域名和由第25步驟分段 得到的片段。
如果"SPE-"分析沒有結(jié)果,執(zhí)行更進一步的稱為"ALL"的分析(28)。 該"ALL"分析基于尋找對原始的域名"關(guān)閉"的域名。對于"ALL"分析, 域名或替代域名被分成片段并且對分段執(zhí)行該分析。驗證每個片段將被驗證 是否在語言學上可以接受。如果不能,用語言學上可以接受的且與原始分段 具有多個相同字符的分段代替該分段。原始的域名例如是"muddmain"。所述分段將其分為"mu"和"ddmain", "ddmain"在語言學上不能被接受,而與其接近的"domain"是可以接受 的。"mu"可能由于輸入錯誤且會被"my"取代。重寫的域名將會是 "mydomain",為了認識到這樣的修改,最好使用模糊邏輯算法。該算法的 原則是將域名分解為2到5個字符的分段,并比較該分段和一個語言學上可 比較的分段之間的共同字符。共同的字符數(shù)將得到與其對應(yīng)程度相應(yīng)的分 數(shù)。對每一組共同的字符來說,該組字符在考慮的組中的字符數(shù)出現(xiàn)的頻率 將會增加。組中得到的結(jié)果將會相加,結(jié)果在比較公式中被1000除。對應(yīng) 率達到1000是完全匹配。所以每次檢測到一個共同的字符,分配一個得分。 選擇具有最高的得分的可比字。將定義該得分的低閾值,因此如果分配的得 分沒有達到閾值,不提供任何替代。
例如,在"難dedoamine"和"nomdedomaine"之間進行比較,所有字 中具有2, 3, 4, 5個相同的字符的組將會被形成no, nom, nomd, nomde, om, omd, omde, omded等等,應(yīng)用該算法將會給出得分840。最后,如果兩 個字得到相同的分數(shù),選擇具有更多字符數(shù)的一個。
重寫站將每個重寫操作的結(jié)果保存(30)在數(shù)據(jù)庫中,用于保持統(tǒng)計并 提供用于系統(tǒng)的自我學習能力。
權(quán)利要求
1. 一種用于URL重寫的方法,所述方法包括●用戶計算機一旦接收一個由用戶提供的由字符構(gòu)成的至少由域名和TLD組成的URL,監(jiān)測錯誤消息的生成,所述錯誤消息包括數(shù)據(jù)域,指示生成的錯誤從而URL與可識別的因特網(wǎng)協(xié)議地址不匹配;●一旦生成所述錯誤消息,搜索所述已經(jīng)導致所述錯誤消息生成的URL,將所述搜索的URL重路由到URL重寫站;其特征在于所述方法進一步包括●在所述重寫站中掃描所述被搜索URL,用于在其字符中檢測一個或多個屬于預定字符列表中的字符的存在,所述列表還包括用于每個所述預定字符的替代字符,并且一旦檢測到這樣的預定字符,后者被給定的替代字符所取代,用于將被搜索URL形成一個替代URL;●在所述替代URL中分離所述域名和所述TLD;●將所述域名和屬于域名字典中的補充域名進行比較,一旦存在所述域名和所述補充域名之間的匹配,通過將所述用于重寫URL的補充域名取代所述域名來重寫所述替代URL;●如果以上步驟沒有得到重寫的URL,將TLD和屬于TLD字典中的補充TLD進行比較,一旦存在所述TLD與所述補充TLD之間的匹配,通過將所述用于重寫URL的補充TLD取代所述TLD來重寫所述替代URL;●如果以上步驟沒有得到重寫的URL,在所述域名上應(yīng)用拼寫糾正算法,并且如果所述應(yīng)用導致域名的修改,用所述修改的域名代替所述域名用于重寫所述URL;●如果以上步驟沒有得到重寫URL,將所述域名分成多個分段,且驗證所述分段在語言學上是否可以接受,如果所述分段在語言學上不能被接受,用與該分段具有多個相同字符的語言學上可以接受的分段取代所述分段,通過使用所述替代分段重寫所述URL;●將所述重寫的URL呈現(xiàn)給用戶。
2. 如權(quán)利要求1所述的方法,其特征在于所述預定字符列表包括表示連接或分離特性的字符的子列表,每個所述子列表的字符有作為替代字符的間 隔字符以形成分段的域名。
3. 如權(quán)利要求2所述的方法,其特征在于所述比較步驟在所述分段域名 的分段上進行。
4. 如權(quán)利要求l, 2或3所述的方法,其特征在于與URL分離之后,掃 描所述TLD用于檢測無關(guān)字符,且一旦檢測到所述無關(guān)字符,后者被移除。
5. 如權(quán)利要求1至4中任一權(quán)利要求所述的方法,其特征在于所述拼寫 算法由距離為2的Livenshtein算法形成。
6. 如權(quán)利要求1至5中任一權(quán)利要求所述的方法,其特征在于對域名進 一步分段分割是基于分割具有預定的字符數(shù)的分段,掃描每一個分段用于檢 測在一個分段和一個所述字典中的可比字之間共同的字符,每一次檢測到共 同的字符會加分,并且基于所述得分在分段中確定對應(yīng)率,所述得到最高分 的可比字被選擇進行替換。
7. 如權(quán)利要求6所述的方法,其特征在于為所述得分定義一個低閾值, 其中如果沒有一個得分達到所述閾值,不提供替代。
8. 如權(quán)利要求1至7中任一權(quán)利要求所述的方法,其特征在于一旦搜索 所述URL,指示實際時間的時間數(shù)據(jù)也被搜索并附加到所述URL上。
9. 如權(quán)利要求1至8中任一權(quán)利要求所述的方法,其特征在于一旦搜索 所述URL,從所述URL中得到所述URL的地理位置信息并附加到所述URL上。
10. —種重寫URL的設(shè)備,所述設(shè)備包括*檢測設(shè)備用于用戶計算機一旦接收一個由用戶提供的由字符構(gòu)成的 至少由域名和TLD組成的URL,監(jiān)測錯誤消息的生成,所述錯誤消息 包括數(shù)據(jù)域,指示生成的錯誤從而URL與可識別的因特網(wǎng)協(xié)議地址不 匹配;*搜索設(shè)備用于一旦生成所述錯誤消息,搜索所述已經(jīng)導致所述錯誤消息生成的URL,將所述搜索的URL重路由到URL重寫站;其特征在于所述重寫站包括*掃描設(shè)備用于掃描所述被搜索URL,用于在其字符中檢測一個或多個屬于 預定字符列表中的字符的存在,所述列表還包括用于每個所述預定字符 的替代字符;*替代設(shè)備用于并且一旦檢測到這樣的預定字符,后者被給定的替代字符 所取代,用于由被搜索URL形成一個替代URL,所述替代URL中分離域名 和所述TLD;*比較設(shè)備用于將所述域名和屬于域名字典中的補充域名進行比較, 一旦 存在所述域名和所述補充域名之間的匹配,則將所述補充域名提供給所 述掃描設(shè)備,該掃描設(shè)備進一步用來通過將所述用于重寫URL的補充域 名取代所述域名來重寫所述替代URL,所述比較設(shè)備還用于,如果以上步 驟沒有得到重寫的URL,將TLD和屬于TLD字典中的補充TLD進行比較, 一旦存在所述TLD與所述補充TLD之間的匹配,則將所述補充TLD提供 給所述掃描設(shè)備,該掃描設(shè)備進一步用來通過將所述用于重寫URL的補 充TLD取代所述TLD來重寫所述替代URL;*拼寫糾正設(shè)備用于在所述域名中應(yīng)用拼寫糾正算法,如果替代設(shè)備沒有 生成重寫URL,在所述域名上進一步應(yīng)用拼寫糾正算法,并且如果所述應(yīng) 用導致域名的修改,用所述修改的域名代替所述域名用于重寫所述URL;*分離設(shè)備用于如果以上步驟沒有得到重寫URL,將所述域名分成多個分 段,且驗證所述分段在語言學上是否可以接受,如果所述分段在語言學 上不能被接受,用與該分段具有多個相同字符的語言學上可以接受的分 段取代所述分段,通過使用所述替代分段重寫所述URL。
全文摘要
一種用于重寫導致錯誤消息生成的URL的方法和設(shè)備。掃描所述URL,用于在其字符中檢測一個或多個屬于預定字符列表中的字符的存在。如果所述掃描導致與所述字符列表中的字符的匹配,用給定的替代字符進行取代。如果沒有發(fā)生匹配,則將該域名和TLD與屬于一個字典的補充的域名或URL進行比較。如果與該字典發(fā)生匹配,用該字典中匹配的域名或URL進行取代。如果沒有發(fā)生匹配,應(yīng)用拼寫糾正算法。如果拼寫糾正算法仍然不能得到糾正的URL,后者被分割和重寫。
文檔編號G06F17/30GK101477540SQ200910001080
公開日2009年7月8日 申請日期2009年1月21日 優(yōu)先權(quán)日2009年1月21日
發(fā)明者佛朗索瓦·盧克·科利儂 申請人:佛朗索瓦·盧克·科利儂