亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的方法和設(shè)備的制作方法

文檔序號(hào):6488607閱讀:190來(lái)源:國(guó)知局
用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開(kāi)了用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的方法和設(shè)備,該方法包括:使用根據(jù)規(guī)則從原始數(shù)據(jù)中提取的原始統(tǒng)一資源定位符進(jìn)行網(wǎng)絡(luò)訪問(wèn);當(dāng)所述網(wǎng)絡(luò)訪問(wèn)失敗時(shí),修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符;根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則。使用本發(fā)明的方法和設(shè)備可以提高統(tǒng)一資源定位符提取準(zhǔn)確率。
【專利說(shuō)明】用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實(shí)施方式涉及一種用于提供統(tǒng)一資源定位符(URL)提取準(zhǔn)確率的方法和設(shè)備。
【背景技術(shù)】
[0002]Web 2.0時(shí)代的到來(lái),逐漸改變了 Web 1.0時(shí)代的信息傳播方式,用戶的角色也發(fā)生了改變并被重新定位。通過(guò)Web 2.0技術(shù),信息傳播的成本變得非常低廉而且效率非常高,用戶在互聯(lián)網(wǎng)上可以獲得更大、更好的傳播、分享信息的自由。例如,各種社交網(wǎng)絡(luò)、資源共享網(wǎng)絡(luò)、各種社區(qū)、論壇、博客、微博等都為用戶發(fā)布各種信息和內(nèi)容提供了各種各樣的途徑。因此,在互聯(lián)網(wǎng)上將存在越來(lái)越多由用戶創(chuàng)作的內(nèi)容(UGC)和用戶分享的內(nèi)容。
[0003]當(dāng)用戶分享諸如視頻、音頻或網(wǎng)頁(yè)之類的網(wǎng)絡(luò)內(nèi)容時(shí),經(jīng)常通過(guò)在其發(fā)送的內(nèi)容中加入引用或分享的內(nèi)容的鏈接。當(dāng)前的社交網(wǎng)站或其它一些的網(wǎng)絡(luò)提供商經(jīng)常提供短鏈接服務(wù),其將用戶發(fā)送的內(nèi)容中的URL轉(zhuǎn)換成較短的形式予以顯示。例如,人人網(wǎng)提供的短鏈接服務(wù)可以將內(nèi)容中的 URL(比如 http://v.youku.com/v_show/id_XNDMyNTQlMTE2.html)轉(zhuǎn)換成比如http://rrurl.cn/3h9d4i。這需要從用戶發(fā)送的內(nèi)容的中提取正確的URL。一種常用的提取方式是基于正則表達(dá)式的字符串匹配,即在程序中寫(xiě)一個(gè)正則,然后每次在內(nèi)容中尋找匹配。這種方式是一種性價(jià)比很高的方式,解析效果比較好,大多數(shù)情況都能解析,但是涉及到一些特殊的規(guī)則的時(shí)候則會(huì)出現(xiàn)問(wèn)題,比如出現(xiàn)了中文,有的是中文域名的網(wǎng)站,有的是在url本身(不是參數(shù)部分queryString)包含中文比如“http://www.campaignchina.com/Article/285702,徐進(jìn)加盟靈獅中國(guó),出任合伙人兼北京靈獅首席執(zhí)行官.aspx”這個(gè)網(wǎng)址,如果在正則中不支持中文(這是目前各大網(wǎng)站的策略)則不能正確解析這個(gè)鏈接,如果我們?cè)谡齽t中支持中文那么問(wèn)題更嚴(yán)重,因?yàn)楹芏嘤脩粼谡迟N了鏈接后會(huì)馬上輸入別的內(nèi)容,比如 “http://news.163.com/12/0416/22/7V8CVANB00014JB5.html這里面說(shuō)事情好奇怪啊”這時(shí)會(huì)把整句話都進(jìn)行轉(zhuǎn)換,此時(shí)的錯(cuò)誤更加嚴(yán)重。所以需要解決這個(gè)問(wèn)題。

【發(fā)明內(nèi)容】

[0004]為了解決上述問(wèn)題,根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的方法,包括:使用根據(jù)規(guī)則從原始數(shù)據(jù)中提取的原始統(tǒng)一資源定位符進(jìn)行網(wǎng)絡(luò)訪問(wèn);當(dāng)所述網(wǎng)絡(luò)訪問(wèn)失敗時(shí),修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符;根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則。
[0005]根據(jù)本發(fā)明的另一方面,提供了一種用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的設(shè)備,包括:用于使用根據(jù)規(guī)則從原始數(shù)據(jù)中提取的原始統(tǒng)一資源定位符進(jìn)行網(wǎng)絡(luò)訪問(wèn)的裝置;用于當(dāng)所述網(wǎng)絡(luò)訪問(wèn)失敗時(shí)修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符的裝置;用于根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則的裝置。
[0006]通過(guò)使用根據(jù)本發(fā)明的一些方面的方法和設(shè)備,可以較為準(zhǔn)確地識(shí)別內(nèi)容中的URL,從而提高了 URL的提取準(zhǔn)確率。
【專利附圖】

【附圖說(shuō)明】
[0007]通過(guò)對(duì)結(jié)合附圖所示出的實(shí)施方式進(jìn)行詳細(xì)說(shuō)明,本發(fā)明的上述以及其他特征將更加明顯,本發(fā)明附圖中相同的標(biāo)號(hào)表示相同或相似的元素。在附圖中:
[0008]圖1示出了適于實(shí)現(xiàn)本發(fā)明實(shí)施方式的計(jì)算系統(tǒng)的框圖;
[0009]圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法的流程圖;
[0010]圖3是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的方法的流程圖;
[0011]圖4是根據(jù)本發(fā)明的又一個(gè)實(shí)施例的方法的流程圖;
[0012]圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的設(shè)備的框圖。
[0013]在附圖中,相同或?qū)?yīng)的標(biāo)號(hào)表不相同或?qū)?yīng)的部分。
【具體實(shí)施方式】
[0014]下文將參考若干示例性實(shí)施方式來(lái)描述本發(fā)明的原理和精神。應(yīng)當(dāng)理解,給出這些實(shí)施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明,而并非以任何方式限制本發(fā)明的范圍。
[0015]可以理解,本發(fā)明的一些實(shí)施例所涉及的用于提供URL提取準(zhǔn)確率的方法可以通過(guò)使用諸如臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、服務(wù)器、工作站、平板型計(jì)算機(jī)、一體機(jī)、手機(jī)、PDA之類的具有計(jì)算能力的計(jì)算設(shè)備上執(zhí)行,而本發(fā)明的一些實(shí)施例所涉及的用于提供URL提取準(zhǔn)確率的設(shè)備可以體現(xiàn)為諸如臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、服務(wù)器、工作站、平板型計(jì)算機(jī)、一體機(jī)、手機(jī)、PDA之類的具有計(jì)算能力的計(jì)算設(shè)備中的一個(gè)或一些部件或其組合。
[0016]例如,參見(jiàn)圖1,圖1示出了本發(fā)明的各種實(shí)施方式可以在其中實(shí)現(xiàn)的一種示例性設(shè)備的框圖。
[0017]圖1中所示的設(shè)備包括CPU(中央處理單元)101、RAM(隨機(jī)存取存儲(chǔ)器)102、ROM(只讀存儲(chǔ)器)103、系統(tǒng)總線104、硬盤(pán)控制器105、鍵盤(pán)控制器106、串行接口控制器107、并行接口控制器108、顯示器控制器109、硬盤(pán)110、鍵盤(pán)111、串行外部設(shè)備112、并行外部設(shè)備113和顯示器114。在這些部件中,與系統(tǒng)總線104相連的有CPU IOU RAM 102、ROM 103、硬盤(pán)控制器105、鍵盤(pán)控制器106、串行接口控制器107、并行接口控制器108和顯示器控制器109。硬盤(pán)110與硬盤(pán)控制器105相連,鍵盤(pán)111與鍵盤(pán)控制器106相連,串行外部設(shè)備112與串行接口控制器107相連,并行外部設(shè)備113與并行接口控制器108相連,以及顯示器114與顯示器控制器109相連。
[0018]圖1所述的結(jié)構(gòu)框圖僅僅為了示例的目的而示出的,并非是對(duì)本發(fā)明的限制。在一些情況下,可以根據(jù)需要添加或者減少其中的一些設(shè)備。例如,圖1所示的設(shè)備可以省略鍵盤(pán)111,而僅僅是一個(gè)能夠被外部設(shè)備訪問(wèn)的服務(wù)器。圖1所示的設(shè)備可以單獨(dú)地實(shí)現(xiàn)本發(fā)明運(yùn)行的環(huán)境,也可以通過(guò)網(wǎng)絡(luò)互相連接起來(lái)而實(shí)現(xiàn)本發(fā)明運(yùn)行的環(huán)境,例如本發(fā)明的各個(gè)模塊和/或步驟可以分布地實(shí)現(xiàn)在互相連接的各個(gè)設(shè)備中。
[0019]上述的各個(gè)方面可以被單獨(dú)使用或是以各種組合來(lái)適用。本申請(qǐng)的教導(dǎo)可以通過(guò)硬件和軟件的組合來(lái)實(shí)現(xiàn),但是同樣可以在軟件或硬件中實(shí)現(xiàn)。本申請(qǐng)的教導(dǎo)同樣可以實(shí)施為在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)可讀介質(zhì)可以是任何物質(zhì)介質(zhì),例如軟盤(pán)、⑶-ROM、DVD、硬驅(qū)動(dòng)器甚至網(wǎng)絡(luò)介質(zhì)等。
[0020]例如,當(dāng)用戶發(fā)了日志“今天看了相聲,樂(lè)瘋了。視頻在此http://www.tudou.com/programs/view/lmrSw6ffX4-A/? resourceld = 102053057 08 12 99&rpid = 102053057dff5pb25faffQ9MTAw0TYzXzEwMDAwMV8wMV8wMQ 極贊”。人人網(wǎng)根據(jù)正則表達(dá)式提取 URL:http://www.tudou.com/programs/view/lmrSw6ffX4-A/? resourceld = 102053057 08 1299&rpid = 102053057dff5pb25faffQ9MTAw0TYzXzEwMDAwMV8wMV8wMQ,并且例如將其轉(zhuǎn)換為短URL:http://rrurl.cn/349d4i。通常情況下,這種轉(zhuǎn)換通常都能成功,但是有些特殊的網(wǎng)站,因其URL中包含中文或其它特殊字符而不能被正則表達(dá)式識(shí)別正確,因此所提取的URL 基本都是錯(cuò)誤的。例如上述的 “http://www.campaignchina.com/Article/285702,徐進(jìn)加盟靈獅中國(guó),出任合伙人兼北京靈獅首席執(zhí)行官.aspx”。因此,需要修改規(guī)則,以正確識(shí)別這類特殊的URL。
[0021]下面結(jié)合圖2來(lái)描述根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于提供URL提取準(zhǔn)確率的方法。該方法并非是針對(duì)在線轉(zhuǎn)換,而是旨在提供離線分析URL并基于分析修改提取規(guī)則的方法。具體而言,例如,諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商從其短鏈接(短URL)庫(kù)中提取出一條短URL,并繼而使用該URL進(jìn)行訪問(wèn),如果訪問(wèn)成功,例如返回200,則該短URL所針對(duì)的原始URL的提取是正確的;如果訪問(wèn)失敗,例如返回404,則該短URL所針對(duì)的原始URL的提取是錯(cuò)誤的。訪問(wèn)失敗的原因可能有多種,其中之一是上述的提取出錯(cuò),也有其它可能,比如原本存在的網(wǎng)址出于各種原因被刪除,例如網(wǎng)絡(luò)服務(wù)提供商因認(rèn)為其不適于公開(kāi)而將其刪除。本發(fā)明主要針對(duì)的是前一種情形,即因提取錯(cuò)誤而導(dǎo)致的訪問(wèn)失敗。
[0022]在步驟S201處,諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商使用根據(jù)規(guī)則原始數(shù)據(jù)中提取的原始 URL(例如,http://www.campaignchina.com/Article/285702)進(jìn)行網(wǎng)絡(luò)訪問(wèn)。上述規(guī)則可以包括正則表達(dá)式、針對(duì)特殊域名的規(guī)則等。
[0023]在步驟S202處,當(dāng)網(wǎng)絡(luò)訪問(wèn)失敗時(shí),諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商修改原始數(shù)據(jù)中的原始URL 以獲得最終URL(例如,http://www.campaignchina.com/Article/285702,徐進(jìn)加盟靈獅中國(guó),出任合伙人兼北京靈獅首席執(zhí)行官.aspx)。在另一種情形中,當(dāng)網(wǎng)絡(luò)訪問(wèn)成功時(shí),則諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商從庫(kù)中提取下一個(gè)原始URL進(jìn)行分析。
[0024]在步驟S203處,諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商根據(jù)最終URL(例如,http://WWW.campaignchina.com/Article/285702,徐進(jìn)加盟靈獅中國(guó),出任合伙人兼北京靈獅首席執(zhí)行官.aspx)修改規(guī)則。例如,諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商可以在規(guī)則中增加一條,例如當(dāng)提取的URL是涉及campaignchina域名時(shí),提取URL不僅僅使用正則表達(dá)式,還應(yīng)提取正則表示提取部分之后的中文,直至“aspx”。
[0025]下面根據(jù)圖3描述根據(jù)本發(fā)明的另一實(shí)施例的用于提高URL提取準(zhǔn)確率的方法。該實(shí)施例與之前針對(duì)圖2描述的實(shí)施例相似,例如步驟S301和S303分別與步驟S201和S203相同,不同之處在于步驟S304和S305。因此,在此為了突顯本實(shí)施例的特征而省略對(duì)步驟S301和步驟S303的描述。
[0026]在步驟S304處,諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商可以計(jì)算最終URL所涉及的域名的提取錯(cuò)誤率。并且在步驟S304處,當(dāng)提取錯(cuò)誤率超出閾值時(shí),諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商可以根據(jù)最終URL修改規(guī)則。步驟S304和步驟S305與步驟S205不同之處在于加入了對(duì)提取錯(cuò)誤率的判定。這是由于提取出錯(cuò)的原因有很多種,如果針對(duì)每次錯(cuò)誤都修改規(guī)則,則容易造成提取系統(tǒng)的不穩(wěn)定和較大的處理量。因此,可以使用提取錯(cuò)誤率來(lái)減少修改。例如涉及campaignchina域名的原始URL中100次中錯(cuò)誤了 80次(對(duì)應(yīng)于80%的提取錯(cuò)誤率),則此時(shí)可以修改規(guī)則,例如,諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商可以在規(guī)則中增加一條,例如當(dāng)提取的URL是涉及campaignchina域名時(shí),提取URL不僅僅使用正則表達(dá)式,還應(yīng)提取正則表示提取部分之后的中文,直至“aspx”。此外,該方法還可以根據(jù)原始URL和最終URL來(lái)修改規(guī)則,例如通過(guò)比較原始URL和最終URL,分析出提取錯(cuò)誤原因,并且針對(duì)該原因進(jìn)行規(guī)則修改。
[0027]下面根據(jù)圖4描述根據(jù)本發(fā)明的又一實(shí)施例的用于提高URL提取準(zhǔn)確率的方法。該實(shí)施例與之前針對(duì)圖3描述的實(shí)施例相似,例如步驟S401、S404和S405分別與步驟S301、S304和5305相同,不同之處在于步驟S402'、S4022、S4023和S403。因此,在此為了突顯本實(shí)施例的特征而省略對(duì)步驟S4301、S404和S405的描述。
[0028]在步驟S4021處,諸如社交網(wǎng)站之類的網(wǎng)絡(luò)提供商可以確定網(wǎng)絡(luò)訪問(wèn)是否成功。當(dāng)訪問(wèn)成功,該URL即為最終URL。當(dāng)訪問(wèn)不成功時(shí),判斷是否可以修改URL,如果不可以修改,則該URL即為最終URL。當(dāng)可以修改URL時(shí),對(duì)URL進(jìn)行修改,例如原始URL為 http.//www.campaignchina.com/Article/285702,此時(shí)對(duì)其進(jìn)行修改,將其修改為http://www.campaignchina.com/Article/285702,。此時(shí),使用修改后的該 URL (http://www.campaignchina.com/Article/285702,)訪問(wèn)。再通過(guò)上述過(guò)程(步驟 S4021、S4022 和S4023),將上一URL 繼續(xù)修改為 http://www.campaignchina.com/Article/285702,徐。如此循環(huán),直至訪問(wèn)成功,此時(shí) URL 為 http://www.campaignchina.com/Article/285702,徐進(jìn)加盟靈獅中國(guó),出任合伙人兼北京靈獅首席執(zhí)行官.aspx。由此可見(jiàn),對(duì)于原始URL的修改可以是多次修改。以上是一種修改方式,其是逐次增加在上一URL(原始或經(jīng)修改的URL)之后的一個(gè)字符,直至獲得最終URL。與此對(duì)照,另一修改方式是逐次刪除在上一 URL (原始或經(jīng)修改的URL)中最后的一個(gè)字符,直至獲得最終URL。
[0029]上面針對(duì)各種實(shí)施例描述了本發(fā)明的一個(gè)方面的方法??梢岳斫?,上面的方法及其包括的各種步驟可以根據(jù)實(shí)際需要而進(jìn)行組合、添加新的步驟或是刪除一些步驟以獲得一些屬于本發(fā)明的權(quán)利要求書(shū)限定的保護(hù)范圍及其等同范圍的其他方法。顯然,這些修改、添加、刪除所獲得的新的方法同樣位于本發(fā)明的保護(hù)范圍內(nèi)。
[0030]根據(jù)本發(fā)明的另一方面,還提供了一種用于提高提取準(zhǔn)確率的設(shè)備。參見(jiàn)圖5,該設(shè)備500包括用于使用根據(jù)規(guī)則從原始數(shù)據(jù)中提取的原始URL進(jìn)行網(wǎng)絡(luò)訪問(wèn)的裝置510、用于當(dāng)網(wǎng)絡(luò)訪問(wèn)失敗時(shí)修改原始數(shù)據(jù)中的原始URL以獲得最終URL的裝置520、用于根據(jù)最終URL修改規(guī)則的裝置530。裝置510用于從原始數(shù)據(jù)提取原始URL并且使用原始URL進(jìn)行網(wǎng)絡(luò)訪問(wèn)。裝置520用于在網(wǎng)絡(luò)訪問(wèn)失敗時(shí),對(duì)原始URL進(jìn)行修改以獲得最終URL,其可以使用上面針對(duì)圖2、圖3和圖4描述的任一方法而對(duì)原始URL進(jìn)行修改。當(dāng)修改完成之后,裝置530用于根據(jù)最終URL修改規(guī)則。以上僅是示例性的描述示例,本領(lǐng)域技術(shù)人員知曉,可以對(duì)其進(jìn)行修改,例如設(shè)備500可以包括用于根據(jù)提取錯(cuò)誤率修改規(guī)則的裝置。
[0031]此外,盡管在附圖中以特定順序描述了本發(fā)明方法的操作,但是,這并非要求或者暗示必須按照該特定順序來(lái)執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實(shí)現(xiàn)期望的結(jié)果。相反,流程圖中描繪的步驟可以改變執(zhí)行順序。附加地或備選地,可以省略某些步驟,將多個(gè)步驟合并為一個(gè)步驟執(zhí)行,和/或?qū)⒁粋€(gè)步驟分解為多個(gè)步驟執(zhí)行。[0032]綜上所述,本發(fā)明的一個(gè)方面提供了一種用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的方法,包括:使用根據(jù)規(guī)則從原始數(shù)據(jù)中提取的原始統(tǒng)一資源定位符進(jìn)行網(wǎng)絡(luò)訪問(wèn);當(dāng)所述網(wǎng)絡(luò)訪問(wèn)失敗時(shí),修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符;根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則。
[0033]優(yōu)選地,還包括:計(jì)算所述最終統(tǒng)一資源定位符所涉及的域名的提取錯(cuò)誤率;當(dāng)所述提取錯(cuò)誤率超出閾值時(shí),根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則。
[0034]優(yōu)選地,進(jìn)一步包括根據(jù)所述原始統(tǒng)一資源定位符和所述最終統(tǒng)一資源定位符修改所述規(guī)則。
[0035]優(yōu)選地,其中所述修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符可以是多次修改。
[0036]優(yōu)選地,其中所述修改包括在所提取的上一統(tǒng)一資源定位符之后增加在所述原始數(shù)據(jù)中緊接其后的字符。
[0037]優(yōu)選地,其中所述修改包括刪除所提取的上一統(tǒng)一資源定位符中最后的字符。
[0038]優(yōu)選地,其中修改所述規(guī)則包括添加針對(duì)所述域名的規(guī)則。
[0039] 此外,本發(fā)明的又一方面提供了一種用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的設(shè)備,包括:用于使用根據(jù)規(guī)則從原始數(shù)據(jù)中提取的原始統(tǒng)一資源定位符進(jìn)行網(wǎng)絡(luò)訪問(wèn)的裝置;用于當(dāng)所述網(wǎng)絡(luò)訪問(wèn)失敗時(shí)修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符的裝置;用于根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則的裝置。
[0040]優(yōu)選地,還包括:用于計(jì)算所述最終統(tǒng)一資源定位符所涉及的域名的提取錯(cuò)誤率的裝置;用于當(dāng)所述提取錯(cuò)誤率超出閾值時(shí)根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則的
>J-U ρ?α裝直。
[0041]優(yōu)選地,進(jìn)一步包括用于根據(jù)所述原始統(tǒng)一資源定位符和所述最終統(tǒng)一資源定位符修改所述規(guī)則的裝置。
[0042]優(yōu)選地,其中所述修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符可以是多次修改。
[0043]優(yōu)選地,其中所述修改包括在所提取的上一統(tǒng)一資源定位符之后增加在所述原始數(shù)據(jù)中緊接其后的字符。
[0044]優(yōu)選地,其中所述修改包括刪除所提取的上一統(tǒng)一資源定位符中最后的字符。
[0045]優(yōu)選地,其中用于修改所述規(guī)則的裝置包括用于添加針對(duì)所述域名的規(guī)則的裝置。
[0046]雖然已經(jīng)參考若干【具體實(shí)施方式】描述了本發(fā)明,但是應(yīng)該理解,本發(fā)明并不限于所公開(kāi)的【具體實(shí)施方式】。本發(fā)明旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。所附權(quán)利要求的范圍符合最寬泛的解釋,從而包含所有這樣的修改及等同結(jié)構(gòu)和功能。
【權(quán)利要求】
1.一種用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的方法,包括: 使用根據(jù)規(guī)則從原始數(shù)據(jù)中提取的原始統(tǒng)一資源定位符進(jìn)行網(wǎng)絡(luò)訪問(wèn); 當(dāng)所述網(wǎng)絡(luò)訪問(wèn)失敗時(shí),修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符; 根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則。
2.根據(jù)權(quán)利要求1所述的方法,還包括: 計(jì)算所述最終統(tǒng)一資源定位符所涉及的域名的提取錯(cuò)誤率; 當(dāng)所述提取錯(cuò)誤率超出閾值時(shí),根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則。
3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括根據(jù)所述原始統(tǒng)一資源定位符和所述最終統(tǒng)一資源定位符修改所述規(guī)則。
4.根據(jù)權(quán)利要求1所述的方法,其中所述修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符可以是多次修改。
5.根據(jù)權(quán)利要求4所述的方法,其中所述修改包括在所提取的上一統(tǒng)一資源定位符之后增加在所述原始數(shù)據(jù)中緊接其后的字符。
6.根據(jù)權(quán)利要求4所述的方法,其中所述修改包括刪除所提取的上一統(tǒng)一資源定位符中最后的子符。
7.根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法,其中修改所述規(guī)則包括添加針對(duì)所述域名的規(guī)則。
8.一種用于提高統(tǒng)一資源定位符提取準(zhǔn)確率的設(shè)備,包括: 用于使用根據(jù)規(guī)則從原始數(shù)據(jù)中提取的原始統(tǒng)一資源定位符進(jìn)行網(wǎng)絡(luò)訪問(wèn)的裝置; 用于當(dāng)所述網(wǎng)絡(luò)訪問(wèn)失敗時(shí)修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符的裝置; 用于根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則的裝置。
9.根據(jù)權(quán)利要求8所述的設(shè)備,還包括: 用于計(jì)算所述最終統(tǒng)一資源定位符所涉及的域名的提取錯(cuò)誤率的裝置; 用于當(dāng)所述提取錯(cuò)誤率超出閾值時(shí)根據(jù)所述最終統(tǒng)一資源定位符修改所述規(guī)則的裝置。
10.根據(jù)權(quán)利要求9所述的設(shè)備,進(jìn)一步包括用于根據(jù)所述原始統(tǒng)一資源定位符和所述最終統(tǒng)一資源定位符修改所述規(guī)則的裝置。
11.根據(jù)權(quán)利要求8所述的設(shè)備,其中所述修改所述原始數(shù)據(jù)中的原始統(tǒng)一資源定位符以獲得最終統(tǒng)一資源定位符可以是多次修改。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述修改包括在所提取的上一統(tǒng)一資源定位符之后增加在所述原始數(shù)據(jù)中緊接其后的字符。
13.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述修改包括刪除所提取的上一統(tǒng)一資源定位符中最后的子符。
14.根據(jù)權(quán)利要求8-13中任一項(xiàng)所述的設(shè)備,其中用于修改所述規(guī)則的裝置包括用于添加針對(duì)所述域名的規(guī)則的裝置。
【文檔編號(hào)】G06F17/30GK103678333SQ201210326012
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2012年9月3日 優(yōu)先權(quán)日:2012年9月3日
【發(fā)明者】張良 申請(qǐng)人:北京千橡網(wǎng)景科技發(fā)展有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1