獲取下載資源的資源名稱的方法及系統(tǒng)的制作方法
【專利摘要】一種獲取下載資源的資源名稱的方法,包括:獲取上傳的下載資源的網(wǎng)絡(luò)地址;根據(jù)所述網(wǎng)絡(luò)地址獲取下載資源的資源摘要;獲取與所述資源摘要對應的資源名稱。此外,還提供了一種獲取下載資源的資源名稱的系統(tǒng)。上述獲取下載資源的資源名稱的方法和系統(tǒng)可以提高獲取到的下載資源的資源名稱的準確性。
【專利說明】獲取下載資源的資源名稱的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別是涉及一種獲取下載資源的資源名稱的方法及系統(tǒng)。
【背景技術(shù)】
[0002]傳統(tǒng)技術(shù)中,用戶在使用下載軟件獲取下載資源時,可通過輸入下載資源的網(wǎng)絡(luò)地址(通常通過點擊網(wǎng)頁上的網(wǎng)絡(luò)資源的鏈接地址)來定位下載資源。下載軟件通過解析輸入的網(wǎng)絡(luò)地址來獲取下載資源的資源名稱,并將解析得到的資源名稱作為下載后存儲在本地的網(wǎng)絡(luò)資源的資源名稱。
[0003]例如,在通過http (hypertext transport protocol,超文本傳送協(xié)議)或 ftp(File Transfer Protocol,文件傳輸協(xié)議)獲取下載資源時,可通過點擊網(wǎng)頁上的url(Universal Resource Locator,統(tǒng)一資源定位符)向下載軟件輸入網(wǎng)絡(luò)地址,下載軟件通過解析url得到資源名稱。
[0004]在通過P2P (Peer to Peer,點對點)下載網(wǎng)絡(luò)資源時,例如通過BT (BitTorrent,一種P2P下載協(xié)議)下載網(wǎng)絡(luò)資源時,下載軟件可通過解析種子文件獲取下載資源的資源名稱。
[0005]然而,傳統(tǒng)技術(shù)中,下載資源的網(wǎng)絡(luò)地址中的資源名稱由發(fā)布者設(shè)置,因此存在獲取到的資源名稱與下載資源的實際內(nèi)容不相符的情形。例如,不法分子可能將木馬或病毒文件以常用軟件發(fā)布,獲取到的下載資源的資源名稱即為偽裝的常用軟件的名稱,使得用戶無法預先獲知與下載資源的具體內(nèi)容相關(guān)的信息。因此,傳統(tǒng)技術(shù)中,獲取下載資源的資源名稱的方法的準確度較低。
【發(fā)明內(nèi)容】
[0006]基于此,有必要提供一種能提高準確度的獲取下載資源的資源名稱的方法。
[0007]—種獲取下載資源的資源名稱的方法,包括:
[0008]獲取上傳的下載資源的網(wǎng)絡(luò)地址;
[0009]根據(jù)所述網(wǎng)絡(luò)地址獲取下載資源的資源摘要;
[0010]獲取與所述資源摘要對應的資源名稱。
[0011]此外,還有必要提供一種能提高準確度的獲取下載資源的資源名稱的系統(tǒng)。
[0012]一種獲取下載資源的資源名稱的系統(tǒng),包括:
[0013]網(wǎng)絡(luò)地址獲取模塊,用于獲取上傳的下載資源的網(wǎng)絡(luò)地址;
[0014]資源摘要獲取模塊,用于根據(jù)所述網(wǎng)絡(luò)地址獲取下載資源的資源摘要;
[0015]資源名稱獲取模塊,用于獲取與所述資源摘要對應的資源名稱。
[0016]上述獲取下載資源的資源名稱的方法和系統(tǒng),通過先獲取上傳的下載資源的網(wǎng)絡(luò)地址獲取其對應的資源摘要,然后再根據(jù)資源摘要獲取與資源摘要對應的資源名稱。由于資源摘要為可體現(xiàn)下載資源內(nèi)容的概要信息,由下載資源本身的內(nèi)容所決定,而不能由資源發(fā)布者通過設(shè)置網(wǎng)絡(luò)地址來自行設(shè)置,因此根據(jù)下載資源的資源摘要獲取得到的資源名稱能夠更加準確地反映下載資源的實際內(nèi)容,從而提高獲取到下載資源的資源名稱的準確度。
【專利附圖】
【附圖說明】
[0017]圖1為一個實施例中獲取下載資源的資源名稱的方法的流程圖;
[0018]圖2為一個實施例中獲取下載資源的資源名稱的系統(tǒng)的結(jié)構(gòu)示意圖;
[0019]圖3為另一個實施例中獲取下載資源的資源名稱的系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020]在一個實施例中,如圖1所示,一種獲取下載資源的資源名稱的方法,包括:
[0021]步驟S102,獲取上傳的下載資源的網(wǎng)絡(luò)地址。
[0022]下載資源即為通過網(wǎng)絡(luò)發(fā)布的供互聯(lián)網(wǎng)用戶下載的資源。資源發(fā)布者可通過C/S方式或者P2P的方式發(fā)布下載資源。
[0023]在一個實施例中,發(fā)布者可通過http或ftp等C/S的方式發(fā)布下載資源,下載資源對應的網(wǎng)絡(luò)地址為url。
[0024]在一個實施例中,發(fā)布者也可通過BT或電驢等P2P的方式發(fā)布下載資源,下載資源的網(wǎng)絡(luò)地址對應種子文件。當下載資源為多個時,種子文件中可分別記錄每個下載資源對應的網(wǎng)絡(luò)地址。
[0025]在一個實施例中,可通過客戶端檢測下載任務(wù),將下載任務(wù)對應的下載資源的網(wǎng)絡(luò)地址上傳。
[0026]步驟S104,根據(jù)網(wǎng)絡(luò)地址獲取下載資源的資源摘要。
[0027]資源摘要即為下載資源的特征數(shù)據(jù),是可體現(xiàn)下載資源內(nèi)容的概要信息。例如,若下載資源為可執(zhí)行文件,則資源摘要可以是該文件的MD5值;若下載資源為視頻文件,則視頻文件的資源摘要即可為其關(guān)鍵幀的圖像編碼序列;若下載資源為音頻文件,則音頻文件的資源摘要可以是其特征波形的編碼序列。
[0028]在一個實施例中,根據(jù)網(wǎng)絡(luò)地址獲取下載資源的資源摘要的步驟可具體為:根據(jù)網(wǎng)絡(luò)地址在預設(shè)的資源摘要庫中獲取下載資源的資源摘要,資源摘要庫中預存有網(wǎng)絡(luò)地址與資源摘要的對應關(guān)系。
[0029]資源摘要庫可預先建立,通過數(shù)據(jù)庫的表結(jié)構(gòu)建立網(wǎng)絡(luò)地址與下載資源的資源摘要的對應關(guān)系。在本實施例中,還可對資源摘要庫進行更新。
[0030]在一個實施例中,可獲取下載記錄上報請求,下載記錄上報請求中包括網(wǎng)絡(luò)地址及其對應的資源摘要;可根據(jù)下載記錄上報請求更新資源摘要庫。
[0031]用戶通過客戶端對某一網(wǎng)絡(luò)地址對應的下載資源執(zhí)行下載任務(wù)時,可在下載過程中或在下載結(jié)束后計算正在下載或者完成下載的下載資源的資源摘要,并將該網(wǎng)絡(luò)地址和計算得到的資源摘要上報。
[0032]在接收到上報的網(wǎng)絡(luò)地址及其對應的資源摘要后,可在資源摘要庫中查詢是否存在是否已經(jīng)包含該資源摘要,若存在,則在對應該資源摘要的網(wǎng)絡(luò)地址中添加該網(wǎng)絡(luò)地址,若不存在,則在資源摘要庫中對應添加該網(wǎng)絡(luò)地址及其對應的資源摘要。[0033]也就是說,客戶端具有計算下載資源的資源摘要的能力??筛鶕?jù)多個客戶端的下載記錄獲取下載記錄中的網(wǎng)絡(luò)地址對應的下載資源的資源摘要和資源名稱,并更新到資源摘要庫。
[0034]在一個實施例中,還可獲取離線下載資源,獲取離線下載資源的資源摘要,獲取該離線下載資源對應的網(wǎng)絡(luò)地址,根據(jù)網(wǎng)絡(luò)地址和離線下載資源的資源摘要更新資源摘要庫。
[0035]離線下載資源即為緩存于離線下載空間中的下載資源。對于網(wǎng)絡(luò)環(huán)境較復雜時,離線下載可建立發(fā)布者與下載者之間的快速通道,從而提高下載速度。
[0036]在一個實施例中,可預先抓取某個網(wǎng)絡(luò)地址對應的下載資源到離線下載空間存儲,當后續(xù)接收到的下載請求對應的網(wǎng)絡(luò)地址與被抓取過的網(wǎng)絡(luò)地址相同時,可將緩存下載空間即離線下載空間中的下載資源返回。在本實施例中,可獲取抓取到的離線下載資源,并計算該離線下載資源對應的資源摘要,根據(jù)被抓取的網(wǎng)絡(luò)地址和計算得到的資源摘要更新資源摘要庫。
[0037]在另一個實施例中,也可將下載資源直接發(fā)布到離線下載空間中存儲,并定義離線下載地址(網(wǎng)絡(luò)地址)與其對應。當下載請求中的網(wǎng)絡(luò)地址為該離線下載地址時,返回該下載資源。在本實施例中,可獲取已發(fā)布的離線下載資源,并計算該離線下載資源對應的資源摘要,根據(jù)已定義的該離線下載資源對應的離線下載地址和計算得到的資源摘要更新資源摘要庫。
[0038]例如,在BT下載中,下載資源通常會在緩存下載空間中有一個完整的備份,各個終端節(jié)點上存儲的下載資源的數(shù)據(jù)均為該完整備份的子集。終端節(jié)點通常優(yōu)先向其他終端節(jié)點請求數(shù)據(jù),在其他終端節(jié)點均沒有該下載資源的數(shù)據(jù)時,才會獲取緩存下載空間中的下載資源的完整備份中的部分數(shù)據(jù)??捎嬎阍撓螺d資源的完整備份的資源摘要,并通過該下載資源的種子文件獲取該完整備份對應的網(wǎng)絡(luò)地址,然后根據(jù)該網(wǎng)絡(luò)地址和計算得到的資源摘要更新資源摘要庫。
[0039]步驟S106,獲取與資源摘要對應的資源名稱。
[0040]在一個實施例中,資源摘要庫中還包括與資源摘要對應的資源名稱。可通過資源摘要庫獲取資源摘要對應的資源名稱。
[0041]在本實施例中,如前所述,可獲取下載記錄上報請求,下載記錄上報請求中包括網(wǎng)絡(luò)地址及其對應的資源摘要和資源名稱,并根據(jù)下載記錄上報請求更新資源摘要庫。即資源摘要庫中包括網(wǎng)絡(luò)地址、資源摘要以及資源名稱的對應關(guān)系。
[0042]在本實施例中,若接收到的多個下載記錄上報請求中,有多個網(wǎng)絡(luò)地址對應同一資源摘要,而該多個網(wǎng)絡(luò)地址對應不同的資源名稱,則可將對應了最多網(wǎng)絡(luò)地址的資源名稱作為與該資源摘要對應的資源名稱(少數(shù)服從多數(shù)原則)。
[0043]例如,若接收到多個下載記錄上報請求中,資源摘要A對應的網(wǎng)絡(luò)地址有100個,其中有90個網(wǎng)絡(luò)地址在下載記錄上報請求中對應的資源名稱為abc.exe,有10個網(wǎng)絡(luò)地址對應的資源名稱為def.exe,則可將資源名稱abc.exe作為資源摘要A對應的資源名稱,并將資源名稱abc.exe在資源摘要庫中與資源摘要A對應存儲。
[0044]在一個實施例中,接收到的下載記錄上報請求后,若資源摘要對應的網(wǎng)絡(luò)地址中包含第三方認證的可信任的網(wǎng)絡(luò)地址,則將下載記錄上報請求中與該網(wǎng)絡(luò)地址對應的資源名稱作為該資源摘要對應的資源名稱。例如,第三方認證的可信任的網(wǎng)站可以是資源提供商的官方網(wǎng)站、訪問量大于閾值的門戶網(wǎng)站等。
[0045]也就是說,若接收到的下載記錄上報請求中存在多個網(wǎng)絡(luò)地址對應同一資源摘要,而多個網(wǎng)絡(luò)地址又對應不同的資源名稱時,可將該多個網(wǎng)絡(luò)地址對應的資源名稱歸一化后作為資源摘要對應的資源名稱。
[0046]在一個實施例中,還可獲取資源摘要對應的網(wǎng)絡(luò)地址,通過解析網(wǎng)絡(luò)地址獲取與網(wǎng)絡(luò)地址對應的資源名稱,并將解析得到的資源名稱在資源摘要庫中與該資源摘要對應存儲。
[0047]由于下載記錄上報請求中包含的與網(wǎng)絡(luò)地址對應的資源名稱可以是被下載者更改過的資源名稱,因此,若上報的下載記錄上報請求中資源名稱有亂碼,特殊字符或其他無法作為文件名稱的字符時,可通過解析網(wǎng)絡(luò)地址獲取與網(wǎng)絡(luò)地址對應的資源名稱。當有多個網(wǎng)絡(luò)地址對應同一資源摘要時,將該多個網(wǎng)絡(luò)地址各自對應的資源名稱歸一化為該資源摘要對應的資源名稱的方法可與前述的歸一化的方法相同。
[0048]在一個實施例中,還可創(chuàng)建與所述資源摘要庫中的資源摘要對應的資源聚類;根據(jù)資源摘要生成與資源聚類對應的聚類資源名稱。
[0049]資源聚類即具有相似內(nèi)容的下載資源的集合,可根據(jù)資源摘要的特征部分創(chuàng)建資源聚類。
[0050]對于視頻下載資源,可獲取視頻資源摘要中的關(guān)鍵幀的特征數(shù)據(jù),根據(jù)該特征數(shù)據(jù)將內(nèi)容具有相似性的視頻資源聚集成視頻資源聚類。對于音頻下載資源,可獲取音頻資源摘要中的特征波形的特征數(shù)據(jù),并根據(jù)該特征數(shù)據(jù)將內(nèi)容具有相似性的音頻資源聚集成音頻資源聚類。
[0051]例如,若資源摘要庫中的多個視頻資源摘要中的關(guān)鍵幀的特征數(shù)據(jù)等同率大于閾值(99%),即大多數(shù)特征數(shù)據(jù)相同,則該多個視頻資源摘要屬于同一資源聚類。
[0052]進一步的,創(chuàng)建與資源摘要庫中的資源摘要對應的資源聚類的步驟之前,還可根據(jù)資源摘要對應的資源名稱的擴展文件名進行預分類。
[0053]由于具有不同擴展文件名的下載資源屬于不同的文件類型,通常內(nèi)容不具有相似性,預先根據(jù)擴展文件名進行預分類可減少創(chuàng)建資源聚類時比較特征數(shù)據(jù)的計算量,從而加快創(chuàng)建過程。
[0054]在本實施例中,對應同一資源聚類的資源摘要可有多個。可將該多個資源摘要對應的資源名稱歸一化后生成與該資源聚類對應的聚類資源名稱。
[0055]在本實施例中,歸一化生成該資源聚類對應的聚類資源名稱的步驟可具體為:獲取該資源聚類對應的資源摘要;獲取該資源摘要對應的資源名稱;篩選出對應了最多數(shù)目的資源摘要的資源名稱作為與該資源聚類對應的聚類資源名稱。
[0056]例如,若資源聚類B對應的資源摘要有多個,這些資源摘要中,有10個資源摘要對應的資源名稱為abc.mkv,有5個資源摘要對應的資源名稱為cmf.mkv,有2個資源摘要對應的資源名稱為123.mkv,則可將abc.mkv作為資源聚類B對應的聚類資源名稱。
[0057]在一個實施例中,獲取與資源摘要對應的資源名稱的步驟可具體為:獲取與資源摘要對應的資源聚類,獲取與資源聚類對應的聚類資源名稱。
[0058]由于資源聚類為內(nèi)容具有相似性的下載資源的集合,且聚類資源名稱為根據(jù)該集合中的所有下載資源對應的資源名稱生成得到,因此聚類資源名稱能更加準確的反映該下載資源的實際內(nèi)容,從而更進一步地提高獲取的下載資源的資源名稱的準確度。
[0059]在一個實施例中,還可根據(jù)資源聚類對資源摘要庫進行更新,更改資源摘要對應的資源名稱。在本實施例中,可獲取所述資源摘要庫中資源摘要;獲取所述資源摘要所屬的資源聚類對應的聚類資源名稱;將所述資源摘要對應的資源名稱更新為所述聚類資源名稱。
[0060]在本實施例中,可在資源摘要庫中添加了新的資源摘要時根據(jù)資源聚類更改資源摘要對應的資源名稱為聚類資源名稱??稍诟鶕?jù)下載記錄上報請求更新資源摘要庫的步驟之后,獲取更新加入的資源摘要,將該更新加入的資源摘要歸類到對應的資源聚類中,獲取更新加入的資源摘要所屬資源聚類的聚類資源名稱,將資源摘要庫中該資源摘要對應的資源名稱更改為該聚類資源名稱;若歸類失敗,則根據(jù)該資源摘要創(chuàng)建與其對應的資源聚類。
[0061]在另一個實施例中,還可定期根據(jù)資源聚類對資源摘要庫進行更新??啥ㄆ诒闅v資源摘要庫中的資源摘要,獲取資源摘要所屬的資源聚類對應的聚類資源名稱,然后將資源摘要對應的資源名稱更改為該聚類資源名稱。
[0062]根據(jù)資源聚類對資源摘要庫進行更新,可以使得在獲取資源摘要對應的資源名稱時,無需先獲取資源摘要所屬的資源聚類,可直接在資源摘要庫中獲取資源摘要對應的聚類資源名稱,從而減少了查詢的次數(shù),提高了執(zhí)行效率。
[0063]在一個實施例中,還可定期遍歷資源聚類,獲取資源聚類對應的資源摘要,獲取該對應的資源摘要對應的資源名稱,并根據(jù)獲取到的資源名稱更新聚類資源名稱。也就是說,可定期根據(jù)資源摘要庫對聚類資源名稱進行更新,使得聚類資源名稱能夠更加準確地反映資源聚類對應的下載資源的實際內(nèi)容。
[0064]在一個實施例中,如圖2所示,一種獲取下載資源的資源名稱的系統(tǒng),包括:網(wǎng)絡(luò)地址獲取模塊102、資源摘要獲取模塊104、資源名稱獲取模塊106,其中:
[0065]網(wǎng)絡(luò)地址獲取模塊102,用于獲取上傳的下載資源的網(wǎng)絡(luò)地址。
[0066]下載資源即為通過網(wǎng)絡(luò)發(fā)布的供互聯(lián)網(wǎng)用戶下載的資源。資源發(fā)布者可通過C/S方式或者P2P的方式發(fā)布下載資源。
[0067]在一個實施例中,發(fā)布者可通過http或ftp等C/S的方式發(fā)布下載資源,下載資源對應的網(wǎng)絡(luò)地址為url。
[0068]在一個實施例中,發(fā)布者也可通過BT或電驢等P2P的方式發(fā)布下載資源,下載資源的網(wǎng)絡(luò)地址對應種子文件。當下載資源為多個時,種子文件中可分別記錄每個下載資源對應的網(wǎng)絡(luò)地址。
[0069]在一個實施例中,可通過客戶端檢測下載任務(wù),將下載任務(wù)對應的下載資源的網(wǎng)絡(luò)地址上傳。網(wǎng)絡(luò)地址獲取模塊102可用于接收客戶端上傳的下載資源的網(wǎng)絡(luò)地址。
[0070]資源摘要獲取模塊104,用于根據(jù)網(wǎng)絡(luò)地址獲取下載資源的資源摘要。
[0071]資源摘要即為下載資源的特征數(shù)據(jù),是可體現(xiàn)下載資源內(nèi)容的概要信息。例如,若下載資源為可執(zhí)行文件,則資源摘要可以是該文件的MD5值;若下載資源為視頻文件,則視頻文件的資源摘要即可為其關(guān)鍵幀的圖像編碼序列;若下載資源為音頻文件,則音頻文件的資源摘要可以是其特征波形的編碼序列。
[0072]在一個實施例中,如圖3所示,獲取下載資源的資源名稱的系統(tǒng)還包括資源摘要存儲模塊108,用于存儲預設(shè)的資源摘要庫,資源摘要庫中預存有網(wǎng)絡(luò)地址與資源摘要的對應關(guān)系。資源摘要獲取模塊104還用于根據(jù)網(wǎng)絡(luò)地址在資源摘要庫中獲取下載資源的資源摘要。
[0073]資源摘要存儲模塊108中存儲的資源摘要庫可預先建立,通過數(shù)據(jù)庫的表結(jié)構(gòu)建立網(wǎng)絡(luò)地址與下載資源的資源摘要的對應關(guān)系。在本實施例中,資源摘要存儲模塊108還可用于對資源摘要庫進行更新。
[0074]在一個實施例中,資源摘要存儲模塊108可用于獲取下載記錄上報請求,下載記錄上報請求中包括網(wǎng)絡(luò)地址及其對應的資源摘要,可根據(jù)下載記錄上報請求更新資源摘要庫。
[0075]用戶通過客戶端對某一網(wǎng)絡(luò)地址對應的下載資源執(zhí)行下載任務(wù)時,可在下載過程中或在下載結(jié)束后計算正在下載或者完成下載的下載資源的資源摘要,并將該網(wǎng)絡(luò)地址和計算得到的資源摘要上報。
[0076]在接收到上報的網(wǎng)絡(luò)地址及其對應的資源摘要后,可在資源摘要庫中查詢是否存在是否已經(jīng)包含該資源摘要,若存在,則在對應該資源摘要的網(wǎng)絡(luò)地址中添加該網(wǎng)絡(luò)地址,若不存在,則在資源摘要庫中對應添加該網(wǎng)絡(luò)地址及其對應的資源摘要。
[0077]也就是說,客戶端具有計算下載資源的資源摘要的能力。可根據(jù)多個客戶端的下載記錄獲取下載記錄中的網(wǎng)絡(luò)地址對應的下載資源的資源摘要和資源名稱,并更新到資源摘要庫。
[0078]在一個實施例中,資源摘要存儲模塊108還可用于獲取離線下載資源,獲取離線下載資源的資源摘要,獲取該離線下載資源對應的網(wǎng)絡(luò)地址,根據(jù)網(wǎng)絡(luò)地址和離線下載資源的資源摘要更新資源摘要庫。
[0079]離線下載資源即為緩存于離線下載空間中的下載資源。對于網(wǎng)絡(luò)環(huán)境較復雜時,離線下載可建立發(fā)布者與下載者之間的快速通道,從而提高下載速度。
[0080]在一個實施例中,資源摘要存儲模塊108還可用于預先抓取某個網(wǎng)絡(luò)地址對應的下載資源到離線下載空間存儲,當后續(xù)接收到的下載請求對應的網(wǎng)絡(luò)地址與被抓取過的網(wǎng)絡(luò)地址相同時,可將緩存下載空間即離線下載空間中的下載資源返回。在本實施例中,可獲取抓取到的離線下載資源,并計算該離線下載資源對應的資源摘要,根據(jù)被抓取的網(wǎng)絡(luò)地址和計算得到的資源摘要更新資源摘要庫。
[0081]在另一個實施例中,也可將下載資源直接發(fā)布到離線下載空間中存儲,并定義離線下載地址(網(wǎng)絡(luò)地址)與其對應。當下載請求中的網(wǎng)絡(luò)地址為該離線下載地址時,返回該下載資源。在本實施例中,資源摘要存儲模塊108還可用于獲取已發(fā)布的離線下載資源,并計算該離線下載資源對應的資源摘要,根據(jù)已定義的該離線下載資源對應的離線下載地址和計算得到的資源摘要更新資源摘要庫。
[0082]例如,在BT下載中,下載資源通常會在緩存下載空間中有一個完整的備份,各個終端節(jié)點上存儲的下載資源的數(shù)據(jù)均為該完整備份的子集。終端節(jié)點通常優(yōu)先向其他終端節(jié)點請求數(shù)據(jù),在其他終端節(jié)點均沒有該下載資源的數(shù)據(jù)時,才會獲取緩存下載空間中的下載資源的完整備份中的部分數(shù)據(jù)。資源摘要存儲模塊108還可用于計算該下載資源的完整備份的資源摘要,并通過該下載資源的種子文件獲取該完整備份對應的網(wǎng)絡(luò)地址,然后根據(jù)該網(wǎng)絡(luò)地址和計算得到的資源摘要更新資源摘要庫。[0083]資源名稱獲取模塊106,用于獲取與資源摘要對應的資源名稱。
[0084]在一個實施例中,資源摘要庫中還包括與資源摘要對應的資源名稱。資源名稱獲取模塊可用于通過資源摘要庫獲取資源摘要對應的資源名稱。
[0085]在本實施例中,如前所述,獲取下載資源的資源名稱的系統(tǒng)包括資源摘要存儲模塊108。資源摘要存儲模塊108可用于獲取下載記錄上報請求,下載記錄上報請求中包括網(wǎng)絡(luò)地址及其對應的資源摘要和資源名稱,并根據(jù)下載記錄上報請求更新資源摘要庫。即資源摘要庫中包括網(wǎng)絡(luò)地址、資源摘要以及資源名稱的對應關(guān)系。
[0086]在本實施例中,若資源摘要存儲模塊108接收到的多個下載記錄上報請求中,有多個網(wǎng)絡(luò)地址對應同一資源摘要,而該多個網(wǎng)絡(luò)地址對應不同的資源名稱,則可將對應了最多網(wǎng)絡(luò)地址的資源名稱作為與該資源摘要對應的資源名稱(少數(shù)服從多數(shù)原則)。
[0087]例如,若資源摘要存儲模塊108接收到多個下載記錄上報請求中,資源摘要A對應的網(wǎng)絡(luò)地址有100個,其中有90個網(wǎng)絡(luò)地址在下載記錄上報請求中對應的資源名稱為abc.exe,有10個網(wǎng)絡(luò)地址對應的資源名稱為def.exe,則可將資源名稱abc.exe作為資源摘要A對應的資源名稱,并將資源名稱abc.exe在資源摘要庫中與資源摘要A對應存儲。
[0088]在一個實施例中,資源摘要存儲模塊108接收到的下載記錄上報請求后,若資源摘要對應的網(wǎng)絡(luò)地址中包含第三方認證的可信任的網(wǎng)絡(luò)地址,則將下載記錄上報請求中與該網(wǎng)絡(luò)地址對應的資源名稱作為該資源摘要對應的資源名稱。例如,第三方認證的可信任的網(wǎng)站可以是資源提供商的官方網(wǎng)站、訪問量大于閾值的門戶網(wǎng)站等。
[0089]也就是說,若資源摘要存儲模塊108接收到的下載記錄上報請求中存在多個網(wǎng)絡(luò)地址對應同一資源摘要,而多個網(wǎng)絡(luò)地址又對應不同的資源名稱時,資源摘要存儲模塊108可用于將該多個網(wǎng)絡(luò)地址對應的資源名稱歸一化后作為資源摘要對應的資源名稱。
[0090]在一個實施例中,資源摘要存儲模塊108還可用于獲取資源摘要對應的網(wǎng)絡(luò)地址,通過解析網(wǎng)絡(luò)地址獲取與網(wǎng)絡(luò)地址對應的資源名稱,并將解析得到的資源名稱在資源摘要庫中與該資源摘要對應存儲。
[0091]由于下載記錄上報請求中包含的與網(wǎng)絡(luò)地址對應的資源名稱可以是被下載者更改過的資源名稱,因此,若上報的下載記錄上報請求中資源名稱有亂碼,特殊字符或其他無法作為文件名稱的字符時,可通過解析網(wǎng)絡(luò)地址獲取與網(wǎng)絡(luò)地址對應的資源名稱。當有多個網(wǎng)絡(luò)地址對應同一資源摘要時,將該多個網(wǎng)絡(luò)地址各自對應的資源名稱歸一化為該資源摘要對應的資源名稱的方法可與前述的歸一化的方法相同。
[0092]在一個實施例中,獲取下載資源的資源名稱的系統(tǒng)還包括資源聚類模塊110,用于創(chuàng)建并存儲與所述資源摘要庫中的資源摘要對應的資源聚類,根據(jù)所述資源摘要生成與所述資源聚類對應的聚類資源名稱。
[0093]資源聚類即具有相似內(nèi)容的下載資源的集合,資源聚類模塊110可用于根據(jù)資源摘要的特征部分創(chuàng)建資源聚類。
[0094]對于視頻下載資源,資源聚類模塊110可用于獲取視頻資源摘要中的關(guān)鍵幀的特征數(shù)據(jù),根據(jù)該特征數(shù)據(jù)將內(nèi)容具有相似性的視頻資源聚集成視頻資源聚類。對于音頻下載資源,資源聚類模塊110可用于獲取音頻資源摘要中的特征波形的特征數(shù)據(jù),并根據(jù)該特征數(shù)據(jù)將內(nèi)容具有相似性的音頻資源聚集成音頻資源聚類。
[0095]例如,若資源摘要庫中的多個視頻資源摘要中的關(guān)鍵幀的特征數(shù)據(jù)等同率大于閾值(99%),即大多數(shù)特征數(shù)據(jù)相同,則該多個視頻資源摘要屬于同一資源聚類。
[0096]進一步的,資源聚類模塊110還可用于在創(chuàng)建與資源摘要庫中的資源摘要對應的資源聚類之前,根據(jù)資源摘要對應的資源名稱的擴展文件名進行預分類。
[0097]由于具有不同擴展文件名的下載資源屬于不同的文件類型,通常內(nèi)容不具有相似性,預先根據(jù)擴展文件名進行預分類可減少創(chuàng)建資源聚類時比較特征數(shù)據(jù)的計算量,從而加快創(chuàng)建過程。
[0098]在本實施例中,對應同一資源聚類的資源摘要可有多個。資源聚類模塊110還可用于將該多個資源摘要對應的資源名稱歸一化后生成與該資源聚類對應的聚類資源名稱。
[0099]在本實施例中,資源聚類模塊110還可用于獲取該資源聚類對應的資源摘要;獲取該資源摘要對應的資源名稱;篩選出對應了最多數(shù)目的資源摘要的資源名稱作為與該資源聚類對應的聚類資源名稱。
[0100]例如,若資源聚類B對應的資源摘要有多個,這些資源摘要中,有10個資源摘要對應的資源名稱為abc.mkv,有5個資源摘要對應的資源名稱為cmf.mkv,有2個資源摘要對應的資源名稱為123.mkv,則資源聚類模塊110可用于將abc.mkv作為資源聚類B對應的聚類資源名稱。
[0101]在一個實施例中,資源名稱獲取模塊106還可用于獲取與資源摘要對應的資源聚類,獲取與資源聚類對應的聚類資源名稱。
[0102]由于資源聚類為內(nèi)容具有相似性的下載資源的集合,且聚類資源名稱為根據(jù)該集合中的所有下載資源對應的資源名稱生成得到,因此聚類資源名稱能更加準確的反映該下載資源的實際內(nèi)容,從而更進一步地提高獲取的下載資源的資源名稱的準確度。
[0103]在一個實施例中,資源摘要存儲模塊108還可用于根據(jù)資源聚類對中的資源摘要庫進行更新,更改資源摘要對應的資源名稱。在本實施例中,資源摘要存儲模塊108還可用于獲取資源摘要庫中資源摘要,獲取資源摘要所屬的資源聚類對應的聚類資源名稱,將資源摘要對應的資源名稱更新為聚類資源名稱。
[0104]在本實施例中,資源摘要存儲模塊108可用于在資源摘要庫中添加了新的資源摘要時,根據(jù)資源聚類更改資源摘要對應的資源名稱為聚類資源名稱。資源摘要存儲模塊108還可用于在根據(jù)下載記錄上報請求更新資源摘要庫之后,獲取更新加入的資源摘要,通過資源聚類模塊110將該更新加入的資源摘要歸類到對應的資源聚類中,獲取更新加入的資源摘要所屬資源聚類的聚類資源名稱,將資源摘要庫中該資源摘要對應的資源名稱更改為該聚類資源名稱;若歸類失敗,則通過資源聚類模塊110根據(jù)該資源摘要創(chuàng)建與其對應的資源聚類。
[0105]在另一個實施例中,資源摘要存儲模塊108還可用于定期根據(jù)資源聚類對資源摘要庫進行更新??啥ㄆ诒闅v資源摘要庫中的資源摘要,獲取資源摘要所屬的資源聚類對應的聚類資源名稱,然后將資源摘要對應的資源名稱更改為該聚類資源名稱。
[0106]根據(jù)資源聚類對資源摘要庫進行更新,可以使得在獲取資源摘要對應的資源名稱時,無需先獲取資源摘要所屬的資源聚類,可直接在資源摘要庫中獲取資源摘要對應的聚類資源名稱,從而減少了查詢的次數(shù),提高了執(zhí)行效率。
[0107]在一個實施例中,資源聚類模塊110還可用于定期遍歷資源聚類,通過資源摘要存儲模塊108獲取資源聚類對應的資源摘要,獲取該對應的資源摘要對應的資源名稱,并根據(jù)獲取到的資源名稱更新聚類資源名稱。也就是說,資源聚類模塊110還可用于定期根據(jù)資源摘要庫對聚類資源名稱進行更新,使得聚類資源名稱能夠更加準確地反映資源聚類對應的下載資源的實際內(nèi)容。
[0108]需要說明的是,上述各個模塊可以分別設(shè)置于多個服務(wù)器或服務(wù)器集群上,從而適應海量數(shù)據(jù)的環(huán)境。
[0109]上述獲取下載資源的資源名稱的方法和系統(tǒng),通過先獲取上傳的下載資源的網(wǎng)絡(luò)地址獲取其對應的資源摘要,然后再根據(jù)資源摘要獲取與資源摘要對應的資源名稱。由于資源摘要為可體現(xiàn)下載資源內(nèi)容的概要信息,由下載資源本身的內(nèi)容所決定,而不能由資源發(fā)布者通過設(shè)置網(wǎng)絡(luò)地址來自行設(shè)置,因此根據(jù)下載資源的資源摘要獲取得到的資源名稱能夠更加準確地反映下載資源的實際內(nèi)容,從而提高獲取到下載資源的資源名稱的準確度。
[0110]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random AccessMemory, RAM)等。
[0111]以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權(quán)利要求為準。
【權(quán)利要求】
1.一種獲取下載資源的資源名稱的方法,包括: 獲取上傳的下載資源的網(wǎng)絡(luò)地址; 根據(jù)所述網(wǎng)絡(luò)地址獲取下載資源的資源摘要; 獲取與所述資源摘要對應的資源名稱。
2.根據(jù)權(quán)利要求1所述的獲取下載資源的資源名稱的方法,其特征在于,所述根據(jù)所述網(wǎng)絡(luò)地址獲取下載資源的資源摘要的步驟為: 根據(jù)所述網(wǎng)絡(luò)地址在預設(shè)的資源摘要庫中獲取下載資源的資源摘要,所述資源摘要庫中預存有網(wǎng)絡(luò)地址與資源摘要的對應關(guān)系。
3.根據(jù)權(quán)利要求2所述的獲取下載資源的資源名稱的方法,其特征在于,所述方法還包括: 獲取下載記錄上報請求,所述下載記錄上報請求中包括網(wǎng)絡(luò)地址及所述網(wǎng)絡(luò)地址對應的資源摘要; 根據(jù)所述下載記錄上報請求更新所述資源摘要庫。
4.根據(jù)權(quán)利要求2所述的獲取下載資源的資源名稱的方法,其特征在于,所述方法還包括: 獲取離線下載資源; 獲取所述離線下載資源的資源摘要;` 獲取所述離線下載資源對應的網(wǎng)絡(luò)地址; 根據(jù)所述網(wǎng)絡(luò)地址和所述離線下載資源的資源摘要更新所述資源摘要庫。
5.根據(jù)權(quán)利要求2所述的獲取下載資源的資源名稱的方法,其特征在于,所述資源摘要庫中還包括與資源摘要對應的資源名稱; 所述獲取與所述資源摘要對應的資源名稱的步驟為: 通過所述資源摘要庫獲取與所述資源摘要對應的資源名稱。
6.根據(jù)權(quán)利要求2所述的獲取下載資源的資源名稱的方法,其特征在于,所述方法還包括: 創(chuàng)建與所述資源摘要庫中的資源摘要對應的資源聚類; 根據(jù)所述資源摘要生成與所述資源聚類對應的聚類資源名稱。
7.根據(jù)權(quán)利要求6所述的獲取下載資源的資源名稱的方法,其特征在于,所述方法還包括: 獲取所述資源摘要庫中資源摘要; 獲取所述資源摘要所屬的資源聚類對應的聚類資源名稱; 將所述資源摘要對應的資源名稱更新為所述聚類資源名稱。
8.根據(jù)權(quán)利要求6所述的獲取下載資源的資源名稱的方法,其特征在于,所述獲取與所述資源摘要對應的資源名稱的步驟為: 獲取與所述資源摘要對應的資源聚類; 獲取與所述資源聚類對應的聚類資源名稱。
9.一種獲取下載資源的資源名稱的系統(tǒng),其特征在于,包括: 網(wǎng)絡(luò)地址獲取模塊,用于獲取上傳的下載資源的網(wǎng)絡(luò)地址; 資源摘要獲取模塊,用于根據(jù)所述網(wǎng)絡(luò)地址獲取下載資源的資源摘要;資源名稱獲取模塊,用于獲取與所述資源摘要對應的資源名稱。
10.根據(jù)權(quán)利要求9所述的獲取下載資源的資源名稱的系統(tǒng),其特征在于,所述系統(tǒng)還包括資源摘要存儲模塊,用于存儲預設(shè)的資源摘要庫,所述資源摘要庫中預存有網(wǎng)絡(luò)地址與資源摘要的對應關(guān)系; 所述資源摘要獲取模塊還用于根據(jù)所述網(wǎng)絡(luò)地址在所述資源摘要庫中獲取下載資源的資源摘要。
11.根據(jù)權(quán)利要求10所述的獲取下載資源的資源名稱的系統(tǒng),其特征在于,所述資源摘要存儲模塊還用于獲取下載記錄上報請求,所述下載記錄上報請求中包括網(wǎng)絡(luò)地址及所述網(wǎng)絡(luò)地址對應的資源摘要;根據(jù)所述下載記錄上報請求更新所述資源摘要庫。
12.根據(jù)權(quán)利要求10所述的獲取下載資源的資源名稱的系統(tǒng),其特征在于,所述資源摘要存儲模塊還用于獲取離線下載資源;獲取所述離線下載資源的資源摘要,獲取所述離線下載資源對應的網(wǎng)絡(luò)地址,根據(jù)所述網(wǎng)絡(luò)地址和所述離線下載資源的資源摘要更新所述資源摘要庫。
13.根據(jù)權(quán)利要求10所述的獲取下載資源的資源名稱的系統(tǒng),其特征在于,所述資源摘要庫中還包括與資源摘要對應的資源名稱; 資源名稱獲取模塊還用于通過所述資源摘要庫獲取與所述資源摘要對應的資源名稱。
14.根據(jù)權(quán)利要求10所述的獲取下載資源的資源名稱的系統(tǒng),其特征在于,所述系統(tǒng)還包括資源聚類模塊,用于創(chuàng)建并存儲與所述資源摘要庫中的資源摘要對應的資源聚類,根據(jù)所述資源摘要生成 與所述資源聚類對應的聚類資源名稱。
15.根據(jù)權(quán)利要求14所述的獲取下載資源的資源名稱的系統(tǒng),其特征在于,所述資源摘要存儲模塊用于獲取所述資源摘要庫中資源摘要,獲取所述資源摘要所屬的資源聚類對應的聚類資源名稱,將所述資源摘要對應的資源名稱更新為所述聚類資源名稱。
16.根據(jù)權(quán)利要求14所述的獲取下載資源的資源名稱的系統(tǒng),其特征在于,所述資源摘要獲取模塊還用于獲取與所述資源摘要對應的資源聚類,獲取與所述資源聚類對應的聚類資源名稱。
【文檔編號】H04L29/08GK103634342SQ201210301088
【公開日】2014年3月12日 申請日期:2012年8月22日 優(yōu)先權(quán)日:2012年8月22日
【發(fā)明者】劉剛 申請人:騰訊科技(深圳)有限公司