亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種確定網(wǎng)絡資源類型的方法和裝置的制作方法

文檔序號:6466413閱讀:147來源:國知局

專利名稱::一種確定網(wǎng)絡資源類型的方法和裝置的制作方法
技術(shù)領域
:本發(fā)明涉及網(wǎng)絡通信技術(shù),特別涉及一種確定網(wǎng)絡資源類型的方法和裝置。
背景技術(shù)
:隨著網(wǎng)絡的飛速發(fā)展,網(wǎng)絡資源也越來越多,網(wǎng)絡資源搜索系統(tǒng)的出現(xiàn)使得用戶可以從互聯(lián)網(wǎng)(Internet)上準確找到自己需要的網(wǎng)絡資源。Internet上的網(wǎng)絡資源包括各種數(shù)字音樂、影視、軟件、書籍等等,并以各種不同的文件格式而存在,每個網(wǎng)絡資源都對應有下載地址(即統(tǒng)一資源定位符(UniformResourceLocator,URL)地址或點對點(PointToPoint,P2P)地址標識),用戶通過下載地址就可以下載對應的網(wǎng)絡資源。網(wǎng)絡資源搜索系統(tǒng)是一種向用戶提供搜索Internet上各種網(wǎng)絡資源的系統(tǒng)。在用戶向網(wǎng)絡資源搜索系統(tǒng)提交搜索關鍵信息后,網(wǎng)絡資源搜索系統(tǒng)根據(jù)關鍵信息就可以給出相應的網(wǎng)絡資源名稱以及下載地址,用戶根據(jù)地址下載就可以下載網(wǎng)絡資源。如圖l所示,目前網(wǎng)絡資源搜索系統(tǒng)結(jié)構(gòu)示意圖中,包括搜索引擎、資源數(shù)據(jù)庫和網(wǎng)絡蜘蛛(WebSpider)。其中,網(wǎng)絡蜘蛛可以自動在互聯(lián)網(wǎng)上搜索各種網(wǎng)絡資源,并把搜尋的各種網(wǎng)絡資源記錄到資源數(shù)據(jù)庫中;資源數(shù)據(jù)庫記錄了網(wǎng)絡資源的相關信息,包括網(wǎng)絡資源實名、下載地址、網(wǎng)絡資源類型、網(wǎng)絡資源大小等信息;搜索引擎是一個網(wǎng)絡服務器程序,可以根據(jù)用戶提交的關鍵信息在資源數(shù)據(jù)庫中找到相應的網(wǎng)絡資源,并把結(jié)果提供給用戶。網(wǎng)絡蜘蛛在找到一個網(wǎng)絡資源時,需要通過分析而得到它的一些信息,以便該網(wǎng)絡資源能被記錄到資源數(shù)據(jù)庫中,其中一個重要的信息是網(wǎng)絡資源類型,通過記錄網(wǎng)絡資源類型,搜索引擎可以向用戶提供在某一特定類型的網(wǎng)絡資源中進行搜索的功能。目前有一種確定網(wǎng)絡資源類型的方法,即將一個網(wǎng)站所提供的所有網(wǎng)絡資源都歸為一種類型。在這種方法中,通過人工為不同的網(wǎng)站配置不同的類型,比如音樂網(wǎng)站配置的類型為音樂,軟件網(wǎng)站配置的類型為軟件等等。當網(wǎng)絡蜘蛛從某個網(wǎng)站上找到一個網(wǎng)絡資源時,將配置的該網(wǎng)站的類型作為該網(wǎng)絡資源的類型。這種方法存在以下的問題不適用于網(wǎng)絡蜘蛛的全網(wǎng)絡資源搜尋。由于需要人工設定每一個網(wǎng)站的類別,這種方法只適用于網(wǎng)絡蜘蛛在指定網(wǎng)絡范圍中搜尋網(wǎng)絡資源,當范圍擴大到全網(wǎng)絡時,由于網(wǎng)站數(shù)量過于龐大,不可能人工設定每一個網(wǎng)站的類別。確定的網(wǎng)絡資源類型不準確。這種方法由于是對一個網(wǎng)站設定一個類型,也就認為該網(wǎng)站提供的網(wǎng)絡資源全是同一個類型,而目前有許多網(wǎng)站會提供多種類型的網(wǎng)絡資源,比如一個綜合網(wǎng)站,可以提供音樂、軟件、電影等等類型的網(wǎng)絡資源,顯然這種方法不能準確確定網(wǎng)絡資源類型。綜上所述,現(xiàn)有技術(shù)確定網(wǎng)絡資源類型的方法不適用于全網(wǎng)絡資源搜尋,并且確定的網(wǎng)絡資源類型不準確。
發(fā)明內(nèi)容本發(fā)明實施例提供一種確定網(wǎng)絡資源類型的方法和裝置,用以解決現(xiàn)有技術(shù)中存在的確定網(wǎng)絡資源類型的方法不適用于全網(wǎng)絡資源搜尋,并且確定的網(wǎng)絡資源類型不準確的問題。本發(fā)明實施例提供的一種確定網(wǎng)絡資源類型的方法包括從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息;根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定每個所述特征信息對應的網(wǎng)絡資源類型及權(quán)值;根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。本發(fā)明實施例提供的一種確定網(wǎng)絡資源類型的裝置包括特征信息確定模塊,用于從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息;權(quán)值確定模塊,用于根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定每個所述特征信息對應的網(wǎng)絡資源類型及權(quán)值;處理模塊,用于根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。本發(fā)明實施例從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息;根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定每個所述特征信息對應的網(wǎng)絡資源類型及權(quán)值;根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。由于可以根據(jù)網(wǎng)絡資源的屬性信息確定網(wǎng)絡資源類型,從而可以適用全網(wǎng)絡資源搜尋的情況,并且提高了網(wǎng)絡資源類型的準確率、用戶體驗以及網(wǎng)絡帶寬的利用率。圖1為網(wǎng)絡資源搜索系統(tǒng)結(jié)構(gòu)示意圖;圖2為本發(fā)明實施例確定網(wǎng)絡資源類型的裝置結(jié)構(gòu)示意圖;圖3為本發(fā)明實施例確定網(wǎng)絡資源類型的方法流程示意圖;圖4為本發(fā)明實施例采用關鍵信息和文件后綴名確定網(wǎng)絡資源類型的方法流程示意圖。具體實施例方式本發(fā)明實施例根據(jù)獲取的網(wǎng)絡資源的屬性信息中的特征信息,確定對應的網(wǎng)絡資源類型及權(quán)值,根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型,由于可以根據(jù)網(wǎng)絡資源的屬性信息確定網(wǎng)絡資源類型,不需要人工為不同的網(wǎng)站配置不同的類型,從而可以適用全網(wǎng)絡資源搜尋的情況。其中,網(wǎng)絡資源類型包括但不限于下列中的一種或幾種影視、音樂、軟件、游戲等等。網(wǎng)絡資源的屬性信息包括但不限于下列中的一種或幾種網(wǎng)絡資源的文件名、網(wǎng)絡資源的下載地址所在頁面的鏈接文字、網(wǎng)絡資源的文件后綴名等等。進一步的,如果網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,則網(wǎng)絡資源的屬性信息還包括壓縮文件列表,壓縮文件列表中還有每個文件的文件名和文件后綴名。在具體實施過程中,網(wǎng)絡資源的文件名和網(wǎng)絡資源的下載地址所在頁面的鏈接文字可以通過URL協(xié)i義、超級文本傳送協(xié)議(HyperTextTransportProtocol,HTTP)、超文本鏈4妄標示i吾言(HypertextMarkupLanguage,HTML)標準等技術(shù)獲得;壓縮文件列表可以利用壓縮格式的標準(比如zip格式)或者開放源代碼(比如RAR才各式),分析網(wǎng)絡資源的文件內(nèi)容后獲得。除非特殊說明,否則本發(fā)明實施例獲取網(wǎng)絡資源的屬性信息都按照上述方式獲得。下面結(jié)合說明書附圖對本發(fā)明實施例作進一步詳細描述。如圖2所示,本發(fā)明實施例確定網(wǎng)絡資源類型的裝置包括特征信息確定模塊10、權(quán)值確定模塊20和處理模塊30。特征信息確定模塊IO,與權(quán)值確定模塊20連接,用于從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息。其中,特征信息可以是關4建信息,也可以是文件后綴名。如果特征信息可以是關鍵信息,則特征信息確定模塊10還可以進一步包括關鍵信息確定模塊100和第一確定模塊101。關鍵信息確定模塊100,用于根據(jù)預先設定的關鍵信息集合,確定網(wǎng)絡資源的屬性信息中的頁面鏈接文字和/或網(wǎng)絡資源的屬性信息中的文件名的關鍵信息。具體的,如果網(wǎng)絡資源的屬性信息中有頁面鏈^t妄文字和文件名,則確定頁面鏈接文字和文件名的關4定信息;如果網(wǎng)絡資源的屬性信息中有頁面鏈接文字或文件名,則確定頁面鏈^r文字或文件名的關鍵信息。關鍵信息集合可以人工手動生成,還可以從網(wǎng)上搜索和篩選出與網(wǎng)絡資源相關的關鍵信息。關鍵信息集合可以用自定義的存儲格式進行存儲,關鍵信息可以是關鍵詞,也可以是關鍵字,比如中文版、教程、書等等。第一確定模塊101,用于將關鍵信息確定模塊100確定的關鍵信息作為特征信息。如果關鍵信息確定模塊100確定了多個關鍵信息,則將每個關鍵信息都作為一個特征信息。如果關鍵信息是文件后綴名,則特征信息確定模塊IO還可以進一步包括匹配模塊102和第二確定模塊103。匹配模塊102,用于將網(wǎng)絡資源的屬性信息中的網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合進行匹配。匹配模塊102查看文件后綴名集合中是否有網(wǎng)絡資源的文件后綴名,如果有,則匹配成功。文件后綴名集合可以用自定義的存儲格式進行存儲。第二確定模塊103,用于在匹配模塊102匹配成功后,將網(wǎng)絡資源的文件后綴名作為特征信息。在具體實施過程中,如果網(wǎng)絡資源的屬性信息中只有網(wǎng)絡資源的屬性信息中的頁面鏈接文字和/或網(wǎng)絡資源的屬性信息中的文件名,則特征信息是關鍵:信息;如果網(wǎng)絡資源的屬性信息中只有網(wǎng)絡資源的文件后綴名,則特征信息是文件后綴名;如果網(wǎng)絡資源的屬性信息中既有網(wǎng)絡資源的屬性信息中的頁面鏈接文字和/或網(wǎng)絡資源的屬性信息中的文件名,又有網(wǎng)絡資源的文件后綴名,則特征信息是關鍵信息和文件后綴名。由于壓縮文件中的文件可能是任何類型的文件,并不能通過壓縮文件后綴名進行判斷,所以,一種較佳方式是文件后綴名集合不包括壓縮文件后綴名,這樣就會出現(xiàn)匹配失敗的情況,這時需要重新確定網(wǎng)絡資源的文件后綴名。其中,特征信息確定模塊IO還可以進一步包括第一數(shù)量確定模塊104、第一計算模塊105、第一更新模塊106和第一通知模塊107。第一數(shù)量確定模塊104,用于在匹配模塊102匹配失敗后,如果網(wǎng)絡資源的屬性信息中的網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,從網(wǎng)絡資源的壓縮文件列表中,確定各文件后綴名的數(shù)量。第一計算模塊105,用于計算第一數(shù)量確定模塊104確定的各文件后綴名的數(shù)量占壓縮文件列表中總文件的數(shù)量的比率。第一更新模塊106,用于將比率大于閾值的一個文件后綴名作為網(wǎng)絡資源的文件后綴名。第一通知模塊107,用于通知匹配模塊102將第一更新模塊106更新后的網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合重新進行匹配。為了避免匹配失敗的情況,還可以在匹配之前判斷網(wǎng)絡資源的文件后綴名是否是壓縮文件后綴名。其中,特征信息確定模塊IO還可以進一步包括第二數(shù)量確定模塊108、第二計算模塊109、第二更新模塊IIO和第二通知模塊111。第二數(shù)量確定模塊108,用于如果網(wǎng)絡資源的屬性信息中的網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,在匹配模塊102進行匹配前,從網(wǎng)絡資源的屬性信息中的壓縮文件列表中,確定各文件后綴名的數(shù)量。第二計算模塊109,用于計算第二數(shù)量確定模塊108確定的各文件后綴名的數(shù)量占壓縮文件列表中總文件的數(shù)量的比率。第二更新模塊110,用于將比率大于閾值的一個文件后綴名作為網(wǎng)絡資源的文件后綴名。第二通知模塊111,用于通知匹配模塊102將第二更新模塊110更新后的網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合進行匹配。權(quán)值確定模塊20,與特征信息確定模塊10和處理模塊30連接,用于根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定特征信息確定模塊10確定的每個特征信息對應的網(wǎng)絡資源類型及權(quán)值。其中,一個特征信息可以對應多個網(wǎng)絡資源類型及權(quán)值,比如特征信息為avi,則avi可以對應影視和音樂兩個網(wǎng)路資源類型,而影^L的權(quán)值和音樂的權(quán)值可以根據(jù)特征信息的不同設定不同的權(quán)值,具體的,文件后綴名為avi的文件大多數(shù)是影視,少部分是音樂,則可以將avi對應影視的權(quán)值設定為1,將avi對應的音樂的權(quán)值設定為0.1。在具體實施過程中,特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系可以采用數(shù)據(jù)庫或文件或其他形式進行存儲,并且可以存儲到本實施例的裝置中,也可以存儲到其他實體中供本實施例的裝置查找。如果釆用數(shù)據(jù)庫,則該數(shù)據(jù)庫可以通過關系型數(shù)據(jù)庫技術(shù)實現(xiàn)。比如在服務器上可以安裝關系型數(shù)據(jù)庫軟件,并可采用關系型數(shù)據(jù)庫廠商提供的應用程序接口(ApplicationProgrammingInterface,API)。一般在關系型數(shù)據(jù)庫中,采用結(jié)構(gòu)化查詢語言(StructuredQueryLanguage,SQL)作為管理數(shù)據(jù)庫內(nèi)容的接口程序。處理模塊30,與權(quán)值確定模塊20連接,用于根據(jù)確定的網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。其中,一個特征信息對應不同的網(wǎng)絡資源類型及權(quán)值時,處理模塊30還可以進一步包括第一網(wǎng)絡資源類型確定模塊300。第一網(wǎng)絡資源類型確定模塊300,用于將對應的權(quán)值最大的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。其中,在特征信息確定模塊10確定多個屬性信息為特征信息時,處理模塊30還可以進一步包括計算模塊301和第二網(wǎng)絡資源類型確定模塊302。計算模塊301,用于將每個特征信息對應的網(wǎng)絡資源類型相同的各權(quán)值相加。第二網(wǎng)絡資源類型確定模塊302,用于根據(jù)權(quán)值相加后的結(jié)果確定網(wǎng)絡資源類型。其中,第二網(wǎng)絡資源類型確定模塊302還可以進一步包括權(quán)值確定模塊3020和比4交才莫塊3021。權(quán)值確定沖莫塊3020,用于確定每個網(wǎng)絡資源類型對應的4又值之和。如果確定的網(wǎng)絡資源類型沒有相同的,則網(wǎng)絡資源類型對應的權(quán)值之和為確定的網(wǎng)絡資源類型及權(quán)值。比如確定了3個網(wǎng)絡資源類型及權(quán)值,分別為,音樂,權(quán)值為1;影視,權(quán)值為1和音樂,權(quán)值為0.1,則音樂的權(quán)值之和為1.1,影視的權(quán)值之和為O.l。比較模塊3021,用于將對應的權(quán)值之和大于閾值的一個網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型;或?qū)臋?quán)值之和最大的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。較佳的方式是將權(quán)值之和大于閾值的最大的值對應的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型;如果權(quán)值之和沒有大于閾值的,則將權(quán)值之和最大的值對應的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。需要說明是,本實施例并不局限于上述兩種方式,任何根據(jù)權(quán)值相加后的結(jié)果確定網(wǎng)絡資源類型的方式都適用本實施例。如圖3所示,本發(fā)明實施例確定網(wǎng)絡資源類型的方法包括下列步驟步驟300、從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息。其中,特征信息可以是關鍵信息,也可以是文件后綴名。如果特征信息可以是關鍵:信息,則步驟300還可以進一步包括步驟Al、根據(jù)預先設定的關鍵信息集合,確定網(wǎng)絡資源的屬性信息中的頁面鏈接文字和/或網(wǎng)絡資源的屬性信息中的文件名的關鍵:信息;步驟A2、將確定的關鍵信息作為特征信息。具體的,如果網(wǎng)絡資源的屬性信息中有頁面鏈接文字和文件名,則確定頁面鏈接文字和文件名的關4建信息;如果網(wǎng)絡資源的屬性信息中有頁面鏈接文字或文件名,則確定頁面鏈接文字或文件名的關鍵信息。關鍵信息集合可以人工手動生成,還可以從網(wǎng)上搜索和篩選出與網(wǎng)絡資源相關的關鍵信息。關鍵信息集合可以用自定義的存儲格式進行存儲,關鍵信息可以是關鍵詞,也可以是關鍵字,比如中文版、教程、書等等。如果確定了多個關鍵信息,則將每個關鍵信息都作為一個特征信息。如果特征信息可以是文件后綴名,則步驟300還可以進一步包括步驟Bl、將網(wǎng)絡資源的屬性信息中的網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合進行匹配;步驟B2、在匹配成功后,將網(wǎng)絡資源的文件后綴名作為特征信息。文件后綴名集合可以用自定義的存儲格式進行存儲。在具體實施過程中,如果網(wǎng)絡資源的屬性信息中只有網(wǎng)絡資源的屬性信息中的頁面鏈接文字和/或網(wǎng)絡資源的屬性信息中的文件名,則特征信息是關鍵信息;如果網(wǎng)絡資源的屬性信息中只有網(wǎng)絡資源的文件后綴名,則特征信息是文件后綴名;如果網(wǎng)絡資源的屬性信息中既有網(wǎng)絡資源的屬性信息中的頁面鏈接文字和/或網(wǎng)絡資源的屬性信息中的文件名,又有網(wǎng)絡資源的文件后綴名,則特征信息是關鍵信息和文件后綴名。由于壓縮文件中的文件可能是任何類型的文件,并不能通過壓縮文件后綴名進行判斷,所以,一種較佳方式是文件后綴名集合不包括壓縮文件后綴名,這樣就會出現(xiàn)匹配失敗的情況,這時需要重新確定網(wǎng)絡資源的文件后綴名。其中,如果步驟B1中匹配失敗,則步驟B1和步驟B2之間還可以進一步包括11)如果網(wǎng)絡資源的屬性信息中的網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,從網(wǎng)絡資源的壓縮文件列表中,確定各文件后綴名的數(shù)量。壓縮文件列表包括每個文件的文件名以及對應的文件后綴名,比如壓縮文4牛歹寸表為l.avi2.avi3.avi4.avireadme.txt,貝寸1、2、3、4為文4牛名,avi和txt為文^f牛后纟晨名。這時需要統(tǒng)計各文件后綴名的數(shù)量,即avi對應的數(shù)量是3,txt對應的數(shù)量是l。12)計算確定的各文件后綴名的數(shù)量占壓縮文件列表中總文件的數(shù)量的比率。比如壓縮文件列表為I.avi2.avi3.avi4.avireadme.txt,一共有4個文件,avi對應的數(shù)量是3,占75%(或0.75);txt對應的數(shù)量是1,占25%(或0.25)。13)將比率大于閾值的一個文件后綴名作為網(wǎng)絡資源的文件后綴名。閾值可以根據(jù)需要進行設定,比如這里閾值設定為60%(或0.6),則avi占75%,txt占25。/。,avi的比率大于閾值,則將avi作為網(wǎng)絡資源的文件后綴名。14)將該網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合重新進行匹配。為了避免匹配失敗的情況,還可以在匹配之前判斷網(wǎng)絡資源的文件后綴名是否是壓縮文件后綴名。其中,如果網(wǎng)絡資源的屬性信息中的網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,則步驟B2中,根據(jù)下列步驟確定網(wǎng)絡資源的屬性信息中的網(wǎng)絡資源的文件后綴名21)從網(wǎng)絡資源的屬性信息中的壓縮文件列表中,確定各文件后綴名的數(shù)量;22)計算確定的各文件后綴名的數(shù)量占壓縮文件列表中總文件的數(shù)量的比率;23)將比率大于閾值的一個文件后綴名作為網(wǎng)絡資源的文件后綴名。步驟301、根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定每個特征信息對應的網(wǎng)絡資源類型及權(quán)值。其中,一個特征信息可以對應多個網(wǎng)絡資源類型及權(quán)值,比如特征信息為avi,則avi可以對應影視和音樂兩個網(wǎng)路資源類型,而影視的權(quán)值和音樂的權(quán)值可以根據(jù)特征信息的不同設定不同的權(quán)值,具體的,文件后綴名為avi的文件大多數(shù)是影視,少部分是音樂,則可以將avi對應影視的權(quán)值設定為1,將avi對應的音樂的權(quán)值設定為0.1。在具體實施過程中,特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系可以采用數(shù)據(jù)庫或文件或其他形式進行存儲,并且可以存儲到本實施例的裝置中,也可以存儲到其他實體中供本實施例的裝置查找。如果采用數(shù)據(jù)庫,則該數(shù)據(jù)庫可以通過關系型數(shù)據(jù)庫技術(shù)實現(xiàn)。比如在服務器上可以安裝關系型數(shù)據(jù)庫軟件,并可采用關系型數(shù)據(jù)庫廠商提供的API。一般在關系型數(shù)據(jù)庫中,采用SQL作為管理數(shù)據(jù)庫內(nèi)容的接口程序。步驟302、根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。其中,一個特征信息對應不同的網(wǎng)絡資源類型及權(quán)值時,步驟302還可以進一步包括將對應的權(quán)值最大的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。其中,在步驟300中確定多個屬性信息為特征信息時,步驟302還可以進一步包括步驟a302、將每個特征信息對應的網(wǎng)絡資源類型相同的各權(quán)值相加。步驟b302、根據(jù)權(quán)值相加后的結(jié)果確定網(wǎng)絡資源類型。如果確定的網(wǎng)絡資源類型沒有相同的,則網(wǎng)絡資源類型對應的權(quán)值之和為確定的網(wǎng)絡資源類型及權(quán)值。比如確定了3個網(wǎng)絡資源類型及權(quán)值,分別為,音樂,權(quán)值為1;影視,權(quán)值為1和音樂,權(quán)值為0.1,則音樂的權(quán)值之和為1.1,影視的權(quán)值之和為O.l。步驟b302中,才艮據(jù)權(quán)值相加后的結(jié)果確定網(wǎng)絡資源類型還可以進一步包括確定每個網(wǎng)絡資源類型對應的權(quán)值之和;將對應的權(quán)值之和大于閾值的一個網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型;或?qū)臋?quán)值之和最大的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。較佳的方式是將權(quán)值之和大于閾值的最大的值對應的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型;如果權(quán)值之和沒有大于閾值的,則將權(quán)值之和最大的值對應的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。需要說明是,本實施例并不局限于上述兩種方式,任何根據(jù)權(quán)值相加后的結(jié)果確定網(wǎng)絡資源類型的方式都適用本實施例。在具體實施過程中,本實施例確定網(wǎng)絡資源類型的方法可以由網(wǎng)絡資源搜索系統(tǒng)中的網(wǎng)絡蜘蛛執(zhí)行,還可以由網(wǎng)絡資源搜索系統(tǒng)中的其他裝置執(zhí)行。如圖4所示,本發(fā)明實施例采用關鍵信息和文件后綴名確定網(wǎng)絡資源類型的方法包括下列步驟假設,網(wǎng)絡資源的文件后綴名為壓縮文件后綴名。步驟400、查找到一個網(wǎng)絡資源后,獲^U亥網(wǎng)絡資源的屬性信息。其中,獲取該網(wǎng)絡資源的屬性信息包括網(wǎng)絡資源的文件名為ps、網(wǎng)絡資源的下載地址所在頁面的鏈接文字Photoshop中文版教程下載、網(wǎng)絡資源的文件后綴名rar、壓縮文件列表內(nèi)容為l.avi2.avi3.avi4.avireadme.txt。步驟401、從關鍵信息中確定屬性信息中的中文版和教程為特征信息。步驟402、確定rar為壓縮文件后綴名,從壓縮文件列表中確定avi對應的數(shù)量是3占75%;txt對應的數(shù)量是1占25%。步驟403、確定avi的比率75。/。大于閾值的60。/。,將avi作為特征信息。步驟404、從先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系中,確定中文版對應的軟件的權(quán)值為1、游戲的權(quán)值為1;確定教程對應的書籍的權(quán)值為1、影視的權(quán)值為0.1;確定avi對應的影視權(quán)值為1、音樂權(quán)值為0.1。步驟405、將相同的網(wǎng)絡資源類型對應的權(quán)值相加,最后的結(jié)果如下表所示<table>tableseeoriginaldocumentpage18</column></row><table>步驟406、將影^L作為查找到的網(wǎng)絡資源的類型。本實施例是在匹配之前先判斷文件后綴名是否是壓縮文件后綴名,還有一種方式是在匹配之后,如果匹配失敗,則判斷文件后綴名是否是壓縮文件后綴名,如果是,則重新確定網(wǎng)絡資源的文件后綴名。具體的匹配失敗后判斷文件后綴名是否是壓縮文件后綴名,與匹配之前先判斷文件后綴名是否是壓縮文件后綴名過程類似,不再贅述。本領域的技術(shù)人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。從上述實施例中可以看出本發(fā)明實施例從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息;根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定每個所述特征信息對應的網(wǎng)絡資源類型及權(quán)值;根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。由于可以根據(jù)網(wǎng)絡資源的屬性信息確定網(wǎng)絡資源類型,從而可以適用全網(wǎng)絡資源搜尋的情況,并且提高了網(wǎng)絡資源類型的準確率、用戶體驗以及網(wǎng)絡帶寬的利用率。明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。權(quán)利要求1、一種確定網(wǎng)絡資源類型的方法,其特征在于,該方法包括從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息;根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定每個所述特征信息對應的網(wǎng)絡資源類型及權(quán)值;根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。2、如權(quán)利要求1所述的方法,其特征在于,當確定一個屬性信息為特征信息,且一個特征信息對應多個不同的網(wǎng)絡資源類型及權(quán)值時,所述根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型包括將對應的權(quán)值最大的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。3、如權(quán)利要求1所述的方法,其特征在于,當確定多個屬性信息為特征信息時,所述根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型包括將每個特征信息對應的網(wǎng)絡資源類型相同的各權(quán)值相加,根據(jù)權(quán)值相加后的結(jié)果確定網(wǎng)絡資源類型。4、如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)權(quán)值相加后的結(jié)果確定網(wǎng)絡資源類型包括確定每個網(wǎng)絡資源類型對應的權(quán)值之和;將對應的權(quán)值之和大于第一閾值的一個網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型;或?qū)臋?quán)值之和最大的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。5、如權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)絡資源的屬性信息包括頁面鏈接文字的關鍵信息和文件名的關鍵信息,所述從獲取的所述網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息包括根據(jù)預先設定的關鍵信息集合,確定所述網(wǎng)絡資源的屬性信息中的頁面鏈接文字的關鍵:信息和/或所述網(wǎng)絡資源的屬性信息中的文件名的關鍵信息;將確定的關鍵信息作為所述特征信息。6、如權(quán)利要求1或5所述的方法,其特征在于,所述網(wǎng)絡資源的屬性信息包括文件后綴名,所述從獲取的所述網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息包括將所述網(wǎng)絡資源的屬性信息中的所述網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合進行匹配;在匹配成功后,將所述網(wǎng)絡資源的文件后綴名作為所述特征信息。7、如權(quán)利要求6所述的方法,其特征在于,該方法還包括在匹配失敗后,如果所述網(wǎng)絡資源的屬性信息中的所述網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,從所述網(wǎng)絡資源的壓縮文件列表中,確定各文件后綴名的數(shù)量;計算確定的所述各文件后綴名的數(shù)量占所述壓縮文件列表中總文件的數(shù)量的比率;將比率大于第二閾值的一個文件后綴名作為所述網(wǎng)絡資源的文件后綴名;將該網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合重新進行匹配。8、如權(quán)利要求6所述的方法,其特征在于,如果所述網(wǎng)絡資源的屬性信息中的所述網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,所述將所述網(wǎng)絡資源信息中的所述網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合進行匹配之前還包括從所述網(wǎng)絡資源的中的壓縮文件列表中,確定各文件后綴名的數(shù)量;計算確定的所述各文件后綴名的數(shù)量占所述壓縮文件列表中總文件的數(shù)量的比率;將比率大于閾值的一個文件后綴名作為所述網(wǎng)絡資源的文件后綴名。9、一種確定網(wǎng)絡資源類型的裝置,其特征在于,該裝置包括特征信息確定模塊,用于從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息;權(quán)值確定模塊,用于根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定每個所述特征信息對應的網(wǎng)絡資源類型及權(quán)值;處理模塊,用于根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。10、如權(quán)利要求9所述的裝置,其特征在于,所述處理模塊包括第一網(wǎng)絡資源類型確定模塊,用于當確定一個屬性信息為特征信息,且一個特征信息對應多個不同的網(wǎng)絡資源類型及權(quán)值時,將對應的權(quán)值最大的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。11、如權(quán)利要求9所述的裝置,其特征在于,所述處理模塊包括計算模塊,用于在所述特征信息確定模塊確定多個屬性信息為特征信息時,將每個特征信息對應的網(wǎng)絡資源類型相同的各權(quán)值相加;第二網(wǎng)絡資源類型確定模塊,用于根據(jù)權(quán)值相加后的結(jié)果確定網(wǎng)絡資源類型。12、如權(quán)利要求11所述的裝置,其特征在于,所述第二網(wǎng)絡資源類型確定模塊包括權(quán)值確定模塊,用于確定每個網(wǎng)絡資源類型對應的權(quán)值之和;比較模塊,用于將對應的權(quán)值之和大于閾值的一個網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型;或?qū)臋?quán)值之和最大的網(wǎng)絡資源類型作為確定的網(wǎng)絡資源類型。13、如權(quán)利要求9所述的裝置,其特征在于,所述特征信息確定模塊包括關鍵信息確定模塊,用于根據(jù)預先設定的關鍵信息集合,確定所述網(wǎng)絡資源的屬性信息中的頁面鏈接文字和/或所述網(wǎng)絡資源的屬性信息中的文件名的關鍵信息;第一確定模塊,用于將所述關鍵信息確定模塊確定的關4定信息作為所述特征信息。14、如權(quán)利要求9或13所述的裝置,其特征在于,所述特征信息確定模塊包括匹配模塊,用于將所述網(wǎng)絡資源的屬性信息中的所述網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合進行匹配;第二確定模塊,用于在匹配成功后,將所述網(wǎng)絡資源的文件后綴名作為所述特征信息。15、如權(quán)利要求14所述的裝置,其特征在于,所述特征信息確定模塊還包括第一數(shù)量確定模塊,用于在所述匹配模塊匹配失敗后,如果所述網(wǎng)絡資源的屬性信息中的所述網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,從所述網(wǎng)絡資源的壓縮文件列表中,確定各文件后綴名的數(shù)量;第一計算模塊,用于計算確定的所述各文件后綴名的數(shù)量占所述壓縮文件列表中總文件的數(shù)量的比率;第一更新模塊,用于將比率大于闊值的一個文件后綴名作為所述網(wǎng)絡資源的文件后綴名;第一通知^^莫塊,用于通知所述匹配模塊將該網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合重新進行匹配。16、如權(quán)利要求14所述的裝置,其特征在于,所述特征信息確定模塊還包括第二數(shù)量確定模塊,用于如果所述網(wǎng)絡資源的屬性信息中的所述網(wǎng)絡資源的文件后綴名為壓縮文件后綴名,從所述網(wǎng)絡資源的屬性信息中的壓縮文件列表中,確定各文件后綴名的數(shù)量;第二計算模塊,用于計算確定的所述各文件后綴名的數(shù)量占所述壓縮文件列表中總文件的數(shù)量的比率;第二更新模塊,用于將比率大于閾值的一個文件后綴名作為所述網(wǎng)絡資源的文件后綴名;第二通知模塊,用于通知所述匹配模塊將該網(wǎng)絡資源的文件后綴名與預先設定的文件后綴名集合進行匹配。全文摘要本發(fā)明涉及網(wǎng)絡通信技術(shù),特別涉及一種確定網(wǎng)絡資源類型的方法和裝置,用以解決現(xiàn)有技術(shù)中存在的確定網(wǎng)絡資源類型的方法不適用于全網(wǎng)絡資源搜尋,并且確定的網(wǎng)絡資源類型不準確的問題。本發(fā)明實施例的方法包括從獲取的網(wǎng)絡資源的屬性信息中確定至少一個屬性信息為特征信息;根據(jù)預先設定的特征信息和網(wǎng)絡資源類型及權(quán)值的對應關系,確定每個所述特征信息對應的網(wǎng)絡資源類型及權(quán)值;根據(jù)確定的所述網(wǎng)絡資源類型及權(quán)值,確定網(wǎng)絡資源類型。采用本發(fā)明實施例能夠從全網(wǎng)絡資源中進行搜尋,并且提高了網(wǎng)絡資源類型的準確率。文檔編號G06F17/30GK101340463SQ200810145790公開日2009年1月7日申請日期2008年8月22日優(yōu)先權(quán)日2008年8月22日發(fā)明者張國強,陳曉東申請人:深圳市迅雷網(wǎng)絡技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1