專利名稱:用于確定資源描述信息的準確度信息的方法、裝置和設備的制作方法
技術領域:
本發(fā)明涉及計算機領域,尤其涉及一種確定資源描述信息的準確度信息的方法、裝置及設備。
背景技術:
隨著網絡的普及,越來越多的用戶熱衷于將自己標注過的資源(也被稱之為UGC資源)通過網絡予以發(fā)布,以便與他人分享。然而,由于用戶個人對資源的標注具有隨意性,常常會根據個人的喜好、情緒等來隨意標注,因此標注的信息的準確度難以保證。例如,用戶惡作劇地將A明星的圖片標注為B明星后,隨后發(fā)布在自己的相冊集中。則當其他用戶通過搜索引擎搜索B明星時,A明星的圖片可能出現在搜索結果中,從而嚴重影響搜索引擎的可信度。
發(fā)明內容
本發(fā)明的目的是提供一種確定資源描述信息的準確度信息的方法、裝置及設備。根據本發(fā)明的一個方面,提供一種計算機實現的用于確定資源描述信息的準確度信息的方法,其中,該方法包括以下步驟a由預建立的資源描述信息集合所包含的多個資源描述信息中選擇待處理資源描 述信息,其中,所述多個資源描述信息中的每個資源描述信息均用于描述一個資源,且每個資源描述信息所描述的資源與該資源描述信息集合中的任一其他資源描述信息所描述的資源相似或相同;b獲取所述待處理資源描述信息所包含的各個關鍵詞在所述其他資源描述信息中的分布信息;c根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度信息。根據本發(fā)明的另一個方面,還提供了一種計算機實現的用于確定描述信息的準確度信息的準確度確定裝置,其中,該準確度確定裝置包括選擇裝置、用于由預建立的資源描述信息集合所包含的多個資源描述信息中選擇待處理資源描述信息,其中,所述多個資源描述信息中的每個資源描述信息均用于描述一個資源,且每個資源描述信息所描述的資源與該資源描述信息集合中的任一其他資源描述信息所描述的資源相似或相同;第一獲取裝置、用于獲取所述待處理資源描述信息所包含的各個關鍵詞在所述其他資源描述信息中的分布信息;第一確定裝置、根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度f目息。根據本發(fā)明的再一個方面,還提供了一種計算機設備,其中,該計算機設備包括前述準確度確定裝置。與現有技術相比,本發(fā)明具有以下優(yōu)點1)能夠通過對一個資源的資源描述信息包含的關鍵詞在其他多個相同或相似資源的資源描述信息中的分布情況,來確定該資源描述信息或其包含的關鍵詞與其他資源描述信息的關聯度,由于該資源描述信息所描述的資源和其他資源描述信息所描述的資源相同或相似,因此,該關聯度能夠反映該資源描述信息或其包含的關鍵詞的描述準確度,特別是用戶生成資源的資源描述信息的描述準確度;2)通過對待處理資源描述信息包含的關鍵詞在其他多個相同或相似資源的描述信息中的分布情況及其他相關信息的分析,能夠更為準確地確定待處理資源描述信息和/或其包含的關鍵詞與其他資源描述信息間的關聯度, 從而更為準確地判斷待處理資源描述信息的準確度;3)能夠將所確定的資源描述信息的準確度應用于多種場合,例如a)應用于檢索系統(tǒng),以使資源描述信息不準確的資源排序靠后,使檢索結果的排序更為合理;b)應用于推薦系統(tǒng),例如,基于所確定的資源描述信息的準確度來向用戶推薦資源,以提高資源的利用率;c)提示系統(tǒng),例如,基于所確定的資源描述信息的準確度來提示用戶該資源的描述可能準確度較低等。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖I為本發(fā)明一個方面的用于確定資源描述信息的準確度信息的方法的流程圖;圖2為本發(fā)明一個優(yōu)選實施例的基于資源聚類來預建立資源描述信息集合的流程圖;圖3為本發(fā)明一個優(yōu)選實施例的用于確定資源描述信息的準確度信息的方法的流程圖;圖4為本發(fā)明一個優(yōu)選實施例的根據所確定的資源描述信息的準確度信息來對資源執(zhí)行相應操作的流程圖;圖5為本發(fā)明一個方面的用于確定資源描述信息的準確度信息的準確度確定裝置不意圖;圖6為本發(fā)明一個優(yōu)選實施例的基于資源聚類來預建立資源描述信息集合的準確度確定裝置示意7為本發(fā)明一個優(yōu)選實施例的用于確定資源描述信息的準確度信息的準確度確定裝置不意圖;圖8為本發(fā)明一個優(yōu)選實施例的根據所確定的資源描述信息的準確度信息來對資源執(zhí)行相應操作的準確度確定裝置示意圖;附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施例方式下面結合附圖對本發(fā)明作進一步詳細描述。圖I示出了本發(fā)明一個方面的用于確定資源描述信息的準確度信息的方法的流程圖。其中,根據本發(fā)明的方法主要通過計算機設備中的操作系統(tǒng)或處理控制器來完成,為簡明起見,以下將所述操作系統(tǒng)或處理控制器統(tǒng)稱為準確度確定裝置。其中,該計算機設備包括但不限于1)用戶設備;2)網絡設備。所述用戶設備包括但不限于計算機、智能手機、PDA等;所述網絡設備包括但不限于單個網絡服務器、多個網絡服務器組成的服務器組或基于云計算(Cloud Computing)的由大量計算機或網絡服務器構成的云,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。在步驟SI中,所述準確度確定裝置由預建立的資源描述信息集合所包含的多個描述信息中選擇待處理資源描述信息,其中,所述多個資源描述信息中的每個資源描述信息均用于描述一個資源,且每個資源描述信息所描述的資源與該資源描述信息集合中的任一其他資源描述信息所描述的資源相似或相同。其中,所述資源包括但不限于1)圖片類資源;2)音頻類資源;3)視頻類資源;4)程序包類資源等。其中,預建立資源描述信息集合的方式包括但不限于I)人工來預建立資源描述信息集合。
a)對于圖片類資源、操作人員在建立資源描述信息集合時,基于視覺效果來判斷多個資源是否相同或相似。例如,對于圖片類資源、如果資源Al與資源B I在視覺效果上相同,僅僅只是在背景顏色、尺寸、局部區(qū)域等方面存在差異,則操作人員判斷資源Al與資源B I相似。b)對于視頻類資源,操作人員在建立資源描述信息集合時,基于資源情節(jié)來判斷多個資源是否相同或相似。例如,如果資源A2與資源B2的主要情節(jié)相同,只是在圖像分辨率、壓縮格式等方面不同,則操作人員判斷資源A2與資源B2相似。c)對于音頻類資源,操作人員在建立資源描述信息集合時,基于聽覺效果來判斷多個資源是否相同或相似。例如,資源A3與資源B3在聽覺效果上相同,不同僅在于資源A3與資源B3的歌詞、壓縮格式等方面不同,則操作人員判斷資源A3與資源B3相似。d)對于程序包類資源,操作人員基于程序源代碼來判斷多個資源是否相同或相似。例如,資源A4與資源B4的源代碼只是在變量、指針、數組等的命名或者對程序源代碼的解釋等方面存在不同,則操作人員判斷資源A4與資源B4相似。2)基于資源聚類來預建立資源描述信息集合。該建立方式將在圖2所示實施例中予以詳述。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何確定資源是否相同或相似的方式,以及基于相同或相似資源來預建立資源描述信息集合的實現方式,均應包含在本發(fā)明的范圍內。所述準確度確定裝置由預建立的資源描述信息集合所包含的多個描述信息中選擇待處理資源描述信息的選擇方式包括但不限于I)隨機選擇待處理資源描述信息。2)所述準確度確定裝置根據所述多個資源描述信息所描述的資源對應的網絡相關信息,來對該多個資源描述信息進行識別,以將識別所得的用戶生成資源描述信息作為所述待處理資源描述信息。例如,所述多個資源描述信息包括來自網站A’的資源A的資源描述信息、來自網站B’的資源B的資源描述信息與來自網站C’的資源C的資源描述信息,所述準確度確定裝置根據預定的權威網站列表確定所述網站A’與網站B’為權威網站,網站C’為非權威網站,因此,所述準確度確定裝置根據資源A的資源描述信息、資源B的資源描述信息與資源C的資源描述信息所來自的網站,識別資源C的資源描述信息來自非權威網站,并將資源C的資源描述信息作為所述待處理資源描述信息。優(yōu)選地,所述網絡相關信息包括以下至少一項a)該網絡相關信息對應的資源的鏈接地址信息。具體地,所述準確度確定裝置根據資源的鏈接地址信息中包含的預定文本信息,例如i)bbs ;ii)blog ;iii)SNS等,來識別該資源對應的資源描述信息為用戶生成資源描述信息,進而將該資源對應的資源描述信息作為待處理資源描述信息。例如,所述多個資源描述信息所描述的資源包括資源A與資源B。其中,資源A的鏈接地址信息為“www. 222. com”,資源B的鏈接地址信息為“bbs. 444.com”,則所述準確度確定裝置根據資源B的鏈接地址信息包含“bbs”,識別資源B的資源描述信息為用戶生成資源描述信息,并將資源B的資源描述信息作為待處理資源描述信息。b)該網絡相關信息對應的資源所屬網頁的頁面特征信息。具體地,所述準確度確 定裝置根據對資源所屬網頁的代碼進行分析所得的頁面特征信息,例如,帖子類特征信息、包含于頁面主題中的諸如“的博客”、“的個人相冊”等特定文本信息等,來確定屬于該網頁的資源的資源描述信息為用戶生成資源描述信息,進而將該資源對應的資源描述信息作為待處理資源描述信息。優(yōu)選地,所述帖子類特征信息包括;1) “主樓”、“I樓”、“樓主”等帖子類文本信息;2)包含多個層疊顯示且結構相同的顯示模塊等的帖子類結構信息。c)該網絡相關信息對應的資源所屬網站所包含的網頁的頁面特征信息。具體地,所述準確度確定裝置根據對資源所屬網站所包含的網頁代碼進行分析所得的該網站的網頁頁面特征信息,例如,出現在多個網頁的頁面主題中的諸如“的博客”、“的家庭視頻”等特定文本信息、出現在多個網頁中的帖子類結構信息等,來確定屬于該網頁的資源的資源描述信息為用戶生成資源描述信息,進而將該資源對應的資源描述信息作為待處理資源描述信息。更優(yōu)選地,準確度確定裝置根據上述三項網絡相關信息中的至少一項,來對該多個資源描述信息進行識別,以將識別所得的用戶生成資源描述信息作為所述待處理資源描述信息。例如,當準確度確定裝置獲得資源的鏈接地址信息中包含的預定文本信息“bbs”時,進一步分析資源所屬網頁的頁面特征信息是否包含帖子類特征信息,并當頁面特征信息包含帖子類特征信息時,才將該資源識別為用戶生成資源描述信息,并將該資源作為所述待處理資源描述信息。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何能夠用來識別資源以獲得用戶生成資源描述信息的網絡相關信息,均應包含在本發(fā)明的范圍內。接著,在步驟S2中,所述準確度確定裝置獲取所述待處理資源描述信息所包含的各個關鍵詞在所述其他資源描述信息中的分布信息。其中,當所述待處理資源描述信息僅包含一個或多個分離的關鍵詞時,所述準確度確定裝置直接獲取所述一個或多個關鍵詞在所述其他資源描述信息中的分布信息;當所述待處理資源描述信息包含一個或多個文本時,所述準確度確定裝置對所述一個或多個文本進行切詞、去重等處理來獲取所述待處理資源描述信息包含的關鍵詞。
其中,所述分布信息包括以下至少一項I)所述各個關鍵詞在所述所有其他資源描述信息中出現的總次數。例如,預建立的資源描述信息集合中包括描述資源A的待處理資源描述信息a、描述資源B的資源描述信息b和描述資源C的資源描述信息C,所述準確度確定裝置獲取資源描述信息a包含的關鍵詞包括關鍵詞al和關鍵詞a2、并獲取關鍵詞al和關鍵詞a2在資源描述信息b中出現2次,在資源描述信息c中出現I次,則所述準確度確定裝置獲得描述待處理資源的資源描述信息a包含的關鍵詞al和關鍵詞a2在所述資源描述信息b與資源描述信息c中出現的總次數為2+1 = 3次。2)所述各個關鍵詞在所述所有其他資源描述信息中分別出現的次數。例如,預建立的資源描述信息集合中包括描述資源D的待處理資源描述信息d、描述資源E的資源描述信息e與描述資源F的資源描述信息f ;所述準確度確定裝置獲取待處理資源描述信息d包含的關鍵詞包括關鍵詞dl和關鍵詞d2、并獲取關鍵詞dl在資源描述信息e與資源描述 信息f中出現5次,獲取關鍵詞d2在資源描述信息e與資源描述信息f中出現3次。3)包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息的標識信息。例如,預建立的資源描述信息集合中包括描述資源G的待處理資源描述信息g、描述資源H的資源描述信息h與描述資源I的資源描述信息i ;所述準確度確定裝置獲取待處理資源描述信息g包含的關鍵詞包括關鍵詞gl、并確定資源描述信息h包含關鍵詞gl,資源描述信息i中不包含關鍵詞gl,則所述準確度確定裝置獲取包含關鍵詞gl的資源描述信息的標識信息為h。4)包含所述至少一個關鍵詞的所述其他資源描述信息的數量。例如,預建立的資源描述信息集合中包括描述資源J的待處理資源描述信息j、描述資源K的資源描述信息k與描述資源L的資源描述信息I,所述準確度確定裝置獲取待處理資源描述信息j包含的關鍵詞包括關鍵詞jl與關鍵詞j2、并確定資源描述信息k中包含關鍵詞jl,資源描述信息I中包含關鍵詞j2,則所述準確度確定裝置獲取包含關鍵詞jl與關鍵詞j2中至少一個的所述其他資源描述信息的數量為2個。5)包含所述至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例。6)所述各個關鍵詞中的每個關鍵詞所出現的其他資源描述信息的數量占所有資源描述信息的數量的比例。例如,一個關鍵詞在4個其他資源描述信息中出現,且所有資源描述信息的數量為10,則該關鍵詞在其他資源描述信息的數量占所有資源描述信息的數量的比例為0. 4。接著,在步驟S4中,所述準確度確定裝置根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度信息。其中,所述準確度確定裝置根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度的方式包括但不限于I)直接將分布信息作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度。例如,所述準確度確定裝置獲得包含所述待處理資源的至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例為0. 8,則所述準確度確定裝置確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度為0.8。又例如,所述各個關鍵詞中的每個關鍵詞所出現的其他資源描述信息的數量占所有資源描述信息的數量的比例為0. 4,則所述準確度確定裝置確定該關鍵詞與所有其他資源描述信息間的關聯度為0. 4。2)將分布信息進行處理所獲得的處理結果作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度。具體地,將分布信息進行處理的方式包括a)根據分布信息中的一項來獲得所述關聯度,例如i)將分布信息與預定閾值進行比較,并根據比較結果來確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度等級;ii)求取分布信息與資源描述信息集合中的資源描述信息總數之比,并根據所得比值來確定所述待處理資源描述信息和/或其包含的各 個關鍵詞與所有其他資源描述信息間的關聯度;b)根據分布信息中的多項來獲得所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,例如i)將兩項項分布信息之比作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度;ii)將多項分布信息進行歸一化處理,并對歸一化處理所得的值進行求和、求平均值、求對數和等處理,來將所得的值作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度;iii)根據預定公式來對多項分布信息進行運算處理,并將運算處理所得的值作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度等。例如,所述準確度確定裝置獲得待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數為10次,則所述準確度確定裝置基于該總次數高于第一預定閾值,來確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度為高級。又例如,所述準確度確定裝置獲得待處理資源描述信息包含的關鍵詞在所述所有其他資源描述信息中出現的次數為5次,則所述準確度確定裝置基于該次數低于第二預定閾值,來確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度為低級。再例如,所述準確度確定裝置獲得包含所述待處理資源描述信息包含的關鍵詞Y的所述其他資源描述信息的數量為6,并獲取所述待處理資源描述信息包含的關鍵詞X、關鍵詞Y及關鍵詞Z在所述所有其他資源描述信息中出現的總次數為60次,則所述準確度確定裝置將包含該關鍵詞Y的所述其他資源描述信息的數量與各個關鍵詞在所述所有其他資源描述信息中出現的總次數之比6/60 = 0. I作為為該關鍵詞Y與所有其他資源描述信息間的關聯度。再例如,所述準確度確定裝置獲得待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數為20次,并基于包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息的標識信息獲得包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息的數量為5,則所述準確度確定裝置將所述待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數與獲得的包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息的數量之比20/5 = 4作為所述待處理資源描述信息與所有其他資源描述信息間的關聯度。再例如,所述準確度確定裝置獲得待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數為10次,所述資源描述信息集合中所有的關鍵詞數量為50,包含所述任一關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例為0. 5,則準確度確定裝置根據第一預定公式所述待處理資源描述信息與所有其他資源描述信息間的關聯度=待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數/所述資源描述信息集合中所有的關鍵詞數量+所述任一關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例,來確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度=10/50+0. 5 = 0. 7。再例如,所述準確度確定裝置獲得待處理資源包含的關鍵詞V與關鍵詞W在所述所有其他資源描述信息中出現的總次數為10次,獲得待處理資源包含的關鍵詞V在所述所有其他資源描述信息中出現的次數為3次,包含所述關鍵詞V與關鍵詞W中至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例為0. 9,則準確度確定裝置根據第二預定公式所述待處理資源描述信息包含的關鍵詞與所有其他資源描述信息間的關聯度=該關鍵詞在所述所有其他資源描述信息中出現的次數/待處理資源包含的各關鍵詞在所述所有其他資源描述信息中出現的總次數*包含所述至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例,來確定關鍵詞V與所有其他資源描述信息間的關聯度=3/10*0. 9 = 0. 27。 需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度的實現方式,均應包含在本發(fā)明的范圍內。其中,所述準確度信息包括以下至少一項1)所述待處理資源描述信息的總體準確度;2)所述待處理資源描述信息所包含的各個關鍵詞的準確度等。具體地,所述準確度確定裝置基于所確定的待處理資源描述信息與所有其他資源描述信息間的關聯度來獲得待處理資源描述信息的總體準確度的方式包括但不限于1)直接將所述待處理資源描述信息與所有其他資源描述信息間的關聯度作為待處理資源描述信息的總體準確度。2)將所述待處理資源描述信息與所有其他資源描述信息間的關聯度進行處理所獲得的處理結果作為待處理資源描述信息的總體準確度。例如,將所述待處理資源描述信息與所有其他資源描述信息間的關聯度與預定權重值的乘積作為待處理資源描述信息的總體準確度。又例如,將所述待處理資源描述信息與所有其他資源描述信息間的關聯度求取平方或3次方的結果作為所述待處理資源描述信息所包含的各個關鍵詞的準確度等。3)將所述待處理資源所包含的各關鍵詞與所有其他資源描述信息間的關聯度進行求和、加權求和、求積、歸一化后求和等所獲得的結果作為待處理資源描述信息的總體準確度。所述準確度確定裝置基于所述待處理資源所包含的各個關鍵詞與所有其他資源描述信息間的關聯度來確定所述待處理資源描述信息所包含的各個關鍵詞的準確度的方式包括但不限于;1)直接將所述待處理資源描述信息所包含的各個關鍵詞與所有其他資源描述信息間的各個關聯度分別作為所述待處理資源描述信息所包含的各個關鍵詞的準確度。2)將所述待處理資源描述信息所包含的各個關鍵詞與所有其他資源描述信息間的關聯度進行處理所獲得的各個處理結果分別作為所述待處理資源描述信息所包含的各個關鍵詞的準確度。例如,將所述待處理資源所包含的各個關鍵詞與所有其他資源描述信息間的各個關聯度分別求取平方或3次方的各個結果作為所述待處理資源描述信息所包含的各個關鍵詞的準確度。又例如,將所述待處理資源所包含的各個關鍵詞與所有其他資源描述信息間的各個關聯度與預定權重的乘積分別作為所述待處理資源描述信息所包含的各個關鍵詞的準確度等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何基于所確定的關聯度來獲得待處理資源描述信息的總體準確度和/或所述待處理資源描述信息所包含的各個關鍵詞的準確度的實現方式,均應包含在本發(fā)明的范圍內。根據本發(fā)明的方法能夠通過對一個資源的資源描述信息包含的關鍵詞在其他多個相同或相似資源的資源描述信息中的分布情況,來確定該資源描述信息或其包含的關鍵詞與其他資源描述信息的關聯度,由于該資源描述信息所描述的資源和其他資源描述信息所描述的資源相同或相似,因此,該關聯度能夠反映該資源描述信息或其包含的關鍵詞的描述準確度。根據本發(fā)明的方法尤其適用于確定用戶生成資源的資源描述信息的描述準確度。 作為本發(fā)明的優(yōu)選方案之一,圖2示出了本發(fā)明一個優(yōu)選實施例的基于資源聚類來預建立資源描述信息集合的流程圖。在步驟S5中,所述準確度確定裝置獲取多個資源。其中,所述準確度確定裝置獲取多個資源的方式包括但不限于1)由多個網站中獲取所述多個資源;2)由預存儲的資源庫中獲取所述多個資源等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何獲取多個資源的實現方式,均應包含在本發(fā)明的范圍內。接著,在步驟S6中,所述準確度確定裝置根據所述多個資源自身所包含的信息,來對該多個資源進行聚類,以獲得一組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源。其中,所述準確度確定裝置根據資源類型來采用相應的聚類方式。例如,對于圖片類資源,所述準確度確定裝置根據圖片包含的象素點信息、圖片的顏色直方圖信息、局部不變特征(SIFT, Scale-invariant feature transform)、紋理特征(HTD,Homogeneous Texture Descriptor),顏色特征(SO))等,來進行圖片聚類。又例如,對于視頻類資源,所述準確度確定裝置根據視頻資源的大小、格式、相同時間點的截圖等信息來進行聚類。再例如,對于音頻類資源,所述準確度確定裝置根據音頻的格式、大小、音頻資源的平均音調、音頻資源在各個時間點上的音調等信息來進行聚類。再例如,對于程序包類資源,所述準確度確定裝置根據程序包包含的源代碼信息等來進行聚類。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何對資源進行聚類以獲得一組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源的聚類方式,均應包含在本發(fā)明的范圍內。接著,在步驟S7中,所述準確度確定裝置根據所述每組相同或相似的資源對應的資源描述信息,來建立所述資源描述信息集合。例如,所述準確度確定裝置獲得一組聚類資源Al、一組聚類資源A2、一組聚類資源A3,所述準確度確定裝置根據聚類資源Al包含的資源al對應的資源描述信息、資源a2對應的資源描述信息及資源a3對應的資源描述信息,來建立所述資源描述信息集合。優(yōu)選地,在步驟S7之前、之后或者同時,所述準確度確定裝置基于聚類資源A2或聚類資源A3包含的資源對應的資源描述信息,來建立另一資源描述信息集合。圖3示出了本發(fā)明一個優(yōu)選實施例的用于確定資源描述信息的準確度信息的方法的流程圖。其中,步驟SI與S2已在參照圖I所示實施例中予以詳述,并以引用的方式包含于此,不再贅述。在步驟S3中,所述準確度確定裝置獲取用于確定所述關聯度的其他相關信息。其中,所述其他相關信息包括以下至少一項;I)包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息所描述的資源的權威性。
其中,所述準確度確定裝置獲取資源的權威性的方式包括但不限于a)獲取預存儲的該資源的權威性;b)基于該資源所屬網站的特征信息來確定該資源的權威性。例如,所述準確度確定裝置基于該網站的訪問量、該網站是否包含在預定的權威網站、素材網站的列表中、資料庫中包含的來自該網站的資源的數量是否超過預定閾值及資料庫中包含的來自該網站的資源的質量信息是否為優(yōu)質等,來確定該資源的權威性。2)所述所有關鍵詞中的每個關鍵詞與包含該關鍵詞的各個其他資源描述信息間的第一相關度。其中,所述準確度確定裝置獲取關鍵詞與包含該關鍵詞的各個其他資源描述信息間的第一相關度的方式包括但不限于a)獲取預存儲的關鍵詞與包含該關鍵詞的各個其他資源描述信息間的第一相關度;例如,包括關鍵詞X的其他資源描述信息為資源描述信息b和資源描述信息C,且在所述準確度確定裝置所能夠訪問的存儲設備中預存儲關鍵詞X與資源描述信息b間的第一相關度為2,關鍵詞X與資源描述信息c間的第一相關度為3,則準確度確定裝置獲取預存儲的關鍵詞X與包含該關鍵詞的其他資源描述信息b和c間的第一相關度分別為2和3。b)所述準確度確定裝置基于以下至少一項來確定關鍵詞與包含該關鍵詞的一個其他資源描述信息間的所述第一相關度,以分別確定該關鍵詞與包含該關鍵詞的各個其他資源描述信息間的第一相關度i)該關鍵詞在一個其他資源描述信息中出現的次數;例如,所述準確度確定裝置將該關鍵詞在一個其他資源描述信息中出現的次數與該其他資源描述信息所包含的關鍵詞總數之比,作為該關鍵詞與該其他資源描述信息間的第一相關度。ii)該關鍵詞所在的文本信息的文本類型;其中,所述文本信息包含于其他資源描述信息中,且所述文本類型包括但不限于標題類文本、錨文本類文本、在該資源所屬網頁中與資源相鄰的上下文類文本等;例如,當包含該關鍵詞的文本類型為標題類文本,則所述準確度確定裝置確定該關鍵詞的第一相關度為高級。iii)該關鍵詞在一個其他資源描述信息包含的各個文本類型中分別出現的次數及各個文本類型的預定權重值;例如,所述準確度確定裝置獲得該關鍵詞在該其他資源描述信息包含的標題類文本中出現I次,上下文類文本中出現8次,且標題類文本的預定權重值為0. 6,上下文類文本的預定權重值為0. 3,則所述準確度確定裝置確定不同文本類型的預定權重值與該關鍵詞出現在不同類型文本中的次數的乘積和=0. 6*1+0. 3*8 = 3,并將該乘積和作為該關鍵詞與包含該關鍵詞的該其他資源描述信息間的第一相關度。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何用于確定該關鍵詞與包含該關鍵詞的該其他資源描述信息間的第一相關度的實現方式,例如,將關鍵詞在一個其他資源描述信息中出現的次數乘以該關鍵詞所在的文本信息的各個文本類型的預定權重值的平均值,來獲得所述第一相關度等,均應包含在本發(fā)明的范圍內。3)所述所有關鍵詞中的每個關鍵詞與所述待處理資源描述信息間的第二相關度。其中,所述準確度確定裝置獲取所述所有關鍵詞中的每個關鍵詞與所述待處理資源描述信息間的第二相關度的獲取方 式,與所述準確度確定裝置獲取所述所有關鍵詞中的每個關鍵詞與包含該關鍵詞的其他資源描述信息間的第一相關度的獲取方式相同或相似,并以引用的方式包含于此,不再贅述。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何用于確定所述關聯度的其他相關信息以及任何獲取用于確定所述關聯度的其他相關信息的實現方式,均應包含在本發(fā)明的范圍內。需要進一步說明的是,步驟S2與步驟S3并無先后順序。接著,在步驟S4’中,所述準確度確定裝置根據所述分布信息以及所述其他相關信息,確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度。其中,所述準確度確定裝置根據所述分布信息以及所述其他相關信息,確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度的方式包括但不限于I)所述準確度確定裝置先基于所述分布信息確定包含至少一個關鍵詞的其他資源描述信息,再根據所確定的包含至少一個關鍵詞的所有其他資源描述信息及所述其他相關信息來確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度。例如,所述準確度確定裝置先基于包含所述各個關鍵詞中至少一個關鍵詞的所述其他資源描述信息的標識信息,確定資源描述集合中包含至少一個關鍵詞的所述其他資源描述信息包括描述資源A的資源描述信息a,接著,所述準確度確定裝置再根據資源A的權威性為高級,確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度為聞級。又例如,所述準確度確定裝置先基于包含所述各個關鍵詞中至少一個關鍵詞的所述其他資源描述信息的標識信息,確定資源描述集合中包含至少一個關鍵詞的所述其他資源描述信息包括描述資源B的資源描述信息b與描述資源C的資源描述信息C,并確定描述資源B的資源描述信息b包含關鍵詞Y,描述資源C的資源描述信息c包含關鍵詞X與關鍵詞Y,所述準確度確定裝置基于關鍵詞X與資源描述信息c的第一相關度為0. 6,來確定該關鍵詞X與所有其他資源描述信息間的關聯度為0. 6,并基于關鍵詞Y與資源描述信息b的第一相關度為0. 8及關鍵詞Y與資源描述信息c的第一相關度為0. 4、來確定該關鍵詞Y與所有其他資源描述信息間的關聯度=0. 8+0. 4 = I. 2。2)準確度確定裝置根據分布信息中的至少一項以及所述其他相關信息中的至少一項來確定所述關聯度。具體地,所述準確度確定裝置基于所述其他相關信息來調整所述分布信息所包含的值,并基于調整后的結果來確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度。例如,所述準確度確定裝置獲取關鍵詞X在資源描述信息集合中的資源描述信息a中出現2次,并獲取該關鍵詞X與資源描述信息a的第一相關度為0. 6,則所述準確度確定裝置以該第一相關度為調整因子,確定所 述該關鍵詞X與所有其他資源描述信息間的關聯度為 0. 6*2 = I. 2。又例如,所述準確度確定裝置獲取關鍵詞Y在資源描述信息集合中的資源描述信息b中出現3次,關鍵詞Y與資源描述信息b的第一相關度為0. 3,與待處理資源描述信息的第二相關度為0. 5,并獲取關鍵詞Z在資源描述信息b中出現6次,關鍵詞Z與資源描述信息b的第一相關度為0. 5,與待處理資源的資源描述信息的第二相關度為0. 2 ;則所述準確度確定裝置確定關鍵詞Y與所有其他資源描述信息間的關聯度=3*0. 3*0. 5 = 0. 45,關鍵詞Z與所有其他資源描述信息間的關聯度=6*0. 5*0. 2 = 0.6 ;并且,所述準確度確定裝置將關鍵詞Y與所有其他資源描述信息間的關聯度以及關鍵詞Z與所有其他資源描述信息間的關聯度進行處理,諸如求取兩者的平均值、平方和等,并將處理后的結果作為所述待處理資源描述信息與所有其他資源描述信息間的關聯度。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何根據所述分布信息以及所述其他相關信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度的實現方式,均應包含在本發(fā)明的范圍內。其中,所述準確度確定裝置基于所確定的關聯度來確定所述待處理資源描述信息的總體準確度和/或所述待處理資源描述信息所包含的各個關鍵詞的準確度的實現方式,已在圖I所示的實施例中的步驟S4中予以詳述,并以引用的方式包含于此,不再贅述。作為優(yōu)選方案之一,根據本發(fā)明的方法還包括所述準確度確定裝置根據所述待處理資源描述信息的準確度信息及其所描述的資源,建立或更新資源信息庫的步驟。例如,所述準確度確定裝置確定所述待處理資源描述信息包含的關鍵詞X的準確度為0. 8,關鍵詞Y的準確度為0. 1,則所述準確度確定裝置根據關鍵詞X的準確度及關鍵詞Y的準確度以及所述待處理資源,建立或更新資源信息庫。優(yōu)選地,所述準確度確定裝置將所述待處理資源所屬網站的鏈接地址信息、所述待處理資源的評價值信息等存儲在所述資源信息庫中。根據本實施例的方法,通過對待處理資源描述信息包含的關鍵詞在其他多個相同或相似資源的描述信息中的分布情況及其他相關信息的分析,能夠更為準確地確定待處理資源描述信息和/或其包含的關鍵詞與其他資源描述信息間的關聯度,從而更為準確地判斷待處理資源描述信息的準確度。 圖4示出了本發(fā)明的一個優(yōu)選實施例的根據所確定的資源描述信息的準確度信息來對資源執(zhí)行相應操作的流程圖。在步驟S8中,所述準確度確定裝置獲取與用戶行為相關的行為相關信息。其中,所述用戶行為包括但不限于1)用戶主動要求提供服務的行為;例如,用戶輸入查詢序列并發(fā)送所述查詢序列等,又例如,用戶控制鼠標使光標停留在一個資源上以索取該資源的推薦等級等;2)用戶觸發(fā)資源信息顯示的行為,例如,用戶打開一個網頁頁面等。其中,所述行為相關信息包括但不限于I)用戶所執(zhí)行的行為操作信息,例如,請求搜索的行為信息,又例如,請求顯示資源推薦等級的行為信息等;2)用戶所輸入的輸入序列,例如,用戶所輸入的用于檢索的輸入序列等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何與資源相關的用戶行為,均應包含在本發(fā)明的范圍內。接著,在步驟S9中,所述準確度確定裝置根據所述行為相關信息來確定待處理資源。例如,所述準確度確定裝置根據用戶輸入的用于檢索的輸入序列,由檢索后所獲得的檢索結果中選擇待處理資源,該選擇待處理資源的方式包括但不限于隨機選擇、基于點擊次數來選擇等。又例如,所述準確度確定裝置根據光標停留的位置,將該位置所對應的資源作為待處理資源。再例如,所述準確度確定裝置根據用戶打開一個網頁頁面,將該網頁頁面中包含的資源作為待處理資源等。
接著,在步驟SlO中,所述準確度確定裝置根據所述待處理資源來在所述資源信息庫中進行查詢,以獲得所述待處理資源對應的資源描述信息的準確度信息。其中,所述資源信息庫的建立及更新過程已在圖3所示的實施例中予以詳述,并以引用的方式包含于此,不再贅述。接著,在步驟Sll中,所述準確度確定裝置根據所述待處理資源對應的資源描述信息的準確度信息,執(zhí)行與所述用戶行為相應的操作。例如,對于由檢索結果中選擇得到的所述待處理資源,所述準確度確定裝置根據所述待處理資源對應的資源描述信息的準確度信息,來調整該待處理資源在檢索結果中的排序,并根據調整后的排序結果來生成展現信息,以將所述展現信息提供給所述用戶。又例如,所述準確度確定裝置基于光標停留的位置獲得待處理資源,則所述準確度確定裝置將所獲得的所述待處理資源對應的資源描述信息的準確度信息顯示在該光標所在的頁面中,優(yōu)選的,以臨時窗口的方式顯示在臨近該光標位置等。再例如,所述準確度確定裝置基于用戶打開的網頁來獲得待處理資源,則所述準確度確定裝置將所獲得的所述待處理資源對應的資源描述信息的準確度信息顯示在該網頁中。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何根據所述待處理資源對應的資源描述信息的準確度信息,執(zhí)行與所述用戶行為相應的操作的實現方式,均應包含在本發(fā)明的范圍內。
根據本實施例的方法,能將所確定的資源描述信息的準確度應用于多種場合,例如1)應用于檢索系統(tǒng),以使資源描述信息不準確的資源排序靠后,使檢索結果的排序更為合理;2)應用于推薦系統(tǒng),例如,基于所確定的資源描述信息的準確度來向用戶推薦資源,以提高資源的利用率;3)提示系統(tǒng),例如,基于所確定的資源描述信息的準確度來提示用戶該資源的描述可能準確度較低等。圖5示出了本發(fā)明一個方面的用于確定資源描述信息的準確度信息的準確度確定裝置示意圖。其中,根據本發(fā)明的準確度確定裝置包括選擇裝置I、第一獲取裝置2及第一確定裝置3。所述選擇裝置I由預建立的資源描述信息集合所包含的多個描述信息中選擇待處理資源描述信息,其中,所述多個資源描述信息中的每個資源描述信息均用于描述一個資源,且每個資源描述信息所描述的資源與該資源描述信息集合中的任一其他資源描述信息所描述的資源相似或相同。其中,所述資源包括但不限于1)圖片類資源;2)音頻類資源;3)視頻類資源;4)程序包類資源等。其中,預建立資源描述信息集合的方式包括但不限于I)人工來預建立資源描述信息集合。a)對于圖片類資源、操作人員在建立資源描述信息集合時,基于視覺效果來判斷多個資源是否相同或相似。例如,對于圖片類資源、如果資源Al與資源BI在視覺效果上相同,僅僅只是在背景顏色、尺寸、局部區(qū)域等方面存在差異,則操作人員判斷資源Al與資源BI相似。b)對于視頻類資源,操作人員在建立資源描述信息集合時,基于資源情節(jié)來判斷多個資源是否相同或相似。例如,如果資源A2與資源B2的主要情節(jié)相同,只是在圖像分辨率、壓縮格式等方面不同,則操作人員判斷資源A2與資源B2相似。 c)對于音頻類資源,操作人員在建立資源描述信息集合時,基于聽覺效果來判斷多個資源是否相同或相似。例如,資源A3與資源B3在聽覺效果上相同,不同僅在于資源A3與資源B3的歌詞、壓縮格式等方面不同,則操作人員判斷資源A3與資源B3相似。d)對于程序包類資源,操作人員基于程序源代碼來判斷多個資源是否相同或相似。例如,資源A4與資源B4的源代碼只是在變量、指針、數組等的命名或者對程序源代碼的解釋等方面存在不同,則操作人員判斷資源A4與資源B4相似。2)基于資源聚類來預建立資源描述信息集合。該建立方式將在圖6所示實施例中予以詳述。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何確定資源是否相同或相似的方式,以及基于相同或相似資源來預建立資源描述信息集合的實現方式,均應包含在本發(fā)明的范圍內。選擇裝置I由預建立的資源描述信息集合所包含的多個描述信息中選擇待處理資源描述信息的選擇方式包括但不限于I)所述選擇裝置I隨機由預建立的資源描述信息集合所包含的多個描述信息中選擇待處理資源描述信息。2)所述選擇裝置I包括識別裝置(圖未示),所述識別裝置根據所述多個資源描述信息所描述的資源對應的網絡相關信息,來對該多個資源描述信息進行識別,以將識別所得的用戶生成資源描述信息作為所述待處理資源描述信息。例如,所述多個資源描述信息包括來自網站A’的資源A的資源描述信息、來自網站B’的資源B的資源描述信息與來自網站C’的資源C的資源描述信息,所述識別裝置根據預定的權威網站列表確定所述網站A’與網站B’為權威網站,網站C’為非權威網站,因此,所述識別裝置根據資源A的資源描述信息、資源B的資源描述信息與資源C的資源描述信息所來自的網站,識別資源C的資源描述信息來自非權威網站,并將資源C的資源描述信息作為所述待處理資源描述信息。優(yōu)選地,所述網絡相關信息包括以下至少一項a)該網絡相關信息對應的資源的鏈接地址信息。具體地,所述識別裝置根據資源的鏈接地址信息中包含的預定文本信息,例如i)bbs ;ii)blog ;iii)SNS等,來識別該資源對應的資源描述信息為用戶生成資源描述信息,進而將該資源對應的資源描述信息作為待處理資源描述信息。例如,所述多個資源描述信息所描述的資源包括資源A與資源B。其中,資源A的鏈接地址信息為“www. 222. com”,資源B的鏈接地址信息為“bbs. 444. com”,則所述識別裝置根據資源B的鏈接地址信息包含“bbs”,識別資源B的資源描述信息為用戶生成資源描述信息,并將資源B的資源描述信息作為待處理資源描述信息。b)該網絡相關信息對應的資源所屬網頁的頁面特征信息。具體地,所述識別裝置根據對資源所屬網頁的代碼進行分析所得的頁面特征信息,例如,帖子類特征信息、包含于頁面主題中的諸如“的博客”、“的個人相冊”等特定文本信息等,來確定屬于該網頁的資源的資源描述信息為用戶生成資源描述信息,進而將該資源對應的資源描述信息作為待處理資源描述信息。優(yōu)選地,所述帖子類特征信息包括;I) “主樓”、“I樓”、“樓主”等帖子類文本信息;2)包含多個層疊顯示且結構相同的顯示模塊等的帖子類結構信息。c)該網絡相關信息對應的資源所屬網站所包含的網頁的頁面特征信息。具體地,所述識別裝置根據對資源所屬網站所包含的網頁代碼進行分析所得的該網站的網頁頁面特征信息,例如,出現在多個網頁的頁面主題中的諸如“的博客”、“的家庭視頻”等特定文本信息、出現在多個網頁中的帖子類結構信息等,來確定屬于該網頁的資源的資源描述信息 為用戶生成資源描述信息,進而將該資源對應的資源描述信息作為待處理資源描述信息。更優(yōu)選地,所述識別裝置根據上述三項網絡相關信息中的至少一項,來對該多個資源描述信息進行識別,以將識別所得的用戶生成資源描述信息作為所述待處理資源描述信息。例如,當所述識別裝置獲得資源的鏈接地址信息中包含的預定文本信息“bbs”時,進一步分析資源所屬網頁的頁面特征信息是否包含帖子類特征信息,并當頁面特征信息包含帖子類特征信息時,才將該資源識別為用戶生成資源描述信息,并將該資源作為所述待處理資源描述信息。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何能夠用來識別資源以獲得用戶生成資源描述信息的網絡相關信息,均應包含在本發(fā)明的范圍內。接著,所述第一獲取裝置2獲取所述待處理資源描述信息所包含的各個關鍵詞在所述其他資源描述信息中的分布信息。其中,當所述待處理資源描述信息僅包含一個或多個分離的關鍵詞時,所述第一獲取裝置2直接獲取所述一個或多個關鍵詞在所述其他資源描述信息中的分布信息;當所述待處理資源描述信息包含一個或多個文本時,所述第一獲取裝置2對所述一個或多個文本進行切詞、去重等處理來獲取所述待處理資源描述信息包含的關鍵詞。其中,所述分布信息包括以下至少一項I)所述各個關鍵詞在所述所有其他資源描述信息中出現的總次數。例如,預建立的資源描述信息集合中包括描述資源A的待處理資源描述信息a、描述資源B的資源描述信息b和描述資源C的資源描述信息C,所述第一獲取裝置2獲取資源描述信息a包含的關鍵詞包括關鍵詞al和關鍵詞a2、并獲取關鍵詞al和關鍵詞a2在資源描述信息b中出現2次,在資源描述信息c中出現I次,則所述第一獲取裝置2獲得待處理資源描述信息a包含的關鍵詞al和關鍵詞a2在所述資源描述信息b與資源描述信息c中出現的總次數為2+1=3次。
2)所述各個關鍵詞在所述所有其他資源描述信息中分別出現的次數。例如,預建立的資源描述信息集合中包括描述資源D的待處理資源描述信息d、描述資源E的資源描述信息e與描述資源F的資源描述信息f ;所述第一獲取裝置2獲取待處理資源描述信息d包含的關鍵詞包括關鍵詞dl和關鍵詞d2、并獲取關鍵詞dl在資源描述信息e與資源描述信息f中出現5次,獲取關鍵詞d2在資源描述信息e與資源描述信息f中出現3次。3)包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息的標識信息。例如,預建立的資源描述信息集合中包括描述資源G的待處理資源描述信息g、描述資源H的資源描述信息h與描述資源I的資源描述信息i ;所述第一獲取裝置2獲取待處理資源描述信息g包含的關鍵詞包括關鍵詞gl、并確定資源描述信息h包含關鍵詞gl,資源描述信息i中不包含關鍵詞gl,則所述第一獲取裝置2獲取包含關鍵詞gl的資源描述信息的標識信息為h。、
4)包含所述至少一個關鍵詞的所述其他資源描述信息的數量。例如,預建立的資源描述信息集合中包括描述資源J的待處理資源描述信息j、描述資源K的資源描述信息k與描述資源L的資源描述信息1,所述第一獲取裝置2獲取待處理資源描述信息j包含的關鍵詞包括關鍵詞jl與關鍵詞j2、并確定資源描述信息k中包含關鍵詞jl,資源描述信息I中包含關鍵詞j2,則所述第一獲取裝置2獲取包含關鍵詞jl與關鍵詞j2中至少一個的所述其他資源描述信息的數量為2個。5)包含所述至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例。6)所述各個關鍵詞中的每個關鍵詞所出現的其他資源描述信息的數量占所有資源描述信息的數量的比例。例如,一個關鍵詞在4個其他資源描述信息中出現,且所有資源描述信息的數量為10,則該關鍵詞在其他資源描述信息的數量占所有資源描述信息的數量的比例為0. 4。接著,所述第一確定裝置3根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度信息。其中,所述第一確定裝置3根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度的方式包括但不限于I)直接將分布信息作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度。例如,所述第一獲取裝置2獲得包含所述待處理資源的至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例為0. 8,則所述第一確定裝置3確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度為0.8。又例如,所述各個關鍵詞中的每個關鍵詞所出現的其他資源描述信息的數量占所有資源描述信息的數量的比例為0. 4,則所述第一確定裝置3確定該關鍵詞與所有其他資源描述信息間的關聯度為0. 4。2)將分布信息進行處理所獲得的處理結果作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度。具體地,將分布信息進行處理的方式包括a)根據分布信息中的一項來獲得所述關聯度,例如i)將分布信息與預定閾值進行比較,并根據比較結果來確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度等級;ii)求取分布信息與資源描述信息集合中的資源描述信息總數之比,并根據所得比值來確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度;b)根據分布信息中的多項來獲得所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,例如i)將兩項項分布信息之比作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度;ii)將多項分布信息進行歸一化處理,并對歸一化處理所得的值進行求和、求平均值、求對數和等處理,來將所得的值作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度;iii)根據預定公式來對多項分布信息進行運算處理,并將運算處理所得的值作為所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度等。例如,所述第一獲取裝置2獲得待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數為10次,則所述第一確定裝置3基于該總次數高于第一預定閾值,來確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度為高級。又例如,所述第一獲取裝置2獲得待處理資源描述信息包含的關鍵詞在所述所有 其他資源描述信息中出現的次數為5次,則所述第一確定裝置3基于該次數低于第二預定閾值,來確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度為低級。再例如,所述第一獲取裝置2獲得包含所述待處理資源描述信息包含的關鍵詞Y的所述其他資源描述信息的數量為6,并獲取所述待處理資源描述信息包含的關鍵詞X、關鍵詞Y及關鍵詞Z在所述所有其他資源描述信息中出現的總次數為60次,則所述第一確定裝置3將包含該關鍵詞Y的所述其他資源描述信息的數量與各個關鍵詞在所述所有其他資源描述信息中出現的總次數之比6/60 = 0. I作為為該關鍵詞Y與所有其他資源描述信息間的關聯度。再例如,所述第一獲取裝置2獲得待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數為20次,并基于包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息的標識信息獲得包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息的數量為5,則所述第一確定裝置3將所述待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數與獲得的包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息的數量之比20/5 = 4作為所述待處理資源描述信息與所有其他資源描述信息間的關聯度。再例如,所述第一獲取裝置2獲得待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數為10次,所述資源描述信息集合中所有的關鍵詞數量為50,包含所述任一關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例為0. 5,則第一確定裝置3根據第一預定公式所述待處理資源描述信息與所有其他資源描述信息間的關聯度=待處理資源的各個關鍵詞在所述所有其他資源描述信息中出現的總次數/所述資源描述信息集合中所有的關鍵詞數量+所述任一關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例,來確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度=10/50+0. 5 = 0. 7。再例如,所述第一獲取裝置2獲得待處理資源包含的關鍵詞V與關鍵詞W在所述所有其他資源描述信息中出現的總次數為10次,獲得待處理資源包含的關鍵詞V在所述所有其他資源描述信息中出現的次數為3次,包含所述關鍵詞V與關鍵詞W中至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例為0. 9,則第一確定裝置3根據第二預定公式所述待處理資源描述信息包含的關鍵詞與所有其他資源描述信息間的關聯度=該關鍵詞在所述所有其他資源描述信息中出現的次數/待處理資源包含的各關鍵詞在所述所有其他資源描述信息中出現的總次數*包含所述至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例,來確定關鍵詞V與所有其他資源描述信息間的關聯度=3/10*0. 9 = 0. 27。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度的實現方式,均應包含在本發(fā)明的范圍內。其中,所述準確度信息包括以下至少一項1)所述待處理資源描述信息的總體準確度;2)所述待處理資源描述信息所包含的各個關鍵詞的準確度等。 具體地,所述第一確定裝置3基于所確定的待處理資源描述信息與所有其他資源描述信息間的關聯度來獲得待處理資源描述信息的總體準確度的方式包括但不限于1)直接將所述待處理資源描述信息與所有其他資源描述信息間的關聯度作為待處理資源描述信息的總體準確度。2)將所述待處理資源描述信息與所有其他資源描述信息間的關聯度進行處理所獲得的處理結果作為待處理資源描述信息的總體準確度。例如,將所述待處理資源描述信息與所有其他資源描述信息間的關聯度與預定權重值的乘積作為待處理資源描述信息的總體準確度。又例如,將所述待處理資源描述信息與所有其他資源描述信息間的關聯度求取平方或3次方的結果作為所述待處理資源描述信息所包含的各個關鍵詞的準確度等。3)將所述待處理資源所包含的各關鍵詞與所有其他資源描述信息間的關聯度進行求和、加權求和、求積、歸一化后求和等所獲得的結果作為待處理資源描述信息的總體準確度。所述第一確定裝置3基于所述待處理資源所包含的各個關鍵詞與所有其他資源描述信息間的關聯度來確定所述待處理資源描述信息所包含的各個關鍵詞的準確度的方式包括但不限于;1)直接將所述待處理資源描述信息所包含的各個關鍵詞與所有其他資源描述信息間的各個關聯度分別作為所述待處理資源描述信息所包含的各個關鍵詞的準確度。2)將所述待處理資源描述信息所包含的各個關鍵詞與所有其他資源描述信息間的關聯度進行處理所獲得的各個處理結果分別作為所述待處理資源描述信息所包含的各個關鍵詞的準確度。例如,將所述待處理資源所包含的各個關鍵詞與所有其他資源描述信息間的各個關聯度分別求取平方或3次方的各個結果作為所述待處理資源描述信息所包含的各個關鍵詞的準確度。又例如,將所述待處理資源所包含的各個關鍵詞與所有其他資源描述信息間的各個關聯度與預定權重的乘積分別作為所述待處理資源描述信息所包含的各個關鍵詞的準確度等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何基于所確定的關聯度來獲得待處理資源描述信息的總體準確度和/或所述待處理資源描述信息所包含的各個關鍵詞的準確度的實現方式,均應包含在本發(fā)明的范圍內。
根據本發(fā)明的準確度確定裝置能夠通過對一個資源的資源描述信息包含的關鍵詞在其他多個相同或相似資源的資源描述信息中的分布情況,來確定該資源描述信息或其包含的關鍵詞與其他資源描述信息的關聯度,由于該資源描述信息所描述的資源和其他資源描述信息所描述的資源相同或相似,因此,該關聯度能夠反映該資源描述信息或其包含的關鍵詞的描述準確度。根據本發(fā)明的準確度確定裝置尤其適用于確定用戶生成資源的資源描述信息的描述準確度。作為本發(fā)明的優(yōu)選方案之一,圖6不出了本發(fā)明一個優(yōu)選實施例的基于資源聚類來預建立資源描述信息集合的準確度確定裝置示意圖。根據本實施例的準確度確定裝置包括第三獲取裝置4、聚類裝置5及構建裝置6。所述第三獲取裝置4獲取多個資源。其中,所述第三獲取裝置4獲取多個資源的方式包括但不限于1)由多個網站中獲取所述多個資源;2)由預存儲的資源庫中獲取所述 多個資源等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何獲取多個資源的實現方式,均應包含在本發(fā)明的范圍內。接著,所述聚類裝置5根據所述多個資源自身所包含的信息,來對該多個資源進行聚類,以獲得一組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源。其中,所述聚類裝置5根據資源類型來采用相應的聚類方式。例如,對于圖片類資源,所述聚類裝置5根據圖片包含的象素點信息、圖片的顏色直方圖信息、局部不變特征(SIFT, Scale-invariant feature transform)、紋理特征(HTD, Homogeneous TextureDescriptor),顏色特征(SCD)等,來進行圖片聚類。又例如,對于視頻類資源,所述聚類裝置5根據視頻資源的大小、格式、相同時間點的截圖等信息來進行聚類。再例如,對于音頻類資源,所述聚類裝置5根據音頻的格式、大小、音頻資源的平均音調、音頻資源在各個時間點上的音調等信息來進行聚類。再例如,對于程序包類資源,所述聚類裝置5根據程序包包含的源代碼信息等來進行聚類。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何對資源進行聚類以獲得一組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源的聚類方式,均應包含在本發(fā)明的范圍內。接著,所述構建裝置6根據所述每組相同或相似的資源對應的資源描述信息,來建立所述資源描述信息集合。例如,所述聚類裝置5獲得一組聚類資源Al、一組聚類資源A2、一組聚類資源A3,所述構建裝置6根據聚類資源Al包含的資源al對應的資源描述信息、資源a2對應的資源描述信息及資源a3對應的資源描述信息,來建立所述資源描述信息集合。優(yōu)選地,所述構建裝置6還基于聚類資源A2或聚類資源A3包含的資源對應的資源描述信息,來建立另一資源描述信息集合。圖7示出了本發(fā)明一個優(yōu)選實施例的用于確定資源描述信息的準確度信息的準確度確定裝置示意圖。根據本實施例的準確度確定裝置包括選擇裝置I、第一獲取裝置2、第一確定裝置3及第二獲取裝置7 ;所述第一確定裝置3還包括子確定裝置301。其中,選擇裝置I及第一獲取裝置2已在參照圖5所示實施例中予以詳述,并以引用的方式包含于此,不再贅述。所述第二獲取裝置7獲取用于確定所述關聯度的其他相關信息。其中,所述其他相關信息包括以下至少一項;I)包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息所描述的資源的權威性。其中,所述第二獲取裝置7獲取資源的權威性的方式包括但不限于a)獲取預存儲的該資源的權威性;b)基于該資源所屬網站的特征信息來確定該資源的權威性。例如,所述第二獲取裝置7基于該網站的訪問量、該網站是否包含在預定的權威網站、素材網站的列表中、資料庫中包含的來自該網站的資源的數量是否超過預定閾值及資料庫中包含的來自該網站的資源的質量信息是否為優(yōu)質等,來確定該資源的權威性。2)所述所有關鍵詞中的每個關鍵詞與包含該關鍵詞的各個其他資源描述信息間 的第一相關度。其中,所述第二獲取裝置7獲取關鍵詞與包含該關鍵詞的各個其他資源描述信息間的第一相關度的方式包括但不限于a)獲取預存儲的關鍵詞與包含該關鍵詞的各個其他資源描述信息間的第一相關度;例如,包括關鍵詞X的其他資源描述信息為資源描述信息b和資源描述信息C,且在所述第二獲取裝置7所能夠訪問的存儲設備中預存儲關鍵詞X與資源描述信息b間的第一相關度為2,關鍵詞X與資源描述信息c間的第一相關度為3,則第二獲取裝置7獲取預存儲的關鍵詞X與包含該關鍵詞的其他資源描述信息b和c間的第一相關度分別為2和3。b)所述第二獲取裝置7基于以下至少一項來確定關鍵詞與包含該關鍵詞的一個其他資源描述信息間的所述第一相關度,以分別確定該關鍵詞與包含該關鍵詞的各個其他資源描述信息間的第一相關度i)該關鍵詞在一個其他資源描述信息中出現的次數;例如,第二獲取裝置7將該關鍵詞在一個其他資源描述信息中出現的次數與該其他資源描述信息所包含的關鍵詞總數之比,作為該關鍵詞與該其他資源描述信息間的第一相關度。ii)該關鍵詞所在的文本信息的文本類型;其中,所述文本信息包含于其他資源描述信息中,且所述文本類型包括但不限于標題類文本、錨文本類文本、在該資源所屬網頁中與資源相鄰的上下文類文本等;例如,當包含該關鍵詞的文本類型為標題類文本,則所述第二獲取裝置7確定該關鍵詞的第一相關度為高級。iii)該關鍵詞在一個其他資源描述信息包含的各個文本類型中分別出現的次數及各個文本類型的預定權重值;例如,所述第二獲取裝置7獲得該關鍵詞在該其他資源描述信息包含的標題類文本中出現I次,上下文類文本中出現8次,且標題類文本的預定權重值為0. 6,上下文類文本的預定權重值為0. 3,則第二獲取裝置7確定不同文本類型的預定權重值與該關鍵詞出現在不同類型文本中的次數的乘積和=0. 6*1+0. 3*8 = 3,并將該乘積和作為該關鍵詞與包含該關鍵詞的該其他資源描述信息間的第一相關度。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何用于確定該關鍵詞與包含該關鍵詞的該其他資源描述信息間的第一相關度的實現方式,例如,將關鍵詞在一個其他資源描述信息中出現的次數乘以該關鍵詞所在的文本信息的各個文本類型的預定權重值的平均值,來獲得所述第一相關度等,均應包含在本發(fā)明的范圍內。3)所述所有關鍵詞中的每個關鍵詞與所述待處理資源描述信息間的第二相關度。其中,所述第二獲取裝置7獲取所述所有關鍵詞中的每個關鍵詞與所述待處理資源描述信息間的第二相關度的獲取方式,與所述第二獲取裝置7獲取所述所有關鍵詞中的每個關鍵詞與包含該關鍵詞的其他資源描述信息間的第一相關度的獲取方式相同或相似,并以引用的方式包含于此,不再贅述。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何用于確定所述關聯度的其他相關信息以及任何獲取用于確定所述關聯度的其他相關信息的實現方式,均應包含在本發(fā)明的范圍內。需要進一步說明的是,第一獲取裝置2獲取所述待處理資源描述信息所包含的各個關鍵詞在所述其他資源描述信息中的分布信息的操作與第二獲取裝置7獲取用于確定所述關聯度的其他相關信息的操作并無先后順序。
接著,所述子確定裝置301根據所述分布信息以及所述其他相關信息,確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度。其中,所述子確定裝置301根據所述分布信息以及所述其他相關信息,確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度的方式包括但不限于I)所述子確定裝置301先基于所述分布信息確定包含至少一個關鍵詞的其他資源描述信息,再根據所確定的包含至少一個關鍵詞的所有其他資源描述信息及所述其他相關信息來確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度。例如,所述子確定裝置301先基于包含所述各個關鍵詞中至少一個關鍵詞的所述其他資源描述信息的標識信息,確定資源描述集合中包含至少一個關鍵詞的所述其他資源描述信息包括描述資源A的資源描述信息a,接著,所述子確定裝置301再根據資源A的權威性為高級,確定所述待處理資源描述信息與所有其他資源描述信息間的關聯度為聞級。又例如,所述子確定裝置301先基于包含所述各個關鍵詞中至少一個關鍵詞的所述其他資源描述信息的標識信息,確定資源描述集合中包含至少一個關鍵詞的所述其他資源描述信息包括描述資源B的資源描述信息b與描述資源C的資源描述信息C,并確定描述資源B的資源描述信息b包含關鍵詞Y,描述資源C的資源描述信息c包含關鍵詞X與關鍵詞Y,所述子確定裝置301基于關鍵詞X與資源描述信息c的第一相關度為0. 6,來確定該關鍵詞X與所有其他資源描述信息間的關聯度為0. 6,并基于關鍵詞Y與資源描述信息b的第一相關度為0. 8及關鍵詞Y與資源描述信息c的第一相關度為0. 4、來確定該關鍵詞Y與所有其他資源描述信息間的關聯度=0. 8+0. 4 = I. 2。2)子確定裝置301根據分布信息中的至少一項以及所述其他相關信息中的至少一項來確定所述關聯度。具體地,所述子確定裝置301基于所述其他相關信息來調整所述分布信息所包含的值,并基于調整后的結果來確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度。例如,所述子確定裝置301獲取關鍵詞X在資源描述信息集合中的資源描述信息a中出現2次,并獲取該關鍵詞X與資源描述信息a的第一相關度為0. 6,則所述子確定裝置301以該第一相關度為調整因子,確定所述該關鍵詞X與所有其他資源描述信息間的關聯度為 0. 6*2 = I. 2。又例如,所述子確定裝置301獲取關鍵詞Y在資源描述信息集合中的資源描述信息b中出現3次,關鍵詞Y與資源描述信息b的第一相關度為0. 3,與待處理資源描述信息的第二相關度為0. 5,并獲取關鍵詞Z在資源描述信息b中出現6次,關鍵詞Z與資源描述信息b的第一相關度為0. 5,與待處理資源的資源描述信息的第二相關度為0. 2 ;則所述子確定裝置301確定關鍵詞Y與所有其他資源描述信息間的關聯度=3*0. 3*0. 5 = 0. 45,關鍵詞Z與所有其他資源描述信息間的關聯度=6*0. 5*0. 2 = 0.6 ;并且,所述子確定裝置301將關鍵詞Y與所有其他資源描述信息間的關聯度以及關鍵詞Z與所有其他資源描述信息間的關聯度進行處理,諸如求取兩者的平均值、平方和等,并將處理后的結果作為所述待處理資源描述信息與所有其他資源描述信息間的關聯度。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限 制,本領域技術人員應該理解,任何根據所述分布信息以及所述其他相關信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度的實現方式,均應包含在本發(fā)明的范圍內。其中,所述子確定裝置301基于所確定的關聯度來確定所述待處理資源描述信息的總體準確度和/或所述待處理資源描述信息所包含的各個關鍵詞的準確度的實現方式,與圖5所示的實施例中的所述第一確定裝置3基于所確定的所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,來獲得該待處理資源描述信息的準確度信息的實現方式相同或相似,以引用的方式包含于此,不再贅述。作為本發(fā)明的優(yōu)選方案之一,所述準確度確定裝置還包括更新裝置(圖未示)。所述更新裝置根據所述待處理資源描述信息的準確度信息及其所描述的資源,建立或更新資源信息庫的步驟。例如,所述第一確定裝置3確定所述待處理資源描述信息包含的關鍵詞X的準確度為0. 8,關鍵詞Y的準確度為0. 1,則所述更新裝置根據關鍵詞X的準確度及關鍵詞Y的準確度以及所述待處理資源,建立或更新資源信息庫。優(yōu)選地,所述更新裝置將所述待處理資源所屬網站的鏈接地址信息、所述待處理資源的評價值信息等存儲在所述資源信息庫中。根據本實施例的準確度確定裝置,通過對待處理資源描述信息包含的關鍵詞在其他多個相同或相似資源的描述信息中的分布情況及其他相關信息的分析,能夠更為準確地確定待處理資源描述信息和/或其包含的關鍵詞與其他資源描述信息間的關聯度,從而更為準確地判斷待處理資源描述信息的準確度。圖8示出了本發(fā)明的一個優(yōu)選實施例的根據所確定的資源描述信息的準確度信息來對資源執(zhí)行相應操作的準確度確定裝置示意圖。根據本實施例的準確度確定裝置包括第四獲取裝置8、第二確定裝置9、查詢裝置10及執(zhí)行裝置11。所述第四獲取裝置8獲取與用戶行為相關的行為相關信息。其中,所述用戶行為包括但不限于1)用戶主動要求提供服務的行為;例如,用戶輸入查詢序列并發(fā)送所述查詢序列等,又例如,用戶控制鼠標使光標停留在一個資源上以索取該資源的推薦等級等;2)用戶觸發(fā)資源信息顯示的行為,例如,用戶打開一個網頁頁面等。其中,所述行為相關信息包括但不限于I)用戶所執(zhí)行的行為操作信息,例如,請求搜索的行為信息,又例如,請求顯示資源推薦等級的行為信息等;2)用戶所輸入的輸入序列,例如,用戶所輸入的用于檢索的輸入序列等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何與資源相關的用戶行為,均應包含在本發(fā)明的范圍內。接著,所述第二確定裝置9根據所述行為相關信息來確定待處理資源。例如,所述第二確定裝置9根據用戶輸入的用于檢索的輸入序列,由檢索后所獲得的檢索結果中選擇待處理資源,該選擇待處理資源的方式包括但不限于隨機選擇、基于點擊次數來選擇等。又例如,所述第二確定裝置9根據光標停留的位置,將該位置所對應的資源作為待處理資源。再例如,所述第二確定裝置9根據用戶打開一個網頁頁面,將該網頁頁面中包含的資源作為待處理資源等。接著,所述查詢裝置10根據所述待處理資源來在所述資源信息庫中進行查詢,以獲得所述待處理資源對應的資源描述信息的準確度信息。其中,所述資源信息庫的建立及
接著,所述執(zhí)行裝置11根據所述待處理資源對應的資源描述信息的準確度信息,執(zhí)行與所述用戶行為相應的操作。例如,對于由檢索結果中選擇得到的所述待處理資源,所述執(zhí)行裝置11根據查詢裝置10所獲得的所述待處理資源對應的資源描述信息的準確度信息,來調整該待處理資源在檢索結果中的排序,并根據調整后的排序結果來生成展現信息,以將所述展現信息提供給所述用戶。又例如,所述第二確定裝置9基于光標停留的位置獲得待處理資源,則所述執(zhí)行裝置11將查詢裝置10所獲得的所述待處理資源對應的資源描述信息的準確度信息顯示在該光標所在的頁面中,優(yōu)選的,以臨時窗口的方式顯示在臨近該光標位置等。再例如,所述第二確定裝置9基于用戶打開的網頁來獲得待處理資源,則所述執(zhí)行裝置11將查詢裝置10所獲得的所述待處理資源對應的資源描述信息的準確度信息顯示在該網頁中。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限制,本領域技術人員應該理解,任何根據所述待處理資源對應的資源描述信息的準確度信息,執(zhí)行與所述用戶行為相應的操作的實現方式,均應包含在本發(fā)明的范圍內。根據本實施例的準確度確定裝置,能將所確定的資源描述信息的準確度應用于多種場合,例如1)應用于檢索系統(tǒng),以使資源描述信息不準確的資源排序靠后,使檢索結果的排序更為合理;2)應用于推薦系統(tǒng),例如,基于所確定的資源描述信息的準確度來向用戶推薦資源,以提高資源的利用率;3)提示系統(tǒng),例如,基于所確定的資源描述信息的準確度來提示用戶該資源的描述可能準確度較低等。對于本領域技術人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現本發(fā)明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化涵括在本發(fā)明內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此夕卜,顯然“包括” 一詞不排除其他單元或步驟,單數不排除復數。系統(tǒng)權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
權利要求
1.一種計算機實現的用于確定資源描述信息的準確度信息的方法,其中,該方法包括以下步驟 a由預建立的資源描述信息集合所包含的多個資源描述信息中選擇待處理資源描述信息,其中,所述多個資源描述信息中的每個資源描述信息均用于描述一個資源,且每個資源描述信息所描述的資源與該資源描述信息集合中的任一其他資源描述信息所描述的資源相似或相同; b獲取所述待處理資源描述信息所包含的各個關鍵詞在所述其他資源描述信息中的分布信息; c根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度信息。
2.根據權利要求I所述的方法,其中,所述分布信息包括以下至少一項 -所述各個關鍵詞在所述所有其他資源描述信息中出現的總次數; -所述各個關鍵詞在所述所有其他資源描述信息中分別出現的次數; -包含所述各個關鍵詞中至少一個關鍵詞的所述其他資源描述信息的標識信息; -包含所述至少一個關鍵詞的所述其他資源描述信息的數量; -包含所述至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例; -所述各個關鍵詞中的每個關鍵詞所出現的其他資源描述信息的數量占所有資源描述信息的數量的比例。
3.根據權利要求I或2所述的方法,其中,該方法還包括以下步驟 -獲取用于確定所述關聯度的其他相關信息; 其中,所述步驟c還包括以下步驟 -根據所述分布信息以及所述其他相關信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度信息。
4.根據權利要求3所述的方法,其中,所述其他相關信息包括以下至少一項 -包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息所描述的資源的權威性; -所述所有關鍵詞中的每個關鍵詞與包含該關鍵詞的各個其他資源描述信息間的第一相關度; -所述所有關鍵詞中的每個關鍵詞與所述待處理資源描述信息間的第二相關度。
5.根據權利要求I至4中任一項所述的方法,其中,所述步驟a還包括以下步驟 -根據所述多個資源描述信息所描述的資源對應的網絡相關信息,來對該多個資源描述信息進行識別,以將識別所得的用戶生成資源描述信息作為所述待處理資源描述信息。
6.根據權利要求5所述的方法,其中,所述網絡相關信息包括以下至少一項 -該網絡相關信息對應的資源的鏈接地址信息; -該網絡相關信息對應的資源所屬網頁的頁面特征信息; -該網絡相關信息對應的資源所屬網站所包含的網頁的頁面特征信息。
7.根據權利要求I至6中任一項所述的方法,其中,該方法還包括以下步驟-獲取多個資源; -根據所述多個資源自身所包含的信息,來對該多個資源進行聚類,以獲得一組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源; 其中,該方法還包括以下步驟 -根據所述每組相同或相似的資源對應的資源描述信息,來建立所述資源描述信息集口 O
8.根據權利要求I至7中任一項所述的方法,其中,該方法還包括以下步驟 -根據所述待處理資源描述信息的準確度信息及其所描述的資源,建立或更新資源信 息庫。
9.根據權利要求8所述的方法,其中,該方法還包括以下步驟 -獲取與用戶行為相關的行為相關信息; -根據所述行為相關信息,確定待處理資源; -根據所述待處理資源來在所述資源信息庫中進行查詢,以獲得所述待處理資源對應的資源描述信息的準確度信息; -根據所述待處理資源對應的資源描述信息的準確度信息,執(zhí)行與所述用戶行為相應的操作。
10.根據權利要求9所述的方法,其中,所述用戶行為信息包括以下至少一項 -用戶操作的類型; -用戶操作的對象; -用戶輸入操作中所輸入的輸入內容。
11.根據權利要求I至10中任一項所述的方法,其中,所述準確度信息包括以下至少一項 -所述待處理資源描述信息的總體準確度; -所述待處理資源描述信息所包含的各個關鍵詞的準確度。
12.—種計算機實現的用于確定描述信息的準確度信息的準確度確定裝置,其中,該準確度確定裝置包括 選擇裝置、用于由預建立的資源描述信息集合所包含的多個資源描述信息中選擇待處理資源描述信息,其中,所述多個資源描述信息中的每個資源描述信息均用于描述一個資源,且每個資源描述信息所描述的資源與該資源描述信息集合中的任一其他資源描述信息所描述的資源相似或相同; 第一獲取裝置、用于獲取所述待處理資源描述信息所包含的各個關鍵詞在所述其他資源描述信息中的分布信息; 第一確定裝置、根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度信息。
13.根據權利要求12所述的準確度確定裝置,其中,所述分布信息包括以下至少一項 -所述各個關鍵詞在所述所有其他資源描述信息中出現的總次數; -所述各個關鍵詞在所述所有其他資源描述信息中分別出現的次數; -包含所述各個關鍵詞中至少一個關鍵詞的所述其他資源描述信息的標識信息;-包含所述至少一個關鍵詞的所述其他資源描述信息的數量; -包含所述至少一個關鍵詞的所述其他資源描述信息的數量占所述所有資源描述信息的數量的比例; -所述各個關鍵詞中的每個關鍵詞在所述所有其他資源描述信息中出現的次數占所有資源描述信息的數量的比例。
14.根據權利要求12或13所述的準確度確定 裝置,其中,該準確度確定裝置還包括 第二獲取裝置、用于獲取用于確定所述關聯度的其他相關信息; 其中,所述第一確定裝置還包括 子確定裝置、用于根據所述分布信息以及所述其他相關信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度信息。
15.根據權利要求14所述的準確度確定裝置,其中,所述其他相關信息包括以下至少一項 -包含所述各個關鍵詞中任一關鍵詞的所述其他資源描述信息所描述的資源的權威性; -所述所有關鍵詞中的每個關鍵詞與包含該關鍵詞的其他資源描述信息間的第一相關度; -所述所有關鍵詞中的每個關鍵詞與所述待處理資源描述信息間的第二相關度。
16.根據權利要求12至15中任一項所述的準確度確定裝置,其中,所述選擇裝置還包括 識別裝置、用于根據所述多個資源描述信息所描述的資源對應的網絡相關信息,來對該多個資源描述信息進行識別,以將識別所得的用戶生成資源描述信息作為所述待處理資源描述信息。
17.根據權利要求16所述的準確度確定裝置,其中,所述網絡相關信息包括以下至少一項 -該網絡相關信息對應的資源的鏈接地址信息; -該網絡相關信息對應的資源所屬網頁的頁面特征信息; -該網絡相關信息對應的資源所屬網站所包含的網頁的頁面特征信息。
18.根據權利要求12至17中任一項所述的準確度確定裝置,其中,該準確度確定裝置還包括以下步驟 第三獲取裝置、用于獲取多個資源; 聚類裝置、用于根據所述多個資源自身所包含的信息,來對該多個資源進行聚類,以獲得一組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源; 其中,該準確度確定裝置還包括 構建裝置、用于根據所述每組相同或相似的資源對應的資源描述信息,來建立所述資源描述信息集合。
19.根據權利要求12至18中任一項所述的準確度確定裝置,其中,該準確度確定裝置還包括 更新裝置、用于根據所述待處理資源描述信息的準確度及其所描述的資源,建立或更新資源信息庫。
20.根據權利要求19所述的準確度確定裝置,其中,該準確度確定裝置還包括 第四獲取裝置、用于獲取與用戶行為相關的行為相關信息; 第二確定裝置、用于根據所述行為相關信息,確定待處理資源; 查詢裝置、用于根據所述待處理資源來在所述資源信息庫中進行查詢,以獲得所述待處理資源對應的資源描述信息的準確度信息; 執(zhí)行裝置、用于根據所述待處理資源對應的資源描述信息的準確度信息,執(zhí)行與所述用戶行為相應的操作。
21.根據權利要求20所述的準確度確定裝置,其中,所述用戶行為信息包括以下至少一項 -用戶操作的類型; -用戶操作的對象; -用戶輸入操作中所輸入的輸入內容。
22.根據權利要求12至21中任一所述的準確度確定裝置,所述準確度信息包括以下至少一項 -所述待處理資源描述信息的總體準確度; -所述待處理資源描述信息所包含的各個關鍵詞的準確度。
23.一種計算機,其中,該計算機設備包括如權利要求12至22中至少一項所述的準確度確定裝置。
全文摘要
本發(fā)明提供一種用于確定資源描述信息的準確度信息的方法、裝置及設備。根據本發(fā)明的方案先由預建立的資源描述信息集合所包含的多個資源描述信息中選擇待處理資源描述信息;接著,再獲取所述待處理資源描述信息所包含的各個關鍵詞在所述其他資源描述信息中的分布信息;隨后根據所述分布信息,確定所述待處理資源描述信息和/或其包含的各個關鍵詞與所有其他資源描述信息間的關聯度,以獲得該待處理資源描述信息的準確度信息。本發(fā)明的優(yōu)點包括能夠確定資源描述信息對資源的描述的準確度。
文檔編號G06F17/30GK102737059SQ201110093719
公開日2012年10月17日 申請日期2011年4月14日 優(yōu)先權日2011年4月14日
發(fā)明者王清翔 申請人:北京百度網訊科技有限公司