專利名稱:基于擴展文本信息來確定資源類型的方法、裝置及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機領(lǐng)域,尤其涉及一種基于擴展文本信息來確定資源類型的方法、裝置及設(shè)備。
背景技術(shù):
現(xiàn)有技術(shù)中,往往需要根據(jù)資源所攜帯的描述信息來確定資源類型,以根據(jù)資源類型來將資源提供給用戶。然而,由于資源所攜帯的描述信息往往為短文本信息,該等短文本信息所包含的信息量很少,因此,僅根據(jù)短文本信息所確定的資源類型準確度較低。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于擴展文本信息來確定資源類型的方法、裝置及設(shè)備。根據(jù)本發(fā)明的ー個方面,提供一種計算機實現(xiàn)的基于擴展文本信息來確定資源類型的方法,其中,該方法包括以下步驟a將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息,其中,所述多個資源中的任一資源均與所述多個資源中的其他資源相似或相同;b根據(jù)所述擴展文本信息,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息。根據(jù)本發(fā)明的另ー個方面,還提供了一種基于擴展文本信息來確定資源類型的類型確定裝置,其中,該類型確定裝置包括合并裝置、用于將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息,其中,所述多個資源中的任一資源均與所述多個資源中的其他資源相似或相同;第一確定裝置、用于根據(jù)所述擴展文本信息,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息。根據(jù)本發(fā)明的又ー個方面,還提供了一種計算機設(shè)備,其中,該計算機設(shè)備包括前述類型確定裝置。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點1)通過將多個相同或相似的資源對應(yīng)的資源相關(guān)文本信息進行合并來獲得擴展文本信息,井根據(jù)擴展文本信息來確定該多個相同或相似的資源與預(yù)定類型間的相關(guān)信息。由于各個資源相關(guān)信息對應(yīng)相同或相似的資源,因此,對該各個資源相關(guān)信息進行合并所得的擴展文本信息與該各個資源相關(guān)信息所相關(guān)的資源間具有較高的關(guān)聯(lián)度,并且,該合并所得的擴展文本信息包含較多的信息量,使得根據(jù)該擴展文本信息來確定的所述多個相同或相似的資源與預(yù)定類型間的相關(guān)信息具有較高的準確性;2)基于擴展文本信息及各關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,能夠更為準確地確定資源與預(yù)定類型間的第一相關(guān)概率信息;3)能將所確定的資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息應(yīng)用于檢索系統(tǒng),并基于輸入序列與至少ー個預(yù)定類型間的第二相關(guān)概率信息來確定資源與輸入序列間的相似度,并基于該相似度來對檢索結(jié)果排序,由此,使得與輸入序列相似度高的資源排序靠前,進而使排序更為合理,更符合用戶的需求,提高檢索系統(tǒng)的可信度。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖I為本發(fā)明ー個方面的基于擴展文本信息來確定資源類型的方法的流程圖;圖2為本發(fā)明一個優(yōu)選實施例的基于擴展文本信息來確定資源類型的方法的流程圖;圖3為本發(fā)明一個優(yōu)選實施例的根據(jù)所確定的第一相關(guān)信息來對資源排序的流程圖;圖4為本發(fā)明ー個方面的基于擴展文本信息來確定資源類型的類型確定裝置示意圖;圖5為本發(fā)明一個優(yōu)選實施例的基于擴展文本信息來確定資源類型的類型確定裝置不意圖;圖6為本發(fā)明一個優(yōu)選實施例的根據(jù)所確定的第一相關(guān)信息來對資源排序的類型確定裝置不意圖;附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施例方式下面結(jié)合附圖對本發(fā)明作進ー步詳細描述。圖I示出了本發(fā)明ー個方面的基于擴展文本信息來確定資源類型的方法的流程圖。其中,根據(jù)本發(fā)明的方法主要通過計算機設(shè)備中的操作系統(tǒng)或處理控制器來完成,為簡明起見,以下將所述操作系統(tǒng)或處理控制器統(tǒng)稱為類型確定裝置。其中,該計算機設(shè)備包括但不限于1)用戶設(shè)備;2)網(wǎng)絡(luò)設(shè)備。所述用戶設(shè)備包括但不限于計算機、智能手機、PDA等;所述網(wǎng)絡(luò)設(shè)備包括但不限于單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計算(Cloud Computing)的由大量計算機或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計算是分布式計算的ー種,由一群松散耦合的計算機集組成的ー個超級虛擬計算機。在步驟SI中,所述類型確定裝置將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息,其中,所述多個資源中的任一資源均與所述多個資源中的其他資源相似或相同。其中,所述資源包括但不限于1)圖片類資源;2)音頻類資源;3)視頻類資源;4)程序包類資源等。其中,資源相關(guān)文本信息包括與資源相關(guān)聯(lián)的文本信息,例如,資源所在的網(wǎng)頁中 的文本信息,又例如,資源自身所攜帯的描述信息等。優(yōu)選地,所述資源相關(guān)文本信息包括以下至少ー項文本信息1)該資源相關(guān)文本信息所相關(guān)的資源的錨文本信息;2)該資源相關(guān)文本信息所相關(guān)的資源的描述文本信息,例如,圖片的名稱等;3)該資源相關(guān)文本信息所相關(guān)的資源所屬網(wǎng)頁中包含的預(yù)定范圍內(nèi)的文本信息,例如,資源所屬網(wǎng)頁中包含的主題信息,又例如,資源所屬網(wǎng)頁中與該資源間的間距小于200個字符的文本信息,再例如,資源所屬網(wǎng)頁中與該資源間的間距小于2個顯示模塊的文本信息等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何能用于描述資源的文本信息,均應(yīng)包含在本發(fā)明的資源相關(guān)文本イM息范圍內(nèi)。其中,所述類型確定裝置將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息的方式包括但不限于
I)當所述資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息中的每ー個均只包括ー個或多個關(guān)鍵詞信息,則所述類型確定裝置直接根據(jù)每ー個相關(guān)文本信息包含的關(guān)鍵詞信息,來進行去除相同關(guān)鍵詞的合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息。例如,所述類型確定裝置獲取的預(yù)建立的資源相關(guān)文本信息集合中包含資源相關(guān)文本信息Al、資源相關(guān)文本信息A2,其中,資源相關(guān)文本信息Al包括關(guān)鍵詞Xl與關(guān)鍵詞x2,資源相關(guān)文本信息A2包括關(guān)鍵詞Xl與關(guān)鍵詞x3,則所述類型確定裝置基于該資源相關(guān)文本信息集合所包含的資源相關(guān)文本信息,去除一個重復(fù)出現(xiàn)的關(guān)鍵詞xl,以獲得擴展文本信息包括“關(guān)鍵詞xl,關(guān)鍵詞x2,關(guān)鍵詞x3”。2)當所述資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息中的部分或全部資源相關(guān)文本信息包含未經(jīng)處理的文本信息,則所述類型確定裝置先對包含未經(jīng)處理的文本信息進行諸如切詞、去除相同關(guān)鍵詞等處理,以獲得各個資源相關(guān)文本信息分別包含的ー個或多個關(guān)鍵詞,再根據(jù)每ー資源相關(guān)文本信息包含的關(guān)鍵詞,來進行去除相同關(guān)鍵詞的合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息。其中,所述未經(jīng)處理的文本信息包括但不限于a)多個詞組成的長字符串;b)包含詞以及諸如“,”、“?!钡葮它c符號的長字符串等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何將多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息的方式的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。優(yōu)選地,在本步驟執(zhí)行前預(yù)建立所述資源相關(guān)文本信息集合的方式包括但不限于I)人工建立資源相關(guān)文本信息集合。2)其他設(shè)備預(yù)建立該資源相關(guān)文本信息集合并提供給所述類型確定裝置;3)所述類型確定裝置基于資源聚類來建立所述資源相關(guān)文本信息集合。具體地,所述類型確定裝置通過執(zhí)行下述步驟S3 (未予圖示)、步驟S4 (未予圖示)及步驟S5 (未予圖示)來建立所述資源相關(guān)文本信息集合在步驟S3中,所述類型確定裝置獲取多個待聚類資源。其中,所述類型確定裝置獲取多個資源的方式包括但不限于1)由多個網(wǎng)站中獲取所述多個資源;2)由預(yù)存儲的資源庫中獲取所述多個資源等等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何獲取多個資源的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。接著,在步驟S4中,所述類型確定裝置根據(jù)所述多個待聚類資源自身所包含的信息,來對該多個待聚類資源進行聚類,以獲得ー組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源。其中,所述類型確定裝置根據(jù)資源類型來采用相應(yīng)的聚類方式。例如,對于圖片類資源,所述類型確定裝置根據(jù)圖片包含的像素點信息、圖片的顏色直方圖信息、局部不變特征(SIFT, Scale-invariant feature transform)、紋理特征(HTD, Homogeneous Texture Descriptor),顏色特征(SO))等,來進行圖片聚類。又例如,對于視頻類資源,所述類型確定裝置根據(jù)視頻資源的大小、格式、相同時間點的截圖等信息來進行聚類。再例如,對于音頻類資源,所述類型確定裝置根據(jù)音頻的格式、大小、音頻資源的平均音調(diào)、音頻資源在各個時間點上的音調(diào)等信息來進行聚類。再例如,對于程序包類資 源,所述類型確定裝置根據(jù)程序包包含的源代碼信息等來進行聚類。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何對資源進行聚類以獲得ー組或多組聚類資源,且每組聚類資源包括一個或多個相同或相似的資源的聚類方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。接著,在步驟S5中,所述類型確定裝置根據(jù)與所述聚類所得的ー組聚類資源相關(guān)的資源相關(guān)文本信息,來建立所述預(yù)建立的資源相關(guān)文本信息集合。例如,所述類型確定裝置獲得ー組聚類資源BI、ー組聚類資源B2、ー組聚類資源B3,所述類型確定裝置根據(jù)ー組聚類資源BI包含的資源bl、b2和b3分別對應(yīng)的資源相關(guān)文本信息,來建立所述資源相關(guān)文本信息集合。優(yōu)選地,在步驟S5之前、之后或者同時,所述類型確定裝置基于ー組聚類資源B2或ー組聚類資源B3包含的各個資源分別對應(yīng)的資源相關(guān)文本信息,來建立其他資源相關(guān)文本信息集合。在步驟S2中,所述類型確定裝置根據(jù)所述擴展文本信息,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息。其中,所述類型確定裝置獲取預(yù)定類型的方式包括但不限于I)獲取人工輸入的類型。2)由預(yù)定的類型庫中獲取。例如,所述類型確定裝置將所述類型庫中包含的全部類型作為預(yù)定類型。具體地,所述類型確定裝置根據(jù)所述擴展文本信息中包含的各個關(guān)鍵詞,來確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息。其中,所述第一相關(guān)信息包括以下至少ー項I)所述多個資源與該第一相關(guān)信息對應(yīng)的預(yù)定類型相關(guān)或不相關(guān);例如,所述類型確定裝置獲取的預(yù)定類型包括“自然風光”與“手機”,在步驟SI中獲得的擴展文本信息包含關(guān)鍵詞XI、關(guān)鍵詞x2及關(guān)鍵詞x3,并基于預(yù)定的關(guān)鍵詞與預(yù)定類型間的關(guān)聯(lián)關(guān)系表確定關(guān)鍵詞XI、關(guān)鍵詞x2及關(guān)鍵詞x3均與預(yù)定類型“自然風光”無關(guān),但均與預(yù)定類型“手機”相關(guān),則所述類型確定裝置確定所述多個資源與預(yù)定類型“自然風光”間的第一相關(guān)信息為“t”,與預(yù)定類型“手機”間的第一相關(guān)信息為“n”,其中,“t”為預(yù)設(shè)的用于表示不相關(guān)的標識信息,“η”為預(yù)設(shè)的用于表示相關(guān)的標識信息。2)所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息。所述類型確定裝置根據(jù)所述擴展文本信息,來確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息的確定方式包括但不限于a)根據(jù)諸如概率潛在語義分析(plsa)、淺層狄利赫雷(LDA, Latent Dirichletallocation)等算法來確定第一相關(guān)概率信息;例如,所述類型確定裝置獲得擴展文本信息包括“關(guān)鍵詞xll,關(guān)鍵詞xl2,關(guān)鍵詞xl3”,則所述類型確定裝置基于該些關(guān)鍵詞采用plsa分析來確定所述多個資源與預(yù)定類型庫中所包含的全部類型中的每ー個預(yù)定類型間的第一相關(guān)概率信息。b)根據(jù)擴展文本信息所包含的各個關(guān)鍵詞所相關(guān)的預(yù)定類型來確定第一相關(guān)概
率信息。例如,所述類型確定裝置所獲得的擴展文本信息包括“關(guān)鍵詞xll,關(guān)鍵詞xl2,關(guān)鍵詞xl3”,且所述類型確定裝置根據(jù)預(yù)定的關(guān)鍵詞與預(yù)定類型的關(guān)聯(lián)關(guān)系表,確定關(guān)鍵詞xll與預(yù)定類型“游戲”和“新聞”相關(guān),關(guān)鍵詞xl2與預(yù)定類型“新聞”相關(guān),關(guān)鍵詞xl3與預(yù)定類型“游戲”和“娛樂”相關(guān),則所述類型確定裝置確定資源在預(yù)定類型“游戲”上的第一相關(guān)概率信息為2/5,在預(yù)定類型“新聞”上的第一相關(guān)概率信息為2/5,在預(yù)定類型“娛樂”上的第一相關(guān)概率信息為1/5等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。根據(jù)本發(fā)明的方法,通過將多個相同或相似的資源對應(yīng)的資源相關(guān)文本信息進行合并來獲得擴展文本信息,井根據(jù)擴展文本信息來確定該多個相同或相似的資源與預(yù)定類型間的相關(guān)信息。由于各個資源相關(guān)信息對應(yīng)相同或相似的資源,因此,對該各個資源相關(guān)信息進行合并所得的擴展文本信息與該各個資源相關(guān)信息所相關(guān)的資源間具有較高的關(guān)聯(lián)度,并且,該合并所得的擴展文本信息包含較多的信息量,使得根據(jù)該擴展文本信息來確定的所述多個相同或相似的資源與預(yù)定類型間的相關(guān)信息具有較高的準確性。圖2示出了本發(fā)明ー個優(yōu)選實施例的基于擴展文本信息來確定資源類型的方法的流程圖。其中,根據(jù)本實施例的方法包括步驟S I以及步驟S2’。其中,步驟SI已在圖I所示的實施例中予以詳述,并以引用的方式包含于此,不再贅述。接著,在步驟S2’中,所述類型確定裝置根據(jù)所述擴展文本信息,并結(jié)合預(yù)獲取的所述擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息。其中,所述關(guān)鍵詞的稀缺度包括該關(guān)鍵詞在預(yù)定預(yù)料庫中的稀缺程度。具體地,該關(guān)鍵詞在預(yù)定預(yù)料庫中出現(xiàn)的次數(shù)多,則該關(guān)鍵詞的稀缺度就低。所述類型確定裝置獲取所述多個關(guān)鍵詞的稀缺度的方式包括但不限于1)由所述類型確定裝置所能訪問的存儲設(shè)備中獲取預(yù)存儲的各個關(guān)鍵詞分別對應(yīng)的稀缺度;2)所述類型確定裝置基于關(guān)鍵詞在預(yù)定預(yù)料庫中出現(xiàn)次數(shù)來確定等。例如,所述類型確定裝置基于關(guān)鍵詞xl4在預(yù)定預(yù)料庫中出現(xiàn)800次,并基于該800次已超過預(yù)定閾值來確定該關(guān)鍵詞xl4的稀缺度為低級。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何獲取關(guān)鍵詞的稀缺度的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。其中,所述類型確定裝置在本步驟執(zhí)行前預(yù)獲取擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息的方式包括但不限干I)所述類型確定裝置在將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理的過程中獲得所述擴展文本信息以及所述分布信息。具體地,所述類型確定裝置將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理來獲得所述擴展文本信息的同時,統(tǒng)計各個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布,以獲得所述分布信息。優(yōu)選地,所述分布信息包括以下至少ー項 a)所述多個關(guān)鍵詞中每個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)。例如,在步驟SI中,所述類型確定裝置獲取的預(yù)建立的資源相關(guān)文本信息集合中包含資源相關(guān)文本信息All與資源相關(guān)文本信息A12,其中,資源相關(guān)文本信息All包含關(guān)鍵詞X21與關(guān)鍵詞x22,資源相關(guān)文本信息A12包括關(guān)鍵詞x21與關(guān)鍵詞x23,則所述類型確定裝置對資源相關(guān)文本信息All與資源相關(guān)文本信息A12進行去除重復(fù)的關(guān)鍵詞的合并處理,并在合并過程中記錄各個關(guān)鍵詞出現(xiàn)的次數(shù),則所述類型確定裝置所獲得的擴展文本信息以及各個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)如下關(guān)鍵詞出現(xiàn)次數(shù)關(guān)鍵詞x21 :2關(guān)鍵詞x22 I關(guān)鍵詞x23 Ib)所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型,其中,所述文本信息包含于相關(guān)文本信息中。例如,所述類型確定裝置基于關(guān)鍵詞x24出現(xiàn)在錨文本信息A24中來確定關(guān)鍵詞x24所在的文本信息的類型為錨文本類;又例如,所述類型確定裝置基于關(guān)鍵詞x25出現(xiàn)在描述文本信息A25以及錨文本信息A24中來確定關(guān)鍵詞x25所在的文本信息的類型為描述文本類以及錨文本類。c)所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型及其在每種文本信息的類型中出現(xiàn)的次數(shù)。2)所述類型確定裝置在獲取所述擴展文本信息后,再獲取所述多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息。具體地,所述類型確定裝置先將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息;隨后,所述類型確定裝置再根據(jù)所述擴展文本信息中包含的多個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的分布來獲得所述分布信息。例如,所述類型確定裝置在步驟SI中已獲取的擴展文本信息包括“關(guān)鍵詞x41”,隨后,所述類型確定裝置統(tǒng)計獲得關(guān)鍵詞χ41在資源相關(guān)文本信息集合中的錨文本信息Α41中出現(xiàn)2次,在描述文本信息Α42中出現(xiàn)I次,則所述類型確定裝置獲得關(guān)鍵詞x41的分布信息如下關(guān)鍵詞cl :{M:2},{N:l},其中,“Μ”為預(yù)設(shè)的用于表示錨文本類的標識信息,“N”為預(yù)設(shè)的用于表示描述文本類的標識信息。其中,所述類型確定裝置根據(jù)所述擴展文本信息,并結(jié)合預(yù)獲取的所述擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,來確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息的方式包括但不限于I)直接根據(jù)所述分布信息和所述稀缺度中的至少ー者以及所述擴展文本信息,來確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息。具體地,直接根據(jù)所述分布信息和所述稀缺度中的至少ー者以及所述擴展文本信 息來確定所述第一相關(guān)概率信息的方式包括但不限于i)所述類型確定裝置根據(jù)所述分布信息和所述稀缺度中的至少ー者以及所述擴展文本信息,采用諸如概率潛在語義分析(ProbabilisticLatent Semantic Analysis)、淺層狄利赫雷(Latent Dirichlet Allocation)等算法來確定第一相關(guān)概率信息。ii)根據(jù)擴展文本信息所包含的各個關(guān)鍵詞所相關(guān)的預(yù)定類型,并結(jié)合所述分布信息和所述稀缺度中的至少ー者,確定第一相關(guān)概率信息。例如,所述類型確定裝置獲取的擴展文本信息包括“關(guān)鍵詞x51,關(guān)鍵詞x52”,關(guān)鍵詞x51在所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)為10次,關(guān)鍵詞x52在所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)為2次,所述類型確定裝置根據(jù)預(yù)定的關(guān)鍵詞與預(yù)定類型間的關(guān)聯(lián)關(guān)系表確定關(guān)鍵詞x51與預(yù)定類型LI相關(guān),關(guān)鍵詞χ52與預(yù)定類型L2相關(guān),則所述類型確定裝置確定所述多個資源與預(yù)定類型LI的第一相關(guān)概率信息為10パ10+2) = 5/6,與預(yù)定類型L2的第一相關(guān)概率信息為2バ10+2) = 1/6。又例如,所述類型確定裝置獲取的擴展文本信息包括“關(guān)鍵詞x51,關(guān)鍵詞x52”,并由預(yù)建立的關(guān)鍵詞稀缺度庫中獲得關(guān)鍵詞x51的稀缺度為O. 42,關(guān)鍵詞χ52的稀缺度為O. 74,且所述類型確定裝置根據(jù)預(yù)定的關(guān)鍵詞與預(yù)定類型間的關(guān)聯(lián)關(guān)系表確定關(guān)鍵詞x51與預(yù)定類型LI相關(guān),關(guān)鍵詞x52與預(yù)定類型LI和L2相關(guān),則所述類型確定裝置根據(jù)將與各個預(yù)定類型相關(guān)的所有關(guān)鍵詞的稀缺度平均值作為所述多個資源與各個預(yù)定類型的第一相關(guān)概率信息的預(yù)定規(guī)則,確定所述多個資源與預(yù)定類型LI的第一相關(guān)概率信息為(O. 42+0. 74)/2 = O. 58,與預(yù)定類型L2的第一相關(guān)概率信息為O. 74。2)所述類型確定裝置先根據(jù)分布信息和/或各個關(guān)鍵詞的稀缺度確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息,再根據(jù)所述擴展文本信息及各個關(guān)鍵詞的權(quán)重信息來確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息。具體地,所述類型確定裝置確定所述權(quán)重信息的方式包括但不限于a)所述類型確定裝置根據(jù)所述分布信息來確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息。具體地,該根據(jù)分布信息來確定所述權(quán)重信息的方式包括但不限于i)當所述類型確定裝置獲取的分布信息僅包括各關(guān)鍵詞中每個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)或者僅包括所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型,則所述類型確定裝置僅基于出現(xiàn)次數(shù)或僅基于文本信息的類型的預(yù)定權(quán)重信息來確定各關(guān)鍵詞的權(quán)重信息。例如,所述類型確定裝置直接將每個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)作為相應(yīng)關(guān)鍵詞的權(quán)重信息;又例如,當ー個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)高于預(yù)定次數(shù)閾值,則所述類型確定裝置確定該關(guān)鍵詞的權(quán)重信息為高級等。再例如,如果ー個關(guān)鍵詞僅出現(xiàn)在ー種類型的文本信息中,則所述類型確定裝置直接將該關(guān)鍵詞所在的文本信息的類型的預(yù)定權(quán)重信息作為該的關(guān)鍵詞的權(quán)重信息;如果ー個關(guān)鍵詞出現(xiàn)在兩種或兩種以上類型的文本信息中,則所述類型確定裝置求取該兩種或兩種以上類型的文本信息的預(yù)定權(quán)重值的乘積、和值、平方和等,以確定該關(guān)鍵詞的權(quán)重信息。ii)當所述類型確定裝置獲取的分布信息包括所述擴展文本信息包含的所有關(guān)鍵詞中的每個關(guān)鍵詞所在的文本信息的類型及各個關(guān)鍵詞在每種文本信息的類型分別中出現(xiàn)的次數(shù),則所述類型確定裝置根據(jù)所述文本信息的類型對應(yīng)的預(yù)定權(quán)重值和各個關(guān)鍵詞分別在各個文本信息中出現(xiàn)的次數(shù)來確定各個關(guān)鍵詞的權(quán)重信息。例如,所述類型確定裝置將ー個關(guān)鍵詞所在的各個文本信息的類型的預(yù)定權(quán)重值和該關(guān)鍵詞在各個文本信息中 出現(xiàn)次數(shù)分別相乘后,再將相乘所得的值相加,以確定該關(guān)鍵詞的權(quán)重信息。并且,所述類型確定裝置重復(fù)上述相乘后相加的操作,以獲得各個關(guān)鍵詞的權(quán)重信息等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何基于分布信息來確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息的實現(xiàn)方式,均包含在本發(fā)明的范圍內(nèi)。b)所述類型確定裝置根據(jù)所述稀缺度來確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息。例如,所述類型確定裝置直接將各個關(guān)鍵詞的稀缺度作為各個關(guān)鍵詞的權(quán)重信息;或者,所述類型確定裝置對各個關(guān)鍵詞的稀缺度進行諸如歸一化、乘以預(yù)定調(diào)節(jié)值等處理后,將處理所得的值作為各個關(guān)鍵詞的權(quán)重信息等。c)所述類型確定裝置根據(jù)分布信息和各個關(guān)鍵詞的稀缺度來確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息。具體地,該根據(jù)分布信息和稀缺度來確定權(quán)重信息的方式包括但不限于i)所述類型確定裝置直接根據(jù)分布信息和各個關(guān)鍵詞的稀缺度確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息。例如,對于所述各個關(guān)鍵詞中的每個關(guān)鍵詞,所述類型確定裝置將關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)和該關(guān)鍵詞的稀缺度進行求取乘積、和值、平方和等處理,來將處理所得的值分別作為關(guān)鍵詞的權(quán)重信息;又例如,對于所述各個關(guān)鍵詞中的每個關(guān)鍵詞,所述類型確定裝置先對關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)及各個類型的文本信息對應(yīng)的預(yù)定權(quán)重值分別進行歸一化處理,再將對關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)進行歸一化處理后所得的值、對該關(guān)鍵詞所在文本信息的類型的預(yù)定權(quán)重值進行歸ー化處理后所得的值以及關(guān)鍵詞的稀缺度,進行求取乘積、和值、平方和等處理,來確定關(guān)鍵詞的權(quán)重信息等。ii)所述類型確定裝置先根據(jù)分布信息來初步確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息,再基于各個關(guān)鍵詞的稀缺度來調(diào)整前述初步確定的各關(guān)鍵詞的權(quán)重信息,以獲得最終的各個關(guān)鍵詞的權(quán)重信息。其中,所述類型確定裝置先根據(jù)分布信息來初歩確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息的方式與前述根據(jù)分布信息來確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息的方式相同或相似,在此以引用的方式包含于此,不再贅述。例如,所述類型確定裝置初步確定關(guān)鍵詞x61的權(quán)重信息為5,并獲取該關(guān)鍵詞x61的稀缺度為0. 8,則所述類型確定裝置將該稀缺度與權(quán)重信息的乘積0. 8*5 = 4作為該關(guān)鍵詞x61的最終的權(quán)重信息。又例如,所述類型確定裝置初步確定關(guān)鍵詞x62的權(quán)重信息為3,并獲取該關(guān)鍵詞x62的稀缺度為0. 1,則所述類型確定裝置基于該稀缺度小于預(yù)定稀缺度閾值,將該初步確定的關(guān)鍵詞x62的權(quán)重信息減去一個預(yù)定調(diào)節(jié)值來獲得關(guān)鍵詞x62最終的權(quán)重信息。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何基于分布信息和各個關(guān)鍵詞的稀缺度來確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息的實現(xiàn)方式,均包含在本發(fā)明的范圍內(nèi)。其中,所述類型確定裝置根據(jù)所述擴展文本信息及所獲得的各個關(guān)鍵詞的權(quán)重信息來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息的方式包括但不限 于I)所述類型確定裝置根據(jù)所述擴展文本信息及各關(guān)鍵詞的權(quán)重信息,采用諸如概率潛在語義分析、淺層狄利赫雷等算法來確定第一相關(guān)概率信息。2)所述類型確定裝置根據(jù)擴展文本信息所包含的各個關(guān)鍵詞所相關(guān)的預(yù)定類型及各個關(guān)鍵詞的權(quán)重信息,來確定第一相關(guān)概率信息。例如,所述類型確定裝置確定關(guān)鍵詞x63的權(quán)重"[目息為7. 5,關(guān)鍵詞x64的權(quán)重"[目息為5,并基于關(guān)鍵詞與預(yù)定類型的關(guān)聯(lián)關(guān)系表確定與關(guān)鍵詞x63相關(guān)的類型為預(yù)定類型L11、與關(guān)鍵詞x64相關(guān)的預(yù)定類型為預(yù)定類型L12,則所述類型確定裝置確定所述多個資源與預(yù)定類型Lll的第一相關(guān)概率信息為7. 5/(7. 5+5) = 0. 6,與預(yù)定類型L12的第一相關(guān)概率信息為5/(7. 5+5) = 0. 4。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述擴展文本信息及各關(guān)鍵詞的權(quán)重信息來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。此外,本領(lǐng)域技術(shù)人員還應(yīng)該理解,任何根據(jù)所述擴展文本信息,并結(jié)合預(yù)獲取的所述擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息的實現(xiàn)方式,也均應(yīng)包含在本發(fā)明的范圍內(nèi)。作為本實施例的優(yōu)選方案之一,根據(jù)本發(fā)明的方法還包括所述類型確定裝置根據(jù)所述多個資源與至少一個預(yù)定類型間的第一相關(guān)信息,建立或更新資源類型庫的步驟。優(yōu)選地,所述類型確定裝置根據(jù)所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息,來建立或更新所述資源類型庫。更優(yōu)選地,所述類型確定裝置僅將所對應(yīng)的預(yù)定類型與所述多個資源相關(guān)的第一相關(guān)信息,或者,所述類型確定裝置僅將大于零的第一相關(guān)概率信息存儲至所述資源類型庫中。更優(yōu)選地,所述類型確定裝置將所述多個資源的每一個所屬網(wǎng)站的鏈接地址信息及評價值信息等存儲在所述資源類型庫中。根據(jù)本實施例的方法,基于擴展文本信息及各關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,能夠更為準確的確定資源與預(yù)定類型間的第一相關(guān)概率信息。圖3示出了本發(fā)明的一個優(yōu)選實施例的根據(jù)所確定的第一相關(guān)信息來對資源排序的流程圖。根據(jù)本實施例的方法包括步驟S6、步驟S7以及步驟S8。在步驟S6中,所述類型確定裝置獲取基于來自用戶的輸入序列進行檢索所得的多個待處理資源。接著,在步驟S7中,所述類型確定裝置根據(jù)所述多個待處理資源來在所述資源類型庫中進行查詢,以獲得所述多個待處理資源中的一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息。其中,所述資源類型庫的建立及更新過程已在圖2所示的實施例中予以詳述,并以引用的方式包含于此,不再贅述。具體地,所述類型確定裝置根據(jù)基于所述輸入序列來獲得的多個待處理資源,在 所述資源類型庫中進行查詢,以獲得包含于所述資源類型庫中的一個或多個資源,并獲得該一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息;或者,所述類型確定裝置根據(jù)點擊量、資源質(zhì)量等因素,由該基于所述輸入序列來獲得的多個待處理資源中選擇至少一個待處理資源,并根據(jù)所選擇的所述至少一個待處理資源在所述資源類型庫中進行查詢,以獲得包含于所述資源類型庫中的一個或多個資源,并獲得該一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息。接著,在步驟S8中,所述類型確定裝置根據(jù)所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息,并結(jié)合預(yù)獲取的所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息,來確定所述多個待處理資源的排序,以提供給所述用戶。其中,在本步驟執(zhí)行之前預(yù)獲取所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息的方式包括但不限于1)所述類型確定裝置直接通過分析所述輸入序列與至少一個預(yù)定類型的類型名稱間的語義相關(guān)性來確定該第二相關(guān)信息。例如,來自用戶的輸入序列為“手機”,則所述類型確定裝置基于該輸入序列“手機”與預(yù)定類型“手機”的類型名稱相同,與預(yù)定類型“水果”的類型名稱不同,來確定該輸入序列“手機”與預(yù)定類型“手機”的第二相關(guān)信息為相關(guān),與預(yù)定類型“水果”不相關(guān)。2)所述類型確定裝置根據(jù)自身或其他裝置預(yù)建立的關(guān)鍵詞與至少一個預(yù)定類型間的相關(guān)信息,來確定所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息,該關(guān)鍵詞與至少一個預(yù)定類型間的相關(guān)信息存儲在所述類型確定裝置中或所述類型確定裝置能夠訪問的存儲設(shè)備中。優(yōu)選地,當來自用戶的輸入序列包含由多個詞構(gòu)成的長字符串,則所述類型確定裝置先對輸入序列進行切詞等處理以獲得關(guān)鍵詞,并根據(jù)切詞所得的關(guān)鍵詞來確定所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信肩、O其中,所述類型確定裝置根據(jù)預(yù)獲取的所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息及所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息,來確定各待處理資源與所述輸入序列之間的相似度,以基于所確定的相似度來確定所述多個待處理資源的排序。例如,所述類型確定裝置預(yù)獲取的輸入序列“手機”與預(yù)定類型“手機”間的第二相關(guān)信息為1,基于所述輸入序列“手機”進行檢索所得的待處理資源A5與預(yù)定類型“手機”間的第一相關(guān)信息為1,所得的待處理資源A6與預(yù)定類型“手機”間的第一相關(guān)信息為0 ;則所述類型確定裝置基于待處理資源A5與預(yù)定類型“手機”的第一相關(guān)信息為I以及輸入序列“手機”與預(yù)定類型“手機”的第二相關(guān)信息為1,來確定待處理資源A5與輸入序列的相似度為I,并基于待處理資源A6與預(yù)定類型“手機”的第一相關(guān)信息為O以及輸入序列“手機”與預(yù)定類型“手機”的第二相關(guān)信息為I,來確定待處理資源A6與輸入序列的相似度為O,進而確定待處理資源A5排序在待處理資源A6之前。優(yōu)選地,所述類型確定裝置根據(jù)所述相似度,并進一步結(jié)合諸如點擊量,資源質(zhì)量,輸入序列與資源的匹配度等其他因素,確定所述多個待處理資源的排序。作為本實施例的優(yōu)選方案之一,所述資源類型庫中包括第一相關(guān)概率信息,所述第二相關(guān)信息包括第二相關(guān)概率信息,所述步驟S7進一步包括步驟S7’ (未予圖示),所述步驟S8進一步包括步驟S8’(未予圖示)。在步驟S7’中,所述類型確定裝置根據(jù)所述多個待處理資源來在所述資源類型庫 中進行查詢,以獲得所述多個待處理資源中的一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息。其中,所述類型確定裝置查詢并獲得所述第一相關(guān)概率信息的方式與前述步驟S7中所述類型確定裝置查詢并獲得所述第一相關(guān)信息的方式相同或相似,在此不再贅述。在步驟S8’中,所述類型確定裝置根據(jù)所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息,并結(jié)合預(yù)獲取的所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息,來確定所述多個待處理資源的排序,以提供給所述用戶。其中,在本步驟執(zhí)行之前預(yù)獲取所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息的方式包括但不限于1)所述類型確定裝置直接通過分析所述輸入序列與至少一個預(yù)定類型的類型名稱間的語義相關(guān)性來確定該第二相關(guān)概率信息。例如,來自用戶的輸入序列為“移動電話”,所述類型確定裝置根據(jù)同義詞辭典確定該輸入序列“移動電話”與預(yù)定類型“手機”為同義詞,則所述類型確定裝置基于預(yù)定的同義詞對應(yīng)的第二相關(guān)概率信息為0. 9的規(guī)則,來確定該輸入序列“移動電話”與預(yù)定類型“手機”的第二相關(guān)概率信息為
0.9。2)所述類型確定裝置根據(jù)自身或其他裝置預(yù)建立的關(guān)鍵詞與至少一個預(yù)定類型間的相關(guān)概率信息,來確定所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息,該關(guān)鍵詞與至少一個預(yù)定類型間的相關(guān)概率信息存儲在所述類型確定裝置中或所述類型確定裝置能夠訪問的存儲設(shè)備中。優(yōu)選地,當來自用戶的輸入序列包含由多個詞構(gòu)成的長字符串,則所述類型確定裝置先對輸入序列進行切詞等處理以獲得關(guān)鍵詞,并根據(jù)切詞所得的關(guān)鍵詞來確定所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息。優(yōu)選地,所述類型確定裝置預(yù)建立關(guān)鍵詞與至少一個預(yù)定類型間的第二相關(guān)概率信息的方式包括但不限于以下至少一項I)基于關(guān)鍵詞在資料庫中進行檢索所獲得的與各個預(yù)定類型相關(guān)的檢索結(jié)果的數(shù)量來確定。其中,各個檢索結(jié)果對應(yīng)的預(yù)定類型由所述類型確定裝置或其他裝置經(jīng)過預(yù)處理獲得。例如,基于關(guān)鍵詞“蘋果”在資料庫中進行檢索,獲得與預(yù)定類型“水果”相關(guān)的檢索結(jié)果的數(shù)量為500,與預(yù)定類型“手機”相關(guān)的檢索結(jié)果的數(shù)量為8000,則所述類型確定裝置確定該關(guān)鍵詞“蘋果”與預(yù)定類型“水果”的第二相關(guān)概率信息為500/8000 = 1/16,與預(yù)定類型“手機”的第二相關(guān)概率信息為15/16。2)將基于關(guān)鍵詞進行檢索所獲得的多個資源候選項提供給用戶后,根據(jù)用戶對與預(yù)定類型相關(guān)的資源候選項的點擊量來確定。例如,基于關(guān)鍵詞“黎明”進行檢索所獲得的多個資源候選項中,與預(yù)定類型“人名”相關(guān)的資源候選項的點擊量為3000,與預(yù)定類型“風景”相關(guān)的資源候選項的點擊量為1000,則所述類型確定裝置確定該關(guān)鍵詞“黎明”與預(yù)定類型“人名”的第二相關(guān)概率信息為3000/(3000+1000) = 0. 75,與預(yù)定類型“風景”的第二相關(guān)概率信息為0. 25。3)基于關(guān)鍵詞進行檢索所獲得多個資源 候選項后,根據(jù)與預(yù)定類型相關(guān)的資源候選項被展現(xiàn)給用戶的次數(shù)來確定。其中,該展現(xiàn)次數(shù)為該資源候選項呈現(xiàn)給用戶的次數(shù)。優(yōu)選地,當一個包含多個資源候選項的頁面呈現(xiàn)給用戶時,該頁面所包含的所有資源候選項均被認為展現(xiàn)一次。例如,基于關(guān)鍵詞x71進行檢索所獲得的多個資源候選項中,與預(yù)定類型L71相關(guān)的資源候選項的展現(xiàn)次數(shù)為600次,與預(yù)定類型L72相關(guān)的資源候選項的展現(xiàn)次數(shù)為6000次,則所述類型確定裝置確定該關(guān)鍵詞x71與預(yù)定類型L71的第二相關(guān)概率信息為600/(600+6000) = 1/11,與預(yù)定類型L72的第二相關(guān)概率信息為10/11。4)基于關(guān)鍵詞的語義分析來確定。例如,所述類型確定裝置對關(guān)鍵詞“杜鵑”進行語義分析,并根據(jù)預(yù)定的語義詞典確定“杜鵑”包括植物“杜鵑花”與動物“杜鵑鳥”兩種含義,則所述類型確定裝置根據(jù)語義分析結(jié)果確定該關(guān)鍵詞“杜鵑”與預(yù)定類型“植物”的第二相關(guān)概率信息為0. 5,與預(yù)定類型“鳥類”的第二相關(guān)概率信息為0. 5。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何建立關(guān)鍵詞與至少一個預(yù)定類型間的第二相關(guān)概率信息的方式的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。具體地,在本步驟中,所述類型確定裝置根據(jù)所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息及所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息,來確定各待處理資源與所述輸入序列之間的相似度,以根據(jù)所確定的相似度來確定所述多個待處理資源的排序,提供給用戶。例如,所述類型確定裝置將一個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息作為第一向量,將所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息作為第二向量,并求取該第一向量與第二向量之間的角度,以確定該待處理資源與所述輸入序列的相似度,并根據(jù)該相似度來調(diào)整基于各個待處理資源的點擊量、各個待處理資源的資源質(zhì)量和各個待處理資源與所述輸入序列的匹配度等因素確定的各個待處理資源的初始排序結(jié)果,以獲得調(diào)整后的多個待處理資源的排序結(jié)果,提供給用戶。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息,并結(jié)合預(yù)獲取的所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息,來確定所述多個待處理資源的排序的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。根據(jù)本實施例的方法,能將所確定的資源與至少一個預(yù)定類型間的第一相關(guān)概率信息應(yīng)用于檢索系統(tǒng),并基于輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息來確定資源與輸入序列間的相似度,并基于該相似度來對檢索結(jié)果排序,由此,使得與輸入序列相似度高的資源排序靠前,進而使排序更為合理,更符合用戶的需求,提高檢索系統(tǒng)的可信度。圖4示出了本發(fā)明一個方面的基于擴展文本信息來確定資源類型的類型確定裝置示意圖。其中,根據(jù)本發(fā)明的類型確定裝置包括合并裝置I與第一確定裝置2。所述合并裝置I將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息,其中,所述多個資源中的任一資源均與所述多個資源中的其他資源相似或相同。其中,所述資源包括但不限于1)圖片類資源;2)音頻類資源;3)視頻類資源;4)程序包類資源等。其中,資源相關(guān)文本信息包括與資源相關(guān)聯(lián)的文本信息,例如,資源所在的網(wǎng)頁中的文本信息,又例如,資源自身所攜帶的描述信息等。優(yōu)選地,所述資源相關(guān)文本信息包括以下至少一項文本信息1)該資源相關(guān)文本信息所相關(guān)的資源的錨文本信息;2)該資源相關(guān)文本信息所相關(guān)的資源的描述文本信息,例如,圖片的名稱等;3)該資源相關(guān)文本信息所相關(guān)的資源所屬網(wǎng)頁中包含的預(yù)定范圍內(nèi)的文本信息,例如,資源所屬網(wǎng)頁中包含的主 題信息,又例如,資源所屬網(wǎng)頁中與該資源間的間距小于200個字符的文本信息,再例如,資源所屬網(wǎng)頁中與該資源間的間距小于2個顯示模塊的文本信息等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何能用于描述資源的文本信息,均應(yīng)包含在本發(fā)明的資源相關(guān)文本彳目息范圍內(nèi)。其中,所述合并裝置I將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息的方式包括但不限于I)當所述資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息中的每一個均只包括一個或多個關(guān)鍵詞信息,則所述合并裝置I直接根據(jù)每一個相關(guān)文本信息包含的關(guān)鍵詞信息,來進行去除相同關(guān)鍵詞的合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息。例如,所述合并裝置I獲取的預(yù)建立的資源相關(guān)文本信息集合中包含資源相關(guān)文本信息Al、資源相關(guān)文本信息A2,其中,資源相關(guān)文本信息Al包括關(guān)鍵詞xl與關(guān)鍵詞x2,資源相關(guān)文本信息A2包括關(guān)鍵詞xl與關(guān)鍵詞x3,則所述合并裝置I基于該資源相關(guān)文本信息集合所包含的資源相關(guān)文本信息,去除一個重復(fù)出現(xiàn)的關(guān)鍵詞xl,以獲得擴展文本信息包括“關(guān)鍵詞xl,關(guān)鍵詞x2,關(guān)鍵詞x3”。2)當所述資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息中的部分或全部資源相關(guān)文本信息包含未經(jīng)處理的文本信息,則所述合并裝置I先對包含未經(jīng)處理的文本信息進行諸如切詞、去除相同關(guān)鍵詞等處理,以獲得各個資源相關(guān)文本信息分別包含的一個或多個關(guān)鍵詞,再根據(jù)每一資源相關(guān)文本信息包含的關(guān)鍵詞,來進行去除相同關(guān)鍵詞的合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息。其中,所述未經(jīng)處理的文本信息包括但不限于a)多個詞組成的長字符串;b)包含詞以及諸如“,”、“?!钡葮它c符號的長字符串等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何將多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息的方式的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。優(yōu)選地,在合并裝置I將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理前預(yù)建立所述資源相關(guān)文本信息集合的方式包括但不限于I)人工建立資源相關(guān)文本信息集合。2)其他設(shè)備預(yù)建立該資源相關(guān)文本信息集合并提供給所述合并裝置I ;3)所述類型確定裝置基于資源聚類來建立所述資源相關(guān)文本信息集合。具體地,所述類型確定裝置通過其所包括的第二獲取裝置(未予圖示)、聚類裝置(未予圖示)及構(gòu)建裝置(未予圖示)來建立所述資源相關(guān)文本信息集合。所述第二獲取裝置獲取多個待聚類資源。其中,所述第二獲取裝置獲取多個資源 的方式包括但不限于1)由多個網(wǎng)站中獲取所述多個資源;2)由預(yù)存儲的資源庫中獲取所述多個資源等等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何獲取多個資源的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。接著,所述聚類裝置根據(jù)所述多個待聚類資源自身所包含的信息,來對該多個待聚類資源進行聚類,以獲得一組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源。其中,所述聚類裝置根據(jù)資源類型來采用相應(yīng)的聚類方式。例如,對于圖片類資源,所述聚類裝置根據(jù)圖片包含的像素點信息、圖片的顏色直方圖信息、局部不變特征(SIFT, Scale-invariant feature transform)、紋理特征(HTD, Homogeneous TextureDescriptor),顏色特征(SCD)等,來進行圖片聚類。又例如,對于視頻類資源,所述聚類裝置根據(jù)視頻資源的大小、格式、相同時間點的截圖等信息來進行聚類。再例如,對于音頻類資源,所述聚類裝置根據(jù)音頻的格式、大小、音頻資源的平均音調(diào)、音頻資源在各個時間點上的音調(diào)等信息來進行聚類。再例如,對于程序包類資源,所述聚類裝置根據(jù)程序包包含的源代碼信息等來進行聚類。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何對資源進行聚類以獲得一組或多組聚類資源,且每組聚類資源包括一個或多個相同或相似的資源的聚類方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。接著,所述構(gòu)建裝置根據(jù)與所述聚類所得的一組聚類資源相關(guān)的資源相關(guān)文本信息,來建立所述預(yù)建立的資源相關(guān)文本信息集合。例如,所述聚類裝置獲得一組聚類資源BI、一組聚類資源B2、一組聚類資源B3,所述構(gòu)建裝置根據(jù)一組聚類資源BI包含的資源bl、b2和b3分別對應(yīng)的資源相關(guān)文本信息,來建立所述資源相關(guān)文本信息集合。優(yōu)選地,所述構(gòu)建裝置在根據(jù)該組聚類資源BI包含的資源bl、b2和b3分別對應(yīng)的資源相關(guān)文本信息,來建立所述資源相關(guān)文本信息集合之前、之后或者同時,還基于一組聚類資源B2或一組聚類資源B3包含的各個資源分別對應(yīng)的資源相關(guān)文本信息,來建立其他資源相關(guān)文本信息集合。所述第一確定裝置2根據(jù)所述擴展文本信息,確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)信息。其中,所述第一確定裝置2獲取預(yù)定類型的方式包括但不限于
I)獲取人工輸入的類型。2)由預(yù)定的類型庫中獲取。例如,所述第一確定裝置2將所述類型庫中包含的全部類型作為預(yù)定類型。具體地,所述第一確定裝置2根據(jù)所述擴展文本信息中包含的各個關(guān)鍵詞,來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)信息。其中,所述第一相關(guān)信息包括以下至少一項I)所述多個資源與該第一相關(guān)信息對應(yīng)的預(yù)定類型相關(guān)或不相關(guān);例如,所述第一確定裝置2獲取的預(yù)定類型包 括“自然風光”與“手機”,所述合并裝置I獲得的擴展文本信息包含關(guān)鍵詞xl、關(guān)鍵詞x2及關(guān)鍵詞x3,所述第一確定裝置2基于預(yù)定的關(guān)鍵詞與預(yù)定類型間的關(guān)聯(lián)關(guān)系表確定關(guān)鍵詞xl、關(guān)鍵詞x2及關(guān)鍵詞x3均與預(yù)定類型“自然風光”無關(guān),但均與預(yù)定類型“手機”相關(guān),則所述第一確定裝置2確定所述多個資源與預(yù)定類型“自然風光”間的第一相關(guān)信息為“t”,與預(yù)定類型“手機”間的第一相關(guān)信息為“n”,其中,“t”為預(yù)設(shè)的用于表示不相關(guān)的標識信息,“n”為預(yù)設(shè)的用于表示相關(guān)的標識信息。2)所述多個資源該第一相關(guān)信息對應(yīng)的預(yù)定類型間的第一相關(guān)概率信息。所述類型確定裝置還包括第一子確定裝置(未予圖示),該第一子確定裝置根據(jù)所述擴展文本信息,來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息。其中,該第一子確定裝置確定所述第一相關(guān)概率信息的方式包括但不限于a)根據(jù)諸如概率潛在語義分析(plsa)、淺層狄利赫雷(LDA, Latent Dirichletallocation)等算法來確定第一相關(guān)概率信息;例如,所述合并裝置I獲得擴展文本信息包括“關(guān)鍵詞xll,關(guān)鍵詞xl2,關(guān)鍵詞xl3”,則所述第一子確定裝置基于該些關(guān)鍵詞采用plsa分析來確定所述多個資源與預(yù)定類型庫中所包含的全部類型中的每一個預(yù)定類型間的第一相關(guān)概率信息。b)根據(jù)擴展文本信息所包含的各個關(guān)鍵詞所相關(guān)的預(yù)定類型來確定第一相關(guān)概
率信息。例如,所述合并裝置I所獲得的擴展文本信息包括“關(guān)鍵詞xll,關(guān)鍵詞xl2,關(guān)鍵詞xl3”,所述第一子確定裝置根據(jù)預(yù)定的關(guān)鍵詞與預(yù)定類型的關(guān)聯(lián)關(guān)系表,確定關(guān)鍵詞xll與預(yù)定類型“游戲”和“新聞”相關(guān),關(guān)鍵詞xl2與預(yù)定類型“新聞”相關(guān),關(guān)鍵詞xl3與預(yù)定類型“游戲”和“娛樂”相關(guān),則所述第一子確定裝置確定資源在預(yù)定類型“游戲”上的第一相關(guān)概率信息為2/5,在預(yù)定類型“新聞”上的第一相關(guān)概率信息為2/5,在預(yù)定類型“娛樂”上的第一相關(guān)概率信息為1/5等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。根據(jù)本發(fā)明的類型確定裝置,通過將多個相同或相似的資源對應(yīng)的資源相關(guān)文本信息進行合并來獲得擴展文本信息,并根據(jù)擴展文本信息來確定該多個相同或相似的資源與預(yù)定類型間的相關(guān)信息。由于各個資源相關(guān)信息對應(yīng)相同或相似的資源,因此,對該各個資源相關(guān)信息進行合并所得的擴展文本信息與該各個資源相關(guān)信息所相關(guān)的資源間具有較高的關(guān)聯(lián)度,并且,該合并所得的擴展文本信息包含較多的信息量,使得根據(jù)該擴展文本信息來確定的所述多個相同或相似的資源與預(yù)定類型間的相關(guān)信息具有較高的準確性。圖5示出了本發(fā)明一個優(yōu)選實施例的基于擴展文本信息來確定資源類型的類型確定裝置示意圖。其中,根據(jù)本實施例的類型確定裝置包括合并裝置I與第一確定裝置2 ;所述第一確定裝置2包括第二子確定裝置21。其中,合并裝置I已在圖4所示的實施例中予以詳述,并以引用的方式包含于此,不再贅述。接著,所述第二子確定裝置21根據(jù)所述擴展文本信息,并結(jié)合預(yù)獲取的所述擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息。
其中,所述關(guān)鍵詞的稀缺度包括該關(guān)鍵詞在預(yù)定預(yù)料庫中的稀缺程度。具體地,該關(guān)鍵詞在預(yù)定預(yù)料庫中出現(xiàn)的次數(shù)多,則該關(guān)鍵詞的稀缺度就低。所述第二子確定裝置21獲取所述多個關(guān)鍵詞的稀缺度的方式包括但不限于1)由所述第二子確定裝置21所能訪問的存儲設(shè)備中獲取預(yù)存儲的各個關(guān)鍵詞分別對應(yīng)的稀缺度;2)所述第二子確定裝置21基于關(guān)鍵詞在預(yù)定預(yù)料庫中出現(xiàn)次數(shù)來確定等。例如,所述第二子確定裝置21基于關(guān)鍵詞xl4在預(yù)定預(yù)料庫中出現(xiàn)800次,并基于該800次已超過預(yù)定閾值來確定該關(guān)鍵詞xl4的稀缺度為低級。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何獲取關(guān)鍵詞的稀缺度的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。其中,在所述第二子確定裝置21確定第一相關(guān)概率信息前預(yù)獲取擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息的方式包括但不限于I)根據(jù)所述合并裝置I所包含的子合并裝置來獲得所述分布信息(未予圖示)。其中,所述子合并裝置在將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理的過程中獲得所述擴展文本信息以及所述分布信息。具體地,所述子合并裝置將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理來獲得所述擴展文本信息的同時,統(tǒng)計各個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布,以獲得所述分布信息。優(yōu)選地,所述分布信息包括以下至少一項a)所述多個關(guān)鍵詞中每個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)。例如,所述子合并裝置獲取的預(yù)建立的資源相關(guān)文本信息集合中包含資源相關(guān)文本信息All與資源相關(guān)文本信息A12,其中,資源相關(guān)文本信息Al I包含關(guān)鍵詞x21與關(guān)鍵詞x22,資源相關(guān)文本信息A12包括關(guān)鍵詞x21與關(guān)鍵詞x23,則所述子合并裝置對資源相關(guān)文本信息All與資源相關(guān)文本信息A12進行去除重復(fù)的關(guān)鍵詞的合并處理,并在合并過程中記錄各個關(guān)鍵詞出現(xiàn)的次數(shù),則所述子合并裝置所獲得的擴展文本信息以及各個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)如下關(guān)鍵詞出現(xiàn)次數(shù)關(guān)鍵詞x21 2關(guān)鍵詞x22 I關(guān)鍵詞x23:l
b)所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型,其中,所述文本信息包含于相關(guān)文本信息中。例如,所述子合并裝置基于關(guān)鍵詞x24出現(xiàn)在錨文本信息A24中來確定關(guān)鍵詞x24所在的文本信息的類型為錨文本類;又例如,所述子合并裝置基于關(guān)鍵詞x25出現(xiàn)在描述文本信息A25以及錨文本信息A24中來確定關(guān)鍵詞x25所在的文本信息的類型為描述文本類以及錨文本類。c)所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型及其在每種文本信息的類型中出現(xiàn)的次數(shù)。2)所述類型確定裝置還包括第一獲取裝置(未予圖示)。在所述合并裝置I獲取所述擴展文本信息后,所述第一獲取裝置再獲取所述多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息。具體地,所述合并裝置I先將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息;隨后,所述第一獲取裝置再根據(jù)所述擴展文本信息中包含的多個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的分布來獲得所述分布信息。 例如,所述合并裝置I已獲取的擴展文本信息包括“關(guān)鍵詞x41”,隨后,所述第一獲取裝置統(tǒng)計獲得關(guān)鍵詞x41在資源相關(guān)文本信息集合中的錨文本信息A41中出現(xiàn)2次,在描述文本信息A42中出現(xiàn)I次,則所述第一獲取裝置獲得關(guān)鍵詞x41的分布信息如下關(guān)鍵詞cl :{M:2},{N:l},其中,“M”為預(yù)設(shè)的用于表示錨文本類的標識信息,“N”為預(yù)設(shè)的用于表示描述文本類的標識信息。其中,所述第二子確定裝置21根據(jù)所述擴展文本信息,并結(jié)合預(yù)獲取的所述擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息的方式包括但不限于I)直接根據(jù)所述分布信息和所述稀缺度中的至少一者以及所述擴展文本信息,來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息。具體地,直接根據(jù)所述分布信息和所述稀缺度中的至少一者以及所述擴展文本信息來確定所述第一相關(guān)概率信息的方式包括但不限于i)所述第二子確定裝置21根據(jù)所述分布信息和所述稀缺度中的至少一者以及所述擴展文本信息,采用諸如概率潛在語義分析(Probabilistic Latent SemanticAnalysis)、淺層狄利赫雷(Latent Dirichlet Allocation)等算法來確定第一相關(guān)概率信
肩、Oii)根據(jù)擴展文本信息所包含的各個關(guān)鍵詞所相關(guān)的預(yù)定類型,并結(jié)合所述分布信息和所述稀缺度中的至少一者,確定第一相關(guān)概率信息。例如,所述子合并裝置獲取的擴展文本信息包括“關(guān)鍵詞x51,關(guān)鍵詞x52”,關(guān)鍵詞x51在所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)為10次,關(guān)鍵詞x52在所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)為2次,所述第二子確定裝置21根據(jù)預(yù)定的關(guān)鍵詞與預(yù)定類型間的關(guān)聯(lián)關(guān)系表確定關(guān)鍵詞x51與預(yù)定類型LI相關(guān),關(guān)鍵詞x52與預(yù)定類型L2相關(guān),則所述第二子確定裝置21確定所述多個資源與預(yù)定類型LI的第一相關(guān)概率信息為10/(10+2) = 5/6,與預(yù)定類型L2的第一相關(guān)概率信息為2/(10+2) = 1/6。又例如,所述合并裝置I獲取的擴展文本信息包括“關(guān)鍵詞x51,關(guān)鍵詞x52”,所述第二子確定裝置21由預(yù)建立的關(guān)鍵詞稀缺度庫中獲得關(guān)鍵詞x51的稀缺度為0. 42,關(guān)鍵詞x52的稀缺度為0. 74,且所述第二子確定裝置21根據(jù)預(yù)定的關(guān)鍵詞與預(yù)定類型間的關(guān)聯(lián)關(guān)系表確定關(guān)鍵詞x51與預(yù)定類型LI相關(guān),關(guān)鍵詞x52與預(yù)定類型LI和L2相關(guān),則所述第二子確定裝置21根據(jù)將與各個預(yù)定類型相關(guān)的所有關(guān)鍵詞的稀缺度平均值作為所述多個資源與各個預(yù)定類型的第一相關(guān)概率信息的預(yù)定規(guī)則,確定所述多個資源與預(yù)定類型LI的第一相關(guān)概率信息為(0. 42+0. 74)/2 = 0. 58,與預(yù)定類型L2的第一相關(guān)概率信息為
0.74。2)所述第二子確定裝置21先根據(jù)分布信息和/或各個關(guān)鍵詞的稀缺度確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息,再根據(jù)所述擴展文本信息及各個關(guān)鍵詞的權(quán)重信息來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息。 具體地,所述第二子確定裝置21確定所述權(quán)重信息的方式包括但不限于a)所述第二子確定裝置21根據(jù)所述分布信息來確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息。具體地,該根據(jù)分布信息來確定所述權(quán)重信息的方式包括但不限于i)當所述子合并裝置或第一獲取裝置獲取的分布信息僅包括各關(guān)鍵詞中每個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)或者僅包括所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型,則所述第二子確定裝置21僅基于出現(xiàn)次數(shù)或僅基于文本信息的類型的預(yù)定權(quán)重信息來確定各關(guān)鍵詞的權(quán)重信息。例如,所述第二子確定裝置21直接將每個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)作為相應(yīng)關(guān)鍵詞的權(quán)重信息;又例如,當一個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)高于預(yù)定次數(shù)閾值,則所述第二子確定裝置21確定該關(guān)鍵詞的權(quán)重信息為高級等。再例如,如果一個關(guān)鍵詞僅出現(xiàn)在一種類型的文本信息中,則所述第二子確定裝置21直接將該關(guān)鍵詞所在的文本信息的類型的預(yù)定權(quán)重信息作為該的關(guān)鍵詞的權(quán)重信息;如果一個關(guān)鍵詞出現(xiàn)在兩種或兩種以上類型的文本信息中,則所述第二子確定裝置21求取該兩種或兩種以上類型的文本信息的預(yù)定權(quán)重值的乘積、和值、平方和等,以確定該關(guān)鍵詞的權(quán)重信息。ii)當所述子合并裝置或第一獲取裝置獲取的分布信息包括所述擴展文本信息包含的所有關(guān)鍵詞中的每個關(guān)鍵詞所在的文本信息的類型及各個關(guān)鍵詞在每種文本信息的類型分別中出現(xiàn)的次數(shù),則所述第二子確定裝置21根據(jù)所述文本信息的類型對應(yīng)的預(yù)定權(quán)重值和各個關(guān)鍵詞分別在各個文本信息中出現(xiàn)的次數(shù)來確定各個關(guān)鍵詞的權(quán)重信息。例如,所述第二子確定裝置21將一個關(guān)鍵詞所在的各個文本信息的類型的預(yù)定權(quán)重值和該關(guān)鍵詞在各個文本信息中出現(xiàn)次數(shù)分別相乘后,再將相乘所得的值相加,以確定該關(guān)鍵詞的權(quán)重信息。并且,所述第二子確定裝置21重復(fù)上述相乘后相加的操作,以獲得各個關(guān)鍵詞的權(quán)重信息等。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何基于分布信息來確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息的實現(xiàn)方式,均包含在本發(fā)明的范圍內(nèi)。
b)所述第二子確定裝置21根據(jù)所述稀缺度來確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息。例如,所述第二子確定裝置21直接將各個關(guān)鍵詞的稀缺度作為各個關(guān)鍵詞的權(quán)重信息;或者,所述第二子確定裝置21對各個關(guān)鍵詞的稀缺度進行諸如歸一化、乘以預(yù)定調(diào)節(jié)值等處理后,將處理所得的值作為各個關(guān)鍵詞的權(quán)重信息等。c)所述第二子確定裝置21根據(jù)分布信息和各個關(guān)鍵詞的稀缺度來確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息。具體地,該根據(jù)分布信息和稀缺度來確定權(quán)重信息的方式包括但不限于i)所述第二子確定裝置21直接根據(jù)分布信息和各個關(guān)鍵詞的稀缺度確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息。例如,對于所述各個關(guān)鍵詞中的每個關(guān)鍵詞,所述第二子確定裝置21將關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)和該關(guān)鍵詞的稀缺度進行求取乘積、和值、平方和等處理,來將處理所得的值分別作為關(guān)鍵詞的權(quán)重信息; 又例如,對于所述各個關(guān)鍵詞中的每個關(guān)鍵詞,所述第二子確定裝置21先對關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)及各個類型的文本信息對應(yīng)的預(yù)定權(quán)重值分別進行歸一化處理,再將對關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù)進行歸一化處理后所得的值、對該關(guān)鍵詞所在文本信息的類型的預(yù)定權(quán)重值進行歸一化處理后所得的值以及關(guān)鍵詞的稀缺度,進行求取乘積、和值、平方和等處理,來確定關(guān)鍵詞的權(quán)重信息等。ii)所述第二子確定裝置21先根據(jù)分布信息來初步確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重彳目息,再基于各個關(guān)鍵詞的稀缺度來調(diào)整如述初步確定的各關(guān)鍵詞的權(quán)重信息,以獲得最終的各個關(guān)鍵詞的權(quán)重信息。其中,所述第二子確定裝置21先根據(jù)分布信息來初步確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息的方式與前述根據(jù)分布信息來確定所述擴展文本信息包含的各個關(guān)鍵詞的權(quán)重信息的方式相同或相似,在此以引用的方式包含于此,不再贅述。例如,所述第二子確定裝置21初步確定關(guān)鍵詞x61的權(quán)重信息為5、并獲取關(guān)鍵詞x61的稀缺度為0. 8,則所述第二子確定裝置21將該稀缺度與權(quán)重信息的乘積0. 8*5 = 4作為該關(guān)鍵詞x61的最終的權(quán)重信息。又例如,所述第二子確定裝置21初步確定關(guān)鍵詞x62的權(quán)重信息為3,并獲取關(guān)鍵詞x62的稀缺度為0. 1,則所述第二子確定裝置21基于該稀缺度小于預(yù)定稀缺度閾值,將該初步確定的關(guān)鍵詞x62的權(quán)重信息減去一個預(yù)定調(diào)節(jié)值來獲得關(guān)鍵詞x62最終的權(quán)重信息。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何基于分布信息和各個關(guān)鍵詞的稀缺度來確定所述擴展文本信息包含的各關(guān)鍵詞的權(quán)重信息的實現(xiàn)方式,均包含在本發(fā)明的范圍內(nèi)。其中,所述第二子確定裝置21根據(jù)所述擴展文本信息及所獲得的各個關(guān)鍵詞的權(quán)重信息來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息的方式包括但不限于I)所述第二子確定裝置21根據(jù)所述擴展文本信息及各關(guān)鍵詞的權(quán)重信息,采用諸如概率潛在語義分析、淺層狄利赫雷等算法來確定第一相關(guān)概率信息。2)所述第二子確定裝置21根據(jù)擴展文本信息所包含的各個關(guān)鍵詞所相關(guān)的預(yù)定類型及各個關(guān)鍵詞的權(quán)重信息,來確定第一相關(guān)概率信息。例如,所述第二子確定裝置21確定關(guān)鍵詞x63的權(quán)重信息為7. 5,關(guān)鍵詞x64的權(quán)重信息為5,并基于關(guān)鍵詞與預(yù)定類型的關(guān)聯(lián)關(guān)系表確定與關(guān)鍵詞x63相關(guān)的類型為預(yù)定類型L11、與關(guān)鍵詞x64相關(guān)的預(yù)定類型為預(yù)定類型L12,則所述第二子確定裝置21確定所述多個資源與預(yù)定類型Lll的第一相關(guān)概率信息為7. 5/(7. 5+5) = 0. 6,與預(yù)定類型L12的第一相關(guān)概率信息為5/(7. 5+5)=0. 4。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述擴展文本信息及各關(guān)鍵詞的權(quán)重信息來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。此外,本領(lǐng)域技術(shù)人員還應(yīng)該理解,任何根據(jù)所述擴展文本信息,并結(jié)合預(yù)獲取的所述擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,來確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息的實現(xiàn)方式,也均應(yīng)包含在本發(fā)明的范圍內(nèi)。作為本實施例的優(yōu)選方案之一,根據(jù)本實施例的類型確定裝置還包括更新裝置(未予圖示)。所述更新裝置根據(jù)所述多個資源與至少一個預(yù)定類型間的第一相關(guān)信息,建立或更新資源類型庫。
·
優(yōu)選地,所述更新裝置根據(jù)所述多個資源與至少一個預(yù)定類型間的第一相關(guān)概率信息,來建立或更新所述資源類型庫。更優(yōu)選地,所述更新裝置僅將所對應(yīng)的預(yù)定類型與所述多個資源相關(guān)的第一相關(guān)信息,或者,所述更新裝置僅將大于零的第一相關(guān)概率信息存儲至所述資源類型庫中。更為優(yōu)選地,所述更新裝置將所述多個資源的每一個所屬網(wǎng)站的鏈接地址信息及評價值信息等存儲在所述資源類型庫中。根據(jù)本實施例的類型確定裝置,基于擴展文本信息及各關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,能夠更為準確的確定資源與預(yù)定類型間的第一相關(guān)概率信息。圖6示出了本發(fā)明的一個優(yōu)選實施例的根據(jù)所確定的第一相關(guān)信息來對資源排序的類型確定裝置示意圖。根據(jù)本實施例的類型確定裝置包括第三獲取裝置6、查詢裝置7以及排序裝置8。所述第三獲取裝置6獲取基于來自用戶的輸入序列進行檢索所得的多個待處理資源。接著,所述查詢裝置7根據(jù)所述多個待處理資源來在所述資源類型庫中進行查詢,以獲得所述多個待處理資源中的一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息。其中,所述資源類型庫的建立及更新過程已在圖5所示的實施例中予以詳述,并以引用的方式包含于此,不再贅述。具體地,所述查詢裝置7根據(jù)基于所述輸入序列來獲得的多個待處理資源,在所述資源類型庫中進行查詢,以獲得包含于所述資源類型庫中的一個或多個資源,并獲得該一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息;或者,所述查詢裝置7根據(jù)點擊量、資源質(zhì)量等因素,由該基于所述輸入序列來獲得的多個待處理資源中選擇至少一個待處理資源,并根據(jù)所選擇的所述至少一個待處理資源在所述資源類型庫中進行查詢,以獲得包含于所述資源類型庫中的一個或多個資源,并獲得該一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息。
接著,所述排序裝置8根據(jù)所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息,并結(jié)合預(yù)獲取的所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息,來確定所述多個待處理資源的排序,以提供給所述用戶。其中,在所述排序裝置8確定所述多個待處理資源的排序之前預(yù)獲取所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息的方式包括但不限于1)所述排序裝置8直接通過分析所述輸入序列與至少一個預(yù)定類型的類型名稱間的語義相關(guān)性來確定該第二相關(guān)信息。例如,來自用戶的輸入序列為“手機”,則所述排序裝置8基于該輸入序列“手機”與預(yù)定類型“手機”的類型名稱相同,與預(yù)定類型“水果”的類型名稱不同,來確定該輸入序列“手機”與預(yù)定類型“手機”的第二相關(guān)信息為相關(guān),與預(yù)定類型“水果”不相關(guān)。2)根據(jù)所述類型確定裝置所包含的第二確定裝置(未予圖示)來確定所述第二相關(guān)信息。其中,所述第二確定裝置根據(jù)自身或其他裝置預(yù)建立的關(guān)鍵詞與至少一個預(yù)定類型間的相關(guān)信息,來確定所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息。該關(guān)鍵詞與至少一個預(yù)定類型間的相關(guān)信息存儲在所述第二確定裝置中或所述第二確定裝置能夠訪問的存儲設(shè)備中。優(yōu)選地,當來自用戶的輸入序列包含由多個詞構(gòu)成的長字符串,則所述第二確定裝置先對 輸入序列進行切詞等處理以獲得關(guān)鍵詞,并根據(jù)切詞所得的關(guān)鍵詞來確定所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息。其中,所述排序裝置8根據(jù)預(yù)獲取的所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)信息及所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)信息,來確定各待處理資源與所述輸入序列之間的相似度,以基于所確定的相似度來確定所述多個待處理資源的排序。例如,所述第二確定裝置預(yù)獲取的輸入序列“手機”與預(yù)定類型“手機”間的第二相關(guān)信息為1,查詢裝置7查詢獲得基于所述輸入序列“手機”進行檢索所得的待處理資源A5與預(yù)定類型“手機”間的第一相關(guān)信息為1,所得的待處理資源A6與預(yù)定類型“手機”間的第一相關(guān)信息為0 ;則所述排序裝置8基于待處理資源A5與預(yù)定類型“手機”的第一相關(guān)信息為I以及輸入序列“手機”與預(yù)定類型“手機”的第二相關(guān)信息為1,來確定待處理資源A5與輸入序列的相似度為1,并基于待處理資源A6與預(yù)定類型“手機”的第一相關(guān)信息為0以及輸入序列“手機”與預(yù)定類型“手機”的第二相關(guān)信息為I,來確定待處理資源A6與輸入序列的相似度為0,進而確定待處理資源A5排序在待處理資源A6之前。優(yōu)選地,所述排序裝置8根據(jù)所述相似度,并進一步結(jié)合諸如點擊量,資源質(zhì)量,輸入序列與資源的匹配度等其他因素,確定所述多個待處理資源的排序。作為本實施例的優(yōu)選方案之一,所述資源類型庫中包括第一相關(guān)概率信息,所述第二相關(guān)信息包括第二相關(guān)概率信息,所述查詢裝置7進一步包括子查詢裝置(未予圖示),所述排序裝置8進一步包括子排序裝置(未予圖示)。所述子查詢裝置根據(jù)所述多個待處理資源來在所述資源類型庫中進行查詢,以獲得所述多個待處理資源中的一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概
率信息。其中,所述子查詢裝置查詢并獲得所述第一相關(guān)概率信息的方式與前述查詢裝置7查詢并獲得所述第一相關(guān)信息的方式相同或相似,在此不再贅述。所述子排序裝置根據(jù)所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息,并結(jié)合預(yù)獲取的所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息,來確定所述多個待處理資源的排序,以提供給所述用戶。其中,在子排序裝置確定所述多個待處理資源的排序之前預(yù)獲取所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息的方式包括但不限于1)所述子排序裝置直接通過分析所述輸入序列與至少一個預(yù)定類型的類型名稱間的語義相關(guān)性來確定該第二相關(guān)概率信息。例如,來自用戶的輸入序列為“移動電話”,所述子排序裝置根據(jù)同義詞辭典確定該輸入序列“移動電話”與預(yù)定類型“手機”為同義詞,則所述子排序裝置基于預(yù)定的同義詞對應(yīng)的第二相關(guān)概率信息為0. 9的規(guī)則,來確定該輸入序列“移動電話”與預(yù)定類型“手機”的第二相關(guān)概率信息為0.9。2)根據(jù)所述第二確定裝置來獲得所述第二相關(guān)概率信息。其中,所述第二確定裝置根據(jù)自身或其他裝置預(yù)建立的關(guān)鍵詞與至少一個預(yù)定類型間的相關(guān)概率信息,來確定所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息,該關(guān)鍵詞與至少一個預(yù)定類型間的相關(guān)概率信息存儲在所述第二確定裝置中或所述第二確定裝置能夠訪問的存儲設(shè)備中。優(yōu)選地,當來自用戶的輸入序列包含由多個詞構(gòu)成的長字符串,則所述第二確定裝置先對輸入序列進行切詞等處理以獲得關(guān)鍵詞,并根據(jù)切詞所得的關(guān)鍵詞來確定所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息。 優(yōu)選地,所述第二確定裝置預(yù)建立關(guān)鍵詞與至少一個預(yù)定類型間的第二相關(guān)概率信息的方式包括但不限于以下至少一項I)基于關(guān)鍵詞在資料庫中進行檢索所獲得的與各個預(yù)定類型相關(guān)的檢索結(jié)果的數(shù)量來確定。其中,各個檢索結(jié)果對應(yīng)的預(yù)定類型由所述第二確定裝置或其他裝置經(jīng)過預(yù)處理獲得。例如,基于關(guān)鍵詞“蘋果”在資料庫中進行檢索,獲得與預(yù)定類型“水果”相關(guān)的檢索結(jié)果的數(shù)量為500,與預(yù)定類型“手機”相關(guān)的檢索結(jié)果的數(shù)量為8000,則所述第二確定裝置確定該關(guān)鍵詞“蘋果”與預(yù)定類型“水果”的第二相關(guān)概率信息為500/8000 = 1/16,與預(yù)定類型“手機”的第二相關(guān)概率信息為15/16。2)將基于關(guān)鍵詞進行檢索所獲得的多個資源候選項提供給用戶后,根據(jù)用戶對與預(yù)定類型相關(guān)的資源候選項的點擊量來確定。例如,基于關(guān)鍵詞“黎明”進行檢索所獲得的多個資源候選項中,與預(yù)定類型“人名”相關(guān)的資源候選項的點擊量為3000,與預(yù)定類型“風景”相關(guān)的資源候選項的點擊量為1000,則所述第二確定裝置確定該關(guān)鍵詞“黎明”與預(yù)定類型“人名”的第二相關(guān)概率信息為3000/(3000+1000) = 0. 75,與預(yù)定類型“風景”的第二相關(guān)概率信息為0. 25。3)基于關(guān)鍵詞進行檢索所獲得多個資源候選項后,根據(jù)與預(yù)定類型相關(guān)的資源候選項被展現(xiàn)給用戶的次數(shù)來確定。其中,該展現(xiàn)次數(shù)為該資源候選項呈現(xiàn)給用戶的次數(shù)。優(yōu)選地,當一個包含多個資源候選項的頁面呈現(xiàn)給用戶時,該頁面所包含的所有資源候選項均被認為展現(xiàn)一次。例如,基于關(guān)鍵詞x71進行檢索所獲得的多個資源候選項中,與預(yù)定類型L71相關(guān)的資源候選項的展現(xiàn)次數(shù)為600次,與預(yù)定類型L72相關(guān)的資源候選項的展現(xiàn)次數(shù)為6000次,則所述第二確定裝置確定該關(guān)鍵詞x71與預(yù)定類型L71的第二相關(guān)概率信息為600/(600+6000) = 1/11,與預(yù)定類型L72的第二相關(guān)概率信息為10/11。4)基于關(guān)鍵詞的語義分析來確定。例如,所述第二確定裝置對關(guān)鍵詞“杜鵑”進行語義分析,并根據(jù)預(yù)定的語義詞典確定“杜鵑”包括植物“杜鵑花”與動物“杜鵑鳥”兩種含義,則所述第二確定裝置根據(jù)語義分析結(jié)果確定該關(guān)鍵詞“杜鵑”與預(yù)定類型“植物”的第二相關(guān)概率信息為0. 5,與預(yù)定類型“鳥類”的第二相關(guān)概率信息為0. 5。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何建立關(guān)鍵詞與至少一個預(yù)定類型間的第二相關(guān)概率信息的方式的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。具體地,所述子排序裝置根據(jù)所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息及所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息,來確定各待處理資源與所述輸入序列之間的相似度,以根據(jù)所確定的相似度來確定所述多個待處理資源的排序,提供給用戶。例如,所述子排序裝置將一個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息作為第一向量,將所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息作為第二向量,并求取該第一向量與第二向量之間的角度,以確定該待處理資源與所述輸入序列的相似度,并根據(jù)該相似度來調(diào)整基于各個待處理資源的點擊量、各個待處理資源的資源質(zhì)量和各個待處理資源與所述輸入序列的匹配度等因素確定的各個待處理資源的初始排序結(jié)果,以獲得調(diào)整后的多個待處理資源的排序結(jié)果,提供給用戶。 需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述一個或多個待處理資源與至少一個預(yù)定類型間的第一相關(guān)概率信息,并結(jié)合預(yù)獲取的所述輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息,來確定所述多個待處理資源的排序的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。根據(jù)本實施例的類型確定裝置,能將所確定的資源與至少一個預(yù)定類型間的第一相關(guān)概率信息應(yīng)用于檢索系統(tǒng),并基于輸入序列與至少一個預(yù)定類型間的第二相關(guān)概率信息來確定資源與輸入序列間的相似度,并基于該相似度來對檢索結(jié)果排序,由此,使得與輸入序列相似度高的資源排序靠前,進而使排序更為合理,更符合用戶的需求,提高檢索系統(tǒng)的可信度。對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。系統(tǒng)權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
權(quán)利要求
1.一種計算機實現(xiàn)的基于擴展文本信息來確定資源類型的方法,其中,該方法包括以下步驟 a將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息,其中,所述多個資源中的任一資源均與所述多個資源中的其他資源相似或相同; b根據(jù)所述擴展文本信息,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息。
2.根據(jù)權(quán)利要求I所述的方法,其中,所述步驟b還包括以下步驟 -根據(jù)所述擴展文本信息,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息。
3.根據(jù)權(quán)利要求I或2所述的方法,其中,所述步驟b還包括以下步驟 -根據(jù)所述擴展文本信息,并結(jié)合預(yù)獲取的所述擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述步驟a還包括以下步驟 -將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得所述擴展文本信息以及所述分布信息。
5.根據(jù)權(quán)利要求3所述的方法,其中,該方法還包括以下步驟 -根據(jù)所述擴展文本信息中包含的多個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的分布來獲得所述分布信息。
6.根據(jù)權(quán)利要求3至5任一項所述的方法,其中,所述分布信息包括以下至少ー項 -所述多個關(guān)鍵詞中每個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù); -所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型,其中,所述文本信息包含于相關(guān)文本信息中; -所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型及其在每種文本信息的類型中出現(xiàn)的次數(shù)。
7.根據(jù)權(quán)利要求I至6中任一項所述的方法,其中,所述資源相關(guān)文本信息包括以下至少ー項文本信息 -該資源相關(guān)文本信息所相關(guān)的資源的錨文本信息; -該資源相關(guān)文本信息所相關(guān)的資源的描述文本信息; -該資源相關(guān)文本信息所相關(guān)的資源所屬網(wǎng)頁中包含的預(yù)定范圍內(nèi)的文本信息。
8.根據(jù)權(quán)利要求I至7中任一項所述的方法,其中,該方法還包括以下步驟 -獲取多個待聚類資源; -根據(jù)所述多個待聚類資源自身所包含的信息,來對該多個待聚類資源進行聚類,以獲得ー組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源; 其中,該方法還包括以下步驟 -根據(jù)與所述聚類所得的一組聚類資源相關(guān)的資源相關(guān)文本信息,來建立所述預(yù)建立的資源相關(guān)文本信息集合。
9.根據(jù)權(quán)利要求I至8中任一項所述的方法,其中,該方法還包括以下步驟 -根據(jù)所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息,建立或更新資源類型庫。
10.根據(jù)權(quán)利要求9所述的方法,其中,該方法還包括以下步驟 X獲取基于來自用戶的輸入序列進行檢索所得的多個待處理資源;y根據(jù)所述多個待處理資源來在所述資源類型庫中進行查詢,以獲得所述多個待處理資源中的一個或多個待處理資源與至少ー個預(yù)定類型間的第一相關(guān)信息; Z根據(jù)所述一個或多個待處理資源與至少ー個預(yù)定類型間的第一相關(guān)信息,并結(jié)合預(yù)獲取的所述輸入序列與至少ー個預(yù)定類型間的第二相關(guān)信息,來確定所述多個待處理資源的排序,以提供給所述用戶。
11.根據(jù)權(quán)利要求10所述的方法,其中,所述第一相關(guān)信息包括第一相關(guān)概率信息,所 述第二相關(guān)信息包括第二相關(guān)概率信息,所述步驟y還包括以下步驟 -根據(jù)所述多個待處理資源來在所述資源類型庫中進行查詢,以獲得所述多個待處理資源中的一個或多個待處理資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息; 其中,所述步驟Z還包括以下步驟 -根據(jù)所述一個或多個待處理資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息,并結(jié)合預(yù)獲取的所述輸入序列與至少ー個預(yù)定類型間的第二相關(guān)概率信息,來確定所述多個待處理資源的排序,以提供給所述用戶。
12.根據(jù)權(quán)利要求10或11所述的方法,其中,所述方法還包括以下步驟; -根據(jù)預(yù)建立的關(guān)鍵詞與至少ー個預(yù)定類型間的相關(guān)信息,來確定所述輸入序列與至少ー個預(yù)定類型間的第二相關(guān)信息。
13.一種基于擴展文本信息來確定資源類型的類型確定裝置,其中,該類型確定裝置包括 合并裝置、用于將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息,其中,所述多個資源中的任一資源均與所述多個資源中的其他資源相似或相同; 第一確定裝置、用于根據(jù)所述擴展文本信息,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息。
14.根據(jù)權(quán)利要求13所述的類型確定裝置,其中,所述第一確定裝置還包括 第一子確定裝置、用于根據(jù)所述擴展文本信息,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息。
15.根據(jù)權(quán)利要求13或14所述的類型確定裝置,其中,所述第一確定裝置還包括 第二子確定裝置、用于根據(jù)所述擴展文本信息,并結(jié)合預(yù)獲取的所述擴展文本信息中包含的多個關(guān)鍵詞在所有資源相關(guān)文本信息中的分布信息和/或各個關(guān)鍵詞的稀缺度,確定所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息。
16.根據(jù)權(quán)利要求15所述的類型確定裝置,其中,所述合并裝置還包括 子合并裝置、用于將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得所述擴展文本信息以及所述分布信息。
17.根據(jù)權(quán)利要求15所述的類型確定裝置,其中,所述類型確定裝置還包括 第一獲取裝置、用于根據(jù)所述擴展文本信息中包含的多個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的分布來獲得所述分布信息。
18.根據(jù)權(quán)利要求15至17中任ー項所述的類型確定裝置,其中,所述分布信息包括以下至少ー項 -所述多個關(guān)鍵詞中每個關(guān)鍵詞在所述所有資源相關(guān)文本信息中的出現(xiàn)次數(shù); -所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型,其中,所述文本信息包含于相關(guān)文本信息中; -所述多個關(guān)鍵詞中每個關(guān)鍵詞所在的文本信息的類型及其在每種文本信息的類型中出現(xiàn)的次數(shù)。
19.根據(jù)權(quán)利要求13至18中任ー項所述的類型確定裝置,其中,所述資源相關(guān)文本信息包括以下至少ー項文本信息 -該資源相關(guān)文本信息所相關(guān)的資源的錨文本信息; -該資源相關(guān)文本信息所相關(guān)的資源的描述文本信息; -該資源相關(guān)文本信息所相關(guān)的資源所屬網(wǎng)頁中包含的預(yù)定范圍內(nèi)的文本信息。
20.根據(jù)權(quán)利要求13至19中任ー項所述的類型確定裝置,其中,該類型確定裝置還包括 第二獲取裝置、用于獲取多個待聚類資源; 聚類裝置、用于根據(jù)所述多個待聚類資源自身所包含的信息,來對該多個待聚類資源進行聚類,以獲得ー組或多組聚類資源,其中,每組聚類資源包括一個或多個相同或相似的資源; 構(gòu)建裝置、用于根據(jù)與所述聚類所得的一組聚類資源相關(guān)的資源相關(guān)文本信息,來建立所述預(yù)建立的資源相關(guān)文本信息集合。
21.根據(jù)權(quán)利要求13至20中任ー項所述的類型確定裝置,其中,該類型確定裝置還包括 更新裝置、用于根據(jù)所述多個資源與至少ー個預(yù)定類型間的第一相關(guān)信息,建立或更新資源類型庫。
22.根據(jù)權(quán)利要求21所述的方法,其中,該類型確定裝置還包括第三獲取裝置、用于獲取基于來自用戶的輸入序列進行檢索所得的多個待處理資源;查詢裝置、用于根據(jù)所述多個待處理資源來在所述資源類型庫中進行查詢,以獲得所述多個待處理資源中的一個或多個待處理資源與至少ー個預(yù)定類型間的第一相關(guān)信息;排序裝置、用于根據(jù)所述ー個或多個待處理資源與至少ー個預(yù)定類型間的第一相關(guān)信息和預(yù)獲取的所述輸入序列與至少ー個預(yù)定類型間的第二相關(guān)信息,來確定所述多個待處理資源的排序,以提供給所述用戶。
23.根據(jù)權(quán)利要求22所述的類型確定裝置,其中,所述第一相關(guān)信息包括第一相關(guān)概率信息,所述第二相關(guān)信息包括第二相關(guān)概率信息,所述查詢裝置還包括 子查詢裝置、用于根據(jù)所述多個待處理資源來在所述資源類型庫中進行查詢,以獲得所述多個待處理資源中的一個或多個待處理資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息; 其中,所述排序裝置還包括 子排序裝置、用于根據(jù)所述ー個或多個待處理資源與至少ー個預(yù)定類型間的第一相關(guān)概率信息,并結(jié)合預(yù)獲取的所述輸入序列與至少ー個預(yù)定類型間的第二相關(guān)概率信息,來確定所述多個待處理資源的排序,以提供給所述用戶。
24.根據(jù)權(quán)利要求22或23所述的類型確定裝置,其中,所述類型確定裝置還包括; 第二確定裝置、用于根據(jù)預(yù)建立的關(guān)鍵詞與至少ー個預(yù)定類型間的相關(guān)信息,來確定所述輸入序列與至少ー個預(yù)定類型間的第二相關(guān)信息。
25.一種計算機設(shè)備,其中,該計算機設(shè)備包括如權(quán)利要求13至24中至少ー項所述的類型確定裝置。
全文摘要
本發(fā)明提供一種基于擴展文本信息來確定資源類型的方法、裝置及設(shè)備。其中,根據(jù)本發(fā)明的方法,先將預(yù)建立的資源相關(guān)文本信息集合所包含的多個資源相關(guān)文本信息進行合并處理,以獲得分別與所述多個資源相關(guān)文本信息相關(guān)的多個資源的擴展文本信息,其中,所述多個資源中的任一資源均與所述多個資源中的其他資源相似或相同;隨后,根據(jù)所述擴展文本信息,確定所述多個資源與至少一個預(yù)定類型間的第一相關(guān)信息。本發(fā)明的優(yōu)點包括基于擴展文本信息,能較為準確地確定資源與至少一個預(yù)定類型間的第一相關(guān)信息。
文檔編號G06F17/30GK102760127SQ20111010545
公開日2012年10月31日 申請日期2011年4月26日 優(yōu)先權(quán)日2011年4月26日
發(fā)明者王清翔 申請人:北京百度網(wǎng)訊科技有限公司