5、獲取的點(diǎn)擊次數(shù)100和更新時(shí)間10月1日組成 視頻Video4的視頻特征S4。同樣按照上述方式獲取視頻Video5、Video7和Video8的視頻 特征分別為S5、S7和S8。對(duì)關(guān)鍵詞集合VI包括的關(guān)鍵詞"李四街拍"進(jìn)行分詞處理,得到 關(guān)鍵詞"李四街拍"包括的分詞"李四"和"街拍",根據(jù)事先設(shè)置的屬性人名及其對(duì)應(yīng)的人 名庫,確定出分詞"李四"的屬性為人名,分詞"街拍"的屬性為"其他"屬性,將分詞"李四" 的屬性為人名和分詞"街拍"的屬性為"其他"屬性確定為關(guān)鍵詞"李四街拍"的特征T1。同 樣按照上述操作獲取關(guān)鍵詞"王二獲獎(jiǎng)"的特征為T2。
[0127] 步驟305 :根據(jù)第三信息集合中的每個(gè)信息的信息特征和該關(guān)鍵詞集合中的每個(gè) 關(guān)鍵詞的特征,設(shè)置預(yù)設(shè)篩選條件;
[0128] 具體地,將第三信息集合中的每個(gè)信息的信息特征和該關(guān)鍵詞集合中的每個(gè)關(guān)鍵 詞的特征輸入給分類模型,通過分類模型進(jìn)行訓(xùn)練學(xué)習(xí),統(tǒng)計(jì)出預(yù)設(shè)篩選條件,該分類模型 至少包括GBDT、樸素貝葉斯模型和SVM。
[0129] 例如,假設(shè)分類模型為GBDT,將第三視頻集合U3中的視頻Video4、Video5、Video7 和Vide 〇8的視頻特征S4、S5、S7和S8,以及該關(guān)鍵詞集合VI中的關(guān)鍵詞"李四街拍"的特 征T1和"王二獲獎(jiǎng)"的特征T2輸入給分類模型GBDT,通過分類模型GBDT進(jìn)行訓(xùn)練學(xué)習(xí),統(tǒng) 計(jì)出預(yù)設(shè)篩選條件。
[0130] 其中,可以統(tǒng)計(jì)出多個(gè)與信息的信息特征相關(guān)的預(yù)設(shè)篩選條件。例如,與信息和關(guān) 鍵詞之間的相關(guān)度有關(guān)的預(yù)設(shè)篩選條件,與信息的點(diǎn)擊次數(shù)相關(guān)的預(yù)設(shè)篩選條件,或者與 信息的更新時(shí)間相關(guān)的預(yù)設(shè)篩選條件等。
[0131] 其中,對(duì)于分類模型可以通過如下方式來設(shè)置預(yù)設(shè)篩選模型,具體為:
[0132] 對(duì)于與信息和關(guān)鍵詞之間的相關(guān)度有關(guān)的預(yù)設(shè)篩選條件,從第三信息集合中的每 個(gè)信息的信息特征中獲取每個(gè)信息與該關(guān)鍵詞之間的相關(guān)度。從這些相關(guān)度中獲取相關(guān)度 最大的第一預(yù)設(shè)個(gè)數(shù)個(gè)相關(guān)度。計(jì)算獲取的相關(guān)度的平均值,將該平均值作為預(yù)設(shè)相關(guān)度 閾值。設(shè)置與相關(guān)度有關(guān)的預(yù)設(shè)篩選條件為篩選相關(guān)度大于該預(yù)設(shè)相關(guān)度閾值的信息。例 如,假設(shè)第三信息集合中的每個(gè)信息與該關(guān)鍵詞之間的相關(guān)度分別為〇. 5、0. 2、0. 85、1和 〇. 9,第一預(yù)設(shè)個(gè)數(shù)為3。則從第三信息集合中的每個(gè)信息的特征中獲取相關(guān)度最大的3個(gè) 相關(guān)度分別為〇. 85、9和1。計(jì)算這三個(gè)相關(guān)度的平均值為0. 92。將0. 92作為預(yù)設(shè)相關(guān)度 閾值。設(shè)置與相關(guān)度有關(guān)的預(yù)設(shè)篩選條件為篩選相關(guān)度大于0.92的信息。
[0133] 對(duì)于與信息的點(diǎn)擊次數(shù)有關(guān)的預(yù)設(shè)篩選條件,從第三信息集合中的每個(gè)信息的信 息特征中獲取每個(gè)信息的點(diǎn)擊次數(shù)。從這些點(diǎn)擊次數(shù)中獲取點(diǎn)擊次數(shù)最大的第二預(yù)設(shè)個(gè)數(shù) 個(gè)點(diǎn)擊次數(shù)。計(jì)算獲取的點(diǎn)擊次數(shù)的平均值,將該平均值作為預(yù)設(shè)次數(shù)閾值。設(shè)置與點(diǎn)擊次 數(shù)有關(guān)的預(yù)設(shè)篩選條件為篩選點(diǎn)擊次數(shù)大于該預(yù)設(shè)次數(shù)閾值的信息。例如,假設(shè)第三信息 集合中的每個(gè)信息的點(diǎn)擊次數(shù)分別為500、1000、1500、300和20,第二預(yù)設(shè)個(gè)數(shù)為4。則從 第三信息集合中的每個(gè)信息的信息特征中獲取點(diǎn)擊次數(shù)最大的4個(gè)點(diǎn)擊次數(shù)分別為300、 500、1000和1500,計(jì)算這4個(gè)點(diǎn)擊次數(shù)的平均值為825,將該平均值825作為預(yù)設(shè)次數(shù)閾 值,設(shè)置與點(diǎn)擊次數(shù)有關(guān)的預(yù)設(shè)篩選條件為篩選點(diǎn)擊次數(shù)大于825的信息。
[0134] 對(duì)于與信息的更新時(shí)間有關(guān)的預(yù)設(shè)篩選條件,從第三信息集合中的每個(gè)信息的信 息特征中獲取每個(gè)信息的更新時(shí)間。確定位于這些更新時(shí)間的中位數(shù)位置的更新時(shí)間,計(jì) 算該更新時(shí)間與當(dāng)前時(shí)間之間的時(shí)間差,將該時(shí)間差確定為預(yù)設(shè)時(shí)間閾值,設(shè)置與更新時(shí) 間有關(guān)的預(yù)設(shè)篩選條件為篩選更新時(shí)間與當(dāng)前時(shí)間之間的時(shí)間差小于預(yù)設(shè)時(shí)間閾值的信 息。例如,假設(shè)第三信息集合中每個(gè)信息的更新時(shí)間分別為10月1日、9月1日、11月1日、 7月1曰和8月1曰,當(dāng)前時(shí)間為12月1曰,貝1J位于這些更新時(shí)間的中位數(shù)位置的更新時(shí)間 為9月1日,計(jì)算該更新時(shí)間9月1日與當(dāng)前時(shí)間12月1日之間的時(shí)間差為3個(gè)月,將該 時(shí)間差確定為預(yù)設(shè)時(shí)間閾值,設(shè)置與更新時(shí)間有關(guān)的預(yù)設(shè)篩選條件為篩選更新時(shí)間與當(dāng)前 時(shí)間之間的時(shí)間差小于3個(gè)月的信息。
[0135] 其中,對(duì)于其他搜索平臺(tái),都可以同第一搜索平臺(tái)按照上述步驟301-305的操作 來設(shè)置篩選信息的預(yù)設(shè)篩選條件。
[0136] 步驟306-309 :與步驟205-208的操作相同,在此不再贅述。
[0137] 其中,本發(fā)明實(shí)施例中的預(yù)設(shè)篩選條件與實(shí)施例2中的預(yù)設(shè)篩選條件不同。實(shí)施 例2中的預(yù)設(shè)篩選條件是用于從搜索到的信息中篩選出符合信息特征要求的信息。而本發(fā) 明實(shí)施例中的預(yù)設(shè)篩選條件是用于從搜索到的信息中先確定出不符合信息特征要求的信 息,然后將剩余的信息作為篩選出的信息。第一搜索平臺(tái)可以分別通過實(shí)施例2或?qū)嵤├?3提供的方法來搜索信息,也可以通過實(shí)施例2和實(shí)施例3相結(jié)合的方法來搜索信息。
[0138] 在本發(fā)明實(shí)施例中,接收終端發(fā)送的關(guān)鍵詞;根據(jù)該關(guān)鍵詞,搜索與該關(guān)鍵詞匹配 的信息;從該信息中篩選出滿足某一預(yù)設(shè)篩選條件的信息并組成第一信息集合,該預(yù)設(shè)篩 選條件為根據(jù)歷史搜索記錄設(shè)置的,該歷史搜索記錄中包括用戶歷史搜索的關(guān)鍵詞、關(guān)鍵 詞對(duì)應(yīng)的信息和信息的點(diǎn)擊次數(shù);向終端發(fā)送第一信息集合。由于根據(jù)歷史搜索記錄中包 括的用戶歷史搜索的關(guān)鍵詞、關(guān)鍵詞對(duì)應(yīng)的信息和信息的點(diǎn)擊次數(shù)設(shè)置了預(yù)設(shè)篩選條件, 如此設(shè)置的預(yù)設(shè)篩選條件涵蓋的信息的特征比技術(shù)人員憑經(jīng)驗(yàn)設(shè)定的預(yù)設(shè)篩選條件涵蓋 的特征要全面很多,根據(jù)該預(yù)設(shè)篩選條件來篩選信息,可以提高篩選信息的準(zhǔn)確性。
[0139] 實(shí)施例4
[0140] 參見圖4,本發(fā)明實(shí)施例提供了一種信息搜索裝置,包括:
[0141] 接收模塊401,用于接收終端發(fā)送的關(guān)鍵詞;
[0142] 搜索模塊402,用于根據(jù)該關(guān)鍵詞,搜索與該關(guān)鍵詞匹配的信息;
[0143] 選擇模塊403,用于從該信息中篩選出滿足某一預(yù)設(shè)篩選條件的信息并組成第一 信息集合,該預(yù)設(shè)篩選條件為根據(jù)歷史搜索記錄進(jìn)行設(shè)置的,該歷史搜索記錄中包括用戶 歷史搜索的關(guān)鍵詞、關(guān)鍵詞對(duì)應(yīng)的信息和信息的點(diǎn)擊次數(shù);
[0144] 發(fā)送模塊404,用于向終端發(fā)送第一信息集合。
[0145] 其中,選擇模塊403包括:
[0146] 計(jì)算單元,用于分別計(jì)算每個(gè)信息與該關(guān)鍵詞之間的相關(guān)度;
[0147] 組成單元,用于將相關(guān)度大于預(yù)設(shè)閾值的信息組成第一信息集合,以及將相關(guān)度 小于或等于預(yù)設(shè)閾值的信息組成第二信息集合;
[0148] 第一獲取單元,用于分別獲取第二信息集合中包括的每個(gè)信息的信息特征,以及 獲取該關(guān)鍵詞的特征;
[0149] 篩選單元,用于根據(jù)第二信息集合中包括的每個(gè)信息的信息特征以及關(guān)鍵詞的特 征,從第二信息集合中篩選出滿足某一預(yù)設(shè)篩選條件的信息,將篩選的信息加入第一信息 集合。
[0150] 進(jìn)一步地,該裝置還包括:
[0151] 獲取模塊,用于從第一搜索平臺(tái)存儲(chǔ)的歷史搜索記錄中,獲取點(diǎn)擊次數(shù)滿足預(yù)設(shè) 點(diǎn)擊條件的信息并構(gòu)成第三信息集合以及獲取第三信息集合中的每個(gè)信息對(duì)應(yīng)的關(guān)鍵詞 并構(gòu)成關(guān)鍵詞集合;
[0152] 設(shè)置模塊,用于根據(jù)第三信息集合中的每個(gè)信息的信息特征和關(guān)鍵詞集合中的每 個(gè)關(guān)鍵詞的特征,設(shè)置預(yù)設(shè)篩選條件。
[0153] 其中,獲取模塊包括:
[0154] 第二獲取單元,用于從第一搜索平臺(tái)存儲(chǔ)的歷史搜索記錄中,獲取歷史搜索記錄 中包括的每個(gè)信息的點(diǎn)擊次數(shù);
[0155] 第三獲取單元,用于從每個(gè)信息中,獲取點(diǎn)擊次數(shù)大于預(yù)設(shè)次數(shù)閾值的信息并構(gòu) 成第三信息集合;或者,
[0156] 第四獲取單元,用于從每個(gè)信息中,獲取點(diǎn)擊次數(shù)小于或等于預(yù)設(shè)次數(shù)閾值的信 息并構(gòu)成第三信息集合。
[0157] 進(jìn)一步地,該獲取模塊還包括:
[0158] 第五獲取單元,用于從第三信息集合中獲取第一關(guān)鍵詞對(duì)應(yīng)的每個(gè)信息并構(gòu)成第 四信息集合,第一關(guān)鍵詞為關(guān)鍵詞集合中包括的任一關(guān)鍵詞;
[0159] 第六獲取單元,用于根據(jù)第一關(guān)鍵詞從第二搜索平臺(tái)存儲(chǔ)的歷史搜索記錄中獲取 對(duì)應(yīng)的信息的信息類型并構(gòu)成類型集合,第二搜索平臺(tái)為搜索平臺(tái)中除第一搜索平臺(tái)以外 的任一搜索平臺(tái);
[0160] 去除單元,用于從第四信息集合中獲取信息類型與類型集合中的每種信息類型相 同的信息,從第三信息集合中去除獲取的信息。
[0161] 其中,設(shè)置模塊,用于根據(jù)第三信息集合中的每個(gè)信息的信息特征和關(guān)鍵詞集合 中的每個(gè)關(guān)鍵詞的特征,通過分類模型統(tǒng)計(jì)預(yù)設(shè)篩選條件,該分類模型至少包括決策樹模 型、樸素貝葉斯模型和支持向量機(jī)。
[0162] 在本發(fā)明實(shí)施例中,接收終端發(fā)送的關(guān)鍵詞;根據(jù)該關(guān)鍵詞,搜索與該關(guān)鍵詞匹配 的信息;從該信息中篩選出滿足某一預(yù)設(shè)篩選條件的信息并組成第一信息集合,該預(yù)設(shè)篩 選條件為根據(jù)歷史搜索記錄進(jìn)行設(shè)置的,該歷史搜索記錄中包括用戶歷史搜索的關(guān)鍵詞、 關(guān)鍵詞對(duì)應(yīng)的信息和信息的點(diǎn)擊次數(shù);向終端發(fā)送第一信息集合。由于根據(jù)歷史搜索記錄 中包括的用戶歷史搜索的關(guān)鍵詞、關(guān)鍵詞對(duì)應(yīng)的信息和信息的點(diǎn)擊次數(shù)設(shè)置了預(yù)設(shè)篩選條 件,如此設(shè)置的預(yù)設(shè)篩選條件涵蓋的信息的特征比技術(shù)人員憑經(jīng)驗(yàn)設(shè)定的預(yù)設(shè)篩選條件涵 蓋的特征要全面很多,根據(jù)該預(yù)設(shè)篩選條件來篩選信息,可以提高篩選信息的準(zhǔn)確性。
[0163] 實(shí)施例5
[0164] 圖5是本發(fā)明實(shí)施例提供的服務(wù)器的結(jié)構(gòu)示意圖。該服務(wù)器1900可因配置或性 能不同而產(chǎn)生比較大的差異,可以包括一個(gè)或一個(gè)以上中央處理器(central processing units,CPU) 1922 (例如,一個(gè)或一個(gè)以上處理器)和存儲(chǔ)器1932, 一個(gè)或一個(gè)以上存儲(chǔ)應(yīng)用 程序1942或數(shù)據(jù)1944的存儲(chǔ)介質(zhì)1930(例如一個(gè)或一個(gè)以上海量存儲(chǔ)設(shè)備)。其中,存儲(chǔ) 器1932和存儲(chǔ)介質(zhì)1930可以是短暫存儲(chǔ)或持久存儲(chǔ)。存儲(chǔ)在存儲(chǔ)介質(zhì)1930的程序可以 包括一個(gè)或一個(gè)以上模塊(圖示沒標(biāo)出),每個(gè)模塊可以包括對(duì)服務(wù)器中的一系列指令操 作。更進(jìn)一步地,中央處理器1922可以設(shè)置為與存儲(chǔ)介質(zhì)1930通信,在服務(wù)器1900上執(zhí) 行存儲(chǔ)介質(zhì)1930中的一系列指令操作。
[0165] 服務(wù)器1900還可以包括一個(gè)或一個(gè)以上電源1926, 一個(gè)或一個(gè)以上有線或無線 網(wǎng)絡(luò)接口 1950, 一個(gè)或一個(gè)以上輸入輸出接口 1958, 一個(gè)或一個(gè)以上鍵盤1956,和/或, 一個(gè)或一個(gè)以上操作系統(tǒng) 1941,例如 Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM, FreeBSDTM 等等。
[0166] 服務(wù)器1900可以包括有存儲(chǔ)器,以及一個(gè)或者一個(gè)以上的程序,其中一個(gè)或者一 個(gè)以上程序存儲(chǔ)于存儲(chǔ)器中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器執(zhí)行所述一個(gè)或者一 個(gè)以上程序包含用于進(jìn)行以下操作的指令:
當(dāng)前第4頁
1 
2 
3 
4 
5