一種數(shù)據(jù)搜索方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網技術領域,特別涉及一種數(shù)據(jù)搜索方法及裝置。
【背景技術】
[0002]經過近幾年的互聯(lián)網技術的飛速發(fā)展,互聯(lián)網的業(yè)務不斷增加,人們基于互聯(lián)網可以接觸到各種各樣的信息,網絡也成為人們日常工作和生活中不可或缺的一部分。比如,用戶可以利用互聯(lián)網收發(fā)工作郵件、進行視頻會議等;或者,利用互聯(lián)網瀏覽新聞、聽音樂、購物、訂餐、觀看視頻等。當用戶獲取自身需要的信息時,需要利用對應的搜索工具,從互聯(lián)網海量的信息中搜索并查找出自身所需要的信息;在這種情況下,互聯(lián)網作為海量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。
[0003]搜索引擎作為一個輔助人們檢索信息的工具,成為用戶訪問互聯(lián)網的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。例如,搜索引擎接收到是用戶輸入的關鍵詞后,WEB服務器根據(jù)上述關鍵詞進行爬蟲搜索,得到對應的爬蟲結果數(shù)據(jù);在對上述關鍵詞進行爬蟲搜索時,針對每個關鍵詞所采用的爬蟲執(zhí)行時間是一樣的;或者說,針對每一類關鍵詞,執(zhí)行爬蟲搜索時所采用的爬蟲執(zhí)行時間是相同的。如此一來,針對緊急任務中權重較大的關鍵詞的爬蟲搜索則不能優(yōu)先處理,數(shù)據(jù)搜索方式不夠智能。
【發(fā)明內容】
[0004]本發(fā)明實施例提供一種數(shù)據(jù)搜索方法及裝置,用以根據(jù)待搜索的關鍵詞的權重動態(tài)調整爬蟲執(zhí)行時間,實現(xiàn)基于關鍵詞的權重,執(zhí)行高效、精確的數(shù)據(jù)搜索。
[0005]本發(fā)明實施例提供一種數(shù)據(jù)搜索方法,包括:
[0006]獲取用戶輸入的搜索關鍵詞;
[0007]從預設的關鍵詞庫中提取出所述搜索關鍵詞對應的關鍵詞屬性;
[0008]根據(jù)提取出的所述關鍵詞屬性,獲取滿足預設執(zhí)行條件的所有關鍵字,并將滿足所述預設執(zhí)行條件的關鍵字循環(huán)發(fā)送至爬蟲任務執(zhí)行隊列;
[0009]根據(jù)所述關鍵字分別對應的權重值,配置每個所述關鍵字對應的爬蟲執(zhí)行時間,并根據(jù)所述爬蟲執(zhí)行時間,生成對應的爬蟲任務;
[0010]執(zhí)行對應的爬蟲任務,獲取爬蟲結果。
[0011]在一個實施例中,所述搜索關鍵詞對應的關鍵詞屬性包括:
[0012]關鍵詞唯一標識碼、關鍵詞本身、關鍵詞科目、關鍵詞權重、執(zhí)行所述關鍵詞爬蟲任務的前一次執(zhí)行時間和本次執(zhí)行時間、關鍵詞訪問量以及關鍵詞狀態(tài);
[0013]其中,所述關鍵詞訪問量包括:執(zhí)行所述關鍵詞爬蟲任務的前一次執(zhí)行時間至本次執(zhí)行時間所對應時長內的訪問量。
[0014]在一個實施例中,所述根據(jù)提取出的所述關鍵詞屬性,獲取滿足預設執(zhí)行條件的所有關鍵字,并將滿足所述預設執(zhí)行條件的關鍵字循環(huán)發(fā)送至爬蟲任務執(zhí)行隊列,包括:
[0015]按照本次執(zhí)行時間小于當前時間為預設執(zhí)行條件,提取滿足所述預設執(zhí)行條件的所有關鍵字;
[0016]識別提取出的所述關鍵字對應的搜索任務類型為日常任務或者緊急任務;
[0017]根據(jù)識別結果,將緊急任務對應的所述關鍵字,循環(huán)發(fā)送至爬蟲任務執(zhí)行隊列中由前至后存放緊急任務所對應的執(zhí)行隊列;將日常任務對應的所述關鍵字,循環(huán)發(fā)送至爬蟲任務執(zhí)行隊列中由后至前存放日常任務所對應的執(zhí)行隊列。
[0018]在一個實施例中,所述執(zhí)行對應的爬蟲任務,獲取爬蟲結果,包括:
[0019]識別執(zhí)行的爬蟲任務是日常任務還是緊急任務;
[0020]若識別出執(zhí)行的爬蟲任務為日常任務,則執(zhí)行如下操作:
[0021]查找緩存數(shù)據(jù)庫,判斷是否存在所述爬蟲任務對應的歷史數(shù)據(jù);
[0022]若存在所述爬蟲任務對應的歷史數(shù)據(jù),則將所述歷史數(shù)據(jù)反饋至用戶;
[0023]若不存在所述爬蟲任務對應的歷史數(shù)據(jù),則在預設的關鍵詞庫中新增所述爬蟲任務對應的關鍵字,同時執(zhí)行對新增關鍵字的搜索任務,獲取搜索結果,并將所述搜索結果存儲至緩存數(shù)據(jù)庫中;
[0024]若識別出執(zhí)行的爬蟲任務為緊急任務,則執(zhí)行如下操作:
[0025]更新所述爬蟲任務中關鍵字的權重值,同時執(zhí)行爬蟲任務,將獲取的爬蟲結果反饋至用戶,并將所述爬蟲結果存儲至緩存數(shù)據(jù)庫中。
[0026]在一個實施例中,所述一種數(shù)據(jù)搜索方法還包括:
[0027]按照預設更新周期,更新所述預設的關鍵詞庫中所有搜索關鍵詞的權重值。
[0028]對應于以上實施例所提供的一種數(shù)據(jù)搜索方法,本發(fā)明實施例還提供了一種數(shù)據(jù)搜索裝置,包括:
[0029]獲取模塊,用于獲取用戶輸入的搜索關鍵詞;
[0030]提取模塊,用于從預設的關鍵詞庫中提取出所述搜索關鍵詞對應的關鍵詞屬性;
[0031]發(fā)送模塊,用于根據(jù)提取出的所述關鍵詞屬性,獲取滿足預設執(zhí)行條件的所有關鍵字,并將滿足所述預設執(zhí)行條件的關鍵字循環(huán)發(fā)送至爬蟲任務執(zhí)行隊列;
[0032]配置模塊,用于根據(jù)所述關鍵字分別對應的權重值,配置每個所述關鍵字對應的爬蟲執(zhí)行時間,并根據(jù)所述爬蟲執(zhí)行時間,生成對應的爬蟲任務;
[0033]執(zhí)行模塊,用于執(zhí)行對應的爬蟲任務,獲取爬蟲結果。
[0034]在一個實施例中,所述搜索關鍵詞對應的關鍵詞屬性包括:
[0035]關鍵詞唯一標識碼、關鍵詞本身、關鍵詞科目、關鍵詞權重、執(zhí)行所述關鍵詞爬蟲任務的前一次執(zhí)行時間和本次執(zhí)行時間、關鍵詞訪問量以及關鍵詞狀態(tài);
[0036]其中,所述關鍵詞訪問量包括:執(zhí)行所述關鍵詞爬蟲任務的前一次執(zhí)行時間至本次執(zhí)行時間所對應時長內的訪問量。
[0037]在一個實施例中,所述發(fā)送模塊包括:
[0038]提取單元,用于按照本次執(zhí)行時間小于當前時間為預設執(zhí)行條件,提取滿足所述預設執(zhí)行條件的所有關鍵字;
[0039]類型識別單元,用于識別提取出的所述關鍵字對應的搜索任務類型為日常任務或者緊急任務;
[0040]發(fā)送單元,用于根據(jù)識別結果,將緊急任務對應的所述關鍵字,循環(huán)發(fā)送至爬蟲任務執(zhí)行隊列中由前至后存放緊急任務所對應的執(zhí)行隊列;將日常任務對應的所述關鍵字,循環(huán)發(fā)送至爬蟲任務執(zhí)行隊列中由后至前存放日常任務所對應的執(zhí)行隊列。
[0041 ] 在一個實施例中,所述執(zhí)行模塊包括:
[0042]任務識別單兀,用于識別執(zhí)行的爬蟲任務是日常任務還是緊急任務;
[0043]日常任務執(zhí)行單元,用于若所述任務識別單元識別出執(zhí)行的爬蟲任務為日常任務,則執(zhí)行如下操作:
[0044]查找緩存數(shù)據(jù)庫,判斷是否存在所述爬蟲任務對應的歷史數(shù)據(jù);
[0045]若存在所述爬蟲任務對應的歷史數(shù)據(jù),則將所述歷史數(shù)據(jù)反饋至用戶;
[0046]若不存在所述爬蟲任務對應的歷史數(shù)據(jù),則在預設的關鍵詞庫中新增所述爬蟲任務對應的關鍵字,同時執(zhí)行對新增關鍵字的搜索任務,獲取搜索結果,并將所述搜索結果存儲至緩存數(shù)據(jù)庫中;
[0047]緊急任務執(zhí)行單元,用于若所述任務識別單元識別出執(zhí)行的爬蟲任務為緊急任務,則執(zhí)行如下操作:
[0048]更新所述爬蟲任務中關鍵字的權重值,同時執(zhí)行爬蟲任務,將獲取的爬蟲結果反饋至用戶,并將所述爬蟲結果存儲至緩存數(shù)據(jù)庫中。
[0049]在一個實施例中,所述一種數(shù)據(jù)搜索裝置還包括:
[0050]更新模塊,用于按照預設更新周期,更新所述預設的關鍵詞庫中所有搜索關鍵詞的權重值。
[0051]以上實施例所描述的一種數(shù)據(jù)搜索方法及