一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng)及搜索引擎方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計算機信息技術(shù)領(lǐng)域,具體涉及一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng),本發(fā)明還涉及一種基于大數(shù)據(jù)技術(shù)的搜索引擎方法。
【背景技術(shù)】
[0002]隨著信息化技術(shù)的發(fā)展,尤其是社交網(wǎng)絡(luò)、移動互聯(lián)、物聯(lián)網(wǎng)、大數(shù)據(jù)應用的迅速崛起和普及,人類社會發(fā)展所產(chǎn)生的數(shù)據(jù)呈現(xiàn)爆炸式增長。如今全球每兩天創(chuàng)造的數(shù)據(jù)就相當于自人類文明開始到2003年人類創(chuàng)造數(shù)據(jù)的總合,而且還在以每年50%的速度增長。迅速膨脹的數(shù)據(jù)已經(jīng)將人類帶入到了嶄新的“大數(shù)據(jù)”時代,數(shù)據(jù)已經(jīng)成為與自然資源、人力資源同等重要的戰(zhàn)略資源和生產(chǎn)要素。面對如此龐大的數(shù)據(jù),如何從海量數(shù)據(jù)中快速獲取需要的數(shù)據(jù),并發(fā)掘需要的知識,是當今面臨的一個挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng),以實現(xiàn)從海量數(shù)據(jù)中快速獲取需要數(shù)據(jù)。
[0004]本發(fā)明的另一目的是提供一種基于大數(shù)據(jù)技術(shù)的搜索引擎方法。
[0005]本發(fā)明所采用的第一技術(shù)方案是,一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng),包括采集器、索引器、索引庫、信息資源庫、搜索器和大數(shù)據(jù)內(nèi)核;
[0006]采集器,負責采集所需要搜索的數(shù)據(jù)對象,并將數(shù)據(jù)處理成便于進行搜索的數(shù)據(jù)格式;
[0007]索引器,負責對采集器采集的數(shù)據(jù)資源,按照數(shù)據(jù)的屬性信息對數(shù)據(jù)建立索引,并將索引數(shù)據(jù)存儲至索引庫。
[0008]索引庫,負責存儲索引器建立的數(shù)據(jù)索引信息,供搜索引擎使用。
[0009]信息資源庫,負責存儲采集器采集的各類數(shù)據(jù)資源,支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲;
[0010]搜索器,負責接受用戶的搜索請求,并按照用戶提交的關(guān)鍵字查詢條件將搜索請求提交給大數(shù)據(jù)內(nèi)核;
[0011]大數(shù)據(jù)內(nèi)核,是一個基于大數(shù)據(jù)技術(shù)的分析和處理內(nèi)核,其負責接收搜索器的請求,從索引庫中進行搜索,同時從信息資源庫中將匹配的結(jié)果返回給搜索器。
[0012]本發(fā)明第一技術(shù)方案的特點還在于,
[0013]采集器提供數(shù)據(jù)采集接入接口,便于進行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的采集和接入。
[0014]索引器按照數(shù)據(jù)的類型、標題、日期等屬性信息對數(shù)據(jù)建立索引。
[0015]本發(fā)明所采用的第二技術(shù)方案是,一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng)的搜索引擎方法,具體按照以下步驟實施:
[0016]步驟1、采集器首先提供數(shù)據(jù)采集接口,該接口能夠支持網(wǎng)頁、APP、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源的接入;
[0017]步驟2、數(shù)據(jù)采集接口按照輸入?yún)?shù)信息對目標數(shù)據(jù)源進行數(shù)據(jù)采集和抓取,采集的同時,采集器對采集到的原始數(shù)據(jù)進行格式化處理,以K-V鍵值的方式存儲到信息資源庫,作為待搜索的數(shù)據(jù)源實現(xiàn)對搜索數(shù)據(jù)源的采集,針對不同類型的數(shù)據(jù)源,數(shù)據(jù)采集接口輸入不同參數(shù),然后將采集到的數(shù)據(jù)處理成便于進行搜索的數(shù)據(jù)格式;
[0018]步驟3、當步驟2中采集器將采集到的數(shù)據(jù)存儲到信息資源庫的同時,索引器開始工作,索引器按照采集器的輸入?yún)?shù)關(guān)鍵字,以及對采集到的原始數(shù)據(jù)進行分析,對數(shù)據(jù)建立索引目錄,將索引目錄存儲至索引庫,并將索引目錄和原始數(shù)據(jù)進行一一對應;
[0019]步驟4、當步驟3中索引目錄和原始數(shù)據(jù)實現(xiàn)一一對應之后,通過搜索器的搜索接口輸入搜索關(guān)鍵字和搜索類型,生成搜索請求,由搜索器將搜索請求發(fā)送給大數(shù)據(jù)內(nèi)核;
[0020]步驟5、大數(shù)據(jù)內(nèi)核接收到搜索請求后,將按照搜索關(guān)鍵字和搜索類型在索引庫中進行快速匹配,當沒有匹配的索引時,向搜索器返回空的搜索隊列;如果從索引庫中找到匹配的索引,大數(shù)據(jù)內(nèi)核會訪問信息資源庫,按照索引搜索出匹配的數(shù)據(jù),并對搜索結(jié)果按照相似度進行排序,以列表的方式通過搜索器進行反饋,結(jié)束搜索,其中,當某一個搜索關(guān)鍵字頻繁出現(xiàn)時,大數(shù)據(jù)內(nèi)核會將與之匹配的搜索結(jié)果進行緩存,以便下次能夠快速的響應搜索請求。
[0021]本發(fā)明所采用的第二技術(shù)方案的特點還在于,
[0022]步驟I中針對不同類型的數(shù)據(jù)源,數(shù)據(jù)采集接口輸入不同參數(shù)具體做法為:
[0023]當采集到的數(shù)據(jù)源類型為網(wǎng)頁時:數(shù)據(jù)采集接口輸入網(wǎng)站名稱、網(wǎng)站URL訪問地址、采集關(guān)鍵字、授權(quán)信息;
[0024]當采集到的數(shù)據(jù)源類型為APP時:數(shù)據(jù)采集接口輸入APP名稱、APP提供的數(shù)據(jù)訪問接口的地址、授權(quán)信息;
[0025]當采集到的數(shù)據(jù)源類型為結(jié)構(gòu)化數(shù)據(jù)時:數(shù)據(jù)采集接口輸入IP地址、數(shù)據(jù)庫類型、端口、數(shù)據(jù)庫名稱、用戶名、密碼;
[0026]當采集到的數(shù)據(jù)源類型為非結(jié)構(gòu)化數(shù)據(jù)時:數(shù)據(jù)采集接口輸入數(shù)據(jù)文件存儲路徑、數(shù)據(jù)文件類型、名稱。
[0027]本發(fā)明的有益效果如下:
[0028]本發(fā)明一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng)及搜索引擎方法,利用了大數(shù)據(jù)技術(shù)以及緩存技術(shù),和傳統(tǒng)的搜索引擎相比,大大提高了搜索引擎的性能,同時提高了搜索的精準度,適應當今社會對搜索引擎的需求,解決了大數(shù)據(jù)時代對數(shù)據(jù)搜索的問題。
【附圖說明】
[0029]圖1是本發(fā)明一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng)的結(jié)構(gòu)示意圖;
[0030]圖2是本發(fā)明一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng)的設(shè)計架構(gòu)圖;
[0031]圖3是本發(fā)明一種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng)的搜索引擎過程示意圖。
【具體實施方式】
[0032]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及【具體實施方式】,對本發(fā)明進行進一步詳細說明。
[0033]圖1示出了本發(fā)明中基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng)的結(jié)構(gòu)示意圖,該基于大數(shù)據(jù)技術(shù)的搜索引擎包括采集器1、索引器2、索引庫3、信息資源庫4、搜索器5和大數(shù)據(jù)內(nèi)核6 ;
[0034]采集器1,負責采集所需要搜索的數(shù)據(jù)對象。采集器提供數(shù)據(jù)采集接入接口,通過該接口可以實現(xiàn)數(shù)據(jù)源的接入和數(shù)據(jù)的采集;同時采集器提供數(shù)據(jù)格式化的功能,該功能可以將采集到的數(shù)據(jù)按照預先設(shè)置的格式化規(guī)則進行編排和整理,便于后期的搜索。在數(shù)據(jù)采集前通過界面進行數(shù)據(jù)格式化規(guī)則的設(shè)置,啟動后采集器將按照規(guī)則進行數(shù)據(jù)的采集和整理。如采集人口數(shù)據(jù),按照姓名、公民身份號碼、性別、出生日期的規(guī)則進行采集個格式化。
[0035]索引器2,負責對采集器采集的數(shù)據(jù)資源,按照數(shù)據(jù)的屬性信息對數(shù)據(jù)建立索引,并將索引數(shù)據(jù)存儲至索引庫。
[0036]索引庫3,負責存儲索引器建立的數(shù)據(jù)索引信息,供搜索引擎使用。
[0037]信息資源庫4,負責存儲采集器采集的各類數(shù)據(jù)資源,支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲;
[0038]搜索器5,負責接受用戶的搜索請求,并按照用戶提交的關(guān)鍵字查詢條件將搜索請求提交給大數(shù)據(jù)內(nèi)核;
[0039]大數(shù)據(jù)內(nèi)核6,是一個基于大數(shù)據(jù)技術(shù)的分析和處理內(nèi)核,其負責接收搜索器的請求,從索引庫中進行搜索,同時從信息資源庫中將匹配的結(jié)果返回給搜索器。
[0040]在本發(fā)明中,采集器提供數(shù)據(jù)采集接入接口,便于進行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的的采集和接入;
[0041]索引器按照數(shù)據(jù)的類型、標題、日期等屬性信息對數(shù)據(jù)建立索引;
[0042]索引庫按照KV(Key-Value)鍵值存儲數(shù)據(jù)索引信息,方便進行檢索,提高搜索性會K。
[0043]—種基于大數(shù)據(jù)技術(shù)的搜索引擎系統(tǒng)的搜索引擎方法,具體按照以下步驟實施:
[0044]步驟1、采集器首先提供數(shù)據(jù)采集接口,該接口能夠支持網(wǎng)頁、APP、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源的接入;
[0045]步驟2、數(shù)據(jù)采集接口按照輸入?yún)?shù)信息對目標數(shù)據(jù)源進行數(shù)據(jù)采集和抓取,采集的同時,采集器對采集到的原始數(shù)據(jù)進行格式化處理,以K-V鍵值的方式存儲到信息資源庫,作為待搜索的數(shù)據(jù)源實現(xiàn)對搜索數(shù)據(jù)源的采集,針對不同類型的數(shù)據(jù)源,數(shù)據(jù)采集接口輸入不同參數(shù),然后將采集到的數(shù)據(jù)處理成便于進行搜索的數(shù)據(jù)格式;
[0046]步驟3、當步驟2中采集器將采集到的數(shù)據(jù)存儲到信息資源庫的同時,索引器開始工作,索引器按照采集器的輸入?yún)?shù)關(guān)鍵字,以及對采集到的原始數(shù)據(jù)進行分析,對數(shù)據(jù)建立索引目錄,將索引目錄存儲至索引庫,并將索引目錄和原始數(shù)據(jù)進行一一對應;
[0047]步驟4、當步驟3中索引目錄和原始數(shù)據(jù)實現(xiàn)一一對應之后,通過搜索器的搜索接口輸入搜索關(guān)鍵字和搜索類型,生成搜索請求,由搜索器將搜索請求發(fā)送給大數(shù)據(jù)內(nèi)核;
[0048]步驟5、大數(shù)據(jù)內(nèi)核接收到搜索請求后,將按照搜索關(guān)鍵字和搜索類型在索引庫中進行快速匹配,當沒有匹配的索引時,向搜索器返回空的搜索隊列;如果從索引庫中找到匹配的索引,大數(shù)據(jù)內(nèi)核會訪問信息資源庫,按照索引搜索出匹配的數(shù)據(jù),并對搜索結(jié)果按照相似度進行排序,以列表的方式通過搜索器進行反饋,結(jié)束搜索,其