一種行業(yè)垂直搜索引擎系統(tǒng)的制作方法
【專利說明】一種行業(yè)垂直搜索弓I擎系統(tǒng)
[0001]
技術領域
[0002]本發(fā)明涉及大數(shù)據(jù)領域,具體地說是一種涉及數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)展示的行業(yè)垂直搜索弓I擎系統(tǒng)。
[0003]
【背景技術】
[0004]隨著互聯(lián)網時代的快速推進,人們接觸的信息資源呈爆炸性發(fā)展的趨勢,同時,人們獲得信息的方式和途徑也呈現(xiàn)多元化發(fā)展的態(tài)勢。如何從這些錯綜復雜的信息中全面、準確無誤地提取自己所需信息,幫助用戶收集自己所感興趣的資料成為當前信息科技領域的一大研究熱點。
[0005]以有技術中應用較為廣泛的搜索引擎包括Sphider、RiSearch PHP、XQEngine、JXTA Search等。其中,Sphider是一個輕量級,采用PHP開發(fā)的web spider和搜索引擎,使用mysql來存儲數(shù)據(jù)。可以利用它來為自己的網站添加搜索功能。但是Sphider非常小,無法應用到大型項目中。
[0006]RiSearch PHP是一個高效,功能強大的搜索引擎,特別適用于中小型網站。RiSearch PHP非???,它能夠在不到I秒鐘內搜索5000-10000個頁面。但是RiSearch是一個索引搜索引擎,這就意味著它先將你的網站做索引并建立一個數(shù)據(jù)庫來存儲你網站所有頁面的關鍵詞以便快速搜索
XQEngine用于XML文檔的全文本搜索引擎。利用XQuery做為它的前端查詢語言。它能夠讓你查詢XML文檔集合通過使用關鍵字的邏輯組合。有點類似于Google與其它搜索引擎搜索HTML文檔一樣。XQEngine只是一個用Java開發(fā)的很緊湊的可嵌入的組件。
[0007]JXTA Search是一個分布式的搜索系統(tǒng)。但是設計用在點對點的網絡與網站上。
[0008]solr是由java開發(fā)的,基于Iucene的分布式搜索引擎,提供了類似于Webserver的編程接口,是一個比較成熟的搜索引擎,目前很多公司都在使用。文檔通過Http利用XML加到一個搜索集合中。查詢該集合也是通過http收到一個XML/JSON響應來實現(xiàn),高效、靈活的緩存功能降低用戶的等待時間,高亮顯示搜索結果讓用戶快速定位所需內容,通過索引復制提高可用性,對用戶決策起到一定的輔助作用等。
【發(fā)明內容】
[0009]本發(fā)明的技術任務是針對上述現(xiàn)有技術的不足,提供一種行業(yè)垂直搜索引擎系統(tǒng)。
[0010]本發(fā)明的技術任務是按以下方式實現(xiàn)的:一種行業(yè)垂直搜索引擎系統(tǒng),包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)展示模塊,
所述數(shù)據(jù)采集模塊用于在行業(yè)信息相關網站中爬取相關網頁,并將網頁源文件保存到hbase數(shù)據(jù)庫中;
所述數(shù)據(jù)處理模塊通過以下方法對爬取到的相關網頁進行數(shù)據(jù)處理:
1)采用向量空間模型建模;
2)采用詞頻逆文檔頻權重進行權重計算;
3)采用信息增益計算特征項的貢獻程度大小;
4)采用-最近鄰結點算法對待分類文本進行歸類處理;
所述數(shù)據(jù)展示模塊用于接收查詢內容并展示搜索結果。
[0011]作為優(yōu)選,數(shù)據(jù)采集模塊可以為每個數(shù)據(jù)來源網站建立適用的下載更新策略,啟動定時更新任務,以保證網頁信息的實時性。
[0012]作為優(yōu)選,所述數(shù)據(jù)展示模塊包括:
1)綜合搜索模塊,用于接收查詢輸入內容,提交給SOlr服務,從索引文件中進行查詢,返回符合條件的所有網頁,并分類顯示標題,標題鏈接具體內容;
2)企業(yè)搜索模塊,用于接收查詢輸入內容,提交給solr服務,從索引文件中進行查詢,返回符合條件的企業(yè);
3)用戶權限管理模塊,用于完成系統(tǒng)用戶權限管理,并根據(jù)權限對上述顯示內容進行按需推送。
[0013]與現(xiàn)有技術相比,本發(fā)明的行業(yè)垂直搜索引擎系統(tǒng)具有以下有益效果:
(一)通過對采集后的數(shù)據(jù)進行分析,采用信息分類方式把不同的數(shù)據(jù)存儲到結構化和非結構化數(shù)據(jù)庫中,提交自己的關鍵詞,即可準確定位到用戶所需信息,能取得更精準的搜索結果;
(二)使用solrcloud作為分布式搜索服務的基礎,利用機器學習算法對互聯(lián)網數(shù)據(jù)進行提取解析以及分析挖掘,保障搜索效率及精準性。
【附圖說明】
[0014]附圖1是本發(fā)明行業(yè)垂直搜索引擎系統(tǒng)的流程圖。
【具體實施方式】
[0015]參照說明書附圖以具體實施例對本發(fā)明的行業(yè)垂直搜索引擎系統(tǒng)作以下詳細地說明。
[0016]實施例:
本實施例是針對企業(yè)的專業(yè)搜索引擎,是通用搜索引擎的細分和延伸,通過針對稅務領域提供有特定價值的信息和相關服務。如附圖1所示,其主要功能模塊及采用技術如下:
(I)數(shù)據(jù)采集
根據(jù)稅務部門要求,對提供的相關納稅人,使用網絡爬蟲到“百度百科”、招聘網、企業(yè)官網、新聞網站、股市信息網站等可能包含與納稅人相關信息的網站爬取相關網頁,網頁源文件保存到hbase數(shù)據(jù)庫中。為每個數(shù)據(jù)來源網站建立適用的下載更新策略,啟動定時更新任務,保證網頁信息的實時性。hbase分布式數(shù)據(jù)庫可以保證各種類型數(shù)據(jù)無損失保存,并可根據(jù)需求進行橫向擴展。
[0017](2)數(shù)據(jù)處理 a)模型建立:向量空間模型
采用基于線性代數(shù)的簡單向量空間模型,允許局部匹配,排除布爾邏輯模型的硬性比對;
b)權重計算:詞頻逆文檔頻權重
詞頻逆文檔頻權重又被叫做 TF-1DF (Term Frequency-1nverse Document Frequency)權重。這種計算方法包含兩部分:TF指的詞頻,即某個特征項在文本中出現(xiàn)了多少次,這個值計算前都會被處理,防以免受到文本長度的影響,所以這種權重計算方法把詞頻權重的思想引入進來;IDF指的逆文檔頻率,是對某個特征項普遍性的衡量,計算方法是用總的文檔數(shù)量除以包含該特征項的文檔的數(shù)量,再通過對數(shù)運算獲得最后的值。如果所該特征項僅存在于個別的文檔當中,說明該特征項的集中程度越高,它對文檔類別的貢獻率越高。
[0018]c)特征降維:信息增益<