br> 針對文本中出現(xiàn)的每個(gè)特征項(xiàng)來進(jìn)行計(jì)算的,即觀察文本中的某一個(gè)特征項(xiàng),分類系統(tǒng)在包含它和沒包含它的情況下信息量各是多少,然后兩數(shù)做差,得到的值就是增益,表示特征項(xiàng)對分類系統(tǒng)的影響度,通過該值的計(jì)算,表明特征項(xiàng)對文本類別的貢獻(xiàn)度的大小。
[0019]d)數(shù)據(jù)挖掘:_最近鄰結(jié)點(diǎn)算法
KNN算法的原理是:通過計(jì)算將要分類的文本與訓(xùn)練文本集中的文本之間的密切程度,找出其中離將要分類文本最近的k個(gè)文本,觀察這k個(gè)文本中屬于哪個(gè)類別的文檔最多,就將待分類文本歸到那一類別中。
[0020](3)數(shù)據(jù)展示 a)綜合搜索模塊
本模塊接收查詢輸入內(nèi)容,提交給solr服務(wù),從索引文件中進(jìn)行查詢,返回符合條件的所有網(wǎng)頁,并按“相關(guān)企業(yè)”、“新聞動態(tài)”、“股市行情”、“相關(guān)政策法規(guī)”等類別進(jìn)行分類顯示標(biāo)題,標(biāo)題鏈接具體內(nèi)容。
[0021]b)企業(yè)搜索模塊
本模塊接收查詢輸入內(nèi)容,提交給solr服務(wù),從索引文件中進(jìn)行查詢,返回符合條件的企業(yè),可以按照“所屬行業(yè)”、“從業(yè)人數(shù)”、“區(qū)域”等進(jìn)行搜索結(jié)果過濾,可以按綜合排名、搜索量、開業(yè)日期、關(guān)注量等進(jìn)行排序。進(jìn)入企業(yè)鏈接,可以查看該企業(yè)概況(來自百度百科)、企業(yè)聯(lián)系方式、股市信息、企業(yè)動態(tài)、采購信息、招投標(biāo)信息、產(chǎn)品信息、行業(yè)動態(tài)、招聘信息以及企業(yè)關(guān)系網(wǎng)信息。
[0022]c)用戶權(quán)限管理模塊
完成系統(tǒng)用戶權(quán)限管理,可根據(jù)權(quán)限對上述顯示內(nèi)容進(jìn)行按需推送。
[0023]上述系統(tǒng)的具體實(shí)現(xiàn)方法包括以下步驟:
1.數(shù)據(jù)采集:采用網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)的采集處理 1.1首先選取一部分精心挑選的種子URL ;
1.2將這些URL放入待抓取URL隊(duì)列;
1.3從待抓取URL隊(duì)列中取出待抓取在URL,解析DNS,并且得到主機(jī)的ip,并將URL對應(yīng)的網(wǎng)頁下載下來,存儲進(jìn)已下載網(wǎng)頁庫中。此外,將這些URL放進(jìn)已抓取URL隊(duì)列。
[0024]1.4分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。
[0025]2.文本預(yù)處理:對采集到的文本數(shù)據(jù)分詞,去停用詞,計(jì)算詞語權(quán)重
假定分詞詞典中的最長詞有i個(gè)漢字字符,則用被處理文檔的當(dāng)前字串中的前i個(gè)字作為匹配字段,查找字典。若字典中存在這樣的一個(gè)i字詞,則匹配成功,匹配字段被作為一個(gè)詞切分出來。如果詞典中找不到這樣的一個(gè)i字詞,則匹配失敗,將匹配字段中的最后一個(gè)字去掉,對剩下的字串重新進(jìn)行匹配處理……如此進(jìn)行下去,直到匹配成功,即切分出一個(gè)詞或剩余字串的長度為零為止。這樣就完成了一輪匹配,然后取下一個(gè)i字字串進(jìn)行匹配處理,直到文檔被掃描完為止。
[0026]3.特征提取:采用LLE算法降低特征向量維數(shù) 3.1尋找每個(gè)樣本點(diǎn)的k個(gè)近鄰點(diǎn);
3.2由每個(gè)樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣;
3.3由該樣本點(diǎn)的局部重建權(quán)值矩陣和其近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的輸出值。
[0027]4.文本分類:利用k-NN算法進(jìn)行文本分類
如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的別。KNN方法雖然從原理上也依賴于極限定理,但在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。
[0028]5.利用solr進(jìn)行數(shù)據(jù)的搜索服務(wù)
Solr對外提供標(biāo)準(zhǔn)的http接口來實(shí)現(xiàn)對數(shù)據(jù)的索引的增加、刪除、修改、查詢。在Solr中,用戶通過向部署在servlet容器中的Solr Web應(yīng)用程序發(fā)送HTTP請求來啟動索引和搜索O Solr接受請求,確定要使用的適當(dāng)SolrRequestHandler,然后處理請求。通過HTTP以同樣的方式返回響應(yīng)。默認(rèn)配置返回Solr的標(biāo)準(zhǔn)XML響應(yīng),也可以配置Solr的備用響應(yīng)格式。
【主權(quán)項(xiàng)】
1.一種行業(yè)垂直搜索引擎系統(tǒng),其特征在于:包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)展不t旲塊, 所述數(shù)據(jù)采集模塊用于在行業(yè)信息相關(guān)網(wǎng)站中爬取相關(guān)網(wǎng)頁,并將網(wǎng)頁源文件保存到hbase數(shù)據(jù)庫中; 所述數(shù)據(jù)處理模塊通過以下方法對爬取到的相關(guān)網(wǎng)頁進(jìn)行數(shù)據(jù)處理: 1)采用向量空間模型建模; 2)采用詞頻逆文檔頻權(quán)重進(jìn)行權(quán)重計(jì)算; 3)采用信息增益計(jì)算特征項(xiàng)的貢獻(xiàn)程度大??; 4)采用-最近鄰結(jié)點(diǎn)算法對待分類文本進(jìn)行歸類處理; 所述數(shù)據(jù)展示模塊用于接收查詢內(nèi)容并展示搜索結(jié)果。2.根據(jù)權(quán)利要求1所述的行業(yè)垂直搜索引擎系統(tǒng),其特征在于,數(shù)據(jù)采集模塊為每個(gè)數(shù)據(jù)來源網(wǎng)站建立適用的下載更新策略,啟動定時(shí)更新任務(wù)。3.根據(jù)權(quán)利要求1所述的行業(yè)垂直搜索引擎系統(tǒng),其特征在于,所述數(shù)據(jù)展示模塊包括: 1)綜合搜索模塊,用于接收查詢輸入內(nèi)容,提交給solr服務(wù),從索引文件中進(jìn)行查詢,返回符合條件的所有網(wǎng)頁,并分類顯示標(biāo)題,標(biāo)題鏈接具體內(nèi)容; 2)企業(yè)搜索模塊,用于接收查詢輸入內(nèi)容,提交給solr服務(wù),從索引文件中進(jìn)行查詢,返回符合條件的企業(yè); 3)用戶權(quán)限管理模塊,用于完成系統(tǒng)用戶權(quán)限管理,并根據(jù)權(quán)限對上述顯示內(nèi)容進(jìn)行按需推送。
【專利摘要】本發(fā)明公開了一種行業(yè)垂直搜索引擎系統(tǒng),屬于大數(shù)據(jù)領(lǐng)域。所述行業(yè)垂直搜索引擎系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)展示模塊,所述數(shù)據(jù)采集模塊用于在行業(yè)信息相關(guān)網(wǎng)站中爬取相關(guān)網(wǎng)頁,并將網(wǎng)頁源文件保存到hbase數(shù)據(jù)庫中;所述數(shù)據(jù)處理模塊對爬取到的相關(guān)網(wǎng)頁進(jìn)行數(shù)據(jù)處理;所述數(shù)據(jù)展示模塊用于接收查詢內(nèi)容并展示搜索結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明的行業(yè)垂直搜索引擎系統(tǒng)能夠提供比較精準(zhǔn)或者細(xì)化的搜索服務(wù),且搜索效率高,具有很好的推廣應(yīng)用價(jià)值。
【IPC分類】G06F17/30
【公開號】CN105069112
【申請?zhí)枴緾N201510488122
【發(fā)明人】趙兵旗
【申請人】浪潮軟件集團(tuán)有限公司
【公開日】2015年11月18日
【申請日】2015年8月11日