技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明提供了一種基于集成搜索引擎的數(shù)據(jù)發(fā)現(xiàn)方法,該方法包括:讀取程序配置文件,并預(yù)加載緩存采集時(shí)要用到的數(shù)據(jù);初始化各個(gè)事務(wù),并控制事務(wù)的運(yùn)行,獲取處理任務(wù),進(jìn)行爬取鏈接去重檢查,分析爬取鏈接的類型,對(duì)采集到的網(wǎng)頁源碼執(zhí)行清洗、過濾,提取出有效信息;對(duì)提取出的信息進(jìn)行轉(zhuǎn)換處理,進(jìn)行緩存,當(dāng)緩存待保存數(shù)據(jù)達(dá)到一定數(shù)量時(shí)執(zhí)行緩存數(shù)據(jù)入庫處理;同時(shí)定時(shí)監(jiān)控各個(gè)事務(wù)的執(zhí)行狀態(tài),對(duì)異常事務(wù)進(jìn)行控制管理。本發(fā)明提出了一種基于集成搜索引擎的數(shù)據(jù)發(fā)現(xiàn)方法,利用事務(wù)控制策略進(jìn)行高效數(shù)據(jù)采集,針對(duì)多維對(duì)象之間的耦合關(guān)系進(jìn)行數(shù)據(jù)挖掘。
技術(shù)研發(fā)人員:張鵬
受保護(hù)的技術(shù)使用者:成都布林特信息技術(shù)有限公司
技術(shù)研發(fā)日:2017.06.09
技術(shù)公布日:2017.09.05