本發(fā)明涉及一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法,主要應(yīng)用領(lǐng)域包括平安城市、智慧交通、智慧城市等多個(gè)領(lǐng)域,不局限于特定的應(yīng)用場(chǎng)景,適用范圍廣闊。
背景技術(shù):
隨著信息化技術(shù)應(yīng)用日益普及,信息化系統(tǒng)呈現(xiàn)逐年上升的趨勢(shì),為此這些信息化系統(tǒng)產(chǎn)生的數(shù)據(jù)也將越來越廣泛。尤其隨著平安城市、智慧城市等新興平臺(tái)的誕生,對(duì)數(shù)據(jù)整合和數(shù)據(jù)快速響應(yīng)提出了更高的要求。傳統(tǒng)模式下檢索技術(shù)實(shí)現(xiàn)方式,應(yīng)用場(chǎng)景比較單一,對(duì)數(shù)據(jù)源環(huán)境也提出了較為苛刻要求,數(shù)據(jù)檢索的結(jié)果集(或者是索引庫(kù))存儲(chǔ)模式不夠靈活,不利于解決數(shù)據(jù)持續(xù)增長(zhǎng)帶來的檢索膨脹問題。如何在海量數(shù)據(jù)中快速響應(yīng)用戶檢索要求,即用戶的實(shí)時(shí)響應(yīng);如何在海量數(shù)據(jù)的范圍內(nèi),在滿足檢索效率的同時(shí),提高檢索內(nèi)容的準(zhǔn)確性,即提高用戶檢索內(nèi)容的準(zhǔn)確性,是目前面臨的技術(shù)難題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法,立足解決現(xiàn)有技術(shù)存在的問題,在完善現(xiàn)有技術(shù)應(yīng)用同時(shí),也針對(duì)具體的應(yīng)用場(chǎng)景進(jìn)行檢索機(jī)制的優(yōu)化。通過運(yùn)行機(jī)制的創(chuàng)新,調(diào)度控制算法的優(yōu)化,及特征詞算法的優(yōu)化,實(shí)現(xiàn)其目的。
本發(fā)明的技術(shù)方案如下:
一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法,其特征在于,包括以下步驟:
步驟1:搭建海量數(shù)據(jù)索引云服務(wù),實(shí)現(xiàn)索引存儲(chǔ)負(fù)載的均衡化;搜索請(qǐng)求開始后,根據(jù)總控制臺(tái)指令,分別向各個(gè)shard分片進(jìn)行搜索;獲取各自檢索的記錄;匯集各分片初始結(jié)果集;對(duì)初始結(jié)果集進(jìn)行排序,按照預(yù)置條件要求,返回符合條件的記錄;通過上一階段獲取的信息,進(jìn)行字段值選擇;并行執(zhí)行任務(wù),去各個(gè)shard獲取字段值信息;匯總各個(gè)shard的字段值信息;收集各分片的最終結(jié)果;合并結(jié)果,統(tǒng)一返回;
步驟2:優(yōu)化異構(gòu)數(shù)據(jù)內(nèi)容解析算法,使其解析更準(zhǔn)確;在運(yùn)用textrank時(shí)考慮到每一個(gè)頂點(diǎn)即詞的權(quán)重,再進(jìn)行下一步的投票以及迭代的操作來獲取文章的特征詞;在進(jìn)行taxtrank提取關(guān)鍵詞之前,先對(duì)數(shù)據(jù)集中的文檔進(jìn)行每個(gè)詞的權(quán)重計(jì)算,之后將這個(gè)詞的權(quán) 重值作為textrank每個(gè)詞輸入,進(jìn)行下一步的計(jì)算。
本發(fā)明在實(shí)際應(yīng)用場(chǎng)景中取得了良好的反饋,成功解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)高效檢索的問題,能夠兼容不同數(shù)據(jù)源,實(shí)現(xiàn)各類數(shù)據(jù)的統(tǒng)一接入,并與其建立規(guī)范的同步機(jī)制。通過結(jié)合索引云服務(wù)和優(yōu)化算法實(shí)施,實(shí)現(xiàn)快速檢索同時(shí)也提高檢索的準(zhǔn)確性。根據(jù)本發(fā)明的實(shí)驗(yàn)室數(shù)據(jù),通過建立5shard索引分片集群,檢索結(jié)果平均提升了近3倍,準(zhǔn)確性也得到了提升。
附圖說明
圖1為本發(fā)明總體架構(gòu)圖;
圖2為索引服務(wù)集群執(zhí)行示意圖。
具體實(shí)施方式
圖1為本發(fā)明總體架構(gòu)圖。本發(fā)明在綜合分析目前的成熟的技術(shù)架構(gòu)基礎(chǔ)上,采用了擴(kuò)展性技術(shù)架構(gòu),能夠?yàn)槲磥淼臄?shù)據(jù)的增長(zhǎng)提供預(yù)留空間。
圖2為索引服務(wù)集群執(zhí)行示意圖,具體的技術(shù)實(shí)現(xiàn)方案主要包括以下步驟:
步驟1:搭建海量數(shù)據(jù)索引云服務(wù),實(shí)現(xiàn)索引存儲(chǔ)負(fù)載的均衡化。
圖2中詳細(xì)執(zhí)行過程大體說明如下:
A箭頭表示搜索請(qǐng)求開始
B表示根據(jù)總控制臺(tái)指令,分別向各個(gè)shard分片進(jìn)行搜索。
C表示獲取各自檢索的記錄
D匯集各分片初始結(jié)果集。
E對(duì)初始結(jié)果集進(jìn)行排序,按照預(yù)置條件要求,返回符合條件的記錄。
F通過上一階段(E)獲取的信息,進(jìn)行字段值選擇。
G并行執(zhí)行任務(wù),去各個(gè)shard獲取字段值信息。
H匯總各個(gè)shard的字段值信息。
I收集各分片的最終結(jié)果。
J合并結(jié)果,統(tǒng)一返回。
步驟2:優(yōu)化異構(gòu)數(shù)據(jù)(文檔、數(shù)據(jù)表、音頻等數(shù)據(jù))內(nèi)容解析算法;使其解析更準(zhǔn)確。
在運(yùn)用textrank考慮到了在圖2中每一個(gè)頂點(diǎn)即詞的權(quán)重,再進(jìn)行下一步的投票以及迭代的操作來獲取文章的特征詞。因此在進(jìn)行taxtrank提取關(guān)鍵詞之前,我們先對(duì)數(shù)據(jù)集中的文檔進(jìn)行每個(gè)詞的權(quán)重計(jì)算,之后將這個(gè)詞的權(quán)重值作為textrank每個(gè)詞輸入,進(jìn)行下一步的計(jì)算。具體計(jì)算方法如下公式:
W(Vi)表示當(dāng)前頂點(diǎn)的權(quán)重,在對(duì)于總體文檔的關(guān)鍵字提取的技術(shù)中我們還是選取比較常用的TFIDF的方法進(jìn)行每個(gè)詞的權(quán)重的計(jì)算,但在計(jì)文檔權(quán)重過程中,TFIDF的數(shù)值比較小,一旦輸入textrank中進(jìn)行迭代,會(huì)影響實(shí)驗(yàn)的效果,所以在這里我們將TFIDF值進(jìn)行歸一化的處理后,輸入textrank中進(jìn)行權(quán)值計(jì)算。歸一化公式如下:
通過采用改進(jìn)后的算法進(jìn)行解析工作,整體數(shù)據(jù)的特征詞提取準(zhǔn)確性得到極大提高。