一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法與流程

文檔序號(hào)：11063534閱讀：1829來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法與制造工藝

本發(fā)明涉及一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法，主要應(yīng)用領(lǐng)域包括平安城市、智慧交通、智慧城市等多個(gè)領(lǐng)域，不局限于特定的應(yīng)用場(chǎng)景，適用范圍廣闊。

背景技術(shù)：

隨著信息化技術(shù)應(yīng)用日益普及，信息化系統(tǒng)呈現(xiàn)逐年上升的趨勢(shì)，為此這些信息化系統(tǒng)產(chǎn)生的數(shù)據(jù)也將越來越廣泛。尤其隨著平安城市、智慧城市等新興平臺(tái)的誕生，對(duì)數(shù)據(jù)整合和數(shù)據(jù)快速響應(yīng)提出了更高的要求。傳統(tǒng)模式下檢索技術(shù)實(shí)現(xiàn)方式，應(yīng)用場(chǎng)景比較單一，對(duì)數(shù)據(jù)源環(huán)境也提出了較為苛刻要求，數(shù)據(jù)檢索的結(jié)果集(或者是索引庫(kù))存儲(chǔ)模式不夠靈活，不利于解決數(shù)據(jù)持續(xù)增長(zhǎng)帶來的檢索膨脹問題。如何在海量數(shù)據(jù)中快速響應(yīng)用戶檢索要求，即用戶的實(shí)時(shí)響應(yīng)；如何在海量數(shù)據(jù)的范圍內(nèi)，在滿足檢索效率的同時(shí)，提高檢索內(nèi)容的準(zhǔn)確性，即提高用戶檢索內(nèi)容的準(zhǔn)確性，是目前面臨的技術(shù)難題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法，立足解決現(xiàn)有技術(shù)存在的問題，在完善現(xiàn)有技術(shù)應(yīng)用同時(shí)，也針對(duì)具體的應(yīng)用場(chǎng)景進(jìn)行檢索機(jī)制的優(yōu)化。通過運(yùn)行機(jī)制的創(chuàng)新，調(diào)度控制算法的優(yōu)化，及特征詞算法的優(yōu)化，實(shí)現(xiàn)其目的。

本發(fā)明的技術(shù)方案如下：

一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法，其特征在于，包括以下步驟：

步驟1：搭建海量數(shù)據(jù)索引云服務(wù)，實(shí)現(xiàn)索引存儲(chǔ)負(fù)載的均衡化；搜索請(qǐng)求開始后，根據(jù)總控制臺(tái)指令，分別向各個(gè)shard分片進(jìn)行搜索；獲取各自檢索的記錄；匯集各分片初始結(jié)果集；對(duì)初始結(jié)果集進(jìn)行排序，按照預(yù)置條件要求，返回符合條件的記錄；通過上一階段獲取的信息，進(jìn)行字段值選擇；并行執(zhí)行任務(wù)，去各個(gè)shard獲取字段值信息；匯總各個(gè)shard的字段值信息；收集各分片的最終結(jié)果；合并結(jié)果，統(tǒng)一返回；

步驟2：優(yōu)化異構(gòu)數(shù)據(jù)內(nèi)容解析算法，使其解析更準(zhǔn)確；在運(yùn)用textrank時(shí)考慮到每一個(gè)頂點(diǎn)即詞的權(quán)重，再進(jìn)行下一步的投票以及迭代的操作來獲取文章的特征詞；在進(jìn)行taxtrank提取關(guān)鍵詞之前，先對(duì)數(shù)據(jù)集中的文檔進(jìn)行每個(gè)詞的權(quán)重計(jì)算，之后將這個(gè)詞的權(quán) 重值作為textrank每個(gè)詞輸入，進(jìn)行下一步的計(jì)算。

本發(fā)明在實(shí)際應(yīng)用場(chǎng)景中取得了良好的反饋，成功解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)高效檢索的問題，能夠兼容不同數(shù)據(jù)源，實(shí)現(xiàn)各類數(shù)據(jù)的統(tǒng)一接入，并與其建立規(guī)范的同步機(jī)制。通過結(jié)合索引云服務(wù)和優(yōu)化算法實(shí)施，實(shí)現(xiàn)快速檢索同時(shí)也提高檢索的準(zhǔn)確性。根據(jù)本發(fā)明的實(shí)驗(yàn)室數(shù)據(jù)，通過建立5shard索引分片集群，檢索結(jié)果平均提升了近3倍，準(zhǔn)確性也得到了提升。

附圖說明

圖1為本發(fā)明總體架構(gòu)圖；

圖2為索引服務(wù)集群執(zhí)行示意圖。

具體實(shí)施方式

圖1為本發(fā)明總體架構(gòu)圖。本發(fā)明在綜合分析目前的成熟的技術(shù)架構(gòu)基礎(chǔ)上，采用了擴(kuò)展性技術(shù)架構(gòu)，能夠?yàn)槲磥淼臄?shù)據(jù)的增長(zhǎng)提供預(yù)留空間。

圖2為索引服務(wù)集群執(zhí)行示意圖，具體的技術(shù)實(shí)現(xiàn)方案主要包括以下步驟：

步驟1：搭建海量數(shù)據(jù)索引云服務(wù)，實(shí)現(xiàn)索引存儲(chǔ)負(fù)載的均衡化。

圖2中詳細(xì)執(zhí)行過程大體說明如下：

A箭頭表示搜索請(qǐng)求開始

B表示根據(jù)總控制臺(tái)指令，分別向各個(gè)shard分片進(jìn)行搜索。

C表示獲取各自檢索的記錄

D匯集各分片初始結(jié)果集。

E對(duì)初始結(jié)果集進(jìn)行排序，按照預(yù)置條件要求，返回符合條件的記錄。

F通過上一階段(E)獲取的信息，進(jìn)行字段值選擇。

G并行執(zhí)行任務(wù)，去各個(gè)shard獲取字段值信息。

H匯總各個(gè)shard的字段值信息。

I收集各分片的最終結(jié)果。

J合并結(jié)果，統(tǒng)一返回。

步驟2：優(yōu)化異構(gòu)數(shù)據(jù)(文檔、數(shù)據(jù)表、音頻等數(shù)據(jù))內(nèi)容解析算法；使其解析更準(zhǔn)確。

在運(yùn)用textrank考慮到了在圖2中每一個(gè)頂點(diǎn)即詞的權(quán)重，再進(jìn)行下一步的投票以及迭代的操作來獲取文章的特征詞。因此在進(jìn)行taxtrank提取關(guān)鍵詞之前，我們先對(duì)數(shù)據(jù)集中的文檔進(jìn)行每個(gè)詞的權(quán)重計(jì)算，之后將這個(gè)詞的權(quán)重值作為textrank每個(gè)詞輸入，進(jìn)行下一步的計(jì)算。具體計(jì)算方法如下公式：

W(Vi)表示當(dāng)前頂點(diǎn)的權(quán)重，在對(duì)于總體文檔的關(guān)鍵字提取的技術(shù)中我們還是選取比較常用的TFIDF的方法進(jìn)行每個(gè)詞的權(quán)重的計(jì)算，但在計(jì)文檔權(quán)重過程中，TFIDF的數(shù)值比較小，一旦輸入textrank中進(jìn)行迭代，會(huì)影響實(shí)驗(yàn)的效果，所以在這里我們將TFIDF值進(jìn)行歸一化的處理后，輸入textrank中進(jìn)行權(quán)值計(jì)算。歸一化公式如下：

通過采用改進(jìn)后的算法進(jìn)行解析工作，整體數(shù)據(jù)的特征詞提取準(zhǔn)確性得到極大提高。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳瑞;藍(lán)飛翔;張宏;左浩雷;蔣志鴻;
技術(shù)所有人：北京航天長(zhǎng)峰科技工業(yè)集團(tuán)有限公司;
我是此專利的發(fā)明人

上一篇：信息查詢方法及系統(tǒng)與制造工藝
上一篇：一種多數(shù)據(jù)庫(kù)綜合集成接入方法與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

構(gòu)象異構(gòu)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)實(shí)時(shí)檢索方法與流程