本發(fā)明實(shí)施例涉及大數(shù)據(jù)處理,尤其涉及一種實(shí)現(xiàn)混合數(shù)據(jù)分析的大數(shù)據(jù)處理方法和系統(tǒng)。
背景技術(shù):
1、隨著大數(shù)據(jù)時代的到來,企業(yè)和組織面臨著日益增長的數(shù)據(jù)處理需求。這些數(shù)據(jù)不僅來源于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫,還包括來自社交媒體、物聯(lián)網(wǎng)設(shè)備、文本文件等多種渠道產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)處理方法往往難以有效應(yīng)對結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)共存的情況,尤其是在需要實(shí)時分析和處理大量異構(gòu)數(shù)據(jù)的情況下,傳統(tǒng)的數(shù)據(jù)融合技術(shù)和方法顯得力不從心。
2、現(xiàn)有的數(shù)據(jù)處理技術(shù)采用直接合并結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的方法,容易導(dǎo)致信息丟失或不準(zhǔn)確;面對高速流動的數(shù)據(jù)流時,現(xiàn)有技術(shù)難以實(shí)現(xiàn)實(shí)時的數(shù)據(jù)融合和分析;在處理復(fù)雜數(shù)據(jù)時,數(shù)據(jù)分析結(jié)果不夠精確;在面對不同應(yīng)用場景時,現(xiàn)有技術(shù)采用的數(shù)據(jù)融合規(guī)則固定不變,無法根據(jù)實(shí)際分析需求進(jìn)行動態(tài)調(diào)整。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)混合數(shù)據(jù)分析的大數(shù)據(jù)處理方法和系統(tǒng),用以解決現(xiàn)有技術(shù)中信息丟失或不準(zhǔn)確、難以實(shí)現(xiàn)實(shí)時的數(shù)據(jù)融合和分析、數(shù)據(jù)分析結(jié)果不精確、無法根據(jù)實(shí)際分析需求進(jìn)行動態(tài)調(diào)整融合數(shù)據(jù)的問題。
2、第一方面,本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)混合數(shù)據(jù)分析的大數(shù)據(jù)處理方法,包括:
3、接收來自不同源的實(shí)時數(shù)據(jù)流,所述實(shí)時數(shù)據(jù)流包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
4、基于預(yù)先構(gòu)建好的動態(tài)數(shù)據(jù)融合框架中的數(shù)據(jù)融合邏輯,融合處理所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù),得到融合數(shù)據(jù),所述數(shù)據(jù)融合邏輯包括多層次融合邏輯和動態(tài)權(quán)重調(diào)整機(jī)制;
5、對所述融合數(shù)據(jù)進(jìn)行抽象化處理,得到數(shù)據(jù)視圖;
6、基于所述數(shù)據(jù)視圖,定義分析任務(wù),并執(zhí)行所述分析任務(wù),得到分析結(jié)果。
7、可選地,所述基于預(yù)先構(gòu)建好的動態(tài)數(shù)據(jù)融合框架中的數(shù)據(jù)融合邏輯,融合處理所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù),得到融合數(shù)據(jù),所述數(shù)據(jù)融合邏輯包括多層次融合邏輯和動態(tài)權(quán)重調(diào)整機(jī)制,包括:
8、應(yīng)用數(shù)據(jù)匹配算法,根據(jù)預(yù)設(shè)數(shù)據(jù)關(guān)聯(lián)規(guī)則識別所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)之間的相關(guān)性,得到對齊后的數(shù)據(jù)元素,所述預(yù)設(shè)數(shù)據(jù)關(guān)聯(lián)規(guī)則用于指導(dǎo)初始的數(shù)據(jù)融合過程;
9、合并所述數(shù)據(jù)元素,得到初步合并數(shù)據(jù),并基于所述初步合并數(shù)據(jù)確定所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)的互補(bǔ)信息結(jié)果,應(yīng)用數(shù)據(jù)融合邏輯多層次融合邏輯和動態(tài)權(quán)重調(diào)整機(jī)制得到融合數(shù)據(jù)。
10、可選地,所述合并所述數(shù)據(jù)元素,得到初步合并數(shù)據(jù),并基于所述初步合并數(shù)據(jù)確定所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)的互補(bǔ)信息結(jié)果,應(yīng)用數(shù)據(jù)融合邏輯多層次融合邏輯和動態(tài)權(quán)重調(diào)整機(jī)制得到融合數(shù)據(jù),包括:
11、使用基于規(guī)則的合并方法,將所述數(shù)據(jù)元素進(jìn)行初步合并,得到初步合并數(shù)據(jù);
12、基于初步合并數(shù)據(jù),利用互補(bǔ)信息識別算法,計算所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)之間的信息增益比,以得到所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)之間的互補(bǔ)信息結(jié)果;
13、基于所述互補(bǔ)信息結(jié)果,使用深度融合網(wǎng)絡(luò)融合不同類型的數(shù)據(jù),得到初步融合數(shù)據(jù);
14、應(yīng)用多層次融合邏輯和動態(tài)權(quán)重調(diào)整機(jī)制對初步融合數(shù)據(jù)進(jìn)行多層次融合,得到融合數(shù)據(jù),所述多層次融合邏輯包括依次執(zhí)行的多尺度特征提取技術(shù)、層次特征聚合技術(shù)和跨層一致性校驗(yàn)機(jī)制。
15、可選地,所述應(yīng)用多層次融合邏輯和動態(tài)權(quán)重調(diào)整機(jī)制對初步融合數(shù)據(jù)進(jìn)行多層次融合,得到融合數(shù)據(jù),所述多層次融合邏輯包括依次執(zhí)行的多尺度特征提取技術(shù)、層次特征聚合技術(shù)和跨層一致性校驗(yàn)機(jī)制包括:
16、使用多尺度特征提取技術(shù)提取所述初步融合數(shù)據(jù)中不同層次特征;
17、使用層次特征聚合技術(shù),聚合所述不同層次特征,得到多層次特征表示;
18、引入跨層一致性校驗(yàn)機(jī)制,通過一致性損失函數(shù)確定所述多層次特征表示的一致性,以得到目標(biāo)不同層次特征;
19、引入動態(tài)權(quán)重調(diào)整機(jī)制調(diào)整所述目標(biāo)不同層次特征的重要性,以得到目標(biāo)權(quán)重向量,并使用目標(biāo)權(quán)重向量對所述目標(biāo)不同層次特征進(jìn)行加權(quán)求和,生成融合數(shù)據(jù)。
20、可選地,所述引入動態(tài)權(quán)重調(diào)整機(jī)制調(diào)整所述目標(biāo)不同層次特征的重要性,以得到目標(biāo)權(quán)重向量,并使用目標(biāo)權(quán)重向量對所述目標(biāo)不同層次特征進(jìn)行加權(quán)求和,生成融合數(shù)據(jù),包括:
21、定義初始化的權(quán)重向量;
22、基于深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建一個動態(tài)權(quán)重調(diào)整模型,并在所述動態(tài)權(quán)重調(diào)整模型中引入權(quán)重學(xué)習(xí)機(jī)制,所述權(quán)重學(xué)習(xí)機(jī)制用于通過反向傳播算法調(diào)整所述權(quán)重向量;
23、定義權(quán)重調(diào)整損失函數(shù);
24、基于所述權(quán)重調(diào)整損失函數(shù),使用梯度下降優(yōu)化算法更新權(quán)重向量,得到目標(biāo)權(quán)重向量;
25、使用所述目標(biāo)權(quán)重向量對所述目標(biāo)不同層次特征進(jìn)行加權(quán)求和,生成融合數(shù)據(jù)。
26、可選地,所述對所述融合數(shù)據(jù)進(jìn)行抽象化處理,得到數(shù)據(jù)視圖,包括:
27、利用數(shù)據(jù)抽象化模塊,對所述融合數(shù)據(jù)進(jìn)行聚合,得到聚合數(shù)據(jù),所述聚合包括求平均值、最大值、最小值以及總數(shù);
28、采用數(shù)據(jù)降維技術(shù),降低所述聚合數(shù)據(jù)的維度,得到降維數(shù)據(jù);
29、基于所述降維數(shù)據(jù),建立視覺表示形式,得到數(shù)據(jù)視圖。
30、可選地,所述基于所述數(shù)據(jù)視圖,定義分析任務(wù),并執(zhí)行所述分析任務(wù),得到分析結(jié)果,包括:
31、基于所述數(shù)據(jù)視圖,定義分析目標(biāo),并基于分析目標(biāo)定義分析任務(wù),所述分析目標(biāo)包括識別模式、預(yù)測趨勢以及異常檢測;
32、根據(jù)所述分析任務(wù),選擇機(jī)器學(xué)習(xí)模型,并將所述數(shù)據(jù)視圖中的數(shù)據(jù)輸入至所述機(jī)器學(xué)習(xí)模型中,執(zhí)行所述分析任務(wù),得到分析結(jié)果。
33、第二方面,本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)混合數(shù)據(jù)分析的大數(shù)據(jù)處理系統(tǒng),包括:
34、接收模塊,用于接收來自不同源的實(shí)時數(shù)據(jù)流,所述實(shí)時數(shù)據(jù)流包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
35、構(gòu)建模塊,用于基于預(yù)先構(gòu)建好的動態(tài)數(shù)據(jù)融合框架中的數(shù)據(jù)融合邏輯,融合處理所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù),得到融合數(shù)據(jù),所述數(shù)據(jù)融合邏輯包括多層次融合邏輯和動態(tài)權(quán)重調(diào)整機(jī)制;
36、處理模塊,用于對所述融合數(shù)據(jù)進(jìn)行抽象化處理,得到數(shù)據(jù)視圖;
37、定義模塊,用于基于所述數(shù)據(jù)視圖,定義分析任務(wù),并執(zhí)行所述分析任務(wù),得到分析結(jié)果。
38、第三方面,本發(fā)明實(shí)施例提供一種計算設(shè)備,包括處理器和存儲器,所述存儲器中存儲有計算機(jī)程序,所述處理器被設(shè)置為運(yùn)行所述計算機(jī)程序以執(zhí)行第一方面任一所述的實(shí)現(xiàn)混合數(shù)據(jù)分析的大數(shù)據(jù)處理方法。
39、第四方面,本發(fā)明實(shí)施例提供一種計算機(jī)存儲介質(zhì),其上存儲有計算機(jī)程序指令,所述計算機(jī)程序指令被處理器執(zhí)行時實(shí)現(xiàn)第一方面中任意一項(xiàng)所述的實(shí)現(xiàn)混合數(shù)據(jù)分析的大數(shù)據(jù)處理方法。
40、本發(fā)明實(shí)施例中,接收來自不同源的實(shí)時數(shù)據(jù)流,所述實(shí)時數(shù)據(jù)流包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);基于預(yù)先構(gòu)建好的動態(tài)數(shù)據(jù)融合框架中的數(shù)據(jù)融合邏輯,融合處理所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù),得到融合數(shù)據(jù),所述數(shù)據(jù)融合邏輯包括多層次融合邏輯和動態(tài)權(quán)重調(diào)整機(jī)制;對所述融合數(shù)據(jù)進(jìn)行抽象化處理,得到數(shù)據(jù)視圖;基于所述數(shù)據(jù)視圖,定義分析任務(wù),并執(zhí)行所述分析任務(wù),得到分析結(jié)果。本發(fā)明提供的技術(shù)方案實(shí)現(xiàn)了高效、實(shí)時、靈活混合數(shù)據(jù)分析,提升了大數(shù)據(jù)處理的整體性能和支持能力;其中,動態(tài)權(quán)重調(diào)整機(jī)制能夠?qū)崟r適應(yīng)數(shù)據(jù)流的變化,確保數(shù)據(jù)融合的準(zhǔn)確性和時效性;動態(tài)權(quán)重調(diào)整機(jī)制確保了不同層次特征的有效利用,提升了融合數(shù)據(jù)的質(zhì)量;通過權(quán)重調(diào)整損失函數(shù),確保了不同層次特征之間的一致性和完整性。
41、本發(fā)明的這些方面或其他方面在以下實(shí)施例的描述中會更加簡明易懂。