本發(fā)明涉及業(yè)務(wù)數(shù)據(jù)領(lǐng)域,具體涉及一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置。
背景技術(shù):
數(shù)據(jù)就是數(shù)值,也就是我們通過(guò)觀察、實(shí)驗(yàn)或計(jì)算得出的結(jié)果。數(shù)據(jù)有很多種,最簡(jiǎn)單的就是數(shù)字。數(shù)據(jù)也可以是文字、圖像、聲音等。數(shù)據(jù)可以用于科學(xué)研究、設(shè)計(jì)、查證等。數(shù)據(jù)背景是接收者針對(duì)特定數(shù)據(jù)的信息準(zhǔn)備,即當(dāng)接收者了解物理符號(hào)序列的規(guī)律,并知道每個(gè)符號(hào)和符號(hào)組合的指向性目標(biāo)或含義時(shí),便可以獲得一組數(shù)據(jù)所載荷的信息。數(shù)據(jù)作為信息的載體,當(dāng)然要分析數(shù)據(jù)中包含的主要信息,及分析數(shù)據(jù)的主要特征。數(shù)據(jù)是載荷或記錄信息的按一定規(guī)則排列組合的物理符號(hào)。
在現(xiàn)在使用的數(shù)據(jù)信息中,有很大一部分的數(shù)據(jù)是由管理者來(lái)進(jìn)行發(fā)布,并且根據(jù)用戶(hù)的建議或者管理者自身的需求由管理者來(lái)進(jìn)行修改的,對(duì)于這部分的海量信息,如何能夠更好地進(jìn)行質(zhì)量管理和挖掘,快速有效地從中找到有用的信息,是一個(gè)亟需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述問(wèn)題,本發(fā)明提供一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置。
本發(fā)明的目的采用以下技術(shù)方案來(lái)實(shí)現(xiàn):
一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置,其特征是,包括數(shù)據(jù)質(zhì)量管理模塊和有用數(shù)據(jù)挖掘模塊,其中質(zhì)量管理模塊包括初步處理子模塊、數(shù)據(jù)描述子模塊、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊和數(shù)據(jù)質(zhì)量分級(jí)管理子模塊,有用數(shù)據(jù)挖掘模塊包括數(shù)據(jù)預(yù)處理子模塊、有用數(shù)據(jù)構(gòu)建子模塊、有用數(shù)據(jù)修正子模塊和有用數(shù)據(jù)分層挖掘子模塊;
初步處理子模塊,用于對(duì)業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)進(jìn)行采集,其特征是,包括以下步驟:
D1將屬于同一業(yè)務(wù)的多個(gè)待采集的數(shù)據(jù)項(xiàng)連續(xù)放置,屬于不同業(yè)務(wù)的共有的待采集數(shù)據(jù)項(xiàng)放置在兩種業(yè)務(wù)分別對(duì)應(yīng)的數(shù)據(jù)項(xiàng)之間;
D2采用若干采集線程組啟動(dòng)數(shù)據(jù)采集過(guò)程順序調(diào)度數(shù)據(jù)項(xiàng)隊(duì)列放置的各項(xiàng),完成業(yè)務(wù)關(guān)聯(lián)的數(shù)據(jù)采集。
優(yōu)選地,其特征是,所述D1包括以下步驟:
d1將每個(gè)數(shù)據(jù)采集業(yè)務(wù)分別對(duì)應(yīng)一個(gè)采集過(guò)程,且將采集周期相同的多個(gè)采集過(guò)程劃分在同一采集過(guò)程隊(duì)列;
d2將每個(gè)采集過(guò)程隊(duì)列包含的多個(gè)采集過(guò)程依據(jù)采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行采集過(guò)程排序;
d3將每個(gè)采集過(guò)程依據(jù)該采集過(guò)程與相近采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行該采集過(guò)程內(nèi)數(shù)據(jù)項(xiàng)排序,得到最終數(shù)據(jù)項(xiàng)隊(duì)列;
其中,所述每個(gè)采集過(guò)程隊(duì)列分別對(duì)應(yīng)一個(gè)采集線程組。
優(yōu)選地,其特征在于,所述數(shù)據(jù)項(xiàng)為被采集的最小獨(dú)立單元。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊
通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)來(lái)表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)定義為:
式中,σ1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);σ2表示用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,l表示用戶(hù)提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶(hù)修改頻率系數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁;
(2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊
采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi),然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí);
(3)數(shù)據(jù)質(zhì)量分級(jí)管理子模塊
數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理;
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類(lèi):
式中,Zs表示新數(shù)據(jù)表K一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類(lèi)中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類(lèi)是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú)法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶(hù)占總?cè)藬?shù)的比例。
有益效果為:引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影響;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
附圖說(shuō)明
利用附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明,但附圖中的實(shí)施例不構(gòu)成對(duì)本發(fā)明的任何限制,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)以下附圖獲得其它的附圖。
圖1是一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置的結(jié)構(gòu)框圖。
附圖標(biāo)記:質(zhì)量管理模塊-1;有用數(shù)據(jù)挖掘模塊-2;初步處理子模塊-11;數(shù)據(jù)描述子模塊-12;數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊-13;數(shù)據(jù)質(zhì)量分級(jí)管理子模塊-14;數(shù)據(jù)預(yù)處理子模塊-21;有用數(shù)據(jù)構(gòu)建子模塊-22;有用數(shù)據(jù)修正子模塊-23;有用數(shù)據(jù)分層挖掘子模塊-24。
具體實(shí)施方式
結(jié)合以下實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。
實(shí)施例1:
如圖1所示的一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,用于對(duì)業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)進(jìn)行采集,其特征是,包括以下步驟:
D1將屬于同一業(yè)務(wù)的多個(gè)待采集的數(shù)據(jù)項(xiàng)連續(xù)放置,屬于不同業(yè)務(wù)的共有的待采集數(shù)據(jù)項(xiàng)放置在兩種業(yè)務(wù)分別對(duì)應(yīng)的數(shù)據(jù)項(xiàng)之間;
D2采用若干采集線程組啟動(dòng)數(shù)據(jù)采集過(guò)程順序調(diào)度數(shù)據(jù)項(xiàng)隊(duì)列放置的各項(xiàng),完成業(yè)務(wù)關(guān)聯(lián)的數(shù)據(jù)采集。
優(yōu)選地,其特征是,所述D1包括以下步驟:
d1將每個(gè)數(shù)據(jù)采集業(yè)務(wù)分別對(duì)應(yīng)一個(gè)采集過(guò)程,且將采集周期相同的多個(gè)采集過(guò)程劃分在同一采集過(guò)程隊(duì)列;
d2將每個(gè)采集過(guò)程隊(duì)列包含的多個(gè)采集過(guò)程依據(jù)采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行采集過(guò)程排序;
d3將每個(gè)采集過(guò)程依據(jù)該采集過(guò)程與相近采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行該采集過(guò)程內(nèi)數(shù)據(jù)項(xiàng)排序,得到最終數(shù)據(jù)項(xiàng)隊(duì)列;
其中,所述每個(gè)采集過(guò)程隊(duì)列分別對(duì)應(yīng)一個(gè)采集線程組。
優(yōu)選地,其特征在于,所述數(shù)據(jù)項(xiàng)為被采集的最小獨(dú)立單元。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)來(lái)表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)定義為:
式中,σ1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);σ2表示用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,l表示用戶(hù)提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶(hù)修改頻率系數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi),然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
(3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類(lèi):
式中,Zs表示新數(shù)據(jù)表K一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類(lèi)中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類(lèi)是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú)法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶(hù)占總?cè)藬?shù)的比例。
本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影響,取C=T/5,提示數(shù)據(jù)范圍增加5%,但是計(jì)算量增加了3.7%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
實(shí)施例2:
如圖1所示的一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,用于對(duì)業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)進(jìn)行采集,其特征是,包括以下步驟:
D1將屬于同一業(yè)務(wù)的多個(gè)待采集的數(shù)據(jù)項(xiàng)連續(xù)放置,屬于不同業(yè)務(wù)的共有的待采集數(shù)據(jù)項(xiàng)放置在兩種業(yè)務(wù)分別對(duì)應(yīng)的數(shù)據(jù)項(xiàng)之間;
D2采用若干采集線程組啟動(dòng)數(shù)據(jù)采集過(guò)程順序調(diào)度數(shù)據(jù)項(xiàng)隊(duì)列放置的各項(xiàng),完成業(yè)務(wù)關(guān)聯(lián)的數(shù)據(jù)采集。
優(yōu)選地,其特征是,所述D1包括以下步驟:
d1將每個(gè)數(shù)據(jù)采集業(yè)務(wù)分別對(duì)應(yīng)一個(gè)采集過(guò)程,且將采集周期相同的多個(gè)采集過(guò)程劃分在同一采集過(guò)程隊(duì)列;
d2將每個(gè)采集過(guò)程隊(duì)列包含的多個(gè)采集過(guò)程依據(jù)采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行采集過(guò)程排序;
d3將每個(gè)采集過(guò)程依據(jù)該采集過(guò)程與相近采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行該采集過(guò)程內(nèi)數(shù)據(jù)項(xiàng)排序,得到最終數(shù)據(jù)項(xiàng)隊(duì)列;
其中,所述每個(gè)采集過(guò)程隊(duì)列分別對(duì)應(yīng)一個(gè)采集線程組。
優(yōu)選地,其特征在于,所述數(shù)據(jù)項(xiàng)為被采集的最小獨(dú)立單元。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)來(lái)表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)定義為:
式中,σ1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);σ2表示用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,l表示用戶(hù)提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶(hù)修改頻率系數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi),然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
(3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類(lèi):
式中,Zs表示新數(shù)據(jù)表K一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類(lèi)中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類(lèi)是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú)法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶(hù)占總?cè)藬?shù)的比例。
本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影響,取C=T/6,提示數(shù)據(jù)范圍增加4%,但是計(jì)算量增加了3.3%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
實(shí)施例3:
如圖1所示的一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,用于對(duì)業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)進(jìn)行采集,其特征是,包括以下步驟:
D1將屬于同一業(yè)務(wù)的多個(gè)待采集的數(shù)據(jù)項(xiàng)連續(xù)放置,屬于不同業(yè)務(wù)的共有的待采集數(shù)據(jù)項(xiàng)放置在兩種業(yè)務(wù)分別對(duì)應(yīng)的數(shù)據(jù)項(xiàng)之間;
D2采用若干采集線程組啟動(dòng)數(shù)據(jù)采集過(guò)程順序調(diào)度數(shù)據(jù)項(xiàng)隊(duì)列放置的各項(xiàng),完成業(yè)務(wù)關(guān)聯(lián)的數(shù)據(jù)采集。
優(yōu)選地,其特征是,所述D1包括以下步驟:
d1將每個(gè)數(shù)據(jù)采集業(yè)務(wù)分別對(duì)應(yīng)一個(gè)采集過(guò)程,且將采集周期相同的多個(gè)采集過(guò)程劃分在同一采集過(guò)程隊(duì)列;
d2將每個(gè)采集過(guò)程隊(duì)列包含的多個(gè)采集過(guò)程依據(jù)采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行采集過(guò)程排序;
d3將每個(gè)采集過(guò)程依據(jù)該采集過(guò)程與相近采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行該采集過(guò)程內(nèi)數(shù)據(jù)項(xiàng)排序,得到最終數(shù)據(jù)項(xiàng)隊(duì)列;
其中,所述每個(gè)采集過(guò)程隊(duì)列分別對(duì)應(yīng)一個(gè)采集線程組。
優(yōu)選地,其特征在于,所述數(shù)據(jù)項(xiàng)為被采集的最小獨(dú)立單元。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)來(lái)表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)定義為:
式中,σ1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);σ2表示用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,l表示用戶(hù)提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶(hù)修改頻率系數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi),然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
(3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類(lèi):
式中,Zs表示新數(shù)據(jù)表K一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類(lèi)中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類(lèi)是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú)法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶(hù)占總?cè)藬?shù)的比例。
本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影響,取C=T/7,提示數(shù)據(jù)范圍增加3.5%,但是計(jì)算量增加了3%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
實(shí)施例4:
如圖1所示的一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,用于對(duì)業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)進(jìn)行采集,其特征是,包括以下步驟:
D1將屬于同一業(yè)務(wù)的多個(gè)待采集的數(shù)據(jù)項(xiàng)連續(xù)放置,屬于不同業(yè)務(wù)的共有的待采集數(shù)據(jù)項(xiàng)放置在兩種業(yè)務(wù)分別對(duì)應(yīng)的數(shù)據(jù)項(xiàng)之間;
D2采用若干采集線程組啟動(dòng)數(shù)據(jù)采集過(guò)程順序調(diào)度數(shù)據(jù)項(xiàng)隊(duì)列放置的各項(xiàng),完成業(yè)務(wù)關(guān)聯(lián)的數(shù)據(jù)采集。
優(yōu)選地,其特征是,所述D1包括以下步驟:
d1將每個(gè)數(shù)據(jù)采集業(yè)務(wù)分別對(duì)應(yīng)一個(gè)采集過(guò)程,且將采集周期相同的多個(gè)采集過(guò)程劃分在同一采集過(guò)程隊(duì)列;
d2將每個(gè)采集過(guò)程隊(duì)列包含的多個(gè)采集過(guò)程依據(jù)采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行采集過(guò)程排序;
d3將每個(gè)采集過(guò)程依據(jù)該采集過(guò)程與相近采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行該采集過(guò)程內(nèi)數(shù)據(jù)項(xiàng)排序,得到最終數(shù)據(jù)項(xiàng)隊(duì)列;
其中,所述每個(gè)采集過(guò)程隊(duì)列分別對(duì)應(yīng)一個(gè)采集線程組。
優(yōu)選地,其特征在于,所述數(shù)據(jù)項(xiàng)為被采集的最小獨(dú)立單元。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)來(lái)表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)定義為:
式中,σ1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);σ2表示用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,l表示用戶(hù)提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶(hù)修改頻率系數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi),然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
(3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類(lèi):
式中,Zs表示新數(shù)據(jù)表K一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類(lèi)中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類(lèi)是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú)法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶(hù)占總?cè)藬?shù)的比例。
本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影響,取C=T/8,提示數(shù)據(jù)范圍增加3%,但是計(jì)算量增加了2.7%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
實(shí)施例5:
如圖1所示的一種處理業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)的裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,用于對(duì)業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)進(jìn)行采集,其特征是,包括以下步驟:
D1將屬于同一業(yè)務(wù)的多個(gè)待采集的數(shù)據(jù)項(xiàng)連續(xù)放置,屬于不同業(yè)務(wù)的共有的待采集數(shù)據(jù)項(xiàng)放置在兩種業(yè)務(wù)分別對(duì)應(yīng)的數(shù)據(jù)項(xiàng)之間;
D2采用若干采集線程組啟動(dòng)數(shù)據(jù)采集過(guò)程順序調(diào)度數(shù)據(jù)項(xiàng)隊(duì)列放置的各項(xiàng),完成業(yè)務(wù)關(guān)聯(lián)的數(shù)據(jù)采集。
優(yōu)選地,其特征是,所述D1包括以下步驟:
d1將每個(gè)數(shù)據(jù)采集業(yè)務(wù)分別對(duì)應(yīng)一個(gè)采集過(guò)程,且將采集周期相同的多個(gè)采集過(guò)程劃分在同一采集過(guò)程隊(duì)列;
d2將每個(gè)采集過(guò)程隊(duì)列包含的多個(gè)采集過(guò)程依據(jù)采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行采集過(guò)程排序;
d3將每個(gè)采集過(guò)程依據(jù)該采集過(guò)程與相近采集過(guò)程間的數(shù)據(jù)項(xiàng)共有關(guān)系進(jìn)行該采集過(guò)程內(nèi)數(shù)據(jù)項(xiàng)排序,得到最終數(shù)據(jù)項(xiàng)隊(duì)列;
其中,所述每個(gè)采集過(guò)程隊(duì)列分別對(duì)應(yīng)一個(gè)采集線程組。
優(yōu)選地,其特征在于,所述數(shù)據(jù)項(xiàng)為被采集的最小獨(dú)立單元。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過(guò)引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來(lái)描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)來(lái)表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶(hù)和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶(hù)可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶(hù)建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類(lèi)系數(shù)定義為:
式中,σ1表示用戶(hù)每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶(hù)瀏覽總次數(shù);σ2表示用戶(hù)每提出一次修改意見(jiàn)施加的影響因子,l表示用戶(hù)提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶(hù)建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶(hù)修改頻率系數(shù),用于表示用戶(hù)對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶(hù)對(duì)數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:
采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類(lèi),然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。
(3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:
數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶(hù)需求確定客戶(hù)所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過(guò)預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類(lèi),引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類(lèi):
式中,Zs表示新數(shù)據(jù)表K一個(gè)分類(lèi)中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類(lèi)中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類(lèi)中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過(guò)程中,會(huì)受到人為破壞和用戶(hù)投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類(lèi)是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無(wú)法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無(wú)法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶(hù)投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶(hù)占總?cè)藬?shù)的比例。
本實(shí)施例中,引入網(wǎng)絡(luò)聚類(lèi)系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類(lèi)的準(zhǔn)確率,同時(shí)通過(guò)用戶(hù)修改頻率系數(shù)的引入來(lái)減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶(hù)投票對(duì)數(shù)據(jù)的影響,取C=T/9,提示數(shù)據(jù)范圍增加2.7%,但是計(jì)算量增加了2.5%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類(lèi)相結(jié)合,只需要在三級(jí)分類(lèi)后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒(méi)有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類(lèi),挖掘目的性更強(qiáng)。
最后應(yīng)當(dāng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明保護(hù)范圍的限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明作了詳細(xì)地說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實(shí)質(zhì)和范圍。