專利名稱:基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,關(guān)于數(shù)據(jù)存儲節(jié)點模糊優(yōu)先級指標(biāo)的定義、實例層沖突判斷及沖突解決的二階段數(shù)據(jù)集成方法,屬于數(shù)據(jù)集成的技術(shù)領(lǐng)域。
背景技術(shù):
隨著各領(lǐng)域信息化的進(jìn)程,數(shù)據(jù)的采集、存儲、處理和傳播的數(shù)量也與日俱增。實現(xiàn)數(shù)據(jù)共享,可以使更多的行業(yè)部門充分使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動和相應(yīng)費用。但是,在實施數(shù)據(jù)共享的過程當(dāng)中,由于不同用戶提供的數(shù)據(jù)可能來自不同的途徑,其數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬別,有時甚至?xí)龅綌?shù)據(jù)格式不能轉(zhuǎn)換或數(shù)據(jù)轉(zhuǎn)換格式后丟失信息等棘手問題,嚴(yán)重阻礙了數(shù)據(jù)在各部門和各軟件系統(tǒng)中的流動與共享。
數(shù)據(jù)集成的核心任務(wù)是要將分布式異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明和統(tǒng)一的方式訪問這些數(shù)據(jù)源。集成是指維護(hù)數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享率。透明的方式是指用戶無需關(guān)心如何實現(xiàn)對異構(gòu)數(shù)據(jù)源數(shù)據(jù)的訪問,以及如何組織系統(tǒng)中的數(shù)據(jù)。數(shù)據(jù)集成可以將數(shù)據(jù)內(nèi)容、格式、質(zhì)量進(jìn)行統(tǒng)一,便于共享。因此,它是解決數(shù)據(jù)共享的關(guān)鍵。
為了支持正確決策,就要求集成系統(tǒng)管理的數(shù)據(jù)可靠、一致、沒有錯誤、能準(zhǔn)確地描述實際情況。指代同一現(xiàn)實世界對象的多條記錄,如果它們的屬性值存在不一致現(xiàn)象,這就稱為實例層數(shù)據(jù)不一致。實例層數(shù)據(jù)不一致的消除可以使數(shù)據(jù)內(nèi)容統(tǒng)一,是保障數(shù)據(jù)集成質(zhì)量的關(guān)鍵步驟。
目前處理實例層不一致性問題的主要方法包括三類:基于沖突產(chǎn)生原因的處理策略、基于SQL方法及自定義函數(shù)的處理策略、基于集成質(zhì)量評估的處理策略。第一類方法使用了相似度計算來檢測或排除實例層的不一致,在數(shù)據(jù)源無偏向性的情況下,這類方法針對字符形式的數(shù)據(jù)處理十分有效。但是這類方法沒有考慮數(shù)據(jù)源的偏向性,某些情況無法做出正確判斷,且對非字符形式的實例層不一致無法有效解決;第二類方法給出了集成異構(gòu)數(shù)據(jù)源的操作,處理實例層不一致問題的策略簡單易行,效率高。但是它們對數(shù)據(jù)不一致處理操作可控性不足,無法預(yù)知集成結(jié)果,缺乏質(zhì)量評估,無法滿足高質(zhì)量數(shù)據(jù)集成的要求;第三類方法考慮了數(shù)據(jù)源的質(zhì)量評估,有效提高了數(shù)據(jù)集成的質(zhì)量,在對集成數(shù)據(jù)質(zhì)量要求高的環(huán)境下,這類方法較為合適。但是這類方法只考慮了數(shù)據(jù)源的質(zhì)量,而沒有考慮到分布式環(huán)境下其它要素的評估。同時,這一類方法對數(shù)據(jù)不一致性處理方式單一,集成效率不高,不適合海量數(shù)據(jù)集成。
在實際數(shù)據(jù)集成工作中,由于數(shù)據(jù)量呈現(xiàn)海量趨勢,傳統(tǒng)方法只靠單一處理方式顯得不足。如果采用復(fù)雜的方法,數(shù)據(jù)集成結(jié)果精度提高了,但是效率很低;如果采用簡單方法,效率提高了,但是缺乏準(zhǔn)確度。因此,我們希望提出一種二階段數(shù)據(jù)集成方法,先對集成情況進(jìn)行判斷,區(qū)分出實例層的強(qiáng)弱沖突。然后根據(jù)判斷情況,分別使用強(qiáng)沖突處理方法和弱沖突處理方法來實現(xiàn)集成。并且為了提高強(qiáng)沖突時集成的準(zhǔn)確度,我們對存儲節(jié)點采用模糊優(yōu)先級評估,消除主觀誤差。所以,我們的方法在提高集成效率的同時,盡量提高結(jié)果準(zhǔn)確度。發(fā)明內(nèi)容
發(fā)明目的:本發(fā)明針對現(xiàn)有數(shù)據(jù)集成方法中集成效率與結(jié)果準(zhǔn)確度無法同時平衡的不足,本發(fā)明提供一種基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法。先確定待集成記錄所屬分布式存儲節(jié)點的優(yōu)先級指標(biāo)及每個指標(biāo)的權(quán)重,采用三角模糊數(shù)來表示模糊優(yōu)先級;數(shù)據(jù)集成時,根據(jù)投票機(jī)制區(qū)分出實例層的強(qiáng)弱沖突;若為弱沖突,則采用多數(shù)一致屬性值作為集成后的結(jié)果;若為強(qiáng)沖突,則通過構(gòu)建去模糊化的融合決策矩陣,計算每條記錄與正理想解的隸屬度來決定集成所采用的屬性值。本發(fā)明保證了海量數(shù)據(jù)集成中的集成效率并提高了集成結(jié)果精度。
技術(shù)方案:一種基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,一種基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,其特征在于,包括模糊優(yōu)先級模型建立和二階段實例層數(shù)據(jù)集成,其中:所述模糊優(yōu)先級模型建立包括分布式存儲節(jié)點優(yōu)先級指標(biāo)的設(shè)置、優(yōu)先級指標(biāo)的模糊化表示;所述二階段實例層數(shù)據(jù)集成包括利用投票機(jī)制的強(qiáng)弱沖突判斷、弱沖突解決以及強(qiáng)沖突解決;
實現(xiàn)步驟如下:
步驟1,為分布式存儲節(jié)點進(jìn)行優(yōu)先級指標(biāo)定性判斷,然后采用三角模糊數(shù)對優(yōu)先級指標(biāo)進(jìn)行表示,同時為各個優(yōu)先級指標(biāo)根據(jù)應(yīng)用需求賦以權(quán)值;
步驟2,對于發(fā)生實例層沖突的記錄項,按照集成準(zhǔn)確度的需求選用三分之二投票制或半數(shù)投票制的方法區(qū)分出強(qiáng)弱沖突;
若沖突為弱沖突,則轉(zhuǎn)向步驟3 ;否則,轉(zhuǎn)向步驟4 ;
步驟3,對于弱沖突情況,采用多數(shù)屬性值一致的記錄作為集成后的輸出結(jié)果,轉(zhuǎn)向步驟5 ;
步驟4,對于強(qiáng)沖突情況,根據(jù)記錄所來源的分布式存儲節(jié)點優(yōu)先級指標(biāo)進(jìn)行集成,包括獲取融合矩陣、規(guī)格化、構(gòu)建融合決策矩陣、去模糊化、計算與正理想解和負(fù)理想解的距離、綜合評估步驟,執(zhí)行完畢后轉(zhuǎn)向步驟5 ;
步驟5,若存在記錄未集成,則重復(fù)步驟2 ;否則,集成完畢。
所述基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法中,步驟4的具體實施步驟如下:
步驟4-1,將η條來自不同分布式節(jié)點的待集成記錄,按照它們所屬節(jié)點的三個優(yōu)先級指標(biāo)建立融合矩陣;
步驟4-2,根據(jù)步驟4-1所得到的融合矩陣中三角模糊數(shù)的值情況,按照公式2或者公式3進(jìn)行成本型指標(biāo)或收益型指標(biāo)的規(guī)格化;
步驟4-3,將步驟I所獲得的優(yōu)先級指標(biāo)權(quán)值與步驟4-2獲得的規(guī)格化融合矩陣按公式4構(gòu)建融合決策矩陣;
步驟4-4,對步驟4-3獲得的融合決策矩陣去模糊化處理;
步驟4-5,對步驟4-4獲得的去模糊化后的融合決策矩陣,計算每條記錄與正理想解和負(fù)理想解的距離;
步驟4-6,按照步驟4-5的處理結(jié)果,計算每條記錄與正理想解的隸屬度,并按照隸屬度排序,隸屬度最大的記錄所存儲的屬性即為集成后的結(jié)果,結(jié)束步驟4。
所述分布式存儲節(jié)點優(yōu)先級包括置信度、可用性、出錯性三個指標(biāo)。置信度指標(biāo)描述了分布式存儲節(jié)點所提供數(shù)據(jù)的準(zhǔn)確度及權(quán)威性;可用性指標(biāo)描述了節(jié)點上的數(shù)據(jù)在某一時段的可用程度;出錯性指標(biāo)描述了節(jié)點運行的穩(wěn)定性及發(fā)生故障的可能性;
所述優(yōu)先級指標(biāo)從其影響關(guān)系上可以分為兩類:成本型指標(biāo)和收益型指標(biāo)。成本型指標(biāo)值越大,表明其成本越低,優(yōu)先級越高,例如出錯性指標(biāo);反之,收益型的指標(biāo)值越大,表明其收益越高,優(yōu)先級越高,例如置信度指標(biāo)及可用性指標(biāo);
所述優(yōu)先級指標(biāo)在優(yōu)先級模型中存在權(quán)重關(guān)系,描述了各個指標(biāo)在優(yōu)先級中的作用程度,用權(quán)重向量W=W1, W2, W3)表示。其中Wj表示分布式存儲節(jié)點的第j個優(yōu)先級指標(biāo)權(quán)值,且
權(quán)利要求
1.一種基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,其特征在于,包括模糊優(yōu)先級模型建立和二階段實例層數(shù)據(jù)集成,其中:所述模糊優(yōu)先級模型建立包括分布式存儲節(jié)點優(yōu)先級指標(biāo)的設(shè)置、優(yōu)先級指標(biāo)的模糊化表示;所述二階段實例層數(shù)據(jù)集成包括利用投票機(jī)制的強(qiáng)弱沖突判斷、弱沖突解決以及強(qiáng)沖突解決; 實現(xiàn)步驟如下: 步驟I,為分布式存儲節(jié)點進(jìn)行優(yōu)先級指標(biāo)定性判斷,然后采用三角模糊數(shù)對優(yōu)先級指標(biāo)進(jìn)行表示,同時為各個優(yōu)先級指標(biāo)根據(jù)應(yīng)用需求賦以權(quán)值; 步驟2,對于發(fā)生實例層沖突的記錄項,按照集成準(zhǔn)確度的需求選用三分之二投票制或半數(shù)投票制的方法區(qū)分出強(qiáng)弱沖突; 若沖突為弱沖突,則轉(zhuǎn)向步驟3 ;否則,轉(zhuǎn)向步驟4 ; 步驟3,對于弱沖突情況,采用多數(shù)屬性值一致的記錄作為集成后的輸出結(jié)果,轉(zhuǎn)向步驟5 ; 步驟4,對于強(qiáng)沖突情況,根據(jù)記錄所來源的分布式存儲節(jié)點優(yōu)先級指標(biāo)進(jìn)行集成,包括獲取融合矩陣、規(guī)格化、構(gòu)建融合決策矩陣、去模糊化、計算與正理想解和負(fù)理想解的距離、綜合評估步驟,執(zhí)行完畢后轉(zhuǎn)向步驟5 ; 步驟5,若存在記錄未集成,則重復(fù)步驟2 ;否則,集成完畢。
2.根據(jù)權(quán)利要求1所述的基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,其特征在于,所述步驟4的具體實施步驟如下: 步驟4-1,將η條來自不同分布式存儲節(jié)點的待集成記錄,按照它們所屬節(jié)點的優(yōu)先級指標(biāo)建立融合矩陣; 步驟4-2,根據(jù)步驟4-1所得到的融合矩陣中三角模糊數(shù)的值情況,進(jìn)行成本型指標(biāo)或收益型指標(biāo)的規(guī)格化; 步驟4-3,通過步驟I所獲得的優(yōu)先級指標(biāo)權(quán)值與步驟4-2獲得的規(guī)格化融合矩陣構(gòu)建融合決策矩陣; 步驟4-4,對步驟4-3獲得的融合決策矩陣去模糊化處理; 步驟4-5,對步驟4-4獲得的去模糊化后的融合決策矩陣,計算每條記錄與正理想解和負(fù)理想解的距離; 步驟4-6,按照步驟4-5的處理結(jié)果,計算每條記錄與正理想解的隸屬度,并按照隸屬度排序,隸屬度最大的記錄所存儲的屬性即為集成后的結(jié)果,結(jié)束步驟4。
3.根據(jù)權(quán)利要求2所述的基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,其特征在于,所述分布式存儲節(jié)點優(yōu)先級包括置信度、可用性、出錯性三個指標(biāo);置信度指標(biāo)描述了分布式存儲節(jié)點所提供數(shù)據(jù)的準(zhǔn)確度及權(quán)威性;可用性指標(biāo)描述了分布式存儲節(jié)點上的數(shù)據(jù)在某一時段的可用程度;出錯性指標(biāo)描述了分布式存儲節(jié)點運行的穩(wěn)定性及發(fā)生故障的可能性; 所述優(yōu)先級指標(biāo)從其影響關(guān)系上可以分為兩類:成本型指標(biāo)和收益型指標(biāo);成本型指標(biāo)值越大,表明其成本越低,優(yōu)先級越高;反之,收益型的指標(biāo)值越大,表明其收益越高,優(yōu)先級越高; 所述優(yōu)先級指標(biāo)在優(yōu)先級模型中存在權(quán)重關(guān)系,描述了各個指標(biāo)在優(yōu)先級中的作用程度,用權(quán)重向量W= (W1, W2, W3)表示;其中Wj表示分布式存儲節(jié)點的第j個優(yōu)先級指標(biāo)權(quán)值,且
4.根據(jù)權(quán)利要求3所述的基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,其特征在于,所述優(yōu)先級指標(biāo)的模糊化指的是對分布式存儲節(jié)點的優(yōu)先級指標(biāo)采用三角模糊數(shù)進(jìn)行描述;三角模糊數(shù)用來表示,其中Hl1表示M所支撐的上界,IIV表示M所支撐的下界,m表示M的中值;去模糊化的計算公式如下:
5.根據(jù)權(quán)利要求4所述的基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,其特征在于,所述二階段實例層數(shù)據(jù)集成指的是用投票機(jī)制將實例層沖突區(qū)分為強(qiáng)沖突與弱沖突;對于弱沖突采用簡化的集成方式進(jìn)行處理;對于強(qiáng)沖突采用依據(jù)分布式節(jié)點優(yōu)先級的關(guān)系進(jìn)行處理;即對于任何實例層數(shù)據(jù)的集成均分為沖突判斷與沖突解決兩個階段進(jìn)行; 所述投票機(jī)制分為三分之二投票制與半數(shù)投票制兩種;三分之二投票制指的是在現(xiàn)有的記錄里滿足:有不低于三分之二的記錄對于發(fā)生沖突的屬性它們的屬性值是一致的;半數(shù)投票制指的是在現(xiàn)有記錄里滿足:指代現(xiàn)實世界同一對象的記錄超過2條,且發(fā)生了屬性值的沖突,同時,它們中有不低于一半的記錄屬性值是一致的; 所述弱沖突指數(shù)據(jù)集成過程中,實例層的沖突現(xiàn)象滿足三分之二投票制或半數(shù)投票制的情況; 所述強(qiáng)沖突指數(shù)據(jù)集成過程中,實例層的沖突現(xiàn)象不滿足三分之二投票制與半數(shù)投票制的情況; 所述弱沖突解決方法為:在三分之二投票制中,有不低于三分之二的記錄,對于發(fā)生沖突的屬性它們的屬性值是一致的,則此時將以這些一致的屬性值作為集成后的數(shù)據(jù)對外顯示;在半數(shù)投票制中,有不低于一半的記錄,對于發(fā)生沖突的屬性它們的屬性值是一致的,則將以這些一致的屬性值作為集成后的數(shù)據(jù)對外顯示。
6.根據(jù)權(quán)利要求5所述的基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,其特征在于,所述融合矩陣為Fnx3= (fu)nX3,其中η表示有η條來自不同分布式節(jié)點的記錄待集成;.3表示每個分布式存儲節(jié)點的3個優(yōu)先級指標(biāo)表示第i條記錄所屬的分布式節(jié)點的第j個優(yōu)先級指標(biāo); 所述規(guī)格化是為了便于數(shù)據(jù)的評估和比較,將分布式存儲節(jié)點優(yōu)先級指標(biāo)規(guī)格化至一個統(tǒng)一的量綱。對于fu=(au,bu,cu),成本型指標(biāo)的值規(guī)格方式如下:
7.根據(jù)權(quán)利要求6所述的基于模糊優(yōu)先級的ニ階段實例層數(shù)據(jù)集成方法,其特 征在于,所述構(gòu)建融合決策矩陣是指將優(yōu)先級指標(biāo)權(quán)值加入融合矩陣;若權(quán)重向量 W= (w1; w2, w3),規(guī)格化后的rij= {aip b^-, cj ,則融合決策矩陣如下dij = (aj,bij',Cij') = Wj (a^-, b^-, cj,(1 彡 i 彡 n, 1 彡 j 彡 3) 公式 4 其中,du表示融合決策矩陣中的每ー個元素。
8.根據(jù)權(quán)利要求7所述的基于模糊優(yōu)先級的ニ階段實例層數(shù)據(jù)集成方法,其特 征在于,所述計算與正理想解和負(fù)理想解的距離中,正理想解向量由M+表示,定義為 M* =(M;M;),且M; = max作,(丨51Sit, 1S/ S3);負(fù)理想解向量由M_表示,定義為
全文摘要
本發(fā)明公開了一種基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法,屬于數(shù)據(jù)集成技術(shù)領(lǐng)域。所述二階段實例層數(shù)據(jù)集成方法首先確定待集成記錄所屬分布式存儲節(jié)點的優(yōu)先級指標(biāo)及每個指標(biāo)的權(quán)重,并采用三角模糊數(shù)來表示模糊優(yōu)先級;數(shù)據(jù)集成時,根據(jù)投票機(jī)制區(qū)分出實例層的強(qiáng)弱沖突;若為弱沖突,則采用多數(shù)一致屬性值作為集成后的結(jié)果;若為強(qiáng)沖突,則通過構(gòu)建去模糊化的融合決策矩陣,計算每條記錄與正理想解的隸屬度來決定集成所采用的屬性值。本發(fā)明解決了在海量數(shù)據(jù)集成中集成效率低或集成結(jié)果精度低等問題。
文檔編號G06F17/30GK103164531SQ201310116388
公開日2013年6月19日 申請日期2013年4月3日 優(yōu)先權(quán)日2013年4月3日
發(fā)明者馮鈞, 盛震宇, 唐志賢, 李士進(jìn), 朱躍龍, 萬定生, 徐黎明, 馮讀慶, 許瀟, 姜康, 陳煥霖, 劉子源, 朱康康, 史涯晴 申請人:河海大學(xué)