專(zhuān)利名稱(chēng):一種基于一階邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)對(duì)應(yīng)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)遷移、數(shù)據(jù)集成領(lǐng)域,具體涉及一種高匹配效率和準(zhǔn)確率的基于一階邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)對(duì)應(yīng)方法。
背景技術(shù):
隨著網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,數(shù)據(jù)的種類(lèi)和數(shù)量也在不斷的增加,因此,對(duì)于異構(gòu)數(shù)據(jù)的共享和相互之間的轉(zhuǎn)換等技術(shù)問(wèn)題也變成迫切需要解決的問(wèn)題。在語(yǔ)義WEB、數(shù)據(jù)倉(cāng)庫(kù)、P2P數(shù)據(jù)庫(kù)、模式集成和電子商務(wù)等領(lǐng)域,都對(duì)異構(gòu)數(shù)據(jù)的共享和相互之間的轉(zhuǎn)換進(jìn)行了深入的研究。模式匹配作為實(shí)現(xiàn)異構(gòu)數(shù)據(jù)共享的第一步,在整個(gè)數(shù)據(jù)處理過(guò)程中起到了不能替代的作用。目前實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的轉(zhuǎn)換等工作大都是由操作人員手工進(jìn)行,這就要求操作人員必須對(duì)數(shù)據(jù)庫(kù)的信息,比如模式結(jié)構(gòu)和模式中元素的語(yǔ)義都很熟悉,這樣才能夠完成對(duì)異構(gòu)數(shù)據(jù)的共享和轉(zhuǎn)換,因此對(duì)異構(gòu)系統(tǒng)數(shù)據(jù)的處理是一個(gè)比較復(fù)雜的過(guò)程。隨著業(yè)務(wù)復(fù)雜度和系統(tǒng)復(fù)雜度的不斷增加,系統(tǒng)所需要的數(shù)據(jù)的復(fù)雜程度,都比現(xiàn)有 的數(shù)據(jù)情況要復(fù)雜的多,在這種情況下,單純依靠人工來(lái)完成異構(gòu)數(shù)據(jù)集成過(guò)程,顯然太困難,因此對(duì)異構(gòu)數(shù)據(jù)集成的自動(dòng)化需求就越來(lái)越迫切。到目前為止,對(duì)數(shù)據(jù)對(duì)應(yīng)的方法研究也取得了一些成果。2000年NorthwesternUniversity 開(kāi)發(fā)的 SemInt (A Tool for Identifying Attribute Correspondences inHeterogeneous Database Using Neural Networks)是一個(gè)應(yīng)用混合匹配技術(shù)的模式匹配系統(tǒng),它主要應(yīng)用神經(jīng)網(wǎng)絡(luò)技術(shù)去確定匹配候選集,并在兩個(gè)模式的單屬性間建立一個(gè)映射,匹配基數(shù)是 I: I ;2001 年 VLDB (Very Large Data Base)會(huì)議上提出的 Cupid (Genericschema matching with Cupid)是一種通用化的混合匹配方法,將名字匹配器與結(jié)構(gòu)化匹配算法相結(jié)合,根據(jù)這個(gè)結(jié)構(gòu)化算法可以推導(dǎo)出屬性的相似度,而屬性的相似度是根據(jù)屬性組件(主要是屬性名字和屬性的數(shù)據(jù)結(jié)構(gòu))的相似性得出;2002年VLDB會(huì)議上提出的COMA (A System for Flexible Combination of Schema Matching Approaches)是一種合成的模式匹配方法,它提供一個(gè)承載了多個(gè)不同匹配器的外部知識(shí)庫(kù),并且支持多種結(jié)合匹配結(jié)果的方法;2002 年 ICDE (International Conference on Data Engineering)會(huì)議上提出的 SF(Similarity Flooding A Versatile Graph Matching Algorithm)是一種基于模式結(jié)構(gòu)相似度的匹配方法;2004 年 SIGMOD (Special Interest Group on Managementof Data)會(huì)議上提出的 iMap (Discovering complex semantic matches between databaseschemas)是一種基于模式信息和實(shí)例信息的混合匹配方法;2005年I⑶E會(huì)議上提出的基于副本的模式匹配方法主要利用被匹配模式的數(shù)據(jù)集中存在的重疊數(shù)據(jù)來(lái)指明模式間的匹配關(guān)系,是一種基于實(shí)例的模式匹配技術(shù);2005年國(guó)防科技大學(xué)在NDBC(NationalData Base Conference)會(huì)議上提出的 SMDD(Schema Mapping Method based on DataDistribution)是一種基于數(shù)據(jù)實(shí)例分析特征的模式匹配方法;2009_2010年李國(guó)徽等提出了基于函數(shù)依賴(lài)的結(jié)構(gòu)匹配方法和基于部分函數(shù)依賴(lài)的結(jié)構(gòu)匹配方法。前面所述的方法雖然能夠解決模式匹配中的一些匹配問(wèn)題,但是并不完善,并且對(duì)于歷史的匹配信息并沒(méi)有加以利用,導(dǎo)致下次再進(jìn)行數(shù)據(jù)對(duì)應(yīng)的操作時(shí),仍然需要對(duì)一些已知規(guī)則的匹配利用匹配算法進(jìn)行重新匹配,這樣既浪費(fèi)的時(shí)間也影響了匹配的準(zhǔn)確率。而本發(fā)明則充分利用了歷史匹配的知識(shí),通過(guò)利用一階邏輯和神經(jīng)網(wǎng)絡(luò)對(duì)已完成匹配模式中的信息進(jìn)行訓(xùn)練,來(lái)完成整個(gè)數(shù)據(jù)對(duì)應(yīng)的過(guò)程。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種匹配時(shí)間更短、準(zhǔn)確率更高的基于一階邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)對(duì)應(yīng)方法。本發(fā)明的目的是這樣實(shí)現(xiàn)的本發(fā)明包括如下步驟
(I)分析已完成匹配的數(shù)據(jù)模式,建立待匹配模式的表和字段形式的格式;(2)將選擇訓(xùn)練的模式轉(zhuǎn)換為表向量,存放在待匹配表訓(xùn)練集合中,包括表名、正樣本數(shù)據(jù)、負(fù)樣本數(shù)據(jù)和斷言集合;(3)使用一階邏輯的表特征提取算法對(duì)集合中的表進(jìn)行特征提?。?4)存儲(chǔ)提取的表的特征;(5)使用提取的表的特征字段對(duì)待匹配模式中的待匹配表進(jìn)行匹配;(6)通過(guò)生成反饋的神經(jīng)網(wǎng)絡(luò)算法對(duì)已完成匹配的模式中的字段進(jìn)行訓(xùn)練,修正字段的表示形式和建立的神經(jīng)網(wǎng)絡(luò);(7)使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)和修正后的字段表示格式,對(duì)已完成匹配的表進(jìn)行字段匹配。表的格式形式化為六元組T= (N,Ne,K,Ke,S。,D),其中N為表名,Ne為表名的中文解釋?zhuān)琄為主鍵,Ke為主鍵的中文含義,S。為除主鍵之外的各個(gè)字段的名稱(chēng)和中文含義的集合,D為當(dāng)前表中數(shù)據(jù)量的大小;對(duì)于表中字段采用十六元組Tattribute = (Dl, Le, Pe, Ct, Nt, Dt, Pk, Fk, Nu, Cv, Df, Max, Min, Ave, Var, StaDev),其中,Dl為字段名的長(zhǎng)度,Le為數(shù)據(jù)的長(zhǎng)度,Pr為數(shù)據(jù)的精度,Ct為字符類(lèi)型,Nt為數(shù)字類(lèi)型,Dt為日期類(lèi)型,Pk為主鍵,F(xiàn)k為外鍵,Nu為是否為空,Cv為唯一性約束,Df為默認(rèn)值,Max為數(shù)據(jù)最大值,Min為數(shù)據(jù)最小值,Ave為數(shù)據(jù)平均值,Var為數(shù)據(jù)方差,StaDev為數(shù)據(jù)標(biāo)準(zhǔn)差。對(duì)待匹配模式中的待匹配表進(jìn)行匹配的具體步驟包括(I)提取待匹配模式中表的表名以及表中含有的字段名;(2)順序遍歷提取的表名和字段名,在遍歷的過(guò)程中,查找表規(guī)則集合,檢索是否有表滿(mǎn)足其中的規(guī)則,如果滿(mǎn)足其規(guī)則,則將該表與表規(guī)則中的表進(jìn)行匹配,標(biāo)記已完成匹配的表;(3)繼續(xù)遍歷,直到所有表都遍歷完成為止,反饋匹配結(jié)果。生成反饋的神經(jīng)網(wǎng)絡(luò)算法包括如下步驟(I)構(gòu)建初始的生成反饋網(wǎng)絡(luò),其輸入層的神經(jīng)元的個(gè)數(shù)為N,輸出層神經(jīng)元個(gè)數(shù)為M ;(2)對(duì)生成反饋網(wǎng)絡(luò)中的各個(gè)參數(shù)進(jìn)行賦值,包括對(duì)其學(xué)習(xí)率r、網(wǎng)絡(luò)的權(quán)重值w和每個(gè)單元的偏倚值9 ,其中網(wǎng)絡(luò)的學(xué)習(xí)率的r的取值范圍為(0.0彡r彡1.0),網(wǎng)絡(luò)權(quán)重w和每個(gè)單元的偏倚0的取值范圍分別為-I. 0彡w彡I. 0和-I. 0彡0 ^ 1.0 ;(3)對(duì)構(gòu)建的生成反饋網(wǎng)絡(luò)進(jìn)行正向和逆向誤差傳播,同時(shí)修正權(quán)值和偏倚值;(4)將訓(xùn)練數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)使用生成反饋的神經(jīng)網(wǎng)絡(luò)算法對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)和連接進(jìn)行剪枝操作,同時(shí)對(duì)字段的初始十六元組形式進(jìn)行修正。本發(fā)明的有益效果在于本發(fā)明通過(guò)將一階邏輯與人工智能領(lǐng)域的神經(jīng)網(wǎng)絡(luò)融合有效的減少了數(shù)據(jù)匹配的時(shí)間。通過(guò)基于一階邏輯的表特征提取算法來(lái)對(duì)表特征進(jìn)行提取匹配,然后利用生成反饋的神經(jīng)網(wǎng)絡(luò)的算法對(duì)字段分類(lèi),進(jìn)行匹配,減少了在數(shù)據(jù)對(duì)應(yīng)過(guò)程中的時(shí)間,提聞了匹配的效率和準(zhǔn)確率。
圖I是基于一階邏輯的表特征提取算法流程圖;圖2是利用提取的特征進(jìn)行表匹配流程圖;圖3是生成反饋的神經(jīng)網(wǎng)絡(luò)算法的流程圖。
具體實(shí)施例方式下面結(jié)合附圖舉例對(duì)本發(fā)明做更詳細(xì)地描述(I)主要處理過(guò)程圖I 為基于一階邏輯的表特征提取 TIAFL (Table Information AcquisitionBased on First-order Logic)算法流程圖,該算法來(lái)對(duì)表特征進(jìn)行提取,其步驟可以概括為首先,將選擇的訓(xùn)練模式進(jìn)行表向量表示,存放在集合中,其中包括表名、正樣本數(shù)據(jù)、負(fù)樣本數(shù)據(jù)和斷言集合;其次,使用一階邏輯的表特征提取算法對(duì)集合中的各個(gè)表進(jìn)行特征提取;最后,將提取的各個(gè)表的特征存儲(chǔ),以便后面使用進(jìn)行表識(shí)別。圖2利用提取的特征進(jìn)行表匹配流程圖,其步驟可以概括為首先,將待匹配模式中的表信息進(jìn)行提取,將結(jié)果存放在表匹配集合中;其次,遍歷待匹配模式中的表匹配集合中是否存在元素,若存在元素,則遍歷提取的表特征規(guī)則集合,查看是否滿(mǎn)足其中的規(guī)則,如果滿(mǎn)足,則將匹配的結(jié)果加入到表匹配結(jié)果中去。若待匹配模式中的表匹配集合中不存在元素,則匹配結(jié)束;最后,將得到的匹配結(jié)果返回給用戶(hù)。圖3為生成反饋的神經(jīng)網(wǎng)絡(luò)算法流程圖,其步驟可以分為兩個(gè)階段第一階段為生成階段,該階段主要是對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對(duì)其中的各個(gè)參數(shù)進(jìn)行確定;第二階段為反饋階段,對(duì)神經(jīng)網(wǎng)絡(luò)的各個(gè)初始節(jié)點(diǎn)進(jìn)行剪枝操作,然后將結(jié)果反饋給字段的表示形式。(2)具體算法圖I為T(mén)IAFL算法流程圖,該算法來(lái)對(duì)表特征進(jìn)行提取,其具體算法如下ITIAFL 算法I)掃描已完成匹配模式中的表信息,將表中樣本數(shù)據(jù)存儲(chǔ)在TableInfoList中;2)從TableInfoList中提取表名、正樣本數(shù)據(jù)、負(fù)樣本數(shù)和斷言集合,用來(lái)初始化正樣本數(shù)據(jù)Pos、負(fù)樣本數(shù)據(jù)Neg、斷言集合Predicates,同時(shí)初始化學(xué)習(xí)到的規(guī)則Learned—rules ;3)遍歷Pos集合,如果為空,則算法結(jié)束;如果不為空,則轉(zhuǎn)到步驟4 ;
4)遍歷Neg集合,如果不為空,貝U基于Predicates生成候選文字,然后利用評(píng)估函數(shù)來(lái)評(píng)估候選文字,選取最佳的文字加入到NewRule,然后重新計(jì)算滿(mǎn)足現(xiàn)在條件的Neg集合,循環(huán)執(zhí)行,直到Neg集合空為止。5)將提取的規(guī)則加入到Learned_rules中,然后重新計(jì)算Pos中滿(mǎn)足規(guī)則的樣本數(shù)據(jù),循環(huán)執(zhí)行,直到所有表都規(guī)則提取完成,然后將表名和提取的該表的字段特征反饋給用戶(hù),以便下面進(jìn)行表匹配。2利用提取的表特征進(jìn)行表匹配I)提取待匹配模式中的表信息,提取待匹配模式中的各表的表名以及其表中含有的字段名;2)順序遍歷提取的表信息,在遍歷的過(guò)程中,查找算法I得到的表規(guī)則集合,看是否有表滿(mǎn)足其中的規(guī)則,如果滿(mǎn)足其規(guī)則,則將該表與表規(guī)則中的表進(jìn)行匹配;3)從表信息集合中標(biāo)記已完成匹配的表,繼續(xù)遍歷,循環(huán)執(zhí)行步驟2,直到所有表·都遍歷完成為止;4)將匹配的結(jié)果反饋給用戶(hù),完成表級(jí)匹配。3生成反饋的神經(jīng)網(wǎng)絡(luò)算法生成反饋的神經(jīng)網(wǎng)絡(luò)算法的步驟可以主要分為以下幾步(I)構(gòu)建初始的生成反饋網(wǎng)絡(luò),其輸入層的神經(jīng)元的個(gè)數(shù)為N,其中N為描述字段屬性的個(gè)數(shù);輸出層神經(jīng)元個(gè)數(shù)為M,其中M為經(jīng)過(guò)SOM分類(lèi)之后的類(lèi)別數(shù)量;本文中采用的隱含層的神經(jīng)元個(gè)數(shù)為(M+N)/2。(2)對(duì)生成反饋網(wǎng)絡(luò)中的各個(gè)參數(shù)進(jìn)行賦值,包括對(duì)其學(xué)習(xí)率r、網(wǎng)絡(luò)的權(quán)重值w和每個(gè)單元的偏倚值0。其中網(wǎng)絡(luò)的學(xué)習(xí)率的r的取值范圍為(0. OS r < I. 0),網(wǎng)絡(luò)權(quán)重w和每個(gè)單元的偏倚0的取值范圍分別為-1.0彡w彡1.0和-1.0彡0彡I. O。(3)對(duì)生成反饋網(wǎng)絡(luò)中的各個(gè)參數(shù)賦值完成之后,對(duì)構(gòu)建的生成反饋網(wǎng)絡(luò)進(jìn)行正向和逆向的誤差傳播,同時(shí)修正權(quán)值和偏倚值,直至滿(mǎn)足上一次誤差傳播的所有的Aw都不大于設(shè)置的參數(shù)值或者其誤差率小于指定的設(shè)定值或者其傳播的次數(shù)達(dá)到事先設(shè)置的數(shù)值為止。第一階段訓(xùn)練結(jié)束。(4)將經(jīng)過(guò)第一階段訓(xùn)練的神經(jīng)網(wǎng)絡(luò)作為反饋階段輸入,同時(shí)使用訓(xùn)練集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行再次訓(xùn)練。(5)定義動(dòng)態(tài)數(shù)組Array記錄每個(gè)神經(jīng)元的信息和邏輯變量Hagrairoved,動(dòng)態(tài)數(shù)組Array2,來(lái)存放字段屬性形式化表示的16個(gè)指標(biāo)。(6)遍歷輸入層的每個(gè)神經(jīng)元,同時(shí)將遍歷到的神經(jīng)元從神經(jīng)網(wǎng)絡(luò)除去,然后使用除去節(jié)點(diǎn)之后的神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練,如果仍然能夠?qū)γ總€(gè)訓(xùn)練樣本進(jìn)行正確的分類(lèi),則除去該節(jié)點(diǎn)以及與該節(jié)點(diǎn)的連接,同時(shí)刪除在數(shù)組Array2中該節(jié)點(diǎn)所對(duì)應(yīng)的屬性項(xiàng);如果不能,則恢復(fù)該節(jié)點(diǎn),繼續(xù)遍歷下一神經(jīng)元,重復(fù)進(jìn)行上面操作,直至所有的神經(jīng)元遍歷結(jié)束。(7)使用經(jīng)過(guò)二次訓(xùn)練之后的神經(jīng)網(wǎng)絡(luò)作為進(jìn)行字段匹配的網(wǎng)絡(luò)對(duì)待匹配模式進(jìn)行字段匹配,同時(shí)在提取字段屬性的特征向量的時(shí)候,采用的數(shù)據(jù)標(biāo)準(zhǔn)為經(jīng)過(guò)上一步修正的數(shù)據(jù)標(biāo)準(zhǔn)。⑶實(shí)驗(yàn)分析
本發(fā)明的實(shí)驗(yàn)采用了的六個(gè)地區(qū)的數(shù)據(jù)作為待匹配模式,一個(gè)標(biāo)準(zhǔn)模式作為目標(biāo)模式。該六個(gè)地區(qū)的已經(jīng)經(jīng)過(guò)人工完成與目標(biāo)模式之間的匹配,其匹配的詳細(xì)信息如表I所示。同時(shí)在進(jìn)行實(shí)驗(yàn)的時(shí)候,采取其中的X市、H市、B市和C市作為訓(xùn)練數(shù)據(jù)集,Y市和Q省則作為測(cè)試數(shù)據(jù)集。表I
權(quán)利要求
1.一種基于一階邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)對(duì)應(yīng)方法,其特征在于,包括如下步驟 (1)分析已完成匹配的數(shù)據(jù)模式,建立待匹配模式的表和字段形式的格式; (2)將選擇訓(xùn)練的模式轉(zhuǎn)換為表向量,存放在待匹配表訓(xùn)練集合中,包括表名、正樣本數(shù)據(jù)、負(fù)樣本數(shù)據(jù)和斷言集合; (3)使用一階邏輯的表特征提取算法對(duì)集合中的表進(jìn)行特征提取; (4)存儲(chǔ)提取的表的特征; (5)使用提取的表的特征字段對(duì)待匹配模式中的待匹配表進(jìn)行匹配; (6)通過(guò)生成反饋的神經(jīng)網(wǎng)絡(luò)算法對(duì)已完成匹配的模式中的字段進(jìn)行訓(xùn)練,修正字段的表示形式和建立的神經(jīng)網(wǎng)絡(luò); (7)使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)和修正后的字段表示格式,對(duì)已完成匹配的表進(jìn)行字段匹配。
2.根據(jù)權(quán)利要求I所述的一種基于一階邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)對(duì)應(yīng)方法,其特征在于,所述表的格式形式化為一個(gè)六元組 T = (N,m S。,D),其中N為表名,凡為表名的中文解釋?zhuān)琄為主鍵,Ke為主鍵的中文含義,S。為除主鍵之外的各個(gè)字段的名稱(chēng)和中文含義的集合,D為當(dāng)前表中數(shù)據(jù)量的大??; 對(duì)于表中字段采用十六元組 Tattribute = (Dl, Le, Pe, Ct, Nt, Dt, Pk, Fk, Nu, Cv, Df, Max, Min, Ave, Var,StaDev),其中,Dl 為字段名的長(zhǎng)度,LeS數(shù)據(jù)的長(zhǎng)度,已為數(shù)據(jù)的精度,Ct為字符類(lèi)型,Nt為數(shù)字類(lèi)型,Dt為日期類(lèi)型,Pk為主鍵,F(xiàn)k為外鍵,Nu為是否為空,Cv為唯一性約束,Df為默認(rèn)值,Max為數(shù)據(jù)最大值,Min為數(shù)據(jù)最小值,Ave為數(shù)據(jù)平均值,Var為數(shù)據(jù)方差,StaDev為數(shù)據(jù)標(biāo)準(zhǔn)差。
3.根據(jù)權(quán)利要求I或2所述的一種基于一階邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)對(duì)應(yīng)方法,其特征在于,所述對(duì)待匹配模式中的待匹配表進(jìn)行匹配的具體步驟包括 (1)提取待匹配模式中表的表名以及表中含有的字段名; (2)順序遍歷提取的表名和字段名,在遍歷的過(guò)程中,查找表規(guī)則集合,檢索是否有表滿(mǎn)足其中的規(guī)則,如果滿(mǎn)足其規(guī)則,則將該表與表規(guī)則中的表進(jìn)行匹配,標(biāo)記已完成匹配的表; (3)繼續(xù)遍歷,直到所有表都遍歷完成為止,反饋匹配結(jié)果。
4.根據(jù)權(quán)利要求3所述的一種基于一階邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)對(duì)應(yīng)方法,其特征在于,所述生成反饋的神經(jīng)網(wǎng)絡(luò)算法包括如下步驟 (1)構(gòu)建初始的生成反饋網(wǎng)絡(luò),其輸入層的神經(jīng)元的個(gè)數(shù)為N,輸出層神經(jīng)元個(gè)數(shù)為M; (2)對(duì)生成反饋網(wǎng)絡(luò)中的各個(gè)參數(shù)進(jìn)行賦值,包括對(duì)其學(xué)習(xí)率r、網(wǎng)絡(luò)的權(quán)重值w和每個(gè)單元的偏倚值Θ ,其中網(wǎng)絡(luò)的學(xué)習(xí)率的r的取值范圍為(O. O≤1.0),網(wǎng)絡(luò)權(quán)重w和每個(gè)單元的偏倚Θ的取值范圍分別為-I. O≤w≤I. O和-I. O≤Θ≤I. O ; (3)對(duì)構(gòu)建的生成反饋網(wǎng)絡(luò)進(jìn)行正向和逆向誤差傳播,同時(shí)修正權(quán)值和偏倚值; (4)將訓(xùn)練數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)使用生成反饋的神經(jīng)網(wǎng)絡(luò)算法對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)和連接進(jìn)行剪枝操作,同時(shí)對(duì)字段的初始十六元組形式進(jìn)行修正。
全文摘要
本發(fā)明屬于數(shù)據(jù)遷移、數(shù)據(jù)集成領(lǐng)域,具體涉及一種高匹配效率和準(zhǔn)確率的基于一階邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)對(duì)應(yīng)方法。本發(fā)明包括(1)分析已完成匹配的數(shù)據(jù)模式;(2)將模式轉(zhuǎn)換為表向量,存放在待匹配表訓(xùn)練集合中;(3)對(duì)集合中的表進(jìn)行特征提??;(4)存儲(chǔ)提取的表的特征。(5)對(duì)待匹配模式中的待匹配表進(jìn)行匹配;(6)對(duì)已完成匹配的模式中的字段進(jìn)行訓(xùn)練,修正字段的表示形式和建立的神經(jīng)網(wǎng)絡(luò);(5)使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)和修正后的字段表示格式,對(duì)已完成匹配的表進(jìn)行字段匹配。本發(fā)明減少了在數(shù)據(jù)對(duì)應(yīng)過(guò)程中的時(shí)間,提高了匹配的效率和準(zhǔn)確率。
文檔編號(hào)G06F17/30GK102799627SQ20121021147
公開(kāi)日2012年11月28日 申請(qǐng)日期2012年6月26日 優(yōu)先權(quán)日2012年6月26日
發(fā)明者黃少濱, 劉國(guó)峰, 樸秀峰, 申林山, 劉剛, 劉建華 申請(qǐng)人:哈爾濱工程大學(xué)