專利名稱:一種數(shù)據(jù)匹配方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)匹配方法及裝置。
背景技術(shù):
目前,在處理各類客戶信息數(shù)據(jù)時(shí),經(jīng)常需要進(jìn)行數(shù)據(jù)比較、匹配等處理首先,系統(tǒng)通過多種渠道獲取較準(zhǔn)確權(quán)威的個(gè)人外部數(shù)據(jù),例如公安系統(tǒng)數(shù)據(jù)、固定電話、黃頁數(shù)據(jù)、高教部學(xué)歷認(rèn)證中心數(shù)據(jù)(教育學(xué)歷、教育學(xué)籍等)以及機(jī)動(dòng)車駕駛證數(shù)據(jù)、機(jī)動(dòng)車行駛證數(shù)據(jù)等。另一方面,由客戶填寫輸入的數(shù)據(jù),在核對(duì)其正確性時(shí)需要和系統(tǒng)獲取的上述數(shù)據(jù)進(jìn)行比對(duì)。但客戶填寫輸入的數(shù)據(jù)往往不規(guī)范,特別是如地址、公司名稱等字?jǐn)?shù)較多的信息。目前,一般采用全字符精確匹配技術(shù)或者人工比對(duì)方式。這些處理技術(shù)主要存在以下幾方面不足I、全字符精確匹配可以對(duì)諸如姓名、婚姻狀況、學(xué)歷等簡(jiǎn)單數(shù)據(jù)項(xiàng)進(jìn)行處理,但對(duì)較為復(fù)雜的數(shù)據(jù),比如中文地址和中文公司名稱等數(shù)據(jù)項(xiàng),由于其來源于各種不同的數(shù)據(jù)環(huán)境,一般是由同一人多次輸入或者是不同的人輸入,其填寫的數(shù)據(jù)具有一定的隨意性和隨機(jī)性,而全字符精確匹配沒有任何容錯(cuò)能力,準(zhǔn)確性不高,因此無法對(duì)此類數(shù)據(jù)項(xiàng)進(jìn)行較好的比對(duì)和識(shí)別,例如“云巖區(qū)中天花園玉蘭園D-1-10-2號(hào)”與“貴陽云巖中天花園玉蘭園D座I單元10樓2號(hào)”使用全字符精確匹配無法判斷出它們是相同的地址。2、通過人工比對(duì)的方式對(duì)客戶信息數(shù)據(jù)中的中文地址、中文公司名稱進(jìn)行比對(duì),但是效率較低,并需要耗費(fèi)大量的人力和物力。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服現(xiàn)有技術(shù)中存在的全字符精確匹配的方式不能較好地比較、匹配客戶信息數(shù)據(jù)以及人工比對(duì)的方式效率較低、需要耗費(fèi)大量人力物力的困難,提出一種數(shù)據(jù)比較、匹配系統(tǒng)及方法,通過對(duì)客戶信息數(shù)據(jù)采用數(shù)據(jù)預(yù)處理、數(shù)據(jù)分割、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)比較的技術(shù)處理手段,實(shí)現(xiàn)對(duì)客戶信息數(shù)據(jù)的中文模糊匹配,從而對(duì)客戶信息數(shù)據(jù)的準(zhǔn)確性進(jìn)行判斷和識(shí)別,提高比較、匹配的準(zhǔn)確性和效率,實(shí)現(xiàn)匹配的系統(tǒng)化、自動(dòng)化、流程化、客觀化。為了達(dá)到上述目的,本發(fā)明實(shí)施例公開了一種數(shù)據(jù)匹配方法,包括獲取客戶信息數(shù)據(jù)中要進(jìn)行匹配的待處理數(shù)據(jù);將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù);根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分害I],生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù);根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù);將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值。為了達(dá)到上述目的,本發(fā)明實(shí)施例還公開了一種數(shù)據(jù)匹配裝置,包括待處理數(shù)據(jù)獲取單元,用于獲取客戶信息數(shù)據(jù)中要進(jìn)行匹配的待處理數(shù)據(jù);預(yù)處理數(shù)據(jù)生成單元,用于將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù);子數(shù)據(jù)生成單元,用于根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù);標(biāo)準(zhǔn)數(shù)據(jù)生成單元,用于根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù);匹配值生成單元,用于將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值。本發(fā)明實(shí)施例的數(shù)據(jù)匹配方法及裝置的有益效果是改變了通過人工對(duì)客戶信息數(shù)據(jù)中的中文數(shù)據(jù)項(xiàng)進(jìn)行比對(duì)的方法,克服了全字符精確匹配沒有任何容錯(cuò)能力的不足,提高比對(duì)的效率和準(zhǔn)確性,降低人工操作成本,實(shí)現(xiàn)大數(shù)據(jù)量的處理;實(shí)現(xiàn)了對(duì)客戶信息數(shù)據(jù)中的中文數(shù)據(jù)項(xiàng)進(jìn)行比對(duì)的系統(tǒng)化、自動(dòng)化、流程化、客觀化;可將相關(guān)數(shù)據(jù)源的中文數(shù)據(jù)項(xiàng)都納入到數(shù)據(jù)比較、匹配系統(tǒng),從而擴(kuò)展系統(tǒng)可用的數(shù)據(jù)項(xiàng)范圍。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)
有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明實(shí)施例的數(shù)據(jù)匹配方法的方法流程圖;圖2為本發(fā)明實(shí)施例的進(jìn)行數(shù)據(jù)分割,生成多個(gè)子數(shù)據(jù)的方法流程圖;圖3為本發(fā)明實(shí)施例的將多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù)的方法流程圖;圖4為本發(fā)明實(shí)施例的一個(gè)地區(qū)樹的結(jié)構(gòu)示意圖;圖5為本發(fā)明實(shí)施例的構(gòu)造比較矩陣,生成匹配值的方法流程圖;圖6為本發(fā)明實(shí)施例的數(shù)據(jù)匹配裝置的結(jié)構(gòu)示意圖;圖7為本發(fā)明實(shí)施例的數(shù)據(jù)匹配裝置中的預(yù)處理數(shù)據(jù)生成單元的結(jié)構(gòu)示意圖;圖8為本發(fā)明實(shí)施例的數(shù)據(jù)匹配裝置中的子數(shù)據(jù)生成單元的結(jié)構(gòu)示意圖;圖9為利用本發(fā)明實(shí)施例的子數(shù)據(jù)生成單元生成多個(gè)子數(shù)據(jù)的一個(gè)實(shí)施例的方法流程圖;圖10為本發(fā)明實(shí)施例的數(shù)據(jù)匹配裝置中的標(biāo)準(zhǔn)數(shù)據(jù)生成單元的結(jié)構(gòu)示意圖;圖11為本發(fā)明實(shí)施例的數(shù)據(jù)匹配裝置中的匹配值生成單元的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明可用于眾多通用或?qū)S玫挠?jì)算機(jī)裝置環(huán)境或配置中。例如個(gè)人計(jì)算機(jī)、月艮務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器裝置、包括以上任何裝置或設(shè)備的分布式計(jì)算環(huán)境等等。本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。本發(fā)明是一種計(jì)算機(jī)處理過程中的數(shù)據(jù)匹配方法。該方法首先該系統(tǒng)將客戶信息數(shù)據(jù)中要進(jìn)行比較、匹配的數(shù)據(jù)信息通過數(shù)據(jù)預(yù)處理,降低數(shù)據(jù)質(zhì)量問題對(duì)最終匹配結(jié)果的影響。其次,將預(yù)處理后的數(shù)據(jù)通過數(shù)據(jù)分割劃分成多條有意義的子數(shù)據(jù)。再次,在數(shù)據(jù)分割的基礎(chǔ)上,通過數(shù)據(jù)轉(zhuǎn)換,將同種含義的不同數(shù)據(jù)轉(zhuǎn)換為同一種數(shù)據(jù)。最后,將數(shù)據(jù)轉(zhuǎn)換得到的結(jié)果通過數(shù)據(jù)比較得到匹配值,該匹配值在O到I之間,代表兩條數(shù)據(jù)間的相似程度。圖I為本發(fā)明實(shí)施例的數(shù)據(jù)匹配方法的方法流程圖。如圖所示,本實(shí)施例的數(shù)據(jù)匹配方法包括步驟S101,獲取客戶信息數(shù)據(jù)中要進(jìn)行匹配的待處理數(shù)據(jù);步驟S102,將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù);步驟S103,根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù);步驟S104,根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)
據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù);步驟S105,將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值。在本實(shí)施例中,待處理數(shù)據(jù)、最后計(jì)算得到的匹配值、預(yù)設(shè)的字符串最大值、字符標(biāo)準(zhǔn)值以及子數(shù)據(jù)標(biāo)準(zhǔn)名稱、字符轉(zhuǎn)換規(guī)則,都預(yù)存在一存儲(chǔ)裝置中。當(dāng)計(jì)算需要時(shí),直接調(diào)用即可,當(dāng)然,這些數(shù)據(jù)可以根據(jù)情況而作人為設(shè)定。在本實(shí)施例中,步驟S102中的將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù),包括對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行字符轉(zhuǎn)換,包括將全角字符轉(zhuǎn)換為半角字符;對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行字體轉(zhuǎn)換,包括將大寫字母轉(zhuǎn)換為小寫字母;對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行分隔符處理,包括將與預(yù)存的通用分隔符相匹配的字符刪除。例如,讀取預(yù)設(shè)的通用分隔符,如"、"、"、","、" *"、" " #"、空格等,然后,將客戶信息數(shù)據(jù)中與讀取出的通用分隔符相匹配的字符去除。以中文地址數(shù)據(jù)匹配為例介紹數(shù)據(jù)預(yù)處理的過程如果接收到的預(yù)處理前的數(shù)據(jù)如下“吉林朝陽人民路10弄三單元#六〇二#室”,則根據(jù)本發(fā)明實(shí)施例的預(yù)處理方法,預(yù)處理后的結(jié)果如下“吉林朝陽人民路10弄
三單元六〇二室”。在本實(shí)施例中,如圖2所示,在步驟S 102中的根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù),包括步驟S201,判斷接收到的預(yù)處理數(shù)據(jù)是否為單字符或?yàn)榭?;步驟S202,如果所述預(yù)處理數(shù)據(jù)不為單字符或空,則從所述預(yù)處理數(shù)據(jù)的最右邊截取長度為所述預(yù)存的字符串最大值的子字符串;步驟S203,判斷所述子字符串與所述預(yù)存的字符標(biāo)準(zhǔn)值是否匹配,如果不匹配,轉(zhuǎn)至步驟S204,如果匹配,轉(zhuǎn)至步驟S205 ;步驟S204,刪除所述子字符串最左邊的一個(gè)字符后,重復(fù)步驟S203 ;步驟S205,將所述子字符串作為分割后生成的一個(gè)子數(shù)據(jù)進(jìn)行保存;所述多個(gè)子數(shù)據(jù)等級(jí)由高到低排列是指按所述多個(gè)子數(shù)據(jù)分割出的先后順序排列其等級(jí)高低,最先分割出來的子數(shù)據(jù)等級(jí)最低。以上述的中文地址數(shù)據(jù)匹配為例介紹數(shù)據(jù)分割的過程假定數(shù)據(jù)預(yù)處理后的結(jié)果為“吉林朝陽人民路10弄三單元六〇二室”,字符串截取長度 MAX_LENGTH 為 10。第一步,截取出的子字符串為“10弄三單元六〇二室”,從省級(jí)行政區(qū)通名開始與逐個(gè)字典值進(jìn)行匹配直到非標(biāo)準(zhǔn)行政區(qū)通名為止,發(fā)現(xiàn)匹配不到任何字典值。其中的字典值即預(yù)設(shè)的字符標(biāo)準(zhǔn)值,其包括通用分隔符、省級(jí)行政區(qū)通名、省級(jí)行政區(qū) 專名、市級(jí)行政區(qū)通名、市級(jí)行政區(qū)專名、區(qū)級(jí)行政區(qū)通名、區(qū)級(jí)行政區(qū)專名、鄉(xiāng)鎮(zhèn)、村通名、門牌號(hào)通名、非標(biāo)準(zhǔn)行政區(qū)通名、行政區(qū)名對(duì)應(yīng)到的所有標(biāo)準(zhǔn)名稱和地區(qū)樹。第二步,刪除截取出的子字符串的最左邊一個(gè)字符,子字符串為“O弄三單元六〇二室”,同樣匹配不到任何字典值。直到截取出的子字符串為“室”時(shí),匹配到一個(gè)門牌號(hào)通名。分割后字符串變?yōu)椤笆摇?,待分割字符串變?yōu)椤凹殖柸嗣衤?0弄三單元六O二”。第三步,重復(fù)上述步驟,可以得到分割后字符串變?yōu)椤傲柖摇?,待分割字符串變?yōu)椤凹殖柸嗣衤?0弄三單元”,此時(shí),“單元”可以匹配到一個(gè)非標(biāo)準(zhǔn)行政區(qū)通名,因此,可以認(rèn)為“六〇二室”是一個(gè)可以被分割出來的子字符串,分割后字符串變?yōu)椤皢卧?,六〇二室”,待分割字符串變?yōu)椤凹殖柸嗣衤?0弄三”。以此類推,最終數(shù)據(jù)分割后的結(jié)果如下“吉林,朝陽,人民路,10弄,三單元,六〇
二室”。在本實(shí)施例中,如圖3所示,在步驟S 103中的根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù),包括步驟S301,根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱,將與每一子數(shù)據(jù)對(duì)應(yīng)的標(biāo)準(zhǔn)名稱存儲(chǔ)為一個(gè)數(shù)據(jù)組,以生成多個(gè)數(shù)據(jù)組;步驟S302,將所述多個(gè)數(shù)據(jù)組按級(jí)別由高到低排序,所述級(jí)別的高低與所述多個(gè)子數(shù)據(jù)的排序規(guī)則相同;步驟S303,對(duì)所述排序后的多個(gè)數(shù)據(jù)組進(jìn)行排列組合,生成多個(gè)多維數(shù)據(jù)組;步驟S304,根據(jù)預(yù)存的關(guān)系樹,找出與所述多個(gè)多維數(shù)據(jù)組中一組對(duì)應(yīng)的關(guān)系樹中的一條路徑,生成所述標(biāo)準(zhǔn)數(shù)據(jù)。在本實(shí)施例中,并不是每一個(gè)子數(shù)據(jù)都會(huì)對(duì)應(yīng)于一個(gè)標(biāo)準(zhǔn)名稱,此時(shí)將所述多個(gè)子數(shù)據(jù)中的不能與所述預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱相匹配的子數(shù)據(jù),根據(jù)所述數(shù)字轉(zhuǎn)換規(guī)則,生成所述標(biāo)準(zhǔn)數(shù)據(jù);其中,所述數(shù)字轉(zhuǎn)換規(guī)則包括將所述中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字。如果不符合數(shù)字轉(zhuǎn)換規(guī)則,例如不是中文數(shù)字,則將所述多個(gè)子數(shù)據(jù)中的不能與所述子數(shù)據(jù)標(biāo)準(zhǔn)名稱相匹配、且不能進(jìn)行字符轉(zhuǎn)換的子數(shù)據(jù)保持不變。同樣以上述的中文地址數(shù)據(jù)匹配為例介紹數(shù)據(jù)轉(zhuǎn)換的過程假定數(shù)據(jù)分割后的結(jié)果為“吉林,朝陽,人民路,10弄,三單元,六〇二室”。第一步,獲取行政區(qū)名對(duì)應(yīng)到的所有標(biāo)準(zhǔn)名稱,同一個(gè)行政區(qū)名對(duì)應(yīng)的所有標(biāo)準(zhǔn)名稱作為一組數(shù)據(jù)保存,結(jié)果如下{吉林} — {吉林市,吉林省},{朝陽} — {朝陽區(qū),朝陽市,朝陽縣}。第二步,將數(shù)據(jù)組按級(jí)別由高到低排序,結(jié)果如下{吉林省,吉林市},{朝陽市,朝陽區(qū),朝陽縣}。第三步,將排序后的數(shù)據(jù)組合成有意義的省、市、區(qū)名三維組,結(jié)果如下{吉林省,朝陽市,null}, {吉林省,null,朝陽區(qū)}, {吉林省,null,朝陽縣}, {null,吉林市,朝陽區(qū)},{null,吉林市,朝陽縣}。第四步,遍歷預(yù)存的地區(qū)樹,如圖4所示,三維組中的{吉林省,null,朝陽區(qū)}可以在地區(qū)樹中找到對(duì)應(yīng)的一條路徑,因此,“吉林,朝陽”標(biāo)準(zhǔn)化后的行政區(qū)名為“吉林省長春市朝陽區(qū)”。第五步,將所有門牌號(hào)通名統(tǒng)一轉(zhuǎn)換為“ 10弄,三單元,六〇二室”被轉(zhuǎn)換為“10-三-六〇二”。第六步,將所有中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字,“ 10-三-六〇二”被轉(zhuǎn)換為“10-3-602”。第七步,剩余的即不屬于行政區(qū)名又不屬于門牌號(hào)部分的數(shù)據(jù)保持不變,拼接結(jié)果后得到最終的數(shù)據(jù)轉(zhuǎn)換后的結(jié)果“吉林省長春市朝陽區(qū)人民路10-3-602”。在本實(shí)施例中,如圖5所示,在步驟S104中的將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值,包括步驟S501,將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)按位比較,構(gòu)造比較矩陣;步驟S502,查找所述比較矩陣中的線段對(duì)其按長度由長到短進(jìn)行排序,并刪除在行上或列上被更長線段完全包含的線段;步驟S503,根據(jù)預(yù)設(shè)的線段權(quán)值和所述子數(shù)據(jù)中的進(jìn)行字符轉(zhuǎn)換規(guī)則的子數(shù)據(jù)所占的權(quán)值,生成匹配值。同樣以上述的中文地址數(shù)據(jù)匹配為例介紹計(jì)算匹配值的過程首先,接收經(jīng)過數(shù)據(jù)轉(zhuǎn)換得到的一條標(biāo)準(zhǔn)數(shù)據(jù);其次,對(duì)標(biāo)準(zhǔn)數(shù)據(jù)和最開始的待處理數(shù)據(jù)進(jìn)行按位比較,相同位置1,不同位置0,構(gòu)造出比較矩陣;其次,查找比較矩陣中的線段并對(duì)其按長度由長到短進(jìn)行排序;其次,去除在行上和列上被更長線段完全包含的線段,其中線段完全包含是指較短的線段在上下左右平移N個(gè)位置后可以被更長的線段完全覆蓋;其次,獲取不同線段長度對(duì)應(yīng)權(quán)值和門牌號(hào)部分所占權(quán)值。門牌號(hào)部分所占權(quán)值即是進(jìn)行字符轉(zhuǎn)換規(guī)則的子數(shù)據(jù);最后,計(jì)算出線段匹配值和門牌號(hào)匹配值后將線段匹配值和門牌號(hào)匹配值相加,得到最終的匹配值。圖6為本發(fā)明實(shí)施例的數(shù)據(jù)匹配裝置的結(jié)構(gòu)示意圖。如圖6所示,本實(shí)施例中的數(shù)據(jù)匹配裝置包括待處理數(shù)據(jù)獲取單元101,用于獲取客戶信息數(shù)據(jù)中要進(jìn)行匹配的待處理數(shù)據(jù);預(yù)處理數(shù)據(jù)生成單元102,用于將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù);子數(shù)據(jù)生成單元103,用于根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù);標(biāo)準(zhǔn)數(shù)據(jù)生成單元104,用于根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù);匹配值生成單元105,用于將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值。數(shù)據(jù)存儲(chǔ)單元106,用于存儲(chǔ)所述待處理數(shù)據(jù)、生成的最終的匹配值、所述字符串最大值、所述字符標(biāo)準(zhǔn)值、所述子數(shù)據(jù)標(biāo)準(zhǔn)名稱和所述字符轉(zhuǎn)換規(guī)則。在本實(shí)施例中,待處理數(shù)據(jù)獲取單元101與預(yù)處理數(shù)據(jù)生成單元102相連接,負(fù)責(zé)從數(shù)據(jù)存儲(chǔ)單元106中讀取待處理的數(shù)據(jù);預(yù)處理數(shù)據(jù)生成單元102與子數(shù)據(jù)生成單元103連接,負(fù)責(zé)對(duì)待處理數(shù)據(jù)進(jìn)行預(yù)處理,排除可能影響到最終匹配結(jié)果的因素,并將結(jié)果傳入子數(shù)據(jù)生成單元103 ;子數(shù)據(jù)生成單元103與標(biāo)準(zhǔn)數(shù)據(jù)生成單元104相連接,負(fù)責(zé)接收從預(yù)處理數(shù)據(jù)生成單元102傳入的預(yù)處理后的數(shù)據(jù),然后將該數(shù)據(jù)分解為多條子數(shù)據(jù),并將結(jié)果傳入標(biāo)準(zhǔn)數(shù)據(jù)生成單元104 ;標(biāo)準(zhǔn)數(shù)據(jù)生成單元104與匹配值生成單元105相連接,負(fù)責(zé)接收從子數(shù)據(jù)生成單元103傳入的子數(shù)據(jù),然后將這些子數(shù)據(jù)轉(zhuǎn)換成一條標(biāo)準(zhǔn)數(shù)據(jù),并將結(jié)果傳入匹配值生成單元105 ;匹配值生成單元105與數(shù)據(jù)存儲(chǔ)單元106相連接,負(fù)責(zé)接收從標(biāo)準(zhǔn)數(shù)據(jù)生成單元104傳入的數(shù)據(jù),然后將欲進(jìn)行匹配的數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行比較得到最終的匹配值 ,并將結(jié)果傳入數(shù)據(jù)存儲(chǔ)單元106 ;數(shù)據(jù)存儲(chǔ)單元106負(fù)責(zé)存儲(chǔ)數(shù)據(jù)、參數(shù)和字典值。其中,數(shù)據(jù)包括待處理的數(shù)據(jù)和最終的匹配值;參數(shù)包括字符串最大值MAX_LENGTH、計(jì)算匹配值時(shí)用到的不同線段長度對(duì)應(yīng)權(quán)值其他權(quán)值;字典值即字符標(biāo)準(zhǔn)值,在中文地址匹配實(shí)施例中,包括通用分隔符、省級(jí)行政區(qū)通名、省級(jí)行政區(qū)專名、市級(jí)行政區(qū)通名、市級(jí)行政區(qū)專名、區(qū)級(jí)行政區(qū)通名、區(qū)級(jí)行政區(qū)專名、鄉(xiāng)鎮(zhèn)、村通名、門牌號(hào)通名、非標(biāo)準(zhǔn)行政區(qū)通名、行政區(qū)名對(duì)應(yīng)到的所有標(biāo)準(zhǔn)名稱和地區(qū)樹。在本實(shí)施例中,如圖7所示,所述預(yù)處理數(shù)據(jù)生成單元102包括字符轉(zhuǎn)換模塊1021,用于對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行字符轉(zhuǎn)換,包括將全角字符轉(zhuǎn)換為半角字符;字體轉(zhuǎn)換模塊1022,用于對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行字體轉(zhuǎn)換,包括將大寫字母轉(zhuǎn)換為小寫字母;分隔符處理模塊1023,用于對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行分隔符處理,包括將與預(yù)存的通用分隔符相匹配的字符刪除。例如,讀取預(yù)設(shè)的通用分隔符,如"、"、"、","、" *"、" 、" #"、空格等,然后,將客戶信息數(shù)據(jù)中與讀取出的通用分隔符相匹配的字符去除。在本實(shí)施例中,如圖8所示,所述子數(shù)據(jù)生成單元103根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù),其包括數(shù)據(jù)判斷模塊1031,用于判斷接收到的預(yù)處理數(shù)據(jù)是否為單字符或?yàn)榭?;?shù)據(jù)截取模塊1032,如果所述預(yù)處理數(shù)據(jù)不為單字符或空,則從所述預(yù)處理數(shù)據(jù)的最右邊截取長度為所述預(yù)存的字符串最大值的子字符串;數(shù)據(jù)匹配模塊1033,用于將所述子字符串與所述預(yù)存的字符標(biāo)準(zhǔn)值進(jìn)行匹配;如果匹配不成功,則由所述數(shù)據(jù)截取模塊刪除所述子字符串最左邊的一個(gè)字符后,再交由所述數(shù)據(jù)匹配模塊進(jìn)行匹配處理;如果匹配成功,則將所述匹配成功的子字符串作為分割后生成的一個(gè)子數(shù)據(jù)進(jìn)行保存。在本實(shí)施例中,數(shù)據(jù)截取模塊1032負(fù)責(zé)接收數(shù)據(jù)判斷模塊1031發(fā)送的字符串,并作為待處理字符串暫存在數(shù)據(jù)截取模塊1032。接著,從字符串最右邊截取長度為MAX_LENGTH (MAX_LENGTH的數(shù)值從數(shù)據(jù)存儲(chǔ)單元106中獲取)的子字符串,將子字符串發(fā)送給數(shù)據(jù)匹配模塊1033。同時(shí)接收數(shù)據(jù)匹配模塊1033的匹配結(jié)果,若不匹配,則數(shù)據(jù)截取模塊1032刪除子字符串的最左邊一個(gè)字符后再發(fā)送給數(shù)據(jù)匹配模塊1033繼續(xù)匹配。若匹配上,則將子字符串作為分割后的字符串暫存在數(shù)據(jù)截取模塊1032,然后,將子字符串從待處理字符串中刪除并將刪除后的待處理字符串發(fā)送給數(shù)據(jù)判斷模塊1031。數(shù)據(jù)匹配模塊1033負(fù)責(zé)接收數(shù)據(jù)截取模塊1032發(fā)送的字符串。接著,從數(shù)據(jù)存儲(chǔ)單元106中獲取省級(jí)行政區(qū)通名、省級(jí)行政區(qū)專名、市級(jí)行政區(qū)通名、市級(jí)行政區(qū)專名、區(qū)級(jí)行政區(qū)通名、區(qū)級(jí)行政區(qū)專名、鄉(xiāng)鎮(zhèn)、村通名、門牌號(hào)通名以及非標(biāo)準(zhǔn)行政區(qū)通名,并與接收到的字符串進(jìn)行匹配。最后,將匹配的結(jié)果發(fā)送給數(shù)據(jù)截取模塊1032。數(shù)據(jù)判斷模塊1031負(fù)責(zé)接收預(yù)處理數(shù)據(jù)生成單元102處理后的字符串,判斷字符串是否為空,如果不為空,則將字符串傳給數(shù)據(jù)截取模塊1032,否則,將暫存在數(shù)據(jù)截取模塊1032中的分割后字符串傳給標(biāo)準(zhǔn)數(shù)據(jù)生成單元104,數(shù)據(jù)分割結(jié)束。同時(shí)該模塊還負(fù)責(zé)接收數(shù)據(jù)截取模塊1032截取的數(shù)據(jù),判斷其是否為單字符,如果不是單字符,則將其傳給數(shù)據(jù)匹配模塊1033。圖9為利用本發(fā)明實(shí)施例的子數(shù)據(jù)生成單元103生成多個(gè)子數(shù)據(jù)的一個(gè) 實(shí)施例的方法流程圖,如圖9所示,其包括步驟801,數(shù)據(jù)判斷模塊1031接收從預(yù)處理數(shù)據(jù)生成模塊102傳來的數(shù)據(jù)作為待處理數(shù)據(jù);步驟802,數(shù)據(jù)判斷模塊1031判斷待處理數(shù)據(jù)是否為空,如果不為空,轉(zhuǎn)步驟803 ;否則,轉(zhuǎn)步驟808 ;步驟803,數(shù)據(jù)截取模塊1032從待處理數(shù)據(jù)最右邊截取長度為字符串最大值MAX_LENGTH (MAX_LENGTH的數(shù)值從數(shù)據(jù)存儲(chǔ)模塊106獲取)的子字符串;步驟804,數(shù)據(jù)匹配模塊1033判斷截取出的子字符串是否與從數(shù)據(jù)存儲(chǔ)模塊106中讀取到的字符標(biāo)準(zhǔn)值匹配,如果匹配,轉(zhuǎn)步驟805 ;否則,轉(zhuǎn)步驟806 ;步驟805,數(shù)據(jù)截取模塊1032將截取出的子字符串作為分割出的一條子數(shù)據(jù),并刪除待處理數(shù)據(jù)中截取出的子字符串;步驟806,數(shù)據(jù)截取模塊1032刪除截取出的子字符串的最左邊一個(gè)字符;步驟807,數(shù)據(jù)判斷模塊1031判斷截取出的子字符串是否為單字符,如果是單字符,轉(zhuǎn)步驟805 ;否則,轉(zhuǎn)步驟804 ;步驟808,數(shù)據(jù)截取模塊1032將分割出的所有子數(shù)據(jù)合并,流程結(jié)束。在本實(shí)施例中,如圖10所示,所述標(biāo)準(zhǔn)數(shù)據(jù)生成單元104根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù),其包括數(shù)據(jù)組生成模塊1041,用于根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱,將與每一子數(shù)據(jù)對(duì)應(yīng)的標(biāo)準(zhǔn)名稱存儲(chǔ)為一個(gè)數(shù)據(jù)組,以生成多個(gè)數(shù)據(jù)組;排序模塊1042,用于將所述多個(gè)數(shù)據(jù)組按級(jí)別由高到低排序,所述級(jí)別的高低與所述多個(gè)子數(shù)據(jù)的排序規(guī)則相同;多維數(shù)據(jù)組生成模塊1043,用于對(duì)所述排序后的多個(gè)數(shù)據(jù)組進(jìn)行排列組合,生成多個(gè)多維數(shù)據(jù)組;標(biāo)準(zhǔn)數(shù)據(jù)生成模塊1044,用于根據(jù)預(yù)存的關(guān)系樹,找出與所述多個(gè)多維數(shù)據(jù)組中一組對(duì)應(yīng)的關(guān)系樹中的一條路徑,生成所述標(biāo)準(zhǔn)數(shù)據(jù);數(shù)字轉(zhuǎn)換模塊1045,用于將所述多個(gè)子數(shù)據(jù)中的不能與所述預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱相匹配的子數(shù)據(jù),根據(jù)所述數(shù)字轉(zhuǎn)換規(guī)則,生成所述標(biāo)準(zhǔn)數(shù)據(jù);其中,所述數(shù)字轉(zhuǎn)換規(guī)則包括將所述中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字。同樣以中文地址數(shù)據(jù)匹配為例介紹數(shù)據(jù)轉(zhuǎn)換的過程第一步,數(shù)據(jù)組生成模塊1041接收到的數(shù)據(jù)中篩選出代表行政區(qū)名的數(shù)據(jù),逐一從數(shù)據(jù)存儲(chǔ)單元106中讀取行政區(qū)名對(duì)應(yīng)到的所有標(biāo)準(zhǔn)名稱,同一個(gè)行政區(qū)名對(duì)應(yīng)的所有標(biāo)準(zhǔn)名稱作為一組數(shù)據(jù)保存。第二步,排序模塊1042將數(shù)據(jù)組按級(jí)別由高到低排序。第三步,多維數(shù)據(jù)組生成模塊1043將排序后的數(shù)據(jù)組合成有意義的省、市、區(qū)名三維組,這里所謂的有意義是指,組成的三維組中不能存在省、市、區(qū)名中任意兩個(gè)處于同一行政級(jí)別的情況。第四步,標(biāo)準(zhǔn)數(shù)據(jù)生成模塊1044從數(shù)據(jù)存儲(chǔ)單元106中獲取地區(qū)樹,地區(qū)樹是一棵以中國為根節(jié)點(diǎn)的省、市、區(qū)標(biāo)準(zhǔn)名組成的樹。遍歷地區(qū)樹,判斷組成的省、市、區(qū)名三維組是否可以對(duì)應(yīng)到樹中的一條路徑,如果可以對(duì)應(yīng)到,則該條路徑上所有節(jié)點(diǎn)即構(gòu)成標(biāo)準(zhǔn)化后的行政區(qū)名。
第五步,數(shù)字轉(zhuǎn)換模塊1045從數(shù)據(jù)存儲(chǔ)單元106中獲取門牌號(hào)通名,將數(shù)據(jù)中所有門牌號(hào)通名轉(zhuǎn)換為統(tǒng)一字符,即將數(shù)據(jù)中門牌號(hào)部分的所有中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字。在本實(shí)施例中,如圖11所示,所述匹配值生成單元105用于將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值,其包括比較矩陣構(gòu)造模塊1051,用于將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)按位比較,構(gòu)造比較矩陣;有效線段生成模塊1052,查找所述比較矩陣中的線段對(duì)其按長度由長到短進(jìn)行排序,并刪除在行上或列上被更長線段完全包含的線段;匹配值計(jì)算模塊1053,用于根據(jù)預(yù)設(shè)的線段權(quán)值和所述子數(shù)據(jù)中的進(jìn)行字符轉(zhuǎn)換規(guī)則的子數(shù)據(jù)所占的權(quán)值,生成匹配值。本發(fā)明實(shí)施例克服了目前普遍采用的全字符精確匹配、人工比對(duì)或者兩者相結(jié)合的方式對(duì)客戶信息數(shù)據(jù)進(jìn)行比對(duì),效率較低、需要耗費(fèi)大量人力物力的困難,提高比對(duì)的效率和準(zhǔn)確性,降低人工操作成本,實(shí)現(xiàn)大數(shù)據(jù)量的處理。具體實(shí)施例(I)獲取客戶信息數(shù)據(jù)中要進(jìn)行匹配的待處理數(shù)據(jù)“上海南京路18號(hào)5#102”和“南京東路18號(hào)五號(hào)樓102室”;(2)將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù)“上海南京路18-5-102”和“南京東路18-5-102”;(3)根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù)“上海,南京路,18,5,102”和“南京東路,18,5,102”;(4)根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù)“上海市南京路18-5-102”和“南京東路18-5-102” ;(5)經(jīng)過數(shù)據(jù)轉(zhuǎn)換后的兩數(shù)據(jù)分別為“上海市南京路18-5-102”和“南京東路18-5-102”;(6)將兩個(gè)數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值第一步,構(gòu)造比較矩陣,相同位置1,不同位置0,結(jié)果如下表I所示表I
權(quán)利要求
1.一種數(shù)據(jù)匹配方法,其特征在于,所述方法包括 獲取客戶信息數(shù)據(jù)中要進(jìn)行匹配的待處理數(shù)據(jù); 將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù); 根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù); 根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù); 將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值。
2.根據(jù)權(quán)利要求I所述的數(shù)據(jù)匹配方法,其特征在于,所述將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù),包括 對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行字符轉(zhuǎn)換,包括將全角字符轉(zhuǎn)換為半角字符。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)匹配方法,其特征在于,所述將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù),還包括對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行字體轉(zhuǎn)換,包括將大寫字母轉(zhuǎn)換為小寫字母。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)匹配方法,其特征在于,所述將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù),還包括 對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行分隔符處理,包括將與預(yù)存的通用分隔符相匹配的字符刪除。
5.根據(jù)權(quán)利要求I所述的數(shù)據(jù)匹配方法,其特征在于,所述根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù),包括 步驟A,判斷接收到的預(yù)處理數(shù)據(jù)是否為單字符或?yàn)榭眨? 步驟B,如果所述預(yù)處理數(shù)據(jù)不為單字符或空,則從所述預(yù)處理數(shù)據(jù)的最右邊截取長度為所述預(yù)存的字符串最大值的子字符串; 步驟C,判斷所述子字符串與所述預(yù)存的字符標(biāo)準(zhǔn)值是否匹配,如果不匹配,轉(zhuǎn)至步驟D,如果匹配,轉(zhuǎn)至步驟E ; 步驟D,刪除所述子字符串最左邊的一個(gè)字符后,重復(fù)步驟C ; 步驟E,將所述子字符串作為分割后生成的一個(gè)子數(shù)據(jù)進(jìn)行保存; 所述等級(jí)由高到低排列是指按所述多個(gè)子數(shù)據(jù)分割出的先后順序排列其等級(jí)高低,最先分割出來的子數(shù)據(jù)等級(jí)最低。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)匹配方法,其特征在于,所述根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù),包括 根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱,將與每一子數(shù)據(jù)對(duì)應(yīng)的標(biāo)準(zhǔn)名稱存儲(chǔ)為一個(gè)數(shù)據(jù)組,以生成多個(gè)數(shù)據(jù)組; 將所述多個(gè)數(shù)據(jù)組按級(jí)別由高到低排序,所述級(jí)別的高低與所述多個(gè)子數(shù)據(jù)的排序規(guī)則相同; 對(duì)所述排序后的多個(gè)數(shù)據(jù)組進(jìn)行排列組合,生成多個(gè)多維數(shù)據(jù)組; 根據(jù)預(yù)存的關(guān)系樹,找出與所述多個(gè)多維數(shù)據(jù)組中一組對(duì)應(yīng)的關(guān)系樹中的一條路徑,生成所述標(biāo)準(zhǔn)數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)匹配方法,其特征在于,所述根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和數(shù)字轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù),還包括 將所述多個(gè)子數(shù)據(jù)中的不能與所述預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱相匹配的子數(shù)據(jù),根據(jù)所述數(shù)字轉(zhuǎn)換規(guī)則,生成所述標(biāo)準(zhǔn)數(shù)據(jù); 其中,所述數(shù)字轉(zhuǎn)換規(guī)則包括將所述中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)匹配方法,其特征在于,所述根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù),還包括 將所述多個(gè)子數(shù)據(jù)中的不能與所述子數(shù)據(jù)標(biāo)準(zhǔn)名稱相匹配、且不能進(jìn)行字符轉(zhuǎn)換的子數(shù)據(jù)保持不變。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)匹配方法,其特征在于,所述將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值,包括 將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)按位比較,構(gòu)造比較矩陣; 查找所述比較矩陣中的線段對(duì)其按長度由長到短進(jìn)行排序,并刪除在行上或列上被更長線段完全包含的線段; 根據(jù)預(yù)設(shè)的線段權(quán)值和所述子數(shù)據(jù)中的進(jìn)行字符轉(zhuǎn)換規(guī)則的子數(shù)據(jù)所占的權(quán)值,生成匹配值。
10.一種數(shù)據(jù)匹配裝置,其特征在于,所述裝置包括 待處理數(shù)據(jù)獲取單元,用于獲取客戶信息數(shù)據(jù)中要進(jìn)行匹配的待處理數(shù)據(jù); 預(yù)處理數(shù)據(jù)生成單元,用于將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù); 子數(shù)據(jù)生成單元,用于根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù); 標(biāo)準(zhǔn)數(shù)據(jù)生成單元,用于根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù); 匹配值生成單元,用于將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值。
11.根據(jù)權(quán)利要求10所述的數(shù)據(jù)匹配裝置,其特征在于,所述數(shù)據(jù)匹配裝置還包括 數(shù)據(jù)存儲(chǔ)單元,用于存儲(chǔ)所述待處理數(shù)據(jù)、所述匹配值、所述字符串最大值、所述字符標(biāo)準(zhǔn)值、所述子數(shù)據(jù)標(biāo)準(zhǔn)名稱和所述字符轉(zhuǎn)換規(guī)則。
12.根據(jù)權(quán)利要求10所述的數(shù)據(jù)匹配裝置,其特征在于,所述預(yù)處理數(shù)據(jù)生成單元包括 字符轉(zhuǎn)換模塊,用于對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行字符轉(zhuǎn)換,包括將全角字符轉(zhuǎn)換為半角字符。
13.根據(jù)權(quán)利要求12所述的數(shù)據(jù)匹配裝置,其特征在于,所述預(yù)處理數(shù)據(jù)生成單元還包括 字體轉(zhuǎn)換模塊,用于對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行字體轉(zhuǎn)換,包括將大寫字母轉(zhuǎn)換為小寫字母。
14.根據(jù)權(quán)利要求13所述的數(shù)據(jù)匹配裝置,其特征在于,所述預(yù)處理數(shù)據(jù)生成單元還包括 分隔符處理模塊,用于對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行分隔符處理,包括將與預(yù)存的通用分隔符相匹配的字符刪除。
15.根據(jù)權(quán)利要求10所述的數(shù)據(jù)匹配裝置,其特征在于,所述子數(shù)據(jù)生成單元根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù),其包括 數(shù)據(jù)判斷模塊,用于判斷接收到的預(yù)處理數(shù)據(jù)是否為單字符或?yàn)榭眨? 數(shù)據(jù)截取模塊,如果所述預(yù)處理數(shù)據(jù)不為單字符或空,則從所述預(yù)處理數(shù)據(jù)的最右邊截取長度為所述預(yù)存的字符串最大值的子字符串; 數(shù)據(jù)匹配模塊,用于將所述子字符串與所述預(yù)存的字符標(biāo)準(zhǔn)值進(jìn)行匹配; 如果匹配不成功,則由所述數(shù)據(jù)截取模塊刪除所述子字符串最左邊的一個(gè)字符后,再交由所述數(shù)據(jù)匹配模塊進(jìn)行匹配處理;如果匹配成功,則將所述匹配成功的子字符串作為分割后生成的一個(gè)子數(shù)據(jù)進(jìn)行保存。
16.根據(jù)權(quán)利要求15所述的數(shù)據(jù)匹配裝置,其特征在于,所述標(biāo)準(zhǔn)數(shù)據(jù)生成單元根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù),其包括 數(shù)據(jù)組生成模塊,用于根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱,將與每一子數(shù)據(jù)對(duì)應(yīng)的標(biāo)準(zhǔn)名稱存儲(chǔ)為一個(gè)數(shù)據(jù)組,以生成多個(gè)數(shù)據(jù)組; 排序模塊,用于將所述多個(gè)數(shù)據(jù)組按級(jí)別由高到低排序,所述級(jí)別的高低與所述多個(gè)子數(shù)據(jù)的排序規(guī)則相同; 多維數(shù)據(jù)組生成模塊,用于對(duì)所述排序后的多個(gè)數(shù)據(jù)組進(jìn)行排列組合,生成多個(gè)多維數(shù)據(jù)組; 標(biāo)準(zhǔn)數(shù)據(jù)生成模塊,用于根據(jù)預(yù)存的關(guān)系樹,找出與所述多個(gè)多維數(shù)據(jù)組中一組對(duì)應(yīng)的關(guān)系樹中的一條路徑,生成所述標(biāo)準(zhǔn)數(shù)據(jù)。
17.根據(jù)權(quán)利要求16所述的數(shù)據(jù)匹配裝置,其特征在于,所述標(biāo)準(zhǔn)數(shù)據(jù)生成單元還包括 數(shù)字轉(zhuǎn)換模塊,用于將所述多個(gè)子數(shù)據(jù)中的不能與所述預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱相匹配的子數(shù)據(jù),根據(jù)所述數(shù)字轉(zhuǎn)換規(guī)則,生成所述標(biāo)準(zhǔn)數(shù)據(jù); 其中,所述數(shù)字轉(zhuǎn)換規(guī)則包括將所述中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字。
18.根據(jù)權(quán)利要求17所述的數(shù)據(jù)匹配裝置,其特征在于,所述匹配值生成單元用于將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值,其包括 比較矩陣構(gòu)造模塊,用于將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)按位比較,構(gòu)造比較矩陣; 有效線段生成模塊,查找所述比較矩陣中的線段對(duì)其按長度由長到短進(jìn)行排序,并刪除在行上或列上被更長線段完全包含的線段; 匹配值計(jì)算模塊,用于根據(jù)預(yù)設(shè)的線段權(quán)值和所述子數(shù)據(jù)中的進(jìn)行字符轉(zhuǎn)換規(guī)則的子數(shù)據(jù)所占的權(quán)值,生成匹配值。
全文摘要
本發(fā)明公開了一種數(shù)據(jù)匹配方法,包括獲取客戶信息數(shù)據(jù)中要進(jìn)行匹配的待處理數(shù)據(jù);將所述待處理數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成預(yù)處理數(shù)據(jù);根據(jù)預(yù)存的字符串最大值和字符標(biāo)準(zhǔn)值,利用逆向最大匹配法對(duì)所述預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,生成等級(jí)由高到低排列的多個(gè)子數(shù)據(jù);根據(jù)預(yù)存的子數(shù)據(jù)標(biāo)準(zhǔn)名稱和字符轉(zhuǎn)換規(guī)則,將所述多個(gè)子數(shù)據(jù)轉(zhuǎn)換為一條標(biāo)準(zhǔn)數(shù)據(jù);將所述標(biāo)準(zhǔn)數(shù)據(jù)與所述待處理數(shù)據(jù)進(jìn)行比較,計(jì)算生成匹配值。本發(fā)明實(shí)施例的數(shù)據(jù)匹配方法及裝置,提高了比對(duì)的效率和準(zhǔn)確性,降低人工操作成本,實(shí)現(xiàn)大數(shù)據(jù)量的處理;實(shí)現(xiàn)了對(duì)客戶信息數(shù)據(jù)中的中文數(shù)據(jù)項(xiàng)進(jìn)行比對(duì)的系統(tǒng)化、自動(dòng)化、流程化、客觀化。
文檔編號(hào)G06F17/30GK102880650SQ20121030856
公開日2013年1月16日 申請(qǐng)日期2012年8月27日 優(yōu)先權(quán)日2012年8月27日
發(fā)明者曹折波, 胡弘毅, 黃文卿, 徐敏, 陳姍婷, 侯鵬燕 申請(qǐng)人:中國工商銀行股份有限公司