專利名稱:一種數(shù)據(jù)匹配裝置的制作方法
技術領域:
本實用新型涉及ー種數(shù)據(jù)匹配裝置。
背景技術:
目前,在處理各類客戶信息數(shù)據(jù)時,經常需要進行數(shù)據(jù)比較、匹配等處理:首先,系統(tǒng)通過多種渠道獲取較準確權威的個人外部數(shù)據(jù),例如公安系統(tǒng)數(shù)據(jù)、固定電話、黃頁數(shù)據(jù)、高教部學歷認證中心數(shù)據(jù)(教育學歷、教育學籍等)以及機動車駕駛證數(shù)據(jù)、機動車行駛證數(shù)據(jù)等。另ー方面,由客戶填寫輸入的數(shù)據(jù),在核對其正確性時需要和系統(tǒng)獲取的上述數(shù)據(jù)進行比對。但客戶填寫輸入的數(shù)據(jù)往往不規(guī)范,特別是如地址、公司名稱等字數(shù)較多的信息。目前,一般采用全字符精確匹配技術或者人工比對方式。這些處理技術主要存在以下幾方面不足:1、全字符精確匹配可以對諸如:姓名、婚姻狀況、學歷等簡単數(shù)據(jù)項進行處理,但對較為復雜的數(shù)據(jù),比如中文地址和中文公司名稱等數(shù)據(jù)項,由于其來源于各種不同的數(shù)據(jù)環(huán)境,一般是由同一人多次輸入或者是不同的人輸入,其填寫的數(shù)據(jù)具有一定的隨意性和隨機性,而全字符精確匹配沒有任何容錯能力,準確性不高,因此無法對此類數(shù)據(jù)項進行較好的比對和識別,例如:“云巖區(qū)中天花園玉蘭園D-1-10-2號”與“貴陽云巖中天花園玉蘭園D座I単元10樓2號”使用全字符精確匹配無法判斷出它們是相同的地址。2、通過人工比對的方式對客戶信息數(shù)據(jù)中的中文地址、中文公司名稱進行比對,但是效率較低,并需要耗費大量的人力和物力。
實用新型內容本實用新型的目 的是為了克服現(xiàn)有技術中存在的全字符精確匹配的方式不能較好地比較、匹配客戶信息數(shù)據(jù)以 及人工比對的方式效率較低、需要耗費大量人力物力的困難,提出一種數(shù)據(jù)匹配裝置,實現(xiàn)對客戶信息數(shù)據(jù)的中文模糊匹配,從而對客戶信息數(shù)據(jù)的準確性進行判斷和識別,提高比較、匹配的準確性和效率,實現(xiàn)匹配的系統(tǒng)化、自動化、流程化、客觀化。為了達到上述目的,本實用新型實施例公開了ー種數(shù)據(jù)匹配裝置,包括:中央處理器、顯示器、鍵盤以及通訊接ロ ;所述顯示器、鍵盤和通訊接ロ分別連接至所述中央處理器;其中,所述鍵盤用于用戶輸入操作指令;所述通訊接ロ用于接收外部的客戶信息數(shù)據(jù)中要進行匹配的待處理數(shù)據(jù);所述中央處理器用于控制整個裝置的運轉控制和指令處理,根據(jù)所述待處理數(shù)據(jù)生成數(shù)據(jù)匹配結果;所述顯示器用于顯示所述待處理數(shù)據(jù)、所述數(shù)據(jù)匹配結果以及所述中央處理器的處理過程信息。優(yōu)選地,所述通訊接ロ為有線通訊接ロ或無線通訊接ロ,其可通過網(wǎng)線或者無線網(wǎng)絡將接收到的外部待處理數(shù)據(jù)傳送至所述中央處理器中進行存儲。優(yōu)選地,所述中央處理器包括:待處理數(shù)據(jù)獲取単元,預處理數(shù)據(jù)生成単元,子數(shù)據(jù)生成単元,標準數(shù)據(jù)生成単元,匹配值生成單元以及數(shù)據(jù)存儲単元;其中,所述待處理數(shù)據(jù)獲取単元,預處理數(shù)據(jù)生成単元,子數(shù)據(jù)生成単元,標準數(shù)據(jù)生成単元,匹配值生成単元分別連接至所述數(shù)據(jù)存儲單元;所述待處理數(shù)據(jù)獲取單元連接所述預處理數(shù)據(jù)生成単元;所述預處理數(shù)據(jù)生成單元連接所述子數(shù)據(jù)生成単元;所述子數(shù)據(jù)生成單元連接所述標準數(shù)據(jù)生成單元;所述標準數(shù)據(jù)生成單元連接所述匹配值生成單元;所述待處理數(shù)據(jù)獲取單元用于獲取所述客戶信息數(shù)據(jù)中要進行匹配的待處理數(shù)據(jù);所述預處理數(shù)據(jù)生成単元用于將所述待處理數(shù)據(jù)進行格式轉換,生成預處理數(shù)據(jù);所述子數(shù)據(jù)生成単元用于根據(jù)預存的字符串最大值和字符標準值,利用逆向最大匹配法對所述預處理數(shù)據(jù)進行數(shù)據(jù)分割,生成等級由高到低排列的多個子數(shù)據(jù);所述標準數(shù)據(jù)生成単元用于根據(jù)預存的子數(shù)據(jù)標準名稱和字符轉換規(guī)則,將所述多個子數(shù)據(jù)轉換為一條標準數(shù)據(jù);所述匹配值生成単元用于將所述標準數(shù)據(jù)與所述待處理數(shù)據(jù)進行比較,計算生成匹配值并顯示在所述顯示器上;所述數(shù)據(jù)存儲單元用于存儲所述客戶信息數(shù)據(jù)中要進行匹配的待處理數(shù)據(jù)、所述匹配值、所述字符串最大值、所述字符標準值、所述子數(shù)據(jù)標準名稱和所述字符轉換規(guī)則。優(yōu)選地,所述子數(shù)據(jù)生成単元包括數(shù)據(jù)判斷模塊、數(shù)據(jù)截取模塊和數(shù)據(jù)匹配模塊;其中,所述數(shù)據(jù)判斷模塊、數(shù)據(jù)截取模塊和數(shù)據(jù)匹配模塊兩兩相連;所述數(shù)據(jù)判斷模塊用于判斷接收到的預處理數(shù)據(jù)是否為單字符或為空,如果所述預處理數(shù)據(jù)不為單字符或空,所述數(shù)據(jù)截取模塊從所述預處理數(shù)據(jù)的最右邊截取長度為所述預存的字符串最大值的子字符串;所述數(shù)據(jù)匹配模塊將所述子字符串與所述預存的字符標準值進行匹配;如果匹配不成功,則由所述數(shù)據(jù)截取模塊刪除所述子字符串最左邊的ー個字符后,再交由所述數(shù)據(jù)匹配模塊進行匹配處理;如果匹配成功,則將所述匹配成功的子字符串作為分割后生成的一個子數(shù)據(jù)進行保存。優(yōu)選地,所述標準數(shù)據(jù)生成単元包括數(shù)據(jù)組生成模塊、排序模塊、多維數(shù)據(jù)組生成模塊以及標準數(shù)據(jù)生成模塊;其中,所述數(shù)據(jù)組生成模塊連接所述排序模塊,所述排序模塊連接所述多維數(shù)據(jù)組生成模塊,所述多維數(shù)據(jù)組生成模塊連接所述標準數(shù)據(jù)生成模塊;所述數(shù)據(jù)組生成模塊用于根據(jù)預存的子數(shù)據(jù)標準名稱,將與每一子數(shù)據(jù)對應的標準名稱存儲為ー個數(shù)據(jù)組,以生成多個數(shù)據(jù)組;所述排序模塊用于將所述多個數(shù)據(jù)組按級別由高到低排序,所述級別的高低與所述多個子數(shù)據(jù)的排序規(guī)則相同;所述多維數(shù)據(jù)組生成模塊用于對所述排序后的多個數(shù)據(jù)組進行排列組合,生成多個多維數(shù)據(jù)組;所述標準數(shù)據(jù)生成模塊用于根據(jù)預存的關系樹,找出與所述多個多維數(shù)據(jù)組中ー組對應的關系樹中的一條路徑,生成所述標準數(shù)據(jù)。優(yōu)選地,所述標準數(shù)據(jù)生成單元還包括數(shù)字轉換模塊,連接至所述標準數(shù)據(jù)生成模塊,用于將所述多個子數(shù)據(jù)中的不能與所述預存的子數(shù)據(jù)標準名稱相匹配的子數(shù)據(jù),根據(jù)所述數(shù)字轉換規(guī)則,生成所述標準數(shù)據(jù);其中,所述數(shù)字轉換規(guī)則包括將所述中文數(shù)字轉換為阿拉伯數(shù)字。優(yōu)選地,所述匹配值生成単元包括比較矩陣構造模塊、有效線段生成模塊以及匹配值計算模塊;其中,所述比較矩陣構造模塊連接所述有效線段生成模塊,所述有效線段生成模塊連接所述匹配值計算模塊;所述比較矩陣構造模塊,用于將所述標準數(shù)據(jù)與所述待處理數(shù)據(jù)按位比較,構造比較矩陣;所述有效線段生成模塊,查找所述比較矩陣中的線段對其按長度由長到短進行排序,并刪除在行上或列上被更長線段完全包含的線段;所述匹配值計算模塊,用于根據(jù)預設的線段權值和所述子數(shù)據(jù)中的進行字符轉換規(guī)則的子數(shù)據(jù)所占的權值,生成匹配值。本實用新型實施例的數(shù)據(jù)匹配裝置的有益效果是改變了通過人工對客戶信息數(shù)據(jù)中的中文數(shù)據(jù)項進行比對的方法,克服了全字符精確匹配沒有任何容錯能力的不足,提高比對的效率和準確性,降低人工操作成本,實現(xiàn)大數(shù)據(jù)量的處理;實現(xiàn)了對客戶信息數(shù)據(jù)中的中文數(shù)據(jù)項進行比對的系統(tǒng)化、自動化、流程化、客觀化;可將相關數(shù)據(jù)源的中文數(shù)據(jù)項都納入到數(shù)據(jù)比較、匹配系統(tǒng),從而擴展系統(tǒng)可用的數(shù)據(jù)項范圍。
為了更清楚地說明本實用新型實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本實用新型的一些實施例,對于本領域技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本實用新型實施例的數(shù)據(jù)匹配裝置的結構示意圖;圖2為本實用新型實施例的數(shù)據(jù)匹配裝置中的中央處理器的結構示意圖;圖3為本實用新型實施例的中央處理器中的子數(shù)據(jù)生成単元的結構示意圖;圖4為利用本實用新型實施例的子數(shù)據(jù)生成単元生成多個子數(shù)據(jù)的ー個實施例的方法流程圖;圖5為本實用新型實施例的中央處理器中的中的標準數(shù)據(jù)生成單元的結構示意圖;圖6為本實用新型實施例的ー個地區(qū)樹的結構示意圖;圖7為本實用新型實施例的中央處理器中的中的匹配值生成單元的結構示意圖。
具體實施方式
下面將結合本實用新型實施例中的附圖,對本實用新型實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本實用新型一部分實施例,而不是全部的實施例?;诒緦嵱眯滦椭械膶嵤├?,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本實用新型保護的范圍。圖1為本實用新型實施例的數(shù)據(jù)匹配裝置的結構示意圖。如圖所示,其包括中央處理器1、顯示器2、鍵盤3以及通訊接ロ 4 ;所述顯示器2、鍵盤3和通訊接ロ 4分別連接至所述中央處理器I ;其中,所述鍵盤3用于用戶輸入操作指令;所述通訊接ロ 4用于接收外部的客戶信息數(shù)據(jù)中要進行匹配的待處理數(shù)據(jù);所述中央處理器I用于控制整個裝置的運轉控制和指令處理,根據(jù)所述待處理數(shù)據(jù)生成數(shù)據(jù)匹配結果;所述顯示器2用于顯示所述待處理數(shù)據(jù)、所述數(shù)據(jù)匹配結果以及所述中央處理器的處理過程信息。在本實施例中,所述通訊接ロ 4為有線通訊接ロ或無線通訊接ロ,其可通過網(wǎng)線或者無線網(wǎng)絡將接收到的外部待處理數(shù)據(jù)傳送至所述中央處理器I中進行存儲。圖2為本實用新型實施例的數(shù)據(jù)匹配裝置中的中央處理器的結構示意圖。如圖2所示,本實施例中的中央處理器包括待處理數(shù)據(jù)獲取単元101,用于獲取客戶信息數(shù)據(jù)中要進行匹配的待處理數(shù)據(jù);預處理數(shù)據(jù)生成単元102,用于將所述待處理數(shù)據(jù)進行格式轉換,生成預處理數(shù)據(jù);子數(shù)據(jù)生成単元103,用于根據(jù)預存的字符串最大值和字符標準值,利用逆向最大匹配法對所述預處理數(shù)據(jù)進行數(shù)據(jù)分割,生成等級由高到低排列的多個子數(shù)據(jù);標準數(shù)據(jù)生成単元104,用于根據(jù)預存的子數(shù)據(jù)標準名稱和字符轉換規(guī)則,將所述多個子數(shù)據(jù)轉換為一條標準數(shù)據(jù);匹配值生成単元105,用于將所述標準數(shù)據(jù)與所述待處理數(shù)據(jù)進行比較,計算生成匹配值。數(shù)據(jù)存儲単元106,用于存儲所述待處理數(shù)據(jù)、生成的最終的匹配值、所述字符串最大值、所述字符標準值、所述子數(shù)據(jù)標準名稱和所述字符轉換規(guī)則。在本實施例中,待處理數(shù)據(jù)獲取単元101與預處理數(shù)據(jù)生成単元102相連接,負責從數(shù)據(jù)存儲単元106中讀取待處理的數(shù)據(jù);預處理數(shù)據(jù)生成単元102與子數(shù)據(jù)生成単元103連接,負責對待處理數(shù)據(jù)進行預處理,排除可能影響到最終匹配結果的因素,并將結果傳入子數(shù)據(jù)生成単元103 ;子數(shù)據(jù)生成単元103與標準數(shù)據(jù)生成単元104相連接,負責接收從預處理數(shù)據(jù)生成単元102傳入的預處理后的數(shù)據(jù),然后將該數(shù)據(jù)分解為多條子數(shù)據(jù),并將結果傳入標準數(shù)據(jù)生成單元104 ;標準數(shù)據(jù)生成単元104與匹配值生成単元105相連接,負責接收從子數(shù)據(jù)生成單元103傳入的子數(shù)據(jù),然后將這些子數(shù)據(jù)轉換成一條標準數(shù)據(jù),并將結果傳入匹配值生成單元105 ;匹配值生成単元105與數(shù)據(jù)存儲単元106相連接,負責接收從標準數(shù)據(jù)生成単元104傳入的數(shù)據(jù),然后將欲進行匹配的數(shù)據(jù)與標準數(shù)據(jù)進行比較得到最終的匹配值,并將結果傳入數(shù)據(jù)存儲単元106 ;數(shù)據(jù)存儲単元106負責存儲數(shù)據(jù)、參數(shù)和字典值。其中,數(shù)據(jù)包括待處理的數(shù)據(jù)和最終的匹配值;參數(shù)包括字符串最大 值MAX_LENGTH、計算匹配值時用到的不同線段長度對應權值其他權值;字典值即字符標準值,在中文地址匹配實施例中,包括:通用分隔符、省級行政區(qū)通名、省級行政區(qū)專名、市級行政區(qū)通名、市級行政區(qū)專名、區(qū)級行政區(qū)通名、區(qū)級行政區(qū)專名、鄉(xiāng)鎮(zhèn)、村通名、門牌號通名、非標準行政區(qū)通名、行政區(qū)名對應到的所有標準名稱和地區(qū)樹。在本實施例中,處理數(shù)據(jù)生成単元用于對所述預處理數(shù)據(jù)進行字符轉換,包括將全角字符轉換為半角字符;對所述預處理數(shù)據(jù)進行字體轉換,包括將大寫字母轉換為小寫字母;對所述預處理數(shù)據(jù)進行分隔符處理,包括將與預存的通用分隔符相匹配的字符刪除。例如,讀取預設的通用分隔符,如:〃、〃、〃_〃、〃,〃、〃*〃、〃~"、〃# 〃、空格等,然后,將客戶信息數(shù)據(jù)中與讀取出的通用分隔符相匹配的字符去除。以中文地址數(shù)據(jù)匹配為例介紹數(shù)據(jù)預處理的過程:如果接收到的預處理前的數(shù)據(jù)如下:“吉林朝陽人民路10弄三単元#六〇ニ#室”,則根據(jù)本實用新型實施例的預處理方法,預處理后的結果如下:“吉林朝陽人民路10弄三單元六〇ニ室”。在本實施例中,如圖3所示,所述子數(shù)據(jù)生成単元103根據(jù)預存的字符串最大值和字符標準值,利用逆向最大匹配法對所述預處理數(shù)據(jù)進行數(shù)據(jù)分割,生成等級由高到低排列的多個子數(shù)據(jù),其包括:數(shù)據(jù)判斷模塊1031,用于判斷接收到的預處理數(shù)據(jù)是否為單字符或為空;數(shù)據(jù)截取模塊1032,如果所述預處理數(shù)據(jù)不為單字符或空,則從所述預處理數(shù)據(jù)的最右邊截取長度為所述預存的字符串最大值的子字符串;數(shù)據(jù)匹配模塊1033,用于將所述子字符串與所述預存的字符標準值進行匹配;如果匹配不成功,則由所述數(shù)據(jù)截取模塊刪除所述子字符串最左邊的ー個字符后,再交由所述數(shù)據(jù)匹配模塊進行匹配處理;如果匹配成功,則將所述匹配成功的子字符串作為分割后生成的一個子數(shù)據(jù)進行保存。在本實施例中,數(shù)據(jù)截取模塊1032負責接收數(shù)據(jù)判斷模塊1031發(fā)送的字符串,并作為待處理字符串暫存在數(shù)據(jù)截取模塊1032。接著,從字符串最右邊截取長度為MAX_LENGTH (MAX_LENGTH的數(shù)值從數(shù)據(jù)存儲單元106中獲取)的子字符串,將子字符串發(fā)送給數(shù)據(jù)匹配模塊1033。同時接收數(shù)據(jù)匹配模塊1033的匹配結果,若不匹配,則數(shù)據(jù)截取模塊1032刪除子字符串的最左邊ー個字符后再發(fā)送給數(shù)據(jù)匹配模塊1033繼續(xù)匹配。若匹配上,則將子字符串作為分割后的字符串暫存在數(shù)據(jù)截取模塊1032,然后,將子字符串從待處理字符串中刪除并將刪除后的待處理字符串發(fā)送給數(shù)據(jù)判斷模塊1031。數(shù)據(jù)匹配模塊1033負責接收數(shù)據(jù)截取模塊1032發(fā)送的字符串。接著,從數(shù)據(jù)存儲單元106中獲取省級行政區(qū)通名、省級行政區(qū)專名、市級行政區(qū)通名、市級行政區(qū)專名、區(qū)級行政區(qū)通名、區(qū)級行政區(qū)專名、鄉(xiāng)鎮(zhèn)、村通名、門牌號通名以及非標準行政區(qū)通名,并與接收到的字符串進行匹配。最后,將匹配的結果發(fā)送給數(shù)據(jù)截取模塊1032。數(shù)據(jù)判斷模塊1031負責接收預處理數(shù)據(jù)生成単元102處理后的字符串,判斷字符串是否為空,如果不為空,則 將字符串傳給數(shù)據(jù)截取模塊1032,否則,將暫存在數(shù)據(jù)截取模塊1032中的分割后字符串傳給標準數(shù)據(jù)生成単元104,數(shù)據(jù)分割結束。同時該模塊還負責接收數(shù)據(jù)截取模塊1032截取的數(shù)據(jù),判斷其是否為單字符,如果不是單字符,則將其傳給數(shù)據(jù)匹配模塊1033。圖4為利用本實用新型實施例的子數(shù)據(jù)生成単元103生成多個子數(shù)據(jù)的ー個實施例的方法流程圖,如圖4所示,其包括:步驟401,數(shù)據(jù)判斷模塊1031接收從預處理數(shù)據(jù)生成模塊102傳來的數(shù)據(jù)作為待處理數(shù)據(jù);步驟402,數(shù)據(jù)判斷模塊1031判斷待處理數(shù)據(jù)是否為空,如果不為空,轉步驟403 ;否則,轉步驟408 ;步驟403,數(shù)據(jù)截取模塊1032從待處理數(shù)據(jù)最右邊截取長度為字符串最大值MAX_LENGTH (MAX_LENGTH的數(shù)值從數(shù)據(jù)存儲模塊106獲取)的子字符串;步驟404,數(shù)據(jù)匹配模塊1033判斷截取出的子字符串是否與從數(shù)據(jù)存儲模塊106中讀取到的字符標準值匹配,如果匹配,轉步驟405 ;否則,轉步驟406 ;步驟405,數(shù)據(jù)截取模塊1032將截取出的子字符串作為分割出的一條子數(shù)據(jù),并刪除待處理數(shù)據(jù)中截取出的子字符串;步驟406,數(shù)據(jù)截取模塊1032刪除截取出的子字符串的最左邊ー個字符;步驟407,數(shù)據(jù)判斷模塊1031判斷截取出的子字符串是否為單字符,如果是單字符,轉步驟405 ;否則,轉步驟404 ;步驟408,數(shù)據(jù)截取模塊1032將分割出的所有子數(shù)據(jù)合并,流程結束。以上述的中文地址數(shù)據(jù)匹配為例介紹數(shù)據(jù)分割的過程:假定數(shù)據(jù)預處理后的結果為“吉林朝陽人民路10弄三単元六〇ニ室”,字符串截取長度 MAX_LENGTH 為 10。[0052]第一歩,截取出的子字符串為“10弄三単元六〇ニ室”,從省級行政區(qū)通名開始與逐個字典值進行匹配直到非標準行政區(qū)通名為止,發(fā)現(xiàn)匹配不到任何字典值。其中的字典值即預設的字符標準值,其包括通用分隔符、省級行政區(qū)通名、省級行政區(qū)專名、市級行政區(qū)通名、市級行政區(qū)專名、區(qū)級行政區(qū)通名、區(qū)級行政區(qū)專名、鄉(xiāng)鎮(zhèn)、村通名、門牌號通名、非標準行政區(qū)通名、行政區(qū)名對應到的所有標準名稱和地區(qū)樹。第二歩,刪除截取出的子字符串的最左邊ー個字符,子字符串為“0弄三単元六〇ニ室”,同樣匹配不到任何字典值。直到截取出的子字符串為“室”時,匹配到一個門牌號通名。分割后字符串變?yōu)椤笆摇?,待分割字符串變?yōu)椤凹殖柸嗣衤?0弄三単元六〇ニ”。第三步,重復上述步驟,可以得到分割后字符串變?yōu)椤傲枼耸摇保指钭址優(yōu)椤凹殖柸嗣衤?0弄三単元”,此時,“單元”可以匹配到一個非標準行政區(qū)通名,因此,可以認為“六〇ニ室”是ー個可以被分割出來的子字符串,分割后字符串變?yōu)椤皢卧?,六〇ニ室”,待分割字符串變?yōu)椤凹殖柸嗣衤?0弄三”。以此類推,最終數(shù)據(jù)分割后的結果如下:“吉林,朝陽,人民路,10弄,三単元,六〇
ニ室”。在本實施例中,如圖5所示,所述標準數(shù)據(jù)生成単元104根據(jù)預存的子數(shù)據(jù)標準名稱和字符轉換規(guī)則,將所述多個子數(shù)據(jù)轉換為一條標準數(shù)據(jù),其包括:數(shù)據(jù)組生成模塊1041,用于根據(jù)預存的子數(shù)據(jù)標準名稱,將與每一子數(shù)據(jù)對應的標準名稱存儲為ー個數(shù)據(jù)組,以生成多個數(shù)據(jù)組;排序模塊1042,用于將所述多個數(shù)據(jù)組按級別由高到低排序,所述級別的高低與所述多個子數(shù)據(jù)的排序規(guī)則相同;多維數(shù)據(jù)組生成模塊1043,用于對所述排序后的多個數(shù)據(jù)組進行排列組合,生成多個多維數(shù)據(jù)組;標準數(shù)據(jù)生成模塊1044,用于根據(jù)預存的關系樹,找出與所述多個多維數(shù)據(jù)組中ー組對應的關系樹中的一條路 徑,生成所述標準數(shù)據(jù);數(shù)字轉換模塊1045,用于將所述多個子數(shù)據(jù)中的不能與所述預存的子數(shù)據(jù)標準名稱相匹配的子數(shù)據(jù),根據(jù)所述數(shù)字轉換規(guī)則,生成所述標準數(shù)據(jù);其中,所述數(shù)字轉換規(guī)則包括:將所述中文數(shù)字轉換為阿拉伯數(shù)字。在本實施例中,并不是每ー個子數(shù)據(jù)都會對應于一個標準名稱,此時將所述多個子數(shù)據(jù)中的不能與所述預存的子數(shù)據(jù)標準名稱相匹配的子數(shù)據(jù),根據(jù)所述數(shù)字轉換規(guī)則,生成所述標準數(shù)據(jù);其中,所述數(shù)字轉換規(guī)則包括:將所述中文數(shù)字轉換為阿拉伯數(shù)字。如果不符合數(shù)字轉換規(guī)則,例如不是中文數(shù)字,則將所述多個子數(shù)據(jù)中的不能與所述子數(shù)據(jù)標準名稱相匹配、且不能進行字符轉換的子數(shù)據(jù)保持不變。同樣以中文地址數(shù)據(jù)匹配為例介紹數(shù)據(jù)轉換的過程:第一歩,數(shù)據(jù)組生成模塊1041接收到的數(shù)據(jù)中篩選出代表行政區(qū)名的數(shù)據(jù),逐一從數(shù)據(jù)存儲單元106中讀取行政區(qū)名對應到的所有標準名稱,同一個行政區(qū)名對應的所有標準名稱作為ー組數(shù)據(jù)保存。第二步,排序模塊1042將數(shù)據(jù)組按級別由高到低排序。第三步,多維數(shù)據(jù)組生成模塊1043將排序后的數(shù)據(jù)組合成有意義的省、市、區(qū)名三維組,這里所謂的有意義是指,組成的三維組中不能存在省、市、區(qū)名中任意兩個處于同一行政級別的情況。第四步,標準數(shù)據(jù)生成模塊1044從數(shù)據(jù)存儲單元106中獲取地區(qū)樹,地區(qū)樹是ー棵以中國為根節(jié)點的省、市、區(qū)標準名組成的樹。遍歷地區(qū)樹,判斷組成的省、市、區(qū)名三維組是否可以對應到樹中的一條路徑,如果可以對應到,則該條路徑上所有節(jié)點即構成標準化后的行政區(qū)名。第五步,數(shù)字轉換模塊1045從數(shù)據(jù)存儲單元106中獲取門牌號通名,將數(shù)據(jù)中所有門牌號通名轉換為統(tǒng)一字符,即將數(shù)據(jù)中門牌號部分的所有中文數(shù)字轉換為阿拉伯數(shù)字。以上述的中文地址數(shù)據(jù)匹配的具體實施例介紹數(shù)據(jù)轉換的過程:假定數(shù)據(jù)分割后的結果為“吉林,朝陽,人民路,10弄,三単元,六〇ニ室”。第一歩,獲取行政區(qū)名對應到的所有標準名稱,同一個行政區(qū)名對應的所有標準名稱作為ー組數(shù)據(jù)保存,結果如下:{吉林} — {吉林市,吉林省},{朝陽} — {朝陽區(qū),朝陽市,朝陽縣}。第二步,將數(shù)據(jù)組按級別由高到低排序,結果如下:{吉林省,吉林市},{朝陽市,朝陽區(qū),朝陽縣}。第三步,將排序后的數(shù)據(jù)組合成有意義的省、市、區(qū)名三維組,結果如下:{吉林省,朝陽市,null}, {吉林省,null,朝陽區(qū)}, {吉林省,null,朝陽縣}, {null,吉林市,朝陽區(qū)},{null,吉林市,朝陽縣}。第四步,遍歷預存的地區(qū)樹,如圖6所示,三維組中的{吉林省,null,朝陽區(qū)}可以在地區(qū)樹中找到對應的一條路徑,因此,“吉林,朝陽”標準化后的行政區(qū)名為“吉林省長春市朝陽區(qū)”。第五歩,將所有門牌號通名統(tǒng)ー轉換為“ 10弄,三単元,六〇ニ室”被轉換為“10-三-六〇ニ”。第六步,將所有中文數(shù)字轉換為阿拉伯數(shù)字,“ 10-三-六〇ニ”被轉換為“10-3-602”。第七步,剰余的即不屬于行政區(qū)名又不屬于門牌號部分的數(shù)據(jù)保持不變,拼接結果后得到最終的數(shù)據(jù)轉換后的結果:“吉林省長春市朝陽區(qū)人民路10-3-602”。在本實施例中,如圖7所示,所述匹配值生成単元105用于將所述標準數(shù)據(jù)與所述待處理數(shù)據(jù)進行比較,計算生成匹配值,其包括:比較矩陣構造模塊1051,用于將所述標準數(shù)據(jù)與所述待處理數(shù)據(jù)按位比較,構造比較矩陣;有效線段生成模塊1052,查找所述比較矩陣中的線段對其按長度由長到短進行排序,并刪除在行上或列上被更長線段完全包含的線段;匹配值計算模塊1053,用于根據(jù)預設的線段權值和所述子數(shù)據(jù)中的進行字符轉換規(guī)則的子數(shù)據(jù)所占的權值,生成匹配值。同樣以上述的中文地址數(shù)據(jù)匹配為例介紹計算匹配值的過程:首先,接收經過數(shù)據(jù)轉換得到的一條標準數(shù)據(jù);其次,對 標準數(shù)據(jù)和最開始的待處理數(shù)據(jù)進行按位比較,相同位置1,不同位置0,構造出比較矩陣;其次,查找比較矩陣中的線段并對其按長度由長到短進行排序;其次,去除在行上和列上被更長線段完全包含的線段,其中線段完全包含是指:較短的線段在上下左右平移N個位置后可以被更長的線段完全覆蓋;其次,獲取不同線段長度對應權值和門牌號部分所占權值。門牌號部分所占權值即是進行字符轉換規(guī)則的子數(shù)據(jù);[0083]最后,計算出線段匹配值和門牌號匹配值后將線段匹配值和門牌號匹配值相加,得到最終的匹配值。
具體實施例:(I)獲取客戶信息數(shù)據(jù)中要進行匹配的待處理數(shù)據(jù):“上海南京路18號5#102”和“南京東路18號五號樓102室”;(2)將所述待處理數(shù)據(jù)進行格式轉換,生成預處理數(shù)據(jù):“上海南京路18-5-102”和“南京東路18-5-102”;(3)根據(jù)預存的字符串最大值和字符標準值,利用逆向最大匹配法對所述預處理數(shù)據(jù)進行數(shù)據(jù)分割,生成等級由高到低排列的多個子數(shù)據(jù):“上海,南京路,18,5,102”和“南京東路,18,5,102”;(4)根據(jù)預存的子數(shù)據(jù)標準名稱和字符轉換規(guī)則,將所述多個子數(shù)據(jù)轉換為一條標準數(shù)據(jù):“上海市南京路18-5-102”和“南京東路18-5-102” ;(5)經過數(shù)據(jù)轉換后的兩數(shù)據(jù)分別為“上海市南京路18-5-102”和“南京東路18-5-102”;(6)將兩個數(shù)據(jù)進行比較,計算生成匹配值:第一步,構造比較矩陣,相同位置1,不同位置0,結果如下表I所示:表I
權利要求1.一種數(shù)據(jù)匹配裝置,其特征在于,所述裝置包括中央處理器、顯示器、鍵盤以及通訊接ロ ; 所述顯示器、鍵盤和通訊接ロ分別連接至所述中央器;其中, 所述鍵盤用于用戶輸入操作指令; 所述通訊接ロ用于接收外部的客戶信息數(shù)據(jù)中要進行匹配的待處理數(shù)據(jù); 所述中央處理器用于控制整個裝置的運轉控制和指令處理,根據(jù)所述待處理數(shù)據(jù)生成數(shù)據(jù)匹配結果; 所述顯示器用于顯示所述待處理數(shù)據(jù)、所述數(shù)據(jù)匹配結果以及所述中央處理器的處理過程信息。
2.如權利要求1所述的數(shù)據(jù)匹配裝置,其特征在于,所述通訊接ロ為有線通訊接ロ或無線通訊接ロ,其可通過 網(wǎng)線或者無線網(wǎng)絡將接收到的外部待處理數(shù)據(jù)傳送至所述中央處理器中進行存儲。
專利摘要本實用新型公開了一種數(shù)據(jù)匹配裝置,包括中央處理器、顯示器、鍵盤以及通訊接口;所述顯示器、鍵盤和通訊接口分別連接至所述中央處理器;其中,所述鍵盤用于用戶輸入操作指令;所述通訊接口用于接收外部的客戶信息數(shù)據(jù)中要進行匹配的待處理數(shù)據(jù);所述中央處理器用于控制整個裝置的運轉控制和指令處理,根據(jù)所述待處理數(shù)據(jù)生成數(shù)據(jù)匹配結果;所述顯示器用于顯示所述待處理數(shù)據(jù)、所述數(shù)據(jù)匹配結果以及所述中央處理器的處理過程信息。本實用新型實施例的數(shù)據(jù)匹配裝置,提高了比對的效率和準確性,降低人工操作成本,實現(xiàn)大數(shù)據(jù)量的處理;實現(xiàn)了對客戶信息數(shù)據(jù)中的中文數(shù)據(jù)項進行比對的系統(tǒng)化、自動化、流程化、客觀化。
文檔編號G06F17/30GK202916832SQ20122042929
公開日2013年5月1日 申請日期2012年8月27日 優(yōu)先權日2012年8月27日
發(fā)明者曹折波, 胡弘毅, 黃文卿, 徐敏, 陳姍婷, 侯鵬燕 申請人:中國工商銀行股份有限公司