亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種地址信息識(shí)別方法及裝置與流程

文檔序號(hào):11950202閱讀:523來(lái)源:國(guó)知局
一種地址信息識(shí)別方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種地址信息識(shí)別方法及裝置。



背景技術(shù):

目前有許多領(lǐng)域需要用到地址信息,地址信息的準(zhǔn)確與否直接影響到業(yè)務(wù)的成功與否;例如在網(wǎng)絡(luò)交易平臺(tái)中,如果買(mǎi)家地址信息填寫(xiě)有誤,將導(dǎo)致貨物無(wú)法送達(dá)至買(mǎi)家,進(jìn)而直接影響收貨交款業(yè)務(wù)。另外,如果買(mǎi)家退貨給賣(mài)家,而賣(mài)家地址信息填寫(xiě)有誤,同樣導(dǎo)致貨物無(wú)法返回給賣(mài)家,進(jìn)而直接影響退款退貨業(yè)務(wù)。無(wú)論是買(mǎi)家地址信息還是賣(mài)家地址信息,只有有效的地址信息才能保證物流通暢,保證交易成功完成。

地址信息主要由國(guó)家行政區(qū)域部分和詳細(xì)地址部分構(gòu)成,國(guó)家行政區(qū)域部分包括國(guó)家、省、市、區(qū)、縣等行政區(qū)劃信息,詳細(xì)地址部分一般包括具體到路、街道、小區(qū)、鄉(xiāng)、鎮(zhèn)、村和門(mén)牌號(hào)等位置信息。很多領(lǐng)域都采用下拉選項(xiàng)和詳細(xì)地址兩部分方式管理地址信息,當(dāng)用戶在填寫(xiě)地址信息時(shí),先按照下拉選項(xiàng)中各級(jí)別的可選項(xiàng)來(lái)選擇具體的區(qū)劃信息,再在詳細(xì)地址部分填寫(xiě)具體的位置信息。

現(xiàn)階段的地址信息識(shí)別方式主要是通過(guò)下拉選項(xiàng)方式引導(dǎo)用戶填寫(xiě),保證下拉選項(xiàng)部分的信息是有效的,但其忽略了詳細(xì)地址部分的位置信息,實(shí)際應(yīng)用中往往是由于詳細(xì)地址部分的位置信息有誤導(dǎo)致業(yè)務(wù)受到影響。另外,在一些應(yīng)用場(chǎng)景下,沒(méi)有下拉選項(xiàng)的引導(dǎo),用戶會(huì)直接輸入地址信息,在這種場(chǎng)景下不會(huì)對(duì)地址信息進(jìn)行識(shí)別,更加無(wú)法保證地址信息的有效,對(duì)業(yè)務(wù)影響較大。

在這種市場(chǎng)需求的環(huán)境下,有限狀態(tài)機(jī)識(shí)別方式應(yīng)運(yùn)而生,有限狀態(tài)機(jī)識(shí)別原理可參見(jiàn)圖1,每個(gè)有限狀態(tài)機(jī)都有一個(gè)起始狀態(tài)、一個(gè)終止?fàn)顟B(tài)以及若干中間狀態(tài),每?jī)蓚€(gè)狀態(tài)間弧線上都帶有狀態(tài)轉(zhuǎn)換條件。當(dāng)一條地址信息從起始狀態(tài)經(jīng)過(guò)若干中間狀態(tài)進(jìn)入終點(diǎn)狀態(tài)時(shí),則識(shí)別出這條地址信息是有效的,否則識(shí)別出這條信息是無(wú)效的。

但這種有限狀態(tài)機(jī)識(shí)別方式有以下缺點(diǎn):一方面,對(duì)于撰寫(xiě)不規(guī)范的地址信息,如不攜帶省、市、區(qū)等關(guān)鍵字的地址信息,再例如,攜帶地標(biāo)建筑、醫(yī)院、酒店等公共場(chǎng)所名稱的地址信息,該方式均無(wú)法有效識(shí)別。另一方面,狀態(tài)間的轉(zhuǎn)換需要大量的字符串匹配操作,識(shí)別過(guò)程耗時(shí)較長(zhǎng)。



技術(shù)實(shí)現(xiàn)要素:

為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種地址信息識(shí)別方法及裝置,通過(guò)對(duì)地址信息的解析得到地址鏈和后綴字符串,為后續(xù)的識(shí)別打好基礎(chǔ),先對(duì)地址鏈進(jìn)行判斷,以識(shí)別地址信息的區(qū)域從屬關(guān)系是否正確;在區(qū)域從屬關(guān)系正確的情況下,進(jìn)而識(shí)別后綴字符串是否有效,通過(guò)對(duì)地址信息中兩部分信息的識(shí)別以保證識(shí)別的準(zhǔn)確性和時(shí)效性。

一方面,本發(fā)明提供了一種地址信息識(shí)別方法,所述方法包括:

根據(jù)預(yù)先構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表,解析待識(shí)別的地址信息的字符串得到地址鏈和后綴字符串;所述數(shù)據(jù)結(jié)構(gòu)表是基于國(guó)家行政區(qū)劃信息構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表;

根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息建立的行政區(qū)域級(jí)別從屬關(guān)系鏈表;

當(dāng)所述地址鏈的區(qū)域從屬關(guān)系正確時(shí),查看所述后綴字符串是否包含預(yù)設(shè)的后綴關(guān)鍵字;如果是,確定地址信息是有效的;否則,確定地址信息是無(wú)效的;

當(dāng)所述地址鏈的區(qū)域從屬關(guān)系不正確時(shí),則確定地址信息為無(wú)效的。

可選的,所述根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確,具體包括:

根據(jù)預(yù)先建立的行政區(qū)域從屬關(guān)系鏈表,按照級(jí)別由高到低的正向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息,按照行政區(qū)域級(jí)別由高到低的方式建立的正向級(jí)別從屬關(guān)系鏈表。

可選的,所述根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確,具體包括:

根據(jù)預(yù)先建立的行政區(qū)域從屬關(guān)系鏈表,按照級(jí)別由低到高的逆向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息,按照行政區(qū)域級(jí)別由低到高的方式建立的逆向級(jí)別從屬關(guān)系鏈表。

可選的,所述逆向級(jí)別從屬關(guān)系鏈表包括:

相鄰級(jí)別的逆向級(jí)別從屬關(guān)系鏈表和跨級(jí)別的逆向級(jí)別從屬關(guān)系鏈表。

可選的,所述判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確,具體包括:

判斷所述地址鏈里第一個(gè)地址單元是否為直轄市;

如果是,根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表以及所述地址鏈中的前兩個(gè)地址單元,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;

否則,根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表以及所述地址鏈中的前三個(gè)地址單元,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確。

可選的,當(dāng)所述地址鏈的區(qū)域從屬關(guān)系正確時(shí),在執(zhí)行所述查看所述后綴字符串是否包含預(yù)設(shè)的后綴關(guān)鍵字步驟之前,所述方法還包括:

對(duì)所述后綴字符串進(jìn)行去重處理,以去掉所述后綴字符串中與所述地址鏈中信息相同的部分;

判斷去重后的后綴字符串的長(zhǎng)度是否大于預(yù)設(shè)閾值;如果是,則執(zhí)行所述查看所述后綴字符串是否包含預(yù)設(shè)的后綴關(guān)鍵字的步驟。

可選的,當(dāng)查看所述后綴字符串不包含預(yù)設(shè)的后綴關(guān)鍵字時(shí),所述方法還包括:

判斷所述后綴字符串是否包含預(yù)設(shè)的垃圾關(guān)鍵字;如果是,則確定地址信息是無(wú)效的;否則,確定地址信息是有效的。

可選的,所述數(shù)據(jù)結(jié)構(gòu)表是基于字典樹(shù)的結(jié)構(gòu),將國(guó)家行政區(qū)劃信息中的地址單元按照單字拆開(kāi)的方式構(gòu)造生成的地址單元的字典樹(shù)。

另一方面,本發(fā)明提供了一種地址信息識(shí)別裝置,其特征在于,所述裝置包括:

地址信息解析單元,用于根據(jù)預(yù)先構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表,解析待識(shí)別的地址信息的字符串得到地址鏈和后綴字符串;所述數(shù)據(jù)結(jié)構(gòu)表是基于國(guó)家行政區(qū)劃信息構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表;

從屬關(guān)系判斷單元,用于根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息建立的行政區(qū)域級(jí)別從屬關(guān)系鏈表;如果是,進(jìn)入第一查看單元;否則,進(jìn)入第二確定單元;

第一查看單元,用于查看所述后綴字符串是否包含預(yù)設(shè)的后綴關(guān)鍵字;如果是,進(jìn)入第一確定單元;否則,進(jìn)入第二確定單元;

所述第一確定單元,用于確定地址信息是有效的;

所述第二確定單元,用于確定地址信息是無(wú)效的。

可選的,所述區(qū)域從屬關(guān)系判斷單元具體用于:

根據(jù)預(yù)先建立的行政區(qū)域從屬關(guān)系鏈表,按照級(jí)別由高到低的正向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息,按照行政區(qū)域級(jí)別由高到低的方式建立的正向級(jí)別從屬關(guān)系鏈表。

可選的,所述區(qū)域從屬關(guān)系判斷單元具體用于:

根據(jù)預(yù)先建立的行政區(qū)域從屬關(guān)系鏈表,按照級(jí)別由低到高的逆向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息,按照行政區(qū)域級(jí)別由低到高的方式建立的逆向級(jí)別從屬關(guān)系鏈表。

可選的,所述逆向級(jí)別從屬關(guān)系鏈表包括:

相鄰級(jí)別的逆向級(jí)別從屬關(guān)系鏈表和跨級(jí)別的逆向級(jí)別從屬關(guān)系鏈表。

可選的,所述區(qū)域從屬關(guān)系判斷單元,包括:

第一判斷子單元,用于判斷所述地址鏈里第一個(gè)地址單元是否為直轄市;如果是,進(jìn)入第二判斷子單元;否則,第三判斷子單元;

第二判斷子單元,用于根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表以及所述地址鏈中的前兩個(gè)地址單元,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;

第三判斷子單元,用于根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表以及所述地址鏈中的前三個(gè)地址單元,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確。

可選的,所述裝置還包括:

去重處理單元,用于對(duì)所述后綴字符串進(jìn)行去重處理,以去掉所述后綴 字符串中與所述地址鏈中信息相同的部分;

長(zhǎng)度判斷單元,用于判斷去重后的后綴字符串的長(zhǎng)度是否大于預(yù)設(shè)閾值;如果是,進(jìn)入所述第一查看單元。

可選的,所述裝置還包括:

第二查看單元,用于在所述第一查看單元查看出后綴字符串不包含預(yù)設(shè)的后綴關(guān)鍵字時(shí),查看后綴字符串是否包含預(yù)設(shè)的垃圾關(guān)鍵字;如果是,進(jìn)入第二確定單元;否則,進(jìn)入第一確定單元。

可選的,所述數(shù)據(jù)結(jié)構(gòu)表是基于字典樹(shù)的結(jié)構(gòu),將國(guó)家行政區(qū)劃信息中的地址單元按照單字拆開(kāi)的方式構(gòu)造生成的地址單元的字典樹(shù)。

由上述技術(shù)方案可以看出,與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:

本發(fā)明首先根據(jù)預(yù)先構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表,解析待識(shí)別的地址信息的字符串得到地址鏈和后綴字符串;其中,數(shù)據(jù)結(jié)構(gòu)表是基于國(guó)家行政區(qū)劃信息構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表;然后,根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;其中,從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息建立的行政區(qū)域級(jí)別從屬關(guān)系鏈表;這樣,先判斷出地址信息中的國(guó)家行政區(qū)域部分的內(nèi)容是否正確;如果從屬關(guān)系不正確,那么可以直接確定地址信息是無(wú)效的;如果從屬關(guān)系是正確的,那么繼續(xù)對(duì)后綴字符串部分進(jìn)行識(shí)別,具體是通過(guò)查看所述后綴字符串是否包含預(yù)設(shè)的后綴關(guān)鍵字;如果是,確定地址信息是有效的;否則,確定地址信息是無(wú)效的。本發(fā)明通過(guò)對(duì)地址信息的解析為后續(xù)的兩部分識(shí)別打好基礎(chǔ),一部分是基于從屬關(guān)系鏈表對(duì)區(qū)域從屬關(guān)系的識(shí)別,識(shí)別過(guò)程簡(jiǎn)單;另一部分是基于預(yù)設(shè)的后綴關(guān)鍵字對(duì)詳細(xì)地址信息的識(shí)別,即是關(guān)鍵字匹配的識(shí)別方式,匹配過(guò)程簡(jiǎn)單;通過(guò)這兩部分相結(jié)合的識(shí)別方式,既能保證對(duì)地址信息的完整識(shí)別保證其準(zhǔn)確性,又能保證識(shí)別效率。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為現(xiàn)有技術(shù)的有限狀態(tài)機(jī)的識(shí)別方法的原理圖;

圖2為本發(fā)明提供的一種地址信息識(shí)別方法實(shí)施例1的流程圖;

圖3為本發(fā)明提供的基于Trie樹(shù)構(gòu)造的地址單元數(shù)據(jù)結(jié)構(gòu)表的示意圖;

圖4為本發(fā)明提供的一種地址信息識(shí)別方法實(shí)施例2的流程圖;

圖5為本發(fā)明提供的一種地址信息識(shí)別方法實(shí)施例3的流程圖;

圖6為本發(fā)明提供的一種地址信息識(shí)別裝置實(shí)施例1的結(jié)構(gòu)圖;

圖7為本發(fā)明提供的一種地址信息識(shí)別裝置實(shí)施例2的結(jié)構(gòu)圖;

圖8為本發(fā)明提供的一種地址信息識(shí)別裝置實(shí)施例3的結(jié)構(gòu)圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

參見(jiàn)圖2,圖2為本發(fā)明提供的一種地址信息識(shí)別方法實(shí)施例1的流程圖,由圖2可知,該方法包括以下步驟:

S201,根據(jù)預(yù)先構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表,解析待識(shí)別的地址信息的字符串得到地址鏈和后綴字符串;所述數(shù)據(jù)結(jié)構(gòu)表是基于國(guó)家行政區(qū)劃信息構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表。

地址單元是指基于國(guó)家行政劃分信息提取的,用于表征獨(dú)立地域信息的單元。地址單元可以通過(guò)以下方式生成,包括:

先將國(guó)家行政區(qū)劃信息進(jìn)行區(qū)域分割,再對(duì)分割的單元進(jìn)行歸一化,以去除行政區(qū)劃后綴(如“省、市、區(qū)、縣”等后綴字),以得到地址單元。

舉例說(shuō)明,例1,國(guó)家行政區(qū)劃信息為:北京市市轄區(qū)東城區(qū)東華門(mén)街道辦事處;區(qū)劃分割以及歸一化得到“北京東城東華門(mén)街道”;例2,國(guó)家行政區(qū)劃信息為:“廣東省清遠(yuǎn)市連山壯族瑤族自治縣福堂鎮(zhèn)”,區(qū)劃分割以及歸一化為:“廣東清遠(yuǎn)連山福堂鎮(zhèn)”。

地址單元的數(shù)據(jù)結(jié)構(gòu)表可以采用任意類型的結(jié)構(gòu)來(lái)生成,例如可以采用哈希表結(jié)構(gòu)、字典樹(shù)(Trie樹(shù))等。發(fā)明人發(fā)現(xiàn)Trie樹(shù)結(jié)構(gòu)的遍歷性能較高,那么為了提高識(shí)別效率,在具體實(shí)現(xiàn)時(shí),上述數(shù)據(jù)結(jié)構(gòu)表可以是基于字典樹(shù)的結(jié)構(gòu),將國(guó)家行政區(qū)劃信息中的地址單元按照單字拆開(kāi)的方式構(gòu)造生成的地址單元的字典樹(shù)。下面對(duì)基于Trie樹(shù)結(jié)構(gòu)構(gòu)造數(shù)據(jù)結(jié)構(gòu)表的方法進(jìn)行說(shuō)明。

首先,按照單字拆開(kāi)的方式將地址單元拆成單字,然后,將一個(gè)單獨(dú)的字作為一個(gè)節(jié)點(diǎn)來(lái)構(gòu)造整個(gè)樹(shù),且每個(gè)節(jié)點(diǎn)上攜帶有地址單元是否終止的標(biāo)識(shí)。例如:參見(jiàn)圖3,圖3是基于Trie樹(shù)結(jié)構(gòu)構(gòu)造的地址單元的的數(shù)據(jù)結(jié)構(gòu)表的示意圖,在圖3中僅以6個(gè)地址單元為例來(lái)展示對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)表,具體的6個(gè)地址單元為“山西、山東、山東廟街、太原、太原街、蒙古”,每個(gè)地址單元均被拆成單字,每個(gè)字作為一個(gè)節(jié)點(diǎn),在每個(gè)節(jié)點(diǎn)里的“0”或“1”是用于標(biāo)識(shí)地址單元是否終止,在圖3中用“0”標(biāo)識(shí)地址單元沒(méi)有終止,用“1”標(biāo)識(shí)地址單元終止,在實(shí)際應(yīng)用中也可以通過(guò)其他方式來(lái)進(jìn)行標(biāo)識(shí)。

上述S101就是基于預(yù)先構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表,來(lái)解析待識(shí)別的地址信息的字符串得到地址鏈和后綴字符串;地址鏈用于表征地址信息中的區(qū)劃信息;后綴字符串是地址信息中除去地址鏈后剩余的字符串;在具體實(shí)現(xiàn)時(shí),基于預(yù)先構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表,按照最長(zhǎng)匹配原則解析地址信息的字符串得到地址單元,所有地址單元按照原始位置關(guān)系組合成地址鏈。

舉例說(shuō)明,例如:“山東省煙臺(tái)市蓬萊市蓬達(dá)望閣樓5樓3059”,解析到的地址鏈為:“山東煙臺(tái)蓬萊”,后綴字符串為“蓬達(dá)望閣樓5樓3059”。再例如:“北京市朝陽(yáng)區(qū)東三環(huán)中路32號(hào)”解析到的地址鏈為:“北京朝陽(yáng)”,后綴字符串為“東三環(huán)中路32號(hào)”。

完成S201之后,進(jìn)入S202步驟。

S202,根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息建立的行政區(qū)域級(jí)別從屬關(guān)系鏈表。

發(fā)明人首先提供了一種方式來(lái)是實(shí)現(xiàn)S202,第一種方式:根據(jù)預(yù)先建立的行政區(qū)域從屬關(guān)系鏈表,按照級(jí)別由高到低的正向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信 息,按照行政區(qū)域級(jí)別由高到低的方式建立的正向級(jí)別從屬關(guān)系鏈表。

考慮到中國(guó)地理環(huán)境復(fù)雜,行政區(qū)域從屬關(guān)系復(fù)雜,一個(gè)地址單元的下級(jí)地址可能有多個(gè),例如:河北省的下級(jí)地址有33個(gè)市、108個(gè)縣;再例如:山東省的下級(jí)地址有17個(gè)市、139個(gè)縣或區(qū)。發(fā)明人又提供了一種方式來(lái)實(shí)現(xiàn)S202,以提高區(qū)域從屬關(guān)系識(shí)別效率。

第二種方式:根據(jù)預(yù)先建立的行政區(qū)域從屬關(guān)系鏈表,按照級(jí)別由低到高的逆向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息,按照行政區(qū)域級(jí)別由低到高的方式建立的逆向級(jí)別從屬關(guān)系鏈表。

另外,發(fā)明人還考慮到用戶輸入地址信息的一些常規(guī)習(xí)慣,如跨級(jí)別的地址信息,如用戶經(jīng)常會(huì)漏掉中間級(jí)別的區(qū)劃信息,如漏掉市級(jí)別、漏掉區(qū)級(jí)別,例如,“陜西省寶雞市金臺(tái)區(qū)陳倉(cāng)園北金色花園小區(qū)”用戶一般會(huì)寫(xiě)成“陜西省金臺(tái)區(qū)陳倉(cāng)園北金色花園小區(qū)”,漏掉了中間級(jí)別的“寶雞市”或者“陜西省寶雞市陳倉(cāng)園北金色花園小區(qū)”,漏掉了中間級(jí)別的“金臺(tái)區(qū)”;針對(duì)用戶輸入的此類地址信息,為了進(jìn)一步提高區(qū)域從屬關(guān)系的識(shí)別效率,發(fā)明人還提供了更好的方案,在第二種方式中,所述逆向級(jí)別從屬關(guān)系鏈表包括:相鄰級(jí)別的逆向級(jí)別從屬關(guān)系鏈表和跨級(jí)別的逆向級(jí)別從屬關(guān)系鏈表。

舉例說(shuō)明,例如:“北京東城東華門(mén)街道”可構(gòu)造成“東華門(mén)街道—>東城—>北京,東華門(mén)街道—>北京(跨級(jí)別從屬關(guān)系鏈表),東城—>北京”三個(gè)逆向從屬關(guān)系鏈。此外,對(duì)于一個(gè)地址單元可能出現(xiàn)在多個(gè)轄區(qū)中的情況,則針對(duì)一個(gè)地址單元可以構(gòu)造多重關(guān)系鏈表,例如:“安徽蕪湖鏡湖北京路街道”和“山東日照東港北京路街道”都含有“北京路街道”,因此,可以構(gòu)造“北京路街道—>鏡湖—>蕪湖—>安徽”和“北京路街道—>東港—>日照—>山東”。

下面對(duì)上述“按照級(jí)別由低到高的逆向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確”的實(shí)現(xiàn)過(guò)程進(jìn)行舉例說(shuō)明。

例如:地址鏈為“遼寧沈陽(yáng)和平太原街”,按照級(jí)別由低到高的逆向匹配方式具體為:先判斷“沈陽(yáng)”是否隸屬于“遼寧”,再判斷“和平區(qū)”是否屬于“沈陽(yáng)”,最后判斷“太原街”是否屬于“和平區(qū)”,只有所有從屬關(guān) 系正確才可以認(rèn)為是正確的從屬關(guān)系。整個(gè)判斷過(guò)程是基于地址鏈中的地址單元位置順序,再按照級(jí)別由低到高的逆向方式進(jìn)行判斷。

另外,考慮到中國(guó)關(guān)于市級(jí)設(shè)置了直轄市,對(duì)于直轄市的區(qū)劃信息,其下級(jí)地址單位只是區(qū)、縣等,對(duì)于非直轄市的區(qū)劃信息,其包括省、市、區(qū)、縣等,為了進(jìn)一步提高區(qū)域從屬關(guān)系的識(shí)別效率,發(fā)明人還提供了一種實(shí)現(xiàn)方式,第三種方式,包括:

判斷所述地址鏈里第一個(gè)地址單元是否為直轄市;

如果是,根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表以及所述地址鏈中的前兩個(gè)地址單元,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;

否則,根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表以及所述地址鏈中的前三個(gè)地址單元,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確。

目前中國(guó)有4個(gè)直轄市,分別為北京市、上海市、天津市、重慶市;那么在具體實(shí)現(xiàn)時(shí),僅需要判斷地址鏈里的級(jí)別最高的單元,即,第一個(gè)地址單元是否為上述四個(gè)直轄市中任一個(gè)。在按照第三種方式實(shí)現(xiàn)S202時(shí),可以采用上述第一種方式或上述第二種方式來(lái)判斷區(qū)域從屬關(guān)系是否正確。

完成S202之后,當(dāng)所述地址鏈的區(qū)域從屬關(guān)系正確時(shí),進(jìn)入S203步驟;當(dāng)所述地址鏈的區(qū)域從屬關(guān)系不正確時(shí),進(jìn)入S205步驟。

S203,查看所述后綴字符串是否包含預(yù)設(shè)的后綴關(guān)鍵字;如果是,進(jìn)入S204;否則,進(jìn)入S205。

S204,確定地址信息是有效的。S205,確定地址信息是無(wú)效的。

在這里,預(yù)設(shè)的后綴關(guān)鍵字是通過(guò)預(yù)先統(tǒng)計(jì)合法地址信息中的標(biāo)志性的字。一般情況下,先統(tǒng)計(jì)合法地址的標(biāo)志性字出現(xiàn)的頻率,將出現(xiàn)頻率較高的字設(shè)置為預(yù)設(shè)的后綴關(guān)鍵字,如:“號(hào)、棟、室、路、弄、苑……等”。在具體實(shí)現(xiàn)時(shí),將這些預(yù)設(shè)的后綴關(guān)鍵字組合成一個(gè)預(yù)設(shè)的關(guān)鍵字集合,那么在實(shí)現(xiàn)S203時(shí),將所述后綴字符串與預(yù)設(shè)的關(guān)鍵字集合進(jìn)行文本遍歷,以確定所述后綴字符串是否包含預(yù)設(shè)的關(guān)鍵字;如果按照集合中字的順序進(jìn)行遍歷,只要確定出后綴字符串包含了一個(gè)預(yù)設(shè)的關(guān)鍵字,就可以停止遍歷。

另外,發(fā)明人結(jié)合用戶撰寫(xiě)地址信息的習(xí)慣,在大量地址信息數(shù)據(jù)的統(tǒng) 計(jì)規(guī)律的基礎(chǔ)上,統(tǒng)計(jì)得到一個(gè)閾值可以作為區(qū)分后綴字符串正確與否的判斷閾值,進(jìn)一步地,發(fā)明人在上述實(shí)施例1的基礎(chǔ)上,還提供了另一種更優(yōu)化的實(shí)現(xiàn)方案。

參見(jiàn)圖4,圖4為本發(fā)明提供的一種地址信息識(shí)別方法實(shí)施例2的流程圖;圖4的方案是在圖2方案的基礎(chǔ)上,增加了如下步驟:

在執(zhí)行S201和S202,完成S202之后,當(dāng)所述地址鏈的區(qū)域從屬關(guān)系正確時(shí),進(jìn)入執(zhí)行S206步驟;當(dāng)所述地址鏈的區(qū)域從屬關(guān)系不正確時(shí),進(jìn)入S205。

S206,對(duì)所述后綴字符串進(jìn)行去重處理,以去掉所述后綴字符串中與所述地址鏈中信息相同的部分。

這里的去重處理主要是為了解決在實(shí)際應(yīng)用中,用戶重復(fù)輸入?yún)^(qū)劃信息以至于后綴字符串中還會(huì)包含區(qū)劃信息,進(jìn)而影響后續(xù)識(shí)別效果的問(wèn)題。

在完成S206時(shí),進(jìn)入S207。

S207,判斷去重后的后綴字符串的長(zhǎng)度是否大于預(yù)設(shè)閾值;如果是,進(jìn)入S203以及進(jìn)入S204或S205。

另外,發(fā)明人在上述實(shí)施例2的基礎(chǔ)上,還提供了另一種更優(yōu)化的實(shí)現(xiàn)方案。

參見(jiàn)圖5,圖5為本發(fā)明提供的一種地址信息識(shí)別方法實(shí)施例3的流程圖;圖5的方案是在圖4方案的基礎(chǔ)上,增加了如下步驟:

在執(zhí)行S203判斷結(jié)果為是時(shí),進(jìn)入S208。

S208,判斷所述后綴字符串是否包含預(yù)設(shè)的垃圾關(guān)鍵字;如果是,進(jìn)入S205,否則,進(jìn)入S204。

這里的預(yù)設(shè)的垃圾關(guān)鍵字是通過(guò)統(tǒng)計(jì)錯(cuò)誤地址信息中頻繁出現(xiàn)的垃圾關(guān)鍵字。需要說(shuō)明的是,在各個(gè)方案中各步驟的序列號(hào)并不直接決定步驟的執(zhí)行順序,而是根據(jù)上下文邏輯關(guān)系來(lái)決定步驟的執(zhí)行順序。

通過(guò)上述實(shí)施例可以看出,本發(fā)明基于國(guó)家區(qū)劃信息建立的數(shù)據(jù)結(jié)構(gòu)表來(lái)對(duì)地址信息進(jìn)行劃分得到地址鏈和后綴字符串,接著采用兩重識(shí)別方式,既識(shí)別表征區(qū)劃信息的地址鏈,又識(shí)別表征具體位置信息的后綴字符串,保證了識(shí)別完整性提高了精確度,且地址鏈從屬關(guān)系的識(shí)別和后綴字符串的識(shí) 別均是字符串查找過(guò)程,實(shí)現(xiàn)過(guò)程簡(jiǎn)單快速,使得識(shí)別效率較高;另外,在后綴字符串的識(shí)別,可以利用預(yù)設(shè)的后綴關(guān)鍵字,還可以結(jié)合后綴字符串的長(zhǎng)度,也還可以結(jié)合預(yù)設(shè)的垃圾關(guān)鍵字對(duì)后綴字符串的有效性進(jìn)行準(zhǔn)確識(shí)別。因此,本發(fā)明能夠提高地址信息識(shí)別的效率和準(zhǔn)確性。

上文是對(duì)本發(fā)明提供的地址信息識(shí)別方法進(jìn)行了說(shuō)明,下面對(duì)本發(fā)明提供的地址信息識(shí)別裝置進(jìn)行說(shuō)明。

參見(jiàn)圖6,圖6是本發(fā)明提供的一種地址信息識(shí)別裝置實(shí)施例1的結(jié)構(gòu)圖,所述裝置包括:

地址信息解析單元601,用于根據(jù)預(yù)先構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表,解析待識(shí)別的地址信息的字符串得到地址鏈和后綴字符串;所述數(shù)據(jù)結(jié)構(gòu)表是基于國(guó)家行政區(qū)劃信息構(gòu)造的地址單元的數(shù)據(jù)結(jié)構(gòu)表;

從屬關(guān)系判斷單元602,用于根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息建立的行政區(qū)域級(jí)別從屬關(guān)系鏈表;如果是,進(jìn)入第一查看單元603;否則,進(jìn)入第二確定單元605;

第一查看單元603,用于查看所述后綴字符串是否包含預(yù)設(shè)的后綴關(guān)鍵字;如果是,進(jìn)入第一確定單元604;否則,進(jìn)入第二確定單元605;

所述第一確定單元604,用于確定地址信息是有效的;

所述第二確定單元605,用于確定地址信息是無(wú)效的。

優(yōu)選的,所述區(qū)域從屬關(guān)系判斷單元具體用于:

根據(jù)預(yù)先建立的行政區(qū)域從屬關(guān)系鏈表,按照級(jí)別由高到低的正向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息,按照行政區(qū)域級(jí)別由高到低的方式建立的正向級(jí)別從屬關(guān)系鏈表。

優(yōu)選的,所述區(qū)域從屬關(guān)系判斷單元具體用于:

根據(jù)預(yù)先建立的行政區(qū)域從屬關(guān)系鏈表,按照級(jí)別由低到高的逆向匹配方式,判斷所述地址鏈里的區(qū)域從屬關(guān)系是否正確;所述從屬關(guān)系鏈表是基于國(guó)家行政區(qū)劃信息,按照行政區(qū)域級(jí)別由低到高的方式建立的逆向級(jí)別從 屬關(guān)系鏈表。

優(yōu)選的,所述逆向級(jí)別從屬關(guān)系鏈表包括:

相鄰級(jí)別的逆向級(jí)別從屬關(guān)系鏈表和跨級(jí)別的逆向級(jí)別從屬關(guān)系鏈表。

優(yōu)選的,所述區(qū)域從屬關(guān)系判斷單元,包括:

第一判斷子單元,用于判斷所述地址鏈里第一個(gè)地址單元是否為直轄市;如果是,進(jìn)入第二判斷子單元;否則,第三判斷子單元;

第二判斷子單元,用于根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表以及所述地址鏈中的前兩個(gè)地址單元,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確;

第三判斷子單元,用于根據(jù)預(yù)先建立的行政區(qū)域的從屬關(guān)系鏈表以及所述地址鏈中的前三個(gè)地址單元,判斷所述地址鏈的區(qū)域從屬關(guān)系是否正確。

優(yōu)選的,所述數(shù)據(jù)結(jié)構(gòu)表是基于字典樹(shù)的結(jié)構(gòu),將國(guó)家行政區(qū)劃信息中的地址單元按照單字拆開(kāi)的方式構(gòu)造生成的地址單元的字典樹(shù)。

參見(jiàn)圖7,圖7的方案是在圖6方案的基礎(chǔ)上還包括:

去重處理單元606,用于對(duì)所述后綴字符串進(jìn)行去重處理,以去掉所述后綴字符串中與所述地址鏈中信息相同的部分;

長(zhǎng)度判斷單元607,用于判斷去重后的后綴字符串的長(zhǎng)度是否大于預(yù)設(shè)閾值;如果是,進(jìn)入所述第一查看單元503。

參見(jiàn)圖8,圖8的方案是在圖7方案的基礎(chǔ)上還包括:第二查看單元608,用于在所述第一查看單元查看出后綴字符串不包含預(yù)設(shè)的后綴關(guān)鍵字時(shí),查看后綴字符串是否包含預(yù)設(shè)的垃圾關(guān)鍵字;如果是,進(jìn)入第二確定單元605;否則,進(jìn)入第一確定單元604。

這里需要說(shuō)明的是,圖8相比圖7的方案增加的單元也可以直接增加到圖6所示的方案以生成優(yōu)選方案。

通過(guò)上述實(shí)施例可以看出,本發(fā)明基于國(guó)家區(qū)劃信息建立的數(shù)據(jù)結(jié)構(gòu)表來(lái)對(duì)地址信息進(jìn)行劃分得到地址鏈和后綴字符串,接著采用兩重識(shí)別方式,既識(shí)別表征區(qū)劃信息的地址鏈,又識(shí)別表征具體位置信息的后綴字符串,保證了識(shí)別完整性提高了精確度,且地址鏈從屬關(guān)系的識(shí)別和后綴字符串的識(shí)別均是字符串查找過(guò)程,實(shí)現(xiàn)過(guò)程簡(jiǎn)單快速,使得識(shí)別效率較高;另外,在后綴字符串的識(shí)別,可以利用預(yù)設(shè)的后綴關(guān)鍵字,還可以結(jié)合后綴字符串的 長(zhǎng)度,也還可以結(jié)合預(yù)設(shè)的垃圾關(guān)鍵字對(duì)后綴字符串的有效性進(jìn)行準(zhǔn)確識(shí)別。因此,本發(fā)明能夠提高地址信息識(shí)別的效率和準(zhǔn)確性。

通過(guò)以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法中的全部或部分步驟可借助軟件加通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者諸如媒體網(wǎng)關(guān)等網(wǎng)絡(luò)通信設(shè)備)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。

需要說(shuō)明的是,本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于設(shè)備及系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的設(shè)備及系統(tǒng)實(shí)施例僅僅是示意性的,其中作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,并非用于限定本發(fā)明的保護(hù)范圍。應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1