亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于K-means的妥投地址數(shù)據(jù)處理方法和系統(tǒng)與流程

文檔序號(hào):12837202閱讀:281來源:國知局
基于K-means的妥投地址數(shù)據(jù)處理方法和系統(tǒng)與流程

本發(fā)明涉及地理空間信息數(shù)據(jù)的處理技術(shù)領(lǐng)域,具體地說,涉及一種基于k-means的妥投地址數(shù)據(jù)處理方法和系統(tǒng)。



背景技術(shù):

隨著空間信息技術(shù)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展和應(yīng)用,地理信息技術(shù)已廣泛應(yīng)用于互聯(lián)網(wǎng)的各個(gè)領(lǐng)域,尤其是智能位置服務(wù),其已成為互聯(lián)網(wǎng)發(fā)展的關(guān)鍵支撐技術(shù)之一。

在電商的物流投遞系統(tǒng)中,電商的快遞員根據(jù)商品的運(yùn)單地址,將物品投遞給用戶,并記錄投遞時(shí)的地理坐標(biāo),也就是妥投地址的地理坐標(biāo)。在電商的系統(tǒng)中,通常在同一個(gè)地址下會(huì)有多個(gè)歷史累積的訂單,如同一用戶有過多次購買行為,因而會(huì)下過多次訂單。由于每一次訂單的快遞員可能不同,用戶接收商品的地點(diǎn)可能不同,因而,針對(duì)同一個(gè)地址,妥投地址的地理坐標(biāo)可能會(huì)不同,所以,這就產(chǎn)生了在同一個(gè)地址下,電商系統(tǒng)中對(duì)應(yīng)有多個(gè)妥投地址的地理坐標(biāo)的問題。這些妥投地址的地理坐標(biāo)并不是智能位置服務(wù)需要的最終數(shù)據(jù),而且,這些地理坐標(biāo)總是會(huì)在一定范圍變化,如果波動(dòng)范圍較大,則會(huì)影響正/逆向獲取地址的準(zhǔn)確性。即根據(jù)地址得到地理坐標(biāo),或根據(jù)地理坐標(biāo)得到地址的準(zhǔn)確性。

在大型電商的投遞系統(tǒng)中,記錄了大量的地址地理坐標(biāo)數(shù)據(jù),而這些數(shù)據(jù)正是目前大多數(shù)gis(geographicinformationsystem,地理信息系統(tǒng))系統(tǒng)所需要的數(shù)據(jù)源。多數(shù)的gis系統(tǒng)通過地理坐標(biāo)采集或購買來獲得數(shù)據(jù)源。對(duì)于采集的地理坐標(biāo)數(shù)據(jù),數(shù)據(jù)單薄,而且數(shù)據(jù)準(zhǔn)確度受信號(hào)、采集人員等多方面因素的影響,采集數(shù)據(jù)誤差在所難免,且不易控制。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題在于,針對(duì)目前同一地址對(duì)應(yīng)多個(gè)妥投地址地理坐標(biāo)的問題,提供了一種基于k-means的妥投地址數(shù)據(jù)處理方法和系統(tǒng),用于通過所述多個(gè)妥投地址的地理坐標(biāo)確定一個(gè)與所述地址對(duì)應(yīng)的準(zhǔn)確地理坐標(biāo)。

為解決上述技術(shù)問題,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了一種基于k-means的妥投地址數(shù)據(jù)處理方法,其中,包括如下步驟:

獲取給定地址的多個(gè)妥投地址的地理坐標(biāo),并將所述多個(gè)妥投地址的地理坐標(biāo)作為源數(shù)據(jù),形成坐標(biāo)點(diǎn)群;

根據(jù)k-means聚類算法,以聚類個(gè)數(shù)值為1,對(duì)所述坐標(biāo)點(diǎn)群進(jìn)行第一次聚合,獲取第一次聚合坐標(biāo)點(diǎn)p1(x1,y1);

以所述第一次聚合坐標(biāo)點(diǎn)p1(x1,y1)為圓心作圓,得到圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量大于或等于預(yù)設(shè)的聚合數(shù)量閾值n1的最終圓;

根據(jù)k-means聚類算法,以聚類個(gè)數(shù)值為1,對(duì)最終圓內(nèi)多個(gè)坐標(biāo)點(diǎn)進(jìn)行聚合,獲取最終聚合坐標(biāo)點(diǎn)pf(xf,yf),并將所述最終聚合坐標(biāo)點(diǎn)pf(xf,yf)作為所述給定地址的地理坐標(biāo)。

優(yōu)選地,在以所述第一次聚合坐標(biāo)點(diǎn)p1(x1,y1)為圓心作圓時(shí),包括以下步驟:

以所述第一次聚合坐標(biāo)點(diǎn)p1(x1,y1)為圓心,以所有坐標(biāo)點(diǎn)到所述圓心p1的平均距離r1為半徑作圓;

統(tǒng)計(jì)半徑為r1的圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量;

如果半徑為r1的圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量大于或等于預(yù)設(shè)的聚合數(shù)量閾值n1,則所述半徑為r1的圓為最終圓;

如果半徑為r1的圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量小于預(yù)設(shè)的聚合數(shù)量閾值n1,則根據(jù)公式1-1得到的校正半徑重新做圓,直到得到最終圓;

ri+1=ri+(dmax-ddev)/β1-1

其中,ri為當(dāng)前圓的半徑,i=1,2,3……k,k為自然數(shù),dmax、ddev分別是當(dāng)前圓內(nèi)所有坐標(biāo)點(diǎn)到圓心p1的最大值和平均值;β為權(quán)值。

優(yōu)選地,如果所述地址為索引地址,則β=2;如果所述源數(shù)據(jù)為末級(jí)地址,則β=4。

優(yōu)選地,所述聚合數(shù)量閾值n1=n*λ,其中,n為源數(shù)據(jù)的數(shù)量,如果所述地址為索引地址,則λ為95%-97%區(qū)間的任何一個(gè)點(diǎn)值,如果所述地址為末級(jí)地址,則λ為70%-80%區(qū)間的任何一個(gè)點(diǎn)值。

優(yōu)選地,對(duì)所述坐標(biāo)點(diǎn)群進(jìn)行第一次聚合之前,判斷所述源數(shù)據(jù)的數(shù)量是否大于或等于預(yù)定的數(shù)量閾值,如果所述源數(shù)據(jù)的數(shù)量大于或等于預(yù)定的數(shù)量閾值,對(duì)所述坐標(biāo)點(diǎn)群進(jìn)行第一次聚合。

優(yōu)選地,在根據(jù)公式1-1得到的半徑重新做圓時(shí),包括判斷所述地址為索引地址或末級(jí)地址的步驟:

讀取所述給定地址的標(biāo)識(shí)位,根據(jù)所述標(biāo)識(shí)位的標(biāo)識(shí),判斷所述地址為索引地址或末級(jí)地址。

優(yōu)選地,還包括對(duì)用戶地址進(jìn)行分類處理的步驟:

將用戶地址根據(jù)地理區(qū)域從大到小進(jìn)行分段處理,形成從首地址分段到末端地址分段的多個(gè)地址分段;

按照地理區(qū)域從大到小的地址分段,依次統(tǒng)計(jì)各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量;

將所述各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量分別與預(yù)定閾值進(jìn)行比較,如果當(dāng)前地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量小于所述預(yù)定閾值時(shí),同時(shí)當(dāng)前地址分段的前一個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量大于或等于所述預(yù)定閾值時(shí),則從所述當(dāng)前地址分段開始到末端地址分段為末級(jí)地址,從首地址分段到當(dāng)前地址分段的前一個(gè)地址分段為索引地址;

為所述索引地址和末級(jí)地址分別設(shè)置相應(yīng)的標(biāo)識(shí)位。

優(yōu)選地,在依次統(tǒng)計(jì)各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量之前,將所述各個(gè)地址分段與預(yù)設(shè)的索引地址匹配表進(jìn)行匹配,確定屬于索引地址的地址分段和非索引地址的地址分段;

統(tǒng)計(jì)各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量時(shí),統(tǒng)計(jì)非索引地址的地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量;

將所述各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量分別與預(yù)定閾值進(jìn)行比較時(shí),將所述非索引地址的地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量分別 與預(yù)定閾值進(jìn)行比較。

為解決上述技術(shù)問題,根據(jù)本發(fā)明的另一個(gè)方面,本發(fā)明提供了一種基于k-means的妥投地址數(shù)據(jù)處理系統(tǒng),其中,包括:

源數(shù)據(jù)獲取模塊,用于根據(jù)提供的地址,獲取與所述地址對(duì)應(yīng)的多個(gè)妥投地址的地理坐標(biāo),在地理信息系統(tǒng)中形成坐標(biāo)點(diǎn)群;

k-means聚類模塊,用于根據(jù)設(shè)定的聚類個(gè)數(shù)值,對(duì)設(shè)定的坐標(biāo)點(diǎn)群進(jìn)行聚合,得到設(shè)定聚類個(gè)數(shù)的聚合坐標(biāo)點(diǎn);和

最終圓獲取模塊,用于根據(jù)k-means聚類模塊得到的第一次聚合坐標(biāo)點(diǎn)p1(x1,y1),得到圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量大于或等于預(yù)設(shè)的聚合數(shù)量閾值n1的最終圓。

優(yōu)選地,上述系統(tǒng)還包括地址類別判斷模塊,用于判斷所述地址為索引地址或末級(jí)地址。

優(yōu)選地,所述最終圓獲取模塊包括首次圓獲取單元、校正圓獲取單元、統(tǒng)計(jì)單元和比較單元;

其中,所述首次圓獲取單元與所述k-means聚類模塊和所述源數(shù)據(jù)獲取模塊相連接,用于根據(jù)所述k-means聚類模塊得到的第一次聚合坐標(biāo)點(diǎn)p1(x1,y1),以所述坐標(biāo)點(diǎn)p1(x1,y1)為圓心,以從所述源數(shù)據(jù)獲取模塊得到的所有坐標(biāo)點(diǎn)到所述圓心p1(x1,y1)的平均距離r1為半徑,得到首次圓;

所述校正圓獲取單元,分別與所述首次圓獲取單元、所述地址類別判斷模塊和比較單元相連接,根據(jù)所述比較單元輸出的重新計(jì)算通知,以公式1-1得到的校正半徑ri+1,以所述坐標(biāo)點(diǎn)p1(x1,y1)為圓心,得到校正圓,或者根據(jù)所述比較單元輸出的合格通知,將半徑為r1的圓確定為最終圓;

ri+1=ri+(dmax-ddev)/β1-1

其中,ri為當(dāng)前圓的半徑,i=1,2,3……k,k為自然數(shù),dmax、ddev分別是當(dāng)前圓內(nèi)所有坐標(biāo)點(diǎn)到點(diǎn)p1(x1,y1)的最大值和平均值,β為權(quán)值;

所述統(tǒng)計(jì)單元與所述首次圓獲取單元和校正圓獲取單元相連接,用于統(tǒng)計(jì)首次圓和校正圓內(nèi)的坐標(biāo)點(diǎn)數(shù)量;

所述比較單元與所述統(tǒng)計(jì)單元相連接,用于對(duì)首次圓和校正圓內(nèi)的 坐標(biāo)點(diǎn)數(shù)量分別與聚合數(shù)量閾值n1相比較,如果圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量小于預(yù)設(shè)的聚合數(shù)量閾值n1,向所述校正圓獲取單元發(fā)送重新計(jì)算通知,如果圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量大于或等于預(yù)設(shè)的聚合數(shù)量閾值n1,則向所述校正圓獲取單元發(fā)送合格通知。

優(yōu)選地,本發(fā)明所述系統(tǒng)還包括地址處理模塊,所述地址處理模塊包括:

地址分段單元,用于將所述地址按地理區(qū)域從大到小進(jìn)行分段,形成多個(gè)地址分段;

數(shù)量統(tǒng)計(jì)單元,與所述地址分段單元相連接,用于統(tǒng)計(jì)各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量;

比較單元,與所述數(shù)量統(tǒng)計(jì)單元相連接,用于比較各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量與預(yù)定閾值;和

地址類別標(biāo)記單元,與所述比較單元相連接,根據(jù)比較單元的比較結(jié)果,標(biāo)記所述地址的類別。

所述地址處理模塊還包括:

索引地址匹配單元,與所述地址分段單元和數(shù)量統(tǒng)計(jì)單元相連接,用于將所述多個(gè)地址分段與預(yù)設(shè)的索引地址匹配表進(jìn)行比較,確定屬于索引地址的地址分段和非索引地址的地址分段;

所述數(shù)量統(tǒng)計(jì)單元用于統(tǒng)計(jì)屬于非索引地址的地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量。

本發(fā)明利用k-means聚類算法,準(zhǔn)確地確定與地址對(duì)應(yīng)的地理坐標(biāo),在保證結(jié)果準(zhǔn)確度的前提下,通過簡潔的處理過程提高了數(shù)據(jù)處理效率。本發(fā)明利用快遞員提供的豐富的妥投地址的地理坐標(biāo),由多個(gè)數(shù)據(jù)求均值,相對(duì)于采集地址的單一數(shù)據(jù),減少了數(shù)據(jù)誤差,提高了定位準(zhǔn)確度。由于本發(fā)明中的妥投地址不僅是城鎮(zhèn)地址,還包括很多鄉(xiāng)村地址,經(jīng)過本發(fā)明確定了某一地址的坐標(biāo)后,為后期地圖數(shù)據(jù)的細(xì)化提供了豐富而準(zhǔn)確的數(shù)據(jù)。

附圖說明

通過以下參照附圖對(duì)本發(fā)明實(shí)施例的描述,本發(fā)明的上述以及其他 目的、特征和優(yōu)點(diǎn)將更為清楚,在附圖中:

圖1為本發(fā)明所述基于k-means的妥投地址數(shù)據(jù)處理方法的流程示意圖;

圖2為本發(fā)明所述基于k-means的妥投地址數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)原理示意圖;

圖3為本發(fā)明所述基于k-means的妥投地址數(shù)據(jù)處理系統(tǒng)的另一結(jié)構(gòu)原理示意圖;

圖4為本發(fā)明所述地址處理模塊的結(jié)構(gòu)原理示意圖;

圖5為本發(fā)明所述最終圓獲取模塊的結(jié)構(gòu)原理示意圖;

圖6為本發(fā)明所述基于k-means的妥投地址數(shù)據(jù)處理方法一實(shí)施例的流程示意圖;

圖7為發(fā)明所述基于圖6所示方法得到的原始數(shù)據(jù)分布圖;

圖8為發(fā)明所述基于圖6所示方法多次聚合后得到的圓及數(shù)據(jù)分布圖;

圖9為發(fā)明所述基于圖6所示方法最終圓及聚合后得到的最終地理坐標(biāo)分布圖;和

圖10為發(fā)明所述基于圖6所示方法得到的最終地理坐標(biāo)在地圖上顯示的示意圖。

具體實(shí)施方式

以下基于實(shí)施例對(duì)本發(fā)明進(jìn)行描述,但是本發(fā)明并不僅僅限于這些實(shí)施例。在下文對(duì)本發(fā)明的細(xì)節(jié)描述中,詳盡描述了一些特定的細(xì)節(jié)部分。對(duì)本領(lǐng)域技術(shù)人員來說沒有這些細(xì)節(jié)部分的描述也可以完全理解本發(fā)明。為了避免混淆本發(fā)明的實(shí)質(zhì),公知的方法、過程、流程沒有詳細(xì)敘述。另外附圖不一定是按比例繪制的。

附圖中的流程圖、框圖圖示了本發(fā)明實(shí)施例的系統(tǒng)、方法、裝置的可能的體系框架、功能和操作,流程圖和框圖上的方框可以代表一個(gè)模塊、程序段或僅僅是一段代碼,所述模塊、程序段和代碼都是用來實(shí)現(xiàn)規(guī)定邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,所述實(shí)現(xiàn)規(guī)定邏輯功能的可執(zhí)行指令可以重新組合,從而生成新的模塊和程序段。因此附圖的方框 以及方框順序只是用來更好的圖示實(shí)施例的過程和步驟,而不應(yīng)以此作為對(duì)發(fā)明本身的限制。

如圖1所示,為本發(fā)明所述基于k-means的妥投地址數(shù)據(jù)處理方法的流程示意圖。如圖2所示,為本發(fā)明所述基于k-means的妥投地址數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)原理示意圖;結(jié)合圖1和圖2對(duì)本發(fā)明進(jìn)行說明如下:

本發(fā)明提供的基于k-means的妥投地址數(shù)據(jù)處理系統(tǒng)包括源數(shù)據(jù)獲取模塊1,k-means聚類模塊2和最終圓獲取模塊3。其中,所述源數(shù)據(jù)獲取模塊1根據(jù)提供的地址,獲取與所述地址對(duì)應(yīng)的多個(gè)妥投地址的地理坐標(biāo),形成坐標(biāo)點(diǎn)群;所述k-means聚類模塊2用于根據(jù)設(shè)定的聚類個(gè)數(shù)值1,對(duì)設(shè)定的坐標(biāo)點(diǎn)群進(jìn)行聚合,得到一個(gè)聚合坐標(biāo)點(diǎn),第一次聚合后得到坐標(biāo)點(diǎn)p1(x1,y1),而后再根據(jù)最終圓獲取模塊3得到的圓的半徑內(nèi)的坐標(biāo)點(diǎn)進(jìn)行聚合,得到最終的聚合坐標(biāo)點(diǎn),該坐標(biāo)點(diǎn)即為與所述地址相對(duì)應(yīng)的地理坐標(biāo);所述最終圓獲取模塊3用于根據(jù)k-means聚類模塊2得到的第一次聚合坐標(biāo)點(diǎn)p1(x1,y1),得到圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量大于或等于預(yù)設(shè)的聚合數(shù)量閾值n1的最終圓。

基于圖2所示的系統(tǒng),本發(fā)明提供的基于k-means的妥投地址數(shù)據(jù)處理方法,包括如下步驟:

步驟s1,源數(shù)據(jù)獲取模塊獲取1給定地址的多個(gè)妥投地址的地理坐標(biāo),并將所述多個(gè)妥投地址的地理坐標(biāo)作為源數(shù)據(jù)輸入到處理系統(tǒng)中形成坐標(biāo)點(diǎn)群;

步驟s2,k-means聚類模塊2根據(jù)k-means聚類算法,設(shè)定聚類個(gè)數(shù)k為1,對(duì)所述坐標(biāo)點(diǎn)群進(jìn)行第一次聚合,獲取第一次聚合坐標(biāo)點(diǎn)p1(x1,y1);

步驟s3,最終圓獲取模塊以所述第一次聚合坐標(biāo)點(diǎn)步驟s1,為圓心作圓,得到圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量大于或等于預(yù)設(shè)的聚合數(shù)量閾值n1的最終圓;

步驟s4,k-means聚類模塊根據(jù)k-means聚類算法,設(shè)定聚類個(gè)數(shù)k為1,對(duì)最終圓內(nèi)多個(gè)坐標(biāo)點(diǎn)進(jìn)行聚合,獲取最終聚合坐標(biāo)點(diǎn)pf(xf,yf)。

本發(fā)明利用聚類算法的思想:同一個(gè)類簇中的實(shí)體是相似的,不同類簇中的實(shí)體是不相似的;同一類簇中的任意兩點(diǎn)間的距離小于不同類 簇的任意兩個(gè)點(diǎn)間的距離,對(duì)給定地址的多個(gè)妥投地址的地理坐標(biāo)進(jìn)行聚類。在聚類算法的基礎(chǔ)上,分析源數(shù)據(jù)坐標(biāo)點(diǎn),先對(duì)數(shù)據(jù)坐標(biāo)進(jìn)行分類去除較遠(yuǎn)偏離點(diǎn),再對(duì)剩下較精準(zhǔn)的坐標(biāo)點(diǎn)進(jìn)行聚合,從而提高了最后聚合得到的地理坐標(biāo)的準(zhǔn)確度。

本發(fā)明所述的給定地址分為索引地址和末級(jí)地址,根據(jù)地址類別的不同,在計(jì)算時(shí)采用不同的參數(shù),以期得到更高準(zhǔn)確度的聚合坐標(biāo)。其中,所述索引地址是指地理區(qū)域較大的地址,例如一個(gè)只包括省、市、地區(qū)的地址,涉及地域范圍廣。在發(fā)明中,具體指如上所述的大地址,且包含的地理坐標(biāo)的數(shù)量大于預(yù)定閾值的地址,這樣的地址稱為索引地址。而涉及用戶詳細(xì)地址,如某小區(qū)的某樓、某號(hào)房間,涉及的地域范圍較窄,對(duì)應(yīng)的地理坐標(biāo)的數(shù)量小于預(yù)定閾值,這樣的地址稱為末級(jí)地址。因而,對(duì)應(yīng)于索引地址,會(huì)有較多數(shù)量的地理坐標(biāo)與之相對(duì)應(yīng),而對(duì)應(yīng)于末級(jí)地址,對(duì)應(yīng)的妥投地理坐標(biāo)的數(shù)量會(huì)比較少。根據(jù)概率論中的概率正態(tài)分布,對(duì)應(yīng)于索引地址的地理坐標(biāo),概率小于等于3%-5%的為小概率事件,出現(xiàn)頻率很低,一般不會(huì)發(fā)生,可以忽略。而對(duì)應(yīng)于末級(jí)地址的地理坐標(biāo),分布相對(duì)集中,一般70%-80%集中分布的坐標(biāo)點(diǎn)即可代表該地址的坐標(biāo)。因而,對(duì)應(yīng)于索引地理坐標(biāo),取源數(shù)據(jù)量的95%-97%作為聚合數(shù)量的參考閾值,對(duì)應(yīng)于末級(jí)地理坐標(biāo),取源數(shù)據(jù)量的70%-80%作為聚合數(shù)量的參考閾值。

因而,本發(fā)明所述的系統(tǒng)還包括地址類別判斷模塊4。如果在本系統(tǒng)之前對(duì)用戶地址已進(jìn)行處理,即已將用戶地址區(qū)分為索引地址和末級(jí)地址,則會(huì)在所述地址中設(shè)置有標(biāo)識(shí)位,如0表示索引地址,1表示末級(jí)地址,通過讀取該標(biāo)識(shí)位,可以判斷所述地址是索引地址,還是末級(jí)地址。

如果在進(jìn)行本發(fā)明所述方法之前,沒有對(duì)所述地址進(jìn)行處理,則本發(fā)明還包括地址處理模塊5具體,如圖3所示,用于將用戶地址拆分為索引地址和末級(jí)地址,并增加上相應(yīng)的標(biāo)識(shí)以供所述地址類別判斷模塊4進(jìn)行識(shí)別。

具體地,所述地址處理模塊5如圖4所示,包括:地址分段單元51、數(shù)量統(tǒng)計(jì)單元52、比較單元53和地址類別標(biāo)記單元54。

其中,所述地址分段單元51用于將所述地址按地理區(qū)域從大到小進(jìn)行分段處理,形成多個(gè)地址分段。如省地址分段、市地址分段、區(qū)地越分段、街道地址分段、街道號(hào)地址分段、小區(qū)地址分段、樓號(hào)地址分段、房間號(hào)地址分段等,在進(jìn)行分段處理時(shí),還包括地址的除雜處理,例如,去掉地址中的括號(hào)、空格等符號(hào)。

所述數(shù)量統(tǒng)計(jì)單元52與所述地址分段單元51相連接,用于統(tǒng)計(jì)各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量。

所述比較單元53與所述數(shù)量統(tǒng)計(jì)單元52相連接,用于比較各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量與預(yù)定閾值。關(guān)于本發(fā)明中設(shè)定的參考閾值,可根據(jù)實(shí)際情況,通過多次試驗(yàn)獲得。例如,為確定一個(gè)閾值的具體數(shù)值,經(jīng)過多次反復(fù)的設(shè)置、運(yùn)行,然后對(duì)比、分析運(yùn)行結(jié)果,從而確定出合適的數(shù)值。通常來說,在源數(shù)據(jù)的數(shù)據(jù)量較小時(shí),設(shè)定較小的閾值,當(dāng)源數(shù)據(jù)的數(shù)據(jù)量積累到足夠大時(shí),則需要增大所述閾值。例如,在地址處理模塊5處理的一批地址中,對(duì)于大部分地址,(例如總量的70%以上),每一個(gè)地址對(duì)應(yīng)著的妥投地址的數(shù)據(jù)量為50-100時(shí),可將閾值設(shè)為50。

當(dāng)?shù)刂贩侄螌?duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量大于該參考閾值,則認(rèn)為該地址是索引地址,如果某個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量小于該參考閾值,同時(shí)當(dāng)前地址分段的上一個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量大于或等于所述預(yù)定閾值時(shí),則從所述當(dāng)前地址分段開始到末端地址分段為末級(jí)地址,從首地址分段到當(dāng)前地址分段的上一個(gè)地址分段為索引地址。因而,當(dāng)將所述比較的結(jié)果發(fā)送給所述地址類別標(biāo)記單元54后,所述地址類別標(biāo)記單元54根據(jù)比較單元53的比較結(jié)果,對(duì)確定出的末級(jí)地址和索引地址進(jìn)行標(biāo)記,如0表示索引地址,1表示末級(jí)地址。

更好地,為了加快處理進(jìn)度,對(duì)于一些明顯的地址分段,系統(tǒng)內(nèi)設(shè)置有索引地址匹配表,在將地址分段后、統(tǒng)計(jì)各個(gè)地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量之前,先進(jìn)行索引地址匹配,從而得到屬于索引地址的地址分段和非索引地址的地址分段,對(duì)于非索引地址的地址分段,統(tǒng)計(jì)各處地址分段對(duì)應(yīng)的地理坐標(biāo)點(diǎn)的數(shù)量,然后與參數(shù)閾值進(jìn)行比較,從而確定當(dāng)前的非索引地址的地址分段中是否有可以劃分到索引地址的地址 分段。通過地址處理模塊5,將用戶地址分為索引地址和末級(jí)地址,并對(duì)其做出標(biāo)記,以供地址類別判斷模塊4進(jìn)行識(shí)別,在后續(xù)計(jì)算中采用不同的計(jì)算參數(shù)。

如圖5所示,為本發(fā)明中所述最終圓獲取模塊3的結(jié)構(gòu)原理示意圖。所述最終圓獲取模塊3包括首次圓獲取單元31、校正圓獲取單元32、統(tǒng)計(jì)單元33和比較單元34。

其中,所述首次圓獲取單元31與所述k-means聚類模塊2和所述源數(shù)據(jù)獲取模塊1相連接,用于根據(jù)所述k-means聚類模塊2得到的第一次聚合坐標(biāo)點(diǎn)p1,以所述坐標(biāo)點(diǎn)p1(x1,y1)為圓心,以從所述源數(shù)據(jù)獲取模塊1得到的所有坐標(biāo)點(diǎn)到所述圓心p1(x1,y1)的平均距離r1為半徑,得到首次圓;

所述校正圓獲取單元32分別與所述首次圓獲取單元31、所述地址類別判斷模塊1和比較單元34相連接,根據(jù)所述比較單元34輸出的重新計(jì)算通知,以公式1-1得到的校正半徑,以所述坐標(biāo)點(diǎn)p1(x1,y1)為圓心得到校正圓,或者根據(jù)所述比較單元4輸出的合格通知,將半徑為r1的圓確定為最終圓;

ri+1=ri+(dmax-ddev)/β1-1

其中,ri為當(dāng)前圓的半徑,i=1,2,3……k,k為自然數(shù),dmax、ddev分別是當(dāng)前圓內(nèi)所有坐標(biāo)點(diǎn)到圓心p1(x1,y1)的最大值和平均值,β為權(quán)值,按二分法或四分法增大圓半徑。索引地址下坐標(biāo)數(shù)據(jù)量一般較多,而且涉及地域范圍廣,以二分法擴(kuò)大圓半徑,末級(jí)地址涉及用戶的詳細(xì)地址,地域范圍涉及較窄,坐標(biāo)數(shù)據(jù)較少,則以四分法擴(kuò)大圓半徑。根據(jù)所述地址類別判斷模塊,在所述地址為索引地址時(shí),β=2;在所述地址為末級(jí)地址時(shí),β=4。這是因?yàn)樗饕鴺?biāo)涉及區(qū)域范圍大,數(shù)據(jù)點(diǎn)分布較遠(yuǎn),因此將分母設(shè)置較小,圓半徑每次變化間距變大;對(duì)于末級(jí)地址,則相反,末級(jí)地址范圍小,數(shù)據(jù)點(diǎn)分布較密,所以可以將分母設(shè)置大些。當(dāng)然,所述β的值也可以取其他值,在本實(shí)施例中,從工程角度出發(fā),通常以二分法或四分法進(jìn)行計(jì)算。

所述統(tǒng)計(jì)單元33與所述首次圓獲取單元31和校正圓獲取單元32相連接,用于統(tǒng)計(jì)首次圓和校正圓內(nèi)的坐標(biāo)點(diǎn)數(shù)量,并將統(tǒng)計(jì)的結(jié)果發(fā) 送給所述比較單元34。

所述比較單元34與所述統(tǒng)計(jì)單元33相連接,用于對(duì)首次圓和校正圓內(nèi)的坐標(biāo)點(diǎn)數(shù)量分別與聚合數(shù)量閾值n1相比較,如果圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量小于預(yù)設(shè)的聚合數(shù)量閾值n1,向所述校正圓獲取單元發(fā)送重新計(jì)算通知,如果圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量大于或等于預(yù)設(shè)的聚合數(shù)量閾值n1,則向所述校正圓獲取單元發(fā)送合格通知。

另外,在對(duì)所述坐標(biāo)點(diǎn)群進(jìn)行第一次聚合之前,需要判斷所述源數(shù)據(jù)的數(shù)量是否大于或等于預(yù)定的數(shù)量閾值,即判斷是否具有足夠多的坐標(biāo)用于聚合。如果所述源數(shù)據(jù)的數(shù)量大于或等于預(yù)定的數(shù)量閾值,例如40-50,對(duì)所述坐標(biāo)點(diǎn)群進(jìn)行第一次聚合,如果小于所述的預(yù)定的數(shù)量閾值,則不做任何處理。其中,所述的數(shù)量閾值視情況可以設(shè)置不同的具體數(shù)值。

以下通過具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)地說明。

例如,對(duì)于一條詳細(xì)地址:上海浦東新區(qū)城區(qū)世紀(jì)大道1589號(hào)(索引地址)+長泰國際金融大廈2009室(末級(jí)地址)。根據(jù)本發(fā)明所述方法得到精確地理坐標(biāo)的過程如圖6所示,具體如下:

步驟s1a,獲取給定地址“長泰國際金融大廈2009室”的多個(gè)妥投地址的地理坐標(biāo),如圖7所示,共有200個(gè),并將所述多個(gè)妥投地址的地理坐標(biāo)作為源數(shù)據(jù)輸入到數(shù)據(jù)處理系統(tǒng)中形成坐標(biāo)點(diǎn)群。

步驟s2a,判斷所述坐標(biāo)點(diǎn)群中坐標(biāo)點(diǎn)的數(shù)量是否大于或等于設(shè)定的數(shù)量閾值(如50),如果小于,則不做處理,如果坐標(biāo)點(diǎn)的數(shù)量是否大于或等于設(shè)定的數(shù)量閾值,則進(jìn)行下一步。

步驟s3a,調(diào)用k-means聚類算法,將聚類個(gè)數(shù)設(shè)置為1。

步驟s4a,對(duì)所述坐標(biāo)點(diǎn)群進(jìn)行第一次聚合,獲取第一次聚合坐標(biāo)點(diǎn)p1(x1,y1)。

步驟s5a,計(jì)算所有坐標(biāo)點(diǎn)到所述圓心p1(x1,y1)的距離,并求得平均距離ddev和最大距離dmax。

步驟s6a,以第一次聚合坐標(biāo)點(diǎn)p1(x1,y1)為圓心,以平均距離ddev作為半徑作圓;并統(tǒng)計(jì)圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量n當(dāng)前。

步驟s7a,判斷所述地址是索引地址還是末級(jí)地址,如果是索引地 址,在步驟s8a,取n1=n*λ=n*95%,β=2;如果是末級(jí)地址,在步驟s9a,取n1=n*λ=n*70%,β=4;在本實(shí)施例中,由于所述地址為末級(jí)地址,則取n1=n*λ=n*70%,β=4。

步驟s10a,判斷圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量n當(dāng)前是否大于或等于n1,如果n當(dāng)前大于或等于n1,則認(rèn)為當(dāng)前圓合格,在步驟s11a,對(duì)圓內(nèi)多個(gè)坐標(biāo)點(diǎn)進(jìn)行聚合,獲取最終聚合坐標(biāo)點(diǎn)pf(xf,yf),并作為所述地址的地理坐標(biāo)輸出,如圖10所示。

如果n當(dāng)前小于n1,則認(rèn)為當(dāng)前圓不合格,則在步驟s12a,根據(jù)公式ri+1=ri+(dmax-ddev)/β重新計(jì)算圓的半徑,并返回步驟s6a重新做圓,如圖8所示。重新判斷所述當(dāng)前圓內(nèi)的坐標(biāo)點(diǎn)數(shù)量是否符合要求,直到得到合格的最終圓,即圓內(nèi)坐標(biāo)點(diǎn)的數(shù)量n當(dāng)前是否大于或等于n1,如圖9所示。

從上述流程及附圖可見,本發(fā)明利用k-means聚類算法,準(zhǔn)確地確定出一個(gè)給定地址的地理坐標(biāo),在保證結(jié)果準(zhǔn)確度的前提下,通過簡潔的處理過程提高了數(shù)據(jù)處理效率。本發(fā)明利用快遞員提供的豐富的妥投地理坐標(biāo),由多個(gè)數(shù)據(jù)求均值,相對(duì)于采集地址的單一數(shù)據(jù),減少了因?yàn)樾盘?hào)差、人為等因素造成的位置誤差,提高了地理位置定位的準(zhǔn)確度。并且,由于本發(fā)明中的妥投地址不只是城鎮(zhèn)地址,還可以是很多鄉(xiāng)村地址,經(jīng)過本發(fā)明確定某一給定地址的地理坐標(biāo)后,為后期地圖數(shù)據(jù)的細(xì)化提供了豐富而準(zhǔn)確的數(shù)據(jù)。

依照本發(fā)明的實(shí)施例如上文所述,這些實(shí)施例并沒有詳盡敘述所有的細(xì)節(jié),也不限制該發(fā)明僅為所述的具體實(shí)施例。顯然,根據(jù)以上描述,可作很多的修改和變化。本說明書選取并具體描述這些實(shí)施例,是為了更好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,從而使所屬技術(shù)領(lǐng)域技術(shù)人員能很好地利用本發(fā)明以及在本發(fā)明基礎(chǔ)上的修改使用。本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以本發(fā)明權(quán)利要求所界定的范圍為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1