專利名稱:一種用于興趣點信息的排重方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息排重技術(shù),具體涉及一種用于興趣點信息的排重方法。
背景技術(shù):
隨著電子地圖導航(GIS)技術(shù)的普及,電子地圖中引進了政府機關(guān)、觀光景點、賓館、餐廳、商場以及醫(yī)院等人們感興趣的地點的名稱、簡介等數(shù)據(jù),這些人們感興趣的地點稱為興趣點(Point of Interest),而這些地點的名稱、簡介等數(shù)據(jù)信息統(tǒng)稱為興趣點信
肩、O人們在使用電子地圖時,可以附帶地獲得相應的興趣點信息,興趣點信 息一般包括興趣點的名稱、類型、所在經(jīng)緯度、詳細地址、聯(lián)系電話等等。在采集保存興趣點過程中,為了保證興趣點信息合法性、可靠性、有效性以及提高唯一性(減少數(shù)據(jù)冗余),必須對采集到的數(shù)據(jù)進行處理。例如,本公司申請的另外一篇申請公布號為CN 102054010A、申請?zhí)枮?00910309256. X、名稱為“一種興趣點信息處理方法”的發(fā)明,公開了一種興趣點信息處理方法,該發(fā)明的方法包含建立數(shù)據(jù)庫、注冊、保存興趣點信息和使用興趣點信息的過程。其中保存興趣點信息的過程中使用者操作終端按應用模板將一個興趣點的位置、名稱、類型、簡介和附加信息編輯成記錄素材,并上傳給中心;中心按該記錄素材中的位置所在的地域?qū)⒃撚涗浰夭募捌渥R別碼存入所述數(shù)據(jù)庫該地域的興趣點文件;中心檢查該記錄素材的發(fā)出者是否在黑名單中,是則退出;中心操作員審查該記錄素材的合法性;不合法的,中心將該記錄素材發(fā)出者記入黑名單中;合法的,中心將該記錄素材修改為興趣點記錄。該發(fā)明的方法在保證興趣點信息的合法性和可靠性的同時提高了興趣點信息采集和輸入的數(shù)量,并加快了對興趣點信息更新的速度,但是上述方法只專注于提高興趣點信息的采集和輸入的數(shù)量,而并沒有針對興趣點信息進行減少數(shù)據(jù)冗余以提高唯一性的處理。目前針對信息的數(shù)據(jù)冗余處理通常是采用排重技術(shù),現(xiàn)有的排重技術(shù)主要是運用字符串全匹配或者局部匹配、分詞匹配進行判斷。而由于興趣點信息在采集中,要求信息比較詳細,且上傳的名稱和地址等信息比較準確,因而現(xiàn)有所使用的全匹配或分詞匹配方法,都無法滿足比較精確的排除數(shù)據(jù)冗余的需求,例如采集人員輸入字符串“沃爾碼”,而實際已有的數(shù)據(jù)為“沃爾瑪”或“沃爾瑪購物廣場”,通過全匹配和分詞匹配都無法通過比較得出該數(shù)據(jù)為冗余數(shù)據(jù)的結(jié)果。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,提出一種用于興趣點信息的排重方法,以位置為基礎(chǔ),結(jié)合一種根據(jù)采集的興趣點信息進行位置偏移匹配的方法,來實現(xiàn)區(qū)域范圍內(nèi)高匹配度的排重方法,從而解決現(xiàn)有排重技術(shù)無法實現(xiàn)的高精度排除數(shù)據(jù)冗余的問題。為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是,一種用于興趣點信息的排重方法,包括以下步驟
步驟I :系統(tǒng)接收到上傳的興趣點A的信息并保存,該信息內(nèi)容至少包括興趣點名稱、興趣點類型、經(jīng)緯度、地址和簡介;
步驟2 以步驟I保存的興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心的、封閉的第一區(qū)域范圍內(nèi)的所有興趣點名稱;
步驟3 :根據(jù)位置偏移匹配方法,對興趣點A的名稱和搜索到的其他各興趣點名稱進行匹配排重,得到排重結(jié)果以及匹配精度;
步驟4 :如果步驟3得到的匹配精度Pl >預先設(shè)定的精度P,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,轉(zhuǎn)到步驟5 ;其中0〈P〈100% ;
步驟5 :以興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心的、覆蓋第一區(qū)域范圍外的、封閉的第二區(qū)域范圍內(nèi)的所有興趣點名稱,重復步驟3 ;
步驟6 :如果步驟5得到的匹配精度P2 >預先設(shè)定的精度P’,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,轉(zhuǎn)到步驟7 ;其中0〈P’〈100%,P’>P;
步驟7 :以興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心、覆蓋第一區(qū)域和第二區(qū)域范圍外的、封閉的第三區(qū)域范圍內(nèi)的所有興趣點名稱,重復步驟
3;
步驟8 :如果步驟7得到的匹配精度P3 >預先設(shè)定的精度P’’,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,輸出在第一區(qū)域、第二區(qū)域和第三區(qū)域范圍內(nèi)沒有找到匹配結(jié)果;其中0〈P’’〈100%,P’’>P’ ;
步驟9:輸出排重結(jié)果。進一步的,步驟2中的第一區(qū)域,是以該興趣點A為中心、各邊距離中心為20米的正方形區(qū)域。也可以是以該興趣點A為中心、半徑為20米的圓形區(qū)域,當然還可以是其他形狀的閉合區(qū)域,但考慮到計算速度,優(yōu)選使用正方形區(qū)域。步驟5中的第二區(qū)域,是以該興趣點A為中心、各邊距離中心為50米的正方形區(qū)域且扣除第一區(qū)域的區(qū)域。也可以是以該興趣點A為中心、半徑為50米的圓形區(qū)域且扣除第一區(qū)域的區(qū)域。當然還可以是其他形狀的閉合區(qū)域,但考慮到計算速度,優(yōu)選使用正方形區(qū)域,那么優(yōu)選的第二區(qū)域具體是以該興趣點A為中心、各邊距離中心為50米的正方形區(qū)域,扣除以該興趣點A為中心、各邊距離中心為20米的正方形區(qū)域的回形區(qū)域。步驟7中的第三區(qū)域,是以該興趣點A為中心、各邊距離中心為100米的正方形區(qū)域且扣除第一區(qū)域和第二區(qū)域的區(qū)域。也可以是以該興趣點A為中心、半徑為100米的圓形區(qū)域且扣除第一區(qū)域和第二區(qū)域的區(qū)域。當然還可以是其他形狀的閉合區(qū)域,但考慮到計算速度,優(yōu)選使用正方形區(qū)域,那么優(yōu)選的第三區(qū)域具體是以該興趣點A為中心、各邊距離中心為100米的正方形區(qū)域且扣除以該興趣點A為中心、各邊距離中心為50米的正方形區(qū)域的回形區(qū)域。進一步的,步驟3的位置偏移匹配方法,是令一興趣點名稱(即字符串strl)和另一興趣點名稱(字符串str2)的距離等于字符串strl轉(zhuǎn)換成字符串str2的過程中的添力口、刪除、修改的操作次數(shù);該距離越大,表明字符串strl和字符串str2越不相同,即字符串strl和字符串str2的不同度越大;將字符串strl轉(zhuǎn)換成字符串str2的距離值表示為LD(strl,str2),最后通過公式計算得到匹配精度,該位置偏移匹配方法具體包括以下步驟
步驟31 :如果字符串strl的長度m=0,則LD (strl, str2) =字符串str2長度n,轉(zhuǎn)到步驟35 ;如果字符串str2的長度n為O,則LD(strl,str2) =字符串strl的長度m,轉(zhuǎn)到步驟35 ;即LD (str 1,str2) =字符串strl和字符串str2中的非零的那個字符串的長度;如果字符串strl的長度m和字符串str2長度n均不等于O,則構(gòu)建一個(m+1)行、(n+1)列的矩陣M[m] [n],轉(zhuǎn)到步驟32;
步驟32 :初始化(m+1)行、(n+1)列的矩陣M[m] [n],并讓第一行的值從O增長到n,讓第一列的值從O增長到m ;
步驟33 :掃描字符串strl和字符串str2,構(gòu)造一臨時變量temp并初始化,如果字符串strl的第i個字符strl [i]=字符串strl的第j個字符str2[j],則temp=0 ;否則temp=l ;將矩陣 M[i] [j]賦值為M[i-l] [j]+l、M[i] [j_l]+l、M[i-1] [j-l]+temp 三者之中的最小值;其中m+1,1彡j彡n+1 ;
步驟34 :掃描完字符串strl和字符串str2后,得到LD(strl,str2) =矩陣M[m] [n]的最后一個值,即該矩陣中第(m+1)行、第(n+1)列所對應的值;
步驟35:使用公式
匹配精度=I-LD (strl, str2)/strl和str2中的長度最大值,
計算得到匹配精度。本發(fā)明使用上述方法,具有以下優(yōu)點
1.根據(jù)特定區(qū)域范圍對興趣點進行篩選,即通過第一區(qū)域、第二區(qū)域范圍和第三區(qū)域范圍的設(shè)置和在上述區(qū)域范圍內(nèi)的搜索,減少了搜索到的結(jié)果集的冗余度;
2.通過位置偏移匹配方法對搜索到的結(jié)果集進行匹配排重,相對于現(xiàn)有技術(shù)的全局匹配、局部匹配和分詞匹配的匹配方法,本發(fā)明的方法具有更精確的排除數(shù)據(jù)冗余的效果;
3.本發(fā)明通過特定區(qū)域范圍搜索和位置偏移匹配的排重方法相結(jié)合,既保留了原有的全匹配、局部匹配和分詞匹配方法的高精確度,又增加了結(jié)合基準位置特定區(qū)域范圍內(nèi)的高近似度信息的篩選,極大的優(yōu)化了現(xiàn)有排重技術(shù)無法實現(xiàn)的高精度排除數(shù)據(jù)冗余的問題。
圖I是本發(fā)明的實施例中的第一區(qū)域、第二區(qū)域和第三區(qū)域示意圖。
具體實施例方式現(xiàn)結(jié)合附圖和具體實施方式
對本發(fā)明進一步說明。本發(fā)明的一種用于興趣點信息的排重方法,包括以下步驟
步驟I :系統(tǒng)接收到上傳的興趣點A的信息并保存,該信息內(nèi)容至少包括興趣點名稱、興趣點類型、經(jīng)緯度、地址和簡介;
步驟2 :以步驟I保存的興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心的、封閉的第一區(qū)域范圍內(nèi)的所有興趣點名稱;
步驟3 :根據(jù)位置偏移匹配方法,對興趣點A的名稱和搜索到的其他各興趣點名稱進行匹配排重,得到排重結(jié)果以及匹配精度;
步驟4 :如果步驟3得到的匹配精度Pl >預先設(shè)定的精度P,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,轉(zhuǎn)到步驟5 ;其中0〈P〈100% ;例如,預先設(shè)定的精度P=50%,則當步驟3得到的匹配精度Pl≥50%,即視為滿足了匹配要求,則不再需要進一步的排重;當然上述的精度P也可以設(shè)為其他的值;
步驟5 :以興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心的、覆蓋第一區(qū)域范圍外的、封閉的第二區(qū)域范圍內(nèi)的所有興趣點名稱,重復步驟3;
步驟6 :如果步驟5得到的匹配精度P2 >預先設(shè)定的精度P’,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,轉(zhuǎn)到步驟7 ;其中0〈P’〈100%,P’>P ;例如,預先設(shè)定的精度P’=65%,則當步驟5得至IJ的匹配精度P2彡65%,即視為滿足了匹配要求,則不再需要進一步的排重;當然上述的精度P’也可以設(shè)為其他的值;
步驟7 :以興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心、覆蓋第一區(qū)域和第二區(qū)域范圍外的、封閉的第三區(qū)域范圍內(nèi)的所有興趣點名稱,重復步驟
3;
步驟8 :如果步驟7得到的匹配精度P3 >預先設(shè)定的精度P’’,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,輸出在第一區(qū)域、第二區(qū)域和第三區(qū)域范圍內(nèi)沒有找到匹配結(jié)果;其中0〈P”〈100%, P” >P’ ;例如,預先設(shè)定的精度P’’ =80%,則當步驟7得到的匹配精度P3 ^ 80%,即視為滿足了匹配要求,則不再需要進一步的排重;當然上述的精度P’’也可以設(shè)為其他的值;
步驟9:輸出排重結(jié)果。上述步驟2中的第一區(qū)域,是以該興趣點A為中心、各邊距離中心為20米的 正方形區(qū)域。也可以是以該興趣點A為中心、半徑為20米的圓形區(qū)域,當然還可以是其他形狀的閉合區(qū)域,但考慮到計算速度,優(yōu)選使用正方形區(qū)域,如圖I所示的使用左傾斜線標識的區(qū)域I。步驟5中的第二區(qū)域,是以該興趣點A為中心、各邊距離中心為50米的正方形區(qū)域且扣除第一區(qū)域的區(qū)域。也可以是以該興趣點A為中心、半徑為50米的圓形區(qū)域且扣除第一區(qū)域的區(qū)域。當然還可以是其他形狀的閉合區(qū)域,但考慮到計算速度,優(yōu)選使用正方形區(qū)域,那么優(yōu)選的第二區(qū)域具體是以該興趣點A為中心、各邊距離中心為50米的正方形區(qū)域,扣除以該興趣點A為中心、各邊距離中心為20米的正方形區(qū)域的回形區(qū)域,如圖I所示的空白區(qū)域2。步驟7中的第三區(qū)域,是以該興趣點A為中心、各邊距離中心為100米的正方形區(qū)域且扣除第一區(qū)域和第二區(qū)域的區(qū)域。也可以是以該興趣點A為中心、半徑為100米的圓形區(qū)域且扣除第一區(qū)域和第二區(qū)域的區(qū)域。當然還可以是其他形狀的閉合區(qū)域,但考慮到計算速度,優(yōu)選使用正方形區(qū)域,那么優(yōu)選的第三區(qū)域具體是以該興趣點A為中心、各邊距離中心為100米的正方形區(qū)域且扣除以該興趣點A為中心、各邊距離中心為50米的正方形區(qū)域的回形區(qū)域,如圖I所示的使用右傾斜線標識的區(qū)域3。步驟3的位置偏移匹配方法,是令一興趣點名稱(即字符串strl)和另一興趣點名稱(字符串str2)的距離等于字符串strl轉(zhuǎn)換成字符串str2的過程中的添加、刪除、修改的操作次數(shù);該距離越大,表明字符串strl和字符串str2越不相同,即字符串strl和字符串str2的不同度越大;將字符串strl轉(zhuǎn)換成字符串str2的距離值表示為LD (strl,str2),最后通過公式計算得到匹配精度,該位置偏移匹配方法具體包括以下步驟步驟31 :如果字符串strl的長度m=0,則LD(strl, str2) =字符串str2長度n,轉(zhuǎn)到步驟35 ;如果字符串str2的長度n為O,則LD(strl,str2) =字符串strl的長度m,轉(zhuǎn)到步驟35 ;即LD(strl,str2) =字符串strl和字符串str2中的非零的那個字符串的長度;如果字符串strl的長度m和字符串str2長度n均不等于O,則構(gòu)建一個(m+1)行、(n+1)列的矩陣M[m] [n],轉(zhuǎn)到步驟32;
步驟32 :初始化(m+1)行、(n+1)列的矩陣M[m] [n],并讓第一行的值從O增長到n,讓第一列的值從O增長到m ;
步驟33 :掃描字符串strl和字符串str2,構(gòu)造一臨時變量temp并初始化,如果字符串strl的第i個字符strl [i]=字符串strl的第j個字符str2[j],則temp=0 ;否則temp=l ;將矩陣 M[i] [j]賦值為M[i-l] [j]+l、M[i] [j_l]+l、M[i-1] [j-l]+temp 三者之中的最小值;其中m+1,1彡j彡n+1 ;
權(quán)利要求
1.一種用于興趣點信息的排重方法,其特征在于包括以下步驟 步驟I :系統(tǒng)接收到上傳的興趣點A的信息并保存,該信息內(nèi)容至少包括興趣點名稱、興趣點類型、經(jīng)緯度、地址和簡介; 步驟2 以步驟I保存的興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心的、封閉的第一區(qū)域范圍內(nèi)的所有興趣點名稱; 步驟3 :根據(jù)位置偏移匹配方法,對興趣點A的名稱和捜索到的其他各興趣點名稱進行匹配排重,得到排重結(jié)果以及匹配精度; 步驟4 :如果步驟3得到的匹配精度Pl >預先設(shè)定的精度P,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,轉(zhuǎn)到步驟5 ;其中0〈P〈100% ; 步驟5 以興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心的、覆蓋第一區(qū)域范圍外的、封閉的第二區(qū)域范圍內(nèi)的所有興趣點名稱,重復步驟3; 步驟6 :如果步驟5得到的匹配精度P2 >預先設(shè)定的精度P’,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,轉(zhuǎn)到步驟7 ;其中0〈P’〈100%,P’>P; 步驟7 :以興趣點A的經(jīng)緯度為基準點,查詢現(xiàn)有數(shù)據(jù)集合中的以該興趣點A為中心、覆蓋第一區(qū)域和第二區(qū)域范圍外的、封閉的第三區(qū)域范圍內(nèi)的所有興趣點名稱,重復步驟3; 步驟8 :如果步驟7得到的匹配精度P3 >預先設(shè)定的精度P’ ’,則結(jié)束排重并轉(zhuǎn)到步驟9,否則,輸出在第一區(qū)域、第二區(qū)域和第三區(qū)域范圍內(nèi)沒有找到匹配結(jié)果;其中0〈P’’〈100%,P’ ’>P’ ; 步驟9:輸出排重結(jié)果。
2.根據(jù)權(quán)利要求I所述的用于興趣點信息的排重方法,其特征在于步驟3中的位置偏移匹配方法,將ー興趣點記為字符串strl、另ー興趣點記為字符串str2,令字符串strl和str2的距離等于字符串strl轉(zhuǎn)換成字符串str2的過程中的添加、刪除、修改的操作次數(shù);該距離越大,表明字符串strl和字符串str2的不同度越大;將字符串strl轉(zhuǎn)換成字符串str2的距離值記為LD(strl,str2),最后通過計算得到匹配精度,具體的,該位置偏移匹配方法包括以下步驟 步驟31 :如果字符串strl的長度m=0,則LD(strl,str2)=字符串str2長度n,轉(zhuǎn)到步驟35 ;如果字符串str2的長度η為O,則LD(strl,str2) =字符串strl的長度m,轉(zhuǎn)到步驟35 ;如果字符串strl的長度m和字符串str2長度η均不等于0,則構(gòu)建ー個(m+1)行、(η+1)列的矩陣M[m] [η],轉(zhuǎn)到步驟32; 步驟32 :初始化(m+1)行、(n+1)列的矩陣M[m] [η],并讓第一行的值從O增長到η,讓第一列的值從O增長到m ; 步驟33 :掃描字符串strl和字符串str2,構(gòu)造ー臨時變量temp并初始化,如果字符串strl的第i個字符strl [i]=字符串strl的第j個字符str2[j],則temp=0 ;否則temp=l ;將矩陣 M[i] [j]賦值為M[i-l] [j]+l、M[i] [j_l]+l、M[i-1] [j-l]+temp 三者之中的最小值;其中I≤i≤m+1,1≤j≤n+1 ; 步驟34 :掃描完字符串strl和字符串str2后,得到LD (strl, str2) =矩陣M[m] [η]的最后ー個值,即該矩陣中第(m+1)行、第(n+1)列所對應的值; 步驟35:使用公式匹配精度=I-LD (strl, str2)/strl和str2中的長度最大值, 計算得到匹配精度。
3.根據(jù)權(quán)利要求I所述的用于興趣點信息的排重方法,其特征在于步驟2中的第一區(qū)域,是以該興趣點A為中心、各邊距離中心為20米的正方形區(qū)域,或者是以該興趣點A為中心、半徑為20米的圓形區(qū)域。
4.根據(jù)權(quán)利要求3所述的用于興趣點信息的排重方法,其特征在于步驟5中的第二區(qū)域,是以該興趣點A為中心、各邊距離中心為50米的正方形區(qū)域且扣除第一區(qū)域的區(qū)域,或者是以該興趣點A為中心、半徑為50米的圓形區(qū)域且扣除第一區(qū)域的區(qū)域。
5.根據(jù)權(quán)利要求4所述的用于興趣點信息的排重方法,其特征在于步驟7中的第三區(qū)域,是以該興趣點A為中心、各邊距離中心為100米的正方形區(qū)域且扣除第一區(qū)域和第二區(qū)域的區(qū)域,或者是以該興趣點A為中心、半徑為100米的圓形區(qū)域且扣除第一區(qū)域和第二區(qū)域的區(qū)域。
全文摘要
本發(fā)明涉及信息排重技術(shù)。一種用于興趣點信息的排重方法,包括以下步驟1系統(tǒng)接收興趣點A的信息;2以興趣點A的經(jīng)緯度為基準點,查詢第一區(qū)域內(nèi)的所有興趣點名稱;3根據(jù)位置偏移匹配方法,對興趣點A和搜索到的其他各興趣點進行匹配排重,得到排重結(jié)果和匹配精度;4如果步驟3得到的匹配精度P1≥預先設(shè)定的精度P,則轉(zhuǎn)到步驟9,否則轉(zhuǎn)到步驟5;5查詢第二區(qū)域范圍內(nèi)的所有興趣點名稱,重復步驟3;6如果步驟5得到的匹配精度P2≥預先設(shè)定的精度P’,則轉(zhuǎn)到步驟9,否則轉(zhuǎn)到步驟7;7查詢第三區(qū)域范圍內(nèi)的所有興趣點名稱,重復步驟3;8如果步驟7得到的匹配精度P3≥預先設(shè)定的精度P’’,則轉(zhuǎn)到步驟9;9輸出排重結(jié)果。
文檔編號G06F17/30GK102682128SQ20121015331
公開日2012年9月19日 申請日期2012年5月17日 優(yōu)先權(quán)日2012年5月17日
發(fā)明者余小峰, 余順麗, 呂崇毅, 程行榮, 謝燕玲 申請人:廈門雅迅網(wǎng)絡(luò)股份有限公司