亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網絡地圖服務中未登錄地名的定位方法

文檔序號:6610208閱讀:199來源:國知局

專利名稱::一種網絡地圖服務中未登錄地名的定位方法
技術領域
:本發(fā)明涉及網絡信息挖掘和地圖檢索服務領域,尤其是網絡地圖服務中未登錄地名關聯(lián)定位技術。
背景技術
:2004年底,Google推出網絡地圖服務,在GoogleMaps讓網絡地圖服務真正進入廣大網民的生活中的同時,也帶動了國內網絡地圖服務的發(fā)展步伐。網絡地圖服務產業(yè)呈現出爆炸式的發(fā)展,各式各樣的地圖服務網站如雨后春筍般涌現出來。地圖服務最吸引人也是最重要的功能就是地名搜索定位功能,即用戶輸入目的地名的關鍵詞,然后由地圖服務網站在地圖上標識出目的地的位置并顯示相關信息。但是現有的網絡地圖服務中地名搜索服務還不能完全滿足人們的需求,主要體現在如果地圖服務的相關空間數據庫中沒有目的地名的相關信息,則無法對目的地名進行定位。地名搜索定位服務的基本過程都是用戶輸入感興趣的地方的地名關鍵詞并提交給地圖服務網站,然后就可以從地圖服務網站得到一張標有目的地名的地圖。目前知名的地圖服務網站幾乎都是根據地名關鍵詞(字)匹配來進行定位的,關鍵詞匹配的對象就是空間數據庫一一一個包含大量地名及其位置信息和其他屬性信息的數據庫。在地圖服務的服務器端,定位的過程主要經歷以下幾個步驟首先在服務器端的空間數據庫中査找與關鍵詞匹配的地名或屬性信息中包含關鍵詞的地址,然后在通過該地址的坐標在地圖上標識出這個地址并顯示給用戶。但是通常一個城市就包含著上萬甚至幾十萬的地址信息,想要采集出全部的地址及其坐標是件非常繁瑣復雜的工作,并且經常會有新的地址產生或老的地址消失。因此由于空間數據庫數據不全、更新不及時等原因,許多用戶在使用地圖搜索時都會遇到查不到地名的情況。以"鉆石大廈"為例,服務器端的查詢定位服務會在空間數據庫中查找有沒有"鉆石大廈"這個地址;如果沒有,則會査找地址的其他相關描述信息中包含"鉆石大廈"的結果,比如某個公司的描述信息中包含"位于鉆石大廈A座2層",并且這個公司位于空間數據庫中,那么就會將這個公司的位置作為結果返回給用戶。如果以上兩種地址都沒有找到,有的網站會直接提示用戶沒有找到這個地名,如百度地圖會顯示"抱歉,沒有找到與'鉆石大廈'相關的地點"。也有些地圖服務網站會對關鍵詞作一些處理后進行再次査詢,比如Google地圖會將"鉆石大廈"進行切分,然后將切分結果"鉆石"和"大廈"作為新的關鍵詞再到空間數據庫中進行査詢,將地名描述中包含"鉆石"和"大廈"的結果返回給用戶,即使這兩個詞在地名描述中不是連在一起出現。后者的做法相當于一種分析關鍵詞與空間數據庫內容相關性的方法,在無法找到完全匹配的內容的情況下,將"最相近"的地址返回給用戶。對于多個地名組合而成的地址信息這樣做會有一定的效果,比如用"中關村軟件園鉆石大廈"査不到的結果,分別用"中關村軟件園"和"鉆石大廈"就可能會査到相關信息。但是對于非組合式的地名來說,如"鉆石大廈",分詞后仍然很難査到與關鍵詞相關的結果。這時,通常用戶會轉而采用其他方式來獲得地理實體的位置信息,如使用搜索引擎查找該地理實體的位置。但目前的搜索引擎并沒有針對地理位置的搜索采取專門的檢索策略,比如在搜索引擎輸入一個公司名稱并點擊搜索,那么搜索引擎會把所有包含該公司名稱的網頁返回給用戶。但是關于這個公司更詳細具體的信息比如地址、電話等,則要用戶自己打開一個個的網頁來判斷與查找這些信息,大大降低了地理實體的搜索和定位的效率,增加了用戶定位所需的時間。發(fā)明目的從上面的分析可以看出,要對網絡地圖服務的空間數據庫中沒有的地名——未登錄地名進行定位,目前還沒有很好的方法。最根本的解決辦法當然是擴充并更新空間數據庫中的數據。不過目前空間數據更新主要由人工來完成,具有固有的復雜性和滯后性。本發(fā)明要解決的問題就是在不對空間數據庫中的已有數據進行更新的情況下,只在己有空間數據庫的支持下,利用搜索引擎搜索得到包含未登錄地名的網頁,對搜索得到的網頁進行分析和挖掘,得到能夠描述未登錄地名位置的、并且存在于已有空間數據庫中的地址信息,實現未登錄地名的定位,從而改善地名搜索定位服務的質量。為了解決目前各地圖服務網站對空間數據庫中不存在的未登錄地名無法處理的情況,本發(fā)明提出通過對互聯(lián)網上包含的大量地址信息進行分析,找出其中既在己有空間數據庫中,又能描述未登錄地名的地址信息,并通過這些地址信息對空間數據庫中沒有的未登錄地名進行定位的方法。本發(fā)明方法包括以下步驟(如圖1所示)(1)首先收集所有包含用戶輸入的未登錄地名關鍵詞的網頁。網頁的獲取方式可以從本地已有的網頁庫中檢索出包含關鍵詞的網頁,也可以通過搜索引擎檢索到包含關鍵詞的網頁鏈接,再下載到本地。然后從網頁中提取出包含關鍵詞的上下文信息,上下文為純文本信息,大小在200字以內為宜(關鍵詞前后各100字)。我們通過人工調查,對一個給定的未登錄地名,在包含這個未登錄地名的網頁文本集合中,能夠描述這個未登錄地名位置的地址信息(或稱空間相關地址)在文本中絕大部分都出現在距該未登錄地名ioo個字以內的上下文中,而其他不能描述該未登錄地名位置的地址信息(或稱空間不相關地址)則大部分出現在距離這個實體名稱100個字以外的上下文中。所以上下文范圍取100個字時可以在幾乎不影響空間相關地址提取效果的情況下,較好地排除空間不相關的地址信息,降低識別出的空間不相關信息帶來的不良影響。(2)根據地圖服務網站所擁有的空間數據庫,構建相應的地名詞典。該地名詞典中的地名詞匯,都來源于空間數據庫中的地址信息,相應地,每個地名詞匯都會有具體的坐標位置。采用基于地名詞典的匹配方法(昝紅英,《基于實體屬性的中文網頁檢索研究》,北京大學博士論文,2004),從所有網頁的未登錄地名關鍵詞上下文中提取出所有可以通過空間數據庫直接定位的地址信息(或者說在空間數據庫中出現的地址信息)。G)定量計算出這些地址信息與用戶輸入的未登錄地名關鍵詞的空間相關度??臻g相關度是指地址與未登錄地名關鍵詞的空間相關性,即識別出的地址的地理位置與用戶輸入未登錄地名關鍵詞的地理位置的相鄰程度。空間相關度計算主要依據文本中地址與未登錄地名關鍵詞之間的文字距離來計算(羅英偉等,《一種文本上下文中實體地址信息的提取方法》,專利申請)。(4)根據對地址信息的空間聚類分析對空間相關度進行修正。因為與未登錄地名關鍵詞空間相關的地址在地理位置上具有聚集性,即與同一地點相關的地址,彼此之間也是空間鄰近的,而空間不相關的地址之間則沒有這種特點。因此根據空間數據庫把識別出的地址轉換成具體的地理位置,通過地圖服務的空間聚類計算(AlanT.MurrayandVladimirEstivill-Cas加,Clusterdiscoverytechniquesforexploratoryspatialdataanalysis,InternationalJournalofGeographicalInformationScience,1998,12(5):431-443.),可以從中找出地址分布密集、初始相關度又高的區(qū)域,并認為這個區(qū)域內的地址最有可能是空間相關地址,大幅提升它們的相關度。一個簡單的空間相關度值的修正方法就是將該區(qū)域的每一個地址的空間相關度累加起來,記做ER,該區(qū)域的每一個地址修正后的空間相關度值為其原來的空間相關度值加5ZR。(5)根據地址空間相關度的排名,取排名前幾個地址作為定位結果返回給用戶,并在地圖上標識出所有返回結果供用戶選擇。因為識別出的地址都是空間數據庫中的己知地址,因此可以直接在地圖上進行定位并標識出來。為實現上述目的,本發(fā)明采用如下技術方案。一種網絡地圖服務中未登錄地名的定位方法,其步驟為1)收集所有包含用戶輸入的未登錄地名關鍵詞的網頁;2)從網頁中提取出包含地名關鍵詞的上下文信息;3)從所有網頁的地名關鍵詞上下文中提取出所有地名詞典中包含的地址信息;4)計算出上述地址信息與用戶輸入的未登錄地名關鍵詞的空間相關度;5)對空間相關度進行排名,取排名前幾個地址作為定位結果在地圖上標識返回給用戶。所述的方法中網頁的收集方式為從本地己有的網頁庫中檢索出包含關鍵詞的網頁或通過搜索引擎檢索到包含關鍵詞的網頁鏈接,再下載到本地。所述網頁的地名關鍵詞上下文為純文本信息,關鍵詞前后各100字以內。所述的地名詞典為根據網絡地圖服務網站的空間數據庫而建立,每個地名詞匯都有具體的坐標位置。所述的方法中采用基于地名詞典的匹配方法提取出所有地名詞典中包含的地址信息。所述的方法中從網頁文本中所提取的所有地址信息根據坐標位置能夠在網絡地圖服務中進行定位。所述的方法中采用空間聚類計算對空間相關度進行修正。發(fā)明的優(yōu)點與積極效果與現有網絡地圖服務中的地名搜索定位服務相比,本發(fā)明提出的定位方法可以很好的處理網絡地圖服務中空間數據庫內沒有的未登錄地名的定位問題,能夠很好地給出未登錄地名的真實地址或相鄰地址。為了測試本發(fā)明方法的效果,我們以北京市為例,采用基于地名詞典匹配的地址識別方法,對174個空間數據庫中沒有的地名和機構名稱進行定位,并將部分結果列在表l中??梢钥闯霾?眾成信達貿易有限公司"時,我們查出的最相關的地址是"朝陽區(qū)松榆北路7號院",并且它的空間相關度經過修正后遠遠高于其他地址。而對"京圃園生物工程有限公司"的識別結果中,雖然前兩名地址的相關度相差不大,但是因為第一名"海淀區(qū)中國農業(yè)科學院"和第三名"海淀區(qū)中關村南大街12號"表示的是同一個地址,而用戶會傾向于相信聚集性比較強的地址,所以仍然可以達到準確定位的目的。査"舊宮志新偉業(yè)家具廠",雖然第一個結果的地理范圍比較大,但是第二個結果可以輔助用戶進行精確的定位。而査"話匣子咖啡廳"也是前兩個結果不但可信度高,而且空間聚集性強,可以起到正確定位的作用。表1對空間數據庫中沒有的地名進行定位的部分測試結果<table>tableseeoriginaldocumentpage7</column></row><table>圖1示意了一個針對不存在于空間數據庫中的未登錄地名的定位流程圖。圖2未登錄地名的地圖定位效果具體實施例方式下面通過一個具體的例子來說明如何實施本專利所描述的方法來對一個空間數據庫中沒有的未登錄地名進行定位。假設用戶査詢"朋克美容美發(fā)"這個地點,首先通過網頁收集模塊(圖1中的第1個模塊)獲取到所有包含"朋克美容美發(fā)"的網頁,并保存到圖1中的第(2)個模塊中。由網頁預處理及上下文截取模塊(圖1中的第3個模塊)將網頁中的標簽信息去掉后,截取出網頁中所有"朋克美容美發(fā)"的前后100個字的上下文信息并交給地址信息提取模塊處理。地址信息提取模塊采用基于地名詞典的匹配方法從上下文中提取出所有空間數據庫中已有的地址信息,比如"清華東門"、"海淀區(qū)五道口華清嘉園"、"海淀區(qū)北三環(huán)7西路48號"、"北京海淀五道口"等等,然后由地址的相關度計算模塊(圖1中的第5個模塊)根據這些地址距"朋克美容美發(fā)"的距離計算其空間相關度。比如對于"朋克美容美發(fā)海淀區(qū)五道口華清嘉園8號樓北一層,Mttll南300米"這段上下文來說,標下劃線的部分是識別出的地址,"海淀區(qū)五道口華清嘉園"因為距離關鍵詞"朋克美容美發(fā)"比較近,所以相關度就高一些。而"清華東門"因為距離比較遠,則相關度會低一些。有些空間不相關的地址因為出現次數多,或距離關鍵詞較近,因而會獲得較高的空間相關度。但是經過基于空間聚集性的地址相關度修正模塊(圖1中的第6個模塊)進行空間聚集性分析后,我們可以發(fā)現"清華東門"、"海淀區(qū)五道口華清嘉園"和"北京海淀五道口"這幾個地址距離很近,具有明顯的空間聚集性(通過空間聚類計算可以得到彼此之間的距離只有幾百米),而"海淀區(qū)北三環(huán)西路48號"則距這幾個地址幾公里,我們就會認為彼此相鄰的這些地址更可能是地名關鍵詞的空間相關地址從而提升它們的空間相關度(具體提升方法是每個地址的空間相關度值都加上這些空間聚集地址的相關度的累加值)。最后由圖1中的第7個模塊結果展示接口將排名最靠前的幾個地址以及它們的空間相關度以文字和地圖的方式展現給用戶,幫助用戶決定選擇哪個地址作為目標地址(如圖2所示)。權利要求1.一種網絡地圖服務中未登錄地名的定位方法,其步驟為1)收集所有包含用戶輸入的未登錄地名關鍵詞的網頁;2)從網頁中提取出包含地名關鍵詞的上下文信息;3)從所有網頁的地名關鍵詞上下文中提取出所有地名詞典中包含的地址信息;4)計算出上述地址信息與用戶輸入的未登錄地名關鍵詞的空間相關度;5)對空間相關度進行排名,取排名前幾個地址作為定位結果在地圖上標識返回給用戶。2.如權利要求1所述的定位方法,其特征在于網頁的收集方式為從本地已有的網頁庫中檢索出包含關鍵詞的網頁或通過搜索引擎檢索到包含關鍵詞的網頁鏈接,再下載到本地。3.如權利要求1所述的定位方法,其特征在于所述網頁的地名關鍵詞上下文為純文本信息,關鍵詞前后各100字以內。4.如權利要求1所述的定位方法,其特征在于所述的地名詞典為根據網絡地圖服務網站的空間數據庫而建立,每個地名詞匯都有具體的坐標位置。5.如權利要求1所述的定位方法,其特征在于采用基于地名詞典的匹配方法提取出所有地名詞典中包含的地址信息。6.如權利要求1或5所述的定位方法,其特征在于從網頁文本中所提取的所有地址信息根據坐標位置能夠在網絡地圖服務中進行定位。7.如權利要求1所述的定位方法,其特征在于采用空間聚類計算對空間相關度進行修正。全文摘要本發(fā)明提供了一種網絡地圖服務中未登錄地名的定位方法,其首先收集所有包含用戶輸入的未登錄地名關鍵詞的網頁,從中提取出空間數據庫中登錄的地址信息,根據地名關鍵詞與登錄的地址信息之間的距離計算得到空間相關度,并根據空間聚類計算對空間相關度進行修正,取空間相關度排名在前的幾個地址作為定位結果在地圖上標識返回給用戶。本發(fā)明的方法可以在不擴展、更新地址數據的情況下,迅速有效的提供未登錄地名的地址信息,并根據文字的地址信息在地圖上進行定位,可以在一定程度上提高地圖搜索定位服務的質量。文檔編號G06F17/30GK101110080SQ20071012054公開日2008年1月23日申請日期2007年8月21日優(yōu)先權日2007年8月21日發(fā)明者周曉魯,汪小林,羅英偉,許卓群申請人:北京大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1