基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法

文檔序號(hào)：6426229閱讀：148來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行地名數(shù)據(jù)庫(kù)維護(hù)的方法。
背景技術(shù)：
地名是人們賦予宇宙中特定地理實(shí)體的代號(hào)，是區(qū)別某一特定地理實(shí)體與其他地理實(shí)體的一種標(biāo)志。地名作為最常用的社會(huì)公共信息之一，是地理空間信息的重要組成部分，是測(cè)繪數(shù)字產(chǎn)品不可缺少的信息，也是尋常百姓最易接受的定位方式。地名數(shù)據(jù)庫(kù)一般描述地名名稱、地名的要素類型和空間位置三個(gè)基本特征及其他附屬信息，利用現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)采用數(shù)字、文字、圖像、聲音等多媒體形式對(duì)地名相關(guān)信息進(jìn)行存貯、組織和管理，具有容量大、更新便捷、服務(wù)靈活多樣等優(yōu)點(diǎn)。地名數(shù)據(jù)庫(kù)是地名公共服務(wù)的基礎(chǔ)，為國(guó)家行政管理、經(jīng)濟(jì)建設(shè)、國(guó)內(nèi)外交往等提供不可或缺的基礎(chǔ)信息資源。特別是，隨著社會(huì)信息化的發(fā)展，以地名信息為基礎(chǔ)的基于位置服務(wù)(Location-Based-Service，LBS)的需求日益增長(zhǎng)，并在日常生活中潛移默化地改變著人們的生活。例如，尋找餐館、旅店、娛樂(lè)中心、購(gòu)物中心等常規(guī)的尋址問(wèn)路，以及弘揚(yáng)地名文化、旅游文化、暢享虛擬城市游戲、共享網(wǎng)絡(luò)社區(qū)交流等多元化的空間位置服務(wù)。建立信息完備、時(shí)效性強(qiáng)的地名數(shù)據(jù)庫(kù)是實(shí)現(xiàn)LBS高效服務(wù)的前提和保障。長(zhǎng)期以來(lái)，歐美等國(guó)家地名命名比較規(guī)則，地名數(shù)據(jù)庫(kù)內(nèi)容較為規(guī)范，地名數(shù)據(jù)庫(kù)的構(gòu)建、更新維護(hù)較為容易。比較典型案例有亞歷山大數(shù)字圖書(shū)館地名數(shù)據(jù)庫(kù)(ADL) (http //www. alexandria. ucsb. edu/adl/.)、美國(guó)地名信息系統(tǒng)(GNIS) (http://nhd. usgs. gov/gnis. html)、澳大禾丨J亞地名數(shù)據(jù)庫(kù)(GOA) (http//www. ga. gov. au/place-name/) 等。這些地名數(shù)據(jù)庫(kù)具備比較完善、實(shí)時(shí)的地名描述信息，提供免費(fèi)共享服務(wù)，成功應(yīng)用于國(guó)家的政治、外交、軍事、經(jīng)濟(jì)和公眾服務(wù)等各個(gè)領(lǐng)域。我國(guó)地名數(shù)據(jù)庫(kù)建設(shè)起步較晚，主要由民政部門和測(cè)繪單位承擔(dān)。1979年至1986 年期間，民政部門開(kāi)展了第一次全國(guó)地名普查工作，2009年至2012年間的第二次全國(guó)地名普查試點(diǎn)工作正在啟動(dòng)。本次普查內(nèi)容側(cè)重于現(xiàn)代地名信息數(shù)據(jù)庫(kù)的建設(shè)，信息采集內(nèi)容主要包括試點(diǎn)區(qū)的地名及相關(guān)屬性信息的清查、不規(guī)范地名的標(biāo)準(zhǔn)化、重要地理實(shí)體的地名標(biāo)志設(shè)置等。2003年民政部頒發(fā)《關(guān)于建立地名數(shù)據(jù)庫(kù)有關(guān)問(wèn)題的通知》，全國(guó)各省市都加快了當(dāng)?shù)氐孛麛?shù)據(jù)庫(kù)建設(shè)的步伐，縣級(jí)以上行政單位基本建立了本地地名數(shù)據(jù)庫(kù)。自1994年以來(lái)，國(guó)家測(cè)繪局相繼建成了全國(guó)1 100萬(wàn)、1 25萬(wàn)和1 5萬(wàn)地名數(shù)據(jù)庫(kù) (狄琳，歐陽(yáng)宏斌.“全國(guó)1 25萬(wàn)地名數(shù)據(jù)庫(kù)的設(shè)計(jì)與建立” [J].《測(cè)繪通報(bào)》，2010年，第10期，32-33頁(yè)；陳春華.“1 5萬(wàn)地名數(shù)據(jù)庫(kù)到1 1萬(wàn)地名數(shù)據(jù)庫(kù)轉(zhuǎn)換的研究與開(kāi)發(fā)” [J].《測(cè)繪通報(bào)》，2006年，第5期，71-72頁(yè))。該數(shù)據(jù)庫(kù)將國(guó)家地形圖上各類地名注記及其漢語(yǔ)拼音、屬性要素等錄入計(jì)算機(jī)，與地形數(shù)據(jù)庫(kù)通過(guò)技術(shù)結(jié)構(gòu)連接實(shí)現(xiàn)相互訪問(wèn)，或作為獨(dú)立的關(guān)系型數(shù)據(jù)庫(kù)運(yùn)行。目前，各省、自治區(qū)、直轄市正在開(kāi)展省級(jí)1 1萬(wàn)地名數(shù)據(jù)庫(kù)的建設(shè)(部分已完成)。通常情況下，人們對(duì)位置信息描述時(shí)地名顆粒度較小、實(shí)時(shí)性較強(qiáng)，而且習(xí)慣使用
4地名的別稱、簡(jiǎn)稱、地名屬性、相對(duì)位置關(guān)系等相關(guān)信息進(jìn)行描述。盡管民政部門和測(cè)繪單位采用現(xiàn)代測(cè)繪技術(shù)手段建立了各級(jí)別的國(guó)家和地方地名數(shù)據(jù)庫(kù)，并進(jìn)行了地名數(shù)據(jù)庫(kù)維護(hù)更新的相關(guān)工作(張保鋼，楊伯鋼，孔俊元，“北京市地名數(shù)據(jù)庫(kù)的維護(hù)更新” [J]，《北京測(cè)繪》，2010年，第3期，28-30頁(yè))。但是地名數(shù)據(jù)庫(kù)建設(shè)不能夠滿足社會(huì)需求，存在較多亟待解決的難題。主要包括以下幾個(gè)方面(1)地名信息采集缺乏統(tǒng)一規(guī)范，信息描述非標(biāo)準(zhǔn)化；(2)大、中顆粒度地名集中，小顆粒度地名和非標(biāo)準(zhǔn)地名信息較為缺乏；(3)地名資料陳舊、時(shí)效性較低；(4)地名的相對(duì)位置描述信息缺失；(5)地名數(shù)據(jù)庫(kù)更新維護(hù)主要采用人工測(cè)繪手段，周期長(zhǎng)、成本高、效率低。因此，對(duì)地名數(shù)據(jù)庫(kù)進(jìn)行高效持續(xù)的更新維護(hù)具有十分迫切的需求。隨著網(wǎng)絡(luò)資源的日益豐富以及網(wǎng)頁(yè)資源的更新速度和參與者的日益增多，互聯(lián)網(wǎng)已經(jīng)成為能夠與報(bào)紙、電視和廣播齊名的四大傳媒之一，而且在時(shí)效性上有著不言而喻的優(yōu)勢(shì)。據(jù)調(diào)查顯示，人類社會(huì)80%以上的信息資源與地理空間相關(guān)。作為人類信息資源表達(dá)的載體，網(wǎng)頁(yè)文檔中蘊(yùn)含著豐富的地理空間信息。因此，以網(wǎng)頁(yè)資源為數(shù)據(jù)源，獲取地名及其相關(guān)位置信息對(duì)地名數(shù)據(jù)庫(kù)進(jìn)行實(shí)時(shí)、快速的更新維護(hù)，可以有效解決當(dāng)前地名數(shù)據(jù)庫(kù)建設(shè)與社會(huì)需求之間的矛盾。

發(fā)明內(nèi)容
本發(fā)明利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從非結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù)中主動(dòng)獲取海量空間敏感的網(wǎng)頁(yè)文本，采用地名識(shí)別技術(shù)實(shí)現(xiàn)網(wǎng)頁(yè)文本中地名信息的自動(dòng)語(yǔ)義解析，能實(shí)現(xiàn)地名數(shù)據(jù)庫(kù)的快速更新維護(hù)，克服了現(xiàn)有地名數(shù)據(jù)庫(kù)建設(shè)規(guī)模有限，人工更新維護(hù)周期長(zhǎng)、成本高、效率低的技術(shù)缺陷。為了實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明采用的技術(shù)方案為基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法，主要包括兩個(gè)部分基于網(wǎng)絡(luò)爬蟲(chóng)的空間敏感網(wǎng)頁(yè)獲取和網(wǎng)頁(yè)文本中地名信息解析，基本步驟如下步驟一基于Google搜索引擎的空間敏感網(wǎng)頁(yè)獲取首先，注冊(cè)Google賬戶；然后，遍歷現(xiàn)有地名數(shù)據(jù)庫(kù)中的地名并將其作為種子地名，利用Google搜索引擎的主題搜索功能，以“地名”(如“北京”)或者“地名+空間關(guān)系詞匯”(如“南京師范大學(xué)+東南”)為檢索詞獲取相關(guān)網(wǎng)頁(yè)，并將其作為候選空間敏感URL (統(tǒng)一資源定位符)，用戶可定制候選URL頁(yè)面的數(shù)量；步驟二空間敏感網(wǎng)頁(yè)過(guò)濾首先，分析候選URL頁(yè)面，采用正則表達(dá)式剔除語(yǔ)法標(biāo)記、糾正不合格語(yǔ)法及去掉重復(fù)的網(wǎng)頁(yè)地址，采用中科院研究所研制的ICTCLASS軟件對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行分詞預(yù)處理；然后，提取候選URL頁(yè)面正文和標(biāo)題的空間主題關(guān)鍵字，構(gòu)建候選URL頁(yè)面空間主題向量，計(jì)算待選URL頁(yè)面與空間檢索詞的空間主題相關(guān)度，見(jiàn)公式Sim(DpD) = Sim (D2, D) * α +Sim (D3, D) * β式中，D1為空間檢索主題，D為待選URL頁(yè)面，DJPD2分別為待選URL頁(yè)面的正文和標(biāo)題，Sim(DnD)為待選URL頁(yè)面與空間檢索詞的空間主題相關(guān)度，Sim(D2，D)和Sim(D3，D)分別為待選URL頁(yè)面的正文和標(biāo)題與空間檢索詞的空間主題相關(guān)度，α、β分別為Sim(D2， D)和Sim(D3，D)的權(quán)值(α < 3)，其中5加(02，1))、5加(03，0)的計(jì)算公式為S,miD2,D),S,MD D)= , 2+ ￥/ + ....「.+V 2
VwI +W2 + ......+ VxI W1 + x2 W2Wn )式中，wi，w2，……wn(i = l，2，...，n)為空間檢索詞的主題向量，η表示空間檢索詞的個(gè)數(shù)，Wi為每個(gè)檢索詞的權(quán)重；X1W1，X2W2,……XnWn (i = 1,2,... ,η)為待選URL頁(yè)面空間主題向量，Xi為待選URL頁(yè)面中各空間檢索詞的出現(xiàn)頻率，XiWi表示該頁(yè)面對(duì)應(yīng)向量的每一維分量；最后，根據(jù)待選URL頁(yè)面與空間檢索詞的空間主題相關(guān)度過(guò)濾待選URL網(wǎng)頁(yè)；步驟三網(wǎng)頁(yè)解析首先，對(duì)網(wǎng)頁(yè)文本進(jìn)行預(yù)處理，包括去除HTML標(biāo)簽、網(wǎng)頁(yè)腳本等干擾信息以及網(wǎng)頁(yè)文檔的規(guī)范化；然后，利用DOM方法解析網(wǎng)頁(yè)，形成一棵以HTML為根節(jié)點(diǎn)的結(jié)構(gòu)明晰、層次好的DOM標(biāo)記樹(shù)；步驟四地名識(shí)別選用條件隨機(jī)場(chǎng)(CRF)地名識(shí)別模型識(shí)別DOM節(jié)點(diǎn)中的地名，并檢驗(yàn)地名識(shí)別結(jié)果的有效性；步驟五新地名的獲取新地名是指現(xiàn)有地名數(shù)據(jù)庫(kù)未收錄的地名；基于步驟四的地名識(shí)別結(jié)果，采用地名數(shù)據(jù)庫(kù)匹配的方式，從網(wǎng)頁(yè)文本中獲取新地名；步驟六地名空間位置信息獲取地名空間位置信息獲取以第四步中地名識(shí)別為前提，獲取地名的空間位置信息。本發(fā)明的方法能有效解決當(dāng)前地名數(shù)據(jù)庫(kù)建設(shè)中非標(biāo)準(zhǔn)地名和小顆粒度地名缺乏、地名時(shí)效性較低和相對(duì)位置信息缺失、地名數(shù)據(jù)庫(kù)更新維護(hù)周期長(zhǎng)、成本高、效率低下的技術(shù)問(wèn)題，可廣泛應(yīng)用于數(shù)字城市建設(shè)、空間位置服務(wù)、空間信息檢索、自然語(yǔ)言處理等領(lǐng)域。

圖1為本發(fā)明基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法的流程圖。圖2為本發(fā)明實(shí)施例中空間敏感URL獲取圖。圖3為本發(fā)明實(shí)施例中空間敏感網(wǎng)頁(yè)過(guò)濾圖。圖4為本發(fā)明實(shí)施例中新地名獲取圖。圖5為本發(fā)明實(shí)施例中地名空間位置信息獲取圖。
具體實(shí)施例下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。以空間檢索詞“仙林賓館+西北”為例。(1)基于Google搜索引擎服務(wù)獲取空間敏感網(wǎng)頁(yè)以“仙林賓館+西北”為空間檢索詞，利用Google搜索引擎服務(wù)獲取相關(guān)網(wǎng)頁(yè)，并作為候選空間敏感網(wǎng)頁(yè)，此處定制候選頁(yè)面的數(shù)量為100，見(jiàn)圖2。
(2)空間敏感網(wǎng)頁(yè)的過(guò)濾在候選URL頁(yè)面糾錯(cuò)、標(biāo)準(zhǔn)化、分詞等預(yù)處理的基礎(chǔ)上，計(jì)算待選URL頁(yè)面與空間檢索詞“仙林賓館+西北”的空間主題相關(guān)度。各參數(shù)取值情況為空間檢索詞的個(gè)數(shù)η = 2，地名檢索詞的權(quán)重W1 = 0. 6，空間關(guān)系詞匯的權(quán)重W3 = 0. 4，待選URL頁(yè)面正文和標(biāo)題的空間主題相關(guān)度權(quán)重α =0.4, β =0.6, α ,β可根據(jù)具體情況而進(jìn)行調(diào)整。候選URL網(wǎng)頁(yè)過(guò)濾后，其前50位URL見(jiàn)圖3。(3)新地名的獲取在候選空間敏感網(wǎng)頁(yè)DOM解析的基礎(chǔ)上，利用CRF模型識(shí)別DOM節(jié)點(diǎn)中的地名(見(jiàn)標(biāo)簽“/L0C”)，并進(jìn)行地名有效性檢驗(yàn)?；诘孛R(shí)別結(jié)果，采用地名數(shù)據(jù)庫(kù)匹配的方式，從網(wǎng)頁(yè)文本中獲取新地名，并存入地名數(shù)據(jù)庫(kù)，見(jiàn)圖4。從該50個(gè)空間敏感網(wǎng)頁(yè)，共獲取150 個(gè)新地名。(4)地名空間位置信息獲取基于第(3)步中的地名識(shí)別結(jié)果，根據(jù)權(quán)利要求2中“地名+地理坐標(biāo)”和“地名 +相對(duì)位置”的獲取方法，獲取地名空間位置信息(見(jiàn)圖5)；其中，地名的相對(duì)位置信息獲取，以句子為單位，獲取具有相對(duì)位置關(guān)系的兩個(gè)地名和最近匹配的空間關(guān)系詞匯；空間關(guān)系詞匯的獲取通過(guò)空間關(guān)系詞匯詞典匹配實(shí)現(xiàn)，空間關(guān)系詞匯詞典示例見(jiàn)表1。表1空間關(guān)系詞匯詞典示例
權(quán)利要求
1.基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法，主要包括兩個(gè)部分基于網(wǎng)絡(luò)爬蟲(chóng)的空間敏感網(wǎng)頁(yè)獲取和網(wǎng)頁(yè)文本中地名信息解析，基本步驟如下步驟一基于Google搜索引擎的空間敏感網(wǎng)頁(yè)獲取首先，注冊(cè)Google賬戶；然后，遍歷現(xiàn)有地名數(shù)據(jù)庫(kù)中的地名并將其作為種子地名，利用Google搜索引擎的主題搜索功能，以“地名”或者“地名+空間關(guān)系詞匯”為檢索詞獲取相關(guān)網(wǎng)頁(yè)，并將其作為候選空間敏感URL，用戶可定制候選頁(yè)面的數(shù)量；步驟二空間敏感網(wǎng)頁(yè)過(guò)濾首先，分析候選URL頁(yè)面，采用正則表達(dá)式剔除語(yǔ)法標(biāo)記、糾正不合格語(yǔ)法及去掉重復(fù)的網(wǎng)頁(yè)地址，采用中科院研究所研制的ICTCLASS分詞軟件對(duì)網(wǎng)頁(yè)文本進(jìn)行分詞預(yù)處理；然后，提取候選URL頁(yè)面正文和標(biāo)題的空間主題關(guān)鍵字，構(gòu)建候選URL頁(yè)面空間主題向量，計(jì)算待選URL頁(yè)面與空間檢索詞的空間主題相關(guān)度，見(jiàn)公式 SinKD1, D) = Sim (D2, D)* α +Sim (D3, D)* β式中，D1為空間檢索主題，D為待選URL頁(yè)面，D1和D2分別為待選URL頁(yè)面的正文和標(biāo)題，Sim(D1, D)為待選URL頁(yè)面與空間檢索詞的空間主題相關(guān)度，Sim(D2，D)和Sim(D3, D) 分別為待選URL頁(yè)面的正文和標(biāo)題與空間檢索詞的空間主題相關(guān)度，α、β分別為Sim(D2， D)和Sim(D3，D)的權(quán)值(α < 3)，其中5加(02，1))、5加(03，0)的計(jì)算公式為S-^iD2,D )啊/^)= , 2 嚴(yán)2 +VwI +W2 + ......+ VxI W1 + x2 W2Wn )式中，w1;w2，……Wn (i = 1,2,... ,η)為空間檢索詞的主題向量，η表示空間檢索詞的個(gè)數(shù)，Wi為每個(gè)檢索詞的權(quán)重；X1W1，χ#2，……xnwn (i = 1,2,... ,η)為待選URL頁(yè)面空間主題向量，Xi為待選URL頁(yè)面中各空間檢索詞的出現(xiàn)頻率，XiWi表示該頁(yè)面對(duì)應(yīng)向量的每一維分量；最后，根據(jù)待選URL頁(yè)面與空間檢索詞的空間主題相關(guān)度過(guò)濾待選URL網(wǎng)頁(yè)；步驟三網(wǎng)頁(yè)解析首先，對(duì)網(wǎng)頁(yè)文本進(jìn)行預(yù)處理，包括去除HTML標(biāo)簽、網(wǎng)頁(yè)腳本等干擾信息以及網(wǎng)頁(yè)文檔的規(guī)范化；然后，利用DOM方法解析網(wǎng)頁(yè)，形成一棵以HTML為根節(jié)點(diǎn)的結(jié)構(gòu)明晰、層次好的DOM標(biāo)記樹(shù)；步驟四地名識(shí)別采用條件隨機(jī)場(chǎng)的地名識(shí)別模型識(shí)別DOM節(jié)點(diǎn)中的地名，并檢驗(yàn)地名識(shí)別結(jié)果的有效性；步驟五新地名的獲取基于步驟四的地名識(shí)別結(jié)果，采用地名數(shù)據(jù)庫(kù)匹配的方式，從網(wǎng)頁(yè)文本中獲取地名數(shù)據(jù)庫(kù)未收錄的地名；步驟六地名空間位置信息獲取基于第四步中的地名識(shí)別結(jié)果，獲取地名的空間位置信息。
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法，其特征在于，所述第五步驟的具體計(jì)算過(guò)程如下網(wǎng)頁(yè)文本中蘊(yùn)含的地名空間位置信息一般包括兩種形式第一種地名+地理坐標(biāo)待選URL頁(yè)面的DOM樹(shù)解析中，如果當(dāng)前網(wǎng)頁(yè)中只出現(xiàn)一個(gè)地名和地理坐標(biāo)對(duì)，直接將標(biāo)簽內(nèi)的地名和地理坐標(biāo)關(guān)聯(lián)起來(lái)；如果當(dāng)前網(wǎng)頁(yè)中出現(xiàn)多個(gè)地名和地理坐標(biāo)對(duì)，在提取地名和地理坐標(biāo)時(shí)，需要將其對(duì)應(yīng)關(guān)聯(lián)起來(lái)；具體算法如下Stepl 對(duì)于每一個(gè)葉子節(jié)點(diǎn)上的地理坐標(biāo)，后序遍歷直至找到第一個(gè)滿足上述假定條件的地名；如果地名和地理坐標(biāo)相關(guān)聯(lián)，將這個(gè)地名-空間位置對(duì)存儲(chǔ)在新建樹(shù)的節(jié)點(diǎn)中，同時(shí)將所有未關(guān)聯(lián)的節(jié)點(diǎn)傳遞至父節(jié)點(diǎn)，轉(zhuǎn)到；內(nèi)部節(jié)點(diǎn)中，從左向右接受孩子節(jié)點(diǎn)傳遞過(guò)來(lái)的所有未關(guān)聯(lián)的節(jié)點(diǎn)，將這些節(jié)點(diǎn)有序插入到文本字符串中；同樣，按照步驟^epl的方法將這些節(jié)點(diǎn)關(guān)聯(lián)起來(lái)，將所有未關(guān)聯(lián)的節(jié)點(diǎn)傳遞至父節(jié)點(diǎn)，轉(zhuǎn)到乂印3 ；St印3 如果不是根節(jié)點(diǎn)，繼續(xù)步驟乂印2，否則停止遍歷；第二種地名+相對(duì)位置在HTML網(wǎng)頁(yè)的DOM樹(shù)解析中，以句子為單位，獲取具有相對(duì)位置關(guān)系的兩個(gè)地名和最近匹配的空間關(guān)系詞匯；其中，空間關(guān)系詞匯的獲取通過(guò)空間關(guān)系詞匯詞典匹配實(shí)現(xiàn)。
全文摘要
本發(fā)明公開(kāi)了一種基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法，主要包括兩個(gè)部分基于網(wǎng)絡(luò)爬蟲(chóng)的空間敏感網(wǎng)頁(yè)獲取和網(wǎng)頁(yè)文本中地名信息解析。具體步驟分為基于Google搜索引擎服務(wù)的空間敏感網(wǎng)頁(yè)獲??；基于空間主題相關(guān)度的空間敏感網(wǎng)頁(yè)過(guò)濾；基于DOM技術(shù)的網(wǎng)頁(yè)解析；基于CRF模型的網(wǎng)頁(yè)文本中地名識(shí)別；采用地名數(shù)據(jù)庫(kù)匹配的方式，從網(wǎng)頁(yè)文本中獲取新地名；地名的空間位置信息解析。本發(fā)明的方法能有效解決當(dāng)前地名數(shù)據(jù)庫(kù)建設(shè)中非標(biāo)準(zhǔn)地名和小顆粒度地名缺乏、地名時(shí)效性較低和相對(duì)位置信息缺失、地名數(shù)據(jù)庫(kù)更新維護(hù)周期長(zhǎng)、成本高、效率低下等問(wèn)題，可廣泛應(yīng)用于數(shù)字城市建設(shè)、空間位置服務(wù)、空間信息檢索、自然語(yǔ)言處理等領(lǐng)域。
文檔編號(hào)G06F17/30GK102253972SQ20111015895
公開(kāi)日2011年11月23日申請(qǐng)日期2011年6月14日優(yōu)先權(quán)日2011年6月14日
發(fā)明者張春菊, 張雪英, 朱少楠, 杜超利申請(qǐng)人:南京師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張雪英;張春菊;杜超利;朱少楠
技術(shù)所有人：南京師范大學(xué)
我是此專利的發(fā)明人

上一篇：系統(tǒng)管理程序調(diào)度器的制作方法
上一篇：I2c地址轉(zhuǎn)換的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于網(wǎng)絡(luò)爬蟲(chóng)的地名數(shù)據(jù)庫(kù)維護(hù)方法