專利名稱::一種文字信息與地理信息的關(guān)聯(lián)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及文字信息處理及發(fā)布領(lǐng)域,特別是涉及一種針對網(wǎng)絡(luò)文字信息發(fā)布中含有地理特征的文字信息與地理信息關(guān)聯(lián)的方法和系統(tǒng)。
背景技術(shù):
:現(xiàn)實世界中大量的信息是以文字形式存在的,這些文字內(nèi)容中包含了大量的地理信息(地理特征),例如介紹一篇拙政園的文章"拙政,典故稱謂,是蘇州拙政園名稱的由來。拙政園,被譽為"天下園林之母",與北京頤和園,承德避暑山莊,蘇州留園中稱另四大名園"。其中的"蘇州拙政園,北京頤和園,承德避暑山莊,蘇州留園"等就是典型的地理信息。地理信息即位置信息,通常可以用地圖的方式來表現(xiàn),是一種直觀的信息表達(dá)形式,并且可以進(jìn)一步的利用地理信息技術(shù)來實現(xiàn)出行指路等深入的服務(wù)。如果能夠?qū)⑽淖中畔⑴c地理信息相互結(jié)合,讓文字和地理信息一體化展示,讓讀者在瀏覽文字的時候,也能夠進(jìn)一步了解地名地物的位置,那么將可以大大的提高文字的可讀性和表示的新穎性。例如,在閱讀一篇新聞時,新聞的內(nèi)容介紹的是某地正在舉辦美食節(jié),而讀者就能夠了解美食節(jié)的地點,甚至獲取到到達(dá)的路徑,將是一種美好的閱讀體驗。然而,現(xiàn)在大量的文字內(nèi)容,特別是互聯(lián)網(wǎng)上新聞內(nèi)容,只是純粹的文字發(fā)布,并沒有與地理信息進(jìn)行結(jié)合。另外,現(xiàn)有的技術(shù)未完全考慮到全稱,簡稱的情況,例如"衛(wèi)生監(jiān)督所"與"衛(wèi)監(jiān)所"一般指同一個地理要素,在檢索時可能會導(dǎo)致簡稱被忽略掉的情況?,F(xiàn)有技術(shù)未完全考慮到網(wǎng)絡(luò)發(fā)布中模糊匹配的需求,例如"全市衛(wèi)生監(jiān)督所年終總結(jié)大會",這一段文字需要對應(yīng)的是全市所有"衛(wèi)生監(jiān)督所"的位置。即一個地理關(guān)鍵詞對應(yīng)多個地理要素,現(xiàn)有技術(shù)無法進(jìn)行靈活的識別和判斷。
發(fā)明內(nèi)容技術(shù)問題本發(fā)明目的是針對
背景技術(shù):
中所述現(xiàn)有技術(shù)存在的缺陷提供一種文字信息與地理信息的關(guān)聯(lián)方法及系統(tǒng),解決文字信息與地理信息快速關(guān)聯(lián)。技術(shù)方案本發(fā)明為實現(xiàn)上述目的,采用如下技術(shù)方案本發(fā)明一種文字信息與地理信息的關(guān)聯(lián)方法,包括如下步驟第一步接受原始文本,所述原始文本為文字信息;第二步對原始文本進(jìn)行地理關(guān)鍵詞分析,獲得原始文本中的第一地理關(guān)鍵詞信息集合,并將所述第一地理關(guān)鍵詞信息集合經(jīng)過沖突檢查獲得第二地理關(guān)鍵詞信息集合;第三步利用預(yù)置的地理數(shù)據(jù)庫,對第二步所述的第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息逐一進(jìn)行搜索,獲取與第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息相對應(yīng)的地理要素匹配信息集合,所述地理要素匹配信息集合由多組相對應(yīng)的地理位置和匹配度構(gòu)成的匹配信息構(gòu)成;第四步將第三步所述的匹配度最高的匹配信息設(shè)定為地理關(guān)鍵詞信息的關(guān)聯(lián)。第二步中,采用預(yù)置的地名詞典對原始文本進(jìn)行地理關(guān)鍵詞分析,所述地名詞典的構(gòu)造方法如下從預(yù)置的地理數(shù)據(jù)庫中抽取地理要素名稱,形成地理要素名稱的文本集合即構(gòu)成地名詞典。所述地理關(guān)鍵詞分析采用分詞方法或分詞模塊實現(xiàn)。所述的沖突檢查方法如下(1)當(dāng)一個地理關(guān)鍵詞包含另一個地理關(guān)鍵詞,則根據(jù)最大匹配的原則進(jìn)行過濾;(2)當(dāng)一個地理關(guān)鍵詞與另一個地理關(guān)鍵詞部分重疊,則根據(jù)預(yù)制的規(guī)則進(jìn)行沖突規(guī)避。所述預(yù)制的規(guī)則為后匹配規(guī)則。第三步所述的搜索采用全文搜索方法。將第二步所述的第二地理關(guān)鍵詞信息集合中的每一個地理關(guān)鍵詞做第二次分詞處理,得到搜索關(guān)鍵詞集合用于全文搜索?!N文字信息與地理信息的關(guān)聯(lián)系統(tǒng),包括接收器,用于接收原始文本,所述原始文本為文字信息;分析器,用于分析接收到的原始文本,參考地名詞典,提取出原始文本中的所有第一地理關(guān)鍵詞信息集合;同時,對第一地理關(guān)鍵詞信息集合進(jìn)行沖突檢查,獲得過濾后的第二地理關(guān)鍵詞信息集合;搜索器,參考地理數(shù)據(jù)庫,對第二步所述的第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息逐一進(jìn)行搜索,獲取與第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息相對應(yīng)的地理要素匹配信息集合;關(guān)聯(lián)匹配器,根據(jù)與第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息相對應(yīng)的地理要素匹配信息集合,確定關(guān)聯(lián)匹配。關(guān)聯(lián)系統(tǒng)還包括關(guān)聯(lián)選擇器即選擇界面裝置,根據(jù)與第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息相對應(yīng)的地理要素匹配信息集合,人工確定關(guān)聯(lián)匹配。有益效果通過本發(fā)明,網(wǎng)絡(luò)中單純的文字信息可以與地理信息關(guān)聯(lián),從而增加具有地理特征的文字信息表現(xiàn)的豐富度。這種方法可以應(yīng)用于采用文字方式發(fā)布內(nèi)容的各個領(lǐng)域,例如新聞媒體,電子政務(wù),互動社區(qū)等;進(jìn)一步地,可以在在互聯(lián)網(wǎng),移動網(wǎng)絡(luò)等環(huán)境下開發(fā)各類應(yīng)用系統(tǒng)和商業(yè)化產(chǎn)品。采用沖突檢查方法提高匹配的精度。本發(fā)明建立的關(guān)聯(lián)系統(tǒng),可以進(jìn)行靈活的進(jìn)行文本分析,以建立文字信息與地理信息的關(guān)聯(lián)。同時,對于網(wǎng)絡(luò)文本的發(fā)布,本發(fā)明除了提供自動化的匹配外,還能提供靈活的人工編輯手段,以輔助信息的有效推送。圖1:本發(fā)明關(guān)聯(lián)方法流程圖。圖2:本發(fā)明關(guān)聯(lián)系統(tǒng)結(jié)構(gòu)圖。具體實施例方式下面結(jié)合附圖對發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明4如圖1所示,表示了本發(fā)明的一種文字信息與地理信息關(guān)聯(lián)的方法實例。步驟101、接收原始文本,所述文本為一段文字,可能包含地理信息。例如"拙政園,被譽為"天下園林之母",與北京頤和園,承德避暑山莊,蘇州留園稱另四大名園"。其中"拙政園"、"北京"、"頤和園"、"承德"、"蘇州"和"留園"為構(gòu)成地理信息的地理關(guān)鍵詞。步驟102、利用預(yù)置的地名詞典對原始文本進(jìn)行地理關(guān)鍵詞分析,獲得原始文本中的第一地理關(guān)鍵詞信息集合。地理關(guān)鍵詞分析可以根據(jù)分詞方法進(jìn)行實現(xiàn),亦可以考慮采用現(xiàn)有的開源分詞模塊,如paoding,mmseg等。所述的地名詞典是一系列的地理名詞的集合,可以包括地理實體名稱如道路,河流,綠地,旅游景點等;也包括非地理實體名稱,如非物質(zhì)文化遺產(chǎn),事件點等;所述的地理關(guān)鍵詞信息包括地理關(guān)鍵詞名稱,地理關(guān)鍵詞的在文本中起始位置,地理關(guān)鍵詞的在文本中結(jié)束位置等信息。例如在"拙政園,被譽為"天下園林之母""的原始文本,經(jīng)過分析后,返回的第一地理關(guān)鍵詞信息集合如下地理關(guān)鍵詞名稱地理關(guān)鍵詞的在文本中起始位置地理關(guān)鍵詞的在文本中結(jié)束位置拙政園13優(yōu)選的,地名詞典可以包括地名全稱,簡稱,俗稱,歷史名稱等。進(jìn)一步的,對第一地理關(guān)鍵詞信息集合在文本中的位置關(guān)系進(jìn)行沖突檢查。如果一個關(guān)鍵詞包含另一個關(guān)鍵詞,例如,"拙政園站"包含"拙政園",可以根據(jù)最大匹配的原則進(jìn)行過濾,選中"拙政園站"。如果一個關(guān)鍵詞與另一個關(guān)鍵詞部分重疊,可以根據(jù)預(yù)制的規(guī)則進(jìn)行沖突規(guī)避。例如,"虎丘公園天下酒店"包含了"虎丘公園"與"公園天下酒店"兩個地理關(guān)鍵詞,根據(jù)預(yù)制的后匹配規(guī)則(中文的重點詞一般放在后面)可以確定是"公園天下酒店",而忽略前一個地理關(guān)鍵詞。經(jīng)過以上的沖突檢查,形成第二地理關(guān)鍵詞信息集合。通過步驟102,從原始文本內(nèi)容中獲得第二地理關(guān)鍵詞信息集合。步驟103、對通過步驟102獲得的第二地理關(guān)鍵詞信息集合,利用預(yù)置的地理數(shù)據(jù)庫,逐一進(jìn)行搜索,返回一個或多個相匹配的地理要素匹配信息。所述的地理數(shù)據(jù)庫包含地名詞典的所有地名信息,位置信息及其它的附屬信息。所述的地理要素匹配信息可以包括地理要素標(biāo)識,地理要素名稱,地理位置,匹配度等。例如<table>tableseeoriginaldocumentpage5</column></row><table>優(yōu)選的,搜索過程利用數(shù)據(jù)庫的全文搜索進(jìn)行,為解決簡稱匹配以及模糊匹配問題,可對第二地理關(guān)鍵詞信息集合中的每一個地理關(guān)鍵詞做第二次分詞處理,得到搜索關(guān)鍵詞集合用于全文搜索,所述的搜索關(guān)鍵集合包括原始地理關(guān)鍵詞和二次分詞結(jié)果。例如地理關(guān)鍵詞"蘇州市衛(wèi)監(jiān)所"經(jīng)過二次分詞后的形成關(guān)鍵詞集合為"蘇州","蘇州市","衛(wèi)","監(jiān)","所",分詞結(jié)果依據(jù)所采用詞庫。搜索關(guān)鍵詞集合為"蘇州市衛(wèi)監(jiān)所","蘇州市","衛(wèi)","監(jiān)","所"。本例中采用開源分詞模塊詞庫和地名詞典進(jìn)行分詞,lucene建立地理數(shù)據(jù)庫全文索引,并用lucene進(jìn)行全文搜索,并根據(jù)匹配度返回地理要素匹配信息數(shù)據(jù)集。例如"蘇州市衛(wèi)監(jiān)所"的地理關(guān)鍵詞信息可以有以下的匹配結(jié)果。<table>tableseeoriginaldocumentpage6</column></row><table>通過步驟103,獲得了一個按照匹配度從大到小的地理要素匹配信息集合。步驟104、針對102步獲得的地理關(guān)鍵詞和103步獲得地理要素匹配信息集合,根據(jù)返回的匹配度,設(shè)定最優(yōu)的地理關(guān)鍵詞和地理要素匹配信息的關(guān)聯(lián)。如圖2所示,表示了一種文字信息與地理信息關(guān)聯(lián)的系統(tǒng)實例。接收器301,用于接收原始文本,文本中可能包含地理關(guān)鍵詞。分析器302,用于分析接收到的原始文本,參考地名詞典,提取出原始文本中的所有第一地理關(guān)鍵詞信息集合。同時,對第一地理關(guān)鍵詞信息集合進(jìn)行沖突檢查,獲得過濾后的第二地理關(guān)鍵詞信息集合。搜索器303,參考地理數(shù)據(jù)庫,用第二地理關(guān)鍵詞信息集合逐一進(jìn)行搜索,獲取地理要素匹配信息集合。關(guān)聯(lián)匹配器304-l,根據(jù)第二地理關(guān)鍵詞信息集合與地理要素匹配信息集合的匹配度,確定關(guān)聯(lián)匹配信息。優(yōu)選的,針對網(wǎng)絡(luò)文本的發(fā)布,尤其是新聞發(fā)布,本發(fā)明除了提供自動化的匹配外,還能提供靈活的人工編輯手段,以輔助信息的有效推送。例如"全市衛(wèi)生監(jiān)督所年終總結(jié)大會",這一段文字同時需要對應(yīng)的是所有"衛(wèi)生監(jiān)督所"的位置。即一個地理關(guān)鍵詞對應(yīng)多個地理要素,可以通過人工對地理關(guān)鍵詞和地理要素匹配信息的關(guān)聯(lián)進(jìn)行篩選確定。因此,此處采用關(guān)聯(lián)選擇器304-2即選擇界面裝置,輔助人工選擇,用于人工確定關(guān)聯(lián)匹配。以上對本發(fā)明所提供的方法和和系統(tǒng)做了詳細(xì)的介紹,以上運用的實例是幫助理解本發(fā)明的核心思想,本領(lǐng)域的一般技術(shù)人員依據(jù)本發(fā)明的思想,在具體實施方式和應(yīng)用范圍上均會有改變之處。綜上所述,本說明書的內(nèi)容不應(yīng)理解為對本發(fā)明的限制。權(quán)利要求一種文字信息與地理信息的關(guān)聯(lián)方法,其特征在于包括如下步驟第一步接受原始文本,所述原始文本為文字信息;第二步對原始文本進(jìn)行地理關(guān)鍵詞分析,獲得原始文本中的第一地理關(guān)鍵詞信息集合,并將所述第一地理關(guān)鍵詞信息集合經(jīng)過沖突檢查獲得第二地理關(guān)鍵詞信息集合;第三步利用預(yù)置的地理數(shù)據(jù)庫,對第二步所述的第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息逐一進(jìn)行搜索,獲取與第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息相對應(yīng)的地理要素匹配信息集合,所述地理要素匹配信息集合由多組相對應(yīng)的地理位置和匹配度構(gòu)成的匹配信息構(gòu)成;第四步將第三步所述的匹配度最高的匹配信息設(shè)定為地理關(guān)鍵詞信息的關(guān)聯(lián)。2.根據(jù)權(quán)利要求1所述的一種文字信息與地理信息的關(guān)聯(lián)方法,其特征在于第二步中,采用預(yù)置的地名詞典對原始文本進(jìn)行地理關(guān)鍵詞分析,所述地名詞典的構(gòu)造方法如下從預(yù)置的地理數(shù)據(jù)庫中抽取地理要素名稱,形成地理要素名稱的文本集合即構(gòu)成地名詞曲.。3.根據(jù)權(quán)利要求1或2所述的一種文字信息與地理信息的關(guān)聯(lián)方法,其特征在于所述地理關(guān)鍵詞分析采用分詞方法或分詞模塊實現(xiàn)。4.根據(jù)權(quán)利要求1所述的一種文字信息與地理信息的關(guān)聯(lián)方法,其特征在于第二步所述的沖突檢查方法如下(1)當(dāng)一個地理關(guān)鍵詞包含另一個地理關(guān)鍵詞,則根據(jù)最大匹配的原則進(jìn)行過濾;(2)當(dāng)一個地理關(guān)鍵詞與另一個地理關(guān)鍵詞部分重疊,則根據(jù)預(yù)制的規(guī)則進(jìn)行沖突規(guī)避。5.根據(jù)權(quán)利要求4所述的一種文字信息與地理信息的關(guān)聯(lián)方法,其特征在于所述預(yù)制的規(guī)則為后匹配規(guī)則。6.根據(jù)權(quán)利要求1所述的一種文字信息與地理信息的關(guān)聯(lián)方法,其特征在于第三步所述的搜索采用全文搜索方法。7.根據(jù)權(quán)利要求6所述的一種文字信息與地理信息的關(guān)聯(lián)方法,其特征在于將第二步所述的第二地理關(guān)鍵詞信息集合中的每一個地理關(guān)鍵詞做第二次分詞處理,得到搜索關(guān)鍵詞集合用于全文搜索。8.—種文字信息與地理信息的關(guān)聯(lián)系統(tǒng),其特征在于包括接收器,用于接收原始文本,所述原始文本為文字信息;分析器,用于分析接收到的原始文本,參考地名詞典,提取出原始文本中的所有第一地理關(guān)鍵詞信息集合;同時,對第一地理關(guān)鍵詞信息集合進(jìn)行沖突檢查,獲得過濾后的第二地理關(guān)鍵詞信息集合;搜索器,參考地理數(shù)據(jù)庫,對第二步所述的第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息逐一進(jìn)行搜索,獲取與第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息相對應(yīng)的地理要素匹配信息集合;關(guān)聯(lián)匹配器,根據(jù)與第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息相對應(yīng)的地理要素匹配信息集合,確定關(guān)聯(lián)匹配。9.根據(jù)權(quán)利要求8所述的一種文字信息與地理信息的關(guān)聯(lián)系統(tǒng),其特征在于還包括關(guān)聯(lián)選擇器即選擇界面裝置,根據(jù)與第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息相對應(yīng)的地理要素匹配信息集合,人工確定關(guān)聯(lián)匹配。全文摘要本發(fā)明公布了一種文字信息與地理信息的關(guān)聯(lián)方法及系統(tǒng),所述方法如下接受原始文本,所述原始文本為文字信息;對原始文本進(jìn)行地理關(guān)鍵詞分析,獲得原始文本中的第一地理關(guān)鍵詞信息集合,并經(jīng)過沖突檢查獲得第二地理關(guān)鍵詞信息集合;利用預(yù)置的地理數(shù)據(jù)庫,對第二地理關(guān)鍵詞信息集合中的各個地理關(guān)鍵詞信息逐一進(jìn)行搜索,獲取地理要素匹配信息集合;將匹配度最高的匹配信息設(shè)定為地理關(guān)鍵詞信息的關(guān)聯(lián)。本發(fā)明系統(tǒng)包括接收器、分析器、搜索器和關(guān)聯(lián)匹配器。本發(fā)明增加具有地理特征的文字信息表現(xiàn)的豐富度。文檔編號G06F17/30GK101777082SQ201019026119公開日2010年7月14日申請日期2010年3月1日優(yōu)先權(quán)日2010年3月1日發(fā)明者周為群,林金煉,黃暉申請人:蘇州數(shù)字地圖網(wǎng)絡(luò)科技有限公司