本發(fā)明涉及中文地址解析
技術(shù)領(lǐng)域:
,具體涉及一種基于貝葉斯分詞算法的中文地址語義標(biāo)注方法。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的網(wǎng)絡(luò)內(nèi)容直接來自于用戶上傳分享的信息。針對一些提供生活消費平臺的網(wǎng)站,則會接收到成千上百萬條用戶上傳的商戶地址信息,而這些地址信息有很大一部分都是自由文本式的、無顯示結(jié)構(gòu)的且隱含語義性的附加說明信息。在互聯(lián)網(wǎng)位置服務(wù)中,地理位置可以有多種方式來表達,中文地址是其中之一。一個規(guī)范的中文地址應(yīng)該包含完整的行政區(qū)劃,并按照行政區(qū)劃(省/市/縣/鄉(xiāng)/村)、路街、牌號、建筑、戶室等次序來表達。通過一個完整規(guī)范的中文地址信息,我們可以得到與其相對應(yīng)的地理位置。現(xiàn)有技術(shù)中,針對各種地址信息僅僅使用分詞技術(shù)已無法滿足對中文地址解析的需求。我們需要更進一步地將形式化的文本中文地址信息轉(zhuǎn)化成結(jié)構(gòu)化的地址表示形式,識別出文本地址信息中的地址元素和語義信息,也即對中文地址信息進行規(guī)范化。中文地址信息的規(guī)范化一般包括地址和語義信息的識別和規(guī)范化,其中,地址識別指的是解析出文本地址信息中所包含的地址和附加說明信息;而規(guī)范化則是將解析出的地址切分標(biāo)注成語義地址元素集。眾所周知中文地址信息中各元素沒有明確的分隔符,相關(guān)技術(shù)中針對中文地址元素的識別尚面臨著解析完整性、多樣性、歧義性等多種困難。因此,亟待提供一種將中文地址信息切分識別成規(guī)范化的地址語義信息的方法,為用戶更好的提供服務(wù)。技術(shù)實現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是,提供一種基于貝葉斯分詞算法的中文地址語義標(biāo)注方法,對于以自然語言形式表示的地址信息,根據(jù)地址數(shù)據(jù)表達的語義特點,對中文地址信息進行語義標(biāo)注。本發(fā)明的技術(shù)方案是,提供一種基于貝葉斯分詞算法的中文地址語義標(biāo)注方法,包括步驟S1:預(yù)設(shè)置針對中文地址數(shù)據(jù)進行語義標(biāo)注的標(biāo)注關(guān)系表,其中,所述標(biāo)注關(guān)系表中至少包含行政區(qū)名稱以及用于標(biāo)注所述行政區(qū)名稱的行政區(qū)標(biāo)記;步驟S2:獲取已預(yù)先切分、標(biāo)注好NT條中文地址數(shù)據(jù)的集合T作為訓(xùn)練語料,設(shè)集合T={Ti},其中各條中文地址數(shù)據(jù)為Ti,且1≤i≤NT;步驟S3:對集合T進行統(tǒng)計學(xué)習(xí),所述統(tǒng)計學(xué)習(xí)具體包括步驟S31:統(tǒng)計集合T中切分出的各詞語、各詞語的詞頻、各詞語與其相鄰上一詞語同時出現(xiàn)的頻度值,并存入詞頻詞典Word_dic中;步驟S32:統(tǒng)計各詞語以及與該詞語對應(yīng)的標(biāo)注關(guān)系,存入標(biāo)注關(guān)系詞典Taging_dic中;步驟S33:統(tǒng)計各條中文地址數(shù)據(jù)Ti的標(biāo)注模式及其模式頻度值,存入標(biāo)注模式表Taging_mode中;步驟S4:輸入待標(biāo)注的地址字符串S,并對地址字符串S進行全切分,得到切分集合W={Wi},1≤i≤2l-1,其中,l是地址字符串S的長度;步驟S5:根據(jù)所述詞頻詞典Word_dic中各詞語的詞頻值,根據(jù)貝葉斯分詞算法計算集合W={Wi}中每一個元素Wi的概率,并保存概率最大的分詞方案記為seg_result;步驟S6:根據(jù)所述標(biāo)注關(guān)系詞典Taging_dic中每個詞語對應(yīng)的標(biāo)注關(guān)系,對所述分詞方案seg_result中切分好的每一個詞語進行標(biāo)注,得到針對地址字符串S的標(biāo)注結(jié)果tag_temp。進一步地,所述貝葉斯分詞算法包括:設(shè)地址字符串S的第i種切分方式為Wi=w1w2Lwn,則w1、w2、K、wn就代表了切分方式中的n個詞,求最大概率分詞方式即為:若所有的詞語確定,則句子唯一確定,P(S|Wi)=1,對于地址字符串S的多種分詞方式,P(S)為常數(shù),根據(jù)貝葉斯公式有:應(yīng)用二元語法模型(Bigram)根據(jù)聯(lián)合概率公式有:求解式(2)相當(dāng)于尋找到聯(lián)合概率最大的路徑W',記為seg_result。進一步地,在步驟S6之后,該方法還包括:步驟S7:設(shè)不確定標(biāo)注關(guān)系的詞語對應(yīng)的行政區(qū)標(biāo)記為Unknown,判斷所述標(biāo)注結(jié)果tag_temp中是否包含不確定標(biāo)注關(guān)系的詞語,如果包含,則提取所述標(biāo)注結(jié)果tag_temp中的詞語標(biāo)注序列并記為L,設(shè)L的長度為len;步驟S8:選取標(biāo)注模式表Taging_dic中標(biāo)注模式長度為len的n個標(biāo)注模式作為待匹配模式集合M={Mi},其中1≤i≤n,與L進行模式匹配,該模式匹配的方式包括:步驟a:取待匹配模式集合M中的標(biāo)注模式Mi與L進行匹配,設(shè)匹配起始位置為start=1,結(jié)束位置為end=len,匹配位置為j,1≤j≤len,使j=start;步驟b:取詞語標(biāo)注序列L中的行政區(qū)標(biāo)記lj與Mi中的行政區(qū)標(biāo)記mj進行對比,如果lj≠Unknown,判斷l(xiāng)j是否等于mj,如果li=mj相等,則j=j(luò)+1,繼續(xù)步驟b;如果li≠mj,將此Mi從M={Mi}中刪除;如果lj=Unknown,則j=j(luò)+1,繼續(xù)步驟b;直到j(luò)=len;步驟c:使i=i+1,繼續(xù)步驟a,直到i=n,得到一個新的模式集合M’;具體地,假定標(biāo)注結(jié)果為“上海市/PRO閔行區(qū)/CITY碧秀路/ROAD98弄/Unknown”,則其標(biāo)注序列為:[PRO,CITY,ROAD,Unknown],這個序列的標(biāo)注模式長度為4,為其標(biāo)注詞的個數(shù)。在標(biāo)注模式表中選取長度為4的所有標(biāo)注模式序列,然后進行匹配,匹配得出可能的標(biāo)注序列為:[PRO,CITY,ROAD,AREA],[PRO,CITY,ROAD,ROAD],[PRO,CITY,ROAD,POI],[PRO,CITY,ROAD,BNO],再取這幾組標(biāo)注序列中頻度最大的一組。步驟S9:根據(jù)所述標(biāo)注模式表Taging_mode,取模式集合M’中模式頻度值最大的模式作為標(biāo)注結(jié)果,將tag_temp中的Unknown標(biāo)注改變?yōu)槟J筋l度值最大的模式中與Unknown標(biāo)注位置相對應(yīng)的行政區(qū)標(biāo)記,得到新的標(biāo)注結(jié)果并記為tag_result;步驟S10:輸出新的標(biāo)注結(jié)果tag_result。進一步地,在得到標(biāo)注結(jié)果tag_result之后所述方法還包括:將所述標(biāo)注結(jié)果tag_temp中Unknown標(biāo)注原來對應(yīng)的詞語,及該詞語現(xiàn)在的標(biāo)注關(guān)系添加到所述標(biāo)注關(guān)系詞典Taging_dic中。進一步地,所述標(biāo)注關(guān)系表中的行政區(qū)名稱分類為至少十一級行政區(qū)類別,其中一級行政區(qū)名稱至少包括省、自治區(qū)、直轄市、特別行政區(qū);二級行政區(qū)名稱至少包括地級市、自治州、地區(qū)、盟;三級行政區(qū)名稱至少包括市轄區(qū)、縣、縣級市、旗、特區(qū)、林區(qū);四級行政區(qū)名稱至少包括區(qū)公所、鄉(xiāng)、鎮(zhèn)、蘇木、街道辦事處、商業(yè)區(qū);五級行政區(qū)名稱至少包括社區(qū)、居委會、行政村。進一步地,所述標(biāo)注關(guān)系表中的行政區(qū)名稱至少還包括以下六類其一,其中第一類為基本區(qū)域限定物至少包括地片、區(qū)片、自然村、居民小區(qū);其中第二類為街巷名至少包括道路、街、巷、胡同、弄;其中第三類為門址至少包括門牌號;其中第四類為興趣點至少包括興趣點、標(biāo)志物;其中第五類為標(biāo)點符號;其中第六類為不確定項對應(yīng)不確定關(guān)系的名稱。本發(fā)明技術(shù)方案的有益效果為:通過預(yù)先設(shè)置針對中文地址信息進行標(biāo)注的標(biāo)注關(guān)系表,該表中至少包含行政區(qū)名稱及對應(yīng)標(biāo)注的行政區(qū)標(biāo)記,設(shè)定了一個規(guī)范化的標(biāo)注模板;通過統(tǒng)計學(xué)習(xí)預(yù)設(shè)置的訓(xùn)練語料,并具體統(tǒng)計訓(xùn)練語料中的各詞語及其相關(guān)詞頻,以及統(tǒng)計語料中各詞語的標(biāo)注關(guān)系及各條地址數(shù)據(jù)的標(biāo)注模式,獲得了包含詞頻詞典、標(biāo)注關(guān)系詞典以及標(biāo)注模式表的數(shù)據(jù)庫;再通過對待標(biāo)注地址字符串進行全切分、貝葉斯分詞計算后,根據(jù)前述訓(xùn)練數(shù)據(jù)庫匹配得到標(biāo)注好的具有語義信息的中文地址,快速準(zhǔn)確地完成了針對中文地址數(shù)據(jù)的語義解析。具體實施方式下面結(jié)合具體實施例對本發(fā)明作進一步說明。本發(fā)明提供了一種基于貝葉斯分詞算法的中文地址語義標(biāo)注方法,包括步驟S1:預(yù)設(shè)置針對中文地址數(shù)據(jù)進行語義標(biāo)注的標(biāo)注關(guān)系表,其中,所述的標(biāo)注關(guān)系表中至少包含行政區(qū)名稱以及用于標(biāo)注所述行政區(qū)名稱的行政區(qū)標(biāo)記;其中,一個規(guī)范化的中文地址應(yīng)該包含多級從大到小的行政區(qū)劃,本實施例中,行政區(qū)名稱對應(yīng)了多級行政區(qū)劃,同一級行政區(qū)劃可以包含多類名稱,例如:省、自治區(qū)、直轄市和特別行政區(qū)應(yīng)屬于同一級行政區(qū)劃,中文地址信息中包含這些行政區(qū)名稱的都可以用同一行政區(qū)標(biāo)記進行標(biāo)注,下表示例了其中一種標(biāo)注關(guān)系表:表1標(biāo)注關(guān)系表步驟S2:獲取已預(yù)先切分、標(biāo)注好NT條中文地址數(shù)據(jù)的集合T作為訓(xùn)練語料,設(shè)集合T={Ti},其中各條中文地址數(shù)據(jù)為Ti,且1≤i≤NT;其中,上述訓(xùn)練語料包含了多條中文地址數(shù)據(jù),并且這些地址數(shù)據(jù)都是事先人工按照行政區(qū)劃等級進行切分,并以上述標(biāo)注關(guān)系表為依據(jù)進行了標(biāo)注的,例如中文地址數(shù)據(jù):“湖北省武漢市洪山區(qū)流芳大街1號”,可以人工切分為“湖北省|武漢市|洪山區(qū)|流芳大街|1號”,訓(xùn)練語料越多后續(xù)對待標(biāo)注的中文地址數(shù)據(jù)解析的就更準(zhǔn)確更迅速。步驟S3:對集合T進行統(tǒng)計學(xué)習(xí),所述統(tǒng)計學(xué)習(xí)具體包括:步驟S31:統(tǒng)計集合T中切分出的各詞語、各詞語的詞頻、各詞語與其相鄰上一詞語同時出現(xiàn)的頻度值,并存入詞頻詞典Word_dic中;步驟S32:統(tǒng)計各詞語以及與該詞語對應(yīng)的標(biāo)注關(guān)系,存入標(biāo)注關(guān)系詞典Taging_dic中;步驟S33:統(tǒng)計各條中文地址數(shù)據(jù)Ti的標(biāo)注模式及其模式頻度值,存入標(biāo)注模式表Taging_mode中;步驟S4:輸入待標(biāo)注的地址字符串S,并對地址字符串S進行全切分,得到切分集合W={Wi},1≤i≤2l-1,其中,l是地址字符串S的長度;步驟S5:根據(jù)詞頻詞典Word_dic中各詞語的詞頻值,根據(jù)貝葉斯分詞算法計算集合W={Wi}中每一個元素Wi的概率,并保存概率最大的分詞方案記為seg_result;步驟S6:根據(jù)標(biāo)注關(guān)系詞典Taging_dic中每個詞語對應(yīng)的標(biāo)注關(guān)系,對所述分詞方案seg_result中切分好的每一個詞語進行標(biāo)注,得到針對地址字符串S的標(biāo)注結(jié)果tag_temp。進一步地,本實施例中,上述貝葉斯分詞算法具體包括:設(shè)地址字符串S的第i種切分方式為Wi=w1w2Lwn,則w1、w2、K、wn就代表了切分方式中的n個詞,求最大概率分詞方式即為:若所有的詞語確定,則句子唯一確定,P(S|Wi)=1,對于地址字符串S的多種分詞方式,P(S)為常數(shù),根據(jù)貝葉斯公式有:應(yīng)用二元語法模型(Bigram)根據(jù)聯(lián)合概率公式有:求解式(2)相當(dāng)于尋找到聯(lián)合概率最大的路徑W',記為seg_result。進一步地,在前述步驟S6之后,該標(biāo)注方法還包括針對含有不確定標(biāo)注關(guān)系詞語的情況進行判斷解析的步驟:步驟S7:設(shè)不確定標(biāo)注關(guān)系的詞語對應(yīng)的行政區(qū)標(biāo)記為Unknown,判斷所述標(biāo)注結(jié)果tag_temp中是否包含不確定標(biāo)注關(guān)系的詞語,如果包含,則提取所述標(biāo)注結(jié)果tag_temp中的詞語標(biāo)注序列并記為L,設(shè)L的長度為len;步驟S8:選取標(biāo)注模式表Taging_dic中標(biāo)注模式長度為len的n個標(biāo)注模式作為待匹配模式集合M={Mi},其中1≤i≤n,與L進行模式匹配,該模式匹配的方式包括:步驟a:取待匹配模式集合M中的標(biāo)注模式Mi與L進行匹配,設(shè)匹配起始位置為start=1,結(jié)束位置為end=len,匹配位置為j,1≤j≤len,使j=start;步驟b:取詞語標(biāo)注序列L中的行政區(qū)標(biāo)記lj與Mi中的行政區(qū)標(biāo)記mj進行對比,如果lj≠Unknown,判斷l(xiāng)j是否等于mj,如果li=mj相等,則j=j(luò)+1,繼續(xù)步驟b;如果li≠mj,將此Mi從M={Mi}中刪除;如果lj=Unknown,則j=j(luò)+1,繼續(xù)步驟b;直到j(luò)=len;步驟c:使i=i+1,繼續(xù)步驟a,直到i=n,得到一個新的模式集合M’;步驟S9:根據(jù)所述標(biāo)注模式表Taging_mode,取模式集合M’中模式頻度值最大的模式作為標(biāo)注結(jié)果,將tag_temp中的Unknown標(biāo)注改變?yōu)槟J筋l度值最大的模式中與Unknown標(biāo)注位置相對應(yīng)的行政區(qū)標(biāo)記,得到新的標(biāo)注結(jié)果并記為tag_result;步驟S10:輸出新的標(biāo)注結(jié)果tag_result。進一步地,在得到標(biāo)注結(jié)果tag_result之后上述標(biāo)注方法還包括:將前述標(biāo)注結(jié)果tag_temp中Unknown標(biāo)注原來對應(yīng)的詞語,及該詞語現(xiàn)在的標(biāo)注關(guān)系添加到所述標(biāo)注關(guān)系詞典Taging_dic中。具體地,通過將原本不確定標(biāo)注關(guān)系的詞語進行解析并準(zhǔn)確標(biāo)注后,再將其原詞語、現(xiàn)標(biāo)注及其標(biāo)注關(guān)系補充到標(biāo)注關(guān)系詞典中,可以不斷完善充實標(biāo)注關(guān)系詞典數(shù)據(jù)庫,為后續(xù)的中文地址標(biāo)注提供更加優(yōu)化的數(shù)據(jù)支持。進一步地,如表1標(biāo)注關(guān)系表所示,本實施例中,行政區(qū)名稱可以分類為至少十一級行政區(qū)類別,其中一級行政區(qū)名稱至少包括省、自治區(qū)、直轄市、特別行政區(qū)(對應(yīng)標(biāo)注為PRO);二級行政區(qū)名稱至少包括地級市、自治州、地區(qū)、盟(對應(yīng)標(biāo)注為CITY);三級行政區(qū)名稱至少包括市轄區(qū)、縣、縣級市、旗、特區(qū)、林區(qū)(對應(yīng)標(biāo)注為COUNTY);四級行政區(qū)名稱至少包括區(qū)公所、鄉(xiāng)、鎮(zhèn)、蘇木、街道辦事處、商業(yè)區(qū)(對應(yīng)標(biāo)注為TOWN);五級行政區(qū)名稱至少包括社區(qū)、居委會、行政村(對應(yīng)標(biāo)注為COMMITTEE)。本實施例中,如表1所示,所述標(biāo)注關(guān)系表中的行政區(qū)名稱至少還包括以下六類其一,其中第一類為基本區(qū)域限定物至少包括地片、區(qū)片、自然村、居民小區(qū)(對應(yīng)標(biāo)注為AREA);其中第二類為街巷名至少包括道路、街、巷、胡同、弄(對應(yīng)標(biāo)注為ROAD);其中第三類為門址至少包括門牌號(對應(yīng)標(biāo)注為BNO);其中第四類為興趣點至少包括興趣點、標(biāo)志物(對應(yīng)標(biāo)注為POI);其中第五類為標(biāo)點符號(對應(yīng)標(biāo)注為PUN);其中第六類為不確定項對應(yīng)不確定關(guān)系的名稱(對應(yīng)標(biāo)注為Unknown)。容易知道,各級行政區(qū)名稱包括但不限于標(biāo)注關(guān)系表中所列幾項,各行政區(qū)名稱所對應(yīng)的行政區(qū)標(biāo)記也可以用其他符號表示。本發(fā)明提供的一種基于貝葉斯分詞算法的中文地址語義標(biāo)注方法,通過預(yù)先設(shè)置針對中文地址信息進行標(biāo)注的標(biāo)注關(guān)系表,該表中至少包含行政區(qū)名稱及對應(yīng)標(biāo)注的行政區(qū)標(biāo)記,設(shè)定了一個規(guī)范化的標(biāo)注模板;通過統(tǒng)計學(xué)習(xí)預(yù)設(shè)置的訓(xùn)練語料,并具體統(tǒng)計訓(xùn)練語料中的各詞語及其相關(guān)詞頻,以及統(tǒng)計語料中各詞語的標(biāo)注關(guān)系及各條地址數(shù)據(jù)的標(biāo)注模式,獲得了包含詞頻詞典、標(biāo)注關(guān)系詞典以及標(biāo)注模式表的數(shù)據(jù)庫;再通過對待標(biāo)注地址字符串進行全切分、貝葉斯分詞計算后,根據(jù)前述訓(xùn)練數(shù)據(jù)庫匹配得到標(biāo)注好的具有語義信息的中文地址,快速準(zhǔn)確地完成了針對中文地址數(shù)據(jù)的語義解析。實施例1下面以中文地址“南開區(qū)東馬路137號仁恒美食廣場”為例,對本發(fā)明的具體實施過程進行說明。P1:設(shè)置標(biāo)注關(guān)系表,該表可以如表1所示設(shè)計。P2:獲取已預(yù)先切分、標(biāo)注好NT條中文地址數(shù)據(jù)的集合T作為訓(xùn)練語料,設(shè)集合T={Ti},其中各條中文地址數(shù)據(jù)為Ti,且1≤i≤NT。P3:對集合T進行統(tǒng)計學(xué)習(xí),統(tǒng)計學(xué)習(xí)的具體步驟包括:P31:統(tǒng)計集合T中切分出的各詞語、各詞語的詞頻、各詞語與其相鄰上一詞語同時出現(xiàn)的頻度值,并存入詞頻詞典Word_dic中;P32:統(tǒng)計各詞語以及與該詞語對應(yīng)的標(biāo)注關(guān)系,存入標(biāo)注關(guān)系詞典Taging_dic中;P33:統(tǒng)計各條中文地址數(shù)據(jù)Ti的標(biāo)注模式及其模式頻度值,存入標(biāo)注模式表Taging_mode中;P4:輸入地址字符串S:“南開區(qū)東馬路137號仁恒美食廣場”,并對地址字符串S進行全切分,得到切分集合W={Wi},1≤i≤215。P5:根據(jù)詞頻詞典Word_dic中詞語的詞頻值,根據(jù)貝葉斯分詞算法由公式(1)~(4):計算切分集合W={Wi}中每一個Wi的概率,并保存結(jié)果,得到概率最大的分詞方式為:Pro(“南開區(qū)|東馬路|137號|仁恒美食廣場”)=1.5002813027442647E-4,則“南開區(qū)|東馬路|137號|仁恒美食廣場”記為seg_result。P6:根據(jù)標(biāo)注關(guān)系詞典Taging_dic對切分結(jié)果“南開區(qū)|東馬路|137號|仁恒美食廣場”中切分好的每一個詞進行標(biāo)注,得到tag_temp:“南開區(qū)/CITY東馬路/ROAD137號/BNO仁恒美食廣場/POI”;則獲得字符串標(biāo)注結(jié)果tag_result:“南開區(qū)/CITY東馬路/ROAD137號/BNO仁恒美食廣場/POI”。P7:輸出tag_result:“南開區(qū)/CITY東馬路/ROAD137號/BNO仁恒美食廣場/POI”。實施例2以上實施例1是地址信息中不包含不確定標(biāo)注關(guān)系詞語的情況,下面再以中文地址“上海市閔行區(qū)碧秀路98弄”為例,對本發(fā)明的具體實施過程進行說明。A1:設(shè)置標(biāo)注關(guān)系表,該表可以如表1所示設(shè)計。A2:獲取已預(yù)先切分、標(biāo)注好NT條中文地址數(shù)據(jù)的集合T作為訓(xùn)練語料,設(shè)集合T={Ti},其中各條中文地址數(shù)據(jù)為Ti,且1≤i≤NT。A3:對集合T進行統(tǒng)計學(xué)習(xí),統(tǒng)計學(xué)習(xí)的具體步驟包括:A31:統(tǒng)計集合T中切分出的各詞語、各詞語的詞頻、各詞語與其相鄰上一詞語同時出現(xiàn)的頻度值,并存入詞頻詞典Word_dic中;A32:統(tǒng)計各詞語以及與該詞語對應(yīng)的標(biāo)注關(guān)系,存入標(biāo)注關(guān)系詞典Taging_dic中;A33:統(tǒng)計各條中文地址數(shù)據(jù)Ti的標(biāo)注模式及其模式頻度值,存入標(biāo)注模式表Taging_mode中;A4:輸入地址字符串S:“上海市閔行區(qū)碧秀路98弄”,并對地址字符串S進行全切分,得到切分集合W={Wi},1≤i≤211。A5:根據(jù)詞頻詞典Word_dic中詞語的詞頻值,根據(jù)貝葉斯分詞算法由公式(1)~(4):計算切分集合W={Wi}中每一個Wi的概率,并保存結(jié)果,得到概率最大的分詞方式為:Pro(“上海市|閔行區(qū)|碧秀路|98弄”)=3.540560241591169E-4,則“上海市|閔行區(qū)|碧秀路|98弄”記為seg_result。A6:根據(jù)標(biāo)注關(guān)系詞典Taging_dic對切分結(jié)果“上海市|閔行區(qū)|碧秀路|98弄”中切分好的每一個詞進行標(biāo)注得到tag_temp:“上海市/PRO閔行區(qū)/CITY碧秀路/ROAD98弄/Unknown”。A7:其中,標(biāo)注結(jié)果“上海市/PRO閔行區(qū)/CITY碧秀路/ROAD98弄/Unknown”中包含不確定標(biāo)注關(guān)系(Unknown)的詞語“98弄”,提取tag_temp中的詞語標(biāo)注序列,用L:[PRO,CITY,ROAD,Unknown]表示;L的長度用len表示;選取標(biāo)注模式表Taging_dic中標(biāo)注模式長度為len的n個標(biāo)注模式作為待匹配模式集合M={Mi},1≤i≤n,與L進行模式匹配,匹配過程具體包括:a:取待匹配模式集合M中的標(biāo)注模式Mi,1≤i≤n,與L進行匹配,設(shè)匹配起始位置為start=1,結(jié)束位置為end=len,匹配位置為j,1≤j≤len,j=start。b:取L中的標(biāo)注lj與Mi中的標(biāo)注mj進行對比,如果lj≠Unknown,判斷l(xiāng)j是否等于mj,如果li=mj相等,則j=j(luò)+1,繼續(xù)步驟(b);如果lj≠mj,將此Mi從M={Mi}中刪除。如果lj=Unknown,則j=j(luò)+1,繼續(xù)步驟(b)。直到j(luò)=len。c:使i=i+1,繼續(xù)步驟(a),直到i=n。得到一個新的模式集合M’。d:根據(jù)標(biāo)注模式表Taging_mode,假定模式集合M’中的頻度值表如下:表2模式集合M’中的頻度值表標(biāo)注模式頻度值[PRO,CITY,ROAD,AREA]3[PRO,CITY,ROAD,ROAD]6[PRO,CITY,ROAD,POI]14[PRO,CITY,ROAD,BNO]137取模式頻度值最大的模式[PRO,CITY,ROAD,BNO]作為標(biāo)注結(jié)果,將tag_temp中Unknown標(biāo)注變?yōu)槟J筋l度值最大的模式中與Unknown位置對應(yīng)的標(biāo)注關(guān)系,得到標(biāo)注結(jié)果tag_result:“上海市/PRO閔行區(qū)/CITY碧秀路/ROAD98弄/BNO”,并將“98弄/BNO”添加到標(biāo)注關(guān)系詞典Taging_dic中。A8:輸出tag_result:“上海市/PRO閔行區(qū)/CITY碧秀路/ROAD98弄/BNO”。以上所述僅是本發(fā)明的優(yōu)選實施方式,本發(fā)明的保護范圍并不僅局限于上述實施例,凡屬于本發(fā)明思路下的技術(shù)方案均屬于本發(fā)明的保護范圍。應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理前提下的若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。當(dāng)前第1頁1 2 3