專利名稱:一種自學(xué)習(xí)的中文地址判重方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對(duì)海量數(shù)據(jù)清洗判重處理相關(guān)的技術(shù),特別是涉及一種對(duì)中文 地址數(shù)據(jù)進(jìn)行不依賴于領(lǐng)域知識(shí)的判重方法。
背景技術(shù):
隨著中文搜索引擎和海量數(shù)據(jù)挖掘技術(shù)的飛速發(fā)展,高效中文地址判重技 術(shù)作為其中的關(guān)鍵技術(shù)受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,已成為研究的焦點(diǎn)。 中文地址具有寫法靈活,語義多變等特點(diǎn),因此相較英文地址去重,中文地址 判重面臨新的要求和挑戰(zhàn)。
現(xiàn)有的各種數(shù)據(jù)去重方法主要集中在處理文本數(shù)據(jù)相似度的判斷,數(shù)據(jù)間 依賴關(guān)系判斷,數(shù)據(jù)縮寫的判斷,以及處理海量數(shù)據(jù)時(shí)方法復(fù)雜度降低等問題 上。這些方法及各種分支演化能夠有效處理規(guī)整的英文數(shù)據(jù),但對(duì)中文數(shù)據(jù)的 處理,特別是中文地址的判重,只能按照文本的字面相似性來機(jī)械地判定重復(fù), 因而存在較大的局限性。比如"杭州市浙大路38號(hào)"與"杭州市浙江大學(xué)玉 泉校區(qū)"兩個(gè)地址信息,其實(shí)指向了同一個(gè)地址,但是由于寫法的不同,現(xiàn)有 程序均無法自動(dòng)判定為相同,而只有借助外部預(yù)先定義的領(lǐng)域知識(shí)將"浙江大
學(xué)玉泉校區(qū)"轉(zhuǎn)換為"浙大路38號(hào)"才能做出正確判斷。但是,這些領(lǐng)域知 識(shí)規(guī)模龐大,外部預(yù)先定義在實(shí)際工作中可行性不高。且對(duì)一些較小型的判重 應(yīng)用,使用規(guī)模非常龐大的領(lǐng)域知識(shí),顯然也非常不合適。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種自學(xué)習(xí)的中文地址判重 方法。
本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的 一種自學(xué)習(xí)的中文地址判重 方法,包括以下步驟
(1)對(duì)所有地址數(shù)據(jù)進(jìn)行預(yù)處理提取冗余信息的操作;具體步驟如下(A) 地址切分操作對(duì)一個(gè)完整的地址數(shù)據(jù)切分成各級(jí)的子地址信息。
(B) 地址規(guī)范度計(jì)算對(duì)每一個(gè)地址數(shù)據(jù)計(jì)算其規(guī)范度信息,具體計(jì)算方法為分別計(jì)算每級(jí)子地址信息的規(guī)范度,并權(quán)重相加得到整條地址數(shù)據(jù)的規(guī)范度值。對(duì)子地址的規(guī)范度計(jì)算步驟如下
第一步,從已經(jīng)列入規(guī)范的地址數(shù)據(jù)的對(duì)應(yīng)子域中搜索該值出現(xiàn)的次數(shù);同時(shí)分析該子地址結(jié)構(gòu),若其由更細(xì)子域組成,則做二次分級(jí),分別計(jì)算每個(gè)子域的規(guī)范度。規(guī)則為出現(xiàn)次數(shù)越多,該值越規(guī)范。
第二步,對(duì)子地址信息進(jìn)行分詞,用分詞后每個(gè)詞的平均字?jǐn)?shù)作為標(biāo)準(zhǔn),平均字?jǐn)?shù)越小意味該子地址詞數(shù)越少,規(guī)范的可能性就越??;
第三步,分析子地址字面基本信息,計(jì)算該域合法的可能信息。綜合以上三步所得規(guī)范度信息,若第一步中出現(xiàn)次數(shù)大于一閾值,則只使用第一步結(jié)果當(dāng)作該子地址規(guī)范度,若小于一閾值,則根據(jù)實(shí)際情況使用一、二或者一、二、三步結(jié)果權(quán)重相加來獲得該子地址的規(guī)范度。
(C) 對(duì)規(guī)范度超過一定閾值的地址數(shù)據(jù)提取冗余信息,保存為{規(guī)范數(shù)據(jù),
冗余數(shù)據(jù),出現(xiàn)次數(shù)}格式的數(shù)據(jù)對(duì),方便后期檢索。
(D) 篩選所有冗余格式對(duì),對(duì)出現(xiàn)次數(shù)超過一定閾值的冗余格式,標(biāo)為可
信冗余對(duì)。
(2) 遍歷所有待判重的地址,如果出現(xiàn)步驟(1)中取出的冗余數(shù)據(jù)信息,且該冗余信息為可信冗余對(duì),則將該冗余信息替換為對(duì)應(yīng)的規(guī)范數(shù)據(jù);對(duì)所有替換后的地址進(jìn)行判重操作。
(3) 對(duì)后續(xù)動(dòng)態(tài)增長(zhǎng)的待判重地址,遵循對(duì)每個(gè)地址計(jì)算規(guī)范度,提取冗余信息并更新冗余信息對(duì),替換冗余信息,判重這個(gè)順序操作。
本發(fā)明與現(xiàn)有技術(shù)相比,具有的有益的效果是
(1) 本發(fā)明是一種能夠精確地,不依賴于領(lǐng)域知識(shí)的判重方法,使用了自學(xué)習(xí)的各種信息,地址判重準(zhǔn)確度上比傳統(tǒng)的不進(jìn)行自學(xué)習(xí)的判重方法提高很多。
(2) 本發(fā)明不需要特定的地址知識(shí)庫的支持,維護(hù)代價(jià)小,操作簡(jiǎn)單,有別于傳統(tǒng)的一些依賴于地址知識(shí)庫的方法,應(yīng)用范圍廣,如可應(yīng)用于各類垂直搜索引擎,數(shù)據(jù)倉庫,郵政系統(tǒng)等等。
所以,本發(fā)明是一種適用于互聯(lián)網(wǎng)環(huán)境下的,用于精確、高效地對(duì)海量中文地址進(jìn)行判重的方法。
4圖1自學(xué)習(xí)中文地址判重方法流程圖。
具體實(shí)施例方式
在垂直搜索引擎,數(shù)據(jù)整合系統(tǒng)等需要進(jìn)行地址判重的應(yīng)用中,使用本方法 來進(jìn)行實(shí)際的判重工作,可以獲得比傳統(tǒng)的不利用領(lǐng)域知識(shí)的判重方法更佳精 確的判重效果。本方法具體實(shí)施步驟如下
1.對(duì)所有待處理的地址進(jìn)行一遍預(yù)處理。主要進(jìn)行以下幾項(xiàng)工作
1) 對(duì)地址切分子域-
可以使用關(guān)鍵詞匹配等方法,由于中文語義的多樣性,應(yīng)該盡量保證切分的 效果。比如將"浙江省杭州市西湖區(qū)浙大路38號(hào)"這個(gè)地址切分成"浙江省, 杭州市,西湖區(qū),浙大路,38號(hào)"這幾個(gè)域;
2) 計(jì)算切分后地址的地址規(guī)范度-地址的規(guī)范度由各個(gè)切分后子域的規(guī)范度的權(quán)重和來計(jì)算。而各個(gè)子域的規(guī)
范度可以使用以下三個(gè)思路
a) 從已經(jīng)列入規(guī)范的地址集的對(duì)應(yīng)子域中搜索該值出現(xiàn)的次數(shù),此值記為frei
(freiEN),出現(xiàn)次數(shù)越多,該域越規(guī)范可信;
b) 分析值的內(nèi)容結(jié)構(gòu)
比如若路名域出現(xiàn)"文三路求智巷"等類似的子路名,則做二次分級(jí),分為 "文三路"和"求智巷",分別用第一步來計(jì)算規(guī)范情況。同時(shí)加入中文分詞技 術(shù)做出判斷,用分詞后每個(gè)詞的平均字?jǐn)?shù)作為標(biāo)準(zhǔn),平均字?jǐn)?shù)越小意味著詞數(shù)
越少,規(guī)范的可能性就越小。此值記為segi(0<Segi<l),具體計(jì)算方法可根據(jù)應(yīng) 用領(lǐng)域而定;
C)分析該域的字?jǐn)?shù)等信息,計(jì)算該域合法的可能性,將此值記為WCi:
一個(gè)比較簡(jiǎn)單的處理方法為wd-該域字?jǐn)?shù)-l, wci越大,則不規(guī)范的可能性越大。
依次按上述三步操作計(jì)算ri,若frei大于等于3次,直接將ri置為1。若 0<frei<3,則結(jié)合frei和segi的值
巧=會(huì)/% x70% + ; x30%(0 <加;< 3)
這里frei取3為分界的主要依賴于實(shí)驗(yàn)經(jīng)驗(yàn)。由于很多中文路名等信息比較 冷僻,無法成詞,因此若frei-0,可通過權(quán)重綜合segi和wci的值巧=^x70% +——x30%(>e, =0)
3) 遍歷所有計(jì)算好的地址,對(duì)那些規(guī)范度超過一定閾值的地址計(jì)算其中的冗余信息,并保存
比如"浙江省杭州市浙大路38號(hào)浙江大學(xué)玉泉校區(qū)"這一地址提取后的冗余信息對(duì)格式對(duì){浙大路38號(hào),浙江大學(xué)玉泉校區(qū),N},其中N表示改對(duì)信息的出現(xiàn)次數(shù),同時(shí)也可以用于判斷這對(duì)冗余信息的合法性,N越大,則越合法。
4) 篩選冗余信息
如步驟3)中所述方法,以N為判斷依據(jù),篩選掉所有出現(xiàn)次數(shù)不符合一定閾值的地址;
2. 在預(yù)處理之后,對(duì)所有地址做冗余信息的替換工作對(duì)每個(gè)地址進(jìn)行判斷,如果出現(xiàn)了預(yù)處理中篩選出來的冗余信息,則將其替
換為真實(shí)的地址信息。比如冗余信息中有{浙大路38號(hào),浙江大學(xué)玉泉校區(qū),IO)這一對(duì)數(shù)據(jù),而實(shí)際地址中出現(xiàn)了 "杭州市浙江大學(xué)玉泉校區(qū)"這一關(guān)鍵詞,則地址最后被替換為"杭州市浙大路38號(hào)"。
檢査完所有地址后,對(duì)所有地址進(jìn)行一遍地址判重??梢允褂镁垲惻兄氐确?br>
法;
3. 對(duì)于后續(xù)到來的新地址,使用如上步驟1和步驟2兩步相近的方法,具體如下
1) 對(duì)地址切分子域;
2) 依據(jù)切分后的子域計(jì)算地址的規(guī)范度;
3) 如果有的話提取地址中的冗余信息。如果地址中包含已知的冗余信息,則用實(shí)際地址替換冗余信息;
4) 將地址和所有己有的地址進(jìn)行判重計(jì)算。
權(quán)利要求
1、一種自學(xué)習(xí)的中文地址判重方法,其特征在于,包括以下步驟(1)對(duì)所有地址數(shù)據(jù)進(jìn)行預(yù)處理提取冗余信息的操作。(2)遍歷所有待判重的地址,如果出現(xiàn)步驟(1)中取出的冗余數(shù)據(jù)信息,且該冗余信息為可信冗余對(duì),則將該冗余信息替換為對(duì)應(yīng)的規(guī)范數(shù)據(jù);對(duì)所有替換后的地址進(jìn)行判重操作。(3)對(duì)后續(xù)動(dòng)態(tài)增長(zhǎng)的待判重地址,遵循對(duì)每個(gè)地址計(jì)算規(guī)范度,提取冗余信息并更新冗余信息對(duì),替換冗余信息,判重這個(gè)順序操作。2、根據(jù)權(quán)利要求1所述的自學(xué)習(xí)的中文地址判重方法,其特征在于,所述步驟(1)具體步驟如下(A)地址切分操作對(duì)一個(gè)完整的地址數(shù)據(jù)切分成各級(jí)的子地址信息。(B)地址規(guī)范度計(jì)算對(duì)每一個(gè)地址數(shù)據(jù)計(jì)算其規(guī)范度信息,具體計(jì)算方法為分別計(jì)算每級(jí)子地址信息的規(guī)范度,并權(quán)重相加得到整條地址數(shù)據(jù)的規(guī)范度值。對(duì)子地址的規(guī)范度計(jì)算步驟如下第一步,從已經(jīng)列入規(guī)范的地址數(shù)據(jù)的對(duì)應(yīng)子域中搜索該值出現(xiàn)的次數(shù);同時(shí)分析該子地址結(jié)構(gòu),若其由更細(xì)子域組成,則做二次分級(jí),分別計(jì)算每個(gè)子域的規(guī)范度。規(guī)則為出現(xiàn)次數(shù)越多,該值越規(guī)范。第二步,對(duì)子地址信息進(jìn)行分詞,用分詞后每個(gè)詞的平均字?jǐn)?shù)作為標(biāo)準(zhǔn),平均字?jǐn)?shù)越小意味該子地址詞數(shù)越少,規(guī)范的可能性就越??;第三步,分析子地址字面基本信息,計(jì)算該域合法的可能信息。綜合以上三步所得規(guī)范度信息,若第一步中出現(xiàn)次數(shù)大于一閾值,則只使用第一步結(jié)果當(dāng)作該子地址規(guī)范度,若小于一閾值,則根據(jù)實(shí)際情況使用一、二或者一、二、三步結(jié)果權(quán)重相加來獲得該子地址的規(guī)范度。(C)對(duì)規(guī)范度超過一定閾值的地址數(shù)據(jù)提取冗余信息,保存為{規(guī)范數(shù)據(jù),冗余數(shù)據(jù),出現(xiàn)次數(shù)}格式的數(shù)據(jù)對(duì),方便后期檢索。(D)篩選所有冗余格式對(duì),對(duì)出現(xiàn)次數(shù)超過一定閾值的冗余格式,標(biāo)為可信冗余對(duì)。
2、 根據(jù)權(quán)利要求l所述的自學(xué)習(xí)的中文地址判重方法,其特征在于,所述步驟 (1)具體步驟如下(A) 地址切分操作對(duì)一個(gè)完整的地址數(shù)據(jù)切分成各級(jí)的子地址信息。(B) 地址規(guī)范度計(jì)算對(duì)每一個(gè)地址數(shù)據(jù)計(jì)算其規(guī)范度信息,具體計(jì)算方 法為分別計(jì)算每級(jí)子地址信息的規(guī)范度,并權(quán)重相加得到整條地址數(shù)據(jù)的規(guī)范 度值。對(duì)子地址的規(guī)范度計(jì)算步驟如下第一步,從已經(jīng)列入規(guī)范的地址數(shù)據(jù)的對(duì)應(yīng)子域中搜索該值出現(xiàn)的次數(shù); 同時(shí)分析該子地址結(jié)構(gòu),若其由更細(xì)子域組成,則做二次分級(jí),分別計(jì)算每個(gè) 子域的規(guī)范度。規(guī)則為出現(xiàn)次數(shù)越多,該值越規(guī)范。第二步,對(duì)子地址信息進(jìn)行分詞,用分詞后每個(gè)詞的平均字?jǐn)?shù)作為標(biāo)準(zhǔn), 平均字?jǐn)?shù)越小意味該子地址詞數(shù)越少,規(guī)范的可能性就越小;第三步,分析子地址字面基本信息,計(jì)算該域合法的可能信息。綜合以上三步所得規(guī)范度信息,若第一步中出現(xiàn)次數(shù)大于一閾值,則只使 用第一步結(jié)果當(dāng)作該子地址規(guī)范度,若小于一閾值,則根據(jù)實(shí)際情況使用一、 二或者一、二、三步結(jié)果權(quán)重相加來獲得該子地址的規(guī)范度。(C) 對(duì)規(guī)范度超過一定閾值的地址數(shù)據(jù)提取冗余信息,保存為{規(guī)范數(shù)據(jù), 冗余數(shù)據(jù),出現(xiàn)次數(shù)}格式的數(shù)據(jù)對(duì),方便后期檢索。(D) 篩選所有冗余格式對(duì),對(duì)出現(xiàn)次數(shù)超過一定閾值的冗余格式,標(biāo)為可 信冗余對(duì)。
全文摘要
本發(fā)明公開了一種自學(xué)習(xí)的中文地址判重方法。本發(fā)明在對(duì)中文地址進(jìn)行判重時(shí),采用自學(xué)習(xí)的方法。首先處理所有待判重的地址數(shù)據(jù),使用規(guī)范度計(jì)算公式計(jì)算出各個(gè)地址的規(guī)范度,并對(duì)符合規(guī)范條件的地址提取冗余信息,并計(jì)算冗余信息可信度,將可信的冗余信息用于后續(xù)的地址數(shù)據(jù)替換,判重上。本發(fā)明方法不依賴領(lǐng)域知識(shí),能夠在保證解析精度的前提下,顯著降低地址判重中誤判和漏判的比例。
文檔編號(hào)G06F17/30GK101477570SQ20091009537
公開日2009年7月8日 申請(qǐng)日期2009年1月12日 優(yōu)先權(quán)日2009年1月12日
發(fā)明者周佳慶, 壽黎但, 胡天磊, 剛 陳, 珂 陳 申請(qǐng)人:浙江大學(xué)