一種自學(xué)習(xí)的中文地址判重方法

文檔序號(hào)：6575716閱讀：455來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種自學(xué)習(xí)的中文地址判重方法
技術(shù)領(lǐng)域：
本發(fā)明涉及對(duì)海量數(shù)據(jù)清洗判重處理相關(guān)的技術(shù)，特別是涉及一種對(duì)中文地址數(shù)據(jù)進(jìn)行不依賴于領(lǐng)域知識(shí)的判重方法。
背景技術(shù)：
隨著中文搜索引擎和海量數(shù)據(jù)挖掘技術(shù)的飛速發(fā)展，高效中文地址判重技術(shù)作為其中的關(guān)鍵技術(shù)受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注，已成為研究的焦點(diǎn)。中文地址具有寫法靈活，語義多變等特點(diǎn)，因此相較英文地址去重，中文地址判重面臨新的要求和挑戰(zhàn)。
現(xiàn)有的各種數(shù)據(jù)去重方法主要集中在處理文本數(shù)據(jù)相似度的判斷，數(shù)據(jù)間依賴關(guān)系判斷，數(shù)據(jù)縮寫的判斷，以及處理海量數(shù)據(jù)時(shí)方法復(fù)雜度降低等問題上。這些方法及各種分支演化能夠有效處理規(guī)整的英文數(shù)據(jù)，但對(duì)中文數(shù)據(jù)的處理，特別是中文地址的判重，只能按照文本的字面相似性來機(jī)械地判定重復(fù)，因而存在較大的局限性。比如"杭州市浙大路38號(hào)"與"杭州市浙江大學(xué)玉泉校區(qū)"兩個(gè)地址信息，其實(shí)指向了同一個(gè)地址，但是由于寫法的不同，現(xiàn)有程序均無法自動(dòng)判定為相同，而只有借助外部預(yù)先定義的領(lǐng)域知識(shí)將"浙江大
學(xué)玉泉校區(qū)"轉(zhuǎn)換為"浙大路38號(hào)"才能做出正確判斷。但是，這些領(lǐng)域知識(shí)規(guī)模龐大，外部預(yù)先定義在實(shí)際工作中可行性不高。且對(duì)一些較小型的判重應(yīng)用，使用規(guī)模非常龐大的領(lǐng)域知識(shí)，顯然也非常不合適。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足，提供一種自學(xué)習(xí)的中文地址判重方法。
本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的一種自學(xué)習(xí)的中文地址判重方法，包括以下步驟
(1)對(duì)所有地址數(shù)據(jù)進(jìn)行預(yù)處理提取冗余信息的操作；具體步驟如下(A) 地址切分操作對(duì)一個(gè)完整的地址數(shù)據(jù)切分成各級(jí)的子地址信息。
(B) 地址規(guī)范度計(jì)算對(duì)每一個(gè)地址數(shù)據(jù)計(jì)算其規(guī)范度信息，具體計(jì)算方法為分別計(jì)算每級(jí)子地址信息的規(guī)范度，并權(quán)重相加得到整條地址數(shù)據(jù)的規(guī)范度值。對(duì)子地址的規(guī)范度計(jì)算步驟如下
第一步，從已經(jīng)列入規(guī)范的地址數(shù)據(jù)的對(duì)應(yīng)子域中搜索該值出現(xiàn)的次數(shù)；同時(shí)分析該子地址結(jié)構(gòu)，若其由更細(xì)子域組成，則做二次分級(jí)，分別計(jì)算每個(gè)子域的規(guī)范度。規(guī)則為出現(xiàn)次數(shù)越多，該值越規(guī)范。
第二步，對(duì)子地址信息進(jìn)行分詞，用分詞后每個(gè)詞的平均字?jǐn)?shù)作為標(biāo)準(zhǔn)，平均字?jǐn)?shù)越小意味該子地址詞數(shù)越少，規(guī)范的可能性就越??；
第三步，分析子地址字面基本信息，計(jì)算該域合法的可能信息。綜合以上三步所得規(guī)范度信息，若第一步中出現(xiàn)次數(shù)大于一閾值，則只使用第一步結(jié)果當(dāng)作該子地址規(guī)范度，若小于一閾值，則根據(jù)實(shí)際情況使用一、二或者一、二、三步結(jié)果權(quán)重相加來獲得該子地址的規(guī)范度。
(C) 對(duì)規(guī)范度超過一定閾值的地址數(shù)據(jù)提取冗余信息，保存為{規(guī)范數(shù)據(jù)，
冗余數(shù)據(jù)，出現(xiàn)次數(shù)}格式的數(shù)據(jù)對(duì)，方便后期檢索。
(D) 篩選所有冗余格式對(duì)，對(duì)出現(xiàn)次數(shù)超過一定閾值的冗余格式，標(biāo)為可
信冗余對(duì)。
(2) 遍歷所有待判重的地址，如果出現(xiàn)步驟(1)中取出的冗余數(shù)據(jù)信息，且該冗余信息為可信冗余對(duì)，則將該冗余信息替換為對(duì)應(yīng)的規(guī)范數(shù)據(jù)；對(duì)所有替換后的地址進(jìn)行判重操作。
(3) 對(duì)后續(xù)動(dòng)態(tài)增長(zhǎng)的待判重地址，遵循對(duì)每個(gè)地址計(jì)算規(guī)范度，提取冗余信息并更新冗余信息對(duì)，替換冗余信息，判重這個(gè)順序操作。
本發(fā)明與現(xiàn)有技術(shù)相比，具有的有益的效果是
(1) 本發(fā)明是一種能夠精確地，不依賴于領(lǐng)域知識(shí)的判重方法，使用了自學(xué)習(xí)的各種信息，地址判重準(zhǔn)確度上比傳統(tǒng)的不進(jìn)行自學(xué)習(xí)的判重方法提高很多。
(2) 本發(fā)明不需要特定的地址知識(shí)庫的支持，維護(hù)代價(jià)小，操作簡(jiǎn)單，有別于傳統(tǒng)的一些依賴于地址知識(shí)庫的方法，應(yīng)用范圍廣，如可應(yīng)用于各類垂直搜索引擎，數(shù)據(jù)倉庫，郵政系統(tǒng)等等。
所以，本發(fā)明是一種適用于互聯(lián)網(wǎng)環(huán)境下的，用于精確、高效地對(duì)海量中文地址進(jìn)行判重的方法。

4圖1自學(xué)習(xí)中文地址判重方法流程圖。
具體實(shí)施例方式
在垂直搜索引擎，數(shù)據(jù)整合系統(tǒng)等需要進(jìn)行地址判重的應(yīng)用中，使用本方法來進(jìn)行實(shí)際的判重工作，可以獲得比傳統(tǒng)的不利用領(lǐng)域知識(shí)的判重方法更佳精確的判重效果。本方法具體實(shí)施步驟如下
1.對(duì)所有待處理的地址進(jìn)行一遍預(yù)處理。主要進(jìn)行以下幾項(xiàng)工作
1) 對(duì)地址切分子域-
可以使用關(guān)鍵詞匹配等方法，由于中文語義的多樣性，應(yīng)該盡量保證切分的效果。比如將"浙江省杭州市西湖區(qū)浙大路38號(hào)"這個(gè)地址切分成"浙江省，杭州市，西湖區(qū)，浙大路，38號(hào)"這幾個(gè)域；
2) 計(jì)算切分后地址的地址規(guī)范度-地址的規(guī)范度由各個(gè)切分后子域的規(guī)范度的權(quán)重和來計(jì)算。而各個(gè)子域的規(guī)
范度可以使用以下三個(gè)思路
a) 從已經(jīng)列入規(guī)范的地址集的對(duì)應(yīng)子域中搜索該值出現(xiàn)的次數(shù)，此值記為frei
(freiEN)，出現(xiàn)次數(shù)越多，該域越規(guī)范可信；
b) 分析值的內(nèi)容結(jié)構(gòu)
比如若路名域出現(xiàn)"文三路求智巷"等類似的子路名，則做二次分級(jí)，分為 "文三路"和"求智巷"，分別用第一步來計(jì)算規(guī)范情況。同時(shí)加入中文分詞技術(shù)做出判斷，用分詞后每個(gè)詞的平均字?jǐn)?shù)作為標(biāo)準(zhǔn)，平均字?jǐn)?shù)越小意味著詞數(shù)
越少，規(guī)范的可能性就越小。此值記為segi(0<Segi<l)，具體計(jì)算方法可根據(jù)應(yīng) 用領(lǐng)域而定；
C)分析該域的字?jǐn)?shù)等信息，計(jì)算該域合法的可能性，將此值記為WCi:
一個(gè)比較簡(jiǎn)單的處理方法為wd-該域字?jǐn)?shù)-l， wci越大，則不規(guī)范的可能性越大。
依次按上述三步操作計(jì)算ri，若frei大于等于3次，直接將ri置為1。若 0<frei<3，則結(jié)合frei和segi的值
巧=會(huì)/% x70% + ; x30%(0 <加;< 3)
這里frei取3為分界的主要依賴于實(shí)驗(yàn)經(jīng)驗(yàn)。由于很多中文路名等信息比較冷僻，無法成詞，因此若frei-0，可通過權(quán)重綜合segi和wci的值巧=^x70% +——x30%(>e, =0)
3) 遍歷所有計(jì)算好的地址，對(duì)那些規(guī)范度超過一定閾值的地址計(jì)算其中的冗余信息，并保存
比如"浙江省杭州市浙大路38號(hào)浙江大學(xué)玉泉校區(qū)"這一地址提取后的冗余信息對(duì)格式對(duì){浙大路38號(hào)，浙江大學(xué)玉泉校區(qū)，N}，其中N表示改對(duì)信息的出現(xiàn)次數(shù)，同時(shí)也可以用于判斷這對(duì)冗余信息的合法性，N越大，則越合法。
4) 篩選冗余信息
如步驟3)中所述方法，以N為判斷依據(jù)，篩選掉所有出現(xiàn)次數(shù)不符合一定閾值的地址；
2. 在預(yù)處理之后，對(duì)所有地址做冗余信息的替換工作對(duì)每個(gè)地址進(jìn)行判斷，如果出現(xiàn)了預(yù)處理中篩選出來的冗余信息，則將其替
換為真實(shí)的地址信息。比如冗余信息中有{浙大路38號(hào)，浙江大學(xué)玉泉校區(qū)，IO)這一對(duì)數(shù)據(jù)，而實(shí)際地址中出現(xiàn)了 "杭州市浙江大學(xué)玉泉校區(qū)"這一關(guān)鍵詞，則地址最后被替換為"杭州市浙大路38號(hào)"。
檢査完所有地址后，對(duì)所有地址進(jìn)行一遍地址判重?？梢允褂镁垲惻兄氐确?br> 法；
3. 對(duì)于后續(xù)到來的新地址，使用如上步驟1和步驟2兩步相近的方法，具體如下
1) 對(duì)地址切分子域；
2) 依據(jù)切分后的子域計(jì)算地址的規(guī)范度；
3) 如果有的話提取地址中的冗余信息。如果地址中包含已知的冗余信息，則用實(shí)際地址替換冗余信息；
4) 將地址和所有己有的地址進(jìn)行判重計(jì)算。
權(quán)利要求
1、一種自學(xué)習(xí)的中文地址判重方法，其特征在于，包括以下步驟(1)對(duì)所有地址數(shù)據(jù)進(jìn)行預(yù)處理提取冗余信息的操作。(2)遍歷所有待判重的地址，如果出現(xiàn)步驟(1)中取出的冗余數(shù)據(jù)信息，且該冗余信息為可信冗余對(duì)，則將該冗余信息替換為對(duì)應(yīng)的規(guī)范數(shù)據(jù)；對(duì)所有替換后的地址進(jìn)行判重操作。(3)對(duì)后續(xù)動(dòng)態(tài)增長(zhǎng)的待判重地址，遵循對(duì)每個(gè)地址計(jì)算規(guī)范度，提取冗余信息并更新冗余信息對(duì)，替換冗余信息，判重這個(gè)順序操作。2、根據(jù)權(quán)利要求1所述的自學(xué)習(xí)的中文地址判重方法，其特征在于，所述步驟(1)具體步驟如下(A)地址切分操作對(duì)一個(gè)完整的地址數(shù)據(jù)切分成各級(jí)的子地址信息。(B)地址規(guī)范度計(jì)算對(duì)每一個(gè)地址數(shù)據(jù)計(jì)算其規(guī)范度信息，具體計(jì)算方法為分別計(jì)算每級(jí)子地址信息的規(guī)范度，并權(quán)重相加得到整條地址數(shù)據(jù)的規(guī)范度值。對(duì)子地址的規(guī)范度計(jì)算步驟如下第一步，從已經(jīng)列入規(guī)范的地址數(shù)據(jù)的對(duì)應(yīng)子域中搜索該值出現(xiàn)的次數(shù)；同時(shí)分析該子地址結(jié)構(gòu)，若其由更細(xì)子域組成，則做二次分級(jí)，分別計(jì)算每個(gè)子域的規(guī)范度。規(guī)則為出現(xiàn)次數(shù)越多，該值越規(guī)范。第二步，對(duì)子地址信息進(jìn)行分詞，用分詞后每個(gè)詞的平均字?jǐn)?shù)作為標(biāo)準(zhǔn)，平均字?jǐn)?shù)越小意味該子地址詞數(shù)越少，規(guī)范的可能性就越??；第三步，分析子地址字面基本信息，計(jì)算該域合法的可能信息。綜合以上三步所得規(guī)范度信息，若第一步中出現(xiàn)次數(shù)大于一閾值，則只使用第一步結(jié)果當(dāng)作該子地址規(guī)范度，若小于一閾值，則根據(jù)實(shí)際情況使用一、二或者一、二、三步結(jié)果權(quán)重相加來獲得該子地址的規(guī)范度。(C)對(duì)規(guī)范度超過一定閾值的地址數(shù)據(jù)提取冗余信息，保存為{規(guī)范數(shù)據(jù)，冗余數(shù)據(jù)，出現(xiàn)次數(shù)}格式的數(shù)據(jù)對(duì)，方便后期檢索。(D)篩選所有冗余格式對(duì)，對(duì)出現(xiàn)次數(shù)超過一定閾值的冗余格式，標(biāo)為可信冗余對(duì)。
2、根據(jù)權(quán)利要求l所述的自學(xué)習(xí)的中文地址判重方法，其特征在于，所述步驟 (1)具體步驟如下(A) 地址切分操作對(duì)一個(gè)完整的地址數(shù)據(jù)切分成各級(jí)的子地址信息。(B) 地址規(guī)范度計(jì)算對(duì)每一個(gè)地址數(shù)據(jù)計(jì)算其規(guī)范度信息，具體計(jì)算方法為分別計(jì)算每級(jí)子地址信息的規(guī)范度，并權(quán)重相加得到整條地址數(shù)據(jù)的規(guī)范度值。對(duì)子地址的規(guī)范度計(jì)算步驟如下第一步，從已經(jīng)列入規(guī)范的地址數(shù)據(jù)的對(duì)應(yīng)子域中搜索該值出現(xiàn)的次數(shù)；同時(shí)分析該子地址結(jié)構(gòu)，若其由更細(xì)子域組成，則做二次分級(jí)，分別計(jì)算每個(gè) 子域的規(guī)范度。規(guī)則為出現(xiàn)次數(shù)越多，該值越規(guī)范。第二步，對(duì)子地址信息進(jìn)行分詞，用分詞后每個(gè)詞的平均字?jǐn)?shù)作為標(biāo)準(zhǔn)，平均字?jǐn)?shù)越小意味該子地址詞數(shù)越少，規(guī)范的可能性就越小；第三步，分析子地址字面基本信息，計(jì)算該域合法的可能信息。綜合以上三步所得規(guī)范度信息，若第一步中出現(xiàn)次數(shù)大于一閾值，則只使用第一步結(jié)果當(dāng)作該子地址規(guī)范度，若小于一閾值，則根據(jù)實(shí)際情況使用一、二或者一、二、三步結(jié)果權(quán)重相加來獲得該子地址的規(guī)范度。(C) 對(duì)規(guī)范度超過一定閾值的地址數(shù)據(jù)提取冗余信息，保存為{規(guī)范數(shù)據(jù)，冗余數(shù)據(jù)，出現(xiàn)次數(shù)}格式的數(shù)據(jù)對(duì)，方便后期檢索。(D) 篩選所有冗余格式對(duì)，對(duì)出現(xiàn)次數(shù)超過一定閾值的冗余格式，標(biāo)為可信冗余對(duì)。
全文摘要
本發(fā)明公開了一種自學(xué)習(xí)的中文地址判重方法。本發(fā)明在對(duì)中文地址進(jìn)行判重時(shí)，采用自學(xué)習(xí)的方法。首先處理所有待判重的地址數(shù)據(jù)，使用規(guī)范度計(jì)算公式計(jì)算出各個(gè)地址的規(guī)范度，并對(duì)符合規(guī)范條件的地址提取冗余信息，并計(jì)算冗余信息可信度，將可信的冗余信息用于后續(xù)的地址數(shù)據(jù)替換，判重上。本發(fā)明方法不依賴領(lǐng)域知識(shí)，能夠在保證解析精度的前提下，顯著降低地址判重中誤判和漏判的比例。
文檔編號(hào)G06F17/30GK101477570SQ20091009537
公開日2009年7月8日申請(qǐng)日期2009年1月12日優(yōu)先權(quán)日2009年1月12日
發(fā)明者周佳慶, 壽黎但, 胡天磊, 剛陳, 珂陳申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳剛;陳珂;胡天磊;壽黎但;周佳慶
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：基于數(shù)據(jù)相似的平衡聚類壓縮方法
上一篇：一種基于web的全景圖的光照渲染方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種自學(xué)習(xí)的中文地址判重方法