一種用于環(huán)境保護法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法_3

文檔序號：9579344閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種用于環(huán)境保護法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法

候選詞一一 "污染"和"防治"兩個候選詞。
[0090] 判斷候選詞類型并計算距離并排序輸出：
[0091] 判斷候選詞個數(shù)不為一，則：
[0092] 首先計算候選詞"污染"和"防治"這兩個候選詞之間的距離，即計算出"染"與"防" 這兩個字的距離。讀取關(guān)鍵字表B，易知："染"與"防"這兩個關(guān)鍵字的特征值為A96 = 6 ; 則本實例中這兩個候選詞之間的距離為：
[0093]
[0094] 然后，計算各個候選詞的首字與尾字與關(guān)鍵字表中各個字的距離；讀取關(guān)鍵字表，易知：
[0095] 與第一個候選詞"污染"的首字"污"聯(lián)結(jié)的字與其之間的特征值如下：A12 = 3， A22 = 1，A32 = 1，A52 = 3，A62 = 1，A72 = 1，A82 = 3 ;與尾字"染"聯(lián)結(jié)的字與其之間的特征值如下：A94 = 2,A95 = 6,A96 = 6 ;
[0096] 則本實例中該詞的第一個字與關(guān)鍵字表中字的距離為：
[0103]
[0104] 本實例中該詞的第二個字與關(guān)鍵字表中字的距離為：
[0105]
[0106]
[0107]
[0108] 計算第二個候選詞"防治"的首字與尾字和關(guān)鍵字表中各個字的距離；讀取關(guān)鍵字表B，易知：與首字"防"聯(lián)結(jié)的字與其之間的特征值如下：A46 = 1，A96 = 6與尾字"治"聯(lián) 結(jié)的字與其之間的特征值皆為A72 = 1 ;
[0109] 則本實例中"防治"這一詞的首字與關(guān)鍵字表中的距離為：
[0112] 本實例中該詞尾字與關(guān)鍵字表中字的距離為：
[0110]
[0111]
[0113]
[0114] 根據(jù)字之間距離越小相關(guān)性越大，將距離d從小到大排列，若值相等則隨機排列，其順序為：d96,d95,dl2,d52,d82,d94,d22,d32,d62,d72,d46;將關(guān)鍵字表里面字的與輸入詞中的字組合起來，回到關(guān)鍵詞表中去匹配：
[0115] 首先，由以上實例計算結(jié)果按距離從小到大（距離值并列則隨機排列）可以得到的組合為："污染防治"、"污染物"、"水污染"、"聲污染"、"氣污染"、"污染源""源污染"、"放污染"、"活污染"、"治污染"、"境防治"；（"污染防治"為計算兩個候選詞之間的距離所得到的組合，由于兩個候選詞之間的距離所得到的d96與后續(xù)的詞的首尾字與關(guān)鍵字表中的字的組合之間的距離出現(xiàn)同一個值，即d96,所以看起來有問題，實際上當兩個詞之間的距離與其他字的組合的距離出現(xiàn)重復(fù)距離值時，選擇兩個詞之間的距離組合）
[0116] 然后，將得到的上列組合與關(guān)鍵詞表A中的關(guān)鍵詞匹配，看其是否存在于關(guān)鍵詞表中，若存在，則將該關(guān)鍵詞所對應(yīng)的法規(guī)優(yōu)先顯示輸出，若匹配不存在則進行下一組合的匹配。
[0117] 根據(jù)上列組合：
[0118] "污染防治"能夠和關(guān)鍵詞表A中的"水污染防治"、"大氣污染防治"、"噪聲污染防治"、"污染防治"匹配，索引得到如下法規(guī)結(jié)果：
[0119] 《中華人民共和國水污染防治法》
[0120] 《中華人民共和國大氣污染防治法》
[0121] 《中華人民共和國環(huán)境噪聲污染防治法》
[0122] 《飲用水水源保護區(qū)污染防治管理規(guī)定》
[0123] 《中華人民共和國水污染防治法實施細則》
[0124] "境防治"能夠和關(guān)鍵詞表A中的"水污染防治"、"大氣污染防治"匹配，索引得到如下法規(guī)：
[0125] 《中華人民共和國固體廢物污染環(huán)境防治法》；
[0126] 所以這些法規(guī)優(yōu)先顯示，其他組合依次類推。
[0127] 上面結(jié)合附圖對本發(fā)明的【具體實施方式】作了詳細說明，但是本發(fā)明并不限于上述實施方式，在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi)，還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。
【主權(quán)項】
1. 一種用于環(huán)境保護法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法，其特征在于：首先對環(huán)保法律法規(guī)檢索系統(tǒng)構(gòu)建一個關(guān)鍵詞表A、關(guān)鍵字表B ;然后清洗用戶輸入的數(shù)據(jù)并提煉候選詞；最后根據(jù)候選詞的個數(shù)，計算距離并排序輸出。2. 根據(jù)權(quán)利要求1所述的用于環(huán)境保護法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法，其特征在于：所述用于環(huán)境保護法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法的具體步驟如下： St印1、首先建立系統(tǒng)模型：對環(huán)保法律法規(guī)檢索系統(tǒng)構(gòu)建一個關(guān)鍵詞表A、關(guān)鍵字表B ;其中，關(guān)鍵詞表A :存儲著法規(guī)名稱及法規(guī)中抽取出來的t組關(guān)鍵詞；關(guān)鍵字表B :存儲著關(guān)鍵詞表A中每個關(guān)鍵詞拆分成的不同字m個及各個字之間的特征值A(chǔ)ij ;Aij表示角標為i和j所代表的字的組合出現(xiàn)在關(guān)鍵詞表A中的頻數(shù)，角標i、j為關(guān)鍵詞表A中每個關(guān)鍵詞拆分成的不同字在關(guān)鍵字表B中的標記； Step2、清洗用戶輸入的數(shù)據(jù)并提煉候選詞：針對用戶輸入的數(shù)據(jù)進行分詞并去除停用詞，將剩余的分詞作為候選詞； Step3、根據(jù)候選詞的個數(shù)，計算距離并排序輸出： Step3. 1、若候選詞個數(shù)為1時：從關(guān)鍵字表B中獲取與候選詞的首字X聯(lián)結(jié)的字、首字X之間的特征值A(chǔ)ix、獲取尾字 y、與尾字y聯(lián)結(jié)的字之間的特征值A(chǔ)yj ;計算Aix辛0情況下首字與關(guān)鍵字表B中字的距離dix且得到ixy對應(yīng)的詞組合，計算Ayj辛0情況下尾字與關(guān)鍵字表B中字的距離dyj 且得到xyj對應(yīng)的詞組合；根據(jù)dix、dyj從小到大的順序排列其對應(yīng)的詞組合；根據(jù)詞組合的順序，將詞組合與關(guān)鍵詞表A中的關(guān)鍵詞進行匹配獲取對應(yīng)的法規(guī)名稱，將匹配的結(jié) 果去除重復(fù)后按照順序顯示；其中，當出現(xiàn)dix = dyj，則dix、dyj對應(yīng)的詞組合進行隨機排序； St印3. 2、若候選詞個數(shù)不為1時：將多個候選詞按輸入順序排列，分別計算相鄰兩個候選詞中先輸入的候選詞的尾字u 與后輸入的候選詞的首字v的距離duv及對應(yīng)的兩個候選詞構(gòu)成的詞組合；從關(guān)鍵字表B 中獲取與各個候選詞的首字X聯(lián)結(jié)的字、首字X之間的特征值A(chǔ)ix、獲取尾字y、與尾字y聯(lián) 結(jié)的字之間的特征值A(chǔ)yj ;計算Aix辛0情況下首字與關(guān)鍵字表B中字的距離dix且得到 ixy對應(yīng)的詞組合，計算Ayj辛0情況下尾字與關(guān)鍵字表B中字的距離dyj且得到xyj對應(yīng) 的詞組合；根據(jù)duv、diX、dyj從小到大的順序排列其對應(yīng)的詞組合；根據(jù)詞組合的順序，將詞組合與關(guān)鍵詞表A中的關(guān)鍵詞進行匹配獲取對應(yīng)的法規(guī)名稱，將匹配的結(jié)果去除重復(fù)后按照順序顯示；其中，當出現(xiàn)duv = dix = dyj，則僅僅保留duv對應(yīng)的詞組合進行排序，當出現(xiàn)dix = dyj，則dix、dyj對應(yīng)的詞組合進行隨機排序；所述u、v、x、y為字在關(guān)鍵字表B中的標記。3. 根據(jù)權(quán)利要求2所述的用于環(huán)境保護法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法，其特征在于：所述：其中Auv、Aix、Ayj分別表示角標為u、v所代表的字的組合，角標為i、x所代表的字的組合，角標為y、j所代表的字的組合出現(xiàn)在關(guān)鍵詞表A中的頻數(shù)；duv、dix、dyj分別表示角標為u、v所代表的字，角標為i、X所代表的字，角標為y、j所代表的字的距離。
【專利摘要】本發(fā)明涉及一種用于環(huán)境保護法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法，屬于知識發(fā)現(xiàn)領(lǐng)域。本發(fā)明首先對環(huán)保法律法規(guī)檢索系統(tǒng)構(gòu)建一個關(guān)鍵詞表、關(guān)鍵字表；然后清洗用戶輸入的數(shù)據(jù)并提煉候選詞；最后根據(jù)候選詞的個數(shù)，計算距離并排序輸出。本發(fā)明采用索引的方式，將龐大的信息源提煉成一個關(guān)鍵詞表，作為整個信息源的目錄索引，只要與索引匹配查詢便能快速的在龐大的信息源中找到有意義的信息，進一步提高檢索效率；采用計算整個關(guān)鍵詞庫中各個獨立漢字之間的距離，將其距離值存儲在關(guān)鍵字表中，因此在查詢匹配的時候就只需要去尋找距離值最小的元素就能找到關(guān)聯(lián)度很高的詞語或詞組；在提高檢索效率的同時，也提高了檢索結(jié)果與搜索意圖之間關(guān)聯(lián)度的準確性。
【IPC分類】G06F17/30
【公開號】CN105335456
【申請?zhí)枴緾N201510610831
【發(fā)明人】邵玉斌, 井妍, 王晨歌, 杜慶治
【申請人】昆明理工大學(xué)
【公開日】2016年2月17日
【申請日】2015年9月23日

完整全部詳細技術(shù)資料下載

當前第3頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于環(huán)境保護法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法_3