一種用于環(huán)境保護(hù)法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種用于環(huán)境保護(hù)法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法,屬于知識發(fā)現(xiàn)領(lǐng) 域。
【背景技術(shù)】
[0002] 信息爆炸是當(dāng)今信息社會的一大特點,從web上進(jìn)行搜索會查詢到大量冗余繁瑣 信息,需要我們再逐一去篩選來獲得我們想要的信息。因而如何快速找到一種方法,給用戶 更簡潔的呈現(xiàn)出更有意義的信息成為了一個關(guān)鍵的問題。因此,為解決這一問題,提出知識 發(fā)現(xiàn),知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式 的非平凡過程。目的是向使用者屏蔽原始數(shù)據(jù)的繁瑣細(xì)節(jié),從原始數(shù)據(jù)中提煉出有意義的、 簡潔的知識,直接向使用者報告。為了向使用者提供更有意義的信息,本方法被提出來,它 通過計算元素與元素之間的距離,即關(guān)聯(lián)度,以最快的方式尋找到與使用者想搜索的信息 的距離最優(yōu)的詞語組合,然后對應(yīng)索引目錄快速準(zhǔn)確查找出更有意義的信息,即用戶所需 要信息。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提供了一種用于環(huán)境保護(hù)法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法,以用于解決快速 查找用戶所需要信息的問題。
[0004] 本發(fā)明的技術(shù)方案是:一種用于環(huán)境保護(hù)法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法,首先對 環(huán)保法律法規(guī)檢索系統(tǒng)構(gòu)建一個關(guān)鍵詞表A、關(guān)鍵字表B;然后清洗用戶輸入的數(shù)據(jù)并提煉 候選詞;最后根據(jù)候選詞的個數(shù),計算距離并排序輸出。
[0005] 所述用于環(huán)境保護(hù)法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法的具體步驟如下:
[0006] St印1、首先建立系統(tǒng)模型:
[0007] 對環(huán)保法律法規(guī)檢索系統(tǒng)構(gòu)建一個關(guān)鍵詞表A、關(guān)鍵字表B;其中,關(guān)鍵詞表A:存 儲著法規(guī)名稱及法規(guī)中抽取出來的t組關(guān)鍵詞;關(guān)鍵字表B:存儲著關(guān)鍵詞表A中每個關(guān)鍵 詞拆分成的不同字m個及各個字之間的特征值A(chǔ)ij;Aij表示角標(biāo)為i和j所代表的字的組 合出現(xiàn)在關(guān)鍵詞表A中的頻數(shù),角標(biāo)i、j為關(guān)鍵詞表A中每個關(guān)鍵詞拆分成的不同字在關(guān) 鍵字表B中的標(biāo)記;
[0008] St印2、清洗用戶輸入的數(shù)據(jù)并提煉候選詞:
[0009] 針對用戶輸入的數(shù)據(jù)進(jìn)行分詞并去除停用詞,將剩余的分詞作為候選詞;
[0010] Step3、根據(jù)候選詞的個數(shù),計算距離并排序輸出:
[0011] St印3. 1、若候選詞個數(shù)為1時:
[0012] 從關(guān)鍵字表B中獲取與候選詞的首字X聯(lián)結(jié)的字、首字X之間的特征值A(chǔ)ix、獲取 尾字y、與尾字y聯(lián)結(jié)的字之間的特征值A(chǔ)yj;計算Aix辛0情況下首字與關(guān)鍵字表B中字 的距離dix且得到ixy對應(yīng)的詞組合,計算Ayj辛0情況下尾字與關(guān)鍵字表B中字的距離 dyj且得到xyj對應(yīng)的詞組合;根據(jù)dix、dyj從小到大的順序排列其對應(yīng)的詞組合;根據(jù)詞 組合的順序,將詞組合與關(guān)鍵詞表A中的關(guān)鍵詞進(jìn)行匹配獲取對應(yīng)的法規(guī)名稱,將匹配的 結(jié)果去除重復(fù)后按照順序顯示;其中,當(dāng)出現(xiàn)dix=dyj,則dix、dyj對應(yīng)的詞組合進(jìn)行隨 機(jī)排序;
[0013] St印3. 2、若候選詞個數(shù)不為1時:
[0014] 將多個候選詞按輸入順序排列,分別計算相鄰兩個候選詞中先輸入的候選詞的尾 字u與后輸入的候選詞的首字v的距離duv及對應(yīng)的兩個候選詞構(gòu)成的詞組合;從關(guān)鍵字 表B中獲取與各個候選詞的首字X聯(lián)結(jié)的字、首字X之間的特征值A(chǔ)ix、獲取尾字y、與尾字 y聯(lián)結(jié)的字之間的特征值A(chǔ)yj;計算Aix辛0情況下首字與關(guān)鍵字表B中字的距離dix且得 至IJixy對應(yīng)的詞組合,計算Ayj辛0情況下尾字與關(guān)鍵字表B中字的距離dyj且得到xyj對 應(yīng)的詞組合;根據(jù)duv、diX、dyj從小到大的順序排列其對應(yīng)的詞組合;根據(jù)詞組合的順序, 將詞組合與關(guān)鍵詞表A中的關(guān)鍵詞進(jìn)行匹配獲取對應(yīng)的法規(guī)名稱,將匹配的結(jié)果去除重復(fù) 后按照順序顯示;其中,當(dāng)出現(xiàn)duv=dix=dyj,則僅僅保留duv對應(yīng)的詞組合進(jìn)行排序, 當(dāng)出現(xiàn)dix=dyj,則dix、dyj對應(yīng)的詞組合進(jìn)行隨機(jī)排序;
[0015] 所述u、v、x、y為字在關(guān)鍵字表B中的標(biāo)記。
[0016]
I其中Auv、Aix、Ayj分別表示角標(biāo) 為u、v所代表的字的組合,角標(biāo)為i、x所代表的字的組合,角標(biāo)為y、j所代表的字的組合出 現(xiàn)在關(guān)鍵詞表A中的頻數(shù);duv、dix、dyj分別表示角標(biāo)為u、v所代表的字,角標(biāo)為i、X所 代表的字,角標(biāo)為y、j所代表的字的距離。
[0017] 本發(fā)明的有益效果是:
[0018] 采用索引的方式,將龐大的信息源提煉成一個關(guān)鍵詞表,作為整個信息源的目錄 索引。因此,只要與索引匹配查詢便能快速的在龐大的信息源中找到有意義的信息,進(jìn)一步 提高檢索效率。
[0019] 采用計算整個關(guān)鍵詞庫中各個獨立漢字之間的距離,將其距離值存儲在關(guān)鍵字表 中。因此在查詢匹配的時候就只需要去尋找距離值最小的元素就能找到關(guān)聯(lián)度很高的詞語 或詞組。在提高檢索效率的同時,也提高了檢索結(jié)果與搜索意圖之間關(guān)聯(lián)度的準(zhǔn)確性。
【附圖說明】
[0020] 圖1為本發(fā)明元素間距離網(wǎng)狀示意圖;
[0021] 圖2為本發(fā)明元素間距離網(wǎng)狀實例示意圖。
【具體實施方式】
[0022] 實施例1 :如圖1-2所示,一種用于環(huán)境保護(hù)法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法,首先 對環(huán)保法律法規(guī)檢索系統(tǒng)構(gòu)建一個關(guān)鍵詞表A、關(guān)鍵字表B;然后清洗用戶輸入的數(shù)據(jù)并提 煉候選詞;最后根據(jù)候選詞的個數(shù),計算距離并排序輸出。
[0023] 所述用于環(huán)境保護(hù)法規(guī)檢索的關(guān)聯(lián)優(yōu)先排序方法的具體步驟如下:
[0024] St印1、首先建立系統(tǒng)模型:
[0025] 對環(huán)保法律法規(guī)檢索系統(tǒng)構(gòu)建一個關(guān)鍵詞表A、關(guān)鍵字表B;其中,關(guān)鍵詞表A:存 儲著法規(guī)名稱及法規(guī)中抽取出來的t組關(guān)鍵詞;關(guān)鍵字表B:存儲著關(guān)鍵詞表A中每個關(guān)鍵 詞拆分成的不同字m個及各個字之間的特征值A(chǔ)ij;Aij表示角標(biāo)為i和j所代表的字的組 合出現(xiàn)在關(guān)鍵詞表A中的頻數(shù),角標(biāo)i、j為關(guān)鍵詞表A中每個關(guān)鍵詞拆分成的不同字在關(guān) 鍵字表B中的標(biāo)記;
[0026]St印2、清洗用戶輸入的數(shù)據(jù)并提煉候選詞:
[0027] 針對用戶輸入的數(shù)據(jù)進(jìn)行分詞并去除停用詞,將剩余的分詞作為候選詞;
[0028]Step3、根據(jù)候選詞的個數(shù),計算距離并排序輸出:
[0029]St印3. 1、若候選詞個數(shù)為1時:
[0030] 從關(guān)鍵字表B中獲取與候選詞的首字X聯(lián)結(jié)的字、首字X之間的特征值A(chǔ)ix、獲取 尾字y、與尾字y聯(lián)結(jié)的字之間的特征值A(chǔ)yj ;計算Aix辛0情況下首字與關(guān)鍵字表B中字 的距離dix且得到ixy對應(yīng)的詞組合,計算Ayj辛0情況下尾字與關(guān)鍵字表B中字的距離 dyj且得到xyj對應(yīng)的詞組合;根據(jù)dix、dyj從小到大的順序排列其對應(yīng)的詞組合;根據(jù)詞 組合的順序,將詞組合與關(guān)鍵詞表A中的關(guān)鍵詞進(jìn)行匹配獲取對應(yīng)的法規(guī)名稱,將匹配的 結(jié)果去除重復(fù)后按照順序顯示;其中,當(dāng)出現(xiàn)dix = dyj,則dix、dyj對應(yīng)的詞組合進(jìn)行隨 機(jī)排序;
[0031] St印3. 2、若候選詞個數(shù)不為1時:
[0032] 將多個候選詞按輸入順序排列,分別計算相鄰兩個候選詞中先輸入的候選詞的尾 字u與后輸入的候選詞的首字v的距離duv及對應(yīng)的兩個候選詞構(gòu)成的詞組合;從關(guān)鍵字 表B中獲取與各個候選詞的首字X聯(lián)結(jié)的字、首字X之間的特征值A(chǔ)ix、獲取尾字y、與尾字 y聯(lián)結(jié)的字之間的特征值A(chǔ)yj ;計算Aix辛0情況下首字與關(guān)鍵字表B中字的距離dix且得 至IJ ixy對應(yīng)的詞組合,計算Ay j辛0情況下尾字與關(guān)鍵字表B中字的距離dyj且得到xyj對 應(yīng)的詞組合;根據(jù)duv、diX、dyj從小到大的順序排列其對應(yīng)的詞組合;根據(jù)詞組合的順序, 將詞組合與關(guān)鍵詞表A中的關(guān)鍵詞進(jìn)行匹配獲取對應(yīng)的法規(guī)名稱,將匹配的結(jié)果去除重復(fù) 后按照順序顯示;其中,當(dāng)出現(xiàn)duv = dix = dyj,則僅僅保留duv對應(yīng)的詞組合進(jìn)行排序, 當(dāng)出現(xiàn)dix = dyj,則dix、dyj對應(yīng)的詞組合進(jìn)行隨機(jī)排序;
[0033]所述u、V、X、y為字在關(guān)鍵字表B中的標(biāo)記。
[0034]
其中Auv、Aix、Ayj分別表示角標(biāo) 為u、v所代表的字的組合,角標(biāo)