專(zhuān)利名稱(chēng):一種基于模糊遺傳算法的中文web信息過(guò)濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的方法和系統(tǒng),能夠有效改進(jìn)傳統(tǒng)文本信息過(guò)濾效果,提高過(guò)濾的準(zhǔn)確率,是一種有效地方法,系統(tǒng)設(shè)計(jì)已經(jīng)加以應(yīng)用,具有良好的應(yīng)用價(jià)值。
權(quán)利要求
1.一種基于模糊遺傳算法的中文WEB信息過(guò)濾方法,其特征在于所述過(guò)濾方法包括如下步驟
Step1利用文本訓(xùn)練集,采用模糊遺傳算法簡(jiǎn)歷過(guò)濾模版;
Step2截獲WEB數(shù)據(jù)包并解析,從中提取有效的文本信息;
Step3在獲取的有效信息中提取網(wǎng)址信息、關(guān)鍵詞信息以及中文域名信息,應(yīng)用URL過(guò)濾、關(guān)鍵詞過(guò)濾以及內(nèi)容過(guò)濾的三層過(guò)濾機(jī)制進(jìn)行初步過(guò)濾,返回過(guò)濾結(jié)果;
Step4將Step3中沒(méi)有過(guò)濾掉的文本信息進(jìn)行切詞、去除停用詞處理,并進(jìn)行層次聚類(lèi),形成基于概念的邏輯段落,并計(jì)算特征項(xiàng)權(quán)重;
Step5將Step4中的處理結(jié)果同過(guò)濾模版進(jìn)行相似度匹配,返回匹配結(jié)果;
Step6綜合Step3的過(guò)濾結(jié)果以及Step5中的匹配結(jié)果,確定所獲取的文本信息是否被過(guò)濾,并將為被過(guò)濾的信息重組為網(wǎng)頁(yè)提交給用戶,將被過(guò)濾的網(wǎng)頁(yè)信息直接屏蔽;
Step7利用反饋方法、結(jié)合用戶反饋信息對(duì)過(guò)濾結(jié)果進(jìn)行反饋,更新Step5中的過(guò)濾模板。
2.一種基于模糊遺傳算法的中文WEB信息過(guò)濾方法,其特征在于所述Step1中的模糊遺傳算法主要分為種群、交叉率和變異率的模糊調(diào)整三部分
(1)使用下面的公式計(jì)算個(gè)體壽命
其中
lifetime[i]為第i個(gè)個(gè)體的壽命,fitness[i],avg_fitness,best_fitness和wrost_fitness分別為第t代中第i個(gè)個(gè)體的適應(yīng)度值、種群的平均適應(yīng)度值、種群中最好適應(yīng)度值和種群中最差適應(yīng)度值,max_lifetime,min_lifetime分別為在允許空間內(nèi)預(yù)先設(shè)置的最大壽命、最小壽命;
(2)使用下面的公式動(dòng)態(tài)計(jì)算交叉率
temp=max_pc×2(-t/max gen)
其中temp是中間計(jì)算變量,max_gen是預(yù)設(shè)的最大進(jìn)化代數(shù),max_pc,min_pc分別是預(yù)設(shè)的最大交叉率、最小交叉率,t是當(dāng)前進(jìn)化代數(shù);
(3)使用下面的公式計(jì)算變異率
、
其中X,temp是中間計(jì)算變量,max_fitness,fitness[i]及max_gen分別是當(dāng)前代中最大適應(yīng)度值、待變異個(gè)體的適應(yīng)度值及預(yù)設(shè)的最大代數(shù),max_pm、min_pm分別是預(yù)設(shè)的最大變異率和最小變異率,t為當(dāng)前進(jìn)化代數(shù),pm為當(dāng)前代中個(gè)體的變異率。
3.一種基于模糊遺傳算法的中文WEB信息過(guò)濾方法,其特征在于所述Step4中的層次聚類(lèi),應(yīng)用如下方法計(jì)算
設(shè)文本T具有n個(gè)自然段,K個(gè)層次,用H表示文本層次,P表示自然段,則有如下組成關(guān)系
其中i1=1<=i2<=...ik<=ik+1-1=n;
設(shè)文本T的特征向量為(c1,c2,...,cm)則設(shè)P1=(ωi1,ωi2…ωim)為第i段的特征向量,其中ωij是概念c在第i段中概念密度;
將n個(gè)段落劃分為K個(gè)層次,則所有可能的分法共有Cn-1K-1種,設(shè)S(n,K)是任一種分法,其中S(n,K)={i1=1,i1+1,...,i2-1},...,{ij,ij+1,...ij+1-1},...,{iK,iK+1,...,n};
有序聚類(lèi)就是尋找一種分法使K個(gè)層次內(nèi)差異盡可能小,而層次間的差異盡可能大;設(shè)D(ij,ij+1-1)表示第j層內(nèi)的差異量,則誤差函數(shù)為
為了使上述總體誤差函數(shù)達(dá)到最小,尋求最優(yōu)的K分法,相當(dāng)于把n個(gè)段落分成兩個(gè)部分,將前一部分進(jìn)行最優(yōu)K-1分法,然后再考慮后一部分的誤差,由此尋找到最優(yōu)K分法;
設(shè)S(n,K,cK)是使總體誤差函數(shù)達(dá)到最小的分法,其中cK是上述最佳分法的分割點(diǎn)ik,則有如下遞推公式
E(S0(n,K,cK))=min{E(S0(iK-1,K-1,cK-1)+D(iK,n))};
文本層數(shù)的確定關(guān)系到文本邏輯結(jié)構(gòu)的建立,它可以通過(guò)給定閾值l,當(dāng)|E(S(n,K+1)-E(S(n,K))|<=l時(shí),則最優(yōu)層數(shù)為K。
4.一種基于模糊遺傳算法的中文WEB信息過(guò)濾方法,其特征在于所述Step4中計(jì)算特征項(xiàng)權(quán)重,采用了綜合文檔權(quán)重、段落權(quán)重以及特征項(xiàng)自身權(quán)重的綜合計(jì)算方法,該權(quán)重計(jì)算方法由如下公式計(jì)算
在上述計(jì)算公式中WT表示段落權(quán)重,且
WTi是該文檔包含的第i個(gè)特征項(xiàng)的權(quán)重,N是指特征項(xiàng)在文檔中的分布密度,即密集程度;WS表示句子權(quán)重,且
KWi是該句子或段落中包含的第i個(gè)特征項(xiàng)的權(quán)重,TFi是該特征項(xiàng)在這篇文檔中出現(xiàn)的頻率,IDFi是該特征項(xiàng)在文檔中出現(xiàn)的逆頻率,D是指特征項(xiàng)在句子或段落中的分布密度;其中在
中,設(shè)特征項(xiàng)i的位置權(quán)重為δi,由于該權(quán)重計(jì)算基礎(chǔ)為經(jīng)過(guò)聚類(lèi)的邏輯段落,因此去掉相關(guān)網(wǎng)頁(yè)附加信息,設(shè)文檔D所有段落權(quán)重和
其中0表示標(biāo)題文本,wi表示單個(gè)權(quán)重,
表示所有段落權(quán)重之和。
5.一種基于模糊遺傳算法的中文WEB信息過(guò)濾方法,其特征在于所述Step5中相似度匹配過(guò)程采用余弦方法
設(shè)定過(guò)濾閥值l當(dāng)sim(C,D)≥l其D所對(duì)應(yīng)的內(nèi)容符合用戶興趣,應(yīng)該提交到結(jié)果文檔數(shù)據(jù)庫(kù),否則,不予提交;在上述計(jì)算公式中,C和D表示兩個(gè)向量,sim(C,D)表示兩個(gè)向量C和向量D之間的相似度,Ui和Wi分別表示向量C和向量D的一個(gè)分量。
6.一種基于模糊遺傳算法的中文WEB信息過(guò)濾方法,其特征在于所述Step7中的反饋方法,應(yīng)用一種利用反饋文檔動(dòng)態(tài)修改類(lèi)別模板方法,實(shí)現(xiàn)過(guò)濾模板的動(dòng)態(tài)調(diào)整,該方法主要過(guò)程如下
設(shè)某一個(gè)初始類(lèi)別模板為P(p1,p2,p3,...,pn),反饋集為Fi,文檔相似度的前m篇文檔集觀察窗口w,每次學(xué)習(xí)都從觀察窗w中正例文檔中發(fā)現(xiàn)新特征詞;
A.先設(shè)置一個(gè)初始反饋過(guò)濾閾值
,在系統(tǒng)使用過(guò)程中,將所有大于該閾值的文檔和相應(yīng)的相似度值保存到相應(yīng)的反饋類(lèi)別文件夾下;
B.當(dāng)使用一段時(shí)間后,就進(jìn)行反饋,把反饋類(lèi)別文件夾下的所有的文檔,按照相似度大小排序,取前m篇文檔作為我們反饋的文檔,計(jì)算這m篇文檔的中心向量D(d1,d2,d3,...,dn),再求出此中心向量和類(lèi)別向量的差S(s1,s2,s3,...,sn),其中,si=di-pi,根據(jù)下面公式修改模板相應(yīng)特征項(xiàng)的權(quán)重
式中,pinew是修改后的第i特征項(xiàng)的權(quán)重,piold為類(lèi)別模板中修改前的第i特征項(xiàng)的權(quán)重,α為修改因子,I是一個(gè)線性臨界值函數(shù),定義如下
式中,φ是定義特征項(xiàng)在原類(lèi)別特征權(quán)重上上下波動(dòng)的閾值;
C.從觀察窗口中統(tǒng)計(jì)新出現(xiàn)的特征詞,作為候選特征詞,并計(jì)算其權(quán)重,按從大到小的順序排序,抽取適量的特征詞來(lái)擴(kuò)展模板,新特征詞數(shù)量用下面公式來(lái)計(jì)算,然后將觀察窗口中所有的非偽正例文檔標(biāo)記為偽正例文檔
式中,N是我們?cè)黾犹卣髟~的數(shù)量,n是特征窗口中,正例文檔的數(shù)量,m為觀察窗口中文檔的數(shù)量;
D.將觀察窗口之外所有的文檔都刪除掉,然后將反饋過(guò)濾閾值
提高為第m篇文檔的相似度值,然后將這些文檔重新再與模板比較一下,修改相似度值,本次反饋結(jié)束。
全文摘要
本發(fā)明公開(kāi)了一種基于模糊遺傳算法的中文WEB信息過(guò)濾方法,其步驟如下利用文本訓(xùn)練集,采用模糊遺傳算法簡(jiǎn)歷過(guò)濾模版;截獲WEB數(shù)據(jù)包并解析,從中提取有效的文本信息;在獲取的有效信息中提取網(wǎng)址信息、關(guān)鍵詞信息以及中文域名信息,應(yīng)用三層過(guò)濾機(jī)制進(jìn)行初步過(guò)濾,返回過(guò)濾結(jié)果;將沒(méi)有過(guò)濾掉的文本信息進(jìn)行切詞、去除停用詞處理,并進(jìn)行層次聚類(lèi),形成基于概念的邏輯段落,并計(jì)算特征項(xiàng)權(quán)重;將處理結(jié)果同過(guò)濾模版進(jìn)行相似度匹配,返回匹配結(jié)果;綜合過(guò)濾結(jié)果以及匹配結(jié)果,確定所獲取的文本信息是否被過(guò)濾,將被過(guò)濾的網(wǎng)頁(yè)信息直接屏蔽;利用反饋方法、結(jié)合用戶反饋信息對(duì)過(guò)濾結(jié)果進(jìn)行反饋,更新過(guò)濾模板。
文檔編號(hào)G06F17/30GK101814086SQ20101010620
公開(kāi)日2010年8月25日 申請(qǐng)日期2010年2月5日 優(yōu)先權(quán)日2010年2月5日
發(fā)明者劉培玉, 朱振方 申請(qǐng)人:山東師范大學(xué)