亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于內(nèi)容的垃圾網(wǎng)頁檢測方法及其檢測裝置的制造方法_2

文檔序號:9432605閱讀:來源:國知局
頁作為樣本集合M,用M來表示種子垃圾網(wǎng)頁。
[0058]102 :計(jì)算所有網(wǎng)頁與種子垃圾網(wǎng)頁的內(nèi)容最大相似度值,生成相似度集合S;
[0059] 首先采用統(tǒng)計(jì)的方法對所有網(wǎng)頁進(jìn)行特征提取,然后利用VSM把提取出的特征組 成向量。最后采用基于向量空間的余弦相似度方法計(jì)算所有網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容間的 相似性。
[0060] 103 :利用化geRank算法對所有網(wǎng)頁進(jìn)行排序;并將排序后的網(wǎng)頁設(shè)為排序集合 R;
[0061] 104:基于排序結(jié)果,從相似度集合中查尋網(wǎng)頁與種子垃圾網(wǎng)頁間的內(nèi)容相似度 值;
[0062] 從排序集合R中,W倒序的方式查找每一個(gè)網(wǎng)頁q G R在相似度集合S中對應(yīng)的 相似度值t。與此同時(shí),為網(wǎng)頁設(shè)置相似度闊值S。
[006引 105:通過比較相似度值與相似度闊值,對網(wǎng)頁進(jìn)行檢測,并將檢測出的垃圾網(wǎng)頁 加入到垃圾網(wǎng)頁集合W中,重復(fù)執(zhí)行步驟104,直至垃圾網(wǎng)頁集合達(dá)到最大容量,流程結(jié)束。W64] 若該網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容的相似度值t大于相似度闊值S,則認(rèn)定該網(wǎng)頁為 垃圾網(wǎng)頁,并將該網(wǎng)頁加入到垃圾網(wǎng)頁集合W中。否則,反之。并為垃圾網(wǎng)頁集合W設(shè)置最 大容量。
[00化]綜上所述,本發(fā)明實(shí)施例通過上述步驟101-步驟105在傳統(tǒng)的化geRank算法基 礎(chǔ)上加入對網(wǎng)頁內(nèi)容相似度的判定,把網(wǎng)頁的鏈接與內(nèi)容結(jié)合起來,對垃圾網(wǎng)頁進(jìn)行檢測, W此提高了垃圾網(wǎng)頁檢測的準(zhǔn)確度和效率。
[0066] 實(shí)施例2
[0067] 下面結(jié)合具體的計(jì)算公式、例子對實(shí)施例1中的方案進(jìn)行詳細(xì)說明,詳見下文描 述:
[0068] 201 :挑選出若干個(gè)垃圾網(wǎng)頁作為種子垃圾網(wǎng)頁;
[0069] 其中,垃圾網(wǎng)頁是指存在著一種包含惡意內(nèi)容或是無價(jià)值內(nèi)容的網(wǎng)頁。本發(fā)明實(shí) 施例選取作為種子的垃圾網(wǎng)頁的過程為:設(shè)總共有N個(gè)網(wǎng)頁,其中已被標(biāo)記出的垃圾網(wǎng)頁 有X個(gè),存放在集合X中。從集合X中隨機(jī)挑選m個(gè)垃圾網(wǎng)頁作為樣本集合M,用M來表示 種子垃圾網(wǎng)頁。
[0070] 202 :采用統(tǒng)計(jì)的方法對網(wǎng)頁進(jìn)行特征提取,然后利用VSM將提取出的特征組成特 征向量;
[0071] 本發(fā)明實(shí)施例的創(chuàng)新點(diǎn)在于基于傳統(tǒng)的化geRank算法上,加入與垃圾網(wǎng)頁的內(nèi) 容相似度的計(jì)算。
[0072] 首先采用統(tǒng)計(jì)的方法對所有網(wǎng)頁進(jìn)行特征提取,本發(fā)明實(shí)施例中采用最常用的 TF-IDF詞頻統(tǒng)計(jì)算法。TF表示詞頻,指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率,運(yùn) 個(gè)可W被正規(guī)化,W防止它偏向長的文件。(同一個(gè)詞語在長文件里可能會(huì)比短文件有更高 的詞頻,而不管該詞語重要與否。)對于在某一特定文件里的詞語ti來說,它的重要性如公 式(1)所示: 陽07;3]

[0074] W上式子中,tfi, ,為詞頻,表示詞語ti在文件d,中出現(xiàn)的頻率;ni, ,是該詞在文件 dj中的出現(xiàn)次數(shù),而分母
表示在文件dj中所有字詞出現(xiàn)的次數(shù)之和,其中表示 為任一詞語在文件d,中出現(xiàn)的次數(shù)。
[00巧]IDF是逆向文件頻率,表示一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可W由總文件數(shù)目除W包含該詞語的文件的書名,再將得到的商取對數(shù)得到,IDF的計(jì)算公式 如似所示:
[0076]

[0077] 在公式(2)中,i壯1表示為詞語ti在整個(gè)文件中的頻率;IdI表示語料庫中的文 件總數(shù);I{j:tiGd,}I表示包含詞語ti的文件書目(即n1,,聲0的文件書目),如果該詞 語不在語料庫中,就會(huì)導(dǎo)致除數(shù)為零。因此一般情況下使用1+1 d,}I。
[007引綜合公式(1)和似,得到TF-IDF表達(dá)式,如公式做所示:
[0079] (tf-idf)i,j=tfI'jXidfi (3)
[0080] 其中,(tf-i壯)i,i表示詞語t1與文件di的相關(guān)性。因此利用TF-IDF方法即可 將網(wǎng)頁中的關(guān)鍵詞、鏈接數(shù)量,可讀文本等特征提取出來。
[0081] VSM概念簡單,把對文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,并且它W空間 上的相似度表達(dá)語義的相似度,直觀易懂。特征向量表達(dá)式如公式(4)所示: W82]Vn=妃d1,dz,ds......di) (4)
[008引其中:n代表網(wǎng)頁編號,di代表特征項(xiàng)。
[0084] 203 :通過特征向量計(jì)算所有網(wǎng)頁與種子垃圾網(wǎng)頁的內(nèi)容相似度;
[0085] 當(dāng)文檔被標(biāo)示為文檔空間的向量時(shí),就可W通過計(jì)算向量之間的相似性來度量文 檔間的相似性。文本處理中最常用的相似性度量方式是余弦距離,所W本發(fā)明采用基于向 量空間的余弦相似度方法。余弦相似度,又稱余弦相似性。它是通過計(jì)算兩個(gè)向量的夾角 余弦值來評估他們的相似度。
[0086] 將特征向量加入到相似度計(jì)算公式,計(jì)算網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容的相似度,如 公式妨所示:
[0087]
[00蝴其中,化和D康不兩個(gè)網(wǎng)頁;VIk與V2k分別表不網(wǎng)頁1和2的特征向量中第k個(gè) 特征;m為網(wǎng)頁的總的特征數(shù)。
[0089] 204 :選取每一個(gè)網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容的最大的相似度值,生成相似度集合 S;
[0090] 205 :采用化geRank算法對網(wǎng)頁進(jìn)行降序排序;基于排序結(jié)果查詢網(wǎng)頁與種子垃 圾網(wǎng)頁間的內(nèi)容相似度并設(shè)定相似度闊值;
[0091] 對網(wǎng)頁進(jìn)行排序時(shí),本發(fā)明實(shí)施例采用了化geRank算法對網(wǎng)頁進(jìn)行降序排序,由 于化geRank值體現(xiàn)了網(wǎng)頁的重要性,即化geRank值越大,網(wǎng)頁越重要。所W化geRank算 法可W通過計(jì)算每一個(gè)網(wǎng)頁的化geRank值,然后根據(jù)運(yùn)個(gè)值的大小對網(wǎng)頁的重要性進(jìn)行 排序。
[0092] 網(wǎng)頁的重要性即網(wǎng)頁的等級一般是由該網(wǎng)頁的鏈入網(wǎng)頁的數(shù)量和鏈入網(wǎng)頁的 化geRank值,W及鏈入網(wǎng)頁的鏈出數(shù)量決定?;痝eRank的計(jì)算公式如(6)所示:
[0093]
(於
[0094] 公式中,PR狂)代表鏈接到網(wǎng)頁A的網(wǎng)頁X的化geRank值,L狂)代表網(wǎng)頁X的出 鏈數(shù)量,M(A)代表鏈接到網(wǎng)頁A的所有網(wǎng)頁的集合。d為一個(gè)調(diào)節(jié)參數(shù),用于當(dāng)網(wǎng)頁A沒有 入鏈時(shí),給網(wǎng)頁A賦予一個(gè)的化geRank值。 陽0巧]同時(shí),為每個(gè)網(wǎng)頁設(shè)置一個(gè)相似度闊值S。
[0096] 206:通過比較相似度值與相似度闊值,檢測垃圾網(wǎng)頁,并將檢測出的垃圾網(wǎng)頁加 入到垃圾網(wǎng)頁集合W中;
[0097] 其中,化geRank值越小,網(wǎng)頁重要性越低,即它越有可能是垃圾網(wǎng)頁,所W本發(fā)明 實(shí)施例W倒序方式查詢網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容的相似度值。由于在步驟203中,已計(jì)算 出所有網(wǎng)頁與種子垃圾網(wǎng)頁內(nèi)容的相似度值,并將相似度最大的值放入相似度集合S中, 所W本步驟只需在相似度集合S中查詢該網(wǎng)頁相應(yīng)的相似度值t即可。
[009引 由于相似度闊值是判斷垃圾網(wǎng)頁的口檻,通過比較t與S的大小可預(yù)測垃圾網(wǎng)頁。 若t〉s,則認(rèn)定該網(wǎng)頁為垃圾網(wǎng)頁,并將該網(wǎng)頁加入到垃圾網(wǎng)頁集合W中。為垃圾網(wǎng)頁集合W設(shè)置最大容量。
[0099] 207:判斷垃圾網(wǎng)頁集合W是否達(dá)到最大值,若W未達(dá)到最大值,則需通過重復(fù)步驟 206,來繼續(xù)查詢網(wǎng)頁是否為垃圾網(wǎng)頁,直至集合W滿為止;待垃圾網(wǎng)頁集合W達(dá)到設(shè)置的最 大值時(shí),流程結(jié)束。
[0100] 綜上所述,本發(fā)明實(shí)施例通過上述步驟201-步驟207在傳統(tǒng)的化geRank算法基 礎(chǔ)上加入對網(wǎng)頁內(nèi)容相似度的判定,把網(wǎng)頁的鏈接與內(nèi)容結(jié)合起來,對垃圾網(wǎng)頁進(jìn)行檢測, W此提高了垃圾網(wǎng)頁檢測的準(zhǔn)確度和效率。 陽101] 實(shí)施例3 陽102] 下面結(jié)合具體的實(shí)例,對實(shí)施例
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1