亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種識別假冒網(wǎng)頁的方法及系統(tǒng)的制作方法

文檔序號:6471785閱讀:167來源:國知局

專利名稱::一種識別假冒網(wǎng)頁的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及一種信息安全領(lǐng)域的計(jì)算機(jī)技術(shù),特別是涉及一種通過挖掘寄生社區(qū)來自動識別假冒網(wǎng)頁及其所假冒的對象的方法及系統(tǒng)。
背景技術(shù)
:網(wǎng)絡(luò)欺詐是一種通過假冒真實(shí)網(wǎng)站來獲取人們敏感信息如用戶名、密碼等信用卡信息的犯罪行為。近幾年,網(wǎng)絡(luò)欺詐案例不斷增加,并且識破難度也越來越大。在過去的一年里,有363662個(gè)網(wǎng)站被列為假冒網(wǎng)站。根據(jù)Gartner的調(diào)查(http:〃ww.gartner.com/it/page,jsp7id二565125),美國因網(wǎng)絡(luò)欺詐2007年經(jīng)濟(jì)損失超過30億美元。假冒網(wǎng)頁通常在外觀上與真實(shí)網(wǎng)站相近似,在視覺上具有極高的相似度。同時(shí),帶有指向該真實(shí)網(wǎng)站所包括的真實(shí)網(wǎng)頁的鏈接或者其他直接關(guān)聯(lián)的方式,使得用戶在執(zhí)行一些常規(guī)操作時(shí),能夠跳轉(zhuǎn)到對應(yīng)的真實(shí)的網(wǎng)頁,故而,迷惑性較強(qiáng),使得瀏覽用戶誤認(rèn)為該欺詐網(wǎng)頁是真實(shí)的。又由于該欺詐網(wǎng)頁常設(shè)置有用戶登錄信息的輸入框,使得用戶在完全沒有防備的情況下,輕易發(fā)送個(gè)人敏感信息至欺詐服務(wù)器中,造成了數(shù)據(jù)泄漏。目前,人們提出了一些反網(wǎng)絡(luò)欺詐領(lǐng)域的技術(shù)及方法。其中,有的專注于電子郵件欺詐,通過電郵認(rèn)證以及垃圾郵件過濾來減弱網(wǎng)絡(luò)欺詐的攻擊。然而,可能有丟失重要電子郵件的風(fēng)險(xiǎn)。使用最多的最直接的方法為黑/白名單檢測,如PhishTankSiteChecker(http://www.phishtank.com/)、GoogleSafeBrowsing(http://www.google,com/tools/firfox/safebrowsing/)、FirePhish(http:〃opdb,herlios.de/),以及CallingIDLinkAdvisorChttp:〃www.callingid.com/DesktopSolutions/CallinglDLinkAdvisor.as巡)等。白名單是一個(gè)合法公司的域名列表,其需要注冊并頻繁地動態(tài)更新。這樣,維護(hù)列表是一項(xiàng)較繁復(fù)的密集型勞動。同樣,維護(hù)假冒網(wǎng)站列表也如此。發(fā)明專利"一種檢測鑒別假冒網(wǎng)頁的方法及系統(tǒng)(申請?zhí)?00410009873.5)"提出基于視覺相似度的方法。即通過計(jì)算可疑網(wǎng)頁與受保護(hù)網(wǎng)頁之間的視覺相似度來判斷其是否為假冒網(wǎng)頁。然而,該方法要求事先指定受保護(hù)網(wǎng)站,其適用于企業(yè)級用戶保護(hù)自己的網(wǎng)站不被別人假冒。
發(fā)明內(nèi)容本發(fā)明解決的技術(shù)問題在于,可針對一給定網(wǎng)頁,判斷其是否為假冒網(wǎng)頁,識別出其所假冒的對象。為解決上述問題,本發(fā)明公開了一種識別假冒網(wǎng)頁的方法,包括以下步驟歩驟l,針對一給定網(wǎng)頁,構(gòu)造與該給定網(wǎng)頁具備關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū);歩驟2,逐個(gè)計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù),根據(jù)每個(gè)網(wǎng)頁的寄生因數(shù),判斷該給定網(wǎng)頁與寄生網(wǎng)頁社區(qū)中的網(wǎng)頁是否存在假冒關(guān)系。本發(fā)明還公開了一種識別假冒網(wǎng)頁的系統(tǒng),運(yùn)行于網(wǎng)絡(luò)服務(wù)器端,包括寄生網(wǎng)頁社區(qū)構(gòu)造模塊,用于根據(jù)一給定網(wǎng)頁,構(gòu)造與該給定網(wǎng)頁具備關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū);假冒網(wǎng)頁識別模塊,用于逐個(gè)計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù),根據(jù)每個(gè)網(wǎng)頁的寄生因數(shù),判斷該給定網(wǎng)頁與寄生網(wǎng)頁社區(qū)中的網(wǎng)頁是否存在假冒關(guān)系。本發(fā)明實(shí)現(xiàn)的技術(shù)效果在于,根據(jù)給定的網(wǎng)頁,識別出其是否為一假冒網(wǎng)頁,識別出與該給定網(wǎng)頁存在假冒關(guān)系的網(wǎng)頁,即,該假冒網(wǎng)頁所模仿的真實(shí)網(wǎng)站的網(wǎng)頁,避免冒然提交個(gè)人數(shù)據(jù)而造成相關(guān)財(cái)產(chǎn)、隱私等權(quán)益的損失。同時(shí),本發(fā)明的識別方法準(zhǔn)確率高,操作方便。圖1A、圖1B、圖1C、圖1D所示為識別假冒網(wǎng)頁的系統(tǒng)的結(jié)構(gòu)示意圖2所示為本發(fā)明的識別假冒網(wǎng)頁的方法流程圖3A、3B所示為本發(fā)明的識別假冒網(wǎng)頁的具體方法流程圖;圖4所示為本發(fā)明一用戶界面的示意圖。1具體實(shí)施例方式本發(fā)明公開了一種識別假冒網(wǎng)頁的方法及系統(tǒng),可針對一給定網(wǎng)頁,判斷出其是否為假冒網(wǎng)頁,并識別出其所假冒的真實(shí)網(wǎng)站。使得用戶在瀏覽網(wǎng)頁并針對當(dāng)前網(wǎng)頁提供個(gè)人數(shù)據(jù)的歩驟前,能夠?qū)Ξ?dāng)前網(wǎng)頁的真實(shí)性作出判斷,避免冒然提交個(gè)人數(shù)據(jù)而造成相關(guān)財(cái)產(chǎn)、隱私等權(quán)益的損失。本發(fā)明的識別假冒網(wǎng)頁的系統(tǒng)100設(shè)置于網(wǎng)絡(luò)中的服務(wù)器端或任意計(jì)算機(jī)系統(tǒng)中。該服務(wù)器端或計(jì)算機(jī)系統(tǒng)包括現(xiàn)有技術(shù)中的常用模塊,容不贅述。識別假冒網(wǎng)頁的系統(tǒng)的結(jié)構(gòu)示意圖如圖1A、圖1B、圖1C、圖1D所示。本發(fā)明的該系統(tǒng)100包括寄生網(wǎng)頁社區(qū)構(gòu)造模塊110和假冒網(wǎng)頁識別模塊120。識別假冒網(wǎng)頁的系統(tǒng)100獲取一個(gè)網(wǎng)頁P(yáng)的地址,對該網(wǎng)頁的真實(shí)性進(jìn)行判斷,該識別假冒網(wǎng)頁的系統(tǒng)100可以通過網(wǎng)絡(luò)接收客戶端的地址,或者,直接通過該識別假冒網(wǎng)頁的系統(tǒng)100的輸入裝置而獲取該地址。由于假冒網(wǎng)頁通常在視覺效果上與真實(shí)網(wǎng)站的網(wǎng)頁具備較高的相似度,同時(shí),假冒網(wǎng)頁也通常與真實(shí)網(wǎng)站的網(wǎng)頁相關(guān)聯(lián),例如,具備直接指向該真實(shí)網(wǎng)站的網(wǎng)頁的鏈接等,故而,本發(fā)明利用寄生網(wǎng)頁社區(qū)構(gòu)造模塊110,構(gòu)建與網(wǎng)頁P(yáng)具備關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū)。也就是說,首先挖掘與網(wǎng)頁P(yáng)存在直接指向和/或具備頁面內(nèi)容相關(guān)性的網(wǎng)頁,再利用假冒網(wǎng)頁識別模塊120從中識別存在假冒關(guān)系的網(wǎng)頁,g卩,通過該網(wǎng)頁P(yáng)所寄生的網(wǎng)頁集合,分析該網(wǎng)頁P(yáng)的真實(shí)性,并識別出被網(wǎng)頁P(yáng)假冒的真實(shí)網(wǎng)頁。該寄生網(wǎng)頁社區(qū)構(gòu)造模塊110中進(jìn)一步包括初始關(guān)聯(lián)網(wǎng)頁集構(gòu)建模塊111,用于根據(jù)該給定網(wǎng)頁P(yáng)建立一初始關(guān)聯(lián)網(wǎng)頁集。該初始關(guān)聯(lián)網(wǎng)頁集包括與該給定的網(wǎng)頁P(yáng)直接關(guān)聯(lián)或間接關(guān)聯(lián)的網(wǎng)頁,或者同時(shí)包括與該給定的網(wǎng)頁P(yáng)直接關(guān)聯(lián)和間接關(guān)聯(lián)的網(wǎng)頁,但不包括該給定網(wǎng)頁P(yáng)。艮P,首先構(gòu)建一個(gè)空的關(guān)聯(lián)網(wǎng)頁集A,根據(jù)該給定網(wǎng)頁P(yáng),尋找與P關(guān)聯(lián)的網(wǎng)頁并加入到關(guān)聯(lián)網(wǎng)頁集A中,形成初始關(guān)聯(lián)網(wǎng)頁集。網(wǎng)絡(luò)圖構(gòu)建模塊112,用于根據(jù)該初始關(guān)聯(lián)網(wǎng)頁集,獲取與該初始關(guān)聯(lián)網(wǎng)頁集中的初始關(guān)聯(lián)網(wǎng)頁具備關(guān)聯(lián)關(guān)系的網(wǎng)頁,并根據(jù)該網(wǎng)頁間的關(guān)系構(gòu)建網(wǎng)絡(luò)網(wǎng)絡(luò)圖分割模塊113,利用分割算法對該網(wǎng)絡(luò)圖進(jìn)行分割,以得到與該給定頁面具備緊密關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū)。在本申請的另一具體實(shí)施例中,該寄生網(wǎng)頁社區(qū)構(gòu)造模塊no中還可以包括修正模塊114,用于對該初始關(guān)聯(lián)網(wǎng)頁集進(jìn)行修正,修正后的初始關(guān)聯(lián)網(wǎng)頁集發(fā)送至該網(wǎng)絡(luò)圖構(gòu)建模塊,循環(huán)執(zhí)行網(wǎng)絡(luò)圖構(gòu)建模塊112和網(wǎng)絡(luò)圖分割模塊113,以構(gòu)建具備極為緊密關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū)。以下結(jié)合上述識別假冒網(wǎng)頁的系統(tǒng)結(jié)構(gòu)示意1,介紹本申請的識別假冒網(wǎng)頁的方法。圖2所示為本發(fā)明的識別假冒網(wǎng)頁的方法流程圖。歩驟201,利用寄生網(wǎng)頁社區(qū)構(gòu)造模塊110針對用戶給定的網(wǎng)頁P(yáng),構(gòu)造與該給定網(wǎng)頁具備關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū);步驟202,利用假冒網(wǎng)頁識別模塊120逐個(gè)計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù),根據(jù)每個(gè)網(wǎng)頁的寄生因數(shù),判斷該給定網(wǎng)頁與寄生網(wǎng)頁社區(qū)中的網(wǎng)頁是否存在假冒關(guān)系。圖3A、3B所示為本發(fā)明的識別假冒網(wǎng)頁的具體方法流程圖,請同時(shí)參考圖1A、圖1B、圖1C、圖1D。該步驟201包括如下步驟步驟301,用戶提供一給定網(wǎng)頁P(yáng)的地址至識別假冒網(wǎng)頁的系統(tǒng)。歩驟302,初始關(guān)聯(lián)網(wǎng)頁集構(gòu)建模塊111接收該給定網(wǎng)頁P(yáng)的地址,根據(jù)該給定網(wǎng)頁P(yáng)建立該給定網(wǎng)頁的初始關(guān)聯(lián)網(wǎng)頁集,該初始關(guān)聯(lián)網(wǎng)頁集包括與該網(wǎng)頁P(yáng)直接關(guān)聯(lián)和/或間接關(guān)聯(lián)的網(wǎng)頁。由于假冒網(wǎng)頁在一定程度上與真實(shí)網(wǎng)頁存在相似性或關(guān)聯(lián)性,故而,欲確認(rèn)給定網(wǎng)頁是否為假冒網(wǎng)頁,假冒的是哪個(gè)真實(shí)網(wǎng)站的網(wǎng)頁,需首先確定該給定網(wǎng)頁與哪些網(wǎng)頁存在關(guān)聯(lián)關(guān)系,再從中進(jìn)行識別。在本歩驟中,可首先構(gòu)建一個(gè)空的關(guān)聯(lián)網(wǎng)頁集A,接收該給定網(wǎng)頁P(yáng),尋找與P關(guān)聯(lián)的網(wǎng)頁并加入關(guān)聯(lián)網(wǎng)頁集A,以形成初始關(guān)聯(lián)網(wǎng)頁集,該初始關(guān)聯(lián)網(wǎng)頁集A包括與該網(wǎng)頁P(yáng)直接關(guān)聯(lián)和/或間接關(guān)聯(lián)的網(wǎng)頁。其中,該直接關(guān)聯(lián)的網(wǎng)頁為與給定網(wǎng)頁P(yáng)存在直接關(guān)聯(lián)關(guān)系的網(wǎng)頁,例如包括但不限于該給定網(wǎng)頁P(yáng)中的鏈接所指向的網(wǎng)頁。該間接關(guān)聯(lián)的網(wǎng)頁為與給定網(wǎng)頁P(yáng)存在間接關(guān)聯(lián)關(guān)系的網(wǎng)頁,例如包括但不限于,具有相同或相似的文本和/或視覺信息的網(wǎng)頁。在一實(shí)施例中,步驟302進(jìn)一步包括步驟3021,在搜索引擎中檢索關(guān)鍵詞,得到該間接關(guān)聯(lián)的網(wǎng)頁。該關(guān)鍵詞包括但不限于該網(wǎng)頁P(yáng)的標(biāo)題、Meta標(biāo)記和網(wǎng)頁中出現(xiàn)頻率高于一預(yù)設(shè)閾值的高頻單詞中的一種或幾種?;蛘?進(jìn)行基于視覺相似度的搜索(見〃AStatisticalBigramCorrelationModelforImageRetrieval,"USPatent#6,901,411,issueddate:May31,2005,Inventors:LiMingjing,ChenZhen,LiuWenyin,andZhangHongjiang。還有很多關(guān)于基于視覺相似度的搜索的論文,如MichaelS.Lew'"Next-GenerationWebSearchesforVisualContent,,,Computer33(11):46-53,November2000。Datta,Ritendm;DhirajJoshi,JiaLi,JamesZ.Wang(2008)."ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge〃.層Co卿tingS附eys40(2),Article#5,April2008也介紹了很多相關(guān)論文),即搜索包含該給定網(wǎng)頁P(yáng)中類似視覺元素(例如圖片、Flash等)的網(wǎng)頁,得到該間接關(guān)聯(lián)的網(wǎng)頁。步驟303,網(wǎng)絡(luò)圖構(gòu)建模塊112根據(jù)該初始關(guān)聯(lián)網(wǎng)頁集A,進(jìn)一歩獲取與該初始關(guān)聯(lián)網(wǎng)頁集A中的初始關(guān)聯(lián)網(wǎng)頁具備關(guān)聯(lián)關(guān)系的網(wǎng)頁,并根據(jù)該網(wǎng)頁間的關(guān)系構(gòu)建網(wǎng)絡(luò)圖。本步驟用于進(jìn)一步挖掘與給定網(wǎng)頁存在關(guān)聯(lián)關(guān)系的網(wǎng)頁,并擴(kuò)大該關(guān)聯(lián)網(wǎng)頁集的范圍。在本發(fā)明的一個(gè)實(shí)施例中,網(wǎng)絡(luò)圖用G二(V,E)表示,其中,V表示點(diǎn)的集合,即為初始網(wǎng)頁集A中的所有網(wǎng)頁;E表示連接兩個(gè)點(diǎn)的邊的集合,初始為空。網(wǎng)絡(luò)圖G的構(gòu)建過程為首先通過前向鏈接和/或反向鏈接找到與初始關(guān)聯(lián)網(wǎng)頁集A中的網(wǎng)頁相關(guān)聯(lián)的網(wǎng)頁,從而得到一個(gè)新的網(wǎng)頁集N和鏈接集L。把他們分別加到V和E中,即G—A+N,L)。然后,通過前向鏈接找到與N中的網(wǎng)頁相關(guān)聯(lián)的網(wǎng)頁,從而,得到一個(gè)新的網(wǎng)頁集礦和鏈接集丄',同樣加到網(wǎng)絡(luò)圖中,即G"A+N+W',L+丄')。該歩驟303中進(jìn)一步包括步驟3031,利用判斷模塊1121判斷網(wǎng)頁P(yáng)是否出現(xiàn)在該新找到的網(wǎng)頁集中,如果出現(xiàn),即Pe(A^J,),那么,p的寄生社區(qū)為NULL,并且認(rèn)定其為合法網(wǎng)站,整個(gè)過程結(jié)束。由于通常情況下,假冒網(wǎng)頁存在指向真實(shí)網(wǎng)頁的鏈接,而真實(shí)網(wǎng)頁不存在指向假冒網(wǎng)頁的鏈接,真實(shí)網(wǎng)頁只存在指向其他真實(shí)網(wǎng)頁的鏈接,故而,通過前向鏈接以及反向鏈接所找到的網(wǎng)頁,如果能夠包括網(wǎng)頁P(yáng),證明該網(wǎng)頁P(yáng)為真實(shí)網(wǎng)頁。如果不能夠包括該網(wǎng)頁P(yáng),則該網(wǎng)頁P(yáng)有可能是假冒網(wǎng)頁,繼續(xù)執(zhí)行后續(xù)的步驟。步驟304,利用網(wǎng)絡(luò)圖分割模塊113采用分割算法對該網(wǎng)絡(luò)圖進(jìn)行分割,生成與該給定頁面具備緊密關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū)。在本發(fā)明的一個(gè)實(shí)施例中,利用現(xiàn)有技術(shù)中的s-1最小切割算法(見T.H.Cormen,C.E.Leiserson,andR.L.Rivest.Introductiontoalgorithms.MITPressandMcGraw-HillBookCompany,6thedition,1992.,the"maximumflowminimumcut"theoreminTheorem26.7,page657)分害廿該網(wǎng)絡(luò)圖。根據(jù)該算法,首先生成一個(gè)源(source)s和一個(gè)匯(sink)t,把他們加到網(wǎng)絡(luò)圖中,鏈接s到A中所有網(wǎng)頁(每條生成的邊的容量為無窮大),生成一個(gè)新的鏈接集Ls;鏈接^中的所有網(wǎng)頁到t(每條生成的邊的容量為無窮大),生成一個(gè)新的鏈接集Lt。將Ls,Lt加到網(wǎng)絡(luò)圖中,從而,G=(s+t+A+N+W',Ls+Lt+L+Z*)。上述步驟的實(shí)現(xiàn)例如為1procedureAddGraph(G二(V,E);V=A+N+N*,E二L+L氺)2Createvertexs,addstoV3forallvGA,4Createedgee=(s,v),c(s,v)=°°,addeto5endfor6Createvertext,addttoV7forallu£N*,8Createedgee=(u,t),c(u,t)二00,addeto9endfor10Addand"toE11endprocedure這時(shí),通過最大網(wǎng)絡(luò)流算法(見T.H.Cormen,C.E.Leiserson,andR.LRivest.Introductiontoalgorithms.MITPressandMcGraw-HillBookCompany,6thedition,1992.)計(jì)算上述步驟獲得的網(wǎng)絡(luò)圖G中在邊的容量限制下s到t的最大網(wǎng)絡(luò)流。當(dāng)該網(wǎng)絡(luò)圖達(dá)到最大網(wǎng)絡(luò)流狀態(tài)時(shí),匯集網(wǎng)絡(luò)圖中仍可從s導(dǎo)入更多流量的點(diǎn)(網(wǎng)頁)即得到寄生社區(qū)。SP,通過計(jì)算得到網(wǎng)絡(luò)圖中關(guān)聯(lián)關(guān)系最為緊密的網(wǎng)頁集合,以獲得關(guān)聯(lián)程度最高的寄生網(wǎng)頁社區(qū),提高假冒網(wǎng)頁識別的精度。在另一實(shí)施例中,參見圖3B,步驟201可以進(jìn)一步包括步驟305,基于步驟304中所得到的寄生網(wǎng)頁社區(qū),利用修正模塊114對該當(dāng)前關(guān)聯(lián)網(wǎng)頁集A進(jìn)行修正,并循環(huán)執(zhí)行步驟303,該修正模塊114進(jìn)一步包括一出入度計(jì)算模塊1141、一寄生因數(shù)計(jì)算模塊1142,以及一處理模塊1143。該出入度計(jì)算模塊用來計(jì)算該當(dāng)前關(guān)聯(lián)網(wǎng)頁集A中的網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的網(wǎng)頁的入度和出度;該寄生因數(shù)計(jì)算模塊1142用來計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù);該處理模塊用來向當(dāng)前關(guān)聯(lián)網(wǎng)頁集A中添加積極網(wǎng)頁和/或刪除消極網(wǎng)頁。該積極網(wǎng)頁為屬于該寄生網(wǎng)頁社區(qū),卻不屬于該當(dāng)前關(guān)聯(lián)網(wǎng)頁集A的網(wǎng)頁,并且對于該寄生網(wǎng)頁社區(qū)具有最大入度或出度,該消極網(wǎng)頁為屬于該當(dāng)前關(guān)聯(lián)網(wǎng)頁集A,并且對于該寄生網(wǎng)頁社區(qū)的出度和入度的和小于第一預(yù)設(shè)閾值。該積極網(wǎng)頁也可以為,屬于該寄生網(wǎng)頁社區(qū),卻不屬于該當(dāng)前關(guān)聯(lián)網(wǎng)頁集A的網(wǎng)頁,并且寄生因數(shù)大于第二預(yù)設(shè)閾值(例如0.8)的網(wǎng)頁,該消極網(wǎng)頁也可以為,屬于該當(dāng)前關(guān)聯(lián)網(wǎng)頁集A,并且寄生因數(shù)小于第三預(yù)設(shè)閾值(例如0.2)的網(wǎng)頁。該第二、第三閾值在特殊情況下也可以相等。有關(guān)寄生因數(shù)的計(jì)算見后述。通過上述修正,使得初始關(guān)聯(lián)網(wǎng)頁集A覆蓋的范圍更廣,同時(shí)獲得了那些與其他網(wǎng)頁聯(lián)系最為緊密的網(wǎng)頁,以挖掘出給定網(wǎng)頁P(yáng)所緊密寄生的寄生網(wǎng)頁社區(qū),使得識別假冒網(wǎng)頁的精度更高。該步驟305進(jìn)一步包括一步驟3051,利用終止條件判斷模塊1144,判斷修正后的關(guān)聯(lián)網(wǎng)頁集A是否變化,如果未變化,執(zhí)行歩驟202,如果變化,循環(huán)執(zhí)行步驟303。該步驟304可以進(jìn)一步包括一步驟3041,利用判斷模塊1131,判斷該循環(huán)執(zhí)行的次數(shù)是否超過一次數(shù)閾值,如果超過,執(zhí)行后續(xù)的步驟202,如果未超過,繼續(xù)執(zhí)行步驟305。該步驟202進(jìn)一步包括:、該假冒網(wǎng)頁識別模塊120進(jìn)一步包括一計(jì)算模塊121,與寄生因數(shù)計(jì)算模17<formula>formulaseeoriginaldocumentpage18</formula>塊1142相同,該計(jì)算模塊121用于計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù)。該寄生因數(shù)通過如下方式計(jì)算步驟2021,以網(wǎng)頁i為該給定的網(wǎng)頁,網(wǎng)頁j為通過歩驟201所得到的寄生網(wǎng)頁社區(qū)中的一個(gè)網(wǎng)頁。用Pe^"代表網(wǎng)頁i對網(wǎng)頁j的寄生因數(shù),的值越大,網(wǎng)頁i和網(wǎng)頁j之間的寄生關(guān)系越強(qiáng)烈,這樣,擁有最大^^""值(并且^e^值大于一預(yù)設(shè)閾值,且一預(yù)設(shè)閾值要大于1)的網(wǎng)頁所在的網(wǎng)站即為該給定的網(wǎng)頁所假冒的對象,可斷定該網(wǎng)頁i與網(wǎng)頁j之間存在假冒關(guān)系,網(wǎng)頁i為假冒網(wǎng)頁。^e^計(jì)算公式如下,=-^其中,^^""代表寄生因數(shù);^"m"代表網(wǎng)頁i對網(wǎng)頁j的寄生因子。代表網(wǎng)頁j對網(wǎng)頁i的寄生因子。步驟2021中進(jìn)一步包括一對^^進(jìn)行判斷的步驟,當(dāng)&、小于某一預(yù)設(shè)閾值(如O.1)時(shí),令^^^為零。在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)網(wǎng)頁間的直接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度和間接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度來計(jì)算寄生因子,如,尸"ra^=Dy+(1_其中,^代表網(wǎng)頁i對網(wǎng)頁j的寄生因子;A代表從網(wǎng)頁i到網(wǎng)頁j的直接關(guān)聯(lián)度;々代表從網(wǎng)頁i到網(wǎng)頁j的間接關(guān)聯(lián)度;"代表協(xié)調(diào)系數(shù)。在本發(fā)明的一個(gè)實(shí)施例中,直接關(guān)聯(lián)度為網(wǎng)頁i與網(wǎng)頁j之間所有直接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度的加權(quán)平均hij其中,A代表從網(wǎng)頁i到網(wǎng)頁j的直接關(guān)聯(lián)度;",)代表從網(wǎng)頁i到網(wǎng)頁j在第k種直接關(guān)聯(lián)關(guān)系上的關(guān)聯(lián)度,^為第k種直接關(guān)聯(lián)關(guān)系的權(quán)值,K為直接關(guān)聯(lián)關(guān)系的總數(shù)。例如,設(shè)定以前向鏈接作為一種直接關(guān)聯(lián)關(guān)系,上述的。"("以、表示。<formula>formulaseeoriginaldocumentpage18</formula>其中,^代表從網(wǎng)頁i到網(wǎng)頁j的前向鏈接關(guān)聯(lián)度;A^代表從網(wǎng)頁i指向網(wǎng)頁j所在網(wǎng)站的所有前向鏈接數(shù);WZ'代表網(wǎng)頁i中的所有鏈接數(shù)。在本發(fā)明的一個(gè)實(shí)施例中,間接關(guān)聯(lián)度為所有間接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度的加權(quán)平均其中,A'代表從網(wǎng)頁i到網(wǎng)頁j的間接關(guān)聯(lián)度;7"代表第k種間接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;^為第k種間接關(guān)聯(lián)關(guān)系的權(quán)值,K為間接關(guān)聯(lián)關(guān)系的總數(shù)。在本發(fā)明的一個(gè)實(shí)施例中,間接關(guān)聯(lián)關(guān)系""包括但不限于排序關(guān)聯(lián)關(guān)系、相似關(guān)聯(lián)關(guān)系等。其中,排序關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度由下式計(jì)算,其中,^代表從網(wǎng)頁i到網(wǎng)頁j的所有排序關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;^("代表利用網(wǎng)頁i的第k個(gè)源中抽取的關(guān)鍵詞作為關(guān)鍵字在該計(jì)算模塊的搜索引擎中搜索,網(wǎng)頁j在搜索結(jié)果中的排序關(guān)聯(lián)度;^為《,)的權(quán)值,K為源的總數(shù)。該用于抽取關(guān)鍵詞的源包括但不限于標(biāo)題、Meta標(biāo)記、網(wǎng)頁正文等。抽取的關(guān)鍵詞為這些源中出現(xiàn)的高頻單詞。對于網(wǎng)頁中高頻單詞的確認(rèn),即為確認(rèn)出現(xiàn)次數(shù)高于一個(gè)頻率閾值,屬于現(xiàn)有技術(shù)中的公知常識,在此不贅述。其中,""由下式計(jì)算,"乂,其中,""代表利用網(wǎng)頁i的第k個(gè)源中抽取的關(guān)鍵詞作為關(guān)鍵字在搜索引擎中搜索,網(wǎng)頁j在搜索結(jié)果中的排序關(guān)聯(lián)度;^代表考慮的搜索結(jié)果的數(shù)量;《代表網(wǎng)頁j在搜索結(jié)果中的排序位次。在本發(fā)明的一個(gè)實(shí)施例中,相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度由下式計(jì)算,"i,其中,^代表從網(wǎng)頁i到網(wǎng)頁j的相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;"V"代表從網(wǎng)頁i到網(wǎng)頁j的根據(jù)網(wǎng)頁i的第k個(gè)源中抽取的特征計(jì)算的相似關(guān)聯(lián)度,該特征包括但不限于文本特征、視覺特征、整體布局特征中的一種或幾種;%為&的權(quán)值,K為源的總數(shù),該源包括但不限于標(biāo)題、Meta標(biāo)記、網(wǎng)頁中出現(xiàn)的高頻單詞、視覺特征源、整體布局特征源中的一種或幾種。其中,根據(jù)Tversky提出的相似度模型(A.Tversky.Featuresofsimilarity.PsychoJogicaJWeWew84(4):327-352.),可由下式計(jì)算(以文本特征為例),7;(yt)o7;(yt)其中,代表從網(wǎng)頁i到網(wǎng)頁j的根據(jù)網(wǎng)頁i的第k個(gè)源中抽取的特征計(jì)算的相似關(guān)聯(lián)度;^"代表從網(wǎng)頁i的第k個(gè)源中抽取的特征,代表^)和^("共有的特征數(shù);1^)l代表^)所包含的特征數(shù)?;谏鲜龉?,可計(jì)算得到該給定網(wǎng)頁與每個(gè)寄生網(wǎng)頁社區(qū)中的網(wǎng)頁之間的寄生因數(shù)。隨后,步驟2022,利用一識別模塊122對寄生因數(shù)進(jìn)行判斷,對于大于某一預(yù)設(shè)閾值的最大的寄生因數(shù),認(rèn)定其對應(yīng)的網(wǎng)頁與該給定網(wǎng)頁存在假冒關(guān)系,即認(rèn)定該給定網(wǎng)頁假冒了該最大寄生因數(shù)對應(yīng)的網(wǎng)頁。在一個(gè)實(shí)施例中,本發(fā)明的網(wǎng)絡(luò)應(yīng)用程序,其界面如圖4所示,用戶可以在上方文本框中輸入任意一個(gè)網(wǎng)頁的網(wǎng)址,作為給定網(wǎng)頁P(yáng)。當(dāng)用戶點(diǎn)擊"査真假"按鈕后,該應(yīng)用程序?qū)⒏鶕?jù)本發(fā)明中方法構(gòu)造該網(wǎng)頁對應(yīng)的寄生社區(qū);然后計(jì)算該網(wǎng)頁和該寄生社區(qū)中網(wǎng)頁的寄生因數(shù),超過某一預(yù)設(shè)閾值的最大的寄生因數(shù)對應(yīng)的該寄生社區(qū)中的網(wǎng)頁作為假冒對象。在本發(fā)明的一個(gè)實(shí)施例中,從PhishTank(http:〃麗.phishtank.com/)中選擇以61個(gè)著名網(wǎng)站為被假冒對象的1000個(gè)假冒網(wǎng)頁為測試數(shù)據(jù)集,來測試本發(fā)明方法的自動識別正確率;此外,另選取1000個(gè)合法網(wǎng)站(其中包括500個(gè)著名網(wǎng)站,500個(gè)普通網(wǎng)站),來測試本發(fā)明方法的錯(cuò)誤率。在本發(fā)明的一個(gè)實(shí)施例中,以如下方程來計(jì)算識別正確率Jccwracyi她=其中,^代表被假冒對象被正確識別的給定網(wǎng)頁(假冒網(wǎng)頁)數(shù);代表實(shí)驗(yàn)中測試的初始網(wǎng)頁(假冒網(wǎng)頁)的總數(shù)。表1為iooo個(gè)假冒網(wǎng)頁的識別正確率。表l自動識別假冒對象正確率測試結(jié)果<table>tableseeoriginaldocumentpage20</column></row><table>如表2所示,為假冒該61個(gè)著名網(wǎng)站中的一部分的假冒網(wǎng)頁的識別正確表2假冒部分著名網(wǎng)站的假冒網(wǎng)頁的識別正確率<table>tableseeoriginaldocumentpage21</column></row><table>在本發(fā)明的一個(gè)實(shí)施例中,以如下方式計(jì)算識別錯(cuò)誤率:<formula>formulaseeoriginaldocumentpage21</formula>其中,^p代表沒有識別到被假冒對象的給定的網(wǎng)頁數(shù),代表該給定網(wǎng)頁為合法網(wǎng)頁;^代表實(shí)驗(yàn)中測試的所有合法網(wǎng)頁數(shù)。如表3所示,為著名合法網(wǎng)站測試結(jié)果。表3著名網(wǎng)站識別錯(cuò)誤率測試結(jié)果<formula>formulaseeoriginaldocumentpage22</formula>如表4所示,為普通合法網(wǎng)站測試結(jié)果表4普通合法網(wǎng)站識別錯(cuò)誤率測試結(jié)果<formula>formulaseeoriginaldocumentpage22</formula>11.4%從表1-4中可見,本發(fā)明方法能夠得到較高正確率,性能較好。在本發(fā)明的一個(gè)實(shí)施例中,將本發(fā)明方法與CANTINA的方法(Y.Zhang,丄I.HongandL.F.Cranor.Cantina:acontent-basedapproachtodetectingphishingwebsites.Proc.『,2007,pp.639-648,2007.)進(jìn)行了比較。CANTINA將給定網(wǎng)頁的文本特征(由網(wǎng)頁中5個(gè)詞頻最高的單詞組成)作為關(guān)鍵詞在Google中搜索,如果給定網(wǎng)頁出現(xiàn)在前N(如30)個(gè)搜索結(jié)果中,其認(rèn)為該給定網(wǎng)頁為合法網(wǎng)頁。該方法是基于以下假設(shè)的,即Google索引了大量合法網(wǎng)站,并且和與假冒網(wǎng)站相比,合法網(wǎng)站具有較高的排序。選取200個(gè)合法網(wǎng)頁(其中100個(gè)著名網(wǎng)站,100個(gè)普通網(wǎng)頁),來比較本發(fā)明方法和CANTINA的方法的性能。如表5所示,表5本發(fā)明方法和CANTINA的方法性能比較網(wǎng)頁數(shù)CANTINA的方法錯(cuò)誤率本發(fā)明方法錯(cuò)誤率著名網(wǎng)站10018.8%7.8%普通網(wǎng)站10033.3%11.4%從表5可見,相對于著名網(wǎng)頁,兩個(gè)方法對于普通網(wǎng)頁錯(cuò)誤率都較高。對于CANTINA的方法,是由于普通網(wǎng)頁在搜索結(jié)果中排序較低。此外,其有效性要依靠抽取的文本特征的正確性。本發(fā)明的方法同樣要利用搜索引擎計(jì)算排序相關(guān)度,因此,對于普通網(wǎng)頁,錯(cuò)誤率也會上升。然而,本發(fā)明還要計(jì)算直接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度以及相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度,有助于降低錯(cuò)誤率。本發(fā)明實(shí)現(xiàn)的效果在于,根據(jù)給定的網(wǎng)頁,識別出其是否為一假冒網(wǎng)頁,識別出與該給定網(wǎng)頁存在假冒關(guān)系的網(wǎng)頁,S口,該假冒網(wǎng)頁所模仿的真實(shí)網(wǎng)站的網(wǎng)頁,避免冒然提交個(gè)人數(shù)據(jù)而造成相關(guān)財(cái)產(chǎn)、隱私等權(quán)益的損失。同時(shí),本發(fā)明的識別方法準(zhǔn)確率高,操作方便。2權(quán)利要求1、一種識別假冒網(wǎng)頁的方法,其特征在于,包括以下步驟步驟1,針對一給定網(wǎng)頁,構(gòu)造與該給定網(wǎng)頁具備關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū);步驟2,逐個(gè)計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù),根據(jù)每個(gè)網(wǎng)頁的寄生因數(shù),判斷該給定網(wǎng)頁與寄生網(wǎng)頁社區(qū)中的網(wǎng)頁是否存在假冒關(guān)系。2、如權(quán)利要求l所述的識別假冒網(wǎng)頁的方法,其特征在于,該步驟l包括步驟ll,建立該給定網(wǎng)頁的初始關(guān)聯(lián)網(wǎng)頁集,該初始關(guān)聯(lián)網(wǎng)頁集包括與該給定網(wǎng)頁直接關(guān)聯(lián)和/或間接關(guān)聯(lián)的網(wǎng)頁;步驟12,根據(jù)該初始關(guān)聯(lián)網(wǎng)頁集,進(jìn)一步獲取與初始關(guān)聯(lián)網(wǎng)頁具備關(guān)聯(lián)關(guān)系的網(wǎng)頁,并根據(jù)該網(wǎng)頁間的關(guān)系構(gòu)建網(wǎng)絡(luò)圖;步驟13,利用分割算法對該網(wǎng)絡(luò)圖進(jìn)行分割,以得到與該給定網(wǎng)頁具備緊密關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū)。3、如權(quán)利要求2所述的識別假冒網(wǎng)頁的方法,其特征在于,與該給定網(wǎng)頁直接關(guān)聯(lián)的網(wǎng)頁包括該給定網(wǎng)頁中的鏈接所指向的網(wǎng)頁。4、如權(quán)利要求2所述的識別假冒網(wǎng)頁的方法,其特征在于,與該給定網(wǎng)頁間接關(guān)聯(lián)的網(wǎng)頁包括與該給定網(wǎng)頁具備相同或相似的文本和/或視覺信息的網(wǎng)頁。5、如權(quán)利要求4所述的識別假冒網(wǎng)頁的方法,其特征在于,通過在搜索引擎中搜索該給定網(wǎng)頁中的關(guān)鍵詞和/或通過視覺搜索獲得該間接關(guān)聯(lián)的網(wǎng)頁。6、如權(quán)利要求5所述的識別假冒網(wǎng)頁的方法,其特征在于,該關(guān)鍵詞包括該給定網(wǎng)頁的標(biāo)題、Meta標(biāo)記和該給定網(wǎng)頁中出現(xiàn)的高頻單詞中的一種或幾種。7、如權(quán)利要求2所述的識別假冒網(wǎng)頁的方法,其特征在于,步驟12中,通過前向鏈接和/或反向鏈接找到與該初始關(guān)聯(lián)網(wǎng)頁集關(guān)聯(lián)的網(wǎng)頁。8、如權(quán)利要求2所述的識別假冒網(wǎng)頁的方法,其特征在于,該步驟12進(jìn)一步包括判斷該網(wǎng)絡(luò)圖中是否包括該給定網(wǎng)頁,如果不包括,繼續(xù)執(zhí)行步驟13,如果包括,結(jié)束。9、如權(quán)利要求2所述的識別假冒網(wǎng)頁的方法,其特征在于,該分割算法為s-t最小切割算法。10、如權(quán)利要求2至9中任一所述的識別假冒網(wǎng)頁的方法,其特征在于,在步驟13之后步驟2之前,還包括歩驟14,對該初始關(guān)聯(lián)網(wǎng)頁集進(jìn)行修正,然后循環(huán)執(zhí)行步驟12。11、如權(quán)利要求io所述的識別假冒網(wǎng)頁的方法,其特征在于,步驟14進(jìn)一步包括判斷修正后的初始關(guān)聯(lián)網(wǎng)頁集是否發(fā)生變化,如果未發(fā)生變化,執(zhí)行步驟2,如果發(fā)生變化,循環(huán)執(zhí)行步驟12。12、如權(quán)利要求10所述的識別假冒網(wǎng)頁的方法,其特征在于,步驟13進(jìn)一步包括判斷該循環(huán)執(zhí)行的次數(shù)是否超過一個(gè)次數(shù)閾值,如果超過,執(zhí)行步驟2,如果未超過,繼續(xù)執(zhí)行步驟14。13、如權(quán)利要求10所述的識別假冒網(wǎng)頁的方法,其特征在于,該修正歩驟14包括向該初始關(guān)聯(lián)網(wǎng)頁集添加積極網(wǎng)頁和/或刪除消極網(wǎng)頁;該積極網(wǎng)頁為屬于該寄生網(wǎng)頁社區(qū),卻不屬于該初始關(guān)聯(lián)網(wǎng)頁集,并且對于該寄生網(wǎng)頁社區(qū)具有最大入度或出度的網(wǎng)頁,或者,該積極網(wǎng)頁為屬于該寄生網(wǎng)頁社區(qū),卻不屬于該初始關(guān)聯(lián)網(wǎng)頁集,寄生因數(shù)大于第二預(yù)設(shè)閾值的網(wǎng)頁;該消極網(wǎng)頁為屬于該初始關(guān)聯(lián)網(wǎng)頁集并且對于該寄生網(wǎng)頁社區(qū)的出度與入度的和小于第一預(yù)設(shè)閾值的網(wǎng)頁,或者,該消極網(wǎng)頁為屬于當(dāng)前關(guān)聯(lián)網(wǎng)頁集,寄生因數(shù)小于第三預(yù)設(shè)閾值的網(wǎng)頁。14、如權(quán)利要求1或13所述的識別假冒網(wǎng)頁的方法,其特征在于,所述寄生因數(shù)的計(jì)算方法為Pan,,尸a^=-^其中,P^^代表網(wǎng)頁i對網(wǎng)頁j的寄生因數(shù);^^代表網(wǎng)頁i對網(wǎng)頁j的寄生因子;i^代表網(wǎng)頁j對網(wǎng)頁i的寄生因子。15、如權(quán)利要求14所述的識別假冒網(wǎng)頁的方法,其特征在于,/V/ra,,=aZ)〃+(1—a)/,其中,^,代表網(wǎng)頁i對網(wǎng)頁j的寄生因子;"代表從網(wǎng)頁i到網(wǎng)頁j的直接關(guān)聯(lián)度;7"代表從網(wǎng)頁i到網(wǎng)頁j的間接關(guān)聯(lián)度;"代表協(xié)調(diào)系數(shù)。16、如權(quán)利要求15所述的識別假冒網(wǎng)頁的方法,其特征在于,所述直接關(guān)聯(lián)度為所有的直接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度的加權(quán)平均其中,""代表從網(wǎng)頁i到網(wǎng)頁j的直接關(guān)聯(lián)度;D"("代表第k種直接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度,%為第k種直接關(guān)聯(lián)關(guān)系的權(quán)值,K為直接關(guān)聯(lián)關(guān)系的總數(shù)。17、如權(quán)利要求16所述的識別假冒網(wǎng)頁的方法,其特征在于,該直接關(guān)聯(lián)關(guān)系包括前向鏈接,其關(guān)聯(lián)度為7V厶<formula>formulaseeoriginaldocumentpage4</formula>其中,^代表從網(wǎng)頁i到網(wǎng)頁j的前向鏈接關(guān)聯(lián)度;W工"代表從網(wǎng)頁i指向網(wǎng)頁j所在網(wǎng)站的所有前向鏈接數(shù);W^'代表網(wǎng)頁i中的所有鏈接數(shù)。18、如權(quán)利要求15所述的識別假冒網(wǎng)頁的方法,其特征在于,所述間接關(guān)聯(lián)度為所有間接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度的加權(quán)平均,其中,^代表從網(wǎng)頁i到網(wǎng)頁j的間接關(guān)聯(lián)度;7,)代表第k種間接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度,A為第k種間接關(guān)聯(lián)關(guān)系的權(quán)值,K為間接關(guān)聯(lián)關(guān)系的總數(shù)。19、如權(quán)利要求15或18所述的識別假冒網(wǎng)頁的方法,其特征在于,該間接關(guān)聯(lián)關(guān)系包括排序關(guān)聯(lián)關(guān)系、相似關(guān)聯(lián)關(guān)系。20、如權(quán)利要求19所述的識別假冒網(wǎng)頁的方法,其特征在于,排序關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度為-其中,^代表從網(wǎng)頁i到網(wǎng)頁j的排序關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;代表利用網(wǎng)頁i的第k個(gè)源中抽取的關(guān)鍵詞作為關(guān)鍵字在搜索引擎中搜索,網(wǎng)頁j在搜索結(jié)果中的排序關(guān)聯(lián)度;^為《:'的權(quán)值,K為源的總數(shù),該關(guān)鍵詞包括標(biāo)題、Meta標(biāo)記和/或網(wǎng)頁中出現(xiàn)的高頻單詞;其中,《"由下式計(jì)算,^代表考慮的搜索結(jié)果的數(shù)量;^代表網(wǎng)頁j在搜索結(jié)果中的排序位次。21、如權(quán)利要求19所述的識別假冒網(wǎng)頁的方法,其特征在于,該相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度為其中,S';代表從網(wǎng)頁i到網(wǎng)頁j的相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;w"代表從網(wǎng)頁i到網(wǎng)頁j的根據(jù)網(wǎng)頁i的第k個(gè)源中抽取的特征計(jì)算的相似關(guān)聯(lián)度,該抽取的特征包括文本特征、視覺特征和/或整體布局特征;^為~的權(quán)值,K為源的總數(shù),該源包括標(biāo)題、Meta標(biāo)記、網(wǎng)頁中出現(xiàn)的高頻單詞、視覺特征源和/或整體布局特征源;其中,&("可由下式計(jì)算,".—|洲,其中,^"代表從網(wǎng)頁i到網(wǎng)頁j的根據(jù)網(wǎng)頁i的第k個(gè)源中抽取的特征計(jì)算的相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;^"代表從網(wǎng)頁i的第k個(gè)源中抽取的特征集;1,)。^)l代表洲和^)共有的特征數(shù);1^)l代表:w所包含的特征數(shù)。22、如權(quán)利要求2所述的識別假冒網(wǎng)頁的方法,其特征在于,歩驟2中進(jìn)一步包括對寄生因數(shù)進(jìn)行判斷,認(rèn)定大于一預(yù)設(shè)閾值的最大的寄生因數(shù)對應(yīng)的網(wǎng)頁與該給定網(wǎng)頁存在假冒關(guān)系。23、一種識別假冒網(wǎng)頁的系統(tǒng),其特征在于,包括寄生網(wǎng)頁社區(qū)構(gòu)造模塊,用于根據(jù)一給定網(wǎng)頁,構(gòu)造與該給定網(wǎng)頁具備關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū);假冒網(wǎng)頁識別模塊,用于逐個(gè)計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù),根據(jù)每個(gè)網(wǎng)頁的寄生因數(shù),判斷該給定網(wǎng)頁與寄生網(wǎng)頁社區(qū)中的網(wǎng)頁是否存在假冒關(guān)系。24、如權(quán)利要求23所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該寄生網(wǎng)頁社區(qū)構(gòu)造模塊中進(jìn)一步包括初始關(guān)聯(lián)網(wǎng)頁集構(gòu)造模塊,用于根據(jù)該給定網(wǎng)頁建立一初始關(guān)聯(lián)網(wǎng)頁集,該初始關(guān)聯(lián)網(wǎng)頁集包括與該給定網(wǎng)頁直接關(guān)聯(lián)和間接關(guān)聯(lián)的網(wǎng)頁;網(wǎng)絡(luò)圖構(gòu)建模塊,用于根據(jù)該初始關(guān)聯(lián)網(wǎng)頁集,獲取與初始關(guān)聯(lián)網(wǎng)頁具備關(guān)聯(lián)關(guān)系的網(wǎng)頁,并根據(jù)該網(wǎng)頁間的關(guān)系構(gòu)建網(wǎng)絡(luò)圖;網(wǎng)絡(luò)圖分割模塊,利用分割算法對該網(wǎng)絡(luò)圖進(jìn)行分割,以得到與該給定網(wǎng)頁具備緊密關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū)。25、如權(quán)利要求24所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,與該給定網(wǎng)頁直接關(guān)聯(lián)的網(wǎng)頁包括該給定網(wǎng)頁中的鏈接所指向的網(wǎng)頁。26、如權(quán)利要求24所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,與該給定網(wǎng)頁間接關(guān)聯(lián)的網(wǎng)頁包括與該給定網(wǎng)頁具備相同或相似的文本和/或視覺信息的網(wǎng)頁。27、如權(quán)利要求26所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,與該給定網(wǎng)頁間接關(guān)聯(lián)的網(wǎng)頁,通過在搜索引擎中搜索該給定網(wǎng)頁中的關(guān)鍵詞和/或通過視覺搜索獲得。28、如權(quán)利要求27所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該關(guān)鍵詞包括該給定網(wǎng)頁的標(biāo)題、Meta標(biāo)記和該給定網(wǎng)頁中出現(xiàn)的高頻單詞中的一種或幾種。29、如權(quán)利要求24所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該網(wǎng)絡(luò)圖構(gòu)建模塊通過前向鏈接和/或反向鏈接找到與該當(dāng)前關(guān)聯(lián)網(wǎng)頁集關(guān)聯(lián)的網(wǎng)頁。30、如權(quán)利要求24所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該網(wǎng)絡(luò)圖構(gòu)建模塊中進(jìn)一步包括一判斷模塊,用于判斷該網(wǎng)絡(luò)圖中是否包括該給定網(wǎng)頁,如果不包括,將該網(wǎng)絡(luò)圖發(fā)送至該網(wǎng)絡(luò)圖分割模塊進(jìn)行處理,如果包括,結(jié)束。31、如權(quán)利要求24所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該分割算法為S-1最小切割算法。32、如權(quán)利要求24至31中任一所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該寄生網(wǎng)頁社區(qū)構(gòu)造模塊中進(jìn)一步包括-.一修正模塊,用于對該初始關(guān)聯(lián)網(wǎng)頁集進(jìn)行修正,并將修正后的初始關(guān)聯(lián)網(wǎng)頁集發(fā)送至該網(wǎng)絡(luò)圖構(gòu)建模塊。33、如權(quán)利要求32所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,所述修正模塊進(jìn)一步包括終止條件判斷模塊,判斷修正后的關(guān)聯(lián)網(wǎng)頁集是否變化,如果未發(fā)生變化,將該寄生網(wǎng)頁社區(qū)發(fā)送至該假冒網(wǎng)頁識別模塊,如果發(fā)生變化,將修正后的關(guān)聯(lián)網(wǎng)頁集發(fā)送至該網(wǎng)絡(luò)圖構(gòu)建模塊。34、如權(quán)利要求32所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該網(wǎng)絡(luò)圖分割模塊進(jìn)一歩包括一判斷模塊,用于判斷該修正的次數(shù)是否超過一個(gè)次數(shù)閾值,如果超過,將該寄生網(wǎng)頁社區(qū)發(fā)送至該假冒網(wǎng)頁識別模塊,如果未超過,將該寄生網(wǎng)頁社區(qū)發(fā)送至該修正模塊。35、如權(quán)利要求32所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該修正模塊還包括-.一處理模塊;一出入度計(jì)算模塊或者一寄生因數(shù)計(jì)算模塊;其中,該處理模塊用于向該初始關(guān)聯(lián)網(wǎng)頁集添加積極網(wǎng)頁和/或刪除消極網(wǎng)頁,該積極網(wǎng)頁為屬于該寄生網(wǎng)頁社區(qū),卻不屬于該當(dāng)前關(guān)聯(lián)網(wǎng)頁集,并且對于該寄生網(wǎng)頁社區(qū)具有最大的入度或出度,或者,該積極網(wǎng)頁為屬于該寄生網(wǎng)頁社區(qū),卻不屬于該初始關(guān)聯(lián)網(wǎng)頁集,寄生因數(shù)大于第二預(yù)設(shè)閾值的網(wǎng)頁;該消極網(wǎng)頁為屬于該初始關(guān)聯(lián)網(wǎng)頁集,并且對于該寄生網(wǎng)頁社區(qū)的出度與入度之和小于第一預(yù)設(shè)閾值的網(wǎng)頁,或者,該消極網(wǎng)頁為屬于當(dāng)前關(guān)聯(lián)網(wǎng)頁集,寄生因數(shù)小于第三預(yù)設(shè)閾值的網(wǎng)頁;該出入度計(jì)算模塊用于計(jì)算寄生網(wǎng)頁社區(qū)中所有網(wǎng)頁相對于該社區(qū)的入度和出度;該寄生因數(shù)計(jì)算模塊用于逐個(gè)計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù)。36、如權(quán)利要求23或35所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該寄生因數(shù)為其特征在于,其中,n""代表網(wǎng)頁i對網(wǎng)頁j的寄生因數(shù);P""",代表網(wǎng)頁i對網(wǎng)頁j的寄生因子;/^代表網(wǎng)頁j對網(wǎng)頁i的寄生因子。37、如權(quán)利要求36所述的識別假冒網(wǎng)頁的系統(tǒng),尸ara,,=0^,;+(1—a)/,,,其中,P"、代表網(wǎng)頁i對網(wǎng)頁j的寄生因子;A代表從網(wǎng)頁i到網(wǎng)頁j的直接關(guān)聯(lián)度;7"代表從網(wǎng)頁i到網(wǎng)頁j的間接關(guān)聯(lián)度;"代表協(xié)調(diào)系數(shù)。38、如權(quán)利要求37所述的識別假冒網(wǎng)頁的系統(tǒng),關(guān)聯(lián)度為所有的直接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度的加權(quán)平均其中,A代表從網(wǎng)頁i到網(wǎng)頁j的直接關(guān)聯(lián)度;A,)代表第k種直接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度,A為第k種直接關(guān)聯(lián)關(guān)系的權(quán)值,K為直接關(guān)聯(lián)關(guān)系的總數(shù)。39、如權(quán)利要求38所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該直接關(guān)聯(lián)關(guān)系包括前向鏈接,其關(guān)聯(lián)度為其特征在于,所述直接丄..=厄,其中,£"代表從網(wǎng)頁i到網(wǎng)頁j的前向鏈接關(guān)聯(lián)度;A^代表從網(wǎng)頁i指向網(wǎng)頁j所在網(wǎng)站的所有前向鏈接數(shù);WZ'代表網(wǎng)頁i中的所有鏈接數(shù)。40、如權(quán)利要求37所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,所述間接關(guān)聯(lián)度為所有間接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度的加權(quán)平均,"7"代表第k種間接關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度,^為第k種間接關(guān)聯(lián)關(guān)系的權(quán)值,K為間接關(guān)聯(lián)關(guān)系的總數(shù)。41、如權(quán)利要求37或40所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該間接關(guān)聯(lián)關(guān)系包括排序關(guān)聯(lián)關(guān)系、相似關(guān)聯(lián)關(guān)系。42、如權(quán)利要求41所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,排序關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度為<formula>formulaseeoriginaldocumentpage9</formula>其中,《'代表從網(wǎng)頁i到網(wǎng)頁j的排序關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;《,)代表從網(wǎng)頁i到網(wǎng)頁j的利用網(wǎng)頁i的第k個(gè)源中抽取的關(guān)鍵所詞作為關(guān)鍵字在搜索引擎中搜索,網(wǎng)頁j在搜索結(jié)果中的排序關(guān)聯(lián)度;^為""的權(quán)值,K為源的總數(shù),該關(guān)鍵詞包括標(biāo)題、Meta標(biāo)記和/或網(wǎng)頁中出現(xiàn)的高頻單詞;其中,《,)由下式計(jì)算,"乂^代表考慮的搜索結(jié)果的數(shù)量;凡代表網(wǎng)頁j在搜索結(jié)果中的排序位次。43、如權(quán)利要求41所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度為其中,^代表從網(wǎng)頁i到網(wǎng)頁j的相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;^"代表從網(wǎng)頁i到網(wǎng)頁j的根據(jù)網(wǎng)頁i的第k個(gè)源中抽取的特征計(jì)算的相似關(guān)聯(lián)度,該抽取的特征包括文本特征、視覺特征和/或整體布局特征;^為的權(quán)值,K為源的總數(shù),該源包括標(biāo)題、Meta標(biāo)記、網(wǎng)頁中出現(xiàn)的高頻單詞、視覺特征源和/或整體布局特征源;其中,W"可由下式計(jì)算,<formula>formulaseeoriginaldocumentpage9</formula>其中,&代表從網(wǎng)頁i到網(wǎng)頁j的根據(jù)網(wǎng)頁i的第k個(gè)源中抽取的特征計(jì)算的相似關(guān)聯(lián)關(guān)系的關(guān)聯(lián)度;^")代表從網(wǎng)頁i的第k個(gè)源中抽取的特征集;l洲"Wl代表""和^"共有的特征數(shù);1^)l代表^)所包含的特征數(shù)。44、如權(quán)利要求24所述的識別假冒網(wǎng)頁的系統(tǒng),其特征在于,該假冒網(wǎng)頁識別模塊進(jìn)一步包括一網(wǎng)頁判斷模塊,用于對該寄生因數(shù)進(jìn)行判斷,認(rèn)定大于一預(yù)設(shè)閾值的最大的寄生因數(shù)對應(yīng)的網(wǎng)頁與該給定網(wǎng)頁存在假冒關(guān)系。全文摘要本發(fā)明公開了一種識別假冒網(wǎng)頁的方法及系統(tǒng),該方法包括以下步驟步驟1,針對一給定網(wǎng)頁,構(gòu)造與該給定網(wǎng)頁具備關(guān)聯(lián)關(guān)系的寄生網(wǎng)頁社區(qū);步驟2,逐個(gè)計(jì)算該給定網(wǎng)頁相對該寄生網(wǎng)頁社區(qū)中的每個(gè)網(wǎng)頁的寄生因數(shù),根據(jù)每個(gè)網(wǎng)頁的寄生因數(shù),判斷該給定網(wǎng)頁與寄生網(wǎng)頁社區(qū)中的網(wǎng)頁是否存在假冒關(guān)系。本發(fā)明實(shí)現(xiàn)的效果在于,根據(jù)給定的網(wǎng)頁,識別出其是否為一假冒網(wǎng)頁,識別出與該給定網(wǎng)頁存在假冒關(guān)系的網(wǎng)頁,即,該假冒網(wǎng)頁所模仿的真實(shí)網(wǎng)站的網(wǎng)頁,避免冒然提交個(gè)人數(shù)據(jù)而造成相關(guān)財(cái)產(chǎn)、隱私等權(quán)益的損失。同時(shí),本發(fā)明的識別方法準(zhǔn)確率高,操作方便。文檔編號G06F17/30GK101436210SQ20081023973公開日2009年5月20日申請日期2008年12月16日優(yōu)先權(quán)日2008年12月16日發(fā)明者罡劉,劉文印,張加龍,邱彼特申請人:北京百問百答網(wǎng)絡(luò)技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1