亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)站識(shí)別方法及系統(tǒng)的制作方法

文檔序號(hào):10687070閱讀:235來源:國知局
網(wǎng)站識(shí)別方法及系統(tǒng)的制作方法
【專利摘要】本公開提供了一種網(wǎng)站識(shí)別方法,包括:確定需要識(shí)別的網(wǎng)站,并為所述需要識(shí)別的網(wǎng)站分配標(biāo)識(shí)值;以來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息為輸入樣本,以所述標(biāo)識(shí)值為輸出進(jìn)行深度學(xué)習(xí)以確定深度學(xué)習(xí)模型;抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息;判斷將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果是否為所述標(biāo)識(shí)值;本公開通過深度學(xué)習(xí)的方法來預(yù)先確定了一個(gè)用于判定接收到的數(shù)據(jù)信息是否為需要屏蔽的數(shù)據(jù)的深度學(xué)習(xí)模型,從而提供了一種更加便于快速高效的判定抓取到的數(shù)據(jù)包所來自的網(wǎng)站的方法和系統(tǒng)。
【專利說明】
網(wǎng)站識(shí)別方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本公開涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種網(wǎng)站識(shí)別方法及系統(tǒng)。【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,用戶每天可以從網(wǎng)絡(luò)當(dāng)中獲取各種各樣的信息,而這些信息的來源我們卻是不知道的,有些信息可能是我們真正需要的,但是有些信息卻是網(wǎng)絡(luò)強(qiáng)行推送給我們的,或者有些訪問內(nèi)容是安全的,有些內(nèi)容是存在潛在危險(xiǎn)的(例如,木馬病毒) 或者是在特定的環(huán)境下是需要進(jìn)行屏蔽的(例如,企業(yè)網(wǎng)絡(luò)中為了避免員工在工作時(shí)間觀看視頻、瀏覽購物網(wǎng)站等,就需要將來自這些網(wǎng)站的數(shù)據(jù)給屏蔽掉)??傊?,互聯(lián)網(wǎng)為我們提供海量數(shù)據(jù)信息的同時(shí)也是需要我們屏蔽或者接收來自某一數(shù)據(jù)網(wǎng)站的數(shù)據(jù)信息,這就需要識(shí)別數(shù)據(jù)信息所來自的網(wǎng)站。
[0003]現(xiàn)有技術(shù)中面對(duì)互聯(lián)網(wǎng)提供的海量的數(shù)據(jù)信息時(shí),選擇出需要的數(shù)據(jù)信息,或者屏蔽不需要的數(shù)據(jù)信息的方法為:當(dāng)需要屏蔽某一來源的數(shù)據(jù)信息時(shí)就分析該來源的數(shù)據(jù)信息存在哪些個(gè)特征信息,然后將該特征信息抽離出來,當(dāng)抓取到數(shù)據(jù)包時(shí),比較分析抓取的數(shù)據(jù)包以確定其是否包括了被標(biāo)定的特征信息,如果是則說明該信息是需要屏蔽的,如果否則表明該信息時(shí)可以接收的;此外對(duì)于只能接受有限個(gè)來源的數(shù)據(jù)的專用網(wǎng)絡(luò),相反可以提取該有限個(gè)來源的數(shù)據(jù)信息的特征信息進(jìn)行標(biāo)定,當(dāng)抓取到數(shù)據(jù)包時(shí),比較分析該數(shù)據(jù)包以確定其是否包括了別標(biāo)定的特征信息,如果是則說明該信息是可以接收的信息, 如果否則拒絕接收該數(shù)據(jù)信息;上述兩種請(qǐng)情況都需要根據(jù)對(duì)數(shù)據(jù)包識(shí)別數(shù)據(jù)包所來自的網(wǎng)站。
[0004]然而,現(xiàn)有技術(shù)的缺點(diǎn)在于,每一次抓取到來自外部的數(shù)據(jù)包后都需要解析該數(shù)據(jù)包,然后分析確定該數(shù)據(jù)包是否包括了被標(biāo)定的特征信息以識(shí)別該數(shù)據(jù)包所來自的網(wǎng)站,由于每一次都要對(duì)接收的數(shù)據(jù)信息進(jìn)行解析并做具體的分析判定需要比較大的運(yùn)算開銷,另外,由于現(xiàn)有技術(shù)中只是抽取了所謂的某一個(gè)“特征信息”來進(jìn)行后期的判定的,但這種“特征信息”可能是在不斷的變化的,因此,當(dāng)“特征信息”發(fā)生變化時(shí)就會(huì)導(dǎo)致對(duì)接收到的數(shù)據(jù)包的誤判或者漏判的情況。
【發(fā)明內(nèi)容】

[0005]本公開提供一種網(wǎng)站識(shí)別方法及系統(tǒng),用于至少解決上述技術(shù)問題之一。
[0006]—方面本公開的一實(shí)施例的網(wǎng)站識(shí)別方法,包括:
[0007]確定需要識(shí)別的網(wǎng)站,并為所述需要識(shí)別的網(wǎng)站分配標(biāo)識(shí)值;
[0008]以來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息為輸入樣本,以所述標(biāo)識(shí)值為輸出進(jìn)行深度學(xué)習(xí)以確定深度學(xué)習(xí)模型;
[0009]抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息;
[0010]判斷將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果是否為所述標(biāo)識(shí)值。
[0011]另一方面,本公開還提供一種基于深度學(xué)習(xí)的數(shù)據(jù)信息識(shí)別系統(tǒng),包括:
[0012]配置模塊,用于為確定的需要識(shí)別的網(wǎng)站分配標(biāo)識(shí)值;
[0013]深度學(xué)習(xí)模型建立模塊,用于以來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息為輸入樣本,以所述標(biāo)識(shí)值為輸出進(jìn)行深度學(xué)習(xí)以確定深度學(xué)習(xí)模型;
[0014]數(shù)據(jù)抓取模塊,用于抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息;
[0015]判斷模塊,用于判斷將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果是否為所述標(biāo)識(shí)值。
[0016]本公開的網(wǎng)站識(shí)別方法和系統(tǒng)通過深度學(xué)習(xí)的方法來預(yù)先確定了一個(gè)用于判定接收到的數(shù)據(jù)信息是否為需要識(shí)別的數(shù)據(jù)的深度學(xué)習(xí)模型,該模型是根據(jù)接收到的整個(gè)數(shù)據(jù)信息來確定的,而不是數(shù)據(jù)信息中的某一個(gè)“特征信息”確定的,綜合考慮了更多的因素, 因此通過該深度學(xué)習(xí)模型得到的識(shí)別網(wǎng)站的識(shí)別結(jié)果的準(zhǔn)確度有了極大提升,降低了對(duì)接收的數(shù)據(jù)包的誤判或者漏判的概率,從而提供了一種更加便于快速高效的識(shí)別數(shù)據(jù)包所來自的網(wǎng)站的方法及系統(tǒng)?!靖綀D說明】
[0017]為了更清楚地說明本公開實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本公開的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1為本公開的網(wǎng)站識(shí)別方法的一實(shí)施例的流程圖;
[0019]圖2為本公開的網(wǎng)站識(shí)別方法的另一實(shí)施例的流程圖;
[0020]圖3為本公開的網(wǎng)站識(shí)別方法的又一實(shí)施例的流程圖;[0021 ]圖4為本公開的網(wǎng)站識(shí)別方法的再一實(shí)施例的流程圖;
[0022]圖5為本公開的網(wǎng)站識(shí)別方法的又一實(shí)施例的流程圖
[0023]圖6為本公開的網(wǎng)站識(shí)別系統(tǒng)的一實(shí)施例的示意圖;
[0024]圖7為本公開中的網(wǎng)站識(shí)別系統(tǒng)中的數(shù)據(jù)抓取模塊的一實(shí)施例的示意圖;
[0025]圖8為本公開中的網(wǎng)站識(shí)別系統(tǒng)中的外部數(shù)據(jù)信息選取單元的一實(shí)施例的示意圖;
[0026]圖9為本公開的網(wǎng)站識(shí)別系統(tǒng)中的第二選取組件的一實(shí)施例的示意圖;
[0027]圖10為本公開的網(wǎng)站識(shí)別系統(tǒng)中的外部數(shù)據(jù)信息選取單元的另一實(shí)施例的示意圖;
[0028]圖11為本公開中的用戶設(shè)備的一實(shí)施例的示意圖。具體實(shí)施例
[0029]為使本公開實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本公開實(shí)施例中的附圖,對(duì)本公開實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本公開一部分實(shí)施例,而不是全部的實(shí)施例。基于本公開中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本公開保護(hù)的范圍。
[0030]需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0031]本公開可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
[0032]本公開可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本公開,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。[〇〇33]最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”,不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0034]如圖1所示,本公開的一實(shí)施例的網(wǎng)站識(shí)別方法,包括:
[0035]S11、確定需要識(shí)別的網(wǎng)站,并為所述需要識(shí)別的網(wǎng)站分配標(biāo)識(shí)值;
[0036]S12、以來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息為輸入樣本,以所述標(biāo)識(shí)值為輸出進(jìn)行深度學(xué)習(xí)以確定深度學(xué)習(xí)模型;
[0037]S13、抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息;[〇〇38]S14、判斷將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果是否為所述標(biāo)識(shí)值。
[0039]本實(shí)施例通過深度學(xué)習(xí)的方法來預(yù)先確定了一個(gè)用于判定接收到的數(shù)據(jù)信息是否為需要識(shí)別的數(shù)據(jù)的深度學(xué)習(xí)模型,該模型是根據(jù)接收到的整個(gè)數(shù)據(jù)信息來確定的,而不是數(shù)據(jù)信息中的某一個(gè)“特征信息”確定的,綜合考慮了更多的因素,因此通過該深度學(xué)習(xí)模型得到的識(shí)別網(wǎng)站的識(shí)別結(jié)果的準(zhǔn)確度有了極大提升,降低了對(duì)接收的數(shù)據(jù)信息的誤判或者漏判的概率,從而提供了一種更加便于快速高效的識(shí)別數(shù)據(jù)包所來自的網(wǎng)站的方法和系統(tǒng)。
[0040]如圖2所示,本公開的另一實(shí)施例的網(wǎng)站識(shí)別方法,其中,抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息包括:
[0041]S21、抓取多個(gè)數(shù)據(jù)包,并解析所述任意一個(gè)數(shù)據(jù)包以確定所對(duì)應(yīng)的協(xié)議類型;
[0042]S22、根據(jù)確定的所述協(xié)議類型選取作為外部數(shù)據(jù)信息的數(shù)據(jù)包。
[0043]在本實(shí)施例中進(jìn)一步的確定接收到的數(shù)據(jù)包所基于的協(xié)議類型來針對(duì)性的獲取可用于外部數(shù)據(jù)信息的數(shù)據(jù)包,而不是將抓取的所有的數(shù)據(jù)包都作為外部數(shù)據(jù)信息,這樣即避免了將所有的數(shù)據(jù)包都作為外部數(shù)據(jù)信息輸入深度學(xué)習(xí)模型而增加的計(jì)算量以及因此而帶來的延時(shí),同時(shí)也避免了過多的冗余數(shù)據(jù)包對(duì)計(jì)算結(jié)果的干擾,提升了通過外部數(shù)據(jù)信息識(shí)別數(shù)據(jù)包來源網(wǎng)站的準(zhǔn)確率。
[0044]如圖3所示,本公開的另一實(shí)施例的網(wǎng)站識(shí)別方法,其中,
[0045]S31、當(dāng)所述協(xié)議類型為tcp協(xié)議時(shí),判斷所述數(shù)據(jù)包的目的端口號(hào)是否為特定端口號(hào);
[0046]S32、如果是,則所述根據(jù)確定的所述協(xié)議類型選取作為外部數(shù)據(jù)信息的數(shù)據(jù)包為:確定任意一個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息;
[0047]S33、如果否,則所述根據(jù)確定的所述協(xié)議類型選取作為外部數(shù)據(jù)信息的數(shù)據(jù)包為:確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息。[0〇48] 在本實(shí)施例中進(jìn)一步將tcp協(xié)議進(jìn)一步細(xì)分為了http協(xié)議以及普通的tcp協(xié)議,當(dāng)接收到的數(shù)據(jù)包基于tcp協(xié)議時(shí)直接根據(jù)數(shù)據(jù)包中所包含的目的端口號(hào)(端口號(hào)為80和/或 8080)即可確定該數(shù)據(jù)包是基于http協(xié)議的,這時(shí)只需要任意一個(gè)抓取的數(shù)據(jù)包即可用于識(shí)別該數(shù)據(jù)包來源的網(wǎng)站,因?yàn)閷?duì)于http協(xié)議的數(shù)據(jù)包,其所有的特征信息在任意的一個(gè)數(shù)據(jù)包中都有;此外,還可以進(jìn)一步通過解析接收的數(shù)據(jù)包中是否包含有GET URL的字節(jié), 如果有則可判定該數(shù)據(jù)包為基于http協(xié)議的;本實(shí)施例中可以只通過驗(yàn)證數(shù)據(jù)包的端口號(hào)是否為80和/或8080,也可以只通過驗(yàn)證數(shù)據(jù)包中是否包含有GET URL的字節(jié),還可以同時(shí)采取兩種驗(yàn)證方式以確定數(shù)據(jù)包所基于的協(xié)議類型;當(dāng)通過單一一種驗(yàn)證方式時(shí),驗(yàn)證速度快,但會(huì)存在一定的誤判率,當(dāng)采取兩種驗(yàn)證方式時(shí)雖然驗(yàn)證速度有所減慢但是卻大大提升了對(duì)數(shù)據(jù)包協(xié)議類型的確定的準(zhǔn)確率;在應(yīng)用中,如果需要及時(shí)的響應(yīng),快速的驗(yàn)證, 而又允許有一定的誤差的場(chǎng)合則采取上述任意一種驗(yàn)證方式即可;當(dāng)對(duì)準(zhǔn)確率要求高的場(chǎng)合則需要同時(shí)采取上述兩種驗(yàn)證方式。[〇〇49] 本實(shí)施例中當(dāng)數(shù)據(jù)包中即不包含端口號(hào)80和/或8080,也不包含GET URL的字節(jié), 則認(rèn)為該數(shù)據(jù)包為普通的tcp數(shù)據(jù)包,對(duì)于普通的數(shù)據(jù)包,網(wǎng)站的特征信息存儲(chǔ)在前三個(gè)數(shù)據(jù)包中,因此,只需獲得前三個(gè)數(shù)據(jù)包即可。
[0050]如圖4所示,本公開的另一實(shí)施例的網(wǎng)站識(shí)別方法,其中,確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息為:[0051 ]S41、根據(jù)tcp協(xié)議中的三次握手通信確定被訪問網(wǎng)站返回的起始SYN序列號(hào);[〇〇52]S42、確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)的數(shù)據(jù)包為第一數(shù)據(jù)包;[〇〇53]S43、確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)與第一數(shù)據(jù)包長度之和的數(shù)據(jù)包為第二數(shù)據(jù)包;[〇〇54]S44、確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)與第一數(shù)據(jù)包長度和第二數(shù)據(jù)包長度之和的數(shù)據(jù)包為第三數(shù)據(jù)包。
[0055]本實(shí)施例中通過tcp特有的三次握手協(xié)議以及握手協(xié)議中發(fā)送的數(shù)據(jù)包所包含的特有的SYN序列號(hào)(SYN( synchronous)是TCP/IP建立連接時(shí)使用的握手信號(hào),并且對(duì)應(yīng)有一個(gè)SYN序列號(hào))首先確定出了發(fā)送的第一個(gè)數(shù)據(jù)包的序列號(hào),以用于確定抓取的數(shù)據(jù)包中哪一個(gè)是第一數(shù)據(jù)包;然后再根據(jù)每一次發(fā)送的數(shù)據(jù)包長度確定出的相應(yīng)下一個(gè)數(shù)據(jù)包的序列號(hào)的大小,以從抓取的數(shù)據(jù)包中進(jìn)一步的確定出第二數(shù)據(jù)包和第三數(shù)據(jù)包;通過SYN這個(gè)特定的序列號(hào)確定了發(fā)送的數(shù)據(jù)包的排序,以便于選取包含了網(wǎng)站的特征信息的前三個(gè)數(shù)據(jù)包,避免了無序的抓取多個(gè)包(因?yàn)?,第三個(gè)數(shù)據(jù)包以后的數(shù)據(jù)包只包含了文件內(nèi)容,不再有特征信息)對(duì)驗(yàn)證結(jié)果的干擾以及因計(jì)算量的增大而造成的延時(shí)。
[0056]如圖5所示,本公開的另一實(shí)施例的網(wǎng)站識(shí)別方法,其中,
[0057]當(dāng)所述協(xié)議類型為udp協(xié)議時(shí),所述根據(jù)確定的所述協(xié)議類型選取作為外部數(shù)據(jù)信息的數(shù)據(jù)包為:
[0058]S51、解析抓取的所述多個(gè)數(shù)據(jù)包以確定所述多個(gè)數(shù)據(jù)包中具有遞增趨勢(shì)的特征序列號(hào);
[0059]S52、將所述多個(gè)數(shù)據(jù)包按照所述特征序列號(hào)遞增的方式進(jìn)行排列;
[0060]S53、確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息。[0061 ]在本實(shí)施例中針對(duì)udp協(xié)議沒有鏈接的概念的情況,而專門分析udp數(shù)據(jù)包中的前幾個(gè)字節(jié)中的字符,以確定出字符間存在遞增關(guān)系的字節(jié),并將該字節(jié)中的字符確定為特征序列號(hào);因?yàn)榛趗dp的開發(fā)中數(shù)據(jù)包中并不存在哪一個(gè)字節(jié)是用來固定寫入數(shù)據(jù)包的序列號(hào)的(沒有約定,不同的程序員則根據(jù)個(gè)人的喜好與習(xí)慣將序列號(hào)寫在不同的字節(jié)中, 但一般都在數(shù)據(jù)包的前幾個(gè)字節(jié)中,因此這里的分析是按照前幾個(gè)字節(jié)順序分析比較的), 因此,需要對(duì)各個(gè)字節(jié)中的字符進(jìn)行分析以確定;本實(shí)施例通過特征序列號(hào)確定了發(fā)送的 udp數(shù)據(jù)包的排序,以便于選取包含了網(wǎng)站的特征信息的前三個(gè)數(shù)據(jù)包,避免了無序的抓取多個(gè)包(因?yàn)?,第三個(gè)數(shù)據(jù)包以后的數(shù)據(jù)包只包含了文件內(nèi)容,不再有特征信息)對(duì)驗(yàn)證結(jié)果的干擾以及因計(jì)算量的增大而造成的延時(shí)。
[0062]本公開的上述任一實(shí)施例中,需要識(shí)別的網(wǎng)站至少為一個(gè),且為每一個(gè)需要識(shí)別的網(wǎng)站分別分配一個(gè)對(duì)應(yīng)的標(biāo)識(shí)值。
[0063]來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息是通過設(shè)定而模擬不斷地自動(dòng)點(diǎn)擊需要識(shí)別的網(wǎng)站中的鏈接(例如,視頻網(wǎng)站中不斷地點(diǎn)擊不同的視頻)獲得的,以作為輸入樣本,為每一個(gè)需要識(shí)別的網(wǎng)站配置一個(gè)標(biāo)識(shí)值,例如為樂視網(wǎng)配置標(biāo)識(shí)值1,為優(yōu)酷配置標(biāo)識(shí)值2,為搜狐網(wǎng)配置標(biāo)識(shí)值3等;本實(shí)施例中的輸入樣本越大得到的深度學(xué)習(xí)模型就越準(zhǔn)確;通常將輸入樣本分為兩部分,一本分用于生成深度學(xué)習(xí)模型,一部分用于校驗(yàn)得到的深度學(xué)習(xí)模型,以確定得到的深度學(xué)習(xí)模型的準(zhǔn)確率,如果校驗(yàn)結(jié)果表明深度學(xué)習(xí)模型的準(zhǔn)確率沒有達(dá)標(biāo),則再次獲取一個(gè)輸入樣本進(jìn)行深度學(xué)習(xí),直到確定出符合標(biāo)準(zhǔn)的深度學(xué)習(xí)模型。
[0064]本實(shí)施例中進(jìn)行深度學(xué)習(xí)的輸入樣本就是模擬點(diǎn)擊需要識(shí)別的網(wǎng)站時(shí)抓取的數(shù)據(jù)包,這里的抓包方法采用了本公開上述實(shí)施例中任意一種抓包方法。[〇〇65]在本公開的一些實(shí)施例中,將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果的步驟中,數(shù)據(jù)信息是以向量的形式輸入值深度學(xué)習(xí)模型的,因此首相需要將確定的數(shù)據(jù)包生成向量,例如生成一個(gè)lk的向量,當(dāng)數(shù)據(jù)包中的字節(jié)不足lk時(shí)將該lk的向量中的剩余位置0即可;相應(yīng)的生成深度學(xué)習(xí)模型的方法中也是將輸入樣本以向量為輸入的。 [0〇66] 本公開實(shí)施例中可以通過硬件處理器(hardware processor)來實(shí)現(xiàn)相關(guān)功能模塊。[〇〇67]需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作合并,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本公開并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本公開,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本公開所必須的。
[0068]在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0069]如圖6所示,本公開的一實(shí)施例的網(wǎng)站識(shí)別系統(tǒng),其包括:
[0070]配置模塊,用于為確定的需要識(shí)別的網(wǎng)站分配標(biāo)識(shí)值;
[0071]深度學(xué)習(xí)模型建立模塊,用于以來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息為輸入樣本,以所述標(biāo)識(shí)值為輸出進(jìn)行深度學(xué)習(xí)以確定深度學(xué)習(xí)模型;
[0072]數(shù)據(jù)抓取模塊,用于抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息;[〇〇73]判斷模塊,用于判斷將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果是否為所述標(biāo)識(shí)值。[〇〇74]本實(shí)施例通過深度學(xué)習(xí)模型建立模塊預(yù)先確定了一個(gè)用于判定接收到的數(shù)據(jù)信息是否為需要識(shí)別的數(shù)據(jù)的深度學(xué)習(xí)模型,該模型是根據(jù)接收到的整個(gè)數(shù)據(jù)信息來確定的,而不是數(shù)據(jù)信息中的某一個(gè)“特征信息”確定的,綜合考慮了更多的因素,因此通過該深度學(xué)習(xí)模型得到的判定結(jié)果的準(zhǔn)確度有了極大提升,降低了對(duì)接收的數(shù)據(jù)信息的誤判或者漏判的概率,從而提供了一種更加便于快速高效的判定抓取到的數(shù)據(jù)包所來自的網(wǎng)站的方法和系統(tǒng)。
[0075]如圖7所示,本公開的另一實(shí)施例的網(wǎng)站識(shí)別系統(tǒng),其中,所述數(shù)據(jù)抓取模塊包括:
[0076]數(shù)據(jù)包抓取單元,用于抓取多個(gè)數(shù)據(jù)包;
[0077]協(xié)議類型確定單元,用于解析任意一個(gè)數(shù)據(jù)包以確定所對(duì)應(yīng)的協(xié)議類型;
[0078]外部數(shù)據(jù)信息選取單元,用于根據(jù)確定的所述協(xié)議類型選取作為所述外部數(shù)據(jù)信息的數(shù)據(jù)包。
[0079]在本實(shí)施例中進(jìn)一步的確定接收到的數(shù)據(jù)包所基于的協(xié)議類型來針對(duì)性的獲取可用于外部數(shù)據(jù)信息的數(shù)據(jù)包,而不是將抓取的所有的數(shù)據(jù)包都作為外部數(shù)據(jù)信息,這樣即避免了將所有的數(shù)據(jù)包都作為外部數(shù)據(jù)信息輸入深度學(xué)習(xí)模型而增加的計(jì)算量以及因此而帶來的延時(shí),同時(shí)也避免了過多的冗余數(shù)據(jù)包對(duì)計(jì)算結(jié)果的干擾,提升了通過外部數(shù)據(jù)信息識(shí)別數(shù)據(jù)包來源網(wǎng)站的準(zhǔn)確率。
[0080]如圖8所示,本公開的又一實(shí)施例的網(wǎng)站識(shí)別系統(tǒng),其中,還包括:
[0081]端口號(hào)確定模塊,用于當(dāng)所述協(xié)議類型為http協(xié)議時(shí),判斷所述數(shù)據(jù)包的目的端口號(hào)是否為特定端口號(hào);
[0082]所述外部數(shù)據(jù)信息選取單元包括,[〇〇83]第一選取組件,用于當(dāng)所述協(xié)議類型為http協(xié)議,且所述數(shù)據(jù)包的目的端口號(hào)為特定端口號(hào)時(shí),確定任意一個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息;[〇〇84]第二選取組件,用于當(dāng)所述協(xié)議類型為http協(xié)議,但所述數(shù)據(jù)包的目的端口號(hào)不為特定端口號(hào)時(shí),確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息。
[0085]如圖9所示,本公開的再一實(shí)施例的網(wǎng)站識(shí)別系統(tǒng),其中,所述第二選取組件包括: [〇〇86]序列號(hào)確定組件,用于根據(jù)http三次握手通信確定被訪問網(wǎng)站返回的起始SYN序列號(hào);[〇〇87]數(shù)據(jù)包確定組件,用于確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)的數(shù)據(jù)包為第一數(shù)據(jù)包;確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)與第一數(shù)據(jù)包長度之和的數(shù)據(jù)包為第二數(shù)據(jù)包;確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)與第一數(shù)據(jù)包長度和第二數(shù)據(jù)包長度之和的數(shù)據(jù)包為第三數(shù)據(jù)包。
[0088]如圖10所示,本公開的又一實(shí)施例的網(wǎng)站識(shí)別系統(tǒng),其中,當(dāng)所述協(xié)議類型為udp協(xié)議時(shí),所述外部數(shù)據(jù)信息選取單元包括:
[0089]特征序列號(hào)確定組件,用于解析抓取的所述多個(gè)數(shù)據(jù)包以確定所述多個(gè)數(shù)據(jù)包中具有遞增趨勢(shì)的特征序列號(hào);
[0090]數(shù)據(jù)包排隊(duì)組件,用于將所述多個(gè)數(shù)據(jù)包按照所述特征序列號(hào)遞增的方式進(jìn)行排列;[0091 ]數(shù)據(jù)包確定組件,用于確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息。
[0092]圖11為本申請(qǐng)實(shí)施例提供的又一種用戶設(shè)備1100的結(jié)構(gòu)示意圖,本申請(qǐng)具體實(shí)施例并不對(duì)用戶設(shè)備1100的具體實(shí)現(xiàn)做限定。如圖11所示,該用戶設(shè)備1100可以包括:
[0093]處理器(processor) 1110、通信接口(Communicat1ns Interface) 1120、存儲(chǔ)器 (memory) 1130、以及通信總線1140。其中:[〇〇94] 處理器1110、通信接口 1120、以及存儲(chǔ)器1130通過通信總線1140完成相互間的通{目。
[0095]通信接口 1120,用于與比如客戶端等的網(wǎng)元通信。[〇〇96] 處理器1110,用于執(zhí)行程序1131,具體可以執(zhí)行上述方法實(shí)施例中的相關(guān)步驟。 [〇〇97]具體地,程序1131可以包括程序代碼,所述程序代碼包括計(jì)算機(jī)操作指令。[〇〇98] 處理器1110可能是一個(gè)中央處理器CPU,或者是特定集成電路ASIC(Applicati〇n Specific Integrated Circuit),或者是被配置成實(shí)施本申請(qǐng)實(shí)施例的一個(gè)或多個(gè)集成電路。[〇〇99]上述實(shí)施例中的用戶設(shè)備,包括:
[0100]存儲(chǔ)器,用于存放程序;
[0101]處理器,用于執(zhí)行所述存儲(chǔ)器存儲(chǔ)的程序,所述程序使得所述處理器執(zhí)行以下操作:
[0102]確定需要識(shí)別的網(wǎng)站,并為所述需要識(shí)別的網(wǎng)站分配標(biāo)識(shí)值;
[0103]以來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息為輸入樣本,以所述標(biāo)識(shí)值為輸出進(jìn)行深度學(xué)習(xí)以確定深度學(xué)習(xí)模型;
[0104]抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息;
[0105]判斷將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果是否為所述標(biāo)識(shí)值。
[0106]以上所描述的方法實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動(dòng)的情況下,即可以理解并實(shí)施。
[0107]通過以上的實(shí)施例的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施例可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件。基于這樣的理解,上述技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0108]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本公開的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本公開可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本公開可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器和光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0109]本公開是參照根據(jù)本公開實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0110]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理, 從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0111]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本公開的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本公開進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換; 而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本公開各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種網(wǎng)站識(shí)別方法,包括:確定需要識(shí)別的網(wǎng)站,并為所述需要識(shí)別的網(wǎng)站分配標(biāo)識(shí)值;以來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息為輸入樣本,以所述標(biāo)識(shí)值為輸出進(jìn)行深 度學(xué)習(xí)以確定深度學(xué)習(xí)模型;抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息;判斷將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果是否為所述標(biāo)識(shí)值。2.根據(jù)權(quán)利要求1所述的方法,其中,所述抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息 包括:抓取多個(gè)數(shù)據(jù)包,并解析所述任意一個(gè)數(shù)據(jù)包以確定所對(duì)應(yīng)的協(xié)議類型;根據(jù)確定的所述協(xié)議類型選取作為外部數(shù)據(jù)信息的數(shù)據(jù)包。3.根據(jù)權(quán)利要求2所述的方法,其中,當(dāng)所述協(xié)議類型為http協(xié)議時(shí),判斷所述數(shù)據(jù)包的目的端口號(hào)是否為特定端口號(hào); 如果是,則所述根據(jù)確定的所述協(xié)議類型選取作為外部數(shù)據(jù)信息的數(shù)據(jù)包為:確定任 意一個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息;如果否,則所述根據(jù)確定的所述協(xié)議類型選取作為外部數(shù)據(jù)信息的數(shù)據(jù)包為:確定前 三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息。4.根據(jù)權(quán)利要求3所述的方法,其中,確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息為:根據(jù)http三次握手通信確定被訪問網(wǎng)站返回的起始SYN序列號(hào);確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)的數(shù)據(jù)包為第一數(shù)據(jù)包;確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)與第一數(shù)據(jù)包長度之和的數(shù)據(jù)包為第 二數(shù)據(jù)包;確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)與第一數(shù)據(jù)包長度和第二數(shù)據(jù)包長度 之和的數(shù)據(jù)包為第三數(shù)據(jù)包。5.根據(jù)權(quán)利要求2所述的方法,其中,當(dāng)所述協(xié)議類型為udp協(xié)議時(shí),所述根據(jù)確定的所述協(xié)議類型選取作為外部數(shù)據(jù)信息 的數(shù)據(jù)包為:解析抓取的所述多個(gè)數(shù)據(jù)包以確定所述多個(gè)數(shù)據(jù)包中具有遞增趨勢(shì)的特征序列號(hào); 將所述多個(gè)數(shù)據(jù)包按照所述特征序列號(hào)遞增的方式進(jìn)行排列;確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息。6.—種網(wǎng)站識(shí)別系統(tǒng),包括:配置模塊,用于為確定的需要識(shí)別的網(wǎng)站分配標(biāo)識(shí)值;深度學(xué)習(xí)模型建立模塊,用于以來自所述需要識(shí)別的網(wǎng)站的多個(gè)數(shù)據(jù)信息為輸入樣 本,以所述標(biāo)識(shí)值為輸出進(jìn)行深度學(xué)習(xí)以確定深度學(xué)習(xí)模型;數(shù)據(jù)抓取模塊,用于抓取某一網(wǎng)站被訪問時(shí)發(fā)送的外部數(shù)據(jù)信息;判斷模塊,用于判斷將所述外部數(shù)據(jù)信息輸入所述深度學(xué)習(xí)模型得到的輸出結(jié)果是否 為所述標(biāo)識(shí)值。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述數(shù)據(jù)抓取模塊包括:數(shù)據(jù)包抓取單元,用于抓取多個(gè)數(shù)據(jù)包;協(xié)議類型確定單元,用于解析任意一個(gè)數(shù)據(jù)包以確定所對(duì)應(yīng)的協(xié)議類型;外部數(shù)據(jù)信息選取單元,用于根據(jù)確定的所述協(xié)議類型選取作為所述外部數(shù)據(jù)信息的 數(shù)據(jù)包。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,還包括:端口號(hào)確定模塊,用于當(dāng)所述協(xié)議類型為http協(xié)議時(shí),判斷所述數(shù)據(jù)包的目的端口號(hào) 是否為特定端口號(hào);所述外部數(shù)據(jù)信息選取單元包括,第一選取組件,用于當(dāng)所述協(xié)議類型為http協(xié)議,且所述數(shù)據(jù)包的目的端口號(hào)為特定 端口號(hào)時(shí),確定任意一個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息;第二選取組件,用于當(dāng)所述協(xié)議類型為http協(xié)議,但所述數(shù)據(jù)包的目的端口號(hào)不為特 定端口號(hào)時(shí),確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述第二選取組件包括:序列號(hào)確定器件,用于根據(jù)http三次握手通信確定被訪問網(wǎng)站返回的起始SYN序列號(hào);數(shù)據(jù)包確定器件,用于確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)的數(shù)據(jù)包為第一 數(shù)據(jù)包;確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)與第一數(shù)據(jù)包長度之和的數(shù)據(jù)包為 第二數(shù)據(jù)包;確定攜帶的SYN序列號(hào)等于所述起始SYN序列號(hào)與第一數(shù)據(jù)包長度和第二數(shù)據(jù) 包長度之和的數(shù)據(jù)包為第三數(shù)據(jù)包。10.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,當(dāng)所述協(xié)議類型為udp協(xié)議時(shí),所述外部數(shù)據(jù)信 息選取單元包括:特征序列號(hào)確定組件,用于解析抓取的所述多個(gè)數(shù)據(jù)包以確定所述多個(gè)數(shù)據(jù)包中具有 遞增趨勢(shì)的特征序列號(hào);數(shù)據(jù)包排隊(duì)組件,用于將所述多個(gè)數(shù)據(jù)包按照所述特征序列號(hào)遞增的方式進(jìn)行排列;數(shù)據(jù)包確定組件,用于確定前三個(gè)數(shù)據(jù)包為外部數(shù)據(jù)信息。
【文檔編號(hào)】G06F17/30GK106055571SQ201610339085
【公開日】2016年10月26日
【申請(qǐng)日】2016年5月19日
【發(fā)明人】李洪福, 李艷松
【申請(qǐng)人】樂視控股(北京)有限公司, 樂視云計(jì)算有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1