監(jiān)控網(wǎng)站的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及網(wǎng)站監(jiān)控技術(shù)領(lǐng)域,尤其涉及監(jiān)控網(wǎng)站的方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,各種各樣的網(wǎng)站為用戶(hù)從網(wǎng)上獲取資訊或在網(wǎng)上休閑娛樂(lè)提供了極大的便利,在網(wǎng)絡(luò)暢通的情況下,用戶(hù)可以隨時(shí)地訪問(wèn)資訊類(lèi)網(wǎng)站或娛樂(lè)類(lèi)網(wǎng)站等。
[0003]然而,在大量的網(wǎng)站中,存在著一部分不符合公共道德或國(guó)家法律法規(guī)的網(wǎng)站,例如賭博類(lèi)網(wǎng)站、色情類(lèi)網(wǎng)站、反動(dòng)類(lèi)網(wǎng)站等。這些網(wǎng)站的內(nèi)容給用戶(hù)造成了很大困擾,并給用戶(hù)的生活帶來(lái)惡劣的影響。
[0004]現(xiàn)有技術(shù)中,通常采用以下兩種方案對(duì)違規(guī)網(wǎng)站進(jìn)行監(jiān)控:方案一、采用機(jī)器學(xué)習(xí)的方案進(jìn)行違規(guī)網(wǎng)站的識(shí)別,提取網(wǎng)頁(yè)上的各種通用特征,線下通過(guò)大量違規(guī)樣本對(duì)模型進(jìn)行訓(xùn)練,線上通過(guò)模型對(duì)網(wǎng)站進(jìn)行審核,根據(jù)審核的結(jié)果對(duì)網(wǎng)站進(jìn)行監(jiān)控。方案二、提取網(wǎng)站的全文信息,線下通過(guò)人工積累不同違規(guī)類(lèi)型的網(wǎng)站的違規(guī)詞表。線上對(duì)全文信息進(jìn)行匹配違規(guī)詞表,命中詞表則匹配成功,根據(jù)匹配的結(jié)果對(duì)網(wǎng)站進(jìn)行監(jiān)控。
[0005]然而,現(xiàn)有技術(shù)中對(duì)違規(guī)網(wǎng)站進(jìn)行監(jiān)控的方法,存在如下缺陷:方案一對(duì)樣本有非常明顯的依賴(lài),如果樣本較少,無(wú)法訓(xùn)練出準(zhǔn)確的模型以識(shí)別違規(guī)網(wǎng)站,從而對(duì)網(wǎng)站的監(jiān)控的準(zhǔn)確度較低。方案二網(wǎng)站全文的信息量大,包含與網(wǎng)站主體不相關(guān)的信息,提取的網(wǎng)站全文的關(guān)鍵詞誤差較大,再通過(guò)提取的關(guān)鍵詞去匹配違規(guī)詞表,會(huì)造成大量的誤判,從而使得對(duì)網(wǎng)站的監(jiān)控誤差較大。
【發(fā)明內(nèi)容】
[0006]鑒于現(xiàn)有技術(shù)中的上述缺陷或不足,期望能夠提供一種準(zhǔn)確度高、誤差較小的方案。為了實(shí)現(xiàn)上述一個(gè)或多個(gè)目的,本申請(qǐng)?zhí)峁┝吮O(jiān)控網(wǎng)站的方法和裝置。
[0007]第一方面,本申請(qǐng)?zhí)峁┝艘环N監(jiān)控網(wǎng)站的方法,所述方法包括:獲取第一導(dǎo)航欄信息,所述第一導(dǎo)航欄信息為待審核網(wǎng)站的導(dǎo)航欄信息;獲取第一內(nèi)部導(dǎo)航鏈接信息,所述第一內(nèi)部導(dǎo)航鏈接信息為所述第一導(dǎo)航欄信息中的內(nèi)部導(dǎo)航鏈接信息;提取所述第一內(nèi)部導(dǎo)航鏈接信息中的特征詞;比對(duì)提取的特征詞與已確認(rèn)的違規(guī)特征詞表中的違規(guī)特征詞,得到命中所述違規(guī)特征詞的命中數(shù)量;根據(jù)命中的數(shù)量,提示對(duì)所述網(wǎng)站的監(jiān)控信息。
[0008]第二方面,本申請(qǐng)?zhí)峁┝艘环N監(jiān)控網(wǎng)站的裝置,所述裝置包括:第一獲取單元,用于獲取第一導(dǎo)航欄信息,所述第一導(dǎo)航欄信息為待審核網(wǎng)站的導(dǎo)航欄信息;第二獲取單元,用于獲取第一內(nèi)部導(dǎo)航鏈接信息,所述第一內(nèi)部導(dǎo)航鏈接信息為所述第一導(dǎo)航欄信息中的內(nèi)部導(dǎo)航鏈接信息;提取單元,用于提取所述第一內(nèi)部導(dǎo)航鏈接信息中的特征詞;比對(duì)單元,用于比對(duì)提取的特征詞與已確認(rèn)的違規(guī)特征詞表中的違規(guī)特征詞,得到命中所述違規(guī)特征詞的命中數(shù)量;提示單元,用于根據(jù)命中的數(shù)量,提示對(duì)所述網(wǎng)站的監(jiān)控信息。
[0009]本申請(qǐng)?zhí)峁┑谋O(jiān)控網(wǎng)站的方法和裝置,能夠獲取待審核網(wǎng)站的網(wǎng)頁(yè)的導(dǎo)航欄信息,接著獲取導(dǎo)航欄信息中的內(nèi)部導(dǎo)航鏈接信息,然后提取內(nèi)部導(dǎo)航鏈接信息中的特征詞,之后比對(duì)提取的特征詞與已確認(rèn)的違規(guī)特征詞表中的違規(guī)特征詞,得到命中違規(guī)特征詞的命中數(shù)量;之后根據(jù)命中數(shù)量,提示對(duì)網(wǎng)站的監(jiān)控信息。本申請(qǐng)實(shí)施方式的監(jiān)控網(wǎng)站的方法有效提取了網(wǎng)站中的關(guān)鍵詞,因此不需要依賴(lài)太多的外部樣本數(shù)據(jù),同時(shí)提高了識(shí)別包括違規(guī)特征詞的網(wǎng)站的精確度,進(jìn)而提示對(duì)網(wǎng)站的監(jiān)控信息,提高了管理違規(guī)網(wǎng)站的效率。
【附圖說(shuō)明】
[0010]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例的詳細(xì)描述,本申請(qǐng)的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0011]圖1示出了根據(jù)本申請(qǐng)實(shí)施例的監(jiān)控網(wǎng)站的方法的一種示例性流程圖;
[0012]圖2示出了根據(jù)本申請(qǐng)實(shí)施例的獲取第一導(dǎo)航欄信息的方法的一種示例性流程圖;
[0013]圖3示出了根據(jù)本申請(qǐng)實(shí)施例的判斷葉節(jié)點(diǎn)是否為內(nèi)部導(dǎo)航鏈接節(jié)點(diǎn)的方法的示例性流程圖;
[0014]圖4示出了根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)源碼的部分代碼的示意圖;
[0015]圖5示出了根據(jù)本申請(qǐng)實(shí)施例的生成已確認(rèn)的違規(guī)特征詞表的方法的一種示例性流程圖;
[0016]圖6示出了根據(jù)本申請(qǐng)實(shí)施例的監(jiān)控網(wǎng)站的裝置的一種示意性結(jié)構(gòu)圖;
[0017]圖7示出了根據(jù)本申請(qǐng)實(shí)施例的第一獲取單元的一種示意性結(jié)構(gòu)圖;
[0018]圖8示出了根據(jù)本申請(qǐng)實(shí)施例的生成已確認(rèn)的違規(guī)特征詞表的單元的一種示意性結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0019]下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
[0020]需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。
[0021]首先,請(qǐng)參考圖1,圖1示出了根據(jù)本申請(qǐng)實(shí)施例的監(jiān)控網(wǎng)站的方法的一種示例性流程圖100。
[0022]如圖1所示,監(jiān)控網(wǎng)站的方法100包括:
[0023]在步驟101中,獲取第一導(dǎo)航欄信息,第一導(dǎo)航欄信息為待審核網(wǎng)站的導(dǎo)航欄信息。
[0024]在本實(shí)施例中,可以先獲取待審核網(wǎng)站的網(wǎng)頁(yè)信息,之后從網(wǎng)頁(yè)信息中獲取文檔對(duì)象模型樹(shù),再獲取文檔模型樹(shù)中的導(dǎo)航欄節(jié)點(diǎn),最后獲取導(dǎo)航欄節(jié)點(diǎn)的信息作為導(dǎo)航欄信息。其中導(dǎo)航欄信息是指網(wǎng)頁(yè)中用于指示導(dǎo)航內(nèi)容的信息,從而使訪問(wèn)者能夠更快速準(zhǔn)確的找到所搜索的資源。
[0025]通常,網(wǎng)頁(yè)導(dǎo)航欄節(jié)點(diǎn)會(huì)包括一些可供識(shí)別的標(biāo)識(shí),可以通過(guò)識(shí)別這些標(biāo)識(shí)中的一種或多種標(biāo)識(shí)來(lái)識(shí)別網(wǎng)頁(yè)導(dǎo)航欄節(jié)點(diǎn)。例如導(dǎo)航欄節(jié)點(diǎn)位于包括主體〈body〉標(biāo)簽的網(wǎng)頁(yè)源代碼中,網(wǎng)頁(yè)導(dǎo)航欄節(jié)點(diǎn)的子節(jié)點(diǎn)中至少有3-4個(gè)以上的導(dǎo)航鏈接節(jié)點(diǎn),導(dǎo)航欄節(jié)點(diǎn)的子節(jié)點(diǎn)中不會(huì)有導(dǎo)航欄節(jié)點(diǎn),導(dǎo)航欄節(jié)點(diǎn)的子節(jié)點(diǎn)中不會(huì)出現(xiàn)不是導(dǎo)航欄鏈接節(jié)點(diǎn)的鏈接節(jié)點(diǎn)等。
[0026]在步驟102中,獲取第一內(nèi)部導(dǎo)航鏈接信息,第一內(nèi)部導(dǎo)航鏈接信息為第一導(dǎo)航欄信息中的內(nèi)部導(dǎo)航鏈接信息。
[0027]在本實(shí)施例中,在獲取上述的內(nèi)部導(dǎo)航欄信息之后,可以獲取其中包括的內(nèi)部導(dǎo)航鏈接節(jié)點(diǎn),再獲取內(nèi)部導(dǎo)航鏈接節(jié)點(diǎn)的信息作為內(nèi)部導(dǎo)航鏈接信息。
[0028]在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,獲取網(wǎng)頁(yè)導(dǎo)航欄信息中的內(nèi)部導(dǎo)航鏈接信息可以包括:獲取網(wǎng)頁(yè)導(dǎo)航欄信息中的內(nèi)部導(dǎo)航鏈接節(jié)點(diǎn)的內(nèi)文本信息。
[0029]通常,內(nèi)部導(dǎo)航鏈接節(jié)點(diǎn)也會(huì)包括一些可供識(shí)別的標(biāo)識(shí),可以通過(guò)識(shí)別這些標(biāo)識(shí)中的一種或多種標(biāo)識(shí)來(lái)識(shí)別內(nèi)部導(dǎo)航鏈接節(jié)點(diǎn)。例如導(dǎo)航鏈接節(jié)點(diǎn)的標(biāo)簽為a,導(dǎo)航鏈接的文本信息的長(zhǎng)度一般為2-8,即內(nèi)文本innerText的length e [2,8],導(dǎo)航鏈接節(jié)點(diǎn)的鏈接一般指向的是本站地址,即超文本引用href地址和本頁(yè)面地址所在的頂級(jí)域是一樣的等。
[0030]在步驟103中,提取第一內(nèi)部導(dǎo)航鏈接信息中的特征詞。
[0031]在本實(shí)施例中,特征詞是指包含有可以使一個(gè)詞異于其他詞的特點(diǎn)的詞語(yǔ)。在上述的步驟102中獲取第一內(nèi)部導(dǎo)航鏈接信息后,可以提取第一內(nèi)部導(dǎo)航鏈接信息中的特征詞,也即提取由內(nèi)部導(dǎo)航鏈接信息中包括的漢字序列切分得到的帶有明顯特征的詞。
[0032]將漢字序列切分成詞的方法有多種,例如基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法及上述分詞方法的組合等現(xiàn)有技術(shù)中的分詞方法,或未來(lái)發(fā)展的技術(shù)中的分詞方法等,在此不再贅述。
[0033]在步驟104中,比對(duì)提取的特征詞與已確認(rèn)的違規(guī)特征詞表中的違規(guī)特征詞,得到命中違規(guī)特征詞的命中數(shù)量。
[0034]在本實(shí)施例中,在比對(duì)提取的特征詞與已確認(rèn)的違規(guī)特征詞時(shí),可以將一個(gè)提取的特征詞與已確認(rèn)的所有違規(guī)特征詞進(jìn)行比對(duì)從而獲得較高的準(zhǔn)確率,也可以將一個(gè)提取的特征詞的一部分與已確認(rèn)的所有違規(guī)特征詞進(jìn)行比對(duì)從而提高比對(duì)效率。
[0035]上述的已確認(rèn)的違規(guī)特征詞表可以為根據(jù)輸入的違規(guī)特征詞逐漸積累的違規(guī)特征詞的集合和/或?qū)氲倪`規(guī)特征詞的集合。
[0036]在步驟105中,根據(jù)命中的數(shù)量,提示對(duì)網(wǎng)站的監(jiān)控信息。
[0037]在本實(shí)施例中,若命中的數(shù)量符合預(yù)設(shè)數(shù)量,則可以判定網(wǎng)站為違規(guī)網(wǎng)站,繼而發(fā)出預(yù)設(shè)的監(jiān)控信息。其中,預(yù)設(shè)數(shù)量可以為根據(jù)統(tǒng)計(jì)數(shù)據(jù)獲得的違規(guī)網(wǎng)站所包括的違規(guī)特征詞的數(shù)量,備選地或附加地,預(yù)設(shè)數(shù)量還可以為人工根據(jù)經(jīng)驗(yàn)輸入的違規(guī)網(wǎng)站所包括的違規(guī)特征詞的數(shù)量。
當(dāng)前第1頁(yè)
1 
2 
3 
4