一種基于多示例學(xué)習(xí)的有害信息識(shí)別和網(wǎng)頁分類方法
【專利摘要】本發(fā)明公開了一種基于多示例學(xué)習(xí)的網(wǎng)頁分類方法,該方法包括:設(shè)計(jì)了相對(duì)大小排序前向比較法來提取網(wǎng)頁內(nèi)有效圖像,并根據(jù)網(wǎng)頁樹狀結(jié)構(gòu)提取有效圖像的相關(guān)文本;將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁包中的一個(gè)示例,分別采用圖像詞包模型和文本詞包模型生成有效圖像及其相關(guān)文本的描述,并將二者合并起來作為示例的描述;采用多示例核對(duì)毒品網(wǎng)頁進(jìn)行分類。本發(fā)明的方法,通過將網(wǎng)頁中內(nèi)含的圖像及其相關(guān)文本作為網(wǎng)頁包中的示例,使算法更符合網(wǎng)頁內(nèi)容的實(shí)際分布,并能夠充分利用網(wǎng)頁的有效信息,深入挖掘圖像信息與文本信息的互補(bǔ)性,最終取得比只利用單模態(tài)信息進(jìn)行分類更好的效果。
【專利說明】一種基于多示例學(xué)習(xí)的有害信息識(shí)別和網(wǎng)頁分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)內(nèi)容安全領(lǐng)域,更具體地涉及一種基于多示例學(xué)習(xí)的有害信息識(shí) 別和網(wǎng)頁分類方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)在促進(jìn)社會(huì)進(jìn)步與發(fā)展的同時(shí),也為各種有害信息的傳播提供了極大的便 利。這些有害信息日益危害著正常的社會(huì)活動(dòng)和健康的價(jià)值體系,對(duì)青少年的健康成長(zhǎng)尤 為不利。最大限度地發(fā)揮互聯(lián)網(wǎng)的積極作用,抑制或消除它的消極作用,將有利于凈化互聯(lián) 網(wǎng)環(huán)境,促進(jìn)社會(huì)進(jìn)步,呵護(hù)青少年的健康成長(zhǎng)。互聯(lián)網(wǎng)有害信息包括色情、毒品、暴力、恐 怖、反動(dòng)等,其中毒品信息的危害與其他有害信息的危害相比,有過之而無不及。
[0003] 在互聯(lián)網(wǎng)中,網(wǎng)頁以超文本標(biāo)記語言(Hyper Text Mark-up Language,HTML)文件 的形式存在,HTML文件本質(zhì)上是文本文件,因此,通常的網(wǎng)頁分類方法主要利用文本信息, 其中最主要的就是詞包模型。詞包模型的原理是:首先選擇一些關(guān)鍵詞(key),組成文本詞 典;然后統(tǒng)計(jì)每一個(gè)關(guān)鍵詞在文檔或網(wǎng)頁中的頻數(shù),并組成一個(gè)向量;采用合適的分類器 對(duì)該向量進(jìn)行分類。
[0004] 隨著各種數(shù)字設(shè)備的廣泛普及,網(wǎng)頁中的圖像數(shù)量越來越多,文本數(shù)量越來越少, 只利用文本信息對(duì)網(wǎng)頁進(jìn)行分類已經(jīng)不能很好地符合網(wǎng)頁的實(shí)際形態(tài)。因此,非常有必要 綜合利用圖像信息與文本信息來提高實(shí)際網(wǎng)頁分類性能。
[0005] 作為一個(gè)示例,圖1為兩個(gè)毒品網(wǎng)頁,左圖為販賣吸毒工具的網(wǎng)頁,右圖為販賣大 麻的網(wǎng)頁??梢钥闯觯瑑蓚€(gè)網(wǎng)頁中均包含了大量的圖像和少量的文本,而且圖像與文本排列 得非常整齊。對(duì)于這種情況,只利用文本信息已經(jīng)不能很好地對(duì)其進(jìn)行分類。另外,目前針 對(duì)互聯(lián)網(wǎng)上的毒品信息進(jìn)行處理的相關(guān)專利或文獻(xiàn)還非常少,迫切需要一種對(duì)毒品等有害 信息進(jìn)行識(shí)別處理的方法,來方便各國政府加強(qiáng)對(duì)互聯(lián)網(wǎng)的監(jiān)管,保護(hù)人們免受相關(guān)信息 的誘惑。
【發(fā)明內(nèi)容】
[0006] 有鑒于此,本發(fā)明的目的在于提出一種符合網(wǎng)頁內(nèi)圖像與本文數(shù)量實(shí)際分布情況 的網(wǎng)頁分類方法和有害信息識(shí)別方法,解決網(wǎng)頁中有害信息的識(shí)別和自動(dòng)分類的技術(shù)問 題。
[0007] 為實(shí)現(xiàn)上述目的,作為本發(fā)明的一個(gè)方面,本發(fā)明提出了一種網(wǎng)頁分類方法,包括 以下步驟:
[0008] 步驟1 :提取選定網(wǎng)頁內(nèi)的有效圖像,并提取所述有效圖像的相關(guān)文本;
[0009] 步驟2 :將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁包中的一個(gè)示例,生成所述有效 圖像及其相關(guān)文本的描述,并將二者合并起來作為示例的描述;
[0010] 步驟3 :采用多示例核對(duì)得到的所述示例進(jìn)行計(jì)算,根據(jù)計(jì)算的結(jié)果對(duì)所述選定 網(wǎng)頁進(jìn)行分類。 toon] 其中,所述步驟1中采用相對(duì)大小排序前向比較法來提取所述網(wǎng)頁內(nèi)的有效圖 像,以及
[0012] 根據(jù)網(wǎng)頁樹狀結(jié)構(gòu)來提取所述有效圖像的相關(guān)文本。
[0013] 其中,所述步驟2包括以下步驟:
[0014] 步驟2a :構(gòu)建網(wǎng)頁訓(xùn)練集,提取所述網(wǎng)頁訓(xùn)練集中有效圖像的RGB-SIFT特征,聚 類生成視覺詞典,并采用硬編碼結(jié)合和聚合的方式通過圖像詞包模型生成所述有效圖像的 特征向量;
[0015] 步驟2b :利用文本詞典,采用文本詞包模型生成相關(guān)文本的特征向量;
[0016] 步驟2c :將所述有效圖像的特征向量與所述相關(guān)文本的特征向量合并起來,作為 示例描述。
[0017] 其中,步驟2a中所述的聚類生成視覺詞典的步驟采用K-means聚類方法,得到包 含1500個(gè)視覺單詞的視覺詞典。
[0018] 其中,步驟2b中所述的文本詞典包含100個(gè)對(duì)所需分類主題有代表性的關(guān)鍵詞和 100個(gè)與所需分類主題完全不相關(guān)的關(guān)鍵詞;
[0019] 所述采用文本詞包模型生成相關(guān)文本的特征向量的步驟包括:
[0020] 對(duì)于所述相關(guān)文本,根據(jù)所述文本詞典統(tǒng)計(jì)生成其100維的特征向量;
[0021] 步驟2c中所述將有效圖像的特征向量與相關(guān)文本的特征向量合并起來的步驟包 括:
[0022] 將所述有效圖像的1500維的特征向量與所述相關(guān)文本的100維的特征向量直接 串起來,得到1600維的特征向量;以及
[0023] 如果一個(gè)網(wǎng)頁沒有有效圖像,則將一個(gè)1500維的零向量與所述相關(guān)文本的特征 向量合并起來。
[0024] 其中,所述步驟3包括:
[0025] 步驟3a :采用多示例核對(duì)得到的所述示例進(jìn)行計(jì)算;
[0026] 步驟3b :將上述步驟得到的多示例核與支持向量機(jī)結(jié)合,對(duì)所述選定網(wǎng)頁進(jìn)行分 類。
[0027] 其中,所述步驟3a包括:
[0028] 將步驟2中生成的一幅有效圖像的示例作為一個(gè)包中的一個(gè)示例,一個(gè)網(wǎng)頁作為 一個(gè)包,對(duì)于步驟2中生成的包戽={七,…,^%}和包A =(χ;ι,···,χ;",丨,其中X為相應(yīng)的示例 表述,采用如下方式度量包B i和包h之間的相似性:
【權(quán)利要求】
1. 一種網(wǎng)頁分類方法,包括以下步驟: 步驟1:提取選定網(wǎng)頁內(nèi)的有效圖像,并提取所述有效圖像的相關(guān)文本; 步驟2 :將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁包中的一個(gè)示例,生成所述有效圖像 及其相關(guān)文本的描述,并將二者合并起來作為示例的描述; 步驟3 :采用多示例核對(duì)得到的所述示例進(jìn)行計(jì)算,根據(jù)計(jì)算的結(jié)果對(duì)所述選定網(wǎng)頁 進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的網(wǎng)頁分類方法,其中所述步驟1中采用相對(duì)大小排序前向比 較法來提取所述網(wǎng)頁內(nèi)的有效圖像,以及 根據(jù)網(wǎng)頁樹狀結(jié)構(gòu)來提取所述有效圖像的相關(guān)文本。
3. 根據(jù)權(quán)利要求1所述的網(wǎng)頁分類方法,其中所述步驟2包括以下步驟: 步驟2a:構(gòu)建網(wǎng)頁訓(xùn)練集,提取所述網(wǎng)頁訓(xùn)練集中有效圖像的RGB-SIFT特征,聚類生 成視覺詞典,并采用硬編碼結(jié)合和聚合的方式通過圖像詞包模型生成所述有效圖像的特征 向量; 步驟2b :利用文本詞典,采用文本詞包模型生成相關(guān)文本的特征向量; 步驟2c :將所述有效圖像的特征向量與所述相關(guān)文本的特征向量合并起來,作為示例 描述。
4. 根據(jù)權(quán)利要求3所述的網(wǎng)頁分類方法,其中步驟2a中所述的聚類生成視覺詞典的步 驟采用K-means聚類方法,得到包含1500個(gè)視覺單詞的視覺詞典。
5. 根據(jù)權(quán)利要求3所述的網(wǎng)頁分類方法,其中步驟2b中所述的文本詞典包含100個(gè)對(duì) 所需分類主題有代表性的關(guān)鍵詞和100個(gè)與所需分類主題完全不相關(guān)的關(guān)鍵詞; 所述采用文本詞包模型生成相關(guān)文本的特征向量的步驟包括: 對(duì)于所述相關(guān)文本,根據(jù)所述文本詞典統(tǒng)計(jì)生成其100維的特征向量; 步驟2c中所述將有效圖像的特征向量與相關(guān)文本的特征向量合并起來的步驟包括: 將所述有效圖像的1500維的特征向量與所述相關(guān)文本的100維的特征向量直接串起 來,得到1600維的特征向量;以及 如果一個(gè)網(wǎng)頁沒有有效圖像,則將一個(gè)1500維的零向量與所述相關(guān)文本的特征向量 合并起來。
6. 根據(jù)權(quán)利要求1所述的網(wǎng)頁分類方法,其中所述步驟3包括: 步驟3a :采用多示例核對(duì)得到的所述示例進(jìn)行計(jì)算; 步驟3b :將上述步驟得到的多示例核與支持向量機(jī)結(jié)合,對(duì)所述選定網(wǎng)頁進(jìn)行分類。
7. 根據(jù)權(quán)利要求6所述的網(wǎng)頁分類方法,其中所述步驟3a包括: 將步驟2中生成的一幅有效圖像的示例作為一個(gè)包中的一個(gè)示例,一個(gè)網(wǎng)頁作為一個(gè) 包,對(duì)于步驟2中生成的包馬= {&,--?,、}和包巧={x;1,…,,其中X為相應(yīng)的示例表 述,采用如下方式度量包Bi和包h之間的相似性:
其中,KMI(.,.)是多示例核,K(.,.)是傳統(tǒng)核,p是一個(gè)正整數(shù)。
8. 根據(jù)權(quán)利要求7所述的網(wǎng)頁分類方法,其中所述步驟3a還包括以下步驟: 對(duì)所述的多示例核按照下式進(jìn)行歸一化處理:
其中,KnmiC,.)是歸一化后的多示例核。
9. 根據(jù)權(quán)利要求6所述的網(wǎng)頁分類方法,其中所述步驟3b進(jìn)一步包括: 將Knmi (Bi,Bp與支持向量機(jī)結(jié)合,對(duì)所述選定網(wǎng)頁進(jìn)行分類,其中所述支持向量機(jī)的判 別式如下:
其中,SV為支持向量索引集,Yi (+1或-1)是特征向量Xi的類別標(biāo)簽,a i是相應(yīng)的權(quán) 重,b是偏置,a i的值和b的值皆通過訓(xùn)練得到;K (.,.)是傳統(tǒng)核;以及 用KmiC,.)代替K(.,.)后,得到:
10. -種網(wǎng)頁有害信息識(shí)別方法,包括以下步驟: 步驟1 :提取一個(gè)網(wǎng)頁內(nèi)的有效圖像,并提取所述有效圖像的相關(guān)文本; 步驟2 :將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁包中的一個(gè)示例,生成所述有效圖像 及其相關(guān)文本的描述,并將二者合并起來作為示例的描述; 步驟3 : 將步驟2中生成的一幅有效圖像的示例作為一個(gè)包中的一個(gè)示例,一個(gè)網(wǎng)頁作為一個(gè) 包,對(duì)于步驟2中生成的包馬=(?,…,和包巧=,…,氣";:!,其中x為相應(yīng)的示例表 述,采用如下方式度量包Bi和包h之間的相似性:
其中,KMI(.,.)是多示例核,K(.,.)是傳統(tǒng)核,p是一個(gè)正整數(shù); 將Knmi (Bi,Bp與支持向量機(jī)結(jié)合,對(duì)所述選定網(wǎng)頁中的有害信息進(jìn)行識(shí)別,其中所述支 持向量機(jī)的判別式如下:
其中,SV為支持向量索引集,Yi (+1或-1)是特征向量Xi的類別標(biāo)簽,a i是相應(yīng)的權(quán) 重,b是偏置,a i的值和b的值皆通過訓(xùn)練得到;以及 用KmiC,.)代替K(.,.)后,得到:
【文檔編號(hào)】G06F17/30GK104361059SQ201410609728
【公開日】2015年2月18日 申請(qǐng)日期:2014年11月3日 優(yōu)先權(quán)日:2014年11月3日
【發(fā)明者】胡衛(wèi)明, 胡瑞光 申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所