一種基于多示例學(xué)習(xí)的有害信息識(shí)別和網(wǎng)頁分類方法

文檔序號(hào)：6632992閱讀：162來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于多示例學(xué)習(xí)的有害信息識(shí)別和網(wǎng)頁分類方法
【專利摘要】本發(fā)明公開了一種基于多示例學(xué)習(xí)的網(wǎng)頁分類方法，該方法包括：設(shè)計(jì)了相對(duì)大小排序前向比較法來提取網(wǎng)頁內(nèi)有效圖像，并根據(jù)網(wǎng)頁樹狀結(jié)構(gòu)提取有效圖像的相關(guān)文本；將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁包中的一個(gè)示例，分別采用圖像詞包模型和文本詞包模型生成有效圖像及其相關(guān)文本的描述，并將二者合并起來作為示例的描述；采用多示例核對(duì)毒品網(wǎng)頁進(jìn)行分類。本發(fā)明的方法，通過將網(wǎng)頁中內(nèi)含的圖像及其相關(guān)文本作為網(wǎng)頁包中的示例，使算法更符合網(wǎng)頁內(nèi)容的實(shí)際分布，并能夠充分利用網(wǎng)頁的有效信息，深入挖掘圖像信息與文本信息的互補(bǔ)性，最終取得比只利用單模態(tài)信息進(jìn)行分類更好的效果。
【專利說明】一種基于多示例學(xué)習(xí)的有害信息識(shí)別和網(wǎng)頁分類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)內(nèi)容安全領(lǐng)域，更具體地涉及一種基于多示例學(xué)習(xí)的有害信息識(shí) 別和網(wǎng)頁分類方法。

【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)在促進(jìn)社會(huì)進(jìn)步與發(fā)展的同時(shí)，也為各種有害信息的傳播提供了極大的便利。這些有害信息日益危害著正常的社會(huì)活動(dòng)和健康的價(jià)值體系，對(duì)青少年的健康成長(zhǎng)尤為不利。最大限度地發(fā)揮互聯(lián)網(wǎng)的積極作用，抑制或消除它的消極作用，將有利于凈化互聯(lián) 網(wǎng)環(huán)境，促進(jìn)社會(huì)進(jìn)步，呵護(hù)青少年的健康成長(zhǎng)。互聯(lián)網(wǎng)有害信息包括色情、毒品、暴力、恐怖、反動(dòng)等，其中毒品信息的危害與其他有害信息的危害相比，有過之而無不及。
[0003] 在互聯(lián)網(wǎng)中，網(wǎng)頁以超文本標(biāo)記語言（Hyper Text Mark-up Language,HTML)文件的形式存在，HTML文件本質(zhì)上是文本文件，因此，通常的網(wǎng)頁分類方法主要利用文本信息，其中最主要的就是詞包模型。詞包模型的原理是：首先選擇一些關(guān)鍵詞（key)，組成文本詞典；然后統(tǒng)計(jì)每一個(gè)關(guān)鍵詞在文檔或網(wǎng)頁中的頻數(shù)，并組成一個(gè)向量；采用合適的分類器對(duì)該向量進(jìn)行分類。
[0004] 隨著各種數(shù)字設(shè)備的廣泛普及，網(wǎng)頁中的圖像數(shù)量越來越多，文本數(shù)量越來越少，只利用文本信息對(duì)網(wǎng)頁進(jìn)行分類已經(jīng)不能很好地符合網(wǎng)頁的實(shí)際形態(tài)。因此，非常有必要綜合利用圖像信息與文本信息來提高實(shí)際網(wǎng)頁分類性能。
[0005] 作為一個(gè)示例，圖1為兩個(gè)毒品網(wǎng)頁，左圖為販賣吸毒工具的網(wǎng)頁，右圖為販賣大麻的網(wǎng)頁?？梢钥闯觯瑑蓚€(gè)網(wǎng)頁中均包含了大量的圖像和少量的文本，而且圖像與文本排列得非常整齊。對(duì)于這種情況，只利用文本信息已經(jīng)不能很好地對(duì)其進(jìn)行分類。另外，目前針對(duì)互聯(lián)網(wǎng)上的毒品信息進(jìn)行處理的相關(guān)專利或文獻(xiàn)還非常少，迫切需要一種對(duì)毒品等有害信息進(jìn)行識(shí)別處理的方法，來方便各國政府加強(qiáng)對(duì)互聯(lián)網(wǎng)的監(jiān)管，保護(hù)人們免受相關(guān)信息的誘惑。

【發(fā)明內(nèi)容】

[0006] 有鑒于此，本發(fā)明的目的在于提出一種符合網(wǎng)頁內(nèi)圖像與本文數(shù)量實(shí)際分布情況的網(wǎng)頁分類方法和有害信息識(shí)別方法，解決網(wǎng)頁中有害信息的識(shí)別和自動(dòng)分類的技術(shù)問題。
[0007] 為實(shí)現(xiàn)上述目的，作為本發(fā)明的一個(gè)方面，本發(fā)明提出了一種網(wǎng)頁分類方法，包括以下步驟：
[0008] 步驟1 :提取選定網(wǎng)頁內(nèi)的有效圖像，并提取所述有效圖像的相關(guān)文本；
[0009] 步驟2 :將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁包中的一個(gè)示例，生成所述有效圖像及其相關(guān)文本的描述，并將二者合并起來作為示例的描述；
[0010] 步驟3 :采用多示例核對(duì)得到的所述示例進(jìn)行計(jì)算，根據(jù)計(jì)算的結(jié)果對(duì)所述選定網(wǎng)頁進(jìn)行分類。 toon] 其中，所述步驟1中采用相對(duì)大小排序前向比較法來提取所述網(wǎng)頁內(nèi)的有效圖像，以及
[0012] 根據(jù)網(wǎng)頁樹狀結(jié)構(gòu)來提取所述有效圖像的相關(guān)文本。
[0013] 其中，所述步驟2包括以下步驟：
[0014] 步驟2a :構(gòu)建網(wǎng)頁訓(xùn)練集，提取所述網(wǎng)頁訓(xùn)練集中有效圖像的RGB-SIFT特征，聚類生成視覺詞典，并采用硬編碼結(jié)合和聚合的方式通過圖像詞包模型生成所述有效圖像的特征向量；
[0015] 步驟2b :利用文本詞典，采用文本詞包模型生成相關(guān)文本的特征向量；
[0016] 步驟2c :將所述有效圖像的特征向量與所述相關(guān)文本的特征向量合并起來，作為示例描述。
[0017] 其中，步驟2a中所述的聚類生成視覺詞典的步驟采用K-means聚類方法，得到包含1500個(gè)視覺單詞的視覺詞典。
[0018] 其中，步驟2b中所述的文本詞典包含100個(gè)對(duì)所需分類主題有代表性的關(guān)鍵詞和 100個(gè)與所需分類主題完全不相關(guān)的關(guān)鍵詞；
[0019] 所述采用文本詞包模型生成相關(guān)文本的特征向量的步驟包括：
[0020] 對(duì)于所述相關(guān)文本，根據(jù)所述文本詞典統(tǒng)計(jì)生成其100維的特征向量；
[0021] 步驟2c中所述將有效圖像的特征向量與相關(guān)文本的特征向量合并起來的步驟包括：
[0022] 將所述有效圖像的1500維的特征向量與所述相關(guān)文本的100維的特征向量直接串起來，得到1600維的特征向量；以及
[0023] 如果一個(gè)網(wǎng)頁沒有有效圖像，則將一個(gè)1500維的零向量與所述相關(guān)文本的特征向量合并起來。
[0024] 其中，所述步驟3包括：
[0025] 步驟3a :采用多示例核對(duì)得到的所述示例進(jìn)行計(jì)算；
[0026] 步驟3b :將上述步驟得到的多示例核與支持向量機(jī)結(jié)合，對(duì)所述選定網(wǎng)頁進(jìn)行分類。
[0027] 其中，所述步驟3a包括：
[0028] 將步驟2中生成的一幅有效圖像的示例作為一個(gè)包中的一個(gè)示例，一個(gè)網(wǎng)頁作為一個(gè)包，對(duì)于步驟2中生成的包戽={七,…,^%}和包A =(χ;ι，···，χ;",丨，其中X為相應(yīng)的示例表述，采用如下方式度量包B i和包h之間的相似性：

【權(quán)利要求】
1. 一種網(wǎng)頁分類方法，包括以下步驟：步驟1:提取選定網(wǎng)頁內(nèi)的有效圖像，并提取所述有效圖像的相關(guān)文本；步驟2 :將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁包中的一個(gè)示例，生成所述有效圖像及其相關(guān)文本的描述，并將二者合并起來作為示例的描述；步驟3 :采用多示例核對(duì)得到的所述示例進(jìn)行計(jì)算，根據(jù)計(jì)算的結(jié)果對(duì)所述選定網(wǎng)頁進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的網(wǎng)頁分類方法，其中所述步驟1中采用相對(duì)大小排序前向比較法來提取所述網(wǎng)頁內(nèi)的有效圖像，以及根據(jù)網(wǎng)頁樹狀結(jié)構(gòu)來提取所述有效圖像的相關(guān)文本。
3. 根據(jù)權(quán)利要求1所述的網(wǎng)頁分類方法，其中所述步驟2包括以下步驟：步驟2a:構(gòu)建網(wǎng)頁訓(xùn)練集，提取所述網(wǎng)頁訓(xùn)練集中有效圖像的RGB-SIFT特征，聚類生成視覺詞典，并采用硬編碼結(jié)合和聚合的方式通過圖像詞包模型生成所述有效圖像的特征向量；步驟2b :利用文本詞典，采用文本詞包模型生成相關(guān)文本的特征向量；步驟2c :將所述有效圖像的特征向量與所述相關(guān)文本的特征向量合并起來，作為示例描述。
4. 根據(jù)權(quán)利要求3所述的網(wǎng)頁分類方法，其中步驟2a中所述的聚類生成視覺詞典的步驟采用K-means聚類方法，得到包含1500個(gè)視覺單詞的視覺詞典。
5. 根據(jù)權(quán)利要求3所述的網(wǎng)頁分類方法，其中步驟2b中所述的文本詞典包含100個(gè)對(duì) 所需分類主題有代表性的關(guān)鍵詞和100個(gè)與所需分類主題完全不相關(guān)的關(guān)鍵詞；所述采用文本詞包模型生成相關(guān)文本的特征向量的步驟包括：對(duì)于所述相關(guān)文本，根據(jù)所述文本詞典統(tǒng)計(jì)生成其100維的特征向量；步驟2c中所述將有效圖像的特征向量與相關(guān)文本的特征向量合并起來的步驟包括：將所述有效圖像的1500維的特征向量與所述相關(guān)文本的100維的特征向量直接串起來，得到1600維的特征向量；以及如果一個(gè)網(wǎng)頁沒有有效圖像，則將一個(gè)1500維的零向量與所述相關(guān)文本的特征向量合并起來。
6. 根據(jù)權(quán)利要求1所述的網(wǎng)頁分類方法，其中所述步驟3包括：步驟3a :采用多示例核對(duì)得到的所述示例進(jìn)行計(jì)算；步驟3b :將上述步驟得到的多示例核與支持向量機(jī)結(jié)合，對(duì)所述選定網(wǎng)頁進(jìn)行分類。
7. 根據(jù)權(quán)利要求6所述的網(wǎng)頁分類方法，其中所述步驟3a包括：將步驟2中生成的一幅有效圖像的示例作為一個(gè)包中的一個(gè)示例，一個(gè)網(wǎng)頁作為一個(gè) 包，對(duì)于步驟2中生成的包馬= {&,--?,、}和包巧={x;1，…，，其中X為相應(yīng)的示例表述，采用如下方式度量包Bi和包h之間的相似性：
其中，KMI(.，.）是多示例核，K(.，.）是傳統(tǒng)核，p是一個(gè)正整數(shù)。
8. 根據(jù)權(quán)利要求7所述的網(wǎng)頁分類方法，其中所述步驟3a還包括以下步驟：對(duì)所述的多示例核按照下式進(jìn)行歸一化處理：
其中，KnmiC，.）是歸一化后的多示例核。
9. 根據(jù)權(quán)利要求6所述的網(wǎng)頁分類方法，其中所述步驟3b進(jìn)一步包括：將Knmi (Bi,Bp與支持向量機(jī)結(jié)合，對(duì)所述選定網(wǎng)頁進(jìn)行分類，其中所述支持向量機(jī)的判別式如下：
其中，SV為支持向量索引集，Yi (+1或-1)是特征向量Xi的類別標(biāo)簽，a i是相應(yīng)的權(quán) 重，b是偏置，a i的值和b的值皆通過訓(xùn)練得到；K (.，.）是傳統(tǒng)核；以及用KmiC，.）代替K(.，.）后，得到：
10. -種網(wǎng)頁有害信息識(shí)別方法，包括以下步驟：步驟1 :提取一個(gè)網(wǎng)頁內(nèi)的有效圖像，并提取所述有效圖像的相關(guān)文本；步驟2 :將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁包中的一個(gè)示例，生成所述有效圖像及其相關(guān)文本的描述，并將二者合并起來作為示例的描述；步驟3 : 將步驟2中生成的一幅有效圖像的示例作為一個(gè)包中的一個(gè)示例，一個(gè)網(wǎng)頁作為一個(gè) 包，對(duì)于步驟2中生成的包馬=(?,…，和包巧=，…，氣";：!，其中x為相應(yīng)的示例表述，采用如下方式度量包Bi和包h之間的相似性：
其中，KMI(.，.）是多示例核，K(.，.）是傳統(tǒng)核，p是一個(gè)正整數(shù)；將Knmi (Bi,Bp與支持向量機(jī)結(jié)合，對(duì)所述選定網(wǎng)頁中的有害信息進(jìn)行識(shí)別，其中所述支持向量機(jī)的判別式如下：
其中，SV為支持向量索引集，Yi (+1或-1)是特征向量Xi的類別標(biāo)簽，a i是相應(yīng)的權(quán) 重，b是偏置，a i的值和b的值皆通過訓(xùn)練得到；以及用KmiC，.）代替K(.，.）后，得到：
【文檔編號(hào)】G06F17/30GK104361059SQ201410609728
【公開日】2015年2月18日申請(qǐng)日期:2014年11月3日優(yōu)先權(quán)日:2014年11月3日
【發(fā)明者】胡衛(wèi)明, 胡瑞光申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡衛(wèi)明;胡瑞光;
技術(shù)所有人：中國科學(xué)院自動(dòng)化研究所;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多示例學(xué)習(xí)的有害信息識(shí)別和網(wǎng)頁分類方法