亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于群件理解的不良彩信過濾方法

文檔序號:7724397閱讀:201來源:國知局

專利名稱::基于群件理解的不良彩信過濾方法
技術領域
:本發(fā)明涉及的是一種信息處理
技術領域
的方法,具體是一種基于群件理解的不良彩信過濾方法。
背景技術
:隨著現(xiàn)代移動通信技術快速發(fā)展,移動多媒體信息業(yè)務日漸廣泛的深入人們的日常生活中。而伴隨著移動通信網(wǎng)絡與互聯(lián)網(wǎng)絡的不斷融合,原先在互聯(lián)網(wǎng)上的不良(反動、色情、恐怖、垃圾等)信息泛濫的問題也已經(jīng)出現(xiàn)在移動通信領域。面對海量多媒體信息,如何主動,實時地識別并過濾其中的特定信息成了該領域的熱點。在不良信息過濾方面,目前廣泛采用的技術集中在黑名單、白名單、是否群發(fā)、發(fā)送頻率統(tǒng)計、抽樣檢查、關鍵詞過濾、人工輔助過濾等方面。盡管這些技術的應用有效果,但仍然需要基于內容理解技術去過濾短信和彩信。經(jīng)對現(xiàn)有技術文獻的檢索發(fā)現(xiàn),中國專利公開號CN101137085A,名稱垃圾短信彩信封堵方法,申請人中國移動通信集團江蘇有限公司,該技術提出了一種垃圾短信彩信封堵方法,包括以下步驟首先,垃圾彩信服務器監(jiān)控出單位時間發(fā)送量超標的號碼及內容;其次,BOSS獲得超標號碼文件及內容;再次,將號碼與白名單對照,判斷該號碼是否在白名單內,若是,則流程結束;若否,則進行人工判定,即將該號碼和內容呈現(xiàn)到客服操作員界面,由人工判別內容是否是垃圾短信彩信,若否,則流程結束;若是,則進入下一步;最后,對該號碼向HLR發(fā)送停短信彩信功能指令,同時加入客服知識庫,以供被停號碼發(fā)起投訴時客服人員解釋。由此可知,該技術主要是一個針對發(fā)送頻率及黑白名單等外部特征的管理流程,對于彩信內容則完全依賴人工離線的理解和判斷。盡管人的智慧很高,但在面對海量的彩信需要在線判斷時,該方法即不能達到實時性要求,也不具有客觀性,效率非常差。
發(fā)明內容本發(fā)明的目的在于克服現(xiàn)有技術存在的上述不足,提供一種基于群件理解的不良彩信過濾方法。本發(fā)明首先將彩信拆分成單媒體,并通過合適組件進行理解,最后再根據(jù)各個組件的獨立結果綜合成彩信的單一過濾結果,進一步提高了彩信過濾的實時性和客觀性,真正實現(xiàn)了不良彩信的在線過濾和控制。本發(fā)明是通過以下技術方案實現(xiàn)的,包括以下步驟第一步,將每個處理組件分為四組樣本,對每個處理組件分別訓練形成四個分類器,得到處理組件的離線訓練用樣本庫,并運用決策樹訓練樣本的組織方式得到?jīng)Q策樹訓練樣本集,進而生成決策樹。所述的處理組件是第一組件、第二組件、第三組件和第四組件中的一種,其中文本文件選用第一組件過濾處理,圖像文件和圖形文件選用第二組件過濾處理,音頻文件選用第三組件過濾處理,視頻文件和動畫文件選用第四組件過濾處理。4所述的第一組件是基于自然語言理解方法的文本文件過濾處理組件。所述的第二組件是基于SVM(SupportVectorMachine,支持向量機)分類方法的圖形圖像過濾處理組件。所述的第三組件是基于SVM分類方法的音頻過濾處理組件。所述的第四組件是基于關鍵幀判別方法的過濾處理組件。所述的四組樣本是反動-正常樣本、色情-正常樣本、恐怖-正常樣本和垃圾-正常樣本。所述的四個分類器是反動_正常分類器、色情_正常分類器、恐怖_正常分類器和垃圾正常分類器。所述的離線訓練用樣本庫包括反動樣本庫、色情樣本庫、恐怖樣本庫、垃圾樣本庫和正常樣本庫。所述的決策樹訓練樣本的格式是彩信的序號、第一組件判斷單一媒體文件為反動類別的概率、第二組件判斷單一媒體文件為反動類別的概率、第三組件判斷單一媒體文件為反動類別的概率、第四組件判斷單一媒體文件為反動類別的概率、第一組件判斷單一媒體文件為色情類別的概率、第二組件判斷單一媒體文件為色情類別的概率、第三組件判斷單一媒體文件為色情類別的概率、第四組件判斷單一媒體文件為色情類別的概率、第一組件判斷單一媒體文件為恐怖類別的概率、第二組件判斷單一媒體文件為恐怖類別的概率、第三組件判斷單一媒體文件為恐怖類別的概率、第四組件判斷單一媒體文件為恐怖類別的概率、第一組件判斷單一媒體文件為垃圾類別的概率、第二組件判斷單一媒體文件為垃圾類別的概率、第三組件判斷單一媒體文件為垃圾類別的概率、第四組件判斷單一媒體文件為垃圾的概率、人工判斷結果。所述的人工判斷結果是反動、色情、恐怖、垃圾和正常中的一種。第二步,根據(jù)MME(MultipurposeInternetMailExtensions,RFC2045,多用途互聯(lián)網(wǎng)郵件擴展)規(guī)范把彩信拆分成若干個單一媒體文件。所述的單一媒體是文本、圖形、圖像、動畫、音頻和視頻中的一種。第三步,將得到的每個單一媒體文件用處理組件的四個分類器進行基于內容理解的過濾處理,得到每個單一媒體文件分別為反動文件、色情文件、恐怖文件和垃圾文件的概率,分別選取每個處理組件得到的反動文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作為處理組件的反動概率、色情概率、恐怖概率和垃圾概率。所述的基于內容的過濾處理是1)利用處理組件的反動_正常分類器得到單一媒體文件是反動文件的概率,當反動文件的概率大于設置閾值時,將該單一媒體文件是色情文件、恐怖文件和垃圾文件的概率都設為0;當反動文件的概率小于設置閾值時,執(zhí)行2);2)利用處理組件的色情_正常分類器得到單一媒體文件是色情文件的概率,當色情文件的概率大于設置閾值時,將該單一媒體文件是恐怖文件和垃圾文件的概率都設為0;當色情文件的概率小于設置閾值時,執(zhí)行3);3)利用處理組件的恐怖_正常分類器得到單一媒體文件是恐怖文件的概率,當恐怖文件的概率大于設置閾值時,將該單一媒體文件是垃圾文件的概率設為0;當恐怖文件的概率小于設置閾值時,執(zhí)行4);4)利用處理組件的垃圾_正常分類器得到單一媒體文件是垃圾文件的概率。第四步,將得到的每個處理組件的反動概率、色情概率、恐怖概率和垃圾概率組織成一個輸入向量,輸入到訓練所得的決策樹,通過決策樹方法得到該彩信的過濾結果。所述的輸入向量形式為第一組件的反動概率,第二組件的反動概率,第三組件的反動概率,第四組件的反動概率,第一組件的色情概率,第二組件的色情概率,第三組件的色情概率,第四組件的色情概率,第一組件的恐怖概率,第二組件的恐怖概率,第三組件的恐怖概率,第四組件的恐怖概率,第一組件的垃圾概率,第二組件的垃圾概率,第三組件的垃圾概率,第四組件的垃圾概率。與現(xiàn)有技術相比,本發(fā)明具有如下有益效果除了離線的訓練需要人工構造訓練樣本庫外,其余判斷過程都是自動化處理的,不需要任何人工干預,通過把彩信拆分成不同單一媒體文件,有效解決了彩信無法進行內容過濾的困難,提高了不良彩信過濾的實時性和客觀性,過濾的效率和準確性明顯提高。圖1是本實施例的流程示意圖。具體實施例方式下面結合附圖對本發(fā)明的實施例作詳細說明本實施例在以本發(fā)明技術方案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。實施例如圖1所示,本實施例包括以下步驟第一步,將每個處理組件分為反動_正常樣本、色情_正常樣本、恐怖_正常樣本和垃圾正常樣本這四組樣本,對每個處理組件分別訓練形成反動_正常分類器、色情_正常分類器、恐怖_正常分類器和垃圾_正常分類器這四個分類器,得到處理組件的反動樣本庫、色情樣本庫、恐怖樣本庫、垃圾樣本庫和正常樣本庫,并運用決策樹訓練樣本的組織方式得到?jīng)Q策樹訓練樣本集,進而生成決策樹。所述的處理組件是第一組件、第二組件、第三組件和第四組件中的一種,其中文本文件選用第一組件過濾處理,圖像文件和圖形文件選用第二組件過濾處理,音頻文件選用第三組件過濾處理,視頻文件和動畫文件選用第四組件過濾處理。所述的第一組件是基于自然語言理解方法的文本文件過濾處理組件。本實施例在對文本進行分類時,經(jīng)過了如下步驟經(jīng)過自動分詞方法,把文本拆分成獨立的詞;采用TFIDF方法計算詞的權重;經(jīng)過停用詞過濾步驟后,把文本文件表示成向量;采用貝葉斯方法,對文本向量進行學習或分類。所述的第二組件是基于SVM分類方法的圖形圖像過濾處理組件。在本實施例中,分類的特征采用皮膚區(qū)域分隔、或特征區(qū)域識別、或面部識別方法獲??;把圖形或圖像特征表示成向量;采用SVM學習方法,對該向量進行處理實現(xiàn)學習或分類。所述的第三組件是基于SVM分類方法的音頻過濾處理組件。在本實施例中,音頻特征采用頻域特征、或頻率倒譜系數(shù)、或小波域特征表示;把音頻文件表示成由上述特征組6成的向量;采用SVM學習方法,對該向量進行處理,實現(xiàn)學習或分類。所述的第四組件是基于關鍵幀判別方法的過濾處理組件。在本實施例中,首先把視頻或動畫拆分成關鍵幀;針對每個關鍵幀采用第二組件所述的圖像分類方法進行分類;對分類結果進行統(tǒng)計,以各類結果中數(shù)量最多者為該視頻或動畫的最終類別。所述的決策樹訓練樣本的格式是樣本序號、第一組件判斷單一媒體文件為反動類別的概率、第二組件判斷單一媒體文件為反動類別的概率、第三組件判斷單一媒體文件為反動類別的概率、第四組件判斷單一媒體文件為反動類別的概率、第一組件判斷單一媒體文件為色情類別的概率、第二組件判斷單一媒體文件為色情類別的概率、第三組件判斷單一媒體文件為色情類別的概率、第四組件判斷單一媒體文件為色情類別的概率、第一組件判斷單一媒體文件為恐怖類別的概率、第二組件判斷單一媒體文件為恐怖類別的概率、第三組件判斷單一媒體文件為恐怖類別的概率、第四組件判斷單一媒體文件為恐怖類別的概率、第一組件判斷單一媒體文件為垃圾類別的概率、第二組件判斷單一媒體文件為垃圾類別的概率、第三組件判斷單一媒體文件為垃圾類別的概率、第四組件判斷單一媒體文件為垃圾的概率、人工判斷結果。所述的人工判斷結果是反動、色情、恐怖、垃圾和正常中的一種。本實施例得到的決策樹訓練樣本集的示例,如表1所示。表l樣本序號反動轉色情.魔率/垃教饕組件第組件第離件第四組件第組件第組件第組件第四緩件組件第組件第綴件恭#第綴件組件第綴件第西緩件人判斷195祐80078502001035§06030350反動26758435299明877834fi75324幼7085、■■■■■■■■丄慣31059672917127886878156603343憑*402354€1128103456786590877659垃*543670214690幼7804755230,…E6700彌99001230034900色第二步,根據(jù)MME規(guī)范把彩信拆分成若干個單一媒體文件。所述的單一媒體是文本、圖形、圖像、動畫、音頻和視頻中的一種。第三步,將得到的每個單一媒體文件用處理組件進行基于內容理解的過濾處理,得到每個單一媒體文件分別為反動文件、色情文件、恐怖文件和垃圾文件的概率,分別選取每個處理組件得到的反動文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作為處理組件的反動概率、色情概率、恐怖概率和垃圾概率。所述的基于內容的過濾處理是1)利用處理組件的反動_正常分類器得到單一媒體文件是反動文件的概率,當反動文件的概率大于設置閾值時,將該單一媒體文件是色情文件、恐怖文件和垃圾文件的概率都設為0;當反動文件的概率小于設置閾值時,執(zhí)行2);2)利用處理組件的色情_正常分類器得到單一媒體文件是色情文件的概率,當色情文件的概率大于設置閾值時,將該單一媒體文件是恐怖文件和垃圾文件的概率都設為0;當色情文件的概率小于設置閾值時,執(zhí)行3);3)利用處理組件的恐怖_正常分類器得到單一媒體文件是恐怖文件的概率,當恐怖文件的概率大于設置閾值時,將該單一媒體文件是垃圾文件的概率設為0;當恐怖文件的概率小于設置閾值時,執(zhí)行4);4)利用處理組件的垃圾_正常分類器得到單一媒體文件是垃圾文件的概率。以文本文件為例,本實施例共得到三個文本文件,把每個文本文件依次輸入第一組件的四個分類器得到每個文本文件分別為反動文件、色情文件、恐怖文件和垃圾文件的概率,分別選取第一組件得到的反動文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作為第一組件的反動概率、色情概率、恐怖概率和垃圾概率,具體見表2所示。表2<table>tableseeoriginaldocumentpage8</column></row><table>第四步,將上步得到的每個處理組件的反動概率、色情概率、恐怖概率和垃圾概率組織成一個輸入向量,輸入到訓練所得的決策樹,通過決策樹方法得到該彩信的過濾結果。所述的輸入向量形式為第一組件的反動概率,第二組件的反動概率,第三組件的反動概率,第四組件的反動概率,第一組件的色情概率,第二組件的色情概率,第三組件的色情概率,第四組件的色情概率,第一組件的恐怖概率,第二組件的恐怖概率,第三組件的恐怖概率,第四組件的恐怖概率,第一組件的垃圾概率,第二組件的垃圾概率,第三組件的垃圾概率,第四組件的垃圾概率。本實施例采用了C5.0決策樹方法進行決策,該方法是一個成熟的現(xiàn)有技術,將第三步得到的每個處理組件的反動概率、色情概率、恐怖概率和垃圾概率組織成一個輸入向量輸入到?jīng)Q策樹中,決策樹就會輸出一個類別值,其中反動、色情、恐怖和垃圾這四種類別為不良彩信,應該被過濾,而正常類別的彩信則被放行。本實施例的優(yōu)點除了離線的訓練需要人工構造訓練樣本庫外,其余判斷過程都是自動化處理的,不需要任何人工干預,通過把彩信拆分成不同單一媒體文件,有效解決了彩信無法進行內容過濾的困難,提高了不良彩信過濾的實時性和客觀性,過濾的效率和準確性明顯提高。權利要求一種基于群件理解的不良彩信過濾方法,其特征在于,包括以下步驟第一步,將每個處理組件分為四組樣本,對每個處理組件分別訓練形成四個分類器,得到處理組件的離線訓練用樣本庫,并運用決策樹訓練樣本的組織方式得到?jīng)Q策樹訓練樣本集,進而生成決策樹;第二步,根據(jù)多用途互聯(lián)網(wǎng)郵件擴展規(guī)范把彩信拆分成若干個單一媒體文件;第三步,將得到的每個單一媒體文件用處理組件的四個分類器進行基于內容理解的過濾處理,得到每個單一媒體文件分別為反動文件、色情文件、恐怖文件和垃圾文件的概率,分別選取每個處理組件得到的反動文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作為處理組件的反動概率、色情概率、恐怖概率和垃圾概率;第四步,將得到的每個處理組件的反動概率、色情概率、恐怖概率和垃圾概率組織成一個輸入向量,輸入到訓練所得的決策樹,通過決策樹方法得到該彩信的過濾結果。2.根據(jù)權利要求1所述的基于群件理解的不良彩信過濾方法,其特征是,第一步中所述的處理組件是第一組件、第二組件、第三組件和第四組件中的一種,其中文本文件選用第一組件過濾處理,圖像文件和圖形文件選用第二組件過濾處理,音頻文件選用第三組件過濾處理,視頻文件和動畫文件選用第四組件過濾處理。3.根據(jù)權利要求1所述的基于群件理解的不良彩信過濾方法,其特征是,第一步中所述的四個分類器是反動正常分類器、色情正常分類器、恐怖正常分類器和垃圾正常分類器;所述的離線訓練用樣本庫包括反動樣本庫、色情樣本庫、恐怖樣本庫、垃圾樣本庫和正常樣本庫。4.根據(jù)權利要求1所述的基于群件理解的不良彩信過濾方法,其特征是,第一步中所述的決策樹訓練樣本的格式是彩信的序號、第一組件判斷單一媒體文件為反動類別的概率、第二組件判斷單一媒體文件為反動類別的概率、第三組件判斷單一媒體文件為反動類別的概率、第四組件判斷單一媒體文件為反動類別的概率、第一組件判斷單一媒體文件為色情類別的概率、第二組件判斷單一媒體文件為色情類別的概率、第三組件判斷單一媒體文件為色情類別的概率、第四組件判斷單一媒體文件為色情類別的概率、第一組件判斷單一媒體文件為恐怖類別的概率、第二組件判斷單一媒體文件為恐怖類別的概率、第三組件判斷單一媒體文件為恐怖類別的概率、第四組件判斷單一媒體文件為恐怖類別的概率、第一組件判斷單一媒體文件為垃圾類別的概率、第二組件判斷單一媒體文件為垃圾類別的概率、第三組件判斷單一媒體文件為垃圾類別的概率、第四組件判斷單一媒體文件為垃圾的概率、人工判斷結果;所述的人工判斷結果是反動、色情、恐怖、垃圾和正常中的一種。5.根據(jù)權利要求1所述的基于群件理解的不良彩信過濾方法,其特征是,第三步中所述的基于內容的過濾處理是1)利用處理組件的反動正常分類器得到單一媒體文件是反動文件的概率,當反動文件的概率大于設置閾值時,將該單一媒體文件是色情文件、恐怖文件和垃圾文件的概率都設為0;當反動文件的概率小于設置閾值時,執(zhí)行2);2)利用處理組件的色情正常分類器得到單一媒體文件是色情文件的概率,當色情文件的概率大于設置閾值時,將該單一媒體文件是恐怖文件和垃圾文件的概率都設為0;當色情文件的概率小于設置閾值時,執(zhí)行3);3)利用處理組件的恐怖正常分類器得到單一媒體文件是恐怖文件的概率,當恐怖文件的概率大于設置閾值時,將該單一媒體文件是垃圾文件的概率設為0;當恐怖文件的概率小于設置閾值時,執(zhí)行4);4)利用處理組件的垃圾正常分類器得到單一媒體文件是垃圾文件的概率。6.根據(jù)權利要求1所述的基于群件理解的不良彩信過濾方法,其特征是,第四步中所述的輸入向量形式為第一組件的反動概率,第二組件的反動概率,第三組件的反動概率,第四組件的反動概率,第一組件的色情概率,第二組件的色情概率,第三組件的色情概率,第四組件的色情概率,第一組件的恐怖概率,第二組件的恐怖概率,第三組件的恐怖概率,第四組件的恐怖概率,第一組件的垃圾概率,第二組件的垃圾概率,第三組件的垃圾概率,第四組件的垃圾概率。全文摘要一種信息
技術領域
的基于群件理解的不良彩信過濾方法,包括如下步驟將每個處理組件分為四組樣本,對每個處理組件分別訓練形成四個分類器,得到處理組件的離線訓練用樣本庫和決策樹訓練樣本集,進而生成決策樹;把彩信拆分成若干個單一媒體文件;進行基于內容理解的過濾處理,得到每個處理組件的反動概率、色情概率、恐怖概率和垃圾概率;將得到的概率組織成一個輸入向量,輸入到訓練所得的決策樹,得到彩信的過濾結果。本發(fā)明通過把彩信拆分成不同單一媒體文件,有效解決了彩信無法進行內容過濾的困難,提高了不良彩信過濾的實時性和客觀性,過濾的效率和準確性明顯提高。文檔編號H04W4/12GK101719924SQ20091031166公開日2010年6月2日申請日期2009年12月17日優(yōu)先權日2009年12月17日發(fā)明者劉功申,朱劍,李建華,李翔,王士林申請人:上海交通大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1