一種信息識別的方法和服務(wù)器的制造方法
【專利摘要】本發(fā)明公開了一種信息識別的方法和服務(wù)器,屬于計算機安全領(lǐng)域。所述方法包括:獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容;根據(jù)所述網(wǎng)頁內(nèi)容查找預(yù)先設(shè)置的特征集得到匹配的特征詞,并在所述特征集中獲取所述特征詞的模型權(quán)重參數(shù);計算所述特征詞在所述網(wǎng)頁中的權(quán)重;根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù),判斷所述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息。本發(fā)明通過預(yù)先設(shè)置的信息計算模型中計算得到的特征詞的模型權(quán)重參數(shù),以及網(wǎng)頁中出現(xiàn)的敏感詞的權(quán)重,來識別網(wǎng)頁是否屬于預(yù)設(shè)的信息類網(wǎng)頁。
【專利說明】一種信息識別的方法和服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機安全領(lǐng)域,特別涉及一種信息識別的方法和服務(wù)器。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的招嫖信息類網(wǎng)頁、與招嫖相關(guān)的論壇、博客等 頁面充斥在網(wǎng)頁中,嚴重影響人們的身心健康。因此,如何識別出招嫖信息,以對互聯(lián)網(wǎng)實 現(xiàn)凈化,一直是人們關(guān)注的焦點和致力于解決的問題。
[0003]現(xiàn)有技術(shù)中,招嫖信息主要包括一些找小姐、酒店公關(guān)、伴游、夜場公主等相關(guān)內(nèi) 容。對招嫖信息進行識別時一般在搜索引擎中設(shè)置敏感詞,通過該敏感詞對網(wǎng)頁進行過濾, 以控制網(wǎng)頁的顯示內(nèi)容。
[0004]在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005]利用敏感詞識別網(wǎng)頁的方式過于死板,效果不佳,且容易造成較高的誤判,如對于 一些這方面的報導(dǎo)和新聞頁面等容易誤判。
【發(fā)明內(nèi)容】
[0006]為了解決現(xiàn)有技術(shù)中通過敏感詞識別招嫖信息效率低的問題,本發(fā)明實施例提供 了一種信息識別的方法和服務(wù)器。所述技術(shù)方案如下:
[0007]—方面,提供了一種信息識別的方法,所述方法包括:
[0008]獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容;
[0009]根據(jù)所述網(wǎng)頁內(nèi)容查找預(yù)先設(shè)置的特征集得到匹配的特征詞,并在所述特征集中 獲取所述特征詞的模型權(quán)重參數(shù);
[0010]計算所述特征詞在所述網(wǎng)頁中的權(quán)重;
[0011]根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù),判斷所述網(wǎng) 頁內(nèi)容是否包含預(yù)設(shè)信息。
[0012]其中,所述獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容,包括:
[0013]獲取待識別的網(wǎng)頁中的文本內(nèi)容;
[0014]對所述文本內(nèi)容進行分詞,將每一個分詞后的詞匯作為所述網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容。
[0015]其中,所述計算所述特征詞在所述網(wǎng)頁中的權(quán)重,包括:
[0016]獲取所述特征詞在所述網(wǎng)頁中出現(xiàn)的第一頻率;
[0017]獲取所述特征詞在預(yù)先指定的網(wǎng)頁中出現(xiàn)的第二頻率;
[0018]根據(jù)所述第一頻率和所述第二頻率,按照預(yù)設(shè)的第一算法計算得到所述特征詞在 所述網(wǎng)頁中的權(quán)重。
[0019]其中,所述根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù), 判斷所述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息,包括:
[0020]根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重,以及所述特征詞的模型權(quán)重參數(shù),按照預(yù)設(shè)的第二算法計算得到所述網(wǎng)頁的評分;
[0021]當所述網(wǎng)頁的評分大于預(yù)設(shè)閾值時,判定所述網(wǎng)頁包含預(yù)設(shè)的信息。
[0022]其中,所述獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容之前,還包括:
[0023]獲取含有預(yù)設(shè)的信息關(guān)鍵詞的網(wǎng)頁,將所述網(wǎng)頁作為訓(xùn)練樣本;
[0024]在所述訓(xùn)練樣本中查找是否存在預(yù)設(shè)的詞匯集合中的詞匯,根據(jù)查找到的詞匯 在所述訓(xùn)練樣本中的出現(xiàn)頻率,以及所述查找到的詞匯在預(yù)先指定的網(wǎng)頁中出現(xiàn)的頻率, 計算所述查找到的詞匯的權(quán)重,并根據(jù)所述權(quán)重選取預(yù)設(shè)數(shù)量的詞匯作為特征集中的特征 詞;
[0025]隨機指定每一個特征詞的模型權(quán)重參數(shù)初始值,通過文本分類算法對所述每一個 特征詞的模型權(quán)重參數(shù)初始值進行迭代,得到每一個特征詞的模型權(quán)重參數(shù),使得根據(jù)所 述每一個特征詞的模型權(quán)重參數(shù)計算得到的預(yù)設(shè)的信息計算模型判別誤差達到最小。
[0026]另一方面,提供了一種信息識別的服務(wù)器,所述服務(wù)器包括:
[0027]第一獲取模塊,用于獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容;
[0028]匹配模塊,用于根據(jù)所述網(wǎng)頁內(nèi)容查找預(yù)先設(shè)置的特征集得到匹配的特征詞,并 在所述特征集中獲取所述特征詞的模型權(quán)重參數(shù);
[0029]第一權(quán)重計算模塊,用于計算所述特征詞在所述網(wǎng)頁中的權(quán)重;
[0030]識別模塊,用于根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參 數(shù),判斷所述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息。
[0031]其中,所述第一獲取模塊,包括:
[0032]第一獲取單元,用于獲取待識別的網(wǎng)頁中的文本內(nèi)容;
[0033]分詞單元,用于對所述文本內(nèi)容進行分詞,將每一個分詞后的詞匯作為所述網(wǎng)頁 對應(yīng)的網(wǎng)頁內(nèi)容。
[0034]其中,所述第一權(quán)重計算模塊,包括:
[0035]第二獲取單元,用于獲取所述特征詞在所述網(wǎng)頁中出現(xiàn)的第一頻率;
[0036]第三獲取單元,用于獲取所述特征詞在預(yù)先指定的網(wǎng)頁中出現(xiàn)的第二頻率;
[0037]權(quán)重計算單元,用于根據(jù)所述第一頻率和所述第二頻率,按照預(yù)設(shè)的第一算法計 算得到所述特征詞在所述網(wǎng)頁中的權(quán)重。
[0038]其中,所述識別模塊,包括:
[0039]處理單元,用于根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重,以及所述特征詞的模型權(quán) 重參數(shù),按照預(yù)設(shè)的第二算法計算得到所述網(wǎng)頁的評分;
[0040]判定單元,用于當所述網(wǎng)頁的評分大于預(yù)設(shè)閾值時,判定所述網(wǎng)頁包含預(yù)設(shè)的信
肩、O
[0041]其中,所述服務(wù)器還包括:
[0042]第二獲取模塊,用于獲取含有預(yù)設(shè)的信息關(guān)鍵詞的網(wǎng)頁,將所述網(wǎng)頁作為訓(xùn)練樣 本;
[0043]第二權(quán)重計算模塊,用于在所述訓(xùn)練樣本中查找是否存在預(yù)設(shè)的詞匯集合中的詞 匯,根據(jù)查找到的詞匯在所述訓(xùn)練樣本中的出現(xiàn)頻率,以及所述查找到的詞匯在預(yù)先指定 的網(wǎng)頁中出現(xiàn)的頻率,計算所述查找到的詞匯的權(quán)重,并根據(jù)所述權(quán)重選取預(yù)設(shè)數(shù)量的詞 匯作為特征集中的特征詞;[0044]模型權(quán)重參數(shù)計算模塊,用于隨機指定每一個特征詞的模型權(quán)重參數(shù)初始值,通 過文本分類算法對所述每一個特征詞的模型權(quán)重參數(shù)初始值進行迭代,得到每一個特征詞 的模型權(quán)重參數(shù),使得根據(jù)所述每一個特征詞的模型權(quán)重參數(shù)計算得到的預(yù)設(shè)的信息計算 模型判別誤差達到最小。
[0045]本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0046]通過預(yù)先設(shè)置的信息計算模型中計算得到的特征詞的模型權(quán)重參數(shù),以及網(wǎng)頁中 出現(xiàn)的敏感詞的權(quán)重,來識別網(wǎng)頁是否屬于預(yù)設(shè)的信息類網(wǎng)頁,提高了識別的效率。
【專利附圖】
【附圖說明】
[0047]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0048]圖1是本發(fā)明實施例一提供的信息識別的方法流程圖;
[0049]圖2是本發(fā)明實施例二提供的信息識別的方法流程圖;
[0050]圖3是本發(fā)明實施例三提供的信息識別的服務(wù)器結(jié)構(gòu)示意圖。
【具體實施方式】
[0051]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方 式作進一步地詳細描述。
[0052]實施例一
[0053]本發(fā)明實施例提供了一種信息識別的方法,參見圖1,方法流程包括:
[0054]101:獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容;
[0055]102:根據(jù)所述網(wǎng)頁內(nèi)容查找預(yù)先設(shè)置的特征集得到匹配的特征詞,并在所述特征 集中獲取所述特征詞的模型權(quán)重參數(shù);
[0056]103:計算所述特征詞在所述網(wǎng)頁中的權(quán)重;
[0057]104:根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù),判斷所 述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息。
[0058]本發(fā)明實施例通過預(yù)先設(shè)置的信息計算模型中計算得到的特征詞的模型權(quán)重參 數(shù),以及網(wǎng)頁中出現(xiàn)的敏感詞的權(quán)重,來識別網(wǎng)頁是否屬于預(yù)設(shè)信息類網(wǎng)頁,提高了識別的 效率。
[0059]實施例二
[0060]本發(fā)明實施例提供了一種信息識別的方法,參見圖2,需要說明的是,在本發(fā)明實 施例中以在網(wǎng)頁中識別招嫖信息為例對信息識別的方法進行描述。首先通過構(gòu)建招嫖信息 計算模型,通過模型不斷的優(yōu)化特征集中的特征詞的模型權(quán)重參數(shù),來達到通過這些特征 詞以及其對應(yīng)的模型權(quán)重參數(shù)更加準確的識別招嫖信息網(wǎng)頁。
[0061]方法流程包括:
[0062]201:獲取含有預(yù)設(shè)的信息關(guān)鍵詞的網(wǎng)頁,將所述網(wǎng)頁作為訓(xùn)練樣本。
[0063]具體地,預(yù)設(shè)招嫖信息關(guān)鍵詞,根據(jù)該招嫖信息關(guān)鍵詞去抓取搜索引擎中收錄的頁面,得到抓取信息,將該抓取信息作為初期模型的訓(xùn)練樣本,該抓取信息為N個頁面信 息,N為大于I的整數(shù)。其中,招嫖信息關(guān)鍵詞可以為:找小姐、上門按摩、酒店/KTV招聘公 關(guān)/高級服務(wù)員、伴游信息等,本發(fā)明不對招嫖信息關(guān)鍵詞的具體內(nèi)容進行限定。搜索引擎 中收錄的頁面可以預(yù)先存儲在后臺服務(wù)器。
[0064]優(yōu)選地,獲取抓取信息后,還可以對該抓取信息進行審核,將審核后的抓取信息作 為初期模型的訓(xùn)練樣本。其中,該訓(xùn)練樣本包括正常訓(xùn)練樣本和非正常訓(xùn)練樣本,正常訓(xùn)練 樣本是指包含了招嫖信息的訓(xùn)練樣本,非正常訓(xùn)練樣本是指未包含招嫖類信息但被抓取的 訓(xùn)練樣本。對抓取信息進行審核是指對根據(jù)預(yù)設(shè)的經(jīng)驗信息對抓取信息進行學習,根據(jù)經(jīng) 驗信息判斷出每個訓(xùn)練信息是正常訓(xùn)練樣本還是非正常訓(xùn)練樣本,若是正常訓(xùn)練樣本,則 審核通過,對上述得到的訓(xùn)練樣本不做處理;若是非正常訓(xùn)練樣本,則審核未通過,在上述 得到的訓(xùn)練樣本中刪除該非正常訓(xùn)練樣本,以盡可能使該步驟得到的招嫖類訓(xùn)練樣本更接 近于實際情況。
[0065]202:在所述訓(xùn)練樣本中查找是否存在預(yù)設(shè)的詞匯集合中的詞匯,根據(jù)查找到的詞 匯在所述訓(xùn)練樣本中的出現(xiàn)頻率,以及所述查找到的詞匯在預(yù)先指定的網(wǎng)頁中出現(xiàn)的頻率 計算所述查找到的詞匯的權(quán)重,并根據(jù)所述權(quán)重選取預(yù)設(shè)數(shù)量的詞匯作為特征集中的特征
o
[0066]預(yù)設(shè)的詞匯集合是由一個帶有數(shù)十萬個詞匯的詞典構(gòu)成,詞典中的詞匯既包括正 常詞匯,還包括涉及招嫖信息的非正常詞匯。通過在訓(xùn)練樣本中查找詞匯集合中的詞匯,并 對所有出現(xiàn)過的詞匯計算權(quán)重,并從中發(fā)掘出招嫖信息計算模型所需的特征集。特征集是 根據(jù)計算得到的詞匯的權(quán)重進行排序,從中選取權(quán)重最高的預(yù)設(shè)個數(shù)個詞匯作為特征集中 的特征詞。最終利用特征集中的特征詞通過招嫖信息計算模型來對獲取的網(wǎng)頁進行分析已 達到識別招嫖信息網(wǎng)頁的目的。
[0067]具體的,計算查找到的特征詞的權(quán)重,是通過TFIDF (term frequency -1nverse document frequency)算法得到,TFIDF是一種用于資訊檢索與資訊探勘的經(jīng)典的詞特征權(quán) 重計算方法,TFIDF實際上是:TF*IDF,TF詞頻(Term Frequency), IDF反文檔頻率(Inverse Document Frequency)。TF表示詞條t在文檔中出現(xiàn)的頻率。如果某個詞或短語在一篇文 章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別 區(qū)分能力,適合用來分類。對于IDF,如果包含詞條t的文檔越少,IDF越大,則說明詞條t 具有很好的類別區(qū)分能力。
[0068]對于TF (詞匯頻率)而言,本發(fā)明實施例統(tǒng)計上述招嫖類訓(xùn)練樣本中的詞條在單 個網(wǎng)頁中出現(xiàn)的第一頻率,并將該第一頻率與預(yù)設(shè)的頻率閾值進行比較,判斷出該第一頻 率對應(yīng)的詞條是否為有用的特征,如當?shù)谝活l率大于預(yù)設(shè)的頻率閾值時,則將該第一頻率 對應(yīng)的詞條確定為有用的特征,當?shù)谝活l率小于預(yù)設(shè)的頻率閾值時,則將該第一頻率對應(yīng) 的詞條確定為無用的特征。
[0069]對于DF (文檔頻率)而言,本發(fā)明實施例以上述招嫖類訓(xùn)練樣本為例進行統(tǒng)計, 統(tǒng)計預(yù)設(shè)個數(shù)個隨機網(wǎng)頁中各詞條出現(xiàn)的第一次數(shù),并將該次數(shù)與預(yù)設(shè)的次數(shù)閾值進行比 較,判斷出該第一次數(shù)對應(yīng)的詞條是否為有用的特征,如當?shù)谝淮螖?shù)小于預(yù)設(shè)的次數(shù)閾值 時,則將該第一次數(shù)對應(yīng)的詞條確定為有用的特征,當?shù)谝淮螖?shù)大于預(yù)設(shè)的次數(shù)閾值時,則 將該第一次數(shù)對應(yīng)的詞條確定為無用的特征。其中,該預(yù)設(shè)個數(shù)個隨機網(wǎng)頁可以為100萬個隨機網(wǎng)頁,本發(fā)明對此不做限定,可以為十萬級個隨機網(wǎng)頁或百萬級個隨機網(wǎng)頁。
[0070]本發(fā)明實施例中,將根據(jù)TF得到的有用的特征稱為第一特征,將根據(jù)DF得到的有用的特征稱為第二特征,從而將第一特征和/或第二特征確定為初期招嫖信息模型的特征集。優(yōu)選的,在【具體實施方式】時根據(jù)實驗對比發(fā)現(xiàn)以LOGTF作為特征權(quán)重時效果最佳,即對于TF值和IDF值取log對數(shù),因此其具體形式為log (TF) *log(N/IDF),N是一個常數(shù)。本發(fā)明不對權(quán)重計算的過程或方法進行限定。[0071]203:隨機指定每一個特征詞的模型權(quán)重參數(shù)初始值,通過文本分類算法對所述每一個特征詞的模型權(quán)重參數(shù)初始值進行迭代,得到每一個特征詞的模型權(quán)重參數(shù),使得根據(jù)所述每一個特征詞的模型權(quán)重參數(shù)計算得到的預(yù)設(shè)的信息計算模型判別誤差達到最小。
[0072]具體地,采用開放測試(Open Testing)的方式對模型效果進行評估,并從訓(xùn)練樣本和特征集兩個維度不斷地優(yōu)化其效果。計算過程是先確定一個最優(yōu)函數(shù),然后利用梯度下降等迭代方法,去尋找一個最優(yōu)解,來滿足這個最優(yōu)函數(shù)。最終確定的每一個特征詞對應(yīng)的模型權(quán)重參數(shù)就是最優(yōu)解。具體的計算過程為文本分類算法,該算法為現(xiàn)有技術(shù),在此僅對文本分類大致原理進行一下介紹:
[0073]1.確定 cost funcion: f = sum(h (X)-y)+sum(theta)。
[0074]確定優(yōu)化目標函數(shù)f,它用于體現(xiàn)模型在訓(xùn)練樣本上的全局判別誤差。其中第一項是模型判別誤差,第二項是模型參數(shù)正則化項,f為整個的訓(xùn)練樣本的全局誤差。
[0075]2.隨機指定模型參數(shù)初始值。
[0076]隨機指定每一個特征集中的特征詞對應(yīng)的模型權(quán)重參數(shù)。
[0077]3.利用梯度下降方法不斷迭代優(yōu)化使f減少,直至收斂。
[0078]具體的,利用迭代優(yōu)化方法不斷的對每一個特征詞的模型權(quán)重參數(shù)進行梯度下降的迭代調(diào)整,由此使得該目標函數(shù)f的全局誤差不斷減小,f越小則代表使用的特征集中的特征詞對訓(xùn)練樣本中的網(wǎng)頁識別的越準確。因此當目標函數(shù)f值不能再有效減少時,算法結(jié)束,f?最小時得到每一個特征詞對應(yīng)的模型權(quán)重參數(shù)最優(yōu),即根據(jù)模型最終得到了特征詞對應(yīng)的模型權(quán)重參數(shù)。
[0079]204:獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容。
[0080]獲取需要識別的網(wǎng)頁中的內(nèi)容,其中該內(nèi)容為網(wǎng)頁中的文本內(nèi)容,對文本內(nèi)容進行分詞后,以詞匯的形式來分析該網(wǎng)頁是否為招嫖信息網(wǎng)頁。
[0081]因此步驟204可以為:
[0082]2041:獲取待識別的網(wǎng)頁中的文本內(nèi)容;
[0083]2042:對所述文本內(nèi)容進行分詞,將每一個分詞后的詞匯作為所述網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容。
[0084]205:根據(jù)所述網(wǎng)頁內(nèi)容查找預(yù)先設(shè)置的特征集得到匹配的特征詞,并在所述特征集中獲取所述特征詞的模型權(quán)重參數(shù)。
[0085]具體的,預(yù)先設(shè)置的特征集即為步驟202中確定的特征集,將進行分詞后的網(wǎng)頁中的詞匯在該特征集中進行匹配,查找網(wǎng)頁中出現(xiàn)的特征集中的特征詞,并獲取匹配到的特征詞對應(yīng)的模型權(quán)重參數(shù)。
[0086]206:計算所述特征詞在所述網(wǎng)頁中的權(quán)重。
[0087]具體的,計算匹配到的特征詞在其出現(xiàn)的網(wǎng)頁中的權(quán)重,具體方法為步驟203中的TFIDF算法進行權(quán)重計算。
[0088]因此,步驟206可以具體為:
[0089]2061:獲取所述特征詞在所述網(wǎng)頁中出現(xiàn)的第一頻率。
[0090]計算特征詞在其出現(xiàn)的網(wǎng)頁中的頻率。
[0091]2062:獲取所述特征詞在預(yù)先指定的網(wǎng)頁中出現(xiàn)的第二頻率。
[0092]計算該特征詞出現(xiàn)在預(yù)設(shè)的網(wǎng)頁中的出現(xiàn)頻率,即該詞匯在隨即網(wǎng)頁中出現(xiàn)的次數(shù)。
[0093]2063:根據(jù)所述第一頻率和所述第二頻率,按照預(yù)設(shè)的第一算法計算得到所述特征詞在所述網(wǎng)頁中的權(quán)重。
[0094]如果某詞匯在正常網(wǎng)頁中那個出現(xiàn)的頻率高,在招嫖信息網(wǎng)頁出現(xiàn)的頻率少,那么該詞匯可以判斷為是正常詞匯的概率大;反之如果一個詞匯在正常網(wǎng)頁中出現(xiàn)的頻率少,在招嫖信息網(wǎng)頁中出現(xiàn)的頻率高,那么它是招嫖類關(guān)鍵詞的概率大。
[0095]207:根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù),判斷所述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息。
[0096]對網(wǎng)頁內(nèi)容識別是否屬于招嫖信息時,根據(jù)匹配到的特征詞在招嫖信息計算模型中計算得到的模型權(quán)重參數(shù)以及匹配到的特征詞在網(wǎng)頁中的權(quán)重來對網(wǎng)頁內(nèi)容進行識別。
[0097]因此步驟207可以具體為:
[0098]2071:根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重,以及所述特征詞的模型權(quán)重參數(shù),按照預(yù)設(shè)的第二算法計算得到所述網(wǎng)頁的評分。
`[0099]例如,某網(wǎng)頁中匹配到了三個特征詞A,B,C,計算得到對應(yīng)的權(quán)重為A1, B1, C1,獲取到的這三個特征詞的模型權(quán)重參數(shù)為A2, B2, C2,通過第二預(yù)設(shè)算法對該網(wǎng)頁進行評分: A1=I=A2+B1^BfC1=IC2,得到該網(wǎng)頁的分數(shù)。
[0100]2072:當所述網(wǎng)頁的評分大于預(yù)設(shè)閾值時,判定所述網(wǎng)頁包含預(yù)設(shè)的信息。
[0101]預(yù)先設(shè)置評分結(jié)果,將大于預(yù)設(shè)閾值的分數(shù)判定為招嫖信息類網(wǎng)頁,反之則為正常類別的網(wǎng)頁。
[0102]例如,某新聞類網(wǎng)頁報道招嫖信息的新聞,那么在該新聞中既會出現(xiàn)招嫖類關(guān)鍵詞,又會出現(xiàn)正常的新聞關(guān)鍵詞,那么在匹配到的關(guān)鍵詞中會有招嫖類關(guān)鍵詞,以及正常的新聞用語,因此這類的網(wǎng)頁在計算權(quán)重后,會因為存在正常報道用的新聞用于使得該網(wǎng)頁的得分降低,因此在識別后會判斷其為正常類別網(wǎng)頁,使得其不會被誤判為招嫖類別網(wǎng)頁。
[0103]本發(fā)明實施例通過預(yù)先設(shè)置的招嫖信息計算模型中計算得到的特征詞的模型權(quán)重參數(shù),以及網(wǎng)頁中出現(xiàn)的敏感詞的權(quán)重,來識別網(wǎng)頁是否屬于招嫖信息類網(wǎng)頁,提高了識別的效率,并防止了正常網(wǎng)頁中報道招嫖類新聞被誤攔截的情況。
[0104]實施例三
[0105]參見圖3,本發(fā)明實施例提供了一種信息識別的服務(wù)器,該服務(wù)器包括:
[0106]第一獲取模塊301,用于獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容;
[0107]匹配模塊302,用于根據(jù)所述網(wǎng)頁內(nèi)容查找預(yù)先設(shè)置的特征集得到匹配的特征詞, 并在所述特征集中獲取所述特征詞的模型權(quán)重參數(shù);
[0108]第一權(quán)重計算模塊303,用于計算所述特征詞在所述網(wǎng)頁中的權(quán)重;
[0109]識別模塊304,用于根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù),判斷所述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息。
[0110]在【具體實施方式】中,所述第一獲取模塊301,包括:
[0111]第一獲取單元3011,用于獲取待識別的網(wǎng)頁中的文本內(nèi)容;
[0112]分詞單元3012,用于對所述文本內(nèi)容進行分詞,將每一個分詞后的詞匯作為所述 網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容。
[0113]其中,所述第一權(quán)重計算模塊303,包括:
[0114]第二獲取單元3031,用于獲取所述特征詞在所述網(wǎng)頁中出現(xiàn)的第一頻率;
[0115]第三獲取單元3032,用于獲取所述特征詞在預(yù)先指定的網(wǎng)頁中出現(xiàn)的第二頻率;
[0116]權(quán)重計算單元3033,用于根據(jù)所述第一頻率和所述第二頻率,按照預(yù)設(shè)的第一算 法計算得到所述特征詞在所述網(wǎng)頁中的權(quán)重。
[0117]其中,所述識別模塊304,包括:
[0118]處理單元3041,用于根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重,以及所述特征詞的模 型權(quán)重參數(shù),按照預(yù)設(shè)的第二算法計算得到所述網(wǎng)頁的評分;
[0119]判定單元3042,用于當所述網(wǎng)頁的評分大于預(yù)設(shè)閾值時,判定所述網(wǎng)頁包含預(yù)設(shè) 的信息。
[0120]其中,所述服務(wù)器還包括:
[0121]第二獲取模塊305,用于獲取含有預(yù)設(shè)的信息關(guān)鍵詞的網(wǎng)頁,將所述網(wǎng)頁作為訓(xùn)練 樣本;
[0122]第二權(quán)重計算模塊306,用于在所述訓(xùn)練樣本中查找是否存在預(yù)設(shè)的詞匯集合中 的詞匯,根據(jù)查找到的詞匯在所述訓(xùn)練樣本中的出現(xiàn)頻率,以及所述查找到的詞匯在預(yù)先 指定的網(wǎng)頁中出現(xiàn)的頻率,計算所述查找到的詞匯的權(quán)重,并根據(jù)所述權(quán)重選取預(yù)設(shè)數(shù)量 的詞匯作為特征集中的特征詞;
[0123]模型權(quán)重參數(shù)計算模塊307,用于隨機指定每一個特征詞的模型權(quán)重參數(shù)初始值, 通過文本分類算法對所述每一個特征詞的模型權(quán)重參數(shù)初始值進行迭代,得到每一個特征 詞的模型權(quán)重參數(shù),使得根據(jù)所述每一個特征詞的模型權(quán)重參數(shù)計算得到的預(yù)設(shè)的信息計 算模型判別誤差達到最小。
[0124]本發(fā)明實施例通過預(yù)先設(shè)置的招嫖信息計算模型中計算得到的特征詞的模型權(quán) 重參數(shù),以及網(wǎng)頁中出現(xiàn)的敏感詞的權(quán)重,來識別網(wǎng)頁是否屬于招嫖信息類網(wǎng)頁,提高了識 別的效率,并防止了正常網(wǎng)頁中報道招嫖類新聞被誤攔截的情況。
[0125]上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
[0126]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件 來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀 存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0127]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種信息識別的方法,其特征在于,所述方法包括:獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容;根據(jù)所述網(wǎng)頁內(nèi)容查找預(yù)先設(shè)置的特征集得到匹配的特征詞,并在所述特征集中獲取所述特征詞的模型權(quán)重參數(shù);計算所述特征詞在所述網(wǎng)頁中的權(quán)重;根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù),判斷所述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容,包括:獲取待識別的網(wǎng)頁中的文本內(nèi)容;對所述文本內(nèi)容進行分詞,將每一個分詞后的詞匯作為所述網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容。
3.如權(quán)利要求1所述的方法,其特征在于,所述計算所述特征詞在所述網(wǎng)頁中的權(quán)重, 包括:獲取所述特征詞在所述網(wǎng)頁中出現(xiàn)的第一頻率;獲取所述特征詞在預(yù)先指定的網(wǎng)頁中出現(xiàn)的第二頻率;根據(jù)所述第一頻率和所述第二頻率,按照預(yù)設(shè)的第一算法計算得到所述特征詞在所述網(wǎng)頁中的權(quán)重。
4.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù),判斷所述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息,包括:根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重,以及所述特征詞的模型權(quán)重參數(shù),按照預(yù)設(shè)的第二算法計算得到所述網(wǎng)頁的評分;當所述網(wǎng)頁的評分大于預(yù)設(shè)閾值時,判定所述網(wǎng)頁包含預(yù)設(shè)的信息。
5.如權(quán)利要求1所述的方法,其特征在于,所述獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容之前,還包括:獲取含有預(yù)設(shè)的信息關(guān)鍵詞的網(wǎng)頁,將所述網(wǎng)頁作為訓(xùn)練樣本;在所述訓(xùn)練樣本中查找是否存在預(yù)設(shè)的詞匯集合中的詞匯,根據(jù)查找到的詞匯在所述訓(xùn)練樣本中的出現(xiàn)頻率,以及所述查找到的詞匯在預(yù)先指定的網(wǎng)頁中出現(xiàn)的頻率,計算所述查找到的詞匯的權(quán)重,并根據(jù)所述權(quán)重選取預(yù)設(shè)數(shù)量的詞匯作為特征集中的特征詞; 隨機指定每一個特征詞的模型權(quán)重參數(shù)初始值,通過文本分類算法對所述每一個特征詞的模型權(quán)重參數(shù)初始值進行迭代,得到每一個特征詞的模型權(quán)重參數(shù),使得根據(jù)所述每一個特征詞的模型權(quán)重參數(shù)計算得到的預(yù)設(shè)的信息計算模型判別誤差達到最小。
6.一種信息識別的服務(wù)器,其特征在于,所述服務(wù)器包括:第一獲取模塊,用于獲取待識別的網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容;匹配模塊,用于根據(jù)所述網(wǎng)頁內(nèi)容查找預(yù)先設(shè)置的特征集得到匹配的特征詞,并在所述特征集中獲取所述特征詞的模型權(quán)重參數(shù);第一權(quán)重計算模塊,用于計算所述特征詞在所述網(wǎng)頁中的權(quán)重;識別模塊,用于根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重和所述特征詞的模型權(quán)重參數(shù), 判斷所述網(wǎng)頁內(nèi)容是否包含預(yù)設(shè)信息。
7.如權(quán)利要求6所述的服務(wù)器,其特征在于,所述第一獲取模塊,包括:第一獲取單元,用于獲取待識別的網(wǎng)頁中的文本內(nèi)容;分詞單元,用于對所述文本內(nèi)容進行分詞,將每一個分詞后的詞匯作為所述網(wǎng)頁對應(yīng)的網(wǎng)頁內(nèi)容。
8.如權(quán)利要求6所述的服務(wù)器,其特征在于,所述第一權(quán)重計算模塊,包括:第二獲取單元,用于獲取所述特征詞在所述網(wǎng)頁中出現(xiàn)的第一頻率;第三獲取單元,用于獲取所述特征詞在預(yù)先指定的網(wǎng)頁中出現(xiàn)的第二頻率;權(quán)重計算單元,用于根據(jù)所述第一頻率和所述第二頻率,按照預(yù)設(shè)的第一算法計算得到所述特征詞在所述網(wǎng)頁中的權(quán)重。
9.如權(quán)利要求6所述的服務(wù)器,其特征在于,所述識別模塊,包括:處理單元,用于根據(jù)所述特征詞在所述網(wǎng)頁中的權(quán)重,以及所述特征詞的模型權(quán)重參數(shù),按照預(yù)設(shè)的第二算法計算得到所述網(wǎng)頁的評分;判定單元,用于當所述網(wǎng)頁的評分大于預(yù)設(shè)閾值時,判定所述網(wǎng)頁包含預(yù)設(shè)的信息。
10.如權(quán)利要求6所述的服務(wù)器,其特征在于,所述服務(wù)器還包括: 第二獲取模塊,用于獲取含有預(yù)設(shè)的信息關(guān)鍵詞的網(wǎng)頁,將所述網(wǎng)頁作為訓(xùn)練樣本;第二權(quán)重計算模塊,用于在所述訓(xùn)練樣本中查找是否存在預(yù)設(shè)的詞匯集合中的詞匯, 根據(jù)查找到的詞匯在所述訓(xùn)練樣本中的出現(xiàn)頻率,以及所述查找到的詞匯在預(yù)先指定的網(wǎng)頁中出現(xiàn)的頻率,計算所述查找到的詞匯的權(quán)重,并根據(jù)所述權(quán)重選取預(yù)設(shè)數(shù)量的詞匯作為特征集中的特征詞;模型權(quán)重參數(shù)計算模塊,用于隨機指定每一個特征詞的模型權(quán)重參數(shù)初始值,通過文本分類算法對所述每一個特征詞的模型權(quán)重參數(shù)初始值進行迭代,得到每一個特征詞的模型權(quán)重參數(shù),使得根據(jù)所述每一個特征詞的模型權(quán)重參數(shù)計算得到的預(yù)設(shè)的信息計算模型判別誤差達到最小。
【文檔編號】G06F17/30GK103577430SQ201210261364
【公開日】2014年2月12日 申請日期:2012年7月26日 優(yōu)先權(quán)日:2012年7月26日
【發(fā)明者】蔡兵, 王靜帆 申請人:深圳市世紀光速信息技術(shù)有限公司