本發(fā)明涉及網(wǎng)頁內(nèi)容檢測(cè)領(lǐng)域,更具體地說,涉及一種基于關(guān)鍵詞的不良文本檢測(cè)方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及和網(wǎng)絡(luò)帶寬的提高,互聯(lián)網(wǎng)中可訪問的網(wǎng)站數(shù)量及網(wǎng)頁內(nèi)容也呈現(xiàn)出爆炸性增加的趨勢(shì)。由于互聯(lián)網(wǎng)的開放性,網(wǎng)頁內(nèi)容中摻雜了不少涉黃、涉賭及涉毒等違規(guī)的不良信息。為了封鎖包含不良信息的違規(guī)網(wǎng)頁,凈化網(wǎng)絡(luò)環(huán)境,需對(duì)網(wǎng)頁內(nèi)容進(jìn)行實(shí)時(shí)監(jiān)控。
以往,為了對(duì)網(wǎng)頁內(nèi)容進(jìn)行實(shí)時(shí)監(jiān)控,提出了根據(jù)關(guān)鍵詞出現(xiàn)的次數(shù)來衡量一個(gè)網(wǎng)頁是否違規(guī)。具體地,當(dāng)某一網(wǎng)頁中的關(guān)鍵詞出現(xiàn)的次數(shù)超過閾值時(shí),判斷該網(wǎng)頁違規(guī)。
然而,互聯(lián)網(wǎng)中網(wǎng)站數(shù)量龐大,網(wǎng)頁內(nèi)容繁多,其中涉黃、涉賭及涉毒的違規(guī)詞的基數(shù)龐大,違規(guī)詞的偽裝詞也五花八門。例如,對(duì)于涉黃的違規(guī)詞“性愛”,違規(guī)網(wǎng)站常常不直接使用該違規(guī)詞,而是使用近音詞、近形詞來替代,例如“悻愛”、“性噯⌒”、“狌曖”等,而且還可能在違規(guī)詞中間加上分隔符來干擾違規(guī)詞的識(shí)別,例如“性☆愛”。
因此,按照以往的檢測(cè)方法,即使耗費(fèi)大量的人工去標(biāo)記各種違規(guī)詞作為關(guān)鍵詞,也會(huì)不可避免地遺漏很多違規(guī)詞。另一方面,基于違規(guī)詞進(jìn)行檢測(cè)時(shí)難以識(shí)別偽裝詞。因此,現(xiàn)有技術(shù)由于關(guān)鍵詞的限制,識(shí)別網(wǎng)頁違規(guī)的準(zhǔn)確率 較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種基于關(guān)鍵詞的不良文本檢測(cè)方法及裝置,能夠提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
第一方面,提供一種基于關(guān)鍵詞的不良文本檢測(cè)方法,包括如下步驟:
S0、獲取多個(gè)種子詞,所述種子詞為用于表征不良信息的詞語;
S1、根據(jù)語義聚類法對(duì)所述種子詞進(jìn)行擴(kuò)展,得到與所述種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞,以所述種子詞和所述語義關(guān)聯(lián)詞作為用于檢測(cè)不良文本的關(guān)鍵詞;
S2、在網(wǎng)頁文本在寬帶環(huán)境中傳輸?shù)那闆r下,統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中所述關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)所述出現(xiàn)次數(shù)確定屬于不良文本的網(wǎng)頁文本。
結(jié)合第一方面,在其第一種可能的實(shí)現(xiàn)方式中,所述種子詞為N個(gè),N為整數(shù)且N≥2,所述步驟S1具體包括:
S11、獲取含有不良信息的訓(xùn)練文檔,將所述訓(xùn)練文檔中的每個(gè)詞轉(zhuǎn)換為詞向量形式的待訓(xùn)練詞向量,并將所述種子詞轉(zhuǎn)換為詞向量形式的種子詞向量,所述待訓(xùn)練詞向量與所述種子詞向量位于同一詞向量空間中;
S12、計(jì)算每個(gè)所述待訓(xùn)練詞向量與每個(gè)所述種子詞向量之間的余弦距離;
S13、在所述詞向量空間中,以N個(gè)所述種子詞向量作為初始質(zhì)心,利用K-means聚類算法對(duì)所述待訓(xùn)練詞向量進(jìn)行聚類,得到K個(gè)詞向量簇,每個(gè)所述詞向量簇分別具有一個(gè)聚類質(zhì)心,其中K為正整數(shù)且K≤N;
S14、對(duì)于所述聚類質(zhì)心距所述種子詞向量的余弦距離最小的所述詞向量簇,確定其中的所述待訓(xùn)練詞向量對(duì)應(yīng)的詞,并將所確定的詞作為與該種子詞向量對(duì)應(yīng)的所述種子詞的所述語義關(guān)聯(lián)詞。
結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在其第二種可能的實(shí)現(xiàn)方式中,所述步驟S11中的所述獲取含有不良信息的訓(xùn)練文檔具體包括:
獲取所述步驟S2中被確定為不良文本的所述網(wǎng)頁文本。
結(jié)合第一方面,在其第三種可能的實(shí)現(xiàn)方式中,所述步驟S2具體包括:
S21、統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中所述關(guān)鍵詞的出現(xiàn)次數(shù),并判斷所述出現(xiàn)次數(shù)是否超出閾值;
S22、當(dāng)所述出現(xiàn)次數(shù)超出所述閾值時(shí),初步判斷所述網(wǎng)頁文本為不良文本;
S23、顯示被初步判斷為不良文本的所述網(wǎng)頁文本;
S24、接收檢測(cè)人員輸入的、表示被初步判斷為不良文本的所述網(wǎng)頁文本屬于不良文本的指示,并根據(jù)所述指示,確定被初步判斷為不良文本的所述網(wǎng)頁文本屬于不良文本。
結(jié)合第一方面,在其第四種可能的實(shí)現(xiàn)方式中,所述步驟S0還包括:
對(duì)獲取的多個(gè)所述種子詞進(jìn)行分類;
所述步驟S1具體包括:對(duì)于每種類型的所述種子詞,分別根據(jù)語義聚類法進(jìn)行擴(kuò)展得到與該種類型的所述種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞,以該種類型的所述種子詞及其所述語義關(guān)聯(lián)詞作為用于檢測(cè)該種類型的不良文本的關(guān)鍵詞。
結(jié)合第一方面或其第一種至第四種任一可能的實(shí)現(xiàn)方式,在其第五種可能的實(shí)現(xiàn)方式中,
所述步驟S0、步驟S1在離線模式下進(jìn)行,所述步驟S2在在線模式下進(jìn)行。
第二方面,提供一種基于關(guān)鍵詞的不良文本檢測(cè)裝置,包括:
種子詞獲取單元,其用于獲取多個(gè)種子詞,所述種子詞為用于表征不良信息的詞語;
語義關(guān)聯(lián)詞擴(kuò)展單元,其用于根據(jù)語義聚類法對(duì)所述種子詞獲取單元獲取的種子詞進(jìn)行擴(kuò)展,得到與所述種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞,以所述種子詞和所述語義關(guān)聯(lián)詞作為用于檢測(cè)不良文本的關(guān)鍵詞;
不良文本判斷單元,其在網(wǎng)頁文本在寬帶環(huán)境中傳輸?shù)那闆r下,統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中所述語義關(guān)聯(lián)詞擴(kuò)展單元得到的關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)所述出現(xiàn)次數(shù)確定屬于不良文本的網(wǎng)頁文本。
結(jié)合第二方面,在其第一種可能的實(shí)現(xiàn)方式中,所述種子詞為N個(gè),N為整數(shù)且N≥2,所述語義關(guān)聯(lián)詞擴(kuò)展單元具體用于:
獲取含有不良信息的訓(xùn)練文檔;
將所述訓(xùn)練文檔中的每個(gè)詞轉(zhuǎn)換為詞向量形式的待訓(xùn)練詞向量,并將所述種子詞獲取單元獲取的種子詞轉(zhuǎn)換為詞向量形式的種子詞向量,所述待訓(xùn)練詞向量與所述種子詞向量位于同一詞向量空間中;
計(jì)算所述每個(gè)所述待訓(xùn)練詞向量與每個(gè)所述種子詞向量之間的余弦距離;
在所述詞向量空間中,以N個(gè)所述種子詞向量作為初始質(zhì)心,利用K-means聚類算法對(duì)所述待訓(xùn)練詞向量進(jìn)行聚類,得到K個(gè)詞向量簇,每個(gè)所述K個(gè)詞向量簇分別具有一個(gè)聚類質(zhì)心,其中K為正整數(shù)且K≤N;
對(duì)所述聚類質(zhì)心距所述種子詞向量的余弦距離最小的所述詞向量簇,確定其中的所述待訓(xùn)練詞向量對(duì)應(yīng)的詞,并將所確定的詞作為與該種子詞向量對(duì)應(yīng)的所述種子詞的所述語義關(guān)聯(lián)詞。
結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在其第二種可能的實(shí)現(xiàn)方式中,
所述語義關(guān)聯(lián)詞擴(kuò)展單元具體用于:獲取在所述不良文本判斷單元中被確定為不良文本的所述網(wǎng)頁文本。
結(jié)合第二方面,在其第三種可能的實(shí)現(xiàn)方式中,所述不良文本判斷單元具體用于:
統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中所述語義關(guān)聯(lián)詞擴(kuò)展單元得到的關(guān)鍵詞的出現(xiàn)次數(shù);
判斷所述出現(xiàn)次數(shù)是否超出閾值;
在所述出現(xiàn)次數(shù)超出所述閾值時(shí),初步判斷所述網(wǎng)頁文本為不良文本;
顯示被初步判斷為不良文本的所述網(wǎng)頁文本;
接收檢測(cè)人員輸入的、表示被初步判斷為不良文本的所述網(wǎng)頁文本屬于不良文本的指示,并根據(jù)所述指示,確定被初步判斷為不良文本的所述網(wǎng)頁文本屬于不良文本。
根據(jù)本發(fā)明提供的基于關(guān)鍵詞的不良文本檢測(cè)方法及裝置,由于能夠根據(jù)較少的種子詞自動(dòng)拓展得到較為全面的關(guān)鍵詞,因此,能夠解決現(xiàn)有技術(shù)中因遺漏較多違規(guī)詞及難以識(shí)別偽裝詞造成的識(shí)別網(wǎng)頁違規(guī)的準(zhǔn)確率較低的問題, 提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率。
附圖說明
下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明,附圖中:
圖1為基于關(guān)鍵詞的不良文本檢測(cè)方法的流程圖;
圖2為基于關(guān)鍵詞的不良文本檢測(cè)裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了對(duì)本發(fā)明的技術(shù)特征、目的和效果有更加清楚的理解,現(xiàn)對(duì)照附圖詳細(xì)說明本發(fā)明的具體實(shí)施方式。
實(shí)施例一
本實(shí)施例提供一種基于關(guān)鍵詞的不良文本檢測(cè)方法,可由具有信息處理功能的計(jì)算機(jī)、網(wǎng)絡(luò)服務(wù)器等執(zhí)行。不良文本是指含有涉黃、涉賭及涉毒等違規(guī)的不良信息的文本內(nèi)容。關(guān)鍵詞是檢測(cè)人員為進(jìn)行不良文本檢測(cè)而預(yù)先獲取的、具有不良信息或敏感信息的詞語,例如“性愛”等違規(guī)詞。作為本發(fā)明的一個(gè)應(yīng)用場(chǎng)景,在本實(shí)施例中,網(wǎng)絡(luò)服務(wù)器根據(jù)本發(fā)明提供的方法,檢測(cè)網(wǎng)絡(luò)中數(shù)據(jù)流形式的網(wǎng)頁文本??梢岳斫獾氖?,為了進(jìn)行檢測(cè),可將數(shù)據(jù)流形式的網(wǎng)頁文本還原為自然語言形式的網(wǎng)頁文本。以下,對(duì)本實(shí)施例提供的基于關(guān)鍵詞的不良文本檢測(cè)方法進(jìn)行說明。
圖1為實(shí)施例一提供的基于關(guān)鍵詞的不良文本檢測(cè)方法流程圖。如圖1所示,所述方法包括如下步驟:
S0、獲取多個(gè)種子詞,種子詞為用于表征不良信息的詞語。
如上所述,為了進(jìn)行檢測(cè),需預(yù)先準(zhǔn)備關(guān)鍵詞。而為了提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率,需準(zhǔn)備全面的關(guān)鍵詞。所謂全面,是指關(guān)鍵詞的數(shù)量足夠龐大,能夠涵蓋絕大部分違規(guī)詞。為了獲得全面或趨于全面的關(guān)鍵詞,本發(fā)明采用這樣的方式:預(yù)先準(zhǔn)備一部分關(guān)鍵詞作為種子詞,并根據(jù)種子詞進(jìn)行自動(dòng)擴(kuò)展得到更全面的關(guān)鍵詞。也就是說,顧名思義,種子詞作為種子使用,通過對(duì)種子進(jìn)行信息處理,衍生出更多的關(guān)鍵詞。種子詞實(shí)質(zhì)上是關(guān)鍵詞的一 部分,同樣用于表征不良信息。
在此步驟中,網(wǎng)絡(luò)服務(wù)器可從其他設(shè)備獲取種子詞,或者直接接收檢測(cè)人員輸入的種子詞。在兼顧為獲取或接收種子詞所需耗費(fèi)的資源或人力不過大的前提下,種子詞的數(shù)量優(yōu)選越多越好。需要說明的是,現(xiàn)有技術(shù)中為了盡可能取得全面的關(guān)鍵詞,需要檢測(cè)人員竭盡所能地標(biāo)記、獲取關(guān)鍵詞。雖然這種方式有可能取得較多的關(guān)鍵詞,但需要耗費(fèi)了巨大的資源及人力,并且,相對(duì)于變化多樣、數(shù)量龐大的關(guān)鍵詞庫,通過人力獲取的關(guān)鍵詞的數(shù)量畢竟有限。與此相對(duì),在本步驟中,對(duì)于作為種子詞的關(guān)鍵詞,可進(jìn)行適度的獲取,這種適度以所耗費(fèi)的資源及人力合理為限。也就是說,相對(duì)于現(xiàn)有技術(shù),本步驟中能夠節(jié)約為獲取關(guān)鍵詞的資源及人力。
在一種可選的實(shí)現(xiàn)方式中,網(wǎng)絡(luò)服務(wù)器可分門別類地獲取或接收種子詞,即,網(wǎng)絡(luò)服務(wù)器可對(duì)獲取的種子詞進(jìn)行分類。舉例而言,網(wǎng)絡(luò)服務(wù)器可分別按照涉黃、涉賭及涉毒的類型,獲取涉黃種子詞、涉賭種子詞及涉毒種子詞。涉黃種子詞例如包括性愛等,涉賭種子詞例如包括六合彩、百家樂等,涉毒種子詞例如包括K粉、搖頭丸等。
S1、根據(jù)語義聚類法對(duì)種子詞進(jìn)行擴(kuò)展,得到與種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞,以種子詞和語義關(guān)聯(lián)詞作為用于檢測(cè)不良文本的關(guān)鍵詞。
在本發(fā)明中,語義聚類法是指,使用少量的關(guān)鍵詞作為種子詞,以種子詞為標(biāo)桿將與其語義相近或關(guān)聯(lián)的詞聚類在一起,從而自動(dòng)擴(kuò)展關(guān)鍵詞的總量。
在此,對(duì)通過對(duì)種子進(jìn)行信息處理衍生出更多關(guān)鍵詞的過程進(jìn)行說明。假定種子詞為N個(gè),N為整數(shù)且N≥2。步驟S1具體可分為步驟S11~S14。
S11、獲取含有不良信息的訓(xùn)練文檔,將訓(xùn)練文檔中的每個(gè)詞轉(zhuǎn)換為詞向量形式的待訓(xùn)練詞向量,并將種子詞轉(zhuǎn)換為詞向量形式的種子詞向量。
作為拓展關(guān)鍵詞的訓(xùn)練資料,需準(zhǔn)備含有不良信息的文檔,稱為訓(xùn)練文檔。例如,一篇被判定為涉黃的文檔,其中含有違規(guī)詞,此外,還含有其他非違規(guī)詞。
為了對(duì)訓(xùn)練文檔中的詞語與關(guān)鍵詞之間語義是否相近或關(guān)聯(lián)進(jìn)行判斷,本實(shí)施例采用了詞向量及余弦距離。詞向量是指,通過訓(xùn)練將某種語言中的每一 個(gè)詞語映射成一個(gè)固定長度(即固定維度)的向量。例如,一個(gè)詞可以被映射成一個(gè)M(M為整數(shù)且M≥2)維向量Wi:
Wi=(V1,V2,...,VM),其中,V1、V1、……、VM為在各維上的值。
每個(gè)詞都轉(zhuǎn)換為唯一的詞向量,所有詞向量構(gòu)成一個(gè)詞向量空間。像這樣地,將一個(gè)詞語轉(zhuǎn)換為具有某一固定維度的模型,可稱為詞向量模型。
對(duì)于詞向量模型,可使用Google公司提供的word2vec工具。word2vec是Google在2013年開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度。與潛在語義分析(Latent Semantic Index,LSI)、潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)的經(jīng)典過程相比,word2vec利用了詞的上下文,語義信息更加地豐富。
S12、計(jì)算每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離。
余弦距離也稱為余弦相似度,是用向量空間中兩個(gè)向量夾角的余弦值作為衡量兩個(gè)個(gè)體間差異的大小的度量。兩個(gè)向量之間的夾角越大,它們之間的余弦距離越大,反之越小。若兩個(gè)向量的方向趨于一致,即夾角接近零,那么這兩個(gè)向量的余弦距離趨于零。由于詞向量是根據(jù)自然語言的詞法、語義進(jìn)行映射得到的,因此,余弦距離能夠表征兩個(gè)詞向量各自對(duì)應(yīng)的詞語在詞法、語義上的關(guān)聯(lián)性。余弦距離越小,兩個(gè)詞語在語義上越相近或關(guān)聯(lián)。
在本步驟中,為了確定訓(xùn)練文本中哪些詞語與種子詞在語義上關(guān)聯(lián),首先需要分別計(jì)算訓(xùn)練文本中的每個(gè)詞語轉(zhuǎn)換為待訓(xùn)練詞向量后每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離。具體地,令N個(gè)種子詞對(duì)應(yīng)的詞向量分別為S1、S2、……、SN,訓(xùn)練文本中的詞語對(duì)應(yīng)的待訓(xùn)練詞向量分別為W1、W2、W3、……。在本步驟中,對(duì)于種子詞向量S1,計(jì)算它與各個(gè)待訓(xùn)練詞向量之間的余弦距離,即D11=CosinDistance(S1,W1)、D12=CosinDistance(S1,W2)、D13=CosinDistance(S1,W3)……。對(duì)于種子詞向量S2,計(jì)算它與各個(gè)待訓(xùn)練詞向量之間的余弦距離,即D21=CosinDistance(S2,W1)、D22=CosinDistance(S2,W2)、D23=CosinDistance(S2,W3)……。對(duì)于種子 詞向量SN,計(jì)算它與各個(gè)待訓(xùn)練詞向量之間的余弦距離,即DN1=CosinDistance(SN,W1)、DN2=CosinDistance(SN,W2)、DN3=CosinDistance(SN,W3)……。從而得到每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離:
Dij=Co sin Dis tan ce(Si,Wj)。
S13、在詞向量空間中,以N個(gè)種子詞向量作為初始質(zhì)心,利用K-means聚類算法對(duì)待訓(xùn)練詞向量進(jìn)行聚類,得到K個(gè)詞向量簇,每個(gè)詞向量簇分別具有一個(gè)聚類質(zhì)心。
在確定每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離之后,為了高效快捷地確定與種子詞向量對(duì)應(yīng)的種子詞的語義關(guān)聯(lián)詞,在本步驟中,采用K-means聚類算法對(duì)待訓(xùn)練詞向量進(jìn)行聚類。
具體地,首先選取N個(gè)種子詞向量作為初始質(zhì)心,利用步驟S12中計(jì)算得到的余弦距離進(jìn)行第一輪聚類:對(duì)于某一初始質(zhì)心,使余弦距離距該初始質(zhì)心比距其他質(zhì)心都要小的待訓(xùn)練詞向量聚成一類;對(duì)于其他另外每個(gè)初始質(zhì)心同樣進(jìn)行類似的聚類處理。經(jīng)過第一輪聚類后,得到至多N個(gè)詞向量簇(由于存在這樣的初始質(zhì)心,任意一個(gè)待訓(xùn)練詞向量距該初始質(zhì)心的余弦距離都要大于距其他初始質(zhì)心的余弦距離,因此沒有待訓(xùn)練詞向量聚類到該初始質(zhì)心下,因此,存在詞向量簇的個(gè)數(shù)K小于或等于種子詞向量個(gè)數(shù)N的情況。以下,以K個(gè)詞向量簇進(jìn)行說明,其中K為正整數(shù)且K≤N)。每個(gè)詞向量簇分別具有一個(gè)質(zhì)心,可稱為第一輪聚類質(zhì)心。
接著,又可根據(jù)K個(gè)第一輪聚類質(zhì)心進(jìn)行第二輪聚類,經(jīng)過第二輪聚類之后,得到的K個(gè)詞向量簇更加集中,同時(shí)對(duì)應(yīng)K個(gè)第二輪聚類質(zhì)心。接著,可重復(fù)上述過程,進(jìn)行第三次、第四次乃至更多次的聚類。當(dāng)某一輪聚類質(zhì)心與其前一輪的聚類質(zhì)心之間的變化小于預(yù)先設(shè)定的值,可停止K-means聚類算法,最終得到聚類質(zhì)心穩(wěn)定的K個(gè)詞向量簇。
S14、對(duì)于聚類質(zhì)心距種子詞向量的余弦距離最小的詞向量簇,確定其中的待訓(xùn)練詞向量對(duì)應(yīng)的詞,并將所確定的詞作為與該種子詞向量對(duì)應(yīng)的種子詞的語義關(guān)聯(lián)詞。
在此步驟中,根據(jù)步驟S13所得到的K個(gè)詞向量簇,進(jìn)行種子詞的語義 關(guān)聯(lián)詞的判斷。具體地,對(duì)于每個(gè)詞向量簇,重新計(jì)算其聚類質(zhì)心距每個(gè)種子詞向量的余弦距離。然后,對(duì)于某個(gè)詞向量簇,判斷其聚類質(zhì)心距哪個(gè)種子詞向量的余弦距離最小,并記錄該詞向量簇與該種子詞向量之間余弦距離最小的對(duì)應(yīng)關(guān)系。對(duì)于其他每個(gè)詞向量簇,進(jìn)行類似的判斷,得到每個(gè)詞向量簇及與其余弦距離最小的種子詞向量之間的對(duì)應(yīng)關(guān)系。最后,根據(jù)上述余弦距離最小的對(duì)應(yīng)關(guān)系,將詞向量簇中的所有待訓(xùn)練詞向量所對(duì)應(yīng)的詞語,作為對(duì)應(yīng)的種子詞向量所對(duì)應(yīng)的種子詞的語義關(guān)聯(lián)詞。
據(jù)此,完成了根據(jù)語義聚類法將種子詞擴(kuò)展為語義關(guān)聯(lián)詞得到包括種子詞和語義關(guān)聯(lián)詞在內(nèi)的關(guān)鍵詞的過程。
需要說明的是,在上述說明中對(duì)根據(jù)步驟S11至S14的處理能夠擴(kuò)展關(guān)鍵詞的數(shù)量,這包括兩方面的含義。具體地,如背景技術(shù)部分所述,一方面,違規(guī)詞的基數(shù)龐大;另一方面,違規(guī)詞的偽裝詞也五花八門。在本實(shí)施例中,關(guān)鍵詞的擴(kuò)展一方面包括違規(guī)詞的拓展,另一方面還包括違規(guī)詞的偽裝詞的拓展。所謂違規(guī)詞的拓展,是指不考慮偽裝詞的情況下的拓展;而違規(guī)詞的偽裝詞的拓展,是指在違規(guī)詞的基礎(chǔ)上拓展其偽裝詞。舉例而言,對(duì)于涉毒違規(guī)詞,假設(shè)已標(biāo)記的種子詞為“六合彩”、“百家樂”,但是未標(biāo)記“時(shí)時(shí)彩”、“老虎機(jī)”等,根據(jù)種子詞“六合彩”、“百家樂”拓展得到“時(shí)時(shí)彩”、“老虎機(jī)”等屬于違規(guī)詞的拓展。而涉黃違規(guī)詞,假設(shè)已標(biāo)記的種子詞為“性愛”,但是未標(biāo)記“悻愛”、“性噯⌒”、“狌曖”等,根據(jù)種子詞“性愛”拓展得到“悻愛”、“性噯⌒”、“狌曖”等則屬于違規(guī)詞的偽裝詞的拓展。
由此可見,根據(jù)本發(fā)明提供的基于關(guān)鍵詞的不良文本檢測(cè)方法,既能夠避免遺漏過多違規(guī)詞,又能夠識(shí)別違規(guī)詞的偽裝詞。
另外,如步驟S0所述,網(wǎng)絡(luò)服務(wù)器可對(duì)獲取的種子詞進(jìn)行分類。對(duì)應(yīng)地,在步驟S1中,可對(duì)于每種類型的種子詞,分別根據(jù)語義聚類法進(jìn)行擴(kuò)展得到與該種類型的種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞,以該種類型的種子詞及其語義關(guān)聯(lián)詞作為用于檢測(cè)該種類型的不良文本的關(guān)鍵詞。即,對(duì)于每種類型的種子詞,分別進(jìn)行上述步驟S11至S14。
S2、在網(wǎng)頁文本在寬帶環(huán)境中傳輸?shù)那闆r下,統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中關(guān)鍵 詞的出現(xiàn)次數(shù),并根據(jù)出現(xiàn)次數(shù)確定屬于不良文本的網(wǎng)頁文本。
在根據(jù)步驟S1拓展用于檢測(cè)不良文本的關(guān)鍵詞后,可根據(jù)拓展的關(guān)鍵詞對(duì)網(wǎng)頁文本中的詞語進(jìn)行檢測(cè)。具體地,步驟S2可分為步驟S21~S22。
S21、統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中關(guān)鍵詞的出現(xiàn)次數(shù),并判斷出現(xiàn)次數(shù)是否超出閾值。
對(duì)于作為待檢測(cè)的對(duì)象,在利用網(wǎng)絡(luò)服務(wù)器對(duì)網(wǎng)絡(luò)中傳輸?shù)膬?nèi)容進(jìn)行檢測(cè)的情況下,其一般為數(shù)據(jù)流形式的網(wǎng)頁代碼,為了進(jìn)行關(guān)鍵詞出現(xiàn)次數(shù)的統(tǒng)計(jì),需將數(shù)據(jù)流形式的網(wǎng)頁代碼還原為自然語言形式的網(wǎng)頁文本。因此,在執(zhí)行步驟S21之前,對(duì)應(yīng)于數(shù)據(jù)流形式的網(wǎng)頁代碼先進(jìn)行網(wǎng)頁文本還原。網(wǎng)頁文本還原屬于現(xiàn)有技術(shù)中較為成熟的技術(shù),本發(fā)明對(duì)采用何種還原技術(shù)不做限定。
在得到自然語言形式的網(wǎng)頁文本后,提取文本中的每個(gè)特征詞,然后,逐一比較網(wǎng)頁文本中的特征詞是否與某一關(guān)鍵詞相同,每當(dāng)一個(gè)特征詞與某一關(guān)鍵詞相同時(shí),計(jì)數(shù)一次。對(duì)網(wǎng)頁文本中的每個(gè)特征詞重復(fù)上述比較,得到整個(gè)網(wǎng)頁文本中關(guān)鍵詞出現(xiàn)的次數(shù),即總出現(xiàn)次數(shù)。
接著,對(duì)于每篇網(wǎng)頁文本,將其對(duì)應(yīng)的關(guān)鍵詞的總出現(xiàn)次數(shù)與一個(gè)閾值進(jìn)行比較,判斷其是否超出該閾值。在此,閾值是用于衡量一篇網(wǎng)頁文本中關(guān)鍵詞出現(xiàn)的總次數(shù)到達(dá)何種程度時(shí)可以被判定為不良文本的標(biāo)準(zhǔn),具體可為檢測(cè)人員根據(jù)實(shí)際情況進(jìn)行設(shè)置的一個(gè)數(shù)量。
S22、當(dāng)出現(xiàn)次數(shù)超出閾值時(shí),初步判斷網(wǎng)頁文本為不良文本。
一般地,當(dāng)某個(gè)網(wǎng)頁文本中關(guān)鍵詞的出現(xiàn)次數(shù)超出了閾值時(shí),即可判斷該網(wǎng)頁文本為不良文本,并進(jìn)行進(jìn)一步處理,例如,實(shí)時(shí)地阻止該不良文本的網(wǎng)絡(luò)數(shù)據(jù)流的傳輸或封鎖其網(wǎng)頁。具體地,可利用如下公式:
其中,p表示網(wǎng)頁,c表示類別,np是網(wǎng)頁p中特征詞的個(gè)數(shù),Mc,i是類別c中第i個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)。
如果E(p,c)>λ,則認(rèn)為網(wǎng)頁p屬于c類違規(guī),其中E(p,c)為某一網(wǎng)頁文本中關(guān)鍵詞的出現(xiàn)次數(shù),λ為閾值。
在本發(fā)明中,根據(jù)拓展的關(guān)鍵詞進(jìn)行檢測(cè)能夠簡(jiǎn)單高效地確定屬于不良文本的網(wǎng)頁文本。與此相對(duì),現(xiàn)有技術(shù)中還存在通過語義分析方法來對(duì)整個(gè)文檔使用語義分析技術(shù)以進(jìn)行判斷的方法,這種方法雖然能夠保證較高的準(zhǔn)確率,但由于語義分析技術(shù)過于復(fù)雜,會(huì)增加額外的在線計(jì)算開銷,同時(shí)監(jiān)管部門通常還需要安排專人對(duì)機(jī)器檢測(cè)的結(jié)果進(jìn)行審核,需人工參與的工作量較大。然而,對(duì)監(jiān)管部門而言,如何快速穩(wěn)定的處理高帶寬下用戶訪問的網(wǎng)頁信息里是否包含不良信息,盡量減少人工參與的工作量,才是最為關(guān)注的重點(diǎn)。對(duì)于這一問題,本發(fā)明所提供的基于關(guān)鍵詞的不良文本檢測(cè)方法具有簡(jiǎn)單高效的特點(diǎn),因此適用于在高帶寬傳輸環(huán)境下進(jìn)行不良文本檢測(cè)這一場(chǎng)景。
在本實(shí)施例中,為了更準(zhǔn)確地判斷不良文本,步驟S2還可包括為步驟S23~S24。
S23、顯示被初步判斷為不良文本的網(wǎng)頁文本。
對(duì)于被初步判斷為不良文本的網(wǎng)頁文本,網(wǎng)絡(luò)服務(wù)器可控制顯示器使其顯示這些網(wǎng)頁文本,據(jù)此,檢測(cè)人員可觀察被初步判斷為不良文本的網(wǎng)頁文本。
S24、接收檢測(cè)人員輸入的、表示被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本的指示,并根據(jù)指示,確定被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本。
通過觀察、閱讀,檢測(cè)人員能夠確定被初步判斷為不良文本的網(wǎng)頁文本是否真為不良文本。然后,檢測(cè)人員可向網(wǎng)絡(luò)服務(wù)器輸入自身的確定結(jié)果,即輸入用于表示被初步判斷為不良文本的網(wǎng)頁文本是否屬于不良文本的指示。當(dāng)該網(wǎng)頁文本確為不良文本時(shí),輸入用于表示被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本的指示;當(dāng)該網(wǎng)頁文本被誤判為不良文本時(shí),輸入用于表示被初步判為不良文本的網(wǎng)頁文本并非不良文本的指示。
基于檢測(cè)人員輸入的指示,網(wǎng)絡(luò)服務(wù)器可從被初步判斷為不良文本的網(wǎng)頁文本中,進(jìn)一步確定真正屬于不良文本的網(wǎng)頁文本。
這種將自動(dòng)判斷(步驟S21~S22)與人工判斷(步驟S23~S24)結(jié)合起來的不良文本檢測(cè)方式,能夠顯著提高不良文本檢測(cè)的效率與準(zhǔn)確率。其中,由 于步驟S21~S22中的自動(dòng)判斷已經(jīng)篩選掉了大部分不屬于不良文本的網(wǎng)頁文本,因此,步驟S23~S24中人工判斷的工作量得以大大縮減,效率得以顯著提高,而人工判斷能夠彌補(bǔ)自動(dòng)判斷的智能性限制,因而準(zhǔn)確率得以顯著提高。
需要說明的是,這種在自動(dòng)判斷的基礎(chǔ)上結(jié)合人工判斷的檢測(cè)方式,尤其適用于基于關(guān)鍵詞的不良文本檢測(cè)方法的初始實(shí)現(xiàn)階段。在此,所謂初始實(shí)現(xiàn)階段不是指步驟S0~S2中靠前的步驟,而是指在該檢測(cè)方法的整個(gè)過程一次次地實(shí)現(xiàn)過程中靠前的若干次實(shí)現(xiàn)過程。例如,對(duì)于成千上萬的待檢測(cè)網(wǎng)頁文本,使用該檢測(cè)方法對(duì)開始的前幾篇、前幾十篇甚至前幾百篇進(jìn)行檢測(cè)的過程,可稱為該檢測(cè)方法的初始實(shí)現(xiàn)階段。這是因?yàn)椋陉P(guān)鍵詞的不良文本檢測(cè)方法需要一定的試用、調(diào)試、學(xué)習(xí)期間,才能取得較為穩(wěn)定、準(zhǔn)確的結(jié)果。
在本實(shí)施例的一個(gè)更具體的實(shí)現(xiàn)方式中,在步驟S11中,具體地,網(wǎng)絡(luò)服務(wù)器可獲取步驟S2中被確定為不良文本的網(wǎng)頁文本。在此,步驟S2中被確定為不良文本的網(wǎng)頁文本可為步驟S21~S22中自動(dòng)判斷得到的被確定為不良文本的網(wǎng)頁文本,還可為步驟S23~S24中人工判斷得到的被確定為不良文本的網(wǎng)頁文本。
也就是說,在本實(shí)施例中,作為拓展關(guān)鍵詞訓(xùn)練資料的訓(xùn)練文檔,除了檢測(cè)人員人工獲取外,還可采用網(wǎng)絡(luò)服務(wù)器自身判斷得到的。一方面,能夠減少檢測(cè)人員為獲取及輸入訓(xùn)練文檔所需耗費(fèi)的工作量;另一方面,由于網(wǎng)絡(luò)服務(wù)器自身判斷得到的不良文本的數(shù)量龐大、種類繁多,且這些不良文本含有較多的與種子詞語義關(guān)聯(lián)的不良詞語及敏感詞語,因此,以這些不良文本作為訓(xùn)練文檔能夠擴(kuò)展得到更多的語義關(guān)聯(lián)詞(步驟S11~S14),從而能夠進(jìn)一步優(yōu)化基于關(guān)鍵詞的不良文本檢測(cè)方法,進(jìn)一步提高不良文本檢測(cè)的準(zhǔn)確率。
需要說明的是,在基于關(guān)鍵詞的不良文本檢測(cè)方法的初始實(shí)現(xiàn)階段,步驟S11中網(wǎng)絡(luò)服務(wù)器優(yōu)選步驟S23~S24中人工判斷得到的被確定為不良文本的網(wǎng)頁文本,這是因?yàn)?,人工判斷的判斷?zhǔn)確率高,因而使用人工判斷得到的不良文本進(jìn)行語義關(guān)聯(lián)詞擴(kuò)展,能夠取得更加優(yōu)化的擴(kuò)展結(jié)果。
在本實(shí)施例的一個(gè)更具體的實(shí)現(xiàn)方式中,步驟S0、步驟S1在離線模式下進(jìn)行,而僅步驟S2在在線模式下進(jìn)行。如上所述,在現(xiàn)有技術(shù)中,由于通過 語義分析方法來對(duì)整個(gè)文檔使用語義分析技術(shù)以進(jìn)行判斷的方法在在線模式下進(jìn)行,因此,在線開銷大,檢測(cè)效率低下。與此相對(duì),在本實(shí)施例中,由于步驟S0、步驟S1所對(duì)應(yīng)的訓(xùn)練過程不需要網(wǎng)絡(luò)的參與,在離線模式下進(jìn)行能夠避免額外的在線處理開銷,提高檢測(cè)效率。
由上可知,根據(jù)實(shí)施例一提供的基于關(guān)鍵詞的不良文本檢測(cè)方法,由于能夠根據(jù)較少的種子詞自動(dòng)拓展得到較為全面的關(guān)鍵詞,因此,能夠解決現(xiàn)有技術(shù)中因遺漏較多違規(guī)詞及難以識(shí)別偽裝詞造成的識(shí)別網(wǎng)頁違規(guī)的準(zhǔn)確率較低的問題,提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率。
實(shí)施例二
對(duì)應(yīng)于實(shí)施例一提供的基于關(guān)鍵詞的不良文本檢測(cè)方法,實(shí)施例二提供的一種基于關(guān)鍵詞的不良文本檢測(cè)裝置。該裝置具體可為具有信息處理功能的計(jì)算機(jī)、網(wǎng)絡(luò)服務(wù)器等。如圖2所示,基于關(guān)鍵詞的不良文本檢測(cè)裝置100包括:
種子詞獲取單元101,其用于獲取多個(gè)種子詞,種子詞為用于表征不良信息的詞語;
語義關(guān)聯(lián)詞擴(kuò)展單元102,其用于根據(jù)語義聚類法對(duì)種子詞獲取單元101獲取的種子詞進(jìn)行擴(kuò)展,得到與種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞,以種子詞和語義關(guān)聯(lián)詞作為用于檢測(cè)不良文本的關(guān)鍵詞;
不良文本判斷單元103,其在網(wǎng)頁文本在寬帶環(huán)境中傳輸?shù)那闆r下,統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中語義關(guān)聯(lián)詞擴(kuò)展單元102得到的關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)出現(xiàn)次數(shù)確定屬于不良文本的網(wǎng)頁文本。
在實(shí)施例二的一個(gè)更具體的實(shí)現(xiàn)方式中,種子詞為N個(gè),N為整數(shù)且N≥2,語義關(guān)聯(lián)詞擴(kuò)展單元102具體用于:
獲取含有不良信息的訓(xùn)練文檔;
將訓(xùn)練文檔中的每個(gè)詞轉(zhuǎn)換為詞向量形式的待訓(xùn)練詞向量,并將種子詞獲取單元101獲取的種子詞轉(zhuǎn)換為詞向量形式的種子詞向量,待訓(xùn)練詞向量與種子詞向量位于同一詞向量空間中;
計(jì)算每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離;
在詞向量空間中,以N個(gè)種子詞向量作為初始質(zhì)心,利用K-means聚類 算法對(duì)待訓(xùn)練詞向量進(jìn)行聚類,得到K個(gè)詞向量簇,每個(gè)K個(gè)詞向量簇分別具有一個(gè)聚類質(zhì)心,其中K為正整數(shù)且K≤N;
對(duì)聚類質(zhì)心距種子詞向量的余弦距離最小的詞向量簇,確定其中的待訓(xùn)練詞向量對(duì)應(yīng)的詞,并將所確定的詞作為與該種子詞向量對(duì)應(yīng)的種子詞的語義關(guān)聯(lián)詞。
在實(shí)施例二的另一個(gè)更具體的實(shí)現(xiàn)方式中,語義關(guān)聯(lián)詞擴(kuò)展單元102具體用于:獲取在不良文本判斷單元103中被確定為不良文本的網(wǎng)頁文本。
在實(shí)施例二的另一個(gè)更具體的實(shí)現(xiàn)方式中,不良文本判斷單元103具體用于:統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中語義關(guān)聯(lián)詞擴(kuò)展單元102得到的關(guān)鍵詞的出現(xiàn)次數(shù);判斷出現(xiàn)次數(shù)是否超出閾值;在出現(xiàn)次數(shù)超出閾值時(shí),初步判斷網(wǎng)頁文本為不良文本;顯示被初步判斷為不良文本的網(wǎng)頁文本;接收檢測(cè)人員輸入的、表示被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本的指示,并根據(jù)該指示,確定被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本。
由于實(shí)施例一中已經(jīng)對(duì)基于關(guān)鍵詞的不良文本檢測(cè)裝置所進(jìn)行的處理進(jìn)行了說明,在此,不再進(jìn)行贅述。同樣地,根據(jù)本實(shí)施例提供的基于關(guān)鍵詞的不良文本檢測(cè)裝置,由于能夠根據(jù)較少的種子詞自動(dòng)拓展得到較為全面的關(guān)鍵詞,因此,能夠解決現(xiàn)有技術(shù)中因遺漏較多違規(guī)詞及難以識(shí)別偽裝詞造成的識(shí)別網(wǎng)頁違規(guī)的準(zhǔn)確率較低的問題,提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率。
上面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行了描述,但是本發(fā)明并不局限于上述的具體實(shí)施方式,上述的具體實(shí)施方式僅僅是示意性的,而不是限制性的,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明宗旨和權(quán)利要求所保護(hù)的范圍情況下,還可做出很多形式,這些均屬于本發(fā)明的保護(hù)之內(nèi)。