基于關(guān)鍵詞的不良文本檢測(cè)方法及裝置與流程

文檔序號(hào)：12596122閱讀：744來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及網(wǎng)頁內(nèi)容檢測(cè)領(lǐng)域，更具體地說，涉及一種基于關(guān)鍵詞的不良文本檢測(cè)方法及裝置。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的普及和網(wǎng)絡(luò)帶寬的提高，互聯(lián)網(wǎng)中可訪問的網(wǎng)站數(shù)量及網(wǎng)頁內(nèi)容也呈現(xiàn)出爆炸性增加的趨勢(shì)。由于互聯(lián)網(wǎng)的開放性，網(wǎng)頁內(nèi)容中摻雜了不少涉黃、涉賭及涉毒等違規(guī)的不良信息。為了封鎖包含不良信息的違規(guī)網(wǎng)頁，凈化網(wǎng)絡(luò)環(huán)境，需對(duì)網(wǎng)頁內(nèi)容進(jìn)行實(shí)時(shí)監(jiān)控。

以往，為了對(duì)網(wǎng)頁內(nèi)容進(jìn)行實(shí)時(shí)監(jiān)控，提出了根據(jù)關(guān)鍵詞出現(xiàn)的次數(shù)來衡量一個(gè)網(wǎng)頁是否違規(guī)。具體地，當(dāng)某一網(wǎng)頁中的關(guān)鍵詞出現(xiàn)的次數(shù)超過閾值時(shí)，判斷該網(wǎng)頁違規(guī)。

然而，互聯(lián)網(wǎng)中網(wǎng)站數(shù)量龐大，網(wǎng)頁內(nèi)容繁多，其中涉黃、涉賭及涉毒的違規(guī)詞的基數(shù)龐大，違規(guī)詞的偽裝詞也五花八門。例如，對(duì)于涉黃的違規(guī)詞“性愛”，違規(guī)網(wǎng)站常常不直接使用該違規(guī)詞，而是使用近音詞、近形詞來替代，例如“悻愛”、“性噯⌒”、“狌曖”等，而且還可能在違規(guī)詞中間加上分隔符來干擾違規(guī)詞的識(shí)別，例如“性☆愛”。

因此，按照以往的檢測(cè)方法，即使耗費(fèi)大量的人工去標(biāo)記各種違規(guī)詞作為關(guān)鍵詞，也會(huì)不可避免地遺漏很多違規(guī)詞。另一方面，基于違規(guī)詞進(jìn)行檢測(cè)時(shí)難以識(shí)別偽裝詞。因此，現(xiàn)有技術(shù)由于關(guān)鍵詞的限制，識(shí)別網(wǎng)頁違規(guī)的準(zhǔn)確率較低。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供一種基于關(guān)鍵詞的不良文本檢測(cè)方法及裝置，能夠提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是：

第一方面，提供一種基于關(guān)鍵詞的不良文本檢測(cè)方法，包括如下步驟：

S0、獲取多個(gè)種子詞，所述種子詞為用于表征不良信息的詞語；

S1、根據(jù)語義聚類法對(duì)所述種子詞進(jìn)行擴(kuò)展，得到與所述種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞，以所述種子詞和所述語義關(guān)聯(lián)詞作為用于檢測(cè)不良文本的關(guān)鍵詞；

S2、在網(wǎng)頁文本在寬帶環(huán)境中傳輸?shù)那闆r下，統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中所述關(guān)鍵詞的出現(xiàn)次數(shù)，并根據(jù)所述出現(xiàn)次數(shù)確定屬于不良文本的網(wǎng)頁文本。

結(jié)合第一方面，在其第一種可能的實(shí)現(xiàn)方式中，所述種子詞為N個(gè)，N為整數(shù)且N≥2，所述步驟S1具體包括：

S11、獲取含有不良信息的訓(xùn)練文檔，將所述訓(xùn)練文檔中的每個(gè)詞轉(zhuǎn)換為詞向量形式的待訓(xùn)練詞向量，并將所述種子詞轉(zhuǎn)換為詞向量形式的種子詞向量，所述待訓(xùn)練詞向量與所述種子詞向量位于同一詞向量空間中；

S12、計(jì)算每個(gè)所述待訓(xùn)練詞向量與每個(gè)所述種子詞向量之間的余弦距離；

S13、在所述詞向量空間中，以N個(gè)所述種子詞向量作為初始質(zhì)心，利用K-means聚類算法對(duì)所述待訓(xùn)練詞向量進(jìn)行聚類，得到K個(gè)詞向量簇，每個(gè)所述詞向量簇分別具有一個(gè)聚類質(zhì)心，其中K為正整數(shù)且K≤N；

S14、對(duì)于所述聚類質(zhì)心距所述種子詞向量的余弦距離最小的所述詞向量簇，確定其中的所述待訓(xùn)練詞向量對(duì)應(yīng)的詞，并將所確定的詞作為與該種子詞向量對(duì)應(yīng)的所述種子詞的所述語義關(guān)聯(lián)詞。

結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式，在其第二種可能的實(shí)現(xiàn)方式中，所述步驟S11中的所述獲取含有不良信息的訓(xùn)練文檔具體包括：

獲取所述步驟S2中被確定為不良文本的所述網(wǎng)頁文本。

結(jié)合第一方面，在其第三種可能的實(shí)現(xiàn)方式中，所述步驟S2具體包括：

S21、統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中所述關(guān)鍵詞的出現(xiàn)次數(shù)，并判斷所述出現(xiàn)次數(shù)是否超出閾值；

S22、當(dāng)所述出現(xiàn)次數(shù)超出所述閾值時(shí)，初步判斷所述網(wǎng)頁文本為不良文本；

S23、顯示被初步判斷為不良文本的所述網(wǎng)頁文本；

S24、接收檢測(cè)人員輸入的、表示被初步判斷為不良文本的所述網(wǎng)頁文本屬于不良文本的指示，并根據(jù)所述指示，確定被初步判斷為不良文本的所述網(wǎng)頁文本屬于不良文本。

結(jié)合第一方面，在其第四種可能的實(shí)現(xiàn)方式中，所述步驟S0還包括：

對(duì)獲取的多個(gè)所述種子詞進(jìn)行分類；

所述步驟S1具體包括：對(duì)于每種類型的所述種子詞，分別根據(jù)語義聚類法進(jìn)行擴(kuò)展得到與該種類型的所述種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞，以該種類型的所述種子詞及其所述語義關(guān)聯(lián)詞作為用于檢測(cè)該種類型的不良文本的關(guān)鍵詞。

結(jié)合第一方面或其第一種至第四種任一可能的實(shí)現(xiàn)方式，在其第五種可能的實(shí)現(xiàn)方式中，

所述步驟S0、步驟S1在離線模式下進(jìn)行，所述步驟S2在在線模式下進(jìn)行。

第二方面，提供一種基于關(guān)鍵詞的不良文本檢測(cè)裝置，包括：

種子詞獲取單元，其用于獲取多個(gè)種子詞，所述種子詞為用于表征不良信息的詞語；

語義關(guān)聯(lián)詞擴(kuò)展單元，其用于根據(jù)語義聚類法對(duì)所述種子詞獲取單元獲取的種子詞進(jìn)行擴(kuò)展，得到與所述種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞，以所述種子詞和所述語義關(guān)聯(lián)詞作為用于檢測(cè)不良文本的關(guān)鍵詞；

不良文本判斷單元，其在網(wǎng)頁文本在寬帶環(huán)境中傳輸?shù)那闆r下，統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中所述語義關(guān)聯(lián)詞擴(kuò)展單元得到的關(guān)鍵詞的出現(xiàn)次數(shù)，并根據(jù)所述出現(xiàn)次數(shù)確定屬于不良文本的網(wǎng)頁文本。

結(jié)合第二方面，在其第一種可能的實(shí)現(xiàn)方式中，所述種子詞為N個(gè)，N為整數(shù)且N≥2，所述語義關(guān)聯(lián)詞擴(kuò)展單元具體用于：

獲取含有不良信息的訓(xùn)練文檔；

將所述訓(xùn)練文檔中的每個(gè)詞轉(zhuǎn)換為詞向量形式的待訓(xùn)練詞向量，并將所述種子詞獲取單元獲取的種子詞轉(zhuǎn)換為詞向量形式的種子詞向量，所述待訓(xùn)練詞向量與所述種子詞向量位于同一詞向量空間中；

計(jì)算所述每個(gè)所述待訓(xùn)練詞向量與每個(gè)所述種子詞向量之間的余弦距離；

在所述詞向量空間中，以N個(gè)所述種子詞向量作為初始質(zhì)心，利用K-means聚類算法對(duì)所述待訓(xùn)練詞向量進(jìn)行聚類，得到K個(gè)詞向量簇，每個(gè)所述K個(gè)詞向量簇分別具有一個(gè)聚類質(zhì)心，其中K為正整數(shù)且K≤N；

對(duì)所述聚類質(zhì)心距所述種子詞向量的余弦距離最小的所述詞向量簇，確定其中的所述待訓(xùn)練詞向量對(duì)應(yīng)的詞，并將所確定的詞作為與該種子詞向量對(duì)應(yīng)的所述種子詞的所述語義關(guān)聯(lián)詞。

結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式，在其第二種可能的實(shí)現(xiàn)方式中，

所述語義關(guān)聯(lián)詞擴(kuò)展單元具體用于：獲取在所述不良文本判斷單元中被確定為不良文本的所述網(wǎng)頁文本。

結(jié)合第二方面，在其第三種可能的實(shí)現(xiàn)方式中，所述不良文本判斷單元具體用于：

統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中所述語義關(guān)聯(lián)詞擴(kuò)展單元得到的關(guān)鍵詞的出現(xiàn)次數(shù)；

判斷所述出現(xiàn)次數(shù)是否超出閾值；

在所述出現(xiàn)次數(shù)超出所述閾值時(shí)，初步判斷所述網(wǎng)頁文本為不良文本；

顯示被初步判斷為不良文本的所述網(wǎng)頁文本；

接收檢測(cè)人員輸入的、表示被初步判斷為不良文本的所述網(wǎng)頁文本屬于不良文本的指示，并根據(jù)所述指示，確定被初步判斷為不良文本的所述網(wǎng)頁文本屬于不良文本。

根據(jù)本發(fā)明提供的基于關(guān)鍵詞的不良文本檢測(cè)方法及裝置，由于能夠根據(jù)較少的種子詞自動(dòng)拓展得到較為全面的關(guān)鍵詞，因此，能夠解決現(xiàn)有技術(shù)中因遺漏較多違規(guī)詞及難以識(shí)別偽裝詞造成的識(shí)別網(wǎng)頁違規(guī)的準(zhǔn)確率較低的問題，提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率。

附圖說明

下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明，附圖中：

圖1為基于關(guān)鍵詞的不良文本檢測(cè)方法的流程圖；

圖2為基于關(guān)鍵詞的不良文本檢測(cè)裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

為了對(duì)本發(fā)明的技術(shù)特征、目的和效果有更加清楚的理解，現(xiàn)對(duì)照附圖詳細(xì)說明本發(fā)明的具體實(shí)施方式。

實(shí)施例一

本實(shí)施例提供一種基于關(guān)鍵詞的不良文本檢測(cè)方法，可由具有信息處理功能的計(jì)算機(jī)、網(wǎng)絡(luò)服務(wù)器等執(zhí)行。不良文本是指含有涉黃、涉賭及涉毒等違規(guī)的不良信息的文本內(nèi)容。關(guān)鍵詞是檢測(cè)人員為進(jìn)行不良文本檢測(cè)而預(yù)先獲取的、具有不良信息或敏感信息的詞語，例如“性愛”等違規(guī)詞。作為本發(fā)明的一個(gè)應(yīng)用場(chǎng)景，在本實(shí)施例中，網(wǎng)絡(luò)服務(wù)器根據(jù)本發(fā)明提供的方法，檢測(cè)網(wǎng)絡(luò)中數(shù)據(jù)流形式的網(wǎng)頁文本?？梢岳斫獾氖?，為了進(jìn)行檢測(cè)，可將數(shù)據(jù)流形式的網(wǎng)頁文本還原為自然語言形式的網(wǎng)頁文本。以下，對(duì)本實(shí)施例提供的基于關(guān)鍵詞的不良文本檢測(cè)方法進(jìn)行說明。

圖1為實(shí)施例一提供的基于關(guān)鍵詞的不良文本檢測(cè)方法流程圖。如圖1所示，所述方法包括如下步驟：

S0、獲取多個(gè)種子詞，種子詞為用于表征不良信息的詞語。

如上所述，為了進(jìn)行檢測(cè)，需預(yù)先準(zhǔn)備關(guān)鍵詞。而為了提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率，需準(zhǔn)備全面的關(guān)鍵詞。所謂全面，是指關(guān)鍵詞的數(shù)量足夠龐大，能夠涵蓋絕大部分違規(guī)詞。為了獲得全面或趨于全面的關(guān)鍵詞，本發(fā)明采用這樣的方式：預(yù)先準(zhǔn)備一部分關(guān)鍵詞作為種子詞，并根據(jù)種子詞進(jìn)行自動(dòng)擴(kuò)展得到更全面的關(guān)鍵詞。也就是說，顧名思義，種子詞作為種子使用，通過對(duì)種子進(jìn)行信息處理，衍生出更多的關(guān)鍵詞。種子詞實(shí)質(zhì)上是關(guān)鍵詞的一部分，同樣用于表征不良信息。

在此步驟中，網(wǎng)絡(luò)服務(wù)器可從其他設(shè)備獲取種子詞，或者直接接收檢測(cè)人員輸入的種子詞。在兼顧為獲取或接收種子詞所需耗費(fèi)的資源或人力不過大的前提下，種子詞的數(shù)量優(yōu)選越多越好。需要說明的是，現(xiàn)有技術(shù)中為了盡可能取得全面的關(guān)鍵詞，需要檢測(cè)人員竭盡所能地標(biāo)記、獲取關(guān)鍵詞。雖然這種方式有可能取得較多的關(guān)鍵詞，但需要耗費(fèi)了巨大的資源及人力，并且，相對(duì)于變化多樣、數(shù)量龐大的關(guān)鍵詞庫，通過人力獲取的關(guān)鍵詞的數(shù)量畢竟有限。與此相對(duì)，在本步驟中，對(duì)于作為種子詞的關(guān)鍵詞，可進(jìn)行適度的獲取，這種適度以所耗費(fèi)的資源及人力合理為限。也就是說，相對(duì)于現(xiàn)有技術(shù)，本步驟中能夠節(jié)約為獲取關(guān)鍵詞的資源及人力。

在一種可選的實(shí)現(xiàn)方式中，網(wǎng)絡(luò)服務(wù)器可分門別類地獲取或接收種子詞，即，網(wǎng)絡(luò)服務(wù)器可對(duì)獲取的種子詞進(jìn)行分類。舉例而言，網(wǎng)絡(luò)服務(wù)器可分別按照涉黃、涉賭及涉毒的類型，獲取涉黃種子詞、涉賭種子詞及涉毒種子詞。涉黃種子詞例如包括性愛等，涉賭種子詞例如包括六合彩、百家樂等，涉毒種子詞例如包括K粉、搖頭丸等。

S1、根據(jù)語義聚類法對(duì)種子詞進(jìn)行擴(kuò)展，得到與種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞，以種子詞和語義關(guān)聯(lián)詞作為用于檢測(cè)不良文本的關(guān)鍵詞。

在本發(fā)明中，語義聚類法是指，使用少量的關(guān)鍵詞作為種子詞，以種子詞為標(biāo)桿將與其語義相近或關(guān)聯(lián)的詞聚類在一起，從而自動(dòng)擴(kuò)展關(guān)鍵詞的總量。

在此，對(duì)通過對(duì)種子進(jìn)行信息處理衍生出更多關(guān)鍵詞的過程進(jìn)行說明。假定種子詞為N個(gè)，N為整數(shù)且N≥2。步驟S1具體可分為步驟S11～S14。

S11、獲取含有不良信息的訓(xùn)練文檔，將訓(xùn)練文檔中的每個(gè)詞轉(zhuǎn)換為詞向量形式的待訓(xùn)練詞向量，并將種子詞轉(zhuǎn)換為詞向量形式的種子詞向量。

作為拓展關(guān)鍵詞的訓(xùn)練資料，需準(zhǔn)備含有不良信息的文檔，稱為訓(xùn)練文檔。例如，一篇被判定為涉黃的文檔，其中含有違規(guī)詞，此外，還含有其他非違規(guī)詞。

為了對(duì)訓(xùn)練文檔中的詞語與關(guān)鍵詞之間語義是否相近或關(guān)聯(lián)進(jìn)行判斷，本實(shí)施例采用了詞向量及余弦距離。詞向量是指，通過訓(xùn)練將某種語言中的每一個(gè)詞語映射成一個(gè)固定長度(即固定維度)的向量。例如，一個(gè)詞可以被映射成一個(gè)M(M為整數(shù)且M≥2)維向量W_i：

W_i＝(V₁,V₂,...,V_M)，其中，V₁、V₁、……、V_M為在各維上的值。

每個(gè)詞都轉(zhuǎn)換為唯一的詞向量，所有詞向量構(gòu)成一個(gè)詞向量空間。像這樣地，將一個(gè)詞語轉(zhuǎn)換為具有某一固定維度的模型，可稱為詞向量模型。

對(duì)于詞向量模型，可使用Google公司提供的word2vec工具。word2vec是Google在2013年開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想，可以通過訓(xùn)練，把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算，而向量空間上的相似度可以用來表示文本語義上的相似度。與潛在語義分析(Latent Semantic Index,LSI)、潛在狄立克雷分配(Latent Dirichlet Allocation，LDA)的經(jīng)典過程相比，word2vec利用了詞的上下文，語義信息更加地豐富。

S12、計(jì)算每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離。

余弦距離也稱為余弦相似度，是用向量空間中兩個(gè)向量夾角的余弦值作為衡量兩個(gè)個(gè)體間差異的大小的度量。兩個(gè)向量之間的夾角越大，它們之間的余弦距離越大，反之越小。若兩個(gè)向量的方向趨于一致，即夾角接近零，那么這兩個(gè)向量的余弦距離趨于零。由于詞向量是根據(jù)自然語言的詞法、語義進(jìn)行映射得到的，因此，余弦距離能夠表征兩個(gè)詞向量各自對(duì)應(yīng)的詞語在詞法、語義上的關(guān)聯(lián)性。余弦距離越小，兩個(gè)詞語在語義上越相近或關(guān)聯(lián)。

在本步驟中，為了確定訓(xùn)練文本中哪些詞語與種子詞在語義上關(guān)聯(lián)，首先需要分別計(jì)算訓(xùn)練文本中的每個(gè)詞語轉(zhuǎn)換為待訓(xùn)練詞向量后每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離。具體地，令N個(gè)種子詞對(duì)應(yīng)的詞向量分別為S₁、S₂、……、S_N，訓(xùn)練文本中的詞語對(duì)應(yīng)的待訓(xùn)練詞向量分別為W₁、W₂、W₃、……。在本步驟中，對(duì)于種子詞向量S₁，計(jì)算它與各個(gè)待訓(xùn)練詞向量之間的余弦距離，即D₁₁＝CosinDistance(S₁，W₁)、D₁₂＝CosinDistance(S₁，W₂)、D₁₃＝CosinDistance(S₁，W₃)……。對(duì)于種子詞向量S₂，計(jì)算它與各個(gè)待訓(xùn)練詞向量之間的余弦距離，即D₂₁＝CosinDistance(S₂，W₁)、D₂₂＝CosinDistance(S₂，W₂)、D₂₃＝CosinDistance(S₂，W₃)……。對(duì)于種子詞向量S_N，計(jì)算它與各個(gè)待訓(xùn)練詞向量之間的余弦距離，即D_N1＝CosinDistance(S_N，W₁)、D_N2＝CosinDistance(S_N，W₂)、D_N3＝CosinDistance(S_N，W₃)……。從而得到每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離：

D_ij＝Co sin Dis tan ce(S_i,W_j)。

S13、在詞向量空間中，以N個(gè)種子詞向量作為初始質(zhì)心，利用K-means聚類算法對(duì)待訓(xùn)練詞向量進(jìn)行聚類，得到K個(gè)詞向量簇，每個(gè)詞向量簇分別具有一個(gè)聚類質(zhì)心。

在確定每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離之后，為了高效快捷地確定與種子詞向量對(duì)應(yīng)的種子詞的語義關(guān)聯(lián)詞，在本步驟中，采用K-means聚類算法對(duì)待訓(xùn)練詞向量進(jìn)行聚類。

具體地，首先選取N個(gè)種子詞向量作為初始質(zhì)心，利用步驟S12中計(jì)算得到的余弦距離進(jìn)行第一輪聚類：對(duì)于某一初始質(zhì)心，使余弦距離距該初始質(zhì)心比距其他質(zhì)心都要小的待訓(xùn)練詞向量聚成一類；對(duì)于其他另外每個(gè)初始質(zhì)心同樣進(jìn)行類似的聚類處理。經(jīng)過第一輪聚類后，得到至多N個(gè)詞向量簇(由于存在這樣的初始質(zhì)心，任意一個(gè)待訓(xùn)練詞向量距該初始質(zhì)心的余弦距離都要大于距其他初始質(zhì)心的余弦距離，因此沒有待訓(xùn)練詞向量聚類到該初始質(zhì)心下，因此，存在詞向量簇的個(gè)數(shù)K小于或等于種子詞向量個(gè)數(shù)N的情況。以下，以K個(gè)詞向量簇進(jìn)行說明，其中K為正整數(shù)且K≤N)。每個(gè)詞向量簇分別具有一個(gè)質(zhì)心，可稱為第一輪聚類質(zhì)心。

接著，又可根據(jù)K個(gè)第一輪聚類質(zhì)心進(jìn)行第二輪聚類，經(jīng)過第二輪聚類之后，得到的K個(gè)詞向量簇更加集中，同時(shí)對(duì)應(yīng)K個(gè)第二輪聚類質(zhì)心。接著，可重復(fù)上述過程，進(jìn)行第三次、第四次乃至更多次的聚類。當(dāng)某一輪聚類質(zhì)心與其前一輪的聚類質(zhì)心之間的變化小于預(yù)先設(shè)定的值，可停止K-means聚類算法，最終得到聚類質(zhì)心穩(wěn)定的K個(gè)詞向量簇。

S14、對(duì)于聚類質(zhì)心距種子詞向量的余弦距離最小的詞向量簇，確定其中的待訓(xùn)練詞向量對(duì)應(yīng)的詞，并將所確定的詞作為與該種子詞向量對(duì)應(yīng)的種子詞的語義關(guān)聯(lián)詞。

在此步驟中，根據(jù)步驟S13所得到的K個(gè)詞向量簇，進(jìn)行種子詞的語義關(guān)聯(lián)詞的判斷。具體地，對(duì)于每個(gè)詞向量簇，重新計(jì)算其聚類質(zhì)心距每個(gè)種子詞向量的余弦距離。然后，對(duì)于某個(gè)詞向量簇，判斷其聚類質(zhì)心距哪個(gè)種子詞向量的余弦距離最小，并記錄該詞向量簇與該種子詞向量之間余弦距離最小的對(duì)應(yīng)關(guān)系。對(duì)于其他每個(gè)詞向量簇，進(jìn)行類似的判斷，得到每個(gè)詞向量簇及與其余弦距離最小的種子詞向量之間的對(duì)應(yīng)關(guān)系。最后，根據(jù)上述余弦距離最小的對(duì)應(yīng)關(guān)系，將詞向量簇中的所有待訓(xùn)練詞向量所對(duì)應(yīng)的詞語，作為對(duì)應(yīng)的種子詞向量所對(duì)應(yīng)的種子詞的語義關(guān)聯(lián)詞。

據(jù)此，完成了根據(jù)語義聚類法將種子詞擴(kuò)展為語義關(guān)聯(lián)詞得到包括種子詞和語義關(guān)聯(lián)詞在內(nèi)的關(guān)鍵詞的過程。

需要說明的是，在上述說明中對(duì)根據(jù)步驟S11至S14的處理能夠擴(kuò)展關(guān)鍵詞的數(shù)量，這包括兩方面的含義。具體地，如背景技術(shù)部分所述，一方面，違規(guī)詞的基數(shù)龐大；另一方面，違規(guī)詞的偽裝詞也五花八門。在本實(shí)施例中，關(guān)鍵詞的擴(kuò)展一方面包括違規(guī)詞的拓展，另一方面還包括違規(guī)詞的偽裝詞的拓展。所謂違規(guī)詞的拓展，是指不考慮偽裝詞的情況下的拓展；而違規(guī)詞的偽裝詞的拓展，是指在違規(guī)詞的基礎(chǔ)上拓展其偽裝詞。舉例而言，對(duì)于涉毒違規(guī)詞，假設(shè)已標(biāo)記的種子詞為“六合彩”、“百家樂”，但是未標(biāo)記“時(shí)時(shí)彩”、“老虎機(jī)”等，根據(jù)種子詞“六合彩”、“百家樂”拓展得到“時(shí)時(shí)彩”、“老虎機(jī)”等屬于違規(guī)詞的拓展。而涉黃違規(guī)詞，假設(shè)已標(biāo)記的種子詞為“性愛”，但是未標(biāo)記“悻愛”、“性噯⌒”、“狌曖”等，根據(jù)種子詞“性愛”拓展得到“悻愛”、“性噯⌒”、“狌曖”等則屬于違規(guī)詞的偽裝詞的拓展。

由此可見，根據(jù)本發(fā)明提供的基于關(guān)鍵詞的不良文本檢測(cè)方法，既能夠避免遺漏過多違規(guī)詞，又能夠識(shí)別違規(guī)詞的偽裝詞。

另外，如步驟S0所述，網(wǎng)絡(luò)服務(wù)器可對(duì)獲取的種子詞進(jìn)行分類。對(duì)應(yīng)地，在步驟S1中，可對(duì)于每種類型的種子詞，分別根據(jù)語義聚類法進(jìn)行擴(kuò)展得到與該種類型的種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞，以該種類型的種子詞及其語義關(guān)聯(lián)詞作為用于檢測(cè)該種類型的不良文本的關(guān)鍵詞。即，對(duì)于每種類型的種子詞，分別進(jìn)行上述步驟S11至S14。

S2、在網(wǎng)頁文本在寬帶環(huán)境中傳輸?shù)那闆r下，統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中關(guān)鍵詞的出現(xiàn)次數(shù)，并根據(jù)出現(xiàn)次數(shù)確定屬于不良文本的網(wǎng)頁文本。

在根據(jù)步驟S1拓展用于檢測(cè)不良文本的關(guān)鍵詞后，可根據(jù)拓展的關(guān)鍵詞對(duì)網(wǎng)頁文本中的詞語進(jìn)行檢測(cè)。具體地，步驟S2可分為步驟S21～S22。

S21、統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中關(guān)鍵詞的出現(xiàn)次數(shù)，并判斷出現(xiàn)次數(shù)是否超出閾值。

對(duì)于作為待檢測(cè)的對(duì)象，在利用網(wǎng)絡(luò)服務(wù)器對(duì)網(wǎng)絡(luò)中傳輸?shù)膬?nèi)容進(jìn)行檢測(cè)的情況下，其一般為數(shù)據(jù)流形式的網(wǎng)頁代碼，為了進(jìn)行關(guān)鍵詞出現(xiàn)次數(shù)的統(tǒng)計(jì)，需將數(shù)據(jù)流形式的網(wǎng)頁代碼還原為自然語言形式的網(wǎng)頁文本。因此，在執(zhí)行步驟S21之前，對(duì)應(yīng)于數(shù)據(jù)流形式的網(wǎng)頁代碼先進(jìn)行網(wǎng)頁文本還原。網(wǎng)頁文本還原屬于現(xiàn)有技術(shù)中較為成熟的技術(shù)，本發(fā)明對(duì)采用何種還原技術(shù)不做限定。

在得到自然語言形式的網(wǎng)頁文本后，提取文本中的每個(gè)特征詞，然后，逐一比較網(wǎng)頁文本中的特征詞是否與某一關(guān)鍵詞相同，每當(dāng)一個(gè)特征詞與某一關(guān)鍵詞相同時(shí)，計(jì)數(shù)一次。對(duì)網(wǎng)頁文本中的每個(gè)特征詞重復(fù)上述比較，得到整個(gè)網(wǎng)頁文本中關(guān)鍵詞出現(xiàn)的次數(shù)，即總出現(xiàn)次數(shù)。

接著，對(duì)于每篇網(wǎng)頁文本，將其對(duì)應(yīng)的關(guān)鍵詞的總出現(xiàn)次數(shù)與一個(gè)閾值進(jìn)行比較，判斷其是否超出該閾值。在此，閾值是用于衡量一篇網(wǎng)頁文本中關(guān)鍵詞出現(xiàn)的總次數(shù)到達(dá)何種程度時(shí)可以被判定為不良文本的標(biāo)準(zhǔn)，具體可為檢測(cè)人員根據(jù)實(shí)際情況進(jìn)行設(shè)置的一個(gè)數(shù)量。

S22、當(dāng)出現(xiàn)次數(shù)超出閾值時(shí)，初步判斷網(wǎng)頁文本為不良文本。

一般地，當(dāng)某個(gè)網(wǎng)頁文本中關(guān)鍵詞的出現(xiàn)次數(shù)超出了閾值時(shí)，即可判斷該網(wǎng)頁文本為不良文本，并進(jìn)行進(jìn)一步處理，例如，實(shí)時(shí)地阻止該不良文本的網(wǎng)絡(luò)數(shù)據(jù)流的傳輸或封鎖其網(wǎng)頁。具體地，可利用如下公式：

其中，p表示網(wǎng)頁，c表示類別，n_p是網(wǎng)頁p中特征詞的個(gè)數(shù)，Mc,i是類別c中第i個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)。

如果E(p,c)>λ，則認(rèn)為網(wǎng)頁p屬于c類違規(guī)，其中E(p,c)為某一網(wǎng)頁文本中關(guān)鍵詞的出現(xiàn)次數(shù)，λ為閾值。

在本發(fā)明中，根據(jù)拓展的關(guān)鍵詞進(jìn)行檢測(cè)能夠簡(jiǎn)單高效地確定屬于不良文本的網(wǎng)頁文本。與此相對(duì)，現(xiàn)有技術(shù)中還存在通過語義分析方法來對(duì)整個(gè)文檔使用語義分析技術(shù)以進(jìn)行判斷的方法，這種方法雖然能夠保證較高的準(zhǔn)確率，但由于語義分析技術(shù)過于復(fù)雜，會(huì)增加額外的在線計(jì)算開銷，同時(shí)監(jiān)管部門通常還需要安排專人對(duì)機(jī)器檢測(cè)的結(jié)果進(jìn)行審核，需人工參與的工作量較大。然而，對(duì)監(jiān)管部門而言，如何快速穩(wěn)定的處理高帶寬下用戶訪問的網(wǎng)頁信息里是否包含不良信息，盡量減少人工參與的工作量，才是最為關(guān)注的重點(diǎn)。對(duì)于這一問題，本發(fā)明所提供的基于關(guān)鍵詞的不良文本檢測(cè)方法具有簡(jiǎn)單高效的特點(diǎn)，因此適用于在高帶寬傳輸環(huán)境下進(jìn)行不良文本檢測(cè)這一場(chǎng)景。

在本實(shí)施例中，為了更準(zhǔn)確地判斷不良文本，步驟S2還可包括為步驟S23～S24。

S23、顯示被初步判斷為不良文本的網(wǎng)頁文本。

對(duì)于被初步判斷為不良文本的網(wǎng)頁文本，網(wǎng)絡(luò)服務(wù)器可控制顯示器使其顯示這些網(wǎng)頁文本，據(jù)此，檢測(cè)人員可觀察被初步判斷為不良文本的網(wǎng)頁文本。

S24、接收檢測(cè)人員輸入的、表示被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本的指示，并根據(jù)指示，確定被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本。

通過觀察、閱讀，檢測(cè)人員能夠確定被初步判斷為不良文本的網(wǎng)頁文本是否真為不良文本。然后，檢測(cè)人員可向網(wǎng)絡(luò)服務(wù)器輸入自身的確定結(jié)果，即輸入用于表示被初步判斷為不良文本的網(wǎng)頁文本是否屬于不良文本的指示。當(dāng)該網(wǎng)頁文本確為不良文本時(shí)，輸入用于表示被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本的指示；當(dāng)該網(wǎng)頁文本被誤判為不良文本時(shí)，輸入用于表示被初步判為不良文本的網(wǎng)頁文本并非不良文本的指示。

基于檢測(cè)人員輸入的指示，網(wǎng)絡(luò)服務(wù)器可從被初步判斷為不良文本的網(wǎng)頁文本中，進(jìn)一步確定真正屬于不良文本的網(wǎng)頁文本。

這種將自動(dòng)判斷(步驟S21～S22)與人工判斷(步驟S23～S24)結(jié)合起來的不良文本檢測(cè)方式，能夠顯著提高不良文本檢測(cè)的效率與準(zhǔn)確率。其中，由于步驟S21～S22中的自動(dòng)判斷已經(jīng)篩選掉了大部分不屬于不良文本的網(wǎng)頁文本，因此，步驟S23～S24中人工判斷的工作量得以大大縮減，效率得以顯著提高，而人工判斷能夠彌補(bǔ)自動(dòng)判斷的智能性限制，因而準(zhǔn)確率得以顯著提高。

需要說明的是，這種在自動(dòng)判斷的基礎(chǔ)上結(jié)合人工判斷的檢測(cè)方式，尤其適用于基于關(guān)鍵詞的不良文本檢測(cè)方法的初始實(shí)現(xiàn)階段。在此，所謂初始實(shí)現(xiàn)階段不是指步驟S0～S2中靠前的步驟，而是指在該檢測(cè)方法的整個(gè)過程一次次地實(shí)現(xiàn)過程中靠前的若干次實(shí)現(xiàn)過程。例如，對(duì)于成千上萬的待檢測(cè)網(wǎng)頁文本，使用該檢測(cè)方法對(duì)開始的前幾篇、前幾十篇甚至前幾百篇進(jìn)行檢測(cè)的過程，可稱為該檢測(cè)方法的初始實(shí)現(xiàn)階段。這是因?yàn)椋陉P(guān)鍵詞的不良文本檢測(cè)方法需要一定的試用、調(diào)試、學(xué)習(xí)期間，才能取得較為穩(wěn)定、準(zhǔn)確的結(jié)果。

在本實(shí)施例的一個(gè)更具體的實(shí)現(xiàn)方式中，在步驟S11中，具體地，網(wǎng)絡(luò)服務(wù)器可獲取步驟S2中被確定為不良文本的網(wǎng)頁文本。在此，步驟S2中被確定為不良文本的網(wǎng)頁文本可為步驟S21～S22中自動(dòng)判斷得到的被確定為不良文本的網(wǎng)頁文本，還可為步驟S23～S24中人工判斷得到的被確定為不良文本的網(wǎng)頁文本。

也就是說，在本實(shí)施例中，作為拓展關(guān)鍵詞訓(xùn)練資料的訓(xùn)練文檔，除了檢測(cè)人員人工獲取外，還可采用網(wǎng)絡(luò)服務(wù)器自身判斷得到的。一方面，能夠減少檢測(cè)人員為獲取及輸入訓(xùn)練文檔所需耗費(fèi)的工作量；另一方面，由于網(wǎng)絡(luò)服務(wù)器自身判斷得到的不良文本的數(shù)量龐大、種類繁多，且這些不良文本含有較多的與種子詞語義關(guān)聯(lián)的不良詞語及敏感詞語，因此，以這些不良文本作為訓(xùn)練文檔能夠擴(kuò)展得到更多的語義關(guān)聯(lián)詞(步驟S11～S14)，從而能夠進(jìn)一步優(yōu)化基于關(guān)鍵詞的不良文本檢測(cè)方法，進(jìn)一步提高不良文本檢測(cè)的準(zhǔn)確率。

需要說明的是，在基于關(guān)鍵詞的不良文本檢測(cè)方法的初始實(shí)現(xiàn)階段，步驟S11中網(wǎng)絡(luò)服務(wù)器優(yōu)選步驟S23～S24中人工判斷得到的被確定為不良文本的網(wǎng)頁文本，這是因?yàn)?，人工判斷的判斷?zhǔn)確率高，因而使用人工判斷得到的不良文本進(jìn)行語義關(guān)聯(lián)詞擴(kuò)展，能夠取得更加優(yōu)化的擴(kuò)展結(jié)果。

在本實(shí)施例的一個(gè)更具體的實(shí)現(xiàn)方式中，步驟S0、步驟S1在離線模式下進(jìn)行，而僅步驟S2在在線模式下進(jìn)行。如上所述，在現(xiàn)有技術(shù)中，由于通過語義分析方法來對(duì)整個(gè)文檔使用語義分析技術(shù)以進(jìn)行判斷的方法在在線模式下進(jìn)行，因此，在線開銷大，檢測(cè)效率低下。與此相對(duì)，在本實(shí)施例中，由于步驟S0、步驟S1所對(duì)應(yīng)的訓(xùn)練過程不需要網(wǎng)絡(luò)的參與，在離線模式下進(jìn)行能夠避免額外的在線處理開銷，提高檢測(cè)效率。

由上可知，根據(jù)實(shí)施例一提供的基于關(guān)鍵詞的不良文本檢測(cè)方法，由于能夠根據(jù)較少的種子詞自動(dòng)拓展得到較為全面的關(guān)鍵詞，因此，能夠解決現(xiàn)有技術(shù)中因遺漏較多違規(guī)詞及難以識(shí)別偽裝詞造成的識(shí)別網(wǎng)頁違規(guī)的準(zhǔn)確率較低的問題，提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率。

實(shí)施例二

對(duì)應(yīng)于實(shí)施例一提供的基于關(guān)鍵詞的不良文本檢測(cè)方法，實(shí)施例二提供的一種基于關(guān)鍵詞的不良文本檢測(cè)裝置。該裝置具體可為具有信息處理功能的計(jì)算機(jī)、網(wǎng)絡(luò)服務(wù)器等。如圖2所示，基于關(guān)鍵詞的不良文本檢測(cè)裝置100包括：

種子詞獲取單元101，其用于獲取多個(gè)種子詞，種子詞為用于表征不良信息的詞語；

語義關(guān)聯(lián)詞擴(kuò)展單元102，其用于根據(jù)語義聚類法對(duì)種子詞獲取單元101獲取的種子詞進(jìn)行擴(kuò)展，得到與種子詞語義關(guān)聯(lián)的語義關(guān)聯(lián)詞，以種子詞和語義關(guān)聯(lián)詞作為用于檢測(cè)不良文本的關(guān)鍵詞；

不良文本判斷單元103，其在網(wǎng)頁文本在寬帶環(huán)境中傳輸?shù)那闆r下，統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中語義關(guān)聯(lián)詞擴(kuò)展單元102得到的關(guān)鍵詞的出現(xiàn)次數(shù)，并根據(jù)出現(xiàn)次數(shù)確定屬于不良文本的網(wǎng)頁文本。

在實(shí)施例二的一個(gè)更具體的實(shí)現(xiàn)方式中，種子詞為N個(gè)，N為整數(shù)且N≥2，語義關(guān)聯(lián)詞擴(kuò)展單元102具體用于：

獲取含有不良信息的訓(xùn)練文檔；

將訓(xùn)練文檔中的每個(gè)詞轉(zhuǎn)換為詞向量形式的待訓(xùn)練詞向量，并將種子詞獲取單元101獲取的種子詞轉(zhuǎn)換為詞向量形式的種子詞向量，待訓(xùn)練詞向量與種子詞向量位于同一詞向量空間中；

計(jì)算每個(gè)待訓(xùn)練詞向量與每個(gè)種子詞向量之間的余弦距離；

在詞向量空間中，以N個(gè)種子詞向量作為初始質(zhì)心，利用K-means聚類算法對(duì)待訓(xùn)練詞向量進(jìn)行聚類，得到K個(gè)詞向量簇，每個(gè)K個(gè)詞向量簇分別具有一個(gè)聚類質(zhì)心，其中K為正整數(shù)且K≤N；

對(duì)聚類質(zhì)心距種子詞向量的余弦距離最小的詞向量簇，確定其中的待訓(xùn)練詞向量對(duì)應(yīng)的詞，并將所確定的詞作為與該種子詞向量對(duì)應(yīng)的種子詞的語義關(guān)聯(lián)詞。

在實(shí)施例二的另一個(gè)更具體的實(shí)現(xiàn)方式中，語義關(guān)聯(lián)詞擴(kuò)展單元102具體用于：獲取在不良文本判斷單元103中被確定為不良文本的網(wǎng)頁文本。

在實(shí)施例二的另一個(gè)更具體的實(shí)現(xiàn)方式中，不良文本判斷單元103具體用于：統(tǒng)計(jì)每個(gè)網(wǎng)頁文本中語義關(guān)聯(lián)詞擴(kuò)展單元102得到的關(guān)鍵詞的出現(xiàn)次數(shù)；判斷出現(xiàn)次數(shù)是否超出閾值；在出現(xiàn)次數(shù)超出閾值時(shí)，初步判斷網(wǎng)頁文本為不良文本；顯示被初步判斷為不良文本的網(wǎng)頁文本；接收檢測(cè)人員輸入的、表示被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本的指示，并根據(jù)該指示，確定被初步判斷為不良文本的網(wǎng)頁文本屬于不良文本。

由于實(shí)施例一中已經(jīng)對(duì)基于關(guān)鍵詞的不良文本檢測(cè)裝置所進(jìn)行的處理進(jìn)行了說明，在此，不再進(jìn)行贅述。同樣地，根據(jù)本實(shí)施例提供的基于關(guān)鍵詞的不良文本檢測(cè)裝置，由于能夠根據(jù)較少的種子詞自動(dòng)拓展得到較為全面的關(guān)鍵詞，因此，能夠解決現(xiàn)有技術(shù)中因遺漏較多違規(guī)詞及難以識(shí)別偽裝詞造成的識(shí)別網(wǎng)頁違規(guī)的準(zhǔn)確率較低的問題，提高基于關(guān)鍵詞進(jìn)行不良文本檢測(cè)的準(zhǔn)確率。

上面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行了描述，但是本發(fā)明并不局限于上述的具體實(shí)施方式，上述的具體實(shí)施方式僅僅是示意性的，而不是限制性的，本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下，在不脫離本發(fā)明宗旨和權(quán)利要求所保護(hù)的范圍情況下，還可做出很多形式，這些均屬于本發(fā)明的保護(hù)之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐新民;沈智杰;景曉軍;劉永強(qiáng)
技術(shù)所有人：任子行網(wǎng)絡(luò)技術(shù)股份有限公司
我是此專利的發(fā)明人

上一篇：一種量子隨機(jī)數(shù)發(fā)生器及量子隨機(jī)數(shù)生成方法與流程
上一篇：模擬放大電路的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本不良信息檢測(cè)方法相關(guān)技術(shù)

python文本關(guān)鍵詞提取相關(guān)技術(shù)

文本關(guān)鍵詞提取工具相關(guān)技術(shù)

文本關(guān)鍵詞提取相關(guān)技術(shù)

文本關(guān)鍵詞提取算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于關(guān)鍵詞的不良文本檢測(cè)方法及裝置與流程