保護(hù)的范圍。
[0043] 請(qǐng)參閱圖1,其示出了本發(fā)明提供的一種文本內(nèi)容敏感性分析方法的流程圖,包 括:
[0044] 步驟101,預(yù)先對(duì)每個(gè)敏感詞進(jìn)行敏感度標(biāo)注。
[0045] 在本發(fā)明中,敏感詞指的是指不健康色彩的詞或不文明語(yǔ),也包括一些網(wǎng)站根據(jù) 自身實(shí)際情況,設(shè)定的一些只適用于本網(wǎng)站的特殊敏感詞。而對(duì)于什么詞才是敏感詞,一般 會(huì)設(shè)置一用以記錄敏感詞的敏感詞詞典,通過(guò)比對(duì)字詞是否在敏感詞詞典中來(lái)判斷該詞是 否為敏感詞。
[0046] 因此,本發(fā)明可以預(yù)先依據(jù)敏感詞詞典,將敏感詞詞典中記錄的所有敏感詞進(jìn)行 敏感度標(biāo)注。例如,預(yù)先標(biāo)注敏感詞Α的敏感度為0. 1、敏感詞Β的敏感度為0. 2、敏感詞C 的敏感度為〇. 3等,本發(fā)明針對(duì)不同性質(zhì)、不同敏感程度的敏感詞分別標(biāo)注其敏感度。
[0047] 步驟102,獲取當(dāng)前待審核的文本內(nèi)容。
[0048] 例如當(dāng)欲發(fā)布某一新聞稿件時(shí),確定該新聞稿件為當(dāng)前待審核的文本,本發(fā)明首 先獲取該欲發(fā)布的新聞稿件的文本內(nèi)容。
[0049] 其中文本內(nèi)容具體指的是新聞稿件中的文字內(nèi)容。
[0050] 步驟103,對(duì)所述文本內(nèi)容進(jìn)行分詞處理,得到一字詞組,所述字詞組包括至少一 個(gè)字詞。
[0051] 在本實(shí)施例中,本發(fā)明對(duì)文本內(nèi)容進(jìn)行分詞處理,得到一包括多個(gè)字詞的字詞組。 其中較優(yōu)的,本發(fā)明在對(duì)文本內(nèi)容進(jìn)行分詞處理,得到一字詞組后,方法還可以進(jìn)一步包 括,如圖2所示:步驟1031,去除分詞處理后得到的字詞組中的停用詞。此時(shí)最后得到的字 詞組具體為,得到一去除停用詞后的字詞組。
[0052] 其中,停用詞指的是一些無(wú)意義的詞和一些虛詞,例如標(biāo)點(diǎn)符號(hào)、"的"、"了"、"是" 等。
[0053] 具體例如,對(duì)于一篇文本內(nèi)容為"仲夏黃昏的小湖邊水波瀲滟,清風(fēng)徐徐。張小明 和夫人孫小紅在湖邊迎接趙小四和其夫人李小五。兩對(duì)朋友夫婦親切交流,互致問(wèn)候,隨后 信步拾階,來(lái)到小明家做客玩耍。"的文本來(lái)說(shuō),本發(fā)明對(duì)該文本內(nèi)容進(jìn)行分詞處理,以及去 除停用詞后得到的字詞組為:"仲夏黃昏小湖邊水波瀲滟清風(fēng)徐徐張小明和夫人孫小紅在 湖邊迎接趙小四和其夫人李小五兩隊(duì)朋友夫婦親切交流互致問(wèn)候隨后信步拾階來(lái)到小明 家做客玩耍"。其中明顯的,本發(fā)明去除了 "的"、標(biāo)點(diǎn)符號(hào)","和"。"。
[0054] 步驟104,從所述得到的字詞組中查找敏感詞。
[0055] 仍以上述為例,本發(fā)明將從得到的字詞組中依次查找敏感詞。
[0056] 具體地,本發(fā)明將字詞組中的字詞逐個(gè)與敏感詞詞典中的字詞進(jìn)行比對(duì)。當(dāng)字詞 組中的字詞與敏感詞詞典中的字詞一致時(shí),確定該字詞組中的字詞為敏感詞。其中,敏感詞 詞典用于存儲(chǔ)敏感詞。
[0057] 步驟105,當(dāng)查找到敏感詞時(shí),將所述查找到的敏感詞進(jìn)行標(biāo)記,記錄所述敏感詞 的首字在字詞組長(zhǎng)度中的位置;所述字詞組長(zhǎng)度為所述字詞組中所有文字的個(gè)數(shù)。
[0058] 在本發(fā)明中,當(dāng)查找到敏感詞時(shí),將所述查找到的敏感詞進(jìn)行標(biāo)記,并同時(shí)記錄下 該敏感詞的首字在字詞組長(zhǎng)度中的位置。其中字詞組長(zhǎng)度為所述字詞組中所有文字的個(gè) 數(shù)。
[0059] 仍以上述為例,對(duì)于字詞組"仲夏黃昏小湖邊水波瀲滟清風(fēng)徐徐張小明和夫人孫 小紅在湖邊迎接趙小四和其夫人李小五兩對(duì)朋友夫婦親切交流互致問(wèn)候隨后信步拾階來(lái) 至IJ小明家做客玩耍"來(lái)說(shuō),假設(shè)其包含的"張小明"、"孫小紅"、"趙小四"、"其夫人李小五"為 敏感詞,那么當(dāng)查找到"張小明"時(shí),將"張小明"進(jìn)行標(biāo)記,并記錄下"張"字在該字詞組長(zhǎng) 度中的位置,而顯然,該字詞組共包括68個(gè)文字,即該字詞組長(zhǎng)度為68,此時(shí)"張"字在該 字詞組長(zhǎng)度中的位置為15。同理,當(dāng)查找到"孫小紅"時(shí),將"孫小紅"進(jìn)行標(biāo)記,并記錄下 "孫"字在該字詞組長(zhǎng)度中的位置22,查找到"趙小四"時(shí),將"趙小四"進(jìn)行標(biāo)記,并記錄下 "趙"字在該字詞組長(zhǎng)度中的位置30,以及查找到"其夫人李小五"時(shí),將"其夫人李小五"進(jìn) 行標(biāo)記,并記錄下"其"字在該字詞組長(zhǎng)度中的位置34。
[0060] 步驟106,依據(jù)所述文本內(nèi)容允許的最高敏感度等級(jí)X,將所述字詞組長(zhǎng)度劃分為 N個(gè)分區(qū)間,N= 2X。其中,N、X均為正整數(shù)。
[0061] 在實(shí)際應(yīng)用過(guò)程中,每件欲發(fā)布的稿件都有對(duì)應(yīng)設(shè)置的最高敏感度等級(jí)X,X為大 于0的數(shù)。在理論情況下,該X值可任意設(shè)置,但在一般情況下,一般設(shè)置所述文本內(nèi)容允 許的最高敏感度等級(jí)X等于5。因此,本發(fā)明以最高敏感度等級(jí)X等于5為例進(jìn)行說(shuō)明。
[0062] 當(dāng)X等于5時(shí),本發(fā)明會(huì)將得到的字詞組長(zhǎng)度劃分為N個(gè)分區(qū)間,N= 2X,即N= 25。
[0063] 在本實(shí)施例中,一般情況下,劃分的每個(gè)分區(qū)間都至少包括一個(gè)字詞,當(dāng)然如果字 詞組長(zhǎng)度過(guò)短,即字詞組中的文字個(gè)數(shù)較少時(shí),而同時(shí)劃分的分區(qū)間N個(gè)數(shù)較多時(shí),有的分 區(qū)間可能沒(méi)有字詞。對(duì)于沒(méi)有字詞的分區(qū)間,本發(fā)明計(jì)算其分區(qū)間的敏感度Pl等于預(yù)設(shè)值。
[0064] 步驟107,利用公式ft二,計(jì)算每一分區(qū)間的敏感度Ρρ
[0065] 其中,i為小于等于N的正整整,用于表示第i個(gè)分區(qū)間,es_th為熵的平滑系數(shù), es_th大于〇,用于避免當(dāng)分區(qū)間中沒(méi)有敏感詞時(shí)Pi等于〇,Μ為分區(qū)間中敏感詞的個(gè)數(shù), 為敏感詞的首字在第i個(gè)分區(qū)間中的敏感詞的敏感度。
[0066] 本發(fā)明在劃分完得到N個(gè)分區(qū)間后,對(duì)每個(gè)分區(qū)間的敏感度Pl進(jìn)行計(jì)算。
[0067] 其中需要說(shuō)明的是,本發(fā)明在劃分字詞組時(shí),是將字詞組中的所有文字進(jìn)行平均 劃分。在劃分得到的每個(gè)分區(qū)間中,其各個(gè)字詞并不一定是一個(gè)完整的詞語(yǔ),例如,第4個(gè) 分區(qū)間的字詞可能為"滟清風(fēng)",第5個(gè)分區(qū)間的字詞可能為"徐徐張",第6個(gè)分區(qū)間的字 詞可能為"小明和"等等。
[0068] 本發(fā)明在計(jì)算每個(gè)分區(qū)間的敏感度?1時(shí),是對(duì)該分區(qū)間內(nèi)包括的至少一個(gè)敏感詞 的首字的敏感度的累加求和。例如對(duì)于第5個(gè)分區(qū)間的字詞為"徐徐張"來(lái)說(shuō),其敏感詞 "張小明"的首字"張"在該分區(qū)間中,則該分區(qū)間的敏感度Pl等于"張小明"的敏感度。而 對(duì)于第6個(gè)分區(qū)間的字詞"小明和"來(lái)說(shuō),由于敏感詞"張小明"的首字"張"在第5個(gè)分區(qū) 間,那么盡管"小明"在第6個(gè)分區(qū)間出現(xiàn),本發(fā)明在計(jì)算第6個(gè)分區(qū)間的敏感度 ?1時(shí),也不 需要在計(jì)算"張小明"的敏感度。
[0069] 當(dāng)然,本發(fā)明劃分每個(gè)分區(qū)間的分割點(diǎn)不一定在整數(shù)處,例如對(duì)于上述字詞組長(zhǎng) 度為68的字詞組,將其劃分為16個(gè)分區(qū)間來(lái)說(shuō),其每個(gè)分區(qū)間將包括4. 25個(gè)文字。此時(shí)對(duì) 于第一個(gè)分區(qū)間內(nèi)的文字即為第〇至第4. 25個(gè)文字,第二個(gè)分區(qū)間內(nèi)的文字為第4. 26至 第8. 50個(gè)文字,第三個(gè)分區(qū)間內(nèi)的文字為第8. 51至第12. 76個(gè)文字,以此類推。對(duì)于這種 情況,本發(fā)明也只需判斷敏感詞的首字在哪個(gè)分區(qū)間,從而計(jì)算該哪個(gè)分區(qū)間的敏感度Pl。
[0070] 對(duì)于本發(fā)明中沒(méi)有敏感詞的分區(qū)間來(lái)說(shuō),其分區(qū)間的敏感度Pl等于es_th。
[0071] 步驟108,利用公式計(jì)算所述文本內(nèi)容的敏 感度E。
[0072] 本發(fā)明在計(jì)算得到各個(gè)分區(qū)間的敏感度?1后,依次利用公式計(jì)算每個(gè)分區(qū)間的
往而利用公式
>計(jì)算文本內(nèi)容的敏感