度E。
[0073] 因此應(yīng)用本發(fā)明的上述技術(shù)方案,本發(fā)明提供的文本內(nèi)容敏感性分析方法中,預(yù) 先對每個敏感詞進(jìn)行敏感度標(biāo)注,進(jìn)而獲取當(dāng)前待審核的文本內(nèi)容;對所述文本內(nèi)容進(jìn)行 分詞處理,得到一字詞組,所述字詞組包括至少一個字詞;從所述得到的字詞組中查找敏感 詞;當(dāng)查找到敏感詞時,將所述查找到的敏感詞進(jìn)行標(biāo)記,記錄所述敏感詞的首字在字詞組 長度中的位置;所述字詞組長度為所述字詞組中所有漢字的個數(shù);
[0074] 依據(jù)所述文本內(nèi)容允許的最高敏感度等級X,將所述字詞組長度劃分為N個分區(qū) 間,N= 2x;N、X均為正整數(shù);
[0075] 利用公式計(jì)算每一分區(qū)間的敏感度p1;其中i為小于等于 N的正整整,用于表示第i個分
區(qū)間,es_th為熵的平滑系數(shù),es_th大于0,用于避免當(dāng)分區(qū) 間中沒有敏感詞時Pl等于〇,Μ為分區(qū)間中敏感詞的個數(shù),為敏感詞的首字在第i個 分區(qū)間中的敏感詞的敏感度;
[0076] 最后利用公¥
U十算文本內(nèi)容的敏感度E。
[0077] 因此,本發(fā)明實(shí)現(xiàn)了發(fā)稿系統(tǒng)自動分析文本內(nèi)容的敏感度的功能,當(dāng)發(fā)稿系統(tǒng)分 析得到待發(fā)布的文本內(nèi)容的敏感度較低時,則直接發(fā)布該文本內(nèi)容,當(dāng)發(fā)稿系統(tǒng)分析得到 待發(fā)布的文本內(nèi)容的敏感度較高時,則將其轉(zhuǎn)發(fā)至編輯者的處理處或標(biāo)注出來,由編輯者 做進(jìn)一步審核編輯工作。因此本發(fā)明無需編輯者對所有待發(fā)布的文本內(nèi)容進(jìn)行敏感性分 析,大大減少了編輯者的工作量,減少了大量的人力資源,且發(fā)稿系統(tǒng)自動化的處理功能大 大提高了稿件的發(fā)布效率。
[0078] 基于前文本發(fā)明提供的一種文本內(nèi)容敏感性分析方法,本發(fā)明還提供一種文本內(nèi) 容敏感性分析裝置,包括:敏感度標(biāo)注單元1〇〇、獲取單元200、分詞處理單元300、查找單元 400、標(biāo)記記錄單元500、分區(qū)間劃分單元600、第一計(jì)算單元700和第二計(jì)算單元800。其 中,
[0079] 敏感度標(biāo)注單元100,用于對每個敏感詞進(jìn)行敏感度標(biāo)注。
[0080] 在本發(fā)明中,敏感詞指的是不健康色彩的詞或不文明語,也包括一些網(wǎng)站根據(jù)自 身實(shí)際情況,設(shè)定的一些只適用于本網(wǎng)站的特殊敏感詞。而對于什么詞才是敏感詞,一般會 設(shè)置一用以記錄敏感詞的敏感詞詞典,通過比對字詞是否在敏感詞詞典中來判斷該詞是否 為敏感詞。
[0081] 因此,本發(fā)明中的敏感度標(biāo)注單元100可以預(yù)先依據(jù)敏感詞詞典,將敏感詞詞典 中記錄的所有敏感詞進(jìn)行敏感度標(biāo)注。例如,預(yù)先標(biāo)注敏感詞A的敏感度為0. 1、敏感詞B 的敏感度為〇. 2、敏感詞C的敏感度為0. 3等,本發(fā)明針對不同性質(zhì)、不同敏感程度的敏感詞 分別標(biāo)注其敏感度。
[0082] 獲取單元200,用于獲取當(dāng)前待審核的文本內(nèi)容。
[0083] 例如當(dāng)欲發(fā)布某一新聞稿件時,確定該新聞稿件為當(dāng)前待審核的文本,本發(fā)明首 先利用獲取單元200獲取該欲發(fā)布的新聞稿件的文本內(nèi)容。
[0084] 其中文本內(nèi)容具體指的是新聞稿件中的文字內(nèi)容。
[0085] 分詞處理單元300,用于對所述文本內(nèi)容進(jìn)行分詞處理,得到一字詞組,所述字詞 組包括至少一個字詞。
[0086] 在本實(shí)施例中,分詞處理單元300對文本內(nèi)容進(jìn)行分詞處理,得到一包括多個字 詞的字詞組。其中較優(yōu)的,本發(fā)明保護(hù)的文本內(nèi)容敏感性分析裝置在分詞處理單元300后 還可以進(jìn)一步包括,如圖4所示:
[0087] 停用詞處理單元900,用于去除分詞處理后得到的字詞組中的停用詞。
[0088] 此時本發(fā)明最后得到的字詞組具體為,得到一去除停用詞后的字詞組。
[0089] 其中,停用詞指的是一些無意義的詞和一些虛詞,例如標(biāo)點(diǎn)符號、"的"、"了"、"是" 等。
[0090] 具體例如,對于一篇文本內(nèi)容為"仲夏黃昏的小湖邊水波瀲滟,清風(fēng)徐徐。張小明 和夫人孫小紅在湖邊迎接趙小四和其夫人李小五。兩對朋友夫婦親切交流,互致問候,隨 后信步拾階,來到小明家做客玩耍。"的文本來說,分詞處理單元300對該文本內(nèi)容進(jìn)行分 詞處理,得到一字詞組后,停用詞處理單元900去除分詞處理后得到的字詞組中的停用詞 后得到的字詞組為:"仲夏黃昏小湖邊水波瀲滟清風(fēng)徐徐張小明和夫人孫小紅在湖邊迎接 趙小四和其夫人李小五兩對朋友夫婦親切交流互致問候隨后信步拾階來到小明家做客玩 耍"。其中明顯的,本發(fā)明去除了 "的"、標(biāo)點(diǎn)符號","和"。"。
[0091] 查找單元400,用于從所述得到的字詞組中查找敏感詞。
[0092] 具體地,查找單元400具體用于,將所述字詞組中的字詞逐個與敏感詞詞典中的 字詞進(jìn)行比對;所述敏感詞詞典用于存儲敏感詞。
[0093] 標(biāo)記記錄單元500,用于當(dāng)所述查找單元400查找到敏感詞時,將所述查找到的敏 感詞進(jìn)行標(biāo)記,記錄所述敏感詞的首字在字詞組長度中的位置;所述字詞組長度為所述字 詞組中所有文字的個數(shù)。
[0094] 仍以上述為例,對于字詞組"仲夏黃昏小湖邊水波瀲滟清風(fēng)徐徐張小明和夫人孫 小紅在湖邊迎接趙小四和其夫人李小五兩對朋友夫婦親切交流互致問候隨后信步拾階來 至IJ小明家做客玩耍"來說,假設(shè)其包含的"張小明"、"孫小紅"、"趙小四"、"其夫人李小五" 為敏感詞,那么當(dāng)查找單元400查找到"張小明"時,標(biāo)記記錄單元500將"張小明"進(jìn)行標(biāo) 記,并記錄下"張"字在該字詞組長度中的位置,而顯然,該字詞組共包括68個文字,即該字 詞組長度為68,此時"張"字在該字詞組長度中的位置為15。同理,當(dāng)查找單元400查找到 "孫小紅"時,標(biāo)記記錄單元500將"孫小紅"進(jìn)行標(biāo)記,并記錄下"孫"字在該字詞組長度中 的位置22,查找單元400查找到"趙小四"時,標(biāo)記記錄單元500將"趙小四"進(jìn)行標(biāo)記,并 記錄下"趙"字在該字詞組長度中的位置30,以及查找單元400查找到"其夫人李小五"時, 標(biāo)記記錄單元500將"其夫人李小五"進(jìn)行標(biāo)記,并記錄下"其"字在該字詞組長度中的位 置34。
[0095] 分區(qū)間劃分單元600,用于依據(jù)所述文本內(nèi)容允許的最高敏感度等級X,將所述字 詞組長度劃分為N個分區(qū)間,N= 2X;N、X均為正整數(shù)。
[0096] 在實(shí)際應(yīng)用過程中,每件欲發(fā)布的稿件都有對應(yīng)設(shè)置的最高敏感度等級X,X為大 于0的數(shù)。在理論情況下,該X值可任意設(shè)置,但在一般情況下,,一般設(shè)置所述文本內(nèi)容允 許的最高敏感度等級X等于5。因此,本發(fā)明以最高敏感度等級X等于5為例進(jìn)行說明。
[0097] 當(dāng)X等于5時,本發(fā)明會將得到的字詞組長度劃分為N個分區(qū)間,N= 2X,即N= 25。
[0098] 在本實(shí)施例中,一般情況下,劃分的每個分區(qū)間都至少包括一個字詞,當(dāng)然如果字 詞組長度過短,即字詞組中的文字個數(shù)較少時,而同時劃分的分區(qū)間N個數(shù)較多時,有的分 區(qū)間可能沒有字詞。對于沒有字詞的分區(qū)間,本發(fā)明計(jì)算其分區(qū)間的敏感度Pl等于預(yù)設(shè)值。
[0099] 第一計(jì)算單元700,用于利用公式A + ,計(jì)算每一分區(qū)間的敏感 度Pi。
[0100] 其中i為小于等于N的正整整,用于表示第i個分區(qū)間,es_th為熵的平滑系數(shù),es_th大于〇,用于避免當(dāng)分區(qū)間中沒有敏感詞時Pi等于〇,Μ為分區(qū)間中敏感詞的個數(shù), 為敏感詞的首字在第i個分區(qū)間中的敏感詞的敏感度。