一種文本內(nèi)容敏感性分析方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本信息處理技術(shù)領(lǐng)域,更具體地說,涉及一種文本內(nèi)容敏感性分析 方法和裝置。
【背景技術(shù)】
[0002] 通過新聞門戶網(wǎng)站獲取網(wǎng)絡(luò)新聞信息已成為人們?nèi)粘+@取信息的主要方式。新聞 門戶網(wǎng)站上發(fā)表的每一條新聞主要通過原創(chuàng)發(fā)表、轉(zhuǎn)載等方式進行發(fā)布。
[0003] 為保證新聞門戶網(wǎng)站發(fā)出的新聞稿件質(zhì)量,在新聞稿件被發(fā)布前,需要編輯者對 待發(fā)布的新聞稿件的敏感度進行審核。如果審核的新聞稿件的敏感度較低,即可直接發(fā)布, 如果審核的新聞稿件的敏感度較高,則需要編輯者重新編輯后再進行發(fā)布。
[0004] 而在信息發(fā)展如此迅速的今天,通過人工審核待發(fā)布的新聞稿件的敏感度來決定 新聞稿件是否能夠發(fā)布,無疑增加了大量的人力資源,且效率低下。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提供一種文本內(nèi)容敏感性分析方法和裝置,以解決現(xiàn)有技術(shù)中 需要人工審核待發(fā)布的新聞稿件的敏感度導(dǎo)致的增加了大量的人力資源,效率低下的問 題。技術(shù)方案如下:
[0006] 基于本發(fā)明的一方面,本發(fā)明提供一種文本內(nèi)容敏感性分析方法,預(yù)先對每個敏 感詞進行敏感度標(biāo)注;所述方法包括:
[0007] 獲取當(dāng)前待審核的文本內(nèi)容;
[0008] 對所述文本內(nèi)容進行分詞處理,得到一字詞組,所述字詞組包括至少一個字詞;
[0009] 從所述得到的字詞組中查找敏感詞;
[0010] 當(dāng)查找到敏感詞時,將所述查找到的敏感詞進行標(biāo)記,記錄所述敏感詞的首字在 字詞組長度中的位置;所述字詞組長度為所述字詞組中所有文字的個數(shù);
[0011] 依據(jù)所述文本內(nèi)容允許的最高敏感度等級X,將所述字詞組長度劃分為N個分區(qū) 間,N= 2x;N、X均為正整數(shù);
[0012] 利用公式
,計算每一分區(qū)間的敏感度p1;其中i為小于等于 N的正整整,用于表示第i個分區(qū)間,es_th為熵的平滑系數(shù),es_th大于0,用于避免當(dāng)分區(qū) 間中沒有敏感詞時Pl等于〇,Μ為分區(qū)間中敏感詞的個數(shù),為敏感詞的首字在第i個 分區(qū)間中的敏感詞的敏感度;
[0013] 利用公另
b計算所述文本內(nèi)容的敏感度E。
[0014] 優(yōu)選地,所述對所述文本內(nèi)容進行分詞處理,得到一字詞組后,所述方法還包括:
[0015] 去除分詞處理后得到的字詞組中的停用詞。
[0016] 優(yōu)選地,所述從所述得到的字詞組中查找敏感詞包括:
[0017] 將所述字詞組中的字詞逐個與敏感詞詞典中的字詞進行比對;所述敏感詞詞典用 于存儲敏感詞。
[0018] 優(yōu)選地,所述文本內(nèi)容允許的最高敏感度等級X等于5。
[0019] 基于本發(fā)明的另一方面,本發(fā)明還提供一種文本內(nèi)容敏感性分析裝置,包括:
[0020] 敏感度標(biāo)注單元,用于對每個敏感詞進行敏感度標(biāo)注;
[0021] 獲取單元,用于獲取當(dāng)前待審核的文本內(nèi)容;
[0022] 分詞處理單元,用于對所述文本內(nèi)容進行分詞處理,得到一字詞組,所述字詞組包 括至少一個字詞;
[0023] 查找單元,用于從所述得到的字詞組中查找敏感詞;
[0024] 標(biāo)記記錄單元,用于當(dāng)所述查找單元查找到敏感詞時,將所述查找到的敏感詞進 行標(biāo)記,記錄所述敏感詞的首字在字詞組長度中的位置;所述字詞組長度為所述字詞組中 所有文字的個數(shù);
[0025] 分區(qū)間劃分單元,用于依據(jù)所述文本內(nèi)容允許的最高敏感度等級X,將所述字詞組 長度劃分為N個分區(qū)間,N= 2X;N、X均為正整數(shù);
[0026] 第一計算單元,用于利用公3
汁算每一分區(qū)間的敏感度 p1;其中i為小于等于N的正整整,用于表示第i個分區(qū)間,es_th為熵的平滑系數(shù),es_th 大于〇,用于避免當(dāng)分區(qū)間中沒有敏感詞時Pl等于〇,Μ為分區(qū)間中敏感詞的個數(shù),為 敏感詞的首字在第i個分區(qū)間中的敏感詞的敏感度;
[0027] 第二計算單元,用于利用公¥
^計算所述文 本內(nèi)容的敏感度E。
[0028] 優(yōu)選地,還包括:
[0029] 停用詞處理單元,用于去除分詞處理后得到的字詞組中的停用詞。
[0030] 優(yōu)選地,所述查找單元具體用于,將所述字詞組中的字詞逐個與敏感詞詞典中的 字詞進行比對;所述敏感詞詞典用于存儲敏感詞。
[0031] 優(yōu)選地,所述文本內(nèi)容允許的最高敏感度等級X等于5。
[0032] 應(yīng)用本發(fā)明的上述技術(shù)方案,本發(fā)明提供的文本內(nèi)容敏感性分析方法中,預(yù)先對 每個敏感詞進行敏感度標(biāo)注,方法具體包括:獲取當(dāng)前待審核的文本內(nèi)容;對所述文本內(nèi) 容進行分詞處理,得到一字詞組,所述字詞組包括至少一個字詞;從所述得到的字詞組中查 找敏感詞;當(dāng)查找到敏感詞時,將所述查找到的敏感詞進行標(biāo)記,記錄所述敏感詞的首字在 字詞組長度中的位置;所述字詞組長度為所述字詞組中所有漢字的個數(shù);
[0033] 依據(jù)所述文本內(nèi)容允許的最高敏感度等級X,將所述字詞組長度劃分為N個分區(qū) 間,N= 2x;N、X均為正整數(shù);
[0034] 利用公¥
:計算每一分區(qū)間的敏感度p1;其中i為小于等于 N的正整整,用于表示第i個分區(qū)間,es_th為熵的平滑系數(shù),es_th大于0,用于避免當(dāng)分區(qū) 間中沒有敏感詞時Pl等于〇,Μ為分區(qū)間中敏感詞的個數(shù),為敏感詞的首字在第i個 分區(qū)間中的敏感詞的敏感度;
[0035] 最后利用公¥
Η十算文本內(nèi)容的敏感度E。
[0036] 因此,本發(fā)明實現(xiàn)了發(fā)稿系統(tǒng)自動分析文本內(nèi)容的敏感度的功能,當(dāng)發(fā)稿系統(tǒng)分 析得到待發(fā)布的文本內(nèi)容的敏感度較低時,則直接發(fā)布該文本內(nèi)容,當(dāng)發(fā)稿系統(tǒng)分析得到 待發(fā)布的文本內(nèi)容的敏感度較高時,則將其轉(zhuǎn)發(fā)至編輯者的處理處或標(biāo)注出來,由編輯者 做進一步審核編輯工作。因此本發(fā)明無需編輯者對所有待發(fā)布的文本內(nèi)容進行敏感性分 析,大大減少了編輯者的工作量,減少了大量的人力資源,且發(fā)稿系統(tǒng)自動化的處理功能 大大提高了稿件的發(fā)布效率。
【附圖說明】
[0037] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0038] 圖1為本發(fā)明提供的一種文本內(nèi)容敏感性分析方法的流程圖;
[0039] 圖2為本發(fā)明提供的一種文本內(nèi)容敏感性分析方法的另一流程圖;
[0040] 圖3為本發(fā)明提供的一種文本內(nèi)容敏感性分析裝置的結(jié)構(gòu)示意圖;
[0041] 圖4為本發(fā)明提供的一種文本內(nèi)容敏感性分析裝置的另一結(jié)構(gòu)示意圖。
【具體實施方式】
[0042] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明