一種文本內(nèi)容敏感性分析方法和裝置的制造方法

文檔序號：9616248閱讀：499來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本內(nèi)容敏感性分析方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本信息處理技術(shù)領(lǐng)域，更具體地說，涉及一種文本內(nèi)容敏感性分析方法和裝置。
【背景技術(shù)】
[0002] 通過新聞門戶網(wǎng)站獲取網(wǎng)絡(luò)新聞信息已成為人們?nèi)粘＋@取信息的主要方式。新聞門戶網(wǎng)站上發(fā)表的每一條新聞主要通過原創(chuàng)發(fā)表、轉(zhuǎn)載等方式進行發(fā)布。
[0003] 為保證新聞門戶網(wǎng)站發(fā)出的新聞稿件質(zhì)量，在新聞稿件被發(fā)布前，需要編輯者對待發(fā)布的新聞稿件的敏感度進行審核。如果審核的新聞稿件的敏感度較低，即可直接發(fā)布，如果審核的新聞稿件的敏感度較高，則需要編輯者重新編輯后再進行發(fā)布。
[0004] 而在信息發(fā)展如此迅速的今天，通過人工審核待發(fā)布的新聞稿件的敏感度來決定新聞稿件是否能夠發(fā)布，無疑增加了大量的人力資源，且效率低下。

【發(fā)明內(nèi)容】

[0005] 有鑒于此，本發(fā)明提供一種文本內(nèi)容敏感性分析方法和裝置，以解決現(xiàn)有技術(shù)中需要人工審核待發(fā)布的新聞稿件的敏感度導(dǎo)致的增加了大量的人力資源，效率低下的問題。技術(shù)方案如下：
[0006] 基于本發(fā)明的一方面，本發(fā)明提供一種文本內(nèi)容敏感性分析方法，預(yù)先對每個敏感詞進行敏感度標(biāo)注；所述方法包括：
[0007] 獲取當(dāng)前待審核的文本內(nèi)容；
[0008] 對所述文本內(nèi)容進行分詞處理，得到一字詞組，所述字詞組包括至少一個字詞；
[0009] 從所述得到的字詞組中查找敏感詞；
[0010] 當(dāng)查找到敏感詞時，將所述查找到的敏感詞進行標(biāo)記，記錄所述敏感詞的首字在字詞組長度中的位置；所述字詞組長度為所述字詞組中所有文字的個數(shù)；
[0011] 依據(jù)所述文本內(nèi)容允許的最高敏感度等級X，將所述字詞組長度劃分為N個分區(qū) 間，N= 2x;N、X均為正整數(shù)；
[0012] 利用公式
，計算每一分區(qū)間的敏感度p1;其中i為小于等于 N的正整整，用于表示第i個分區(qū)間，es_th為熵的平滑系數(shù)，es_th大于0,用于避免當(dāng)分區(qū) 間中沒有敏感詞時Pl等于〇,Μ為分區(qū)間中敏感詞的個數(shù)，為敏感詞的首字在第i個分區(qū)間中的敏感詞的敏感度；
[0013] 利用公另
b計算所述文本內(nèi)容的敏感度E。
[0014] 優(yōu)選地，所述對所述文本內(nèi)容進行分詞處理，得到一字詞組后，所述方法還包括：
[0015] 去除分詞處理后得到的字詞組中的停用詞。
[0016] 優(yōu)選地，所述從所述得到的字詞組中查找敏感詞包括：
[0017] 將所述字詞組中的字詞逐個與敏感詞詞典中的字詞進行比對；所述敏感詞詞典用于存儲敏感詞。
[0018] 優(yōu)選地，所述文本內(nèi)容允許的最高敏感度等級X等于5。
[0019] 基于本發(fā)明的另一方面，本發(fā)明還提供一種文本內(nèi)容敏感性分析裝置，包括：
[0020] 敏感度標(biāo)注單元，用于對每個敏感詞進行敏感度標(biāo)注；
[0021] 獲取單元，用于獲取當(dāng)前待審核的文本內(nèi)容；
[0022] 分詞處理單元，用于對所述文本內(nèi)容進行分詞處理，得到一字詞組，所述字詞組包括至少一個字詞；
[0023] 查找單元，用于從所述得到的字詞組中查找敏感詞；
[0024] 標(biāo)記記錄單元，用于當(dāng)所述查找單元查找到敏感詞時，將所述查找到的敏感詞進行標(biāo)記，記錄所述敏感詞的首字在字詞組長度中的位置；所述字詞組長度為所述字詞組中所有文字的個數(shù)；
[0025] 分區(qū)間劃分單元，用于依據(jù)所述文本內(nèi)容允許的最高敏感度等級X，將所述字詞組長度劃分為N個分區(qū)間，N= 2X;N、X均為正整數(shù)；
[0026] 第一計算單元，用于利用公3
汁算每一分區(qū)間的敏感度 p1;其中i為小于等于N的正整整，用于表示第i個分區(qū)間，es_th為熵的平滑系數(shù)，es_th 大于〇,用于避免當(dāng)分區(qū)間中沒有敏感詞時Pl等于〇,Μ為分區(qū)間中敏感詞的個數(shù)，為敏感詞的首字在第i個分區(qū)間中的敏感詞的敏感度；
[0027] 第二計算單元，用于利用公￥
^計算所述文本內(nèi)容的敏感度E。
[0028] 優(yōu)選地，還包括：
[0029] 停用詞處理單元，用于去除分詞處理后得到的字詞組中的停用詞。
[0030] 優(yōu)選地，所述查找單元具體用于，將所述字詞組中的字詞逐個與敏感詞詞典中的字詞進行比對；所述敏感詞詞典用于存儲敏感詞。
[0031] 優(yōu)選地，所述文本內(nèi)容允許的最高敏感度等級X等于5。
[0032] 應(yīng)用本發(fā)明的上述技術(shù)方案，本發(fā)明提供的文本內(nèi)容敏感性分析方法中，預(yù)先對每個敏感詞進行敏感度標(biāo)注，方法具體包括：獲取當(dāng)前待審核的文本內(nèi)容；對所述文本內(nèi) 容進行分詞處理，得到一字詞組，所述字詞組包括至少一個字詞；從所述得到的字詞組中查找敏感詞；當(dāng)查找到敏感詞時，將所述查找到的敏感詞進行標(biāo)記，記錄所述敏感詞的首字在字詞組長度中的位置；所述字詞組長度為所述字詞組中所有漢字的個數(shù)；
[0033] 依據(jù)所述文本內(nèi)容允許的最高敏感度等級X，將所述字詞組長度劃分為N個分區(qū) 間，N= 2x;N、X均為正整數(shù)；
[0034] 利用公￥
:計算每一分區(qū)間的敏感度p1;其中i為小于等于 N的正整整，用于表示第i個分區(qū)間，es_th為熵的平滑系數(shù)，es_th大于0,用于避免當(dāng)分區(qū) 間中沒有敏感詞時Pl等于〇,Μ為分區(qū)間中敏感詞的個數(shù)，為敏感詞的首字在第i個分區(qū)間中的敏感詞的敏感度；
[0035] 最后利用公￥
Η十算文本內(nèi)容的敏感度E。
[0036] 因此，本發(fā)明實現(xiàn)了發(fā)稿系統(tǒng)自動分析文本內(nèi)容的敏感度的功能，當(dāng)發(fā)稿系統(tǒng)分析得到待發(fā)布的文本內(nèi)容的敏感度較低時，則直接發(fā)布該文本內(nèi)容，當(dāng)發(fā)稿系統(tǒng)分析得到待發(fā)布的文本內(nèi)容的敏感度較高時，則將其轉(zhuǎn)發(fā)至編輯者的處理處或標(biāo)注出來，由編輯者做進一步審核編輯工作。因此本發(fā)明無需編輯者對所有待發(fā)布的文本內(nèi)容進行敏感性分析，大大減少了編輯者的工作量，減少了大量的人力資源，且發(fā)稿系統(tǒng)自動化的處理功能大大提高了稿件的發(fā)布效率。
【附圖說明】
[0037] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù) 提供的附圖獲得其他的附圖。
[0038] 圖1為本發(fā)明提供的一種文本內(nèi)容敏感性分析方法的流程圖；
[0039] 圖2為本發(fā)明提供的一種文本內(nèi)容敏感性分析方法的另一流程圖；
[0040] 圖3為本發(fā)明提供的一種文本內(nèi)容敏感性分析裝置的結(jié)構(gòu)示意圖；
[0041] 圖4為本發(fā)明提供的一種文本內(nèi)容敏感性分析裝置的另一結(jié)構(gòu)示意圖。
【具體實施方式】
[0042] 下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例。基于本發(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：秦玉芳;
技術(shù)所有人：新華網(wǎng)股份有限公司;
我是此專利的發(fā)明人

上一篇：中文姓名的識別方法和裝置的制造方法
上一篇：一種省略恢復(fù)方法及問答系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本內(nèi)容安全分析方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本內(nèi)容敏感性分析方法和裝置的制造方法