一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種文字處理方法,特別是一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)具備傳統(tǒng)媒體無可比擬的無中屯、化、匿名性W及開放性的特點(diǎn)使得其具有 更強(qiáng)大的信息儲(chǔ)備和信息傳播功能,也更能提高人們自由言論的能力,但同時(shí)強(qiáng)大功能帶 來的管理難度也易被媒體、記者和民眾濫用,甚至?xí)徊环ㄖ接糜诜欠康?。怎樣?guī)范、 管理網(wǎng)絡(luò)空間的行為,特別是網(wǎng)絡(luò)空間的言論行為,成為一項(xiàng)艱巨而緊迫的任務(wù)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法,運(yùn)用該方法對(duì)文 章進(jìn)行檢測(cè)可W計(jì)算出文章的關(guān)鍵詞與事件的關(guān)系,從而判斷文章中的關(guān)鍵詞群,是否存 在違法、違規(guī)的內(nèi)容。
[0004] 實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是:一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法,其特征 在于;包括W下步驟: 1. 1.將從網(wǎng)絡(luò)上獲取的帖子、文章發(fā)送到至系統(tǒng),系統(tǒng)將每篇文章、帖子所有內(nèi)容包括 標(biāo)點(diǎn)符號(hào)全部轉(zhuǎn)換成中文,并且將文檔第一個(gè)全角句號(hào)之前的內(nèi)容識(shí)別為文章的標(biāo)題; 1. 2.采用ICTCLAS系統(tǒng)對(duì)已轉(zhuǎn)換成中文的文章、帖子的內(nèi)容標(biāo)注詞性; 1.3. 將沒有特性的詞語全部刪除,保留有特性的詞語并將該些詞語合并成一行; 1.4. 將文章、帖子的標(biāo)題、段首、段中、段尾、用空格分離; 1.5. 將每個(gè)的詞語、詞性、出現(xiàn)的次數(shù)、出現(xiàn)的位置(標(biāo)題、段首、段尾)進(jìn)行標(biāo)注、存 儲(chǔ); 1.6. 將ISCTCLAS系統(tǒng)的同義詞詞林導(dǎo)入至數(shù)據(jù)庫中,來檢索分詞出來的關(guān)鍵詞W及 同義詞,針對(duì)其進(jìn)行危險(xiǎn)等級(jí)標(biāo)注為1~10級(jí)并存儲(chǔ),其中1-3級(jí)為安全,4-6級(jí)為危險(xiǎn),7 級(jí)W上為局危; 1.7. 根據(jù)導(dǎo)入數(shù)據(jù)庫中的詞語,計(jì)算標(biāo)注過的詞語與詞林導(dǎo)出的詞語之間的相似 度,將標(biāo)注過的詞語與同義詞詞林導(dǎo)入至數(shù)據(jù)庫中的詞語設(shè)定一個(gè)數(shù)字的相似距離,初始 為-10,相同的詞語相似距離為0,針對(duì)每個(gè)詞語做比較,如果有同義詞或者同性詞,會(huì)對(duì)標(biāo) 注過的詞語增加其相似距離,從而計(jì)算出每個(gè)標(biāo)注過的詞語的相似度; 1. 8.計(jì)算標(biāo)注過的詞語與詞林導(dǎo)出的詞語之間的居間度 將頂點(diǎn)Vi的居間度be鹿義為:
此處n表示頂點(diǎn)的個(gè)數(shù),gmk是頂點(diǎn)m和k之間的最短路徑的個(gè)數(shù),gmk(Vi)是頂點(diǎn)m和k之間的最短路徑中經(jīng)過頂點(diǎn)Vi的條數(shù); 1. 9.計(jì)算關(guān)鍵詞的總得分,總得分=危險(xiǎn)等級(jí)總和/(危險(xiǎn)次數(shù)+相似度+居間度), 得分最高的K個(gè)為最終的關(guān)鍵詞,將結(jié)果保存至歷史歸檔信息里W供分析和判斷。
[0005] 而且步驟1. 6中所述的ISCTCLAS系統(tǒng)是漢語詞法分析系統(tǒng)。
[0006] 而且步驟1. 8中對(duì)于對(duì)于無向圖可W通過如圖2所示的矩陣表示,賦予無向圖的 終點(diǎn)數(shù)值為1. 0,而其之前的一個(gè)節(jié)點(diǎn),平分該個(gè)值,依次類推,該樣可W通過系統(tǒng),計(jì)算出 每個(gè)從終點(diǎn)到指定關(guān)鍵詞所有節(jié)點(diǎn)的最短距離,從而得出詞語之間的居間度。
[0007] 本發(fā)明的優(yōu)點(diǎn)在于:通過本方法對(duì)待檢文章進(jìn)行檢測(cè),可W得出一個(gè)量化的關(guān)聯(lián) 程度得分,通過該個(gè)分?jǐn)?shù),我們可W明確的看出,文章與關(guān)鍵詞的關(guān)聯(lián)程度,從而判斷文章 與事件的關(guān)聯(lián)程度及其是否存在違法、違規(guī)的內(nèi)容。
【附圖說明】
[0008] 圖1是本發(fā)明的流程圖。 圖2是用于表示無向圖的矩陣。
【具體實(shí)施方式】
[0009] 參見圖1 W下將結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。
[0010] 一種文字處理方法,特別是一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法,其特征在于: 包括W下步驟: 1.1.將從網(wǎng)絡(luò)上獲取的帖子、文章發(fā)送到至系統(tǒng),系統(tǒng)將每篇文章、帖子所有內(nèi)容包括 標(biāo)點(diǎn)符號(hào)全部轉(zhuǎn)換成中文,并且將文檔第一個(gè)全角句號(hào)之前的內(nèi)容識(shí)別為文章的標(biāo)題; 1. 2.采用ICTCLAS系統(tǒng)對(duì)已轉(zhuǎn)換成中文的文章、帖子的內(nèi)容標(biāo)注詞性; 1.3. 將沒有特性的詞語全部刪除,保留有特性的詞語并將該些詞語合并成一行; 1.4. 將文章、帖子的標(biāo)題、段首、段中、段尾、用空格分離; 1.5. 將每個(gè)的詞語、詞性、出現(xiàn)的次數(shù)、出現(xiàn)的位置(標(biāo)題、段首、段尾)進(jìn)行標(biāo)注、存 儲(chǔ); 1.6. 將ISCTCLAS系統(tǒng)的同義詞詞林導(dǎo)入至數(shù)據(jù)庫中,來檢索分詞出來的關(guān)鍵詞W及 同義詞,針對(duì)其進(jìn)行危險(xiǎn)等級(jí)標(biāo)注為1~10級(jí)并存儲(chǔ),其中1-3級(jí)為安全,4-6級(jí)為危險(xiǎn),7 級(jí)W上為局危; 1.7. 根據(jù)導(dǎo)入數(shù)據(jù)庫中的詞語,計(jì)算標(biāo)注過的詞語與詞林導(dǎo)出的詞語之間的相似 度,將標(biāo)注過的詞語與同義詞詞林導(dǎo)入至數(shù)據(jù)庫中的詞語設(shè)定一個(gè)數(shù)字的相似距離,初始 為-10,相同的詞語相似距離為0,針對(duì)每個(gè)詞語做比較,如果有同義詞或者同性詞,會(huì)對(duì)標(biāo) 注過的詞語增加其相似距離,從而計(jì)算出每個(gè)標(biāo)注過的詞語的相似度; 1. 8.計(jì)算標(biāo)注過的詞語與詞林導(dǎo)出的詞語之間的居間度 將頂點(diǎn)Vi的居間度bei定義為:
此處n表示頂點(diǎn)的個(gè)數(shù),gmk是頂點(diǎn)m和k之間的最短路徑的個(gè)數(shù),gmk(Vi)是頂點(diǎn)m和k之間的最短路徑中經(jīng)過頂點(diǎn)Vi的條數(shù); 1. 9.計(jì)算關(guān)鍵詞的總得分,總得分=危險(xiǎn)等級(jí)總和/(危險(xiǎn)次數(shù)+相似度+居間度), 得分最高的K個(gè)為最終的關(guān)鍵詞,將結(jié)果保存至歷史歸檔信息里W供分析和判斷。
[0011] 而且步驟1.6中所述的ISCTCLAS系統(tǒng)是漢語詞法分析系統(tǒng)。
[0012] 進(jìn)一步的技術(shù)方案可W是步驟1.8中對(duì)于對(duì)于無向圖可W通過如圖2所示的矩陣 表示,賦予無向圖的終點(diǎn)數(shù)值為1. 0,而其之前的一個(gè)節(jié)點(diǎn),平分該個(gè)值,依次類推,該樣可 W通過系統(tǒng),計(jì)算出每個(gè)從終點(diǎn)到指定關(guān)鍵詞所有節(jié)點(diǎn)的最短距離,從而得出詞語之間的 居間度。
[001引 DiAstra算法可W找到單源節(jié)點(diǎn)的最短徑,但是只能找出一條,要想找到兩頂點(diǎn) 之間的所有最短路徑就要對(duì)DiAstra算法做出改進(jìn)。我們用系統(tǒng)代碼創(chuàng)建一個(gè)鄰接矩陣 來存儲(chǔ)無向圖,然后讀出所有的關(guān)鍵詞放入矩陣的模型中。我們賦予無向圖的終點(diǎn)數(shù)值為 1. 0,而其之前的一個(gè)節(jié)點(diǎn),平分該個(gè)值,依次類推。該樣可W通過系統(tǒng),計(jì)算出每個(gè)從終點(diǎn) 到指定關(guān)鍵詞所有節(jié)點(diǎn)的最短距離,從而得出詞語之間的居間度。
【主權(quán)項(xiàng)】
1. 一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法,其特征在于:包括以下步驟: 1.1.將從網(wǎng)絡(luò)上獲取的帖子、文章發(fā)送到至系統(tǒng),系統(tǒng)將每篇文章、帖子所有內(nèi)容包括 標(biāo)點(diǎn)符號(hào)全部轉(zhuǎn)換成中文,并且將文檔第一個(gè)全角句號(hào)之前的內(nèi)容識(shí)別為文章的標(biāo)題; 1. 2.采用ICTCLAS系統(tǒng)對(duì)已轉(zhuǎn)換成中文的文章、帖子的內(nèi)容標(biāo)注詞性; 1.3. 將沒有特性的詞語全部刪除,保留有特性的詞語并將這些詞語合并成一行; 1.4. 將文章、帖子的標(biāo)題、段首、段中、段尾、用空格分離; 1.5. 將每個(gè)的詞語、詞性、出現(xiàn)的次數(shù)、出現(xiàn)的位置(標(biāo)題、段首、段尾)進(jìn)行標(biāo)注、存 儲(chǔ); 1.6. 將ISCTCLAS系統(tǒng)的同義詞詞林導(dǎo)入至數(shù)據(jù)庫中,來檢索分詞出來的關(guān)鍵詞以及 同義詞,針對(duì)其進(jìn)行危險(xiǎn)等級(jí)標(biāo)注為1~10級(jí)并存儲(chǔ),其中1-3級(jí)為安全,4-6級(jí)為危險(xiǎn),7 級(jí)以上為尚危; 1.7. 根據(jù)導(dǎo)入數(shù)據(jù)庫中的詞語,計(jì)算標(biāo)注過的詞語與詞林導(dǎo)出的詞語之間的相似 度,將標(biāo)注過的詞語與同義詞詞林導(dǎo)入至數(shù)據(jù)庫中的詞語設(shè)定一個(gè)數(shù)字的相似距離,初始 為-10,相同的詞語相似距離為〇,針對(duì)每個(gè)詞語做比較,如果有同義詞或者同性詞,會(huì)對(duì)標(biāo) 注過的詞語增加其相似距離,從而計(jì)算出每個(gè)標(biāo)注過的詞語的相似度; 1. 8.計(jì)算標(biāo)注過的詞語與詞林導(dǎo)出的詞語之間的居間度 將頂點(diǎn)\的居間度bei定義為:此處n表示頂點(diǎn)的個(gè)數(shù),gmk是頂點(diǎn)m和k之間的最短路徑的個(gè)數(shù),gA(Vi)是頂點(diǎn)m和k之間的最短路徑中經(jīng)過頂點(diǎn)條數(shù); 1.9.計(jì)算關(guān)鍵詞的總得分,總得分=危險(xiǎn)等級(jí)總和八危險(xiǎn)次數(shù)+相似度+居間度), 得分最高的K個(gè)為最終的關(guān)鍵詞,將結(jié)果保存至歷史歸檔信息里以供分析和判斷。2. 根據(jù)權(quán)利要求1所述的一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法,其特征在于:步驟 1. 6中所述的ISCTCLAS系統(tǒng)是漢語詞法分析系統(tǒng)。3. 根據(jù)權(quán)利要求1所述的一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法,其特征在于:步驟 1. 8中對(duì)于對(duì)于無向圖可以通過如圖2所示的矩陣表示,賦予無向圖的終點(diǎn)數(shù)值為1. 0,而 其之前的一個(gè)節(jié)點(diǎn),平分這個(gè)值,依次類推,這樣可以通過系統(tǒng),計(jì)算出每個(gè)從終點(diǎn)到指定 關(guān)鍵詞所有節(jié)點(diǎn)的最短距離,從而得出詞語之間的居間度。
【專利摘要】本發(fā)明涉及一種文字處理方法,特別是一種檢測(cè)文章與關(guān)鍵詞關(guān)聯(lián)程度的方法,通過本方法對(duì)待檢文章進(jìn)行檢測(cè),可以得出一個(gè)量化的關(guān)聯(lián)程度得分,通過這個(gè)分?jǐn)?shù),我們可以明確的看出,文章與關(guān)鍵詞的關(guān)聯(lián)程度,從而判斷文章與事件的關(guān)聯(lián)程度及其是否存在違法、違規(guī)的內(nèi)容。
【IPC分類】G06F17/30, G06F17/27
【公開號(hào)】CN104965817
【申請(qǐng)?zhí)枴緾N201510211370
【發(fā)明人】蔣大可, 何俊, 莫燕峰
【申請(qǐng)人】湖北光谷天下傳媒股份有限公司
【公開日】2015年10月7日
【申請(qǐng)日】2015年4月29日