一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)的制作方法

文檔序號(hào)：6492113閱讀：185來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)，所述方法包含：步驟101）導(dǎo)入字典庫(kù)對(duì)待識(shí)別的文件名分詞，獲得文件名中的關(guān)鍵詞，基于貝葉斯算法計(jì)算每個(gè)關(guān)鍵詞的概率項(xiàng)；且所述概率項(xiàng)基于對(duì)文件名良或不良的判斷結(jié)果的分析獲取；步驟102）獲取所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積與良語(yǔ)義字符串名的先驗(yàn)概率的乘積；和所有關(guān)鍵詞對(duì)應(yīng)的在不良語(yǔ)義字符串名中出現(xiàn)的概率之積與不良語(yǔ)義字符串名的先驗(yàn)概率的乘積；步驟103）比較上述兩個(gè)乘積，如果良語(yǔ)義字符串的乘積項(xiàng)大于不良語(yǔ)義字符串的乘積項(xiàng)，則該字符串是良語(yǔ)義的，反之則是不良語(yǔ)義的，將判決結(jié)果存入到存儲(chǔ)介質(zhì)中。
【專利說(shuō)明】—種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)信息處理與分析領(lǐng)域，尤其涉及到文字信息內(nèi)容性質(zhì)與傾向性的自動(dòng)判定領(lǐng)域，具體涉及一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)信息的自動(dòng)處理與分析技術(shù)是實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)容的分析、檢測(cè)與管理的重要組成部分，對(duì)于網(wǎng)絡(luò)內(nèi)容處理與安全系統(tǒng)的構(gòu)建具有重要意義。
[0003]由于網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和運(yùn)營(yíng)商提供的帶寬不斷的提高，用戶可以很方便的訪問(wèn)下載網(wǎng)絡(luò)上的各種信息，其中，帶寬的提升為信息傳遞提供了更寬廣的舞臺(tái)的同時(shí)，也給不良信息傳播提供了新便利。近年來(lái)，網(wǎng)絡(luò)上的淫穢、色情和反動(dòng)等有害信息傳播盛行，傳統(tǒng)網(wǎng)絡(luò)信息處理方案對(duì)于這些有害信息的識(shí)別往往需要很大的人力和物力，受客觀條件的限制，對(duì)于網(wǎng)絡(luò)不良信息的發(fā)現(xiàn)與處理遠(yuǎn)不能滿足現(xiàn)實(shí)需要。
[0004]互聯(lián)網(wǎng)就像由許多河流交匯組成的龐大水系，里面高速地流動(dòng)著各種各樣的內(nèi)容信息，網(wǎng)絡(luò)用戶通過(guò)到河里取水的方式訪問(wèn)互聯(lián)網(wǎng)?；ヂ?lián)網(wǎng)這個(gè)江河水系的流量巨大、流速極快，連接到之上的用戶數(shù)量數(shù)以億計(jì)。傳統(tǒng)的網(wǎng)絡(luò)信息處理和分析方案無(wú)法實(shí)現(xiàn)網(wǎng)絡(luò)信息性質(zhì)的自動(dòng)和智能化分析，必須投入大量的人員進(jìn)行手工分析和判別。現(xiàn)有技術(shù)只是單純的定義某個(gè)分詞是良或者不良，如果文件名包含不良的分詞即判斷此文件名為不良，而不是進(jìn)行貝葉斯的全概率分析；另外，這種定義分詞的工作量很大，比較難以更新，本系統(tǒng)可以隨時(shí)進(jìn)行自學(xué)習(xí)更新，以免出現(xiàn)新興的詞而造成漏判或誤判；還有，本系統(tǒng)還增加了反饋環(huán)節(jié)，防止分詞不完整或不正確，提高成功率。從系統(tǒng)組成上分析現(xiàn)有的判別系統(tǒng)基本上只有一個(gè)分詞模塊和判別模塊，進(jìn)行簡(jiǎn)單的分詞，然后看是否包含不良關(guān)鍵詞，以此來(lái)判斷文件名的屬性，往往成功率不高。
[0005]當(dāng)前形勢(shì)下，面臨互聯(lián)網(wǎng)中海量?jī)?nèi)容，使用人工方法要做到實(shí)時(shí)分析已經(jīng)無(wú)法應(yīng)對(duì)，迫切需要具有智能分析能力的網(wǎng)絡(luò)信息處理和識(shí)別方案，實(shí)現(xiàn)對(duì)特定網(wǎng)絡(luò)信息性質(zhì)的自動(dòng)檢測(cè)和判定。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于為克服上述問(wèn)題，本發(fā)明提供了一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)。
[0007]為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法，所述方法包含:
[0008]步驟101)導(dǎo)入字典庫(kù)對(duì)待識(shí)別的文件名分詞，獲得文件名中的關(guān)鍵詞，基于貝葉斯算法計(jì)算每個(gè)關(guān)鍵詞的概率項(xiàng)；且所述概率項(xiàng)基于對(duì)文件名良或不良的判斷結(jié)果的分析獲??；
[0009]步驟102)獲取所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積和良語(yǔ)義字符串名的先驗(yàn)概率，并將上述兩個(gè)參量值相乘得到第一乘積；并[0010]獲取所有關(guān)鍵詞對(duì)應(yīng)的在不良語(yǔ)義字符串名中出現(xiàn)的概率之積和不良語(yǔ)義字符串名的先驗(yàn)概率，并將兩個(gè)參量相乘得到第二與的乘積；
[0011]步驟103)比較第一乘積與第二乘積的大小，如果第一乘積項(xiàng)大于第二乘積項(xiàng)，則該字符串是良語(yǔ)義的，反之則是不良語(yǔ)義的，將判決結(jié)果存入到存儲(chǔ)介質(zhì)中。
[0012]上述概率項(xiàng)為:良和不良兩種類別分別所占百分比P (Vj)和從類別Vj中的一個(gè)文
件名隨機(jī)抽取的一個(gè)詞為Wk的概率
【權(quán)利要求】
1.一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法，所述方法包含: 步驟101)導(dǎo)入字典庫(kù)對(duì)待識(shí)別的文件名分詞，獲得文件名中的關(guān)鍵詞，基于貝葉斯算法計(jì)算每個(gè)關(guān)鍵詞的概率項(xiàng)；且所述概率項(xiàng)基于對(duì)文件名良或不良的判斷結(jié)果的分析獲?。? 步驟102)獲取所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積和良語(yǔ)義字符串名的先驗(yàn)概率，并將上述兩個(gè)參量值相乘得到第一乘積；并獲取所有關(guān)鍵詞對(duì)應(yīng)的在不良語(yǔ)義字符串名中出現(xiàn)的概率之積和不良語(yǔ)義字符串名的先驗(yàn)概率，并將兩個(gè)參量相乘得到第二與的乘積；步驟103)比較第一乘積與第二乘積的大小，如果第一乘積項(xiàng)大于第二乘積項(xiàng)，則該字符串是良語(yǔ)義的，反之則是不良語(yǔ)義的，將判決結(jié)果存入到存儲(chǔ)介質(zhì)中。
2.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法，其特征在于，所述概率項(xiàng)為:良和不良兩種類別分別所占百分比P(Vj)和從類別Vj中的一個(gè)文件名隨機(jī)抽取的一個(gè)詞為Wk的概率
3.根據(jù)權(quán)利要求2所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法，其特征在于，步驟102)所述的所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積
4.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法，其特征在于，所述步驟101)和步驟102)之間還包含: 采用反饋策略保證文件名中所有關(guān)鍵詞分詞的完整。
5.一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)系統(tǒng)，所述系統(tǒng)包含: 概率項(xiàng)獲取模塊，用于導(dǎo)入字典庫(kù)對(duì)待識(shí)別的文件名分詞，獲得文件名中的關(guān)鍵詞，基于貝葉斯算法計(jì)算每個(gè)關(guān)鍵詞的概率項(xiàng)；且所述概率項(xiàng)基于對(duì)良或不良的判斷結(jié)果的分析獲??；處理模塊，用于獲取所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積與良語(yǔ)義字符串名的先驗(yàn)概率，并將良語(yǔ)義字符串名中出現(xiàn)的概率之積與良語(yǔ)義字符串名的先驗(yàn)概率相乘；并獲取所有關(guān)鍵詞對(duì)應(yīng)的在不良語(yǔ)義字符串名中出現(xiàn)的概率之積與不良語(yǔ)義字符串名的先驗(yàn)概率，并將不良語(yǔ)義字符串名中出現(xiàn)的概率之積與不良語(yǔ)義字符串名的先驗(yàn)概率相乘；比較判決模塊，用于依據(jù)處理模塊的輸出結(jié)果，進(jìn)行如下判決: 如果良語(yǔ)義字符串名中出現(xiàn)的概率之積與良語(yǔ)義字符串名的先驗(yàn)概率相乘的結(jié)果大于良語(yǔ)義字符串名中出現(xiàn)的概率之積與不良語(yǔ)義字符串名的先驗(yàn)概率相乘的結(jié)果，則該字符串是良語(yǔ)義的，反之則是不良語(yǔ)義的，將判決結(jié)果存入到存儲(chǔ)介質(zhì)中。
6.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)系統(tǒng)，其特征在于，所述概率項(xiàng)包含類別所占百分比P (Vj)和從類別Vj中的一個(gè)文件名隨即抽取的一個(gè)詞為Wk的概率
7.根據(jù)權(quán)利要求6所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)系統(tǒng)，其特征在于，所述處理模塊進(jìn)一步包含: 第一處理子模塊，用于依據(jù)印(合法)=
8.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)系統(tǒng)，其特征在于，所述系統(tǒng)還包含位于概率項(xiàng)獲取模塊和處理模塊之間的反饋模塊，該反饋模塊用于保證關(guān)鍵詞是否分詞完整，將未完整分詞的重新啟動(dòng)關(guān)鍵詞分詞。
【文檔編號(hào)】G06F17/27GK103853701SQ201210505765
【公開日】2014年6月11日申請(qǐng)日期:2012年11月30日優(yōu)先權(quán)日:2012年11月30日
【發(fā)明者】蘇青, 苗光勝, 牛溫佳, 唐暉, 慈松, 譚紅艷申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所, 華數(shù)傳媒網(wǎng)絡(luò)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蘇青;苗光勝;牛溫佳;唐暉;慈松;譚紅艷
技術(shù)所有人：中國(guó)科學(xué)院聲學(xué)研究所;華數(shù)傳媒網(wǎng)絡(luò)有限公司
我是此專利的發(fā)明人

上一篇：修改中間件的方法和裝置制造方法
上一篇：接收私密信息輸入的方法和裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)的制作方法