一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng),所述方法包含:步驟101)導(dǎo)入字典庫(kù)對(duì)待識(shí)別的文件名分詞,獲得文件名中的關(guān)鍵詞,基于貝葉斯算法計(jì)算每個(gè)關(guān)鍵詞的概率項(xiàng);且所述概率項(xiàng)基于對(duì)文件名良或不良的判斷結(jié)果的分析獲取;步驟102)獲取所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積與良語(yǔ)義字符串名的先驗(yàn)概率的乘積;和所有關(guān)鍵詞對(duì)應(yīng)的在不良語(yǔ)義字符串名中出現(xiàn)的概率之積與不良語(yǔ)義字符串名的先驗(yàn)概率的乘積;步驟103)比較上述兩個(gè)乘積,如果良語(yǔ)義字符串的乘積項(xiàng)大于不良語(yǔ)義字符串的乘積項(xiàng),則該字符串是良語(yǔ)義的,反之則是不良語(yǔ)義的,將判決結(jié)果存入到存儲(chǔ)介質(zhì)中。
【專利說(shuō)明】—種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)信息處理與分析領(lǐng)域,尤其涉及到文字信息內(nèi)容性質(zhì)與傾向性的自動(dòng)判定領(lǐng)域,具體涉及一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)信息的自動(dòng)處理與分析技術(shù)是實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)容的分析、檢測(cè)與管理的重要組成部分,對(duì)于網(wǎng)絡(luò)內(nèi)容處理與安全系統(tǒng)的構(gòu)建具有重要意義。
[0003]由于網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和運(yùn)營(yíng)商提供的帶寬不斷的提高,用戶可以很方便的訪問(wèn)下載網(wǎng)絡(luò)上的各種信息,其中,帶寬的提升為信息傳遞提供了更寬廣的舞臺(tái)的同時(shí),也給不良信息傳播提供了新便利。近年來(lái),網(wǎng)絡(luò)上的淫穢、色情和反動(dòng)等有害信息傳播盛行,傳統(tǒng)網(wǎng)絡(luò)信息處理方案對(duì)于這些有害信息的識(shí)別往往需要很大的人力和物力,受客觀條件的限制,對(duì)于網(wǎng)絡(luò)不良信息的發(fā)現(xiàn)與處理遠(yuǎn)不能滿足現(xiàn)實(shí)需要。
[0004]互聯(lián)網(wǎng)就像由許多河流交匯組成的龐大水系,里面高速地流動(dòng)著各種各樣的內(nèi)容信息,網(wǎng)絡(luò)用戶通過(guò)到河里取水的方式訪問(wèn)互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)這個(gè)江河水系的流量巨大、流速極快,連接到之上的用戶數(shù)量數(shù)以億計(jì)。傳統(tǒng)的網(wǎng)絡(luò)信息處理和分析方案無(wú)法實(shí)現(xiàn)網(wǎng)絡(luò)信息性質(zhì)的自動(dòng)和智能化分析,必須投入大量的人員進(jìn)行手工分析和判別。現(xiàn)有技術(shù)只是單純的定義某個(gè)分詞是良或者不良,如果文件名包含不良的分詞即判斷此文件名為不良,而不是進(jìn)行貝葉斯的全概率分析;另外,這種定義分詞的工作量很大,比較難以更新,本系統(tǒng)可以隨時(shí)進(jìn)行自學(xué)習(xí)更新,以免出現(xiàn)新興的詞而造成漏判或誤判;還有,本系統(tǒng)還增加了反饋環(huán)節(jié),防止分詞不完整或不正確,提高成功率。從系統(tǒng)組成上分析現(xiàn)有的判別系統(tǒng)基本上只有一個(gè)分詞模塊和判別模塊,進(jìn)行簡(jiǎn)單的分詞,然后看是否包含不良關(guān)鍵詞,以此來(lái)判斷文件名的屬性,往往成功率不高。
[0005]當(dāng)前形勢(shì)下,面臨互聯(lián)網(wǎng)中海量?jī)?nèi)容,使用人工方法要做到實(shí)時(shí)分析已經(jīng)無(wú)法應(yīng)對(duì),迫切需要具有智能分析 能力的網(wǎng)絡(luò)信息處理和識(shí)別方案,實(shí)現(xiàn)對(duì)特定網(wǎng)絡(luò)信息性質(zhì)的自動(dòng)檢測(cè)和判定。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于為克服上述問(wèn)題,本發(fā)明提供了一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法及系統(tǒng)。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法,所述方法包含:
[0008]步驟101)導(dǎo)入字典庫(kù)對(duì)待識(shí)別的文件名分詞,獲得文件名中的關(guān)鍵詞,基于貝葉斯算法計(jì)算每個(gè)關(guān)鍵詞的概率項(xiàng);且所述概率項(xiàng)基于對(duì)文件名良或不良的判斷結(jié)果的分析獲??;
[0009]步驟102)獲取所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積和良語(yǔ)義字符串名的先驗(yàn)概率,并將上述兩個(gè)參量值相乘得到第一乘積;并[0010]獲取所有關(guān)鍵詞對(duì)應(yīng)的在不良語(yǔ)義字符串名中出現(xiàn)的概率之積和不良語(yǔ)義字符串名的先驗(yàn)概率,并將兩個(gè)參量相乘得到第二與的乘積;
[0011]步驟103)比較第一乘積與第二乘積的大小,如果第一乘積項(xiàng)大于第二乘積項(xiàng),則該字符串是良語(yǔ)義的,反之則是不良語(yǔ)義的,將判決結(jié)果存入到存儲(chǔ)介質(zhì)中。
[0012]上述概率項(xiàng)為:良和不良兩種類別分別所占百分比P (Vj)和從類別Vj中的一個(gè)文
件名隨機(jī)抽取的一個(gè)詞為Wk的概率
【權(quán)利要求】
1.一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法,所述方法包含: 步驟101)導(dǎo)入字典庫(kù)對(duì)待識(shí)別的文件名分詞,獲得文件名中的關(guān)鍵詞,基于貝葉斯算法計(jì)算每個(gè)關(guān)鍵詞的概率項(xiàng);且所述概率項(xiàng)基于對(duì)文件名良或不良的判斷結(jié)果的分析獲?。? 步驟102)獲取所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積和良語(yǔ)義字符串名的先驗(yàn)概率,并將上述兩個(gè)參量值相乘得到第一乘積;并 獲取所有關(guān)鍵詞對(duì)應(yīng)的在不良語(yǔ)義字符串名中出現(xiàn)的概率之積和不良語(yǔ)義字符串名的先驗(yàn)概率,并將兩個(gè)參量相乘得到第二與的乘積; 步驟103)比較第一乘積與第二乘積的大小,如果第一乘積項(xiàng)大于第二乘積項(xiàng),則該字符串是良語(yǔ)義的,反之則是不良語(yǔ)義的,將判決結(jié)果存入到存儲(chǔ)介質(zhì)中。
2.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法,其特征在于,所述概率項(xiàng)為:良和不良兩種類別分別所占百分比P(Vj)和從類別Vj中的一個(gè)文件名隨機(jī)抽取的一個(gè)詞為Wk的概率
3.根據(jù)權(quán)利要求2所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法,其特征在于, 步驟102)所述的所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積
4.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)方法,其特征在于,所述步驟101)和步驟102)之間還包含: 采用反饋策略保證文件名中所有關(guān)鍵詞分詞的完整。
5.一種基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)系統(tǒng),所述系統(tǒng)包含: 概率項(xiàng)獲取模塊,用于導(dǎo)入字典庫(kù)對(duì)待識(shí)別的文件名分詞,獲得文件名中的關(guān)鍵詞,基于貝葉斯算法計(jì)算每個(gè)關(guān)鍵詞的概率項(xiàng);且所述概率項(xiàng)基于對(duì)良或不良的判斷結(jié)果的分析獲??;處理模塊,用于獲取所有關(guān)鍵詞對(duì)應(yīng)的在良語(yǔ)義字符串名中出現(xiàn)的概率之積與良語(yǔ)義字符串名的先驗(yàn)概率,并將良語(yǔ)義字符串名中出現(xiàn)的概率之積與良語(yǔ)義字符串名的先驗(yàn)概率相乘;并獲取所有關(guān)鍵詞對(duì)應(yīng)的在不良語(yǔ)義字符串名中出現(xiàn)的概率之積與不良語(yǔ)義字符串名的先驗(yàn)概率,并將不良語(yǔ)義字符串名中出現(xiàn)的概率之積與不良語(yǔ)義字符串名的先驗(yàn)概率相乘; 比較判決模塊,用于依據(jù)處理模塊的輸出結(jié)果,進(jìn)行如下判決: 如果良語(yǔ)義字符串名中出現(xiàn)的概率之積與良語(yǔ)義字符串名的先驗(yàn)概率相乘的結(jié)果大于良語(yǔ)義字符串名中出現(xiàn)的概率之積與不良語(yǔ)義字符串名的先驗(yàn)概率相乘的結(jié)果,則該字符串是良語(yǔ)義的,反之則是不良語(yǔ)義的,將判決結(jié)果存入到存儲(chǔ)介質(zhì)中。
6.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)系統(tǒng),其特征在于,所述概率項(xiàng)包含類別所占百分比P (Vj)和從類別Vj中的一個(gè)文件名隨即抽取的一個(gè)詞為Wk的概率
7.根據(jù)權(quán)利要求6所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)系統(tǒng),其特征在于,所述處理模塊進(jìn)一步包含: 第一處理子模塊,用于依據(jù)印(合法)=
8.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)語(yǔ)義檢測(cè)系統(tǒng),其特征在于,所述系統(tǒng)還包含位于概率項(xiàng)獲取模塊和處理模塊之間的反饋模塊,該反饋模塊用于保證關(guān)鍵詞是否分詞完整,將未完整分詞的重新啟動(dòng)關(guān)鍵詞分詞。
【文檔編號(hào)】G06F17/27GK103853701SQ201210505765
【公開日】2014年6月11日 申請(qǐng)日期:2012年11月30日 優(yōu)先權(quán)日:2012年11月30日
【發(fā)明者】蘇青, 苗光勝, 牛溫佳, 唐暉, 慈松, 譚紅艷 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所, 華數(shù)傳媒網(wǎng)絡(luò)有限公司