亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法

文檔序號:6431264閱讀:200來源:國知局
專利名稱:一種實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,具體地說,對于給定的關(guān)鍵字,該方法除了能精確識別包含該關(guān)鍵字的短信外,還可以對內(nèi)容中包含干擾字符、繁體字、形近字、拆分字和諧音字的短信也能夠匹配該關(guān)鍵字。
背景技術(shù)
短信息服務(wù)作為移動通信網(wǎng)絡(luò)的一種基本業(yè)務(wù),在為用戶提供便捷消息通信服務(wù)的同時,也為信息垃圾的傳播提供了渠道。而且垃圾短信息有著愈演愈烈的趨勢,垃圾短信不但帶來用戶投訴而產(chǎn)生的不良影響,還帶來惡意欠費(fèi)的問題,因此需要對垃圾短信進(jìn)行實(shí)時監(jiān)控攔截。為了防止被監(jiān)測,垃圾短信的制造者采用很多方式(如繁簡體混合、形近字、諧音字、拆分字等)對內(nèi)容進(jìn)行處理,同時在其中混淆一些無意義的字符,用來欺騙攔截算法, 以防止所發(fā)送的短信被監(jiān)測和封堵?,F(xiàn)有的文本的模式匹配多采用精確匹配的模式,隨著時間的推移,尤其是對模糊匹配的需求,這些技術(shù)都不太適合現(xiàn)實(shí)的需求。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷而提供一種實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,通過對短信內(nèi)容采用繁簡體轉(zhuǎn)換、中文轉(zhuǎn)換拼音、形近字轉(zhuǎn)換和拆分字轉(zhuǎn)換等, 并按照功能組合模糊匹配關(guān)鍵字的方法,提高垃圾短信過濾的查全率。實(shí)現(xiàn)上述目的的技術(shù)方案是—種實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其中,所述方法基于一導(dǎo)入了包括拆分字組合字典、形近字轉(zhuǎn)換字典、繁簡體轉(zhuǎn)換字典、漢字拼音字典和近音轉(zhuǎn)換字典的系統(tǒng), 所述方法包括以下步驟步驟Si,關(guān)鍵字設(shè)置,錄入需要過濾的關(guān)鍵字;步驟S2,關(guān)鍵字模糊轉(zhuǎn)換,按照所述關(guān)鍵字的功能開關(guān)組合,轉(zhuǎn)換該關(guān)鍵字為各級別的模糊關(guān)鍵字;所述關(guān)鍵字的功能開關(guān)組合包括以下功能中的一個或多個中文繁簡體轉(zhuǎn)換功能、中文轉(zhuǎn)拼音功能、近音轉(zhuǎn)換功能、形近字轉(zhuǎn)換功能、拆分字組合功能和干擾字符過濾功能;步驟S3,短信采集,將需要匹配的短信輸入所述系統(tǒng);步驟S4,短信內(nèi)容模糊轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,將所述短信的內(nèi)容轉(zhuǎn)換成與所述模糊關(guān)鍵字同一級別的模糊短信;步驟S5,匹配有效性檢查,將轉(zhuǎn)換后的所述模糊短信與轉(zhuǎn)換后的所述模糊關(guān)鍵字匹配;步驟S6,匹配結(jié)果輸出,如果步驟S5中所述模糊短信與所述模糊關(guān)鍵字有相互匹配的字符,則過濾此條短信;否則判定為正常短信,對此短信做放通處理;繼續(xù)處理下一條短信。上述的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其中,所述步驟S4包括以下步驟步驟S41,過濾干擾字符,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要過濾干擾字符,如果不需要過濾,則跳過此步驟;否則,啟用過濾開關(guān),掃描所述短信,過濾掉該短信內(nèi)容中無意義的干擾字符;步驟S42,拆分字組合,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要拆分組合, 如果不需要拆分組合,則跳過此步驟;否則,啟用組合開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述拆分字組合字典中的字符組合,則轉(zhuǎn)換此字符組合為字典中的標(biāo)準(zhǔn)字符;步驟S43,形近字轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要形近轉(zhuǎn)換, 如果不需要形近轉(zhuǎn)換,則跳過此步驟;否則,啟用形近開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述形近字轉(zhuǎn)換字典中的形近轉(zhuǎn)換字符,則轉(zhuǎn)換此字符為字典中的標(biāo)準(zhǔn)字符;步驟S44,繁簡轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要繁簡轉(zhuǎn)換,如果不需要繁簡轉(zhuǎn)換,則跳過此步驟;否則,啟用繁簡開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述繁簡體轉(zhuǎn)換字典中的字符,則轉(zhuǎn)換此字符為字典中的對應(yīng)的標(biāo)準(zhǔn)字符;步驟S45,漢字轉(zhuǎn)拼音,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要拼音轉(zhuǎn)換, 如果不需要拼音轉(zhuǎn)換,則跳過此步驟;否則,啟用拼音開關(guān),掃描所述短信,發(fā)現(xiàn)滿足所述漢字拼音字典中的字符,則轉(zhuǎn)換此字符為字典中對應(yīng)的標(biāo)準(zhǔn)拼音;步驟S46,近音轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要近音轉(zhuǎn)換,如果不需要近音轉(zhuǎn)換,則跳過此步驟;否則,啟用近音開關(guān),掃描所述短信,發(fā)現(xiàn)滿足近音轉(zhuǎn)換字典中的字符,則轉(zhuǎn)換此拼音為字典中對應(yīng)的標(biāo)準(zhǔn)拼音。上述的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其中,所述步驟S2中,所述關(guān)鍵字的功能開關(guān)組合不包括任何一個所述功能,即跳過步驟S2,此時,則實(shí)現(xiàn)所述短信對所述關(guān)鍵字的精確匹配。上述的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其中,所述短信包括垃圾短信。上述的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其中,所述短信包括大容量和高速的短信。本發(fā)明的有益效果是本發(fā)明通過對短信中采用繁簡體轉(zhuǎn)換、中文轉(zhuǎn)換拼音、形近字轉(zhuǎn)換和拆分字轉(zhuǎn)換等,并按照功能組合模糊匹配關(guān)鍵字的方法,提高垃圾短信過濾的查全率;同時,本發(fā)明也能實(shí)現(xiàn)中文短信對關(guān)鍵字的精確匹配。


圖1是本發(fā)明的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字方法的流程示意圖。
具體實(shí)施例方式下面將結(jié)合附圖對本發(fā)明作進(jìn)一步說明。請參閱圖1,本發(fā)明的一種實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其中,所述方法基于一導(dǎo)入了包括拆分字組合字典、形近字轉(zhuǎn)換字典、繁簡體轉(zhuǎn)換字典、漢字拼音字典和近音轉(zhuǎn)換字典的系統(tǒng),所述方法包括以下步驟步驟Si,關(guān)鍵字設(shè)置,錄入需要過濾的關(guān)鍵字;
步驟S2,關(guān)鍵字模糊轉(zhuǎn)換,按照所述關(guān)鍵字的功能開關(guān)組合,轉(zhuǎn)換該關(guān)鍵字為各級別的模糊關(guān)鍵字;所述關(guān)鍵字的功能開關(guān)組合包括以下功能中的一個或多個中文繁簡體轉(zhuǎn)換功能、中文轉(zhuǎn)拼音功能、近音轉(zhuǎn)換功能、形近字轉(zhuǎn)換功能、拆分字組合功能和干擾字符過濾功能;當(dāng)步驟S2中,所述關(guān)鍵字的功能開關(guān)組合不包括任何一個所述功能,即跳過步驟S2時,則實(shí)現(xiàn)所述短信對所述關(guān)鍵字的精確匹配。步驟S3,短信采集,將需要匹配的短信輸入所述系統(tǒng);步驟S4,短信內(nèi)容模糊轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,將所述短信的內(nèi)容轉(zhuǎn)換成與所述模糊關(guān)鍵字同一級別的模糊短信;其中,步驟S4包括以下步驟步驟S41,過濾干擾字符,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要過濾干擾字符,如果不需要過濾,則跳過此步驟;否則,啟用過濾開關(guān),掃描所述短信,過濾掉該短信內(nèi)容中無意義的干擾字符;步驟S42,拆分字組合,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要拆分組合, 如果不需要拆分組合,則跳過此步驟;否則,啟用組合開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述拆分字組合字典中的字符組合,則轉(zhuǎn)換此字符組合為字典中的標(biāo)準(zhǔn)字符;步驟S43,形近字轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要形近轉(zhuǎn)換, 如果不需要形近轉(zhuǎn)換,則跳過此步驟;否則,啟用形近開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述形近字轉(zhuǎn)換字典中的形近轉(zhuǎn)換字符,則轉(zhuǎn)換此字符為字典中的標(biāo)準(zhǔn)字符;步驟S44,繁簡轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要繁簡轉(zhuǎn)換,如果不需要繁簡轉(zhuǎn)換,則跳過此步驟;否則,啟用繁簡開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述繁簡體轉(zhuǎn)換字典中的字符,則轉(zhuǎn)換此字符為字典中的對應(yīng)的標(biāo)準(zhǔn)字符;步驟S45,漢字轉(zhuǎn)拼音,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要拼音轉(zhuǎn)換, 如果不需要拼音轉(zhuǎn)換,則跳過此步驟;否則,啟用拼音開關(guān),掃描所述短信,發(fā)現(xiàn)滿足所述漢字拼音字典中的字符,則轉(zhuǎn)換此字符為字典中對應(yīng)的標(biāo)準(zhǔn)拼音;步驟S46,近音轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要近音轉(zhuǎn)換,如果不需要近音轉(zhuǎn)換,則跳過此步驟;否則,啟用近音開關(guān),掃描所述短信,發(fā)現(xiàn)滿足近音轉(zhuǎn)換字典中的字符,則轉(zhuǎn)換此拼音為字典中對應(yīng)的標(biāo)準(zhǔn)拼音。步驟S5,匹配有效性檢查,將轉(zhuǎn)換后的所述模糊短信與轉(zhuǎn)換后的所述模糊關(guān)鍵字匹配;步驟S6,匹配結(jié)果輸出,如果步驟S5中所述模糊短信與所述模糊關(guān)鍵字有相互匹配的字符,則過濾此條短信;否則判定為正常短信,對此短信做放通處理;繼續(xù)處理下一條短信。當(dāng)步驟S2中,所述關(guān)鍵字的功能開關(guān)組合不包括任何一個所述功能,即去掉步驟 S2,此時,則實(shí)現(xiàn)所述短信對所述關(guān)鍵字的精確匹配。本方法對大容量和高速的短信內(nèi)容進(jìn)行模糊匹配;上述的過濾干擾字符,即短信中混雜的無意義的字符;拆分字組合,即根據(jù)相鄰的兩個漢字組合為一個形狀一致的漢字; 形近字轉(zhuǎn)換,即轉(zhuǎn)換形狀相近的不同字符為同一字符;繁簡轉(zhuǎn)換,即中文繁體字和對應(yīng)的中文簡體字相互轉(zhuǎn)換;漢字轉(zhuǎn)拼音,即轉(zhuǎn)換中文繁簡體的漢字為標(biāo)準(zhǔn)的簡體拼音標(biāo)識;近音轉(zhuǎn)換,即發(fā)音相近的不同的標(biāo)準(zhǔn)簡體拼音標(biāo)識轉(zhuǎn)換為同一標(biāo)準(zhǔn)簡體拼音標(biāo)識;本方法通過關(guān)鍵字功能開關(guān)的調(diào)整,控制模糊匹配開關(guān),使匹配結(jié)果在一個合理的范圍。
下面以一個具體例子來闡述本發(fā)明1)關(guān)鍵字設(shè)置,錄入需要過濾的關(guān)鍵字。如“發(fā)票”。2)關(guān)鍵字模糊轉(zhuǎn)換,此關(guān)鍵字(發(fā)票)的功能開關(guān)組合包括所有轉(zhuǎn)換功能,轉(zhuǎn)換后的模糊關(guān)鍵字處于一個級別,假定此級別為N級別,將“發(fā)票”轉(zhuǎn)換為“fapiao”。3)短信采集,將需匹配的短信輸入所述系統(tǒng),如“您好!我單位有《(發(fā))》《漂》 可開,合作電話i 3900000007孫經(jīng)理”。4)短信內(nèi)容模糊轉(zhuǎn)換,按照模糊關(guān)鍵字(fa piao)所處的級別(N級別),將所述短信的內(nèi)容轉(zhuǎn)換成與模糊關(guān)鍵字(fa piao)同一級別(N級別)的模糊短信,即進(jìn)行如下步驟41)過濾干擾字符,啟用過濾開關(guān),上述短信過濾后,內(nèi)容為“您好我單位有發(fā)漂可開合作電話i 3900000007孫經(jīng)理”;42)拆分字組合,啟用組合開關(guān),掃描上述短信,將拆分字“話”組合為“話”,則上述短信拆分字組合后,內(nèi)容為“您好我單位有發(fā)漂可開合作電i 3900000007孫經(jīng)理”;43)形近字轉(zhuǎn)換,啟用形近開關(guān),掃描上述短信,將“ i,,轉(zhuǎn)換為數(shù)字“ 1 ”,則上述短信形近轉(zhuǎn)換后,內(nèi)容為“您好我單位有發(fā)漂可開合作電話13900000007孫經(jīng)理”;44)繁簡轉(zhuǎn)換,啟用繁簡開關(guān),掃描上述短信,將繁體字“發(fā)”轉(zhuǎn)換為簡體字“發(fā)”, 則上述短信經(jīng)過繁簡轉(zhuǎn)換后,內(nèi)容為“您好我單位有發(fā)漂可開合作電話13900000007孫經(jīng)理”;45)漢字轉(zhuǎn)拼音,啟用拼音開關(guān),將上述短信經(jīng)過拼音轉(zhuǎn)換后,內(nèi)容為“ι η hao wo dan wei you fa piao ke kai he zuo dian hua 13900000007sun jing li,,;46)近音轉(zhuǎn)換,啟用近音開關(guān),掃描上述短信,將“nin”轉(zhuǎn)換為“ni ”,則上述短信經(jīng)過近音替換后,內(nèi)容為:"ni hao wo dan wei you fa piao ke kai he zuo dian hua 13900000007sun jing li,,。5)匹配有效性檢查,掃描上述短信,發(fā)現(xiàn)上述短信“ni hao wo dan wei you fa piao ke kai he zuo dian hua 13900000007sun jing Ii,,匹配關(guān)鍵字“發(fā)票”的"fa piao”,則此短信需要過濾。6)匹配輸出結(jié)果,結(jié)果過濾上述短信,并繼續(xù)處理下一條短信。綜上所述,本發(fā)明提供實(shí)現(xiàn)按中文短信模糊匹配關(guān)鍵字的方法,能夠識別存在的繁簡體、形近字、拆分字或諧音字的垃圾短信,對于垃圾短信過濾系統(tǒng)采用了這種方法,是行之有效,提高了垃圾短信的查全率,提高垃圾短信的治理程度。以上實(shí)施例僅供說明本發(fā)明之用,而非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以作出各種變換或變型,因此所有等同的技術(shù)方案也應(yīng)該屬于本發(fā)明的范疇,應(yīng)由各權(quán)利要求所限定。
權(quán)利要求
1. 一種實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其特征在于,所述方法基于一導(dǎo)入了包括拆分字組合字典、形近字轉(zhuǎn)換字典、繁簡體轉(zhuǎn)換字典、漢字拼音字典和近音轉(zhuǎn)換字典的系統(tǒng),所述方法包括以下步驟步驟Si,關(guān)鍵字設(shè)置,錄入需要過濾的關(guān)鍵字;步驟S2,關(guān)鍵字模糊轉(zhuǎn)換,按照所述關(guān)鍵字的功能開關(guān)組合,轉(zhuǎn)換該關(guān)鍵字為各級別的模糊關(guān)鍵字;所述關(guān)鍵字的功能開關(guān)組合包括以下功能中的一個或多個中文繁簡體轉(zhuǎn)換功能、中文轉(zhuǎn)拼音功能、近音轉(zhuǎn)換功能、形近字轉(zhuǎn)換功能、拆分字組合功能和干擾字符過濾功能;步驟S3,短信采集,將需要匹配的短信輸入所述系統(tǒng);步驟S4,短信內(nèi)容模糊轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,將所述短信的內(nèi)容轉(zhuǎn)換成與所述模糊關(guān)鍵字同一級別的模糊短信;步驟S5,匹配有效性檢查,將轉(zhuǎn)換后的所述模糊短信與轉(zhuǎn)換后的所述模糊關(guān)鍵字匹配;步驟S6,匹配結(jié)果輸出,如果步驟S5中所述模糊短信與所述模糊關(guān)鍵字有相互匹配的字符,則過濾此條短信;否則判定為正常短信,對此短信做放通處理;繼續(xù)處理下一條短
2.根據(jù)權(quán)利要求1所述的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其特征在于,所述步驟S4包括以下步驟步驟S41,過濾干擾字符,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要過濾干擾字符,如果不需要過濾,則跳過此步驟;否則,啟用過濾開關(guān),掃描所述短信,過濾掉該短信內(nèi)容中無意義的干擾字符;步驟S42,拆分字組合,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要拆分組合,如果不需要拆分組合,則跳過此步驟;否則,啟用組合開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述拆分字組合字典中的字符組合,則轉(zhuǎn)換此字符組合為字典中的標(biāo)準(zhǔn)字符;步驟S43,形近字轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要形近轉(zhuǎn)換,如果不需要形近轉(zhuǎn)換,則跳過此步驟;否則,啟用形近開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述形近字轉(zhuǎn)換字典中的形近轉(zhuǎn)換字符,則轉(zhuǎn)換此字符為字典中的標(biāo)準(zhǔn)字符;步驟S44,繁簡轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要繁簡轉(zhuǎn)換,如果不需要繁簡轉(zhuǎn)換,則跳過此步驟;否則,啟用繁簡開關(guān),掃描所述短信,如果發(fā)現(xiàn)滿足所述繁簡體轉(zhuǎn)換字典中的字符,則轉(zhuǎn)換此字符為字典中的對應(yīng)的標(biāo)準(zhǔn)字符;步驟S45,漢字轉(zhuǎn)拼音,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要拼音轉(zhuǎn)換,如果不需要拼音轉(zhuǎn)換,則跳過此步驟;否則,啟用拼音開關(guān),掃描所述短信,發(fā)現(xiàn)滿足所述漢字拼音字典中的字符,則轉(zhuǎn)換此字符為字典中對應(yīng)的標(biāo)準(zhǔn)拼音;步驟S46,近音轉(zhuǎn)換,按照所述模糊關(guān)鍵字所處的級別,判斷是否需要近音轉(zhuǎn)換,如果不需要近音轉(zhuǎn)換,則跳過此步驟;否則,啟用近音開關(guān),掃描所述短信,發(fā)現(xiàn)滿足近音轉(zhuǎn)換字典中的字符,則轉(zhuǎn)換此拼音為字典中對應(yīng)的標(biāo)準(zhǔn)拼音。
3.根據(jù)權(quán)利要求1所述的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其特征在于,所述步驟S2中,所述關(guān)鍵字的功能開關(guān)組合不包括任何一個所述功能,即跳過步驟S2,此時,則實(shí)現(xiàn)所述短信對所述關(guān)鍵字的精確匹配。
4.根據(jù)權(quán)利要求1或2或3所述的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其特征在于, 所述短信包括垃圾短信。
5.根據(jù)權(quán)利要求1或2所述的實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,其特征在于,所述短信包括大容量和高速的短信。
全文摘要
本發(fā)明公開了一種實(shí)現(xiàn)中文短信模糊匹配關(guān)鍵字的方法,該方法基于一導(dǎo)入了包括拆分字組合字典、形近字轉(zhuǎn)換字典、繁簡體轉(zhuǎn)換字典、漢字拼音字典和近音轉(zhuǎn)換字典的系統(tǒng),所述方法包括以下步驟關(guān)鍵字設(shè)置;關(guān)鍵字模糊轉(zhuǎn)換;短信采集;短信內(nèi)容模糊轉(zhuǎn)換;匹配有效性檢查;匹配結(jié)果輸出。本發(fā)明根據(jù)設(shè)定各個功能配置的組合,調(diào)整各個關(guān)鍵字轉(zhuǎn)換功能的啟用/關(guān)閉狀態(tài),以達(dá)到最佳匹配效果,能做到各級模糊匹配,實(shí)現(xiàn)高效、準(zhǔn)確的短信內(nèi)容過濾,提高垃圾短信過濾的查全率。
文檔編號G06F17/30GK102323929SQ20111024239
公開日2012年1月18日 申請日期2011年8月23日 優(yōu)先權(quán)日2011年8月23日
發(fā)明者肖克華 申請人:上海粱江通信技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1