亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本敏感詞過濾系統(tǒng)和方法

文檔序號:9579371閱讀:3546來源:國知局
一種文本敏感詞過濾系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息過濾技術(shù)領(lǐng)域,具體涉及基于語音的文本敏感詞過濾系統(tǒng)和方法。
【背景技術(shù)】
[0002]目前先有的文本文件內(nèi)容主要有四種敏感詞過濾技術(shù),即基于因特網(wǎng)內(nèi)容分級平臺(PICS)過濾、敏感詞數(shù)據(jù)庫過濾、關(guān)鍵字或詞過濾以及智能內(nèi)容理解過濾。
[0003]由于信息傳送者一般不會主動給其與發(fā)送的文本文件按照PICS標(biāo)準(zhǔn)貼標(biāo)簽,所以基于PICS過濾在實際應(yīng)用中效果不大;敏感詞數(shù)據(jù)庫過濾方式為現(xiàn)有技術(shù)中應(yīng)用作為廣泛的方式,其將長期積累的敏感詞形成的敏感詞數(shù)據(jù)庫(敏感詞文本庫)對文本內(nèi)容進行逐個排查,當(dāng)與敏感詞一致時,則對其進行過濾,但是,由于敏感詞數(shù)據(jù)庫是共用或為大家所熟知的,因此,信息傳送者可以采用修改待發(fā)送文本文件的方式進行規(guī)避,例如在發(fā)送文本文件中帶有的敏感詞中間增加空格或特殊符號,或者敏感詞中部分字、詞以拼音替代,這樣,敏感詞數(shù)據(jù)庫無法對其進行識別和過濾;關(guān)鍵字或詞過濾能夠?qū)崿F(xiàn)較快的過濾速度,但是往往不考慮文本內(nèi)容,漏報、錯報率較高,而且關(guān)鍵字詞更容易規(guī)避;智能內(nèi)容理解過濾技術(shù)發(fā)展不成熟,同時其計算量大、速度慢。

【發(fā)明內(nèi)容】

[0004]針對以上不足,本發(fā)明的目的之一在于提供一種文本敏感詞過濾系統(tǒng),其在現(xiàn)有敏感詞文本庫的基礎(chǔ)上,將待發(fā)送文本文件以及敏感詞文本庫均通過文本-語音轉(zhuǎn)換后形成音頻數(shù)據(jù)文件和敏感詞音頻數(shù)據(jù)庫,然后再進行比對,在很大程度上滿足信息過濾的要求,而且計算量小、速度快。
[0005]為了實現(xiàn)上述目的,本發(fā)明通過下列技術(shù)方案來實現(xiàn):
[0006]一種文本敏感詞過濾系統(tǒng),其包括:
[0007]第一轉(zhuǎn)換單元,用于通過文本-語音轉(zhuǎn)換將敏感詞文本庫轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫,所述敏感詞音頻數(shù)據(jù)庫包括若干個敏感詞音頻數(shù)據(jù)組;
[0008]接收單元,用于通過第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲為臨時文本文件;
[0009]第二轉(zhuǎn)換單元,用于通過文本-語音轉(zhuǎn)換將臨時文本文件轉(zhuǎn)換成臨時音頻數(shù)據(jù)文件并存儲,所述臨時文本文件和臨時音頻數(shù)據(jù)文件相關(guān)聯(lián);
[0010]判斷單元,用于將所述敏感詞音頻數(shù)據(jù)組分別與臨時音頻數(shù)據(jù)文件進行比對,獲得所述臨時音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時音頻數(shù)據(jù)文件中的位置;
[0011]過濾單元,用于對臨時文本文件進行過濾,并通過第二網(wǎng)絡(luò)將過濾后的臨時文本文件發(fā)送至接收終端,所述對臨時文本文件進行過濾的方法是將臨時文本文件中與所述位置相對應(yīng)的文本內(nèi)容進行刪除。
[0012]本發(fā)明的另一目的在于提供一種文本敏感詞過濾方法,其在現(xiàn)有敏感詞文本庫的基礎(chǔ)上,將待發(fā)送文本文件以及敏感詞文本庫均通過文本-語音轉(zhuǎn)換后形成音頻數(shù)據(jù)文件和敏感詞音頻數(shù)據(jù)庫,然后再進行比對,在很大程度上滿足信息過濾的要求,而且計算量小、速度快。
[0013]為了實現(xiàn)上述目的,本發(fā)明通過下列技術(shù)方案來實現(xiàn):
[0014]—種文本敏感詞過濾方法,其包括以下步驟:
[0015]步驟1、通過文本-語音轉(zhuǎn)換將敏感詞文本庫轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫,所述敏感詞音頻數(shù)據(jù)庫包括若干個敏感詞音頻數(shù)據(jù)組;
[0016]步驟2、通過第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲為臨時文本文件;
[0017]步驟3、通過文本-語音轉(zhuǎn)換將臨時文本文件轉(zhuǎn)換成臨時音頻數(shù)據(jù)文件并存儲,所述臨時文本文件和臨時音頻數(shù)據(jù)文件相關(guān)聯(lián);
[0018]步驟4、將所述敏感詞音頻數(shù)據(jù)組分別與臨時音頻數(shù)據(jù)文件進行比對,獲得所述臨時音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時音頻數(shù)據(jù)文件中的位置;
[0019]步驟5、對臨時文本文件進行過濾,并通過第二網(wǎng)絡(luò)將過濾后的臨時文本文件發(fā)送至接收終端,所述對臨時文本文件進行過濾的方法是將臨時文本文件中與所述位置相對應(yīng)的文本內(nèi)容進行刪除。
[0020]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:本發(fā)明在現(xiàn)有敏感詞文本庫的基礎(chǔ)上,將待發(fā)送文本文件以及敏感詞文本庫均通過文本-語音轉(zhuǎn)換后形成音頻數(shù)據(jù)文件和敏感詞音頻數(shù)據(jù)庫,然后再進行比對,在很大程度上滿足信息過濾的要求,而且敏感詞音頻數(shù)據(jù)庫只需要轉(zhuǎn)換一次即可對所有文本文件進行過濾,計算量小、速度快。
【附圖說明】
[0021]圖1是本發(fā)明文本敏感詞過濾系統(tǒng)的結(jié)構(gòu)框圖;
[0022]圖2是本發(fā)明文本敏感詞過濾方法的流程圖。
【具體實施方式】
[0023]下面結(jié)合附圖和【具體實施方式】對本發(fā)明的內(nèi)容做進一步詳細說明。
[0024]請參照圖1和2所示,一種文本敏感詞過濾方法,其包括以下步驟:
[0025]S101、通過文本-語音轉(zhuǎn)換將敏感詞文本庫轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫。
[0026]敏感詞文本庫1為常規(guī)數(shù)據(jù)庫,其由被視為敏感詞的若干個敏感詞組整理形成,已廣泛應(yīng)用于互聯(lián)網(wǎng)中。敏感詞文本庫1經(jīng)由代理服務(wù)器4中的文本-語音轉(zhuǎn)換單元42轉(zhuǎn)換形成敏感詞音頻數(shù)據(jù)庫44。該文本-語音轉(zhuǎn)換單元42的轉(zhuǎn)換方法有多種,其為常規(guī)技術(shù),這里不再贅述。敏感詞音頻數(shù)據(jù)庫44包括若干個敏感詞音頻數(shù)據(jù)組,敏感詞音頻數(shù)據(jù)組與敏感詞組為一一對應(yīng)關(guān)系。敏感詞音頻數(shù)據(jù)庫44存儲于代理服務(wù)器4中,只有在敏感詞文本庫1更新后,才進行一次敏感詞文本庫1的音頻轉(zhuǎn)換,并且這時只需要對更新的敏感詞組進行轉(zhuǎn)換即可,計算量小。
[0027]S102、通過第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲為臨時文本文件。
[0028]待發(fā)送的文本文件1存儲于發(fā)送終端上,發(fā)送終端可以是手機、平板電腦、PC機等設(shè)備,第一網(wǎng)絡(luò)2可以為有線網(wǎng)絡(luò)或無線網(wǎng)絡(luò),臨時文本文件41存儲于代理服務(wù)器4中,避免了重復(fù)調(diào)用文本文件1的可能性。
[0029]S103、通過文本-語音轉(zhuǎn)換將臨時文本文件轉(zhuǎn)換成臨時音頻數(shù)據(jù)文件并存儲。
[0030]臨時文本文件41通過文本-語音轉(zhuǎn)換單元42轉(zhuǎn)換形成臨時音頻數(shù)據(jù)文件43,該臨時音頻數(shù)據(jù)文件43也存儲于代理服務(wù)器4中,同時臨時文本文件41和臨時音頻數(shù)據(jù)文件43在內(nèi)容上是相關(guān)聯(lián)的,也就是臨時文本文件41中的每個字均對應(yīng)臨時音頻數(shù)據(jù)文件43中的一個音頻數(shù)據(jù),對于臨時文本文件41中的標(biāo)點、特殊符號、空格以及亂碼等,則可直接忽略。
[0031]S104、將所述敏感詞音頻數(shù)據(jù)組分別與臨時音頻數(shù)據(jù)文件進行比對,獲得所述臨時音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時音頻數(shù)據(jù)文件中的位置。
[0032]通過代理服務(wù)器4中的過濾單元45在臨時音頻數(shù)據(jù)文件43中遍歷敏感詞音頻數(shù)據(jù)庫44中的每個敏感詞音頻數(shù)據(jù)組,當(dāng)臨時音頻數(shù)據(jù)文件43具有一致的敏感詞音頻數(shù)據(jù)組,則對該敏感詞音頻數(shù)據(jù)組以及其位置進行標(biāo)記。
[0033]S105、對臨時文本文件進行過濾,并通過第二網(wǎng)絡(luò)將過濾后的臨時文本文件發(fā)送至接收終端,所述對臨時文本文件進行過濾的方法是將臨時文本文件中與所述位置相對應(yīng)的文本內(nèi)容進行刪除。
[0034]在臨時音頻數(shù)據(jù)文件43標(biāo)記的敏感詞音頻數(shù)據(jù)組及其位置,必然在臨時文本文件41中的相應(yīng)位置具有一定與該敏感詞音頻數(shù)據(jù)組相關(guān)聯(lián)的文本內(nèi)容(該文本內(nèi)容中可能會出現(xiàn)的標(biāo)點、特殊符號、空格以及亂碼等),然后將這些文本內(nèi)容進行刪除后的臨時文本文件41通過第二網(wǎng)絡(luò)5發(fā)送給接收終端6,從而完成了文本敏感詞的過濾。
[0035]上述實施例只是為了說明本發(fā)明的技術(shù)構(gòu)思及特點,其目的是在于讓本領(lǐng)域內(nèi)的普通技術(shù)人員能夠了解本發(fā)明的內(nèi)容并據(jù)以實施,并不能以此限制本發(fā)明的保護范圍。凡是根據(jù)本
【發(fā)明內(nèi)容】
的實質(zhì)所做出的等效的變化或修飾,都應(yīng)涵蓋在本發(fā)明的保護范圍內(nèi)。
【主權(quán)項】
1.一種文本敏感詞過濾系統(tǒng),其特征在于,其包括: 第一轉(zhuǎn)換單元,用于通過文本-語音轉(zhuǎn)換將敏感詞文本庫轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫,所述敏感詞音頻數(shù)據(jù)庫包括若干個敏感詞音頻數(shù)據(jù)組; 接收單元,用于通過第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲為臨時文本文件; 第二轉(zhuǎn)換單元,用于通過文本-語音轉(zhuǎn)換將臨時文本文件轉(zhuǎn)換成臨時音頻數(shù)據(jù)文件并存儲,所述臨時文本文件和臨時音頻數(shù)據(jù)文件相關(guān)聯(lián); 判斷單元,用于將所述敏感詞音頻數(shù)據(jù)組分別與臨時音頻數(shù)據(jù)文件進行比對,獲得所述臨時音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時音頻數(shù)據(jù)文件中的位置; 過濾單元,用于對臨時文本文件進行過濾,并通過第二網(wǎng)絡(luò)將過濾后的臨時文本文件發(fā)送至接收終端,所述對臨時文本文件進行過濾的方法是將臨時文本文件中與所述位置相對應(yīng)的文本內(nèi)容進行刪除。2.一種文本敏感詞過濾方法,其特征在于,其包括以下步驟: 步驟1、通過文本-語音轉(zhuǎn)換將敏感詞文本庫轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫,所述敏感詞音頻數(shù)據(jù)庫包括若干個敏感詞音頻數(shù)據(jù)組; 步驟2、通過第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲為臨時文本文件; 步驟3、通過文本-語音轉(zhuǎn)換將臨時文本文件轉(zhuǎn)換成臨時音頻數(shù)據(jù)文件并存儲,所述臨時文本文件和臨時音頻數(shù)據(jù)文件相關(guān)聯(lián); 步驟4、將所述敏感詞音頻數(shù)據(jù)組分別與臨時音頻數(shù)據(jù)文件進行比對,獲得所述臨時音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時音頻數(shù)據(jù)文件中的位置; 步驟5、對臨時文本文件進行過濾,并通過第二網(wǎng)絡(luò)將過濾后的臨時文本文件發(fā)送至接收終端,所述對臨時文本文件進行過濾的方法是將臨時文本文件中與所述位置相對應(yīng)的文本內(nèi)容進行刪除。
【專利摘要】本發(fā)明提供了一種文本敏感詞過濾系統(tǒng),其包括:第一轉(zhuǎn)換單元,用于通過文本-語音轉(zhuǎn)換將敏感詞文本庫轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫;接收單元,用于接收待發(fā)送的文本文件;第二轉(zhuǎn)換單元,用于通過文本-語音轉(zhuǎn)換將臨時文本文件轉(zhuǎn)換成臨時音頻數(shù)據(jù)文件并存儲;判斷單元,用于將所述敏感詞音頻數(shù)據(jù)組分別與臨時音頻數(shù)據(jù)文件進行比對;過濾單元,用于對臨時文本文件進行過濾,并發(fā)送至接收終端。本發(fā)明還公開了一種文本敏感詞過濾方法。本發(fā)明在現(xiàn)有敏感詞文本庫的基礎(chǔ)上,將待發(fā)送文本文件以及敏感詞文本庫均通過文本-語音轉(zhuǎn)換后形成音頻數(shù)據(jù)文件和敏感詞音頻數(shù)據(jù)庫,然后再進行比對,在很大程度上滿足信息過濾的要求,而且計算量小、速度快。
【IPC分類】G06F17/30
【公開號】CN105335483
【申請?zhí)枴緾N201510662461
【發(fā)明人】楊晨陽
【申請人】廣州市暢運信息科技有限公司
【公開日】2016年2月17日
【申請日】2015年10月14日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1