的文本進行組合,以得到組合的文本,并將這一組合的文本所對應(yīng)的出現(xiàn)頻度加I。
[0075]優(yōu)選的,未匹配處理模塊130可將連續(xù)的切分的文本進行兩兩組合,以得到組合的文本,此時,將判斷這一組合的文本是否有對應(yīng)的出現(xiàn)頻度,若是,則更新其所對應(yīng)的出現(xiàn)頻度,將出現(xiàn)頻度加1,若否,則說明這一組合的文本是第一次出現(xiàn)的,因此,所對應(yīng)的出現(xiàn)頻度被更新為I。
[0076]進一步的,若詞庫中不存在與某一切分的文本相匹配的詞,則說明該切分的文本為非關(guān)鍵詞,因此,需要進一步區(qū)分該切分的文本是有效詞還是噪音,以避免作為有效詞的非關(guān)鍵詞被誤當(dāng)成噪音而清除。
[0077]若切分的文本均從詞庫中提取得到與之相匹配的詞,則說明文本信息中所有切分的文本均有對應(yīng)的關(guān)鍵詞,此時,組合排列模塊150直接按照偏移量對切分的文本匹配的詞進行組合排列即可得到文本信息對應(yīng)的有效文本信息。
[0078]組合文本處理模塊140,用于根據(jù)出現(xiàn)頻度獲取組合的文本在文本信息的偏移量。
[0079]本實施例中,出現(xiàn)頻度較高則說明組合的文本有可能是新出現(xiàn)的火星文、網(wǎng)絡(luò)用語、手機號碼以及即時通信號碼等,因此,若某一組合的文本對應(yīng)的出現(xiàn)頻度較高,則說明該組合的文本雖然是非關(guān)鍵字,但也是有一定含義的,并不是無含義的各種干擾字符,因此,組合文本處理模塊140將獲取該組合的文本在文本信息中的偏移量。
[0080]組合排列模塊150,用于根據(jù)偏移量將切分的文本匹配的詞和組合的文本進行組合排列得到有效文本信息。
[0081]本實施例中,組合排列模塊150按照偏移量的大小對切分的文本匹配的詞和組合的文本進行組合排列,以得到消除了噪音的有效文本信息,進而使得有效文本信息摒棄了原有文本信息中的噪音,由來自于詞庫中的詞以及作為非關(guān)鍵詞的組合的文本構(gòu)成了有效文本信息,使得原有文本信息中存在的數(shù)字、字母不會被當(dāng)成噪音而清除,保證了有效文本信息中文本的完整性。
[0082]在一個實施例中,該裝置還包括了文本轉(zhuǎn)換模塊。該文本轉(zhuǎn)換模塊用于將文本信息中的繁體文本轉(zhuǎn)換為簡體文本。
[0083]本實施例中,文本轉(zhuǎn)換模塊對文本信息中的文本進行繁簡體轉(zhuǎn)換得到簡體文本,以方便識別文本信息中的噪音。
[0084]在另一個實施例中,該裝置還包括了去除模塊,該去除模塊將用于去除文本信息中的標(biāo)點字符和圖形符號。
[0085]本實施例中,由于標(biāo)識字符和圖形字符是沒有任何含義的,大都用于對文本信息是否為垃圾信息或者對該文本信息的語義識別造成干擾,因此,去除模塊將去除文本信息中的標(biāo)點字符和圖形字符,消除標(biāo)點字符和圖形字符的干擾。
[0086]具體的,該圖形字符為GBK編碼中的圖形符號區(qū)字符,包括GBK/1和GBK/5區(qū)。
[0087]需要說明的是,文本信息的繁簡體轉(zhuǎn)換以及標(biāo)點字符和圖形字符在文本信息的去除可根據(jù)運營的實際需要來靈活地調(diào)整其先后順序,也就是說,去除模塊可介于文本轉(zhuǎn)換模塊和分詞處理模塊110之間,可先進行文本信息的繁簡體轉(zhuǎn)換,再進行標(biāo)點字符和圖形字符在文本信息中的去除;但也可將文本轉(zhuǎn)換模塊介于去除模塊和分詞處理模塊之間,先進行標(biāo)點字符和圖形字符在文本信息中的去除,再進行文本信息的繁簡體轉(zhuǎn)換。
[0088]如圖4所示,在一個實施例中,上述組合文本處理模塊140包括了判斷單元141和組合文本偏移量獲取單元143。
[0089]判斷單元141,用于判斷出現(xiàn)頻度是否大于閾值,若是,則通知該組合文本偏移量獲取單元143,若否,則通知組合排列模塊150。
[0090]本實施例中,預(yù)先設(shè)置閾值,該閾值用于判定當(dāng)前組合的文本是否較為頻繁地出現(xiàn),若為是,則通知該組合文本偏移量獲取單元143進行偏移量的獲取,若為否,則說明該組合的文本是噪音的可能性很高,因此,不需要提取該組合文本以及對應(yīng)的偏移量。
[0091]組合文本偏移量獲取單元143,用于獲取組合文本在文本信息中的偏移量。
[0092]在另一個實施例中,該裝置還包括了新增模塊,新增模塊用于將組合的文本新增至用于進行文本匹配的詞庫中。
[0093]本實施例中,新增模塊將出現(xiàn)頻度大于預(yù)先設(shè)置的閾值的組合的文本新增至詞庫中,該詞庫存儲了與切分的文本進行比對的大量詞。將視為有效詞的組合的文本添加至詞庫中,以使得后續(xù)的文本信息處理中若再次出現(xiàn)時,將被視為關(guān)鍵詞而被準(zhǔn)確快速地識別出來,實現(xiàn)了詞庫存儲的詞的動態(tài)遞增,不斷地提高了文本信息中噪音的清除能力。
[0094]上述文本信息的處理裝置可用于垃圾短信、惡意消息的過濾以及各種語義識別,通過對文本信息中噪音的清除將有效地提高了垃圾短信、惡意消息的準(zhǔn)確過濾以及語義識別的準(zhǔn)確性。
[0095]進一步的,通過如上所述的文本信息的處理裝置所得到的有效文本信息由于不存在噪音的干擾,使得信息過濾應(yīng)用得到將識別得到的垃圾短信可惡意消息攔截,避免垃圾短信或惡意消息的廣泛傳播,實現(xiàn)信息安全檢測,大大地提高了垃圾短信或惡意消息的識別率。
[0096]圖5為能實現(xiàn)本發(fā)明實施例的一個計算機系統(tǒng)1000的模塊圖。該計算機系統(tǒng)1000只是一個適用于本發(fā)明的計算機環(huán)境的示例,不能認(rèn)為是提出了對本發(fā)明的使用范圍的任何限制。計算機系統(tǒng)1000也不能解釋為需要依賴于或具有圖示的示例性的計算機系統(tǒng)1000中的一個或多個部件的組合。
[0097]圖5中示出的計算機系統(tǒng)1000是一個適合用于本發(fā)明的計算機系統(tǒng)的例子。具有不同子系統(tǒng)配置的其它架構(gòu)也可以使用。例如有大眾所熟知的臺式機、筆記本、個人數(shù)字助理、智能電話、平板電腦、便攜式媒體播放器、機頂盒等類似設(shè)備可以適用于本發(fā)明的一些實施例。但不限于以上所列舉的設(shè)備。
[0098]如圖5所示,計算機系統(tǒng)1000包括處理器1010、存儲器1020和系統(tǒng)總線1022。包括存儲器1020和處理器1010在內(nèi)的各種系統(tǒng)組件連接到系統(tǒng)總線1022上。處理器1010是一個用來通過計算機系統(tǒng)中基本的算術(shù)和邏輯運算來執(zhí)行計算機程序指令的硬件。存儲器1020是一個用于臨時或永久性存儲計算程序或數(shù)據(jù)(例如,程序狀態(tài)信息)的物理設(shè)備。系統(tǒng)總線1020可以為以下幾種類型的總線結(jié)構(gòu)中的任意一種,包括存儲器總線或存儲控制器、外設(shè)總線和局部總線。處理器1010和存儲器1020可以通過系統(tǒng)總線1022進行數(shù)據(jù)通信。其中存儲器1020包括只讀存儲器(ROM)或閃存(圖中都未示出),以及隨機存取存儲器(RAM),RAM通常是指加載了操作系統(tǒng)和應(yīng)用程序的主存儲器。
[0099]計算機系統(tǒng)1000還包括顯示接口 1030 (例如,圖形處理單元)、顯示設(shè)備1040 (例如,液晶顯示器)、音頻接口 1050 (例如,聲卡)以及音頻設(shè)備1060 (例如,揚聲器)。顯示設(shè)備1040和音頻設(shè)備1060是用于體驗多媒體內(nèi)容的媒體設(shè)備。
[0100]計算機系統(tǒng)1000 —般包括一個存儲設(shè)備1070。存儲設(shè)備1070可以從多種計算機可讀介質(zhì)中選擇,計算機可讀介質(zhì)是指可以通過計算機系統(tǒng)1000訪問的任何可利用的介質(zhì),包括移動的和固定的兩種介質(zhì)。例如,計算機可讀介質(zhì)包括但不限