示,本實(shí)施例的處理文本信息的方法包括以下步驟:
[0049] 步驟S21,獲取文本信息并提取所述文本信息內(nèi)包括的文字字符,從所述文字字符 中提取符合預(yù)定規(guī)則的目標(biāo)字符。
[0050] 步驟S21具體可參考第一實(shí)施例的相應(yīng)內(nèi)容,此處不再贅述。
[0051] 步驟S22,分別將所述文字字符與所述目標(biāo)字符轉(zhuǎn)化為給定編碼形式的字符,計(jì)算 轉(zhuǎn)化后的所述目標(biāo)字符的總字節(jié)數(shù)與所述文字字符中去除所述目標(biāo)字符后剩余字符的總 字節(jié)數(shù)的比值,將所述比值作為所述文本信息的過(guò)濾指數(shù)。
[0052] 以短信為例,假設(shè)文本信息為短信的內(nèi)容,通常,用戶終端以rou(ProtocolData Unit,協(xié)議數(shù)據(jù)單元)模式收發(fā)短信,PDU模式下的文本信息內(nèi)容可以使用以下3種編碼 形式:7_bit(比特)、8_bit和UCS2(UniversalCharacterSet2,通用字符集2)編碼形 式,其中7_bit編碼用于發(fā)送普通的ASCII(AmericanStandardCodeforInformation Interchange,美國(guó)信息互換標(biāo)準(zhǔn)代碼)字符,8-bit編碼通常用于發(fā)送數(shù)據(jù)消息,UCS2編碼 用于發(fā)送Unicode字符。其中,Unicode是一種計(jì)算機(jī)字符編碼,也稱"統(tǒng)一碼"或"萬(wàn)國(guó) 碼"。Unicode是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,它為每種語(yǔ)言中的每個(gè)字 符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。
[0053] 于本實(shí)施例一【具體實(shí)施方式】中,用戶終端可將文本信息中所包含的以7-bit、 8-bit和/或UCS2編碼形式編碼的文字字符與目標(biāo)字符分別轉(zhuǎn)化為UTF-8編碼形式的字 符。UTF-8 (8_bitUnicodeTransformationFormat)是一種針對(duì)Unicode的可變長(zhǎng)度字 符編碼,UTF-8以字節(jié)為單位對(duì)Unicode進(jìn)行編碼,特點(diǎn)是對(duì)不同范圍的字符使用不同長(zhǎng)度 的編碼。
[0054] 于本實(shí)施例其他【具體實(shí)施方式】中,給定編碼形式也可以為GBK編碼(Chinese InternalCodeSpecification, 一種漢字編石馬標(biāo)準(zhǔn))、ANSI(AmericanNationalStandards Institute,美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì)的標(biāo)準(zhǔn)碼)編碼等編碼形式。
[0055] 可以理解的,由于UTF-8為國(guó)際通用的編碼,優(yōu)選地,將文本信息中所包含的文字 字符與目標(biāo)字符分別轉(zhuǎn)化為UTF-8編碼形式的字符,這樣可避免信息的丟失,提高垃圾文 本信息過(guò)濾結(jié)果的準(zhǔn)確性。
[0056] 用戶終端100分別統(tǒng)計(jì)轉(zhuǎn)化后的文本信息中所包含的文字字符的總字節(jié)數(shù)B1與 轉(zhuǎn)化后的目標(biāo)字符的總字節(jié)數(shù)B2,將B1與B2做減法運(yùn)算后獲得文字字符中除去目標(biāo)字符 的剩余字符(也即有用信息字符)的總字節(jié)數(shù)B3,其中B3= (B1-B2),并計(jì)算取得B2與B3的 比值R=B2/B3 (也即該文本信息的信噪比R),也即文本信息中的目標(biāo)字符(干擾信息字符) 占有用信息字符的比例,作為文本信息的過(guò)濾指數(shù)。
[0057] 步驟S23,判斷所述過(guò)濾指數(shù)是否處于預(yù)置的數(shù)值區(qū)域內(nèi)。
[0058] 若所述過(guò)濾指數(shù)處于預(yù)置的數(shù)值區(qū)域內(nèi),則執(zhí)行步驟S24:判定所述文本信息為 垃圾文本信息,對(duì)所述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操作。
[0059] 具體的,若過(guò)濾指數(shù)R=B2/B3處于預(yù)置的數(shù)值區(qū)域內(nèi),則判定接收的文本信息為 垃圾文本信息,并對(duì)該文本信息進(jìn)行對(duì)應(yīng)的操作,例如:對(duì)所述文本信息進(jìn)行攔截、刪除、或 按照預(yù)置提示方式(例如增加消息尾巴)進(jìn)行提示等等。具體的,可將該文本信息移動(dòng)至 預(yù)置的文件夾中,并通知用戶從預(yù)置的文件夾中讀取該文本信息以便對(duì)該文本信息進(jìn)行確 認(rèn),或者直接將該文本信息刪除??梢岳斫獾模脩艚K端還可在攔截該文本信息后,將該文 本信息的主叫號(hào)碼及內(nèi)容信息上報(bào)給垃圾文本信息監(jiān)控中心,以便用戶終端以及其他用戶 終端通過(guò)垃圾文本信息監(jiān)控中心,對(duì)此后來(lái)自該文本信息的主叫號(hào)碼的其他文本信息進(jìn)行 監(jiān)控。或者,用戶終端還可對(duì)該文本信息進(jìn)行標(biāo)注以提醒用戶該文本信息為垃圾信息。
[0060] 由于是根據(jù)文本信息中符合預(yù)定規(guī)則的目標(biāo)字符來(lái)計(jì)算過(guò)濾指數(shù),因此可解決現(xiàn) 有技術(shù)中因非法用戶在文本信息中添加大量的目標(biāo)字符而導(dǎo)致的垃圾文本信息無(wú)法被過(guò) 濾的問(wèn)題,從而可提高垃圾文本信息過(guò)濾的準(zhǔn)確性及效率。
[0061] 于本實(shí)施例中,若所述過(guò)濾指數(shù)不處于預(yù)置的數(shù)值區(qū)域內(nèi),則執(zhí)行步驟S25:分析 所述過(guò)濾指數(shù)是大于所述預(yù)置的數(shù)值區(qū)域的最大值,還是小于所述預(yù)置的數(shù)值區(qū)域的最小 值,根據(jù)分析結(jié)果與預(yù)置的權(quán)重表,為所述過(guò)濾指數(shù)分配對(duì)應(yīng)的權(quán)重值。
[0062] 步驟S26:分析所述文字字符中是否包含與預(yù)置的目標(biāo)關(guān)鍵字相匹配的字符以及 所述文字字符中包含的所述與所述目標(biāo)關(guān)鍵字相匹配的字符的情況,根據(jù)所述預(yù)置的權(quán)重 表,為分析結(jié)果分配對(duì)應(yīng)的權(quán)重值。
[0063] 步驟S27:獲取所述文本信息的發(fā)送方的用戶標(biāo)識(shí),將所述用戶標(biāo)識(shí)與預(yù)置的黑 白名單中的用戶標(biāo)識(shí)進(jìn)行匹配,根據(jù)所述預(yù)置的權(quán)重表,為匹配結(jié)果分配對(duì)應(yīng)的權(quán)重值。
[0064] 具體的,若過(guò)濾指數(shù)R未處于預(yù)置的數(shù)值區(qū)域內(nèi),則用戶終端將該過(guò)濾指數(shù)R與預(yù) 置的數(shù)值區(qū)域進(jìn)行分析,獲得過(guò)濾指數(shù)分析結(jié)果。該過(guò)濾指數(shù)分析結(jié)果可包括:該文本信息 的過(guò)濾指數(shù)R大于預(yù)置的數(shù)值區(qū)域的最大值,或該文本信息的過(guò)濾指數(shù)R小于預(yù)置的數(shù)值 區(qū)域的最大值。
[0065] 于本實(shí)施例一【具體實(shí)施方式】中,用戶終端中可預(yù)置權(quán)重分配表,如下表1所不,該 權(quán)重分配表中記載有獲取的過(guò)濾指數(shù)分析結(jié)果及其對(duì)應(yīng)的權(quán)重值。
[0066] 表 1
[0067]
【主權(quán)項(xiàng)】
1. 一種處理文本信息的方法,其特征在于,包括: 獲取文本信息并提取所述文本信息內(nèi)包括的文字字符; 從所述文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符; 根據(jù)所述目標(biāo)字符,計(jì)算所述文本信息的過(guò)濾指數(shù);以及 當(dāng)所述過(guò)濾指數(shù)滿足預(yù)定條件時(shí),對(duì)所述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操作。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述文字字符中提取符合預(yù)定規(guī) 則的目標(biāo)字符的步驟,包括: 將提取的所述文字字符逐一與預(yù)置的干擾字符字典表中所記載的干擾信息字符進(jìn)行 匹配,將所述文字字符中與所述干擾信息字符相匹配的字符作為所述目標(biāo)字符。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)字符,計(jì)算所述文本信 息的過(guò)濾指數(shù)的步驟包括: 分別將所述文字字符與所述目標(biāo)字符轉(zhuǎn)化為給定編碼形式的字符; 計(jì)算轉(zhuǎn)化后的所述目標(biāo)字符的總字節(jié)數(shù)與所述文字字符中去除所述目標(biāo)字符后剩余 字符的總字節(jié)數(shù)的比值,將所述比值作為所述文本信息的過(guò)濾指數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述當(dāng)所述過(guò)濾指數(shù)滿足預(yù)定條件時(shí),對(duì) 所述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操作的步驟包括: 當(dāng)所述過(guò)濾指數(shù)處于預(yù)置的數(shù)值區(qū)域內(nèi)時(shí),判定所述文本信息為垃圾文本信息,對(duì)所 述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操作。