處理文本信息的方法及裝置的制造方法_3

文檔序號(hào)：8299011閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>處理文本信息的方法及裝置的制造方法

示，本實(shí)施例的處理文本信息的方法包括以下步驟：
[0049] 步驟S21，獲取文本信息并提取所述文本信息內(nèi)包括的文字字符，從所述文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符。
[0050] 步驟S21具體可參考第一實(shí)施例的相應(yīng)內(nèi)容，此處不再贅述。
[0051] 步驟S22,分別將所述文字字符與所述目標(biāo)字符轉(zhuǎn)化為給定編碼形式的字符，計(jì)算轉(zhuǎn)化后的所述目標(biāo)字符的總字節(jié)數(shù)與所述文字字符中去除所述目標(biāo)字符后剩余字符的總字節(jié)數(shù)的比值，將所述比值作為所述文本信息的過(guò)濾指數(shù)。
[0052] 以短信為例，假設(shè)文本信息為短信的內(nèi)容，通常，用戶終端以rou(ProtocolData Unit，協(xié)議數(shù)據(jù)單元）模式收發(fā)短信，PDU模式下的文本信息內(nèi)容可以使用以下3種編碼形式：7_bit(比特）、8_bit和UCS2(UniversalCharacterSet2,通用字符集2)編碼形式，其中7_bit編碼用于發(fā)送普通的ASCII(AmericanStandardCodeforInformation Interchange，美國(guó)信息互換標(biāo)準(zhǔn)代碼）字符，8-bit編碼通常用于發(fā)送數(shù)據(jù)消息，UCS2編碼用于發(fā)送Unicode字符。其中，Unicode是一種計(jì)算機(jī)字符編碼，也稱"統(tǒng)一碼"或"萬(wàn)國(guó) 碼"。Unicode是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的，它為每種語(yǔ)言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼，以滿足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。
[0053] 于本實(shí)施例一【具體實(shí)施方式】中，用戶終端可將文本信息中所包含的以7-bit、 8-bit和/或UCS2編碼形式編碼的文字字符與目標(biāo)字符分別轉(zhuǎn)化為UTF-8編碼形式的字符。UTF-8 (8_bitUnicodeTransformationFormat)是一種針對(duì)Unicode的可變長(zhǎng)度字符編碼，UTF-8以字節(jié)為單位對(duì)Unicode進(jìn)行編碼，特點(diǎn)是對(duì)不同范圍的字符使用不同長(zhǎng)度的編碼。
[0054] 于本實(shí)施例其他【具體實(shí)施方式】中，給定編碼形式也可以為GBK編碼（Chinese InternalCodeSpecification, 一種漢字編石馬標(biāo)準(zhǔn)）、ANSI(AmericanNationalStandards Institute，美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì)的標(biāo)準(zhǔn)碼）編碼等編碼形式。
[0055] 可以理解的，由于UTF-8為國(guó)際通用的編碼，優(yōu)選地，將文本信息中所包含的文字字符與目標(biāo)字符分別轉(zhuǎn)化為UTF-8編碼形式的字符，這樣可避免信息的丟失，提高垃圾文本信息過(guò)濾結(jié)果的準(zhǔn)確性。
[0056] 用戶終端100分別統(tǒng)計(jì)轉(zhuǎn)化后的文本信息中所包含的文字字符的總字節(jié)數(shù)B1與轉(zhuǎn)化后的目標(biāo)字符的總字節(jié)數(shù)B2,將B1與B2做減法運(yùn)算后獲得文字字符中除去目標(biāo)字符的剩余字符（也即有用信息字符）的總字節(jié)數(shù)B3,其中B3= (B1-B2)，并計(jì)算取得B2與B3的比值R=B2/B3 (也即該文本信息的信噪比R)，也即文本信息中的目標(biāo)字符(干擾信息字符）占有用信息字符的比例，作為文本信息的過(guò)濾指數(shù)。
[0057] 步驟S23,判斷所述過(guò)濾指數(shù)是否處于預(yù)置的數(shù)值區(qū)域內(nèi)。
[0058] 若所述過(guò)濾指數(shù)處于預(yù)置的數(shù)值區(qū)域內(nèi)，則執(zhí)行步驟S24:判定所述文本信息為垃圾文本信息，對(duì)所述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操作。
[0059] 具體的，若過(guò)濾指數(shù)R=B2/B3處于預(yù)置的數(shù)值區(qū)域內(nèi)，則判定接收的文本信息為垃圾文本信息，并對(duì)該文本信息進(jìn)行對(duì)應(yīng)的操作，例如：對(duì)所述文本信息進(jìn)行攔截、刪除、或按照預(yù)置提示方式（例如增加消息尾巴）進(jìn)行提示等等。具體的，可將該文本信息移動(dòng)至預(yù)置的文件夾中，并通知用戶從預(yù)置的文件夾中讀取該文本信息以便對(duì)該文本信息進(jìn)行確認(rèn)，或者直接將該文本信息刪除?？梢岳斫獾模脩艚K端還可在攔截該文本信息后，將該文本信息的主叫號(hào)碼及內(nèi)容信息上報(bào)給垃圾文本信息監(jiān)控中心，以便用戶終端以及其他用戶終端通過(guò)垃圾文本信息監(jiān)控中心，對(duì)此后來(lái)自該文本信息的主叫號(hào)碼的其他文本信息進(jìn)行監(jiān)控。或者，用戶終端還可對(duì)該文本信息進(jìn)行標(biāo)注以提醒用戶該文本信息為垃圾信息。
[0060] 由于是根據(jù)文本信息中符合預(yù)定規(guī)則的目標(biāo)字符來(lái)計(jì)算過(guò)濾指數(shù)，因此可解決現(xiàn) 有技術(shù)中因非法用戶在文本信息中添加大量的目標(biāo)字符而導(dǎo)致的垃圾文本信息無(wú)法被過(guò) 濾的問(wèn)題，從而可提高垃圾文本信息過(guò)濾的準(zhǔn)確性及效率。
[0061] 于本實(shí)施例中，若所述過(guò)濾指數(shù)不處于預(yù)置的數(shù)值區(qū)域內(nèi)，則執(zhí)行步驟S25:分析所述過(guò)濾指數(shù)是大于所述預(yù)置的數(shù)值區(qū)域的最大值，還是小于所述預(yù)置的數(shù)值區(qū)域的最小值，根據(jù)分析結(jié)果與預(yù)置的權(quán)重表，為所述過(guò)濾指數(shù)分配對(duì)應(yīng)的權(quán)重值。
[0062] 步驟S26:分析所述文字字符中是否包含與預(yù)置的目標(biāo)關(guān)鍵字相匹配的字符以及所述文字字符中包含的所述與所述目標(biāo)關(guān)鍵字相匹配的字符的情況，根據(jù)所述預(yù)置的權(quán)重表，為分析結(jié)果分配對(duì)應(yīng)的權(quán)重值。
[0063] 步驟S27:獲取所述文本信息的發(fā)送方的用戶標(biāo)識(shí)，將所述用戶標(biāo)識(shí)與預(yù)置的黑白名單中的用戶標(biāo)識(shí)進(jìn)行匹配，根據(jù)所述預(yù)置的權(quán)重表，為匹配結(jié)果分配對(duì)應(yīng)的權(quán)重值。
[0064] 具體的，若過(guò)濾指數(shù)R未處于預(yù)置的數(shù)值區(qū)域內(nèi)，則用戶終端將該過(guò)濾指數(shù)R與預(yù) 置的數(shù)值區(qū)域進(jìn)行分析，獲得過(guò)濾指數(shù)分析結(jié)果。該過(guò)濾指數(shù)分析結(jié)果可包括：該文本信息的過(guò)濾指數(shù)R大于預(yù)置的數(shù)值區(qū)域的最大值，或該文本信息的過(guò)濾指數(shù)R小于預(yù)置的數(shù)值區(qū)域的最大值。
[0065] 于本實(shí)施例一【具體實(shí)施方式】中，用戶終端中可預(yù)置權(quán)重分配表，如下表1所不，該權(quán)重分配表中記載有獲取的過(guò)濾指數(shù)分析結(jié)果及其對(duì)應(yīng)的權(quán)重值。
[0066] 表 1
[0067]
【主權(quán)項(xiàng)】
1. 一種處理文本信息的方法，其特征在于，包括：獲取文本信息并提取所述文本信息內(nèi)包括的文字字符；從所述文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符；根據(jù)所述目標(biāo)字符，計(jì)算所述文本信息的過(guò)濾指數(shù)；以及當(dāng)所述過(guò)濾指數(shù)滿足預(yù)定條件時(shí)，對(duì)所述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操作。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述從所述文字字符中提取符合預(yù)定規(guī) 則的目標(biāo)字符的步驟，包括：將提取的所述文字字符逐一與預(yù)置的干擾字符字典表中所記載的干擾信息字符進(jìn)行匹配，將所述文字字符中與所述干擾信息字符相匹配的字符作為所述目標(biāo)字符。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述目標(biāo)字符，計(jì)算所述文本信息的過(guò)濾指數(shù)的步驟包括：分別將所述文字字符與所述目標(biāo)字符轉(zhuǎn)化為給定編碼形式的字符；計(jì)算轉(zhuǎn)化后的所述目標(biāo)字符的總字節(jié)數(shù)與所述文字字符中去除所述目標(biāo)字符后剩余字符的總字節(jié)數(shù)的比值，將所述比值作為所述文本信息的過(guò)濾指數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述當(dāng)所述過(guò)濾指數(shù)滿足預(yù)定條件時(shí)，對(duì) 所述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操作的步驟包括：當(dāng)所述過(guò)濾指數(shù)處于預(yù)置的數(shù)值區(qū)域內(nèi)時(shí)，判定所述文本信息為垃圾文本信息，對(duì)所述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操作。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3 4

相關(guān)技術(shù)