處理文本信息的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)通訊技術(shù),尤其涉及一種處理文本信息的方法及裝置。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)及網(wǎng)絡(luò)通信技術(shù)的迅速發(fā)展,人們?cè)絹碓蕉嗟赝ㄟ^網(wǎng)絡(luò)進(jìn)行文本信息 交流。然而,由于文本信息可以非常容易到達(dá)用戶手機(jī)等用戶終端,因此常常被利用作為廣 告推廣的渠道,某些不法者甚至利用文本信息發(fā)送詐騙、色情等垃圾信息,嚴(yán)重影響和騷擾 用戶的正常生活。
[0003] 現(xiàn)有的垃圾文本信息過濾技術(shù),主要是通過關(guān)鍵字過濾與黑白名單過濾的方法對(duì) 垃圾文本信息進(jìn)行過濾。然而,基于關(guān)鍵字的垃圾文本信息過濾方法,由于關(guān)鍵字很難包含 所有非法信息,并且惡意用戶可通過諸如:在文本信息內(nèi)容中添加大量的字符、標(biāo)點(diǎn)符號(hào)等 干擾字符的方式來回避關(guān)鍵字,從而避免被過濾。而基于黑白名單過濾的方法,由于是根據(jù) 用戶來處理文本信息,假如文本信息來自白名單中的用戶,則即使該文本信息內(nèi)容中包含 垃圾信息,也不會(huì)被過濾。
[0004] 因此,現(xiàn)有的垃圾文本信息過濾技術(shù)的過濾準(zhǔn)確性不高,缺乏效率。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提供一種處理文本信息的方法及裝置,可提高垃圾文本信息過 濾的準(zhǔn)確性及效率。
[0006] -種處理文本信息的方法,包括:獲取文本信息并提取所述文本信息內(nèi)包括的文 字字符;從所述文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符;根據(jù)所述目標(biāo)字符,計(jì)算所述 文本信息的過濾指數(shù);以及當(dāng)所述過濾指數(shù)滿足預(yù)定條件時(shí),對(duì)所述文本信息執(zhí)行與所述 預(yù)定條件對(duì)應(yīng)的操作。
[0007] -種處理文本信息的裝置,包括:文字字符提取模塊,用于獲取文本信息并提取所 述文本信息內(nèi)包括的文字字符;目標(biāo)字符提取模塊,用于從所述文字字符提取模塊提取的 所述文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符;計(jì)算模塊,用于根據(jù)所述目標(biāo)字符提取模 塊提取的所述目標(biāo)字符,計(jì)算所述文本信息的過濾指數(shù);以及處理模塊,用于當(dāng)所述計(jì)算 模塊計(jì)算的所述過濾指數(shù)滿足預(yù)定條件時(shí),對(duì)所述文本信息執(zhí)行與所述預(yù)定條件對(duì)應(yīng)的操 作。
[0008] 本發(fā)明實(shí)施例提供的處理文本信息的方法及裝置,通過提取文本信息內(nèi)包括的文 字字符,從文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符,根據(jù)目標(biāo)字符計(jì)算文本信息的過濾 指數(shù),當(dāng)過濾指數(shù)滿足預(yù)定條件時(shí),對(duì)文本信息執(zhí)行與預(yù)定條件對(duì)應(yīng)的操作,由于是根據(jù)文 本信息中符合預(yù)定規(guī)則的目標(biāo)字符來計(jì)算過濾指數(shù),因此可解決現(xiàn)有技術(shù)中因非法用戶在 文本信息中添加大量的目標(biāo)字符而導(dǎo)致的垃圾文本信息無法被過濾的問題,從而可提高垃 圾文本信息過濾的準(zhǔn)確性及效率。
[0009] 為讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例, 并配合所附圖式,作詳細(xì)說明如下。
【附圖說明】
[0010] 圖1為本發(fā)明實(shí)施例提供的在用戶終端內(nèi)進(jìn)行處理文本信息的方法及裝置的應(yīng) 用環(huán)境圖。
[0011] 圖2示出了一種用戶終端的結(jié)構(gòu)框圖。
[0012] 圖3為本發(fā)明第一實(shí)施例提供的在用戶終端內(nèi)進(jìn)行處理文本信息的方法的流程 圖。
[0013] 圖4為本發(fā)明第二實(shí)施例提供的在用戶終端內(nèi)進(jìn)行處理文本信息的方法的流程 圖。
[0014] 圖5為本發(fā)明第三實(shí)施例提供的處理文本信息的裝置的結(jié)構(gòu)示意圖。
[0015] 圖6為圖5的裝置的存儲(chǔ)環(huán)境示意圖。
[0016] 圖7為本發(fā)明第四實(shí)施例提供的處理文本信息的裝置的結(jié)構(gòu)示意圖。
[0017] 圖8為本發(fā)明第四實(shí)施例提供的處理文本信息的裝置中部分模塊的結(jié)構(gòu)示意圖。
[0018] 圖9為本發(fā)明第四實(shí)施例提供的處理文本信息的裝置中部分模塊的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019] 為更進(jìn)一步闡述本發(fā)明為實(shí)現(xiàn)預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合 附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明的【具體實(shí)施方式】、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如后。
[0020] 本發(fā)明實(shí)施例所提供的處理文本信息的方法及裝置可應(yīng)用于如圖1所示的應(yīng)用 環(huán)境中,實(shí)現(xiàn)對(duì)垃圾文本信息的有效過濾。如圖1所示,多個(gè)用戶終端100之間可通過利用 基站200轉(zhuǎn)發(fā)短信的方式,完成文本信息的收發(fā)。可以理解的,基站200可替代的也可為服 務(wù)器,多個(gè)用戶終端1〇〇之間可以通過服務(wù)器完成文本信息的收發(fā)。
[0021] 圖2示出了一種用戶終端的結(jié)構(gòu)框圖。用戶終端可以包括移動(dòng)電話(如:智能手 機(jī))以及其他具有用戶終端功能的計(jì)算機(jī),例如,可以是平板電腦、PDA(PersonalDigital Assistant,掌上電腦)等便攜式、袖珍式、手持式、計(jì)算機(jī)內(nèi)置的或車載的移動(dòng)裝置、以及臺(tái) 式計(jì)算機(jī)等非移動(dòng)裝置等等。
[0022] 如圖1所示,用戶終端100包括存儲(chǔ)器102、存儲(chǔ)控制器104, 一個(gè)或多個(gè)(圖中僅 示出一個(gè))處理器106、外設(shè)接口 108、射頻模塊110、定位模塊112、圖像采集設(shè)備114、音頻 模塊116、觸控屏幕118以及按鍵模塊120。這些組件通過一條或多條通訊總線/信號(hào)線 122相互通訊。
[0023] 可以理解,圖1所示的結(jié)構(gòu)僅為示意,用戶終端100還可包括比圖1中所示更多或 者更少的組件,或者具有與圖1所示不同的配置。圖1中所示的各組件可以采用硬件、軟件 或其組合實(shí)現(xiàn)。
[0024] 存儲(chǔ)器102可用于存儲(chǔ)軟件程序以及模塊,如本發(fā)明實(shí)施例中的在用戶終端內(nèi)進(jìn) 行處理文本信息的方法及裝置對(duì)應(yīng)的程序指令/模塊,處理器102通過運(yùn)行存儲(chǔ)在存儲(chǔ)器 104內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的在用戶終 端內(nèi)進(jìn)行處理文本信息的方法。
[0025] 存儲(chǔ)器102可包括高速隨機(jī)存儲(chǔ)器,還可包括非易失性存儲(chǔ)器,如一個(gè)或者多個(gè) 磁性存儲(chǔ)裝置、閃存、或者其他非易失性固態(tài)存儲(chǔ)器。在一些實(shí)例中,存儲(chǔ)器102可進(jìn)一步 包括相對(duì)于處理器106遠(yuǎn)程設(shè)置的存儲(chǔ)器,這些遠(yuǎn)程存儲(chǔ)器可以通過網(wǎng)絡(luò)連接至用戶終端 100。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。處 理器106以及其他可能的組件對(duì)存儲(chǔ)器102的訪問可在存儲(chǔ)控制器104的控制下進(jìn)行。
[0026] 外設(shè)接口 108將各種輸入/輸入裝置耦合至CPU以及存儲(chǔ)器102。處理器106運(yùn) 行存儲(chǔ)器102內(nèi)的各種軟件、指令以執(zhí)行用戶終端100的各種功能以及進(jìn)行數(shù)據(jù)處理。
[0027] 在一些實(shí)施例中,外設(shè)接口108,處理器106以及存儲(chǔ)控制器104可以在單個(gè)芯片 中實(shí)現(xiàn)。在其他一些實(shí)例中,他們可以分別由獨(dú)立的芯片實(shí)現(xiàn)。
[0028] 射頻模塊110用于接收以及發(fā)送電磁波,實(shí)現(xiàn)電磁波與電信號(hào)的相互轉(zhuǎn)換,從而 與通訊網(wǎng)絡(luò)或者其他設(shè)備進(jìn)行通訊。射頻模塊110可包括各種現(xiàn)有的用于執(zhí)行這些功能的 電路元件,例如,天線、射頻收發(fā)器、數(shù)字信號(hào)處理器、加密/解密芯片、用戶身份模塊(SIM) 卡、存儲(chǔ)器等等。射頻模塊110可與各種網(wǎng)絡(luò)如互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、無線網(wǎng)絡(luò)進(jìn)行通訊或 者通過無線網(wǎng)絡(luò)與其他設(shè)備進(jìn)行通訊。上述的無線