處理文本信息的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機通訊技術(shù),尤其涉及一種處理文本信息的方法及裝置。
【背景技術(shù)】
[0002] 隨著計算機及網(wǎng)絡(luò)通信技術(shù)的迅速發(fā)展,人們越來越多地通過網(wǎng)絡(luò)進行文本信息 交流。然而,由于文本信息可以非常容易到達用戶手機等用戶終端,因此常常被利用作為廣 告推廣的渠道,某些不法者甚至利用文本信息發(fā)送詐騙、色情等垃圾信息,嚴重影響和騷擾 用戶的正常生活。
[0003] 現(xiàn)有的垃圾文本信息過濾技術(shù),主要是通過關(guān)鍵字過濾與黑白名單過濾的方法對 垃圾文本信息進行過濾。然而,基于關(guān)鍵字的垃圾文本信息過濾方法,由于關(guān)鍵字很難包含 所有非法信息,并且惡意用戶可通過諸如:在文本信息內(nèi)容中添加大量的字符、標(biāo)點符號等 干擾字符的方式來回避關(guān)鍵字,從而避免被過濾。而基于黑白名單過濾的方法,由于是根據(jù) 用戶來處理文本信息,假如文本信息來自白名單中的用戶,則即使該文本信息內(nèi)容中包含 垃圾信息,也不會被過濾。
[0004] 因此,現(xiàn)有的垃圾文本信息過濾技術(shù)的過濾準(zhǔn)確性不高,缺乏效率。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提供一種處理文本信息的方法及裝置,可提高垃圾文本信息過 濾的準(zhǔn)確性及效率。
[0006] -種處理文本信息的方法,包括:獲取文本信息并提取所述文本信息內(nèi)包括的文 字字符;從所述文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符;根據(jù)所述目標(biāo)字符,計算所述 文本信息的過濾指數(shù);以及當(dāng)所述過濾指數(shù)滿足預(yù)定條件時,對所述文本信息執(zhí)行與所述 預(yù)定條件對應(yīng)的操作。
[0007] -種處理文本信息的裝置,包括:文字字符提取模塊,用于獲取文本信息并提取所 述文本信息內(nèi)包括的文字字符;目標(biāo)字符提取模塊,用于從所述文字字符提取模塊提取的 所述文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符;計算模塊,用于根據(jù)所述目標(biāo)字符提取模 塊提取的所述目標(biāo)字符,計算所述文本信息的過濾指數(shù);以及處理模塊,用于當(dāng)所述計算 模塊計算的所述過濾指數(shù)滿足預(yù)定條件時,對所述文本信息執(zhí)行與所述預(yù)定條件對應(yīng)的操 作。
[0008] 本發(fā)明實施例提供的處理文本信息的方法及裝置,通過提取文本信息內(nèi)包括的文 字字符,從文字字符中提取符合預(yù)定規(guī)則的目標(biāo)字符,根據(jù)目標(biāo)字符計算文本信息的過濾 指數(shù),當(dāng)過濾指數(shù)滿足預(yù)定條件時,對文本信息執(zhí)行與預(yù)定條件對應(yīng)的操作,由于是根據(jù)文 本信息中符合預(yù)定規(guī)則的目標(biāo)字符來計算過濾指數(shù),因此可解決現(xiàn)有技術(shù)中因非法用戶在 文本信息中添加大量的目標(biāo)字符而導(dǎo)致的垃圾文本信息無法被過濾的問題,從而可提高垃 圾文本信息過濾的準(zhǔn)確性及效率。
[0009] 為讓本發(fā)明的上述和其他目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例, 并配合所附圖式,作詳細說明如下。
【附圖說明】
[0010] 圖1為本發(fā)明實施例提供的在用戶終端內(nèi)進行處理文本信息的方法及裝置的應(yīng) 用環(huán)境圖。
[0011] 圖2示出了一種用戶終端的結(jié)構(gòu)框圖。
[0012] 圖3為本發(fā)明第一實施例提供的在用戶終端內(nèi)進行處理文本信息的方法的流程 圖。
[0013] 圖4為本發(fā)明第二實施例提供的在用戶終端內(nèi)進行處理文本信息的方法的流程 圖。
[0014] 圖5為本發(fā)明第三實施例提供的處理文本信息的裝置的結(jié)構(gòu)示意圖。
[0015] 圖6為圖5的裝置的存儲環(huán)境示意圖。
[0016] 圖7為本發(fā)明第四實施例提供的處理文本信息的裝置的結(jié)構(gòu)示意圖。
[0017] 圖8為本發(fā)明第四實施例提供的處理文本信息的裝置中部分模塊的結(jié)構(gòu)示意圖。
[0018] 圖9為本發(fā)明第四實施例提供的處理文本信息的裝置中部分模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0019] 為更進一步闡述本發(fā)明為實現(xiàn)預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合 附圖及較佳實施例,對依據(jù)本發(fā)明的【具體實施方式】、結(jié)構(gòu)、特征及其功效,詳細說明如后。
[0020] 本發(fā)明實施例所提供的處理文本信息的方法及裝置可應(yīng)用于如圖1所示的應(yīng)用 環(huán)境中,實現(xiàn)對垃圾文本信息的有效過濾。如圖1所示,多個用戶終端100之間可通過利用 基站200轉(zhuǎn)發(fā)短信的方式,完成文本信息的收發(fā)??梢岳斫獾?,基站200可替代的也可為服 務(wù)器,多個用戶終端1〇〇之間可以通過服務(wù)器完成文本信息的收發(fā)。
[0021] 圖2示出了一種用戶終端的結(jié)構(gòu)框圖。用戶終端可以包括移動電話(如:智能手 機)以及其他具有用戶終端功能的計算機,例如,可以是平板電腦、PDA(PersonalDigital Assistant,掌上電腦)等便攜式、袖珍式、手持式、計算機內(nèi)置的或車載的移動裝置、以及臺 式計算機等非移動裝置等等。
[0022] 如圖1所示,用戶終端100包括存儲器102、存儲控制器104, 一個或多個(圖中僅 示出一個)處理器106、外設(shè)接口 108、射頻模塊110、定位模塊112、圖像采集設(shè)備114、音頻 模塊116、觸控屏幕118以及按鍵模塊120。這些組件通過一條或多條通訊總線/信號線 122相互通訊。
[0023] 可以理解,圖1所示的結(jié)構(gòu)僅為示意,用戶終端100還可包括比圖1中所示更多或 者更少的組件,或者具有與圖1所示不同的配置。圖1中所示的各組件可以采用硬件、軟件 或其組合實現(xiàn)。
[0024] 存儲器102可用于存儲軟件程序以及模塊,如本發(fā)明實施例中的在用戶終端內(nèi)進 行處理文本信息的方法及裝置對應(yīng)的程序指令/模塊,處理器102通過運行存儲在存儲器 104內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實現(xiàn)上述的在用戶終 端內(nèi)進行處理文本信息的方法。
[0025] 存儲器102可包括高速隨機存儲器,還可包括非易失性存儲器,如一個或者多個 磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實例中,存儲器102可進一步 包括相對于處理器106遠程設(shè)置的存儲器,這些遠程存儲器可以通過網(wǎng)絡(luò)連接至用戶終端 100。上述網(wǎng)絡(luò)的實例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動通信網(wǎng)及其組合。處 理器106以及其他可能的組件對存儲器102的訪問可在存儲控制器104的控制下進行。
[0026] 外設(shè)接口 108將各種輸入/輸入裝置耦合至CPU以及存儲器102。處理器106運 行存儲器102內(nèi)的各種軟件、指令以執(zhí)行用戶終端100的各種功能以及進行數(shù)據(jù)處理。
[0027] 在一些實施例中,外設(shè)接口108,處理器106以及存儲控制器104可以在單個芯片 中實現(xiàn)。在其他一些實例中,他們可以分別由獨立的芯片實現(xiàn)。
[0028] 射頻模塊110用于接收以及發(fā)送電磁波,實現(xiàn)電磁波與電信號的相互轉(zhuǎn)換,從而 與通訊網(wǎng)絡(luò)或者其他設(shè)備進行通訊。射頻模塊110可包括各種現(xiàn)有的用于執(zhí)行這些功能的 電路元件,例如,天線、射頻收發(fā)器、數(shù)字信號處理器、加密/解密芯片、用戶身份模塊(SIM) 卡、存儲器等等。射頻模塊110可與各種網(wǎng)絡(luò)如互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、無線網(wǎng)絡(luò)進行通訊或 者通過無線網(wǎng)絡(luò)與其他設(shè)備進行通訊。上述的無線