專利名稱:信息分類處理方法、裝置和終端的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種信息分類處理方法、裝置和終端。
技術(shù)背景
垃圾短信日益成為困擾通信運(yùn)營(yíng)商和手機(jī)用戶的問(wèn)題。中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)發(fā)布的 調(diào)查結(jié)果稱,我國(guó)手機(jī)用戶平均每周收到8. 條垃圾短信。目前,我國(guó)的手機(jī)用戶數(shù)已 達(dá)6億,根據(jù)上述調(diào)查結(jié)果可知,全國(guó)用戶每天收到的垃圾短信可達(dá)7億條以上。這些 垃圾短信不僅帶來(lái)了通信網(wǎng)絡(luò)壓力,給用戶帶來(lái)了困擾,同時(shí)也帶來(lái)了巨大的不良社會(huì) 影響和潛在社會(huì)問(wèn)題。
以往的垃圾短信過(guò)濾方法大多在網(wǎng)絡(luò)側(cè)實(shí)現(xiàn),通過(guò)與網(wǎng)關(guān)相連的服務(wù)器或利用 網(wǎng)關(guān)服務(wù)器實(shí)現(xiàn)垃圾短信過(guò)濾。但是在網(wǎng)絡(luò)側(cè)進(jìn)行的垃圾短信過(guò)濾方法,沒(méi)有考慮到單 個(gè)用戶對(duì)垃圾短信認(rèn)定的差異性,而過(guò)分強(qiáng)調(diào)了垃圾短信的全網(wǎng)特征。
由此,現(xiàn)有技術(shù)提供了在終端側(cè)實(shí)現(xiàn)的垃圾短信過(guò)濾方法,該方法采用“黑白 名單” + “黑白關(guān)鍵詞” + “關(guān)鍵詞加權(quán)控制”,其具體過(guò)程如下
步驟1、判斷發(fā)送方是否屬于用戶定義的黑名單或白名單;若屬于黑名單,則 判定為垃圾短信;若屬于白名單,則判定為合法短信;若不屬于黑名單和白名單,則執(zhí) 行步驟2 ;
步驟2、判斷短信內(nèi)容是否包含用戶定義的黑關(guān)鍵詞或白關(guān)鍵詞;若包含黑關(guān) 鍵詞,則判定為垃圾短信;若包含白關(guān)鍵詞,則判定為合法短信;若不包含黑關(guān)鍵詞和 白關(guān)鍵詞,則執(zhí)行步驟3;
步驟3、從短信內(nèi)容中挑選出存在于數(shù)據(jù)庫(kù)中的垃圾關(guān)鍵詞,根據(jù)數(shù)據(jù)庫(kù)中對(duì)各 垃圾關(guān)鍵詞標(biāo)注的權(quán)重分,計(jì)算該短信的垃圾度,并根據(jù)該垃圾度判斷該短信是否為垃 圾短信。
現(xiàn)有技術(shù)中至少存在如下問(wèn)題
1、對(duì)于不斷出現(xiàn)的垃圾短信發(fā)送方和垃圾短信新類型,用戶需要不斷增加黑白 名單和黑白關(guān)鍵詞;由此,黑白關(guān)鍵詞以及黑白名單的過(guò)濾效果取決于用戶的添加意愿 和添加頻頻率;并且,用戶不可能定義出所有垃圾短信發(fā)送方和所有黑關(guān)鍵詞,隨著過(guò) 濾效果的降低,用戶自定義的意愿和頻率都會(huì)逐漸降低,最終使這兩種過(guò)濾手段失去原 有的作用,因此過(guò)濾效果不佳,也就是對(duì)短信進(jìn)行分類的準(zhǔn)確性較差。
2、在計(jì)算短信的垃圾度的過(guò)程中,所使用的包括垃圾關(guān)鍵詞的數(shù)據(jù)庫(kù),是由服 務(wù)器根據(jù)全網(wǎng)垃圾短信樣本統(tǒng)計(jì)出的結(jié)果,沒(méi)有考慮到單個(gè)用戶對(duì)垃圾短信認(rèn)定的差異 性,可能會(huì)導(dǎo)致對(duì)某些短信的分類產(chǎn)生誤判。發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種信息分類處理方法、裝置和終端,用以提高信息分類的 準(zhǔn)確性。
本發(fā)明實(shí)施例提供一種信息分類處理方法,包括
將接收到的待分類信息進(jìn)行分詞處理,獲得所述待分類信息的分詞結(jié)果;
根據(jù)所述待分類信息的分詞結(jié)果和動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,對(duì)所述待分類 信息進(jìn)行分類;
所述動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果為根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯 自學(xué)習(xí)獲得的貝葉斯訓(xùn)練結(jié)果。
本發(fā)明實(shí)施例提供一種信息分類處理裝置,包括
分詞獲取模塊,用于將接收到的待分類信息進(jìn)行分詞處理,獲得所述待分類信 息的分詞結(jié)果;
過(guò)濾模塊,用于根據(jù)所述待分類信息的分詞結(jié)果和動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié) 果,對(duì)所述待分類信息進(jìn)行分類;
所述動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果為根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯 自學(xué)習(xí)獲得的貝葉斯訓(xùn)練結(jié)果。
本發(fā)明實(shí)施例還提供了一種終端,該終端包括本發(fā)明實(shí)施例提供的任一信息分 類處理裝置。
本發(fā)明實(shí)施例的信息分類處理方法、裝置和終端,在使用嵌入式操作系統(tǒng)的終 端側(cè)進(jìn)行信息收發(fā)的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行 增量貝葉斯自學(xué)習(xí)獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以對(duì)接收到的信息進(jìn)行分類,由于 該動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果源自終端自身收發(fā)的信息,因此很好的體現(xiàn)了各個(gè)用戶終 端的個(gè)體差異性,有效的提高了信息分類的準(zhǔn)確性。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要 使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例, 對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲 得其他的附圖。
圖1為本發(fā)明信息分類處理方法實(shí)施例一的流程圖2為本發(fā)明信息分類處理方法實(shí)施例二的流程圖3為本發(fā)明信息分類處理方法實(shí)施例三的流程圖4為本發(fā)明信息分類處理方法實(shí)施例四的流程圖5為本發(fā)明信息分類處理裝置實(shí)施例一的結(jié)構(gòu)圖6為本發(fā)明信息分類處理裝置實(shí)施例二的結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施 例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí) 施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普 通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù) 的范圍。
需要說(shuō)明的是,本發(fā)明部分實(shí)施例是以手機(jī)短信為例,這只是為了方便說(shuō)明, 本領(lǐng)域技術(shù)人員應(yīng)該知道,但本發(fā)明實(shí)施例同樣適用于其他情況下的信息接收,例如電 子郵件分類、尋呼機(jī)信息分類、基于internet的即時(shí)通訊軟件(例如MSN、QQ)的信息 分類等。
圖1為本發(fā)明信息分類處理方法實(shí)施例一的流程圖,如圖1所示,該方法包 括
步驟101、將接收到的待分類信息進(jìn)行分詞處理,獲得待分類信息的分詞結(jié)果。
本發(fā)明實(shí)施例可以應(yīng)用于各種需要對(duì)信息文本進(jìn)行分類的嵌入式操作系統(tǒng)中, 例如手機(jī)終端需要將接收到的短信進(jìn)行分類,分為垃圾短信和合法短信,以實(shí)現(xiàn)對(duì)垃 圾短信的過(guò)濾。
當(dāng)使用嵌入式操作系統(tǒng)的終端接收到待分類信息后,根據(jù)終端上存儲(chǔ)的詞典, 將該信息進(jìn)行分詞處理,得到該信息的分詞結(jié)果。
步驟102、根據(jù)待分類信息的分詞結(jié)果和動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,對(duì)待分類 信息進(jìn)行分類;該動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果為根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝 葉斯自學(xué)習(xí)獲得的貝葉斯訓(xùn)練結(jié)果。
查詢當(dāng)前的貝葉斯訓(xùn)練結(jié)果,得到步驟101中獲得的分詞結(jié)果中存在于該貝葉 斯訓(xùn)練結(jié)果中的各個(gè)詞語(yǔ)的貝葉斯后驗(yàn)概率,根據(jù)這些詞語(yǔ)的貝葉斯后驗(yàn)概率計(jì)算該信 息的聯(lián)合概率;若聯(lián)合概率大于閾值,則該信息為第一分類信息,否則該信息為第二分 類信息。其中,在手機(jī)終端對(duì)短信進(jìn)行過(guò)濾的過(guò)程中,第一分類信息可以為垃圾短信, 第二分類信息可以為合法短信。
其中,貝葉斯訓(xùn)練結(jié)果包括信息樣本庫(kù)的所有詞語(yǔ)中貝葉斯后驗(yàn)概率最高的 N個(gè)詞語(yǔ)及其貝葉斯后驗(yàn)概率,N為預(yù)設(shè)的一自然數(shù)。
為了能夠滿足個(gè)體用戶對(duì)分類的差異性需求,本發(fā)明各實(shí)施例中的信息樣本庫(kù) 隨著用戶收發(fā)信息而不斷動(dòng)態(tài)更新。信息樣本庫(kù)中包括有多個(gè)信息樣本,信息樣本包 括信息的樣本類型、信息的信息內(nèi)容和信息的分詞結(jié)果;其中信息的樣本類型包括第 一分類信息樣本和第二分類信息樣本。當(dāng)用戶收發(fā)的信息中,出現(xiàn)一個(gè)具有新的信息樣 本的信息時(shí),就可以將該新的信息樣本添加到信息樣本庫(kù)中,以更新信息樣本庫(kù)。其中 出現(xiàn)一個(gè)新的信息樣本的情況包括一、終端中出現(xiàn)一新信息,例如用戶使用手機(jī)發(fā)送 出一新短信或接收到一短信;二、終端中原有的信息樣本的樣本類型發(fā)生改變,例如在 手機(jī)終端中從垃圾箱轉(zhuǎn)入收件箱一短信,則該短信的樣本類型由垃圾短信樣本轉(zhuǎn)變?yōu)楹?法短信樣本,從收件箱轉(zhuǎn)入垃圾箱一短信,則該短信的樣本類型由合法短信樣本轉(zhuǎn)變?yōu)?垃圾短信樣本。
當(dāng)信息樣本庫(kù)更新后,根據(jù)更新后的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí),得到 新的貝葉斯訓(xùn)練結(jié)果,以供下一次對(duì)接收到的待分類信息進(jìn)行分類。
本實(shí)施例的信息分類處理方法,在使用嵌入式操作系統(tǒng)的終端側(cè)進(jìn)行信息收發(fā) 的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí) 獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以對(duì)接收到的信息進(jìn)行分類,由于該動(dòng)態(tài)更新的貝葉 斯訓(xùn)練結(jié)果源自終端自身收發(fā)的信息,因此很好的體現(xiàn)了各個(gè)用戶終端的個(gè)體差異性, 有效的提高了信息分類的準(zhǔn)確性。
圖2為本發(fā)明信息分類處理方法實(shí)施例二的流程圖,在本發(fā)明方法實(shí)施例一的 基礎(chǔ)上,如圖2所示,該方法包括
步驟201、將接收到的待分類信息進(jìn)行分詞處理,獲得待分類信息的分詞結(jié)果。
本發(fā)明以下各實(shí)施例以手機(jī)終端對(duì)接收到的短信進(jìn)行分類為例進(jìn)行說(shuō)明,手機(jī) 終端將接收到的短信分類為垃圾短信和合法短信,實(shí)現(xiàn)了對(duì)垃圾短信的過(guò)濾;其中本實(shí) 施例中的待分類信息可以為手機(jī)終端接收到的待過(guò)濾短信,第一分類信息可以為垃圾短 信,第二分類信息可以為合法短信。
當(dāng)手機(jī)終端接收到短信后,根據(jù)手機(jī)終端上存儲(chǔ)的詞典,將該短信進(jìn)行分詞處 理,得到該短信的分詞結(jié)果。
步驟202、查詢動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,獲得待分類信息的分詞結(jié)果與動(dòng)態(tài) 更新的貝葉斯訓(xùn)練結(jié)果的交集中的交集分詞和該交集分詞的后驗(yàn)概率。后驗(yàn)概率為包含 一詞的信息為第一分類信息的概率。
可以采用下式計(jì)算一詞語(yǔ)的后驗(yàn)概率Pi。Γ NSi/NS
Pi =-NSi/NS+ NLi/NL
其中,后驗(yàn)概率Pi可以包括第一后驗(yàn)概率和第二后驗(yàn)概率。當(dāng)NS和NL分別 為垃圾短信樣本總數(shù)和合法短信樣本總數(shù),N^i和NLi分別為包含該詞語(yǔ)的垃圾短信樣本 數(shù)和包含該詞語(yǔ)的合法短信樣本數(shù)時(shí),該后驗(yàn)概率Pi為第一后驗(yàn)概率;當(dāng)NS和NL分別 為垃圾短信樣本總詞數(shù)和合法短信樣本總詞數(shù),N^i和NLi分別為該詞語(yǔ)在垃圾短信樣本 中出現(xiàn)的總次數(shù)和該詞語(yǔ)在合法短信樣本中出現(xiàn)的總次數(shù)時(shí),后驗(yàn)概率Pi為第二后驗(yàn)概 率。本發(fā)明各實(shí)施例中所述的后驗(yàn)概率可以是第一后驗(yàn)概率,也可以是第二后驗(yàn)概率。
步驟203、根據(jù)交集分詞的后驗(yàn)概率計(jì)算待分類信息的聯(lián)合概率;若該聯(lián)合概 率大于預(yù)設(shè)閾值,則判斷待分類信息為第一分類信息,否則判斷待分類信息為第二分類 fn息ο
根據(jù)貝葉斯原理,可以采用下式計(jì)算待過(guò)濾短信的聯(lián)合概率 ρ _Pl*P2*...*Pm_
_ pi*p2*...*pm + (i_pi)*(i_p2)*...*(I-Pm)
其中,PI、P2、…、Pm為該短信中存在于貝葉斯訓(xùn)練結(jié)果中的各個(gè)詞語(yǔ)的后驗(yàn) 概率。如果聯(lián)合概率P大于預(yù)先設(shè)定的閾值則將該短信判定為垃圾短信,否則將該短信 判定為合法短信。
步驟204、獲取新增信息,將新增信息對(duì)應(yīng)的新增信息樣本添加到信息樣本庫(kù) 中,以更新信息樣本庫(kù);信息樣本包括信息的樣本類型、信息內(nèi)容和分詞結(jié)果。
當(dāng)步驟203中對(duì)待過(guò)濾的短信進(jìn)行過(guò)濾后,即獲得了一新增短信,根據(jù)過(guò)濾結(jié) 果可以獲知該新增短信的樣本類型,然后將該新增短信對(duì)應(yīng)的新增短信樣本添加到短信 樣本庫(kù)中。短信樣本庫(kù)中存儲(chǔ)的短信樣本包括短信的短信內(nèi)容和分詞結(jié)果,本發(fā)明實(shí)施 例中采用的短信內(nèi)容和分詞結(jié)果關(guān)聯(lián)存儲(chǔ)的方法,可以在保留短信內(nèi)容的同時(shí),保存其 分詞結(jié)果,可以在后續(xù)過(guò)程中用于貝葉斯增量自學(xué)習(xí),而無(wú)需每次自學(xué)習(xí)都對(duì)所有樣本 重新進(jìn)行分詞,減少了計(jì)算的過(guò)程。
其中,為了合理的利用存儲(chǔ)空間,短信樣本存儲(chǔ)的個(gè)數(shù)可以有限制,例如垃圾短信樣本最多存儲(chǔ)S條,合法短信樣本最多存儲(chǔ)T條,存滿后循環(huán)更新,剔除最舊的短信 樣本。
本實(shí)施例中的獲取新增信息的方式可以是獲取存儲(chǔ)在使用嵌入式操作系統(tǒng)的 終端上,新增的且已確認(rèn)樣本類型的信息;或者獲取存儲(chǔ)在使用嵌入式操作系統(tǒng)的終端 上,樣本類型改變的信息。其中,存儲(chǔ)在使用嵌入式操作系統(tǒng)的終端上,新增的且已確 認(rèn)樣本類型的信息例如可以為手機(jī)終端新接收到的、已經(jīng)過(guò)過(guò)濾的短信,手機(jī)終端新 發(fā)送的短信,草稿箱中新增的短信或者私人文件夾中新增的短信;其中,根據(jù)過(guò)濾結(jié)果 可以獲知新接收到的短信的樣本類型,手機(jī)終端新發(fā)送的短信、草稿箱中新增的短信和 私人文件夾中新增的短信的樣本類型為合法短信樣本。存儲(chǔ)在嵌入式操作系統(tǒng)終端上, 樣本類型改變的信息例如可以為從垃圾箱轉(zhuǎn)入收件箱的短信,或者從收件箱轉(zhuǎn)入垃圾 箱的短信;從垃圾箱轉(zhuǎn)入收件箱的短信的樣本類型為合法短信樣本,從收件箱轉(zhuǎn)入垃圾 箱的短信的樣本類型為垃圾短信樣本。需要說(shuō)明的是,本發(fā)明實(shí)施例并不限制新增信息 的來(lái)源,只要該新增信息是存儲(chǔ)在終端上,并且能代表用戶自身特點(diǎn)的信息都可以作為 本發(fā)明實(shí)施例中的新增信息。
當(dāng)通過(guò)上述方式獲取到了新增短信后,同樣進(jìn)行上述步驟204的操作,以更新 短信樣本庫(kù)。
步驟205、根據(jù)貝葉斯原理,在信息樣本庫(kù)中,對(duì)新增信息樣本進(jìn)行單樣本增量 自學(xué)習(xí),以獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果。
貝葉斯自學(xué)習(xí)就是計(jì)算出所有樣本中所有詞語(yǔ)的后驗(yàn)概率,并從計(jì)算結(jié)果中挑 出后驗(yàn)概率最高的N個(gè)詞組成集合,也即組成貝葉斯訓(xùn)練結(jié)果。
具體的步驟205可以包括,依次對(duì)新增信息樣本的分詞結(jié)果中每個(gè)第一分詞進(jìn) 行更新貝葉斯訓(xùn)練結(jié)果的操作;更新貝葉斯訓(xùn)練結(jié)果的操作包括根據(jù)信息樣本庫(kù), 計(jì)算第一分詞的后驗(yàn)概率;若第一分詞的后驗(yàn)概率大于貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn)概 率,則將第一分詞添加到貝葉斯訓(xùn)練結(jié)果中,并刪除貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn)概率 對(duì)應(yīng)的分詞,然后檢查是否對(duì)所有的第一分詞都已操作完畢,是則結(jié)束,否則對(duì)下一個(gè) 第一分詞進(jìn)行更新貝葉斯訓(xùn)練結(jié)果的操作;若第一分詞的后驗(yàn)概率小于或等于貝葉斯訓(xùn) 練結(jié)果中最小的后驗(yàn)概率,則檢查是否對(duì)所有的第一分詞都已操作完畢,是則結(jié)束,否 則對(duì)下一個(gè)第一分詞進(jìn)行更新貝葉斯訓(xùn)練結(jié)果的操作。其中,第一分詞為新增信息樣本 的分詞結(jié)果中包括的分詞。
在新增短信樣本時(shí),如果短信樣本庫(kù)中存儲(chǔ)的短信樣本的個(gè)數(shù)已達(dá)最大個(gè)數(shù) 時(shí),需要?jiǎng)h除最舊的一條短信樣本。在后驗(yàn)概率為第一后驗(yàn)概率的情況下,當(dāng)刪除最舊 的一條短信樣本后,步驟205中依次對(duì)新增短信樣本的分詞結(jié)果中每個(gè)第一分詞進(jìn)行更 新貝葉斯訓(xùn)練結(jié)果的操作之前還包括從新增短信樣本的分詞結(jié)果中,剔除與已刪除的 短信樣本的分詞結(jié)果相同的分詞;其中并不在短信樣本庫(kù)中刪除該相同的分詞,而僅將 刪除后的結(jié)果用于更新貝葉斯訓(xùn)練結(jié)果。在新增短信樣本的分詞結(jié)果中包含有與已刪除 的短信樣本的分詞結(jié)果相同的分詞,由于包含該分詞的短信樣本分別增加了一條(新增 短信樣本)和刪除了一條(最舊的一條短信樣本),所以該分詞的第一后驗(yàn)概率不變,就 不需要再計(jì)算該分詞的第一后驗(yàn)概率。
本實(shí)施例的信息分類處理方法,在使用嵌入式操作系統(tǒng)的終端側(cè)進(jìn)行信息收發(fā)的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí) 獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以對(duì)接收到的信息進(jìn)行分類,由于該動(dòng)態(tài)更新的貝葉 斯訓(xùn)練結(jié)果源自終端自身收發(fā)的信息,因此很好的體現(xiàn)了各個(gè)用戶終端的個(gè)體差異性, 有效的提高了信息分類的準(zhǔn)確性。
圖3為本發(fā)明信息分類處理方法實(shí)施例三的流程圖。本實(shí)施例在本發(fā)明方法實(shí) 施例二的基礎(chǔ)上,除了獲取到新增信息時(shí)對(duì)信息樣本庫(kù)進(jìn)行動(dòng)態(tài)更新以外,還可以在用 于對(duì)信息進(jìn)行分詞處理的詞典升級(jí)為更新詞典后,根據(jù)更新詞典對(duì)原有的信息樣本庫(kù)進(jìn) 行更新,然后根據(jù)貝葉斯原理對(duì)更新后的信息樣本庫(kù)進(jìn)行自學(xué)習(xí),也就是根據(jù)貝葉斯原 理對(duì)信息樣本庫(kù)中的所有信息樣本進(jìn)行全樣本增量自學(xué)習(xí),以獲得動(dòng)態(tài)更新的貝葉斯訓(xùn) 練結(jié)果。本實(shí)施例的方法除了包括圖2所示的方法流程(圖3中未示出)以外,如圖3 所示,本實(shí)施例的方法還可以包括
步驟301、接收到網(wǎng)絡(luò)側(cè)發(fā)送過(guò)來(lái)的增量詞典后,將用于對(duì)信息進(jìn)行分詞處理的 詞典升級(jí)為更新詞典。該更新詞典包括增量詞典和基本詞典;增量詞典包括該更新詞典 比原有的基本詞典增加的分詞。
終端側(cè)原有的用于對(duì)信息進(jìn)行分詞處理的詞典為基本詞典,終端側(cè)可以接收到 網(wǎng)絡(luò)側(cè)推送的增量詞典,根據(jù)該增量詞典可以將基本詞典升級(jí)為更新詞典,即形成新的 基本詞典。
步驟302、根據(jù)增量詞典和信息樣本的信息內(nèi)容,更新信息樣本的分詞結(jié)果,以 更新信息樣本庫(kù)。
由于新增了增量詞典,需要更新原有的信息樣本的分詞結(jié)果。若根據(jù)更新詞 典對(duì)所有的信息樣本重新進(jìn)行分詞,則需要進(jìn)行大量的運(yùn)算,由此所需的系統(tǒng)資源也較 大。本發(fā)明實(shí)施例為了提高運(yùn)算效率并且節(jié)省系統(tǒng)資源,根據(jù)增量詞典,對(duì)所有信息 樣本原有的分詞結(jié)果進(jìn)行增量更新,具體可以為將一信息樣本的信息內(nèi)容中命中增量 詞典中的分詞,根據(jù)現(xiàn)有的分詞規(guī)則判斷是否將上述命中的分詞添加至該信息樣本的原 分詞結(jié)果中;若不將該分詞添加至該信息樣本的原分詞結(jié)果中,則丟棄該分詞,并保持 原分詞結(jié)果不變;若將該分詞添加至該信息樣本的原分詞結(jié)果中,則將原分詞結(jié)果中組 成該分詞的詞語(yǔ)刪除,例如信息樣本A的原分詞結(jié)果中包含分詞“貝葉斯”、“算 法”,新增的增量詞典中包含分詞“貝葉斯算法”,當(dāng)根據(jù)現(xiàn)有的分詞規(guī)則需要將“貝 葉斯算法”該分詞添加到信息樣本A的分詞結(jié)果中時(shí),就需要將原分詞“貝葉斯”和“算法”刪除。
當(dāng)根據(jù)增量詞典對(duì)所有信息樣本原有的分詞結(jié)果進(jìn)行增量更新后,信息樣本庫(kù) 得到了更新,然后將增量詞典與基礎(chǔ)詞典合并,形成新的基礎(chǔ)詞典,用于對(duì)下一個(gè)待分 類信息進(jìn)行分詞處理。
步驟303、重新計(jì)算每個(gè)第二分詞的后驗(yàn)概率;該第二分詞為更新所有信息樣 本的分詞結(jié)果時(shí),分詞結(jié)果中數(shù)量減少的分詞。
在根據(jù)增量詞典對(duì)信息樣本原有的分詞結(jié)果進(jìn)行增量更新的過(guò)程中,當(dāng)將增量 詞典中的一分詞添加至信息樣本的原分詞結(jié)果中時(shí),原分詞結(jié)果中組成該分詞的詞語(yǔ)相 應(yīng)的被刪除,由此這些被刪除的詞語(yǔ)在所有的分詞結(jié)果中的數(shù)量減少,使得這些被刪除 的詞語(yǔ)的后驗(yàn)概率發(fā)生變化,所以需要重新計(jì)算這些詞語(yǔ)的后驗(yàn)概率,以更新可能包含在貝葉斯訓(xùn)練結(jié)果中的這些詞語(yǔ)的后驗(yàn)概率。
步驟304、依次對(duì)每個(gè)第三分詞進(jìn)行更新貝葉斯訓(xùn)練結(jié)果的操作;該更新貝葉 斯訓(xùn)練結(jié)果的操作包括根據(jù)信息樣本庫(kù),計(jì)算第三分詞的后驗(yàn)概率;若第三分詞的 后驗(yàn)概率大于貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn)概率,則將第三分詞添加到貝葉斯訓(xùn)練結(jié)果 中,并刪除貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn)概率對(duì)應(yīng)的分詞,然后檢查是否對(duì)所有的第三 分詞都已操作完畢,是則結(jié)束,否則對(duì)下一個(gè)第三分詞進(jìn)行更新貝葉斯訓(xùn)練結(jié)果的操 作;若第三分詞的后驗(yàn)概率小于或等于貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn)概率,則檢查是否 對(duì)所有的第三分詞都已操作完畢,是則結(jié)束,否則對(duì)下一個(gè)第三分詞進(jìn)行更新貝葉斯訓(xùn) 練結(jié)果的操作。其中,第三分詞為增量詞典中包括的分詞。
進(jìn)一步的,為了更加準(zhǔn)確的使用動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果對(duì)待分類短信進(jìn)行 過(guò)濾,在本實(shí)施例中,貝葉斯訓(xùn)練結(jié)果可以包括第一訓(xùn)練結(jié)果和第二訓(xùn)練結(jié)果兩部分; 其中,貝葉斯訓(xùn)練結(jié)果中包括有N個(gè)詞語(yǔ),第一訓(xùn)練結(jié)果為該貝葉斯訓(xùn)練結(jié)果中后驗(yàn)概 率最高的Nl個(gè)詞語(yǔ),第二訓(xùn)練結(jié)果為該貝葉斯訓(xùn)練結(jié)果中剩余的N2個(gè)詞語(yǔ),N1+N2 = N。在步驟304中更新貝葉斯訓(xùn)練結(jié)果的操作中,將第三分詞的后驗(yàn)概率與貝葉斯訓(xùn)練結(jié) 果中最小的后驗(yàn)概率(也就是第二訓(xùn)練結(jié)果中最小的后驗(yàn)概率)進(jìn)行比較,而在對(duì)待分類 短信進(jìn)行過(guò)濾時(shí),只使用第一訓(xùn)練結(jié)果對(duì)短信進(jìn)行過(guò)濾,由此可以保證第一訓(xùn)練結(jié)果中 包括的詞語(yǔ)始終是后驗(yàn)概率最高的Nl個(gè)詞語(yǔ)。
本實(shí)施例的信息分類處理方法,在使用嵌入式操作系統(tǒng)的終端側(cè)進(jìn)行信息收發(fā) 的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行貝葉斯自學(xué)習(xí)獲得 動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以對(duì)接收到的信息進(jìn)行分類,由于該動(dòng)態(tài)更新的貝葉斯訓(xùn) 練結(jié)果源自終端自身收發(fā)的信息,因此很好的體現(xiàn)了各個(gè)用戶終端的個(gè)體差異性,有效 的提高了信息分類的準(zhǔn)確性。
本發(fā)明方法實(shí)施例三中,介紹了在詞典進(jìn)行更新后,根據(jù)更新的詞典更新信息 樣本庫(kù)并進(jìn)而更新貝葉斯訓(xùn)練結(jié)果的方案。然而,在詞典進(jìn)行更新后,可以如方法實(shí)施 例三中所述的方法即時(shí)更新貝葉斯訓(xùn)練結(jié)果,也可以暫時(shí)先不更新貝葉斯訓(xùn)練結(jié)果,直 到獲取到下一個(gè)新增信息樣本需要對(duì)該新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí)時(shí),先根據(jù) 更新的詞典更新貝葉斯訓(xùn)練結(jié)果,然后再對(duì)該新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí)。
圖4為本發(fā)明信息分類處理方法實(shí)施例四的流程圖,本實(shí)施例的應(yīng)用場(chǎng)景為 在詞典更新后,暫時(shí)先不更新貝葉斯訓(xùn)練結(jié)果,而是在獲取新增信息后,更新貝葉斯訓(xùn) 練結(jié)果;在本發(fā)明方法實(shí)施例二的基礎(chǔ)上,如圖4所示,該方法可以還包括以下更新貝 葉斯訓(xùn)練結(jié)果的方法
步驟401、在獲取新增信息,并將新增信息對(duì)應(yīng)的新增信息樣本添加到信息樣本 庫(kù)中之后,查詢用于標(biāo)識(shí)詞典升級(jí)版本的第一版本號(hào)和用于標(biāo)識(shí)信息樣本庫(kù)更新版本的 第二版本號(hào)。
本發(fā)明各實(shí)施例中采用“基本詞典” + “增量詞典”構(gòu)成“雙詞典”進(jìn)行分 詞。增量詞典僅存放添加的新詞匯,當(dāng)終端側(cè)接收到一增量詞典后,就改變一次詞典的 第一版本號(hào),例如將第一版本號(hào)加1。信息樣本庫(kù)具有第二版本號(hào)。原始狀態(tài)中詞典的 第一版本號(hào)與信息樣本庫(kù)的第二版本號(hào)相一致,當(dāng)更新過(guò)詞典后,詞典的第一版本號(hào)改 變,當(dāng)根據(jù)更新后的詞典對(duì)信息樣本庫(kù)進(jìn)行過(guò)增量更新后,信息樣本庫(kù)的第二版本號(hào)也做相應(yīng)的改變,使得第二版本號(hào)與第一版本號(hào)相一致。所以經(jīng)判斷獲知詞典的第一版本 號(hào)與信息樣本庫(kù)的第二版本號(hào)不一致時(shí),說(shuō)明此時(shí)詞典已更新,但是還未根據(jù)更新后的 詞典更新貝葉斯訓(xùn)練結(jié)果;若判斷獲知詞典的第一版本號(hào)與信息樣本庫(kù)的第二版本號(hào)相 一致時(shí),則說(shuō)明此時(shí)的信息樣本庫(kù)是由現(xiàn)在最新的詞典進(jìn)行過(guò)增量更新后的。
步驟402、判斷第一版本號(hào)與第二版本號(hào)是否一致;若第一版本號(hào)與第二版本 號(hào)相一致,則執(zhí)行步驟403;若第一版本號(hào)與第二版本號(hào)不一致,則執(zhí)行步驟404。
步驟403、根據(jù)貝葉斯原理,在信息樣本庫(kù)中,對(duì)新增信息樣本進(jìn)行單樣本增量 自學(xué)習(xí),以獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,然后結(jié)束。
步驟404、根據(jù)更新詞典和貝葉斯原理,對(duì)信息樣本庫(kù)中的信息樣本進(jìn)行全樣本 增量自學(xué)習(xí)。
步驟405、根據(jù)貝葉斯原理,在進(jìn)行過(guò)全樣本增量自學(xué)習(xí)后的信息樣本庫(kù)中,對(duì) 新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí),以獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果。
其中,在步驟405中,在依次對(duì)新增信息樣本的分詞結(jié)果中每個(gè)第一分詞進(jìn)行 更新貝葉斯訓(xùn)練結(jié)果的操作之前還包括從新增信息樣本的分詞結(jié)果中,剔除與第二分 詞和第三分詞相同的分詞。這是由于在步驟403中,已經(jīng)對(duì)第二分詞和第三分詞進(jìn)行過(guò) 更新貝葉斯訓(xùn)練結(jié)果的操作,此處就可不再對(duì)第二分詞和第三分詞進(jìn)行更新貝葉斯訓(xùn)練 結(jié)果的操作;其中,此處剔除與第二分詞和第三分詞相同的分詞,并不是在信息樣本庫(kù) 中刪除與第二分詞和第三分詞相同的分詞,而僅將剔除后的結(jié)果用于更新貝葉斯訓(xùn)練結(jié) 果。其中,對(duì)新增信息樣本的分詞結(jié)果中每個(gè)第一分詞進(jìn)行更新貝葉斯訓(xùn)練結(jié)果的操作 參見(jiàn)圖2所示實(shí)施例步驟205中的描述。
步驟402到步驟404的具體步驟參見(jiàn)本發(fā)明前述各方法實(shí)施例中的描述,在此不 再贅述。
本實(shí)施例的信息分類處理方法,在使用嵌入式操作系統(tǒng)的終端側(cè)進(jìn)行信息收發(fā) 的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行貝葉斯自學(xué)習(xí)獲得 動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以對(duì)接收到的信息進(jìn)行分類,由于該動(dòng)態(tài)更新的貝葉斯訓(xùn) 練結(jié)果源自終端自身收發(fā)的信息,因此很好的體現(xiàn)了各個(gè)用戶終端的個(gè)體差異性,有效 的提高了信息分類的準(zhǔn)確性。
本發(fā)明實(shí)施例提供的方案使得基于貝葉斯決策的分類算法能夠在使用嵌入式操 作系統(tǒng)的終端上得以實(shí)現(xiàn)。使用用戶自身收發(fā)信息作為信息樣本進(jìn)行訓(xùn)練,得到貝葉斯 訓(xùn)練結(jié)果,該訓(xùn)練結(jié)果能夠良好表達(dá)用戶自身的個(gè)體差異性,有效提高在每個(gè)終端上進(jìn) 行信息分類處理的準(zhǔn)確性。并且,貝葉斯自學(xué)習(xí)過(guò)程可以在后臺(tái)進(jìn)行,不需要用戶干 預(yù),提高了用戶使用感受。同時(shí),自學(xué)習(xí)過(guò)程能夠伴隨用戶信息收發(fā)的行為持續(xù)進(jìn)行, 及時(shí)對(duì)用戶可能改變的信息內(nèi)容語(yǔ)義進(jìn)行自學(xué)習(xí),同步調(diào)整訓(xùn)練結(jié)果,使過(guò)濾準(zhǔn)確率始 終保持在較高水平。并且與網(wǎng)絡(luò)側(cè)的分類或過(guò)濾方法相比,本發(fā)明實(shí)施例不需要運(yùn)營(yíng)商 進(jìn)行網(wǎng)絡(luò)改造,實(shí)施方法簡(jiǎn)單、方便,具有良好的可推廣性。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以 通過(guò)程序指令相關(guān)的硬件來(lái)完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中, 該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括ROM、 RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
圖5為本發(fā)明信息分類處理裝置實(shí)施例一的結(jié)構(gòu)圖,如圖5所示,該裝置包括 分詞獲取模塊51和過(guò)濾模塊53。
分詞獲取模塊51用于將接收到的待分類信息進(jìn)行分詞處理,獲得待分類信息的 分詞結(jié)果。過(guò)濾模塊53用于根據(jù)待分類信息的分詞結(jié)果和動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果, 對(duì)待分類信息進(jìn)行分類;動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果為根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行 增量貝葉斯自學(xué)習(xí)獲得的貝葉斯訓(xùn)練結(jié)果。
本實(shí)施例中各模塊的工作原理和工作流程參見(jiàn)本發(fā)明各方法實(shí)施例中的描述, 在此不再贅述。
本實(shí)施例的信息分類處理裝置,在使用嵌入式操作系統(tǒng)的終端側(cè)進(jìn)行信息收發(fā) 的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí) 獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以對(duì)接收到的信息進(jìn)行分類,由于該動(dòng)態(tài)更新的貝葉 斯訓(xùn)練結(jié)果源自終端自身收發(fā)的信息,因此很好的體現(xiàn)了各個(gè)用戶終端的個(gè)體差異性, 有效的提高了信息分類的準(zhǔn)確性。
圖6為本發(fā)明信息分類處理裝置實(shí)施例二的結(jié)構(gòu)圖,在裝置實(shí)施例一的基礎(chǔ) 上,如圖6所示,該裝置還包括信息獲取模塊55、第一自學(xué)習(xí)模塊57、第二自學(xué)習(xí)模 塊59、查詢模塊52、第一啟動(dòng)模塊M、第二啟動(dòng)模塊56和剔除模塊50。
信息獲取模塊55用于獲取新增信息,并將新增信息對(duì)應(yīng)的新增信息樣本添加到 信息樣本庫(kù)中,以更新信息樣本庫(kù);信息樣本包括信息的樣本類型、信息內(nèi)容和分詞 結(jié)果。第一自學(xué)習(xí)模塊57用于根據(jù)貝葉斯原理,在信息樣本庫(kù)中,對(duì)新增信息樣本進(jìn)行 單樣本增量自學(xué)習(xí),以獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果。
第二自學(xué)習(xí)模塊59用于在用于對(duì)信息進(jìn)行分詞處理的詞典升級(jí)為更新詞典后, 根據(jù)更新詞典和貝葉斯原理,對(duì)信息樣本庫(kù)中的信息樣本進(jìn)行全樣本增量自學(xué)習(xí),以獲 得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,更新詞典包括增量詞典和基本詞典,增量詞典包括更新 詞典比原有的基本詞典增加的分詞。查詢模塊52用于在信息獲取模塊55獲取新增信息, 并將新增信息對(duì)應(yīng)的新增信息樣本添加到信息樣本庫(kù)中之后,查詢用于標(biāo)識(shí)詞典升級(jí)版 本的第一版本號(hào)和用于標(biāo)識(shí)信息樣本庫(kù)更新版本的第二版本號(hào)。第一啟動(dòng)模塊M用于若 第一版本號(hào)與第二版本號(hào)相一致,則啟動(dòng)第一自學(xué)習(xí)模塊57,以使第一自學(xué)習(xí)模塊57根 據(jù)貝葉斯原理,在信息樣本庫(kù)中,對(duì)新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí)。第二啟動(dòng)模 塊56用于若第一版本號(hào)與第二版本號(hào)不一致,則啟動(dòng)第二自學(xué)習(xí)模塊59,以使第二自學(xué) 習(xí)模塊59根據(jù)更新詞典和貝葉斯原理,對(duì)信息樣本庫(kù)中的信息樣本進(jìn)行全樣本增量自學(xué) 習(xí),然后啟動(dòng)第一自學(xué)習(xí)模塊57,以使第一自學(xué)習(xí)模塊57根據(jù)貝葉斯原理,在進(jìn)行過(guò)全 樣本增量自學(xué)習(xí)后的信息樣本庫(kù)中,對(duì)新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí)。剔除模塊 50用于在第二啟動(dòng)模塊56啟動(dòng)第一自學(xué)習(xí)模塊57時(shí),在第一自學(xué)習(xí)模塊57依次對(duì)新增 信息樣本的分詞結(jié)果中每個(gè)第一分詞進(jìn)行更新貝葉斯訓(xùn)練結(jié)果的操作之前,從新增信息 樣本的分詞結(jié)果中,剔除與第二分詞和第三分詞相同的分詞。
過(guò)濾模塊53包括查詢單元531、第一計(jì)算單元533和判斷單元535。
查詢單元531用于查詢貝葉斯訓(xùn)練結(jié)果,獲得待分類信息的分詞結(jié)果與動(dòng)態(tài)更 新的貝葉斯訓(xùn)練結(jié)果的交集中的交集分詞和交集分詞的后驗(yàn)概率。第一計(jì)算單元533用 于根據(jù)交集分詞的后驗(yàn)概率計(jì)算待分類信息的聯(lián)合概率。判斷單元535用于若聯(lián)合概率大于預(yù)設(shè)閾值,則判斷待分類信息為第一分類信息,否則判斷待分類信息為第二分類信 肩、O
第一自學(xué)習(xí)模塊57包括第二計(jì)算單元573和第一添加單元575。
第二計(jì)算單元573用于根據(jù)信息樣本庫(kù),計(jì)算一第一分詞的后驗(yàn)概率;第一分 詞為新增信息樣本的分詞結(jié)果中包括的分詞。第一添加單元575用于若第一分詞的后驗(yàn) 概率大于貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn)概率,則將第一分詞添加到貝葉斯訓(xùn)練結(jié)果中, 并刪除貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn)概率對(duì)應(yīng)的分詞。
第二自學(xué)習(xí)模塊59包括樣本庫(kù)更新單元591、第三計(jì)算單元593、第四計(jì)算單 元597和第二添加單元599。
樣本庫(kù)更新單元591用于根據(jù)增量詞典和信息樣本的信息內(nèi)容,更新信息樣本 的分詞結(jié)果,以更新信息樣本庫(kù)。第三計(jì)算單元593用于重新計(jì)算每個(gè)第二分詞的后驗(yàn) 概率,第二分詞為更新信息樣本的分詞結(jié)果時(shí),分詞結(jié)果中數(shù)量減少的分詞。第四計(jì)算 單元597用于根據(jù)信息樣本庫(kù),計(jì)算第三分詞的后驗(yàn)概率,第三分詞為增量詞典中包括 的分詞。第二添加單元599用于若第三分詞的后驗(yàn)概率大于貝葉斯訓(xùn)練結(jié)果中最小的后 驗(yàn)概率,則將第三分詞添加到貝葉斯訓(xùn)練結(jié)果中,并刪除貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn) 概率對(duì)應(yīng)的分詞。
本實(shí)施例中各模塊和單元的工作原理和工作流程參見(jiàn)本發(fā)明各方法實(shí)施例中的 描述,在此不再贅述。
本實(shí)施例的信息分類處理裝置,在使用嵌入式操作系統(tǒng)的終端側(cè)進(jìn)行信息收發(fā) 的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí) 獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以對(duì)接收到的信息進(jìn)行分類,由于該動(dòng)態(tài)更新的貝葉 斯訓(xùn)練結(jié)果源自終端自身收發(fā)的信息,因此很好的體現(xiàn)了各個(gè)用戶終端的個(gè)體差異性, 有效的提高了信息分類的準(zhǔn)確性。
本發(fā)明實(shí)施例還提供了一種使用嵌入式操作系統(tǒng)的終端,該終端包括本發(fā)明各 實(shí)施例中提供的任一信息分類處理裝置。
本實(shí)施例中各模塊的工作原理和工作流程參見(jiàn)本發(fā)明各方法實(shí)施例中的描述, 在此不再贅述。
本實(shí)施例的終端,在終端側(cè)進(jìn)行信息收發(fā)的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并 根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí)獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以 對(duì)接收到的信息進(jìn)行分類,由于該動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果很好的體現(xiàn)了各個(gè)用戶終 端的個(gè)體差異性,有效的提高了信息分類的準(zhǔn)確性。
最后應(yīng)說(shuō)明的是以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制; 盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解其 依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等 同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方 案的精神和范圍。
權(quán)利要求
1.一種信息分類處理方法,其特征在于,包括將接收到的待分類信息進(jìn)行分詞處理,獲得所述待分類信息的分詞結(jié)果;根據(jù)所述待分類信息的分詞結(jié)果和動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,對(duì)所述待分類信息 進(jìn)行分類,所述動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果為根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉 斯自學(xué)習(xí)獲得的貝葉斯訓(xùn)練結(jié)果。
2.根據(jù)權(quán)利要求1所述的信息分類處理方法,其特征在于,所述根據(jù)所述待分類信息 的分詞結(jié)果和動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,對(duì)所述待分類信息進(jìn)行分類,包括查詢所述貝葉斯訓(xùn)練結(jié)果,獲得所述待分類信息的分詞結(jié)果與所述動(dòng)態(tài)更新的貝葉 斯訓(xùn)練結(jié)果的交集中的交集分詞和所述交集分詞的后驗(yàn)概率;根據(jù)所述交集分詞的所述后驗(yàn)概率計(jì)算所述待分類信息的聯(lián)合概率;若所述聯(lián)合概率大于預(yù)設(shè)閾值,則所述待分類信息為第一分類信息,否則所述待分 類信息為第二分類信息。
3.根據(jù)權(quán)利要求1所述的信息分類處理方法,其特征在于,所述根據(jù)動(dòng)態(tài)更新的信息 樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí)包括獲取新增信息;將所述新增信息對(duì)應(yīng)的新增信息樣本添加到信息樣本庫(kù)中,以更新所述信息樣本 庫(kù),所述信息樣本包括所述信息的樣本類型、信息內(nèi)容和分詞結(jié)果;根據(jù)貝葉斯原理,在所述信息樣本庫(kù)中,對(duì)所述新增信息樣本進(jìn)行單樣本增量自學(xué) 習(xí),以獲得所述動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果;所述對(duì)所述新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí)包括根據(jù)所述信息樣本庫(kù),計(jì)算第一分詞的后驗(yàn)概率,所述第一分詞為所述新增信息樣 本的分詞結(jié)果中包括的分詞;若所述第一分詞的后驗(yàn)概率大于所述貝葉斯訓(xùn)練結(jié)果中最 小的后驗(yàn)概率,則將所述第一分詞添加到所述貝葉斯訓(xùn)練結(jié)果中,并刪除所述貝葉斯訓(xùn) 練結(jié)果中所述最小的后驗(yàn)概率對(duì)應(yīng)的分詞。
4.根據(jù)權(quán)利要求3所述的信息分類處理方法,其特征在于,所述根據(jù)動(dòng)態(tài)更新的信息 樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí)還包括在用于對(duì)信息進(jìn)行分詞處理的所述詞典升級(jí)為更新詞典后,根據(jù)所述更新詞典和貝 葉斯原理,對(duì)所述信息樣本庫(kù)中的信息樣本進(jìn)行全樣本增量自學(xué)習(xí),以獲得動(dòng)態(tài)更新的 貝葉斯訓(xùn)練結(jié)果;所述更新詞典包括增量詞典和基本詞典;所述增量詞典包括新增加的 分詞;所述對(duì)所述信息樣本庫(kù)中的信息樣本進(jìn)行全樣本增量自學(xué)習(xí)包括根據(jù)所述增量詞典和所述信息樣本的信息內(nèi)容,更新所述信息樣本的分詞結(jié)果,以 更新所述信息樣本庫(kù);重新計(jì)算每個(gè)第二分詞的后驗(yàn)概率,所述第二分詞為更新所述信 息樣本的分詞結(jié)果時(shí),所述分詞結(jié)果中數(shù)量減少的分詞;根據(jù)所述信息樣本庫(kù),計(jì)算第 三分詞的后驗(yàn)概率,所述第三分詞為所述增量詞典中包括的分詞;若所述第三分詞的后 驗(yàn)概率大于所述貝葉斯訓(xùn)練結(jié)果中最小的后驗(yàn)概率,則將所述第三分詞添加到所述貝葉 斯訓(xùn)練結(jié)果中,并刪除所述貝葉斯訓(xùn)練結(jié)果中所述最小的后驗(yàn)概率對(duì)應(yīng)的分詞。
5.根據(jù)權(quán)利要求4所述的信息分類處理方法,其特征在于,還包括在所述獲取新增信息,并將所述新增信息對(duì)應(yīng)的新增信息樣本添加到信息樣本庫(kù)中之后,查詢用于標(biāo)識(shí)所述詞典升級(jí)版本的第一版本號(hào)和用于標(biāo)識(shí)所述信息樣本庫(kù)更新版 本的第二版本號(hào);若所述第一版本號(hào)與所述第二版本號(hào)相一致,則直接根據(jù)貝葉斯原理,在所述信息 樣本庫(kù)中,對(duì)所述新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí);若所述第一版本號(hào)與所述第二版本號(hào)不一致,則先根據(jù)所述更新詞典和貝葉斯原 理,對(duì)所述信息樣本庫(kù)中的信息樣本進(jìn)行所述全樣本增量自學(xué)習(xí);根據(jù)貝葉斯原理,在 進(jìn)行過(guò)所述全樣本增量自學(xué)習(xí)后的所述信息樣本庫(kù)中,對(duì)所述新增信息樣本進(jìn)行單樣本 增量自學(xué)習(xí)。
6.—種信息分類處理裝置,其特征在于,包括分詞獲取模塊,用于將接收到的待分類信息進(jìn)行分詞處理,獲得所述待分類信息的 分詞結(jié)果;過(guò)濾模塊,用于根據(jù)所述待分類信息的分詞結(jié)果和動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,對(duì) 所述待分類信息進(jìn)行分類;所述動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果為根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué) 習(xí)獲得的貝葉斯訓(xùn)練結(jié)果。
7.根據(jù)權(quán)利要求6所述的信息分類處理裝置,其特征在于,所述過(guò)濾模塊包括查詢單元,用于查詢所述貝葉斯訓(xùn)練結(jié)果,獲得所述待分類信息的分詞結(jié)果與所述動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果的交集中的交集分詞和所述交集分詞的后驗(yàn)概率;第一計(jì)算單元,用于根據(jù)所述交集分詞的所述后驗(yàn)概率計(jì)算所述待分類信息的聯(lián)合 概率;判斷單元,用于若所述聯(lián)合概率大于預(yù)設(shè)閾值,則判斷所述待分類信息為第一分類 信息,否則判斷所述待分類信息為第二分類信息。
8.根據(jù)權(quán)利要求6或7所述的信息分類處理裝置,其特征在于,還包括信息獲取模塊,用于獲取新增信息,并將所述新增信息對(duì)應(yīng)的新增信息樣本添加到 信息樣本庫(kù)中,以更新所述信息樣本庫(kù),所述信息樣本包括所述信息的樣本類型、信息 內(nèi)容和分詞結(jié)果;第一自學(xué)習(xí)模塊,用于根據(jù)貝葉斯原理,在所述信息樣本庫(kù)中,對(duì)所述新增信息樣 本進(jìn)行單樣本增量自學(xué)習(xí),以獲得所述動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果;所述第一自學(xué)習(xí)模塊包括第二計(jì)算單元,用于根據(jù)所述信息樣本庫(kù),計(jì)算一第一分詞的后驗(yàn)概率,所述第一 分詞為所述新增信息樣本的分詞結(jié)果中包括的分詞;第一添加單元,用于若所述第一分詞的后驗(yàn)概率大于所述貝葉斯訓(xùn)練結(jié)果中最小的 后驗(yàn)概率,則將所述第一分詞添加到所述貝葉斯訓(xùn)練結(jié)果中,并刪除所述貝葉斯訓(xùn)練結(jié) 果中所述最小的后驗(yàn)概率對(duì)應(yīng)的分詞。
9.根據(jù)權(quán)利要求8所述的信息分類處理裝置,其特征在于,還包括第二自學(xué)習(xí)模塊,用于在用于對(duì)信息進(jìn)行分詞處理的所述詞典升級(jí)為更新詞典后, 根據(jù)所述更新詞典和貝葉斯原理,對(duì)所述信息樣本庫(kù)中的信息樣本進(jìn)行全樣本增量自學(xué) 習(xí),以獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果;所述更新詞典包括增量詞典和基本詞典;所述 增量詞典包括增加的分詞;所述第二自學(xué)習(xí)模塊包括樣本庫(kù)更新單元,用于根據(jù)所述增量詞典和所述信息樣本的信息內(nèi)容,更新所述信 息樣本的分詞結(jié)果,以更新所述信息樣本庫(kù);第三計(jì)算單元,用于重新計(jì)算每個(gè)第二分詞的后驗(yàn)概率,所述第二分詞為更新所述 信息樣本的分詞結(jié)果時(shí),所述分詞結(jié)果中數(shù)量減少的分詞;第四計(jì)算單元,用于根據(jù)所述信息樣本庫(kù),計(jì)算第三分詞的后驗(yàn)概率,所述第三分 詞為所述增量詞典中包括的分詞;第二添加單元,用于若所述第三分詞的后驗(yàn)概率大于所述貝葉斯訓(xùn)練結(jié)果中最小的 后驗(yàn)概率,則將所述第三分詞添加到所述貝葉斯訓(xùn)練結(jié)果中,并刪除所述貝葉斯訓(xùn)練結(jié) 果中所述最小的后驗(yàn)概率對(duì)應(yīng)的分詞。
10.根據(jù)權(quán)利要求9所述的信息分類處理裝置,其特征在于,還包括查詢模塊,用于在所述信息獲取模塊獲取所述新增信息,并將所述新增信息對(duì)應(yīng)的 新增信息樣本添加到信息樣本庫(kù)中之后,查詢用于標(biāo)識(shí)所述詞典升級(jí)版本的第一版本號(hào) 和用于標(biāo)識(shí)所述信息樣本庫(kù)更新版本的第二版本號(hào);第一啟動(dòng)模塊,用于若所述第一版本號(hào)與所述第二版本號(hào)相一致,則啟動(dòng)所述第一 自學(xué)習(xí)模塊,以使所述第一自學(xué)習(xí)模塊根據(jù)貝葉斯原理,在所述信息樣本庫(kù)中,對(duì)所述 新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí);第二啟動(dòng)模塊,用于若所述第一版本號(hào)與所述第二版本號(hào)不一致,則啟動(dòng)所述第二 自學(xué)習(xí)模塊,以使所述第二自學(xué)習(xí)模塊根據(jù)所述更新詞典和貝葉斯原理,對(duì)所述信息樣 本庫(kù)中的信息樣本進(jìn)行所述全樣本增量自學(xué)習(xí),然后啟動(dòng)所述第一自學(xué)習(xí)模塊,以使所 述第一自學(xué)習(xí)模塊根據(jù)貝葉斯原理,在進(jìn)行過(guò)所述全樣本增量自學(xué)習(xí)后的所述信息樣本 庫(kù)中,對(duì)所述新增信息樣本進(jìn)行單樣本增量自學(xué)習(xí)。
11.一種終端,包括如權(quán)利要求6-10任一所述的信息分類處理裝置。
全文摘要
本發(fā)明實(shí)施例提供了一種信息分類處理方法、裝置和終端,該方法包括將接收到的待分類信息進(jìn)行分詞處理,獲得待分類信息的分詞結(jié)果;根據(jù)待分類信息的分詞結(jié)果和動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,對(duì)待分類信息進(jìn)行分類;所述動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果為根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí)獲得的貝葉斯訓(xùn)練結(jié)果。本發(fā)明實(shí)施例,在使用嵌入式操作系統(tǒng)的終端側(cè)進(jìn)行信息收發(fā)的過(guò)程中,動(dòng)態(tài)更新信息樣本庫(kù),并根據(jù)動(dòng)態(tài)更新的信息樣本庫(kù)進(jìn)行增量貝葉斯自學(xué)習(xí)獲得動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果,以對(duì)接收到的信息進(jìn)行分類,該動(dòng)態(tài)更新的貝葉斯訓(xùn)練結(jié)果很好的體現(xiàn)了各個(gè)用戶終端的個(gè)體差異性,有效的提高了信息分類的準(zhǔn)確性。
文檔編號(hào)G06F17/27GK102024045SQ20101058799
公開(kāi)日2011年4月20日 申請(qǐng)日期2010年12月14日 優(yōu)先權(quán)日2010年12月14日
發(fā)明者王鵬, 靳偉 申請(qǐng)人:成都市華為賽門鐵克科技有限公司