亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本分類(lèi)方法和裝置制造方法

文檔序號(hào):6637798閱讀:125來(lái)源:國(guó)知局
一種文本分類(lèi)方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種文本分類(lèi)方法和裝置。所述方法包括:建立第一特征文本庫(kù)S和第二特征文本庫(kù)H;計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P(S|W)和在所述第二特征文本庫(kù)H中出現(xiàn)的概率P(H|W);當(dāng)待分類(lèi)的文本中包含所述詞語(yǔ)W時(shí),基于所述概率P(S|W)和所述概率P(H|W),計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P;以及基于所述概率P,將所述待分類(lèi)的文本分類(lèi)。
【專(zhuān)利說(shuō)明】一種文本分類(lèi)方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種文本分類(lèi)方法和裝置。

【背景技術(shù)】
[0002] 隨著手機(jī)、電腦等電子設(shè)備的普及,對(duì)于應(yīng)用的需求顯著增加,而應(yīng)用的種類(lèi)和數(shù) 量也迅速增加。為了爭(zhēng)取更多的用戶(hù)或增加用戶(hù)的充值數(shù)額,某些應(yīng)用會(huì)產(chǎn)生很多異常文 本或者垃圾文本,作為惡意廣告,比如"充值100元寶送50元寶","A應(yīng)用比B應(yīng)用好,來(lái) 用"?;谶@個(gè)原因,需要將這種文本信息捕捉到并將相應(yīng)的用戶(hù)拉黑或者屏蔽其發(fā)言。而 且由于應(yīng)用的數(shù)據(jù)量過(guò)大,人工審核過(guò)于麻煩,所以需要服務(wù)器能夠自動(dòng)分辨出哪些應(yīng)用 的異常文本或者垃圾文本數(shù)據(jù)需要屏蔽或者哪些用戶(hù)需要被屏蔽。
[0003] -種技術(shù)方案是采用字符匹配的方式與人工的方法,比如定義一個(gè)黑名單列表 (包括"充值"或者其他關(guān)鍵字),然后將應(yīng)用所發(fā)的文本數(shù)據(jù)與該列表進(jìn)行匹配,如果匹配 到則屏蔽該文本,如果沒(méi)有匹配到,則認(rèn)為該文本數(shù)據(jù)為正常文本。該方法簡(jiǎn)單,但無(wú)法實(shí) 現(xiàn)服務(wù)器自動(dòng)更新黑名單列表,必須需要人工不斷補(bǔ)充相關(guān)黑名單列表。比如之前的黑名 單列表中不包括("充一百送一百"),則如果有用戶(hù)發(fā)了該文本,則相應(yīng)的程序監(jiān)測(cè)不到, 會(huì)認(rèn)為其是一個(gè)正常文本。因此需要人工的將該文本加到黑名單列表中,因此也會(huì)導(dǎo)致黑 名單列表越來(lái)越大,最后可能會(huì)導(dǎo)致服務(wù)器計(jì)算的速度下降。而且服務(wù)器對(duì)于異常文本或 者垃圾文本的識(shí)別效果都不理想,而且很容易被規(guī)避。


【發(fā)明內(nèi)容】

[0004] 鑒于上述問(wèn)題,提出了本發(fā)明,以便提供一種克服上述問(wèn)題或者至少部分地解決 上述問(wèn)題的文本分類(lèi)方法和裝置。
[0005] 依據(jù)本發(fā)明的第一方面,提供了一種文本分類(lèi)方法,包括:建立第一特征文本庫(kù)S 和第二特征文本庫(kù)H ;計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W在 所述第一特征文本庫(kù)S中出現(xiàn)的概率P(S|W)和在所述第二特征文本庫(kù)H中出現(xiàn)的概率 P(H|W);當(dāng)待分類(lèi)的文本中包含所述詞語(yǔ)W時(shí),基于所述概率P (S|W)和所述概率P (H|W), 計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P ;以及基于所述概率P,將所述待分類(lèi)的 文本分類(lèi)。
[0006] 可選地,其中計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W在 所述第一特征文本庫(kù)S中出現(xiàn)的概率P(S|W)和在所述第二特征文本庫(kù)H中出現(xiàn)的概率 P(H|W)包括:分別對(duì)所述第一特征文本庫(kù)和所述第二特征文本庫(kù)中的文本進(jìn)行分詞處理, 以獲得分詞后的詞語(yǔ)W ;分別計(jì)算各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (S IW) 和在所述第二特征文本庫(kù)H中出現(xiàn)的概率P (HIW)。
[0007] 可選地,其中計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W在 所述第一特征文本庫(kù)S中出現(xiàn)的概率P(S|W)和在所述第二特征文本庫(kù)H中出現(xiàn)的概率 P(H|W)包括:建立所述第一特征文本庫(kù)S的哈希表T (S)和所述第二特征文本庫(kù)H的哈希表 T (H),所述哈希表T (S)包括所述詞語(yǔ)W與所述詞語(yǔ)在所述第一特征文本庫(kù)S中出現(xiàn)的頻率 F(S|W)的映射關(guān)系,所述哈希表T(H)包括所述詞語(yǔ)W與所述詞語(yǔ)在所述第二特征文本庫(kù) H中出現(xiàn)的頻率F (H|W)的映射關(guān)系;基于所述哈希表T(S)、所述頻率F (S|W)、所述哈希表 T⑶和所述頻率F (HIW),計(jì)算所述概率P (S IW)和所述概率P (HIW),其中所述概率P (S IW) = F(S|WV(哈希表T(S)的長(zhǎng)度),所述概率P(H|W) =F(H|WV(哈希表T(H)的長(zhǎng)度)。
[0008] 可選地,其中當(dāng)文本中包含所述詞語(yǔ)W時(shí),基于所述概率P(S|W)和所述概率 P (HIW),計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P包括:基于所述概率P (S IW)和 所述概率P (HIW),計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W的權(quán)重 P (weight);基于所述概率P (SIW)和所述權(quán)重P (weight),計(jì)算所述文本屬于所述第一特征 文本庫(kù)S的概率P。
[0009] 可選地,其中當(dāng)文本中包含所述詞語(yǔ)W時(shí),基于所述概率P(SlW)和所述概率 P (HIW),計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P包括:當(dāng)所述文本中包含N個(gè)詞 語(yǔ)W1-Wi-Wn,其中1彡i彡N,基于每個(gè)詞語(yǔ)Wi的所述概率P (S| Wi)和所述概率P (HlWi), 分別計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率Pi ;基于所述N個(gè)詞語(yǔ)巧…Wn的 概率Pr-Pn,計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P。
[0010] 可選地,其中基于所述概率P,將所述文本分類(lèi)包括:將所述概率P與預(yù)先確定的 閾值Ptl比較;當(dāng)所述概率P大于所述閾值Ptl時(shí),將所述文本分類(lèi)為屬于所述第一特征文本 庫(kù)S。
[0011] 可選地,所述方法還包括:當(dāng)所述文本被分類(lèi)為所述第一特征文本庫(kù)時(shí),將所述文 本加入到所述第一特征文本庫(kù);或當(dāng)所述文本被分類(lèi)為所述第二特征文本庫(kù)時(shí),將所述文 本加入到所述第二特征文本庫(kù)。
[0012] 根據(jù)本發(fā)明的第二方面,提供了一種文本分類(lèi)裝置,包括:文本庫(kù)建立模塊,適于 建立第一特征文本庫(kù)S和第二特征文本庫(kù)H ;第一概率計(jì)算模塊,適于計(jì)算所述第一特征文 本庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (SIW) 和在所述第二特征文本庫(kù)H中出現(xiàn)的概率P(H|W);第二概率計(jì)算模塊,適于當(dāng)待分類(lèi)的文 本中包含所述詞語(yǔ)W時(shí),基于所述概率P (S IW)和所述概率P (HIW),計(jì)算所述文本屬于所述 第一特征文本庫(kù)S的概率P ;以及分類(lèi)模塊,基于所述概率P,將所述待分類(lèi)的文本分類(lèi)。
[0013] 可選地,其中所述第一概率計(jì)算模塊適于:分別對(duì)所述第一特征文本庫(kù)和所述第 二特征文本庫(kù)中的文本進(jìn)行分詞處理,以獲得分詞后的詞語(yǔ)W;分別計(jì)算各詞語(yǔ)W在所述第 一特征文本庫(kù)S中出現(xiàn)的概率P (S IW)和在所述第二特征文本庫(kù)H中出現(xiàn)的概率P (HIW)。
[0014] 可選地,其中所述第一概率計(jì)算模塊適于:建立所述第一特征文本庫(kù)S的哈希表 T (S)和所述第二特征文本庫(kù)H的哈希表T (H),所述哈希表T (S)包括所述詞語(yǔ)W與所述詞語(yǔ) 在所述第一特征文本庫(kù)S中出現(xiàn)的頻率F(S|W)的映射關(guān)系,所述哈希表T(H)包括所述詞 語(yǔ)W與所述詞語(yǔ)在所述第二特征文本庫(kù)H中出現(xiàn)的頻率F(H|W)的映射關(guān)系;基于所述哈希 表T (S)、所述頻率F (S IW)、所述哈希表T (H)和所述頻率F (HIW),計(jì)算所述概率P (S IW)和所 述概率P (HIW),其中所述概率P (S IW) = F (S IW)八哈希表T (S)的長(zhǎng)度),所述概率P (HIW) = F(H|WV(哈希表T(H)的長(zhǎng)度)。
[0015] 可選地,其中所述第二概率計(jì)算模塊適于:基于所述概率P(SlW)和所述概 率P(HlW),計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W的權(quán)重 P (weight);基于所述概率P (S IW)和所述權(quán)重P (weight),計(jì)算所述文本屬于所述第一特征 文本庫(kù)S的概率P。
[0016] 可選地,其中所述第二概率計(jì)算模塊適于:當(dāng)所述文本中包含N個(gè)詞語(yǔ)W^- Wn,其中1彡i彡N,基于每個(gè)詞語(yǔ)Wi的所述概率P (S I Wi)和所述概率P (HI Wi),分別計(jì)算所述 文本屬于所述第一特征文本庫(kù)S的概率Pi ;基于所述N個(gè)詞語(yǔ)巧…%…Wn的概率 Pn,計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P。
[0017] 可選地,其中所述分類(lèi)模塊適于:將所述概率P與預(yù)先確定的閾值Ptl比較;當(dāng)所述 概率P大于所述閾值Ptl時(shí),將所述文本分類(lèi)為屬于所述第一特征文本庫(kù)S。
[0018] 可選地,所述分類(lèi)模塊還適于:當(dāng)所述文本被分類(lèi)為所述第一特征文本庫(kù)時(shí),將所 述文本加入到所述第一特征文本庫(kù);或當(dāng)所述文本被分類(lèi)為所述第二特征文本庫(kù)時(shí),將所 述文本加入到所述第二特征文本庫(kù)。
[0019] 本發(fā)明提供的針對(duì)應(yīng)用進(jìn)行用戶(hù)數(shù)據(jù)調(diào)整的方法和裝置,通過(guò)特征文本庫(kù)中推斷 能力強(qiáng)的詞語(yǔ)對(duì)待分類(lèi)文本進(jìn)行分類(lèi),顯著提高了分類(lèi)的準(zhǔn)確性;通過(guò)加入權(quán)重,可以更加 突出對(duì)于待分類(lèi)文本有顯著影響的詞語(yǔ),提高文本分類(lèi)的準(zhǔn)確度;通過(guò)計(jì)算多個(gè)詞語(yǔ)的聯(lián) 合概率,避免了個(gè)別詞語(yǔ)對(duì)于分類(lèi)結(jié)果產(chǎn)生大幅度誤差,使分類(lèi)結(jié)果更加準(zhǔn)確;通過(guò)將分類(lèi) 的文本加入到第一特征文本庫(kù)或第二特征文本庫(kù),可以自動(dòng)更新第一特征文本庫(kù)或第二特 征文本庫(kù),不需要人工補(bǔ)充來(lái)對(duì)抗最新的垃圾文本,從而提高了分類(lèi)方法的效率和準(zhǔn)確性。
[0020] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特列舉本發(fā)明的【具體實(shí)施方式】。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0021] 通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0022] 圖1示出了根據(jù)本發(fā)明的實(shí)施例的文本分類(lèi)方法100的流程圖;以及
[0023] 圖2示出了根據(jù)本發(fā)明的實(shí)施例的文本分類(lèi)裝置200的示意圖。

【具體實(shí)施方式】
[0024] 下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi) 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0025] 在本發(fā)明的實(shí)施例中,應(yīng)用可以是使用各種程序設(shè)計(jì)語(yǔ)言編制的程序,其一般具 有可視的用戶(hù)界面,可以和用戶(hù)進(jìn)行交互,并可供多用戶(hù)使用,以滿足用戶(hù)不同領(lǐng)域、不同 問(wèn)題的需求。應(yīng)用可在手機(jī)、電腦等電子設(shè)備上使用,包括但不限于游戲、多媒體播放應(yīng)用、 導(dǎo)航應(yīng)用等等。在下文中,將以游戲作為應(yīng)用的例子,對(duì)本發(fā)明的原理進(jìn)行示例性地描述。 然而,這只是為了以具體的示例描述本發(fā)明,以幫助讀者理解本發(fā)明的原理,本發(fā)明的范圍 不限于此,而是可以適用于任何應(yīng)用。
[0026] 圖1示出了根據(jù)本發(fā)明的實(shí)施例的文本分類(lèi)方法100的流程圖。方法100包括: 步驟SlOl,建立第一特征文本庫(kù)S和第二特征文本庫(kù)H ;步驟S103,計(jì)算所述第一特征文本 庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (S IW) 和在所述第二特征文本庫(kù)H中出現(xiàn)的概率P(H|W);步驟S105,當(dāng)待分類(lèi)的文本中包含所述 詞語(yǔ)W時(shí),基于所述概率P (S IW)和所述概率P (HIW),計(jì)算所述文本屬于所述第一特征文本 庫(kù)S的概率P ;以及步驟S107,基于所述概率P,將所述待分類(lèi)的文本分類(lèi)。
[0027] 如圖1所示,方法100始于步驟S101。在步驟SlOl中,建立第一特征文本庫(kù)S和 第二特征文本庫(kù)H。
[0028] 可選地,第一特征文本庫(kù)S可以是包含垃圾文本或者異常文本的文本庫(kù);第二特 征文本庫(kù)H可以是包含正常文本的文本庫(kù)。
[0029] 可選地,可從服務(wù)器中獲取歷史數(shù)據(jù),以建立第一特征文本庫(kù)S和第二特征文本 庫(kù)H。根據(jù)本發(fā)明的實(shí)施例,服務(wù)器可以是一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī),可設(shè)置為提供某種服 務(wù)器功能,例如數(shù)據(jù)庫(kù)管理和搜索引擎。服務(wù)器可以包括至少一個(gè)處理器,其與存儲(chǔ)器以及 多個(gè)其它模塊協(xié)同操作。所述處理器可以包括多個(gè)核心,以用于多線程或并行處理。所述 存儲(chǔ)器可以包括一個(gè)或多個(gè)存儲(chǔ)設(shè)備,存儲(chǔ)器或者其中的存儲(chǔ)設(shè)備包括非易失性計(jì)算機(jī)可 讀記錄/存儲(chǔ)介質(zhì)。
[0030] 如圖1所示,步驟SlOl之后,進(jìn)行步驟S103 :計(jì)算所述第一特征文本庫(kù)S和所述 第二特征文本庫(kù)H中各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (S IW)和在所述第 二特征文本庫(kù)H中出現(xiàn)的概率P (HIW)。
[0031] 根據(jù)本發(fā)明的示例性實(shí)施例,步驟S103包括:分別對(duì)所述第一特征文本庫(kù)和所述 第二特征文本庫(kù)中的文本進(jìn)行分詞處理,以獲得分詞后的詞語(yǔ)W ;分別計(jì)算各詞語(yǔ)W在所述 第一特征文本庫(kù)S中出現(xiàn)的概率P (S IW)和在所述第二特征文本庫(kù)H中出現(xiàn)的概率P (HIW)。 比如,分別對(duì)所述第一特征文本庫(kù)和第二特征文本庫(kù)中的文本進(jìn)行分詞處理后,獲得的分 詞后的詞語(yǔ)W包括〃充值〃這個(gè)詞;第一特征文本庫(kù)包含4000條垃圾文本,其中有200條 垃圾文本包含這個(gè)詞,那么詞語(yǔ)"充值"在第一特征文本庫(kù)S中出現(xiàn)的概率P(S|W) = 5% ; 第二特征文本庫(kù)H包含4000條正常文本,其中只有2條正常文本包含這個(gè)詞,那么詞語(yǔ)"充 值"在第二特征文本庫(kù)H中出現(xiàn)的概率P(H|W) =0.05%??蛇x地,如果某個(gè)詞語(yǔ)只出現(xiàn)在 第一特征文本庫(kù)S中,而未出現(xiàn)在第二特征文本庫(kù)H中,則將該詞語(yǔ)在第二特征文本庫(kù)H出 現(xiàn)的概率P(H|W)設(shè)定為1%,以避免概率為0導(dǎo)致無(wú)法進(jìn)行后續(xù)計(jì)算;隨著第一特征文本 庫(kù)S和第二特征文本庫(kù)H中文本數(shù)量的增加,計(jì)算概率的計(jì)算結(jié)果會(huì)自動(dòng)調(diào)整,例如,當(dāng)該 詞語(yǔ)又在第二特征文本庫(kù)H中出現(xiàn)時(shí),出現(xiàn)的概率P (H|W)調(diào)整為實(shí)際的概率。
[0032] 如圖1所述,步驟S103之后,方法100進(jìn)行步驟S105 :當(dāng)待分類(lèi)的文本中包含所 述詞語(yǔ)W時(shí),基于所述概率P (S IW)和所述概率P (HIW),計(jì)算所述文本屬于所述第一特征文 本庫(kù)S的概率P。例如,對(duì)于一條新文本,需確定該文本是屬于垃圾文本還是正常文本;在 未經(jīng)本發(fā)明的方法100進(jìn)行分類(lèi)之前,假定它是垃圾文本的〃先驗(yàn)概率〃P (S)為50 %,是正 常文本的〃先驗(yàn)概率"P(H)也為50 %。如果對(duì)第一特征文本庫(kù)S和第二特征文本庫(kù)H進(jìn)行 分詞處理后,獲得的詞語(yǔ)W中包含"sex"這個(gè)詞,當(dāng)該待分類(lèi)文本中包含了"sex"這個(gè)詞語(yǔ) 時(shí),可基于所述概率P (S IW)和所述概率P (HIW),計(jì)算所述該待分類(lèi)文本屬于所述第一特征 文本庫(kù)S的概率P :

【權(quán)利要求】
1. 一種文本分類(lèi)方法,包括: 建立第一特征文本庫(kù)s和第二特征文本庫(kù)H ; 計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù)H中各詞語(yǔ)W在所述第一特征文本 庫(kù)S中出現(xiàn)的概率P(S|W)和在所述第二特征文本庫(kù)H中出現(xiàn)的概率P(H|W); 當(dāng)待分類(lèi)的文本中包含所述詞語(yǔ)W時(shí),基于所述概率P (S | W)和所述概率P (H | W),計(jì)算 所述文本屬于所述第一特征文本庫(kù)S的概率P ;以及 基于所述概率P,將所述待分類(lèi)的文本分類(lèi)。
2. 如權(quán)利要求1所述的方法,其中計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù) H中各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (S | W)和在所述第二特征文本庫(kù)H中 出現(xiàn)的概率P(H|W)包括: 分別對(duì)所述第一特征文本庫(kù)和所述第二特征文本庫(kù)中的文本進(jìn)行分詞處理,以獲得分 詞后的詞語(yǔ)W; 分別計(jì)算各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (S | W)和在所述第二特征 文本庫(kù)H中出現(xiàn)的概率P (H | W)。
3. 如權(quán)利要求1所述的方法,其中計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù) H中各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (S | W)和在所述第二特征文本庫(kù)H中 出現(xiàn)的概率P(H|W)包括: 建立所述第一特征文本庫(kù)S的哈希表T (S)和所述第二特征文本庫(kù)H的哈希表T (H),所 述哈希表T (S)包括所述詞語(yǔ)W與所述詞語(yǔ)在所述第一特征文本庫(kù)S中出現(xiàn)的頻率F (S | W) 的映射關(guān)系,所述哈希表T (H)包括所述詞語(yǔ)W與所述詞語(yǔ)在所述第二特征文本庫(kù)H中出現(xiàn) 的頻率F(H|W)的映射關(guān)系; 基于所述哈希表T(S)、所述頻率F(S|W)、所述哈希表T(H)和所述頻率F(H|W),計(jì)算 所述概率P (S | W)和所述概率P (H | W),其中所述概率P (S | W) = F (S | W)八哈希表T (S)的長(zhǎng) 度),所述概率P(H|W) =F(H|WV(哈希表T(H)的長(zhǎng)度)。
4. 如權(quán)利要求1或3所述的方法,其中當(dāng)文本中包含所述詞語(yǔ)W時(shí),基于所述概率 P (S | W)和所述概率P (H | W),計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P包括: 基于所述概率P (S | W)和所述概率P (H | W),計(jì)算所述第一特征文本庫(kù)S和所述第二特征 文本庫(kù)H中各詞語(yǔ)W的權(quán)重P (weight); 基于所述概率P (S | W)和所述權(quán)重P (weight),計(jì)算所述文本屬于所述第一特征文本庫(kù) S的概率P。
5. 如權(quán)利要求1或3所述的方法,其中當(dāng)文本中包含所述詞語(yǔ)W時(shí),基于所述概率 P (S | W)和所述概率P (H | W),計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P包括: 當(dāng)所述文本中包含N個(gè)詞語(yǔ),其中1 < i < N,基于每個(gè)詞語(yǔ)I的所述概率 P (S | WJ和所述概率P (H | WD,分別計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率Pi ; 基于所述N個(gè)詞語(yǔ)巧…%…%的概率,計(jì)算所述文本屬于所述第一特征文 本庫(kù)S的概率P。
6. 如權(quán)利要求1或3所述的方法,其中基于所述概率P,將所述文本分類(lèi)包括: 將所述概率P與預(yù)先確定的閾值P〇比較; 當(dāng)所述概率P大于所述閾值P〇時(shí),將所述文本分類(lèi)為屬于所述第一特征文本庫(kù)S。
7. 如權(quán)利要求1或3所述的方法,還包括: 當(dāng)所述文本被分類(lèi)為所述第一特征文本庫(kù)時(shí),將所述文本加入到所述第一特征文本 庫(kù);或 當(dāng)所述文本被分類(lèi)為所述第二特征文本庫(kù)時(shí),將所述文本加入到所述第二特征文本 庫(kù)。
8. -種文本分類(lèi)裝置,包括: 文本庫(kù)建立模塊,適于建立第一特征文本庫(kù)S和第二特征文本庫(kù)H ; 第一概率計(jì)算模塊,適于計(jì)算所述第一特征文本庫(kù)S和所述第二特征文本庫(kù)H中各詞 語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (S | W)和在所述第二特征文本庫(kù)H中出現(xiàn)的 概率 P(H|W); 第二概率計(jì)算模塊,適于當(dāng)待分類(lèi)的文本中包含所述詞語(yǔ)W時(shí),基于所述概率P (S | W) 和所述概率P (H | W),計(jì)算所述文本屬于所述第一特征文本庫(kù)S的概率P ;以及 分類(lèi)模塊,基于所述概率P,將所述待分類(lèi)的文本分類(lèi)。
9. 如權(quán)利要求8所述的裝置,其中所述第一概率計(jì)算模塊適于: 分別對(duì)所述第一特征文本庫(kù)和所述第二特征文本庫(kù)中的文本進(jìn)行分詞處理,以獲得分 詞后的詞語(yǔ)W; 分別計(jì)算各詞語(yǔ)W在所述第一特征文本庫(kù)S中出現(xiàn)的概率P (S | W)和在所述第二特征 文本庫(kù)H中出現(xiàn)的概率P (H | W)。
10. 如權(quán)利要求8所述的裝置,其中所述第一概率計(jì)算模塊適于: 建立所述第一特征文本庫(kù)S的哈希表T (S)和所述第二特征文本庫(kù)H的哈希表T (H),所 述哈希表T (S)包括所述詞語(yǔ)W與所述詞語(yǔ)在所述第一特征文本庫(kù)S中出現(xiàn)的頻率F (S | W) 的映射關(guān)系,所述哈希表T (H)包括所述詞語(yǔ)W與所述詞語(yǔ)在所述第二特征文本庫(kù)H中出現(xiàn) 的頻率F(H|W)的映射關(guān)系; 基于所述哈希表T(S)、所述頻率F(S|W)、所述哈希表T(H)和所述頻率F(H|W),計(jì)算 所述概率P (S | W)和所述概率P (H | W),其中所述概率P (S | W) = F (S | W)八哈希表T (S)的長(zhǎng) 度),所述概率P(H|W) =F(H|WV(哈希表T(H)的長(zhǎng)度)。
【文檔編號(hào)】G06F17/30GK104391981SQ201410746286
【公開(kāi)日】2015年3月4日 申請(qǐng)日期:2014年12月8日 優(yōu)先權(quán)日:2014年12月8日
【發(fā)明者】高玉龍, 溫躍宇, 傅志華, 李偉光, 王 琦, 陳龍, 宋明, 劉榮, 崔騰飛, 田爽, 劉丹, 周佩佩 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1