亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本分類(lèi)的方法及裝置的制作方法

文檔序號(hào):6433191閱讀:168來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種文本分類(lèi)的方法及裝置的制作方法
一種文本分類(lèi)的方法及裝置技術(shù)領(lǐng)域
本發(fā)明涉及文本數(shù)據(jù)挖掘技術(shù),特別涉及一種文本分類(lèi)的方法及裝置。背景技術(shù)
文本分類(lèi)技術(shù)在很多領(lǐng)域都有應(yīng)用,例如,將文本進(jìn)行分類(lèi),分類(lèi)后的文本用于指導(dǎo)機(jī)器翻譯中翻譯模型的訓(xùn)練,可見(jiàn),文本分類(lèi)的精度很重要,精度高的分類(lèi)文本,可以在其應(yīng)用領(lǐng)域帶來(lái)有益效果,而如果文本分類(lèi)的精度不夠,就會(huì)給使用這些分類(lèi)文本的應(yīng)用帶來(lái)不利影響。
在現(xiàn)有的文本分類(lèi)方法中,通常采用訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,然后用訓(xùn)練后的分類(lèi)器對(duì)文本進(jìn)行分類(lèi)的方式進(jìn)行。這種方式下,首先,獲取大量標(biāo)注的訓(xùn)練語(yǔ)料存在困難,如果采用大規(guī)模手工標(biāo)注,則效率低下,其次,由于訓(xùn)練語(yǔ)料有可能存在類(lèi)別偏見(jiàn)(例如有的標(biāo)記為新聞的語(yǔ)料,可能更適合標(biāo)記為娛樂(lè)),會(huì)導(dǎo)致分類(lèi)器也帶有類(lèi)別偏見(jiàn),因此最終會(huì)導(dǎo)致分類(lèi)精度的降低。另外,現(xiàn)有技術(shù)也有用聚類(lèi)的方法將文本分為若干類(lèi)別的,但是由于在聚類(lèi)時(shí)對(duì)聚出的各個(gè)類(lèi)別無(wú)法控制,所以如果只采用聚類(lèi)的方法將文本分為若干類(lèi)別,可能存在無(wú)法得到真正需要的類(lèi)的情況。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種文本分類(lèi)的方法及裝置,以提高文本分類(lèi)的精度。
本發(fā)明為解決技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種文本分類(lèi)的方法,包括 A.獲取第一文本集的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,獲取所述第一文本集的初始分類(lèi)結(jié)果作為當(dāng)前分類(lèi)結(jié)果將所述第一文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第一文本集的當(dāng)前聚類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第一文本子集;C.利用所述第一文本子集獲得第一分類(lèi)器,使用所述第一分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi),得到所述第一文本集的當(dāng)前分類(lèi)結(jié)果;以及,以所述第一文本子集為聚類(lèi)中心對(duì)所述第一文本集進(jìn)行聚類(lèi),得到所述第一文本集的當(dāng)前聚類(lèi)結(jié)果; 判斷預(yù)設(shè)條件是否滿(mǎn)足,如果是,則輸出所述第一文本集的當(dāng)前分類(lèi)結(jié)果,否則,返回所述步驟B。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)設(shè)條件包括所述方法的執(zhí)行時(shí)間達(dá)到預(yù)設(shè)值,或者,所述方法執(zhí)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本的策略包括將所述第一文本集的當(dāng)前聚類(lèi)結(jié)果與所述第一文本集的當(dāng)前分類(lèi)結(jié)果的相同類(lèi)別的交集中的所有文本確定為該相同類(lèi)別的文本;確定所述第一文本集的當(dāng)前聚類(lèi)結(jié)果與所述第一文本集的當(dāng)前分類(lèi)結(jié)果的不同類(lèi)別的交集中各文本歸屬于所屬類(lèi)別的置信度,將歸屬于所屬類(lèi)別的置信度大于設(shè)定閾值的文本作為該置信度對(duì)應(yīng)類(lèi)別的文本。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,利用所述第一文本子集獲得第一分類(lèi)器的步驟包 括使用所述第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,利用所述第一文本子集獲得第一分類(lèi)器的步驟包 括C1.使用所述第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第二分類(lèi)器, 使用所述第二分類(lèi)器對(duì)獲取的第二文本集進(jìn)行分類(lèi),得到所述第二文本集的當(dāng)前分類(lèi)結(jié) 果;C2.將所述第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第二文本集的預(yù)置分類(lèi) 結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第二文本子 集;C3.使用所述第二文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)置分類(lèi)結(jié)果在所述步驟C2首次執(zhí)行時(shí),是獲 取所述第二文本集時(shí),所述第二文本集的初始分類(lèi)結(jié)果;所述預(yù)置分類(lèi)結(jié)果在所述步驟C2 循環(huán)執(zhí)行時(shí),是所述第二文本集上一次的分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)置分類(lèi)結(jié)果是獲取所述第二文本集時(shí),所述 第二文本集的初始分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,獲取所述第一文本集的初始分類(lèi)結(jié)果的步驟包括 使用所述第二文本集的初始分類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器對(duì)所述第 一文本集進(jìn)行分類(lèi)得到所述第一文本集的初始分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,獲取所述第一文本集的初始分類(lèi)結(jié)果的步驟包括 使用所述第一文本集的初始聚類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器對(duì)所述第 二文本集進(jìn)行分類(lèi),得到所述第二文本集的當(dāng)前分類(lèi)結(jié)果,將所述第二文本集的當(dāng)前分類(lèi) 結(jié)果中的各類(lèi)別分別與所述第二文本集的初始分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集 中抽取該交集對(duì)應(yīng)類(lèi)別的文本用以再次進(jìn)行分類(lèi)器訓(xùn)練,使用再次訓(xùn)練后得到的分類(lèi)器對(duì) 所述第一文本集進(jìn)行分類(lèi),得到所述第一文本集的初始分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法在滿(mǎn)足所述預(yù)設(shè)條件時(shí),進(jìn)一步輸出所述 第二文本集的當(dāng)前分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)設(shè)條件包括所述方法的執(zhí)行時(shí)間達(dá)到預(yù)設(shè) 值,或者,所述方法執(zhí)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果 及所述第二文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大 于預(yù)設(shè)值。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,將輸出的所述第一文本集的當(dāng)前分類(lèi)結(jié)果與所述第 二文本集的當(dāng)前分類(lèi)結(jié)果合并,并利用合并后的各類(lèi)別的文本進(jìn)行分類(lèi)器訓(xùn)練,得到訓(xùn)練 后的分類(lèi)器為最終的分類(lèi)器,所述最終的分類(lèi)器用以對(duì)未知類(lèi)別的文本進(jìn)行分類(lèi)。
本發(fā)明還提供了一種文本分類(lèi)的裝置,包括初始化單元,用于獲取第一文本集 的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,獲取所述第一文本集的初始分類(lèi)結(jié)果作為當(dāng)前 分類(lèi)結(jié)果;第一交集單元,用于將所述第一文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述 第一文本集的當(dāng)前聚類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文 本,以得到第一文本子集;分類(lèi)器生成單元,用于利用所述第一文本子集獲得第一分類(lèi)器; 第一分類(lèi)單元,用于使用所述第一分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi),得到所述第一文本 集的當(dāng)前分類(lèi)結(jié)果并將所述第一文本集的當(dāng)前分類(lèi)結(jié)果發(fā)送給判斷單元;聚類(lèi)單元,用于 以所述第一文本子集為聚類(lèi)中心對(duì)所述第一文本集進(jìn)行聚類(lèi),得到所述第一文本集的當(dāng)前聚類(lèi)結(jié)果并將所述第一文本集的當(dāng)前聚類(lèi)結(jié)果發(fā)送給判斷單元;判斷單元,用于判斷預(yù)設(shè) 條件是否滿(mǎn)足,如果是,則觸發(fā)輸出單元運(yùn)行,否則將所述第一文本集的當(dāng)前分類(lèi)結(jié)果和所 述第一文本集的當(dāng)前聚類(lèi)結(jié)果發(fā)送至所述第一交集單元并觸發(fā)所述第一交集單元運(yùn)行;輸 出單元,用于輸出所述第一文本集的當(dāng)前分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)設(shè)條件包括所述裝置的運(yùn)行時(shí)間達(dá)到預(yù)設(shè) 值,或者,所述裝置運(yùn)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果 中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第一交集單元從各交集中抽取該交集對(duì)應(yīng)類(lèi)別 的文本的策略包括將所述第一文本集的當(dāng)前聚類(lèi)結(jié)果與所述第一文本集的當(dāng)前分類(lèi)結(jié)果 的相同類(lèi)別的交集中的所有文本確定為該相同類(lèi)別的文本;確定所述第一文本集的當(dāng)前聚 類(lèi)結(jié)果與所述第一文本集的當(dāng)前分類(lèi)結(jié)果的不同類(lèi)別的交集中各文本歸屬于所屬類(lèi)別的 置信度,將歸屬于所屬類(lèi)別的置信度大于設(shè)定閾值的文本作為該置信度對(duì)應(yīng)類(lèi)別的文本。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述分類(lèi)器生成單元使用所述第一文本子集進(jìn)行分 類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述分類(lèi)器生成單元包括第二訓(xùn)練單元,用于使用 所述第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第二分類(lèi)器;第二分類(lèi)單 元,用于使用所述第二分類(lèi)器對(duì)獲取的第二文本集進(jìn)行分類(lèi),得到所述第二文本集的當(dāng)前 分類(lèi)結(jié)果;第二交集單元,用于將所述第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述 第二文本集的預(yù)置分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文 本,以得到第二文本子集;第一訓(xùn)練單元,用于使用所述第二文本子集進(jìn)行分類(lèi)器訓(xùn)練,將 訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)置分類(lèi)結(jié)果在所述第二交集單元被首次觸發(fā) 時(shí),是獲取所述第二文本集時(shí),所述第二文本集的初始分類(lèi)結(jié)果;所述預(yù)置分類(lèi)結(jié)果在所述 第二交集單元被循環(huán)觸發(fā)時(shí),是所述第二文本集上一次的分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)置分類(lèi)結(jié)果是獲取所述第二文本集時(shí),所述 第二文本集的初始分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述初始化單元在獲取所述第一文本集的初始分類(lèi) 結(jié)果時(shí),使用所述第二文本集的初始分類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器 對(duì)所述第一文本集進(jìn)行分類(lèi)得到所述第一文本集的初始分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述初始化單元在獲取所述第一文本集的初始分類(lèi) 結(jié)果時(shí),使用所述第一文本集的初始聚類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器 對(duì)所述第二文本集進(jìn)行分類(lèi),得到所述第二文本集的當(dāng)前分類(lèi)結(jié)果,將所述第二文本集的 當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第二文本集的初始分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集, 從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本用以再次進(jìn)行分類(lèi)器訓(xùn)練,使用再次訓(xùn)練后得到的 分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi),得到所述第一文本集的初始分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置在滿(mǎn)足所述預(yù)設(shè)條件時(shí),所述輸出單元進(jìn) 一步輸出所述第二文本集的當(dāng)前分類(lèi)結(jié)果。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述預(yù)設(shè)條件包括所述裝置的運(yùn)行時(shí)間達(dá)到預(yù)設(shè) 值,或者,所述裝置運(yùn)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果及所述第二文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括最終分類(lèi)器生成單元,用于將輸出的所述第一文本集的當(dāng)前分類(lèi)結(jié)果與所述第二文本集的當(dāng)前分類(lèi)結(jié)果合并,并利用合并后的各類(lèi)別的文本進(jìn)行分類(lèi)器訓(xùn)練,得到訓(xùn)練后的分類(lèi)器為最終的分類(lèi)器,所述最終的分類(lèi)器用以對(duì)未知類(lèi)別的文本進(jìn)行分類(lèi)。通過(guò)采用上述方式,對(duì)文本的分類(lèi)結(jié)果和聚類(lèi)結(jié)果求交集,可以從文本的分類(lèi)結(jié)果和聚類(lèi)結(jié)果中獲取各個(gè)類(lèi)別的可信文本,實(shí)現(xiàn)對(duì)文本的分類(lèi)結(jié)果和聚類(lèi)結(jié)果的不斷調(diào)整,從而最終減少類(lèi)別偏見(jiàn),提聞文本分類(lèi)的精度。

圖1為本發(fā)明中文本分類(lèi)的方法的實(shí)施例一的流程示意圖; 圖2為本發(fā)明中分類(lèi)結(jié)果與聚類(lèi)結(jié)果求交集的示意圖;圖3為本發(fā)明中文本分類(lèi)的方法的實(shí)施例二的流程示意圖;圖4為本發(fā)明中文本分類(lèi)的方法的實(shí)施例三的流程示意圖;圖5為本發(fā)明中文本分類(lèi)的裝置的實(shí)施例一的結(jié)構(gòu)示意框圖;圖6為本發(fā)明中文本分類(lèi)的裝置的實(shí)施例二的結(jié)構(gòu)示意框圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。請(qǐng)參考圖1,圖1為本發(fā)明中文本分類(lèi)的方法的實(shí)施例一的流程示意圖。如圖1所示,該實(shí)施例包括步驟SlOl :獲取第一文本集的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,獲取第一文本集的初始分類(lèi)結(jié)果作為當(dāng)前分類(lèi)結(jié)果。步驟S102:將第一文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與第一文本集的當(dāng)前聚類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第一文本子集。步驟S103 :使用第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器,使用第一分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi),得到第一文本集的當(dāng)前分類(lèi)結(jié)果,以及,以第一文本子集為聚類(lèi)中心對(duì)第一文本集進(jìn)行聚類(lèi),得到第一文本集的當(dāng)前聚類(lèi)結(jié)果。步驟S104 :判斷預(yù)設(shè)條件是否滿(mǎn)足,如果是,則執(zhí)行步驟S105,否則,返回步驟S102。步驟S105 :輸出第一文本集的當(dāng)前分類(lèi)結(jié)果。下面對(duì)上述實(shí)施例進(jìn)行具體說(shuō)明。步驟SlOl中,獲取第一文本集的初始聚類(lèi)結(jié)果時(shí),可采用任何現(xiàn)有的聚類(lèi)方法對(duì)第一文本集進(jìn)行聚類(lèi),本發(fā)明對(duì)此不做限制。獲取第一文本集的初始分類(lèi)結(jié)果時(shí),也可采用任意的分類(lèi)方法,例如利用現(xiàn)有的分類(lèi)器進(jìn)行分類(lèi)等。步驟S102中,第一文本集的當(dāng)前分類(lèi)結(jié)果包含了各個(gè)類(lèi)別,第一文本集的當(dāng)前聚類(lèi)結(jié)果與之類(lèi)似,也包含了各個(gè)類(lèi)別。請(qǐng)參考圖2,圖2為本發(fā)明中分類(lèi)結(jié)果與聚類(lèi)結(jié)果求交集的示意圖。由于聚類(lèi)行為所具有的特性,聚出的各個(gè)集合并不知道其代表的具體含義,因此可以對(duì)聚類(lèi)結(jié)果的各個(gè)集合的特征進(jìn)行觀察,并由此確定各個(gè)集合對(duì)應(yīng)的類(lèi)別,此時(shí)聚類(lèi)結(jié)果的各類(lèi)別與分類(lèi)結(jié)果的各類(lèi)別可能完全相同,如聚類(lèi)結(jié)果有類(lèi)別1、2、3,分類(lèi)結(jié)果也有類(lèi)別1、2、3,另外聚類(lèi)結(jié)果的各類(lèi)別與分類(lèi)結(jié)果的各類(lèi)別也可能不完全相同,如聚類(lèi)結(jié)果有類(lèi)別1、2、4,分類(lèi)結(jié)果有類(lèi)別1、2、5。如圖2所示,假設(shè)聚類(lèi)結(jié)果與分類(lèi)結(jié)果都具有類(lèi)別I至類(lèi)別3,則將聚類(lèi)結(jié)果的類(lèi)別3與分類(lèi)結(jié)果的類(lèi)別I求交集,可以得到文本{12、13},聚類(lèi)結(jié)果的類(lèi)別3與分類(lèi)結(jié)果的類(lèi)別2求交集,可以得到文本{11、14}、聚類(lèi)結(jié)果的類(lèi)別3與分類(lèi)結(jié)果的類(lèi)別3求交集,可以得到 文本{2、3、23、24}。從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本的策略包括將聚類(lèi)結(jié)果和分類(lèi)結(jié)果的相同類(lèi)別的交集中的所有文本確定為該相同類(lèi)別的文本;確定聚類(lèi)結(jié)果和分類(lèi)結(jié)果的不同類(lèi)別的交集中各文本歸屬于所屬類(lèi)別的置信度,將歸屬于所屬類(lèi)別的置信度大于設(shè)定閾值的文本作為該置信度對(duì)應(yīng)類(lèi)別的文本。各文本歸屬于所屬類(lèi)別的置信度,可由分類(lèi)或聚類(lèi)時(shí)的分類(lèi)參數(shù)或聚類(lèi)參數(shù)獲得。聚類(lèi)結(jié)果和分類(lèi)結(jié)果的相同類(lèi)別的交集中的文本,說(shuō)明無(wú)論是在聚類(lèi)還是在分類(lèi)中,都被分在了這個(gè)類(lèi)別,所以其被分在這個(gè)類(lèi)別的可靠性很高,因此就將相同類(lèi)別的交集中的所有文本作為該相同類(lèi)別的文本。而不同類(lèi)別的交集中的文本究竟適合抽取到哪個(gè)類(lèi)別,則需要根據(jù)文本歸屬于所屬類(lèi)別的置信度來(lái)進(jìn)行判斷。以上面聚類(lèi)結(jié)果的類(lèi)別3分別與分類(lèi)結(jié)果的類(lèi)別I至類(lèi)別3的交集為例說(shuō)明上述抽取各類(lèi)別文本的過(guò)程。請(qǐng)參考表1:表I
聚類(lèi)結(jié)果分類(lèi)結(jié)果rs
類(lèi)別 3{1203}
類(lèi)別 31^2{1104}
類(lèi)別 3類(lèi)別 3{2、3、23、24}對(duì)聚類(lèi)結(jié)果類(lèi)別3與分類(lèi)結(jié)果類(lèi)別3的交集{2、3、23、24},其中的文本2、3、23、24都作為類(lèi)別3的文本,而對(duì)聚類(lèi)結(jié)果類(lèi)別3與分類(lèi)結(jié)果類(lèi)別I的交集{12、13}和聚類(lèi)結(jié)果類(lèi)別3與分類(lèi)結(jié)果類(lèi)別2的交集{11、14}來(lái)說(shuō),就需要判斷各個(gè)文本歸屬于所屬類(lèi)別的置信度。例如文本11歸屬于類(lèi)別2的概率為90%,說(shuō)明其歸屬于類(lèi)別2的置信度很高,也就可以認(rèn)為該文本作為類(lèi)別2的文本是可靠的;文本14歸屬于類(lèi)別3的概率為20%,歸屬于類(lèi)別2的概率為10%,則說(shuō)明其歸屬于類(lèi)別2或類(lèi)別3的置信度都很低,就不把它作為任何一個(gè)類(lèi)別的文本。第一文本子集,是對(duì)聚類(lèi)結(jié)果和分類(lèi)結(jié)果求交集后得到的各個(gè)類(lèi)別的可信文本,因此,在步驟S 103中,使用第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,得到的第一分類(lèi)器也會(huì)具有更高的精度,這樣,利用第一分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi)得到的當(dāng)前分類(lèi)結(jié)果,準(zhǔn)確度也會(huì)提高,而由于第一文本子集對(duì)各個(gè)類(lèi)別的代表性高,以第一文本子集為聚類(lèi)中心對(duì)第一文本集進(jìn)行聚類(lèi)得到的當(dāng)前聚類(lèi)結(jié)果的準(zhǔn)確度同樣也會(huì)提高。
步驟S104中,預(yù)設(shè)條件包括本發(fā)明的方法的執(zhí)行時(shí)間達(dá)到預(yù)設(shè)值,或者,本發(fā)明的方法執(zhí)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,第一文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果滿(mǎn)足其他的限制條件。步驟S104中的預(yù)設(shè)條件,用以控制本方法的循環(huán)過(guò)程,如果預(yù)設(shè)條件滿(mǎn)足,則在步驟S105中將第一文本集的當(dāng)前分類(lèi)結(jié)果輸出,否則跳轉(zhuǎn)至步驟S102,重復(fù)上面對(duì)分類(lèi)結(jié)果與聚類(lèi)結(jié)果求交集的過(guò)程,以得到精度更高的各類(lèi)別的文本。通過(guò)本發(fā)明的循環(huán)迭代過(guò)程,可以不斷提高第一文本集的分類(lèi)結(jié)果的精度,使得歸屬于各類(lèi)別的文本的可靠性大大提高。請(qǐng)參考圖3,圖3為本發(fā)明中文本分類(lèi)的方法的實(shí)施例二的流程示意圖。如圖3所示,本實(shí)施例包括步驟S201 :獲取第一文本集的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,使用第二文本集的初始分類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi)得到第一文本集的初始分類(lèi)結(jié)果作為當(dāng)前分類(lèi)結(jié)果。步驟S202:將第一文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與第一文本集的當(dāng)前聚類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第一文本子集。步驟S203 :使用第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第二分類(lèi)器,使用第二分類(lèi)器對(duì)第二文本集進(jìn)行分類(lèi),得到第二文本集的當(dāng)前分類(lèi)結(jié)果。步驟S204 :將第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與第二文本集的預(yù)置分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第二文本子集。步驟S205 :使用第二文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。步驟S206 :使用第一分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi),得到第一文本集的當(dāng)前分類(lèi)結(jié)果,以及,以第一文本子集為聚類(lèi)中心對(duì)第一文本集進(jìn)行聚類(lèi),得到第一文本集的當(dāng)前聚類(lèi)結(jié)果。步驟S207 :判斷預(yù)設(shè)條件是否滿(mǎn)足,如果是,則執(zhí)行步驟S208,否則返回步驟S202。步驟S208 :輸出第一文本集的當(dāng)前分類(lèi)結(jié)果與第二文本集的當(dāng)前分類(lèi)結(jié)果,將第一文本集的當(dāng)前分類(lèi)結(jié)果與第二文本集的當(dāng)前分類(lèi)結(jié)果合并,并利用合并后的各類(lèi)別的文本進(jìn)行分類(lèi)器訓(xùn)練,得到訓(xùn)練后的分類(lèi)器為最終的分類(lèi)器。在本實(shí)施例中,采用了兩個(gè)文本集來(lái)實(shí)現(xiàn)不斷改進(jìn)文本分類(lèi)結(jié)果精度的目的。其中第二文本集可從網(wǎng)絡(luò)上收集已有的分類(lèi)語(yǔ)料得到。例如通過(guò)網(wǎng)絡(luò)爬蟲(chóng),可以從門(mén)戶(hù)網(wǎng)站上得到已有粗略分類(lèi)的各種類(lèi)別的語(yǔ)料。例如新浪、搜狐這樣的網(wǎng)站已對(duì)各種類(lèi)型的資訊進(jìn)行了分類(lèi),有新聞?lì)愋偷?、體育類(lèi)型的、財(cái)經(jīng)類(lèi)型的等等。從這些網(wǎng)站收集得到的語(yǔ)料具有初始分類(lèi)結(jié)果,可作為本實(shí)施例中的第二文本集。本實(shí)施例的步驟S201中,第二文本集的初始分類(lèi)結(jié)果可用于進(jìn)行分類(lèi)器訓(xùn)練,以得到訓(xùn)練后的分類(lèi)器用于對(duì)第一文本集進(jìn)行分類(lèi),得到第一文本集的初始分類(lèi)結(jié)果。
本實(shí)施例的步驟S202與實(shí)施例一中的步驟S102類(lèi)似,在此不再贅述。本實(shí)施例中的步驟S203至步驟S205是為了得到第一分類(lèi)器,與實(shí)施例一不同的是,由于本實(shí)施例有兩個(gè)文本集,因此,首先在步驟S203中,使用第一文本子集訓(xùn)練得到的第二分類(lèi)器對(duì)第二文本集進(jìn)行分類(lèi)得到第二文本集的當(dāng)前分類(lèi)結(jié)果。步驟S204與步驟S202的過(guò)程類(lèi)似,主要是為了得到第二文本集中歸屬于各類(lèi)別的置信度高的文本作為第二文本子集。在一個(gè)實(shí)施例中,第二文本集的預(yù)置分類(lèi)結(jié)果在步驟S204首次執(zhí)行時(shí),指的是第二文本集的初始分類(lèi)結(jié)果,第二文本集的預(yù)置分類(lèi)結(jié)果在步驟S204循環(huán)執(zhí)行時(shí),指的是第二文本集上一次的分類(lèi)結(jié)果。在另一個(gè)實(shí)施例中,第二文本集的預(yù)置分類(lèi)結(jié)果無(wú)論步驟S204第幾次執(zhí)行,都可以是第二文本集的初始分類(lèi)結(jié)果。得到第二文本子集后,在步驟S205中就可以用第二文本子集進(jìn)行分類(lèi)器訓(xùn)練,從而得到第一分類(lèi)器。步驟S206與實(shí)施例一的步驟S103中的相應(yīng)動(dòng)作類(lèi)似,不再重復(fù)說(shuō)明。步驟S207中,預(yù)設(shè)條件包括本發(fā)明的方法的執(zhí)行時(shí)間達(dá)到預(yù)設(shè)值,或者,本發(fā)明的方法在執(zhí)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,第一文本集的當(dāng)前分類(lèi)結(jié)果及第二文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值,或者,所述第一文本集或/和所述第二文本集的當(dāng)前分類(lèi)結(jié)果滿(mǎn)足其他限制條件。這里,預(yù)設(shè)條件與實(shí)施例一相比,還多了一個(gè)對(duì)第二文本集的分類(lèi)結(jié)果中文本歸屬于所屬類(lèi)別的置信度的控制,這樣,可以將滿(mǎn)足足夠分類(lèi)精度要求的第一文本集的分類(lèi)結(jié)果和第二文本集的分類(lèi)結(jié)果一起輸出。本實(shí)施例中,還可以在步驟S208中,進(jìn)一步將第一文本集和第二文本集的當(dāng)前分類(lèi)結(jié)果合并,并利用合并后的各類(lèi)別的文本進(jìn)行分類(lèi)器訓(xùn)練,得到訓(xùn)練后的分類(lèi)器為最終分類(lèi)器,最終的分類(lèi)器可以后續(xù)用于對(duì)未知類(lèi)別的文本進(jìn)行分類(lèi)。請(qǐng)參考圖4,圖4為本發(fā)明中文本分類(lèi)的方法的實(shí)施例三的流程示意圖。本實(shí)施例包括步驟S301 :獲取第一文本集的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,使用第一文本集的初始聚類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器對(duì)第二文本集進(jìn)行分類(lèi),得到第二文本集的當(dāng)前分類(lèi)結(jié)果,將第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與第二文本集的初始分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本用以再次進(jìn)行分類(lèi)器訓(xùn)練,使用再次訓(xùn)練后得到的分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi),得到第一文本集的初始分類(lèi)結(jié)果。步驟S302:將第一文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與第一文本集的當(dāng)前聚類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第一文本子集。步驟S303 :使用第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第二分類(lèi)器,使用第二分類(lèi)器對(duì)第二文本集進(jìn)行分類(lèi),得到第二文本集的當(dāng)前分類(lèi)結(jié)果。步驟S304:將第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與第二文本集的預(yù)置分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第二文本子集。步驟S305 :使用第二文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
步驟S306 :使用第一分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi),得到第一文本集的當(dāng)前分類(lèi)結(jié)果,以及,以第一文本子集為聚類(lèi)中心對(duì)第一文本集進(jìn)行聚類(lèi),得到第一文本集的當(dāng)前聚類(lèi)結(jié)果。步驟S307 :判斷預(yù)設(shè)條件是否滿(mǎn)足,如果是,則執(zhí)行步驟S308,否則返回步驟S302。步驟S308 :輸出第一文本集的當(dāng)前分類(lèi)結(jié)果與第二文本集的當(dāng)前分類(lèi)結(jié)果,將第一文本集的當(dāng)前分類(lèi)結(jié)果與第二文本集的當(dāng)前分類(lèi)結(jié)果合并,并利用合并后的各類(lèi)別的文本進(jìn)行分類(lèi)器訓(xùn)練,得到訓(xùn)練后的分類(lèi)器為最終的分類(lèi)器。 本實(shí)施例中步驟S302至步驟S308與實(shí)施例二中的步驟S202至步驟S208類(lèi)似,本實(shí)施例與實(shí)施例二的主要區(qū)別是步驟S301中獲取第一文本集的初始分類(lèi)結(jié)果的方式上。在本實(shí)施例中,不直接使用第二文本集的初始分類(lèi)結(jié)果訓(xùn)練得到的分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi),而是先用第一文本集的初始聚類(lèi)結(jié)果訓(xùn)練得到的分類(lèi)器對(duì)第二文本集進(jìn)行分類(lèi),然后通過(guò)對(duì)第二文本集的當(dāng)前分類(lèi)結(jié)果和初始分類(lèi)結(jié)果取交集的過(guò)程,得到精度提高的各類(lèi)別文本,并利用這些文本再次訓(xùn)練得到的分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi),這時(shí)的分類(lèi)結(jié)果才是第一文本集的初始分類(lèi)結(jié)果。請(qǐng)參考圖5,圖5為本發(fā)明中文本分類(lèi)的裝置的實(shí)施例一的結(jié)構(gòu)示意框圖。如圖5所示,本實(shí)施例包括初始化單元401、第一交集單元402、分類(lèi)器生成單元403、第一分類(lèi)單元404、聚類(lèi)單元405、判斷單元406及輸出單元407。其中初始化單元401,用于獲取第一文本集的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,獲取第一文本集的初始分類(lèi)結(jié)果作為當(dāng)前分類(lèi)結(jié)果。初始化單元401,在獲取第一文本集的初始聚類(lèi)結(jié)果時(shí),可采用任何現(xiàn)有的聚類(lèi)方法對(duì)第一文本集進(jìn)行聚類(lèi),本發(fā)明對(duì)此不做限制。獲取第一文本集的初始分類(lèi)結(jié)果時(shí),也可采用任意的分類(lèi)方法,例如利用現(xiàn)有的分類(lèi)器進(jìn)行分類(lèi)等。第一交集單元402,用于將第一文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與第一文本集的當(dāng)前聚類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第一文本子集。第一文本集的當(dāng)前分類(lèi)結(jié)果包含了各個(gè)類(lèi)別,第一文本集的當(dāng)前聚類(lèi)結(jié)果與之類(lèi)似,也包含了各個(gè)類(lèi)別。請(qǐng)參考圖2,圖2為本發(fā)明中分類(lèi)結(jié)果與聚類(lèi)結(jié)果求交集的示意圖。由于聚類(lèi)行為所具有的特性,聚出的各個(gè)集合并不知道其代表的具體含義,因此可以對(duì)聚類(lèi)結(jié)果的各個(gè)集合的特征進(jìn)行觀察,并由此確定各個(gè)集合對(duì)應(yīng)的類(lèi)別,此時(shí)聚類(lèi)結(jié)果的各類(lèi)別與分類(lèi)結(jié)果的各類(lèi)別可能完全相同,如聚類(lèi)結(jié)果有類(lèi)別1、2、3,分類(lèi)結(jié)果也有類(lèi)別1、2、3,另外聚類(lèi)結(jié)果的各類(lèi)別與分類(lèi)結(jié)果的各類(lèi)別也可能不完全相同,如聚類(lèi)結(jié)果有類(lèi)別1、2、4,分類(lèi)結(jié)果有類(lèi)別1、2、5。如圖2所示,聚類(lèi)結(jié)果與分類(lèi)結(jié)果都具有類(lèi)別I至類(lèi)別3,則將聚類(lèi)結(jié)果的類(lèi)別3與分類(lèi)結(jié)果的類(lèi)別I求交集,可以得到文本{12、13},聚類(lèi)結(jié)果的類(lèi)別3與分類(lèi)結(jié)果的類(lèi)別2求交集,可以得到文本{11、14}、聚類(lèi)結(jié)果的類(lèi)別3與分類(lèi)結(jié)果的類(lèi)別3求交集,可以得到文本{2、3、23、24}。第一交集單元402從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本的策略包括將聚類(lèi)結(jié)果和分類(lèi)結(jié)果的相同類(lèi)別的交集中的所有文本確定為該相同類(lèi)別的文本;確定聚類(lèi)結(jié)果和分類(lèi)結(jié)果的不同類(lèi)別的交集中各文本歸屬于所屬類(lèi)別的置信度,將歸屬于所屬類(lèi)別的置信度大于設(shè)定閾值的文本作為該置信度對(duì)應(yīng)類(lèi)別的文本。各文本歸屬于所屬類(lèi)別的置信度,可由分類(lèi)或聚類(lèi)時(shí)的分類(lèi)參數(shù)或聚類(lèi)參數(shù)獲得。聚類(lèi)結(jié)果和分類(lèi)結(jié)果的相同類(lèi)別的交集中的文本,說(shuō)明無(wú)論是在聚類(lèi)還是在分類(lèi)中,都被分在了這個(gè)類(lèi)別,所以其被分在這個(gè)類(lèi)別的可靠性很高,因此就將相同類(lèi)別的交集中的所有文本作為該相同類(lèi)別的文本。而不同類(lèi)別的交集中的文本究竟適合抽取到哪個(gè)類(lèi)別,則需要根據(jù)文本歸屬于所屬類(lèi)別的置信度來(lái)進(jìn)行判斷。以上面聚類(lèi)結(jié)果的類(lèi)別3分別與分類(lèi)結(jié)果的類(lèi)別1至類(lèi)別3的交集為例說(shuō)明上述抽取各類(lèi)別文本的過(guò)程。請(qǐng)參考表2 表 權(quán)利要求
1.一種文本分類(lèi)的方法,其特征在于,所述方法包括A.獲取第一文本集的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,獲取所述第一文本集的初始分類(lèi)結(jié)果作為當(dāng)前分類(lèi)結(jié)果;B.將所述第一文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第一文本集的當(dāng)前聚類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第一文本子集;C.利用所述第一文本子集獲得第一分類(lèi)器,使用所述第一分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi),得到所述第一文本集的當(dāng)前分類(lèi)結(jié)果;以及,以所述第一文本子集為聚類(lèi)中心對(duì)所述第一文本集進(jìn)行聚類(lèi),得到所述第一文本集的當(dāng)前聚類(lèi)結(jié)果;判斷預(yù)設(shè)條件是否滿(mǎn)足,如果是,則輸出所述第一文本集的當(dāng)前分類(lèi)結(jié)果,否則,返回所述步驟B。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)條件包括所述方法的執(zhí)行時(shí)間達(dá)到預(yù)設(shè)值,或者,所述方法執(zhí)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本的策略包括將所述第一文本集的當(dāng)前聚類(lèi)結(jié)果與所述第一文本集的當(dāng)前分類(lèi)結(jié)果的相同類(lèi)別的交集中的所有文本確定為該相同類(lèi)別的文本;確定所述第一文本集的當(dāng)前聚類(lèi)結(jié)果與所述第一文本集的當(dāng)前分類(lèi)結(jié)果的不同類(lèi)別的交集中各文本歸屬于所屬類(lèi)別的置信度, 將歸屬于所屬類(lèi)別的置信度大于設(shè)定閾值的文本作為該置信度對(duì)應(yīng)類(lèi)別的文本。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用所述第一文本子集獲得第一分類(lèi)器的步驟包括使用所述第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用所述第一文本子集獲得第一分類(lèi)器的步驟包括Cl.使用所述第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第二分類(lèi)器, 使用所述第二分類(lèi)器對(duì)獲取的第二文本集進(jìn)行分類(lèi),得到所述第二文本集的當(dāng)前分類(lèi)結(jié)果;C2.將所述第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第二文本集的預(yù)置分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第二文本子集;C3.使用所述第二文本子集對(duì)進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
6.根據(jù)權(quán)利5所述的方法,其特征在于,所述預(yù)置分類(lèi)結(jié)果在所述步驟C2首次執(zhí)行時(shí),是獲取所述第二文本集時(shí),所述第二文本集的初始分類(lèi)結(jié)果;所述預(yù)置分類(lèi)結(jié)果在所述步驟C2循環(huán)執(zhí)行時(shí),是所述第二文本集上一次的分類(lèi)結(jié)果。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述預(yù)置分類(lèi)結(jié)果是獲取所述第二文本集時(shí),所述第二文本集的初始分類(lèi)結(jié)果。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,獲取所述第一文本集的初始分類(lèi)結(jié)果的步驟包括使用所述第二文本集的初始分類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi)得到所述第一文本集的初始分類(lèi)結(jié)果。
9.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,獲取所述第一文本集的初始分類(lèi)結(jié)果的步驟包括使用所述第一文本集的初始聚類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器對(duì)所述第二文本集進(jìn)行分類(lèi),得到所述第二文本集的當(dāng)前分類(lèi)結(jié)果,將所述第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第二文本集的初始分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本用以再次進(jìn)行分類(lèi)器訓(xùn)練,使用再次訓(xùn)練后得到的分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi),得到所述第一文本集的初始分類(lèi)結(jié)果。
10.根據(jù)權(quán)利要求5至9中任一權(quán)項(xiàng)所述的方法,其特征在于,所述方法在滿(mǎn)足所述預(yù)設(shè)條件時(shí),進(jìn)一步輸出所述第二文本集的當(dāng)前分類(lèi)結(jié)果。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述預(yù)設(shè)條件包括所述方法的執(zhí)行時(shí)間達(dá)到預(yù)設(shè)值,或者,所述方法執(zhí)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果及所述第二文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值。
12.根據(jù)權(quán)利要求10所述的方法,其特征在于,將輸出的所述第一文本集的當(dāng)前分類(lèi)結(jié)果與所述第二文本集的當(dāng)前分類(lèi)結(jié)果合并,并利用合并后的各類(lèi)別的文本進(jìn)行分類(lèi)器訓(xùn)練,得到訓(xùn)練后的分類(lèi)器為最終的分類(lèi)器,所述最終的分類(lèi)器用以對(duì)未知類(lèi)別的文本進(jìn)行分類(lèi)。
13.一種文本分類(lèi)的裝置,其特征在于,所述裝置包括初始化單元,用于獲取第一文本集的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,獲取所述第一文本集的初始分類(lèi)結(jié)果作為當(dāng)前分類(lèi)結(jié)果;第一交集單元,用于將所述第一文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第一文本集的當(dāng)前聚類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第一文本子集;分類(lèi)器生成單元,用于利用所述第一文本子集獲得第一分類(lèi)器;第一分類(lèi)單元,用于使用所述第一分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi),得到所述第一文本集的當(dāng)前分類(lèi)結(jié)果并將所述第一文本集的當(dāng)前分類(lèi)結(jié)果發(fā)送給判斷單元;聚類(lèi)單元,用于以所述第一文本子集為聚類(lèi)中心對(duì)所述第一文本集進(jìn)行聚類(lèi),得到所述第一文本集的當(dāng)前聚類(lèi)結(jié)果并將所述第一文本集的當(dāng)前聚類(lèi)結(jié)果發(fā)送給判斷單元;判斷單元,用于判斷預(yù)設(shè)條件是否滿(mǎn)足,如果是,則觸發(fā)輸出單元運(yùn)行,否則將所述第一文本集的當(dāng)前分類(lèi)結(jié)果和所述第一文本集的當(dāng)前聚類(lèi)結(jié)果發(fā)送至所述第一交集單元并觸發(fā)所述第一交集單元運(yùn)行;輸出單元,用于輸出所述第一文本集的當(dāng)前分類(lèi)結(jié)果。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述預(yù)設(shè)條件包括所述裝置的運(yùn)行時(shí)間達(dá)到預(yù)設(shè)值,或者,所述裝置運(yùn)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值。
15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第一交集單元從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本的策略包括將所述第一文本集的當(dāng)前聚類(lèi)結(jié)果與所述第一文本集的當(dāng)前分類(lèi)結(jié)果的相同類(lèi)別的交集中的所有文本確定為該相同類(lèi)別的文本;確定所述第一文本集的當(dāng)前聚類(lèi)結(jié)果與所述第一文本集的當(dāng)前分類(lèi)結(jié)果的不同類(lèi)別的交集中各文本歸屬于所屬類(lèi)別的置信度,將歸屬于所屬類(lèi)別的置信度大于設(shè)定閾值的文本作為該置信度對(duì)應(yīng)類(lèi)別的文本。
16.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述分類(lèi)器生成單元使用所述第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
17.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述分類(lèi)器生成單元包括第二訓(xùn)練單元,用于使用所述第一文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第二分類(lèi)器;第二分類(lèi)單元,用于使用所述第二分類(lèi)器對(duì)獲取的第二文本集進(jìn)行分類(lèi),得到所述第二文本集的當(dāng)前分類(lèi)結(jié)果;第二交集單元,用于將所述第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第二文本集的預(yù)置分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本,以得到第二文本子集;第一訓(xùn)練單元,用于使用所述第二文本子集進(jìn)行分類(lèi)器訓(xùn)練,將訓(xùn)練后得到的分類(lèi)器作為第一分類(lèi)器。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述預(yù)置分類(lèi)結(jié)果在所述第二交集單元被首次觸發(fā)時(shí),是獲取所述第二文本集時(shí),所述第二文本集的初始分類(lèi)結(jié)果;所述預(yù)置分類(lèi)結(jié)果在所述第二交集單元被循環(huán)觸發(fā)時(shí),是所述第二文本集上一次的分類(lèi)結(jié)果。
19.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述預(yù)置分類(lèi)結(jié)果是獲取所述第二文本集時(shí),所述第二文本集的初始分類(lèi)結(jié)果。
20.根據(jù)權(quán)利要求18或19所述的裝置,其特征在于,所述初始化單元在獲取所述第一文本集的初始分類(lèi)結(jié)果時(shí),使用所述第二文本集的初始分類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi)得到所述第一文本集的初始分類(lèi)結(jié)果。
21.根據(jù)權(quán)利要求18或19所述的裝置,其特征在于,所述初始化單元在獲取所述第一文本集的初始分類(lèi)結(jié)果時(shí),使用所述第一文本集的初始聚類(lèi)結(jié)果進(jìn)行分類(lèi)器訓(xùn)練,使用訓(xùn)練后得到的分類(lèi)器對(duì)所述第二文本集進(jìn)行分類(lèi),得到所述第二文本集的當(dāng)前分類(lèi)結(jié)果,將所述第二文本集的當(dāng)前分類(lèi)結(jié)果中的各類(lèi)別分別與所述第二文本集的初始分類(lèi)結(jié)果中的各類(lèi)別兩兩求交集,從各交集中抽取該交集對(duì)應(yīng)類(lèi)別的文本用以再次進(jìn)行分類(lèi)器訓(xùn)練,使用再次訓(xùn)練后得到的分類(lèi)器對(duì)所述第一文本集進(jìn)行分類(lèi),得到所述第一文本集的初始分類(lèi)結(jié)果。
22.根據(jù)權(quán)利要求17至21中任一權(quán)項(xiàng)所述的裝置,其特征在于,所述裝置在滿(mǎn)足所述預(yù)設(shè)條件時(shí),所述輸出單元進(jìn)一步輸出所述第二文本集的當(dāng)前分類(lèi)結(jié) 果。
23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述預(yù)設(shè)條件包括所述裝置的運(yùn)行時(shí)間達(dá)到預(yù)設(shè)值,或者,所述裝置運(yùn)行中的循環(huán)次數(shù)達(dá)到預(yù)設(shè)值,或者,所述第一文本集的當(dāng)前分類(lèi)結(jié)果及所述第二文本集的當(dāng)前分類(lèi)結(jié)果中各類(lèi)別的文本歸屬于該文本所屬類(lèi)別的置信度均大于預(yù)設(shè)值。
24.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述裝置進(jìn)一步包括最終分類(lèi)器生成單元,用于將輸出的所述第一文本集的當(dāng)前分類(lèi)結(jié)果與所述第二文本集的當(dāng)前分類(lèi)結(jié)果合并,并 利用合并后的各類(lèi)別的文本進(jìn)行分類(lèi)器訓(xùn)練,得到訓(xùn)練后的分類(lèi)器為最終的分類(lèi)器, 所述最終的分類(lèi)器用以對(duì)未知類(lèi)別的文本進(jìn)行分類(lèi)。
全文摘要
本發(fā)明提供了一種文本分類(lèi)的方法及裝置,其中文本分類(lèi)的方法包括A.獲取第一文本集的初始聚類(lèi)結(jié)果作為當(dāng)前聚類(lèi)結(jié)果,以及,獲取第一文本集的初始分類(lèi)結(jié)果作為當(dāng)前分類(lèi)結(jié)果;B.利用當(dāng)前聚類(lèi)結(jié)果和當(dāng)前分類(lèi)結(jié)果得到第一文本子集;C.利用第一文本子集得到的第一分類(lèi)器對(duì)第一文本集進(jìn)行分類(lèi),得到當(dāng)前分類(lèi)結(jié)果;以及,以第一文本子集為聚類(lèi)中心對(duì)第一文本集進(jìn)行聚類(lèi),得到當(dāng)前聚類(lèi)結(jié)果;判斷預(yù)設(shè)條件是否滿(mǎn)足,如果是,則輸出第一文本集的當(dāng)前分類(lèi)結(jié)果,否則,返回步驟B。通過(guò)上述方式,提高了文本分類(lèi)的精度。
文檔編號(hào)G06F17/30GK102999516SQ20111027303
公開(kāi)日2013年3月27日 申請(qǐng)日期2011年9月15日 優(yōu)先權(quán)日2011年9月15日
發(fā)明者楊振東, 吳華, 王海峰, 柴春光 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1