本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及用于分類數(shù)據(jù)的方法和裝置。
背景技術(shù):
在處理上千億的文本數(shù)據(jù),為文本分類模型準(zhǔn)備質(zhì)量較高的訓(xùn)練數(shù)據(jù)時(shí),也即為無(wú)類別信息的用戶搜索query及點(diǎn)擊title這樣的原始數(shù)據(jù)設(shè)計(jì)學(xué)習(xí)方法時(shí),可以為其打上相應(yīng)的類別標(biāo)簽,再通過設(shè)計(jì)過濾方法及增補(bǔ)方法來(lái)保證各類樣本的純度及數(shù)量,從而為用戶畫像的興趣屬性分類問題,挖掘訓(xùn)練樣本,也即對(duì)用于用戶畫像的數(shù)據(jù)進(jìn)行分類。
目前,對(duì)用于用戶畫像的數(shù)據(jù)進(jìn)行分類的方法,可以采用人工審查的方法,或者采用編制領(lǐng)域?qū)C~匯來(lái)匹配日志的方法,抓取或過濾出各類別的樣本。
然而,目前的這種對(duì)用于用戶畫像的數(shù)據(jù)進(jìn)行分類的方法,采用人工審查的方法的成本太大,而且不同的人,對(duì)類別的定義標(biāo)準(zhǔn)不穩(wěn)定;采用編制領(lǐng)域?qū)C~匯的方法,雖然由于數(shù)據(jù)量基數(shù)較大,可以在數(shù)量上得以保證,但在類別內(nèi)部的樣本多樣性上欠缺,并且指定專名的個(gè)數(shù)也較少,且不易更新。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)的目的在于提出一種改進(jìn)的用于分類數(shù)據(jù)的方法和裝置,來(lái)解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本申請(qǐng)實(shí)施例提供了一種用于分類數(shù)據(jù)的方法,方法包括:對(duì)原始數(shù)據(jù)進(jìn)行分詞,得到原始樣本集;基于文檔主題生成模型,將原始樣本集聚類至預(yù)定數(shù)量的主題;查詢預(yù)設(shè)的領(lǐng)域表征詞是否命中從主題提取的主題表征詞,若是,則將主題表征詞歸類至領(lǐng)域表征詞所表征的領(lǐng)域;基于領(lǐng)域中的主題表征詞,確定領(lǐng)域的初始樣本集。
在一些實(shí)施例中,基于領(lǐng)域中的主題表征詞,確定領(lǐng)域的初始樣本集包括:采用領(lǐng)域關(guān)鍵詞以及反詞典,過濾領(lǐng)域中的主題表征詞;將過濾后的領(lǐng)域中的主題表征詞對(duì)應(yīng)的原始樣本集,確定為領(lǐng)域的初始樣本集。
在一些實(shí)施例中,將過濾后的領(lǐng)域中的主題表征詞對(duì)應(yīng)的原始樣本集,確定為領(lǐng)域的初始樣本集包括:基于過濾后的領(lǐng)域中的主題表征詞,經(jīng)由文檔主題生成模型對(duì)主題-詞映射矩陣的解析,確定初始樣本的主題;基于初始樣本的主題,經(jīng)由文檔主題生成模型對(duì)文檔-主題映射矩陣的解析,得到領(lǐng)域的初始樣本集。
在一些實(shí)施例中,方法還包括:對(duì)初始樣本集進(jìn)行多分類器投票過濾,直至單次舍棄掉的樣本的數(shù)量小于預(yù)定閾值;將舍棄掉樣本后的初始樣本集確定為標(biāo)準(zhǔn)樣本集。
在一些實(shí)施例中,多分類器投票過濾包括:將初始樣本集拆分為訓(xùn)練集和測(cè)試集;采用訓(xùn)練集,分別訓(xùn)練多個(gè)分類器;采用測(cè)試集,分別驗(yàn)證分類器;響應(yīng)于驗(yàn)證結(jié)果統(tǒng)一并且正確的分類器占多個(gè)分類器的比例小于預(yù)定比例,舍棄測(cè)試集中的樣本;采用舍棄掉樣本后的初始樣本集,更新進(jìn)行多分類器投票過濾的初始樣本集。
在一些實(shí)施例中,從主題提取的主題表征詞包括:采用以下一項(xiàng)或多項(xiàng)從主題提取的主題表征詞:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在一些實(shí)施例中,從主題提取的主題表征詞包括以下一項(xiàng)或多項(xiàng):對(duì)主題表征詞去停用詞;以及對(duì)主題表征詞去與本詞相關(guān)性低于預(yù)定閾值的詞。
在一些實(shí)施例中,原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點(diǎn)擊標(biāo)題數(shù)據(jù)。
第二方面,本申請(qǐng)實(shí)施例提供了一種用于分類數(shù)據(jù)的裝置,裝置包括:數(shù)據(jù)分詞單元,用于對(duì)原始數(shù)據(jù)進(jìn)行分詞,得到原始樣本集;樣本聚類單元,用于基于文檔主題生成模型,將原始樣本集聚類至預(yù)定數(shù)量的主題;表征詞歸類單元,用于查詢預(yù)設(shè)的領(lǐng)域表征詞是否命中從主題提取的主題表征詞,若是,則將主題表征詞歸類至領(lǐng)域表征詞所表征的領(lǐng)域;樣本確定單元,用于基于領(lǐng)域中的主題表征詞,確定領(lǐng)域的初始樣本集。
在一些實(shí)施例中,樣本確定單元包括:過濾子單元,用于采用領(lǐng)域關(guān)鍵詞以及反詞典,過濾領(lǐng)域中的主題表征詞;確定子單元,用于將過濾后的領(lǐng)域中的主題表征詞對(duì)應(yīng)的原始樣本集,確定為領(lǐng)域的初始樣本集。
在一些實(shí)施例中,確定子單元進(jìn)一步用于:基于過濾后的領(lǐng)域中的主題表征詞,經(jīng)由文檔主題生成模型對(duì)主題-詞映射矩陣的解析,確定初始樣本的主題;基于初始樣本的主題,經(jīng)由文檔主題生成模型對(duì)文檔-主題映射矩陣的解析,得到領(lǐng)域的初始樣本集。
在一些實(shí)施例中,裝置還包括:投票過濾單元,用于對(duì)初始樣本集進(jìn)行多分類器投票過濾,直至單次舍棄掉的樣本的數(shù)量小于預(yù)定閾值;樣本優(yōu)化單元,用于將舍棄掉樣本后的初始樣本集確定為標(biāo)準(zhǔn)樣本集。
在一些實(shí)施例中,投票過濾單元所進(jìn)行的多分類器投票過濾包括:將初始樣本集拆分為訓(xùn)練集和測(cè)試集;采用訓(xùn)練集,分別訓(xùn)練多個(gè)分類器;采用測(cè)試集,分別驗(yàn)證分類器;響應(yīng)于驗(yàn)證結(jié)果統(tǒng)一并且正確的分類器占多個(gè)分類器的比例小于預(yù)定比例,舍棄測(cè)試集中的樣本;采用舍棄掉樣本后的初始樣本集,更新進(jìn)行多分類器投票過濾的初始樣本集。
在一些實(shí)施例中,表征詞歸類單元中從主題提取的主題表征詞包括:采用以下一項(xiàng)或多項(xiàng)從主題提取的主題表征詞:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在一些實(shí)施例中,表征詞歸類單元中從主題提取的主題表征詞包括以下一項(xiàng)或多項(xiàng):對(duì)主題表征詞去停用詞;以及對(duì)主題表征詞去與本詞相關(guān)性低于預(yù)定閾值的詞。
在一些實(shí)施例中,數(shù)據(jù)分詞單元中的原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點(diǎn)擊標(biāo)題數(shù)據(jù)。
第三方面,本申請(qǐng)實(shí)施例提供了一種設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上任意一項(xiàng)用于分類數(shù)據(jù)的方法。
第四方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任意一項(xiàng)用于分類數(shù)據(jù)的方法。
本申請(qǐng)上述實(shí)施例提供的用于分類數(shù)據(jù)的方法和裝置,首先對(duì)原始數(shù)據(jù)進(jìn)行分詞,得到原始樣本集;之后,基于文檔主題生成模型,將原始樣本集聚類至預(yù)定數(shù)量的主題;查詢預(yù)設(shè)的領(lǐng)域表征詞是否命中從主題提取的主題表征詞,若是,則將從主題表征詞歸類至領(lǐng)域表征詞所表征的領(lǐng)域;基于領(lǐng)域中的主題表征詞,確定領(lǐng)域的初始樣本集。上述實(shí)施例通過聚類主題和歸類主題表征詞至領(lǐng)域,從而確定領(lǐng)域的初始樣本集,由于類別內(nèi)部的樣本多樣性好,提高了初始樣本集的準(zhǔn)確率,增強(qiáng)了對(duì)于未知樣本的分類能力。
附圖說(shuō)明
通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本申請(qǐng)的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
圖1a是根據(jù)本申請(qǐng)的用于分類數(shù)據(jù)的方法的一個(gè)實(shí)施例的示意性流程圖;
圖1b是圖1a的用于分類數(shù)據(jù)的方法的一個(gè)示例性應(yīng)用場(chǎng)景;
圖2a是在圖1a的基礎(chǔ)上優(yōu)化的用于分類數(shù)據(jù)的方法的一個(gè)實(shí)施例的示意性流程圖;
圖2b是圖2a的優(yōu)化的用于分類數(shù)據(jù)的方法的一個(gè)示例性應(yīng)用場(chǎng)景;
圖3是根據(jù)本申請(qǐng)的用于分類數(shù)據(jù)的裝置的一個(gè)實(shí)施例的示例性結(jié)構(gòu)圖;
圖4是適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。
請(qǐng)參考圖1a,圖1a示出了根據(jù)本申請(qǐng)的用于分類數(shù)據(jù)的方法的一個(gè)實(shí)施例的流程。
如圖1a所示,該用于分類數(shù)據(jù)的方法100包括:
在步驟110中,對(duì)原始數(shù)據(jù)進(jìn)行分詞,得到原始樣本集。
在本實(shí)施例中,原始數(shù)據(jù)是指未經(jīng)處理的用戶交互文檔數(shù)據(jù),例如用戶搜索查詢數(shù)據(jù)和/或用戶點(diǎn)擊標(biāo)題數(shù)據(jù)。分詞是指將連續(xù)的字序列按照一定的規(guī)范重新切分并組合成詞序列的過程。在對(duì)原始數(shù)據(jù)進(jìn)行分詞后,可以得到分詞后的原始數(shù)據(jù),該分詞后的原始數(shù)據(jù)也即原始樣本集。
在步驟120中,基于文檔主題生成模型,將原始樣本集聚類至預(yù)定數(shù)量的主題。
在本實(shí)施例中,文檔主題生成模型(latentdirichletallocation)是一種文檔主題生成模型,也稱為一個(gè)三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)?;趌da這一主題模型學(xué)習(xí)技術(shù),可以得到各原始樣本的主題,進(jìn)一步將得到的主題聚類,可以得到預(yù)定數(shù)量的主題。例如,可以將海量(1300億)的原始樣本聚類為800個(gè)主題。
在步驟130中,查詢預(yù)設(shè)的領(lǐng)域表征詞是否命中從主題提取的主題表征詞,若是,則將主題表征詞歸類至領(lǐng)域表征詞所表征的領(lǐng)域。
在本實(shí)施例中,預(yù)設(shè)的領(lǐng)域表征詞,是指對(duì)于預(yù)定數(shù)量的預(yù)設(shè)領(lǐng)域,為每一個(gè)預(yù)設(shè)領(lǐng)域預(yù)設(shè)的表征詞,例如,可以定義用戶的興趣類別作為預(yù)設(shè)領(lǐng)域,例如可以定義31個(gè)預(yù)設(shè)領(lǐng)域,包括汽車、餐飲美食、旅游出行等。從主題提取的主題表征詞,可以采用各種關(guān)鍵詞提取方法來(lái)完成。例如,采用以下一項(xiàng)或多項(xiàng)從主題提取主題表征詞:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在這里,可以為每個(gè)預(yù)設(shè)領(lǐng)域指定預(yù)定數(shù)量的領(lǐng)域表征詞,作為本領(lǐng)域區(qū)別于其它領(lǐng)域的標(biāo)識(shí);也可以從主題提取預(yù)設(shè)數(shù)量的主題表征詞,作為本主題區(qū)別于其它主題的標(biāo)識(shí)。
這里的查詢預(yù)設(shè)的領(lǐng)域表征詞是否命中從主題提取的主題表征詞,也即將各主題的樣本集按照預(yù)設(shè)領(lǐng)域進(jìn)行歸類。示例性地,可以將上述800個(gè)主題的樣本集,歸類至31個(gè)預(yù)設(shè)領(lǐng)域。
在歸類時(shí),還可以通過對(duì)有限的主題進(jìn)行人工查看來(lái)進(jìn)行歸類。從而通過歸類,可以定義該主題是否為某個(gè)領(lǐng)域的詞的聚類結(jié)果。對(duì)于歸類的結(jié)果,還可以進(jìn)行人工校對(duì)判定。
在步驟140中,基于領(lǐng)域中的主題表征詞,確定領(lǐng)域的初始樣本集。
在本實(shí)施例中,基于領(lǐng)域中的主題表征詞,可以確定所有領(lǐng)域中包括的主題,之后根據(jù)主題可以回溯出領(lǐng)域的原始樣本集,從而得到初始樣本集。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,基于領(lǐng)域中的主題表征詞,確定領(lǐng)域的初始樣本集可以包括:采用領(lǐng)域關(guān)鍵詞以及反詞典,過濾領(lǐng)域中的主題表征詞;將過濾后的領(lǐng)域中的主題表征詞對(duì)應(yīng)的原始樣本集,確定為領(lǐng)域的初始樣本集。
在本實(shí)現(xiàn)方式中,對(duì)于歸類好的各領(lǐng)域的樣本,有可能出現(xiàn)數(shù)據(jù)量上的不均、存在主題內(nèi)部的噪音以及兩三個(gè)主題在一個(gè)主題內(nèi)部出現(xiàn)等情況,針對(duì)這些問題,可以通過領(lǐng)域關(guān)鍵詞以及反詞典這樣的匹配方案來(lái)對(duì)樣本進(jìn)行過濾。這里的反詞典,是指不該出現(xiàn)在各主題的詞形成的詞典。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,將過濾后的領(lǐng)域中的主題表征詞對(duì)應(yīng)的原始樣本集,確定為領(lǐng)域的初始樣本集包括:基于過濾后的領(lǐng)域中的主題表征詞,經(jīng)由文檔主題生成模型對(duì)主題-詞映射矩陣的解析,確定初始樣本的主題;基于初始樣本的主題,經(jīng)由文檔主題生成模型對(duì)文檔-主題映射矩陣的解析,得到領(lǐng)域的初始樣本集。
本申請(qǐng)的上述實(shí)施例提供的用于分類數(shù)據(jù)的方法,通過對(duì)海量原始數(shù)據(jù)進(jìn)行分詞并聚類,得到預(yù)定數(shù)量的主題,再根據(jù)從主題提取的主題表征詞與領(lǐng)域表征詞的匹配結(jié)果,將各主題的樣本集分類至各個(gè)領(lǐng)域,從而得到領(lǐng)域的初始樣本集,在這一過程中采用的數(shù)據(jù)量的基數(shù)較大,可以保證用于分類的樣本的數(shù)量,并且健全了類別內(nèi)部的樣本的多樣性,提高了初始樣本集的準(zhǔn)確率,增強(qiáng)了對(duì)于未知樣本的分類能力。
以下結(jié)合圖1b,描述本申請(qǐng)實(shí)施例對(duì)應(yīng)圖1a的用于分類數(shù)據(jù)的方法的示例性應(yīng)用場(chǎng)景。
如圖1b所示,圖1b示出了根據(jù)本申請(qǐng)實(shí)施例的對(duì)應(yīng)圖1a的用于分類數(shù)據(jù)的方法的一個(gè)應(yīng)用場(chǎng)景的示例性流程圖。
在圖1b所示的流程圖中,包括以下步驟:
對(duì)于原始語(yǔ)料151,首先執(zhí)行步驟152;
在步驟152中,根據(jù)詞頻進(jìn)行特征提取,可以得到無(wú)監(jiān)督原始數(shù)據(jù)的特征向量153,其中,特征向量153按照數(shù)量可以分為包括2千萬(wàn)樣本的小樣本集、包括2億樣本的中級(jí)樣本集以及包括1300億樣本的大樣本集,之后,對(duì)于特征向量153,可以執(zhí)行步驟154;
在步驟154中,可以執(zhí)行主題模型訓(xùn)練,從而從各級(jí)樣本中分別得到主題的數(shù)量:小樣本集中的樣本可以得到80個(gè)主題,中級(jí)樣本集中的樣本可以得到800個(gè)主題,大樣本集中的樣本可以得到10000個(gè)主題,之后,可以對(duì)于各級(jí)樣本的主題,分別執(zhí)行步驟155和步驟160;
在步驟155中,生成詞-主題(w-z)的映射矩陣(pwz),之后,執(zhí)行步驟156;
在步驟156中,基于詞-主題的映射矩陣,根據(jù)在同一主題(z)條件下的詞(w)的概率排序樣本集,并且根據(jù)主題的概率排序,之后,執(zhí)行步驟157;
在步驟157中,進(jìn)行領(lǐng)域與主題的歸類映射,包括:在步驟158中,將領(lǐng)域與主題做歸類映射,之后,執(zhí)行步驟162;以及在步驟159中,對(duì)于語(yǔ)義明顯但無(wú)法與現(xiàn)有領(lǐng)域?qū)?yīng)的主題,可以作為新的領(lǐng)域挖掘;
在步驟160中,生成文檔-主題(d-z)的映射矩陣(pdz),之后,執(zhí)行步驟161或執(zhí)行步驟162;
在步驟161中,建立主題到文檔的倒排索引,根據(jù)在同一文檔中的主題的概率排序,之后執(zhí)行步驟162;
在步驟162中,根據(jù)文檔-主題(d-z)的映射矩陣(pdz)或概率排序的結(jié)果,回溯樣本集,包括:在步驟163中,回溯屬于指定主題且概率值在閾值之上的所有樣本,之后,得到初始樣本集164。
本申請(qǐng)的上述應(yīng)用場(chǎng)景中提供的用于分類數(shù)據(jù)的方法,提高了用于分類的樣本的數(shù)量,保障了類別內(nèi)部的樣本的多樣性,對(duì)于未知樣本的分類能力較好。
進(jìn)一步參考圖2a,圖2a示出了根據(jù)本申請(qǐng)的優(yōu)化的用于分類數(shù)據(jù)的方法的又一個(gè)實(shí)施例的示意性流程圖。
如圖2a所示,該優(yōu)化的用于分類數(shù)據(jù)的方法200在圖1a中示出的用于分類數(shù)據(jù)的方法的基礎(chǔ)上,還包括:
在步驟210中,對(duì)初始樣本集進(jìn)行多分類器投票過濾,直至單次舍棄掉的樣本的數(shù)量小于預(yù)定閾值。
在本實(shí)施例中,使用至目前已得的初始樣本集作為數(shù)據(jù)集,采用多個(gè)分類器可以驗(yàn)證數(shù)據(jù)集分類的正確性,并迭代優(yōu)化數(shù)據(jù)分類結(jié)果,直至單次舍棄掉的樣本的數(shù)量小于預(yù)定閾值。
在采用多個(gè)分類器可以驗(yàn)證數(shù)據(jù)集分類的正確性,并迭代優(yōu)化數(shù)據(jù)分類結(jié)果時(shí),多分類器投票過濾這一迭代步驟可以包括:將初始樣本集拆分為訓(xùn)練集和測(cè)試集;采用訓(xùn)練集,分別訓(xùn)練多個(gè)分類器;采用測(cè)試集,分別驗(yàn)證分類器;響應(yīng)于驗(yàn)證結(jié)果統(tǒng)一并且正確的分類器占多個(gè)分類器的比例大于或等于預(yù)定比例,保留該條樣本;響應(yīng)于驗(yàn)證結(jié)果統(tǒng)一并且正確的分類器占多個(gè)分類器的比例小于預(yù)定比例,舍棄測(cè)試集中的樣本;采用舍棄掉樣本后的初始樣本集,更新進(jìn)行多分類器投票過濾的初始樣本集,進(jìn)行下一輪迭代。這里的分類器可以為現(xiàn)有技術(shù)或未來(lái)發(fā)展的技術(shù)中的分類器,本申請(qǐng)對(duì)此不做限定。
示例性地,對(duì)于初始樣本集,以8:2的比例無(wú)交叉拆分訓(xùn)練集與測(cè)試集,采用分類訓(xùn)練支持向量機(jī)模型(svm),樸素貝葉斯算法(nativebayes),最大熵模型和線性分類器(liblinear)的分類器,對(duì)測(cè)試集中的同一樣本,四個(gè)分類器的結(jié)果若有三個(gè)及以上的結(jié)果統(tǒng)一并正確,則該條樣本留下,否則舍棄之。
在步驟220中,將舍棄掉樣本后的初始樣本集確定為標(biāo)準(zhǔn)樣本集。
在本實(shí)施例中,舍棄掉樣本后的初始樣本集中的樣本狀態(tài)已收斂,此時(shí)可以將該已收斂的樣本集確定為標(biāo)準(zhǔn)樣本集。
本申請(qǐng)的上述實(shí)施例提供的用于分類數(shù)據(jù)的方法,可以自動(dòng)的迭代更新,學(xué)習(xí)計(jì)算出驗(yàn)證的結(jié)果統(tǒng)一且正確的比例大于預(yù)定比例的更新后的樣本集合,舍棄不符合需求的樣本直至樣本狀態(tài)收斂,從而得到較優(yōu)的帶標(biāo)注的樣本集,提高了標(biāo)準(zhǔn)樣本集中樣本的準(zhǔn)確度以及對(duì)未知樣本的分類能力。
以下結(jié)合圖2b,描述本申請(qǐng)實(shí)施例對(duì)應(yīng)圖2a的用于分類數(shù)據(jù)的方法的示例性應(yīng)用場(chǎng)景。
如圖2b所示,圖2b示出了根據(jù)本申請(qǐng)實(shí)施例的對(duì)應(yīng)圖2a的用于分類數(shù)據(jù)的方法的一個(gè)應(yīng)用場(chǎng)景的示例性流程圖。
在圖2b所示的流程圖中,包括以下步驟:
首先,對(duì)于初始樣本集230(也即圖1b的應(yīng)用場(chǎng)景中得到的初始樣本集164),隨機(jī)按照預(yù)定比例拆分為訓(xùn)練集231和測(cè)試集232;
之后,采用訓(xùn)練集231分別訓(xùn)練四個(gè)分類器233、234、235和236;
之后,采用測(cè)試集232中的各樣本分別驗(yàn)證分類器233、234、235和236,得到四個(gè)驗(yàn)證結(jié)果237、238、239和240;
之后,分別判斷驗(yàn)證結(jié)果237、238、239和240的準(zhǔn)確率241、242、243和244是否分別大于計(jì)數(shù)器1中的計(jì)數(shù)值,若大于則驗(yàn)證結(jié)果正確,若驗(yàn)證結(jié)果237、238、239和240統(tǒng)一且正確的比例大于預(yù)定比例,則執(zhí)行步驟245:合并測(cè)試集中正確的樣本到訓(xùn)練集中,得到新的樣本集246;
之后,判斷單次舍棄掉的樣本的數(shù)量是否小于預(yù)定閾值,若是,則將新的樣本集246作為標(biāo)準(zhǔn)樣本集;若否,則將新的樣本集作為初始樣本集230進(jìn)行下一輪迭代,直至單次舍棄掉的樣本的數(shù)量小于預(yù)定閾值。
本申請(qǐng)的上述應(yīng)用場(chǎng)景中提供的用于分類數(shù)據(jù)的方法,得到了較優(yōu)的帶標(biāo)注的樣本集,提高了標(biāo)準(zhǔn)樣本集中樣本的準(zhǔn)確度以及對(duì)未知樣本的分類能力。
進(jìn)一步參考圖3,作為對(duì)上述方法的實(shí)現(xiàn),本申請(qǐng)實(shí)施例提供了一種用于分類數(shù)據(jù)的裝置的一個(gè)實(shí)施例,該用于分類數(shù)據(jù)的方法的實(shí)施例與圖1a至圖2b所示的用于分類數(shù)據(jù)的方法的實(shí)施例相對(duì)應(yīng),由此,上文針對(duì)圖1a至圖2b中用于分類數(shù)據(jù)的方法描述的操作和特征同樣適用于用于分類數(shù)據(jù)的裝置300及其中包含的單元,在此不再贅述。
如圖3所示,該配置用于分類數(shù)據(jù)的裝置300包括:數(shù)據(jù)分詞單元310,用于對(duì)原始數(shù)據(jù)進(jìn)行分詞,得到原始樣本集;樣本聚類單元320,用于基于文檔主題生成模型,將原始樣本集聚類至預(yù)定數(shù)量的主題;表征詞歸類單元330,用于查詢預(yù)設(shè)的領(lǐng)域表征詞是否命中從主題提取的主題表征詞,若是,則將主題表征詞歸類至領(lǐng)域表征詞所表征的領(lǐng)域;樣本確定單元340,用于基于領(lǐng)域中的主題表征詞,確定領(lǐng)域的初始樣本集。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中(圖中未示出),樣本確定單元包括:過濾子單元,用于采用領(lǐng)域關(guān)鍵詞以及反詞典,過濾領(lǐng)域中的主題表征詞;確定子單元,用于將過濾后的領(lǐng)域中的主題表征詞對(duì)應(yīng)的原始樣本集,確定為領(lǐng)域的初始樣本集。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,確定子單元進(jìn)一步用于:基于過濾后的領(lǐng)域中的主題表征詞,經(jīng)由文檔主題生成模型對(duì)主題-詞映射矩陣的解析,確定初始樣本的主題;基于初始樣本的主題,經(jīng)由文檔主題生成模型對(duì)文檔-主題映射矩陣的解析,得到領(lǐng)域的初始樣本集。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,裝置還包括:投票過濾單元350,用于對(duì)初始樣本集進(jìn)行多分類器投票過濾,直至單次舍棄掉的樣本的數(shù)量小于預(yù)定閾值;樣本優(yōu)化單元360,用于將舍棄掉樣本后的初始樣本集確定為標(biāo)準(zhǔn)樣本集。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,投票過濾單元所進(jìn)行的多分類器投票過濾包括:將初始樣本集拆分為訓(xùn)練集和測(cè)試集;采用訓(xùn)練集,分別訓(xùn)練多個(gè)分類器;采用測(cè)試集,分別驗(yàn)證分類器;響應(yīng)于驗(yàn)證結(jié)果統(tǒng)一并且正確的分類器占多個(gè)分類器的比例小于預(yù)定比例,舍棄測(cè)試集中的樣本;采用舍棄掉樣本后的初始樣本集,更新進(jìn)行多分類器投票過濾的初始樣本集。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,表征詞歸類單元中從主題提取的主題表征詞包括:采用以下一項(xiàng)或多項(xiàng)從主題提取的主題表征詞:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,表征詞歸類單元中從主題提取的主題表征詞包括以下一項(xiàng)或多項(xiàng):對(duì)主題表征詞去停用詞;以及對(duì)主題表征詞去與本詞相關(guān)性低于預(yù)定閾值的詞。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,數(shù)據(jù)分詞單元中的原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點(diǎn)擊標(biāo)題數(shù)據(jù)。
本申請(qǐng)還提供了一種設(shè)備的實(shí)施例,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上任意一項(xiàng)所述的用于分類數(shù)據(jù)的方法。
本申請(qǐng)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的實(shí)施例,其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任意一項(xiàng)所述的用于分類數(shù)據(jù)的方法。
下面參考圖4,其示出了適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)400的結(jié)構(gòu)示意圖。圖4示出的終端設(shè)備僅僅是一個(gè)示例,不應(yīng)對(duì)本申請(qǐng)實(shí)施例的功能和使用范圍帶來(lái)任何限制。
如圖4所示,計(jì)算機(jī)系統(tǒng)400包括中央處理單元(cpu)401,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)402中的程序或者從存儲(chǔ)部分408加載到隨機(jī)訪問存儲(chǔ)器(ram)403中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在ram403中,還存儲(chǔ)有系統(tǒng)400操作所需的各種程序和數(shù)據(jù)。cpu401、rom402以及ram403通過總線404彼此相連。輸入/輸出(i/o)接口405也連接至總線404。
以下部件連接至i/o接口405:包括鍵盤、鼠標(biāo)等的輸入部分406;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分407;包括硬盤等的存儲(chǔ)部分408;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分409。通信部分409經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器410也根據(jù)需要連接至i/o接口405??刹鹦督橘|(zhì)411,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器410上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分408。
特別地,根據(jù)本公開的實(shí)施例,上文參考流程圖描述的過程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本公開的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過通信部分409從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)411被安裝。在該計(jì)算機(jī)程序被中央處理單元(cpu)401執(zhí)行時(shí),執(zhí)行本申請(qǐng)的方法中限定的上述功能。
需要說(shuō)明的是,本申請(qǐng)所述的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子可以包括但不限于:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)訪問存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本申請(qǐng)中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請(qǐng)中,計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無(wú)線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請(qǐng)各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)單元、程序段、或代碼的一部分,所述單元、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。
描述于本申請(qǐng)實(shí)施例中所涉及到的單元可以通過軟件的方式實(shí)現(xiàn),也可以通過硬件的方式來(lái)實(shí)現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括數(shù)據(jù)分詞單元、樣本聚類單元、表征詞歸類單元和樣本確定單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對(duì)該單元本身的限定,例如,數(shù)據(jù)分詞單元還可以被描述為“對(duì)原始數(shù)據(jù)進(jìn)行分詞,得到原始樣本集的單元”。
作為另一方面,本申請(qǐng)還提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),該非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是上述實(shí)施例中所述裝置中所包含的非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì);也可以是單獨(dú)存在,未裝配入終端中的非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。上述非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,當(dāng)所述一個(gè)或者多個(gè)程序被一個(gè)設(shè)備執(zhí)行時(shí),使得所述設(shè)備:對(duì)原始數(shù)據(jù)進(jìn)行分詞,得到原始樣本集;基于文檔主題生成模型,將原始樣本集聚類至預(yù)定數(shù)量的主題;查詢預(yù)設(shè)的領(lǐng)域表征詞是否命中從主題提取的主題表征詞,若是,則將主題表征詞歸類至領(lǐng)域表征詞所表征的領(lǐng)域;基于領(lǐng)域中的主題表征詞,確定領(lǐng)域的初始樣本集。
以上描述僅為本申請(qǐng)的較佳實(shí)施例以及對(duì)所運(yùn)用技術(shù)原理的說(shuō)明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請(qǐng)中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時(shí)也應(yīng)涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請(qǐng)中公開的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。