本公開(kāi)涉及數(shù)據(jù)處理領(lǐng)域,具體地,涉及一種文本分類的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,新聞聚合類網(wǎng)站能夠?qū)υ诨ヂ?lián)網(wǎng)上傳輸?shù)拇罅啃侣勑畔⑦M(jìn)行分類,例如將信息分為社會(huì)類、體育類以及娛樂(lè)類等類型的信息,從而方便用戶查看。
現(xiàn)有的新聞聚合類網(wǎng)站大多會(huì)從其他網(wǎng)站中抓取新聞信息,并根據(jù)新聞信息中記載的文本內(nèi)容通過(guò)特定的分類算法對(duì)新聞信息進(jìn)行分類,一種常見(jiàn)的分類方法是樸素貝葉斯分類,但是這種方法有一個(gè)假設(shè),就是各個(gè)詞之間彼此是相互獨(dú)立的,但是在實(shí)際情況中一個(gè)句子中前后的詞語(yǔ)可能并不獨(dú)立,因此,現(xiàn)有的分類方法無(wú)法準(zhǔn)確對(duì)文本進(jìn)行分類。
技術(shù)實(shí)現(xiàn)要素:
本公開(kāi)的目的是提供一種文本分類的方法和裝置,以至少解決現(xiàn)有技術(shù)中文本分類不準(zhǔn)確的技術(shù)問(wèn)題。
為了實(shí)現(xiàn)上述目的,本公開(kāi)提供一種文本分類的方法,包括:獲取多個(gè)樣本文本;對(duì)每個(gè)樣本文本進(jìn)行分詞處理得到多個(gè)詞語(yǔ),并獲取每個(gè)所述詞語(yǔ)的詞性信息;根據(jù)所述多個(gè)詞語(yǔ)和每個(gè)詞語(yǔ)對(duì)應(yīng)的詞性信息建立神經(jīng)網(wǎng)絡(luò)分類模型;將待分類的文本作為所述神經(jīng)網(wǎng)絡(luò)分類模型的輸入,得到所述待分類的文本的類型。
可選地,所述根據(jù)所述多個(gè)詞語(yǔ)和每個(gè)詞語(yǔ)對(duì)應(yīng)的詞性信息建立神經(jīng)網(wǎng)絡(luò)分類模型包括:按照預(yù)設(shè)處理方式對(duì)所述分類樣本集中的每個(gè)樣本文本進(jìn)行處理得到所述每個(gè)樣本文本的文本向量;根據(jù)每個(gè)樣本文本的文本向量建立神經(jīng)網(wǎng)絡(luò)分類模型;其中,所述預(yù)設(shè)處理方式包括:根據(jù)目標(biāo)樣本文本的每個(gè)詞語(yǔ)和對(duì)應(yīng)的詞性信息生成所述目標(biāo)樣本文本的每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量;其中,所述目標(biāo)樣本文本為所述分類樣本集中的任一樣本文本;根據(jù)所述每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量生成所述目標(biāo)樣本文本對(duì)應(yīng)的二叉樹(shù);其中,所述二叉樹(shù)的葉節(jié)點(diǎn)分別對(duì)應(yīng)所述每個(gè)詞語(yǔ)向量,所述二叉樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)所述目標(biāo)文本的文本向量;根據(jù)所述詞語(yǔ)向量通過(guò)所述二叉樹(shù)獲取所述目標(biāo)樣本文本的文本向量。
可選地,所述根據(jù)所述每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量生成所述目標(biāo)樣本文本對(duì)應(yīng)的二叉樹(shù)包括:獲取每個(gè)詞語(yǔ)在所述目標(biāo)文本中的詞語(yǔ)順序;根據(jù)所述詞語(yǔ)順序確定所述目標(biāo)文本中第一個(gè)詞語(yǔ)對(duì)應(yīng)的第一節(jié)點(diǎn)和第二個(gè)詞語(yǔ)對(duì)應(yīng)的第二節(jié)點(diǎn),并建立所述第一節(jié)點(diǎn)和所述第二節(jié)點(diǎn)的第一父節(jié)點(diǎn);確定第三個(gè)詞語(yǔ)對(duì)應(yīng)的第三節(jié)點(diǎn),并建立所述第三節(jié)點(diǎn)與所述第一父節(jié)點(diǎn)的第二父節(jié)點(diǎn),繼續(xù)按照所述詞語(yǔ)順序確定第四個(gè)詞語(yǔ)對(duì)應(yīng)的第四節(jié)點(diǎn),并建立所述第四節(jié)點(diǎn)與所述第二父節(jié)點(diǎn)的第三父節(jié)點(diǎn),直至按照所述詞語(yǔ)順序確定出最后一個(gè)詞語(yǔ)對(duì)應(yīng)的節(jié)點(diǎn)的父節(jié)點(diǎn),得到所述二叉樹(shù)。
可選地,所述根據(jù)所述詞語(yǔ)向量通過(guò)所述二叉樹(shù)獲取所述目標(biāo)樣本文本的文本向量包括:根據(jù)每個(gè)詞語(yǔ)的詞性確定所述二叉樹(shù)中每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性;獲取每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重,并將所述第一分類權(quán)重中相同詞性的組合詞性對(duì)應(yīng)的第一分類權(quán)重相加,得到第二分類權(quán)重;根據(jù)所述詞語(yǔ)向量和所述每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性以及所述第二分類權(quán)重,從所述二叉樹(shù)的最底層依次向上計(jì)算所述二叉樹(shù)每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合向量,直至得到所述根節(jié)點(diǎn)對(duì)應(yīng)的文本向量。
可選地,所述獲取每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重包括:
獲取每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值;
根據(jù)所述誤差值按照以下公式計(jì)算得到所述每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的第一分類權(quán)重:
其中,wi為第i個(gè)父節(jié)點(diǎn)的第一分類權(quán)重,e(θ)為預(yù)設(shè)目標(biāo)函數(shù),m為第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的一個(gè)子節(jié)點(diǎn)和第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的另一個(gè)子節(jié)點(diǎn)的詞語(yǔ)向量組合得到的詞組向量,δi為第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值,θ為該目標(biāo)樣本文本中每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重。
本公開(kāi)還提供一種文本分類的裝置,包括:獲取模塊,用于獲取多個(gè)樣本文本;處理模塊,用于對(duì)每個(gè)樣本文本進(jìn)行分詞處理得到多個(gè)詞語(yǔ),并獲取每個(gè)所述詞語(yǔ)的詞性信息;模型建立模塊,用于根據(jù)所述多個(gè)詞語(yǔ)和每個(gè)詞語(yǔ)對(duì)應(yīng)的詞性信息建立神經(jīng)網(wǎng)絡(luò)分類模型;分類模塊,用于將待分類的文本作為所述神經(jīng)網(wǎng)絡(luò)分類模型的輸入,得到所述待分類的文本的類型。
可選地,所述模型建立模塊,包括:處理子模塊,用于按照預(yù)設(shè)處理方式對(duì)所述分類樣本集中的每個(gè)樣本文本進(jìn)行處理得到所述每個(gè)樣本文本的文本向量;模型建立子模塊,用于根據(jù)每個(gè)樣本文本的文本向量建立神經(jīng)網(wǎng)絡(luò)分類模型;其中,所述預(yù)設(shè)處理方式包括:根據(jù)目標(biāo)樣本文本的每個(gè)詞語(yǔ)和對(duì)應(yīng)的詞性信息生成所述目標(biāo)樣本文本的每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量;其中,所述目標(biāo)樣本文本為所述分類樣本集中的任一樣本文本;根據(jù)所述每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量生成所述目標(biāo)樣本文本對(duì)應(yīng)的二叉樹(shù);其中,所述二叉樹(shù)的葉節(jié)點(diǎn)分別對(duì)應(yīng)所述每個(gè)詞語(yǔ)向量,所述二叉樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)所述目標(biāo)文本的文本向量;根據(jù)所述詞語(yǔ)向量通過(guò)所述二叉樹(shù)獲取所述目標(biāo)樣本文本的文本向量。
可選地,所述處理子模塊,用于所述處理子模塊,用于獲取每個(gè)詞語(yǔ)在所述目標(biāo)文本中的詞語(yǔ)順序;根據(jù)所述詞語(yǔ)順序確定所述目標(biāo)文本中第一個(gè)詞語(yǔ)對(duì)應(yīng)的第一節(jié)點(diǎn)和第二個(gè)詞語(yǔ)對(duì)應(yīng)的第二節(jié)點(diǎn),并建立所述第一節(jié)點(diǎn)和所述第二節(jié)點(diǎn)的第一父節(jié)點(diǎn);確定第三個(gè)詞語(yǔ)對(duì)應(yīng)的第三節(jié)點(diǎn),并建立所述第三節(jié)點(diǎn)與所述第一父節(jié)點(diǎn)的第二父節(jié)點(diǎn),繼續(xù)按照所述詞語(yǔ)順序確定第四個(gè)詞語(yǔ)對(duì)應(yīng)的第四節(jié)點(diǎn),并建立所述第四節(jié)點(diǎn)與所述第二父節(jié)點(diǎn)的第三父節(jié)點(diǎn),直至按照所述詞語(yǔ)順序確定出最后一個(gè)詞語(yǔ)對(duì)應(yīng)的節(jié)點(diǎn)的父節(jié)點(diǎn),得到所述二叉樹(shù)。
可選地,所述處理子模塊,用于根據(jù)每個(gè)詞語(yǔ)的詞性確定所述二叉樹(shù)中每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性;獲取每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重,并將所述第一分類權(quán)重中相同詞性的組合詞性對(duì)應(yīng)的第一分類權(quán)重相加,得到第二分類權(quán)重;根據(jù)所述詞語(yǔ)向量和所述每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性以及所述第二分類權(quán)重,從所述二叉樹(shù)的最底層依次向上計(jì)算所述二叉樹(shù)每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合向量,直至得到所述根節(jié)點(diǎn)對(duì)應(yīng)的文本向量。
可選地,所述處理子模塊,用于確定每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值,并根據(jù)所述誤差值按照以下公式計(jì)算得到每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的第一分類權(quán)重:
其中,wi為第i個(gè)父節(jié)點(diǎn)的第一分類權(quán)重,e(θ)為預(yù)設(shè)目標(biāo)函數(shù),m為第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的一個(gè)子節(jié)點(diǎn)和第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的另一個(gè)子節(jié)點(diǎn)的詞語(yǔ)向量組合得到的詞組向量,δi為第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值,θ為該目標(biāo)樣本文本中每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重。
通過(guò)上述技術(shù)方案,獲取分類樣本集,該分類樣本集包括多個(gè)樣本文本;對(duì)每個(gè)樣本文本進(jìn)行分詞處理得到多個(gè)詞語(yǔ),并獲取該每個(gè)詞語(yǔ)的詞性信息;根據(jù)該多個(gè)詞語(yǔ)和每個(gè)詞語(yǔ)對(duì)應(yīng)的詞性信息建立神經(jīng)網(wǎng)絡(luò)分類模型;將待分類的文本作為該神經(jīng)網(wǎng)絡(luò)分類模型的輸入,得到該待分類的文本的類型。這樣,在樣本文本原有詞語(yǔ)的基礎(chǔ)上進(jìn)一步考慮詞語(yǔ)的詞性信息,將詞性信息融入神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練中得到神經(jīng)網(wǎng)絡(luò)分類模型,并通過(guò)得到的神經(jīng)網(wǎng)絡(luò)分類模型對(duì)待分類的文本進(jìn)行分類,從而在后續(xù)對(duì)待分類的文本進(jìn)行分類時(shí),能夠得到準(zhǔn)確的分類結(jié)果。
本公開(kāi)的其他特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說(shuō)明。
附圖說(shuō)明
附圖是用來(lái)提供對(duì)本公開(kāi)的進(jìn)一步理解,并且構(gòu)成說(shuō)明書(shū)的一部分,與下面的具體實(shí)施方式一起用于解釋本公開(kāi),但并不構(gòu)成對(duì)本公開(kāi)的限制。在附圖中:
圖1是本發(fā)明實(shí)施例提供的一種文本分類的方法的流程示意圖;
圖2是本發(fā)明實(shí)施例提供的一種二叉樹(shù)的示意圖;
圖3是本發(fā)明實(shí)施例提供的一種文本分類的裝置的結(jié)構(gòu)示意圖;
圖4是本發(fā)明實(shí)施例提供的另一種文本分類的裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本公開(kāi)的具體實(shí)施方式進(jìn)行詳細(xì)說(shuō)明。應(yīng)當(dāng)理解的是,此處所描述的具體實(shí)施方式僅用于說(shuō)明和解釋本公開(kāi),并不用于限制本公開(kāi)。
本發(fā)明公開(kāi)了一種文本分類的方法和裝置,該方法在樣本文本原有詞語(yǔ)的基礎(chǔ)上進(jìn)一步考慮詞語(yǔ)的詞性信息,將詞性信息融入神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練中得到神經(jīng)網(wǎng)絡(luò)分類模型,并通過(guò)得到的神經(jīng)網(wǎng)絡(luò)分類模型對(duì)待分類的文本進(jìn)行分類,從而在后續(xù)對(duì)待分類的文本進(jìn)行分類時(shí),能夠得到準(zhǔn)確的分類結(jié)果。
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
圖1為本發(fā)明實(shí)施例提供的一種文本分類的方法,如圖1所示,包括:
s101、獲取多個(gè)樣本文本。
s102、對(duì)每個(gè)樣本文本進(jìn)行分詞處理得到多個(gè)詞語(yǔ),并獲取每個(gè)詞語(yǔ)的詞性信息。
其中,該詞性信息可以包括名詞、動(dòng)詞或者助詞等詞性信息。
在本步驟中,分詞處理可以包括多種方法,如字符匹配的方法,這種方法又叫做機(jī)械分詞方法,它是按照預(yù)設(shè)策略將待分析的文本與一個(gè)預(yù)設(shè)詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)詞條,則匹配成功,從而識(shí)別出一個(gè)詞語(yǔ)。
需要說(shuō)明的是,由于一些詞語(yǔ)如“啊”“噢”“嘛”“的”等停用詞,并無(wú)實(shí)際的意義,只是表示語(yǔ)氣,如果將這些詞也加入到后續(xù)的模型訓(xùn)練中,會(huì)造成計(jì)算復(fù)雜度過(guò)大的問(wèn)題,從而占用較多的數(shù)據(jù)處理資源。因此,為了解決該問(wèn)題,在本發(fā)明另一實(shí)施例中,在對(duì)每個(gè)樣本文本進(jìn)行分詞處理得到多個(gè)詞語(yǔ)后,可以將停用詞去除,在一種可能的實(shí)現(xiàn)方式中,在得到分詞處理后的詞語(yǔ)后,可以確定預(yù)設(shè)停用詞詞典中是否包括得到的詞語(yǔ),若包括該詞語(yǔ),則去掉該詞語(yǔ)。這樣,能夠?qū)](méi)有實(shí)際意義的詞語(yǔ)去掉,從而在保證分類結(jié)果準(zhǔn)確性的情況下,減少后續(xù)模型訓(xùn)練過(guò)程中的計(jì)算復(fù)雜度。
在得到該多個(gè)詞語(yǔ)后,即可根據(jù)預(yù)設(shè)的詞性數(shù)據(jù)庫(kù)確定該多個(gè)詞語(yǔ)的詞性信息,該詞性數(shù)據(jù)庫(kù)包括預(yù)先建立的詞語(yǔ)與詞性的對(duì)應(yīng)關(guān)系。
s103、根據(jù)該多個(gè)詞語(yǔ)和每個(gè)詞語(yǔ)對(duì)應(yīng)的詞性信息建立神經(jīng)網(wǎng)絡(luò)分類模型。
在一種可能的實(shí)現(xiàn)方式中,本步驟可以按照預(yù)設(shè)處理方式對(duì)該分類樣本集中的每個(gè)樣本文本進(jìn)行處理得到該每個(gè)樣本文本的文本向量,并根據(jù)每個(gè)樣本文本的文本向量建立神經(jīng)網(wǎng)絡(luò)分類模型。
示例地,該預(yù)設(shè)處理方式可以包括以下步驟:
s1、根據(jù)目標(biāo)樣本文本的每個(gè)詞語(yǔ)和對(duì)應(yīng)的詞性信息生成該目標(biāo)樣本文本的每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量。
其中,該目標(biāo)樣本文本為該多個(gè)樣本文本中的任一樣本文本。
在本步驟中,可以將詞語(yǔ)的詞性向量追加在該詞語(yǔ)的詞向量的后面得到詞語(yǔ)向量。
s2、根據(jù)該每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量生成該目標(biāo)樣本文本對(duì)應(yīng)的二叉樹(shù)。
其中,該二叉樹(shù)的葉節(jié)點(diǎn)分別對(duì)應(yīng)該每個(gè)詞語(yǔ)向量,該二叉樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)該目標(biāo)文本的文本向量。
在本步驟中,可以獲取每個(gè)詞語(yǔ)在該目標(biāo)文本中的詞語(yǔ)順序,并根據(jù)該詞語(yǔ)順序確定該目標(biāo)文本中第一個(gè)詞語(yǔ)對(duì)應(yīng)的第一節(jié)點(diǎn)和第二個(gè)詞語(yǔ)對(duì)應(yīng)的第二節(jié)點(diǎn),并建立該第一節(jié)點(diǎn)和該第二節(jié)點(diǎn)的第一父節(jié)點(diǎn);確定第三個(gè)詞語(yǔ)對(duì)應(yīng)的第三節(jié)點(diǎn),并建立該第三節(jié)點(diǎn)與該第一父節(jié)點(diǎn)的第二父節(jié)點(diǎn),繼續(xù)按照該詞語(yǔ)順序確定第四個(gè)詞語(yǔ)對(duì)應(yīng)的第四節(jié)點(diǎn),并建立該第四節(jié)點(diǎn)與該第二父節(jié)點(diǎn)的第三父節(jié)點(diǎn),直至按照該詞語(yǔ)順序確定出最后一個(gè)詞語(yǔ)對(duì)應(yīng)的節(jié)點(diǎn)的父節(jié)點(diǎn),得到該二叉樹(shù)。
示例地,結(jié)合圖2對(duì)該二叉樹(shù)的建立進(jìn)行說(shuō)明,如圖2所示,以目標(biāo)樣本文本“經(jīng)典哲學(xué)有嗎”為例進(jìn)行說(shuō)明,若該目標(biāo)樣本文本經(jīng)過(guò)步驟s102中的分詞處理后得到的分詞結(jié)果為“經(jīng)典”、“哲學(xué)”、“有”、“嗎”四個(gè)詞語(yǔ),則將這四個(gè)詞語(yǔ)依次作為二叉樹(shù)的葉節(jié)點(diǎn),如圖2中的葉節(jié)點(diǎn)分別從左至右依次對(duì)應(yīng)“經(jīng)典”、“哲學(xué)”、“有”、“嗎”,并建立詞語(yǔ)“經(jīng)典”對(duì)應(yīng)的節(jié)點(diǎn)和詞語(yǔ)“哲學(xué)”對(duì)應(yīng)的節(jié)點(diǎn)的第一父節(jié)點(diǎn),建立第一父節(jié)點(diǎn)和詞語(yǔ)“有”對(duì)應(yīng)的節(jié)點(diǎn)的第二父節(jié)點(diǎn),并繼續(xù)建立第二父節(jié)點(diǎn)和詞語(yǔ)“嗎”對(duì)應(yīng)的節(jié)點(diǎn)的第三父節(jié)點(diǎn),則該第三父節(jié)點(diǎn)即為該二叉樹(shù)的根節(jié)點(diǎn),從而得到該二叉樹(shù)。
s3、根據(jù)該詞語(yǔ)向量通過(guò)該二叉樹(shù)獲取該目標(biāo)樣本文本的文本向量。
在本步驟中,可以通過(guò)以下方式得到該目標(biāo)樣本文本的文本向量:
首先,根據(jù)每個(gè)詞語(yǔ)的詞性確定該二叉樹(shù)中每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性。
其中,每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的詞組的詞性信息可以與該詞組最后一個(gè)詞語(yǔ)的詞性信息相同,因此,根據(jù)詞語(yǔ)的詞性即可得到每個(gè)父節(jié)點(diǎn)的組合詞性。
示例地,繼續(xù)以圖2為例進(jìn)行說(shuō)明,“經(jīng)典”、“哲學(xué)”、“有”、“嗎”四個(gè)詞語(yǔ)的詞性信息分別為:“經(jīng)典”為名詞(n),“哲學(xué)”為名詞,“有”為動(dòng)詞(v),“嗎”為助詞(w),則第一父節(jié)點(diǎn)相當(dāng)于對(duì)應(yīng)詞組“經(jīng)典哲學(xué)”,且該詞組的組合詞性與詞語(yǔ)“哲學(xué)”的詞性信息相同,為名詞;該第二父節(jié)點(diǎn)相當(dāng)于對(duì)應(yīng)詞組“經(jīng)典哲學(xué)有”,且該詞組的組合詞性與詞語(yǔ)“有”的詞性信息相同,為動(dòng)詞;該根節(jié)點(diǎn)相當(dāng)于對(duì)應(yīng)詞組“經(jīng)典哲學(xué)有嗎”,且該詞組的組合詞性與詞語(yǔ)“嗎”的詞性信息相同,為助詞,從而得到每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性。
其次,獲取每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重,并將該第一分類權(quán)重中相同詞性的組合詞性對(duì)應(yīng)的第一分類權(quán)重相加,得到第二分類權(quán)重。
在一種可能的實(shí)現(xiàn)方式中,可以通過(guò)以下方式獲取該第一分類權(quán)重:
獲取每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值,并根據(jù)該誤差值按照以下公式計(jì)算得到該每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的第一分類權(quán)重:
其中,wi為第i個(gè)父節(jié)點(diǎn)的分類權(quán)重,e(θ)為預(yù)設(shè)目標(biāo)函數(shù),m為第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的一個(gè)子節(jié)點(diǎn)和第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的另一個(gè)子節(jié)點(diǎn)的詞語(yǔ)向量組合得到的詞組向量,δi為第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值,θ為該目標(biāo)樣本文本中每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重。
這里,可以計(jì)算根節(jié)點(diǎn)的誤差值,以及下傳至該根節(jié)點(diǎn)的子節(jié)點(diǎn)的下傳誤差,并根據(jù)該下傳誤差得到該根節(jié)點(diǎn)的每個(gè)子節(jié)點(diǎn)對(duì)應(yīng)的誤差值,以此類推,從根節(jié)點(diǎn)開(kāi)始,沿著生成的二叉樹(shù)依次遍歷各個(gè)節(jié)點(diǎn),即可得到每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值,由于每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值的計(jì)算與現(xiàn)有技術(shù)中相同,因此,此處不再贅述。
下面,繼續(xù)以圖2所示的二叉樹(shù)為例對(duì)第一分類權(quán)重的計(jì)算進(jìn)行說(shuō)明,為了方便說(shuō)明,可以將“經(jīng)典”對(duì)應(yīng)的詞語(yǔ)向量記為a,將“哲學(xué)”對(duì)應(yīng)的詞語(yǔ)向量記為b,將“有”對(duì)應(yīng)的詞語(yǔ)向量記為c,將“嗎”對(duì)應(yīng)的詞語(yǔ)向量記為d,則第一父節(jié)點(diǎn)對(duì)應(yīng)的詞語(yǔ)向量為a和b組合后的詞組向量m1,第二父節(jié)點(diǎn)對(duì)應(yīng)的詞語(yǔ)向量為m1和c組合后的詞組向量m2,根節(jié)點(diǎn)對(duì)應(yīng)的詞語(yǔ)向量為m2和d組合后的詞組向量ms。
其中,上述組合的詞組向量可以采用多種方式進(jìn)行組合,如將兩個(gè)詞組向量相加,或者按照詞語(yǔ)在目標(biāo)文本樣本中的順序,將順序靠后的詞語(yǔ)的詞向量追加在前一詞語(yǔ)或者詞組的向量的后面,以m1為例,若a為(10000),b為(01000),則可以將a和b相加得到m1(11000),也可以將b追加至a的后面得到m1(1000001000),當(dāng)然,還可以是其他組合方式,這里只是舉例說(shuō)明,本發(fā)明對(duì)此不作限定,m2和ms可以參照m1的組合方式,不再贅述,但是對(duì)于同一次計(jì)算,m1、m2和ms應(yīng)采用相同的組合方式。
對(duì)于圖2所示的二叉樹(shù),在得到組合的詞組向量后,可以通過(guò)以下公式計(jì)算第一父節(jié)點(diǎn)對(duì)應(yīng)的第一分類權(quán)重,
其中,
通過(guò)以下公式計(jì)算第二父節(jié)點(diǎn)對(duì)應(yīng)的第一分類權(quán)重,
其中,
通過(guò)以下公式計(jì)算根節(jié)點(diǎn)對(duì)應(yīng)的第一分類權(quán)重,
其中,
在一種可能的實(shí)現(xiàn)方式中,上述預(yù)設(shè)目標(biāo)函數(shù)e(θ)可以是:
其中,j表示多個(gè)樣本文本中的第j個(gè)樣本文本(在本實(shí)施例中可以為目標(biāo)樣本文本),num為多個(gè)樣本文本的數(shù)量,tr表示該第j個(gè)樣本文本的類型,yr表示該第j個(gè)樣本文本的預(yù)測(cè)類型,該預(yù)測(cè)類型為根據(jù)每個(gè)父節(jié)點(diǎn)預(yù)設(shè)的初始權(quán)重得到的樣本文本的類型,該初始權(quán)重可以是一個(gè)非0的隨機(jī)數(shù),γ為預(yù)設(shè)參數(shù),θ表示第j個(gè)樣本文本中每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重。
這里,該預(yù)設(shè)目標(biāo)函數(shù)可以是通過(guò)樣本文本對(duì)該預(yù)設(shè)目標(biāo)函數(shù)訓(xùn)練后的函數(shù),在訓(xùn)練過(guò)程中,使得該預(yù)測(cè)類型不斷趨于樣本文本的類型,預(yù)測(cè)類型越接近樣本文本的類型,對(duì)應(yīng)的第一分類權(quán)重越準(zhǔn)確。
在得到第一分類權(quán)重后,可以將相同詞性的組合詞性對(duì)應(yīng)的第一分類權(quán)重相加得到第二分類權(quán)重,從而得到不同組合詞性對(duì)應(yīng)的分類權(quán)重。
最后,根據(jù)該詞語(yǔ)向量和該每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性以及該第二分類權(quán)重,從該二叉樹(shù)的最底層依次向上計(jì)算該二叉樹(shù)每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合向量,直至得到該根節(jié)點(diǎn)對(duì)應(yīng)的文本向量。
其中,在獲取到第二分類權(quán)重后,可以通過(guò)以下公式從該二叉樹(shù)的最底層依次向上計(jì)算組合向量p:
p=f(w2m)
其中,w2為待計(jì)算的父節(jié)點(diǎn)對(duì)應(yīng)的第二分類權(quán)重,m為待計(jì)算的父節(jié)點(diǎn)對(duì)應(yīng)的詞組向量,f表示的函數(shù)可以是非線性函數(shù),例如,f表示的函數(shù)可以為tanh。
示例地,對(duì)于圖2所示的二叉樹(shù)來(lái)說(shuō),首先,通過(guò)以下公式得到第一父節(jié)點(diǎn)對(duì)應(yīng)的組合向量p1:
這里,由于m1的詞性為名詞,則
其次,通過(guò)以下公式得到第二父節(jié)點(diǎn)對(duì)應(yīng)的組合向量p2:
這里,由于m2的詞性為動(dòng)詞,則
最后,通過(guò)以下公式得到根節(jié)點(diǎn)對(duì)應(yīng)的組合向量s(即文本向量):
這里,由于ms的詞性為助詞,則
這樣,通過(guò)上述步驟s1至步驟s3即可得到獲取的每個(gè)樣本文本的文本向量,在得到每個(gè)樣本文本的文本向量后,可以根據(jù)得到的文本向量通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到神經(jīng)網(wǎng)絡(luò)分類模型,在一種可能的實(shí)現(xiàn)方式中,可以獲取預(yù)設(shè)分類權(quán)重矩陣,并根據(jù)該預(yù)設(shè)分類權(quán)重矩陣通過(guò)softmax函數(shù)得到該神經(jīng)網(wǎng)絡(luò)分類模型。
例如,通過(guò)以下函數(shù)得到該神經(jīng)網(wǎng)絡(luò)分類模型y:
y=softmax(wss)
其中,s為文本樣本對(duì)應(yīng)的文本向量,ws為該預(yù)設(shè)分類權(quán)重矩陣。該預(yù)設(shè)分類權(quán)重矩陣包括不同詞組和詞性屬于每個(gè)類別的概率。
s104、將待分類的文本作為該神經(jīng)網(wǎng)絡(luò)分類模型的輸入,得到該待分類的文本的類型。
在本步驟中,在得到該待分類的文本后,可以通過(guò)上述步驟s1至步驟s3獲取該待分類文本的文本向量,并將該文本向量作為上述神經(jīng)網(wǎng)絡(luò)分類模型的輸入,從而得到該待分類的文本的類型。
示例地,在對(duì)一則新聞進(jìn)行分類時(shí),可以通過(guò)上述步驟s1至步驟s3獲取該新聞中的每句話(相當(dāng)于待分類的文本)的文本向量,并將該文本向量作為該神經(jīng)網(wǎng)絡(luò)分類模型的輸入,并確定每個(gè)文本對(duì)應(yīng)的類型,并確定數(shù)量最多的類型為該新聞的類型,例如,若該新聞數(shù)量最多的文本的類型為社會(huì)類,則確定該新聞的類型為社會(huì)類,若該新聞數(shù)量最多的文本的類型為娛樂(lè)類,則確定該新聞的類型為娛樂(lè)類,若該新聞數(shù)量最多的文本的類型為體育類,則確定該新聞的類型為體育類。
采用上述方法,在樣本文本原有詞語(yǔ)的基礎(chǔ)上進(jìn)一步考慮詞語(yǔ)的詞性信息,將詞性信息融入神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練中得到神經(jīng)網(wǎng)絡(luò)分類模型,并通過(guò)得到的神經(jīng)網(wǎng)絡(luò)分類模型對(duì)待分類的文本進(jìn)行分類,從而在后續(xù)對(duì)待分類的文本進(jìn)行分類時(shí),能夠得到準(zhǔn)確的分類結(jié)果。
圖3為本發(fā)明實(shí)施例提供的一種文本分類的裝置,如圖3所示,包括:
獲取模塊301,用于獲取多個(gè)樣本文本;
處理模塊302,用于對(duì)每個(gè)樣本文本進(jìn)行分詞處理得到多個(gè)詞語(yǔ),并獲取每個(gè)該詞語(yǔ)的詞性信息;
模型建立模塊303,用于根據(jù)該多個(gè)詞語(yǔ)和每個(gè)詞語(yǔ)對(duì)應(yīng)的詞性信息建立神經(jīng)網(wǎng)絡(luò)分類模型;
分類模塊304,用于將待分類的文本作為該神經(jīng)網(wǎng)絡(luò)分類模型的輸入,得到該待分類的文本的類型。
可選地,如圖4所示,該模型建立模塊303,包括:
處理子模塊3031,用于按照預(yù)設(shè)處理方式對(duì)該分類樣本集中的每個(gè)樣本文本進(jìn)行處理得到該每個(gè)樣本文本的文本向量;
模型建立子模塊3032,用于根據(jù)每個(gè)樣本文本的文本向量建立神經(jīng)網(wǎng)絡(luò)分類模型;
其中,該預(yù)設(shè)處理方式包括:
根據(jù)目標(biāo)樣本文本的每個(gè)詞語(yǔ)和對(duì)應(yīng)的詞性信息生成該目標(biāo)樣本文本的每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量;其中,該目標(biāo)樣本文本為該分類樣本集中的任一樣本文本;
根據(jù)該每個(gè)詞語(yǔ)對(duì)應(yīng)的詞語(yǔ)向量生成該目標(biāo)樣本文本對(duì)應(yīng)的二叉樹(shù);其中,該二叉樹(shù)的葉節(jié)點(diǎn)分別對(duì)應(yīng)該每個(gè)詞語(yǔ)向量,該二叉樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)該目標(biāo)文本的文本向量;
根據(jù)該詞語(yǔ)向量通過(guò)該二叉樹(shù)獲取該目標(biāo)樣本文本的文本向量。
可選地,該處理子模塊3031,用于獲取每個(gè)詞語(yǔ)在該目標(biāo)文本中的詞語(yǔ)順序;根據(jù)該詞語(yǔ)順序確定該目標(biāo)文本中第一個(gè)詞語(yǔ)對(duì)應(yīng)的第一節(jié)點(diǎn)和第二個(gè)詞語(yǔ)對(duì)應(yīng)的第二節(jié)點(diǎn),并建立該第一節(jié)點(diǎn)和該第二節(jié)點(diǎn)的第一父節(jié)點(diǎn);確定第三個(gè)詞語(yǔ)對(duì)應(yīng)的第三節(jié)點(diǎn),并建立該第三節(jié)點(diǎn)與該第一父節(jié)點(diǎn)的第二父節(jié)點(diǎn),繼續(xù)按照該詞語(yǔ)順序確定第四個(gè)詞語(yǔ)對(duì)應(yīng)的第四節(jié)點(diǎn),并建立該第四節(jié)點(diǎn)與該第二父節(jié)點(diǎn)的第三父節(jié)點(diǎn),直至按照該詞語(yǔ)順序確定出最后一個(gè)詞語(yǔ)對(duì)應(yīng)的節(jié)點(diǎn)的父節(jié)點(diǎn),得到該二叉樹(shù)。
可選地,該處理子模塊3031,用于根據(jù)每個(gè)詞語(yǔ)的詞性確定該二叉樹(shù)中每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性;獲取每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重,并將該第一分類權(quán)重中相同詞性的組合詞性對(duì)應(yīng)的第一分類權(quán)重相加,得到第二分類權(quán)重;根據(jù)該詞語(yǔ)向量和該每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合詞性以及該第二分類權(quán)重,從該二叉樹(shù)的最底層依次向上計(jì)算該二叉樹(shù)每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的組合向量,直至得到該根節(jié)點(diǎn)對(duì)應(yīng)的文本向量。
可選地,該處理子模塊3031,用于確定每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值,并根據(jù)該誤差值按照以下公式計(jì)算得到每個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的第一分類權(quán)重:
其中,wi為第i個(gè)父節(jié)點(diǎn)的第一分類權(quán)重,e(θ)為預(yù)設(shè)目標(biāo)函數(shù),m為第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的一個(gè)子節(jié)點(diǎn)和第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的另一個(gè)子節(jié)點(diǎn)的詞語(yǔ)向量組合得到的詞組向量,δi為第i個(gè)父節(jié)點(diǎn)對(duì)應(yīng)的誤差值,θ為該目標(biāo)樣本文本中每個(gè)組合詞性對(duì)應(yīng)的第一分類權(quán)重。
需要說(shuō)明的是,所屬本領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程和描述,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
采用上述裝置,在樣本文本原有詞語(yǔ)的基礎(chǔ)上進(jìn)一步考慮詞語(yǔ)的詞性信息,將詞性信息融入神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練中得到神經(jīng)網(wǎng)絡(luò)分類模型,并通過(guò)得到的神經(jīng)網(wǎng)絡(luò)分類模型對(duì)待分類的文本進(jìn)行分類,從而在后續(xù)對(duì)待分類的文本進(jìn)行分類時(shí),能夠得到準(zhǔn)確的分類結(jié)果。
以上結(jié)合附圖詳細(xì)描述了本公開(kāi)的優(yōu)選實(shí)施方式,但是,本公開(kāi)并不限于上述實(shí)施方式中的具體細(xì)節(jié),在本公開(kāi)的技術(shù)構(gòu)思范圍內(nèi),可以對(duì)本公開(kāi)的技術(shù)方案進(jìn)行多種簡(jiǎn)單變型,這些簡(jiǎn)單變型均屬于本公開(kāi)的保護(hù)范圍。
另外需要說(shuō)明的是,在上述具體實(shí)施方式中所描述的各個(gè)具體技術(shù)特征,在不矛盾的情況下,可以通過(guò)任何合適的方式進(jìn)行組合,為了避免不必要的重復(fù),本公開(kāi)對(duì)各種可能的組合方式不再另行說(shuō)明。
此外,本公開(kāi)的各種不同的實(shí)施方式之間也可以進(jìn)行任意組合,只要其不違背本公開(kāi)的思想,其同樣應(yīng)當(dāng)視為本公開(kāi)所公開(kāi)的內(nèi)容。