亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法及裝置與流程

文檔序號(hào):12364494閱讀:247來(lái)源:國(guó)知局
本發(fā)明涉及計(jì)算機(jī)應(yīng)用機(jī)器學(xué)習(xí)
技術(shù)領(lǐng)域
,特別涉及一種基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法及裝置。
背景技術(shù)
:微博作為一個(gè)已有廣大群眾基礎(chǔ)的網(wǎng)絡(luò)社交平臺(tái),有對(duì)社會(huì)熱點(diǎn)話題敏銳,數(shù)據(jù)資源豐富多樣等特點(diǎn)。新浪微博作為流行的中文社交網(wǎng)絡(luò)平臺(tái),其用戶評(píng)論信息對(duì)學(xué)業(yè)界和工業(yè)界來(lái)說(shuō)都是寶貴的研究資料。近年來(lái)多項(xiàng)關(guān)于新浪微博評(píng)論的創(chuàng)新研究發(fā)表。微博用戶信息分析在用戶觀點(diǎn)挖掘以及標(biāo)簽推薦、用戶情緒分析等應(yīng)用上存在著巨大的挖掘潛力。相關(guān)技術(shù)中,分類系統(tǒng)著重研究微博用戶的情緒分析。情緒分析對(duì)于線上用戶對(duì)于產(chǎn)品的反饋、話題的流行、輿論的分析有著的輔助作用,并廣泛應(yīng)用于執(zhí)法部門監(jiān)控、正向輿論導(dǎo)向、產(chǎn)品使用分析、流行趨勢(shì)預(yù)測(cè)等具體應(yīng)用領(lǐng)域。結(jié)合新浪微博的流行應(yīng)用平臺(tái),能十分有效地反應(yīng)用戶的對(duì)于某具體事物的具體觀點(diǎn),具有實(shí)時(shí)性、話題敏感性和多變性的特點(diǎn)。情感分析作為自然語(yǔ)言處理的重要組成部分,也是人工智能中的一個(gè)重要研究領(lǐng)域。微博用戶信息分析蘊(yùn)含的極大的研究?jī)r(jià)值仍表明,這是個(gè)值得探索的領(lǐng)域。情緒分析作為自然語(yǔ)言處理乃至文本處理的重要組成部分,對(duì)其基于微博用戶評(píng)論的情緒分類是十分必要和具有應(yīng)用價(jià)值的。為了實(shí)現(xiàn)基于微博用戶評(píng)論信息的層次情緒分類,需要解決三個(gè)方面的主要難題:1)短文本詞性特征和句法特征的抽取。2)詞性特征與句法特征的融合。技術(shù)實(shí)現(xiàn)要素:本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。為此,本發(fā)明的一個(gè)目的在于提出一種基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法,該方法可以有效地對(duì)微博用戶進(jìn)行層次情緒分類,簡(jiǎn)單易實(shí)現(xiàn)。本發(fā)明的另一個(gè)目的在于提出一種基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置。為達(dá)到上述目的,本發(fā)明一方面實(shí)施例提出了一種基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法,包括以下步驟:從互聯(lián)網(wǎng)上獲取多條用戶發(fā)布的微博文本;對(duì)所述多條微博文本進(jìn)行預(yù)處理,以抽取多個(gè)詞性特征詞和多個(gè)句法特征詞;通過(guò)權(quán)重學(xué)習(xí)融合所述多個(gè)詞性特征詞和多個(gè)句法特征詞,以得到句子信息;根據(jù)所述句子信息訓(xùn)練情緒分類體系中每個(gè)節(jié)點(diǎn)的二分類器,以構(gòu)建所述情緒分類體系,并通過(guò)所述分類體系實(shí)現(xiàn)情緒分類;根據(jù)分類結(jié)果得到所述多條用戶發(fā)布的微博文本的情緒分類信息。本發(fā)明實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法,針對(duì)微博文本的內(nèi)容,通過(guò)抽取詞性和句法特征抽取,并且通過(guò)學(xué)習(xí)權(quán)重的方法融合了詞性和句法特征,符合文本特點(diǎn)的模塊引用提高了分類的準(zhǔn)確性,獲得了較好的分類結(jié)果,通過(guò)利用抽取出的詞性特征和依存句法特征,并使用權(quán)重融合詞性特征和依存句法特征,從而對(duì)微博用戶情緒細(xì)進(jìn)行分類,有效地對(duì)微博用戶進(jìn)行層次情緒分類,簡(jiǎn)單易實(shí)現(xiàn)。另外,根據(jù)本發(fā)明上述實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法還可以具有以下附加的技術(shù)特征:進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述對(duì)所述多條微博文本進(jìn)行預(yù)處理為對(duì)微博文本進(jìn)行分詞、詞性標(biāo)注和句法依存分析。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)名詞、動(dòng)詞、形容詞和副詞抽取所述多個(gè)詞性特征詞,并且根據(jù)句法結(jié)構(gòu)特征抽取所述多個(gè)句法特征,其中,所述句法結(jié)構(gòu)特征包括動(dòng)補(bǔ)結(jié)構(gòu)、關(guān)聯(lián)結(jié)構(gòu)、后附加結(jié)構(gòu)、定中結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)、主謂結(jié)構(gòu)、狀中結(jié)構(gòu)、并列結(jié)構(gòu)和核心。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,在詞性抽取中,否定詞與后一個(gè)詞集合成一個(gè)詞,以進(jìn)行詞向量表示之后再進(jìn)行抽取。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述通過(guò)權(quán)重學(xué)習(xí)融合所述多個(gè)詞性特征詞和多個(gè)句法特征詞進(jìn)一步包括:運(yùn)用權(quán)重和閾值將所述多個(gè)詞性特征詞的預(yù)測(cè)值和所述多個(gè)句法特征詞的預(yù)測(cè)值相融合,以得到所述句子信息。為達(dá)到上述目的,本發(fā)明另一方面實(shí)施例提出了一種基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置,包括:獲取模塊,用于從互聯(lián)網(wǎng)上獲取多條用戶發(fā)布的微博文本;抽取模塊,用于對(duì)所述多條微博文本進(jìn)行預(yù)處理,以抽取多個(gè)詞性特征詞和多個(gè)句法特征詞;融合模塊,用于通過(guò)權(quán)重學(xué)習(xí)融合所述多個(gè)詞性特征詞和多個(gè)句法特征詞,以得到句子信息;構(gòu)建模塊,用于根據(jù)所述句子信息訓(xùn)練情緒分類體系中每個(gè)節(jié)點(diǎn)的二分類器,以構(gòu)建所述情緒分類體系,并通過(guò)所述分類體系實(shí)現(xiàn)情緒分類;分類模塊,用于根據(jù)分類結(jié)果得到所述多條用戶發(fā)布的微博文本的情緒分類信息。本發(fā)明實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置,針對(duì)微博文本的內(nèi)容,通過(guò)抽取詞性和句法特征抽取,并且通過(guò)學(xué)習(xí)權(quán)重的方法融合了詞性和句法特征,符合文本特點(diǎn)的模塊引用提高了分類的準(zhǔn)確性,獲得了較好的分類結(jié)果,通過(guò)利用抽取出的詞性特征和依存句法特征,并使用權(quán)重融合詞性特征和依存句法特征,從而對(duì)微博用戶情緒細(xì)進(jìn)行分類,有效地對(duì)微博用戶進(jìn)行層次情緒分類,簡(jiǎn)單易實(shí)現(xiàn)。另外,根據(jù)本發(fā)明上述實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置還可以具有以下附加的技術(shù)特征:進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述對(duì)所述多條微博文本進(jìn)行預(yù)處理為對(duì)微博文本進(jìn)行分詞、詞性標(biāo)注和句法依存分析。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)名詞、動(dòng)詞、形容詞和副詞抽取所述多個(gè)詞性特征詞,并且根據(jù)句法結(jié)構(gòu)特征抽取所述多個(gè)句法特征,其中,所述句法結(jié)構(gòu)特征包括動(dòng)補(bǔ)結(jié)構(gòu)、關(guān)聯(lián)結(jié)構(gòu)、后附加結(jié)構(gòu)、定中結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)、主謂結(jié)構(gòu)、狀中結(jié)構(gòu)、并列結(jié)構(gòu)和核心。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,在詞性抽取中,否定詞與后一個(gè)詞集合成一個(gè)詞,以進(jìn)行詞向量表示之后再進(jìn)行抽取。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述融合模塊具體用于運(yùn)用權(quán)重和閾值將所述多個(gè)詞性特征詞的預(yù)測(cè)值和所述多個(gè)句法特征詞的預(yù)測(cè)值相融合,以得到所述句子信息。本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。附圖說(shuō)明本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:圖1為根據(jù)本發(fā)明實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法的流程圖;圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法的流程圖;圖3為根據(jù)本發(fā)明一個(gè)實(shí)施例的求權(quán)重最優(yōu)解的算法流程圖;圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例的求閾值最優(yōu)解的算法流程圖;圖5為根據(jù)本發(fā)明實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。下面參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法及裝置,首先將參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法。圖1是本發(fā)明實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法的流程圖。如圖1所示,該基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法包括以下步驟:在步驟S101中,從互聯(lián)網(wǎng)上獲取多條用戶發(fā)布的微博文本。在步驟S102中,對(duì)多條微博文本進(jìn)行預(yù)處理,以抽取多個(gè)詞性特征詞和多個(gè)句法特征詞。其中,在本發(fā)明的一個(gè)實(shí)施例中,對(duì)多條微博文本進(jìn)行預(yù)處理為對(duì)微博文本進(jìn)行分詞、詞性標(biāo)注和句法依存分析。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)名詞、動(dòng)詞、形容詞和副詞抽取多個(gè)詞性特征詞,并且根據(jù)句法結(jié)構(gòu)特征抽取多個(gè)句法特征,其中,句法結(jié)構(gòu)特征包括動(dòng)補(bǔ)結(jié)構(gòu)、關(guān)聯(lián)結(jié)構(gòu)、后附加結(jié)構(gòu)、定中結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)、主謂結(jié)構(gòu)、狀中結(jié)構(gòu)、并列結(jié)構(gòu)和核心。另外,在本發(fā)明的一個(gè)實(shí)施例中,在詞性抽取中,否定詞與后一個(gè)詞集合成一個(gè)詞,以進(jìn)行詞向量表示之后再進(jìn)行抽取。需要說(shuō)明的是,句子中有很多不同的特征可以體現(xiàn)句子的結(jié)構(gòu),其中詞性特征和句法特征可以同時(shí)體現(xiàn)作者的某些情緒特征,這些情緒特征可以顯示該句子是什么情感,便可以間接知道筆者對(duì)于某件事的看法觀點(diǎn)或者筆者此時(shí)的心情等信息。就現(xiàn)在的大部分研究而言,研究者往往著重于研究詞性層面特征的學(xué)習(xí),而忽視了句法層面的信息。本模塊主要是抽取詞性特征:名詞,形容詞,副詞和動(dòng)詞;以及句法依存特征:狀中結(jié)構(gòu),后附加結(jié)構(gòu),定中結(jié)構(gòu),動(dòng)賓結(jié)構(gòu),主謂結(jié)構(gòu),并列結(jié)構(gòu),動(dòng)補(bǔ)結(jié)構(gòu),關(guān)聯(lián)結(jié)構(gòu)和核心等。運(yùn)用這些特征來(lái)表示句子的信息。其中如果有否定詞“不”,要將“不”與后面那個(gè)詞合為一個(gè)詞,并用新的詞向量來(lái)表示。其主要流程可以用以下幾個(gè)步驟說(shuō)明:S1:運(yùn)用哈工大LTP-Cloud將語(yǔ)料中的每個(gè)句子進(jìn)行分詞,詞性標(biāo)注和句法依存分析;S2:運(yùn)用word2vec學(xué)習(xí)分詞后的數(shù)據(jù)集,用詞向量表示每句話;S3:分別抽取詞性特征和句法結(jié)構(gòu)特征。在步驟S103中,通過(guò)權(quán)重學(xué)習(xí)融合多個(gè)詞性特征詞和多個(gè)句法特征詞,以得到句子信息。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)權(quán)重學(xué)習(xí)融合多個(gè)詞性特征詞和多個(gè)句法特征詞進(jìn)一步包括:運(yùn)用權(quán)重和閾值將多個(gè)詞性特征詞的預(yù)測(cè)值和多個(gè)句法特征詞的預(yù)測(cè)值相融合,以得到句子信息。需要說(shuō)明的是,對(duì)于詞性特征和句法特征,每一句話有不同的向量表示方式。同時(shí),這兩種特征不是某個(gè)包含某個(gè)的關(guān)系,而是交集的關(guān)系。因此,如何將這兩種不同的表示方式融合為一個(gè)并且可以運(yùn)用到學(xué)習(xí)和預(yù)測(cè)中去是一個(gè)需要解決的問(wèn)題。就融合而言,權(quán)重學(xué)習(xí)是一個(gè)好的方法。舉例而言,可以通過(guò)運(yùn)用布爾變量進(jìn)行權(quán)重區(qū)間的分值的求解,來(lái)求得最優(yōu)權(quán)重g。相同的,詞性特征和句法特征在求取權(quán)重最優(yōu)解時(shí)可以看作是布爾變量,而最終預(yù)測(cè)的值可以看作是權(quán)重區(qū)間的分值。這種方法簡(jiǎn)單易操作,便于實(shí)驗(yàn)的進(jìn)行和改進(jìn)。其中w的最優(yōu)解為正確率最高情況下求出的,且最后求出的c值通過(guò)與閾值的對(duì)比可以判斷是否是特定的情緒,用此來(lái)計(jì)算準(zhǔn)確率等評(píng)判標(biāo)準(zhǔn)。在步驟S104中,根據(jù)句子信息訓(xùn)練情緒分類體系中每個(gè)節(jié)點(diǎn)的二分類器,以構(gòu)建情緒分類體系,并通過(guò)分類體系實(shí)現(xiàn)情緒分類。在步驟S105中,根據(jù)分類結(jié)果得到多條用戶發(fā)布的微博文本的情緒分類信息。舉例而言,在本發(fā)明的實(shí)施例中,如圖2所示,可以運(yùn)用實(shí)驗(yàn)室原先的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。由于數(shù)據(jù)存在于后臺(tái)系統(tǒng)中,需要用于模型訓(xùn)練要先根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)行數(shù)據(jù)預(yù)處理,其中包括詞向量的訓(xùn)練,句子處理,如分詞,詞性標(biāo)注和句法依存分析。學(xué)習(xí)分詞后的數(shù)據(jù)集,用詞向量表示每句話。通過(guò)這樣的初步處理,我們就可以得到后期實(shí)驗(yàn)可用的處理后的數(shù)據(jù)集。進(jìn)一步地,對(duì)于不同的特征,抽取方法也不同。對(duì)于詞性特征而言,名詞,動(dòng)詞,形容詞和副詞可以很好地體現(xiàn)一個(gè)人的情緒;而對(duì)于句法特征而言,比較能表現(xiàn)情緒如表1所示,抽取出之后便能夠作為句子的信息來(lái)進(jìn)行學(xué)習(xí)和預(yù)測(cè)。其中,表1為句法特征表。表1句法結(jié)構(gòu)特征標(biāo)簽表示動(dòng)補(bǔ)結(jié)構(gòu)CMP關(guān)聯(lián)結(jié)構(gòu)CNJ后附加結(jié)構(gòu)RAD定中結(jié)構(gòu)ATT動(dòng)賓結(jié)構(gòu)VOB主謂結(jié)構(gòu)SBV狀中結(jié)構(gòu)ADV并列結(jié)構(gòu)COO核心HED其中要注意的一點(diǎn)是關(guān)于否定詞“不”的處理,否定詞“不”會(huì)使得句子表現(xiàn)出與形容詞相反的意思。在詞性抽取中,應(yīng)該將“不”與后面的詞集合成一個(gè)詞,進(jìn)行詞向量表示之后再進(jìn)行抽??;在句法結(jié)構(gòu)抽取中,應(yīng)將“不”與后面的形容詞或者動(dòng)詞集合成一個(gè)詞,進(jìn)行詞向量表示之后再進(jìn)行抽取。例如,“我非常高興?!边@句話中的“非常”為副詞,“高興”為形容詞,兩個(gè)合起來(lái)為狀中結(jié)構(gòu),可以加深筆者對(duì)于高興這個(gè)情緒;“我們有昂揚(yáng)的斗志?!边@句話中,“昂揚(yáng)”和“的”構(gòu)成了后附加結(jié)構(gòu),同時(shí)“昂揚(yáng)”和“斗志”構(gòu)成了定中結(jié)構(gòu),運(yùn)用了“昂揚(yáng)”來(lái)修飾“斗志”,對(duì)句子進(jìn)行了分析;“我們迎來(lái)了新的一年?!边@句話中“我們”與“迎來(lái)”構(gòu)成了主謂結(jié)構(gòu),同時(shí)“迎來(lái)”與“一年”構(gòu)成了動(dòng)賓結(jié)構(gòu),表示了行動(dòng)發(fā)出者是誰(shuí)以及發(fā)出的動(dòng)作;“我們畫(huà)了雄鷹,松鼠和麻雀?!边@句話中,“雄鷹”,“松鼠”和“麻雀”為并列結(jié)構(gòu),表示該句中的多個(gè)主體;“球員對(duì)這個(gè)判罰不滿”這句話中,“判罰”和“不滿”構(gòu)成動(dòng)補(bǔ)關(guān)系,表示主體的態(tài)度,體很好地體現(xiàn)了主體的情緒;核心詞由于每個(gè)句子差異性比較大,但是都是比較重要的詞語(yǔ),所以也能夠很好地表現(xiàn)句子的一些信息,所以也把這個(gè)信息進(jìn)行了抽取。進(jìn)一步地,運(yùn)用權(quán)重和閾值將詞性特征的預(yù)測(cè)值和句法依存結(jié)構(gòu)特征的預(yù)測(cè)值相融合,用來(lái)表示句子的總體信息。對(duì)于兩個(gè)不同特征學(xué)習(xí)的數(shù)據(jù)集而言,給每個(gè)特征一個(gè)系數(shù),即權(quán)重w,再運(yùn)用公式:w*a+(1-w)*b=c(0<=w<=1),求得w的最優(yōu)解,其中初始閾值設(shè)為0,評(píng)價(jià)函數(shù)為正確分類的百分比,w的最優(yōu)解為分類正確率最大值時(shí)的w值。首先,將數(shù)據(jù)分成三組:訓(xùn)練組,學(xué)習(xí)組和測(cè)試組,其中訓(xùn)練組占總數(shù)據(jù)的70%,學(xué)習(xí)組占10%,測(cè)試組占20%。運(yùn)用SVMPerf對(duì)訓(xùn)練組進(jìn)行學(xué)習(xí)后,分別對(duì)學(xué)習(xí)組和測(cè)試組進(jìn)行預(yù)測(cè),令詞性特征預(yù)測(cè)值為a,句法結(jié)構(gòu)特征預(yù)測(cè)值為b,在初始閾值為0的情況下,運(yùn)用上述公式對(duì)w進(jìn)行從0到1的遍歷,后一個(gè)w與前一個(gè)w的值相差0.01,可以求得某句在不同w值下的預(yù)測(cè)值c,這里的c包含了該句話的詞性特征和句法特征,達(dá)到了本研究想要將詞性結(jié)構(gòu)和句法結(jié)構(gòu)相融合的目的。若c的值大于初始閾值0且該句話原本手動(dòng)標(biāo)注為正,或者c小于初始閾值0且原本手動(dòng)標(biāo)注為負(fù),則認(rèn)為分類正確,反之,則不正確。運(yùn)用上述方法求得正確率最大值后的w值即為權(quán)重最優(yōu)解。運(yùn)用測(cè)試組來(lái)檢驗(yàn)該權(quán)重是否有效。將上述方法得出的權(quán)重最優(yōu)解再運(yùn)用測(cè)試組的a、b值進(jìn)行計(jì)算,得到測(cè)試組的c值,此時(shí)的c為該句話的預(yù)測(cè)值。對(duì)閾值從-5到5進(jìn)行遍歷,前一個(gè)閾值和后一個(gè)閾值香腸0.01.若c大于閾值并且該句話原本的手動(dòng)標(biāo)注為正,或者c小于閾值并且原本的手動(dòng)標(biāo)志位負(fù),則認(rèn)為分類正確,反之,則錯(cuò)誤。將分類正確率作為評(píng)價(jià)函數(shù),最優(yōu)閾值為正確率最大情況下的閾值,如圖3和圖4所示。最后,可以使用層次分類框架對(duì)微博用戶情緒進(jìn)行分類。對(duì)于多分類情緒問(wèn)題,可以運(yùn)用一對(duì)一分類方法,由于有6種情緒需要進(jìn)行分類,所以設(shè)置15個(gè)二分類器,對(duì)不同的一對(duì)情緒進(jìn)行學(xué)習(xí)分類,最后運(yùn)用投票的方式進(jìn)行最終分類,可以求出整個(gè)數(shù)據(jù)集的分類正確率。同時(shí)由于數(shù)據(jù)的不平衡性,可以將6類情緒進(jìn)行分層,數(shù)據(jù)過(guò)少的兩種情緒做二分類,另外四種情緒做多分類,這樣求出的正確率是最高的。根據(jù)本發(fā)明實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法,針對(duì)微博文本的內(nèi)容,通過(guò)抽取詞性和句法特征抽取,并且通過(guò)學(xué)習(xí)權(quán)重的方法融合了詞性和句法特征,符合文本特點(diǎn)的模塊引用提高了分類的準(zhǔn)確性,獲得了較好的分類結(jié)果,通過(guò)利用抽取出的詞性特征和依存句法特征,并使用權(quán)重融合詞性特征和依存句法特征,從而對(duì)微博用戶情緒細(xì)進(jìn)行分類,有效地對(duì)微博用戶進(jìn)行層次情緒分類,簡(jiǎn)單易實(shí)現(xiàn)。其次參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置。圖5是本發(fā)明實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置的結(jié)構(gòu)示意圖。如圖5所示,該基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置10包括:獲取模塊100、抽取模塊200、融合模塊300、構(gòu)建模塊400和分類模塊500。其中,獲取模塊100用于從互聯(lián)網(wǎng)上獲取多條用戶發(fā)布的微博文本。抽取模塊200用于對(duì)多條微博文本進(jìn)行預(yù)處理,以抽取多個(gè)詞性特征詞和多個(gè)句法特征詞。融合模塊300用于通過(guò)權(quán)重學(xué)習(xí)融合多個(gè)詞性特征詞和多個(gè)句法特征詞,以得到句子信息。構(gòu)建模塊400用于根據(jù)句子信息訓(xùn)練情緒分類體系中每個(gè)節(jié)點(diǎn)的二分類器,以構(gòu)建情緒分類體系,并通過(guò)分類體系實(shí)現(xiàn)情緒分類。分類模塊500用于根據(jù)分類結(jié)果得到多條用戶發(fā)布的微博文本的情緒分類信息。本發(fā)明實(shí)施例的分類裝置10可以利用抽取出的詞性特征和依存句法特征,并使用權(quán)重融合詞性特征和依存句法特征,從而對(duì)微博用戶情緒細(xì)進(jìn)行分類,有效地對(duì)微博用戶進(jìn)行層次情緒分類。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,對(duì)多條微博文本進(jìn)行預(yù)處理為對(duì)微博文本進(jìn)行分詞、詞性標(biāo)注和句法依存分析。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)名詞、動(dòng)詞、形容詞和副詞抽取多個(gè)詞性特征詞,并且根據(jù)句法結(jié)構(gòu)特征抽取多個(gè)句法特征,其中,句法結(jié)構(gòu)特征包括動(dòng)補(bǔ)結(jié)構(gòu)、關(guān)聯(lián)結(jié)構(gòu)、后附加結(jié)構(gòu)、定中結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)、主謂結(jié)構(gòu)、狀中結(jié)構(gòu)、并列結(jié)構(gòu)和核心。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,在詞性抽取中,否定詞與后一個(gè)詞集合成一個(gè)詞,以進(jìn)行詞向量表示之后再進(jìn)行抽取。進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,融合模塊300具體用于運(yùn)用權(quán)重和閾值將多個(gè)詞性特征詞的預(yù)測(cè)值和多個(gè)句法特征詞的預(yù)測(cè)值相融合,以得到句子信息。需要說(shuō)明的是,前述對(duì)基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類方法實(shí)施例的解釋說(shuō)明也適用于該實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置,此處不再贅述。根據(jù)本發(fā)明實(shí)施例的基于權(quán)重學(xué)習(xí)和多特征抽取的多情緒分類裝置,針對(duì)微博文本的內(nèi)容,通過(guò)抽取詞性和句法特征抽取,并且通過(guò)學(xué)習(xí)權(quán)重的方法融合了詞性和句法特征,符合文本特點(diǎn)的模塊引用提高了分類的準(zhǔn)確性,獲得了較好的分類結(jié)果,通過(guò)利用抽取出的詞性特征和依存句法特征,并使用權(quán)重融合詞性特征和依存句法特征,從而對(duì)微博用戶情緒細(xì)進(jìn)行分類,有效地對(duì)微博用戶進(jìn)行層次情緒分類,簡(jiǎn)單易實(shí)現(xiàn)。在本發(fā)明的描述中,需要理解的是,術(shù)語(yǔ)“中心”、“縱向”、“橫向”、“長(zhǎng)度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”“內(nèi)”、“外”、“順時(shí)針”、“逆時(shí)針”、“軸向”、“徑向”、“周向”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡(jiǎn)化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對(duì)本發(fā)明的限制。此外,術(shù)語(yǔ)“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是至少兩個(gè),例如兩個(gè),三個(gè)等,除非另有明確具體的限定。在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)“安裝”、“相連”、“連接”、“固定”等術(shù)語(yǔ)應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或成一體;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過(guò)中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通或兩個(gè)元件的相互作用關(guān)系,除非另有明確的限定。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接觸,或第一和第二特征通過(guò)中間媒介間接接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或僅僅表示第一特征水平高度小于第二特征。在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不必須針對(duì)的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說(shuō)明書(shū)中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1