亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于句子順序的文本情感極性分類系統(tǒng)和方法

文檔序號:6599935閱讀:391來源:國知局
專利名稱:基于句子順序的文本情感極性分類系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,更具體地,涉及一種基于句子順序的文本情感極性分類系統(tǒng)和方法。
背景技術(shù)
隨著因特網(wǎng)的發(fā)展,越來越多的人在網(wǎng)上發(fā)布信息,其中包括了很多用戶對產(chǎn)品的評論和個(gè)人對事件、政策的看法。這些評論和看法經(jīng)常發(fā)表在購物網(wǎng)站、論壇和個(gè)人博客上,對用戶、廠商、調(diào)研組織等個(gè)人和機(jī)構(gòu)都很有價(jià)值。對用戶和廠商而言,這些文本能幫助他們了解產(chǎn)品優(yōu)缺點(diǎn)并根據(jù)評價(jià)改進(jìn)產(chǎn)品,對調(diào)研組織等機(jī)構(gòu)而言,可以了解個(gè)人對事件和政策的看法,進(jìn)而建議相關(guān)組織和機(jī)構(gòu)實(shí)施對策和調(diào)整政策。由于這樣的信息很多,人們希望計(jì)算機(jī)能夠自動地分析、處理和總結(jié),并將結(jié)果呈現(xiàn)給用戶。但是由于自然語言的多樣性和隨意性,計(jì)算機(jī)的自動處理存在多種困難,需要一些技術(shù)來解決。文本分析可以是多層次、多角度的,其中的一種分析是確定文本的情感極性。例如,確定某篇文本是正面的(正面意見),或者負(fù)面的(負(fù)面意見),或者是中性的??偟膩碚f,確定文本的情感極性有兩種方式監(jiān)督式和非監(jiān)督式。前者需要一個(gè)人工標(biāo)注的訓(xùn)練樣本集,然后用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)模型,再用這個(gè)模型對新樣本進(jìn)行情感判斷。非監(jiān)督方法不需要訓(xùn)練樣本集,一般使用人事先定義的詞表判斷一些文本極性, 再用迭代的方式修改詞表,并進(jìn)一步判斷更多的文本的極性。參考文獻(xiàn)[1] (US2009/0125371A1,
公開日2009年5月14日)公開了一種確定文本情感極性的方法,其中采用了無監(jiān)督和有監(jiān)督并用的方式。文本可以是一篇,也可以是多篇。通常情況下是多篇。首先,通過一些有情感極性的詞確定文本的情感極性,例如“方便”、“豐富”、“細(xì)膩”是正面的詞,而“骯臟”、“刺耳”、“丑陋”是負(fù)面的詞。這些有情感極性的詞可以用兩種方式確定(1)由人來判斷,一些現(xiàn)有的字典(例如HowNet情感字典)就是由人判斷而形成的;(2)利用語言知識確定,例如,由于人們常用“不”等否定詞加正面詞來表示負(fù)面意義, 如“不方便”、“不夠豐富”等,那么根據(jù)詞和否定詞的共獻(xiàn)頻率就可以確定一些正面的詞,例如“方便”和“豐富”。有的情感字典在定義情感詞的同時(shí)還給出情感強(qiáng)度。情感強(qiáng)度用一個(gè)有符號的數(shù)值表示,例如“很好”是+1,“不錯(cuò)”是+0.5,“差”是-1(正號“ + ”表示正面詞,負(fù)號“-”表示是負(fù)面詞,即情感極性可以由情感強(qiáng)度的符號表示)。說明“很好”的強(qiáng)度大于“不錯(cuò)”, 也就是說“很好”比“不錯(cuò)”更為正面。如果情感字典沒有給出情感強(qiáng)度的話,可以把所有正面詞的情感強(qiáng)度設(shè)為+1,并把所有負(fù)面詞的情感強(qiáng)度設(shè)為-1。這樣,可以認(rèn)為任何一個(gè)情感字典在定義情感詞的同時(shí)均給出了情感強(qiáng)度。利用這些有情感極性的詞確定文本的情感極性的基本原則是如果一個(gè)文本中的代表正面情感的詞的數(shù)目大于代表負(fù)面情感的詞的數(shù)目,或者一個(gè)文本中的所有有情感極性的詞(所有代表正面情感的詞和所有代表負(fù)面情感的詞)的情感強(qiáng)度的總和為正,則文本被判斷為正面(正極性),反之,則文本被判斷為負(fù)面(負(fù)極性)。如果數(shù)目相等或者情感強(qiáng)度的總和為0,則文本被判斷為中性。確定文本情感之后,從中選取情感值(情感強(qiáng)度的總和的絕對值)較高(大于預(yù)定的選擇閾值)的部分文本,作為比較可信的文本。然后,從這些文本中提取特征。利用這些特征和這些情感值較高的文本,對模型進(jìn)行訓(xùn)練,獲得所需的模型。在完成模型訓(xùn)練之后,對于任何新的文本,都可以通過訓(xùn)練后的模型,按照上述方式,自動給出該文本的文本情感(正面、負(fù)面或中性)。但是,參考文獻(xiàn)[1]的文本情感分類過程忽略了情感詞出現(xiàn)的順序,從而有可能導(dǎo)致文本情感的誤判。例如,對于下述兩個(gè)例子,就有可能發(fā)生文本情感誤判1.感覺挺妊。考場遍避了些。題目偏靂了些??嫉眠€算順利。2.失敗。準(zhǔn)備挺妊。斗志昂揚(yáng)。到門口發(fā)現(xiàn)準(zhǔn)考證忘帶了,郁悶。這兩篇文本都是包含兩個(gè)正面詞和兩個(gè)負(fù)面詞(分別用下劃線耜體字標(biāo)出),但是出現(xiàn)的順序不同。如果仍然按照參考文獻(xiàn)[1]所提出的文本情感分類方法進(jìn)行處理,因?yàn)橹粡?qiáng)調(diào)了詞的出現(xiàn)而非順序,則容易判斷以上兩個(gè)文本具有相同的情感極性。但事實(shí)上, 以上兩個(gè)文本是有明顯情感區(qū)別的。前者整體是正面的,而后者是負(fù)面的。因此,考慮詞以及句子的情感順序是必要的。

發(fā)明內(nèi)容
為了減少類似的錯(cuò)誤,本申請的發(fā)明人提出把文本視為一個(gè)句子系列,并考慮以句子為基礎(chǔ)的情感序列,用序列分析的方法,確定文本的整體情感極性。根據(jù)本發(fā)明的第一方案,提出了一種文本情感極性分類系統(tǒng),包括特征詞提取單元,用于從輸入的文本中提取特征詞;句子情感判斷單元,用于根據(jù)特征詞提取單元所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度; 文本輸入形成單元,用于根據(jù)句子情感判斷單元所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度,形成具有句子情感極性序列的文本輸入;以及文本情感判斷單元,用于利用訓(xùn)練過的文本情感判斷模型,對文本輸入形成單元形成的文本輸入進(jìn)行處理,得到對輸入的文本的情感極性的判斷。優(yōu)選地,所述文本情感極性分類系統(tǒng)還可以包括模型訓(xùn)練單元,用于以訓(xùn)練用文本樣本對文本情感判斷模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的文本情感判斷模型。優(yōu)選地,所述文本情感極性分類系統(tǒng)還可以包括文本樣本形成單元,用于確定訓(xùn)練用文本的情感極性,形成訓(xùn)練用文本樣本,其中特征詞提取單元還用于從訓(xùn)練用文本中提取特征詞,句子情感判斷單元還用于根據(jù)特征詞提取單元所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定訓(xùn)練用文本中各個(gè)句子的情感極性和/或情感強(qiáng)度,文本樣本形成單元根據(jù)句子情感判斷單元所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度,確定訓(xùn)練用文本的情感極性,形成具有句子情感極性序列和文本情感極性的訓(xùn)練用文本樣本。優(yōu)選地,所述文本情感極性分類系統(tǒng)還可以包括更新單元,用于根據(jù)文本情感判斷單元的輸出結(jié)果,對特征詞提取單元提取出的特征詞的情感極性和/或情感強(qiáng)度進(jìn)行更新,和/或?qū)⑽谋厩楦信袛鄦卧妮敵鼋Y(jié)果作為新的訓(xùn)練用文本樣本。優(yōu)選地,所述文本情感極性分類系統(tǒng)還可以包括特征詞庫,用于存儲特征詞;以及文本樣本庫,用于存儲訓(xùn)練用文本樣本。根據(jù)本發(fā)明的第二方案,提出了一種文本情感極性分類方法,包括從輸入的文本中提取特征詞;根據(jù)所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度;形成具有句子情感極性序列的文本輸入;以及利用訓(xùn)練過的文本情感判斷模型,對所形成的文本輸入進(jìn)行處理,得到對輸入的文本的情感極性的判斷。優(yōu)選地,所述文本情感極性分類方法還可以包括以訓(xùn)練用文本樣本對文本情感判斷模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的文本情感判斷模型。優(yōu)選地,所述文本情感極性分類方法還可以包括從訓(xùn)練用文本中提取特征詞; 根據(jù)所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定訓(xùn)練用文本中各個(gè)句子的情感極性和/或情感強(qiáng)度;根據(jù)所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度,確定訓(xùn)練用文本的情感極性;以及形成具有句子情感極性序列和文本情感極性的訓(xùn)練用文本樣本。優(yōu)選地,所述文本情感極性分類方法還可以包括根據(jù)對輸入的文本的情感極性的判斷,對所提取出的特征詞的情感極性和/或情感強(qiáng)度進(jìn)行更新,和/或?qū)⒆詈筝敵龅木哂芯渥忧楦袠O性序列和文本情感極性的結(jié)果,作為新的訓(xùn)練用文本樣本。根據(jù)本發(fā)明,可以提高文本情感極性判斷的正確性。


通過下面結(jié)合

本發(fā)明的優(yōu)選實(shí)施例,將使本發(fā)明的上述及其它目的、特征和優(yōu)點(diǎn)更加清楚,其中圖IA和圖IB示出了根據(jù)本發(fā)明的文本情感分類方法的示意流程圖;以及圖2示出了根據(jù)本發(fā)明的文本情感分類系統(tǒng)2000的示意方框圖。在本發(fā)明的所有附圖中,相同或相似的結(jié)構(gòu)和步驟均以相同或相似的附圖標(biāo)記標(biāo)識。
具體實(shí)施例方式下面參照附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)說明,在描述過程中省略了對于本發(fā)明來說是不必要的細(xì)節(jié)和功能,以防止對本發(fā)明的理解造成混淆。圖IA和圖IB示出了根據(jù)本發(fā)明的文本情感分類方法的示意流程圖;具體地,圖 IA示出了根據(jù)本發(fā)明的文本情感分類方法的模型訓(xùn)練階段的示意流程圖;圖IB示出了根據(jù)本發(fā)明的文本情感分類方法的運(yùn)行階段的示意流程圖。首先,將結(jié)合圖1A,對根據(jù)本發(fā)明的文本情感分類方法的模型訓(xùn)練階段進(jìn)行詳細(xì)描述。在步驟S100,從文本中提取特征詞,以便利用這些特征詞,確定句子的情感極性和 /或情感強(qiáng)度。這里所說的特征詞,既可以是通常意義下的詞語(常用詞、常用短語等)(例如“偏僻”、“順禾Γ等),也可以是字串,例如,“場偏”(實(shí)際上是“考場偏僻了些”的一部份)。作為示例,特征詞的提取可以采用以下兩種方式1.選取情感字典中的詞作為特征詞對于文本中的任何一個(gè)詞語或子串,如果該詞語或子串已被記載在情感字典中,則將該詞語或子串選作特征詞;或者2.根據(jù)詞語或子串出現(xiàn)在正、負(fù)面文本中的頻率,挑選特征詞?;舅悸肥侨绻粋€(gè)詞語或子串出現(xiàn)在正、負(fù)面文本中的頻率的比例差別越大,則被選為特征詞的可能性越大。今例如,可以使用下述公式(1)計(jì)算任何一個(gè)詞語或子串w的情感強(qiáng)度S(W)s(w) = (Fp-Fn)/(Fp+Fn) (1)其中Fp是詞語或子串w在正文本中出現(xiàn)的頻率,F(xiàn)n是詞語或子串w在負(fù)文本中出現(xiàn)的頻率。依據(jù)公式(1),計(jì)算文本中所有詞語或子串的情感強(qiáng)度s(W);然后,根據(jù)情感強(qiáng)度S(W)的絕對值Is(W) I從大到小的順序,選取情感強(qiáng)度S(W)的絕對值Is(W) I排在前面 (例如,前1/2)的詞語或子串w,作為特征詞。注意這里要求一些文本已經(jīng)被標(biāo)注了正、負(fù)面情感極性。標(biāo)注可以是人工完成的,也可以是根據(jù)現(xiàn)有技術(shù)的任何方法自動完成。在步驟S105,根據(jù)在步驟SlOO中所提取的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度。例如,可以先計(jì)算各個(gè)句子的情感強(qiáng)度,再決定情感極性如果句子的情感強(qiáng)度為正,則句子的情感極性為正面,如果句子的情感強(qiáng)度為負(fù),則情句子的感極性為負(fù)面;如果情感強(qiáng)度為零,則情感極性為中性。另外,也可以直接根據(jù)句子中所包含的特征詞的情感極性,直接確定該句子的情感極性如果正情感極性的特征詞的個(gè)數(shù)大于負(fù)情感極性的特征詞的個(gè)數(shù),則句子的情感極性為正面,如果正情感極性的特征詞的個(gè)數(shù)小于負(fù)情感極性的特征詞的個(gè)數(shù),則句子的情感極性為負(fù)面,如果正情感極性的特征詞的個(gè)數(shù)等于負(fù)情感極性的特征詞的個(gè)數(shù),則句子的情感極性為中性。作為示例,句子情感極性和/或情感強(qiáng)度的確定可以采用以下四種方式i.根據(jù)特征詞w的情感強(qiáng)度s (w),計(jì)算句子se的情感強(qiáng)度s (se);今例如,根據(jù)以下公式(2)計(jì)算句子se的情感強(qiáng)度s (se)S(Se) = YjA(W)-S(W)(2)
w今即,s(se)等于該句子se中所有特征詞的情感強(qiáng)度s (W)的加權(quán)和;其中λ (w) 表示針對特征詞W的權(quán)重。λ (W)的最簡單的選取方式是λ (W) = 1,即不加權(quán)。也可以采用更為復(fù)雜的選取方式來確定λ (w)的取值例如,可以根據(jù)特征詞w的長度Lw和句子se 的長度Lse確定權(quán)重λ (w)的取值,基本思路是(1)特征詞w的長度Lw越長,則權(quán)重λ (w) 越大(特征詞w越長,則透露的信息越多,意思越明確,也就越可信。例如,“可喜可賀”比 “可喜”更加可信,權(quán)重λ (w)也就應(yīng)該更大);(2)句子se的長度Lse越短,則權(quán)重λ (w)越大(句子se越長,影響特征詞w的其他詞語或子串就越多,則情感就越不確定,所以句子se 越短越可信)。今作為示例,可以根據(jù)下述公式(3)來確定特征詞w的權(quán)重λ (w)A(W) = i^(3)ii.采用現(xiàn)有的依存分析方法(D印endency Analysis),對句子進(jìn)行分析,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度。根據(jù)依存分析方法,首先獲得針對各個(gè)句子的樹形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)是一個(gè)詞,節(jié)點(diǎn)之間的連線代表兩個(gè)特征詞之間的關(guān)系,例如, “我” _> “喜歡”是主謂關(guān)系;然后,按照從上到下的方式,計(jì)算出句子的情感極性和/或情感強(qiáng)度。例如,對每一層出現(xiàn)的特征詞,采用上述方式i中的方法進(jìn)行求和,如果某一層的情感強(qiáng)度和不為零,則停止計(jì)算,并將該層的情感強(qiáng)度和,作為句子的情感強(qiáng)度。
iii.根據(jù)各個(gè)句子所包含的子句關(guān)系,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度。對一個(gè)句子,先根據(jù)標(biāo)點(diǎn)符號(逗號、分號等分隔符)把它分成多個(gè)子句,再根據(jù)子句的關(guān)系調(diào)整情感,然后再求和以計(jì)算句子情感。例如,可參考中國發(fā)明專利申請 No.200910175170. 2。iv.人工或自動標(biāo)注一些訓(xùn)練用句子樣本(正、負(fù)面),進(jìn)行句子情感判斷模型訓(xùn)練,再用訓(xùn)練后的句子情感判斷模型,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度。完成句子的情感極性和/或情感強(qiáng)度的確定之后,每個(gè)文本(屯、d2、…)可以被標(biāo)注為以下形式Cl1 :<+,-,_,…〉d2 :<_,+,+,…〉......或者Cl1 <+19. 5,-3. 3,-2. 5,... >d2 :<_39,+12,+3. 2,…〉......Cl1和d2代表兩個(gè)文本,其中Cl1的第一個(gè)句子的情感強(qiáng)度為+19. 5,第二個(gè)句子的情感強(qiáng)度為-3. 3,以此類推。在步驟S110A,根據(jù)在步驟S105中所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度, 確定文本的情感極性,形成訓(xùn)練用文本樣本。文本的情感極性可以人工標(biāo)注,或者根據(jù)句子的情感極性和/或情感強(qiáng)度求和確定(例如,所有句子的情感強(qiáng)度求和為正,則文本情感極性為正;所有句子的情感強(qiáng)度求和為負(fù),則文本情感極性為負(fù);所有句子的情感強(qiáng)度求和為零,則文本情感極性為中性)。以下對步驟SllOA的描述中,仍將沿用步驟S105中最后輸出的結(jié)果Cl1 <+19. 5,-3. 3,-2. 5,... >d2 :<_39,+12,+3. 2,…〉......作為示例,訓(xùn)練用文本樣本可以采用以下五種方式形成A.根據(jù)以下規(guī)則形成訓(xùn)練文本樣本中每個(gè)句子的特征式<*>,從而得到訓(xùn)練用文本樣本句子的情感極性為正面,則用正號代替;情感極性為負(fù)面,則用負(fù)號代替;句子的情感極性為中性,則仍用0表示。如果文本的情感極性為正,則句子標(biāo)注P ;如果文本的情感極性為負(fù),則句子標(biāo)注為N ;如果文本的情感極性為中性,則句子標(biāo)注為Z。例如Cl1 +, P>, <-,P>, <-,P>,... >d2 -, N>, <+N>, <+N>,...>…說明噸是正文本(P),d2是負(fù)文本(N),Cl1的第一、二、三個(gè)句子的情感極性分別為正面、負(fù)面、負(fù)面。B.在方式A的基礎(chǔ)上,訓(xùn)練文本樣本中每個(gè)句子的特征式<*>不僅包含自己的情感極性,還包含左右句子的情感極性。
例如Cl1 : none, +,-,P>, <+,-,-,P>, <-,-,+,P>,…>d2 : none, -,+,N>, <-,+,+,N>, <+,+,-,N>,…>…說明=Cl1是正文本(《,第一句的特征式<1101^,+,-,?>的意思是對于文本Cl1的第一句(+19. 5的情感強(qiáng)度),左面沒有句子(none),自己是正面(+),右面的句子是負(fù)面(_)。C.在方式A或B的基礎(chǔ)上,訓(xùn)練文本樣本中每個(gè)句子的特征式<*>還可以包含句子在文本中的位置信息。例如Cl1 +, PB>, <", ΡΒ>, <-,ΡΜ>; ···,<-,ΡΕ>>,或者Cl1 : none, +,-,PB>, <+,-,-,PB>, <-,-,+,PM>..·,<+,-,none, PE>>說明=IVPmIe分別表示句子在文本的前面部分(Begin)、中間部分(Middle)和結(jié)尾部分(End)。例如,句子位置的判斷方法可以包括(1)對稱分割法文本的前1/3的句子算前面部分,中間1/3的句子算中間部分, 后1/3的句子算后面部分;(2)非對稱分割法文本第一個(gè)句子算前面部分,最后一個(gè)句子算后面部分,其余句子都算中間部分。當(dāng)然,也可以根據(jù)需要,調(diào)整到底多少句算作前面部分、多少句算作后面部分。D.在方式A、B或C的基礎(chǔ)上,訓(xùn)練文本樣本中每個(gè)句子的特征式<*>還可以包含句子的強(qiáng)度級別。例如Cl1 : +ri; P>,<-,r3, P><_,r2, P>... >,或者Cl1 : +ri; r1 PB>, <-, r3, PB>, <-, r2, PB>,…〉,或者(I1 : none, +,-,r1 PB>, <+,-,-,r3, PB>, <-,-,+,r2, PM>." >其中Γι,r2, r3分別代表句子強(qiáng)度的第一、二、三級級別,例如,可以按照下述方式確定Γι 句子的情感強(qiáng)度在[2*(MaxStr_Mir^tr)/3,MaxStr]的范圍內(nèi);r2:句子的情感強(qiáng)度在[l*(MaxStr_Mir^tr)/3,2*(MaxStr-MinStr)/3)的范圍內(nèi);r3 句子的情感強(qiáng)度在[Mir^tr,l*(MaxStr-Mir^tr)/3)的范圍內(nèi);其中MaxStr和MinStr分別代表一篇文本中句子的最大情感強(qiáng)度和最小情感強(qiáng)度。E.作為與上述方式A D不同的另一方式,可以為每個(gè)句子建立一個(gè)具有四個(gè)特征的向量Xf1, F2, F3, F4>,每個(gè)特征F” F2, F3分別代表文本的前、中、后三個(gè)部分的句子的情感。每個(gè)特征的值可以是每個(gè)部分的所有句子的情感強(qiáng)度的總和。前、中、后三個(gè)部分的劃分方法可參考上述方式C。F4代表文本情感(P,N或者Z)。通過上述步驟SllOA的操作,可以形成如下的訓(xùn)練用文本樣本A =Cl1 +, P>,<_,P>,<-,P>… > ;或者
B =Cl1 : none, +,-,PX+, -,-,P>, <-,-,+,P>,... > ;或者c +, pB>, <-, pB>, <-, pM>, ···,<-,iy> ;或者D =Cl1 : +ri; P>,<-,r3, P>,<-,r2, P> … > ;或者E :<Fi; F2, F3, F4>0在步驟S115,以在步驟SllOA中形成的訓(xùn)練用文本樣本對文本情感判斷模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的文本情感判斷模型,以便在運(yùn)行階段中,用于對新輸入的文本的情感極性進(jìn)行判斷。目前,已有多種文本情感判斷模型訓(xùn)練方法。例如,對于通過上述方式A D形成的訓(xùn)練用文本樣本,可以用序列訓(xùn)練模式進(jìn)行文本情感判斷模型訓(xùn)練,例如隱馬爾科夫模型(Hidden Markov Models,參見參考文獻(xiàn)[2] =Lawrence R. Rabiner,A Tutorial on Hidden Markov Modelsand Selected Applications in Speech Recognition. Proceedings ofthe IEEE, 77 (2),p. 257-286, February 1989)或者條件隨機(jī)場模型(Conditional Random Fields,參見參考文獻(xiàn)[3] John Lafferty, Andrew McCallu m, and Fernando Pereira. 2001. Conditional randomfields Probabilistic models for segmenting and labeling sequencedata. In Proceedings of ICML 2001,2001, pp. 282-289)等。而對于通過上述方式E形成的訓(xùn)練用文本樣本,可以用非序列訓(xùn)練模式進(jìn)行文本情感判斷模型訓(xùn)練,例如支持向量機(jī)(Support Vector Machin ··等。接下來,將結(jié)合圖1B,對根據(jù)本發(fā)明的文本情感分類方法的運(yùn)行階段進(jìn)行詳細(xì)描述。圖IB中與圖IA中相似的步驟以相同的序號進(jìn)行標(biāo)識。在步驟S100,從新輸入的文本中提取特征詞,以便利用這些特征詞,確定句子的情感極性和/或情感強(qiáng)度。在步驟S105,根據(jù)在步驟S100中所提取的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度。在步驟S110B,與上述步驟S110A不同,形成具有句子情感極性序列的文本輸入, 即只標(biāo)記句子的情感極性和/或情感強(qiáng)度,而不標(biāo)記文本的情感極性,實(shí)際上,文本的情感極性是待求的輸出。這里需要注意的是在模型訓(xùn)練階段的步驟S110A中,通過方式A E 中的哪種方式形成訓(xùn)練用文本樣本,在運(yùn)行階段的步驟S110B中,也必須選擇該方式,形成文本輸入。例如,新輸入的文本為“感覺挺好??紙銎Я诵n}目偏難了些??嫉眠€算順利。,,經(jīng)過步驟S110B (方式A),最后得到的文本輸入為“<+,_,_,+>”的形式;或者經(jīng)過步驟S110B (方式B),最后得到的文本輸入為“《none,+,->,<+,-,->,<-,-,+>,<-,+, none "的形式;或者經(jīng)過步驟S110B (方式C),最后得到的文本輸入為“<+,_,_,+>”或者 " none, +,->,<+,-,->,<-,-,+>,<-,+,none ” 的形式;等等。在步驟S120,將在步驟S110B形成的文本輸入送到經(jīng)過步驟S115訓(xùn)練的文本情感判斷模型中,由此,得到對新輸入的文本的情感極性的判斷。例如,仍以步驟S110B中的新輸入的文本為例,得到的輸出可以為方式A :“<<+,P>,<-,P>,<_P>,<+P>>” ;或者方式B :" none, +,-,P>,<+,-,-,P>,<-,-,+,P>,<-,+,none, P ,,;或者
方式C :“<<+,PB>, <_,PM>,<_,PM>,<+,PE>>”。文本的情感極性只需用單一的符號表示(P或N或Z),因此,只需取得第一個(gè)句子的第一個(gè)符合作為最后的輸出,呈現(xiàn)給用戶。此外,可以根據(jù)步驟S120的輸出結(jié)果,對步驟SlOO中提取出的特征詞的情感極性和/或情感強(qiáng)度進(jìn)行更新,也可以手動或自動將輸出結(jié)果作為新的訓(xùn)練用文本樣本。圖2示出了根據(jù)本發(fā)明的文本情感分類系統(tǒng)2000的示意方框圖。如圖2所示,文本情感分類系統(tǒng)2000主要包括特征詞提取單元200、句子情感判斷單元205、文本樣本形成單元210A、模型訓(xùn)練單元215、文本輸入形成單元210B和文本情感判斷單元220,其中特征詞提取單元200、句子情感判斷單元205、文本樣本形成單元210A 和模型訓(xùn)練單元215用于圖IA所示的模型訓(xùn)練階段,特征詞提取單元200、句子情感判斷單元205、文本輸入形成單元210B和文本情感判斷單元220用于圖IB所示的運(yùn)行階段。此外,文本情感分類系統(tǒng)2000還包括特征詞庫230、文本樣本庫235和更新單元225。此外, 圖2還示出了由模型訓(xùn)練單元215訓(xùn)練、由文本情感判斷單元220使用的文本情感判斷模型 240。對應(yīng)于上述圖1A,在模型訓(xùn)練階段,特征詞提取單元200根據(jù)特征詞庫230,從文本中提取特征詞(可以采用步驟SlOO中所描述的方式1或2,或者任何其他現(xiàn)有方式)。句子情感判斷單元205根據(jù)特征詞提取單元200所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度(可以采用步驟S105中所描述的方式 i iv中的任一方式,或者任何其他現(xiàn)有方式)。文本樣本形成單元210A根據(jù)句子情感判斷單元205所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度,確定文本的情感極性,形成訓(xùn)練用文本樣本(可以采用步驟SllOA中所描述的方式A E中的任一方式,或者任何其他現(xiàn)有方式)。文本樣本形成單元210A可以將所形成的訓(xùn)練用文本樣本存儲在文本樣本庫235 中,以便后續(xù)使用。模型訓(xùn)練單元215以文本樣本形成單元210A形成的訓(xùn)練用文本樣本對文本情感判斷模型MO進(jìn)行訓(xùn)練,得到訓(xùn)練后的文本情感判斷模型MO (可以采用步驟Sl 15 中所描述的任一文本情感判斷模型訓(xùn)練方法,或者任何其他已知的文本情感判斷模型訓(xùn)練方法)。模型訓(xùn)練單元215也可以直接從文本樣本庫235中獲得訓(xùn)練用文本樣本,對文本情感判斷模型240進(jìn)行訓(xùn)練,得到訓(xùn)練后的文本情感判斷模型M0。訓(xùn)練后的文本情感判斷模型240將在運(yùn)行階段中,由文本情感判斷單元220用于對新輸入的文本的情感極性進(jìn)行判斷。對應(yīng)于上述圖1B,在運(yùn)行階段,特征詞提取單元200從新輸入的文本中提取特征詞(可以采用步驟SlOO中所描述的方式1或2,或者任何其他現(xiàn)有方式)。句子情感判斷單元205根據(jù)特征詞提取單元200所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度(可以采用步驟S105中所描述的方式i iv中的任一方式,或者任何其他現(xiàn)有方式)。文本輸入形成單元210B根據(jù)句子情感判斷單元205所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度,形成具有句子情感極性序列的文本輸入(可以采用與文本樣本形成單元210A相同的任一方式),即只標(biāo)記句子的情感極性和/或情感強(qiáng)度,而不標(biāo)記文本的情感極性,實(shí)際上,文本的情感極性是待求的輸出。文本情感判斷單元220將文本輸入形成單元210B形成的文本輸入送到經(jīng)過模型訓(xùn)練單元215訓(xùn)練的文本情感判斷模型MO中,由此,得到對新輸入的文本的情感極性的判斷。
此外,更新單元225可以根據(jù)文本情感判斷單元220的輸出結(jié)果,對特征詞提取單元200提取出的特征詞的情感極性和/或情感強(qiáng)度進(jìn)行更新,即更新特征詞庫230,也可以根據(jù)用戶指示和選擇(或自動)將文本情感判斷單元220的輸出結(jié)果作為新的訓(xùn)練用文本樣本存入文本樣本庫235,即更新文本樣本庫235。在以上的描述中,針對各個(gè)步驟,列舉了多個(gè)實(shí)例,雖然發(fā)明人盡可能地標(biāo)示出彼此關(guān)聯(lián)的實(shí)例,但這并不意味著這些實(shí)例必然按照相應(yīng)的標(biāo)號存在對應(yīng)關(guān)系。只要所選擇的實(shí)例所給定的條件間不存在矛盾,可以在不同的步驟中,選擇標(biāo)號并不對應(yīng)的實(shí)例來構(gòu)成相應(yīng)的技術(shù)方案,這樣的技術(shù)方案也應(yīng)視為被包含在本發(fā)明的范圍內(nèi)。應(yīng)當(dāng)注意的是,在以上的描述中,僅以示例的方式,示出了本發(fā)明的技術(shù)方案,但并不意味著本發(fā)明局限于上述步驟和單元結(jié)構(gòu)。在可能的情形下,可以根據(jù)需要對步驟和單元結(jié)構(gòu)進(jìn)行調(diào)整和取舍。因此,某些步驟和單元并非實(shí)施本發(fā)明的總體發(fā)明思想所必需的元素。因此,本發(fā)明所必需的技術(shù)特征僅受限于能夠?qū)崿F(xiàn)本發(fā)明的總體發(fā)明思想的最低要求,而不受以上具體實(shí)例的限制。這里所公開的本發(fā)明實(shí)施例的其他設(shè)置包括執(zhí)行在先概述并隨后詳述的方法實(shí)施例的步驟和操作的軟件程序。更具體地,計(jì)算機(jī)程序產(chǎn)品是如下的一種實(shí)施例具有計(jì)算機(jī)可讀介質(zhì),計(jì)算機(jī)可讀介質(zhì)上編碼有計(jì)算機(jī)程序邏輯,當(dāng)在計(jì)算設(shè)備上執(zhí)行時(shí),計(jì)算機(jī)程序邏輯提供相關(guān)的操作,從而提供上述單向代理轉(zhuǎn)密方案。當(dāng)在計(jì)算系統(tǒng)的至少一個(gè)處理器上執(zhí)行時(shí),計(jì)算機(jī)程序邏輯使得處理器執(zhí)行本發(fā)明實(shí)施例所述的操作(方法)。本發(fā)明的這種設(shè)置典型地提供為設(shè)置或編碼在例如光介質(zhì)(例如CD-ROM)、軟盤或硬盤等的計(jì)算機(jī)可讀介質(zhì)上的軟件、代碼和/或其他數(shù)據(jù)結(jié)構(gòu)、或者諸如一個(gè)或多個(gè)ROM或RAM或PROM芯片上的固件或微代碼的其他介質(zhì)、或?qū)S眉呻娐?ASIC)、或一個(gè)或多個(gè)模塊中的可下載的軟件圖像、共享數(shù)據(jù)庫等。軟件或固件或這種配置可安裝在計(jì)算設(shè)備上,以使得計(jì)算設(shè)備中的一個(gè)或多個(gè)處理器執(zhí)行本發(fā)明實(shí)施例所述的技術(shù)。結(jié)合諸如一組數(shù)據(jù)通信設(shè)備或其他實(shí)體中的計(jì)算設(shè)備進(jìn)行操作的軟件過程也可以提供根據(jù)本發(fā)明的系統(tǒng)。根據(jù)本發(fā)明的系統(tǒng)也可以分布在多個(gè)數(shù)據(jù)通信設(shè)備上的多個(gè)軟件過程、或者在一組小型專用計(jì)算機(jī)上運(yùn)行的所有軟件過程、或者單個(gè)計(jì)算機(jī)上運(yùn)行的所有軟件過程之間。應(yīng)該理解,嚴(yán)格地講,本發(fā)明的實(shí)施例可以實(shí)現(xiàn)為數(shù)據(jù)通信設(shè)備上的軟件程序、軟件和硬件、或者單獨(dú)的軟件和/或單獨(dú)的電路。至此已經(jīng)結(jié)合優(yōu)選實(shí)施例對本發(fā)明進(jìn)行了描述。應(yīng)該理解,本領(lǐng)域技術(shù)人員在不脫離本發(fā)明的精神和范圍的情況下,可以進(jìn)行各種其它的改變、替換和添加。因此,本發(fā)明的范圍不局限于上述特定實(shí)施例,而應(yīng)由所附權(quán)利要求所限定。
權(quán)利要求
1.一種文本情感極性分類系統(tǒng),包括特征詞提取單元,用于從輸入的文本中提取特征詞;句子情感判斷單元,用于根據(jù)特征詞提取單元所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度;文本輸入形成單元,用于根據(jù)句子情感判斷單元所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度,形成具有句子情感極性序列的文本輸入;以及文本情感判斷單元,用于利用訓(xùn)練過的文本情感判斷模型,對文本輸入形成單元形成的文本輸入進(jìn)行處理,得到對輸入的文本的情感極性的判斷。
2.根據(jù)權(quán)利要求1所述的文本情感極性分類系統(tǒng),還包括模型訓(xùn)練單元,用于以訓(xùn)練用文本樣本對文本情感判斷模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的文本情感判斷模型。
3.根據(jù)權(quán)利要求1或2所述的文本情感極性分類系統(tǒng),還包括文本樣本形成單元,用于確定訓(xùn)練用文本的情感極性,形成訓(xùn)練用文本樣本, 其中特征詞提取單元還用于從訓(xùn)練用文本中提取特征詞,句子情感判斷單元還用于根據(jù)特征詞提取單元所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定訓(xùn)練用文本中各個(gè)句子的情感極性和/或情感強(qiáng)度,文本樣本形成單元根據(jù)句子情感判斷單元所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度,確定訓(xùn)練用文本的情感極性,形成具有句子情感極性序列和文本情感極性的訓(xùn)練用文本樣本。
4.根據(jù)權(quán)利要求1 3之一所述的文本情感極性分類系統(tǒng),還包括更新單元,用于根據(jù)文本情感判斷單元的輸出結(jié)果,對特征詞提取單元提取出的特征詞的情感極性和/或情感強(qiáng)度進(jìn)行更新,和/或?qū)⑽谋厩楦信袛鄦卧妮敵鼋Y(jié)果作為新的訓(xùn)練用文本樣本。
5.根據(jù)權(quán)利要求1 4之一所述的文本情感極性分類系統(tǒng),還包括 特征詞庫,用于存儲特征詞;以及文本樣本庫,用于存儲訓(xùn)練用文本樣本。
6.一種文本情感極性分類方法,包括 從輸入的文本中提取特征詞;根據(jù)所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度;形成具有句子情感極性序列的文本輸入;以及利用訓(xùn)練過的文本情感判斷模型,對所形成的文本輸入進(jìn)行處理,得到對輸入的文本的情感極性的判斷。
7.根據(jù)權(quán)利要求6所述的文本情感極性分類方法,還包括以訓(xùn)練用文本樣本對文本情感判斷模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的文本情感判斷模型。
8.根據(jù)權(quán)利要求6或7所述的文本情感極性分類方法,還包括 從訓(xùn)練用文本中提取特征詞;根據(jù)所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定訓(xùn)練用文本中各個(gè)句子的情感極性和/或情感強(qiáng)度;根據(jù)所確定的各個(gè)句子的情感極性和/或情感強(qiáng)度,確定訓(xùn)練用文本的情感極性;以及形成具有句子情感極性序列和文本情感極性的訓(xùn)練用文本樣本。
9.根據(jù)權(quán)利要求6 8之一所述的文本情感極性分類方法,還包括 根據(jù)對輸入的文本的情感極性的判斷,對所提取出的特征詞的情感極性和/或情感強(qiáng)度進(jìn)行更新,和/或?qū)⒆詈筝敵龅木哂芯渥忧楦袠O性序列和文本情感極性的結(jié)果,作為新的訓(xùn)練用文本樣本。
全文摘要
本發(fā)明提出了一種文本情感極性分類方法和系統(tǒng),其中把文本視為一個(gè)句子系列,并考慮以句子為基礎(chǔ)的情感序列,用序列分析的方法,確定文本的整體情感極性。根據(jù)本發(fā)明的文本情感極性分類系統(tǒng)包括特征詞提取單元,用于從輸入的文本中提取特征詞;句子情感判斷單元,用于根據(jù)特征詞提取單元所提取出的特征詞的情感極性和/或情感強(qiáng)度,確定文本中各個(gè)句子的情感極性和/或情感強(qiáng)度;文本輸入形成單元,用于形成具有句子情感極性序列的文本輸入;以及文本情感判斷單元,用于利用訓(xùn)練過的文本情感判斷模型,對文本輸入形成單元形成的文本輸入進(jìn)行處理,得到對輸入的文本的情感極性的判斷。由此,可以提高文本情感極性判斷的正確性。
文檔編號G06F17/27GK102200969SQ201010135790
公開日2011年9月28日 申請日期2010年3月25日 優(yōu)先權(quán)日2010年3月25日
發(fā)明者胡長建, 趙凱, 邱立坤 申請人:日電(中國)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1