本發(fā)明涉及機器翻譯技術領域,特別涉及一種基于遷移學習的跨語言情感分析方法及裝置。
背景技術:
跨語言情感分析面臨的主要問題是目標語言情感資源不足,缺少情感詞典以及有標注的語料。而傳統(tǒng)機器學習的方法則需要目標語言的語料支持,因此無法直接適用于跨語言情感分析問題。根據(jù)常識來分析,兩種自然語言的差異可能是極大的,例如中文和英文,中文是字組成詞,詞組成句子,而詞和詞之間沒有空格。不同字有不同的意思,而字組成詞則有別的意思。而英文以單詞為最小單位,每個單詞可能有很多意思,很多詞性,每個詞還有多種形態(tài)變化。而句子本身也有時態(tài)變化。兩種語言都有一詞多義的情況,很多時候難以準確地對譯。尤其是跨語言情感分類,面對兩種語言的文本語料,源語言和目標語言的特征空間是截然不同的,同時源語言和目標語言的數(shù)據(jù)分布空間也完全不同。由于自然語言的巨大差異,直觀上似乎都難以解決。
技術實現(xiàn)要素:
本發(fā)明要解決的是傳統(tǒng)機器學習的方法此無法直接適用于跨語言情感分析的技術問題。
為了解決上述問題,本發(fā)明提供了一種基于遷移學習的跨語言情感分析方法,包括:建立源語言到目標語言的空間遷移模型,將擴展后的情感分類特征pivot集合與目標語言以及源語言的語言特征空間相融合,通過轉(zhuǎn)換和降維,得到轉(zhuǎn)換因子,將源語言轉(zhuǎn)移到目標語言。
本發(fā)明還提供了一種基于遷移學習的跨語言情感分析裝置,包括:包括模型構(gòu)建單元、特征集合篩選與擴展單元、轉(zhuǎn)換及降維單元,升維及補償單元;模型構(gòu)建單元用于建立源語言到目標語言的空間遷移模型;特征集合篩選與擴展單元用于將擴展后的情感分類特征pivot集合與目標語言以及源語言的語言特征空間相融合;轉(zhuǎn)換及降維單元用于源語言到目標語言轉(zhuǎn)換和降維,得到轉(zhuǎn)換因子;升維補償單元用于將源語言轉(zhuǎn)移到目標語言。
本發(fā)明的技術方案實現(xiàn)了一種基于遷移學習的跨語言情感分析方法及裝置,解決了傳統(tǒng)機器學習的方法此無法直接適用于跨語言情感分析的技術問題。
附圖說明
圖1 一種基于遷移學習的跨語言情感分析方法流程圖;
圖2 目標語言與源語言空間遷移模型示意圖;
圖3 特征空間轉(zhuǎn)換鏈示意圖;
圖4 SCL-ST算法流程示意圖;
圖5 雙語言文本VSM模型圖;
圖6 Pivot投影示意圖;
圖7 一種基于遷移學習的跨語言情感分析裝置結(jié)構(gòu)圖。
具體實施方式
下面將結(jié)合附圖及實施例對本發(fā)明的技術方案進行更詳細的說明。
需要說明的是,如果不沖突,本發(fā)明實施例以及實施例中的各個特征可以相互結(jié)合,均在本發(fā)明的保護范圍之內(nèi)。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
實施例一,一種基于遷移學習的跨語言情感分析方法,如圖1所示,包括:
建立源語言到目標語言的空間遷移模型,將擴展后的情感分類特征pivot集合與目標語言以及源語言的語言特征空間相融合,通過轉(zhuǎn)換和降維,得到轉(zhuǎn)換因子,將源語言轉(zhuǎn)移到目標語言。
本技術方案在現(xiàn)有模型的基礎上提出基于遷移學習的方法,從情感資源豐富的源語言,將情感知識遷移到情感資源貧乏的目標語言,最終得到面對目標語言的情感極性分類器。
實施例二,一種基于遷移學習的跨語言情感分析方法,如圖2-6所示,在實施例一的基礎上。進一步包括:
更優(yōu)的,獲得擴展后的情感分類特征集合之前,首先使用源語言和目標語言的全部語料,篩選情感分類特征pivot;情感分類特征pivot由一個詞對組成,即<源語言詞,目標語言詞>。
SCL-ST模型需使用源語言標注語料、目標語言未標注語料、源語言與目標語言的雙語詞典以及一個源語言同義詞詞典??紤]到在跨語言任務中,源語言的語料較為豐富,而目標語言語料稀缺,因此本發(fā)明所需要的資源通常很容易獲得。首先使用源語言和目標語言的全部語料,以文本詞頻(TF)作為特征值,建立詞袋模型。詞袋模型構(gòu)建之后,基于CL-SCL模型選取pivot特征集合作為遷移學習的基礎。Pivot由一個詞對組成,每個特征以詞對的方式表示,即<源語言詞,目標語言詞>。
更優(yōu)的,篩選情感分類特征pivot選取全部依據(jù)源語言標注語料,源語言的特征詞選取之后,對源語言特征詞進行翻譯,取該翻譯為目標語言特征詞;翻譯后得到特征詞對,使用源語言進行同義詞擴展,即把目標特征詞的同義詞一并加入情感分類特征pivot集合中,得到新的情感分類特征pivot。
pivot集合得到擴充后,依照后文模型中的算法,可以更多地保留語料信息,增強模型魯棒性,從而提高最后的分類準確率。在得到Pivot集合并擴 展后,以這些特征pivot為核心,建立源語言和目標語言之間的橋梁。
更優(yōu)的,在得到情感分類特征Pivot集合并擴展后,以所述情感分類特征pivot為核心,建立源語言和目標語言之間的轉(zhuǎn)換因子。
通過轉(zhuǎn)換和降維,得到轉(zhuǎn)換因子,可以分別把源語言特征空間和目標語言特征空間映射到一個低維正交空間內(nèi)。同時對中文和英文語料進行降維,找到一個使得中英文相似度最高的低維空間,把兩種語言的語料映射上去,本發(fā)明要解決的是情感傾向性分類任務,因此這個低維空間,需要跟情感分析任務有關聯(lián),在映射的過程中,應該盡量保留情感傾向性分析有關的有效信息,而其他冗余信息則盡量刨除。
更優(yōu)的,把低維的特征空間還原到目標語言語料特征空間,通過目標語言的情感極性分類器補全通過降維造成的信息損失,實現(xiàn)將源語言轉(zhuǎn)移到目標語言。所述分類器是在目標語言的高維度特征空間訓練得到的,可以直接對轉(zhuǎn)換為詞袋特征向量的目標語言文本進行分類。
該方法基于半監(jiān)督學習策略,通過特征空間遷移的思想來訓練目標語言分類器,一定程度上彌補了遷移學習過程中由于特征空間降維所造成的信息損失。
模型的提出和步驟
本發(fā)明依據(jù)現(xiàn)存的跨語言文本分類模型CL-SCL,針對跨語言情感傾向性分類提出一個新的模型。該模型提出空間遷移的概念以及遷移學習理論和結(jié)構(gòu)化學習理論,簡稱SCL-ST(Structural Correspondence Learning with Space Transfer)。
本發(fā)明所研究的問題是跨語言情感分類,面對兩種語言的文本語料,源語言和目標語言的特征空間是截然不同的,同時源語言和目標語言的數(shù)據(jù)分布空間也完全不同。使用遷移學習的思想來分析這個任務,則這兩個問題都需要得到較好的解決。而這兩個問題,由于自然語言的巨大差異,直觀上似乎都難以解決。
首先需要認清,最終的目標是面向目標語言的情感傾向性分類,即需要一個能夠?qū)δ繕苏Z言進行情感極性分類的分類器。但是現(xiàn)在是有源語言語料的標注。如果能夠通過某種方法,將源語言的特征空間以及目標語言的特征空間同時映射到一個統(tǒng)一的特征空間下,那么只要在這個空間內(nèi)使用源語言的標注訓練分類器,則可以將問題轉(zhuǎn)化成一個傳統(tǒng)的監(jiān)督機器學習問題。
但是根據(jù)常識來分析,兩種自然語言的差異可能是極大的,例如中文和英文,中文是字組成詞,詞組成句子,而詞和詞之間沒有空格。不同字有不同的意思,而字組成詞則有別的意思。而英文以單詞為最小單位,每個單詞可能有很多意思,很多詞性,每個詞還有多種形態(tài)變化。而句子本身也有時態(tài)變化。兩種語言都有一詞多義的情況,很多時候難以準確地對譯。這種情況下能夠想到的方法,只有降維。同時對中文和英文語料進行降維,找到一個使得中英文相似度最高的低維空間,把兩種語言的語料映射上去。但是如何映射,如何找到這個低維空間?還有一個關鍵問題是,本發(fā)明要解決的是情感傾向性分類任務,因此這個低維空間,需要跟情感分析任務有關聯(lián),在映射的過程中,應該盡量保留情感傾向性分析有關的有效信息,而其他冗余信息則盡量刨除。所以在考慮空間映射的同時,也需要考慮情感特征的抽取和表示,以及如何將這些特征和空間映射的方法相結(jié)合。
另一方面,當空間映射到低維后,不管是源語言還是目標語言的信息都會損失很多。那么為了保證分類的效果,需要找到一個途徑把這些丟失的信息,盡可能補充回來。這里涉及到很多問題,后文會進行闡述。
經(jīng)過上面的分析,本發(fā)明提出一個基于特征空間轉(zhuǎn)換思想,如圖2所示,XS表示源的特征空間,XT表示目標語言的特征空間。首先將源語言的特征空間通過轉(zhuǎn)換因子映射到一個低維空間θXS,再將這個空間過渡到θXT,最終再回歸到原始的目標語言特征空間XT。整個空間遷移過程如圖3所示。
從XS到XT遷移的過程,經(jīng)過了θXS和θXT兩個空間的低維度空間,這個過程可以看做一個空間遷移的鏈條,當帶有標注的情感信息經(jīng)過這個鏈條,就可以從源語言特征空間轉(zhuǎn)移到目標語言。
整個模型的流程如圖4所示。模型所需要的語料是源語言的標注語料以及目標語言的未標注語料。首先基于源語言的標注實例,篩選情感分類特征。這里把情感分類特征稱為pivot,即用于遷移學習的樞紐特征。假設源語言所找出來的pivot同樣對目標語言的情感分類適用。將這些源語言的pivot特征,映射到目標語言中,則得到目標語言的pivot集合。通過結(jié)構(gòu)化學習的方法,將擴展后的pivot集合與目標語言以及源語言的語言特征空間想融合,通過轉(zhuǎn)換和降維,得到轉(zhuǎn)換因子,可以分別把源語言特征空間和目標語言特征空間映射到一個低維正交空間內(nèi)。
首先假設上文提到的θXS和θXT兩個空間是同一個空間,事實上這兩個空間非常相近。首先在θXS內(nèi)通過源語言實例的標注訓練一個線性分類器,在將這個分類器直接應用到對目標語言映射后的文本的標注上,從而得到目標語言實例的標注。通過篩選最可靠的標注,則得到了目標語言語料的部分標注,將目標語言的實例分為有標注和沒有標注兩部分。這樣就把對目標語言的情感分類問題轉(zhuǎn)化為一個半監(jiān)督學習問題。最后通過一個半監(jiān)督學習策略,實現(xiàn)假設空間的遷移,補全通過降維造成的信息損失,從而最終得到目標語言的情感極性分類器。整個過程將在后文進行詳細描述。
語料資源與模型構(gòu)建
SCL-ST模型需使用源語言標注語料、目標語言未標注語料、源語言與目標語言的雙語詞典以及一個源語言同義詞詞典。考慮到在跨語言任務中,源語言的語料較為豐富,而目標語言語料稀缺,因此本發(fā)明所需要的資源通常很容易獲得。首先使用源語言和目標語言的全部語料,以文本詞頻(TF)作為特征值,建立詞袋模型,如圖5所示。源語言語料構(gòu)建詞袋模型后得到矩陣其中xSi∈XS為源語言語料的詞袋向量。同樣的語料抽去標注yS,則得到而目標語言語料同樣構(gòu)建詞袋模型得到 其中xTi∈XT。
特征集合篩選與擴展
詞袋模型構(gòu)建之后,基于CL-SCL模型選取pivot特征集合作為遷移學 習的基礎。Pivot由一個詞對組成,每個特征以詞對的方式表示,即<源語言詞,目標語言詞>。
Pivot選取全部依據(jù)源語言標注語料,首先使用互信息方法選取源語言特征詞?;バ畔?Mutual Information)是信息論中的一個重要概念?;バ畔⒖梢员焕斫鉃橐环N有用的信息度量,用于描述兩個事件集合的相關性。
互信息值計算公式如下:
其中U表示該詞是否在文本中出現(xiàn),而C表示文本的極性。et=1表示該詞在文本中出現(xiàn),ec=1表示該文本極性為正向。NS表示該詞在條件s下的文檔頻率統(tǒng)計,如N10表示該詞在負向文本中出現(xiàn)的文檔頻率。N1.=N10+N11表示該詞正負文檔頻率之和,及總文檔頻率??偽臋n數(shù)N=N00+N01+N10+N11。而P(U=1,C=1)=N11/N。計算文本中所有出現(xiàn)的詞與文本情感極性的相關度,選擇互信息值最高的m個特征詞{wS}。
VS=MutualInformation(DS,m) (1.2)
源語言的特征詞選取之后,使用雙語詞典對源語言特征詞進行翻譯(這里選取頻率最高的翻譯),取該翻譯為目標語言特征詞。
P'={{wS,translate(wS)},Φ|wS∈VS} (1.3)
翻譯后得到特征詞對,使用源語言進行同義詞擴展。即把目標特征詞的同義詞一并加入pivot集合中,得到新的pivot。以英文為源語言,中文為目標語言為例:
{“wonderful”,”精彩”}=>{“grand”,“fantastic”,“marvelous”,“marvellous”,“wonderful”,“wondrous”,“terrific”,“tremendous”,“精彩”}
得到最終的pivot集合P:
P={{{wS},wT}|wS∈P',wT∈VT} (1.4)
pivot集合得到擴充后,依照后文模型中的算法,可以更多地保留語料信息,增強模型魯棒性,從而提高最后的分類準確率。
訓練投影矩陣
接下來根據(jù)CL-SCL模型的方法,求得轉(zhuǎn)換因子。在得到Pivot集合并擴展后,以這些特征pivot為核心,建立源語言和目標語言之間的橋梁。
如圖6所示,構(gòu)建的詞袋模型所組成的矩陣D,左側(cè)列為源語言詞袋,而右側(cè)列為目標語言詞袋。并將所有語料,包括英文標注語料DS,圖中陰影部分沒有。將每個pivot特征集合在語料矩陣中做投影,即所有出現(xiàn)該詞對中的詞被設成“0”。此外出現(xiàn)該特征的文本被標記為1,否則被標記為-1。得到一個投影后帶有標記的詞袋特征矩陣Dl:
Dl={(MASK(x,pl),IN(x,pl))|x∈Du} (1.5)
利用投影后的語料和對應的標記,對每一個pivot pl訓練一個相對應的線性分類器
wl:
將所有wl合成一個矩陣W:
W=[w1|w2|...|wm] (1.7)
最后對矩陣W進行SVD分解,取前k個特征值得到轉(zhuǎn)換因子。
[UDVT]=SVD(W) (1.8)
實驗證明這個模型不僅可以用在情感極性分類任務中,也可以用到多種跨語言任務當中,只要模型中使用的特征基于詞對即可。
半監(jiān)督學習策略
上文得到轉(zhuǎn)換因子矩陣,該因子可以將源語言和目標語言的特征向量映射到同一個空間中。本小節(jié)主要介紹基于半監(jiān)督學習的文本特征空間轉(zhuǎn)換策略,通過訓練多個線性分類器,將原問題轉(zhuǎn)化為一個半監(jiān)督學習任務。
首先將源語言特征矩陣XS通過轉(zhuǎn)換因子映射到低維空間θXS,同時根據(jù)標注集和Y可以訓練線性分類器fS:
fS(xS)=sign(vS*TθxS) (1.11)
該分類器同樣可以對目標語言進行分類。只需計算:
fS(xT)=sign(vS*TθxT) (1.12)
即可得到目標語言xT的極性。然而這個極性是通過θxS的訓練數(shù)據(jù)得到的,鑒于特征空間的差異性,結(jié)果并不準確。使用分類器fS對所有目標語言文本xT做預測,則得到了目標語言文本的標注。
然而,分類器fS只是在θxS這個低維空間上訓練的,使用該分類器對目標語言進行分類,其準確率容易受到空間維度的限制。在文本特征空間通過轉(zhuǎn)換因子矩陣進行轉(zhuǎn)換時,由于降維幅度非常大,會造成一定的信息損失。而這些信息中有可能會包含情感分析相關或者語義相關的知識,如果棄之不用則比較可惜。目標語言有大量的未標注語料,如果可以通過無監(jiān)督或者半監(jiān)督的方法來充分利用這些語料,在模型中加入更多目標語言本身的特性或情感知識,則可以進一步提高分類準確率。提升準確率使用的主要思想是大幅提高模型的特征空間維度,實際上就是把低維的特征空間還原到目標語言語料特征空間。
下面本發(fā)明著重研究這些尚未被充分利用的未標注語料。所有未標注語料對應的特征矩陣Dun是一個分塊矩陣:
該矩陣左上角為源語言的未標注語料(可以用有標注的語料代替)右下角為目標語言未標注語料現(xiàn)已訓練處分類器該分類器的訓練特征空間為θ*(MS 0),而是用該分類器標注時,目標語言實例集合則為而新的標注空間為Yco。
提取置信度最高的n個標注以及標注所對應的文本,將這些標注的實例集合以及對應的標注重新整合起來,可以生成一個新的訓練語料集:
Dco=InsanceSelection((vTθxT,y),n) (1.13)
這樣便將原問題轉(zhuǎn)化為半監(jiān)督學習問題。得到的訓練集 此時重新訓練線性分類器
此時得到的分類器fco依然是在經(jīng)過θ映射后的低維空間得到的。而對于跨語言任務,更理想的情況是得到一個跟做單語言任務相當?shù)姆诸惼?,以使得分類準確率能達到單語分類的水平,有時甚至能得到更好的結(jié)果。fco的分類效果已經(jīng)高于fS,使用fco對全部目標語言語料進行一次重新標注,即對重新做一次標注,得到新的標注集合YT。重新選擇置信度最高的比例為r的標注,并匹配相應的文本,可以生成新的有標注目標語言訓練語料:
DT=InsanceSelection((xT,yT),r) (1.16)
在訓練集上訓練線性SVM分類器:
fT(xT)=sign(w*TxT+b) (1.17)
如此可得到最后的分類器fT。該分類器是在目標語言的高維度特征空間訓練得到的,可以直接對轉(zhuǎn)換為詞袋特征向量的目標語言文本進行分類。
實施例三,一種基于遷移學習的跨語言情感分析裝置,如圖7所示,包括:包括模型構(gòu)建單元、特征集合篩選與擴展單元、轉(zhuǎn)換及降維單元,升維及補償單元;模型構(gòu)建單元用于建立源語言到目標語言的空間遷移模型;特征集合篩選與擴展單元用于將擴展后的情感分類特征pivot集合與目標語言以及源語言的語言特征空間相融合;轉(zhuǎn)換及降維單元用于源語言到目標語言轉(zhuǎn)換和降維,得到轉(zhuǎn)換因子;升維補償單元用于將源語言轉(zhuǎn)移到目標語言。
本技術方案在現(xiàn)有模型的基礎上提出基于遷移學習的方法,從情感資源豐富的源語言,將情感知識遷移到情感資源貧乏的目標語言,最終得到面對目標語言的情感極性分類器。
實施例四,一種基于遷移學習的跨語言情感分析裝置,如圖2-6所示,在實施例三的基礎上。進一步包括:
更優(yōu)的,特征集合篩選與擴展單元用于獲得擴展后的情感分類特征集合之前,首先使用源語言和目標語言的全部語料,篩選情感分類特征pivot;情感分類特征pivot由一個詞對組成,即<源語言詞,目標語言詞>。
更優(yōu)的,特征集合篩選與擴展單元篩選情感分類特征pivot選取全部依據(jù)源語言標注語料,源語言的特征詞選取之后,對源語言特征詞進行翻譯,取該翻譯為目標語言特征詞;翻譯后得到特征詞對,使用源語言進行同義詞擴展,即把目標特征詞的同義詞一并加入情感分類特征pivot集合中,得到新的情感分類特征pivot。
更優(yōu)的,轉(zhuǎn)換及降維單元用于在得到情感分類特征Pivot集合并擴展后,以所述情感分類特征pivot為核心,建立源語言和目標語言之間的轉(zhuǎn)換因子。
更優(yōu)的,升維及補償單元用于把低維的特征空間還原到目標語言語料特征空間,通過目標語言的情感極性分類器補全通過降維造成的信息損失,實現(xiàn)將源語言轉(zhuǎn)移到目標語言。
實施例三、四的裝置分別于實施例一、二方法一一對應,關于實施例三、四的具體說明及有益效果與實施例一二一致,在此不一一重復,請參照實施 例一二部分。
本領域普通技術人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關硬件完成,所述程序可以存儲于計算機可讀存儲介質(zhì)中,如只讀存儲器、磁盤或光盤等。可選地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn)。相應地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)合。
當然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟悉本領域的技術人員當可根據(jù)本發(fā)明作出各種相應的改變和變形,但這些相應的改變和變形都應屬于本發(fā)明的權利要求的保護范圍。