亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于詞語依存關(guān)系的觀點(diǎn)抽取方法

文檔序號(hào):6376047閱讀:1665來源:國知局
專利名稱:基于詞語依存關(guān)系的觀點(diǎn)抽取方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種觀點(diǎn)抽取方法,尤其涉及一種基于詞語依存關(guān)系的觀點(diǎn)抽取方法,屬于計(jì)算機(jī)信息數(shù)據(jù)處理技術(shù)領(lǐng)域。
背景技術(shù)
互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及,在很大程度上改變了人們的生活方式,人們不僅能夠被動(dòng)的接受信息,還能與外界進(jìn)行交互,越來越多的用戶在互聯(lián)網(wǎng)上分享自己的觀點(diǎn)或者體驗(yàn)?;ヂ?lián)網(wǎng)逐漸成為一種交互式媒體,人們可以通過BBS、Blogs等網(wǎng)絡(luò)媒介發(fā)表對(duì)各種事物的評(píng)論。這些信息數(shù)量龐大,具有強(qiáng)烈的主觀性,表達(dá)方式相當(dāng)自由,且不規(guī)范。網(wǎng)絡(luò)上這些主觀性的評(píng)論包含著大量的情感傾向的信息,這些信息,無論對(duì)于普通的網(wǎng)絡(luò)用戶,還是對(duì)于生產(chǎn)商以及其他機(jī)構(gòu)組織都有很重要的價(jià)值。例如,普通用戶可以根據(jù)網(wǎng)絡(luò)上其他用戶對(duì)某一產(chǎn)品的評(píng)價(jià),而得知該產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn);生產(chǎn)商可以通過網(wǎng) 絡(luò)上產(chǎn)品的評(píng)價(jià)可以得知自己產(chǎn)品的客戶滿意度。但是,在海量的網(wǎng)絡(luò)信息中,如果依靠人工瀏覽網(wǎng)頁,搜集評(píng)論,分析觀點(diǎn),將是一項(xiàng)費(fèi)時(shí)費(fèi)力,效率低下的工作。例如,一個(gè)人氣旺盛的論壇中,每天都可能產(chǎn)生幾百個(gè)甚至上千個(gè)主題貼;此外,許多情況下,在這些長(zhǎng)篇累牘的評(píng)論中,大部分內(nèi)容都是客觀描述,而只有幾句話是用戶感興趣的主觀評(píng)論。如何從互聯(lián)網(wǎng)的海量數(shù)據(jù)中高效快捷的出針對(duì)某一主題的主觀評(píng)論性信息至關(guān)重要。識(shí)別和抽取在互聯(lián)網(wǎng)的評(píng)論中用戶針對(duì)某一具體的主題主觀性評(píng)論稱為觀點(diǎn)抽取。觀點(diǎn)抽取用于抽取情感評(píng)論文本中包含觀點(diǎn)的信息,并將無結(jié)構(gòu)化的情感文本轉(zhuǎn)化為計(jì)算機(jī)容易識(shí)別和處理的結(jié)構(gòu)化文本,從而為情感分析的其他研究和應(yīng)用服務(wù)。觀點(diǎn)的抽取也叫意見的抽取,它主要包括評(píng)價(jià)對(duì)象(也稱主題特征)的抽取,如價(jià)格、質(zhì)量等;情感特征(也稱極性特征)的抽取,如好、壞等等。觀點(diǎn)的極性往往表達(dá)了用戶對(duì)主題的主觀性評(píng)論。觀點(diǎn)的兩個(gè)最基本要素分別是主題特征和情感特征,主題特征和情感特征通常對(duì)應(yīng)了句子中的評(píng)價(jià)對(duì)象和評(píng)價(jià)詞語。Bloom等人將主題特征和情感特征定義為情感評(píng)價(jià)單元。早期的研究者將觀點(diǎn)抽取這項(xiàng)任務(wù)分為兩個(gè)步驟首先獲取主觀句中的評(píng)價(jià)對(duì)象,及主題特征;繼而選擇距離評(píng)價(jià)對(duì)象窗口為k的評(píng)價(jià)詞語(情感特征),從而構(gòu)成一條觀點(diǎn)。但是這種方法經(jīng)驗(yàn)性太強(qiáng),導(dǎo)致系統(tǒng)的性能有限,準(zhǔn)確率難以保證。近期的一部分研究者將主題特征抽取和情感特征抽取合并為一個(gè)獨(dú)立的任務(wù),通過發(fā)掘二者之間的關(guān)系,提出了基于模版的方法來識(shí)別主觀句中的情感評(píng)價(jià)單兀。Kobayashi 等人定義了一個(gè)評(píng)價(jià)三兀組〈evaluated subject, focused attribute,value〉,其中,“focused attribute”對(duì)應(yīng)情感評(píng)價(jià)單元中的評(píng)價(jià)對(duì)象,“value”對(duì)應(yīng)情感特征。他們將情感特征和評(píng)價(jià)對(duì)象之間的修飾關(guān)系用8個(gè)共現(xiàn)模板(如<Attribute>of<Subject>is<Value>等)來描述。然而,由于模板過于簡(jiǎn)單而且修飾關(guān)系僅僅停留在詞表面,在模板匹配過程中,該方法產(chǎn)生了大量的候選評(píng)價(jià)對(duì)象和候選情感特征,需要人工篩選來完成情感評(píng)價(jià)單元的抽取。顯然,這種方法大大提高了識(shí)別的準(zhǔn)確率,但是對(duì)于模版的構(gòu)建需要大量的人工工作。
哈爾濱工業(yè)大學(xué)的趙妍妍等人在《軟件學(xué)報(bào)》2011年第5期刊載的《基于句法路徑的情感評(píng)價(jià)單元識(shí)別》論文中提出了一種基于句法路徑的方法。該方法能自動(dòng)識(shí)別主觀句中的情感評(píng)價(jià)單元。將鏈接評(píng)價(jià)對(duì)象和情感特征的句法結(jié)構(gòu)視為一條句法路徑,如圖I所示。該方法通過大量語料的訓(xùn)練構(gòu)建了句法路徑庫,并基于句法路徑的匹配來自動(dòng)獲取主觀句中的情感評(píng)價(jià)單元。這種方法可以有效的匹配評(píng)價(jià)對(duì)象和情感特征。但是,在很多情況下,某些句法成分的標(biāo)簽表達(dá)了相似的含義,而且多條不同的句法路徑描述了相同的句法功能(例如圖1),而且。因此,對(duì)于句法路徑庫的構(gòu)建需要大量的泛化和人工篩選工作。在申請(qǐng)?zhí)枮?00910082342. I的中國發(fā)明專利申請(qǐng)中,公開了一種獲取評(píng)價(jià)單元、建立句法路徑詞典的方法、裝置及系統(tǒng)。其中,獲取評(píng)價(jià)單元的方法包括如下步驟識(shí)別情感句的極性詞和目標(biāo)詞;創(chuàng)建句法路徑,所述句法路徑用于連接所述極性詞與所述目標(biāo)詞;根據(jù)句法路徑詞典獲取所述句法路徑對(duì)應(yīng)的目標(biāo)詞,其中,所述句法路徑用于存儲(chǔ)標(biāo)準(zhǔn)句法路徑;將所述極性詞與所述獲取的目標(biāo)詞組成評(píng)價(jià)單元
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)所存在的不足,本發(fā)明所要解決的技術(shù)問題在于提供基于詞語依存關(guān)系的觀點(diǎn)抽取方法。該方法能夠在不同領(lǐng)域中抽取觀點(diǎn),并且能夠取得較高的觀點(diǎn)抽取準(zhǔn)確率。為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案一種基于詞語依存關(guān)系的觀點(diǎn)抽取方法,包括如下步驟采集詞語依存關(guān)系路徑并構(gòu)建詞語依存關(guān)系庫;采用基于詞語依存關(guān)系鏈的匹配算法抽取評(píng)價(jià)對(duì)象和情感特征;通過評(píng)價(jià)對(duì)象和情感特征之間的詞語依存關(guān)系判斷觀點(diǎn)極性。其中較優(yōu)地,所述構(gòu)建詞語依存關(guān)系庫的步驟包括I)對(duì)于語料庫中的文本進(jìn)行預(yù)處理,獲得詞語及其詞性;2)將處理后的文本以標(biāo)點(diǎn)符號(hào)劃分為不同的分句;3)對(duì)每個(gè)分句進(jìn)行句法解析,分析句法結(jié)構(gòu),獲得句子成分;4)根據(jù)句子中標(biāo)注好的句子成分,以存在于情感詞詞典中的詞語作為候選評(píng)價(jià)詞語,名詞性短語中的名詞或代詞作為候選評(píng)價(jià)對(duì)象,計(jì)算候選評(píng)價(jià)詞語與候選評(píng)價(jià)對(duì)象的最短路徑;5)重復(fù)步驟3)至4),對(duì)訓(xùn)練集合中的所有分句進(jìn)行處理,并對(duì)所獲得的詞語依存關(guān)系路徑進(jìn)行統(tǒng)計(jì),將出現(xiàn)較多的詞語依存關(guān)系路徑加入到詞語依存關(guān)系庫中。其中較優(yōu)地,所述對(duì)評(píng)論文本進(jìn)行預(yù)處理是使用ICTCLAS詞法分析器對(duì)文本進(jìn)行預(yù)處理。其中較優(yōu)地,所述分析句法關(guān)系是使用Stanford Parser分析器對(duì)語料進(jìn)行句法解析。其中較優(yōu)地,所述候選評(píng)價(jià)詞語與候選評(píng)價(jià)對(duì)象的最短路徑由評(píng)價(jià)詞語和評(píng)價(jià)對(duì)象之間的詞語依存關(guān)系路徑構(gòu)成。其中較優(yōu)地,所述采用基于詞語依存關(guān)系鏈的匹配算法抽取評(píng)價(jià)對(duì)象和情感特征的步驟包括
a.通過句法解析,得到主觀句的句法成分和詞語依存關(guān)系集合;b.選取句中的名詞性短語作為候選評(píng)價(jià)對(duì)象;c.計(jì)算候選評(píng)價(jià)對(duì)象與句中形容詞短語、副詞短語以及動(dòng)詞短語的最短路徑作為候選詞語依存關(guān)系路徑;d.將候選的詞語依存關(guān)系路徑與詞語依存關(guān)系庫中的標(biāo)準(zhǔn)詞語依存關(guān)系路徑進(jìn)行匹配,匹配優(yōu)先級(jí)高的詞語依存路徑鏈所連接的兩個(gè)詞語作為最終的評(píng)價(jià)對(duì)象和情感特征。 其中較優(yōu)地,所述通過評(píng)價(jià)對(duì)象和情感特征之間的詞語依存關(guān)系判斷觀點(diǎn)極性的步驟包括(I)采用基于通用知識(shí)網(wǎng)絡(luò)的詞語傾向性預(yù)測(cè)方法計(jì)算評(píng)價(jià)詞語的語義傾向性;(2)若詞語的語義傾向性不為中性,采用如下式對(duì)觀點(diǎn)的情感特征進(jìn)行量化
Poiarityi wot'd) mod ifier = NI JLLI PolarityiSentiGram) = ■■ Polarity{\rord) ■ 1.4 mod ifier =強(qiáng)化
Polarityi word) ■ 0.7 mod ifier =弱化 J(3)根據(jù)是否存在否定副詞,采用如下式對(duì)觀點(diǎn)的情感特征量化
pohrity(Se"fiGmm).(-i)neg = NW,qPoianiviSeiitiGram) = {}
'[Polariiy(SentiGram) neg Φ NlJIJ,]其中,Polarty (sentiword)為評(píng)價(jià)詞語的語義傾向性。其中較優(yōu)地,所述基于通用知識(shí)網(wǎng)絡(luò)的詞語傾向性預(yù)測(cè)方法包括a.判斷未知詞語是否存在于情感詞詞典中,如果存在返回極性,如果不存在,則進(jìn)入步驟b ;b.選取褒義基準(zhǔn)詞集和貶義詞基準(zhǔn)詞集,褒義詞集和基準(zhǔn)詞集的基準(zhǔn)詞數(shù)量相同;c.計(jì)算所述未知詞語與所述褒義詞集之間的緊密程度;d.計(jì)算所述未知詞語與所述貶義詞集之間的緊密程度;e.計(jì)算所述未知詞語與所述褒義詞集間的緊密程度和所述未知詞語與所述貶義基準(zhǔn)詞集間的緊密程度的差值;f.根據(jù)步驟e所得到的差值,選取適當(dāng)?shù)拈撝悼臻g,判斷出所述未知詞語極性。本發(fā)明所提供的基于詞語依存關(guān)系的觀點(diǎn)抽取方法,首先對(duì)評(píng)論文本進(jìn)行預(yù)處理,通過分析句法關(guān)系與詞語依存關(guān)系,通過訓(xùn)練預(yù)料自動(dòng)構(gòu)建詞語依存關(guān)系庫,然后通過情感詞與主題詞之間的詞語依存關(guān)系,解決觀點(diǎn)抽取中屬性與情感的關(guān)聯(lián)匹配問題。本方法在不同領(lǐng)域中抽取觀點(diǎn)能夠取得較高的準(zhǔn)確率。


圖I是本發(fā)明背景技術(shù)中相同功能的不同句法路徑示意圖;圖2是例3S1句法路徑示意圖;圖3是例3S2句法路徑示意圖;圖4是詞語依存關(guān)系路徑出現(xiàn)頻率圖示意圖5是不同詞語依存路徑庫下的評(píng)價(jià)對(duì)象抽取結(jié)果示意圖;圖6是不同領(lǐng)域下的觀點(diǎn)抽取效果示意圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。本發(fā)明提出了一種基于詞語依存關(guān)系的觀點(diǎn)抽取方法來識(shí)別主觀句中的主題特征以及其對(duì)應(yīng)的情感特征。在本發(fā)明所提供的基于詞語依存關(guān)系的觀點(diǎn)抽取方法中,首先采集詞語依存關(guān)系路徑來構(gòu)建詞語依存關(guān)系庫;然后采用基于詞語依存關(guān)系鏈的匹配算法抽取主題特征和情感特征;最后通過主題特征和情感特征之間的詞語依存關(guān)系判斷觀點(diǎn)極性。在本發(fā)明中,針對(duì)觀點(diǎn)檢索中跨領(lǐng)域的特點(diǎn)先對(duì)評(píng)論文本進(jìn)行預(yù)處理,通過分析句法關(guān)系與詞語依存關(guān)系,通過訓(xùn)練語料自動(dòng)構(gòu)建詞語依存關(guān)系庫,然后通過情感詞與主題詞之 間的詞語依存關(guān)系,解決觀點(diǎn)抽取中主題特征與情感特征的關(guān)聯(lián)匹配問題。下面展開詳細(xì)的說明。首先介紹如何采集詞語依存關(guān)系路徑來構(gòu)建詞語依存關(guān)系庫,構(gòu)建詞語依存關(guān)系庫主要包括如下步驟1)對(duì)于語料庫中的文本進(jìn)行預(yù)處理,獲得詞語及其詞性;2)將處理后的文本以標(biāo)點(diǎn)符號(hào)劃分為不同的分句;3)對(duì)每個(gè)分句進(jìn)行句法解析,分析句法結(jié)構(gòu),獲得句子成分;4)根據(jù)句子中標(biāo)注好的句子成分,以存在于情感詞詞典中的詞語作為候選評(píng)價(jià)詞語,名詞性短語中的名詞或代詞作為候選評(píng)價(jià)對(duì)象,計(jì)算候選評(píng)價(jià)詞語與候選評(píng)價(jià)對(duì)象的最短路徑。5)重復(fù)步驟3)至4),對(duì)訓(xùn)練集合中的所有分句進(jìn)行處理,并對(duì)所獲得的詞語依存關(guān)系路徑進(jìn)行統(tǒng)計(jì),將出現(xiàn)較多的詞語依存關(guān)系路徑加入到詞語依存關(guān)系庫中。下面對(duì)上述構(gòu)建詞語依存關(guān)系庫的步驟一一做詳細(xì)說明對(duì)于語料庫中的文本進(jìn)行預(yù)處理,獲得詞語及其詞性,主要是針對(duì)中文主觀性評(píng)論文本預(yù)處理。對(duì)主觀性文本預(yù)處理的一些基本工作與中文文本分析的其他研究的預(yù)處理類似,主要是對(duì)目的文檔集中的每一篇文檔進(jìn)行句子切分、分詞、詞性標(biāo)注、停靠詞過濾、無意義字符過濾等工作。但是,主觀性文本也有其自身的特點(diǎn)首先,對(duì)于一些文本中重復(fù)出現(xiàn)的詞語,在許多文本分析的預(yù)處理階段會(huì)進(jìn)行去重處理,或只記錄詞語的頻率。但是對(duì)于主觀性文本的分析,重復(fù)出現(xiàn)的形容詞卻不能去重處理,因?yàn)樗鼈兛赡芨髯源砹艘欢挝淖謪^(qū)域的傾向性。而且在主題抽取任務(wù)中,即使是相同的極性詞也不能簡(jiǎn)單的統(tǒng)一記錄為詞頻,因?yàn)樗鼈冃揎椀闹黝}可能不同。另外,在許多其他的文本分析中,比如傳統(tǒng)的文本分類問題,為了減少文檔空間向量的維數(shù),許多虛詞都會(huì)被過濾掉,其主要提取的主干詞為名詞,動(dòng)詞等,形容詞會(huì)被當(dāng)作文檔的修飾成分被過濾掉。顯然,在進(jìn)行傾向性分析時(shí)不能過濾掉虛詞,也不能去重處理,這是主觀性文本分析一大特點(diǎn)?;谥饔^性文本分析的特點(diǎn),在對(duì)語料進(jìn)行預(yù)處理的階段所涉及到的過濾、去重工作極少。這個(gè)過程最主要的工作就是對(duì)文本進(jìn)行分詞以及詞性的標(biāo)注,本發(fā)明使用ICTCLAS詞法分析器對(duì)已構(gòu)建的語料庫中的評(píng)論文本的預(yù)處理。下面簡(jiǎn)單介紹一下ICTCLAS詞法分析器。ICTCLAS詞法分析器又稱漢語詞法分析系統(tǒng),由中國科學(xué)院計(jì)算技術(shù)研究所研制,主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;新詞識(shí)別;同時(shí)支持用戶詞典。ICTCLAS詞法分析器的內(nèi)核先后升級(jí)6次,目前版本的分詞速度為單機(jī)996KB/S、分詞精度98. 45%、API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M。其次,根據(jù)對(duì)于語料庫中的文本進(jìn)行預(yù)處理,獲得的詞語及其詞性,對(duì)相應(yīng)的語料庫中的文本以“ ;”、“?!?、“ !”、“?”等標(biāo)點(diǎn)符號(hào)劃分為不同的分句。再次,對(duì)每個(gè)分句進(jìn)行句法解析,分析句法結(jié)構(gòu),獲得句子成分。句法解析是指對(duì)句子的詞語語法功能進(jìn)行分析。例如,“我來晚了”,這里“我”是主語,“來”是謂語,“晚了”是補(bǔ)語。句法分析的任務(wù)是自動(dòng)分析出句子的語法結(jié)構(gòu)及語法關(guān)系,將一個(gè)線性序列的句子轉(zhuǎn)換成一個(gè)結(jié)構(gòu)化的語法樹。根據(jù)不同的語法體系,分析結(jié)果表現(xiàn)為不同的形式。由于主觀句中的評(píng)價(jià)對(duì)象一般呈現(xiàn)為名詞或者代詞,因此,本發(fā)明設(shè)定主觀句中詞性為名詞或者代詞的詞語作為候選評(píng)價(jià)對(duì)象。本發(fā)明使用Stanford Parser分析器對(duì)語料進(jìn)行句法解析。通過句法解析后,名詞和代詞在句子中的都存在于名詞性短語(NP)中,具體描述為常用名詞(NN),固有名詞(NR),時(shí)間名詞(NT)以及代詞(PN)。評(píng)價(jià)詞語在主觀句中主要以形容詞短語(ADJP)和副詞短語(ADVP)的形式存在,同時(shí)有少量動(dòng)詞短語(VP)也 能夠表達(dá)情感傾向?;诖?,主題特征和情感特征的主要內(nèi)容都存在于上述幾個(gè)句法成分中,所以句法解析的主要工作之一就是對(duì)于句法成分的分析。下面簡(jiǎn)單介紹一下StanfordParser分析器。Stanford Parser分析器由Stanford大學(xué)開發(fā),基本上是一個(gè)詞匯化的概率上下文無關(guān)語法分析器,同時(shí)也使用了依存分析。Stanford Parser分析器根據(jù)不同的語法觀點(diǎn)可以輸出不同的的分析結(jié)果。詳細(xì)參見網(wǎng)址Http://nlp. Stanford, edu/software/Lexparser. shtml。利用依存語法進(jìn)行句法分析是自然語言理解的重要手段之一,它能夠給出一個(gè)句子當(dāng)中詞與詞之間的依存關(guān)系。“依存”就是指詞與詞之間支配與被支配的關(guān)系,處于支配地位的成分稱為支配者,而處于被支配地位的成分稱為從屬者。而任意兩個(gè)詞之間都存在一條詞語依存鏈,連接這兩個(gè)詞語。根據(jù)句法分析的步驟獲取的句子成分,以存在于情感詞詞典中的詞語作為候選評(píng)價(jià)詞語,名詞性短語(NP)中的名詞或代詞作為候選評(píng)價(jià)對(duì)象,計(jì)算候選評(píng)價(jià)詞語與候選評(píng)價(jià)對(duì)象的最短路徑。該路徑由評(píng)價(jià)詞語和評(píng)價(jià)對(duì)象之間的詞語依存關(guān)系路徑構(gòu)成。詞語最短依存路徑的抽取就是在不考慮中間詞語的支配關(guān)系的前提下,通過詞語間的依存關(guān)系找到評(píng)價(jià)對(duì)象詞與評(píng)價(jià)詞語之間的一條最短連接路徑。在本發(fā)明中,詞語依存路徑指的是兩個(gè)詞語之間依存關(guān)系的無向圖。例I “電腦外觀時(shí)尚?!蓖ㄟ^句法解析,得到該句子中的詞語依存關(guān)系集合[nn (外觀 _2,電腦-I), nsubj (時(shí)尚 _3,夕卜觀 _2)]對(duì)于例1,通過觀察句子的詞語依存關(guān)系可以發(fā)現(xiàn),評(píng)價(jià)對(duì)象“外觀”與評(píng)價(jià)詞語“時(shí)尚”之間存在直接的詞語依存關(guān)系nsubj (時(shí)尚-3,外觀-2)。又如例2 “我最喜歡的還是92萬像素的顯示屏和金屬機(jī)身。”通過句法解析,可以得到這句話的詞語依存關(guān)系集合[nsubj (還是-5,我-I), advmod (喜歡-3,最 _2), dvpmod (還是 _5,喜歡 _3),dep (喜歡-3,的-4), dep (像素-8,92-6), nummod (像素-8,萬-7), assmod (機(jī)身-15,像素-8),assm (像素-8,的-9), con j (機(jī)身-15,顯不屏-10), cc (顯不屏-10,和-11), dep(顯示屏-10,它-12), cpm (顯示屏-10,的-13), nn (機(jī)身-15,金屬-14), dob j (還是 _5,機(jī)身-15)]在例2這個(gè)句子中,無法直接找到評(píng)價(jià)詞語“喜歡”與評(píng)價(jià)對(duì)象“顯示屏”和“機(jī)身”的詞語依存關(guān)系。本發(fā)明在不考慮詞 語依存關(guān)系中的支配關(guān)系的情況下,通過計(jì)算最短路徑,找到評(píng)價(jià)詞語與評(píng)價(jià)對(duì)象間的最短依存路徑“dvpmod-dob j ”和“dvpmod_dob j_conj ”。例3S1 我最喜歡的還是92萬像素的顯示屏和它的金屬機(jī)身?!盨2 我最喜歡的還是92萬像素的顯示屏和金屬機(jī)身?!蓖ㄟ^句法解析,得到的SI (圖2)和S2 (圖3)的句法路徑,從圖2和圖3中可以看出,在SI和S2中評(píng)價(jià)詞語“喜歡”與評(píng)價(jià)對(duì)象“機(jī)身”的句法路徑均為VA丨-VP丨-VP丨-DVP i -VP I -NP I -NP I -NN K但是,對(duì)于評(píng)價(jià)詞語“喜歡”與評(píng)價(jià)對(duì)象“顯示屏”的句法路徑,在SI中與S2中的形式則不同SI VA i -VP -VP f -DVP -VP I -CP I -IP I -VP I ~ΥΑ I ;S2 VA 丨-VP 丨-VP 丨-DVP 丨-VP 丨—NP 丨-DJP 丨-JJ K由此可見,表達(dá)意思基本相同的兩個(gè)句子的評(píng)價(jià)詞語與評(píng)價(jià)對(duì)象存在著不同的句法路徑。對(duì)于例3中的兩個(gè)句子進(jìn)行句法解析,并找出評(píng)價(jià)詞語“喜歡”與評(píng)價(jià)對(duì)象“顯示屏”和“機(jī)身”的詞語依存路徑分別為SI dvpmod (還是-5,喜歡 _3)-dobj (還是-5,機(jī)身-15);dvpmod(還是-5,喜歡-3)_dobj (還是-5,機(jī)身-15)_conj (機(jī)身-15,顯示屏-10);S2 : dvpmod (還是-5,喜歡 _3)-dob j (還是-5,機(jī)身 _15);dvpmod (還是-5,喜歡 _3) -dobj (還是-5,機(jī)身-15) -conj (機(jī)身-15,顯示屏-10)。所以,在例3中的兩個(gè)句子中評(píng)價(jià)詞語“喜歡”與評(píng)價(jià)對(duì)象“機(jī)身”的詞語依存路徑均為“dvpmod-dobj”,評(píng)價(jià)詞語“喜歡”與“評(píng)價(jià)對(duì)象”顯示屏“的詞語依存路徑均為“dvpmod-dobj-conj”。通過比較看出,詞語的依存關(guān)系不僅能夠表示出評(píng)價(jià)對(duì)象與情感特征之間的句法關(guān)系,而且,相對(duì)于句法路徑,詞語依存關(guān)系的表示更加清晰簡(jiǎn)潔。在例I中,評(píng)價(jià)對(duì)象與評(píng)價(jià)詞語之間的最短依存路徑為topic-nsubj-sentiword,例2中評(píng)價(jià)對(duì)象與評(píng)價(jià)詞語間的最短路徑為topic-(conj-dobj-dvpmod)-sentiword和topic-(dodj-dvpmod)-sentiword。其中,“topic”表不評(píng)價(jià)對(duì)象,“sentiword”表不評(píng)價(jià)詞語。最后,按照上述方法,對(duì)訓(xùn)練集合中的所有分句進(jìn)行處理,并對(duì)所獲得的詞語依存關(guān)系路徑進(jìn)行統(tǒng)計(jì),將出現(xiàn)較多的詞語依存關(guān)系路徑加入到詞語依存關(guān)系庫中。本發(fā)明的詞語依存關(guān)系庫采用了自動(dòng)構(gòu)建的方式,比其他手工構(gòu)建的規(guī)則更為全面,即能夠覆蓋更多的句法關(guān)系。本發(fā)明通過統(tǒng)計(jì)出各種詞語依存關(guān)系路徑出現(xiàn)的頻率,并且通過閾值th來限定來選取較為頻繁的詞語依存關(guān)系路徑構(gòu)成詞語依存關(guān)系庫。這種通過考慮頻率來確定詞語依存關(guān)系正確性的方法基于如下的假設(shè)情感特征與其真正具有搭配關(guān)系的評(píng)價(jià)對(duì)象之間滿足一定的依存關(guān)系,并且這些關(guān)系是有規(guī)律可循的,可總結(jié)的,而非雜亂無章的?;谶@種假設(shè),很多學(xué)者通過人工總結(jié)句法關(guān)系來進(jìn)行主題特征和情感特征的識(shí)別,并且他們的研究也證明了該假設(shè)的正確性。本發(fā)明提出的詞語依存關(guān)系路徑可以看做是句法關(guān)系的一種表現(xiàn)形式。因此,同樣基于上述假設(shè),在較大規(guī)模的語料庫中情感特征與其真正具有搭配關(guān)系的評(píng)價(jià)對(duì)象之間的詞語依存關(guān)系路徑也是有規(guī)律可言的,是可以總結(jié)的。這類正確的詞語依存關(guān)系路徑在大語料庫中出現(xiàn)的次數(shù)將會(huì)較多,所以統(tǒng)計(jì)頻率也會(huì)較高;相反,由于情感特征和那些并非存在真正搭配關(guān)系的評(píng)價(jià)對(duì)象之間的詞語依存關(guān)系路徑?jīng)]有規(guī)律可言,它們的表現(xiàn)形式也較為雜亂無章。所以,這些錯(cuò)誤的句法路徑的統(tǒng)計(jì)頻率也會(huì)較低。基于此,在較大的語料庫中統(tǒng)計(jì)出現(xiàn)的詞語依存關(guān)系路徑頻率能夠較為真實(shí)的反映出詞語依存關(guān)系在主題特征和情感特征抽取中的正確性和可用性。通過實(shí)驗(yàn)分析,發(fā)現(xiàn)在評(píng)論文本中評(píng)價(jià)對(duì)象與評(píng)價(jià)詞語之間的詞語依存路徑存在著明顯的規(guī)律性,結(jié)果如圖4所示。這意味著通過少量的詞語依存路徑可以覆蓋很大一部分的評(píng)價(jià)對(duì)象及其評(píng)價(jià)詞語,這一現(xiàn)象對(duì)本發(fā)明使用基于詞語依存關(guān)系的主題特征和情感特征抽取的思路提供了有力的支持。 在本發(fā)明中,觀點(diǎn)的兩個(gè)最基本要素主題特征和情感特征通常對(duì)應(yīng)了句子中的評(píng)價(jià)對(duì)象和評(píng)價(jià)詞語。鑒于此,本發(fā)明將搭配〈評(píng)價(jià)對(duì)象,情感因素〉稱為情感評(píng)價(jià)單元。本發(fā)明將情感評(píng)價(jià)單元的結(jié)構(gòu)定義如下0pinionUnit =〈Topic, SentiGram〉其中,Topic為句子中的評(píng)價(jià)對(duì)象,SentiGram為修飾評(píng)價(jià)對(duì)象的情感因素,其中包含了對(duì)主題進(jìn)行修飾的評(píng)價(jià)詞語(sentiword)和影響主題傾向性的上下文因素。對(duì)于情感評(píng)價(jià)單元的識(shí)別主要包括對(duì)于評(píng)價(jià)對(duì)象(Topic)和評(píng)價(jià)詞語(sentiword)的抽取。通過情感詞典可以獲取主觀句中的評(píng)價(jià)詞語。為了找到與這些評(píng)價(jià)詞語相搭配的評(píng)價(jià)對(duì)象,發(fā)明采用了一種基于詞語依存關(guān)系路徑匹配的算法。本發(fā)明首先通過句法解析得到詞語依存關(guān)系集合,并找出主觀句中包含的候選評(píng)價(jià)對(duì)象,并以此來匹配詞語依存關(guān)系庫中的詞語依存鏈,找出候選情感特征?;谠~語依存關(guān)系鏈的匹配算法抽取情感評(píng)價(jià)單元具體步驟如下I)通過句法解析,得到主觀句的句法成分和詞語依存關(guān)系集合;2)選取句中的名詞性短語(NP)作為候選評(píng)價(jià)對(duì)象;3)計(jì)算候選評(píng)價(jià)對(duì)象與句中形容詞短語(ADJP)、副詞短語(ADVP)以及動(dòng)詞短語(VP)的最短路徑作為候選詞語依存關(guān)系路徑;4)將候選的詞語依存關(guān)系路徑與詞語依存關(guān)系庫中的標(biāo)準(zhǔn)詞語依存關(guān)系路徑進(jìn)行匹配,匹配優(yōu)先級(jí)高的詞語依存路徑鏈所連接的兩個(gè)詞語作為最終的評(píng)價(jià)對(duì)象和情感特征。最后,介紹通過評(píng)價(jià)對(duì)象和情感特征之間的詞語依存關(guān)系判斷觀點(diǎn)極性。在實(shí)際語言應(yīng)用中,具有情感傾向性的詞語往往還會(huì)有一些副詞的修飾成分,如“不”、“很”、“有點(diǎn)兒”等。這種修飾成分大致可分為兩類,一種是否定修飾,這類詞語對(duì)原評(píng)價(jià)詞詞的傾向性起著置反的作用;另一種是程度修飾,它們對(duì)原詞的傾向性有著強(qiáng)調(diào)或者弱化的作用。這類詞往往對(duì)情感特征有著不可忽視的影響,為了充分考慮這些信息對(duì)主題傾向性的影響,本發(fā)明將情感特征表示為如下的三元組
SentiGram =〈sentiword, neg, mod ifier>其中,如上三元組包含了評(píng)價(jià)詞語(word),否定修飾(neg)和程度修飾(modifier)。表I和表2為本發(fā)明在知網(wǎng)基礎(chǔ)上總結(jié)出的常用程度修飾詞語
權(quán)利要求
1.一種基于詞語依存關(guān)系的觀點(diǎn)抽取方法,其特征在于包括如下步驟 采集詞語依存關(guān)系路徑并構(gòu)建詞語依存關(guān)系庫; 采用基于詞語依存關(guān)系鏈的匹配算法抽取評(píng)價(jià)對(duì)象和情感特征; 通過評(píng)價(jià)對(duì)象和情感特征之間的詞語依存關(guān)系判斷觀點(diǎn)極性。
2.如權(quán)利要求I所述的觀點(diǎn)抽取方法,其特征在于 所述構(gòu)建詞語依存關(guān)系庫的步驟包括 1)對(duì)于語料庫中的文本進(jìn)行預(yù)處理,獲得詞語及其詞性; 2)將處理后的文本以標(biāo)點(diǎn)符號(hào)劃分為不同的分句; 3)對(duì)每個(gè)分句進(jìn)行句法解析,分析句法結(jié)構(gòu),獲得句子成分; 4)根據(jù)句子中標(biāo)注的句子成分,以存在于情感詞詞典中的詞語作為候選評(píng)價(jià)詞語、名詞性短語中的名詞或代詞作為候選評(píng)價(jià)對(duì)象,計(jì)算候選評(píng)價(jià)詞語與候選評(píng)價(jià)對(duì)象的最短路徑; 5)重復(fù)步驟3)至4),對(duì)訓(xùn)練集合中的所有分句進(jìn)行處理,并對(duì)所獲得的詞語依存關(guān)系路徑進(jìn)行統(tǒng)計(jì),將出現(xiàn)較多的詞語依存關(guān)系路徑加入到詞語依存關(guān)系庫中。
3.如權(quán)利要求2所述的觀點(diǎn)抽取方法,其特征在于 所述對(duì)評(píng)論文本進(jìn)行預(yù)處理是使用I CTCLAS詞法分析器對(duì)文本進(jìn)行預(yù)處理。
4.如權(quán)利要求2所述的觀點(diǎn)抽取方法,其特征在于 所述分析句法關(guān)系是使用Stanford Parser分析器對(duì)語料進(jìn)行句法解析。
5.如權(quán)利要求2所述的觀點(diǎn)抽取方法,其特征在于 所述候選評(píng)價(jià)詞語與候選評(píng)價(jià)對(duì)象的最短路徑由評(píng)價(jià)詞語和評(píng)價(jià)對(duì)象之間的詞語依存關(guān)系路徑構(gòu)成。
6.如權(quán)利要求I所述的觀點(diǎn)抽取方法,其特征在于 所述采用基于詞語依存關(guān)系鏈的匹配算法抽取評(píng)價(jià)對(duì)象和情感特征的步驟包括 a.通過句法解析,得到主觀句的句法成分和詞語依存關(guān)系集合; b.選取句中的名詞性短語作為候選評(píng)價(jià)對(duì)象; c.計(jì)算候選評(píng)價(jià)對(duì)象與句中形容詞短語、副詞短語以及動(dòng)詞短語的最短路徑作為候選詞語依存關(guān)系路徑; d.將候選的詞語依存關(guān)系路徑與詞語依存關(guān)系庫中的標(biāo)準(zhǔn)詞語依存關(guān)系路徑進(jìn)行匹配,匹配優(yōu)先級(jí)高的詞語依存路徑鏈所連接的兩個(gè)詞語作為最終的評(píng)價(jià)對(duì)象和情感特征。
7.如權(quán)利要求I所述的觀點(diǎn)抽取方法,其特征在于 所述通過評(píng)價(jià)對(duì)象和情感特征之間的詞語依存關(guān)系判斷觀點(diǎn)極性的步驟包括 (1)采用基于通用知識(shí)網(wǎng)絡(luò)的詞語傾向性預(yù)測(cè)方法計(jì)算評(píng)價(jià)詞語的語義傾向性; (2)若詞語的語義傾向性不為中性,采用如下式對(duì)觀點(diǎn)的情感特征進(jìn)行量化 PolarUy{ ^ord ) mod ifier = NI JLL Po kirity{Sei 11 i(ka 隱、=< Polari(y( word) * 1.4 mod ifier :強(qiáng)化 >Pokmfyi )-0.7 mod ifier = JjJj it (3)根據(jù)是否存在否定副詞,采用如下式對(duì)觀點(diǎn)的情感特征量化
8.如權(quán)利要求7所述的觀點(diǎn)抽取方法,其特征在于 所述基于通用知識(shí)網(wǎng)絡(luò)的詞語傾向性預(yù)測(cè)方法包括 a.判斷未知詞語是否存在于情感詞詞典中,如果存在則返回所述未知詞語的極性,如果不存在,則進(jìn)入步驟b ; b.選取褒義基準(zhǔn)詞集和貶義詞基準(zhǔn)詞集; c.計(jì)算所述未知詞語與所述褒義詞集之間的緊密程度; d.計(jì)算所述未知詞語與所述貶義詞集之間的緊密程度; e.計(jì)算所述未知詞語與所述褒義詞集間的緊密程度和所述未知詞語與所述貶義基準(zhǔn)詞集間的緊密程度的差值; f.根據(jù)步驟e所得到的差值,通過選取閾值空間判斷所述未知詞語的極性。
全文摘要
本發(fā)明公開了一種基于詞語依存關(guān)系的觀點(diǎn)抽取方法,包括如下步驟采集詞語依存關(guān)系路徑并構(gòu)建詞語依存關(guān)系庫;采用基于詞語依存關(guān)系鏈的匹配算法抽取評(píng)價(jià)對(duì)象和情感特征;通過評(píng)價(jià)對(duì)象和情感特征之間的詞語依存關(guān)系判斷觀點(diǎn)極性。該方法能夠在不同領(lǐng)域中抽取觀點(diǎn),并且能夠?qū)崿F(xiàn)較高的觀點(diǎn)抽取準(zhǔn)確率。
文檔編號(hào)G06F17/27GK102866989SQ20121031718
公開日2013年1月9日 申請(qǐng)日期2012年8月30日 優(yōu)先權(quán)日2012年8月30日
發(fā)明者劉瑞, 安翼, 陳君龍, 宋浪 申請(qǐng)人:北京航空航天大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1