本發(fā)明涉及意見(jiàn)挖掘領(lǐng)域,具體涉及一種改進(jìn)的基于雙向傳播的評(píng)價(jià)對(duì)象識(shí)別方法。
背景技術(shù):
互聯(lián)網(wǎng)已逐步滲透到社會(huì)生活的方方面面,伴隨著移動(dòng)互聯(lián)網(wǎng)的興起,其滲透方式變得更加多樣化,內(nèi)容也更為豐富。譬如,目前廣受關(guān)注的社交平臺(tái)、電子商務(wù)、在線支付、互聯(lián)網(wǎng)金融、博客、bbs等早已通過(guò)不同的形式以互聯(lián)網(wǎng)為載體向廣大用戶提供產(chǎn)品和服務(wù)。與此同時(shí),普通用戶不再僅僅單方面地接受產(chǎn)品或服務(wù),其自身的互聯(lián)網(wǎng)參與度也在不斷提升。其中,用戶在購(gòu)物或獲得服務(wù)之后,針對(duì)產(chǎn)品或服務(wù)進(jìn)行在線評(píng)論的行為表現(xiàn)得尤為突出。用戶對(duì)于產(chǎn)品或服務(wù)的評(píng)論信息反映了其對(duì)產(chǎn)品質(zhì)量或服務(wù)水平的意見(jiàn)和態(tài)度。這些評(píng)論信息無(wú)論對(duì)于消費(fèi)者本身還是商家,都具有重要的意義:對(duì)于消費(fèi)者,他們可以通過(guò)其他消費(fèi)者的評(píng)論信息客觀地得到產(chǎn)品的各維度信息,而商家可以根據(jù)客戶反饋的評(píng)論信息改進(jìn)產(chǎn)品或制定銷售策略。
用戶評(píng)論信息具有數(shù)量龐大和標(biāo)準(zhǔn)不一的特點(diǎn),所以僅僅依靠傳統(tǒng)的人工審閱方法則需要耗費(fèi)大量的人力和時(shí)間,此時(shí)就需要借助機(jī)器來(lái)幫助人類處理這些龐大的用戶評(píng)論信息,快速地整理成人類可理解的結(jié)構(gòu)化信息,這也是意見(jiàn)挖掘技術(shù)的目的。
意見(jiàn)挖掘技術(shù)主要以自然語(yǔ)言處理、信息識(shí)別和抽取、數(shù)據(jù)挖掘等為手段,從大量的文本信息中識(shí)別和抽取出有價(jià)值的觀點(diǎn)信息。其中一個(gè)重要的任務(wù)就是評(píng)價(jià)對(duì)象的抽取。目前的評(píng)價(jià)對(duì)象抽取方法還缺乏一種高準(zhǔn)確率和高召回率的方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對(duì)上述現(xiàn)有技術(shù)的不足,提供了一種改進(jìn)的基于雙向傳播的評(píng)價(jià)對(duì)象識(shí)別方法,能夠有效地從評(píng)價(jià)語(yǔ)料中提取出評(píng)價(jià)對(duì)象。
本發(fā)明的目的可以通過(guò)如下技術(shù)方案實(shí)現(xiàn):
一種改進(jìn)的基于雙向傳播的評(píng)價(jià)對(duì)象識(shí)別方法,所述方法包括以下步驟:
s1、獲取一類產(chǎn)品的大量評(píng)論語(yǔ)料;
s2、使用依存句法工具對(duì)每條評(píng)論語(yǔ)料進(jìn)行依存句法分析,并提取所有特定的依存關(guān)系對(duì)<word_object,word_sentiment>;
s3、利用種子情感詞典,使用評(píng)價(jià)要素迭代識(shí)別算法對(duì)步驟s2提取的依存關(guān)系對(duì)<word_object,word_sentiment>進(jìn)行迭代識(shí)別,直到收斂,得到候選評(píng)價(jià)對(duì)象集合co和候選評(píng)價(jià)詞集合cs;
s4、從候選評(píng)價(jià)對(duì)象集合co中提取詞頻大于閾值λ1的詞語(yǔ)作為準(zhǔn)確評(píng)價(jià)對(duì)象,從候選評(píng)價(jià)詞集合cs中提取詞頻大于閾值λ1的詞語(yǔ)作為準(zhǔn)確評(píng)價(jià)詞,其中所述詞頻為候選評(píng)價(jià)對(duì)象或候選評(píng)價(jià)詞在依存關(guān)系對(duì)<word_object,word_sentiment>中出現(xiàn)的次數(shù);
s5、利用word2vec、關(guān)聯(lián)規(guī)則和pmi-ir對(duì)步驟s4中剩余的候選評(píng)價(jià)對(duì)象進(jìn)行抽取,得到最后的準(zhǔn)確評(píng)價(jià)對(duì)象集合o。
進(jìn)一步地,步驟s1中,所述一類產(chǎn)品是指電子商務(wù)和虛擬產(chǎn)品網(wǎng)站上的產(chǎn)品,步驟s2中,所述依存句法工具為中文處理工具ltp,步驟s3中,所述種子情感詞典為正負(fù)評(píng)價(jià)詞典。
進(jìn)一步地,步驟s2中,所述特定的依存關(guān)系對(duì)是滿足sbv、vob、att和cmp四種句法關(guān)系的依賴詞對(duì)<word_object,word_sentiment>。
進(jìn)一步地,所述步驟s3的具體過(guò)程為:
步驟s31、初始化候選評(píng)價(jià)對(duì)象集合co為空,候選評(píng)價(jià)詞集合cs為空;
步驟s32、將依存關(guān)系對(duì)<word_object,word_sentiment>中屬于種子情感詞典中的詞語(yǔ)word_sentiment加入到候選評(píng)價(jià)詞集合cs中;
步驟s33、將候選評(píng)價(jià)詞集合cs中的詞語(yǔ)對(duì)應(yīng)的且屬于名詞的word_object加入到候選評(píng)價(jià)對(duì)象集合co中;
步驟s34、將候選評(píng)價(jià)對(duì)象集合co中的詞語(yǔ)對(duì)應(yīng)的且屬于形容詞的word_sentiment加入到候選評(píng)價(jià)詞集合cs中;
步驟s35、重復(fù)步驟s33和步驟s34,直到候選評(píng)價(jià)對(duì)象集合co和候選評(píng)價(jià)詞集合cs不再改變。
進(jìn)一步地,步驟s4中,所述閾值λ1的取值范圍為:λ1∈n,此處取λ1=10。
進(jìn)一步地,所述步驟s5的具體過(guò)程為:
步驟s51、對(duì)步驟s1獲得的大量評(píng)論語(yǔ)料使用開(kāi)源word2vec工具進(jìn)行word2vec訓(xùn)練,得到每個(gè)詞語(yǔ)的詞向量,詞向量的形式為[wi1,wi2,…wik…,wim],其中wik為第i個(gè)詞語(yǔ)的詞向量第k維的值,m為詞向量的維數(shù);
步驟s52、遍歷步驟s4中剩余的候選評(píng)價(jià)對(duì)象,基于步驟s51訓(xùn)練得到的詞向量,將與準(zhǔn)確評(píng)價(jià)對(duì)象的詞向量相似度大于閾值λ2的評(píng)價(jià)對(duì)象加入到準(zhǔn)確評(píng)價(jià)對(duì)象集合o中;
步驟s53、基于步驟s2得到的依存關(guān)系對(duì)<word_object,word_sentiment>對(duì)步驟s4中剩余的候選評(píng)價(jià)對(duì)象和步驟s52得到的準(zhǔn)確評(píng)價(jià)對(duì)象集合o進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn),得到關(guān)聯(lián)規(guī)則<object,sentiment>集合,將其中的object加入到準(zhǔn)確評(píng)價(jià)對(duì)象集合o中;
步驟s54、利用搜索引擎對(duì)包含低頻候選對(duì)象和準(zhǔn)確評(píng)價(jià)詞的依存關(guān)系對(duì)計(jì)算pmi-ir值,將pmi-ir值大于閾值λ3的依存關(guān)系對(duì)<word_object,word_sentiment>中的評(píng)價(jià)對(duì)象加入到準(zhǔn)確評(píng)價(jià)對(duì)象集合o中。
進(jìn)一步地,步驟s52中,所述詞向量相似度計(jì)算公式為:
其中,vi表示第i個(gè)詞語(yǔ)的詞向量,vj表示第j個(gè)詞語(yǔ)的詞向量,wik表示第i個(gè)詞語(yǔ)的詞向量第k維的值,wjk表示第j個(gè)詞語(yǔ)的詞向量第k維的值,m為詞向量的維數(shù)。
進(jìn)一步地,步驟s52中,所述閾值λ2的取值范圍為:λ2∈(0,1],此處取λ2=0.7。
進(jìn)一步地,步驟s54中,所述pmi-ir的公式為:
其中,hit(x)為搜索詞x在搜索引擎中的命中數(shù),ε為常數(shù)項(xiàng)。
進(jìn)一步地,步驟s54中,所述閾值λ3的取值范圍為:λ3∈(-∞,0],此處取λ3=-6。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
1、本發(fā)明采用了基于雙向傳播的評(píng)價(jià)對(duì)象識(shí)別的技術(shù)方案,具體通過(guò)依存句法處理中文評(píng)論文本,充分挖掘文本中詞與詞之間的依存關(guān)系,從情感詞出發(fā),對(duì)評(píng)價(jià)對(duì)象和評(píng)價(jià)詞進(jìn)行迭代識(shí)別的手段,從而達(dá)到了提高評(píng)價(jià)對(duì)象識(shí)別準(zhǔn)確率和召回率的效果。
2、本發(fā)明采用了基于詞向量的評(píng)價(jià)對(duì)象推薦的技術(shù)方案,該方案用經(jīng)過(guò)大規(guī)模語(yǔ)料訓(xùn)練得到的詞向量來(lái)度量待評(píng)估的評(píng)價(jià)對(duì)象與準(zhǔn)確評(píng)價(jià)對(duì)象之間的相似度,并推薦相似度大的評(píng)價(jià)對(duì)象,從而達(dá)到了從語(yǔ)義相似度方面提升評(píng)價(jià)對(duì)象識(shí)別準(zhǔn)確率和召回率的效果。
3、本發(fā)明采用了基于關(guān)聯(lián)規(guī)則的評(píng)價(jià)對(duì)象推薦的技術(shù)方案,該方案具體通過(guò)推薦與準(zhǔn)確評(píng)價(jià)詞具有強(qiáng)關(guān)聯(lián)性的待評(píng)估的評(píng)價(jià)對(duì)象的手段,從而達(dá)到了提高評(píng)價(jià)對(duì)象識(shí)別召回率的效果。
4、本發(fā)明采用了基于搜索引擎pmi-ir信息的評(píng)價(jià)對(duì)象推薦的技術(shù)方案,該方案具體通過(guò)推薦與準(zhǔn)確評(píng)價(jià)詞的pmi-ir值高的待評(píng)估的評(píng)價(jià)對(duì)象的手段,從而達(dá)到了提高評(píng)價(jià)對(duì)象識(shí)別召回率的效果。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例的整體流程圖。
圖2為本發(fā)明實(shí)施例的評(píng)價(jià)要素迭代識(shí)別算法流程圖。
圖3為本發(fā)明實(shí)施例利用word2vec、關(guān)聯(lián)規(guī)則和pmi-ir進(jìn)行評(píng)價(jià)對(duì)象推薦的流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例:
本實(shí)施例提供了一種改進(jìn)的基于雙向傳播的評(píng)價(jià)對(duì)象識(shí)別方法,所述方法的流程圖如圖1所示,包括以下步驟:
s1、獲取一類產(chǎn)品的大量評(píng)論語(yǔ)料;
s2、使用依存句法工具對(duì)每條評(píng)論語(yǔ)料進(jìn)行依存句法分析,并提取所有特定的依存關(guān)系對(duì)<word_object,word_sentiment>;
s3、利用種子情感詞典,使用評(píng)價(jià)要素迭代識(shí)別算法對(duì)步驟s2提取的依存關(guān)系對(duì)<word_object,word_sentiment>進(jìn)行迭代識(shí)別,直到收斂,得到候選評(píng)價(jià)對(duì)象集合co和候選評(píng)價(jià)詞集合cs;
s4、從候選評(píng)價(jià)對(duì)象集合co中提取詞頻大于閾值λ1的詞語(yǔ)作為準(zhǔn)確評(píng)價(jià)對(duì)象,從候選評(píng)價(jià)詞集合cs中提取詞頻大于閾值λ1的詞語(yǔ)作為準(zhǔn)確評(píng)價(jià)詞,閾值λ1∈n,此處取λ1=10,其中所述詞頻為候選評(píng)價(jià)對(duì)象或候選評(píng)價(jià)詞在依存關(guān)系對(duì)<word_object,word_sentiment>中出現(xiàn)的次數(shù);
s5、利用word2vec、關(guān)聯(lián)規(guī)則和pmi-ir對(duì)步驟s4中剩余的候選評(píng)價(jià)對(duì)象進(jìn)行抽取,得到最后的準(zhǔn)確評(píng)價(jià)對(duì)象集合o。
上述方法通過(guò)對(duì)一類產(chǎn)品的所有評(píng)論逐條進(jìn)行依存句法分析,并從中抽取特定關(guān)系的詞對(duì)列表;再利用少量情感詞典作為種子,在詞對(duì)列表中進(jìn)行評(píng)價(jià)要素的迭代識(shí)別,得到粗糙的候選評(píng)價(jià)對(duì)象集合和評(píng)價(jià)詞集合;再利用高準(zhǔn)確率的規(guī)則從候選評(píng)價(jià)對(duì)象集合中抽取準(zhǔn)確的評(píng)價(jià)對(duì)象;根據(jù)準(zhǔn)確的評(píng)價(jià)對(duì)象,利用基于詞向量的相似度計(jì)算、pmi和關(guān)聯(lián)規(guī)則對(duì)剩余的評(píng)價(jià)對(duì)象進(jìn)行提取,最后得到完整的評(píng)價(jià)對(duì)象集合。
其中,所述步驟s3的流程圖如圖2所示,具體過(guò)程為:
步驟s31、初始化候選評(píng)價(jià)對(duì)象集合co為空,候選評(píng)價(jià)詞集合cs為空;
步驟s32、將依存關(guān)系對(duì)<word_object,word_sentiment>中屬于種子情感詞典中的詞語(yǔ)word_sentiment加入到候選評(píng)價(jià)詞集合cs中;
步驟s33、將候選評(píng)價(jià)詞集合cs中的詞語(yǔ)對(duì)應(yīng)的且屬于名詞的word_object加入到候選評(píng)價(jià)對(duì)象集合co中;
步驟s34、將候選評(píng)價(jià)對(duì)象集合co中的詞語(yǔ)對(duì)應(yīng)的且屬于形容詞的word_sentiment加入到候選評(píng)價(jià)詞集合cs中;
步驟s35、重復(fù)步驟s33和步驟s34,直到候選評(píng)價(jià)對(duì)象集合co和候選評(píng)價(jià)詞集合cs不再改變。
其中,所述步驟s5的流程圖如圖3所示,具體過(guò)程為:
步驟s51、對(duì)步驟s1獲得的大量評(píng)論語(yǔ)料使用開(kāi)源word2vec工具進(jìn)行word2vec訓(xùn)練,得到每個(gè)詞語(yǔ)的詞向量,詞向量的形式為[wi1,wi2,…wik…,wim],其中wik為第i個(gè)詞語(yǔ)的詞向量第k維的值,m為詞向量的維數(shù);
步驟s52、遍歷步驟s4中剩余的候選評(píng)價(jià)對(duì)象,基于步驟s51訓(xùn)練得到的詞向量,將與準(zhǔn)確評(píng)價(jià)對(duì)象的詞向量相似度大于閾值λ2的評(píng)價(jià)對(duì)象加入到準(zhǔn)確評(píng)價(jià)對(duì)象集合o中,閾值λ2的取值范圍為:λ2∈(0,1],此處取λ2=0.7,其中所述詞向量相似度計(jì)算公式為:
其中,vi表示第i個(gè)詞語(yǔ)的詞向量,vj表示第j個(gè)詞語(yǔ)的詞向量,wik表示第i個(gè)詞語(yǔ)的詞向量第k維的值,wjk表示第j個(gè)詞語(yǔ)的詞向量第k維的值,m為詞向量的維數(shù)。;
步驟s53、基于步驟s2得到的依存關(guān)系對(duì)<word_object,word_sentiment>對(duì)步驟s4中剩余的候選評(píng)價(jià)對(duì)象和步驟s52得到的準(zhǔn)確評(píng)價(jià)對(duì)象集合o進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn),得到關(guān)聯(lián)規(guī)則<object,sentiment>集合,將其中的object加入到準(zhǔn)確評(píng)價(jià)對(duì)象集合o中;
步驟s54、利用搜索引擎對(duì)包含低頻候選對(duì)象和準(zhǔn)確評(píng)價(jià)詞的依存關(guān)系對(duì)計(jì)算pmi-ir值,將pmi-ir值大于閾值λ3的依存關(guān)系對(duì)<word_object,word_sentiment〉中的評(píng)價(jià)對(duì)象加入到準(zhǔn)確評(píng)價(jià)對(duì)象集合o中,所述閾值λ3的取值范圍為:λ3∈(-∞,0],此處取λ3=-6,所述pmi-ir的公式為:
其中,hit(x)為搜索詞x在搜索引擎中的命中數(shù),ε為常數(shù)項(xiàng)。
以上所述,僅為本發(fā)明專利較佳的實(shí)施例,但本發(fā)明專利的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明專利所公開(kāi)的范圍內(nèi),根據(jù)本發(fā)明專利的技術(shù)方案及其發(fā)明專利構(gòu)思加以等同替換或改變,都屬于本發(fā)明專利的保護(hù)范圍。