本發(fā)明涉及情感分析領(lǐng)域,特別是涉及一種酒店情感詞典的建立方法、評(píng)論的情感分析方法及系統(tǒng)。
背景技術(shù):
隨著電子商務(wù)的快速發(fā)展,越來(lái)越多的人選擇在網(wǎng)絡(luò)上預(yù)訂酒店,并對(duì)酒店入住體驗(yàn)進(jìn)行在線評(píng)論。然而,酒店評(píng)論信息量龐大冗雜,對(duì)于消費(fèi)者和商家查找有用的信息帶來(lái)了極大的困難。如何方便快捷地挖掘出評(píng)論中有價(jià)值的信息逐漸成為研究熱點(diǎn)。情感分析能從評(píng)論中獲取用戶(hù)的喜怒哀樂(lè),從而辨識(shí)用戶(hù)對(duì)酒店的喜好程度。
傳統(tǒng)的情感分析主要采用兩類(lèi)方法,基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法?;谄?、句子級(jí)別的粗粒度情感分析只能了解某些評(píng)論整體是正面還是負(fù)面的。然而,一條評(píng)論往往既有正面信息又有負(fù)面信息,因此,提取某方面的特征后再分類(lèi)分析更能準(zhǔn)確地得出用戶(hù)的喜好,以便了解用戶(hù)對(duì)酒店各個(gè)特性屬性的需求。
技術(shù)實(shí)現(xiàn)要素:
鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種酒店情感詞典的建立方法、評(píng)論的情感分析方法及系統(tǒng),用于解決現(xiàn)有技術(shù)中沒(méi)有酒店專(zhuān)用情感詞典,以及沒(méi)用針對(duì)酒店特征分類(lèi)進(jìn)行情感分析等問(wèn)題。
為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種酒店領(lǐng)域?qū)S们楦性~典的建立方法,所述酒店領(lǐng)域?qū)S们楦性~典包括:酒店定制情感詞典、網(wǎng)絡(luò)術(shù)語(yǔ)情感詞典、否定詞詞典、和程度副詞詞典,其中,所述方法包括:建立所述酒店定制情感詞典,包括:抓取消費(fèi)者對(duì)于酒店的網(wǎng)絡(luò)評(píng)論;從所述網(wǎng)絡(luò)評(píng)論中提取形容詞、和/或副詞作為候選詞;保留預(yù)設(shè)基礎(chǔ)情感詞典中未收錄的各所述候選詞;從保留的候選詞中選擇至少一個(gè)正面候選詞構(gòu)成正面基準(zhǔn)詞集合、和至少一個(gè)負(fù)面候選詞構(gòu)成負(fù)面基準(zhǔn)詞集合;根據(jù)所述正面基準(zhǔn)詞集合和所述負(fù)面基準(zhǔn)詞集合,通過(guò)點(diǎn)互信息法確定各所述候選詞的定制正、負(fù)面極性后加以存儲(chǔ)。建立所述網(wǎng)絡(luò)術(shù)語(yǔ)情感詞典,包括:采集所述預(yù)設(shè)基礎(chǔ)情感詞典中未收錄且用于表示情感的正面網(wǎng)絡(luò)流行詞語(yǔ)、和負(fù)面網(wǎng)絡(luò)流行詞語(yǔ),并加以存儲(chǔ)。建立所述否定詞詞典,包括:收集各否定詞,并加以存儲(chǔ)。建立所述程度副詞詞典,包括:收集各程度副詞,并加以存儲(chǔ)。
于本發(fā)明一實(shí)施例中,所述預(yù)設(shè)基礎(chǔ)情感詞典包括:基礎(chǔ)正面情感詞典、和基礎(chǔ)負(fù)面情 感詞典。
于本發(fā)明一實(shí)施例中,分別設(shè)置所述酒店領(lǐng)域?qū)S们楦性~典中相關(guān)正面詞語(yǔ)的第一強(qiáng)度值;相關(guān)負(fù)面詞語(yǔ)、及所述否定詞的第二強(qiáng)度值;以及各所述程度副詞的各第三強(qiáng)度值,并加以存儲(chǔ)。
為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種酒店評(píng)論的細(xì)粒度情感分析方法,包括:抓取消費(fèi)者對(duì)于酒店的評(píng)論數(shù)據(jù);從所述評(píng)論數(shù)據(jù)的評(píng)論內(nèi)容中提取關(guān)于酒店評(píng)價(jià)項(xiàng)目的特征詞語(yǔ),其中,所述特征詞語(yǔ)包括:名詞、或名詞詞組;從所述評(píng)論內(nèi)容中識(shí)別出含有所述特征詞語(yǔ)的單句作為觀點(diǎn)句;從所述觀點(diǎn)句中提取形容詞、和/或副詞與所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法中建立的酒店領(lǐng)域?qū)S们楦性~典中的詞語(yǔ)匹配并返回相應(yīng)的強(qiáng)度值,據(jù)以計(jì)算各所述觀點(diǎn)句的情感分;根據(jù)各所述觀點(diǎn)句的情感分計(jì)算所述評(píng)論內(nèi)容的情感分。
于本發(fā)明一實(shí)施例中,所述從所述評(píng)論數(shù)據(jù)的評(píng)論內(nèi)容中提取關(guān)于酒店評(píng)價(jià)項(xiàng)目的特征詞語(yǔ)之前,還包括文本預(yù)處理方法:將所述評(píng)論內(nèi)容分成各個(gè)單句;將所述各個(gè)單句分成各個(gè)詞語(yǔ);標(biāo)記所述各個(gè)詞語(yǔ)的詞性;排除停用的詞語(yǔ)。
于本發(fā)明一實(shí)施例中,還包括:檢測(cè)所述各個(gè)單句中是否存在重復(fù)次數(shù)大于預(yù)設(shè)重復(fù)閾值的特征詞語(yǔ);若是,則分別構(gòu)建重復(fù)的特征詞語(yǔ)的集合作為各候選特征集;通過(guò)apriori算法從各所述候選特征集中產(chǎn)生各頻繁特征集,并以各所述頻繁特征集中詞語(yǔ)的特征作為各標(biāo)識(shí)詞語(yǔ);從所述評(píng)論內(nèi)容中識(shí)別出含有各所述標(biāo)識(shí)詞語(yǔ)的單句作為各觀點(diǎn)句;從各所述觀點(diǎn)句中提取形容詞、和/或副詞與權(quán)利要求3所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法中建立的酒店領(lǐng)域?qū)S们楦性~典中的詞語(yǔ)匹配并返回相應(yīng)的強(qiáng)度值,據(jù)以計(jì)算各所述觀點(diǎn)句的情感分;根據(jù)各所述觀點(diǎn)句的情感分計(jì)算所述評(píng)論內(nèi)容的情感分。
于本發(fā)明一實(shí)施例中,還包括:從所述評(píng)論數(shù)據(jù)中獲取消費(fèi)者的類(lèi)型;按照各所述類(lèi)型對(duì)各所述評(píng)論數(shù)據(jù)分類(lèi);計(jì)算得到各所述類(lèi)型的相應(yīng)評(píng)論內(nèi)容的情感分。
于本發(fā)明一實(shí)施例中,所述根據(jù)各所述觀點(diǎn)句的情感分計(jì)算所述評(píng)論內(nèi)容的情感分包括以下計(jì)算方式中的一種或多種:1)分別計(jì)算各所述評(píng)論內(nèi)容的正面情感分、和負(fù)面情感分,其中,所述正面情感分為所述評(píng)論內(nèi)容的正面情感分的總和;所述負(fù)面情感分為所述評(píng)論內(nèi)容的負(fù)面情感分的總和。2)分別計(jì)算各所述評(píng)論內(nèi)容的正面平均情感分、和負(fù)面平均情感分,其中,所述正面平均情感分為所述評(píng)論內(nèi)容的正面情感分與所述評(píng)論內(nèi)容包含的單句個(gè)數(shù)的比值;所述負(fù)面平均情感分為所述評(píng)論內(nèi)容的負(fù)面情感分與所述評(píng)論內(nèi)容包含的單句個(gè)數(shù)的比值。3)分別計(jì)算各所述評(píng)論內(nèi)容的正面方差情感分、和負(fù)面方差情感分,其中,所述正面 方差情感分為各正面情感分與各正面平均情感分之差的平方和與所述評(píng)論內(nèi)容包含的單句個(gè)數(shù)的比值;所述負(fù)面方差情感分為各負(fù)面情感分與各負(fù)面平均情感分之差的平方和與所述評(píng)論內(nèi)容包含的單句個(gè)數(shù)的比值。
于本發(fā)明一實(shí)施例中,還包括:選擇所述方式3)計(jì)算的正面方差情感分、和負(fù)面方差情感分作為情感分析的指標(biāo);若所述正面方差情感分、和負(fù)面方差情感分的分值相等,則選擇所述方式2)計(jì)算的正面平均情感分、和負(fù)面平均情感分作為情感分析的指標(biāo);若所述正面平均情感分、和負(fù)面平均情感分的分值相等,則選擇所述方式1)計(jì)算的正面情感分、和負(fù)面情感分作為情感分析的指標(biāo)。
為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種酒店評(píng)論的細(xì)粒度情感分析系統(tǒng),包括:獲取模塊、挖掘模塊、識(shí)別模塊和分析模塊。獲取模塊,用于抓取消費(fèi)者對(duì)于酒店的評(píng)論數(shù)據(jù);挖掘模塊,用于從所述評(píng)論數(shù)據(jù)的評(píng)論內(nèi)容中提取關(guān)于酒店評(píng)價(jià)項(xiàng)目的特征詞語(yǔ),其中,所述特征詞語(yǔ)包括:名詞、或名詞詞組;識(shí)別模塊,用于從所述評(píng)論內(nèi)容中識(shí)別出含有所述特征詞語(yǔ)的單句作為觀點(diǎn)句;分析模塊,用于從所述觀點(diǎn)句中提取形容詞、和/或副詞與權(quán)利要求3所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法中建立的酒店領(lǐng)域?qū)S们楦性~典中的詞語(yǔ)匹配并返回相應(yīng)的強(qiáng)度值,據(jù)以計(jì)算各所述觀點(diǎn)句的情感分;并根據(jù)各所述觀點(diǎn)句的情感分計(jì)算所述評(píng)論內(nèi)容的情感分。
如上所述,本發(fā)明的酒店情感詞典的建立方法、評(píng)論的情感分析方法及系統(tǒng),提出了有利于酒店網(wǎng)絡(luò)評(píng)論的情感分析的專(zhuān)用情感詞典,并通過(guò)提取酒店的特征后再分別計(jì)算情感分,克服了傳統(tǒng)酒店評(píng)論細(xì)粒度情感分析只能了解評(píng)論整體上是正面情感還是負(fù)面情感的不足,進(jìn)一步分析不同消費(fèi)者的不同喜好情感,對(duì)商家和消費(fèi)者都具有重要意義。
附圖說(shuō)明
圖1顯示為本發(fā)明一實(shí)施例的酒店領(lǐng)域?qū)S们楦性~典結(jié)構(gòu)示意圖。
圖2顯示為本發(fā)明一實(shí)施例的酒店定制情感詞典的建立方法流程圖。
圖3顯示為本發(fā)明一優(yōu)選實(shí)施例的酒店評(píng)論的細(xì)粒度情感分析方法流程圖。
圖4顯示為本發(fā)明一實(shí)施例的酒店頻繁特征集及對(duì)應(yīng)評(píng)論次數(shù)示意圖。
圖5顯示為本發(fā)明一實(shí)施例的十項(xiàng)頻繁特征集及相應(yīng)的好評(píng)數(shù)、差評(píng)數(shù)示意圖。
圖6a~6e顯示為本發(fā)明一實(shí)施例的針對(duì)不同類(lèi)型的消費(fèi)者的頻繁特征集及相應(yīng)的好評(píng)數(shù)、差評(píng)數(shù)示意圖。
圖7顯示為本發(fā)明一實(shí)施例的酒店評(píng)論的細(xì)粒度情感分析系統(tǒng)示意圖。
元件標(biāo)號(hào)說(shuō)明
1酒店評(píng)論的細(xì)粒度情感分析系統(tǒng)
11獲取模塊
12挖掘模塊
13識(shí)別模塊
14分析模塊
s201~s205步驟
s301~s305
具體實(shí)施方式
以下通過(guò)特定的具體實(shí)例說(shuō)明本發(fā)明的實(shí)施方式,本領(lǐng)域技術(shù)人員可由本說(shuō)明書(shū)所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點(diǎn)與功效。本發(fā)明還可以通過(guò)另外不同的具體實(shí)施方式加以實(shí)施或應(yīng)用,本說(shuō)明書(shū)中的各項(xiàng)細(xì)節(jié)也可以基于不同觀點(diǎn)與應(yīng)用,在沒(méi)有背離本發(fā)明的精神下進(jìn)行各種修飾或改變。需說(shuō)明的是,在不沖突的情況下,以下實(shí)施例及實(shí)施例中的特征可以相互組合。
需要說(shuō)明的是,以下實(shí)施例中所提供的圖示僅以示意方式說(shuō)明本發(fā)明的基本構(gòu)想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實(shí)際實(shí)施時(shí)的組件數(shù)目、形狀及尺寸繪制,其實(shí)際實(shí)施時(shí)各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復(fù)雜。
目前中文領(lǐng)域的情感分析已經(jīng)出現(xiàn)不少詞典資源,例如:知網(wǎng)(hownet)發(fā)布的《情感分析用詞語(yǔ)集(beta版)》、大連理工大學(xué)信息檢索研究室發(fā)布的《中文情感詞匯本體庫(kù)》以及臺(tái)灣大學(xué)整理發(fā)布的ntusd等。然而,并沒(méi)有一種酒店領(lǐng)域?qū)S们楦性~典,為酒店評(píng)論的情感分析做技術(shù)支持。眾所周知,中文詞語(yǔ)表達(dá)的含義在不同情境中可能不同,尤其是一些中性詞,在特殊的語(yǔ)境中可能會(huì)表現(xiàn)出褒義詞、或貶義詞的感情色彩,可見(jiàn),建立一種酒店領(lǐng)域?qū)S们楦性~典是非常必要的。請(qǐng)參閱圖1,本申請(qǐng)?zhí)岢龅木频觐I(lǐng)域?qū)S们楦性~典主要包括:酒店定制情感詞典、網(wǎng)絡(luò)術(shù)語(yǔ)情感詞典、否定詞詞典、和程度副詞詞典。
請(qǐng)參閱圖2,建立所述酒店定制情感詞典的方法,包括:
步驟s201:從某些酒店官網(wǎng)、酒店預(yù)訂網(wǎng)站或其他數(shù)據(jù)庫(kù)中抓取消費(fèi)者對(duì)于酒店的網(wǎng)絡(luò)評(píng)論。該評(píng)論可以是詞語(yǔ)、詞組、句子或者段落。
步驟s202:從所述網(wǎng)絡(luò)評(píng)論中提取形容詞、副詞作為候選詞。
步驟s203:保留預(yù)設(shè)基礎(chǔ)情感詞典中未收錄的各所述候選詞,也就是說(shuō),判斷各所述候 選詞與預(yù)設(shè)基礎(chǔ)情感詞典中的詞語(yǔ)是否匹配,并返回匹配結(jié)果;將匹配結(jié)果為否的各所述候選詞保留。其中,所述預(yù)設(shè)基礎(chǔ)情感詞典包括:基礎(chǔ)正面情感詞典、和基礎(chǔ)負(fù)面情感詞典。具體的,基礎(chǔ)正面情感詞典可以為:將hownet中的正面情感詞、評(píng)價(jià)詞和《中文情感詞匯本體庫(kù)》中極性為“1”的詞合并、去重,并去掉情感傾向不顯著的詞語(yǔ),從而組成基礎(chǔ)正面情感詞典;基礎(chǔ)負(fù)面情感詞典可以為:將hownet中的負(fù)面情感詞、評(píng)價(jià)詞和《中文情感詞匯本體庫(kù)》中極性為“2”的詞合并、去重,并去掉情感傾向不顯著的詞語(yǔ),從而組成基礎(chǔ)負(fù)面情感詞典。
步驟s204:從保留的候選詞中選擇至少一個(gè)正面候選詞構(gòu)成正面基準(zhǔn)詞集合、和至少一個(gè)負(fù)面候選詞構(gòu)成負(fù)面基準(zhǔn)詞集合。具體的,可按詞頻將保留的候選詞由多到少降序排列,從排名靠前的候選詞中,選取幾個(gè)形容詞和副詞分別定義為正面基準(zhǔn)詞、負(fù)面基準(zhǔn)詞。
步驟s205:根據(jù)所述正面基準(zhǔn)詞集合和所述負(fù)面基準(zhǔn)詞集合,通過(guò)點(diǎn)互信息法(pointwisemutualinformation,pmi)確定各所述候選詞的定制正、負(fù)面極性后加以存儲(chǔ)。其主要思想是:依據(jù)候選詞和基準(zhǔn)詞之間的點(diǎn)互信息來(lái)確立兩者的關(guān)聯(lián),從而判定候選詞的極性。具體為利用公式(1)分別計(jì)算候選詞與定制正面、負(fù)面基準(zhǔn)詞的點(diǎn)互信息之差,差值大于預(yù)設(shè)數(shù)值的為正面情感詞,反之為負(fù)面情感詞,優(yōu)選的,預(yù)設(shè)數(shù)值為0。
其中,公式(1)的word為候選詞,pword和nword分別是正面基準(zhǔn)詞和負(fù)面基準(zhǔn)詞,p_set和n_set分別是正面、負(fù)面基準(zhǔn)詞的集合,pmi(·)可以選擇如下公式(2)和(3)的組合,也可以選擇(4)和(5)的組合,等。
其中,公式(2)至(5)的p(x)代表x1出現(xiàn)的概率,p(x1,x2)代表x1和x2同時(shí)出現(xiàn)的概率,其詳細(xì)含義本領(lǐng)域技術(shù)人員可以獲知。
除此之外,建立所述網(wǎng)絡(luò)術(shù)語(yǔ)情感詞典,包括:采集所述預(yù)設(shè)基礎(chǔ)情感詞典中未收錄且用于表示情感的正面網(wǎng)絡(luò)流行詞語(yǔ)、和負(fù)面網(wǎng)絡(luò)流行詞語(yǔ),并加以存儲(chǔ)。需要說(shuō)明的是,網(wǎng) 絡(luò)術(shù)語(yǔ)情感詞典是互聯(lián)網(wǎng)中出現(xiàn)的風(fēng)靡一時(shí)的流行詞語(yǔ),這些詞語(yǔ)不能被傳統(tǒng)的基礎(chǔ)情感詞典正確識(shí)別,卻被廣泛使用。優(yōu)選的,本申請(qǐng)以搜狗互聯(lián)網(wǎng)詞庫(kù)(sogouw)的數(shù)據(jù)為基礎(chǔ)并人工添加一些近期廣泛使用的網(wǎng)絡(luò)情感詞匯來(lái)構(gòu)造所述網(wǎng)絡(luò)術(shù)語(yǔ)情感詞典。
再有,建立所述否定詞詞典,包括:收集各否定詞,并加以存儲(chǔ)。建立所述程度副詞詞典,包括:收集各程度副詞,并加以存儲(chǔ),優(yōu)選的,選用hownet收集的程度級(jí)別詞語(yǔ)。
在一實(shí)施例中,對(duì)所述酒店領(lǐng)域?qū)S们楦性~典中的各個(gè)詞語(yǔ)設(shè)置強(qiáng)度值。具體的,對(duì)定制正面詞語(yǔ)、正面網(wǎng)絡(luò)流行詞語(yǔ)設(shè)置第一強(qiáng)度值,優(yōu)選值為1;對(duì)定制負(fù)面詞語(yǔ)、負(fù)面網(wǎng)絡(luò)流行詞語(yǔ)及各否定詞設(shè)置第二強(qiáng)度值,優(yōu)選值為-1;按照各所述程度副詞不同程度級(jí)別的分類(lèi)分別設(shè)置各第三強(qiáng)度值,優(yōu)選為分成4類(lèi)。表1顯示了酒店領(lǐng)域?qū)S们楦性~典的樣例:
表1酒店領(lǐng)域情感詞典及強(qiáng)度值樣例
需要說(shuō)明的是,上述酒店定制情感詞典、網(wǎng)絡(luò)術(shù)語(yǔ)情感詞典、否定詞詞典、和程度副詞詞典的建立不分前后順序,可以同時(shí)進(jìn)行。
請(qǐng)參閱圖3,本發(fā)明提供利用所建立的酒店領(lǐng)域?qū)S们楦性~典進(jìn)行對(duì)酒店評(píng)論的細(xì)粒度情感分析的方法,包括如下步驟:
步驟s301:抓取消費(fèi)者對(duì)于酒店的評(píng)論數(shù)據(jù),其中,所述評(píng)論數(shù)據(jù)包括評(píng)論內(nèi)容、消費(fèi)者類(lèi)型等,例如:商務(wù)出差、情侶出游、家庭親子、朋友出游、獨(dú)自出行等。優(yōu)選的,抓取后將評(píng)論數(shù)據(jù)進(jìn)行文本預(yù)處理,例如:將所述評(píng)論內(nèi)容分成各個(gè)單句、將所述各個(gè)單句分成各個(gè)詞語(yǔ)、標(biāo)記所述各個(gè)詞語(yǔ)的詞性,如:名詞、形容詞、副詞,以及排除停用的詞語(yǔ)等。
步驟s302:從所述評(píng)論數(shù)據(jù)的評(píng)論內(nèi)容中提取關(guān)于酒店評(píng)價(jià)項(xiàng)目的特征詞語(yǔ),其中,所述特征詞語(yǔ)包括:名詞、名詞詞組,例如:“位置”、“安靜情況”等。特別的,當(dāng)所述各個(gè)單句中存在重復(fù)次數(shù)大于預(yù)設(shè)重復(fù)閾值,如,重復(fù)3次的特征詞語(yǔ),則將這些重復(fù)的特征詞語(yǔ)組建成集合作為候選特征集。利用apriori算法將各個(gè)候選特征集“由零化整”,從各所述候選特征集中產(chǎn)生各頻繁特征集。需要說(shuō)明的是,apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻 繁項(xiàng)集的算法,在該算法中,所有支持度大于最小支持度的項(xiàng)集稱(chēng)為頻繁項(xiàng)集,簡(jiǎn)稱(chēng)頻集,利用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),通過(guò)逐層搜索的迭代方法,即將k項(xiàng)集用于探察(k+1)項(xiàng)集,來(lái)窮盡數(shù)據(jù)集中的所有頻繁項(xiàng)集,具體的,先找到頻繁1項(xiàng)集集合l1,然后用l1找到頻繁2項(xiàng)集集合l2,接著用l2找l3,直到找不到頻繁k項(xiàng)集,找每個(gè)lk需要掃描一次數(shù)據(jù)庫(kù),優(yōu)選的,設(shè)置最小支持度為6%。隨后,以各所述頻繁特征集中詞語(yǔ)的特征作為各標(biāo)識(shí)詞語(yǔ),并統(tǒng)計(jì)每種頻繁特征集對(duì)應(yīng)的評(píng)論次數(shù),例如圖4所示,其中,橫坐標(biāo)為選出的各個(gè)頻繁特征集,標(biāo)識(shí)名稱(chēng)分別為:“位置”、“服務(wù)”、“房間”等,可以看出消費(fèi)者不僅對(duì)酒店的位置、服務(wù)、房間、交通等特征比較關(guān)注,還對(duì)該酒店提供的浴缸、衣帽間等特有服務(wù)也很感興趣。
步驟s303:從所述評(píng)論內(nèi)容中識(shí)別出含有所述特征詞語(yǔ)、或所述標(biāo)識(shí)詞語(yǔ)的單句作為觀點(diǎn)句,例如,評(píng)論內(nèi)容為“今天是星期一,我來(lái)到了某某酒店,位置不太方便”,則特征詞語(yǔ)為“位置”,觀點(diǎn)句為“位置不太方便”。
步驟s304:從所述觀點(diǎn)句中提取形容詞、副詞與所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法中建立的酒店領(lǐng)域?qū)S们楦性~典中的詞語(yǔ)匹配并返回相應(yīng)的強(qiáng)度值,據(jù)以計(jì)算各所述觀點(diǎn)句的情感分,例如,從觀點(diǎn)句“位置不太方便”中提取形容詞“方便”,副詞“不太”,查閱表1(僅作示例),得到形容詞“方便”的強(qiáng)度值為1,副詞“不太”的強(qiáng)度值為1。在一實(shí)施例中,計(jì)算觀點(diǎn)句的情感分是通過(guò)累加該句中各個(gè)情感詞的強(qiáng)度值得到的,即觀點(diǎn)句“位置不太方便”的情感分為2。
步驟s305:根據(jù)各所述觀點(diǎn)句的情感分計(jì)算所述評(píng)論內(nèi)容的情感分。在一實(shí)施例中,計(jì)算評(píng)論內(nèi)容的情感分是通過(guò)累加各個(gè)觀點(diǎn)句的情感分得到的。優(yōu)選的,采取以下計(jì)算方式中的一種或多種組合來(lái)計(jì)算:
1)將評(píng)論內(nèi)容切分為句子集s(s1,s2,…,sn),計(jì)算各si的正負(fù)面情感值{posi,negi},累加所有的單句的正負(fù)面情感值得到評(píng)論內(nèi)容的正負(fù)面情感分值,即通過(guò)公式(6)和(7)分別計(jì)算各所述評(píng)論內(nèi)容的正面情感分、和負(fù)面情感分,其中,所述正面情感分為所述評(píng)論內(nèi)容的正面情感分的總和,所述負(fù)面情感分為所述評(píng)論內(nèi)容的負(fù)面情感分的總和:
2)由于均值能比較準(zhǔn)確地反映一條評(píng)論的情感特征,分別計(jì)算各所述評(píng)論內(nèi)容的正面平均情感分、和負(fù)面平均情感分,其中,所述正面平均情感分為所述評(píng)論內(nèi)容的正面情感分與所述評(píng)論內(nèi)容包含的單句個(gè)數(shù)的比值,所述負(fù)面平均情感分為所述評(píng)論內(nèi)容的負(fù)面情感分與 所述評(píng)論內(nèi)容包含的單句個(gè)數(shù)的比值,詳見(jiàn)公式(8)和(9):
3)對(duì)于一條酒店評(píng)論,若評(píng)論者情緒波動(dòng)大,說(shuō)明對(duì)酒店某種特征屬性有爭(zhēng)議,因此將情感方差值作為情感特征指標(biāo)來(lái)反映情緒的穩(wěn)定程度。評(píng)論的情感方差計(jì)算公式如下(10)和(11):分別計(jì)算各所述評(píng)論內(nèi)容的正面方差情感分、和負(fù)面方差情感分,其中,所述正面方差情感分為各正面情感分與各正面平均情感分之差的平方和與所述評(píng)論內(nèi)容包含的單句個(gè)數(shù)的比值,所述負(fù)面方差情感分為各負(fù)面情感分與各負(fù)面平均情感分之差的平方和與所述評(píng)論內(nèi)容包含的單句個(gè)數(shù)的比值。
進(jìn)一步地,首先選擇所述方式3)計(jì)算的正面方差情感分和負(fù)面方差情感分作為情感分析的指標(biāo)。當(dāng)所述正面方差情感分和負(fù)面方差情感分的分值相等時(shí),選擇所述方式2)計(jì)算的正面平均情感分和負(fù)面平均情感分作為情感分析的指標(biāo)。當(dāng)所述正面平均情感分和負(fù)面平均情感分的分值相等時(shí),選擇所述方式1)計(jì)算的正面情感分和負(fù)面情感分作為情感分析的指標(biāo)。需要說(shuō)明的是,當(dāng)正面情感分大于負(fù)面情感分時(shí),認(rèn)為評(píng)論為“好評(píng)”,反之為“差評(píng)”。
圖5顯示了一種選取了十項(xiàng)消費(fèi)者關(guān)注最多的頻繁特征集,及相應(yīng)的好評(píng)、差評(píng)數(shù),可以看出消費(fèi)者最關(guān)注該酒店的“房間”、“位置”、“服務(wù)”、“早餐”等特征,對(duì)“房間”、“位置”、“安靜情況”和“交通”非常滿(mǎn)意,對(duì)“服務(wù)”的滿(mǎn)意度比較低,酒店應(yīng)該針對(duì)滿(mǎn)意度低的方面做出適當(dāng)?shù)母纳埔蕴岣吆诵母?jìng)爭(zhēng)力。
圖6a~6e顯示了一種按照各種消費(fèi)者的不同類(lèi)型統(tǒng)計(jì)頻繁特征集及相應(yīng)的好、差評(píng)數(shù)示意圖,可見(jiàn),不同的消費(fèi)者類(lèi)型在意的酒店特征并不相同,分類(lèi)統(tǒng)計(jì)更能了解到消費(fèi)者的真正需求。例如,“商務(wù)出差”人群對(duì)“服務(wù)”不滿(mǎn)意,“情侶出游”人群對(duì)“安靜情況”比較關(guān)注等。酒店管理者可以根據(jù)不同出游類(lèi)型消費(fèi)者的評(píng)論做出相應(yīng)的改善,大力推廣滿(mǎn)意度較高的特色服務(wù),客戶(hù)也可以根據(jù)這些評(píng)論來(lái)選擇適合自己的酒店。
請(qǐng)參閱圖7,與方法實(shí)施例原理相似的是,本發(fā)明提供一種酒店評(píng)論的細(xì)粒度情感分析系統(tǒng)1,包括:獲取模塊11、挖掘模塊12、識(shí)別模塊13和分析模塊14。由于方法實(shí)施例中 的技術(shù)特征也可以用于本系統(tǒng)實(shí)施例,因而不再重復(fù)贅述。
獲取模塊11抓取消費(fèi)者對(duì)于酒店的評(píng)論數(shù)據(jù)。挖掘模塊12從所述評(píng)論數(shù)據(jù)的評(píng)論內(nèi)容中提取關(guān)于酒店評(píng)價(jià)項(xiàng)目的特征詞語(yǔ),其中,所述特征詞語(yǔ)包括:名詞、或名詞詞組。識(shí)別模塊13從所述評(píng)論內(nèi)容中識(shí)別出含有所述特征詞語(yǔ)的單句作為觀點(diǎn)句。分析模塊14從所述觀點(diǎn)句中提取形容詞、和/或副詞與所述的酒店領(lǐng)域?qū)S们楦性~典的建立方法中建立的酒店領(lǐng)域?qū)S们楦性~典中的詞語(yǔ)匹配并返回相應(yīng)的強(qiáng)度值,據(jù)以計(jì)算各所述觀點(diǎn)句的情感分,并根據(jù)各所述觀點(diǎn)句的情感分計(jì)算所述評(píng)論內(nèi)容的情感分。
綜上所述,本發(fā)明能夠提取酒店領(lǐng)域的特征,并針對(duì)各個(gè)特征分析消費(fèi)者的喜好,有效克服了現(xiàn)有技術(shù)中的種種缺點(diǎn)而具高度產(chǎn)業(yè)利用價(jià)值。
上述實(shí)施例僅例示性說(shuō)明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對(duì)上述實(shí)施例進(jìn)行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識(shí)者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。