本發(fā)明涉及計算機互聯(lián)網(wǎng)技術(shù),尤其涉及一種數(shù)據(jù)處理方法、系統(tǒng)及其服務(wù)器。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的客戶端在購買商品前,都會連接計算機互聯(lián)網(wǎng),查詢要購買的商品信息后,下訂單購買商品,在完成整個商品的購買過程后,其中最重要的是對所購買的商品進(jìn)行評價,比如,對商品特性、質(zhì)量及使用心得等進(jìn)行具體評價。有對互聯(lián)網(wǎng)的商品評價調(diào)查表明:電子商務(wù)平臺引入的商品評價對用戶購買有著決定性的影響。因此,在計算機互聯(lián)網(wǎng)中的電子商務(wù)平臺上如何更有效地收集客戶端對所購買商品的評價成為了計算機互聯(lián)網(wǎng)中的電子商務(wù)企業(yè)競爭的關(guān)鍵點。
目前,電子商務(wù)平臺收集客戶端對所購買商品的評價信息過程為:首先,用戶通過客戶端,諸如計算機或移動終端與電子商務(wù)平臺進(jìn)行連接后,登錄到電子商務(wù)平臺提供的商品評價頁面;然后,用戶在該商品評價頁面上進(jìn)行輸入,輸入對應(yīng)某一商品的評價信息。雖然有些網(wǎng)站會對評論文本做一些情感分析,但這種情感分析一般僅使用通用情感詞來區(qū)分悲觀、樂觀等用戶的情感傾向。由于電商商品的種類繁多,這種方法無法根據(jù)不同類商品的特點作出個性化的情感傾向分析,導(dǎo)致分析結(jié)果不夠準(zhǔn)確。
因此,需要一種新的數(shù)據(jù)處理方法、系統(tǒng)及其服務(wù)器。
在所述背景技術(shù)部分公開的上述信息僅用于加強對本發(fā)明的背景的理解,因此它可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種數(shù)據(jù)處理方法、系統(tǒng)及其服務(wù)器,能夠提高商品的評價信息與評分信息的一致性。
本發(fā)明的其他特性和優(yōu)點將通過下面的詳細(xì)描述變得顯然,或部分地通過本發(fā)明的實踐而習(xí)得。
根據(jù)本發(fā)明的一方面,提供一種數(shù)據(jù)處理方法,包括:獲取用戶輸入的評論和評分信息;對所述評論信息進(jìn)行情感傾向分析,其中所述情感傾向分析基于按照商品類別建立的組合型情感詞庫;根據(jù)該評論信息的情感傾向分析結(jié)果,判斷所述評論信息與所述評分信息是否一致。
根據(jù)本發(fā)明的一實施方式,其中所述組合型情感詞庫包括通用情感詞庫和個性情感詞庫,將所述評論信息與相應(yīng)的組合型情感詞庫進(jìn)行比對,根據(jù)比對結(jié)果判斷所述評論信息的情感傾向。
根據(jù)本發(fā)明的一實施方式,還包括:預(yù)設(shè)情感傾向與評分范圍之間的映射關(guān)系,其中所述判斷所述評論信息與所述評分信息是否一致是基于所述情感傾向分析結(jié)果與所述映射關(guān)系是否一致來判斷的。
根據(jù)本發(fā)明的一實施方式,其中所述情感傾向包括第一情感傾向和第二情感傾向,其中所述第一情感傾向?qū)?yīng)于一預(yù)設(shè)的第一評分范圍,所述第二情感傾向?qū)?yīng)于一預(yù)設(shè)的第二評分范圍。
根據(jù)本發(fā)明的一實施方式,其中將所述評論信息與相應(yīng)的組合型情感詞庫進(jìn)行比對,根據(jù)比對結(jié)果判斷所述評論信息的情感傾向包括:將所述評論信息與所述組合型情感詞庫中的第一情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第一情感傾向的詞的數(shù)量獲得一第一計數(shù)值;將所述評論信息與所述組合型情感詞庫中的第二情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第二情感傾向的詞的數(shù)量獲得一第二計數(shù)值;當(dāng)所述第一計數(shù)值為正且所述第二計數(shù)值為零時,確定所述評論信息具有第一情感傾向;當(dāng)所述第二計數(shù)值為正且所述第一計數(shù)值為零時,確定所述評論信息具有第二情感傾向。
根據(jù)本發(fā)明的一實施方式,還包括:當(dāng)判斷所述評論信息與所述評分信息不一致時,發(fā)送一用戶提示信息,其中所述用戶提示信息用于提示該用戶是否重新評分。
根據(jù)本發(fā)明的再一個方面,提供一種數(shù)據(jù)處理系統(tǒng),包括:接收模塊, 用于獲取用戶輸入的評論和評分信息;分析模塊,用于對所述評論信息進(jìn)行情感傾向分析,其中所述情感傾向分析基于按照商品類別建立的組合型情感詞庫;判斷模塊,用于根據(jù)該評論信息的情感傾向分析結(jié)果,判斷所述評論信息與所述評分信息是否一致。
根據(jù)本發(fā)明的一實施方式,其中所述分析模塊包括:詞庫建立單元,用于按照商品類別建立組合型情感詞庫,其中所述組合型情感詞庫包括通用情感詞庫和個性情感詞庫;比對單元,用于將所述評論信息與相應(yīng)的組合型情感詞庫進(jìn)行比對,根據(jù)比對結(jié)果判斷所述評論信息的情感傾向。
根據(jù)本發(fā)明的一實施方式,還包括:映射模塊,用于預(yù)設(shè)情感傾向與評分范圍之間的映射關(guān)系,其中所述判斷模塊連接所述映射模塊與所述分析模塊,其基于所述情感傾向分析結(jié)果與所述映射關(guān)系是否一致來判斷所述評論信息與所述評分信息是否一致。
根據(jù)本發(fā)明的一實施方式,其中所述情感傾向包括第一情感傾向和第二情感傾向,其中所述第一情感傾向?qū)?yīng)于一預(yù)設(shè)的第一評分范圍,所述第二情感傾向?qū)?yīng)于一預(yù)設(shè)的第二評分范圍。
根據(jù)本發(fā)明的一實施方式,其中所述比對單元包括:第一計數(shù)器,用于將所述評論信息與所述組合型情感詞庫中的第一情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第一情感傾向的詞的數(shù)量獲得一第一計數(shù)值;第二計數(shù)器,用于將所述評論信息與所述組合型情感詞庫中的第二情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第二情感傾向的詞的數(shù)量獲得一第二計數(shù)值;比較器,用于比較所述第一計數(shù)值和所述第二計數(shù)值,其中:當(dāng)所述第一計數(shù)值為正且所述第二計數(shù)值為零時,確定所述評論信息具有第一情感傾向;當(dāng)所述第二計數(shù)值為正且所述第一計數(shù)值為零時,確定所述評論信息具有第二情感傾向。
根據(jù)本發(fā)明的一實施方式,還包括:提示模塊,用于當(dāng)判斷所述評論信息與所述評分信息不一致時,發(fā)送一用戶提示信息,其中所述用戶提示信息用于提示該用戶是否重新評分。
根據(jù)本發(fā)明的另一個方面,還提供一種服務(wù)器,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:獲取用戶輸入的評論和評分信息;對所述評論信息進(jìn)行情感傾向分析,其中所述情 感傾向分析基于按照商品類別建立的組合型情感詞庫;根據(jù)該評論信息的情感傾向分析結(jié)果,判斷所述評論信息與所述評分信息是否一致。
本發(fā)明通過創(chuàng)建按照商品類別劃分的組合型情感詞庫,分析判斷用戶的評論信息與提交的評分信息是否保持一致,從而可以幫助其他用戶根據(jù)顯示的商品評論信息與評分信息更準(zhǔn)確的判斷是否選擇某一商品。同時,該組合型情感詞庫采用通用情感詞庫與個性情感詞庫聯(lián)合組成的方案,可以針對不同類別的商品,形成不同的個性化詞庫,從而避免了僅使用通用情感詞庫來判斷用戶情感的單一性,能從更大程度上準(zhǔn)確判斷出用戶評價信息中包含的情感傾向。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理方法的流程圖;
圖2示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理方法的流程圖;
圖3示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理方法的流程圖;
圖4示意性示出根據(jù)本發(fā)明示例實施方式的組合型情感詞庫的生成方法的示意圖;
圖5示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理系統(tǒng)的框圖;
圖6示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理系統(tǒng)的框圖。
具體實施方式
現(xiàn)在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實施方式使得本發(fā)明將更加全面和完整,并將示例實施方式的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。附圖僅為本發(fā)明的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對它們的重復(fù)描述。
此外,所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個或更多實施方式中。在下面的描述中,提供許多具體細(xì)節(jié)從而給出對本發(fā)明的實施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識到,可以實踐本發(fā)明的技術(shù)方案而省略所述特定細(xì)節(jié)中的一個或更多,或者可以采用其它的方法、組元、系統(tǒng)、步驟等。在其它情況下,不詳細(xì)示出或描述公知結(jié)構(gòu)、方法、系統(tǒng)、實現(xiàn)、材料或者操作以避免喧賓奪主而使得本發(fā)明的各方面變得模糊。
附圖中所示的一些方框圖是功能實體,不一定必須與物理或邏輯上獨立的實體相對應(yīng)??梢圆捎密浖问絹韺崿F(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡(luò)和/或處理器系統(tǒng)和/或微控制器系統(tǒng)中實現(xiàn)這些功能實體。
以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的系統(tǒng)和方法的例子。
圖1示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理方法的流程圖。
如圖1所示,在步驟s110,獲取用戶輸入的評論和評分信息。
在當(dāng)前電商行業(yè),各類商品的評論信息對商品的銷售起著至關(guān)重要的作用,其中最重要的是已購買者對該商品的評論和/或評分信息,通常各大電商對評分分級為為0-10分,或者0-5分,或者按照星級分為一至五星。電商可以通過專門的評分portal(作為網(wǎng)關(guān)服務(wù)于因特網(wǎng)的一種web站點)來收集評分,并展示在網(wǎng)頁上。用戶可以查詢到自己需要的商品的具體評分情況,通常情況下,評分能反應(yīng)出商品的好壞。實現(xiàn)評分的技術(shù)是通過交互網(wǎng)頁用戶輸入相應(yīng)的分值或等級框?qū)ι唐愤M(jìn)行評分。如何保證評分的準(zhǔn)確性是各電商收集評價信息中的一項關(guān)鍵技術(shù)。
現(xiàn)有用戶輸入的評價內(nèi)容包含兩部分:評論與評分,其可以通過頁面技術(shù)實現(xiàn)收集。用戶登錄評價頁面,輸入評論文本或者評分內(nèi)容,提交以后,評論會記錄在商品評論頁,而評分則會通過加權(quán)算法,計入到總體的商品評分。
很多用戶喜歡填寫評論內(nèi)容,但是評分時卻容易忽略,這樣導(dǎo)致實際的評價與評分不匹配的問題。例如,用戶的對某酒店的評論內(nèi)容為“超值, 本來預(yù)定的普通沙屋卻因滿員被調(diào)整為豪華沙屋,房間有泳池,且臨海,真是超值享受,非常感謝!”,從中可以看出評價很高,但是評分卻只有2.0,這是個很低的分?jǐn)?shù)(滿分是10分),顯然是由于用戶評分失誤導(dǎo)致的,從而拉低了該商品的總體評分,從而影響到其他用戶的購買傾向。
在示例性實施例,還可以獲取所述評論和評分信息相對于的商品信息,所述商品信息包括該商品的唯一標(biāo)識,該唯一標(biāo)識可以由商品的sku編號、采購批次及入庫順序號組成。例如,一個商品的sku編號為111,采購批次為001及入庫順序號002,則該商品的唯一標(biāo)識為111001002。所述評論信息為用戶填寫的評價內(nèi)容,可以輸入多個字符,所述評分信息為按照商品評價分級。
電子商務(wù)平臺得到商品評論和評分信息后,保存在電子商務(wù)平臺的數(shù)據(jù)庫中,并以數(shù)據(jù)表的形式保存的,商品名稱可以從電子商務(wù)平臺中對應(yīng)的商品唯一標(biāo)識獲取。
需要說明的是,本發(fā)明實施例中的商品是一個廣義上的概念,不僅包括通常的實體產(chǎn)品,還可以包括各種服務(wù)、軟件程序等,只要可以用于交易且用戶可以對其進(jìn)行評價的物品均為本發(fā)明中的商品范圍內(nèi)。
在步驟s120,對所述評論信息進(jìn)行情感傾向分析,其中所述情感傾向分析基于按照商品類別建立的組合型情感詞庫。
在示例性實施例,其中所述組合型情感詞庫包括通用情感詞庫和個性情感詞庫,將所述評論信息與相應(yīng)的組合型情感詞庫進(jìn)行比對,根據(jù)比對結(jié)果判斷所述評論信息的情感傾向。
在示例性實施例,其中所述情感傾向包括第一情感傾向和第二情感傾向,其中所述第一情感傾向?qū)?yīng)于一預(yù)設(shè)的第一評分范圍,所述第二情感傾向?qū)?yīng)于一預(yù)設(shè)的第二評分范圍。
在示例性實施例,其中將所述評論信息與相應(yīng)的組合型情感詞庫進(jìn)行比對,根據(jù)比對結(jié)果判斷所述評論信息的情感傾向包括:將所述評論信息與所述組合型情感詞庫中的第一情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第一情感傾向的詞的數(shù)量獲得一第一計數(shù)值;將所述評論信息與所述組合型情感詞庫中的第二情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第二情感傾向的詞的數(shù)量獲得一第二計數(shù)值;當(dāng)所述第一計數(shù) 值為正且所述第二計數(shù)值為零時,確定所述評論信息具有第一情感傾向;當(dāng)所述第二計數(shù)值為正且所述第一計數(shù)值為零時,確定所述評論信息具有第二情感傾向。
在步驟s130,根據(jù)該評論信息的情感傾向分析結(jié)果,判斷所述評論信息與所述評分信息是否一致。
在示例性實施例,還包括:預(yù)設(shè)情感傾向與評分范圍之間的映射關(guān)系,其中所述判斷所述評論信息與所述評分信息是否一致是基于所述情感傾向分析結(jié)果與所述映射關(guān)系是否一致來判斷的。
在示例性實施例,還包括:當(dāng)判斷所述評論信息與所述評分信息不一致時,發(fā)送一用戶提示信息,其中所述用戶提示信息用于提示該用戶是否重新評分。
圖2示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理方法的流程圖。
如圖2所示,在步驟s210,按照商品類別建立組合型情感詞庫,其中所述組合型情感詞庫包括通用情感詞庫和個性情感詞庫。
本發(fā)明實施例中,所述通用情感詞庫是日常使用表示情感的詞庫,可以包含樂觀(正面、褒義)或者悲觀(負(fù)面、貶義)的情感傾向,能直接表達(dá)一個人的情緒。所述個性情感詞庫是根據(jù)被評論的商品的特殊性質(zhì)提取的,這些詞不直接表示情感,卻能表現(xiàn)出對商品好壞的判斷,個性情感詞庫同樣也可以分為樂觀、悲觀(針對具體商品)。
在示例性實施例,所述組合型情感詞庫采用的存儲方法為:
所述組合型情感詞庫使用關(guān)系型數(shù)據(jù)庫進(jìn)行存儲:假設(shè)詞庫模型命名為:t_emotion,詞庫在t_emotion中動態(tài)配置進(jìn)行維護(hù),能夠支持增加、刪除、更改等操作。
具體字段可以包括:
product:商品的唯一編號,保證唯一性;
kind:情感類型,可以分為樂觀、悲觀等,用于后續(xù)掃描的分類;
type:詞庫組合類別,包括通用、個性兩種詞庫類別;
seq:順序號,按照不同商品,區(qū)分樂觀與悲觀不同類型進(jìn)行順序遞增;
value:保存具體的情感詞。
假設(shè)商品為某個酒店,對該商品的組合型情感詞庫舉例:
在步驟s220,預(yù)設(shè)情感傾向與評分范圍之間的映射關(guān)系。
在步驟s230,獲取用戶輸入的評論信息和評分信息。
當(dāng)用戶提交商品評價頁時,首先讀取評論中的文本內(nèi)容。然后采用分詞詞庫對所述文本內(nèi)容進(jìn)行分詞,得到滿足預(yù)設(shè)詞性的用于比對的待匹配詞及所述待匹配詞的詞頻。
具體地,分詞詞庫中包括了各種詞語,以及詞語的詞性。用戶的評論信息具體可以為一個句子,或者簡單的描述。分詞的初步結(jié)果會包含多種詞性,存在標(biāo)點符號等大量雜質(zhì),根據(jù)預(yù)設(shè)詞性選取形容詞、名詞、動詞等幾種最有可能反映用戶的情感傾向的待匹配詞。
在步驟s240,將所述評論信息與相應(yīng)的組合型情感詞庫進(jìn)行比對,根據(jù)比對結(jié)果判斷所述評論信息的情感傾向。
例如,從情感詞庫模表(t_motion)取出相應(yīng)商品頁中所有樂觀詞庫,按順序掃描。如果存在于該文本內(nèi)容中,樂觀計數(shù)器加1,最終樂觀累計值為:
o_sum=∑count[seq]
其中,count表示對存在樂觀相關(guān)詞進(jìn)行計數(shù),seq為詞庫編號。
從情感詞庫模型表(t_emotion)中取出該評論信息對應(yīng)的商品的所有悲觀詞庫,按順序掃描。如果存在于該文本內(nèi)容中,悲觀計數(shù)器加1、最終悲觀累計值為:
p_sum=∑count[seq]
其中,count表示對存在悲觀相關(guān)詞進(jìn)行計數(shù),seq為詞庫編號。
當(dāng)存在樂觀詞且沒有悲觀詞:如果o_sum>0而且p_sum=0,認(rèn)為這條評論的情感傾向是樂觀的;存在悲觀詞且沒有樂觀詞:如果p_sum>0且o_sum=0,認(rèn)為這條評論的情感傾向是悲觀的。
在示例性實施例,還可以根據(jù)所述待匹配詞與相應(yīng)的組合型情感詞庫中的詞進(jìn)行匹配,得到與所述組合型情感詞庫中的詞匹配成功的詞及所述匹配成功的詞的情感傾向,根據(jù)所述待匹配詞的詞頻,得到所述匹配成功的詞的詞頻;根據(jù)所述匹配成功的詞的詞頻和對應(yīng)的情感傾向,確定與所述評論信息對應(yīng)的情感傾向。
在示例性實施例,還可以將所述情感傾向劃分為正面評價和負(fù)面評價。具體地,情感傾向包括用戶對商品的好評或差評等。好評度=正面評價詞頻總和/(正面評價詞頻總和+負(fù)面評價詞頻總和)*100。好評度值越高,說明用戶對商品滿意;好評度值越低,說明用戶對商品不滿意。例如,可以根據(jù)對好評度按照100的滿分劃分為多個等級,不同的等級對應(yīng)于不同的評分范圍,例如一0-10分的評分設(shè)計為例,好評度在90-100時對應(yīng)的評分范圍為9-10分,好評度為80-90時對應(yīng)的評分范圍為8-9分,好評度為70-80時對應(yīng)的評分范圍為7-8分,好評度為60-70時對應(yīng)的評分范圍為6-7分,好評度為50-60時對應(yīng)的評分范圍為5-6分,好評度為40-50時對應(yīng)的評分范圍為4-5分,好評度為30-40時對應(yīng)的評分范圍為3-4分,好評度為20-30時對應(yīng)的評分范圍為2-3分,好評度為10-20時對應(yīng)的評分范圍為1-2分,好評度為0-10時對應(yīng)的評分范圍為0-1分。評分范圍劃分的等級越細(xì),得到的評論信息與評分信息的一致性越高。
在步驟s250,基于所述評論信息的情感傾向與所述映射關(guān)系來判斷所述評論信息與所述評分信息是否一致。
當(dāng)所述評論信息與所述評分信息不一致時,彈出提示用戶是否重新評分的提示框,如果用戶選擇“是”,跳轉(zhuǎn)到重新評分頁面,完成對評分的糾正流程。當(dāng)用戶重新提交評分信息時,頁面更新用戶評分。
圖3示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理方法的流程圖。
如圖3所示,在步驟s310,預(yù)設(shè)組合型情感詞庫包括第一情感傾向,該第一情感傾向?qū)?yīng)于一預(yù)設(shè)的第一評分范圍。
例如,所述第一情感傾向為樂觀。
在示例性實施例,所述第一評分范圍可以根據(jù)不同的評分設(shè)計不同的映射關(guān)系:例如,針對0-10分的評分設(shè)計,可以將樂觀情感傾向映射到6-10分范圍;針對0-5星的評分設(shè)計,可以將樂觀情感傾向映射到4-5星范圍。當(dāng)然,并不以此為限,可以根據(jù)不同的用戶需求和系統(tǒng)的設(shè)計靈活設(shè)置。
在步驟s320,預(yù)設(shè)組合型情感詞庫包括第二情感傾向,該第二情感傾向?qū)?yīng)于一預(yù)設(shè)的第二評分范圍。
例如,所述第二情感傾向為悲觀。
在示例性實施例,所述第二評分范圍可以根據(jù)不同的評分設(shè)計不同的映射關(guān)系:例如,針對0-10分的評分設(shè)計,可以將悲觀情感傾向映射到0-3分范圍;針對0-5星的評分設(shè)計,可以將悲觀情感傾向映射到0-2星范圍。當(dāng)然,并不以此為限,可以根據(jù)不同的用戶需求和系統(tǒng)的設(shè)計靈活設(shè)置。
在步驟s330,獲取用戶輸入的評論信息和評分信息。
可以通過構(gòu)建分布式爬蟲程序,對電商網(wǎng)站數(shù)據(jù)進(jìn)行頁面抓取。根據(jù)抓取到的html頁面生成頁面的dom樹結(jié)構(gòu),根據(jù)標(biāo)簽提取爬到頁面中包含的評論信息和評分信息并存儲。
在示例性實施例,還可以對所述評論信息進(jìn)行預(yù)處理。例如,利用布隆濾波(bloomfilter)去除重復(fù)的評論數(shù)據(jù),首先對評論數(shù)據(jù)利用n個hash函數(shù)映射到位數(shù)組中,再對后面的評論計算n個hash值,然后判斷該評論數(shù)據(jù)是否已經(jīng)存在,如果后面的評論計算出的hash值存在位數(shù)組中,則說明該評論數(shù)據(jù)已經(jīng)存在,并將其過濾掉。還可以利用下面的規(guī)則集對所述評論信息進(jìn)一步預(yù)處理,去除符合規(guī)則1~2的評論數(shù)據(jù):規(guī)則1:評論數(shù)據(jù)中含有特定的廣告詞;規(guī)則2:基于網(wǎng)絡(luò)特定回復(fù)模板的自動回復(fù);規(guī)則3:評論中含有網(wǎng)址的,去除網(wǎng)址后再重新判斷是否符合規(guī)則1~2。利用匹配網(wǎng)址的正則表達(dá)式和制定的規(guī)則集去除垃圾廣告信息。
在步驟s340,將所述評論信息與所述組合型情感詞庫中的第一情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第一情感傾向的詞的數(shù)量獲得一第一計數(shù)值。
在步驟s350,將所述評論信息與所述組合型情感詞庫中的第二情感 傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第二情感傾向的詞的數(shù)量獲得一第二計數(shù)值。
在步驟s360,判斷所述第一計數(shù)值是否為正且所述第二計數(shù)值為零;如果是,則進(jìn)入下一步;反之,跳轉(zhuǎn)到步驟s390。
在步驟s370,確定所述評論信息具有第一情感傾向。
例如,如果評論內(nèi)容中存在樂觀詞而且沒有出現(xiàn)悲觀詞,則認(rèn)為這條評論信息的情感傾向是樂觀的,用戶提交的評分應(yīng)該在樂觀情感傾向?qū)?yīng)的評分范圍內(nèi);如果提交的評分不匹配該評分范圍,則自動彈出糾正提示框:
“尊敬的用戶,您的評分過低,表示您對該商品持悲觀態(tài)度,您是否確定?如果選擇否可以重新評分。”
在步驟s380,判斷所述評分信息是否與所述第一評分范圍一致;如果是,則跳回到步驟s330重新獲取下一次的用戶輸入的評論和評分信息;反之,則跳轉(zhuǎn)到步驟s3120。
在步驟s390,判斷所述第二計數(shù)值是否為正且所述第一計數(shù)值為零;如果是,則進(jìn)入下一步;反之,則跳回到步驟s330重新獲取下一次的用戶輸入的評論和評分信息。
在步驟s3100,確定所述評論信息具有所述第二情感傾向。
例如,如果評論內(nèi)容存在悲觀詞而且沒有出現(xiàn)樂觀詞,則認(rèn)為這條評論信息的情感傾向是悲觀的,用戶提交評分應(yīng)該在悲觀情感傾向的評分范圍內(nèi);如果提交的評分不匹配該評分范圍,則自動彈出糾正提示框:
“尊敬的用戶,您的評分過高,表示您對該商品持樂觀態(tài)度,您是否確定?如果選擇否可以重新評分。”
在步驟s3110,判斷所述評分信息是否與所述第二評分范圍一致;如果一致,則跳回到步驟s330重新獲取下一次的用戶輸入的評論和評分信息;反之,跳轉(zhuǎn)到步驟s3120。
在步驟s3120,發(fā)送一用戶提示信息,用于提示該用戶是否對當(dāng)前商品重新評分。
通過組合型情感詞庫,分析用戶提交的評論文本內(nèi)容,判斷用戶實際的評分與評論中體現(xiàn)的情感傾向是否匹配,如果不匹配,則提示當(dāng)前用戶 是否對該商品重新評分或者重新評論等操作。
本發(fā)明提供一種數(shù)據(jù)處理方法,通過組合型情感詞庫來分析評論內(nèi)容以糾正用戶誤評分的情況,加入了個性化情感詞庫來豐富情感詞庫的組成,通過掃描組合型情感詞來判斷評論內(nèi)容的情感,達(dá)到最終降低如下兩種場景出現(xiàn)的概率:1、用戶評價很高但是評分很低的評論記錄;2、用戶評價很低但是評分卻很高,從而保障用戶評分與評論內(nèi)容的匹配度,能夠提高商品評分的準(zhǔn)確性,解決了評分與評論實際內(nèi)容不匹配的問題。
圖4示意性示出根據(jù)本發(fā)明示例實施方式的組合型情感詞庫的生成方法的示意圖。
如圖4所示,假設(shè)某電子商務(wù)網(wǎng)站(例如,京東)包括商品a、商品b、商品c等,其中商品a對應(yīng)于一商品a個性情感詞庫,商品b對應(yīng)于一商品b個性情感詞庫,商品c對應(yīng)于一商品c個性情感詞庫等等。還包括一通用情感詞庫,將所述商品a個性情感詞庫和所述通用情感詞庫組合生成商品a組合情感詞庫,將所述商品b個性情感詞庫和所述通用情感詞庫組合生成商品b組合情感詞庫,將所述商品c個性情感詞庫和所述通用情感詞庫組合生成商品c組合情感詞庫等等。
上述實施例中雖然僅列舉了組合情感詞庫中的兩種情感傾向:悲觀和樂觀,但本發(fā)明并限定于此,其可以區(qū)分為更多種類,例如中性。并且所述通用情感詞庫和所述個性情感詞庫中的詞匯是可以動態(tài)配置錄入的。
在示例性實施例,所述通用情感詞庫又可以分為通用樂觀詞庫和通用悲觀詞庫,所述個性情感詞庫又可以分為個性樂觀詞庫和個性悲觀詞庫。
例如,通用樂觀詞庫中包括:喜歡、感謝、非常好、高興等等;通用悲觀詞庫包括:討厭、太差、難受、失望等等。
例如,個性樂觀詞庫中包括:豪華、整潔、視野開拓等等;個性悲觀詞庫中包括:狹小、不干凈、蟑螂等等。
假設(shè)商品為手機,對該商品的個性情感詞庫可以包括:個性樂觀詞庫:照相好、待機長、結(jié)實等等;個性悲觀詞庫:像素低、待機短、不結(jié)實等等。
在示例性實施例,詞庫中還可以各個詞的同義詞或近義詞進(jìn)行歸類,并指定其中某一個詞作為該組詞的基礎(chǔ)詞。例如,“不好看”、“難看”、 “不漂亮”等詞,都是用戶對商品外觀方面的評價,根據(jù)近義詞或同義詞的映射關(guān)系,得到的歸類結(jié)果以“不好看”作為基礎(chǔ)詞。
在示例性實施例,所述組合型情感詞庫還可以進(jìn)一步細(xì)分為否定詞庫、搭配情感詞庫、程度副詞詞庫、停用詞詞庫等。例如,否定詞庫包括否定詞:不、不是、不用、不必、不曾、不夠、沒、沒有、甭、未、未必、別、莫、勿、休、否、否認(rèn)、無、非、并非、失、免、缺、禁、忌、戒、防、看不到等。搭配情感詞是用來修飾名詞,對名詞加以補充說明的詞匯。例如:“這件衣服在網(wǎng)上評價較高,價格也高”。上句中有搭配情感詞“高”,只分析這個“高”是無法判斷文本情感傾向的,必須根據(jù)它修飾的搭配特征詞來判斷情感傾向,當(dāng)判斷(評價,高)這個搭配的情感傾向時,文本的情感傾向是褒義的,而判斷(價格,高)這個搭配的情感傾向時,文本的傾向是貶義的。這種修飾不同的名詞時具有不同傾向的情感詞在本文中被稱作搭配情感詞。收集程度副詞,所述程度副詞用于修飾情感詞,并給各程度副詞賦予強度級別和強度值(不同的分值),對文本的情感傾向會產(chǎn)生影響??梢园凑粘潭容p重排序,例如:有點(0.5)、比較(1.2)、十分(2)、極其(3)等等。
例如:她是一個非常漂亮的女孩子。(漂亮是情感詞,非常是程度副詞)。
例如:這件衣服好看;這件衣服很好看;這件衣服最好看。這三句話的褒義程度發(fā)生了明顯的變化,依次遞增。
停用詞對文檔的含義沒有任何意義,需要被過濾、屏蔽掉。一般來說,連詞、冠詞、介詞都屬于停用詞。
總結(jié)出的中文停用詞有:的、他的、你的、我的、一、一下、不、不僅、不會、不但、不光、不只、不得、與、與其、且、個、個人、為、為了、乃、乃至、么、之、之一、之前、之后、之類、也、也是、也罷、于、于是、人們、人家、什么、從、從而、了、就、以、以上、以下、何、何況、何為、其、其一、其實、幾、幾乎、即、即使、即便、又、及、及其、可、可以、可是、各、各個、各位、各自、吧、呀、呢、呵、咋、和、哈、哦、哎、哪、哪個、哪兒……
除了連詞、冠詞和連詞是停用詞外,一些動詞、形容詞和副詞也可能 是停用詞,信息檢索系統(tǒng)可以設(shè)置一個停用詞表用于過濾停用詞。
電商的商品非常多,根據(jù)以上的方法,需要對不同的商品配置不同的情感詞庫,由于通用情感詞庫一般比較統(tǒng)一,初始階段主要收集各商品的個性情感詞庫,再加上通用情感詞庫,則形成了每一類商品的組合型情感詞庫。
雖然目前有些網(wǎng)站會對評論文本做一些情感分析,但這種情感分析一般使用掃描通用情感詞的方法,來區(qū)分出悲觀、樂觀等等。然而,有一些屬于商品個性化的詞匯也能體現(xiàn)出情感,而這部分在傳統(tǒng)的方法中體現(xiàn)不出來。
本發(fā)明的詞庫采取了一種通用情感詞庫與個性情感詞庫聯(lián)合組成的方案,可以針對不同類別的商品,形成不同的個性化詞庫,從而避免了僅使用通用情感詞庫來判斷用戶情感的單一性,能從更大程度上準(zhǔn)確判斷出用戶評價信息中包含的情感傾向。
圖5示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理系統(tǒng)的框圖。
如圖5所示,該數(shù)據(jù)處理系統(tǒng)包括:接收模塊510,用于獲取用戶輸入的評論和評分信息;分析模塊520,用于對所述評論信息進(jìn)行情感傾向分析,其中所述情感傾向分析基于按照商品類別建立的組合型情感詞庫;判斷模塊530,用于根據(jù)該評論信息的情感傾向分析結(jié)果,判斷所述評論信息與所述評分信息是否一致。
本發(fā)明實施例中的模塊對應(yīng)于上述方法實施例中的具體內(nèi)容,在此不再贅述。
圖6示意性示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理系統(tǒng)的框圖。
如圖6所示,該數(shù)據(jù)處理系統(tǒng)包括:接收模塊610,用于獲取用戶輸入的評論和評分信息;分析模塊620,用于對所述評論信息進(jìn)行情感傾向分析,其中所述情感傾向分析基于按照商品類別建立的組合型情感詞庫;判斷模塊630,用于根據(jù)該評論信息的情感傾向分析結(jié)果,判斷所述評論信息與所述評分信息是否一致。其中所述分析模塊620包括:詞庫建立單元621,用于按照商品類別建立組合型情感詞庫,其中所述組合型情感詞庫包括通用情感詞庫和個性情感詞庫;比對單元622,用于將所述評論信息與相應(yīng)的組合型情感詞庫進(jìn)行比對,根據(jù)比對結(jié)果判斷所述評論信息的 情感傾向。
在示例性實施例,還包括:映射模塊640,用于預(yù)設(shè)情感傾向與評分范圍之間的映射關(guān)系,其中所述判斷模塊630連接所述映射模塊640與所述分析模塊620,其基于所述情感傾向分析結(jié)果與所述映射關(guān)系是否一致來判斷所述評論信息與所述評分信息是否一致。
在示例性實施例,其中所述情感傾向包括第一情感傾向和第二情感傾向,其中所述第一情感傾向?qū)?yīng)于一預(yù)設(shè)的第一評分范圍,所述第二情感傾向?qū)?yīng)于一預(yù)設(shè)的第二評分范圍。
在示例性實施例,其中所述比對單元622包括:第一計數(shù)器,用于將所述評論信息與所述組合型情感詞庫中的第一情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第一情感傾向的詞的數(shù)量獲得一第一計數(shù)值;第二計數(shù)器,用于將所述評論信息與所述組合型情感詞庫中的第二情感傾向的詞進(jìn)行比對,統(tǒng)計所述評論信息中包含的第二情感傾向的詞的數(shù)量獲得一第二計數(shù)值;比較器,用于比較所述第一計數(shù)值和所述第二計數(shù)值,其中:當(dāng)所述第一計數(shù)值為正且所述第二計數(shù)值為零時,確定所述評論信息具有第一情感傾向;當(dāng)所述第二計數(shù)值為正且所述第一計數(shù)值為零時,確定所述評論信息具有第二情感傾向。
在示例性實施例,還包括:提示模塊650,用于當(dāng)判斷所述評論信息與所述評分信息不一致時,發(fā)送一用戶提示信息,其中所述用戶提示信息用于提示該用戶是否重新評分。
本發(fā)明實施例還提供一種服務(wù)器,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:獲取用戶輸入的評論和評分信息;對所述評論信息進(jìn)行情感傾向分析,其中所述情感傾向分析基于按照商品類別建立的組合型情感詞庫;根據(jù)該評論信息的情感傾向分析結(jié)果,判斷所述評論信息與所述評分信息是否一致。
本發(fā)明實施例中其它內(nèi)容參考上述發(fā)明實施例中的內(nèi)容,在此不再贅述。
圖1、2、3和4示出根據(jù)本發(fā)明示例實施方式的數(shù)據(jù)處理方法的流程圖。該方法可例如利用如圖5或6所示的數(shù)據(jù)處理系統(tǒng)實現(xiàn),但本發(fā)明不限于此。需要注意的是,圖1、2、3和4僅是根據(jù)本發(fā)明示例實施方式的 方法所包括的處理的示意性說明,而不是限制目的。易于理解,圖1、2、3和4所示的處理并不表明或限制這些處理的時間順序。另外,也易于理解,這些處理可以是例如在多個模塊/進(jìn)程/線程中同步或異步執(zhí)行的。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實施方式可以通過軟件實現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實現(xiàn)。因此,根據(jù)本發(fā)明實施方式的技術(shù)方案可以以軟件商品的形式體現(xiàn)出來,該軟件商品可以存儲在一個非易失性存儲介質(zhì)(可以是cd-rom,u盤,移動硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺計算設(shè)備(可以是個人計算機、服務(wù)器、移動終端、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本發(fā)明實施方式的方法。
本發(fā)明公開的數(shù)據(jù)處理方法、系統(tǒng)及其服務(wù)器,通過創(chuàng)建組合型情感詞庫,可以針對不同類別的商品,合成不同的個性情感詞庫,從而避免了使用通用情感詞庫來判斷用戶情感的單一性;并通過對評論內(nèi)容的情感掃描與實際評分結(jié)合,能夠糾正用戶出現(xiàn)的誤評分,從而保證實際評論內(nèi)容與評分的匹配度,保證商品評分的準(zhǔn)確性。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
以上具體地示出和描述了本發(fā)明的示例性實施方式。應(yīng)可理解的是,本發(fā)明不限于這里描述的詳細(xì)結(jié)構(gòu)、設(shè)置方式或?qū)崿F(xiàn)方法;相反,本發(fā)明意圖涵蓋包含在所附權(quán)利要求的精神和范圍內(nèi)的各種修改和等效設(shè)置。