亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

產(chǎn)品的偏好區(qū)域識別方法和裝置與流程

文檔序號:12722139閱讀:392來源:國知局
本發(fā)明涉及文本挖掘
技術(shù)領(lǐng)域
,尤其是涉及一種產(chǎn)品的偏好區(qū)域識別方法和裝置。
背景技術(shù)
:隨著Web2.0技術(shù)的快速發(fā)展,越來越多的用戶選擇通過在線社交媒體發(fā)表自己的購物體驗。研究表明77%的消費者在購買之前會瀏覽在線評論。相比于個人推薦,75%的消費者更加相信在線產(chǎn)品評論。研究結(jié)果說明,在線產(chǎn)品評論在用戶的購買決策中扮演著越來越重要的角色,成為企業(yè)重要的信息資源。從用戶空間分布來看,不同區(qū)域的用戶由于區(qū)域環(huán)境、文化以及經(jīng)濟的差異,對產(chǎn)品特征的偏好是不同的。實現(xiàn)對不同區(qū)域特征偏好的識別,從而驅(qū)動企業(yè)產(chǎn)品的區(qū)域化營銷策略。但是,由于在線產(chǎn)品評論內(nèi)容的零碎性和隨意性,導(dǎo)致從在線產(chǎn)品評論中識別產(chǎn)品特征區(qū)域偏好十分復(fù)雜。技術(shù)實現(xiàn)要素:針對以上缺陷,本發(fā)明提供一種產(chǎn)品的偏好區(qū)域識別方法和裝置,可以提供偏好區(qū)域,使企業(yè)更加有針對性的制定營銷策略,驅(qū)動企業(yè)產(chǎn)品的區(qū)域化營銷策略。第一方面,本發(fā)明提供的產(chǎn)品的偏好區(qū)域識別方法包括:獲取不同區(qū)域的用戶對待分析產(chǎn)品的評論文本,并從獲取的各條評論文本中提取出所述待分析產(chǎn)品的產(chǎn)品特征,其中的區(qū)域為用戶所屬城市的等級或用戶的所屬地區(qū);根據(jù)在每一條評論文本中的每一個產(chǎn)品特征的觀點詞,確定在該條評論文本中用戶對該產(chǎn)品特征的情感極性;根據(jù)每一個產(chǎn)品特征在包含該產(chǎn)品特征的各條評論文本中的情感極性以及包含該產(chǎn)品特征的各條評論文本的用戶的所屬區(qū)域,計算該產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度;根據(jù)各個產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度,從各個產(chǎn)品特征中提取出具有區(qū)域偏好的產(chǎn)品特征;對于提取出的具有區(qū)域偏好的每一個產(chǎn)品特征,根據(jù)在不同區(qū)域中包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性相同的評論文本的數(shù)量的統(tǒng)計值與期望值之間的差值,確定該產(chǎn)品特征針對該情感極性的偏好區(qū)域??蛇x的,所述從獲取的各條評論文本中提取出所述待分析產(chǎn)品的產(chǎn)品特征,包括:對各條評論文本進行中文分詞,從分詞結(jié)果中提取出名詞和名詞短語;利用關(guān)聯(lián)規(guī)則從提取出的名詞和名詞短語中提取出頻繁項集;對所述頻繁項集中的名詞和/或名詞短語進行同義詞聚合,并剔除所述頻繁項集中的非產(chǎn)品特征詞??蛇x的,所述根據(jù)在每一條評論文本中的每一個產(chǎn)品特征的觀點詞,確定在該條評論文本中用戶對該產(chǎn)品特征的情感極性,包括:確定所述觀點詞所屬的情感詞庫的類型;根據(jù)所述情感詞庫的類型,確定該條評論文本中用戶對該產(chǎn)品特征的情感極性??蛇x的,所述每一條評論文本中的每一個產(chǎn)品特征的觀點詞為在該條評論文本中與該產(chǎn)品特征鄰近的預(yù)設(shè)數(shù)量的字符中的形容詞??蛇x的,采用下式計算每一個產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度:式中,χ2為該產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度,nkj為在第k個區(qū)域中包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性為j的評論文本的數(shù)量的統(tǒng)計值,Ekj為在第k個區(qū)域中包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性為j的評論文本的數(shù)量的期望值??蛇x的,采用下式計算所述期望值Ekj:式中,n為獲取的所有評論文本的數(shù)量,Cj為包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性為j為評論文本的數(shù)量的統(tǒng)計值,Rk為包含該產(chǎn)品特征且用戶所屬第k個區(qū)域的評論文本的數(shù)量的統(tǒng)計值??蛇x的,所述確定該產(chǎn)品特征針對該情感極性的偏好區(qū)域,包括:計算在每一個區(qū)域中,包含具有該情感極性的該產(chǎn)品特征的評論文本的數(shù)量的統(tǒng)計值和期望值之間的差值;將各個區(qū)域中所述差值最大的區(qū)域作為該產(chǎn)品特征針對該情感極性的偏好區(qū)域??蛇x的,所述方法還包括:在從獲取的各條評論文本中提取出所述待分析產(chǎn)品的產(chǎn)品特征后,將每一個產(chǎn)品特征與所述待分析產(chǎn)品的配置文檔中的產(chǎn)品屬性型號進行配對,并將該產(chǎn)品特征的偏好區(qū)域作為該產(chǎn)品屬性型號的偏好區(qū)域??蛇x的,所述方法還包括:對與所述待分析產(chǎn)品同一類別的多個產(chǎn)品,分別進行偏好區(qū)域識別;根據(jù)同一類別的多個不同產(chǎn)品的偏好區(qū)域,形成該類別產(chǎn)品的偏好區(qū)域。第二方面,本發(fā)明提供的產(chǎn)品的偏好區(qū)域識別裝置包括:第一特征提取模塊,用于獲取不同區(qū)域的用戶對待分析產(chǎn)品的評論文本,并從獲取的各條評論文本中提取出所述待分析產(chǎn)品的產(chǎn)品特征,其中的區(qū)域為用戶所屬城市的等級或用戶的所屬地區(qū);情感極性確定模塊,用于根據(jù)在每一條評論文本中的每一個產(chǎn)品特征的觀點詞,確定在該條評論文本中用戶對該產(chǎn)品特征的情感極性;關(guān)聯(lián)程度計算模塊,用于根據(jù)每一個產(chǎn)品特征在包含該產(chǎn)品特征的各條評論文本中的情感極性以及包含該產(chǎn)品特征的各條評論文本的用戶的所屬區(qū)域,計算該產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度;第二特征提取模塊,用于根據(jù)各個產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度,從各個產(chǎn)品特征中提取出具有區(qū)域偏好的產(chǎn)品特征;偏好區(qū)域計算模塊,用于對于提取出的具有區(qū)域偏好的每一個產(chǎn)品特征,根據(jù)在不同區(qū)域中包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性相同的評論文本的數(shù)量的統(tǒng)計值與期望值之間的差值,確定該產(chǎn)品特征針對該情感極性的偏好區(qū)域。本發(fā)明提供的產(chǎn)品的偏好區(qū)域識別方法和裝置,首先提取評論文本中的產(chǎn)品特征,然后基于產(chǎn)品特征的情感極性和評論用戶的所屬區(qū)域,提取出具有區(qū)域偏好的產(chǎn)品特征,最后針對具有區(qū)域偏好的產(chǎn)品特征,基于包含具有某一情感極性的某一產(chǎn)品特征的評論文本的數(shù)量的統(tǒng)計值和期望值,確定該產(chǎn)品特征針對該情感極性的偏好區(qū)域,至此得到該待分析產(chǎn)品的各個具有區(qū)域偏好的產(chǎn)品特征針對不同情感極性的偏好區(qū)域??梢姡景l(fā)明提供的偏好區(qū)域的識別方法,針對零碎、隨意的在線產(chǎn)品評論內(nèi)容,可以提供偏好區(qū)域,使企業(yè)更加有針對性的制定營銷策略,驅(qū)動企業(yè)產(chǎn)品的區(qū)域化營銷策略。附圖說明為了更清楚地說明本公開實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本公開的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些圖獲得其他的附圖。圖1示出了一種產(chǎn)品的偏好區(qū)域識別方法的流程示意圖。具體實施方式下面將結(jié)合本公開實施例中的附圖,對本公開實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒竟_中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本公開保護的范圍。第一方面,本發(fā)明提供一種產(chǎn)品的偏好區(qū)域識別方法,如圖1所示,該方法具體包括以下步驟:S1、獲取不同區(qū)域的用戶對待分析產(chǎn)品的評論文本,并從獲取的各條評論文本中提取出所述待分析產(chǎn)品的產(chǎn)品特征,其中的區(qū)域為用戶所屬城市的等級或用戶的所屬地區(qū);可理解的是,所謂的用戶所屬城市的等級,例如根據(jù)2016年中國城市等級劃分標準可知城市有一線城市、二線城市、三線及以下城市,即城市的等級包括一線、二線、三線及以下,城市的等級反映的是區(qū)域的經(jīng)濟。所謂的地區(qū),例如根據(jù)中國自然地理特征可將城市或鄉(xiāng)鎮(zhèn)劃分為七大地區(qū),例如華東、華南、華北、華中、東北、西北、西南,地區(qū)反應(yīng)的是區(qū)域的人文與環(huán)境??梢姳景l(fā)明中的區(qū)域可以針對評論用戶所在城市的等級,也可以是評論用戶所屬的地區(qū)。可理解的是,所謂的產(chǎn)品特征,是指能夠反映產(chǎn)品的某些特征的參數(shù),例如對于汽車來說,產(chǎn)品特征有外觀、空間、油耗、內(nèi)飾、動力等。S2、根據(jù)在每一條評論文本中的每一個產(chǎn)品特征的觀點詞,確定在該條評論文本中用戶對該產(chǎn)品特征的情感極性;可理解的是,所謂的觀點詞是指能夠反映用戶對待分析產(chǎn)品的這一產(chǎn)品特征的情感傾向,例如,喜歡、不喜歡、還可以、一般等。可理解的是,所謂的情感極性,是指對情感傾向極端化,例如,將觀點詞分為兩個極端,一個是正面的,喜歡,另一個是負面的,不喜歡。S3、根據(jù)每一個產(chǎn)品特征在包含該產(chǎn)品特征的各條評論文本中的情感極性以及包含該產(chǎn)品特征的各條評論文本的用戶的所屬區(qū)域,計算該產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度;可理解的是,若該產(chǎn)品特征的情感傾向與區(qū)域之間相互獨立,則關(guān)聯(lián)程度較弱,若該產(chǎn)品特征的情感傾向與區(qū)域之間不相互獨立,且依賴程度較強,則說明關(guān)聯(lián)程度較強。S4、根據(jù)各個產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度,從各個產(chǎn)品特征中提取出具有區(qū)域偏好的產(chǎn)品特征;可理解的是,所謂的區(qū)域偏好是指產(chǎn)品特征的情感傾向和評論用戶的所屬區(qū)域之間不是相互獨立的,在不同的區(qū)域中,用戶具有不同的情感傾向。S5、對于提取出的具有區(qū)域偏好的每一個產(chǎn)品特征,根據(jù)在不同區(qū)域中包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性相同的評論文本的數(shù)量的統(tǒng)計值與期望值之間的差值,確定該產(chǎn)品特征針對該情感極性的偏好區(qū)域??衫斫獾氖?,若情感極性為正面,則偏好區(qū)域為用戶顯著喜歡的區(qū)域;若情感極性為負面,則偏好區(qū)域為用戶顯著不喜歡的區(qū)域。本發(fā)明提供的產(chǎn)品的偏好區(qū)域識別方法,首先提取評論文本中的產(chǎn)品特征,然后基于產(chǎn)品特征的情感極性和評論用戶的所屬區(qū)域,提取出具有區(qū)域偏好的產(chǎn)品特征,最后針對具有區(qū)域偏好的產(chǎn)品特征,基于包含具有某一情感極性的某一產(chǎn)品特征的評論文本的數(shù)量的統(tǒng)計值和期望值,確定該產(chǎn)品特征針對該情感極性的偏好區(qū)域,至此得到該待分析產(chǎn)品的各個具有區(qū)域偏好的產(chǎn)品特征針對不同情感極性的偏好區(qū)域。可見,本發(fā)明提供的偏好區(qū)域的識別方法,針對零碎、隨意的在線產(chǎn)品評論內(nèi)容,可以提供偏好區(qū)域,使企業(yè)更加有針對性的制定營銷策略,驅(qū)動企業(yè)產(chǎn)品的區(qū)域化營銷策略。在具體實施時,S1中可以但不限于采用網(wǎng)絡(luò)爬蟲在社交媒體上獲取大量的在線產(chǎn)品評論,所獲取的評論文本可以采用集合的方式表示:R={r1,r2,...,rn},其中的每條評論ri表達了用戶uk對產(chǎn)品的若干特征的觀點態(tài)度,可以看作為一組“用戶-特征-觀點”對的集合,即:{(uk,fj,oj)|fj∈ri},其中的fj為產(chǎn)品特征,oj為觀點。在具體實施時,S1中從評論文本中提取產(chǎn)品特征的方式有多種,其中一種可選的方式為:S11、對各條評論文本進行中文分詞,從分詞結(jié)果中提取出名詞和名詞短語;S12、利用關(guān)聯(lián)規(guī)則從提取出的名詞和名詞短語中提取出頻繁項集;S13、對所述頻繁項集中的名詞和/或名詞短語進行同義詞聚合,并剔除所述頻繁項集中的非產(chǎn)品特征詞。這里,首先對評論文本進行分詞、提取出名詞和名詞短語、提取出頻繁項集,然后對頻繁項集中的名詞和名詞短語進行同義詞聚合,剔除一些非產(chǎn)品特征詞等,從而獲得產(chǎn)品的產(chǎn)品特征。在具體實施時,S11中,目前的分詞手段有多種,例如采用結(jié)巴中文分詞軟件進行分詞,然后從分詞結(jié)果中提取出名詞、名詞短語。名詞和名詞短語的提取可以通過詞性標注的方式實現(xiàn)。在S12中,采用的關(guān)聯(lián)規(guī)則,例如Apriori算法,對名詞和名詞短語進行挖據(jù),形成頻繁項集,例如頻繁一相集、頻繁二項集等。在S13中,對頻繁項集中的名詞、名詞短語進行同義詞聚合,例如汽車產(chǎn)品的“外觀”、“外形”、“車身”等詞均反映的是汽車外觀的整體情況,利用同義詞詞庫進行整合后,用“外觀”表示。在S13中還剔除所述頻繁項集中的非產(chǎn)品特征詞,主要是去掉單字名詞、過濾一些常用的但不是產(chǎn)品特征的名詞或名詞短語,例如“問題”、“家人”。下面以汽車為待分析產(chǎn)品,利用同義詞庫對提取的各個特征進行整合,具體整合表如下表1所示:表1產(chǎn)品特征的整合表產(chǎn)品特征特征集合外觀外觀顏值車尾大燈空間空間后排后備箱頭部空間內(nèi)部空間前排內(nèi)飾內(nèi)飾顏色材料中控顯示屏細節(jié)做工油耗油耗市區(qū)油耗高速油耗平均油耗動力動力發(fā)動機起步速度加速馬力操控操控方向盤后視鏡剎車離合器油門舒適性舒適性懸掛減震共振座椅隔音性價比性價比價格配置性能從上表1中可以看出,將各個特征進行整合之后,便得到八個產(chǎn)品特征:外觀、空間、內(nèi)飾、油耗、動力、操控、舒適性、性價比。在具體實施時,S2中,由于觀點詞一般都在特征詞的附近,而且一般為形容詞,例如外觀顯得大氣、車頭十分飽滿,因此可以在產(chǎn)品特征的附近尋找形容詞作為觀點詞,例如,評論文本中的產(chǎn)品特征的觀點詞為在該條評論文本中與該產(chǎn)品特征鄰近的預(yù)設(shè)數(shù)量的字符中的形容詞。在具體實施時,S2中確定用戶對產(chǎn)品特征的情感極性的方式有多種,其中一種可選的方式為:確定所述觀點詞所屬的情感詞庫的類型;根據(jù)所述情感詞庫的類型,確定該條評論文本中用戶對該產(chǎn)品特征的情感極性。舉例來說,情感詞庫有積極類型的,也有消極類型的,假如情感詞庫類型為積極詞庫,則在該條評論文本中用戶對該產(chǎn)品特征的情感極性為正面態(tài)度,例如喜歡;假如情感詞庫類型為消極詞庫,則在該條評論文本中用戶對該產(chǎn)品特征的情感極性為負面態(tài)度,例如不喜歡。舉例來說,以n條評論文本為例,將上表1中整合得到的八個產(chǎn)品特征的情感極性以及每一條評論文本中用戶的滿意度整理成如下表2所示的結(jié)構(gòu)化數(shù)據(jù):表2八個產(chǎn)品特征的情感極性以及用戶滿意度的結(jié)構(gòu)化數(shù)據(jù)表當(dāng)然,上述僅僅是對情感傾向的一種定性分析,為了便于后續(xù)的計算,還可以進行定量處理,例如,正面態(tài)度的情感極性設(shè)置為1,負面態(tài)度的情感極性設(shè)置為0,當(dāng)然還可以設(shè)置為其他數(shù)值,只要兩種情感極性的數(shù)值不同即可,這里的0、1也可以理解為用戶態(tài)度的強度。這里,采用情感詞庫對產(chǎn)品特征的情感傾向進行定性分析,簡單、易實現(xiàn)。在具體實施時,可以采用下式計算每一個產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度:式中,χ2為該產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度,nkj為在第k個區(qū)域中包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性為j的評論文本的數(shù)量的統(tǒng)計值,Ekj為在第k個區(qū)域中包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性為j的評論文本的數(shù)量的期望值。舉例來說,以城市等級為區(qū)域,對不同城市等級、不同情感極性的評論文本進行數(shù)量統(tǒng)計,統(tǒng)計結(jié)果如下表3所示:表3城市等級-產(chǎn)品特征的情感極性之間的交叉表從上表3中可以看出,對于一個產(chǎn)品特征fi,包括該產(chǎn)品特征的評論文本的數(shù)量為n,在包括該產(chǎn)品特征的評論文本中評論用戶所屬城市為一線城市的評論文本的數(shù)量為R1,在R1中有n10條評論文本中該產(chǎn)品特征的情感極性為正面態(tài)度,有n11條評論文本中該產(chǎn)品特征的情感極性為負面態(tài)度;對于二線城市、三線及以下城市類似。在這n條評論中,有C0條評論文本中該產(chǎn)品特征的情感極性為正面態(tài)度,有C1條評論文本中該產(chǎn)品特征的情感極性為負面態(tài)度?;谏鲜霰?,該產(chǎn)品特征fi的情感傾向與城市等級之間的關(guān)聯(lián)程度的計算過程大致為:首先,設(shè)置k和j的取值范圍:k的范圍為[1,3],j的取值范圍為[0,1]。然后,針對每一個k和j,采用下式(2)進行計算:最后,對根據(jù)上述(2)計算得到的各個值求和,得到產(chǎn)品特征fi的情感傾向與城市等級的關(guān)聯(lián)程度。可理解的是,由于上述計算是基于以城市等級為區(qū)域,如果是基于地區(qū)的話,則k的范圍可以為[1,7]。在上述過程中,可以采用下式計算所述期望值Ekj:式中,n為獲取的所有評論文本的數(shù)量,Cj為包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性為j為評論文本的數(shù)量的統(tǒng)計值,Rk為包含該產(chǎn)品特征且用戶所屬第k個區(qū)域的評論文本的數(shù)量的統(tǒng)計值。上述式(3)的推到過程如下:對于某個產(chǎn)品特征,假設(shè)城市等級和產(chǎn)品特征的情感傾向之間相互獨立,則:pki=pkpi(4)在上式(4)中,pki為包括該產(chǎn)品特征的評論文本的用戶所屬城市的等級為k且情感極性為i的概率,pk為包括該產(chǎn)品特征的評論文本的用戶所屬城市的等級為k的概率,pi為包括該產(chǎn)品特征的評論文本中該產(chǎn)品特征的情感極性為i的概率;其中的pk=Rk/n,pk=Ci/n,其中的n為包括該產(chǎn)品特征的評論文本的數(shù)量。Rk和Ci的含義可以參考上表3。在具體實施時,S4中提取具有區(qū)域偏好的產(chǎn)品特征時,是基于各個產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度。舉例來說,通過S3中的計算,得到每一個產(chǎn)品特征的情感傾向與區(qū)域的關(guān)聯(lián)程度χ2,各個產(chǎn)品特征對應(yīng)的關(guān)聯(lián)程度可以組成一個集合χi2越大,則說明產(chǎn)品特征fi的情感傾向與區(qū)域之間的關(guān)聯(lián)程度越強,例如,對于α=0.05,則該產(chǎn)品特征的情感極性與區(qū)域特征存在顯著關(guān)聯(lián)關(guān)系。基于此,可以將其中幾個最大的關(guān)聯(lián)程度對應(yīng)的產(chǎn)品特征提取出來作為具有區(qū)域偏好的產(chǎn)品特征。舉例來說,以汽車作為待分析產(chǎn)品為例,計算其各個產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度,如下表4所示:表4汽車的產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度χ2區(qū)域特征df空間動力操控油耗舒適性外觀內(nèi)飾性價比城市等級25.5990.0410.5485.1292.8271.1760.2511.479城市地區(qū)614.1348.4163.5246.3262.46811.9358.2552.982其中,從上表4中可以看出,空間和油耗這兩個產(chǎn)品特征與城市等級的關(guān)聯(lián)程度較大,分別為5.599和5.129,接近說明存在較顯著影響,因此可以將空間和油耗作為具有區(qū)域偏好的產(chǎn)品特征提取出來。同時也可以看出,空間、外觀、內(nèi)飾和動力的情感傾向與區(qū)域之間的關(guān)聯(lián)程度也比較大,尤其是空間和外觀,關(guān)聯(lián)程度χ2值達到14.134和11.935,與相近,因此可以將空間和外觀作為具有區(qū)域偏好的產(chǎn)品特征提取出來。在具體實施時,S5中,確定產(chǎn)品特征的偏好區(qū)域的過程可以為:S51、計算在每一個區(qū)域中,包含具有該情感極性的該產(chǎn)品特征的評論文本的數(shù)量的統(tǒng)計值和期望值之間的差值;S52、將各個區(qū)域中所述差值最大的區(qū)域作為該產(chǎn)品特征針對該情感極性的偏好區(qū)域。舉例來說,對于某個產(chǎn)品特征,以七個地區(qū)為例進行說明:顯著喜歡:對于每個地區(qū),計算包括該產(chǎn)品特征、該產(chǎn)品特征的情感極性為正面且評論用戶屬于該地區(qū)的評論文本的真實統(tǒng)計數(shù)量與期望數(shù)量之前的偏差;然后將偏差值最大的地區(qū),作為顯著喜歡的地區(qū),即該產(chǎn)品特征針對情感極性為正面的偏好地區(qū)。顯著不喜歡:對于每個地區(qū),計算包括該產(chǎn)品特征、該產(chǎn)品特征的情感極性為負面且評論用戶屬于該地區(qū)的評論文本的真實統(tǒng)計數(shù)量與期望數(shù)量之前的偏差;然后將偏差值最大的地區(qū),作為顯著不喜歡的地區(qū),即該產(chǎn)品特征針對情感極性為負面的偏好地區(qū)?;谏鲜霰?,針對油耗這一具有偏好區(qū)域的產(chǎn)品特征,其情感傾向與城市等級之間的交叉表如表5所示:表5油耗的情感傾向與城市等級之間的交叉表從上表5中可以看出,三線及以下城市的油耗的正面情感極性的評論數(shù)量明顯高于期望值,而一線城市對油耗負面情感極性的評論數(shù)量明顯高于期望值,這說明中小城市用戶對油耗特征的性能要求相對較低,而對于一線城市用戶來說則更加看重油耗特征的性能?;谏鲜霰?,針對空間這一具有偏好區(qū)域的產(chǎn)品特征,其情感傾向與地區(qū)之間的交叉表如下表6所示:表6空間的情感傾向與地區(qū)之間的交叉表從上表6中可以看出,華南和西南地區(qū)的空間這一產(chǎn)品特征的正面情感極性的評論數(shù)量明顯高于期望值,而華東和西北地區(qū)的正面情感極性的評論數(shù)量則明顯低于期望值,說明華南和西南地區(qū)對空間這一產(chǎn)品特征較滿意,而華東和西北地區(qū)對空間這一產(chǎn)品特征的要求則相對更高。在具體實施時,S1中在從獲取的各條評論文本中提取出所述待分析產(chǎn)品的產(chǎn)品特征后,還可以將每一個產(chǎn)品特征與所述待分析產(chǎn)品的配置文檔中的產(chǎn)品屬性型號進行配對,并將該產(chǎn)品特征的偏好區(qū)域作為該產(chǎn)品屬性型號的偏好區(qū)域。其中的配對過程可以通過關(guān)鍵詞索引的方式實現(xiàn)產(chǎn)品的配置文檔中的產(chǎn)品屬性型號進行配對。這里,將產(chǎn)品特征與產(chǎn)品屬性型號配對,這樣得到的產(chǎn)品特征的偏好區(qū)域即該產(chǎn)品屬性型號的偏好區(qū)域。由于即便是同一產(chǎn)品,也可能有不同的配置,例如同一款手機中,有的內(nèi)存為2G,有的內(nèi)存為3G,這里將產(chǎn)品特征與產(chǎn)品配置文檔中的產(chǎn)品屬性型號配對,可以得到在該配置下的偏好區(qū)域,對于另一種配置下的偏好區(qū)域可能有所變化,可見將產(chǎn)品特征與產(chǎn)品屬性型號配對,使得識別出的偏好區(qū)域更加精準。在具體實施時,還可以對與上述待分析產(chǎn)品同一類別的多個產(chǎn)品,分別進行偏好區(qū)域識別,得到該多個產(chǎn)品中每一個產(chǎn)品的偏好區(qū)域,進而根據(jù)同一類別的多個不同產(chǎn)品的偏好區(qū)域,形成該類別產(chǎn)品的偏好區(qū)域,這樣有助于一類產(chǎn)品的營銷策略的制定。第二方面,本發(fā)明還提供一種產(chǎn)品的偏好區(qū)域識別裝置,該裝置包括:第一特征提取模塊,用于獲取不同區(qū)域的用戶對待分析產(chǎn)品的評論文本,并從獲取的各條評論文本中提取出所述待分析產(chǎn)品的產(chǎn)品特征,其中的區(qū)域為用戶所屬城市的等級或用戶的所屬地區(qū);情感極性確定模塊,用于根據(jù)在每一條評論文本中的每一個產(chǎn)品特征的觀點詞,確定在該條評論文本中用戶對該產(chǎn)品特征的情感極性;關(guān)聯(lián)程度計算模塊,用于根據(jù)每一個產(chǎn)品特征在包含該產(chǎn)品特征的各條評論文本中的情感極性以及包含該產(chǎn)品特征的各條評論文本的用戶的所屬區(qū)域,計算該產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度;第二特征提取模塊,用于根據(jù)各個產(chǎn)品特征的情感傾向與區(qū)域之間的關(guān)聯(lián)程度,從各個產(chǎn)品特征中提取出具有區(qū)域偏好的產(chǎn)品特征;偏好區(qū)域計算模塊,用于對于提取出的具有區(qū)域偏好的每一個產(chǎn)品特征,根據(jù)在不同區(qū)域中包含該產(chǎn)品特征且該產(chǎn)品特征的情感極性相同的評論文本的數(shù)量的統(tǒng)計值與期望值之間的差值,確定該產(chǎn)品特征針對該情感極性的偏好區(qū)域??衫斫獾氖牵景l(fā)明提供的偏好區(qū)域識別裝置為本發(fā)明提供的偏好區(qū)域識別方法的功能架構(gòu)模塊,其有關(guān)內(nèi)容的解釋說明、可先實施方法、舉例、有益效果等內(nèi)容可以參考上述偏好區(qū)域識別方法中的相應(yīng)內(nèi)容,在此不再贅述。本發(fā)明的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解;其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1