一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)的制作方法
【專利摘要】一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),由6個模塊組成:信息采集模塊、信息預處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊。系統(tǒng)通過自動采集互聯(lián)網(wǎng)上各類關(guān)于產(chǎn)品的信息,經(jīng)過預處理之后,采用數(shù)據(jù)挖掘和自然語言處理技術(shù)進行綜合分析,從而快速形成關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場口碑分析、不同產(chǎn)品對比分析、用戶群體分析等不同側(cè)面的分析結(jié)果,為產(chǎn)品分析、市場決策提供快速、堅實的支撐。本發(fā)明充分利用互聯(lián)網(wǎng)信息資源優(yōu)勢,能夠根據(jù)用戶需求對產(chǎn)品進行調(diào)研,不但可以節(jié)約調(diào)研所需的人力物力,還能夠及時反映跟蹤市場動態(tài)。
【專利說明】—種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)及方法,屬于數(shù)據(jù)挖掘、文本信息處理和互聯(lián)網(wǎng)領(lǐng)域。
【背景技術(shù)】
[0002]隨著電子商務市場的不斷發(fā)展,網(wǎng)絡上針對產(chǎn)品的評論信息和權(quán)威門戶網(wǎng)站的測評越來越多。這些信息對于企業(yè)提升產(chǎn)品質(zhì)量、制定營銷策略和企業(yè)市場產(chǎn)略都有極大的參考意義。
[0003]然而,傳統(tǒng)的產(chǎn)品調(diào)研往往采用的諸如專家訪談,調(diào)查問卷等手段往往局限于企業(yè)人力和財力的限制,受制于調(diào)研樣本的大小,常常不能完整全面準確的反映市場全貌,因而對企業(yè)和商家的決策造成錯誤引導。更為嚴重的是,無論多么準確的產(chǎn)品調(diào)研,都需長時間的收集數(shù)據(jù)和整理數(shù)據(jù)的過程,嚴重滯后于市場變化,使企業(yè)不能及時地根據(jù)市場變化做出正確的調(diào)整決策。
[0004]針對以上問題,基于互聯(lián)網(wǎng)資源,自動獲取網(wǎng)絡上和待調(diào)研產(chǎn)品的相關(guān)信息和評論信息,采用數(shù)據(jù)挖掘和自然語言處理技術(shù),對這些產(chǎn)品相關(guān)信息資源進行分析和挖掘,快速形成關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場口碑分析、不同產(chǎn)品對比分析、用戶群體分析等不同側(cè)面的分析調(diào)研結(jié)果。從而為產(chǎn)品分析、市場決策提供快速、堅實的支撐,實現(xiàn)對市場快速響應和降低調(diào)研成本的目標。
【發(fā)明內(nèi)容】
[0005]本發(fā)明技術(shù)解決問題:克服現(xiàn)有技術(shù)的不足,提供一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),能夠充分利用互聯(lián)網(wǎng)資源,為用戶提供關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場口碑分析、不同產(chǎn)品對比分析、用戶群體分析等不同側(cè)面的分析調(diào)研結(jié)果,從而能夠?qū)崿F(xiàn)市場快速響應和降低調(diào)研成本的目標。
[0006]本發(fā)明技術(shù)解決方案:一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于包括:信息采集模塊、信息預處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊;其中:
[0007]信息采集模塊:根據(jù)調(diào)研需求從互聯(lián)網(wǎng)收集與產(chǎn)品相關(guān)的信息,包括產(chǎn)品屬性參數(shù)、產(chǎn)品相關(guān)新聞,以及產(chǎn)品的用戶評論信息,這些信息將作為原始數(shù)據(jù)送至信息預處理模塊;根據(jù)采集數(shù)據(jù)類型的不同,信息采集模塊又分為產(chǎn)品屬性信息采集器、新聞采集器和用戶評論采集器三個子模塊;產(chǎn)品屬性信息采集器采集產(chǎn)品屬性參數(shù);新聞采集器爬取產(chǎn)品相關(guān)新聞;用戶評論采集器采集產(chǎn)品相關(guān)的用戶評論,產(chǎn)品評論中包含用戶對產(chǎn)品的情感信息;
[0008]信息預處理模塊:對信息采集模塊收集的原始數(shù)據(jù)進行清理和預處理,分別針對三類不同的數(shù)據(jù)進行預處理:對于產(chǎn)品屬性信息主要是半自動地識別產(chǎn)品特征模板,然后通過產(chǎn)品特征模板將產(chǎn)品屬性參數(shù)采集后入庫;對于產(chǎn)品相關(guān)新聞,主要采集新聞內(nèi)容、來源數(shù)據(jù),抽取新聞網(wǎng)頁的正文后入庫;對于用戶評論信息,主要采集評論的產(chǎn)品對象、評論用戶、評論內(nèi)容、時間信息;對于產(chǎn)品相關(guān)新聞和評論內(nèi)容,還需進行各種預處理,包括:中文分詞,詞性標注,依存句法分析;經(jīng)過預處理后的數(shù)據(jù)送至產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊中;
[0009]產(chǎn)品概貌分析模塊:利用已經(jīng)收集的產(chǎn)品屬性參數(shù)和產(chǎn)品相關(guān)新聞采用自動文摘技術(shù)對其進行分析,產(chǎn)生產(chǎn)品的概括性描述;其中主要分為產(chǎn)品屬性參數(shù)分析模塊和產(chǎn)品摘要模塊兩個子模塊;產(chǎn)品屬性參數(shù)分析模塊根據(jù)采集到產(chǎn)品屬性參數(shù),列出產(chǎn)品的各特征參數(shù),同時對產(chǎn)品中較為重要的屬性詞進行標識;產(chǎn)品摘要模塊,根據(jù)采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù)計算屬性詞的詞權(quán);基于詞權(quán)計算句子權(quán)重,并綜合其他各種特征,訓練文摘句識別分類器,從產(chǎn)品相關(guān)新聞集合中尋找出文摘句,生成產(chǎn)品的摘要描述;
[0010]情感分析模塊:基于已經(jīng)采集和預處理的產(chǎn)品屬性參數(shù)和產(chǎn)品的用戶評論信息,自動收集和屬性相關(guān)的情感詞,計算情感詞與屬性之間的穩(wěn)固程度,得到屬性和情感詞對模型,實現(xiàn)面向產(chǎn)品的情感分析自適應;采用情感分析技術(shù)識別出用戶評論中的觀點句,抽取出用戶對產(chǎn)品以及產(chǎn)品各不同屬性的評價和情感傾向,從而分析出用戶對產(chǎn)品的整體口碑,以及各主要屬性的口碑,從而得出對產(chǎn)品各不同側(cè)面的分析結(jié)果;同時,通過比較用戶對不同產(chǎn)品及其不同屬性的口碑,不同產(chǎn)品進行對比分析,得出對比分析結(jié)果;
[0011]用戶行為分析模塊:基于收集的用戶評論信息中包含的產(chǎn)品、用戶、評論內(nèi)容、評論時間等信息,同時基于情感分析模塊產(chǎn)生的用戶評論情感分析結(jié)果,形成四元組〈U, Ρ,Α, S〉,其中U表示用戶,P表示產(chǎn)品,A表示產(chǎn)品屬性,S表示情感極值?;谒脑M集合,對每個用戶進行描述;然后對用戶的行為進行聚類分析,得到相似用戶簇,從而實現(xiàn)產(chǎn)品用戶的細分;同時,對這些不同的相似用戶簇進行摘要分析,得出各個不同用戶群體主要關(guān)注的內(nèi)容,及其對產(chǎn)品各不同屬性的情感傾向;
[0012]數(shù)據(jù)展示模塊:對概貌分析模塊、情感分析模塊以及用戶分析模塊的內(nèi)容進行可視化展示,使用戶能夠方便地查看產(chǎn)品分析的結(jié)果,及分析結(jié)果對應的支持數(shù)據(jù)。
[0013]所述產(chǎn)品概貌分析模塊中,針對采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù),計算屬性詞的詞權(quán),其計算公式如下:
[0014]
【權(quán)利要求】
1.一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于包括:信息采集模塊、信息預處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊;其中: 信息采集模塊:根據(jù)調(diào)研需求從互聯(lián)網(wǎng)收集與產(chǎn)品相關(guān)的信息,包括產(chǎn)品屬性參數(shù)、產(chǎn)品相關(guān)新聞,以及產(chǎn)品的用戶評論信息,這些信息將作為原始數(shù)據(jù)送至信息預處理模塊;根據(jù)采集數(shù)據(jù)類型的不同,信息采集模塊又分為產(chǎn)品屬性信息采集器、新聞采集器和用戶評論采集器三個子模塊;產(chǎn)品屬性信息采集器采集產(chǎn)品屬性參數(shù);新聞采集器爬取產(chǎn)品相關(guān)新聞;用戶評論采集器采集產(chǎn)品相關(guān)的用戶評論,產(chǎn)品評論中包含用戶對產(chǎn)品的情感信息; 信息預處理模塊:對信息采集模塊收集的原始數(shù)據(jù)進行清理和預處理,分別針對三類不同的數(shù)據(jù)進行預處理:對于產(chǎn)品屬性信息主要是半自動地識別產(chǎn)品特征模板,然后通過產(chǎn)品特征模板將產(chǎn)品屬性參數(shù)采集后入庫;對于產(chǎn)品相關(guān)新聞,主要采集新聞內(nèi)容、來源數(shù)據(jù),抽取新聞網(wǎng)頁的正文后入庫;對于用戶評論信息,主要采集評論的產(chǎn)品對象、評論用戶、評論內(nèi)容、時間信息;對于產(chǎn)品相關(guān)新聞和評論內(nèi)容,還需進行各種預處理,包括:中文分詞,詞性標注,依存句法分析;經(jīng)過預處理后的數(shù)據(jù)送至產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊中; 產(chǎn)品概貌分析模塊:利用已經(jīng)收集的產(chǎn)品屬性參數(shù)和產(chǎn)品相關(guān)新聞采用自動文摘技術(shù)對其進行分析,產(chǎn)生產(chǎn)品的概括性描述;其中主要分為產(chǎn)品屬性參數(shù)分析模塊和產(chǎn)品摘要模塊兩個子模塊;產(chǎn)品屬性參數(shù)分析模塊根據(jù)采集到產(chǎn)品屬性參數(shù),列出產(chǎn)品的各特征參數(shù),同時對產(chǎn)品中較為重要的屬性詞進行標識;產(chǎn)品摘要模塊,根據(jù)采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù)計算屬性詞的詞權(quán);基于詞權(quán)計算句子權(quán)重,并綜合其他各種特征,訓練文摘句識別分類器,從產(chǎn)品相關(guān)新聞集合中尋找出文摘句,生成產(chǎn)品的摘要描述; 情感分析模塊:基于已經(jīng)采集和預處理的產(chǎn)品屬性參數(shù)和產(chǎn)品的用戶評論信息,自動收集和屬性相關(guān)的情感詞,計算情感詞與屬性之間的穩(wěn)固程度,得到屬性和情感詞對模型,實現(xiàn)面向產(chǎn)品的情感分析自適應;采用情感分析技術(shù)識別出用戶評論中的觀點句,抽取出用戶對產(chǎn)品以及產(chǎn)品各不同屬性的評價和情感傾向,從而分析出用戶對產(chǎn)品的整體口碑,以及各主要屬性的口碑,從而得出對產(chǎn)品各不同側(cè)面的分析結(jié)果;同時,通過比較用戶對不同產(chǎn)品及其不同屬性的口碑,不同產(chǎn)品進行對比分析,得出對比分析結(jié)果; 用戶行為分析模塊:基于收集的用戶評論信息中包含的產(chǎn)品、用戶、評論內(nèi)容、評論時間等信息,同時基于情感分析模塊產(chǎn)生的用戶評論情感分析結(jié)果,形成四元組〈U,Ρ,Α, S〉,其中U表示用戶,P表示產(chǎn)品,A表示產(chǎn)品屬性,S表示情感極值。基于四元組集合,對每個用戶進行描述;然后對用戶的行為進行聚類分析,得到相似用戶簇,從而實現(xiàn)產(chǎn)品用戶的細分;同時,對這些不同的相似用戶簇進行摘要分析,得出各個不同用戶群體主要關(guān)注的內(nèi)容,及其對產(chǎn)品各不同屬性的情感傾向; 數(shù)據(jù)展示模塊:對概貌分析模塊、情感分析模塊以及用戶分析模塊的內(nèi)容進行可視化展示,使用戶能夠方便地查看產(chǎn)品分析的結(jié)果,及分析結(jié)果對應的支持數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:所述產(chǎn)品概貌分析模塊中,針對采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù),計算屬性詞的詞權(quán),其計算公式如下:
3.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:所述產(chǎn)品概貌分析模塊中,基于詞權(quán)計算句子權(quán)重,并綜合其他各種特征,訓練文摘句識別分類器,從產(chǎn)品相關(guān)新聞集合中尋找出文摘句,生成產(chǎn)品的摘要描述中的特征包括:句子權(quán)重、句子長度、是否陳述句、句子位置、與標題相似度、與中心句相似性,是否包含指示性短語,其中,句子權(quán)重是基于詞權(quán)將句子中包含的各屬性詞的權(quán)重加和,其計算公式如下:
4.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:在情感分析模塊中,所述自動收集和產(chǎn)品屬性詞相關(guān)的情感詞是計算情感詞與產(chǎn)品屬性詞之間的PMI值,從而確定情感詞與屬性詞之間的連接強度;所述PMI值的計算公式如下:
5.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:在情感分析模塊中,所述采用情感分析技術(shù)識別出用戶評論中的觀點句過程為:首先抽取和觀點句相關(guān)的4種特征,包括觀點主張詞、觀點指示詞、觀點持有者和目標,訓練處觀點句識別分類器,能夠?qū)π碌木渥舆M行分類,判斷其是否觀點句。
6.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:在用戶行為分析模塊中,所述相似用戶簇的獲取過程是:(I)基于情感分析結(jié)果,對已經(jīng)收集的每條用戶評論信息構(gòu)建相應的四元組〈U,P, A, S〉,其中U表示用戶,P表示產(chǎn)品,A表示產(chǎn)品屬性,S表示情感極值;(2)形成對每個用戶的描述,即收集每個用戶相關(guān)的四元組,形成每個用戶對應的四元組集合,它們可看作是用戶的描述;(3)基于用戶的描述集合,對用戶進行聚類分析,形成相似用戶簇;(4)最后,對相似用戶簇進行描述:基于每個相似用戶簇中的四元組集合,從中挑選出最能描述用戶簇的N個屬性詞及情感詞對。
【文檔編號】G06F17/30GK103678564SQ201310659651
【公開日】2014年3月26日 申請日期:2013年12月9日 優(yōu)先權(quán)日:2013年12月9日
【發(fā)明者】劉春陽, 程工, 龐琳, 張旭, 巢文涵, 周慶, 李舟軍 申請人:國家計算機網(wǎng)絡與信息安全管理中心, 北京航空航天大學