一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)的制作方法

文檔序號：6522857閱讀：237來源：國知局

一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)的制作方法
【專利摘要】一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，由6個模塊組成：信息采集模塊、信息預處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊。系統(tǒng)通過自動采集互聯(lián)網(wǎng)上各類關(guān)于產(chǎn)品的信息，經(jīng)過預處理之后，采用數(shù)據(jù)挖掘和自然語言處理技術(shù)進行綜合分析，從而快速形成關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場口碑分析、不同產(chǎn)品對比分析、用戶群體分析等不同側(cè)面的分析結(jié)果，為產(chǎn)品分析、市場決策提供快速、堅實的支撐。本發(fā)明充分利用互聯(lián)網(wǎng)信息資源優(yōu)勢，能夠根據(jù)用戶需求對產(chǎn)品進行調(diào)研，不但可以節(jié)約調(diào)研所需的人力物力，還能夠及時反映跟蹤市場動態(tài)。
【專利說明】—種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)及方法，屬于數(shù)據(jù)挖掘、文本信息處理和互聯(lián)網(wǎng)領(lǐng)域。
【背景技術(shù)】
[0002]隨著電子商務市場的不斷發(fā)展，網(wǎng)絡上針對產(chǎn)品的評論信息和權(quán)威門戶網(wǎng)站的測評越來越多。這些信息對于企業(yè)提升產(chǎn)品質(zhì)量、制定營銷策略和企業(yè)市場產(chǎn)略都有極大的參考意義。
[0003]然而，傳統(tǒng)的產(chǎn)品調(diào)研往往采用的諸如專家訪談，調(diào)查問卷等手段往往局限于企業(yè)人力和財力的限制，受制于調(diào)研樣本的大小，常常不能完整全面準確的反映市場全貌，因而對企業(yè)和商家的決策造成錯誤引導。更為嚴重的是，無論多么準確的產(chǎn)品調(diào)研，都需長時間的收集數(shù)據(jù)和整理數(shù)據(jù)的過程，嚴重滯后于市場變化，使企業(yè)不能及時地根據(jù)市場變化做出正確的調(diào)整決策。
[0004]針對以上問題，基于互聯(lián)網(wǎng)資源，自動獲取網(wǎng)絡上和待調(diào)研產(chǎn)品的相關(guān)信息和評論信息，采用數(shù)據(jù)挖掘和自然語言處理技術(shù)，對這些產(chǎn)品相關(guān)信息資源進行分析和挖掘，快速形成關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場口碑分析、不同產(chǎn)品對比分析、用戶群體分析等不同側(cè)面的分析調(diào)研結(jié)果。從而為產(chǎn)品分析、市場決策提供快速、堅實的支撐，實現(xiàn)對市場快速響應和降低調(diào)研成本的目標。

【發(fā)明內(nèi)容】

[0005]本發(fā)明技術(shù)解決問題:克服現(xiàn)有技術(shù)的不足，提供一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，能夠充分利用互聯(lián)網(wǎng)資源，為用戶提供關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場口碑分析、不同產(chǎn)品對比分析、用戶群體分析等不同側(cè)面的分析調(diào)研結(jié)果，從而能夠?qū)崿F(xiàn)市場快速響應和降低調(diào)研成本的目標。
[0006]本發(fā)明技術(shù)解決方案:一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，其特征在于包括:信息采集模塊、信息預處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊；其中:
[0007]信息采集模塊:根據(jù)調(diào)研需求從互聯(lián)網(wǎng)收集與產(chǎn)品相關(guān)的信息，包括產(chǎn)品屬性參數(shù)、產(chǎn)品相關(guān)新聞，以及產(chǎn)品的用戶評論信息，這些信息將作為原始數(shù)據(jù)送至信息預處理模塊；根據(jù)采集數(shù)據(jù)類型的不同，信息采集模塊又分為產(chǎn)品屬性信息采集器、新聞采集器和用戶評論采集器三個子模塊；產(chǎn)品屬性信息采集器采集產(chǎn)品屬性參數(shù)；新聞采集器爬取產(chǎn)品相關(guān)新聞；用戶評論采集器采集產(chǎn)品相關(guān)的用戶評論，產(chǎn)品評論中包含用戶對產(chǎn)品的情感信息；
[0008]信息預處理模塊:對信息采集模塊收集的原始數(shù)據(jù)進行清理和預處理，分別針對三類不同的數(shù)據(jù)進行預處理:對于產(chǎn)品屬性信息主要是半自動地識別產(chǎn)品特征模板，然后通過產(chǎn)品特征模板將產(chǎn)品屬性參數(shù)采集后入庫；對于產(chǎn)品相關(guān)新聞，主要采集新聞內(nèi)容、來源數(shù)據(jù)，抽取新聞網(wǎng)頁的正文后入庫；對于用戶評論信息，主要采集評論的產(chǎn)品對象、評論用戶、評論內(nèi)容、時間信息；對于產(chǎn)品相關(guān)新聞和評論內(nèi)容，還需進行各種預處理，包括:中文分詞，詞性標注，依存句法分析；經(jīng)過預處理后的數(shù)據(jù)送至產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊中；
[0009]產(chǎn)品概貌分析模塊:利用已經(jīng)收集的產(chǎn)品屬性參數(shù)和產(chǎn)品相關(guān)新聞采用自動文摘技術(shù)對其進行分析，產(chǎn)生產(chǎn)品的概括性描述；其中主要分為產(chǎn)品屬性參數(shù)分析模塊和產(chǎn)品摘要模塊兩個子模塊；產(chǎn)品屬性參數(shù)分析模塊根據(jù)采集到產(chǎn)品屬性參數(shù)，列出產(chǎn)品的各特征參數(shù)，同時對產(chǎn)品中較為重要的屬性詞進行標識；產(chǎn)品摘要模塊，根據(jù)采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù)計算屬性詞的詞權(quán)；基于詞權(quán)計算句子權(quán)重，并綜合其他各種特征，訓練文摘句識別分類器，從產(chǎn)品相關(guān)新聞集合中尋找出文摘句，生成產(chǎn)品的摘要描述；
[0010]情感分析模塊:基于已經(jīng)采集和預處理的產(chǎn)品屬性參數(shù)和產(chǎn)品的用戶評論信息，自動收集和屬性相關(guān)的情感詞，計算情感詞與屬性之間的穩(wěn)固程度，得到屬性和情感詞對模型，實現(xiàn)面向產(chǎn)品的情感分析自適應；采用情感分析技術(shù)識別出用戶評論中的觀點句，抽取出用戶對產(chǎn)品以及產(chǎn)品各不同屬性的評價和情感傾向，從而分析出用戶對產(chǎn)品的整體口碑，以及各主要屬性的口碑，從而得出對產(chǎn)品各不同側(cè)面的分析結(jié)果；同時，通過比較用戶對不同產(chǎn)品及其不同屬性的口碑，不同產(chǎn)品進行對比分析，得出對比分析結(jié)果；
[0011]用戶行為分析模塊:基于收集的用戶評論信息中包含的產(chǎn)品、用戶、評論內(nèi)容、評論時間等信息，同時基于情感分析模塊產(chǎn)生的用戶評論情感分析結(jié)果，形成四元組〈U, Ρ,Α, S〉,其中U表示用戶，P表示產(chǎn)品,A表示產(chǎn)品屬性,S表示情感極值?；谒脑M集合，對每個用戶進行描述；然后對用戶的行為進行聚類分析，得到相似用戶簇，從而實現(xiàn)產(chǎn)品用戶的細分；同時，對這些不同的相似用戶簇進行摘要分析，得出各個不同用戶群體主要關(guān)注的內(nèi)容，及其對產(chǎn)品各不同屬性的情感傾向；
[0012]數(shù)據(jù)展示模塊:對概貌分析模塊、情感分析模塊以及用戶分析模塊的內(nèi)容進行可視化展示，使用戶能夠方便地查看產(chǎn)品分析的結(jié)果，及分析結(jié)果對應的支持數(shù)據(jù)。
[0013]所述產(chǎn)品概貌分析模塊中，針對采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù)，計算屬性詞的詞權(quán)，其計算公式如下:
[0014]
【權(quán)利要求】
1.一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，其特征在于包括:信息采集模塊、信息預處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊；其中: 信息采集模塊:根據(jù)調(diào)研需求從互聯(lián)網(wǎng)收集與產(chǎn)品相關(guān)的信息，包括產(chǎn)品屬性參數(shù)、產(chǎn)品相關(guān)新聞，以及產(chǎn)品的用戶評論信息，這些信息將作為原始數(shù)據(jù)送至信息預處理模塊；根據(jù)采集數(shù)據(jù)類型的不同，信息采集模塊又分為產(chǎn)品屬性信息采集器、新聞采集器和用戶評論采集器三個子模塊；產(chǎn)品屬性信息采集器采集產(chǎn)品屬性參數(shù)；新聞采集器爬取產(chǎn)品相關(guān)新聞；用戶評論采集器采集產(chǎn)品相關(guān)的用戶評論，產(chǎn)品評論中包含用戶對產(chǎn)品的情感信息；信息預處理模塊:對信息采集模塊收集的原始數(shù)據(jù)進行清理和預處理，分別針對三類不同的數(shù)據(jù)進行預處理:對于產(chǎn)品屬性信息主要是半自動地識別產(chǎn)品特征模板，然后通過產(chǎn)品特征模板將產(chǎn)品屬性參數(shù)采集后入庫；對于產(chǎn)品相關(guān)新聞，主要采集新聞內(nèi)容、來源數(shù)據(jù)，抽取新聞網(wǎng)頁的正文后入庫；對于用戶評論信息，主要采集評論的產(chǎn)品對象、評論用戶、評論內(nèi)容、時間信息；對于產(chǎn)品相關(guān)新聞和評論內(nèi)容，還需進行各種預處理，包括:中文分詞，詞性標注，依存句法分析；經(jīng)過預處理后的數(shù)據(jù)送至產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊中；產(chǎn)品概貌分析模塊:利用已經(jīng)收集的產(chǎn)品屬性參數(shù)和產(chǎn)品相關(guān)新聞采用自動文摘技術(shù)對其進行分析，產(chǎn)生產(chǎn)品的概括性描述；其中主要分為產(chǎn)品屬性參數(shù)分析模塊和產(chǎn)品摘要模塊兩個子模塊；產(chǎn)品屬性參數(shù)分析模塊根據(jù)采集到產(chǎn)品屬性參數(shù)，列出產(chǎn)品的各特征參數(shù)，同時對產(chǎn)品中較為重要的屬性詞進行標識；產(chǎn)品摘要模塊，根據(jù)采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù)計算屬性詞的詞權(quán)；基于詞權(quán)計算句子權(quán)重，并綜合其他各種特征，訓練文摘句識別分類器，從產(chǎn)品相關(guān)新聞集合中尋找出文摘句，生成產(chǎn)品的摘要描述；情感分析模塊:基于已經(jīng)采集和預處理的產(chǎn)品屬性參數(shù)和產(chǎn)品的用戶評論信息，自動收集和屬性相關(guān)的情感詞，計算情感詞與屬性之間的穩(wěn)固程度，得到屬性和情感詞對模型，實現(xiàn)面向產(chǎn)品的情感分析自適應；采用情感分析技術(shù)識別出用戶評論中的觀點句，抽取出用戶對產(chǎn)品以及產(chǎn)品各不同屬性的評價和情感傾向，從而分析出用戶對產(chǎn)品的整體口碑，以及各主要屬性的口碑，從而得出對產(chǎn)品各不同側(cè)面的分析結(jié)果；同時，通過比較用戶對不同產(chǎn)品及其不同屬性的口碑，不同產(chǎn)品進行對比分析，得出對比分析結(jié)果；用戶行為分析模塊:基于收集的用戶評論信息中包含的產(chǎn)品、用戶、評論內(nèi)容、評論時間等信息，同時基于情感分析模塊產(chǎn)生的用戶評論情感分析結(jié)果，形成四元組〈U，Ρ,Α, S〉，其中U表示用戶，P表示產(chǎn)品，A表示產(chǎn)品屬性，S表示情感極值。基于四元組集合，對每個用戶進行描述；然后對用戶的行為進行聚類分析，得到相似用戶簇，從而實現(xiàn)產(chǎn)品用戶的細分；同時，對這些不同的相似用戶簇進行摘要分析，得出各個不同用戶群體主要關(guān)注的內(nèi)容，及其對產(chǎn)品各不同屬性的情感傾向；數(shù)據(jù)展示模塊:對概貌分析模塊、情感分析模塊以及用戶分析模塊的內(nèi)容進行可視化展示，使用戶能夠方便地查看產(chǎn)品分析的結(jié)果，及分析結(jié)果對應的支持數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，其特征在于:所述產(chǎn)品概貌分析模塊中，針對采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù)，計算屬性詞的詞權(quán)，其計算公式如下:
3.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，其特征在于:所述產(chǎn)品概貌分析模塊中，基于詞權(quán)計算句子權(quán)重，并綜合其他各種特征，訓練文摘句識別分類器，從產(chǎn)品相關(guān)新聞集合中尋找出文摘句，生成產(chǎn)品的摘要描述中的特征包括:句子權(quán)重、句子長度、是否陳述句、句子位置、與標題相似度、與中心句相似性，是否包含指示性短語，其中，句子權(quán)重是基于詞權(quán)將句子中包含的各屬性詞的權(quán)重加和，其計算公式如下:

4.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，其特征在于:在情感分析模塊中，所述自動收集和產(chǎn)品屬性詞相關(guān)的情感詞是計算情感詞與產(chǎn)品屬性詞之間的PMI值，從而確定情感詞與屬性詞之間的連接強度；所述PMI值的計算公式如下:

5.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，其特征在于:在情感分析模塊中，所述采用情感分析技術(shù)識別出用戶評論中的觀點句過程為:首先抽取和觀點句相關(guān)的4種特征,包括觀點主張詞、觀點指示詞、觀點持有者和目標,訓練處觀點句識別分類器，能夠?qū)π碌木渥舆M行分類，判斷其是否觀點句。
6.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)，其特征在于:在用戶行為分析模塊中，所述相似用戶簇的獲取過程是:(I)基于情感分析結(jié)果，對已經(jīng)收集的每條用戶評論信息構(gòu)建相應的四元組〈U，P, A, S〉，其中U表示用戶，P表示產(chǎn)品，A表示產(chǎn)品屬性，S表示情感極值；(2)形成對每個用戶的描述，即收集每個用戶相關(guān)的四元組，形成每個用戶對應的四元組集合，它們可看作是用戶的描述；(3)基于用戶的描述集合，對用戶進行聚類分析，形成相似用戶簇；(4)最后，對相似用戶簇進行描述:基于每個相似用戶簇中的四元組集合，從中挑選出最能描述用戶簇的N個屬性詞及情感詞對。
【文檔編號】G06F17/30GK103678564SQ201310659651
【公開日】2014年3月26日申請日期:2013年12月9日優(yōu)先權(quán)日:2013年12月9日
【發(fā)明者】劉春陽, 程工, 龐琳, 張旭, 巢文涵, 周慶, 李舟軍申請人:國家計算機網(wǎng)絡與信息安全管理中心, 北京航空航天大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉春陽;程工;龐琳;張旭;巢文涵;周慶;李舟軍
技術(shù)所有人：國家計算機網(wǎng)絡與信息安全管理中心;北京航空航天大學
我是此專利的發(fā)明人

上一篇：考慮隱性故障的單一保護裝置可靠性評估方法
上一篇：基于標簽傳播的交互式形狀協(xié)同分割方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

互聯(lián)網(wǎng)數(shù)據(jù)挖掘相關(guān)技術(shù)

數(shù)據(jù)挖掘系統(tǒng)包括相關(guān)技術(shù)

數(shù)據(jù)挖掘系統(tǒng)架構(gòu)圖相關(guān)技術(shù)

中國數(shù)據(jù)挖掘系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)的制作方法