1.一種基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測(cè)分析系統(tǒng),其特征在于,包括:
文本數(shù)據(jù)規(guī)范化模塊,用于將錄入的文本數(shù)據(jù)轉(zhuǎn)成統(tǒng)一規(guī)則的規(guī)范化數(shù)據(jù)模式;
規(guī)范化數(shù)據(jù)分析預(yù)警模塊,用于通過建立投訴分析等級(jí)聚類模型對(duì)規(guī)范化數(shù)據(jù)模式進(jìn)行分析,根據(jù)聚類結(jié)果劃分投訴風(fēng)險(xiǎn)等級(jí),根據(jù)風(fēng)險(xiǎn)所在等級(jí)發(fā)出相應(yīng)的預(yù)警。
2.根據(jù)權(quán)利要求1所述的基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測(cè)分析系統(tǒng),其特征在于,文本數(shù)據(jù)規(guī)范化模塊包括:
文本初始處理單元,用于對(duì)錄入的文本數(shù)據(jù)進(jìn)行分詞和去噪處理,獲得各個(gè)文本數(shù)據(jù)中的關(guān)鍵詞;
文本特征向量化單元,用于將各個(gè)關(guān)鍵詞進(jìn)行向量化并作歸一化處理,獲得由各個(gè)關(guān)鍵詞Wi在文件dj中的向量化歸一化結(jié)果建立的實(shí)數(shù)值矩陣,關(guān)鍵詞Wi在文件dj中的向量化歸一化結(jié)果為:
式中:N表示文件總數(shù)量;Ni表示包含關(guān)鍵詞Wi的文件數(shù)量;n為關(guān)鍵詞總次數(shù);Wi為第i個(gè)關(guān)鍵詞;dj表示第j個(gè)文件;tfij為關(guān)鍵詞Wi在文件dj中的詞頻;為所有關(guān)鍵詞在文件dj中的詞頻平方和;為文件總數(shù)量與包含關(guān)鍵詞Wi文件的數(shù)量比值加上調(diào)整項(xiàng)0.01后取對(duì)數(shù);
文本數(shù)據(jù)相似性匹配單元,用于根據(jù)建立的實(shí)數(shù)值矩陣,利用余弦定理計(jì)算各關(guān)鍵詞間的余弦相似度,并將余弦距離最近的文本數(shù)據(jù)進(jìn)行匹配,形成近義詞詞庫;
規(guī)范化數(shù)據(jù)生成單元,用于將匹配好的文本數(shù)據(jù)按照設(shè)定的統(tǒng)一規(guī)范化模式生成規(guī)范化數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測(cè)分析系統(tǒng),其特征在于,規(guī)范化數(shù)據(jù)分析預(yù)警模塊包括:
情感傾向度計(jì)算單元,用于對(duì)規(guī)范化數(shù)據(jù)進(jìn)行情感判斷并劃分為積極、消極和中心三類;
投訴風(fēng)險(xiǎn)等級(jí)劃分單元,用于根據(jù)客戶等級(jí)、業(yè)務(wù)類型、積極傾向度以及投訴歷史參數(shù)建立投訴分析等級(jí)聚類模型,并根據(jù)聚類結(jié)果制定投訴風(fēng)險(xiǎn)等級(jí)規(guī)則;
投訴分析預(yù)警單元,用于根據(jù)制定的投訴風(fēng)險(xiǎn)等級(jí)規(guī)則,選擇模型變量參數(shù),利用貝葉斯分類建立分類學(xué)習(xí)模型,通過對(duì)分類學(xué)習(xí)模型的訓(xùn)練實(shí)現(xiàn)對(duì)未知文本數(shù)據(jù)的投訴風(fēng)險(xiǎn)等級(jí)的預(yù)測(cè)。
4.根據(jù)權(quán)利要求3所述的基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測(cè)分析系統(tǒng),其特征在于,情感傾向度計(jì)算單元的具體工作步驟為:
(1)建立連詞和否定詞詞典庫;
(2)根據(jù)連詞和否定詞詞典庫從規(guī)范化數(shù)據(jù)中抽取連詞和否定詞,并標(biāo)記相應(yīng)詞在規(guī)范化數(shù)據(jù)中的位置;
(3)匹配現(xiàn)有的情感詞典庫,獲得詞匯的極性及其情感評(píng)分值;
(4)通過連詞位置,確定前句與后句所占比重,再根據(jù)否定詞位置判斷雙重否定以及鄰近詞匯的極性反轉(zhuǎn);
(5)利用詞匯的極性及其情感評(píng)分值帶入連詞和否定詞后對(duì)規(guī)范化數(shù)據(jù)進(jìn)行累加獲得情感計(jì)算評(píng)分;
(6)循環(huán)步驟(2)至(5),若情感計(jì)算評(píng)分為正則為積極,為負(fù)則為消極,否則為中心。
5.根據(jù)權(quán)利要求3所述的基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測(cè)分析系統(tǒng),其特征在于,投訴風(fēng)險(xiǎn)等級(jí)規(guī)則用于根據(jù)聚類結(jié)果將投訴風(fēng)險(xiǎn)等級(jí)劃分為高危極、危險(xiǎn)級(jí)、有投訴傾向級(jí)、一般級(jí)以及無投訴傾向級(jí)這五個(gè)風(fēng)險(xiǎn)等級(jí)。
6.根據(jù)權(quán)利要求3所述的基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測(cè)分析系統(tǒng),其特征在于,規(guī)范化數(shù)據(jù)分析預(yù)警模塊還包括:
模型驗(yàn)證單元,用于將驗(yàn)證集數(shù)據(jù)輸入建立的分類學(xué)習(xí)模型,獲得驗(yàn)證集數(shù)據(jù)中各文本數(shù)據(jù)的投訴風(fēng)險(xiǎn)等級(jí),并將結(jié)果集與驗(yàn)證集數(shù)據(jù)中對(duì)應(yīng)的等級(jí)數(shù)據(jù)進(jìn)行比對(duì),計(jì)算模型預(yù)測(cè)的正確率。