本發(fā)明涉及數(shù)據(jù)挖掘和自然語言處理,特別是基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法及系統(tǒng)。
背景技術(shù):
1、在當(dāng)今數(shù)字化時(shí)代,在線評(píng)論數(shù)據(jù)逐漸成為了解客戶需求和行為的重要資源,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,電子商務(wù)平臺(tái)和社交媒體的普及使得用戶能夠通過在線評(píng)論表達(dá)他們對(duì)產(chǎn)品和服務(wù)的滿意度、建議以及不滿,這些評(píng)論數(shù)據(jù)由于其直接來源于用戶的真實(shí)體驗(yàn),具有較高的價(jià)值,面對(duì)海量且非結(jié)構(gòu)化的評(píng)論數(shù)據(jù),傳統(tǒng)的客戶需求識(shí)別方法顯得力不從心,為了有效地從這些評(píng)論中挖掘出有價(jià)值的客戶需求,研究人員提出了多種基于自然語言處理(nlp)、機(jī)器學(xué)習(xí)(ml)和大數(shù)據(jù)技術(shù)的分析方法,這些方法能夠自動(dòng)化地處理和分析評(píng)論數(shù)據(jù),從中識(shí)別出隱藏的模式和趨勢(shì),從而幫助企業(yè)更好地了解市場(chǎng)需求并優(yōu)化產(chǎn)品和服務(wù)。
2、現(xiàn)有技術(shù)在基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方面仍存在諸多不足之處,評(píng)論數(shù)據(jù)通常包含大量噪聲信息,如重復(fù)評(píng)論、無關(guān)內(nèi)容以及非文本元素,這些噪聲信息會(huì)干擾模型的準(zhǔn)確性,導(dǎo)致識(shí)別結(jié)果不準(zhǔn)確,評(píng)論數(shù)據(jù)往往是異構(gòu)的,來自不同平臺(tái)的評(píng)論數(shù)據(jù)格式和語言各異,現(xiàn)有技術(shù)在提取評(píng)論中的關(guān)鍵需求特征時(shí),普遍依賴于簡單的詞頻統(tǒng)計(jì)方法,忽略了評(píng)論中潛在的語義信息和上下文關(guān)聯(lián)性,無法全面反映客戶的真實(shí)需求,這些不足導(dǎo)致了當(dāng)前技術(shù)在客戶需求識(shí)別的精度和可靠性方面的局限性。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有的基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法及系統(tǒng)中存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明所要解決的問題在于評(píng)論數(shù)據(jù)通常包含大量噪聲信息,如重復(fù)評(píng)論、無關(guān)內(nèi)容以及非文本元素,這些噪聲信息會(huì)干擾模型的準(zhǔn)確性,導(dǎo)致識(shí)別結(jié)果不準(zhǔn)確,評(píng)論數(shù)據(jù)往往是異構(gòu)的,來自不同平臺(tái)的評(píng)論數(shù)據(jù)格式和語言各異,現(xiàn)有技術(shù)在提取評(píng)論中的關(guān)鍵需求特征時(shí),普遍依賴于簡單的詞頻統(tǒng)計(jì)方法,忽略了評(píng)論中潛在的語義信息和上下文關(guān)聯(lián)性,無法全面反映客戶的真實(shí)需求,這些不足導(dǎo)致了當(dāng)前技術(shù)在客戶需求識(shí)別的精度和可靠性方面的局限性。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法,其包括,獲取在線評(píng)論數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)化處理,將標(biāo)準(zhǔn)化處理后的在線評(píng)論數(shù)據(jù)集進(jìn)行去噪處理;提取去噪后的在線評(píng)論數(shù)據(jù)特征,構(gòu)建支持向量機(jī)svm模型進(jìn)行客戶需求識(shí)別;構(gòu)建可視化界面實(shí)時(shí)展示客戶需求識(shí)別的結(jié)果,將在線評(píng)論數(shù)據(jù)進(jìn)行安全存儲(chǔ)并實(shí)施訪問控制。
4、作為本發(fā)明所述基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法的一種優(yōu)選方案,其中:所述獲取在線評(píng)論數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)化處理指使用爬蟲工具從在線平臺(tái)中獲取客戶在線評(píng)論數(shù)據(jù),形成原始數(shù)據(jù)集,所述在線平臺(tái)包括電子商務(wù)和社交媒體平臺(tái);
5、使用在線翻譯api將原始數(shù)據(jù)集統(tǒng)一語言并進(jìn)行標(biāo)準(zhǔn)化處理,包括使用jieba分詞工具對(duì)客戶在線評(píng)論數(shù)據(jù)集進(jìn)行分詞處理去除停用詞,使用文本去重算法檢測(cè)并刪除客戶在線評(píng)論數(shù)據(jù)集的重復(fù)評(píng)論,使用正則表達(dá)式匹配對(duì)客戶在線評(píng)論數(shù)據(jù)集進(jìn)行去除html標(biāo)簽、表情符號(hào)及非文本內(nèi)容,形成統(tǒng)一的在線評(píng)論數(shù)據(jù)集。
6、作為本發(fā)明所述基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法的一種優(yōu)選方案,其中:所述對(duì)標(biāo)準(zhǔn)化后的在線評(píng)論數(shù)據(jù)集進(jìn)行分詞處理,使用預(yù)訓(xùn)練的詞嵌入模型word2vec將每條評(píng)論ai中的第j個(gè)詞語轉(zhuǎn)換為對(duì)應(yīng)的詞向量aij,并計(jì)算每條評(píng)論ai的均值bi、標(biāo)準(zhǔn)差ci以及方差fi;
7、計(jì)算每個(gè)詞語t在評(píng)論ai中的tf-idf值并按照從大到小進(jìn)行排序,選擇前o個(gè)作為評(píng)論ai的關(guān)鍵詞組成關(guān)鍵詞集合ki={t1,t2,…,to},其中to為第o個(gè)tf-idf值,分別計(jì)算關(guān)鍵詞集合ki的均值μk和標(biāo)準(zhǔn)差σk以及相對(duì)于在線評(píng)論數(shù)據(jù)集整體關(guān)鍵詞的偏離度pi;
8、使用vader情感分析器對(duì)每條評(píng)論ai進(jìn)行情感分析得到情感得分si;
9、構(gòu)建噪聲識(shí)別函數(shù),公式為:
10、
11、其中ei為第i條評(píng)論的噪聲識(shí)別值;
12、基于噪聲識(shí)別值ei和評(píng)論方差fi計(jì)算每條評(píng)論的噪聲削弱權(quán)重gi,公式為:
13、
14、使用噪聲削弱權(quán)重gi對(duì)評(píng)論ai進(jìn)行調(diào)整,得到削弱后的評(píng)論ai';
15、計(jì)算削弱后所有評(píng)論數(shù)據(jù)的全局均值b和標(biāo)準(zhǔn)差σ,使用標(biāo)準(zhǔn)正態(tài)分布積分對(duì)削弱后的評(píng)論ai'計(jì)算標(biāo)準(zhǔn)正態(tài)分布積分值,公式為:
16、
17、其中hi為第i條評(píng)論在區(qū)間[c,d]內(nèi)得到標(biāo)準(zhǔn)正態(tài)分布積分值,c和d分別為積分的下限和上限;
18、設(shè)定判斷閾值t,將大于判斷閾值t的標(biāo)準(zhǔn)正態(tài)分布積分值hi,作為正常分布的數(shù)據(jù)ai”,刪除小于且等于判斷閾值t的標(biāo)準(zhǔn)正態(tài)分布積分值hi;
19、計(jì)算正常分布的數(shù)據(jù)ai”的均值μk和方差σk,計(jì)算時(shí)間相關(guān)性調(diào)整系數(shù)n(k)和每個(gè)時(shí)間段k的時(shí)間相關(guān)噪聲特征hk;
20、計(jì)算所有時(shí)間段的時(shí)間相關(guān)噪聲特征hk的均值μh,對(duì)每個(gè)時(shí)間段的噪聲進(jìn)行處理,得到處理后的噪聲影響結(jié)果f(hk),公式為:
21、
22、其中β為調(diào)節(jié)參數(shù);
23、結(jié)合時(shí)間相關(guān)性調(diào)整系數(shù)n(k)和處理后的噪聲影響結(jié)果f(hk),對(duì)整體時(shí)間段內(nèi)的正常分布的數(shù)據(jù)ai”進(jìn)行處理,得到處理后的數(shù)據(jù)集ik,公式為:
24、
25、其中m為時(shí)間段的總數(shù)量,k為第k個(gè)時(shí)間段,t為時(shí)間段的總時(shí)長;
26、構(gòu)建在線評(píng)論數(shù)據(jù)去噪公式,公式為:
27、
28、其中j為去噪后的在線評(píng)論數(shù)據(jù)集,a和b分別為正態(tài)分布積分的上下限。
29、作為本發(fā)明所述基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法的一種優(yōu)選方案,其中:所述提取去噪后的在線評(píng)論數(shù)據(jù)特征指從去噪后的在線評(píng)論數(shù)據(jù)集j提取去噪后的在線評(píng)論數(shù)據(jù);
30、使用hugging?face的transformers庫加載預(yù)訓(xùn)練的bert模型,將去噪后的在線評(píng)論數(shù)據(jù)輸入預(yù)訓(xùn)練的bert模型得到高維特征向量;
31、對(duì)預(yù)訓(xùn)練的bert輸出的高維向量進(jìn)行標(biāo)準(zhǔn)化處理,計(jì)算標(biāo)準(zhǔn)化處理后的高維特征向量的協(xié)方差矩陣,對(duì)協(xié)方差矩陣進(jìn)行特征分解,求解出特征值和對(duì)應(yīng)的特征向量,將對(duì)應(yīng)的特征向量按照從大到小排序,基于歷史對(duì)應(yīng)的特征向量設(shè)定選擇閾值e,選擇大于選擇閾值e的特征向量,生成在線評(píng)論數(shù)據(jù)特征向量,刪除小于且等于閾值e的特征向量。
32、作為本發(fā)明所述基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法的一種優(yōu)選方案,其中:所述構(gòu)建支持向量機(jī)svm模型進(jìn)行客戶需求識(shí)別指收集具有標(biāo)注的客戶歷史在線評(píng)論數(shù)據(jù)進(jìn)行去噪處理和特征提取,生成訓(xùn)練集;
33、構(gòu)建支持向量機(jī)svm模型,包括輸入層、隱藏層、決策層和輸出層;
34、設(shè)定輸入層為在線評(píng)論數(shù)據(jù)特征向量;
35、使用訓(xùn)練集對(duì)支持向量機(jī)svm模型進(jìn)行訓(xùn)練,使用損失函數(shù)和adam優(yōu)化器進(jìn)行模型參數(shù)迭代優(yōu)化;
36、將在線評(píng)論數(shù)據(jù)特征向量輸入到訓(xùn)練好的支持向量機(jī)svm模型中,得到客戶需求的分類結(jié)果。
37、作為本發(fā)明所述基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法的一種優(yōu)選方案,其中:所述構(gòu)建可視化界面實(shí)時(shí)展示客戶需求識(shí)別的結(jié)果指使用可視化工具python的dash框架構(gòu)建可視化界面,使用數(shù)據(jù)可視化工具實(shí)時(shí)展示客戶需求的分類結(jié)果,允許通過實(shí)名驗(yàn)證的用戶進(jìn)行查閱。
38、作為本發(fā)明所述基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法的一種優(yōu)選方案,其中:所述將在線評(píng)論數(shù)據(jù)進(jìn)行安全存儲(chǔ)并實(shí)施訪問控制指將在線評(píng)論數(shù)據(jù)的客戶需求的分類結(jié)果和時(shí)間戳存儲(chǔ)至數(shù)據(jù)庫中,并設(shè)置安全訪問措施,數(shù)據(jù)庫將存儲(chǔ)數(shù)據(jù)進(jìn)行云端備份,并定期對(duì)存儲(chǔ)數(shù)據(jù)和備份數(shù)據(jù)進(jìn)行完整性檢測(cè),檢測(cè)完畢后生成完整性檢測(cè)記錄同步存儲(chǔ)至數(shù)據(jù)庫中。
39、本發(fā)明的另外一個(gè)目的是提供基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別系統(tǒng),其包括,
40、獲取處理模塊,用于獲取在線評(píng)論數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)化處理,將標(biāo)準(zhǔn)化處理后的在線評(píng)論數(shù)據(jù)集進(jìn)行去噪處理;
41、提取構(gòu)建模塊,用于提取去噪后的在線評(píng)論數(shù)據(jù)特征,構(gòu)建支持向量機(jī)svm模型進(jìn)行客戶需求識(shí)別;
42、構(gòu)建存儲(chǔ)模塊,用于構(gòu)建可視化界面實(shí)時(shí)展示客戶需求識(shí)別的結(jié)果,將在線評(píng)論數(shù)據(jù)進(jìn)行安全存儲(chǔ)并實(shí)施訪問控制。
43、一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器和處理器;所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法的步驟。
44、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于在線評(píng)論數(shù)據(jù)的客戶需求識(shí)別方法的步驟。
45、本發(fā)明有益效果為:本發(fā)明通過獲取在線評(píng)論數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)化處理,將標(biāo)準(zhǔn)化處理后的在線評(píng)論數(shù)據(jù)集進(jìn)行去噪處理,提取去噪后的在線評(píng)論數(shù)據(jù)特征,構(gòu)建支持向量機(jī)svm模型進(jìn)行客戶需求識(shí)別,提高了數(shù)據(jù)處理的準(zhǔn)確性和效率,增強(qiáng)了對(duì)用戶需求的理解能力,提升客戶需求識(shí)別的準(zhǔn)確率魯棒性。