本發(fā)明涉及電子數(shù)據(jù)處理,尤其涉及一種基于ernie模型的購車意圖識別系統(tǒng)。
背景技術(shù):
1、隨著數(shù)字技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,二手車市場經(jīng)歷了從傳統(tǒng)線下交易到線上平臺交易的轉(zhuǎn)變,在這個過程中,大量的用戶行為數(shù)據(jù)和交流信息被生成,為企業(yè)提供了深入了解客戶需求和優(yōu)化服務(wù)的機會,目前,市場上的二手車交易平臺主要依賴用戶直接輸入的數(shù)據(jù)來進行客戶意圖的捕捉和商品推薦,無法全面捕捉到用戶的隱性需求和更深層次的購買意圖,從而導(dǎo)致服務(wù)效率和用戶滿意度的不足,目前廣泛應(yīng)用的技術(shù)主要包括關(guān)鍵詞搜索和基礎(chǔ)的數(shù)據(jù)分析方法,例如,通過分析用戶輸入的關(guān)鍵詞來推測用戶意圖,或者通過統(tǒng)計分析用戶的點擊行為來推測其偏好,這些方法往往依賴于較為直觀的數(shù)據(jù)解讀,缺乏對用戶語言和行為背后深層次意圖的理解。
2、中國專利公開號:cn117237006a公開了一種車輛營銷方法、裝置、設(shè)備和存儲介質(zhì);所述方法包括:獲取銷售人員與欲購車輛的第一用戶溝通得到的結(jié)構(gòu)化數(shù)據(jù)以及所述第一用戶在試乘試駕期間的非結(jié)構(gòu)化數(shù)據(jù);基于所述結(jié)構(gòu)化數(shù)據(jù)、所述非結(jié)構(gòu)化數(shù)據(jù)、購車知識圖譜和購車決策模型,確定所述第一用戶的購車意圖;基于所述購車意圖,確定車輛營銷策略。但該方案未針對用戶語言信息進行數(shù)據(jù)分析處理,難以提高二手車交易過程中用戶購車意圖成功識別的準(zhǔn)確率。
技術(shù)實現(xiàn)思路
1、為此,本發(fā)明提供一種基于ernie模型的購車意圖識別系統(tǒng),用以克服現(xiàn)有技術(shù)中二手車交易過程中用戶購車意圖成功識別的準(zhǔn)確率低的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述系統(tǒng)包括:
3、數(shù)據(jù)收集模塊,用以對用戶自然語言數(shù)據(jù)進行收集;
4、數(shù)據(jù)優(yōu)化模塊,用以對用戶自然語言數(shù)據(jù)進行優(yōu)化處理,得到優(yōu)化后用戶數(shù)據(jù);
5、數(shù)據(jù)預(yù)處理模塊,用以對優(yōu)化后用戶數(shù)據(jù)進行清洗,得到預(yù)處理ernie模型數(shù)據(jù),并將預(yù)處理ernie模型數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集;
6、數(shù)據(jù)模型微調(diào)模塊,用以對初步ernie模型進行微調(diào),得到微調(diào)ernie模型;
7、模型完善模塊,用以對微調(diào)ernie模型進行模型完善得到購車意圖識別模型;
8、購車意圖識別模塊,用以將實時采集的用戶自然語言數(shù)據(jù)輸入至購車意圖識別模型中,并輸出客戶意圖預(yù)測數(shù)據(jù)。
9、進一步地,所述數(shù)據(jù)優(yōu)化模塊包括:
10、數(shù)據(jù)流處理單元,用以對用戶自然語言數(shù)據(jù)進行實時處理,得到即時連續(xù)的用戶語言數(shù)據(jù);
11、數(shù)據(jù)驗證清洗單元,用以對即時連續(xù)的用戶語言數(shù)據(jù)進行驗證修復(fù),得到高質(zhì)量用戶語言數(shù)據(jù);
12、自適應(yīng)數(shù)據(jù)采集單元,用以實時調(diào)整高質(zhì)量用戶語言數(shù)據(jù)的采集頻率,得到充足高質(zhì)量用戶語言數(shù)據(jù);
13、智能化錯誤處理單元,用以自動識別所述充足高質(zhì)量用戶語言數(shù)據(jù)中的錯誤并對所述錯誤進行修復(fù),將修復(fù)后的充足高質(zhì)量用戶語言數(shù)據(jù)作為優(yōu)化后用戶數(shù)據(jù)。
14、進一步地,所述數(shù)據(jù)流處理單元使用數(shù)據(jù)流處理技術(shù)apache?kafka對用戶自然語言數(shù)據(jù)進行實時處理,得到即時連續(xù)的用戶語言數(shù)據(jù);
15、所述數(shù)據(jù)驗證清洗單元使用文字識別處理工具對即時連續(xù)的用戶語言數(shù)據(jù)格式和內(nèi)容進行驗證修復(fù),得到高質(zhì)量用戶語言數(shù)據(jù)。
16、進一步地,所述自適應(yīng)數(shù)據(jù)采集單元使用api工具對高質(zhì)量用戶語言數(shù)據(jù)采集頻率和范圍進行調(diào)整,得到充足高質(zhì)量用戶語言數(shù)據(jù);
17、所述智能化錯誤處理單元使用informatica?data?quality工具,應(yīng)用informatica?data?quality工具中的錯誤修復(fù)策略對所述充足高質(zhì)量用戶語言數(shù)據(jù)收集過程中出現(xiàn)的錯誤進行修復(fù),得到優(yōu)化后用戶數(shù)據(jù)。
18、進一步地,所述數(shù)據(jù)預(yù)處理模塊包括:
19、結(jié)構(gòu)修正單元,用以對優(yōu)化后用戶數(shù)據(jù)進行語法結(jié)構(gòu)修正,得到修正后用戶數(shù)據(jù);
20、去重復(fù)單元,用以去除修正后用戶數(shù)據(jù)中的個人重復(fù)數(shù)據(jù),得到預(yù)處理ernie模型數(shù)據(jù),并將預(yù)處理ernie模型數(shù)據(jù)劃分為訓(xùn)練集和測試集。
21、進一步地,所述結(jié)構(gòu)修正單元使用文字?jǐn)?shù)據(jù)修復(fù)工具對優(yōu)化后用戶數(shù)據(jù)進行詞匯修正、語法修正和結(jié)構(gòu)修正,得到修正后用戶數(shù)據(jù);
22、所述去重復(fù)單元通過數(shù)據(jù)處理工具對修正后用戶數(shù)據(jù)進行去重復(fù)處理,得到預(yù)處理ernie模型數(shù)據(jù),并將預(yù)處理ernie模型數(shù)據(jù)劃分為70%訓(xùn)練集、30%測試集。
23、進一步地,所述數(shù)據(jù)模型微調(diào)模塊,將預(yù)訓(xùn)練ernie模型的學(xué)習(xí)率p設(shè)置為p=p0/10,設(shè)定p0為原始學(xué)習(xí)率,得到微調(diào)ernie模型。
24、進一步地,所述模型完善模塊包括:
25、意圖識別訓(xùn)練單元,用以根據(jù)訓(xùn)練集對微調(diào)ernie模型進行訓(xùn)練,將驗證集輸入訓(xùn)練后的微調(diào)ernie模型,并輸出驗證準(zhǔn)確率k;
26、模型優(yōu)化單元,用以將驗證準(zhǔn)確率k與預(yù)設(shè)準(zhǔn)確率k0進行比對,并根據(jù)比對結(jié)果對微調(diào)ernie模型實用性進行判斷,并根據(jù)判斷結(jié)果對微調(diào)ernie模型進行輸出。
27、進一步地,所述意圖識別訓(xùn)練單元,將訓(xùn)練集輸入至微調(diào)ernie模型中進行訓(xùn)練,將驗證集輸入至訓(xùn)練后的微調(diào)ernie模型,并輸出驗證準(zhǔn)確率k,其中,設(shè)定正確驗證數(shù)量為q,驗證集樣本數(shù)為q0,驗證準(zhǔn)確率k=q/q0。
28、進一步地,所述模型優(yōu)化單元,將驗證準(zhǔn)確率k與預(yù)設(shè)準(zhǔn)確率k0進行比對,并根據(jù)比對結(jié)果對訓(xùn)練后的微調(diào)ernie模型實用性進行判斷,并根據(jù)判斷結(jié)果對微調(diào)ernie模型進行輸出,其中:
29、當(dāng)k≥k0時,判定訓(xùn)練后的微調(diào)ernie模型實用性達標(biāo),并將訓(xùn)練后的微調(diào)ernie模型作為購車意圖識別模型進行輸出;
30、當(dāng)k<k0時,判定訓(xùn)練后的微調(diào)ernie模型實用性不達標(biāo),返回數(shù)據(jù)收集模塊,獲取第二用戶自然語言數(shù)據(jù),并根據(jù)第二用戶自然語言數(shù)據(jù)對微調(diào)ernie模型進行訓(xùn)練,直至訓(xùn)練后的微調(diào)ernie模型實用性達標(biāo)。
31、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于,所述系統(tǒng)通過數(shù)據(jù)收集模塊對用戶自然語言數(shù)據(jù)進行收集,再經(jīng)過數(shù)據(jù)優(yōu)化模塊對用戶自然語言數(shù)據(jù)進行初步篩選優(yōu)化,得到優(yōu)化后用戶數(shù)據(jù),再通過數(shù)據(jù)預(yù)處理模塊,對優(yōu)化后用戶數(shù)據(jù)進行去噪聲詞,語法結(jié)構(gòu)修正和去除重復(fù)數(shù)據(jù),得到預(yù)處理ernie模型數(shù)據(jù),并將預(yù)處理ernie模型數(shù)據(jù)輸入到數(shù)據(jù)模型微調(diào)模塊生成的微調(diào)ernie模型中生成用戶初步購車意圖預(yù)測結(jié)果,通過模型完善模塊根據(jù)用戶購車意圖預(yù)測準(zhǔn)確率對模型進行進一步調(diào)整,得到一種基于ernie模型識別用戶購車意圖的模型,從而提高對用戶購車意圖的分析效率。
1.一種基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述系統(tǒng)包括:
2.根據(jù)權(quán)利要求1所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述數(shù)據(jù)優(yōu)化模塊包括:
3.根據(jù)權(quán)利要求2所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述數(shù)據(jù)流處理單元使用數(shù)據(jù)流處理技術(shù)apache?kafka對用戶自然語言數(shù)據(jù)進行實時處理,得到即時連續(xù)的用戶語言數(shù)據(jù);
4.根據(jù)權(quán)利要求3所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述自適應(yīng)數(shù)據(jù)采集單元使用api工具對高質(zhì)量用戶語言數(shù)據(jù)采集頻率和范圍進行調(diào)整,得到充足高質(zhì)量用戶語言數(shù)據(jù);
5.根據(jù)權(quán)利要求1所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述數(shù)據(jù)預(yù)處理模塊包括:
6.根據(jù)權(quán)利要求5所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述結(jié)構(gòu)修正單元使用文字?jǐn)?shù)據(jù)修復(fù)工具對優(yōu)化后用戶數(shù)據(jù)進行詞匯修正、語法修正和結(jié)構(gòu)修正,得到修正后用戶數(shù)據(jù);
7.根據(jù)權(quán)利要求1所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述數(shù)據(jù)模型微調(diào)模塊,將預(yù)訓(xùn)練ernie模型的學(xué)習(xí)率p設(shè)置為p=p0/10,設(shè)定p0為原始學(xué)習(xí)率,得到微調(diào)ernie模型。
8.根據(jù)權(quán)利要求1所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述模型完善模塊包括:
9.根據(jù)權(quán)利要求8所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述意圖識別訓(xùn)練單元,將訓(xùn)練集輸入至微調(diào)ernie模型中進行訓(xùn)練,將驗證集輸入至訓(xùn)練后的微調(diào)ernie模型,并輸出驗證準(zhǔn)確率k,其中,設(shè)定正確驗證數(shù)量為q,驗證集樣本數(shù)為q0,驗證準(zhǔn)確率k=q/q0。
10.根據(jù)權(quán)利要求9所述的基于ernie模型的購車意圖識別系統(tǒng),其特征在于,所述模型優(yōu)化單元,將驗證準(zhǔn)確率k與預(yù)設(shè)準(zhǔn)確率k0進行比對,并根據(jù)比對結(jié)果對訓(xùn)練后的微調(diào)ernie模型實用性進行判斷,并根據(jù)判斷結(jié)果對微調(diào)ernie模型進行輸出,其中: