本公開(kāi)涉及數(shù)據(jù)處理,具體涉及基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本公開(kāi)相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、近年來(lái),政務(wù)服務(wù)導(dǎo)辦逐漸從傳統(tǒng)的單一服務(wù)模式向集成服務(wù)模式轉(zhuǎn)變,形成“一件事”集成服務(wù)場(chǎng)景。隨著新一代信息技術(shù)迭代更新,政務(wù)服務(wù)導(dǎo)辦陸續(xù)推動(dòng)線(xiàn)上平臺(tái)的完善,實(shí)現(xiàn)線(xiàn)上線(xiàn)下融合服務(wù),通過(guò)“一網(wǎng)通辦”“只進(jìn)一扇門(mén)”“最多跑一次”的服務(wù)方式,用戶(hù)可以在線(xiàn)上完成部分業(yè)務(wù)辦理。
3、政務(wù)服務(wù)導(dǎo)辦充分利用大數(shù)據(jù)、人工智能、區(qū)塊鏈等先進(jìn)技術(shù),推動(dòng)政務(wù)服務(wù)數(shù)字化轉(zhuǎn)型和智能化升級(jí)。比如,通過(guò)智能預(yù)填、智能預(yù)審、智能客服、智能引導(dǎo)等應(yīng)用場(chǎng)景的落地,提高了業(yè)務(wù)辦理的自動(dòng)化程度和用戶(hù)辦事的便捷性。在典型服務(wù)導(dǎo)辦服務(wù)實(shí)踐中,數(shù)據(jù)集質(zhì)量對(duì)人工智能模型的訓(xùn)練效果是起決定性的因素,因此高可用、高可靠、高可信的數(shù)據(jù)集的構(gòu)建,成為人工智能在服務(wù)導(dǎo)辦領(lǐng)域的關(guān)鍵技術(shù)環(huán)節(jié)。
4、服務(wù)導(dǎo)辦數(shù)據(jù)集,依賴(lài)于大模型的基礎(chǔ)能力、領(lǐng)域知識(shí)和生成能力,通過(guò)后置預(yù)訓(xùn)練來(lái)實(shí)現(xiàn)。高質(zhì)量服務(wù)導(dǎo)辦數(shù)據(jù)集的構(gòu)建是開(kāi)展大模型訓(xùn)練、提升服務(wù)效率的前提條件。
5、現(xiàn)有的方法中,在智能客服等服務(wù)領(lǐng)域雖然能夠?qū)崿F(xiàn)自動(dòng)化,但是仍然面臨數(shù)據(jù)集質(zhì)量不高、多樣性不足的問(wèn)題。這可能導(dǎo)致模型在特定場(chǎng)景下表現(xiàn)良好,但在其他場(chǎng)景下效果不佳,甚至無(wú)法正確識(shí)別和處理問(wèn)題;傳統(tǒng)機(jī)器學(xué)習(xí)面對(duì)復(fù)雜、多步驟或需要跨領(lǐng)域知識(shí)的問(wèn)題時(shí),因?yàn)槟P驮谟?xùn)練過(guò)程中缺乏足夠的復(fù)雜問(wèn)題樣本,導(dǎo)致其在處理這類(lèi)問(wèn)題時(shí)缺乏必要的推理和判斷能力。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)為了解決上述問(wèn)題,提出了基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法及系統(tǒng),設(shè)計(jì)一種包含領(lǐng)域特征的語(yǔ)義表示方法,識(shí)別領(lǐng)域特征詞在文本序列中起到的影響作用,使得注意力機(jī)制在運(yùn)行時(shí)重點(diǎn)關(guān)注表達(dá)數(shù)據(jù)集主旨的領(lǐng)域特征詞匯,從而學(xué)習(xí)到更加明顯的類(lèi)別特征為特征的后續(xù)處理提供定向語(yǔ)義信息。
2、根據(jù)一些實(shí)施例,本公開(kāi)采用如下技術(shù)方案:
3、基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,包括:
4、獲取多領(lǐng)域的文本數(shù)據(jù),并進(jìn)行預(yù)處理;
5、提取預(yù)處理后的多領(lǐng)域的文本數(shù)據(jù)中的領(lǐng)域特征詞,獲取領(lǐng)域特色詞和文本數(shù)據(jù)之間的相互作用,計(jì)算文本數(shù)據(jù)中每一字符和領(lǐng)域特色詞各字符之間的平均距離;
6、將計(jì)算的平均距離結(jié)果進(jìn)行函數(shù)映射,構(gòu)造包含領(lǐng)域特色的文本特征表示;
7、將包含領(lǐng)域特色的文本特征表示輸入至注意力機(jī)制中,增強(qiáng)包含領(lǐng)域特色的文本特征表示的關(guān)注度,得到最終的領(lǐng)域特色特征;
8、提取多領(lǐng)域的文本數(shù)據(jù)的文本依賴(lài)特征,將文本依賴(lài)特征和領(lǐng)域特色特征進(jìn)行融合,利用融合后的特征完成對(duì)文本類(lèi)別的預(yù)測(cè)輸出,得到多領(lǐng)域文本分類(lèi)結(jié)果。
9、根據(jù)一些實(shí)施例,本公開(kāi)采用如下技術(shù)方案:
10、數(shù)據(jù)獲取模塊,用于獲取多領(lǐng)域的文本數(shù)據(jù),并進(jìn)行預(yù)處理;
11、特征提取模塊,用于提取預(yù)處理后的多領(lǐng)域的文本數(shù)據(jù)中的領(lǐng)域特征詞,獲取領(lǐng)域特色詞和文本數(shù)據(jù)之間的相互作用,計(jì)算文本數(shù)據(jù)中每一字符和領(lǐng)域特色詞各字符之間的平均距離;將計(jì)算的平均距離結(jié)果進(jìn)行函數(shù)映射,構(gòu)造包含領(lǐng)域特色的文本特征表示;將包含領(lǐng)域特色的文本特征表示輸入至注意力機(jī)制中,增強(qiáng)包含領(lǐng)域特色的文本特征表示的關(guān)注度,得到最終的領(lǐng)域特色特征;
12、特征融合模塊,用于提取多領(lǐng)域的文本數(shù)據(jù)的文本依賴(lài)特征,將文本依賴(lài)特征和領(lǐng)域特色特征進(jìn)行融合;
13、文本分類(lèi)模塊,用于利用融合后的特征完成對(duì)文本類(lèi)別的預(yù)測(cè)輸出,得到多領(lǐng)域文本分類(lèi)結(jié)果。
14、根據(jù)一些實(shí)施例,本公開(kāi)采用如下技術(shù)方案:
15、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法。
16、根據(jù)一些實(shí)施例,本公開(kāi)采用如下技術(shù)方案:
17、一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法。
18、根據(jù)一些實(shí)施例,本公開(kāi)采用如下技術(shù)方案:
19、一種電子設(shè)備,包括:處理器、存儲(chǔ)器以及計(jì)算機(jī)程序;其中,處理器與存儲(chǔ)器連接,計(jì)算機(jī)程序被存儲(chǔ)在存儲(chǔ)器中,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序,以使電子設(shè)備執(zhí)行實(shí)現(xiàn)所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法。
20、與現(xiàn)有技術(shù)相比,本公開(kāi)的有益效果為:
21、本公開(kāi)的一種基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,提出一種基于lstm和注意力機(jī)制改進(jìn)的fasttext算法模型laft(lstm?attention?fasttext,laft),提出包含領(lǐng)域特色特征的構(gòu)造方法和模型的改進(jìn)方法,豐富模型獲取的文本語(yǔ)義信息,強(qiáng)化模型對(duì)長(zhǎng)時(shí)依賴(lài)和重點(diǎn)詞匯的關(guān)注度。與fasttext等基于詞袋模型的算法相比,laft模型能夠更深入地理解文本的結(jié)構(gòu)和含義,更準(zhǔn)確地提取文本主旨。
22、本公開(kāi)的一種基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,創(chuàng)新性地設(shè)計(jì)一種包含領(lǐng)域特征的語(yǔ)義表示方法,識(shí)別領(lǐng)域特征詞在文本序列中起到的影響作用,為特征的后續(xù)處理提供定向語(yǔ)義信息。
23、本公開(kāi)的一種基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,將領(lǐng)域注意力融入到注意力機(jī)制中,讓注意力機(jī)制在運(yùn)行時(shí)重點(diǎn)關(guān)注表達(dá)數(shù)據(jù)集主旨的領(lǐng)域詞匯,從而學(xué)習(xí)到更加明顯的類(lèi)別特征。
24、本公開(kāi)的一種基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,改進(jìn)lstm模型結(jié)構(gòu),使用lstm獲取文本主旨,使用注意力機(jī)制獲取文本的局部重點(diǎn)信息,此外針對(duì)不同領(lǐng)域的不同重點(diǎn)詞匯,設(shè)計(jì)一種關(guān)鍵詞匯計(jì)算方法,獲取文本中每一領(lǐng)域特色詞對(duì)文本的影響程度。通過(guò)改進(jìn)模型輸入的文本表示形式,豐富模型獲取的語(yǔ)義信息,強(qiáng)化模型對(duì)短距離依賴(lài)和重點(diǎn)詞匯的關(guān)注度,完成對(duì)政務(wù)導(dǎo)辦數(shù)據(jù)集的處理加入殘差網(wǎng)絡(luò)和一系列可學(xué)習(xí)參數(shù),使得lstm在對(duì)長(zhǎng)時(shí)特征挖掘的同時(shí),具備全局主旨語(yǔ)義識(shí)別能力。并創(chuàng)新性地將領(lǐng)域注意力表示和改進(jìn)lstm的長(zhǎng)時(shí)表示進(jìn)行融合并輸入至改進(jìn)的fasttext模型中,使得改進(jìn)的fasttext模型本身具備挖掘文本局部特征的能力。
1.基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,其特征在于,獲取多領(lǐng)域的文本數(shù)據(jù),采用正則表達(dá)式工具庫(kù)對(duì)多領(lǐng)域的文本數(shù)據(jù)進(jìn)行預(yù)處理,除中英文字符、阿拉伯?dāng)?shù)字、常規(guī)標(biāo)點(diǎn)符號(hào)之外,刪除其他字符,并用句號(hào)替換換行符、手動(dòng)換行符以及其他特殊字符。
3.如權(quán)利要求1所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,其特征在于,利用基于lstm和注意力機(jī)制改進(jìn)的fasttext算法模型laft對(duì)多領(lǐng)域的文本數(shù)據(jù)進(jìn)行特征提取,輸入laft后進(jìn)行領(lǐng)域特征詞的位置特征挖掘,獲取領(lǐng)域特色詞和文本數(shù)據(jù)之間的相互作用,計(jì)算文本數(shù)據(jù)中每一字符和領(lǐng)域特色詞各字符之間的平均距離,為:
4.如權(quán)利要求1所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,其特征在于,將計(jì)算的平均距離結(jié)果進(jìn)行函數(shù)映射,構(gòu)造包含領(lǐng)域特色的文本特征表示,包括:使用sigmoid函數(shù)將計(jì)算得到的平均距離映射到[0,1]區(qū)間,構(gòu)造包含領(lǐng)域特色的文本特征表示為:
5.如權(quán)利要求1所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,其特征在于,將包含領(lǐng)域特色的文本特征表示輸入至注意力機(jī)制中,增強(qiáng)包含領(lǐng)域特色的文本特征表示的關(guān)注度,得到最終的領(lǐng)域特色特征,具體為:
6.如權(quán)利要求1所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法,其特征在于,利用laft模型中l(wèi)stm層對(duì)多領(lǐng)域的文本數(shù)據(jù)的文本依賴(lài)特征進(jìn)行提取,捕捉單詞之間語(yǔ)義關(guān)系和上下文信息,將領(lǐng)域特色特征和文本依賴(lài)特征進(jìn)行融合,具體為:
7.基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理系統(tǒng),其特征在于,包括:
8.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-6任一項(xiàng)所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法。
10.一種電子設(shè)備,其特征在于,包括:處理器、存儲(chǔ)器以及計(jì)算機(jī)程序;其中,處理器與存儲(chǔ)器連接,計(jì)算機(jī)程序被存儲(chǔ)在存儲(chǔ)器中,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序,以使電子設(shè)備執(zhí)行實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的基于領(lǐng)域特征構(gòu)造的政務(wù)服務(wù)導(dǎo)辦數(shù)據(jù)處理方法。