本發(fā)明涉及電子數(shù)字?jǐn)?shù)據(jù)處理,尤其涉及一種場(chǎng)景話術(shù)分類系統(tǒng)。
背景技術(shù):
1、隨著反電信網(wǎng)絡(luò)詐騙的積極推動(dòng),如何高效、準(zhǔn)確的對(duì)大量音頻數(shù)據(jù)進(jìn)行話術(shù)匹配、分類,以便于更好的管控?cái)r截和溯源,保護(hù)用戶的個(gè)人信息和財(cái)產(chǎn)安全不受損失,成為了比較重要的任務(wù)。
2、在現(xiàn)代信息社會(huì),多種方法被應(yīng)用于該項(xiàng)工作,例如某些方法通過語(yǔ)義識(shí)別等結(jié)合ai的方式進(jìn)行分類,或者基于設(shè)定好的規(guī)則進(jìn)行匹配等,這些技術(shù)極大地推動(dòng)了信息化在治安方向的發(fā)展。
3、盡管現(xiàn)有的分類技術(shù)在該領(lǐng)域中得到了廣泛應(yīng)用,但仍存在一些明顯的局限性和缺點(diǎn),首先,大多數(shù)現(xiàn)有結(jié)合ai的技術(shù)需要較大的硬件資源以及長(zhǎng)時(shí)間、大量數(shù)據(jù)的訓(xùn)練,且前期對(duì)于結(jié)果的準(zhǔn)確性需要進(jìn)一步的人工干預(yù)審核,其次,它和另外一些簡(jiǎn)易的規(guī)則匹配方法一樣,無(wú)法滿足特殊場(chǎng)景下的業(yè)務(wù)功能需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種場(chǎng)景話術(shù)分類系統(tǒng),能夠滿足特殊場(chǎng)景下的業(yè)務(wù)功能需求,且能在占用極少資源的情況下,同時(shí)保證高效、高準(zhǔn)確率的場(chǎng)景話術(shù)分類。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種場(chǎng)景話術(shù)分類系統(tǒng),包括話術(shù)樣本關(guān)鍵詞提取模塊、音頻處理模塊和話術(shù)篩選模塊;
3、所述話術(shù)樣本關(guān)鍵詞提取模塊、所述音頻處理模塊和所述話術(shù)篩選模塊依次連接;
4、所述話術(shù)樣本關(guān)鍵詞提取模塊用于提取詐騙樣本話術(shù)中的關(guān)鍵詞,并將關(guān)鍵詞分類加入詞庫(kù)中;
5、所述音頻處理模塊用于提取音頻中的關(guān)鍵詞,并將關(guān)鍵詞分類加入詞庫(kù)中;
6、所述話術(shù)篩選模塊用于根據(jù)詞庫(kù)中的關(guān)鍵詞評(píng)估文本的風(fēng)險(xiǎn)等級(jí)。
7、其中,所述話術(shù)樣本關(guān)鍵詞提取模塊包括話術(shù)樣本關(guān)鍵詞提取單元和標(biāo)明類別單元;所述標(biāo)明類別單元和所述話術(shù)樣本關(guān)鍵詞提取單元連接;
8、所述話術(shù)樣本關(guān)鍵詞提取單元用于提取詐騙樣本話術(shù)中的關(guān)鍵詞;
9、所述標(biāo)明類別單元用于將關(guān)鍵詞分類加入詞庫(kù)中。
10、其中,所述音頻處理模塊包括降噪單元、語(yǔ)音識(shí)別單元、話術(shù)文本關(guān)鍵詞提取單元、熱詞庫(kù)維護(hù)單元和語(yǔ)音模型調(diào)節(jié)單元;
11、所述降噪單元、所述語(yǔ)音識(shí)別單元、所述話術(shù)文本關(guān)鍵詞提取單元、所述熱詞庫(kù)維護(hù)單元和所述語(yǔ)音模型調(diào)節(jié)單元依次連接;
12、所述降噪單元用于對(duì)輸入音頻進(jìn)行降噪處理;
13、所述語(yǔ)音識(shí)別單元用于采用語(yǔ)音識(shí)別模型將降噪后的音頻轉(zhuǎn)化為話術(shù)文本;
14、所述話術(shù)文本關(guān)鍵詞提取單元用于提取話術(shù)文本中的關(guān)鍵詞,并將關(guān)鍵詞分類加入熱詞庫(kù)中;
15、所述熱詞庫(kù)維護(hù)單元用于根據(jù)具體應(yīng)用場(chǎng)景和用戶需求不斷維護(hù)和更新熱詞庫(kù);
16、所述語(yǔ)音模型調(diào)節(jié)單元用于在語(yǔ)音識(shí)別模型中增加熱詞的權(quán)重,提升關(guān)鍵術(shù)語(yǔ)的識(shí)別準(zhǔn)確性。
17、其中,所述話術(shù)篩選模塊包括關(guān)鍵詞過濾兼分類單元、風(fēng)險(xiǎn)等級(jí)劃分單元、數(shù)據(jù)輸出單元和新詞入庫(kù)單元;所述關(guān)鍵詞過濾兼分類單元、所述風(fēng)險(xiǎn)等級(jí)劃分單元、所述數(shù)據(jù)輸出單元和所述新詞入庫(kù)單元依次連接;
18、所述關(guān)鍵詞過濾兼分類單元用于采用混合正則表達(dá)式對(duì)待測(cè)文本進(jìn)行匹配,按設(shè)定好的風(fēng)險(xiǎn)等級(jí)進(jìn)行過濾;
19、所述風(fēng)險(xiǎn)等級(jí)劃分單元用于按設(shè)定好的閾值進(jìn)行等級(jí)劃分,分為高中低,以及未命中四類;
20、所述數(shù)據(jù)輸出單元用于將高危數(shù)據(jù)輸出到結(jié)果報(bào)告,其余數(shù)據(jù)輸入到無(wú)監(jiān)督學(xué)習(xí)模型進(jìn)行新的關(guān)鍵詞收集;
21、所述新詞入庫(kù)單元用于將無(wú)監(jiān)督模型匹配到的新詞,做人工篩選復(fù)核,添加到詞庫(kù),形成循環(huán)。
22、本發(fā)明的一種場(chǎng)景話術(shù)分類系統(tǒng),所述話術(shù)樣本關(guān)鍵詞提取模塊采用wwh方法進(jìn)行樣本詐騙話術(shù)關(guān)鍵詞提取,即:誰(shuí)(who),干什么(what),怎么做(how)。例如,對(duì)于以下詐騙話術(shù):“你好,我是xx銀行的客服,你的銀行卡存在風(fēng)險(xiǎn),需要你提供卡號(hào)和密碼進(jìn)行核實(shí)?!碧崛〉年P(guān)鍵詞為:他是誰(shuí)(銀行客服),他找我干什么(核實(shí)銀行卡風(fēng)險(xiǎn)),需要我怎么做(提供卡號(hào)和密碼)。所述音頻處理模塊采用譜減法對(duì)輸入音頻進(jìn)行降噪處理,這是一種廣泛應(yīng)用的降噪技術(shù),通過估計(jì)噪聲的功率譜并從含噪音頻信號(hào)的功率譜中減去來(lái)實(shí)現(xiàn)降噪,該方法的優(yōu)點(diǎn)在于實(shí)現(xiàn)簡(jiǎn)單且對(duì)于恒定噪聲有良好的降噪效果;通過asr將音頻轉(zhuǎn)換為文本模式,并對(duì)其進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞加入熱詞庫(kù),通過在語(yǔ)言模型中增加熱詞的權(quán)重,提升這些關(guān)鍵術(shù)語(yǔ)的識(shí)別準(zhǔn)確性。在識(shí)別過程中,系統(tǒng)會(huì)優(yōu)先考慮熱詞,使其在語(yǔ)音識(shí)別輸出中更可能被正確識(shí)別。這一過程可以通過動(dòng)態(tài)調(diào)整語(yǔ)言模型的概率分布實(shí)現(xiàn),也可以通過訓(xùn)練專門的熱詞增強(qiáng)模型來(lái)增強(qiáng)識(shí)別效果。此外,熱詞庫(kù)的維護(hù)和更新需要根據(jù)具體應(yīng)用場(chǎng)景和用戶需求不斷進(jìn)行,以確保系統(tǒng)能夠及時(shí)適應(yīng)新的關(guān)鍵詞和術(shù)語(yǔ),從而提供更加精準(zhǔn)和高效的語(yǔ)音識(shí)別服務(wù)。所述話術(shù)篩選模塊根據(jù)詞庫(kù)的關(guān)鍵詞評(píng)估文本的風(fēng)險(xiǎn)等級(jí),通過讀取文件中的文本數(shù)據(jù),所述話術(shù)篩選模塊依次檢查每條記錄中的關(guān)鍵詞,匹配到特定類別后記錄下命中詞、類別及其風(fēng)險(xiǎn)等級(jí),最后,將處理結(jié)果寫入新的文件中,方便用戶進(jìn)一步分析和處理。本發(fā)明未使用較為龐大的ai模型,也考慮到了過度人工干預(yù)造成的人力成本增加,并且添加了可視化界面結(jié)果展示,使得用戶在體驗(yàn)時(shí),能夠迅速獲得結(jié)果的同時(shí),也較為方便的查閱結(jié)果。本發(fā)明能夠滿足特殊場(chǎng)景下的業(yè)務(wù)功能需求,且能在占用極少資源的情況下,同時(shí)保證高效、高準(zhǔn)確率的場(chǎng)景話術(shù)分類。
1.一種場(chǎng)景話術(shù)分類系統(tǒng),其特征在于,
2.如權(quán)利要求1所述的一種場(chǎng)景話術(shù)分類系統(tǒng),其特征在于,
3.如權(quán)利要求2所述的一種場(chǎng)景話術(shù)分類系統(tǒng),其特征在于,
4.如權(quán)利要求3所述的一種場(chǎng)景話術(shù)分類系統(tǒng),其特征在于,