本發(fā)明屬于機械故障診斷,特別涉及一種用于機械故障診斷知識圖譜構造的實體抽取方法。
背景技術:
1、為實現(xiàn)對機械設備的狀態(tài)分析、故障預判、風險評估、維保優(yōu)化等安全運行需求,往往需要收集設備的各方面信息,對其進行整合、篩選,最終提取出其中的關鍵信息來對設備進行分析。
2、知識圖譜是一種用圖模型來描述知識和建模世界萬物之間的關聯(lián)關系的技術方法,知識圖譜的構建涉及知識建模、實體抽取、關系抽取、知識融合、圖存儲、關系推理等多方面的技術,實體抽取是其中的一個關鍵技術,能否準確提取需要的實體將直接影響后續(xù)知識建模時的數(shù)據(jù)質(zhì)量和數(shù)量。同時,知識圖譜的實體抽取過程實際上是一個將非結構化數(shù)據(jù)結構化的過程,通過傳統(tǒng)的算法來實現(xiàn)具有一定的難度。隨著transformer架構的提出,越來越多基于其結構的大模型在自然語言處理領域有了更好的效果,特別是在其基礎上設計了雙向結構的bert模型,能夠在實體抽取領域有不錯的性能提升。但是目前基于bert的方法仍存在一些問題,?例如下述論文:david?s,?carrell,?robert?e,?schoen,daniel?a,?leffler,?et?al.?challenges?in?adapting?existing?clinical?naturallanguage?processing?systems?to?multiple,?diverse?health?care?settings.journal?of?the?american?medical?informatics?association?:?jamia.?2017,?以及,祁鵬年等.?基于深度學習的中文命名實體識別研究綜述.?小型微型計算機系統(tǒng).?2023;44(09):1857-68,是基于英文的提取,對于中文的命名實體識別需要對算法進行改進,面對比較寬泛和抽象的任務,在實際專業(yè)領域中應用效果還有待提高。
3、同時,目前算法主要是以一些較為綜合的評價指標作為標準,但在實際操作中不同的應用場景往往有不同的需求,也需要從不同的角度對模型進行評價和優(yōu)化。
技術實現(xiàn)思路
1、針對上述缺點,本發(fā)明提供了一種用于機械故障診斷知識圖譜構造的實體抽取方法。
2、為解決上述問題,本發(fā)明采用如下技術方案實現(xiàn):
3、一種用于機械故障診斷知識圖譜構造的實體抽取方法,包括如下步驟:
4、步驟s1:構建機械故障診斷語料數(shù)據(jù)庫,并將其劃分為訓練集和測試集;
5、步驟s2:構建融合bert-bilstm-crf模型、數(shù)據(jù)增強模塊和對抗訓練模塊的機械故障診斷知識圖譜命名實體識別模型ebbc-dam-patm,并對其進行訓練測試,得到訓練后的ebbc-dam-patm模型;
6、步驟s3:利用訓練好的ebbc-dam-patm模型進行命名實體識別;
7、步驟s4:利用neo4j圖數(shù)據(jù)庫將提取得到的實體字構建成知識圖譜。
8、進一步優(yōu)化,所述步驟s1包括如下步驟:
9、步驟s1.1:抽取機械設備實際運行過程中的運行日志、維護記錄以及相關的操作手冊和教學書籍中的文本信息;
10、步驟s1.2:將抽取得到的文本信息進行初步篩選,得到語料數(shù)據(jù)庫;
11、步驟s1.3:通過人工操作對語料數(shù)據(jù)庫中的每個文本信息打上標簽,生成對應的標簽序列,標簽序列中的每一個字母對應文本序列中的一個字;
12、步驟s1.4:將打好標簽序列的文本信息按照7:3劃分為訓練集和測試集用。
13、進一步優(yōu)化,所述步驟s2中,數(shù)據(jù)增強模塊對輸入的文本信息進行如下處理:
14、步驟s2.1:?設置可調(diào)閾值 h,依據(jù)每個字在文本中的位置,計算其重要性分數(shù),比對和可調(diào)閾值 h,對的字進行刪除操作,重要性分數(shù)計算公式如下:
15、???????????????????(1)
16、其中,為當前字在文本中的位置,為距離當前字最近的實體字的位置,和為可調(diào)參數(shù);tanh()為雙曲正切函數(shù)。
17、步驟s2.2:計算閾值,作為控制文本信息中數(shù)據(jù)增強策略的參數(shù),具體公式如下:
18、????????????????(2)
19、其中,為所需提取的實體字種類數(shù),當提取實體字種類增加,提取任務的復雜度也會相應提升,所需的數(shù)據(jù)量也更多。、、分別為系數(shù)。
20、步驟s2.3:根據(jù)文本信息中的數(shù)據(jù)行數(shù)和閾值計算概率,再依據(jù)概率對實體字進行隨機替代,概率計算公式如下:
21、??????????????????(3)
22、其中,l為文本信息中的數(shù)據(jù)行數(shù),為閾值。
23、步驟s2.4:將步驟s2.1處理后的文本信息和步驟s2.3處理后的文本信息相結合,通過以句為單位交替穿插生成最終增強后的文本數(shù)據(jù)。交替穿插具體為:經(jīng)過步驟s2.1處理后的文本信息中的第1句、經(jīng)過步驟s2.3處理后的文本信息中的第1句、經(jīng)步驟s2.1處理后的文本信息中的第2句、經(jīng)步驟s2.3處理后的文本信息中的中的第2句…,按著這種方式穿插結合。
24、進一步優(yōu)化,所述步驟s2.3,基于概率將訓練集中對應的實體詞替換為隨機漢字,具體為:首先,基于之前的標簽序列找到每句文本中對應的實體字;其次,在(0,1)范圍內(nèi)生成一個隨機數(shù),當,則不對該字進行操作,反之則用一個隨機漢字覆蓋它。
25、進一步優(yōu)化,述步驟s2中,機械故障診斷知識圖譜命名實體識別模型ebbc-dam-patm是在bert-bilstm-crf模型基礎上增加了數(shù)據(jù)增強模塊和退化pgd對抗訓練模塊;bert-bilstm-crf模型是由bert層、bilstm層和crf層串聯(lián)而成,對文本進行如下處理:
26、bert是基于transformer?編碼器結構的雙向語言網(wǎng)絡,先由bert的分詞器將文本序列轉化為對應的id序列進行輸入,再由模型將其轉化為[1,n,768]的詞向量序列,提取其中的語義信息,n為文本序列長度。
27、bilstm層是一種通過將兩個方向相反的長短期記憶網(wǎng)絡結合得到的一個可以同時捕捉序列中前向和后向信息的網(wǎng)絡。輸出一個[1,n,768]詞向量序列,進一步提取上下文的關系信息,n為文本序列長度。
28、crf層是一種常用于結構化預測任務的概率網(wǎng)絡,根據(jù)輸入的詞向量序列計算每個字對應為實體或非實體的條件概率,根據(jù)概率判斷句中每個字是否為實體詞,每句話形成對應的標簽序列作為輸出。
29、進一步優(yōu)化,退化pgd對抗訓練模塊在傳統(tǒng)pgd對抗訓練的基礎上減少其迭代次數(shù),大幅降低計算開支,對抗訓練的具體步驟為:
30、首先,在bert層的嵌入層輸出中加入一個擾動 r,嵌入層輸出和擾動 r都為[1,n,768]的矩陣,通過對應元素相加得到結果;
31、其次,先在內(nèi)部循環(huán)中采用投影梯度下降算法對擾動 r會進行次更新迭代,公式如下:
32、????????????????(4)
33、其中,表示投影算子,表示步長,設置為0.4,表示梯度;表示第k次迭代時的最優(yōu)解,通過對其進行一步迭代再將所得解投影到由表示的可行集上,產(chǎn)生第k+1個最優(yōu)解,實際更新擾動時可行集為長度為1的球形空間。
34、其中, t為當前迭代輪次,r為總迭代輪次,表示向下取整,m為原始pgd對擾動的迭代次數(shù);
35、第一輪訓練時會對擾動進行m次迭代,之后每輪訓練對擾動的迭代次數(shù)逐步衰減,直到最后一輪訓練只對擾動進行一次迭代更新。
36、所述內(nèi)部循環(huán)擾動r的更新過程如下:
37、1)、進入內(nèi)部循環(huán)前會先備份模型的各層參數(shù);
38、2)、進入循環(huán)后,模型會進行訓練,更新模型參數(shù);
39、3)、通過梯度反向傳播得到bert嵌入層的梯度,利用投影梯度下降法更新擾動r;
40、4)、將2)、3)步循環(huán)次后跳出內(nèi)部循環(huán),將模型參數(shù)還原到第一步中備份的狀態(tài),只保留次更新后的擾動r。
41、然后跳出循環(huán)將更新后的擾動r加入bert嵌入層再進行一次模型訓練,更新模型參數(shù)并保留;以上一次訓練完成后,擾動r會重新進入下一次訓練,以此反復r次,最終實現(xiàn)對抗訓練的效果。每一輪次訓練中又會擾動進行多次迭代更新,這個更新次數(shù)隨訓練輪次而衰減,直到最后一輪訓練只對擾動進行單次更新迭代。
42、退化pgd對抗訓練相較于原始pgd對抗訓練其迭代更新次數(shù)更少,小于原始pgd對抗迭代更新次數(shù)的一半。具體原因如下:?原始pgd由于退化pgd對抗訓練迭代更新次數(shù)如公式(5),可得退化pgd對抗訓練的額外計算開支小于原始pgd對抗訓練的額外計算開支的一半,具體如公式(6),m:
43、???????(6)
44、由于每一次迭代更新的計算開支差別不大,且這里強調(diào)了額外計算開支,所以本技術中所述的退化pgd對抗訓練模塊,相較于原始的pgd對抗可以節(jié)省50%以上由對抗訓練而產(chǎn)生的額外計算開支。
45、進一步優(yōu)化,所述步驟s4中,利用neo4j圖數(shù)據(jù)庫將提取得到的實體字構建成知識圖譜,將提取到的實體字作為知識圖譜中的節(jié)點,并用相對應的關系將節(jié)點連接起來,形成一個網(wǎng)絡結構,即知識圖譜。知識圖譜的網(wǎng)絡結構使其能夠把與機械設備相關的信息,如:結構關系、故障原因、故障現(xiàn)象、解決措施、位置信息等,全部以節(jié)點和關系的方式組合在一張圖中,并可以根據(jù)查詢語句快速找出具體的某個節(jié)點和與之相關的節(jié)點,幫助進行機械故障的排查和診斷。
46、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
47、1、本發(fā)明所述的退化pgd對抗訓練模塊相較于原始pgd對抗可以節(jié)省50%以上由對抗訓練而產(chǎn)生的額外計算開支,同時依舊能起到很好的效果。
48、2、本發(fā)明所述的數(shù)據(jù)增強模塊能夠依據(jù)數(shù)據(jù)量的多少自適應地進行數(shù)據(jù)增強,減輕樣本不平衡的問題并緩解模型的過擬合。