基于序貫三支掩碼和注意力融合的Transformer解釋方法

文檔序號(hào)：40393896發(fā)布日期：2024-12-20 12:17閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及深度學(xué)習(xí)模型解釋方法，尤其涉及基于序貫三支掩碼和注意力融合的transformer解釋方法。

背景技術(shù)：

1、腦腫瘤是由于腦組織癌變引發(fā)的腦細(xì)胞異常增生，這種病理變化對(duì)患者健康構(gòu)成了極高的風(fēng)險(xiǎn)，可能引發(fā)頭痛、認(rèn)知障礙、運(yùn)動(dòng)功能損害及其他神經(jīng)系統(tǒng)癥狀。在嚴(yán)重的情況下，腦腫瘤甚至可能威脅生命。因此，準(zhǔn)確識(shí)別腦腫瘤的具體位置和形態(tài)在臨床診斷和治療中至關(guān)重要。磁共振成像(mri)因其提供高分辨率的軟組織解剖結(jié)構(gòu)圖像，被廣泛應(yīng)用于腦腫瘤的診斷和治療。通過分析mri圖像，醫(yī)生可以有效地檢測(cè)腦腫瘤，并獲取關(guān)于腫瘤位置、體積和形狀的重要信息。近年來，深度學(xué)習(xí)技術(shù)的發(fā)展為腦腫瘤的檢測(cè)提供了新的機(jī)遇。應(yīng)用深度學(xué)習(xí)模型對(duì)醫(yī)療影像進(jìn)行分析，不僅能夠顯著提高檢測(cè)的準(zhǔn)確性，還能提升檢測(cè)的效率，從而改善腦腫瘤的早期發(fā)現(xiàn)和診斷過程。

2、例如，lin等人在《ckd-transbts:clinical?knowledge-driven?hybridtransformer?with?modality-correlated?cross-attention?for?brain?tumorsegmentation》中提出了一種具有模態(tài)相關(guān)交叉注意的混合transformer模型用于腦腫瘤分割，但由于transformer模型通常具有千萬級(jí)別以上的參數(shù)量，且其自注意力機(jī)制工作原理復(fù)雜，通常被視作黑盒模型，這使得模型無法充分得到使用者的信任，在醫(yī)療等高危行業(yè)難以投入使用，同時(shí)，訓(xùn)練深度學(xué)習(xí)模型所需要的數(shù)據(jù)集的采集與標(biāo)注需要專業(yè)的放射科醫(yī)生花費(fèi)大量時(shí)間手工標(biāo)注，造成大量醫(yī)療資源的浪費(fèi)。亟需一種新的方法可視化模型的內(nèi)部結(jié)構(gòu)和學(xué)習(xí)過程，幫助人類理解模型的決策過程，同時(shí)輔助放射科醫(yī)生進(jìn)行醫(yī)療判斷，降低昂貴的醫(yī)療資源在其他領(lǐng)域的消耗，同時(shí)對(duì)于腦腫瘤早期篩查具有一定的意義。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于序貫三支掩碼和注意力融合的transformer解釋方法，解決了現(xiàn)有transformer及其衍生模型可解釋性差，放射科醫(yī)生分析mri圖像耗時(shí)過長等問題，并且有效提升了判斷的準(zhǔn)確率。

2、為了實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明是通過如下措施實(shí)現(xiàn)的：基于序貫三支掩碼和注意力融合的transformer解釋方法，包括以下步驟：

3、s1：從數(shù)據(jù)集中讀取圖像i，將其尺寸重塑為預(yù)設(shè)大小224×224，接著將其切割成196個(gè)尺寸大小16×16的非重疊圖像塊，將這些圖像塊展平并進(jìn)行線性映射768維，接著拼接上分類張量，加入位置信息編碼的得到輸入張量x0，將x0輸入transformer編碼器，重復(fù)進(jìn)行l(wèi)輪，則第i輪的輸出結(jié)果為xi，最后一層的輸出結(jié)果為xl；

4、s2：在transformer編碼器層的運(yùn)算過程中，保存每一層transformer編碼器層的注意力矩陣aj，j＝1,2,...,l，將所有保存的注意力矩陣拼接并舍棄其中的類別張量得其中l(wèi)為transformer編碼器層數(shù)，h為每一編碼器層自注意力頭個(gè)數(shù)，n為切割成圖像塊的個(gè)數(shù)，首先從transformer編碼器層的維度上進(jìn)行層聚合得到跨層的關(guān)系矩陣r，即其中接著從自注意力層的頭的維度上進(jìn)行頭部聚合得到最終的關(guān)系矩陣r，即其中

5、s3：取出transformer最終編碼器層的輸出舍棄其中的分類張量后重塑為網(wǎng)格形狀，得到重塑張量接著將其上采樣至預(yù)設(shè)的圖像尺寸大小得到掩碼集

6、s4：將掩碼集mset放入序貫三支掩碼模塊，在第一層三支決策，對(duì)于掩碼mi∈mset，將掩碼mi和翻轉(zhuǎn)掩碼1-mi分別與原始輸入圖像i進(jìn)行哈達(dá)瑪乘積后放入transformer模型f(·)后分別得到對(duì)應(yīng)的置信度，通過與設(shè)定閾值α、β和γ比較后，將掩碼劃分為積極掩碼、消極掩碼和不確定掩碼，并將它們分別放入正域pos、負(fù)域neg和邊界域bnd，在第二層三支決策，對(duì)于處于邊界域的掩碼mi∈bnd，利用原始圖像與掩碼之間的kl散度信息，kl(f(i)||f(mi⊙i))，其中kl(·||·)表示kl散度函數(shù)，通過與設(shè)定的閾值δ比較后，將不確定掩碼再次劃分為積極掩碼和消極掩碼，并將它們分別放入正域pos、負(fù)域neg，最后，將正域中的積極掩碼mpos與其對(duì)應(yīng)放入transformer后得到的置信度加權(quán)求和并除以掩碼集的期望值得到初步解釋結(jié)果s，并對(duì)初步解釋結(jié)果進(jìn)行歸一化處理；

7、s5：將下采樣至后展平為1×n大小，取出步驟s2中聚合得到的依次使用i＝1,2,...,n與s進(jìn)行余弦相似度計(jì)算，將所有的余弦相似度計(jì)算結(jié)果拼接起來得到重要性分?jǐn)?shù)接著將p重塑為再上采樣至h×w大小，最后將p與s進(jìn)行哈達(dá)瑪乘積，融合得到最終解釋結(jié)果v，通過熱圖映射將其覆蓋在原圖中，即可得到最終的可視化解釋結(jié)果。

8、進(jìn)一步地，所述步驟s2的具體步驟如下：

9、步驟s2.1：將輸入張量x0輸入transformer編碼器循環(huán)l輪，則第j輪的輸出結(jié)果為xj，在每一次循環(huán)中，首先對(duì)輸入進(jìn)行層歸一化ln(xj)：

10、

11、步驟s2.2：將歸一化后的xj輸入多頭自注意力模塊，設(shè)該模塊有h個(gè)注意力頭部head，獲取第j層transformer編碼器層的注意力矩陣aj，提取過程如下：

12、

13、

14、aj＝concat(head1,..,headh)wo?(4)

15、其中q,k,v分別是由xj經(jīng)過線性投影變換得到的查詢、鍵和值矩陣，dk為鍵矩陣的維度，softmax是激活函數(shù)，分別代表第i個(gè)自注意力頭部查詢、鍵和值的權(quán)重矩陣，concat表示拼接操作，wo為投影變換矩陣；

16、步驟s2.3：將每一輪循環(huán)中的注意力矩陣aj保存，共l輪，將它們都拼接起來并舍棄類別張量得到最終的注意力矩陣考慮不同transformer編碼器層中語義信息的意義首先從層的維度上進(jìn)行聚合，聚合公式如下：

17、

18、

19、其中r為跨層的關(guān)系矩陣，e(a)為不同層的注意力矩陣的均值；

20、步驟s2.4：transformer不同注意力頭對(duì)于圖像特征關(guān)注的重點(diǎn)不同，考慮不同各個(gè)注意力頭部中的語義信息，再從頭部的維度上進(jìn)行聚合，聚合公式如下：

21、

22、

23、其中r為最終的關(guān)系矩陣，e(r)為不同頭部的關(guān)系矩陣的均值，關(guān)系矩陣用于后續(xù)對(duì)初步解釋結(jié)果的優(yōu)化。

24、進(jìn)一步地，所述步驟s4的具體步驟如下：

25、步驟s4.1：取出掩碼集mset放入序貫三支掩碼模塊，首先將所有掩碼集中的掩碼mi及其對(duì)應(yīng)的翻轉(zhuǎn)掩碼1-mi分別與原始輸入圖像i進(jìn)行哈達(dá)瑪乘積將掩碼覆蓋在原圖上，再放入transformer模型f(·)后獲取對(duì)應(yīng)的置信度f(mi⊙i)和f((1-mi)⊙i)；

26、步驟s4.2：對(duì)于第一層三支決策，設(shè)定閾值α、β和γ對(duì)掩碼進(jìn)行決策處理，如果置信度f(mi⊙i)＞αβ＜f((1-mi)⊙i)＜α，表明掩碼可以提供物體位置信息，將該掩碼放入正域pos，如果置信度f(mi⊙i)＜γ或f((1-mi)⊙i)＜γ，表明掩碼不包含有效信息，將該掩碼放入負(fù)域neg，最后將剩余的所有掩碼放入邊界域bnd等待延遲決策；

27、步驟s4.3：接著進(jìn)入第二層三支決策，使用kl散度對(duì)進(jìn)入bnd的掩碼進(jìn)行二次決策，kl散度用于衡量兩個(gè)概率分布之間的差異，其計(jì)算方式如下：

28、

29、其中p為目標(biāo)分布，qi為近似分布，在這里定義原始圖像i放入模型后得到的概率分布f(i)為目標(biāo)分布，掩碼mi放入模型后得到的概率分布f(mi⊙i)為近似分布，通過公式(9)，計(jì)算得出所有處于bnd的掩碼的kl散度值kl(f(i)||f(mi⊙i))，接著設(shè)定閾值δ對(duì)掩碼進(jìn)行決策處理，如果kl(f(i)||f(mi⊙i))＜δ或kl(f(i)||f(mi⊙i))＞1-δ，表明掩碼具有意義，將該掩碼放入pos，反之則將該掩碼放入neg；

30、步驟s4.4：取出所有處于pos中的掩碼記為積極掩碼集mpos，對(duì)于輸入圖像i中每個(gè)像素x的重要性值計(jì)算通過對(duì)掩碼mi與其放入模型后對(duì)應(yīng)類別c的輸出fc(mi⊙i)加權(quán)求和，并除以掩碼集的期望值e(mpos)獲取：

31、

32、其中fc(·)表示特定于類別c的模型，p為積極掩碼集中掩碼的個(gè)數(shù)；

33、步驟s4.5：最后，對(duì)初步解釋結(jié)果進(jìn)行歸一化處理：

34、

35、進(jìn)一步地，所述步驟s5的具體步驟如下：

36、步驟s5.1：初步解釋結(jié)果s中存在空間噪音及邊緣細(xì)節(jié)信息丟失問題，利用步驟s2聚合生成的關(guān)系矩陣r優(yōu)化初步解釋結(jié)果，首先將初步解釋下采樣至后展平為1×n大?。?/p>

37、s＝flatten(downsample(s))?(12)

38、其中downsample表示下采樣操作，flatten表示展平操作；

39、步驟s5.2：對(duì)于關(guān)系矩陣r，其每一行都能體現(xiàn)當(dāng)前圖像塊與圖像中其他圖像塊的關(guān)系故將r的每一行與s進(jìn)行余弦相似度計(jì)算，作為當(dāng)前圖像塊的重要性分?jǐn)?shù)，則第i個(gè)圖像塊的重要性得分pi通過下式計(jì)算：

40、

41、其中·表示向量點(diǎn)積，||·||表示向量的歐幾里得范數(shù)，n為圖像塊個(gè)數(shù)；

42、步驟s5.3：對(duì)所有圖像塊使用公式(13)進(jìn)行計(jì)算，即得到所有圖像塊的重要性得分再將其重塑為并上采樣至原圖大?。?/p>

43、p＝upsample(reshape(p))?(14)

44、其中reshape表示重塑操作，upsample表示上采樣操作；

45、步驟s5.4：使用重要性分?jǐn)?shù)p對(duì)初步解釋結(jié)果s使用哈達(dá)瑪乘積進(jìn)行逐元素的加權(quán)，突出重要區(qū)域，消除錯(cuò)誤的空間噪音，得到最終解釋結(jié)果v：

46、v(x)＝p(x)⊙s(x)?(15)

47、其中⊙表示哈達(dá)瑪乘積操作；

48、步驟s5.5：最后，將最終解釋結(jié)果v通過熱圖的方式覆蓋在原始圖像i上做可視化處理，熱圖的顏色越深，表現(xiàn)當(dāng)前圖像區(qū)域?qū)δＰ皖A(yù)測(cè)的貢獻(xiàn)越大，有效展現(xiàn)了transformer模型工作時(shí)重點(diǎn)關(guān)注區(qū)域，體現(xiàn)模型可解釋性。

49、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為：

50、1.本發(fā)明提出序貫三支掩碼模，以解決transformer最終層特征圖生成的掩碼質(zhì)量不確定性問題，通過設(shè)置特定的閾值及條件，可以有效地將掩碼劃分為積極掩碼、消極掩碼與不確定掩碼三種類型，使用積極掩碼對(duì)模型擾動(dòng)可以得到較好的解釋結(jié)果，從而有效提高了模型可解釋性。

51、2.本發(fā)明針對(duì)transformer模型所特有的自注意力機(jī)制進(jìn)行分析，通過聚合transformer中每一層編碼器的注意力矩陣，生成可以反映圖像塊相互之間關(guān)系的關(guān)系矩陣，通過余弦相似度度量獲取圖像塊重要性分?jǐn)?shù)，對(duì)解釋結(jié)果進(jìn)行加權(quán)融合，這一過程有效地解決了初步解釋結(jié)果中存在的噪音問題，從而提高模型解釋效果。

52、3.本發(fā)明結(jié)合transformer模型輸出信息與注意力信息，對(duì)自然圖像和醫(yī)學(xué)圖像均能提供有效的解釋結(jié)果，解決了transformer模型在實(shí)際應(yīng)用中解釋困難的問題，使得深度學(xué)習(xí)模型的應(yīng)用更具可解釋性，從而提升模型在實(shí)際場(chǎng)景中的信任度和應(yīng)用前景。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：丁衛(wèi)平,成曉天,張煒,鞠恒榮,黃嘉爽,耿勝,姜舒,謝天,符凡
技術(shù)所有人：南通大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于序貫三支掩碼和注意力融合的Transformer解釋方法