本發(fā)明涉及深度學(xué)習(xí)模型解釋方法,尤其涉及基于序貫三支掩碼和注意力融合的transformer解釋方法。
背景技術(shù):
1、腦腫瘤是由于腦組織癌變引發(fā)的腦細(xì)胞異常增生,這種病理變化對(duì)患者健康構(gòu)成了極高的風(fēng)險(xiǎn),可能引發(fā)頭痛、認(rèn)知障礙、運(yùn)動(dòng)功能損害及其他神經(jīng)系統(tǒng)癥狀。在嚴(yán)重的情況下,腦腫瘤甚至可能威脅生命。因此,準(zhǔn)確識(shí)別腦腫瘤的具體位置和形態(tài)在臨床診斷和治療中至關(guān)重要。磁共振成像(mri)因其提供高分辨率的軟組織解剖結(jié)構(gòu)圖像,被廣泛應(yīng)用于腦腫瘤的診斷和治療。通過分析mri圖像,醫(yī)生可以有效地檢測(cè)腦腫瘤,并獲取關(guān)于腫瘤位置、體積和形狀的重要信息。近年來,深度學(xué)習(xí)技術(shù)的發(fā)展為腦腫瘤的檢測(cè)提供了新的機(jī)遇。應(yīng)用深度學(xué)習(xí)模型對(duì)醫(yī)療影像進(jìn)行分析,不僅能夠顯著提高檢測(cè)的準(zhǔn)確性,還能提升檢測(cè)的效率,從而改善腦腫瘤的早期發(fā)現(xiàn)和診斷過程。
2、例如,lin等人在《ckd-transbts:clinical?knowledge-driven?hybridtransformer?with?modality-correlated?cross-attention?for?brain?tumorsegmentation》中提出了一種具有模態(tài)相關(guān)交叉注意的混合transformer模型用于腦腫瘤分割,但由于transformer模型通常具有千萬級(jí)別以上的參數(shù)量,且其自注意力機(jī)制工作原理復(fù)雜,通常被視作黑盒模型,這使得模型無法充分得到使用者的信任,在醫(yī)療等高危行業(yè)難以投入使用,同時(shí),訓(xùn)練深度學(xué)習(xí)模型所需要的數(shù)據(jù)集的采集與標(biāo)注需要專業(yè)的放射科醫(yī)生花費(fèi)大量時(shí)間手工標(biāo)注,造成大量醫(yī)療資源的浪費(fèi)。亟需一種新的方法可視化模型的內(nèi)部結(jié)構(gòu)和學(xué)習(xí)過程,幫助人類理解模型的決策過程,同時(shí)輔助放射科醫(yī)生進(jìn)行醫(yī)療判斷,降低昂貴的醫(yī)療資源在其他領(lǐng)域的消耗,同時(shí)對(duì)于腦腫瘤早期篩查具有一定的意義。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于序貫三支掩碼和注意力融合的transformer解釋方法,解決了現(xiàn)有transformer及其衍生模型可解釋性差,放射科醫(yī)生分析mri圖像耗時(shí)過長等問題,并且有效提升了判斷的準(zhǔn)確率。
2、為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明是通過如下措施實(shí)現(xiàn)的:基于序貫三支掩碼和注意力融合的transformer解釋方法,包括以下步驟:
3、s1:從數(shù)據(jù)集中讀取圖像i,將其尺寸重塑為預(yù)設(shè)大小224×224,接著將其切割成196個(gè)尺寸大小16×16的非重疊圖像塊,將這些圖像塊展平并進(jìn)行線性映射768維,接著拼接上分類張量,加入位置信息編碼的得到輸入張量x0,將x0輸入transformer編碼器,重復(fù)進(jìn)行l(wèi)輪,則第i輪的輸出結(jié)果為xi,最后一層的輸出結(jié)果為xl;
4、s2:在transformer編碼器層的運(yùn)算過程中,保存每一層transformer編碼器層的注意力矩陣aj,j=1,2,...,l,將所有保存的注意力矩陣拼接并舍棄其中的類別張量得其中l(wèi)為transformer編碼器層數(shù),h為每一編碼器層自注意力頭個(gè)數(shù),n為切割成圖像塊的個(gè)數(shù),首先從transformer編碼器層的維度上進(jìn)行層聚合得到跨層的關(guān)系矩陣r,即其中接著從自注意力層的頭的維度上進(jìn)行頭部聚合得到最終的關(guān)系矩陣r,即其中
5、s3:取出transformer最終編碼器層的輸出舍棄其中的分類張量后重塑為網(wǎng)格形狀,得到重塑張量接著將其上采樣至預(yù)設(shè)的圖像尺寸大小得到掩碼集
6、s4:將掩碼集mset放入序貫三支掩碼模塊,在第一層三支決策,對(duì)于掩碼mi∈mset,將掩碼mi和翻轉(zhuǎn)掩碼1-mi分別與原始輸入圖像i進(jìn)行哈達(dá)瑪乘積后放入transformer模型f(·)后分別得到對(duì)應(yīng)的置信度,通過與設(shè)定閾值α、β和γ比較后,將掩碼劃分為積極掩碼、消極掩碼和不確定掩碼,并將它們分別放入正域pos、負(fù)域neg和邊界域bnd,在第二層三支決策,對(duì)于處于邊界域的掩碼mi∈bnd,利用原始圖像與掩碼之間的kl散度信息,kl(f(i)||f(mi⊙i)),其中kl(·||·)表示kl散度函數(shù),通過與設(shè)定的閾值δ比較后,將不確定掩碼再次劃分為積極掩碼和消極掩碼,并將它們分別放入正域pos、負(fù)域neg,最后,將正域中的積極掩碼mpos與其對(duì)應(yīng)放入transformer后得到的置信度加權(quán)求和并除以掩碼集的期望值得到初步解釋結(jié)果s,并對(duì)初步解釋結(jié)果進(jìn)行歸一化處理;
7、s5:將下采樣至后展平為1×n大小,取出步驟s2中聚合得到的依次使用i=1,2,...,n與s進(jìn)行余弦相似度計(jì)算,將所有的余弦相似度計(jì)算結(jié)果拼接起來得到重要性分?jǐn)?shù)接著將p重塑為再上采樣至h×w大小,最后將p與s進(jìn)行哈達(dá)瑪乘積,融合得到最終解釋結(jié)果v,通過熱圖映射將其覆蓋在原圖中,即可得到最終的可視化解釋結(jié)果。
8、進(jìn)一步地,所述步驟s2的具體步驟如下:
9、步驟s2.1:將輸入張量x0輸入transformer編碼器循環(huán)l輪,則第j輪的輸出結(jié)果為xj,在每一次循環(huán)中,首先對(duì)輸入進(jìn)行層歸一化ln(xj):
10、
11、步驟s2.2:將歸一化后的xj輸入多頭自注意力模塊,設(shè)該模塊有h個(gè)注意力頭部head,獲取第j層transformer編碼器層的注意力矩陣aj,提取過程如下:
12、
13、
14、aj=concat(head1,..,headh)wo?(4)
15、其中q,k,v分別是由xj經(jīng)過線性投影變換得到的查詢、鍵和值矩陣,dk為鍵矩陣的維度,softmax是激活函數(shù),分別代表第i個(gè)自注意力頭部查詢、鍵和值的權(quán)重矩陣,concat表示拼接操作,wo為投影變換矩陣;
16、步驟s2.3:將每一輪循環(huán)中的注意力矩陣aj保存,共l輪,將它們都拼接起來并舍棄類別張量得到最終的注意力矩陣考慮不同transformer編碼器層中語義信息的意義首先從層的維度上進(jìn)行聚合,聚合公式如下:
17、
18、
19、其中r為跨層的關(guān)系矩陣,e(a)為不同層的注意力矩陣的均值;
20、步驟s2.4:transformer不同注意力頭對(duì)于圖像特征關(guān)注的重點(diǎn)不同,考慮不同各個(gè)注意力頭部中的語義信息,再從頭部的維度上進(jìn)行聚合,聚合公式如下:
21、
22、
23、其中r為最終的關(guān)系矩陣,e(r)為不同頭部的關(guān)系矩陣的均值,關(guān)系矩陣用于后續(xù)對(duì)初步解釋結(jié)果的優(yōu)化。
24、進(jìn)一步地,所述步驟s4的具體步驟如下:
25、步驟s4.1:取出掩碼集mset放入序貫三支掩碼模塊,首先將所有掩碼集中的掩碼mi及其對(duì)應(yīng)的翻轉(zhuǎn)掩碼1-mi分別與原始輸入圖像i進(jìn)行哈達(dá)瑪乘積將掩碼覆蓋在原圖上,再放入transformer模型f(·)后獲取對(duì)應(yīng)的置信度f(mi⊙i)和f((1-mi)⊙i);
26、步驟s4.2:對(duì)于第一層三支決策,設(shè)定閾值α、β和γ對(duì)掩碼進(jìn)行決策處理,如果置信度f(mi⊙i)>αβ<f((1-mi)⊙i)<α,表明掩碼可以提供物體位置信息,將該掩碼放入正域pos,如果置信度f(mi⊙i)<γ或f((1-mi)⊙i)<γ,表明掩碼不包含有效信息,將該掩碼放入負(fù)域neg,最后將剩余的所有掩碼放入邊界域bnd等待延遲決策;
27、步驟s4.3:接著進(jìn)入第二層三支決策,使用kl散度對(duì)進(jìn)入bnd的掩碼進(jìn)行二次決策,kl散度用于衡量兩個(gè)概率分布之間的差異,其計(jì)算方式如下:
28、
29、其中p為目標(biāo)分布,qi為近似分布,在這里定義原始圖像i放入模型后得到的概率分布f(i)為目標(biāo)分布,掩碼mi放入模型后得到的概率分布f(mi⊙i)為近似分布,通過公式(9),計(jì)算得出所有處于bnd的掩碼的kl散度值kl(f(i)||f(mi⊙i)),接著設(shè)定閾值δ對(duì)掩碼進(jìn)行決策處理,如果kl(f(i)||f(mi⊙i))<δ或kl(f(i)||f(mi⊙i))>1-δ,表明掩碼具有意義,將該掩碼放入pos,反之則將該掩碼放入neg;
30、步驟s4.4:取出所有處于pos中的掩碼記為積極掩碼集mpos,對(duì)于輸入圖像i中每個(gè)像素x的重要性值計(jì)算通過對(duì)掩碼mi與其放入模型后對(duì)應(yīng)類別c的輸出fc(mi⊙i)加權(quán)求和,并除以掩碼集的期望值e(mpos)獲取:
31、
32、其中fc(·)表示特定于類別c的模型,p為積極掩碼集中掩碼的個(gè)數(shù);
33、步驟s4.5:最后,對(duì)初步解釋結(jié)果進(jìn)行歸一化處理:
34、
35、進(jìn)一步地,所述步驟s5的具體步驟如下:
36、步驟s5.1:初步解釋結(jié)果s中存在空間噪音及邊緣細(xì)節(jié)信息丟失問題,利用步驟s2聚合生成的關(guān)系矩陣r優(yōu)化初步解釋結(jié)果,首先將初步解釋下采樣至后展平為1×n大?。?/p>
37、s=flatten(downsample(s))?(12)
38、其中downsample表示下采樣操作,flatten表示展平操作;
39、步驟s5.2:對(duì)于關(guān)系矩陣r,其每一行都能體現(xiàn)當(dāng)前圖像塊與圖像中其他圖像塊的關(guān)系故將r的每一行與s進(jìn)行余弦相似度計(jì)算,作為當(dāng)前圖像塊的重要性分?jǐn)?shù),則第i個(gè)圖像塊的重要性得分pi通過下式計(jì)算:
40、
41、其中·表示向量點(diǎn)積,||·||表示向量的歐幾里得范數(shù),n為圖像塊個(gè)數(shù);
42、步驟s5.3:對(duì)所有圖像塊使用公式(13)進(jìn)行計(jì)算,即得到所有圖像塊的重要性得分再將其重塑為并上采樣至原圖大?。?/p>
43、p=upsample(reshape(p))?(14)
44、其中reshape表示重塑操作,upsample表示上采樣操作;
45、步驟s5.4:使用重要性分?jǐn)?shù)p對(duì)初步解釋結(jié)果s使用哈達(dá)瑪乘積進(jìn)行逐元素的加權(quán),突出重要區(qū)域,消除錯(cuò)誤的空間噪音,得到最終解釋結(jié)果v:
46、v(x)=p(x)⊙s(x)?(15)
47、其中⊙表示哈達(dá)瑪乘積操作;
48、步驟s5.5:最后,將最終解釋結(jié)果v通過熱圖的方式覆蓋在原始圖像i上做可視化處理,熱圖的顏色越深,表現(xiàn)當(dāng)前圖像區(qū)域?qū)δP皖A(yù)測(cè)的貢獻(xiàn)越大,有效展現(xiàn)了transformer模型工作時(shí)重點(diǎn)關(guān)注區(qū)域,體現(xiàn)模型可解釋性。
49、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
50、1.本發(fā)明提出序貫三支掩碼模,以解決transformer最終層特征圖生成的掩碼質(zhì)量不確定性問題,通過設(shè)置特定的閾值及條件,可以有效地將掩碼劃分為積極掩碼、消極掩碼與不確定掩碼三種類型,使用積極掩碼對(duì)模型擾動(dòng)可以得到較好的解釋結(jié)果,從而有效提高了模型可解釋性。
51、2.本發(fā)明針對(duì)transformer模型所特有的自注意力機(jī)制進(jìn)行分析,通過聚合transformer中每一層編碼器的注意力矩陣,生成可以反映圖像塊相互之間關(guān)系的關(guān)系矩陣,通過余弦相似度度量獲取圖像塊重要性分?jǐn)?shù),對(duì)解釋結(jié)果進(jìn)行加權(quán)融合,這一過程有效地解決了初步解釋結(jié)果中存在的噪音問題,從而提高模型解釋效果。
52、3.本發(fā)明結(jié)合transformer模型輸出信息與注意力信息,對(duì)自然圖像和醫(yī)學(xué)圖像均能提供有效的解釋結(jié)果,解決了transformer模型在實(shí)際應(yīng)用中解釋困難的問題,使得深度學(xué)習(xí)模型的應(yīng)用更具可解釋性,從而提升模型在實(shí)際場(chǎng)景中的信任度和應(yīng)用前景。