本技術(shù)涉及圖像信息識別,應(yīng)用于醫(yī)學(xué)影像信息識別及文本化描述場景中,尤其涉及一種圖像信息識別方法、裝置、設(shè)備及其存儲介質(zhì)。
背景技術(shù):
1、醫(yī)學(xué)影像技術(shù)是一種通過使用各種影像技術(shù)來觀察和分析人體內(nèi)部結(jié)構(gòu)和功能的方法,以輔助醫(yī)生對疾病和病變進(jìn)行診斷和治療決策。
2、醫(yī)學(xué)影像技術(shù)領(lǐng)域的業(yè)內(nèi)產(chǎn)品目前還不夠成熟,為了提高醫(yī)學(xué)影像診斷的準(zhǔn)確性和效率,自動化和智能化的診斷方法成為了研究的熱點(diǎn)。在過去的幾十年里,計算機(jī)輔助診斷系統(tǒng)(cad)得到了廣泛的研究和應(yīng)用。這些系統(tǒng)通過圖像處理和分析技術(shù),能夠自動檢測和識別醫(yī)學(xué)影像中的異常區(qū)域,為醫(yī)生提供有價值的參考信息。目前,實際在對醫(yī)學(xué)影像進(jìn)行分析時,存在待分析的醫(yī)學(xué)影像較少,導(dǎo)致了分析結(jié)果不夠準(zhǔn)確的問題。而且分析結(jié)果常常需要醫(yī)學(xué)專家和助手人員共同討論,以最終生成醫(yī)學(xué)描述文本,耗費(fèi)了大量的分析時間,不夠智能化。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提出一種圖像信息識別方法、裝置、設(shè)備及其存儲介質(zhì),以解決現(xiàn)有在對醫(yī)學(xué)影像進(jìn)行分析時,存在待分析的醫(yī)學(xué)影像較少,導(dǎo)致了分析結(jié)果不夠準(zhǔn)確,以及分析結(jié)果常常需要醫(yī)學(xué)專家和助手人員共同討論,以最終生成醫(yī)學(xué)描述文本,耗費(fèi)了大量的分析時間,不夠智能化的問題。
2、為了解決上述技術(shù)問題,本技術(shù)實施例提供圖像信息識別方法,采用了如下所述的技術(shù)方案:
3、一種圖像信息識別方法,包括下述步驟:
4、獲取需進(jìn)行信息識別的原醫(yī)學(xué)影像;
5、對所述原醫(yī)學(xué)影像進(jìn)行預(yù)處理,獲取預(yù)處理后的醫(yī)學(xué)影像;
6、將所述預(yù)處理后的醫(yī)學(xué)影像輸入到預(yù)訓(xùn)練的視覺特征提取模型,提取出醫(yī)學(xué)影像視覺特征;
7、將所述醫(yī)學(xué)影像視覺特征經(jīng)預(yù)設(shè)的線性投影層映射到目標(biāo)語言嵌入空間,獲取所述原醫(yī)學(xué)影像對應(yīng)的語言嵌入向量表示;
8、將所述語言嵌入向量表示輸入到預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型,并根據(jù)預(yù)先部署的醫(yī)學(xué)信息知識,編碼生成所述原醫(yī)學(xué)影像對應(yīng)的目標(biāo)醫(yī)學(xué)信息;
9、通過所述多模態(tài)醫(yī)學(xué)信息生成模型輸出所述目標(biāo)醫(yī)學(xué)信息,完成對所述原醫(yī)學(xué)影像的圖像信息識別。
10、進(jìn)一步的,所述對所述原醫(yī)學(xué)影像進(jìn)行預(yù)處理,獲取預(yù)處理后的醫(yī)學(xué)影像的步驟,具體包括:
11、根據(jù)預(yù)設(shè)的采樣尺寸大小和采樣間隔距離,對所述原醫(yī)學(xué)影像進(jìn)行分割采樣處理,獲取分割采樣處理后的醫(yī)學(xué)影像集;
12、對所述醫(yī)學(xué)影像集中所有醫(yī)學(xué)影像進(jìn)行放大處理,將所述所有醫(yī)學(xué)影像放大到所述原醫(yī)學(xué)影像的原始尺寸大小,完成對所述原醫(yī)學(xué)影像的預(yù)處理;
13、將所述所有醫(yī)學(xué)影像放大后的圖像作為所述預(yù)處理后的醫(yī)學(xué)影像。
14、進(jìn)一步的,所述視覺特征提取模型包括基于resnet-50網(wǎng)絡(luò)結(jié)構(gòu)的視覺特征提取模型,在執(zhí)行所述將所述預(yù)處理后的醫(yī)學(xué)影像輸入到預(yù)訓(xùn)練的視覺特征提取模型,提取出醫(yī)學(xué)影像視覺特征的步驟之前,所述方法還包括:
15、獲取所述醫(yī)學(xué)影像集中所有醫(yī)學(xué)影像分別在所述原醫(yī)學(xué)影像中對應(yīng)的中心點(diǎn)位置信息;
16、根據(jù)所述中心位置信息,按照從左到右從上到下的順序?qū)λ鲠t(yī)學(xué)影像集中所有醫(yī)學(xué)影像進(jìn)行區(qū)別數(shù)字編號,其中,所述區(qū)別數(shù)字編號為1至n進(jìn)行編號,n為大于1的正整數(shù);
17、所述將所述預(yù)處理后的醫(yī)學(xué)影像輸入到預(yù)訓(xùn)練的視覺特征提取模型,提取出醫(yī)學(xué)影像視覺特征的步驟,具體包括:
18、將預(yù)處理后的醫(yī)學(xué)影像按照所述區(qū)別數(shù)字編號依次輸入到所述基于resnet-50網(wǎng)絡(luò)結(jié)構(gòu)的視覺特征提取模型;
19、采用所述resnet-50網(wǎng)絡(luò)結(jié)構(gòu)對所有區(qū)別數(shù)字編號所對應(yīng)的醫(yī)學(xué)影像分別進(jìn)行多尺度特征圖提取,獲取每個區(qū)別數(shù)字編號所對應(yīng)的多尺度特征圖;
20、將同一區(qū)別數(shù)字編號所對應(yīng)的多尺度特征圖統(tǒng)一縮放到所述采樣尺寸大小,并進(jìn)行特征圖融合,獲取每個區(qū)別數(shù)字編號對應(yīng)的融合后特征圖;
21、根據(jù)所述采樣間隔距離,對所有區(qū)別數(shù)字編號所對應(yīng)的融合后特征圖進(jìn)行疊層綜合拼接處理,獲取與所述原醫(yī)學(xué)影像的尺度大小一致的最終特征圖;
22、將所述最終特征圖輸入到預(yù)設(shè)的卷積層進(jìn)行卷積處理,得到所述醫(yī)學(xué)影像視覺特征對應(yīng)的圖像特征向量。
23、進(jìn)一步的,在執(zhí)行所述將所述醫(yī)學(xué)影像視覺特征經(jīng)預(yù)設(shè)的線性投影層映射到目標(biāo)語言嵌入空間,獲取所述原醫(yī)學(xué)影像對應(yīng)的語言嵌入向量表示的步驟之前,所述方法還包括:
24、獲取批量已標(biāo)注語言描述文本的醫(yī)學(xué)影像,生成訓(xùn)練圖集,其中,所述語言描述文本包括醫(yī)學(xué)病變表征文本;
25、對所述訓(xùn)練圖集中所有醫(yī)學(xué)影像進(jìn)行預(yù)處理,獲取預(yù)處理后的醫(yī)學(xué)影像;
26、將所述預(yù)處理后的醫(yī)學(xué)影像輸入到待訓(xùn)練的視覺特征提取模型,對所述視覺特征提取模型進(jìn)行學(xué)習(xí)訓(xùn)練,獲取預(yù)訓(xùn)練的視覺特征提取模型,以及提取出所述訓(xùn)練圖集中所有醫(yī)學(xué)影像的圖像特征向量;
27、將所述所有醫(yī)學(xué)影像對應(yīng)的語言描述文本輸入到待訓(xùn)練的語言特征提取組件,對所述語言特征提取組件進(jìn)行學(xué)習(xí)訓(xùn)練,獲取訓(xùn)練完成的語言特征提取組件,以及提取出所有語言描述文本分別對應(yīng)的語言特征向量;
28、根據(jù)標(biāo)注關(guān)系將成對的圖像特征向量和語言特征向量作為先驗知識部署到所述線性投影層;
29、所述將所述醫(yī)學(xué)影像視覺特征經(jīng)預(yù)設(shè)的線性投影層映射到目標(biāo)語言嵌入空間,獲取所述原醫(yī)學(xué)影像對應(yīng)的語言嵌入向量表示的步驟,具體包括:
30、通過所述線性投影層將所述醫(yī)學(xué)影像視覺特征對應(yīng)的圖像特征向量映射到目標(biāo)語言嵌入空間,以將所述圖像特征向量轉(zhuǎn)換為對應(yīng)的語言特征向量;
31、采用多模態(tài)融合技術(shù)融合所述圖像特征向量和所述語言特征向量,獲取融合結(jié)果作為所述原醫(yī)學(xué)影像對應(yīng)的語言嵌入向量表示。
32、進(jìn)一步的,在執(zhí)行所述將所述語言嵌入向量表示輸入到預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型,并根據(jù)預(yù)先部署的醫(yī)學(xué)信息知識,編碼生成所述原醫(yī)學(xué)影像對應(yīng)的目標(biāo)醫(yī)學(xué)信息的步驟之前,所述方法還包括:
33、將所述訓(xùn)練圖集中所有醫(yī)學(xué)影像和所述所有醫(yī)學(xué)影像分別對應(yīng)的語言描述文本作為醫(yī)學(xué)信息知識部署到待訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型中;
34、根據(jù)標(biāo)注關(guān)系,采用多模態(tài)融合技術(shù)融合所述訓(xùn)練圖集中所有醫(yī)學(xué)影像的圖像特征向量和語言特征向量,獲取所述訓(xùn)練圖集中所有醫(yī)學(xué)影像分別對應(yīng)的語言嵌入向量表示;
35、將所述訓(xùn)練圖集中所有醫(yī)學(xué)影像分別對應(yīng)的語言嵌入向量表示輸入到所述待訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型,對所述多模態(tài)醫(yī)學(xué)信息生成模型進(jìn)行學(xué)習(xí)訓(xùn)練,獲取預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型;
36、所述將所述語言嵌入向量表示輸入到預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型,并根據(jù)預(yù)先部署的醫(yī)學(xué)信息知識,編碼生成所述原醫(yī)學(xué)影像對應(yīng)的目標(biāo)醫(yī)學(xué)信息的步驟,具體包括:
37、將所述原醫(yī)學(xué)影像對應(yīng)的語言嵌入向量表示輸入到預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型;
38、根據(jù)所述原醫(yī)學(xué)影像對應(yīng)的語言嵌入向量表示,從所述預(yù)先部署的醫(yī)學(xué)信息知識中篩選出所述原醫(yī)學(xué)影像所涵蓋的所有語言描述文本;
39、對所述所有語言描述文本進(jìn)行編碼處理,生成所述原醫(yī)學(xué)影像對應(yīng)的醫(yī)學(xué)信息編碼結(jié)果。
40、進(jìn)一步的,所述多模態(tài)醫(yī)學(xué)信息生成模型包括醫(yī)學(xué)影像生成組件、語言描述文本生成組件、第一對比組件、第二對比組件、學(xué)習(xí)訓(xùn)練調(diào)整組件和損失驗證組件,所述將所述訓(xùn)練圖集中所有醫(yī)學(xué)影像分別對應(yīng)的語言嵌入向量表示輸入到所述待訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型,對所述多模態(tài)醫(yī)學(xué)信息生成模型進(jìn)行學(xué)習(xí)訓(xùn)練,獲取預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型的步驟,具體包括:
41、步驟601,對所述訓(xùn)練圖集中所有醫(yī)學(xué)影像分別對應(yīng)的語言嵌入向量表示進(jìn)行編碼處理,獲取編碼處理結(jié)果;
42、步驟602,將所述編碼處理結(jié)果輸入所述醫(yī)學(xué)影像生成組件進(jìn)行解碼處理,生成所有語言嵌入向量表示分別對應(yīng)的醫(yī)學(xué)影像,作為訓(xùn)練生成影像;
43、步驟603,將所述編碼處理結(jié)果輸入所述語言描述文本生成組件進(jìn)行解碼處理,生成所有語言嵌入向量表示分別對應(yīng)的語言描述文本,作為訓(xùn)練生成文本;
44、步驟604,通過所述第一對比組件,對比所述訓(xùn)練生成影像和所述訓(xùn)練圖集中所有醫(yī)學(xué)影像,獲取第一對比結(jié)果;
45、步驟605,通過所述第二對比組件,對比所述訓(xùn)練生成文本和所述訓(xùn)練圖集中所有醫(yī)學(xué)影像分別對應(yīng)的語言描述文本,獲取第二對比結(jié)果;
46、步驟606,將所述第一對比結(jié)果和所述第二對比結(jié)果輸入到所述損失驗證組件,獲取學(xué)習(xí)訓(xùn)練損失值;
47、步驟607,若所述損失值超過預(yù)設(shè)的損失閾值,則通過所述學(xué)習(xí)訓(xùn)練調(diào)整組件調(diào)整所述多模態(tài)醫(yī)學(xué)信息生成模型,并重復(fù)執(zhí)行步驟,601至步驟606,直到所述損失值未超過預(yù)設(shè)的損失閾值,所述多模態(tài)醫(yī)學(xué)信息生成模型學(xué)習(xí)訓(xùn)練完成;
48、步驟608,若所述損失值未超過預(yù)設(shè)的損失閾值,則獲取學(xué)習(xí)訓(xùn)練完成的多模態(tài)醫(yī)學(xué)信息生成模型作為所述預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型。
49、進(jìn)一步的,所述通過所述多模態(tài)醫(yī)學(xué)信息生成模型輸出所述目標(biāo)醫(yī)學(xué)信息,完成對所述原醫(yī)學(xué)影像的圖像信息識別的步驟,具體包括:
50、采用所述語言描述文本生成組件對所述原醫(yī)學(xué)影像對應(yīng)的醫(yī)學(xué)信息編碼結(jié)果進(jìn)行解碼處理,獲取所述目標(biāo)醫(yī)學(xué)信息;
51、將所述目標(biāo)醫(yī)學(xué)信息作為所述原醫(yī)學(xué)影像的圖像信息識別結(jié)果。
52、為了解決上述技術(shù)問題,本技術(shù)實施例還提供圖像信息識別裝置,采用了如下所述的技術(shù)方案:
53、一種圖像信息識別裝置,包括:
54、原醫(yī)學(xué)影像獲取模塊,用于獲取需進(jìn)行信息識別的原醫(yī)學(xué)影像;
55、醫(yī)學(xué)影像預(yù)處理模塊,用于對所述原醫(yī)學(xué)影像進(jìn)行預(yù)處理,獲取預(yù)處理后的醫(yī)學(xué)影像;
56、視覺特征提取模塊,用于將所述預(yù)處理后的醫(yī)學(xué)影像輸入到預(yù)訓(xùn)練的視覺特征提取模型,提取出醫(yī)學(xué)影像視覺特征;
57、線性映射模塊,用于將所述醫(yī)學(xué)影像視覺特征經(jīng)預(yù)設(shè)的線性投影層映射到目標(biāo)語言嵌入空間,獲取所述原醫(yī)學(xué)影像對應(yīng)的語言嵌入向量表示;
58、多模態(tài)編碼處理模塊,用于將所述語言嵌入向量表示輸入到預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型,并根據(jù)預(yù)先部署的醫(yī)學(xué)信息知識,編碼生成所述原醫(yī)學(xué)影像對應(yīng)的目標(biāo)醫(yī)學(xué)信息;
59、目標(biāo)醫(yī)學(xué)信息輸出模塊,用于通過所述多模態(tài)醫(yī)學(xué)信息生成模型輸出所述目標(biāo)醫(yī)學(xué)信息,完成對所述原醫(yī)學(xué)影像的圖像信息識別。
60、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:
61、一種計算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機(jī)可讀指令,所述處理器執(zhí)行所述計算機(jī)可讀指令時實現(xiàn)上述所述的圖像信息識別方法的步驟。
62、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機(jī)可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:
63、一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)可讀指令,所述計算機(jī)可讀指令被處理器執(zhí)行時實現(xiàn)如上述所述的圖像信息識別方法的步驟。
64、與現(xiàn)有技術(shù)相比,本技術(shù)實施例主要有以下有益效果:
65、本技術(shù)實施例所述圖像信息識別方法,通過獲取需進(jìn)行信息識別的原醫(yī)學(xué)影像;對原醫(yī)學(xué)影像進(jìn)行預(yù)處理,獲取預(yù)處理后的醫(yī)學(xué)影像;將預(yù)處理后的醫(yī)學(xué)影像輸入到預(yù)訓(xùn)練的視覺特征提取模型,提取出醫(yī)學(xué)影像視覺特征;將醫(yī)學(xué)影像視覺特征經(jīng)預(yù)設(shè)的線性投影層映射到目標(biāo)語言嵌入空間,獲取原醫(yī)學(xué)影像對應(yīng)的語言嵌入向量表示;將語言嵌入向量表示輸入到預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)信息生成模型,并根據(jù)預(yù)先部署的醫(yī)學(xué)信息知識,編碼生成原醫(yī)學(xué)影像對應(yīng)的目標(biāo)醫(yī)學(xué)信息;通過多模態(tài)醫(yī)學(xué)信息生成模型輸出目標(biāo)醫(yī)學(xué)信息,完成對原醫(yī)學(xué)影像的圖像信息識別。通過將所述圖像信息識別方法使用到醫(yī)學(xué)影像信息識別中,能夠采用人工智能方式識別醫(yī)學(xué)影像信息,減少醫(yī)務(wù)工作者的醫(yī)學(xué)影像分析時間,且更加準(zhǔn)確,降低了醫(yī)務(wù)工作者的誤判風(fēng)險。