一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置與流程

文檔序號(hào)：40396243發(fā)布日期：2024-12-20 12:19閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置與流程

本發(fā)明涉及多模態(tài)的數(shù)據(jù)增強(qiáng)，尤其涉及一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置。

背景技術(shù)：

1、隨著人工智能技術(shù)的發(fā)展，多模態(tài)數(shù)據(jù)的研究和挖掘成為一個(gè)日益重要的研究領(lǐng)域。多模態(tài)數(shù)據(jù)是指包含多種類型信息的數(shù)據(jù)集合，例如圖像、文本、音頻或視頻等。多模態(tài)數(shù)據(jù)的應(yīng)用范圍廣泛，涵蓋了醫(yī)療診斷、自動(dòng)駕駛、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等多個(gè)領(lǐng)域。多模態(tài)數(shù)據(jù)提供了來(lái)自不同感官或來(lái)源的信息，這有助于模型從多個(gè)角度理解數(shù)據(jù)，從而在面對(duì)新數(shù)據(jù)時(shí)具有更強(qiáng)的泛化能力和魯棒性。但與此同時(shí)，挖掘多模態(tài)數(shù)據(jù)時(shí)需要克服模態(tài)語(yǔ)義不一致、特征維度不匹配、不同模態(tài)間關(guān)聯(lián)強(qiáng)弱不一、模態(tài)數(shù)據(jù)可能缺失等情況。

2、多模態(tài)數(shù)據(jù)增強(qiáng)的目標(biāo)是通過(guò)對(duì)這些不同類型的數(shù)據(jù)進(jìn)行處理，來(lái)生成更豐富、更多樣化的訓(xùn)練樣本，從而提高模型的泛化能力和魯棒性。隨著大語(yǔ)言模型（largelanguage?model，llm）的興起，由于其強(qiáng)大的語(yǔ)言理解和推理能力，在學(xué)術(shù)和工業(yè)界中越來(lái)越受歡迎。llm的進(jìn)展也啟發(fā)了研究人員將llm作為多模態(tài)任務(wù)的接口，如視覺(jué)語(yǔ)言學(xué)習(xí)、音頻和語(yǔ)音識(shí)別、視頻理解等，因此多模態(tài)大語(yǔ)言模型（multimodal?large?language?model，mllm）也引起了研究人員的關(guān)注。目前使用大模型微調(diào)和vision?transformer（vit）等技術(shù)進(jìn)行多模態(tài)的語(yǔ)言對(duì)齊訓(xùn)練，其目的是訓(xùn)練一個(gè)通用的多模態(tài)大模型。這種方法需要大量人工標(biāo)注的圖片-文本對(duì)數(shù)據(jù)，作為基礎(chǔ)數(shù)據(jù)進(jìn)行訓(xùn)練。除此之外，這些模型和數(shù)據(jù)針對(duì)的是通用數(shù)據(jù)，不包含領(lǐng)域知識(shí)，只能進(jìn)行簡(jiǎn)單的問(wèn)答。

3、隨著技術(shù)的不斷發(fā)展，醫(yī)學(xué)影像數(shù)據(jù)主要包括ct（computed?tomography，電子計(jì)算機(jī)斷層掃描）圖像、超聲（ultrasound，us）圖像、心電圖（electrocardiogram，ecg）、核磁共振（magnetic?resonance，mr）圖像、核醫(yī)學(xué)（spect，pet）圖像等。其中，ct圖像適用于對(duì)人體的硬組織如骨骼、金屬等成像，這些具有較高的灰度等級(jí)。超聲圖像適用于前列腺、血管等軟組織，有明顯的斑點(diǎn)噪聲。核磁共振圖像具有豐富的灰度信息，不僅對(duì)于骨骼等硬組織，同時(shí)對(duì)于腦白質(zhì)、腦灰質(zhì)等軟組織也有很好的分辨力，腦部檢測(cè)常用核磁共振。pet圖像是正電子的濃度圖像，對(duì)于早期的癌癥敏感性高，但圖像本身比較模糊，空間分辨率低，同時(shí)無(wú)法清晰反映人體內(nèi)部的幾何拓?fù)湫畔?。而心電圖是利用心電圖機(jī)從體表記錄心臟每一心動(dòng)周期所產(chǎn)生的電活動(dòng)變化圖形。這些多模態(tài)的數(shù)據(jù)為醫(yī)生診斷提供了巨大的參考依據(jù)，但不同圖像之間，以及圖像和圖形之間差異巨大，且現(xiàn)實(shí)中，大部分患者并不具有或不必要進(jìn)行所有的檢查，部分模態(tài)數(shù)據(jù)缺失是常見現(xiàn)象。如何統(tǒng)一多模態(tài)的數(shù)據(jù)表示，挖掘不同模態(tài)之間的關(guān)聯(lián)，有效填充缺失模態(tài)數(shù)據(jù)是亟需解決的問(wèn)題。因此，如果能夠?qū)Σ煌B(tài)進(jìn)行編碼，通過(guò)多模態(tài)數(shù)據(jù)增強(qiáng)的方法有效補(bǔ)充缺失模態(tài)，不僅可以降低患者治療費(fèi)用，還可以提高醫(yī)生診斷效率和正確性。

4、針對(duì)多模態(tài)的醫(yī)學(xué)影像數(shù)據(jù)，本發(fā)明提出一種能夠直接進(jìn)行不同模態(tài)-文本對(duì)的生成，并使用生成的文本之間的相似度做模態(tài)對(duì)齊或者模態(tài)數(shù)據(jù)插補(bǔ)的數(shù)據(jù)增強(qiáng)方法。該方法基于語(yǔ)言相似性直觀生成，可解釋性強(qiáng)，且不需預(yù)先人工標(biāo)記文本對(duì)，可以生成不同模態(tài)-文本對(duì)解決目前多模態(tài)大模型研究中缺少數(shù)據(jù)量的問(wèn)題，同時(shí)可以支持不同模態(tài)的下游任務(wù)研究，例如輔助診斷、疾病預(yù)測(cè)、并發(fā)癥預(yù)警等。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足，提供一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置。

2、本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的：本發(fā)明實(shí)施例第一方面提供了一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法，包括以下步驟：

3、（1）采集電子病歷系統(tǒng)中患者的多模態(tài)醫(yī)學(xué)數(shù)據(jù)；其中，所述多模態(tài)醫(yī)學(xué)數(shù)據(jù)包括基本信息、觀察窗期間的診斷報(bào)告和各類圖像數(shù)據(jù)；

4、（2）對(duì)步驟（1）采集到的多模態(tài)醫(yī)學(xué)數(shù)據(jù)進(jìn)行預(yù)處理，以將各類圖像的大小重置為相同的固定值，將圖像所對(duì)應(yīng)的診斷報(bào)告進(jìn)行清洗和標(biāo)準(zhǔn)化；

5、（3）分別對(duì)預(yù)處理后的圖像及其對(duì)應(yīng)的診斷報(bào)告進(jìn)行圖像數(shù)據(jù)編碼和文本數(shù)據(jù)編碼，得到編碼后的圖像嵌入表示和文本嵌入表示；

6、（4）將編碼后的圖像嵌入表示和編碼后的文本嵌入表示進(jìn)行模態(tài)投影融合，通過(guò)使用對(duì)比學(xué)習(xí)方法學(xué)習(xí)正負(fù)樣本，以構(gòu)建對(duì)比學(xué)習(xí)的損失函數(shù)；以最小化對(duì)比學(xué)習(xí)的損失函數(shù)為目標(biāo)，確定對(duì)齊的圖像嵌入表示和文本嵌入表示；

7、（5）根據(jù)步驟（4）確定的對(duì)齊的圖像嵌入表示和文本嵌入表示，為圖像生成對(duì)應(yīng)的診斷報(bào)告，以及為診斷報(bào)告生成對(duì)應(yīng)的圖像，以獲取對(duì)齊的圖像-文本對(duì)。

8、進(jìn)一步地，所述步驟（1）中，基本信息包括年齡和性別；各類圖像數(shù)據(jù)包括ct圖像、超聲圖像、心電圖和核磁共振圖像。

9、進(jìn)一步地，所述步驟（3）中，對(duì)預(yù)處理后的圖像進(jìn)行圖像數(shù)據(jù)編碼，得到編碼后的圖像嵌入表示，具體包括：

10、（3.1）對(duì)預(yù)處理后的圖像進(jìn)行切片，以獲取該圖像對(duì)應(yīng)的多個(gè)切片圖像；

11、（3.2）通過(guò)線性映射進(jìn)行切片嵌入，以將每個(gè)切片圖像卷積成d維嵌入向量；

12、（3.3）對(duì)于步驟（3.2）得到的每個(gè)切片圖像的嵌入向量，為其添加可學(xué)習(xí)的向量，再將該切片圖像對(duì)應(yīng)的位置編碼和模態(tài)編碼標(biāo)識(shí)拼接到該嵌入向量中，得到拼接后的嵌入向量；

13、（3.4）將拼接后的嵌入向量通過(guò)多個(gè)transformer編碼器層進(jìn)行處理，最終得到編碼后的圖像嵌入表示。

14、進(jìn)一步地，所述transformer編碼器層包括多頭注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)和標(biāo)準(zhǔn)化層，其輸入輸出的過(guò)程表示為：

15、

16、其中，msa表示多頭注意力機(jī)制，ln表示標(biāo)準(zhǔn)化層，mlp表示前饋神經(jīng)網(wǎng)絡(luò)，也表示多層感知機(jī)；表示第h-1個(gè)transformer編碼器層的輸出，表示第h個(gè)transformer編碼器層的中間向量，表示第h個(gè)transformer編碼器層的輸出；，h表示共有h個(gè)transformer編碼器層；y表示最后一個(gè)transformer編碼器層輸出的預(yù)測(cè)向量。

17、進(jìn)一步地，所述步驟（3）中，對(duì)預(yù)處理后的診斷報(bào)告進(jìn)行文本數(shù)據(jù)編碼，得到編碼后的文本嵌入表示，具體包括：

18、首先將預(yù)處理后的診斷報(bào)告轉(zhuǎn)化為二進(jìn)制編碼向量；然后將其以及其模態(tài)標(biāo)識(shí)拼接后輸入到雙向transformer編碼器中，經(jīng)過(guò)多個(gè)雙向transformer編碼器的處理后，得到編碼后的文本嵌入表示。

19、進(jìn)一步地，所述雙向transformer編碼器包括雙向注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)和標(biāo)準(zhǔn)化層，其輸入輸出的過(guò)程表示為：

20、

21、其中，bi-a表示雙向注意力機(jī)制，表示第w-1個(gè)雙向transformer編碼器的輸出，表示第w個(gè)雙向transformer編碼器的中間向量，表示第w個(gè)雙向transformer編碼器的輸出，，w表示共有w個(gè)雙向transformer編碼器，表示最后一個(gè)雙向transformer編碼器輸出的編碼后的文本嵌入表示。

22、進(jìn)一步地，所述步驟（4）中，所述對(duì)比學(xué)習(xí)的損失函數(shù)的表達(dá)式為：

23、

24、其中，表示對(duì)比學(xué)習(xí)的損失函數(shù)，n為樣本的總數(shù)量，表示第i個(gè)樣本的圖像嵌入表示，表示第j個(gè)樣本的文本嵌入表示，表示和之間的余弦相似度，表示和之間的余弦相似度，是用來(lái)調(diào)整概率分布的超參數(shù)。

25、進(jìn)一步地，所述步驟（5）中，所述為圖像生成對(duì)應(yīng)的診斷報(bào)告具體包括：首先對(duì)給定的圖像進(jìn)行圖像數(shù)據(jù)編碼，以獲取編碼后的圖像嵌入表示；然后計(jì)算該圖像嵌入表示和步驟（4）確定的所有文本嵌入表示之間的余弦相似度，選取最大余弦相似度對(duì)應(yīng)的文本嵌入表示作為該圖像對(duì)應(yīng)的診斷報(bào)告文本；

26、所述為診斷報(bào)告生成對(duì)應(yīng)的圖像具體包括：首先對(duì)給定的診斷報(bào)告進(jìn)行文本數(shù)據(jù)編碼，以獲取編碼后的文本嵌入表示；然后計(jì)算該文本嵌入表示和步驟（4）確定的所有圖像嵌入表示之間的余弦相似度，選取最大余弦相似度對(duì)應(yīng)的圖像嵌入表示作為該診斷報(bào)告對(duì)應(yīng)的圖像。

27、進(jìn)一步地，在所述步驟（5）之后，還包括：

28、根據(jù)不同的下游任務(wù)設(shè)計(jì)不同的后處理過(guò)程，基于步驟（5）獲取的對(duì)齊的圖像-文本對(duì)，執(zhí)行對(duì)應(yīng)的下游任務(wù)。

29、本發(fā)明實(shí)施例第二方面提供了一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)裝置，用于實(shí)現(xiàn)上述的基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法，包括：

30、數(shù)據(jù)采集模塊，用于采集電子病歷系統(tǒng)中患者的多模態(tài)醫(yī)學(xué)數(shù)據(jù)；其中，所述多模態(tài)醫(yī)學(xué)數(shù)據(jù)包括基本信息、觀察窗期間的診斷報(bào)告和各類圖像數(shù)據(jù)；

31、數(shù)據(jù)預(yù)處理模塊，用于對(duì)數(shù)據(jù)采集模塊采集到的多模態(tài)醫(yī)學(xué)數(shù)據(jù)進(jìn)行預(yù)處理，以將各類圖像的大小重置為相同的固定值，將圖像所對(duì)應(yīng)的診斷報(bào)告進(jìn)行清洗和標(biāo)準(zhǔn)化；

32、各模態(tài)數(shù)據(jù)編碼模塊，包括圖像數(shù)據(jù)編碼模塊和文本數(shù)據(jù)編碼模塊，其中，所述圖像數(shù)據(jù)編碼模塊用于對(duì)預(yù)處理后的圖像進(jìn)行圖像數(shù)據(jù)編碼，以獲取編碼后的圖像嵌入表示；所述文本數(shù)據(jù)編碼模塊用于對(duì)預(yù)處理后的診斷報(bào)告進(jìn)行文本數(shù)據(jù)編碼，以獲取編碼后的文本嵌入表示；

33、投影模塊，用于將編碼后的圖像嵌入表示和編碼后的文本嵌入表示進(jìn)行模態(tài)投影融合，通過(guò)使用對(duì)比學(xué)習(xí)方法學(xué)習(xí)正負(fù)樣本，以構(gòu)建對(duì)比學(xué)習(xí)的損失函數(shù)；以最小化對(duì)比學(xué)習(xí)的損失函數(shù)為目標(biāo)，確定對(duì)齊的圖像嵌入表示和文本嵌入表示；和

34、解碼模塊，用于根據(jù)投影模塊確定的對(duì)齊的圖像嵌入表示和文本嵌入表示，為圖像生成對(duì)應(yīng)的診斷報(bào)告，以及為診斷報(bào)告生成對(duì)應(yīng)的圖像，以獲取對(duì)齊的圖像-文本對(duì)。

35、本發(fā)明的有益效果是，本發(fā)明通過(guò)一種多模態(tài)的編碼方法，將不同圖片模態(tài)和文本進(jìn)行編碼，不僅可以區(qū)分圖像和文本之間的模態(tài)，還將不同模態(tài)的圖片進(jìn)行區(qū)分；本發(fā)明將多模態(tài)的醫(yī)學(xué)影像數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行語(yǔ)言層面的對(duì)齊，進(jìn)而提出一種基于語(yǔ)言相似性的圖像-文本對(duì)生成的解碼方法，根據(jù)生成的圖像-文本對(duì)進(jìn)行多模態(tài)大模型的研究，對(duì)于單模態(tài)數(shù)據(jù)較少的研究任務(wù)，可以生成指定模態(tài)的圖片，解決了多模態(tài)大模型研究中缺少數(shù)據(jù)量的問(wèn)題，助力單模態(tài)下游任務(wù)研究，如輔助診斷、疾病預(yù)測(cè)、并發(fā)癥預(yù)警等。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張陽(yáng),周天舒,李勁松,田雨
技術(shù)所有人：之江實(shí)驗(yàn)室
我是此專利的發(fā)明人

上一篇：一種汽車門檻焊接定位裝置的制作方法
上一篇：一種盤扣支架用節(jié)點(diǎn)連接件的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評(píng)價(jià)及糖類疫苗的研制 2.功能糖類的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評(píng)價(jià) 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置與流程