亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置與流程

文檔序號(hào):40396243發(fā)布日期:2024-12-20 12:19閱讀:7來(lái)源:國(guó)知局
一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置與流程

本發(fā)明涉及多模態(tài)的數(shù)據(jù)增強(qiáng),尤其涉及一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置。


背景技術(shù):

1、隨著人工智能技術(shù)的發(fā)展,多模態(tài)數(shù)據(jù)的研究和挖掘成為一個(gè)日益重要的研究領(lǐng)域。多模態(tài)數(shù)據(jù)是指包含多種類型信息的數(shù)據(jù)集合,例如圖像、文本、音頻或視頻等。多模態(tài)數(shù)據(jù)的應(yīng)用范圍廣泛,涵蓋了醫(yī)療診斷、自動(dòng)駕駛、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等多個(gè)領(lǐng)域。多模態(tài)數(shù)據(jù)提供了來(lái)自不同感官或來(lái)源的信息,這有助于模型從多個(gè)角度理解數(shù)據(jù),從而在面對(duì)新數(shù)據(jù)時(shí)具有更強(qiáng)的泛化能力和魯棒性。但與此同時(shí),挖掘多模態(tài)數(shù)據(jù)時(shí)需要克服模態(tài)語(yǔ)義不一致、特征維度不匹配、不同模態(tài)間關(guān)聯(lián)強(qiáng)弱不一、模態(tài)數(shù)據(jù)可能缺失等情況。

2、多模態(tài)數(shù)據(jù)增強(qiáng)的目標(biāo)是通過(guò)對(duì)這些不同類型的數(shù)據(jù)進(jìn)行處理,來(lái)生成更豐富、更多樣化的訓(xùn)練樣本,從而提高模型的泛化能力和魯棒性。隨著大語(yǔ)言模型(largelanguage?model,llm)的興起,由于其強(qiáng)大的語(yǔ)言理解和推理能力,在學(xué)術(shù)和工業(yè)界中越來(lái)越受歡迎。llm的進(jìn)展也啟發(fā)了研究人員將llm作為多模態(tài)任務(wù)的接口,如視覺(jué)語(yǔ)言學(xué)習(xí)、音頻和語(yǔ)音識(shí)別、視頻理解等,因此多模態(tài)大語(yǔ)言模型(multimodal?large?language?model,mllm)也引起了研究人員的關(guān)注。目前使用大模型微調(diào)和vision?transformer(vit)等技術(shù)進(jìn)行多模態(tài)的語(yǔ)言對(duì)齊訓(xùn)練,其目的是訓(xùn)練一個(gè)通用的多模態(tài)大模型。這種方法需要大量人工標(biāo)注的圖片-文本對(duì)數(shù)據(jù),作為基礎(chǔ)數(shù)據(jù)進(jìn)行訓(xùn)練。除此之外,這些模型和數(shù)據(jù)針對(duì)的是通用數(shù)據(jù),不包含領(lǐng)域知識(shí),只能進(jìn)行簡(jiǎn)單的問(wèn)答。

3、隨著技術(shù)的不斷發(fā)展,醫(yī)學(xué)影像數(shù)據(jù)主要包括ct(computed?tomography,電子計(jì)算機(jī)斷層掃描)圖像、超聲(ultrasound,us)圖像、心電圖(electrocardiogram,ecg)、核磁共振(magnetic?resonance,mr)圖像、核醫(yī)學(xué)(spect,pet)圖像等。其中,ct圖像適用于對(duì)人體的硬組織如骨骼、金屬等成像,這些具有較高的灰度等級(jí)。超聲圖像適用于前列腺、血管等軟組織,有明顯的斑點(diǎn)噪聲。核磁共振圖像具有豐富的灰度信息,不僅對(duì)于骨骼等硬組織,同時(shí)對(duì)于腦白質(zhì)、腦灰質(zhì)等軟組織也有很好的分辨力,腦部檢測(cè)常用核磁共振。pet圖像是正電子的濃度圖像,對(duì)于早期的癌癥敏感性高,但圖像本身比較模糊,空間分辨率低,同時(shí)無(wú)法清晰反映人體內(nèi)部的幾何拓?fù)湫畔?。而心電圖是利用心電圖機(jī)從體表記錄心臟每一心動(dòng)周期所產(chǎn)生的電活動(dòng)變化圖形。這些多模態(tài)的數(shù)據(jù)為醫(yī)生診斷提供了巨大的參考依據(jù),但不同圖像之間,以及圖像和圖形之間差異巨大,且現(xiàn)實(shí)中,大部分患者并不具有或不必要進(jìn)行所有的檢查,部分模態(tài)數(shù)據(jù)缺失是常見現(xiàn)象。如何統(tǒng)一多模態(tài)的數(shù)據(jù)表示,挖掘不同模態(tài)之間的關(guān)聯(lián),有效填充缺失模態(tài)數(shù)據(jù)是亟需解決的問(wèn)題。因此,如果能夠?qū)Σ煌B(tài)進(jìn)行編碼,通過(guò)多模態(tài)數(shù)據(jù)增強(qiáng)的方法有效補(bǔ)充缺失模態(tài),不僅可以降低患者治療費(fèi)用,還可以提高醫(yī)生診斷效率和正確性。

4、針對(duì)多模態(tài)的醫(yī)學(xué)影像數(shù)據(jù),本發(fā)明提出一種能夠直接進(jìn)行不同模態(tài)-文本對(duì)的生成,并使用生成的文本之間的相似度做模態(tài)對(duì)齊或者模態(tài)數(shù)據(jù)插補(bǔ)的數(shù)據(jù)增強(qiáng)方法。該方法基于語(yǔ)言相似性直觀生成,可解釋性強(qiáng),且不需預(yù)先人工標(biāo)記文本對(duì),可以生成不同模態(tài)-文本對(duì)解決目前多模態(tài)大模型研究中缺少數(shù)據(jù)量的問(wèn)題,同時(shí)可以支持不同模態(tài)的下游任務(wù)研究,例如輔助診斷、疾病預(yù)測(cè)、并發(fā)癥預(yù)警等。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法和裝置。

2、本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:本發(fā)明實(shí)施例第一方面提供了一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法,包括以下步驟:

3、(1)采集電子病歷系統(tǒng)中患者的多模態(tài)醫(yī)學(xué)數(shù)據(jù);其中,所述多模態(tài)醫(yī)學(xué)數(shù)據(jù)包括基本信息、觀察窗期間的診斷報(bào)告和各類圖像數(shù)據(jù);

4、(2)對(duì)步驟(1)采集到的多模態(tài)醫(yī)學(xué)數(shù)據(jù)進(jìn)行預(yù)處理,以將各類圖像的大小重置為相同的固定值,將圖像所對(duì)應(yīng)的診斷報(bào)告進(jìn)行清洗和標(biāo)準(zhǔn)化;

5、(3)分別對(duì)預(yù)處理后的圖像及其對(duì)應(yīng)的診斷報(bào)告進(jìn)行圖像數(shù)據(jù)編碼和文本數(shù)據(jù)編碼,得到編碼后的圖像嵌入表示和文本嵌入表示;

6、(4)將編碼后的圖像嵌入表示和編碼后的文本嵌入表示進(jìn)行模態(tài)投影融合,通過(guò)使用對(duì)比學(xué)習(xí)方法學(xué)習(xí)正負(fù)樣本,以構(gòu)建對(duì)比學(xué)習(xí)的損失函數(shù);以最小化對(duì)比學(xué)習(xí)的損失函數(shù)為目標(biāo),確定對(duì)齊的圖像嵌入表示和文本嵌入表示;

7、(5)根據(jù)步驟(4)確定的對(duì)齊的圖像嵌入表示和文本嵌入表示,為圖像生成對(duì)應(yīng)的診斷報(bào)告,以及為診斷報(bào)告生成對(duì)應(yīng)的圖像,以獲取對(duì)齊的圖像-文本對(duì)。

8、進(jìn)一步地,所述步驟(1)中,基本信息包括年齡和性別;各類圖像數(shù)據(jù)包括ct圖像、超聲圖像、心電圖和核磁共振圖像。

9、進(jìn)一步地,所述步驟(3)中,對(duì)預(yù)處理后的圖像進(jìn)行圖像數(shù)據(jù)編碼,得到編碼后的圖像嵌入表示,具體包括:

10、(3.1)對(duì)預(yù)處理后的圖像進(jìn)行切片,以獲取該圖像對(duì)應(yīng)的多個(gè)切片圖像;

11、(3.2)通過(guò)線性映射進(jìn)行切片嵌入,以將每個(gè)切片圖像卷積成d維嵌入向量;

12、(3.3)對(duì)于步驟(3.2)得到的每個(gè)切片圖像的嵌入向量,為其添加可學(xué)習(xí)的向量,再將該切片圖像對(duì)應(yīng)的位置編碼和模態(tài)編碼標(biāo)識(shí)拼接到該嵌入向量中,得到拼接后的嵌入向量;

13、(3.4)將拼接后的嵌入向量通過(guò)多個(gè)transformer編碼器層進(jìn)行處理,最終得到編碼后的圖像嵌入表示。

14、進(jìn)一步地,所述transformer編碼器層包括多頭注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)和標(biāo)準(zhǔn)化層,其輸入輸出的過(guò)程表示為:

15、

16、其中,msa表示多頭注意力機(jī)制,ln表示標(biāo)準(zhǔn)化層,mlp表示前饋神經(jīng)網(wǎng)絡(luò),也表示多層感知機(jī);表示第h-1個(gè)transformer編碼器層的輸出,表示第h個(gè)transformer編碼器層的中間向量,表示第h個(gè)transformer編碼器層的輸出;,h表示共有h個(gè)transformer編碼器層;y表示最后一個(gè)transformer編碼器層輸出的預(yù)測(cè)向量。

17、進(jìn)一步地,所述步驟(3)中,對(duì)預(yù)處理后的診斷報(bào)告進(jìn)行文本數(shù)據(jù)編碼,得到編碼后的文本嵌入表示,具體包括:

18、首先將預(yù)處理后的診斷報(bào)告轉(zhuǎn)化為二進(jìn)制編碼向量;然后將其以及其模態(tài)標(biāo)識(shí)拼接后輸入到雙向transformer編碼器中,經(jīng)過(guò)多個(gè)雙向transformer編碼器的處理后,得到編碼后的文本嵌入表示。

19、進(jìn)一步地,所述雙向transformer編碼器包括雙向注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)和標(biāo)準(zhǔn)化層,其輸入輸出的過(guò)程表示為:

20、

21、其中,bi-a表示雙向注意力機(jī)制,表示第w-1個(gè)雙向transformer編碼器的輸出,表示第w個(gè)雙向transformer編碼器的中間向量,表示第w個(gè)雙向transformer編碼器的輸出,,w表示共有w個(gè)雙向transformer編碼器,表示最后一個(gè)雙向transformer編碼器輸出的編碼后的文本嵌入表示。

22、進(jìn)一步地,所述步驟(4)中,所述對(duì)比學(xué)習(xí)的損失函數(shù)的表達(dá)式為:

23、

24、其中,表示對(duì)比學(xué)習(xí)的損失函數(shù),n為樣本的總數(shù)量,表示第i個(gè)樣本的圖像嵌入表示,表示第j個(gè)樣本的文本嵌入表示,表示和之間的余弦相似度,表示和之間的余弦相似度,是用來(lái)調(diào)整概率分布的超參數(shù)。

25、進(jìn)一步地,所述步驟(5)中,所述為圖像生成對(duì)應(yīng)的診斷報(bào)告具體包括:首先對(duì)給定的圖像進(jìn)行圖像數(shù)據(jù)編碼,以獲取編碼后的圖像嵌入表示;然后計(jì)算該圖像嵌入表示和步驟(4)確定的所有文本嵌入表示之間的余弦相似度,選取最大余弦相似度對(duì)應(yīng)的文本嵌入表示作為該圖像對(duì)應(yīng)的診斷報(bào)告文本;

26、所述為診斷報(bào)告生成對(duì)應(yīng)的圖像具體包括:首先對(duì)給定的診斷報(bào)告進(jìn)行文本數(shù)據(jù)編碼,以獲取編碼后的文本嵌入表示;然后計(jì)算該文本嵌入表示和步驟(4)確定的所有圖像嵌入表示之間的余弦相似度,選取最大余弦相似度對(duì)應(yīng)的圖像嵌入表示作為該診斷報(bào)告對(duì)應(yīng)的圖像。

27、進(jìn)一步地,在所述步驟(5)之后,還包括:

28、根據(jù)不同的下游任務(wù)設(shè)計(jì)不同的后處理過(guò)程,基于步驟(5)獲取的對(duì)齊的圖像-文本對(duì),執(zhí)行對(duì)應(yīng)的下游任務(wù)。

29、本發(fā)明實(shí)施例第二方面提供了一種基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)裝置,用于實(shí)現(xiàn)上述的基于多模態(tài)語(yǔ)言對(duì)齊的數(shù)據(jù)增強(qiáng)方法,包括:

30、數(shù)據(jù)采集模塊,用于采集電子病歷系統(tǒng)中患者的多模態(tài)醫(yī)學(xué)數(shù)據(jù);其中,所述多模態(tài)醫(yī)學(xué)數(shù)據(jù)包括基本信息、觀察窗期間的診斷報(bào)告和各類圖像數(shù)據(jù);

31、數(shù)據(jù)預(yù)處理模塊,用于對(duì)數(shù)據(jù)采集模塊采集到的多模態(tài)醫(yī)學(xué)數(shù)據(jù)進(jìn)行預(yù)處理,以將各類圖像的大小重置為相同的固定值,將圖像所對(duì)應(yīng)的診斷報(bào)告進(jìn)行清洗和標(biāo)準(zhǔn)化;

32、各模態(tài)數(shù)據(jù)編碼模塊,包括圖像數(shù)據(jù)編碼模塊和文本數(shù)據(jù)編碼模塊,其中,所述圖像數(shù)據(jù)編碼模塊用于對(duì)預(yù)處理后的圖像進(jìn)行圖像數(shù)據(jù)編碼,以獲取編碼后的圖像嵌入表示;所述文本數(shù)據(jù)編碼模塊用于對(duì)預(yù)處理后的診斷報(bào)告進(jìn)行文本數(shù)據(jù)編碼,以獲取編碼后的文本嵌入表示;

33、投影模塊,用于將編碼后的圖像嵌入表示和編碼后的文本嵌入表示進(jìn)行模態(tài)投影融合,通過(guò)使用對(duì)比學(xué)習(xí)方法學(xué)習(xí)正負(fù)樣本,以構(gòu)建對(duì)比學(xué)習(xí)的損失函數(shù);以最小化對(duì)比學(xué)習(xí)的損失函數(shù)為目標(biāo),確定對(duì)齊的圖像嵌入表示和文本嵌入表示;和

34、解碼模塊,用于根據(jù)投影模塊確定的對(duì)齊的圖像嵌入表示和文本嵌入表示,為圖像生成對(duì)應(yīng)的診斷報(bào)告,以及為診斷報(bào)告生成對(duì)應(yīng)的圖像,以獲取對(duì)齊的圖像-文本對(duì)。

35、本發(fā)明的有益效果是,本發(fā)明通過(guò)一種多模態(tài)的編碼方法,將不同圖片模態(tài)和文本進(jìn)行編碼,不僅可以區(qū)分圖像和文本之間的模態(tài),還將不同模態(tài)的圖片進(jìn)行區(qū)分;本發(fā)明將多模態(tài)的醫(yī)學(xué)影像數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行語(yǔ)言層面的對(duì)齊,進(jìn)而提出一種基于語(yǔ)言相似性的圖像-文本對(duì)生成的解碼方法,根據(jù)生成的圖像-文本對(duì)進(jìn)行多模態(tài)大模型的研究,對(duì)于單模態(tài)數(shù)據(jù)較少的研究任務(wù),可以生成指定模態(tài)的圖片,解決了多模態(tài)大模型研究中缺少數(shù)據(jù)量的問(wèn)題,助力單模態(tài)下游任務(wù)研究,如輔助診斷、疾病預(yù)測(cè)、并發(fā)癥預(yù)警等。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1