所屬的技術(shù)人員能夠理解,專病數(shù)據(jù)庫的質(zhì)量檢測方法各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本公開的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。本領(lǐng)域的技術(shù)人員應(yīng)理解,上述描述及附圖中所示的本發(fā)明的實(shí)施例只作為舉例而并不限制本發(fā)明。本發(fā)明的優(yōu)勢已經(jīng)完整并有效地實(shí)現(xiàn)。本發(fā)明的功能及結(jié)構(gòu)原理已在實(shí)施例中展示和說明,在沒有背離所述原理下,本發(fā)明的實(shí)施方式可以有任何變形或修改。在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。更確切地說,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器(dsp)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的進(jìn)行資源優(yōu)化的服務(wù)器、客戶端和系統(tǒng)等物理設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
背景技術(shù):
1、目前醫(yī)院系統(tǒng)的數(shù)據(jù)庫中,存儲著大量的病歷信息。醫(yī)生通過對某種疾病下所有病歷信息的研究學(xué)習(xí),能夠促進(jìn)醫(yī)療水平的進(jìn)步。隨著醫(yī)院信息化建設(shè)的不斷發(fā)展,為了方便為醫(yī)療專業(yè)人員、研究人員和患者等相關(guān)人群提供一個(gè)權(quán)威、準(zhǔn)確的信息來源,以便更好地了解特定疾病的相關(guān)知識和信息,建立了專病數(shù)據(jù)庫。
2、專病數(shù)據(jù)庫是指針對特定疾病或病種建立的醫(yī)學(xué)數(shù)據(jù)庫或知識庫。它通常包含了該疾病的臨床特征、診斷標(biāo)準(zhǔn)、治療方法、藥物信息、預(yù)后評估等方面的專業(yè)知識和信息。它可以幫助醫(yī)生進(jìn)行疾病診斷和治療決策,為研究人員提供疾病數(shù)據(jù)和研究進(jìn)展,幫助患者了解和管理自身疾病。
3、在醫(yī)療信息化快速發(fā)展的背景下,專病數(shù)據(jù)庫作為臨床研究和診療的重要支撐,其數(shù)據(jù)質(zhì)量直接關(guān)系到科研結(jié)果的準(zhǔn)確性和臨床決策的可靠性。目前,專病數(shù)據(jù)庫的質(zhì)量檢測方法一般為人工抽檢,需要耗費(fèi)大量的人力物力。
4、為此,本發(fā)明提供一種專病數(shù)據(jù)庫的質(zhì)量檢測方法、系統(tǒng)、設(shè)備及存儲介質(zhì),以解決上述的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種專病數(shù)據(jù)庫的質(zhì)量檢測方法、系統(tǒng)、設(shè)備及存儲介質(zhì),用于解決上述任一方面的技術(shù)問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、第一方面,一種專病數(shù)據(jù)庫的質(zhì)量檢測方法,所述專病數(shù)據(jù)庫中存儲了若干個(gè)字段類型的字段結(jié)果,所述方法包括:
4、獲取待檢測的專病數(shù)據(jù)庫的字段類型;
5、構(gòu)造若干個(gè)用于得到某一字段類型下的字段結(jié)果的問題;
6、將若干個(gè)得到該字段類型下的字段結(jié)果的問題統(tǒng)一管理構(gòu)建成prompt題庫;
7、讀取專病數(shù)據(jù)庫中該字段類型下的字段結(jié)果,并獲取該字段結(jié)果所對應(yīng)的原始醫(yī)學(xué)文本,驗(yàn)證字段結(jié)果的準(zhǔn)確性,選取部分驗(yàn)證通過的字段結(jié)果所對應(yīng)的原始文本數(shù)據(jù)作為訓(xùn)練文本數(shù)據(jù);
8、讀取訓(xùn)練文本數(shù)據(jù),并獲取該訓(xùn)練文本數(shù)據(jù)在構(gòu)造的問題下對應(yīng)的字段結(jié)果,得到目標(biāo)答案;
9、將訓(xùn)練文本數(shù)據(jù)、目標(biāo)答案和prompt題庫中的得到字段結(jié)果的問題輸入到預(yù)先構(gòu)建的質(zhì)量檢測模型中,對質(zhì)量檢測模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的質(zhì)量檢測模型;
10、將原始醫(yī)學(xué)文本數(shù)據(jù)和得到該字段類型下的字段結(jié)果的問題輸入到訓(xùn)練好的質(zhì)量檢測模型中,質(zhì)量檢測模型輸出字段結(jié)果,將該字段結(jié)果與專病數(shù)據(jù)庫中的字段結(jié)果的一致性進(jìn)行判斷,以判定專病數(shù)據(jù)庫中的字段結(jié)果的準(zhǔn)確性,從而檢測專病數(shù)據(jù)庫的質(zhì)量。
11、進(jìn)一步地,構(gòu)造若干個(gè)用于得到某一字段類型下的字段結(jié)果的問題,其中:
12、對于專病數(shù)據(jù)庫中的每個(gè)字段類型,至少分別構(gòu)造三個(gè)得到字段結(jié)果的問題。
13、進(jìn)一步地,讀取專病數(shù)據(jù)庫中該字段類型下的字段結(jié)果,并獲取該字段結(jié)果所對應(yīng)的原始醫(yī)學(xué)文本,包括如下具體步驟:
14、使用數(shù)據(jù)庫連接庫或api建立與專病數(shù)據(jù)庫的連接,并執(zhí)行查詢語句獲取專病數(shù)據(jù)庫中的字段結(jié)果;
15、通過專病數(shù)據(jù)庫中的關(guān)聯(lián)關(guān)系或索引,找到與字段結(jié)果對應(yīng)的原始醫(yī)學(xué)文本,并將獲取到的原始醫(yī)學(xué)文本進(jìn)行輸出。
16、進(jìn)一步地,預(yù)先構(gòu)建的質(zhì)量檢測模型為qwen1.5-14b模型。
17、進(jìn)一步地,在將訓(xùn)練文本數(shù)據(jù)、目標(biāo)答案和prompt題庫中的得到字段結(jié)果的問題輸入到預(yù)先構(gòu)建的質(zhì)量檢測模型中,對質(zhì)量檢測模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的質(zhì)量檢測模型之后,還包括如下具體步驟:
18、將訓(xùn)練文本數(shù)據(jù)和prompt題庫中的得到字段結(jié)果的問題輸入到訓(xùn)練好的qwen1.5-14b模型中,訓(xùn)練好的qwen1.5-14b模型輸出的預(yù)測字段結(jié)果;
19、通過損失函數(shù),對獲取目標(biāo)答案與預(yù)測字段結(jié)果進(jìn)行計(jì)算,得到計(jì)算結(jié)果;
20、通過adam優(yōu)化器根據(jù)計(jì)算結(jié)果對qwen1.5-14b模型進(jìn)行優(yōu)化;
21、重復(fù)執(zhí)行上述步驟,直至損失函數(shù)收斂,qwen1.5-14b模型的訓(xùn)練結(jié)束,得到優(yōu)化后的qwen1.5-14b模型。
22、進(jìn)一步地,在將原始醫(yī)學(xué)文本數(shù)據(jù)和prompt題庫中的得到該字段類型下的字段結(jié)果的問題輸入到訓(xùn)練好的質(zhì)量檢測模型中,訓(xùn)練好的質(zhì)量檢測模型輸出的預(yù)測字段結(jié)果之前,還包括:
23、設(shè)置qwen1.5-14b模型的訓(xùn)練參數(shù),所述訓(xùn)練參數(shù)包括:batch_size、epoch和梯度累積。
24、進(jìn)一步地,損失函數(shù)為交叉熵?fù)p失函數(shù),交叉熵?fù)p失函數(shù)的表達(dá)式為:
25、
26、式中,表示損失函數(shù),表示分類個(gè)數(shù),表示標(biāo)注數(shù)據(jù)中的真實(shí)值,表示模型預(yù)測值。
27、第二方面,一種專病數(shù)據(jù)庫的質(zhì)量檢測系統(tǒng),所述系統(tǒng)包括:
28、數(shù)據(jù)字段獲取單元,用于獲取待檢測的專病數(shù)據(jù)庫的字段類型;
29、問題構(gòu)造單元,用于構(gòu)造若干個(gè)用于得到某一字段類型下的字段結(jié)果的問題;
30、prompt題庫構(gòu)建單元,用于將若干個(gè)得到該字段類型下的字段結(jié)果的問題統(tǒng)一管理構(gòu)建成prompt題庫;
31、數(shù)據(jù)提取單元,用于讀取專病數(shù)據(jù)庫中該字段類型下的字段結(jié)果,并獲取該字段結(jié)果所對應(yīng)的原始醫(yī)學(xué)文本,驗(yàn)證字段結(jié)果的準(zhǔn)確性,選取部分驗(yàn)證通過的字段結(jié)果所對應(yīng)的原始文本數(shù)據(jù)作為訓(xùn)練文本數(shù)據(jù);
32、目標(biāo)答案獲取單元,用于讀取訓(xùn)練文本數(shù)據(jù),并獲取該訓(xùn)練文本數(shù)據(jù)在構(gòu)造的問題下對應(yīng)的字段結(jié)果,得到目標(biāo)答案;
33、質(zhì)量檢測模型訓(xùn)練單元,用于將訓(xùn)練文本數(shù)據(jù)、目標(biāo)答案和prompt題庫中的得到字段結(jié)果的問題輸入到預(yù)先構(gòu)建的質(zhì)量檢測模型中,對質(zhì)量檢測模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的質(zhì)量檢測模型;
34、質(zhì)量檢測單元,用于將原始醫(yī)學(xué)文本數(shù)據(jù)和得到該字段類型下的字段結(jié)果的問題輸入到訓(xùn)練好的質(zhì)量檢測模型中,質(zhì)量檢測模型輸出字段結(jié)果,將該字段結(jié)果與專病數(shù)據(jù)庫中的字段結(jié)果的一致性進(jìn)行判斷,以判定專病數(shù)據(jù)庫中的字段結(jié)果的準(zhǔn)確性,從而檢測專病數(shù)據(jù)庫的質(zhì)量。
35、第三方面,一種電子設(shè)備,所述電子設(shè)備包括:
36、至少一個(gè)處理器;
37、以及與所述至少一個(gè)處理器通信連接的存儲器;
38、存儲器存儲有可被至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行上述各方面所述的專病數(shù)據(jù)庫的質(zhì)量檢測方法。
39、第四方面,一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì)存儲計(jì)算機(jī)指令,所述計(jì)算機(jī)指令使所述計(jì)算機(jī)執(zhí)行上述各方面所述的專病數(shù)據(jù)庫的質(zhì)量檢測方法。
40、本發(fā)明的有益效果:
41、本發(fā)明通過訓(xùn)練質(zhì)量檢測模型,將原始醫(yī)學(xué)文本數(shù)據(jù)和得到字段結(jié)果的問題輸入到訓(xùn)練好的質(zhì)量檢測模型中,質(zhì)量檢測模型輸出字段結(jié)果,將該字段結(jié)果與專病數(shù)據(jù)庫中的字段結(jié)果的一致性進(jìn)行判斷,以判定專病數(shù)據(jù)庫中的字段結(jié)果的準(zhǔn)確性,從而檢測專病數(shù)據(jù)庫的質(zhì)量,實(shí)現(xiàn)了對專病數(shù)據(jù)庫質(zhì)量的自動(dòng)化檢測,提高了專病數(shù)據(jù)庫的質(zhì)量檢測的效率,大大降低了人力成本和時(shí)間成本。
42、本發(fā)明的這些和其它目的、特點(diǎn)和優(yōu)勢,通過下述的詳細(xì)說明,得以充分體現(xiàn)。