本發(fā)明涉及科學(xué)文獻(xiàn)信息提取,尤其涉及一種基于大語言模型的材料科學(xué)文獻(xiàn)知識(shí)重構(gòu)方法。
背景技術(shù):
1、新材料的合成是推動(dòng)科技進(jìn)步的關(guān)鍵,為經(jīng)濟(jì)增長(zhǎng)和社會(huì)進(jìn)步奠定了基礎(chǔ)。然而,材料的合成面臨著巨大的挑戰(zhàn)。材料科學(xué)的復(fù)雜性要求研究人員必須具備豐富的物理和化學(xué)基礎(chǔ)知識(shí),并熟練掌握先進(jìn)的實(shí)驗(yàn)和計(jì)算方法。此外,材料在合成過程中經(jīng)常會(huì)遇到各種環(huán)境和操作因素,如溫度、壓力和化學(xué)環(huán)境。這些因素會(huì)對(duì)材料的合成以及性能產(chǎn)生錯(cuò)綜復(fù)雜的影響,從而使研究工作復(fù)雜化。隨著材料成分和微觀結(jié)構(gòu)復(fù)雜性的增加,傳統(tǒng)的材料發(fā)現(xiàn)方法,包括實(shí)驗(yàn)試錯(cuò)法和理論計(jì)算方法,如密度泛函理論、分子動(dòng)力學(xué)和蒙特卡洛模擬,在開發(fā)成本、效率和時(shí)間方面日益顯示出局限性。
2、近年來,數(shù)據(jù)驅(qū)動(dòng)的人工智能發(fā)展迅速,并開始在廣泛領(lǐng)域發(fā)揮不可或缺的作用。人工智能技術(shù)在材料開發(fā)和設(shè)計(jì)方面的優(yōu)勢(shì)也日益凸顯,機(jī)器學(xué)習(xí)技術(shù)已被廣泛應(yīng)用于鋰電池、化學(xué)反應(yīng)、材料設(shè)計(jì)領(lǐng)域的開發(fā)。機(jī)器學(xué)習(xí)模型的訓(xùn)練依賴于大量可靠和規(guī)范化的科學(xué)數(shù)據(jù),這些數(shù)據(jù)來自現(xiàn)有數(shù)據(jù)庫、研究人員的實(shí)驗(yàn)和計(jì)算結(jié)果以及其他研究人員發(fā)表的科學(xué)文獻(xiàn)。其中,科學(xué)文獻(xiàn)通常包含詳細(xì)的實(shí)驗(yàn)步驟、條件和觀察結(jié)果。文獻(xiàn)中的描述更為詳細(xì),包括所用試劑、設(shè)備、反應(yīng)條件、如溫度、壓力、時(shí)間和具體步驟。此外,科學(xué)文獻(xiàn)包含經(jīng)同行評(píng)審的最新研究成果和創(chuàng)新方法,數(shù)據(jù)和方法都經(jīng)過嚴(yán)格驗(yàn)證,具有很高的可靠性和可信度。因此,有效挖掘科學(xué)文獻(xiàn)中材料的合成信息對(duì)于推動(dòng)新型材料的研究至關(guān)重要。識(shí)別材料的化學(xué)信息,尤其是理想的合成條件,是化學(xué)研究中的一項(xiàng)重要任務(wù)。從出版物中全面總結(jié)化學(xué)信息,然后以有組織的數(shù)據(jù)庫格式進(jìn)行存儲(chǔ),是發(fā)現(xiàn)材料的下一個(gè)合乎邏輯的必要步驟。挑戰(zhàn)在于如何有效地挖掘大量可用文獻(xiàn),以獲得有價(jià)值的信息和見解。
3、近年來,作為ai的一個(gè)分支,自然語言處理技術(shù)已成功應(yīng)用于化學(xué)、醫(yī)學(xué)、生物學(xué)和材料科學(xué)領(lǐng)域的科學(xué)文獻(xiàn)數(shù)據(jù)提取,挖掘出大量?jī)?yōu)秀數(shù)據(jù),有力地促進(jìn)了相關(guān)產(chǎn)業(yè)的發(fā)展。傳統(tǒng)上,人們采用包括字典匹配、規(guī)則、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型在內(nèi)的專業(yè)自然語言處理方法來解決這一問題。然而,這些方法可能是勞動(dòng)密集型的,需要編碼、計(jì)算機(jī)科學(xué)和數(shù)據(jù)科學(xué)方面的專業(yè)知識(shí)。此外,這些方法的通用性較差,對(duì)復(fù)雜信息的提取不具有優(yōu)勢(shì),而且當(dāng)目標(biāo)發(fā)生變化時(shí)需要重新設(shè)計(jì)或訓(xùn)練。然而,大型語言模型的出現(xiàn)有可能解決上述問題。以gpt-4為代表的大語言模型在從文獻(xiàn)中提取信息、理解和生成化學(xué)數(shù)據(jù)中表現(xiàn)出了卓越的能力。目前的研究集中于從文獻(xiàn)中提取特定的化學(xué)成分、合成細(xì)節(jié)或?qū)傩孕畔?,這些信息較為零散,并不完整。提取合成程序的方法也缺乏靈活性和通用性,導(dǎo)致其應(yīng)用和擴(kuò)展性受到了限制。
4、因此,創(chuàng)建一種通用的方法從材料文獻(xiàn)中提取復(fù)雜合成路線信息是急需解決的問題。現(xiàn)有的技術(shù)中,此類方法并沒有。我們提出一種通用的方法用于精確地提取材料文獻(xiàn)中復(fù)雜的合成路線。該方法能夠細(xì)致地解析合成路線中的每一個(gè)步驟和條件,精準(zhǔn)識(shí)別其中隱藏的關(guān)鍵細(xì)節(jié),以及深層次的邏輯關(guān)系,實(shí)現(xiàn)了對(duì)合成信息的全方位重構(gòu),從而重構(gòu)出完整且精確的合成路線圖譜。相比傳統(tǒng)的方法,這種新方法不僅能夠處理更加復(fù)雜、多變的合成條件,還能在處理海量數(shù)據(jù)時(shí)保持通用性和準(zhǔn)確性。最后,合成路線以結(jié)構(gòu)化的json數(shù)據(jù)進(jìn)行存儲(chǔ)和利用,幫助研究人員獲得有價(jià)值的信息和見解。
技術(shù)實(shí)現(xiàn)思路
1、為實(shí)現(xiàn)以上目的,本發(fā)明的采用的方法如下:
2、(1)根據(jù)用戶輸入的主題檢索關(guān)鍵詞,在各個(gè)文獻(xiàn)數(shù)據(jù)庫中使用爬蟲技術(shù)檢索與之對(duì)應(yīng)的科學(xué)文獻(xiàn)并下載到本地;
3、(2)對(duì)下載的科學(xué)文獻(xiàn)進(jìn)行預(yù)處理,得到標(biāo)準(zhǔn)化的可擴(kuò)展標(biāo)記語言xml格式的文本信息;
4、(3)對(duì)科學(xué)文獻(xiàn)中的段落進(jìn)行分類;
5、(4)設(shè)計(jì)一個(gè)樣本提示學(xué)習(xí)框架,使用生成式預(yù)訓(xùn)練transformergpt-4模型進(jìn)行目標(biāo)合成路線的提取,校對(duì)提取到的合成信息,建立“提示-完成”格式的微調(diào)模型的數(shù)據(jù)集;
6、(5)使用由提示學(xué)習(xí)框架建立的數(shù)據(jù)集,微調(diào)大語言模型,使其具有提取合成路線的通用性,然后評(píng)估其在測(cè)試集上的性能;
7、(6)將微調(diào)后的大語言模型應(yīng)用到材料領(lǐng)域的合成路線的知識(shí)提取,提取到的合成路線信息以結(jié)構(gòu)化的json數(shù)據(jù)保存。并保存信息為json數(shù)據(jù);
8、(7)利用大模型輸出的結(jié)構(gòu)化的合成路線數(shù)據(jù),對(duì)化學(xué)文獻(xiàn)中材料合成數(shù)據(jù)進(jìn)行知識(shí)重構(gòu)。構(gòu)建材料領(lǐng)域的知識(shí)圖譜,以及自動(dòng)化繪制材料合成過程的流程圖。
9、進(jìn)一步的,在所述(1)中,根據(jù)用戶輸入的主題檢索關(guān)鍵詞,在各個(gè)文獻(xiàn)數(shù)據(jù)庫中使用爬蟲技術(shù)檢索與之對(duì)應(yīng)的科學(xué)文獻(xiàn)信息并下載到本地。
10、第一步:獲取爬蟲權(quán)限期刊數(shù)據(jù)庫的應(yīng)用程序接口;
11、第二步:向數(shù)據(jù)庫發(fā)送文獻(xiàn)檢索請(qǐng)求,并從返回的數(shù)據(jù)中提取文獻(xiàn)的數(shù)字對(duì)象標(biāo)識(shí)符doi;
12、第三步:依據(jù)提取的文獻(xiàn)doi,在對(duì)應(yīng)的期刊數(shù)據(jù)庫上,使用應(yīng)用程序接口依次下載所設(shè)定年份期間的相關(guān)文獻(xiàn)。
13、進(jìn)一步的,在所述(2)中,對(duì)下載的科學(xué)文獻(xiàn)進(jìn)行預(yù)處理,得到標(biāo)準(zhǔn)化的xml文本信息,包含以下兩個(gè)步驟:
14、第一步:通過對(duì)比文獻(xiàn)的doi尋找出重復(fù)的文獻(xiàn),并刪除重復(fù)doi對(duì)應(yīng)的科學(xué)文獻(xiàn);
15、第二步:通過對(duì)科學(xué)文獻(xiàn)的大小進(jìn)行判斷,將文件大小小于3kb的文獻(xiàn)視為空文獻(xiàn)并將其刪除;
16、第三步:將處理后的文件轉(zhuǎn)換為xml格式。
17、進(jìn)一步的,在所述(3)中,對(duì)科學(xué)文獻(xiàn)中的段落進(jìn)行分類,包含對(duì)摘要、結(jié)論和材料制備過程所在段落的識(shí)別,包含以下步驟:
18、第一步:通過解析xml文件獲取標(biāo)題、正文的節(jié)點(diǎn);
19、第二步:通過對(duì)標(biāo)題節(jié)點(diǎn)進(jìn)行比對(duì),獲取摘要所在段落,所采用的比對(duì)文本為abstract、abstract和abstract;
20、第三步:通過對(duì)標(biāo)題節(jié)點(diǎn)進(jìn)行比對(duì),獲取結(jié)論所在段落,所采用的比對(duì)文本為conclusion、conclusion和conclusion;
21、第四步:構(gòu)建如下的正則表達(dá)式從標(biāo)題節(jié)點(diǎn)獲取材料制備過程所在的段落;對(duì)于英文文章正則表達(dá)式為:["preparation\\s\\w+\\scatalys","preparation\\s\\w+\\smaterial","synthesis\\s\\w+\\scatalyst","synthesis\\s\\w+\\smaterial"],中文文章的正則表達(dá)式為["制備\\s\\w+\\催化劑","制備\\s\\w+\\材料","合成\\s\\w+\\催化劑","合成\\s\\w+\\材料"],其中,\s表示匹配一個(gè)空白字符;\w+表示匹配一個(gè)或多個(gè)字母、數(shù)字或下劃線;“preparation”、“catalys”,“material”,“催化劑”,“合成”,“材料”表示匹配這些單詞和詞語。
22、第五步:將提取的段落分別單獨(dú)保存為一個(gè)純文本文件,分別命名為摘要、結(jié)論、和材料制備過程,并將其保持到同一個(gè)文件夾中,文件夾的命名為所提取文獻(xiàn)的數(shù)字對(duì)象標(biāo)識(shí)符第五步:將提取的段落分別單獨(dú)保持為一個(gè)txt文件,分別命名為abstract、conclusion、和材料制備過程,并將其保持到同一個(gè)文件夾中,文件夾的命名為所提取文獻(xiàn)的doi。
23、進(jìn)一步的,在所述(4)中,設(shè)計(jì)一個(gè)樣本提示學(xué)習(xí)框架進(jìn)行信息提取,使用gpt-4模型建立微調(diào)模型的數(shù)據(jù)集。在樣本提示學(xué)習(xí)框架的設(shè)計(jì)中,通過將提示語句發(fā)送給gpt-4獲得模型的返回結(jié)果,提示學(xué)習(xí)框架的設(shè)計(jì)包含設(shè)定角色、明確目標(biāo)、段落輸入和輸出模版四個(gè)部分:
24、其中,其中,設(shè)定角色部分是設(shè)定大語言模型的角色為一名化學(xué)工程師,專門從事從材料合成段落中提取信息的工作;
25、其中,明確目標(biāo)部分包括:首先,設(shè)定大語言模型需要執(zhí)行的任務(wù)概述;然后,將總的任務(wù)進(jìn)行分解,設(shè)定大語言模型每一步的目標(biāo)及任務(wù),同時(shí)給出提示詞;最后,設(shè)計(jì)大語言模型的輸出要求、輸出內(nèi)容和輸出格式
26、其中,段落輸入部分是將一個(gè)示例文獻(xiàn)中的含有目標(biāo)信息的文本發(fā)送給gpt-4;
27、其中,輸出模版部分是根據(jù)示例文獻(xiàn)中的含有目標(biāo)信息的文本,設(shè)計(jì)輸出的標(biāo)準(zhǔn)模板,該模板是字典格式,字典的鍵是目標(biāo)信息的名稱,字典的值是提取的需要的信息,也稱為化學(xué)實(shí)體。
28、在所述(4)微調(diào)模型數(shù)據(jù)集的構(gòu)建中,依據(jù)設(shè)計(jì)的提示學(xué)習(xí)框架,采用gpt-4模型從文獻(xiàn)中提取材料制備過程信息,采用的模型參數(shù)為gpt-4,為了使模型的輸出結(jié)果更具有靈活性,將溫度參數(shù)設(shè)定為1,并將以下提示句發(fā)送給gpt-4。
29、消息=[
30、{"角色":"系統(tǒng)","內(nèi)容":設(shè)定角色+明確目標(biāo)},
31、{"角色":"用戶","內(nèi)容":示例文獻(xiàn)中的含有目標(biāo)信息的文本},
32、{"角色":"助手","內(nèi)容":輸出模版},
33、{"角色":"用戶","內(nèi)容":"新文獻(xiàn)中的含有目標(biāo)信息的文本"}
34、]
35、其中,設(shè)定角色語句、明確目標(biāo)語句都如前文中提示學(xué)習(xí)框架的設(shè)計(jì)中所示。
36、在構(gòu)建的數(shù)據(jù)庫中隨機(jī)抽取出200篇文獻(xiàn),采用上述構(gòu)建的“消息”語句,使用gpt-4模型提取出材料合成路線,并校對(duì)gpt-4模型提取的信息。然后,將每篇文獻(xiàn)的輸入語句和提取結(jié)果都以字典的形式構(gòu)建數(shù)據(jù)集,字典中包含“提示”和“完成”的鍵,“提示”的值為文獻(xiàn)中的含有目標(biāo)信息的文本,“完成”的值為字典形式的材料合成路線信息。
37、進(jìn)一步的,在所述(5)中,使用由提示學(xué)習(xí)框架建立的數(shù)據(jù)集,對(duì)大語言模型進(jìn)行微調(diào)和評(píng)估中,大語言模型包括:在線的gpt大語言模型,開源的llama3、gemma、phi3模型;微調(diào)gpt、llama3、gemma、phi3模型;此外,還使用了openai提供的在線gpt模型。第一步:選擇模型,使用了70億參數(shù)的gemma模型版本,可處理8000詞;80億參數(shù)的llama3,上下文長(zhǎng)度為8000個(gè)詞;38億參數(shù)的phi3模型,上下文長(zhǎng)度為12.8萬詞的語言模型;這些模型具體為谷歌的gemma-7b模型、meta的llama3-8b-instruct和微軟的phi3-mini-128k-instruct-3.8b模型;
38、第二步:gemma、llama3和phi3模型采用了本地部署的微調(diào)方法,使用llama-factory框架和低秩適應(yīng)lora方法和200組段落和合成路線組成的“提示”和“完成”的鍵值對(duì)三個(gè)模型進(jìn)行了微調(diào);微調(diào)過程采用32位浮點(diǎn)精度,參數(shù)設(shè)置為:訓(xùn)練批量為1、梯度累積步驟為8、學(xué)習(xí)率為3.0e-5、訓(xùn)練epoch為24、記錄步驟為1、保存步驟為50;微調(diào)過程中l(wèi)oss會(huì)逐漸減小,loss不再發(fā)生變化后微調(diào)結(jié)束;
39、第三步:gpt模型的微調(diào)方法是在線微調(diào),選擇了openai的gpt-3.5-turbo-1106模型;gpt-3.5-turbo-1106模型的批量大小設(shè)置為1;學(xué)習(xí)率為在0.1至10范圍內(nèi);epochs為3,其他為默認(rèn)參數(shù),使用200組段落和合成路線組成的“提示”和“完成”的鍵值數(shù)據(jù)進(jìn)行微調(diào),直到loss不再發(fā)生變化后結(jié)束微調(diào)。
40、在所述(5)中,評(píng)估其在測(cè)試集上的性能
41、第一步:隨機(jī)選取20篇與材料合成相關(guān)的文章作為測(cè)試集,分別采用微調(diào)后的gpt-3.5-turbo-1106模型、gemma-7b模型、llama3-8b-instruct和phi3-mini-128k-instruct-3.8b模型提取20篇文章中的合成路線。
42、第二步:采用準(zhǔn)確率accuracy、精度precision、召回率recall和f_score指標(biāo)評(píng)估模型提取信息的能力;同時(shí)分析模型的幻覺,以及合成操作的邏輯性。各項(xiàng)指標(biāo)的計(jì)算如下所示:
43、
44、其中,tp表示為提取到信息是正確的數(shù)量;fp表示為提取到信息是錯(cuò)誤的數(shù)量;tn表示為沒有提取到信息,實(shí)際也不存在該信息的數(shù)量;fn表示為沒有提取到信息,實(shí)際存在該信息的數(shù)量。
45、進(jìn)一步的,在所述(6)中,將微調(diào)后的大語言模型應(yīng)用到材料領(lǐng)域的合成路線的知識(shí)提取,提取到的合成路線信息以結(jié)構(gòu)化的json數(shù)據(jù)保存。
46、第一步:對(duì)于任意材料領(lǐng)域的文章,將文獻(xiàn)中的合成段落傳遞給微調(diào)后的四種大語言模型,模型輸出詳細(xì)的制備過程;并展示及保存為結(jié)構(gòu)化的json格式。
47、第二步:對(duì)大語言模型輸出結(jié)構(gòu)化合成路線進(jìn)行后處理,包括將文中的單引號(hào)替換為雙引號(hào)、去除字符串開頭和結(jié)尾的引號(hào)、將字符串轉(zhuǎn)化為字典并檢查語法錯(cuò)誤、將字典中嵌套的集合轉(zhuǎn)化為列表。將后處理過的文本再次保存到本地json文件以供研究者使用。
48、進(jìn)一步的,在所述(7)中,建立材料領(lǐng)域合成路線的數(shù)據(jù)庫和知識(shí)圖譜,對(duì)化學(xué)文獻(xiàn)中材料合成數(shù)據(jù)進(jìn)行知識(shí)重構(gòu),包含以下兩個(gè)步驟:
49、第一步:依據(jù)提取到的材料領(lǐng)域催化劑的合成路線,自動(dòng)繪制出材料合成路線的流程圖。材料的流程圖包括原材料、制備方法、合成步驟及條件、產(chǎn)物。其中,合成步驟中包含每個(gè)步驟中的操作行為、條件,條件具體包含此操作的溫度、反應(yīng)時(shí)間、試劑、設(shè)備和氣體氛圍。每個(gè)流程圖的形式是從原料開始,經(jīng)過實(shí)際的操作步驟、順序、以及對(duì)應(yīng)的條件,最終得到產(chǎn)物。
50、第二步:分別建立文章與標(biāo)題、發(fā)表年限、發(fā)表期刊、以及合成路線的三元組關(guān)系,以及催化劑與合成路線中原材料、制備方法、合成步驟及條件、產(chǎn)物之間的三元組關(guān)系;根據(jù)創(chuàng)建的三元組關(guān)系,利用圖數(shù)據(jù)庫neo4j構(gòu)建知識(shí)圖譜,并將知識(shí)圖譜可視化展示。