亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于假設(shè)關(guān)系識(shí)別的科學(xué)假說圖譜生成方法

文檔序號(hào):40405422發(fā)布日期:2024-12-20 12:29閱讀:6來源:國(guó)知局
一種基于假設(shè)關(guān)系識(shí)別的科學(xué)假說圖譜生成方法

本發(fā)明涉及自然語言處理和信息抽取,具體涉及一種基于假設(shè)關(guān)系識(shí)別的科學(xué)假說圖譜生成方法。


背景技術(shù):

1、在科學(xué)研究領(lǐng)域,科學(xué)假說的提出和驗(yàn)證是推動(dòng)學(xué)科發(fā)展的核心環(huán)節(jié)??茖W(xué)假說通常是在大量已有研究和理論的基礎(chǔ)上提出的,并且需要通過系統(tǒng)的實(shí)驗(yàn)和數(shù)據(jù)分析來驗(yàn)證。然而,隨著科學(xué)文獻(xiàn)的數(shù)量急劇增加,研究人員面臨著巨大的挑戰(zhàn),即如何從海量的文獻(xiàn)中有效地提取、整理和分析假設(shè)關(guān)系,以構(gòu)建科學(xué)假說圖譜,幫助指導(dǎo)后續(xù)研究。

2、近年來,隨著自然語言處理技術(shù)的發(fā)展,尤其是語義理解和關(guān)系抽取技術(shù)的進(jìn)步,使得從非結(jié)構(gòu)化的科學(xué)文獻(xiàn)中自動(dòng)提取有價(jià)值的信息成為可能。通過構(gòu)建科學(xué)假說圖譜,可以實(shí)現(xiàn)對(duì)復(fù)雜科學(xué)問題的可視化表達(dá),幫助研究人員更直觀地理解各假設(shè)之間的聯(lián)系及其與已知事實(shí)的關(guān)系。然而,現(xiàn)有科學(xué)假說圖譜構(gòu)建方法多依賴于手動(dòng)標(biāo)注或者僅能處理特定領(lǐng)域的封閉知識(shí)體系,缺乏對(duì)領(lǐng)域假設(shè)關(guān)系的遷移能力,且自動(dòng)化程度不高,難以適應(yīng)快速變化的科研環(huán)境。


技術(shù)實(shí)現(xiàn)思路

1、發(fā)明目的:本發(fā)明的目的是提供一種基于假設(shè)關(guān)系識(shí)別的科學(xué)假說圖譜生成方法,以解決背景技術(shù)中存在的問題。

2、技術(shù)方案:本發(fā)明所述的一種基于假設(shè)關(guān)系識(shí)別的科學(xué)假說圖譜生成方法,包括以下步驟:

3、(1)收集目標(biāo)領(lǐng)域?qū)W術(shù)文獻(xiàn):收集目標(biāo)領(lǐng)域的大規(guī)模學(xué)術(shù)文獻(xiàn),針對(duì)學(xué)術(shù)摘要和全文本內(nèi)容進(jìn)行結(jié)構(gòu)化解析;

4、(2)識(shí)別與篩選假設(shè)關(guān)系陳述句:基于大語言模型、少樣本學(xué)習(xí)技術(shù)和大語言模型結(jié)構(gòu)化輸出工具,從學(xué)術(shù)文獻(xiàn)中自動(dòng)識(shí)別結(jié)構(gòu)化假設(shè)關(guān)系陳述句;構(gòu)建語法特征與規(guī)則模板相結(jié)合的分類器,從假設(shè)關(guān)系陳述句中篩選符合條件的句子;

5、(3)識(shí)別多類型結(jié)構(gòu)化假設(shè)關(guān)系:結(jié)合大語言模型微調(diào)技術(shù)和預(yù)定義的假設(shè)關(guān)系架構(gòu)模式,從假設(shè)關(guān)系陳述句中識(shí)別多類型、結(jié)構(gòu)化假設(shè)關(guān)系;

6、(4)判別多類型假設(shè)關(guān)系:結(jié)合大語言模型與定制化規(guī)則模板,通過語義解析與邏輯推理機(jī)制自動(dòng)甄別假設(shè)間的多種關(guān)系類型;

7、(5)處理假設(shè)關(guān)系標(biāo)準(zhǔn)化:基于數(shù)據(jù)驗(yàn)證、縮寫擴(kuò)展和詞形還原操作進(jìn)行假設(shè)關(guān)系實(shí)體消歧、邏輯關(guān)系糾錯(cuò)與假設(shè)沖突消融;

8、(6)自動(dòng)生成科學(xué)假說圖譜:基于圖數(shù)據(jù)庫(kù)構(gòu)建領(lǐng)域科學(xué)假說圖譜,假設(shè)變量作為圖譜節(jié)點(diǎn),多種假設(shè)關(guān)系類型作為圖譜邊屬性,實(shí)現(xiàn)領(lǐng)域知識(shí)因果關(guān)聯(lián)和結(jié)構(gòu)邏輯可視化。

9、進(jìn)一步的,步驟(1)中,獲取目標(biāo)文獻(xiàn)的全文內(nèi)容,對(duì)于pdf格式內(nèi)容,使用pymupdf等python庫(kù)解析為文本格式;對(duì)于網(wǎng)頁(yè)全文內(nèi)容,使用elsevier?api或其他學(xué)術(shù)出版商api,獲取全文內(nèi)容;將學(xué)術(shù)文本的摘要和全文進(jìn)行清洗后保存;其中,學(xué)術(shù)文獻(xiàn)的類型為公開出版的學(xué)術(shù)文獻(xiàn)。

10、進(jìn)一步的,步驟(2)中,結(jié)構(gòu)化假設(shè)關(guān)系陳述句包括:假設(shè)關(guān)系陳述句類型、假設(shè)關(guān)系陳述句具體內(nèi)容、假設(shè)關(guān)系陳述句來源學(xué)術(shù)文本id,以及其他相關(guān)屬性;語法特征包括:句子的主謂賓結(jié)構(gòu)分析、時(shí)態(tài)分析、語義角色標(biāo)注;規(guī)則模板是指使用正則表達(dá)式從學(xué)術(shù)文本潛在包含假設(shè)關(guān)系的章節(jié)抽取基本結(jié)構(gòu)的模板;假設(shè)關(guān)系陳述句表示為:

11、

12、其中,”type”是假設(shè)關(guān)系陳述句的類型(假設(shè)部分、結(jié)果部分或結(jié)論部分),”sentence”是具體的內(nèi)容,”source”是所在的學(xué)術(shù)文本id;

13、分類器表示為:

14、;

15、其中, c(s)是分類結(jié)果,如果句子 s符合匹配條件,分類器標(biāo)記為1,否則標(biāo)記為0。

16、進(jìn)一步的,步驟(3)中,預(yù)定義的假設(shè)關(guān)系架構(gòu)模式是指用于從假設(shè)關(guān)系陳述句中抽取多種類型的假設(shè)關(guān)系框架及其相應(yīng)的數(shù)據(jù)組織結(jié)構(gòu),其中,架構(gòu)模式采用嵌套json格式進(jìn)行組織,以確保假設(shè)關(guān)系的多維度、層次化抽取;多類型、結(jié)構(gòu)化假設(shè)關(guān)系包括:自變量、因變量、效應(yīng)、中介變量、調(diào)節(jié)變量;具體如下:

17、設(shè) v代表假設(shè)變量類型的集合,集合 v被分為五個(gè)組成部分:自變量 v ind、因變量 v dep、效應(yīng) v eff、中介變量 v med和調(diào)節(jié)變量 v mod,則:

18、;

19、其中,自變量 v ind被視為其他變量變化的潛在原因;因變量 v dep會(huì)響應(yīng)自變量的變化,而效應(yīng) v eff則說明這些影響的正向或負(fù)向機(jī)制;中介變量 v med的作用是傳遞或解釋自變量和因變量之間的關(guān)系;調(diào)節(jié)變量 v mod展示了外部條件如何影響自變量和因變量之間關(guān)系的強(qiáng)度或方向;設(shè) r代表關(guān)系的集合,集合 r被構(gòu)建為一個(gè)嵌套的json對(duì)象:

20、;

21、在 r中,每個(gè) v n都有一個(gè)paperid,鏈接到相應(yīng)的學(xué)術(shù)論文;接著,采用有監(jiān)督的微調(diào)來訓(xùn)練一個(gè)能夠從學(xué)術(shù)文本中提取變量的模型。

22、進(jìn)一步的,步驟(4)中,多種關(guān)系類型,包括:正向關(guān)系、負(fù)向關(guān)系、調(diào)節(jié)作用、中介作用以及因果效應(yīng)。

23、本發(fā)明所述的一種基于假設(shè)關(guān)系識(shí)別的科學(xué)假說圖譜生成系統(tǒng),包括:

24、收集模塊(用于收集目標(biāo)領(lǐng)域?qū)W術(shù)文獻(xiàn)):收集目標(biāo)領(lǐng)域的大規(guī)模學(xué)術(shù)文獻(xiàn),針對(duì)學(xué)術(shù)摘要和全文本內(nèi)容進(jìn)行結(jié)構(gòu)化解析;

25、陳述句模塊(用于識(shí)別與篩選假設(shè)關(guān)系陳述句):基于大語言模型、少樣本學(xué)習(xí)技術(shù)和大語言模型結(jié)構(gòu)化輸出工具,從學(xué)術(shù)全文中自動(dòng)識(shí)別結(jié)構(gòu)化假設(shè)關(guān)系陳述句;構(gòu)建語法特征與規(guī)則模板相結(jié)合的分類器,從假設(shè)關(guān)系陳述句中篩選符合條件的句子;

26、多類型結(jié)構(gòu)化假設(shè)關(guān)系抽取模塊(用于識(shí)別多類型結(jié)構(gòu)化假設(shè)關(guān)系):結(jié)合大語言模型微調(diào)技術(shù)和預(yù)定義的假設(shè)關(guān)系架構(gòu)模式,從假設(shè)關(guān)系陳述句中識(shí)別多類型、結(jié)構(gòu)化假設(shè)關(guān)系;

27、判別模塊(用于判別多類型假設(shè)關(guān)系):結(jié)合大語言模型與定制化規(guī)則模板,通過語義解析與邏輯推理機(jī)制自動(dòng)甄別假設(shè)間的多種關(guān)系類型;

28、標(biāo)準(zhǔn)化模塊(用于處理假設(shè)關(guān)系標(biāo)準(zhǔn)化):基于數(shù)據(jù)驗(yàn)證、縮寫擴(kuò)展和詞形還原操作進(jìn)行假設(shè)關(guān)系實(shí)體消歧、邏輯關(guān)系糾錯(cuò)與假設(shè)沖突消融;

29、科學(xué)假說圖譜模塊(用于自動(dòng)生成科學(xué)假說圖譜):基于圖數(shù)據(jù)庫(kù)構(gòu)建領(lǐng)域科學(xué)假說圖譜,假設(shè)變量作為圖譜節(jié)點(diǎn),多種假設(shè)關(guān)系類型作為圖譜邊屬性,實(shí)現(xiàn)領(lǐng)域知識(shí)因果關(guān)聯(lián)和結(jié)構(gòu)邏輯可視化。

30、進(jìn)一步的,收集模塊中,獲取目標(biāo)文獻(xiàn)的摘要和全文內(nèi)容,對(duì)于pdf格式內(nèi)容,使用pymupdf等python庫(kù)解析為文本格式;對(duì)于網(wǎng)頁(yè)全文內(nèi)容,使用elsevier?api或其他學(xué)術(shù)出版商api,獲取全文內(nèi)容;將學(xué)術(shù)文本的摘要和全文進(jìn)行清洗后保存;其中,學(xué)術(shù)文獻(xiàn)的類型為公開出版的學(xué)術(shù)文獻(xiàn)。

31、進(jìn)一步的,陳述句模塊中,結(jié)構(gòu)化假設(shè)關(guān)系陳述句包括:假設(shè)關(guān)系陳述句類型、假設(shè)關(guān)系陳述句具體內(nèi)容、假設(shè)關(guān)系陳述句來源學(xué)術(shù)文本id,以及其他相關(guān)屬性;語法特征包括:句子的主謂賓結(jié)構(gòu)分析、時(shí)態(tài)分析、語義角色標(biāo)注;規(guī)則模板是指使用正則表達(dá)式從學(xué)術(shù)文本潛在包含假設(shè)關(guān)系的章節(jié)抽取基本結(jié)構(gòu)的模板。假設(shè)關(guān)系陳述句表示為:

32、

33、其中,”type”是假設(shè)關(guān)系陳述句的類型(假設(shè)部分、結(jié)果部分或結(jié)論部分),”sentence”是具體的內(nèi)容,”source”是所在的學(xué)術(shù)文本id;

34、分類器表示為:

35、;

36、其中, c(s)是分類結(jié)果,如果句子 s符合匹配條件,分類器標(biāo)記為1,否則標(biāo)記為0。

37、進(jìn)一步的,多類型結(jié)構(gòu)化假設(shè)關(guān)系模塊中,預(yù)定義的假設(shè)關(guān)系架構(gòu)模式是指用于從假設(shè)關(guān)系陳述句中抽取多種類型的假設(shè)關(guān)系框架及其相應(yīng)的數(shù)據(jù)組織結(jié)構(gòu),其中,架構(gòu)模式采用嵌套json格式進(jìn)行組織,以確保假設(shè)關(guān)系的多維度、層次化抽??;多類型、結(jié)構(gòu)化假設(shè)關(guān)系包括:自變量、因變量、效應(yīng)、中介變量、調(diào)節(jié)變量;具體如下:

38、設(shè) v代表假設(shè)變量類型的集合,集合 v被分為五個(gè)組成部分:自變量 v ind、因變量 v dep、效應(yīng) v eff、中介變量 v med和調(diào)節(jié)變量 v mod,則:

39、

40、其中,自變量 v ind被視為其他變量變化的潛在原因;因變量 v dep會(huì)響應(yīng)自變量的變化,而效應(yīng) v eff則說明這些影響的正向或負(fù)向機(jī)制;中介變量 v med的作用是傳遞或解釋自變量和因變量之間的關(guān)系;調(diào)節(jié)變量 v mod展示了外部條件如何影響自變量和因變量之間關(guān)系的強(qiáng)度或方向;設(shè) r代表關(guān)系的集合,集合 r被構(gòu)建為一個(gè)嵌套的json對(duì)象:

41、

42、在 r中,每個(gè) v n都有一個(gè)paperid,鏈接到相應(yīng)的學(xué)術(shù)論文;接著,采用有監(jiān)督的微調(diào)來訓(xùn)練一個(gè)能夠從學(xué)術(shù)文本中提取變量的模型。

43、進(jìn)一步的,判別模塊中,多種關(guān)系類型,包括:正向關(guān)系、負(fù)向關(guān)系、調(diào)節(jié)作用、中介作用以及因果效應(yīng)。

44、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有如下顯著優(yōu)點(diǎn):通過抽取學(xué)術(shù)文本中的多維變量關(guān)系,建立自變量、因變量、效應(yīng)、中介變量、調(diào)節(jié)變量等結(jié)構(gòu)化變量的假設(shè)關(guān)系,并基于數(shù)據(jù)驗(yàn)證、縮寫擴(kuò)展和詞形還原等操作進(jìn)行假設(shè)關(guān)系實(shí)體消歧、邏輯關(guān)系糾錯(cuò)與假設(shè)沖突消融,全面提高學(xué)術(shù)文本中假設(shè)關(guān)系的識(shí)別精確度和自動(dòng)化水平,構(gòu)建系統(tǒng)化、結(jié)構(gòu)化的科學(xué)假說圖譜。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1