利用大模型的信息抽取方法和系統(tǒng)與流程

文檔序號(hào)：40388700發(fā)布日期：2024-12-20 12:11閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)，尤其是涉及利用大模型的信息抽取方法和系統(tǒng)。

背景技術(shù)：

1、在公共網(wǎng)頁(yè)中，包含著大量公開信息，例如商品價(jià)格、地址和電話號(hào)碼等，這些信息對(duì)于信息檢索和推薦等領(lǐng)域非常有價(jià)值。

2、目前，主要采用兩種傳統(tǒng)方法進(jìn)行信息抽取，具體為：1)通過(guò)人工編寫規(guī)則和模板進(jìn)行信息抽取，這種方法需要耗費(fèi)大量的人力和物力，且很難針對(duì)不同的網(wǎng)站和頁(yè)面進(jìn)行適應(yīng)性調(diào)整。2)基于機(jī)器學(xué)習(xí)的方法進(jìn)行信息提取，這種方法需要提供大量的標(biāo)注數(shù)據(jù)以及人力來(lái)進(jìn)行模型訓(xùn)練。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本發(fā)明的目的在于提供利用大模型的信息抽取方法和系統(tǒng)，可以利用大模型生成抽取屬性的多個(gè)方案，并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn)，再利用大模型從網(wǎng)頁(yè)中抽取屬性的真值作為參考，過(guò)濾掉不正確的方案，可以提高抽取信息的效率、準(zhǔn)確性和魯棒性，節(jié)省人力資源和時(shí)間成本。

2、第一方面，本發(fā)明實(shí)施例提供了利用大模型的信息抽取方法，所述方法包括：

3、利用所述大模型抽取屬性的多個(gè)方案；

4、所述大模型通過(guò)自然語(yǔ)言算法將每個(gè)所述方案轉(zhuǎn)化為對(duì)應(yīng)的代碼；

5、利用所述大模型對(duì)網(wǎng)頁(yè)進(jìn)行解析，抽取所述屬性的真值；

6、將每個(gè)所述方案對(duì)應(yīng)的代碼應(yīng)用到所述網(wǎng)頁(yè)上，得到待驗(yàn)證的值；

7、將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比，過(guò)濾掉不正確的方案。

8、進(jìn)一步的，所述大模型為nlp模型，所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型；所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

9、進(jìn)一步的，利用所述大模型抽取屬性的多個(gè)方案，包括：

10、利用所述大模型學(xué)習(xí)不同的網(wǎng)站和頁(yè)面的特征，對(duì)所述屬性進(jìn)行抽取，生成所述屬性的多個(gè)方案。

11、進(jìn)一步的，所述方法還包括：

12、采用投票方案從所述待驗(yàn)證的值中選取相同個(gè)數(shù)最多的值；

13、將所述相同個(gè)數(shù)最多的值作為所述真值。

14、進(jìn)一步的，將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比，過(guò)濾掉不正確的方案，包括：

15、將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比，過(guò)濾掉不正確的正則表達(dá)式、不正確的css選擇器或不正確的xpath表達(dá)式。

16、第二方面，本發(fā)明實(shí)施例提供了利用大模型的信息抽取系統(tǒng)，所述系統(tǒng)包括：

17、抽取模塊，用于利用所述大模型抽取屬性的多個(gè)方案；

18、轉(zhuǎn)化模塊，用于所述大模型通過(guò)自然語(yǔ)言算法將每個(gè)所述方案轉(zhuǎn)化為對(duì)應(yīng)的代碼；

19、解析模塊，用于利用所述大模型對(duì)網(wǎng)頁(yè)進(jìn)行解析，抽取所述屬性的真值；

20、應(yīng)用模塊，用于將每個(gè)所述方案對(duì)應(yīng)的代碼應(yīng)用到所述網(wǎng)頁(yè)上，得到待驗(yàn)證的值；

21、對(duì)比模塊，用于將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比，過(guò)濾掉不正確的方案。

22、進(jìn)一步的，所述大模型為nlp模型，所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型；所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

23、進(jìn)一步的，所述抽取模塊具體用于：

24、利用所述大模型學(xué)習(xí)不同的網(wǎng)站和頁(yè)面的特征，對(duì)所述屬性進(jìn)行抽取，生成所述屬性的多個(gè)方案。

25、第三方面，本發(fā)明實(shí)施例提供了電子設(shè)備，包括存儲(chǔ)器、處理器，所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。

26、第四方面，本發(fā)明實(shí)施例提供了具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì)，所述程序代碼使所述處理器執(zhí)行如上所述的方法。

27、本發(fā)明實(shí)施例提供了利用大模型的信息抽取方法和系統(tǒng)，包括：利用大模型抽取屬性的多個(gè)方案；大模型通過(guò)自然語(yǔ)言算法將每個(gè)方案轉(zhuǎn)化為對(duì)應(yīng)的代碼；利用大模型對(duì)網(wǎng)頁(yè)進(jìn)行解析，抽取屬性的真值；將每個(gè)方案對(duì)應(yīng)的代碼應(yīng)用到網(wǎng)頁(yè)上，得到待驗(yàn)證的值；將待驗(yàn)證的值和屬性的真值進(jìn)行對(duì)比，過(guò)濾掉不正確的方案；可以利用大模型生成抽取屬性的多個(gè)方案，并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn)，再利用大模型從網(wǎng)頁(yè)中抽取屬性的真值作為參考，過(guò)濾掉不正確的方案，可以提高抽取信息的效率、準(zhǔn)確性和魯棒性，節(jié)省人力資源和時(shí)間成本。

28、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書中闡述，并且，部分地從說(shuō)明書中變得顯而易見，或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說(shuō)明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

29、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂，下文特舉較佳實(shí)施例，并配合所附附圖，作詳細(xì)說(shuō)明如下。

技術(shù)特征：

1.一種利用大模型的信息抽取方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法，其特征在于，所述大模型為nlp模型，所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型；所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

3.根據(jù)權(quán)利要求2所述的利用大模型的信息抽取方法，其特征在于，利用所述大模型抽取屬性的多個(gè)方案，包括：

4.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法，其特征在于，將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比，過(guò)濾掉不正確的方案，包括：

6.一種利用大模型的信息抽取系統(tǒng)，其特征在于，所述系統(tǒng)包括：

7.根據(jù)權(quán)利要求6所述的利用大模型的信息抽取系統(tǒng)，其特征在于，所述大模型為nlp模型，所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型；所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

8.根據(jù)權(quán)利要求7所述的利用大模型的信息抽取系統(tǒng)，其特征在于，所述抽取模塊具體用于：

9.一種電子設(shè)備，包括存儲(chǔ)器、處理器，所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述權(quán)利要求1至5任一項(xiàng)所述的方法。

10.一種具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì)，其特征在于，所述程序代碼使所述處理器執(zhí)行所述權(quán)利要求1至5任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本發(fā)明提供了利用大模型的信息抽取方法和系統(tǒng)，包括：利用大模型抽取屬性的多個(gè)方案；大模型通過(guò)自然語(yǔ)言算法將每個(gè)方案轉(zhuǎn)化為對(duì)應(yīng)的代碼；利用大模型對(duì)網(wǎng)頁(yè)進(jìn)行解析，抽取屬性的真值；將每個(gè)方案對(duì)應(yīng)的代碼應(yīng)用到網(wǎng)頁(yè)上，得到待驗(yàn)證的值；將待驗(yàn)證的值和屬性的真值進(jìn)行對(duì)比，過(guò)濾掉不正確的方案；可以利用大模型生成抽取屬性的多個(gè)方案，并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn)，再利用大模型從網(wǎng)頁(yè)中抽取屬性的真值作為參考，過(guò)濾掉不正確的方案，可以提高抽取信息的效率、準(zhǔn)確性和魯棒性，節(jié)省人力資源和時(shí)間成本。

技術(shù)研發(fā)人員：徐國(guó)榮,楊沅霖
受保護(hù)的技術(shù)使用者：上海微問(wèn)家信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐國(guó)榮,楊沅霖
技術(shù)所有人：上海微問(wèn)家信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種防積灰、結(jié)焦生物質(zhì)鍋爐的制作方法
上一篇：一種物流運(yùn)輸用防滑托盤的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用大模型的信息抽取方法和系統(tǒng)與流程