亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用大模型的信息抽取方法和系統(tǒng)與流程

文檔序號(hào):40388700發(fā)布日期:2024-12-20 12:11閱讀:4來(lái)源:國(guó)知局
利用大模型的信息抽取方法和系統(tǒng)與流程

本發(fā)明涉及計(jì)算機(jī),尤其是涉及利用大模型的信息抽取方法和系統(tǒng)。


背景技術(shù):

1、在公共網(wǎng)頁(yè)中,包含著大量公開信息,例如商品價(jià)格、地址和電話號(hào)碼等,這些信息對(duì)于信息檢索和推薦等領(lǐng)域非常有價(jià)值。

2、目前,主要采用兩種傳統(tǒng)方法進(jìn)行信息抽取,具體為:1)通過(guò)人工編寫規(guī)則和模板進(jìn)行信息抽取,這種方法需要耗費(fèi)大量的人力和物力,且很難針對(duì)不同的網(wǎng)站和頁(yè)面進(jìn)行適應(yīng)性調(diào)整。2)基于機(jī)器學(xué)習(xí)的方法進(jìn)行信息提取,這種方法需要提供大量的標(biāo)注數(shù)據(jù)以及人力來(lái)進(jìn)行模型訓(xùn)練。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本發(fā)明的目的在于提供利用大模型的信息抽取方法和系統(tǒng),可以利用大模型生成抽取屬性的多個(gè)方案,并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn),再利用大模型從網(wǎng)頁(yè)中抽取屬性的真值作為參考,過(guò)濾掉不正確的方案,可以提高抽取信息的效率、準(zhǔn)確性和魯棒性,節(jié)省人力資源和時(shí)間成本。

2、第一方面,本發(fā)明實(shí)施例提供了利用大模型的信息抽取方法,所述方法包括:

3、利用所述大模型抽取屬性的多個(gè)方案;

4、所述大模型通過(guò)自然語(yǔ)言算法將每個(gè)所述方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;

5、利用所述大模型對(duì)網(wǎng)頁(yè)進(jìn)行解析,抽取所述屬性的真值;

6、將每個(gè)所述方案對(duì)應(yīng)的代碼應(yīng)用到所述網(wǎng)頁(yè)上,得到待驗(yàn)證的值;

7、將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過(guò)濾掉不正確的方案。

8、進(jìn)一步的,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

9、進(jìn)一步的,利用所述大模型抽取屬性的多個(gè)方案,包括:

10、利用所述大模型學(xué)習(xí)不同的網(wǎng)站和頁(yè)面的特征,對(duì)所述屬性進(jìn)行抽取,生成所述屬性的多個(gè)方案。

11、進(jìn)一步的,所述方法還包括:

12、采用投票方案從所述待驗(yàn)證的值中選取相同個(gè)數(shù)最多的值;

13、將所述相同個(gè)數(shù)最多的值作為所述真值。

14、進(jìn)一步的,將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過(guò)濾掉不正確的方案,包括:

15、將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過(guò)濾掉不正確的正則表達(dá)式、不正確的css選擇器或不正確的xpath表達(dá)式。

16、第二方面,本發(fā)明實(shí)施例提供了利用大模型的信息抽取系統(tǒng),所述系統(tǒng)包括:

17、抽取模塊,用于利用所述大模型抽取屬性的多個(gè)方案;

18、轉(zhuǎn)化模塊,用于所述大模型通過(guò)自然語(yǔ)言算法將每個(gè)所述方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;

19、解析模塊,用于利用所述大模型對(duì)網(wǎng)頁(yè)進(jìn)行解析,抽取所述屬性的真值;

20、應(yīng)用模塊,用于將每個(gè)所述方案對(duì)應(yīng)的代碼應(yīng)用到所述網(wǎng)頁(yè)上,得到待驗(yàn)證的值;

21、對(duì)比模塊,用于將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過(guò)濾掉不正確的方案。

22、進(jìn)一步的,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

23、進(jìn)一步的,所述抽取模塊具體用于:

24、利用所述大模型學(xué)習(xí)不同的網(wǎng)站和頁(yè)面的特征,對(duì)所述屬性進(jìn)行抽取,生成所述屬性的多個(gè)方案。

25、第三方面,本發(fā)明實(shí)施例提供了電子設(shè)備,包括存儲(chǔ)器、處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。

26、第四方面,本發(fā)明實(shí)施例提供了具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì),所述程序代碼使所述處理器執(zhí)行如上所述的方法。

27、本發(fā)明實(shí)施例提供了利用大模型的信息抽取方法和系統(tǒng),包括:利用大模型抽取屬性的多個(gè)方案;大模型通過(guò)自然語(yǔ)言算法將每個(gè)方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;利用大模型對(duì)網(wǎng)頁(yè)進(jìn)行解析,抽取屬性的真值;將每個(gè)方案對(duì)應(yīng)的代碼應(yīng)用到網(wǎng)頁(yè)上,得到待驗(yàn)證的值;將待驗(yàn)證的值和屬性的真值進(jìn)行對(duì)比,過(guò)濾掉不正確的方案;可以利用大模型生成抽取屬性的多個(gè)方案,并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn),再利用大模型從網(wǎng)頁(yè)中抽取屬性的真值作為參考,過(guò)濾掉不正確的方案,可以提高抽取信息的效率、準(zhǔn)確性和魯棒性,節(jié)省人力資源和時(shí)間成本。

28、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書中闡述,并且,部分地從說(shuō)明書中變得顯而易見,或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說(shuō)明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

29、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。



技術(shù)特征:

1.一種利用大模型的信息抽取方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

3.根據(jù)權(quán)利要求2所述的利用大模型的信息抽取方法,其特征在于,利用所述大模型抽取屬性的多個(gè)方案,包括:

4.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,所述方法還包括:

5.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過(guò)濾掉不正確的方案,包括:

6.一種利用大模型的信息抽取系統(tǒng),其特征在于,所述系統(tǒng)包括:

7.根據(jù)權(quán)利要求6所述的利用大模型的信息抽取系統(tǒng),其特征在于,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

8.根據(jù)權(quán)利要求7所述的利用大模型的信息抽取系統(tǒng),其特征在于,所述抽取模塊具體用于:

9.一種電子設(shè)備,包括存儲(chǔ)器、處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述權(quán)利要求1至5任一項(xiàng)所述的方法。

10.一種具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述程序代碼使所述處理器執(zhí)行所述權(quán)利要求1至5任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本發(fā)明提供了利用大模型的信息抽取方法和系統(tǒng),包括:利用大模型抽取屬性的多個(gè)方案;大模型通過(guò)自然語(yǔ)言算法將每個(gè)方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;利用大模型對(duì)網(wǎng)頁(yè)進(jìn)行解析,抽取屬性的真值;將每個(gè)方案對(duì)應(yīng)的代碼應(yīng)用到網(wǎng)頁(yè)上,得到待驗(yàn)證的值;將待驗(yàn)證的值和屬性的真值進(jìn)行對(duì)比,過(guò)濾掉不正確的方案;可以利用大模型生成抽取屬性的多個(gè)方案,并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn),再利用大模型從網(wǎng)頁(yè)中抽取屬性的真值作為參考,過(guò)濾掉不正確的方案,可以提高抽取信息的效率、準(zhǔn)確性和魯棒性,節(jié)省人力資源和時(shí)間成本。

技術(shù)研發(fā)人員:徐國(guó)榮,楊沅霖
受保護(hù)的技術(shù)使用者:上海微問(wèn)家信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1