亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)

文檔序號(hào):40405711發(fā)布日期:2024-12-20 12:29閱讀:20來源:國知局
融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)

本發(fā)明涉及圖表轉(zhuǎn)文本,特別涉及一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)。


背景技術(shù):

1、圖表轉(zhuǎn)文本是自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的一個(gè)交叉研究課題,目標(biāo)是自動(dòng)將圖表(復(fù)雜條形圖)所傳達(dá)的含義轉(zhuǎn)化為流暢簡潔、忠于圖表事實(shí)且易于理解的自然語言描述。

2、現(xiàn)有的圖表轉(zhuǎn)文本技術(shù)在處理復(fù)雜圖表時(shí)仍然存在顯著缺陷。首先,圖表重要數(shù)據(jù)捕獲能力不足,現(xiàn)有技術(shù)在處理復(fù)雜圖表時(shí)難以準(zhǔn)確捕獲復(fù)雜圖表眾多數(shù)據(jù)中的重要數(shù)據(jù)和數(shù)據(jù)之間存在的聯(lián)系,對(duì)圖表的理解存在一定的誤差。其次,復(fù)雜圖表包含了更多的視覺元素,現(xiàn)有技術(shù)還無法有效地從圖表全局的角度感知圖表元素所傳達(dá)的語義信息,導(dǎo)致生成的圖表描述文本過于片面或誤導(dǎo)??傮w而言,盡管圖表轉(zhuǎn)文本技術(shù)已經(jīng)獲得了巨大的發(fā)展,但在理解復(fù)雜圖表、生成高質(zhì)量文本描述方面還存在較大的改進(jìn)空間。


技術(shù)實(shí)現(xiàn)思路

1、鑒于上述狀況,本發(fā)明的主要目的是為了提出一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng),以解決上述技術(shù)問題。

2、本發(fā)明提出了一個(gè)融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,所述方法包括如下步驟:

3、步驟1、提取圖表的底層數(shù)據(jù)表,將底層數(shù)據(jù)表展開得到表格序列化文本,將表格序列化文本分詞,再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量,根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示,將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合,獲得表格數(shù)據(jù)值特征;

4、步驟2、對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充,得到標(biāo)題的補(bǔ)充信息,將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層,獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù);

5、步驟3、將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊,再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征;

6、步驟4、將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征,再將文本特征和視覺特征進(jìn)行多模態(tài)融合,生成多模態(tài)融合特征;

7、步驟5、將多模態(tài)融合特征輸入至bart解碼器中進(jìn)行解碼,以生成最終的文本。

8、本發(fā)明還提出一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成系統(tǒng),其中,所述系統(tǒng)應(yīng)用如上所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,所述系統(tǒng)包括:

9、關(guān)鍵數(shù)據(jù)抽取模塊,用于:

10、提取圖表的底層數(shù)據(jù)表,將底層數(shù)據(jù)表展開得到表格序列化文本,將表格序列化文本分詞,再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量,根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示,將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合,獲得表格數(shù)據(jù)值特征;

11、將對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充,得到標(biāo)題的補(bǔ)充信息,將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層,獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù);

12、圖像特征提取模塊,用于:

13、將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊,再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征;

14、多模態(tài)特征融合模塊,用于:

15、將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征,再將文本特征和視覺特征進(jìn)行多模態(tài)融合,生成多模態(tài)融合特征;

16、文本生成模塊,用于:

17、將多模態(tài)融合特征輸入至bart解碼器中進(jìn)行解碼,以生成最終的文本。

18、相較于現(xiàn)有技術(shù),本發(fā)明的有益效果如下:

19、1、結(jié)合了圖表的局部語義信息和全局視覺信息,先從復(fù)雜圖表中自動(dòng)抽取出關(guān)鍵數(shù)據(jù),再結(jié)合圖表視覺信息的互補(bǔ)性,使模型在兩種模態(tài)上充分理解圖表傳達(dá)的含義,從而生成高質(zhì)量的圖表描述文本。

20、2、本發(fā)明通過大語言模型為圖表的橫坐標(biāo)軸標(biāo)簽和圖例標(biāo)簽添加額外補(bǔ)充信息,幫助模型更加充分地理解圖表傳達(dá)的含義,能夠更準(zhǔn)確地從復(fù)雜圖表中抽取出圖表關(guān)鍵數(shù)據(jù)。

21、3、本發(fā)明采用swintransformer模型進(jìn)行圖像特征提取。swintransformer通過將圖表圖像分割成不重疊的塊,然后通過層次化特征表示和基于滑動(dòng)窗口的多頭自注意力機(jī)制和多層感知機(jī)對(duì)圖像塊進(jìn)行處理,充分理解復(fù)雜圖表中的大量視覺元素,以生成足夠有效的視覺特征。

22、4、本發(fā)明借助了多模態(tài)注意力和門融合機(jī)制來融合文本模態(tài)和視覺模態(tài)的信息,通過兩次門機(jī)制融合和一次多模態(tài)注意力計(jì)算來達(dá)到融合文本特征和視覺特征的目的,為最終解碼器生成文本提供有效的特征表示。

23、本發(fā)明的附加方面與優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)施例了解到。



技術(shù)特征:

1.一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,所述方法包括如下步驟:

2.根據(jù)權(quán)利要求1所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟1中,將底層數(shù)據(jù)表展開得到表格序列化文本,將表格序列化文本分詞,再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量以及標(biāo)題特征,根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示的方法具體包括如下步驟:

3.根據(jù)權(quán)利要求2所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟1中,獲取每個(gè)單元格特征表示的數(shù)據(jù)值特征,將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合,獲得表格數(shù)據(jù)值特征的方法具體包括如下步驟:

4.根據(jù)權(quán)利要求3所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟2中,對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充,得到標(biāo)題的補(bǔ)充信息的方法具體包括如下步驟:

5.根據(jù)權(quán)利要求4所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟2中,將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層,獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù)的方法具體包括如下步驟:

6.根據(jù)權(quán)利要求5所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟3中,將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊,再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征表示,對(duì)應(yīng)的過程存在如下關(guān)系式:

7.根據(jù)權(quán)利要求6所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟4中,將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征,再將文本特征和視覺特征進(jìn)行多模態(tài)融合,生成多模態(tài)融合特征的方法具體包括如下步驟:

8.根據(jù)權(quán)利要求7所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,多模態(tài)交叉注意力層處理函數(shù)的計(jì)算過程具體包括如下步驟:

9.根據(jù)權(quán)利要求8所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,門融合函數(shù)的計(jì)算過程存在如下關(guān)系式:

10.一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成系統(tǒng),其特征在于,所述系統(tǒng)應(yīng)用如權(quán)利要求1至9任意一項(xiàng)所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,所述系統(tǒng)包括:


技術(shù)總結(jié)
本發(fā)明提出一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng),該方法通過提取圖表中的關(guān)鍵數(shù)據(jù)和視覺特征,再利用多模態(tài)注意力網(wǎng)絡(luò)和門融合機(jī)制對(duì)兩種模態(tài)的特征進(jìn)行融合,以充分學(xué)習(xí)圖表的關(guān)鍵語義特征和全局視覺特征,最后對(duì)融合后的特征進(jìn)行解碼并生成具有高流暢度和事實(shí)一致性的圖表描述文本。本發(fā)明采用了大語言模型語義增強(qiáng)和多模態(tài)學(xué)習(xí)的方法,使模型能夠?qū)D表傳達(dá)的語義進(jìn)行更充分理解和學(xué)習(xí)。模型易于搭建,生成的文本流暢度高,包含的事實(shí)更多更準(zhǔn)確,文本內(nèi)容也更加精簡。

技術(shù)研發(fā)人員:劉喜平,黃旺旺,譚釗,舒晴,劉德喜,萬齊智,萬常選
受保護(hù)的技術(shù)使用者:江西財(cái)經(jīng)大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1