融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)

文檔序號(hào)：40405711發(fā)布日期：2024-12-20 12:29閱讀：20來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及圖表轉(zhuǎn)文本，特別涉及一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)。

背景技術(shù)：

1、圖表轉(zhuǎn)文本是自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的一個(gè)交叉研究課題，目標(biāo)是自動(dòng)將圖表（復(fù)雜條形圖）所傳達(dá)的含義轉(zhuǎn)化為流暢簡潔、忠于圖表事實(shí)且易于理解的自然語言描述。

2、現(xiàn)有的圖表轉(zhuǎn)文本技術(shù)在處理復(fù)雜圖表時(shí)仍然存在顯著缺陷。首先，圖表重要數(shù)據(jù)捕獲能力不足，現(xiàn)有技術(shù)在處理復(fù)雜圖表時(shí)難以準(zhǔn)確捕獲復(fù)雜圖表眾多數(shù)據(jù)中的重要數(shù)據(jù)和數(shù)據(jù)之間存在的聯(lián)系，對(duì)圖表的理解存在一定的誤差。其次，復(fù)雜圖表包含了更多的視覺元素，現(xiàn)有技術(shù)還無法有效地從圖表全局的角度感知圖表元素所傳達(dá)的語義信息，導(dǎo)致生成的圖表描述文本過于片面或誤導(dǎo)?？傮w而言，盡管圖表轉(zhuǎn)文本技術(shù)已經(jīng)獲得了巨大的發(fā)展，但在理解復(fù)雜圖表、生成高質(zhì)量文本描述方面還存在較大的改進(jìn)空間。

技術(shù)實(shí)現(xiàn)思路

1、鑒于上述狀況，本發(fā)明的主要目的是為了提出一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)，以解決上述技術(shù)問題。

2、本發(fā)明提出了一個(gè)融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，所述方法包括如下步驟：

3、步驟1、提取圖表的底層數(shù)據(jù)表，將底層數(shù)據(jù)表展開得到表格序列化文本，將表格序列化文本分詞，再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量，根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示，將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合，獲得表格數(shù)據(jù)值特征；

4、步驟2、對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充，得到標(biāo)題的補(bǔ)充信息，將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層，獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù)；

5、步驟3、將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊，再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征；

6、步驟4、將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征，再將文本特征和視覺特征進(jìn)行多模態(tài)融合，生成多模態(tài)融合特征；

7、步驟5、將多模態(tài)融合特征輸入至bart解碼器中進(jìn)行解碼，以生成最終的文本。

8、本發(fā)明還提出一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成系統(tǒng)，其中，所述系統(tǒng)應(yīng)用如上所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，所述系統(tǒng)包括：

9、關(guān)鍵數(shù)據(jù)抽取模塊，用于：

10、提取圖表的底層數(shù)據(jù)表，將底層數(shù)據(jù)表展開得到表格序列化文本，將表格序列化文本分詞，再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量，根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示，將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合，獲得表格數(shù)據(jù)值特征；

11、將對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充，得到標(biāo)題的補(bǔ)充信息，將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層，獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù)；

12、圖像特征提取模塊，用于：

13、將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊，再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征；

14、多模態(tài)特征融合模塊，用于：

15、將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征，再將文本特征和視覺特征進(jìn)行多模態(tài)融合，生成多模態(tài)融合特征；

16、文本生成模塊，用于：

17、將多模態(tài)融合特征輸入至bart解碼器中進(jìn)行解碼，以生成最終的文本。

18、相較于現(xiàn)有技術(shù)，本發(fā)明的有益效果如下：

19、1、結(jié)合了圖表的局部語義信息和全局視覺信息，先從復(fù)雜圖表中自動(dòng)抽取出關(guān)鍵數(shù)據(jù)，再結(jié)合圖表視覺信息的互補(bǔ)性，使模型在兩種模態(tài)上充分理解圖表傳達(dá)的含義，從而生成高質(zhì)量的圖表描述文本。

20、2、本發(fā)明通過大語言模型為圖表的橫坐標(biāo)軸標(biāo)簽和圖例標(biāo)簽添加額外補(bǔ)充信息，幫助模型更加充分地理解圖表傳達(dá)的含義，能夠更準(zhǔn)確地從復(fù)雜圖表中抽取出圖表關(guān)鍵數(shù)據(jù)。

21、3、本發(fā)明采用swintransformer模型進(jìn)行圖像特征提取。swintransformer通過將圖表圖像分割成不重疊的塊，然后通過層次化特征表示和基于滑動(dòng)窗口的多頭自注意力機(jī)制和多層感知機(jī)對(duì)圖像塊進(jìn)行處理，充分理解復(fù)雜圖表中的大量視覺元素，以生成足夠有效的視覺特征。

22、4、本發(fā)明借助了多模態(tài)注意力和門融合機(jī)制來融合文本模態(tài)和視覺模態(tài)的信息，通過兩次門機(jī)制融合和一次多模態(tài)注意力計(jì)算來達(dá)到融合文本特征和視覺特征的目的，為最終解碼器生成文本提供有效的特征表示。

23、本發(fā)明的附加方面與優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)施例了解到。

技術(shù)特征：

1.一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，所述方法包括如下步驟：

2.根據(jù)權(quán)利要求1所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，在所述步驟1中，將底層數(shù)據(jù)表展開得到表格序列化文本，將表格序列化文本分詞，再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量以及標(biāo)題特征，根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示的方法具體包括如下步驟：

3.根據(jù)權(quán)利要求2所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，在所述步驟1中，獲取每個(gè)單元格特征表示的數(shù)據(jù)值特征，將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合，獲得表格數(shù)據(jù)值特征的方法具體包括如下步驟：

4.根據(jù)權(quán)利要求3所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，在所述步驟2中，對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充，得到標(biāo)題的補(bǔ)充信息的方法具體包括如下步驟：

5.根據(jù)權(quán)利要求4所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，在所述步驟2中，將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層，獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù)的方法具體包括如下步驟：

6.根據(jù)權(quán)利要求5所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，在所述步驟3中，將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊，再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征表示，對(duì)應(yīng)的過程存在如下關(guān)系式：

7.根據(jù)權(quán)利要求6所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，在所述步驟4中，將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征，再將文本特征和視覺特征進(jìn)行多模態(tài)融合，生成多模態(tài)融合特征的方法具體包括如下步驟：

8.根據(jù)權(quán)利要求7所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，多模態(tài)交叉注意力層處理函數(shù)的計(jì)算過程具體包括如下步驟：

9.根據(jù)權(quán)利要求8所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，其特征在于，門融合函數(shù)的計(jì)算過程存在如下關(guān)系式：

10.一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成系統(tǒng)，其特征在于，所述系統(tǒng)應(yīng)用如權(quán)利要求1至9任意一項(xiàng)所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法，所述系統(tǒng)包括：

技術(shù)總結(jié)
本發(fā)明提出一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)，該方法通過提取圖表中的關(guān)鍵數(shù)據(jù)和視覺特征，再利用多模態(tài)注意力網(wǎng)絡(luò)和門融合機(jī)制對(duì)兩種模態(tài)的特征進(jìn)行融合，以充分學(xué)習(xí)圖表的關(guān)鍵語義特征和全局視覺特征，最后對(duì)融合后的特征進(jìn)行解碼并生成具有高流暢度和事實(shí)一致性的圖表描述文本。本發(fā)明采用了大語言模型語義增強(qiáng)和多模態(tài)學(xué)習(xí)的方法，使模型能夠?qū)D表傳達(dá)的語義進(jìn)行更充分理解和學(xué)習(xí)。模型易于搭建，生成的文本流暢度高，包含的事實(shí)更多更準(zhǔn)確，文本內(nèi)容也更加精簡。

技術(shù)研發(fā)人員：劉喜平,黃旺旺,譚釗,舒晴,劉德喜,萬齊智,萬常選
受保護(hù)的技術(shù)使用者：江西財(cái)經(jīng)大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉喜平,黃旺旺,譚釗,舒晴,劉德喜,萬齊智,萬常選
技術(shù)所有人：江西財(cái)經(jīng)大學(xué)
我是此專利的發(fā)明人

上一篇：人工濕地進(jìn)水過濾結(jié)構(gòu)的制作方法
上一篇：一種鋁型材加工用去毛刺裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)