本發(fā)明涉及圖表轉(zhuǎn)文本,特別涉及一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng)。
背景技術(shù):
1、圖表轉(zhuǎn)文本是自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的一個(gè)交叉研究課題,目標(biāo)是自動(dòng)將圖表(復(fù)雜條形圖)所傳達(dá)的含義轉(zhuǎn)化為流暢簡潔、忠于圖表事實(shí)且易于理解的自然語言描述。
2、現(xiàn)有的圖表轉(zhuǎn)文本技術(shù)在處理復(fù)雜圖表時(shí)仍然存在顯著缺陷。首先,圖表重要數(shù)據(jù)捕獲能力不足,現(xiàn)有技術(shù)在處理復(fù)雜圖表時(shí)難以準(zhǔn)確捕獲復(fù)雜圖表眾多數(shù)據(jù)中的重要數(shù)據(jù)和數(shù)據(jù)之間存在的聯(lián)系,對(duì)圖表的理解存在一定的誤差。其次,復(fù)雜圖表包含了更多的視覺元素,現(xiàn)有技術(shù)還無法有效地從圖表全局的角度感知圖表元素所傳達(dá)的語義信息,導(dǎo)致生成的圖表描述文本過于片面或誤導(dǎo)??傮w而言,盡管圖表轉(zhuǎn)文本技術(shù)已經(jīng)獲得了巨大的發(fā)展,但在理解復(fù)雜圖表、生成高質(zhì)量文本描述方面還存在較大的改進(jìn)空間。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述狀況,本發(fā)明的主要目的是為了提出一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法與系統(tǒng),以解決上述技術(shù)問題。
2、本發(fā)明提出了一個(gè)融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,所述方法包括如下步驟:
3、步驟1、提取圖表的底層數(shù)據(jù)表,將底層數(shù)據(jù)表展開得到表格序列化文本,將表格序列化文本分詞,再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量,根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示,將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合,獲得表格數(shù)據(jù)值特征;
4、步驟2、對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充,得到標(biāo)題的補(bǔ)充信息,將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層,獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù);
5、步驟3、將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊,再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征;
6、步驟4、將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征,再將文本特征和視覺特征進(jìn)行多模態(tài)融合,生成多模態(tài)融合特征;
7、步驟5、將多模態(tài)融合特征輸入至bart解碼器中進(jìn)行解碼,以生成最終的文本。
8、本發(fā)明還提出一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成系統(tǒng),其中,所述系統(tǒng)應(yīng)用如上所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,所述系統(tǒng)包括:
9、關(guān)鍵數(shù)據(jù)抽取模塊,用于:
10、提取圖表的底層數(shù)據(jù)表,將底層數(shù)據(jù)表展開得到表格序列化文本,將表格序列化文本分詞,再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量,根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示,將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合,獲得表格數(shù)據(jù)值特征;
11、將對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充,得到標(biāo)題的補(bǔ)充信息,將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層,獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù);
12、圖像特征提取模塊,用于:
13、將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊,再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征;
14、多模態(tài)特征融合模塊,用于:
15、將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征,再將文本特征和視覺特征進(jìn)行多模態(tài)融合,生成多模態(tài)融合特征;
16、文本生成模塊,用于:
17、將多模態(tài)融合特征輸入至bart解碼器中進(jìn)行解碼,以生成最終的文本。
18、相較于現(xiàn)有技術(shù),本發(fā)明的有益效果如下:
19、1、結(jié)合了圖表的局部語義信息和全局視覺信息,先從復(fù)雜圖表中自動(dòng)抽取出關(guān)鍵數(shù)據(jù),再結(jié)合圖表視覺信息的互補(bǔ)性,使模型在兩種模態(tài)上充分理解圖表傳達(dá)的含義,從而生成高質(zhì)量的圖表描述文本。
20、2、本發(fā)明通過大語言模型為圖表的橫坐標(biāo)軸標(biāo)簽和圖例標(biāo)簽添加額外補(bǔ)充信息,幫助模型更加充分地理解圖表傳達(dá)的含義,能夠更準(zhǔn)確地從復(fù)雜圖表中抽取出圖表關(guān)鍵數(shù)據(jù)。
21、3、本發(fā)明采用swintransformer模型進(jìn)行圖像特征提取。swintransformer通過將圖表圖像分割成不重疊的塊,然后通過層次化特征表示和基于滑動(dòng)窗口的多頭自注意力機(jī)制和多層感知機(jī)對(duì)圖像塊進(jìn)行處理,充分理解復(fù)雜圖表中的大量視覺元素,以生成足夠有效的視覺特征。
22、4、本發(fā)明借助了多模態(tài)注意力和門融合機(jī)制來融合文本模態(tài)和視覺模態(tài)的信息,通過兩次門機(jī)制融合和一次多模態(tài)注意力計(jì)算來達(dá)到融合文本特征和視覺特征的目的,為最終解碼器生成文本提供有效的特征表示。
23、本發(fā)明的附加方面與優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)施例了解到。
1.一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟1中,將底層數(shù)據(jù)表展開得到表格序列化文本,將表格序列化文本分詞,再輸入至預(yù)訓(xùn)練語言模型bert得到各個(gè)子詞的嵌入向量以及標(biāo)題特征,根據(jù)各個(gè)子詞的嵌入向量獲取每個(gè)單元格特征表示的方法具體包括如下步驟:
3.根據(jù)權(quán)利要求2所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟1中,獲取每個(gè)單元格特征表示的數(shù)據(jù)值特征,將單元格特征表示與在底層數(shù)據(jù)表中對(duì)應(yīng)位置的標(biāo)題信息進(jìn)行融合,獲得表格數(shù)據(jù)值特征的方法具體包括如下步驟:
4.根據(jù)權(quán)利要求3所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟2中,對(duì)圖表底層數(shù)據(jù)表的標(biāo)題進(jìn)行語義信息補(bǔ)充,得到標(biāo)題的補(bǔ)充信息的方法具體包括如下步驟:
5.根據(jù)權(quán)利要求4所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟2中,將標(biāo)題的補(bǔ)充信息與表格數(shù)據(jù)值特征進(jìn)行融合再通過預(yù)測(cè)層,獲得與圖表有關(guān)的關(guān)鍵數(shù)據(jù)的方法具體包括如下步驟:
6.根據(jù)權(quán)利要求5所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟3中,將圖表圖像按照固定像素長度和寬度進(jìn)行分割得到若干圖像塊,再對(duì)圖像塊在通道方向上進(jìn)行展平后輸入至swin?transformer模型中得到圖表圖像的視覺特征表示,對(duì)應(yīng)的過程存在如下關(guān)系式:
7.根據(jù)權(quán)利要求6所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,在所述步驟4中,將獲得的圖表關(guān)鍵數(shù)據(jù)按照模板進(jìn)行序列化后輸入至bart編碼器獲得文本特征,再將文本特征和視覺特征進(jìn)行多模態(tài)融合,生成多模態(tài)融合特征的方法具體包括如下步驟:
8.根據(jù)權(quán)利要求7所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,多模態(tài)交叉注意力層處理函數(shù)的計(jì)算過程具體包括如下步驟:
9.根據(jù)權(quán)利要求8所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,其特征在于,門融合函數(shù)的計(jì)算過程存在如下關(guān)系式:
10.一種融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成系統(tǒng),其特征在于,所述系統(tǒng)應(yīng)用如權(quán)利要求1至9任意一項(xiàng)所述的融合圖表關(guān)鍵數(shù)據(jù)的多模態(tài)圖表到文本生成方法,所述系統(tǒng)包括: