亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種圖片圖表數(shù)據(jù)獲取方法及對比方法與流程

文檔序號:40400371發(fā)布日期:2024-12-20 12:23閱讀:5來源:國知局
一種圖片圖表數(shù)據(jù)獲取方法及對比方法與流程

本發(fā)明涉及圖片圖表對比,具體涉及一種圖片圖表數(shù)據(jù)獲取方法及對比方法。


背景技術(shù):

1、在很多領(lǐng)域中,特別是科研、醫(yī)療等領(lǐng)域中,圖表對比是常用的數(shù)據(jù)分析方法,但在日常工作中,大量的圖片圖表都是以圖片形式存在的,很難進(jìn)行對比分析。

2、傳統(tǒng)的圖片圖表對比方法將圖表視為通用圖片,使用圖像處理的方式對比像素值,但這種方法無法準(zhǔn)確捕捉到圖表中數(shù)據(jù)語義層面的差異,這類方法代表性的軟件有winmerge和difflmg?。

3、基于機(jī)器學(xué)習(xí)的圖表解析技術(shù)雖然可以實(shí)現(xiàn)圖表圖像到數(shù)據(jù)的轉(zhuǎn)換,但容易受到ocr噪聲點(diǎn)的影響,因此在像素坐標(biāo)到數(shù)據(jù)坐標(biāo)映射的過程中不可能做到完全準(zhǔn)確。這導(dǎo)致兩張圖表解析后的數(shù)據(jù)在坐標(biāo)、數(shù)據(jù)量上難以對齊,需要大量的人工操作或者編碼工作才能實(shí)現(xiàn)數(shù)據(jù)的對齊和對比。


技術(shù)實(shí)現(xiàn)思路

1、本申請要解決的技術(shù)問題是提供一種圖片圖表數(shù)據(jù)獲取方法及對比方法,具有可以更加準(zhǔn)確定位坐標(biāo)刻度,降低ocr識別噪聲的影響,提高坐標(biāo)映射方法的準(zhǔn)確性和穩(wěn)健性的特點(diǎn)。

2、第一方面,一種實(shí)施例中提供一種圖片圖表數(shù)據(jù)獲取方法,包括:

3、采集圖表圖片;所述圖表圖片包括折線圖的圖片和/或直方圖的圖片;

4、對所述圖表圖片進(jìn)行圖表解析,得到第一語義信息;所述第一語義信息包括圖表類型、繪圖區(qū)域和關(guān)鍵點(diǎn)像素坐標(biāo);

5、對所述圖表圖片進(jìn)行文字識別,得到文字識別結(jié)果;所述文字識別結(jié)果包括文字及文字所屬區(qū)域的像素坐標(biāo);

6、結(jié)合第一語義信息和文字識別結(jié)果進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射,得到圖表數(shù)據(jù);

7、所述的結(jié)合第一語義信息和文字識別結(jié)果進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射,得到圖表數(shù)據(jù),包括:

8、基于聚類算法提取坐標(biāo)軸刻度,分別得到x軸方向上最密集的類簇和y軸方向上最密集的類簇;

9、分別判斷x軸方向上最密集的類簇和y軸方向上最密集的類簇中數(shù)字區(qū)域的數(shù)量是否達(dá)到預(yù)設(shè)的數(shù)量閾值,如果達(dá)到,則基于構(gòu)建的分位數(shù)回歸模型進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射,得到相應(yīng)的圖表數(shù)據(jù);如果未達(dá)到,則基于構(gòu)建的仿射變換模型進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射,得到相應(yīng)的圖表數(shù)據(jù)。

10、一種實(shí)施例中,所述的基于聚類算法提取坐標(biāo)軸刻度,分別得到x軸方向上最密集的類簇和y軸方向上最密集的類簇,包括:

11、篩選文字識別結(jié)果中為數(shù)字的區(qū)域,得到區(qū)域集合作為第一集合;

12、篩選第一集合中與繪圖區(qū)域存在交集的數(shù)字區(qū)域構(gòu)成新的數(shù)字區(qū)域集合,并將該新的數(shù)字區(qū)域集合作為第二集合;

13、基于第二集合,實(shí)施聚類算法,分別得到x軸方向最密集的類簇和y軸方向最密集的類簇。

14、第二方面,一種實(shí)施例中提供一種圖片圖表對比方法,基于上述實(shí)施例中任意一項(xiàng)所述的圖片圖表數(shù)據(jù)獲取方法得到的圖表數(shù)據(jù)進(jìn)行對比;所對比的兩個(gè)圖片圖表包括:一個(gè)直方圖圖片圖表和一個(gè)折線圖圖片圖表,或兩個(gè)直方圖圖片圖表,或兩個(gè)折線圖圖片圖表。

15、本發(fā)明的有益效果是:

16、由于對圖片圖表的解析中,基于包含圖表類型、繪圖區(qū)域和關(guān)鍵點(diǎn)像素坐標(biāo)的第一語義信息和文字及文字所屬區(qū)域的像素坐標(biāo)的文字識別結(jié)果,進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射時(shí),基于聚類算法提取坐標(biāo)軸刻度,分別得到x軸方向上最密集的類簇和y軸方向上最密集的類簇;分別判斷x軸方向上最密集的類簇和y軸方向上最密集的類簇中數(shù)字區(qū)域的數(shù)量是否達(dá)到預(yù)設(shè)的數(shù)量閾值,如果達(dá)到,則基于構(gòu)建的分位數(shù)回歸模型進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射,得到相應(yīng)的圖表數(shù)據(jù);如果未達(dá)到,則基于構(gòu)建的仿射變換模型進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射,得到相應(yīng)的圖表數(shù)據(jù);使得可以更加準(zhǔn)確定位坐標(biāo)刻度,降低ocr識別噪聲的影響,提高坐標(biāo)映射方法的準(zhǔn)確性和穩(wěn)健性。



技術(shù)特征:

1.一種圖片圖表數(shù)據(jù)獲取方法,其特征在于,包括:

2.如權(quán)利要求1所述的圖片圖表數(shù)據(jù)獲取方法,其特征在于,所述第一語義信息還包括特定類型分組信息;所述特定類型分組信息包括折線圖中關(guān)鍵點(diǎn)需要按照所屬折線進(jìn)行分組得到的分組信息,和/或,直方圖中關(guān)鍵點(diǎn)按照所屬矩形進(jìn)行分組得到的分組信息。

3.如權(quán)利要求1所述的圖片圖表數(shù)據(jù)獲取方法,其特征在于,所述的基于聚類算法提取坐標(biāo)軸刻度,分別得到x軸方向上最密集的類簇和y軸方向上最密集的類簇,包括:

4.如權(quán)利要求3所述的圖片圖表數(shù)據(jù)獲取方法,其特征在于,所述的篩選文字識別結(jié)果中為數(shù)字的區(qū)域,得到區(qū)域集合,作為第一集合,包括:

5.如權(quán)利要求4所述的圖片圖表數(shù)據(jù)獲取方法,其特征在于,所述的篩選第一集合中與繪圖區(qū)域存在交集的數(shù)字區(qū)域,包括:對于第一集合中的任意一個(gè)數(shù)字區(qū)域,計(jì)算該任意一個(gè)數(shù)字區(qū)域與繪圖區(qū)域的相交面積,若相交面積大于0,則說明存在相交;所述的計(jì)算該任意一個(gè)數(shù)字區(qū)域與繪圖區(qū)域的相交面積,包括:

6.如權(quán)利要求3所述的圖片圖表數(shù)據(jù)獲取方法,其特征在于,所述基于第二集合,實(shí)施聚類算法,分別得到x軸方向最密集的類簇和y軸方向最密集的類簇,包括:

7.如權(quán)利要求1或6所述的圖片圖表數(shù)據(jù)獲取方法,其特征在于,所述分位數(shù)回歸模型包括x軸的分位數(shù)回歸模型和y軸的分位數(shù)回歸模型,構(gòu)建方法包括:

8.一種圖片圖表對比方法,其特征在于,基于權(quán)利要求1到7中任意一項(xiàng)所述的圖片圖表數(shù)據(jù)獲取方法得到的圖表數(shù)據(jù)進(jìn)行對比;所對比的兩個(gè)圖片圖表包括:一個(gè)直方圖圖片圖表和一個(gè)折線圖圖片圖表,或兩個(gè)直方圖圖片圖表,或兩個(gè)折線圖圖片圖表。

9.如權(quán)利要求8所述的圖片圖表對比方法,其特征在于,所述對比方法包括趨勢對比,采用趨勢對比進(jìn)行差異點(diǎn)對比的方法包括:

10.如權(quán)利要求9所述的圖片圖表對比方法,其特征在于,所述第一自適應(yīng)局部擬合模型包括:


技術(shù)總結(jié)
本發(fā)明涉及一種圖片圖表數(shù)據(jù)獲取方法及對比方法,涉及圖片圖表對比技術(shù)領(lǐng)域。圖片圖表的解析中,基于包含圖表類型、繪圖區(qū)域和關(guān)鍵點(diǎn)像素坐標(biāo)的第一語義信息和文字及文字所屬區(qū)域的像素坐標(biāo)的文字識別結(jié)果,進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射時(shí),基于聚類算法提取坐標(biāo)軸刻度,分別得到X軸方向上和Y軸方向上最密集的類簇;分別判斷X軸方向上和Y軸方向上最密集的類簇中數(shù)字區(qū)域的數(shù)量是否達(dá)到預(yù)設(shè)的數(shù)量閾值,如果達(dá)到,則基于構(gòu)建的分位數(shù)回歸模型進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射;如果未達(dá)到,則基于構(gòu)建的仿射變換模型進(jìn)行像素坐標(biāo)到數(shù)據(jù)坐標(biāo)的映射??梢愿訙?zhǔn)確定位坐標(biāo)刻度,降低OCR識別噪聲的影響,提高坐標(biāo)映射方法的準(zhǔn)確性和穩(wěn)健性。

技術(shù)研發(fā)人員:蒲宇
受保護(hù)的技術(shù)使用者:成都中科合迅科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1