亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)采集接口、數(shù)據(jù)采集方法和系統(tǒng)的制作方法

文檔序號(hào):10512153閱讀:299來源:國知局
一種數(shù)據(jù)采集接口、數(shù)據(jù)采集方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種數(shù)據(jù)采集接口、數(shù)據(jù)采集方法和系統(tǒng),該數(shù)據(jù)采集接口,包括:至少兩種文件格式的采集子接口,其中,每一種文件格式的采集子接口,用于配置至少一種采集算法,根據(jù)所述至少一種采集算法,為每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則,根據(jù)所述數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù)據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù)文件,并采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù)。本發(fā)明提供的方案實(shí)現(xiàn)了數(shù)據(jù)采集接口的通用性。
【專利說明】
一種數(shù)據(jù)采集接口、數(shù)據(jù)采集方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)采集接口、數(shù)據(jù)采集方法和 系統(tǒng)。
【背景技術(shù)】
[0002] 在大數(shù)據(jù)時(shí)代,數(shù)據(jù)管理系統(tǒng)常常需要采集數(shù)據(jù),以從采集的數(shù)據(jù)中分析出有用 信息。
[0003] 目前,數(shù)據(jù)的采集方式主要是,為每一種數(shù)據(jù)格式和采集方式編寫各自對應(yīng)的采 集程序,并采集程序?yàn)樯蓪?yīng)的數(shù)據(jù)采集接口,當(dāng)采集方式或者數(shù)據(jù)格式發(fā)生變化時(shí),需 要重新編寫采集程序,并重新生成新的數(shù)據(jù)采集接口。例如:當(dāng)前需要通過采集方式A從實(shí) 驗(yàn)設(shè)備中采集word文件中的數(shù)據(jù),則為該采集方式A和word文件生成數(shù)據(jù)采集接口 1,當(dāng)需 要采集excel文件中的數(shù)據(jù)時(shí),需要通過重新編寫采集程序的方式,為該excel文件生成數(shù) 據(jù)采集接口 2,另外當(dāng)上述采集方式由A變?yōu)锽時(shí),仍然需要通過重新編寫采集程序的方式, 為采集方式B重新生成數(shù)據(jù)采集接口 3。因此,現(xiàn)有的這種數(shù)據(jù)采集方式,造成數(shù)據(jù)采集接口 不能通用性。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明實(shí)施例提供了一種數(shù)據(jù)采集接口、數(shù)據(jù)采集方法和系統(tǒng),實(shí)現(xiàn)了數(shù)據(jù)采集 接口的通用性。
[0005] -種數(shù)據(jù)采集接口,包括:至少兩種文件格式的采集子接口,其中,
[0006] 每一種文件格式的采集子接口,用于配置至少一種采集算法,根據(jù)所述至少一種 采集算法,為每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則,根據(jù)所述數(shù)據(jù)采集規(guī)則,接收外設(shè) 的數(shù)據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù)文件,并采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù)。
[0007] 優(yōu)選地,上述數(shù)據(jù)采集接口,進(jìn)一步包括:文件生成單元和接口調(diào)用單元,其中,
[0008] 所述文件生成單元,用于接收至少一組配置參數(shù),并為每一組配置參數(shù)生成對應(yīng) 的腳本文件,將所述至少一個(gè)腳本文件發(fā)送給所述接口調(diào)用單元;
[0009] 所述接口調(diào)用單元,用于接收所述文件生成單元發(fā)送的至少一個(gè)腳本文件,并運(yùn) 行所述至少一個(gè)腳本文件,根據(jù)所述至少一個(gè)腳本文件中的格式標(biāo)識(shí)符,調(diào)用該腳本文件 對應(yīng)的文件格式的采集子接口;
[0010] 所述每一種文件格式的采集子接口,用于在接收到所述接口調(diào)用單元的調(diào)用時(shí), 在所述接口調(diào)用單元運(yùn)行的所述至少一個(gè)腳本文件中截取至少一組配置參數(shù),根據(jù)所述至 少一種采集算法,為所述腳本文件中的每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則。
[0011] 優(yōu)選地,所述至少兩種文件格式的采集子接口,包括:word文件采集子接口;相應(yīng) 地,所述接口調(diào)用單元,進(jìn)一步用于定義word文件采集子接口的格式標(biāo)識(shí)符表征為d,并定 義所述d對應(yīng)的至少一種采集算法的第一算法名稱取值,該第一算法名稱取值包括: extract Chart By Attribute、extract Table By Attribute、extract Beijing Chart By Attribute、extract Beijing Table By Attribute中的任意一個(gè)或多個(gè);根據(jù)所述至 少一個(gè)腳本文件中的格式標(biāo)識(shí)符d,調(diào)用所述word文件采集子接口;
[0012]相應(yīng)地,所述word文件采集子接口對應(yīng)的腳本文件,包括:word文件格式標(biāo)識(shí)符d, 第一算法名稱取值及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,所述源數(shù)據(jù)文件參數(shù),包 括:源數(shù)據(jù)文件名字符串、索引圖片關(guān)鍵字、索引表格關(guān)鍵字及索引下標(biāo)中的任意一個(gè)或多 個(gè);
[0013] 相應(yīng)地,所述word文件采集子接口,包括:提取圖片子接口和提取表格子接口中任 意一個(gè)或兩個(gè),其中,
[0014] 所述提取圖片子接口,用于截取腳本文件中第一算法名稱取值、源數(shù)據(jù)文件名字 符串、索引圖片關(guān)鍵字及索引圖片關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)所述 第一算法名稱取值確定word文件圖片采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定word 文件,并根據(jù)所述索引圖片關(guān)鍵字及索引下標(biāo),確定目標(biāo)圖片區(qū)域,利用所述圖片采集算 法,從所述word文件中采集目標(biāo)圖片區(qū)域中的圖片;
[0015] 所述提取表格子接口,用于截取第一算法名稱取值、源數(shù)據(jù)文件名字符串、索引表 格關(guān)鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)所述第一算法名稱 取值確定word文件表格采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定word文件,并根據(jù)所 述索引表格關(guān)鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo),確定目標(biāo)表格區(qū)域,利用所述表格 采集算法,從所述word文件中采集目標(biāo)表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù)。
[0016] 優(yōu)選地,所述至少兩種文件格式的采集子接口,包括:eXCel文件采集子接口;相應(yīng) 地,所述接口調(diào)用單元,進(jìn)一步用于定義excel文件采集子接口的格式標(biāo)識(shí)符表征為e,并定 義所述e對應(yīng)的至少一種采集算法的第二算法名稱取值,該第二算法名稱取值包括: extract Table By Name ^extract Value By Name ^extract Value List By Name、 extract Ox Value List By Name、extract String By Name、extract Map From Sheet、 extract P Table From Sheet、extract Chart From Excel中的任意一個(gè)或多個(gè);根據(jù)所 述至少一個(gè)腳本文件中的格式標(biāo)識(shí)符e,調(diào)用所述excel文件采集子接口;
[0017] 相應(yīng)地,所述excel文件采集子接口對應(yīng)的腳本文件,包括:excel文件格式標(biāo)識(shí)符 e,第二算法名稱取值及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,所述源數(shù)據(jù)文件參數(shù),包 括:源數(shù)據(jù)文件名字符串、numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字 符串、列名稱字符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)或多個(gè);
[0018] 相應(yīng)地,所述excel文件采集子接口,包括:至少一個(gè)excel提取子接口;所述至少 一個(gè)excel提取子接口,包括:提取excel表格子接口、提取單值子接口、提取多值子接口、提 取十六進(jìn)制值子接口、提取字符串子接口、提取map子接口、提取PTable子接口和提取exce 1 圖片子接口中任意一個(gè)或兩個(gè);
[0019] 相應(yīng)地,每一個(gè)excel提取子接口,用于截取腳本文件中第二算法名稱取值、源數(shù) 據(jù)文件名字符串、numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列 名稱字符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),根據(jù)所述第二 算法名稱取值確定excel文件中數(shù)據(jù)采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定excel 文件,并根據(jù)所述numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列 名稱字符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),確定目標(biāo)數(shù)據(jù) 區(qū)域,利用所述excel數(shù)據(jù)采集算法,從所述excel文件中采集目標(biāo)數(shù)據(jù)區(qū)域中的目標(biāo)數(shù)據(jù)。
[0020]優(yōu)選地,所述至少兩種文件格式的采集子接口,包括:TXT文件采集子接口;相應(yīng) 地,所述接口調(diào)用單元,進(jìn)一步用于定義TXT文件采集子接口的格式標(biāo)識(shí)符表征為X,并定義 所述X對應(yīng)的采集算法的名稱取值為extract Table From Txt;根據(jù)所述至少一個(gè)腳本文 件中的格式標(biāo)識(shí)符X,調(diào)用所述TXT文件采集子接口;
[0021 ]相應(yīng)地,所述TXT文件采集子接口對應(yīng)的腳本文件,包括:TXT文件格式標(biāo)識(shí)符X, extract Table From Txt及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,所述源數(shù)據(jù)文件參 數(shù),包括:源數(shù)據(jù)文件名字符串和分隔符中的任意一個(gè)或兩個(gè);
[0022]相應(yīng)地,所述TXT文件采集子接口,包括:提取TXT表格子接口;
[0023] 相應(yīng)地,所述提取表格子接口,用于截取所述extract Table From Txt、源數(shù)據(jù)文 件名字符串和分隔符中的任意一個(gè)和多個(gè),根據(jù)所述extract Table From Txt確定TXT文 件中表格采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定TXT文件,利用所述extract Table From Txt對應(yīng)的表格采集算法,根據(jù)所述分隔符,從所述TXT文件中采集目標(biāo)表格。
[0024] 優(yōu)選地,所述每一組配置參數(shù),進(jìn)一步包括:輸出文件的格式、輸出文件的文件名、 輸出文件的存儲(chǔ)根目錄及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè);
[0025] 所述每一種文件格式的采集子接口,用于根據(jù)所述輸出文件的格式、輸出文件的 文件名、輸出文件的存儲(chǔ)目錄及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè),為所述 目標(biāo)數(shù)據(jù)生成目標(biāo)輸出文件,并將所述目標(biāo)輸出文件發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng)。
[0026]優(yōu)選地,上述數(shù)據(jù)采集接口,進(jìn)一步包括:至少一種數(shù)據(jù)處理子接口,每一個(gè)數(shù)據(jù) 處理子接口包含至少一種運(yùn)算,所述運(yùn)算包括:提取表格中最大值、提取表格中行最大值、 提取表格中列最大值、重命名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大值、計(jì)算最小值、計(jì)算商、計(jì)算 平均值、計(jì)算和、計(jì)算差及計(jì)算次方中的任意一個(gè)或多個(gè);
[0027]所述每一種文件格式的采集子接口,用于將采集到的所述目標(biāo)數(shù)據(jù)發(fā)送給所述至 少一種數(shù)據(jù)處理子接口;
[0028]所述至少一種數(shù)據(jù)處理子接口中,每一種數(shù)據(jù)處理子接口,用于截取腳本文件中 的目標(biāo)運(yùn)算,接收所述每一種文件格式的采集子接口發(fā)送的所述目標(biāo)數(shù)據(jù)/接收外設(shè)的數(shù) 據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),并對所述目標(biāo)數(shù)據(jù)進(jìn)行所述目標(biāo)運(yùn)算。
[0029] -種利用上述任一所述的數(shù)據(jù)采集接口實(shí)現(xiàn)的數(shù)據(jù)采集方法,設(shè)置至少兩種文件 格式的采集子接口,并在每一種文件格式的采集子接口中配置至少一種采集算法;還包括:
[0030] 確定至少一種目標(biāo)文件格式的采集子接口和至少一組配置參數(shù);
[0031 ]在所述至少一種目標(biāo)文件格式的采集子接口中,根據(jù)所述至少一種采集算法,為 每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則;
[0032] 根據(jù)所述數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用所述至 少一種目標(biāo)文件格式的采集子接口采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù)。
[0033] 優(yōu)選地,上述方法進(jìn)一步包括:接收至少一組配置參數(shù),并為每一組配置參數(shù)生成 對應(yīng)的腳本文件,并運(yùn)行所述至少一個(gè)腳本文件;
[0034] 所述確定至少一種目標(biāo)文件格式的采集子接口和至少一組配置參數(shù),包括:根據(jù) 所述至少一個(gè)腳本文件中的格式標(biāo)識(shí)符,調(diào)用該腳本文件對應(yīng)的目標(biāo)文件格式的采集子接 口,并從所述至少一個(gè)腳本文件中截取至少一組配置參數(shù)。
[0035] 優(yōu)選地,當(dāng)所述至少兩種文件格式的采集子接口,包括:W〇rd文件采集子接口時(shí), 相應(yīng)地,上述方法進(jìn)一步包括:定義word文件采集子接口的格式標(biāo)識(shí)符表征為d,并定義所 述d對應(yīng)的至少一種采集算法的第一算法名稱取值,該第一算法名稱取值包括:extract Chart By Attribute、extract Table By Attribute、extract Beijing Chart By Attribute、extract Beijing Table By Attribute中的任意一個(gè)或多個(gè);
[0036] 相應(yīng)地,所述確定至少一種目標(biāo)文件格式的采集子接口,包括:根據(jù)所述腳本文件 中的格式標(biāo)識(shí)符d,調(diào)用所述word文件采集子接口,所述word文件采集子接口,包括:提取圖 片子接口和提取表格子接口中任意一個(gè)或兩個(gè);
[0037] 相應(yīng)地,所述接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用所述至少一種目標(biāo) 文件格式的采集子接口采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),包括:
[0038] 利用所述提取圖片子接口截取腳本文件中第一算法名稱取值、源數(shù)據(jù)文件名字符 串、索引圖片關(guān)鍵字及索引圖片關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)所述第 一算法名稱取值確定word文件圖片采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定word文 件,并根據(jù)所述索引圖片關(guān)鍵字及索引下標(biāo),確定目標(biāo)圖片區(qū)域,利用所述圖片采集算法, 從所述word文件中采集目標(biāo)圖片區(qū)域中的圖片;
[0039] 利用所述提取表格子接口截取第一算法名稱取值、源數(shù)據(jù)文件名字符串、索引表 格關(guān)鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)所述第一算法名稱 取值確定word文件表格采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定word文件,并根據(jù)所 述索引表格關(guān)鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo),確定目標(biāo)表格區(qū)域,利用所述表格 采集算法,從所述word文件中采集目標(biāo)表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù)。
[0040] 優(yōu)選地,當(dāng)所述至少兩種文件格式的采集子接口,包括:eXCel文件采集子接口時(shí), 相應(yīng)地,上述方法進(jìn)一步包括:定義excel文件采集子接口的格式標(biāo)識(shí)符表征為e,并定義所 述e對應(yīng)的至少一種采集算法的第二算法名稱取值,該第二算法名稱取值包括:extract Table By Name、extract Value By Name>extract Value List By Name>extract Ox Value List By Name、extract String By Name^extract Map From Sheet^extract P Table From Sheet、extract Chart From Excel中的任意一個(gè)或多個(gè);
[0041] 相應(yīng)地,所述確定至少一種目標(biāo)文件格式的采集子接口,包括:根據(jù)所述至少一個(gè) 腳本文件中的格式標(biāo)識(shí)符e,調(diào)用所述excel文件采集子接口,所述excel文件采集子接口, 包括:至少一個(gè)excel提取子接口;所述至少一個(gè)excel提取子接口,包括:提取excel表格子 接口、提取單值子接口、提取多值子接口、提取十六進(jìn)制值子接口、提取字符串子接口、提取 map子接口、提取PTable子接口和提取excel圖片子接口中任意一個(gè)或兩個(gè);
[0042] 相應(yīng)地,所述接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用所述至少一種目標(biāo) 文件格式的采集子接口采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),包括:
[0043] 利用每一個(gè)excel提取子接口截取腳本文件中第二算法名稱取值、源數(shù)據(jù)文件名 字符串、numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字符 串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),根據(jù)所述第二算法名稱 取值確定excel文件中數(shù)據(jù)采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定excel文件,并根 據(jù)所述numJ^Psheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字符 串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),確定目標(biāo)數(shù)據(jù)區(qū)域,利 用所述excel數(shù)據(jù)采集算法,從所述excel文件中采集目標(biāo)數(shù)據(jù)區(qū)域中的目標(biāo)數(shù)據(jù)。
[0044] 優(yōu)選地,當(dāng)所述至少兩種文件格式的采集子接口,包括:TXT文件采集子接口時(shí),相 應(yīng)地,上述方法進(jìn)一步包括:定義TXT文件采集子接口的格式標(biāo)識(shí)符表征為X,并定義所述X 對應(yīng)的采集算法的名稱取值為extract Table From Txt;
[0045] 相應(yīng)地,所述確定至少一種目標(biāo)文件格式的采集子接口,包括:根據(jù)所述至少一個(gè) 腳本文件中的格式標(biāo)識(shí)符X,調(diào)用所述TXT文件采集子接口,所述TXT文件采集子接口,包括: 提取TXT表格子接口;
[0046] 相應(yīng)地,所述接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用所述至少一種目標(biāo) 文件格式的采集子接口采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),包括:
[0047]利用所述提取表格子接口截取所述extract Table From Txt、源數(shù)據(jù)文件名字符 串和分隔符中的任意一個(gè)和多個(gè),根據(jù)所述extract Table From Txt確定TXT文件中表格 采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定TXT文件,利用所述extract Table From Txt對應(yīng)的表格采集算法,根據(jù)所述分隔符,從所述TXT文件中采集目標(biāo)表格。
[0048]優(yōu)選地,上述方法進(jìn)一步包括:利用所述每一種文件格式的采集子接口截取腳本 文件中的輸出文件的格式、輸出文件的文件名、輸出文件的存儲(chǔ)目錄及輸出文件中數(shù)據(jù)的 存儲(chǔ)格式中的任意一個(gè)或多個(gè),為所述目標(biāo)數(shù)據(jù)生成目標(biāo)輸出文件,并將所述目標(biāo)輸出文 件發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng)。
[0049] 優(yōu)選地,上述方法進(jìn)一步包括:設(shè)置至少一種數(shù)據(jù)處理子接口,為每一個(gè)數(shù)據(jù)處理 子接口配置至少一種運(yùn)算,所述運(yùn)算包括:提取表格中最大值、提取表格中行最大值、提取 表格中列最大值、重命名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大值、計(jì)算最小值、計(jì)算商、計(jì)算平均 值、計(jì)算和、計(jì)算差及計(jì)算次方中的任意一個(gè)或多個(gè);
[0050] 利用所述至少一種數(shù)據(jù)處理子接口截取腳本文件中的目標(biāo)運(yùn)算,接收所述每一種 文件格式的采集子接口發(fā)送的所述目標(biāo)數(shù)據(jù)/接收外設(shè)的數(shù)據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù)文件 中的目標(biāo)數(shù)據(jù),并對所述目標(biāo)數(shù)據(jù)進(jìn)行所述目標(biāo)運(yùn)算。
[0051] -種數(shù)據(jù)采集系統(tǒng),包括:至少一個(gè)數(shù)據(jù)源發(fā)送端、上述任一所述的數(shù)據(jù)采集接口 和數(shù)據(jù)管理系統(tǒng),其中,
[0052]每一個(gè)數(shù)據(jù)源發(fā)送端,與所述數(shù)據(jù)采集接口相連,用于發(fā)送源數(shù)據(jù)文件給所述數(shù) 據(jù)采集接口;
[0053]所述數(shù)據(jù)采集接口,封裝到所述數(shù)據(jù)管理系統(tǒng)中,用于根據(jù)截取到的輸出文件的 格式、輸出文件的文件名及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè),將采集的目 標(biāo)數(shù)據(jù)生成對應(yīng)的目標(biāo)輸出文件,并根據(jù)截取到的輸出文件的存儲(chǔ)根目錄,將所述目標(biāo)輸 出文件發(fā)送給所述數(shù)據(jù)管理系統(tǒng);
[0054]所述數(shù)據(jù)管理系統(tǒng),用于接收所述數(shù)據(jù)采集接口發(fā)送的所述目標(biāo)輸出文件,直接 存儲(chǔ)所述目標(biāo)輸出文件/對所述目標(biāo)輸出文件中的數(shù)據(jù)進(jìn)行二次處理,并存儲(chǔ)經(jīng)過所述二 次處理后的目標(biāo)輸出文件。
[0055]本發(fā)明實(shí)施例提供了一種數(shù)據(jù)采集接口、數(shù)據(jù)采集方法和系統(tǒng),該數(shù)據(jù)采集接口 包括:至少兩種文件格式的采集子接口,使得該數(shù)據(jù)采集接口能夠接收至少兩種文件格式 的源數(shù)據(jù)文件,通過每一種文件格式的采集子接口設(shè)置至少一種采集算法,每一種文件格 式的采集子接口當(dāng)接收到至少一組配置參數(shù)時(shí),根據(jù)至少一種采集算法,為每一組配置參 數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則,根據(jù)數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù)據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù) 文件,并采集源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),那么當(dāng)一個(gè)文件格式的采集子接口接收到多組配 置參數(shù)時(shí),一個(gè)文件格式的采集子接口可以包含多種數(shù)據(jù)采集規(guī)則,則一個(gè)文件格式的采 集子接口可以采集到多種目標(biāo)數(shù)據(jù),一方面該數(shù)據(jù)采集接口能夠接收至少兩種文件格式的 源數(shù)據(jù)文件,另一方面對于同一種文件格式的源數(shù)據(jù)文件,同一文件格式的采集子接口可 以根據(jù)多種數(shù)據(jù)采集規(guī)則,采集多種目標(biāo)數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)采集接口的通用性。
【附圖說明】
[0056]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明 的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 這些附圖獲得其他的附圖。
[0057]圖1是本發(fā)明一個(gè)實(shí)施例提供的一種數(shù)據(jù)采集接口的結(jié)構(gòu)示意圖;
[0058]圖2是本發(fā)明另一個(gè)實(shí)施例提供的一種數(shù)據(jù)采集接口的結(jié)構(gòu)示意圖;
[0059] 圖3是本發(fā)明又一個(gè)實(shí)施例提供的一種數(shù)據(jù)采集接口的結(jié)構(gòu)示意圖;
[0060] 圖4是本發(fā)明一個(gè)實(shí)施例提供的一種數(shù)據(jù)采集方法的流程圖;
[0061] 圖5是本發(fā)明一個(gè)實(shí)施例提供的一種數(shù)據(jù)采集系統(tǒng)的結(jié)構(gòu)示意圖;
[0062] 圖6是本發(fā)明另一個(gè)實(shí)施例提供的一種數(shù)據(jù)采集系統(tǒng)的結(jié)構(gòu)示意圖;
[0063] 圖7是本發(fā)明又一個(gè)實(shí)施例提供的一種數(shù)據(jù)采集方法的流程圖;
[0064] 圖8是本發(fā)明另一個(gè)實(shí)施例提供的一種數(shù)據(jù)采集方法的流程圖。
【具體實(shí)施方式】
[0065] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0066] 如圖1所示,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)采集接口,該數(shù)據(jù)采集接口 10可以包 括:
[0067] 至少兩種文件格式的采集子接口 101,其中,
[0068] 每一種文件格式的采集子接口 101,用于配置至少一種采集算法,根據(jù)至少一種采 集算法,為每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則,根據(jù)數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù)據(jù) 源發(fā)送端發(fā)送的源數(shù)據(jù)文件,并采集源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù)。
[0069] 在圖1所示的實(shí)施例中,通過每一種文件格式的采集子接口設(shè)置至少一種采集算 法,每一種文件格式的采集子接口當(dāng)接收到至少一組配置參數(shù)時(shí),根據(jù)至少一種采集算法, 為每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則,根據(jù)數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù)據(jù)源發(fā)送 端發(fā)送的源數(shù)據(jù)文件,并采集源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),那么當(dāng)一個(gè)文件格式的采集子接 口接收到多組配置參數(shù)時(shí),一個(gè)文件格式的采集子接口可以包含多種數(shù)據(jù)采集規(guī)則,則一 個(gè)文件格式的采集子接口可以采集到多種目標(biāo)數(shù)據(jù),一方面該數(shù)據(jù)采集接口能夠接收至少 兩種文件格式的源數(shù)據(jù)文件,另一方面對于同一種文件格式的源數(shù)據(jù)文件,同一文件格式 的采集子接口可以根據(jù)多種數(shù)據(jù)采集規(guī)則,采集多種目標(biāo)數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)采集接口的通 用性。
[0070]如圖2所示,在本發(fā)明另一實(shí)施例中,上述數(shù)據(jù)采集接口 10可以進(jìn)一步包括:文件 生成單元201和接口調(diào)用單元202,其中,
[0071 ]文件生成單元201,用于接收至少一組配置參數(shù),并為每一組配置參數(shù)生成對應(yīng)的 腳本文件,將至少一個(gè)腳本文件發(fā)送給接口調(diào)用單元202;
[0072]接口調(diào)用單元202,用于接收文件生成單元201發(fā)送的至少一個(gè)腳本文件,并運(yùn)行 至少一個(gè)腳本文件,根據(jù)至少一個(gè)腳本文件中的格式標(biāo)識(shí)符,調(diào)用該腳本文件對應(yīng)的文件 格式的采集子接口 101;
[0073] 每一種文件格式的采集子接口 101,用于在接收到接口調(diào)用單元202的調(diào)用時(shí),在 接口調(diào)用單元202運(yùn)行的至少一個(gè)腳本文件中截取至少一組配置參數(shù),根據(jù)至少一種采集 算法,為腳本文件中的每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則。
[0074] 在本發(fā)明另一實(shí)施例中,至少兩種文件格式的采集子接口 101,包括:word文件采 集子接口(圖中未示出);
[0075]接口調(diào)用單元202,進(jìn)一步用于定義word文件采集子接口的格式標(biāo)識(shí)符表征為d, 并定義d對應(yīng)的至少一種采集算法的第一算法名稱取值,該第一算法名稱取值包括: extract Chart By Attribute、extract Table By Attribute、extract Beijing Chart By Attribute、extract Beijing Table By Attribute中的任意一個(gè)或多個(gè);根據(jù)至少一 個(gè)腳本文件中的格式標(biāo)識(shí)符d,調(diào)用word文件采集子接口;
[0076] word文件采集子接口對應(yīng)的腳本文件,包括:word文件格式標(biāo)識(shí)符d,第一算法名 稱取值及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,源數(shù)據(jù)文件參數(shù),包括:源數(shù)據(jù)文件名 字符串、索引圖片關(guān)鍵字、索引表格關(guān)鍵字及索引下標(biāo)中的任意一個(gè)或多個(gè);
[0077] word文件采集子接口,包括:提取圖片子接口和提取表格子接口中任意一個(gè)或兩 個(gè),其中,
[0078] 提取圖片子接口,用于截取腳本文件中第一算法名稱取值、源數(shù)據(jù)文件名字符串、 索引圖片關(guān)鍵字及索引圖片關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)第一算法名 稱取值確定word文件圖片采集算法,根據(jù)源數(shù)據(jù)文件名字符串,確定word文件,并根據(jù)索引 圖片關(guān)鍵字及索引下標(biāo),確定目標(biāo)圖片區(qū)域,利用圖片采集算法,從word文件中采集目標(biāo)圖 片區(qū)域中的圖片;
[0079] 提取表格子接口,用于截取第一算法名稱取值、源數(shù)據(jù)文件名字符串、索引表格關(guān) 鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)第一算法名稱取值確定 word文件表格采集算法,根據(jù)源數(shù)據(jù)文件名字符串,確定word文件,并根據(jù)索引表格關(guān)鍵字 及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo),確定目標(biāo)表格區(qū)域,利用表格采集算法,從word文件中 采集目標(biāo)表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù)。
[0080] 在本發(fā)明又一實(shí)施例中,至少兩種文件格式的采集子接口 101,包括:excel文件采 集子接口(圖中未示出);
[0081] 接口調(diào)用單元202,進(jìn)一步用于定義excel文件采集子接口的格式標(biāo)識(shí)符表征為e, 并定義e對應(yīng)的至少一種采集算法的第二算法名稱取值,該第二算法名稱取值包括: extract Table By Name ^extract Value By Name ^extract Value List By Name、 extract Ox Value List By Name、extract String By Name、extract Map From Sheet、 extract P Table From Sheet、extract Chart From Excel中的任意一個(gè)或多個(gè);根據(jù)至 少一個(gè)腳本文件中的格式標(biāo)識(shí)符e,調(diào)用excel文件采集子接口;
[0082] excel文件采集子接口對應(yīng)的腳本文件,包括:excel文件格式標(biāo)識(shí)符e,第二算法 名稱取值及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,源數(shù)據(jù)文件參數(shù),包括:源數(shù)據(jù)文件 名字符串、numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字 符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)或多個(gè);
[0083] excel文件采集子接口,包括:至少一個(gè)excel提取子接口;至少一個(gè)excel提取子 接口,包括:提取excel表格子接口、提取單值子接口、提取多值子接口、提取十六進(jìn)制值子 接口、提取字符串子接口、提取map子接口、提取PTable子接口和提取excel圖片子接口中任 意一個(gè)或兩個(gè);
[0084]每一個(gè)excel提取子接口,用于截取腳本文件中第二算法名稱取值、源數(shù)據(jù)文件名 字符串、numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字符 串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),根據(jù)第二算法名稱取值 確定excel文件中數(shù)據(jù)采集算法,根據(jù)源數(shù)據(jù)文件名字符串,確定excel文件,并根據(jù)11111]1_和 sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字符串、左上角字符 串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),確定目標(biāo)數(shù)據(jù)區(qū)域,利用excel數(shù)據(jù)采 集算法,從excel文件中采集目標(biāo)數(shù)據(jù)區(qū)域中的目標(biāo)數(shù)據(jù)。
[0085]在本發(fā)明又一實(shí)施例中,至少兩種文件格式的采集子接口 101,包括:TXT文件采集 子接口(圖中未示出);
[0086]接口調(diào)用單元202,進(jìn)一步用于定義TXT文件采集子接口的格式標(biāo)識(shí)符表征為X,并 定義X對應(yīng)的采集算法的名稱取值為extract Table From Txt;根據(jù)至少一個(gè)腳本文件中 的格式標(biāo)識(shí)符X,調(diào)用TXT文件采集子接口;
[0087] TXT文件采集子接口對應(yīng)的腳本文件,包括:TXT文件格式標(biāo)識(shí)符X,extract Table From Txt及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,源數(shù)據(jù)文件參數(shù),包括:源數(shù)據(jù)文件 名字符串和分隔符中的任意一個(gè)或兩個(gè);
[0088] TXT文件采集子接口,包括:提取TXT表格子接口;
[0089]提取表格子接口,用于截取extract Table From Txt、源數(shù)據(jù)文件名字符串和分 隔符中的任意一個(gè)和多個(gè),根據(jù)extract Table From Txt確定TXT文件中表格采集算法,根 據(jù)源數(shù)據(jù)文件名字符串,確定TXT文件,利用extract Table From Txt對應(yīng)的表格采集算 法,根據(jù)分隔符,從TXT文件中采集目標(biāo)表格。
[0090]在本發(fā)明又一實(shí)施例中,每一組配置參數(shù),進(jìn)一步包括:輸出文件的格式、輸出文 件的文件名、輸出文件的存儲(chǔ)根目錄及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè); [0091 ]每一種文件格式的采集子接口 101,用于根據(jù)輸出文件的格式、輸出文件的文件 名、輸出文件的存儲(chǔ)目錄及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè),為目標(biāo)數(shù)據(jù) 生成目標(biāo)輸出文件,并將目標(biāo)輸出文件發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng)。
[0092] 對于word文件采集子接口來說,輸出文件的格式和輸出文件的文件名配置參數(shù)包 括:chart_開頭的字符串或者吐1_開頭的字符串;
[0093] 相應(yīng)地,提取圖片子接口,進(jìn)一步用于截取chart_開頭的字符串,并根據(jù) 頭的字符串,將采集的目標(biāo)圖片區(qū)域中的圖片生成圖片格式文件;
[0094] 提取表格子接口,進(jìn)一步用于截取tbl_開頭的字符串,并根據(jù)吐1_開頭的字符串, 將采集的表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù)生成表格格式文件。
[0095] 對于excel文件采集子接口來說,輸出文件的格式和輸出文件的文件名配置參數(shù) 輸出文件的格式和輸出文件的文件名配置參數(shù)包括:頭的字符串、吐1_開頭的字 符串、皿!11_開頭的字符串、 8杜_(tái)開頭的字符串、!^?_開頭的字符串、?仏1_開頭的字符串及 chart_開頭的字符串中任意一個(gè);
[0096]提取excel表格子接口,進(jìn)一步用于截取tbl_開頭的字符串,并根據(jù)吐1_開頭的字 符串,將采集的表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù)生成表格格式文件;
[0097] 提取單值子接口,進(jìn)一步用于截取num_開頭的字符串,并根據(jù)皿111_開頭的字符串, 為采集的excel表中的單值命名;
[0098] 提取多值子接口,進(jìn)一步用于截取多個(gè)num_開頭的字符串,并根據(jù)多個(gè)num_開頭 的字符串,為采集的exce 1表中的多值中每一個(gè)值命名;
[0099] 十六進(jìn)制值子接口,進(jìn)一步用于截取num_開頭的字符串,并根據(jù)num_開頭的字符 串,為采集的excel表中的十六進(jìn)制值命名;
[0100] 提取字符串子接口,進(jìn)一步用于截取str_開頭的字符串,并根據(jù)str_開頭的字符 串,為采集的excel表中的字符串命名;
[0101]提取map子接口,進(jìn)一步用于截取map_開頭的字符串,并根據(jù)111&?_開頭的字符串, 為采集的excel表中的map命名;
[0102]提取PTable子接口,進(jìn)一步用于截取ptbl_開頭的字符串,并根據(jù)?^1_開頭的字 符串,為米集的excel表中的Processible Table命名;
[0103] 提取excel圖片子接口,進(jìn)一步用于截取chart_開頭的字符串,并根據(jù)chart_開頭 的字符串,將采集的目標(biāo)圖片區(qū)域中的圖片生成圖片格式文件。
[0104] 如圖3所示,在本發(fā)明又一實(shí)施例中,上述數(shù)據(jù)采集接口,進(jìn)一步包括:至少一種數(shù) 據(jù)處理子接口 301,每一個(gè)數(shù)據(jù)處理子接口 301包含至少一種運(yùn)算,運(yùn)算包括:提取表格中最 大值、提取表格中行最大值、提取表格中列最大值、重命名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大 值、計(jì)算最小值、計(jì)算商、計(jì)算平均值、計(jì)算和、計(jì)算差及計(jì)算次方中的任意一個(gè)或多個(gè);
[0105] 每一種文件格式的采集子接口 101,用于將采集到的目標(biāo)數(shù)據(jù)發(fā)送給至少一種數(shù) 據(jù)處理子接口 301;
[0106]至少一種數(shù)據(jù)處理子接口中,每一種數(shù)據(jù)處理子接口301,用于截取腳本文件中的 目標(biāo)運(yùn)算,接收每一種文件格式的采集子接口 101發(fā)送的目標(biāo)數(shù)據(jù)/接收外設(shè)的數(shù)據(jù)源發(fā)送 端發(fā)送的源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),并對目標(biāo)數(shù)據(jù)進(jìn)行目標(biāo)運(yùn)算。
[0107] 上述裝置內(nèi)的各單元之間的信息交互、執(zhí)行過程等內(nèi)容,由于與本發(fā)明方法實(shí)施 例基于同一構(gòu)思,具體內(nèi)容可參見下述本發(fā)明方法實(shí)施例中的敘述。
[0108] 如圖4所示,本發(fā)明實(shí)施例提供一種利用上述任意一種數(shù)據(jù)采集接口實(shí)現(xiàn)的數(shù)據(jù) 采集方法,該數(shù)據(jù)采集方法包括:
[0109] 步驟401:設(shè)置至少兩種文件格式的采集子接口,并在每一種文件格式的采集子接 口中配置至少一種采集算法;
[011 0]步驟402:確定至少一種目標(biāo)文件格式的采集子接口和至少一組配置參數(shù);
[0111] 步驟403:在至少一種目標(biāo)文件格式的采集子接口中,根據(jù)至少一種采集算法,為 每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則;
[0112] 步驟404:根據(jù)數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用至 少一種目標(biāo)文件格式的采集子接口采集源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù)。
[0113]在本發(fā)明一個(gè)實(shí)施例中,為了能夠?qū)崿F(xiàn)對配置參數(shù)的管理,保證接口截取到配置 參數(shù),上述方法進(jìn)一步包括:接收至少一組配置參數(shù),并為每一組配置參數(shù)生成對應(yīng)的腳本 文件,并運(yùn)行至少一個(gè)腳本文件;步驟402的【具體實(shí)施方式】,包括:根據(jù)至少一個(gè)腳本文件中 的格式標(biāo)識(shí)符,調(diào)用該腳本文件對應(yīng)的目標(biāo)文件格式的采集子接口,并從至少一個(gè)腳本文 件中截取至少一組配置參數(shù)。
[0114] 在本發(fā)明一個(gè)實(shí)施例中,定義word文件采集子接口的格式標(biāo)識(shí)符表征為d,并定義 d對應(yīng)的至少一種采集算法的第一算法名稱取值,該第一算法名稱取值包括:extract Chart By Attribute、extract Table By Attribute、extract Beijing Chart By Attribute、extract Beijing Table By Attribute中的任意一個(gè)或多個(gè);步驟402的具體 實(shí)施方式,包括:根據(jù)腳本文件中的格式標(biāo)識(shí)符d,調(diào)用word文件采集子接口,word文件采集 子接口,包括:提取圖片子接口和提取表格子接口中任意一個(gè)或兩個(gè);相應(yīng)地,步驟404的具 體實(shí)施方式,包括:截取腳本文件中第一算法名稱取值、源數(shù)據(jù)文件名字符串、索引關(guān)鍵字 及索引關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)第一算法名稱取值確定word文件 采集算法,根據(jù)源數(shù)據(jù)文件名字符串,確定word文件,并根據(jù)索引關(guān)鍵字及索引下標(biāo),確定 目標(biāo)區(qū)域,利用采集算法,從word文件中采集目標(biāo)區(qū)域中的數(shù)據(jù)。
[0115] 在本發(fā)明一個(gè)實(shí)施例中,定義excel文件采集子接口的格式標(biāo)識(shí)符表征為e,并定 義e對應(yīng)的至少一種采集算法的第二算法名稱取值,該第二算法名稱取值包括:extract Table By Name、extract Value By Namenextract Value List By Namenextract Ox Value List By Namenextract String By Namenextract Map From Sheet、extract P Table From Sheet、extract Chart From Excel中的任意一個(gè)或多個(gè);相應(yīng)地,步驟402的
【具體實(shí)施方式】,包括:根據(jù)至少一個(gè)腳本文件中的格式標(biāo)識(shí)符e,調(diào)用excel文件采集子接 口,excel文件采集子接口,包括:提取excel表格子接口、提取單值子接口、提取多值子接 口、提取十六進(jìn)制值子接口、提取字符串子接口、提取map子接口、提取PTable子接口和提取 exce 1圖片子接口中任意一個(gè)或兩個(gè);步驟404的【具體實(shí)施方式】,包括:截取腳本文件中第二 算法名稱取值、源數(shù)據(jù)文件名字符串、111 1111_和81^的序列號(hào)組成的字符串、sheet名稱字符 串、行名稱字符串、列名稱字符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè) 和多個(gè),根據(jù)第二算法名稱取值確定excel文件中數(shù)據(jù)采集算法,根據(jù)源數(shù)據(jù)文件名字符 串,確定excel文件,并根據(jù)11111]1_和811661:序列號(hào)組成的字符串、sheet名稱字符串、行名稱字 符串、列名稱字符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),確定 目標(biāo)數(shù)據(jù)區(qū)域,利用excel數(shù)據(jù)采集算法,從excel文件中采集目標(biāo)數(shù)據(jù)區(qū)域中的目標(biāo)數(shù)據(jù)。
[0116] 在本發(fā)明一個(gè)實(shí)施例中,定義TXT文件采集子接口的格式標(biāo)識(shí)符表征為X,并定義X 對應(yīng)的采集算法的名稱取值為extract Table From Txt;相應(yīng)地,步驟402的具體實(shí)施方 式,包括:根據(jù)至少一個(gè)腳本文件中的格式標(biāo)識(shí)符X,調(diào)用TXT文件采集子接口,TXT文件采集 子接口,包括:提取TXT表格子接口;步驟404的【具體實(shí)施方式】,包括:利用提取表格子接口截 取extract Table From Txt、源數(shù)據(jù)文件名字符串和分隔符中的任意一個(gè)和多個(gè),根據(jù) extract Table From Txt確定TXT文件中表格采集算法,根據(jù)源數(shù)據(jù)文件名字符串,確定 TXT文件,利用extract Table From Txt對應(yīng)的表格采集算法,根據(jù)分隔符,從TXT文件中采 集目標(biāo)表格。
[0117]在本發(fā)明一個(gè)實(shí)施例中,設(shè)置至少一種數(shù)據(jù)處理子接口,為每一個(gè)數(shù)據(jù)處理子接 口配置至少一種運(yùn)算,運(yùn)算包括:提取表格中最大值、提取表格中行最大值、提取表格中列 最大值、重命名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大值、計(jì)算最小值、計(jì)算商、計(jì)算平均值、計(jì)算 和、計(jì)算差及計(jì)算次方中的任意一個(gè)或多個(gè);截取腳本文件中的目標(biāo)運(yùn)算,接收每一種文件 格式的采集子接口發(fā)送的目標(biāo)數(shù)據(jù)/接收外設(shè)的數(shù)據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù)文件中的目標(biāo) 數(shù)據(jù),并對目標(biāo)數(shù)據(jù)進(jìn)行目標(biāo)運(yùn)算。
[0118]如圖5所示,本發(fā)明實(shí)施例提供一種數(shù)據(jù)采集系統(tǒng),該數(shù)據(jù)采集系統(tǒng)包括:上述任 意一種數(shù)據(jù)采集接口 501、至少一個(gè)數(shù)據(jù)源發(fā)送端502和數(shù)據(jù)管理系統(tǒng)503,其中,
[0119]每一個(gè)數(shù)據(jù)源發(fā)送端502,與數(shù)據(jù)采集接口 501相連,用于發(fā)送源數(shù)據(jù)文件給數(shù)據(jù) 采集接口 501;
[0120]數(shù)據(jù)采集接口 501,封裝到數(shù)據(jù)管理系統(tǒng)503中,用于根據(jù)截取到的輸出文件的格 式、輸出文件的文件名及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè),將采集的目標(biāo) 數(shù)據(jù)生成對應(yīng)的目標(biāo)輸出文件,并根據(jù)截取到的輸出文件的存儲(chǔ)根目錄,將目標(biāo)輸出文件 發(fā)送給數(shù)據(jù)管理系統(tǒng)503;
[0121]數(shù)據(jù)管理系統(tǒng)503,用于接收數(shù)據(jù)采集接口 501發(fā)送的目標(biāo)輸出文件,直接存儲(chǔ)目 標(biāo)輸出文件/對目標(biāo)輸出文件中的數(shù)據(jù)進(jìn)行二次處理,并存儲(chǔ)經(jīng)過二次處理后的目標(biāo)輸出 文件。
[0122] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合圖6所示的數(shù)據(jù)采集系 統(tǒng),以對word文件中圖片和表格數(shù)據(jù)的采集為例,展開說明數(shù)據(jù)采集方法,如圖7所示,該數(shù) 據(jù)采集方法可以包括如下步驟:
[0123] 步驟701:設(shè)置word文件采集子接口及至少一種數(shù)據(jù)處理子接口;
[0124] 如圖6所示,在數(shù)據(jù)采集接口 601中,設(shè)置word文件采集子接口 6011,并在word文件 采集子接口 6011中設(shè)置提取圖片子接口 60111和提取表格子接口 60112,同時(shí),在數(shù)據(jù)采集 接口 601中,設(shè)置了至少一個(gè)數(shù)據(jù)處理子接口 6015。
[0125] 步驟702:定義word文件采集子接口的格式標(biāo)識(shí)符表征為d,并定義d對應(yīng)的至少一 種采集算法的第一算法名稱取值;
[0126] 在該步驟中,格式標(biāo)識(shí)符能夠用于唯一的表征文件格式。該第一算法名稱取值包 括:extract Chart By Attributenextract Table By Attributenextract Beijing Chart By Attribute、extract Beijing Table By Attribute中的任意一個(gè)或多個(gè);通過 設(shè)置這些,使得用戶在配置參數(shù)過程中,只需要配置格式標(biāo)識(shí)符和算法取值,而無需編寫程 序。
[0127] 步驟703:接收至少一組配置參數(shù),并為每一組配置參數(shù)生成對應(yīng)的腳本文件,運(yùn) 行至少一個(gè)腳本文件;
[0128] 在該步驟中,腳本文件可以為as文件,一個(gè)業(yè)務(wù)可以配置一個(gè)對應(yīng)的腳本文件,另 外,為了實(shí)現(xiàn)as文件的正常啟動(dòng),可以通過建立xml文件,在該xml文件中包括: pro ject · input · format'project · algorithm, script矛口pro ject · output · -format,構(gòu)建 as 文件與輸入文件之間的關(guān)系,通過xml文件啟動(dòng)as文件。
[0129]步驟704:根據(jù)至少一個(gè)腳本文件中的格式標(biāo)識(shí)符d,調(diào)用該腳本文件對應(yīng)的word 文件采集子接口;
[0130]上面已經(jīng)提及格式標(biāo)識(shí)符d表征為word文件采集子接口,從圖6中可以看出,word 文件采集子接口 6011,包括:提取圖片子接口 60111和提取表格子接口 60112。
[0131]步驟705:利用word文件采集子接口截取腳本文件中第一算法名稱取值、源數(shù)據(jù)文 件名字符串、索引關(guān)鍵字及索引關(guān)鍵字對應(yīng)的索引下標(biāo),當(dāng)采集word文件中的圖片時(shí),執(zhí)行 步驟706;當(dāng)采集word文件中的表格時(shí),執(zhí)行步驟712;
[0132] 在該步驟中,對于提取圖片子接口來說,索引關(guān)鍵字及索引關(guān)鍵字對應(yīng)的索引下 標(biāo)分別為索引圖片關(guān)鍵字及索引圖片關(guān)鍵字的索引下標(biāo);對于提取表格子接口來說,索引 關(guān)鍵字及索引關(guān)鍵字對應(yīng)的索引下標(biāo)分別為索引表格關(guān)鍵字及索引表格關(guān)鍵字的索引下 標(biāo),其中,步驟706至步驟711是提取圖片子接口對word文件中圖片的提取和輸出的過程;步 驟712至步驟720是提取表格子接口對word文件中表格的提取、表格數(shù)據(jù)處理和輸出的過 程。
[0133] 步驟706:根據(jù)第一算法名稱取值確定word文件圖片采集算法;
[0134] 步驟707:根據(jù)源數(shù)據(jù)文件名字符串,確定word文件;
[0135] 步驟708:根據(jù)索引圖片關(guān)鍵字及索引下標(biāo),確定目標(biāo)圖片區(qū)域;
[0136] 步驟709:利用圖片采集算法,從word文件中采集目標(biāo)圖片區(qū)域中的圖片;
[0137] 步驟710:利用提取圖片子接口截取腳本文件中的chart_開頭的字符串,并根據(jù) chart_開頭的字符串,將采集的目標(biāo)圖片區(qū)域中的圖片生成圖片格式文件;
[0138] 步驟711:將圖片格式文件發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng),并結(jié)束當(dāng)前流程;
[0139] 步驟712:根據(jù)第一算法名稱取值確定word文件表格采集算法;
[0140] 步驟713:根據(jù)源數(shù)據(jù)文件名字符串,確定word文件;
[0141 ]步驟714:根據(jù)索引表格關(guān)鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo),確定目標(biāo)表格 區(qū)域;
[0142]步驟715:利用表格米集算法,從word文件中米集目標(biāo)表格區(qū)域中的表格中的目標(biāo) 數(shù)據(jù),當(dāng)需要對目標(biāo)數(shù)據(jù)進(jìn)行二次處理時(shí),執(zhí)行步驟716;當(dāng)不需要對目標(biāo)數(shù)據(jù)進(jìn)行二次處 理時(shí),執(zhí)行步驟719;
[0143] 步驟716:利用至少一種數(shù)據(jù)處理子接口截取腳本文件中的目標(biāo)運(yùn)算,接收word文 件采集子接口發(fā)送的目標(biāo)數(shù)據(jù);
[0144] 運(yùn)算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命 名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大值、計(jì)算最小值、計(jì)算商、計(jì)算平均值、計(jì)算和、計(jì)算差及計(jì) 算次方中的任意一個(gè)或多個(gè);
[0145] 步驟717:對目標(biāo)數(shù)據(jù)進(jìn)行目標(biāo)運(yùn)算;
[0146] 步驟718:將目標(biāo)運(yùn)算結(jié)果發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng),并結(jié)束當(dāng)前流程;
[0147] 步驟719:利用word文件采集子接口截取tbl_開頭的字符串,并根據(jù)吐1_開頭的字 符串,將采集的表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù)生成表格格式文件;
[0148] 步驟720:將表格格式文件發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng)。
[0149] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合圖6所示的數(shù)據(jù)采集系 統(tǒng),以對excel文件中圖片和表格數(shù)據(jù)的采集為例,展開說明數(shù)據(jù)采集方法,如圖8所示,該 數(shù)據(jù)采集方法可以包括如下步驟:
[0150] 步驟801:設(shè)置excel文件采集子接口及至少一種數(shù)據(jù)處理子接口;
[0151] 如圖6所示,在數(shù)據(jù)采集接口 601中,設(shè)置exce 1文件采集子接口 6012,并在exce 1文 件采集子接口 6012中設(shè)置提取excel表格子接口 60121、提取單值子接口 60122、提取多值子 接口 60123、提取十六進(jìn)制值子接口 60124、提取字符串子接口 60125、提取map子接口 60126、 提取PTable子接口 60127和提取excel圖片子接口 60128,同時(shí),在數(shù)據(jù)采集接口 601中,設(shè)置 了至少一個(gè)數(shù)據(jù)處理子接口 6015。
[0152] 步驟802:定義excel文件采集子接口的格式標(biāo)識(shí)符表征為e,并定義e對應(yīng)的至少 一種采集算法的第二算法名稱取值;
[0153] 在該步驟中,該第二算法名稱取值包括:extract Table By Name、extract Value By Name > extract Value List By Name ^extract Ox Value List By Name > extract String By Name>extract Map From Sheet、extract P Table From Sheet、extract Chart From Excel中的任意一個(gè)或多個(gè);
[0154] 步驟803:接收至少一組配置參數(shù),并為每一組配置參數(shù)生成對應(yīng)的腳本文件,運(yùn) 行至少一個(gè)腳本文件;
[0155] 在該步驟中,腳本文件可以為as文件,一個(gè)業(yè)務(wù)可以配置一個(gè)對應(yīng)的腳本文件,另 外,為了實(shí)現(xiàn)as文件的正常啟動(dòng),可以通過建立xml文件,在該xml文件中構(gòu)建as文件與輸入 文件之間的關(guān)系,通過xml文件啟動(dòng)as文件。
[0156] 步驟804:根據(jù)至少一個(gè)腳本文件中的格式標(biāo)識(shí)符e,調(diào)用該腳本文件對應(yīng)的excel 文件采集子接口;
[0157] 步驟805:利用每一個(gè)excel提取子接口截取腳本文件中的配置參數(shù);
[0158] 在該步驟中,配置參數(shù)一般包括:第二算法名稱取值、源數(shù)據(jù)文件名字符串、num_ 和sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字符串、左上角字 符串、右下角字符串和圖片序號(hào),通過這些參數(shù)不僅能夠確定算法,而且能夠確定提取數(shù)據(jù) 的位置。
[0159] 步驟806:根據(jù)配置參數(shù)中的第二算法名稱取值確定excel文件中數(shù)據(jù)采集算法; [0160]步驟807:根據(jù)配置參數(shù)中的源數(shù)據(jù)文件名字符串,確定excel文件;
[0161] 步驟808:根據(jù)配置參數(shù)中的11111]1_和811661:序列號(hào)組成的字符串、sheet名稱字符 串、行名稱字符串、列名稱字符串、左上角字符串、右下角字符串和圖片序號(hào),確定目標(biāo)數(shù)據(jù) 區(qū)域;
[0162] 步驟809:利用excel數(shù)據(jù)采集算法,從excel文件中采集目標(biāo)數(shù)據(jù)區(qū)域中的目標(biāo)數(shù) 據(jù),當(dāng)需要對目標(biāo)數(shù)據(jù)進(jìn)行二次處理時(shí),執(zhí)行步驟810;當(dāng)不需要對目標(biāo)數(shù)據(jù)進(jìn)行二次處理 時(shí),執(zhí)行步驟813;
[0163] 步驟810:利用至少一種數(shù)據(jù)處理子接口截取腳本文件中的目標(biāo)運(yùn)算,接收excel 文件采集子接口發(fā)送的目標(biāo)數(shù)據(jù);
[0164] 運(yùn)算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命 名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大值、計(jì)算最小值、計(jì)算商、計(jì)算平均值、計(jì)算和、計(jì)算差及計(jì) 算次方中的任意一個(gè)或多個(gè),該運(yùn)算的過程仍然可以通過在數(shù)據(jù)處理子接口中設(shè)置運(yùn)算子 接口如提取表格中最大值子接口、轉(zhuǎn)換圖片格式子接口、計(jì)算商子接口等等。
[0165] 步驟811:對目標(biāo)數(shù)據(jù)進(jìn)行目標(biāo)運(yùn)算;
[0166] 例如:將兩個(gè)數(shù)據(jù)相加,則是對兩個(gè)數(shù)據(jù)進(jìn)行計(jì)算和運(yùn)算。
[0167] 步驟812:將目標(biāo)運(yùn)算結(jié)果發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng),并結(jié)束當(dāng)前流程;
[0168] 步驟813:利用excel提取子接口截取tbl_開頭的字符串,并根據(jù)tbl_開頭的字符 串,將采集的表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù)生成表格格式文件;
[0169] 值得說明的是,利用提取單值子接口截取num_開頭的字符串,并根據(jù)num_開頭的 字符串,為采集的excel表中的單值命名;利用提取多值子接口截取多個(gè)num_開頭的字符 串,并根據(jù)多個(gè)num_開頭的字符串,為采集的excel表中的多值中每一個(gè)值命名;利用十六 進(jìn)制值子接口截取num_開頭的字符串,并根據(jù)num_開頭的字符串,為采集的excel表中的十 六進(jìn)制值命名;利用提取字符串子接口截取str_開頭的字符串,并根據(jù) 8^_開頭的字符串, 為采集的exce 1表中的字符串命名;利用提取map子接口截取map_開頭的字符串,并根據(jù) map_開頭的字符串,為采集的excel表中的map命名;利用提取PTable子接口截取ptbl_開頭 的字符串,并根據(jù)ptbl_開頭的字符串,為采集的excel表中的Processible Table命名;利 用提取excel圖片子接口截取chart_開頭的字符串,并根據(jù)chart_開頭的字符串,將采集的 目標(biāo)圖片區(qū)域中的圖片生成圖片格式文件。
[0170]步驟814:將表格格式文件發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng)。
[0171] 對于圖6所示的TXT文件采集子接口 6013來說,其包括提取TXT表格子接口 60131, 其用于提取TXT文件中的表格,數(shù)據(jù)采集的過程與上述excel文件數(shù)據(jù)采集過程相似,只不 過TXT文件采集子接口的格式標(biāo)識(shí)符為X,X對應(yīng)的采集算法的名稱取值為extract Table From Txt,其主要對.m文件進(jìn)行提取,輸出的文件也為.m文件。
[0172] 值得說明的是,數(shù)據(jù)源文件數(shù)據(jù)可以來源于各行各業(yè)如農(nóng)業(yè)數(shù)據(jù)、餐飲數(shù)據(jù)、醫(yī)療 數(shù)據(jù)、金融業(yè)數(shù)據(jù)等等。數(shù)據(jù)采集接口輸出的文件數(shù)據(jù)可以在數(shù)據(jù)管理系統(tǒng)中進(jìn)行其他運(yùn) 算,也可以直接存儲(chǔ)到數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)庫中。另外,在數(shù)據(jù)采集接口中,實(shí)現(xiàn)數(shù)據(jù)采集 接口運(yùn)行的上下文包括: 過這些類配合配置的參數(shù)實(shí)現(xiàn)數(shù)據(jù)采集。各個(gè)類的內(nèi)容如下表所示:
[0174]
[0175] 根據(jù)上述方案,本發(fā)明的各實(shí)施例,至少具有如下有益效果:
[0176] 1.本發(fā)明實(shí)施例提供的數(shù)據(jù)采集接口包括:至少兩種文件格式的采集子接口,能 夠接收至少兩種文件格式的源數(shù)據(jù)文件,通過每一種文件格式的采集子接口設(shè)置至少一種 采集算法,每一種文件格式的采集子接口當(dāng)接收到至少一組配置參數(shù)時(shí),根據(jù)至少一種采 集算法,為每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則,根據(jù)數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù)據(jù) 源發(fā)送端發(fā)送的源數(shù)據(jù)文件,并采集源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),那么當(dāng)一個(gè)文件格式的采 集子接口接收到多組配置參數(shù)時(shí),一個(gè)文件格式的采集子接口可以包含多種數(shù)據(jù)采集規(guī) 貝1J,則一個(gè)文件格式的采集子接口可以采集到多種目標(biāo)數(shù)據(jù),一方面該數(shù)據(jù)采集接口能夠 接收至少兩種文件格式的源數(shù)據(jù)文件,另一方面對于同一種文件格式的源數(shù)據(jù)文件,同一 文件格式的采集子接口可以根據(jù)多種數(shù)據(jù)采集規(guī)則,采集多種目標(biāo)數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)采集 接口的通用性。
[0177] 2.在本發(fā)明實(shí)施例中,數(shù)據(jù)采集接口通過文件生成單元接收至少一組配置參數(shù), 并為每一組配置參數(shù)生成對應(yīng)的腳本文件,將至少一個(gè)腳本文件發(fā)送給接口調(diào)用單元;通 過接口調(diào)用單元接收文件生成單元發(fā)送的至少一個(gè)腳本文件,并運(yùn)行至少一個(gè)腳本文件, 根據(jù)至少一個(gè)腳本文件中的格式標(biāo)識(shí)符,調(diào)用該腳本文件對應(yīng)的文件格式的采集子接口; 通過每一種文件格式的采集子接口在接收到接口調(diào)用單元的調(diào)用時(shí),在接口調(diào)用單元運(yùn)行 的至少一個(gè)腳本文件中截取至少一組配置參數(shù),根據(jù)至少一種采集算法,為腳本文件中的 每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則,一方面通過配置參數(shù)實(shí)現(xiàn)對數(shù)據(jù)采集規(guī)則的設(shè) 置,當(dāng)某一用戶或某項(xiàng)業(yè)務(wù)需要某一種數(shù)據(jù)采集方式,只需要配置相應(yīng)的配置參數(shù),而無須 重新編寫程序,實(shí)現(xiàn)了根據(jù)用戶和業(yè)務(wù)需求,自由配置,另一方面通過生成腳本文件,實(shí)現(xiàn) 了管理配置參數(shù)的管理。
[0178] 3.在本發(fā)明實(shí)施例中,至少兩種文件格式的采集子接口可以包括:word文件采集 子接口、excel文件采集子接口及TXT文件采集子接口,一方面實(shí)現(xiàn)了對word文件、excel文 件及TXT文件中數(shù)據(jù)的采集,另一方面增加了數(shù)據(jù)采集接口的實(shí)用性。
[0179] 4.在本發(fā)明實(shí)施例中,數(shù)據(jù)采集接口包括:至少一種數(shù)據(jù)處理子接口,每一個(gè)數(shù)據(jù) 處理子接口包含至少一種運(yùn)算,該運(yùn)算包括:提取表格中最大值、提取表格中行最大值、提 取表格中列最大值、重命名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大值、計(jì)算最小值、計(jì)算商、計(jì)算平 均值、計(jì)算和、計(jì)算差及計(jì)算次方;通過采集子接口將采集到的目標(biāo)數(shù)據(jù)發(fā)送給至少一種數(shù) 據(jù)處理子接口;在至少一種數(shù)據(jù)處理子接口中,通過數(shù)據(jù)處理子接口截取腳本文件中的目 標(biāo)運(yùn)算,接收采集子接口發(fā)送的目標(biāo)數(shù)據(jù)/接收外設(shè)的數(shù)據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù)文件中 的目標(biāo)數(shù)據(jù),并對目標(biāo)數(shù)據(jù)進(jìn)行目標(biāo)運(yùn)算,實(shí)現(xiàn)了對采集數(shù)據(jù)的二次處理,提高了數(shù)據(jù)采集 接口的應(yīng)用范圍。
[0180]需要說明的是,在本文中,諸如第一和第二之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體 或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在 任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非 排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素, 而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固 有的要素。在沒有更多限制的情況下,由語句"包括一個(gè)......"限定的要素,并不排 除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同因素。
[0181] 本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過 程序指令相關(guān)的硬件來完成,前述的程序可以存儲(chǔ)在計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì)中,該程序 在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:ROM、RAM、磁碟或者光 盤等各種可以存儲(chǔ)程序代碼的介質(zhì)中。
[0182] 最后需要說明的是:以上所述僅為本發(fā)明的較佳實(shí)施例,僅用于說明本發(fā)明的技 術(shù)方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、 等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種數(shù)據(jù)采集接口,其特征在于,包括:至少兩種文件格式的采集子接口,其中, 每一種文件格式的采集子接口,用于配置至少一種采集算法,根據(jù)所述至少一種采集 算法,為每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則,根據(jù)所述數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù) 據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù)文件,并采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)采集接口,其特征在于,進(jìn)一步包括:文件生成單元和接 口調(diào)用單元,其中, 所述文件生成單元,用于接收至少一組配置參數(shù),并為每一組配置參數(shù)生成對應(yīng)的腳 本文件,將所述至少一個(gè)腳本文件發(fā)送給所述接口調(diào)用單元; 所述接口調(diào)用單元,用于接收所述文件生成單元發(fā)送的至少一個(gè)腳本文件,并運(yùn)行所 述至少一個(gè)腳本文件,根據(jù)所述至少一個(gè)腳本文件中的格式標(biāo)識(shí)符,調(diào)用該腳本文件對應(yīng) 的文件格式的采集子接口; 所述每一種文件格式的采集子接口,用于在接收到所述接口調(diào)用單元的調(diào)用時(shí),在所 述接口調(diào)用單元運(yùn)行的所述至少一個(gè)腳本文件中截取至少一組配置參數(shù),根據(jù)所述至少一 種采集算法,為所述腳本文件中的每一組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則。3. 根據(jù)權(quán)利要求2所述的數(shù)據(jù)采集接口,其特征在于, 所述至少兩種文件格式的采集子接口,包括:word文件采集子接口; 相應(yīng)地,所述接口調(diào)用單元,進(jìn)一步用于定義word文件采集子接口的格式標(biāo)識(shí)符表征 為d,并定義所述d對應(yīng)的至少一種采集算法的第一算法名稱取值,該第一算法名稱取值包 括:extract Chart By Attributenextract Table By Attributenextract Beijing Chart By Attribute、extract Beijing Table By Attribute中的任意一個(gè)或多個(gè);根據(jù) 所述至少一個(gè)腳本文件中的格式標(biāo)識(shí)符d,調(diào)用所述word文件采集子接口; 相應(yīng)地,所述word文件采集子接口對應(yīng)的腳本文件,包括:word文件格式標(biāo)識(shí)符d,第一 算法名稱取值及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,所述源數(shù)據(jù)文件參數(shù),包括:源 數(shù)據(jù)文件名字符串、索引圖片關(guān)鍵字、索引表格關(guān)鍵字及索引下標(biāo)中的任意一個(gè)或多個(gè); 相應(yīng)地,所述word文件采集子接口,包括:提取圖片子接口和提取表格子接口中任意一 個(gè)或兩個(gè),其中, 所述提取圖片子接口,用于截取腳本文件中第一算法名稱取值、源數(shù)據(jù)文件名字符串、 索引圖片關(guān)鍵字及索引圖片關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)所述第一算 法名稱取值確定word文件圖片采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定word文件,并 根據(jù)所述索引圖片關(guān)鍵字及索引下標(biāo),確定目標(biāo)圖片區(qū)域,利用所述圖片采集算法,從所述 word文件中采集目標(biāo)圖片區(qū)域中的圖片; 所述提取表格子接口,用于截取第一算法名稱取值、源數(shù)據(jù)文件名字符串、索引表格關(guān) 鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)所述第一算法名稱取值 確定word文件表格采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定word文件,并根據(jù)所述索 引表格關(guān)鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo),確定目標(biāo)表格區(qū)域,利用所述表格采集 算法,從所述word文件中采集目標(biāo)表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù); 和/或, 所述至少兩種文件格式的采集子接口,包括:excel文件采集子接口; 相應(yīng)地,所述接口調(diào)用單元,進(jìn)一步用于定義excel文件采集子接口的格式標(biāo)識(shí)符表征 為e,并定義所述e對應(yīng)的至少一種采集算法的第二算法名稱取值,該第二算法名稱取值包 括:extract Table By Namenextract Value By Namenextract Value List By Name、 extract Ox Value List By Namenextract String By Namenextract Map From Sheet、 extract P Table From Sheet、extract Chart From Excel中的任意一個(gè)或多個(gè);根據(jù)所 述至少一個(gè)腳本文件中的格式標(biāo)識(shí)符e,調(diào)用所述excel文件采集子接口; 相應(yīng)地,所述excel文件采集子接口對應(yīng)的腳本文件,包括:excel文件格式標(biāo)識(shí)符e,第 二算法名稱取值及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,所述源數(shù)據(jù)文件參數(shù),包括: 源數(shù)據(jù)文件名字符串、numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符 串、列名稱字符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)或多個(gè); 相應(yīng)地,所述excel文件采集子接口,包括:至少一個(gè)excel提取子接口;所述至少一個(gè) excel提取子接口,包括:提取excel表格子接口、提取單值子接口、提取多值子接口、提取十 六進(jìn)制值子接口、提取字符串子接口、提取map子接口、提取PTable子接口和提取excel圖片 子接口中任意一個(gè)或兩個(gè); 相應(yīng)地,每一個(gè)excel提取子接口,用于截取腳本文件中第二算法名稱取值、源數(shù)據(jù)文 件名字符串、numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱 字符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),根據(jù)所述第二算法 名稱取值確定excel文件中數(shù)據(jù)采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定excel文件, 并根據(jù)所述numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字 符串、左上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),確定目標(biāo)數(shù)據(jù)區(qū)域, 利用所述excel數(shù)據(jù)采集算法,從所述excel文件中采集目標(biāo)數(shù)據(jù)區(qū)域中的目標(biāo)數(shù)據(jù); 和/或, 所述至少兩種文件格式的采集子接口,包括:TXT文件采集子接口; 相應(yīng)地,所述接口調(diào)用單元,進(jìn)一步用于定義TXT文件采集子接口的格式標(biāo)識(shí)符表征為 X,并定義所述X對應(yīng)的采集算法的名稱取值為extract Table From Txt;根據(jù)所述至少一 個(gè)腳本文件中的格式標(biāo)識(shí)符X,調(diào)用所述TXT文件采集子接口; 相應(yīng)地,所述TXT文件采集子接口對應(yīng)的腳本文件,包括:TXT文件格式標(biāo)識(shí)符X, extract Table From Txt及源數(shù)據(jù)文件參數(shù)中任意一個(gè)或多個(gè),其中,所述源數(shù)據(jù)文件參 數(shù),包括:源數(shù)據(jù)文件名字符串和分隔符中的任意一個(gè)或兩個(gè); 相應(yīng)地,所述TXT文件采集子接口,包括:提取TXT表格子接口; 相應(yīng)地,所述提取表格子接口,用于截取所述extract Table From Txt、源數(shù)據(jù)文件名 字符串和分隔符中的任意一個(gè)和多個(gè),根據(jù)所述extract Table From Txt確定TXT文件中 表格采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定TXT文件,利用所述extract Table From Txt對應(yīng)的表格采集算法,根據(jù)所述分隔符,從所述TXT文件中采集目標(biāo)表格。4.根據(jù)權(quán)利要求1至3任一所述的數(shù)據(jù)采集接口,其特征在于, 所述每一組配置參數(shù),進(jìn)一步包括:輸出文件的格式、輸出文件的文件名、輸出文件的 存儲(chǔ)根目錄及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè); 所述每一種文件格式的采集子接口,用于根據(jù)所述輸出文件的格式、輸出文件的文件 名、輸出文件的存儲(chǔ)目錄及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè),為所述目標(biāo) 數(shù)據(jù)生成目標(biāo)輸出文件,并將所述目標(biāo)輸出文件發(fā)送給外設(shè)的數(shù)據(jù)管理系統(tǒng)。5. 根據(jù)權(quán)利要求2或3任一所述的數(shù)據(jù)采集接口,其特征在于,進(jìn)一步包括:至少一種數(shù) 據(jù)處理子接口,每一個(gè)數(shù)據(jù)處理子接口包含至少一種運(yùn)算,所述運(yùn)算包括:提取表格中最大 值、提取表格中行最大值、提取表格中列最大值、重命名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大值、 計(jì)算最小值、計(jì)算商、計(jì)算平均值、計(jì)算和、計(jì)算差及計(jì)算次方中的任意一個(gè)或多個(gè); 所述每一種文件格式的采集子接口,用于將采集到的所述目標(biāo)數(shù)據(jù)發(fā)送給所述至少一 種數(shù)據(jù)處理子接口; 所述至少一種數(shù)據(jù)處理子接口中,每一種數(shù)據(jù)處理子接口,用于截取腳本文件中的目 標(biāo)運(yùn)算,接收所述每一種文件格式的采集子接口發(fā)送的所述目標(biāo)數(shù)據(jù)/接收外設(shè)的數(shù)據(jù)源 發(fā)送端發(fā)送的源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),并對所述目標(biāo)數(shù)據(jù)進(jìn)行所述目標(biāo)運(yùn)算。6. -種利用權(quán)利要求1至5任一所述的數(shù)據(jù)采集接口實(shí)現(xiàn)的數(shù)據(jù)采集方法,其特征在 于,設(shè)置至少兩種文件格式的采集子接口,并在每一種文件格式的采集子接口中配置至少 一種米集算法;還包括: 確定至少一種目標(biāo)文件格式的采集子接口和至少一組配置參數(shù); 在所述至少一種目標(biāo)文件格式的采集子接口中,根據(jù)所述至少一種采集算法,為每一 組配置參數(shù)形成對應(yīng)的數(shù)據(jù)采集規(guī)則; 根據(jù)所述數(shù)據(jù)采集規(guī)則,接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用所述至少一 種目標(biāo)文件格式的采集子接口采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù)。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于, 進(jìn)一步包括:接收至少一組配置參數(shù),并為每一組配置參數(shù)生成對應(yīng)的腳本文件,并運(yùn) 行所述至少一個(gè)腳本文件; 所述確定至少一種目標(biāo)文件格式的采集子接口和至少一組配置參數(shù),包括:根據(jù)所述 至少一個(gè)腳本文件中的格式標(biāo)識(shí)符,調(diào)用該腳本文件對應(yīng)的目標(biāo)文件格式的采集子接口, 并從所述至少一個(gè)腳本文件中截取至少一組配置參數(shù)。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于, 當(dāng)所述至少兩種文件格式的采集子接口,包括:word文件采集子接口時(shí), 相應(yīng)地,進(jìn)一步包括:定義word文件采集子接口的格式標(biāo)識(shí)符表征為d,并定義所述d對 應(yīng)的至少一種采集算法的第一算法名稱取值,該第一算法名稱取值包括:extract Chart By Attributenextract Table By Attributenextract Beijing Chart By Attribute、 extract Beijing Table By Attribute中的任意一個(gè)或多個(gè); 相應(yīng)地,所述確定至少一種目標(biāo)文件格式的采集子接口,包括:根據(jù)所述腳本文件中的 格式標(biāo)識(shí)符d,調(diào)用所述word文件采集子接口,所述word文件采集子接口,包括:提取圖片子 接口和提取表格子接口中任意一個(gè)或兩個(gè); 相應(yīng)地,所述接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用所述至少一種目標(biāo)文件 格式的采集子接口采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),包括: 利用所述提取圖片子接口截取腳本文件中第一算法名稱取值、源數(shù)據(jù)文件名字符串、 索引圖片關(guān)鍵字及索引圖片關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)所述第一算 法名稱取值確定word文件圖片采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定word文件,并 根據(jù)所述索引圖片關(guān)鍵字及索引下標(biāo),確定目標(biāo)圖片區(qū)域,利用所述圖片采集算法,從所述 word文件中采集目標(biāo)圖片區(qū)域中的圖片; 利用所述提取表格子接口截取第一算法名稱取值、源數(shù)據(jù)文件名字符串、索引表格關(guān) 鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo)中的任意一個(gè)和多個(gè),根據(jù)所述第一算法名稱取值 確定word文件表格采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定word文件,并根據(jù)所述索 引表格關(guān)鍵字及索引表格關(guān)鍵字對應(yīng)的索引下標(biāo),確定目標(biāo)表格區(qū)域,利用所述表格采集 算法,從所述word文件中采集目標(biāo)表格區(qū)域中的表格中的目標(biāo)數(shù)據(jù); 和/或, 當(dāng)所述至少兩種文件格式的采集子接口,包括:excel文件采集子接口時(shí), 相應(yīng)地,進(jìn)一步包括:定義excel文件采集子接口的格式標(biāo)識(shí)符表征為e,并定義所述e 對應(yīng)的至少一種采集算法的第二算法名稱取值,該第二算法名稱取值包括:extract Table By Name、extract Value By Name^extract Value List By Name、extract Ox Value List By Name、extract String By Name、extract Map From Sheet^extract P Table From Sheet、extract Chart From Excel中的任意一個(gè)或多個(gè); 相應(yīng)地,所述確定至少一種目標(biāo)文件格式的采集子接口,包括:根據(jù)所述至少一個(gè)腳本 文件中的格式標(biāo)識(shí)符e,調(diào)用所述exce 1文件采集子接口,所述exce 1文件采集子接口,包括: 至少一個(gè)excel提取子接口;所述至少一個(gè)excel提取子接口,包括:提取excel表格子接口、 提取單值子接口、提取多值子接口、提取十六進(jìn)制值子接口、提取字符串子接口、提取map子 接口、提取PTable子接口和提取excel圖片子接口中任意一個(gè)或兩個(gè); 相應(yīng)地,所述接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用所述至少一種目標(biāo)文件 格式的采集子接口采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),包括: 利用每一個(gè)excel提取子接口截取腳本文件中第二算法名稱取值、源數(shù)據(jù)文件名字符 串、numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字符串、左 上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),根據(jù)所述第二算法名稱取值 確定excel文件中數(shù)據(jù)采集算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定excel文件,并根據(jù)所 述numj^sheet序列號(hào)組成的字符串、sheet名稱字符串、行名稱字符串、列名稱字符串、左 上角字符串、右下角字符串和圖片序號(hào)中的任意一個(gè)和多個(gè),確定目標(biāo)數(shù)據(jù)區(qū)域,利用所述 excel數(shù)據(jù)采集算法,從所述excel文件中采集目標(biāo)數(shù)據(jù)區(qū)域中的目標(biāo)數(shù)據(jù); 和/或, 當(dāng)所述至少兩種文件格式的采集子接口,包括:TXT文件采集子接口時(shí), 相應(yīng)地,進(jìn)一步包括:定義TXT文件采集子接口的格式標(biāo)識(shí)符表征為X,并定義所述X對 應(yīng)的采集算法的名稱取值為extract Table From Txt; 相應(yīng)地,所述確定至少一種目標(biāo)文件格式的采集子接口,包括:根據(jù)所述至少一個(gè)腳本 文件中的格式標(biāo)識(shí)符X,調(diào)用所述TXT文件采集子接口,所述TXT文件采集子接口,包括:提取 TXT表格子接口; 相應(yīng)地,所述接收外設(shè)的數(shù)據(jù)源端發(fā)送的源數(shù)據(jù)文件,并利用所述至少一種目標(biāo)文件 格式的采集子接口采集所述源數(shù)據(jù)文件中的目標(biāo)數(shù)據(jù),包括: 利用所述提取表格子接口截取所述extract Table From Txt、源數(shù)據(jù)文件名字符串和 分隔符中的任意一個(gè)和多個(gè),根據(jù)所述extract Table From Txt確定TXT文件中表格采集 算法,根據(jù)所述源數(shù)據(jù)文件名字符串,確定TXT文件,利用所述extract Table From Txt對 應(yīng)的表格采集算法,根據(jù)所述分隔符,從所述TXT文件中采集目標(biāo)表格。9. 根據(jù)權(quán)利要求7或8任一所述的方法,其特征在于, 進(jìn)一步包括:利用所述每一種文件格式的采集子接口截取腳本文件中的輸出文件的格 式、輸出文件的文件名、輸出文件的存儲(chǔ)目錄及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè) 或多個(gè),為所述目標(biāo)數(shù)據(jù)生成目標(biāo)輸出文件,并將所述目標(biāo)輸出文件發(fā)送給外設(shè)的數(shù)據(jù)管 理系統(tǒng); 和/或, 進(jìn)一步包括:設(shè)置至少一種數(shù)據(jù)處理子接口,為每一個(gè)數(shù)據(jù)處理子接口配置至少一種 運(yùn)算,所述運(yùn)算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命 名圖片、轉(zhuǎn)換圖片格式、計(jì)算最大值、計(jì)算最小值、計(jì)算商、計(jì)算平均值、計(jì)算和、計(jì)算差及計(jì) 算次方中的任意一個(gè)或多個(gè); 利用所述至少一種數(shù)據(jù)處理子接口截取腳本文件中的目標(biāo)運(yùn)算,接收所述每一種文件 格式的采集子接口發(fā)送的所述目標(biāo)數(shù)據(jù)/接收外設(shè)的數(shù)據(jù)源發(fā)送端發(fā)送的源數(shù)據(jù)文件中的 目標(biāo)數(shù)據(jù),并對所述目標(biāo)數(shù)據(jù)進(jìn)行所述目標(biāo)運(yùn)算。10. -種數(shù)據(jù)采集系統(tǒng),其特征在于,包括:至少一個(gè)數(shù)據(jù)源發(fā)送端、權(quán)利要求1至5任一 所述的數(shù)據(jù)采集接口和數(shù)據(jù)管理系統(tǒng),其中, 每一個(gè)數(shù)據(jù)源發(fā)送端,與所述數(shù)據(jù)采集接口相連,用于發(fā)送源數(shù)據(jù)文件給所述數(shù)據(jù)采 集接口; 所述數(shù)據(jù)采集接口,封裝到所述數(shù)據(jù)管理系統(tǒng)中,用于根據(jù)截取到的輸出文件的格式、 輸出文件的文件名及輸出文件中數(shù)據(jù)的存儲(chǔ)格式中的任意一個(gè)或多個(gè),將采集的目標(biāo)數(shù)據(jù) 生成對應(yīng)的目標(biāo)輸出文件,并根據(jù)截取到的輸出文件的存儲(chǔ)根目錄,將所述目標(biāo)輸出文件 發(fā)送給所述數(shù)據(jù)管理系統(tǒng); 所述數(shù)據(jù)管理系統(tǒng),用于接收所述數(shù)據(jù)采集接口發(fā)送的所述目標(biāo)輸出文件,直接存儲(chǔ) 所述目標(biāo)輸出文件/對所述目標(biāo)輸出文件中的數(shù)據(jù)進(jìn)行二次處理,并存儲(chǔ)經(jīng)過所述二次處 理后的目標(biāo)輸出文件。
【文檔編號(hào)】G06F17/22GK105868169SQ201610210602
【公開日】2016年8月17日
【申請日】2016年4月6日
【發(fā)明人】董洛兵
【申請人】西安電子科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1