亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法

文檔序號:6599147閱讀:431來源:國知局
專利名稱:一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息技術(shù)領(lǐng)域,具體涉及一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法。
背景技術(shù)
在實(shí)際的工作過程中,常會遇到將一份表格的數(shù)據(jù)按字段順序?qū)氲搅硪环荼砀裰械男枨?,如果更新的記錄比較少,可以通過手工進(jìn)行,但是如果記錄達(dá)上萬條,這時(shí)就要通過工具自動(dòng)化的進(jìn)行更新操作。本發(fā)明研究出的方法,能夠較好的處理上述的問題,并且允許用戶自由選擇匹配關(guān)鍵字,使得工作效率極大提高,目前已應(yīng)用于手機(jī)嵌入式平臺翻譯文件的數(shù)據(jù)更新。

發(fā)明內(nèi)容
針對已有技術(shù)的不足,本發(fā)明的目的是提供一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,該方法可以大幅提高工作效率,并且可以應(yīng)用于多種場合。一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,該方法包括符合某種特征的表格,可視化的程序窗口,特征分析算法,數(shù)據(jù)提取算法,數(shù)據(jù)導(dǎo)入算法。所述的符合某種特征的表格主要特征是表格中包含多行多列文本,每行之間以回車換行符分隔,每列之間以制表符分隔。表格在邏輯上可以分為表格頭和表格體,表格頭包含一些字段,表格體中包含了對應(yīng)的數(shù)據(jù)。所述的可視化程序窗口主要負(fù)責(zé)接受用戶輸入的參數(shù),進(jìn)行特征分析,將分析出來的字段以列表的形式顯示出來,并要求用戶選定匹配關(guān)鍵字,然后進(jìn)行數(shù)據(jù)提取,再將提取的數(shù)據(jù)導(dǎo)入到另一張表格,完成數(shù)據(jù)導(dǎo)入工作。所述的用戶輸入的參數(shù)包括兩張表格(A表和B表)的文件路徑以及用戶指定的
匹配關(guān)鍵字。所述的特征分析算法主要負(fù)責(zé)自動(dòng)識別表格頭,分析出表格的字段并組成列表。所述的數(shù)據(jù)提取算法主要根據(jù)用戶指定的關(guān)鍵字,對表格體進(jìn)行數(shù)據(jù)提取,組成一種字典數(shù)據(jù)結(jié)構(gòu)。所述的字典數(shù)據(jù)結(jié)構(gòu)是一種{key :value}形式的定義,key是(keyl,key2)形式的元組,vlaue是[vl,v2…]形式的列表,當(dāng)提取數(shù)據(jù)時(shí)遇到key—樣的數(shù)據(jù)時(shí),將其對應(yīng)的數(shù)據(jù)添加到value列表中。完整的數(shù)據(jù)結(jié)構(gòu)形式為{(keyl,key2) [vl, v2, v3-]}所述的數(shù)據(jù)導(dǎo)入算法對B表進(jìn)行特征分析并以每行數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,然后從A 表的字典數(shù)據(jù)中以關(guān)鍵字取出相應(yīng)的值,更新到B表的字典數(shù)據(jù)中,然后再還原成B表的文本數(shù)據(jù)


圖1是本發(fā)明進(jìn)行表頭特征分析時(shí)的數(shù)據(jù)結(jié)構(gòu)示意3
圖2是本發(fā)明用于提取數(shù)據(jù)時(shí)的一維數(shù)據(jù)結(jié)構(gòu)示意圖;圖3是示例表格;圖4本發(fā)明提取數(shù)據(jù)的示意圖;圖5是示例表格;圖6是圖5表第一行提取數(shù)據(jù)的示意圖;圖7是圖5表第一行導(dǎo)入數(shù)據(jù)的示意圖。
具體實(shí)施例方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步描述。從一張表格進(jìn)行特征分析并提取數(shù)據(jù)后再導(dǎo)入到另一張表格中需要三個(gè)步驟第一步,程序窗口首先接收用戶輸入的表格文件路徑參數(shù),根據(jù)這些參數(shù)預(yù)讀取兩份文件的開始若干行數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行制表符分割,組成如圖1所示的數(shù)據(jù)結(jié)構(gòu),然后將兩份數(shù)據(jù)進(jìn)行比對,找出相同名稱的字段,這些字段顯示給用戶作為可選的關(guān)鍵字。第二步,用戶選定關(guān)鍵字后選擇程序窗口中的下一步按鈕,程序會按如圖2所示的數(shù)據(jù)結(jié)構(gòu)提取表格數(shù)據(jù),圖3和圖4是示例表格及示例提取數(shù)據(jù),此提取算法及數(shù)據(jù)結(jié)構(gòu)的作用是將二維的表格數(shù)據(jù)轉(zhuǎn)換成一維數(shù)據(jù),簡化數(shù)據(jù)結(jié)構(gòu),方便導(dǎo)入到另一張二維表格中。第三步,數(shù)據(jù)生成后選擇程序窗口中的導(dǎo)入按鈕,程序會對另一張表中的每一條記錄按上述算法提取數(shù)據(jù),示例表格及示例數(shù)據(jù)如表格5和圖6所示,根據(jù)每一條一維記錄的key值,圖4的數(shù)據(jù)中查找同樣存在key的記錄,找到則將相應(yīng)的value值替換原來的 value值,完成數(shù)據(jù)導(dǎo)入,示例見圖7,當(dāng)所有的記錄導(dǎo)入后,將一維數(shù)據(jù)還原成二維表格, 然后用同樣的方法處理下一行數(shù)據(jù),直至處理完表格的所有數(shù)據(jù)。
權(quán)利要求
1.一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,其特征在于所述的該方法包括符合某種特征的表格,可視化的程序窗口,特征分析算法,數(shù)據(jù)提取算法,數(shù)據(jù)導(dǎo)入算法。
2.根據(jù)權(quán)利要求1所述的一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,其特征在于所述的符合某種特征的表格主要表格中包含多行多列文本,每行之間以回車換行符分隔,每列之間以制表符分隔,表格在邏輯上可以分為表格頭和表格體,表格頭包含一些字段,表格體中包含了對應(yīng)的數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,其特征在于所述的可視化程序窗口主要負(fù)責(zé)接受用戶輸入的參數(shù),進(jìn)行特征分析,將分析出來的字段以列表的形式顯示出來,并要求用戶選定匹配關(guān)鍵字(keyword),然后進(jìn)行數(shù)據(jù)提取,將提取出來的數(shù)據(jù)導(dǎo)入到另一份表格文件中,完成數(shù)據(jù)導(dǎo)入工作。
4.根據(jù)權(quán)利要求3所述的一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,其特征在于所述的用戶輸入的參數(shù)的文件路徑以及用戶指定的相匹配關(guān)鍵字。
5.根據(jù)權(quán)利要求1所述的一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,其特征在于所述的特征分析算法主要負(fù)責(zé)自動(dòng)識別表格頭,分析出表格的字段并組成列表。
6.根據(jù)權(quán)利要求1所述的一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,其特征在于所述的數(shù)據(jù)提取算法主要根據(jù)用戶指定的關(guān)鍵字,對表格體進(jìn)行數(shù)據(jù)提取,組成一種字典數(shù)據(jù)結(jié)構(gòu)。
7.根據(jù)權(quán)利要求6所述的一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,其特征在于所述的字典數(shù)據(jù)結(jié)構(gòu)是一種{key:ValUe}形式的定義,key是(keyl,key2)形式的元組,vlaue是[vl,v2…]形式的列表,當(dāng)提取數(shù)據(jù)時(shí)遇到key —樣的數(shù)據(jù)時(shí),將其對應(yīng)的數(shù)據(jù)添加到value列表中。
8.根據(jù)權(quán)利要求1所述的一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,其特征在于所述的數(shù)據(jù)導(dǎo)入算法對(圖幻表進(jìn)行特征分析并以每行數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,然后從 (圖幻表的字典數(shù)據(jù)中以關(guān)鍵字取出相應(yīng)的值,更新到(圖幻表的字典數(shù)據(jù)中,然后將此更新過的一維數(shù)據(jù)再還原成(圖幻表的文本數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種對二維表格進(jìn)行特征分析和數(shù)據(jù)提取的方法,該方法可以對符合所述特征的示例表格進(jìn)行特征分析和根據(jù)指定的關(guān)鍵進(jìn)行數(shù)據(jù)提取,組成字典數(shù)據(jù),然后根據(jù)這份數(shù)據(jù)字典對示例表進(jìn)行數(shù)據(jù)更新。本發(fā)明方法可以應(yīng)用于將一份表格的數(shù)據(jù)按字段導(dǎo)入到另一份表格中的需求,比如根據(jù)客戶提供的翻譯文件導(dǎo)入數(shù)據(jù)到手機(jī)平臺上的翻譯文件。
文檔編號G06F17/30GK102193940SQ201010123219
公開日2011年9月21日 申請日期2010年3月11日 優(yōu)先權(quán)日2010年3月11日
發(fā)明者黃曉東 申請人:龍旗科技(上海)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1