本發(fā)明涉及一種針對心臟起搏器的結(jié)構(gòu)化數(shù)據(jù)提取方法。
背景技術(shù):
隨著心血管疾病患者的數(shù)量增多、經(jīng)濟水平提高等因素,國內(nèi)接受起搏器治療的患者數(shù)量逐年遞增。中國每年植入起搏器的患者超過5萬,且以年10-15%的速度遞增。根據(jù)近年的ACC/AHA/HRS起搏治療指南推薦,起搏器植入后患者應(yīng)該每3-12個月隨訪一次。
心臟病患者植入起搏器后,需要定期回醫(yī)院進行隨訪,也就是傳統(tǒng)意義上的手術(shù)后回醫(yī)院復(fù)診,以便??漆t(yī)生定期通過成勇氣對起搏器工作進行評價,并結(jié)合起搏器的診斷功能,優(yōu)化設(shè)備參數(shù),使患者最大收益。
目前國外起搏器廠家均采用程控儀導(dǎo)出患者體內(nèi)起搏器的運行日志、參數(shù)等信息,導(dǎo)出格式為PDF,不支持其他數(shù)據(jù)格式,如Excel。
隨著國內(nèi)臨床科研向大數(shù)據(jù)方向發(fā)展,從起搏器程控器中提取結(jié)構(gòu)化數(shù)據(jù)的需求越發(fā)迫切。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種抽取效率高的針對心臟起搏器的結(jié)構(gòu)化數(shù)據(jù)提取方法。
為解決上述問題,本發(fā)明采用如下技術(shù)方案:
一種針對心臟起搏器的結(jié)構(gòu)化數(shù)據(jù)提取方法,包括以下步驟:
1)從起搏器程控器設(shè)備中導(dǎo)出PDF格式的報告文件;
2)讀取報告文件的內(nèi)容并設(shè)置文本標記;
3)根據(jù)文本標記將報告文件的內(nèi)容分切成獨立的內(nèi)容塊;
4)將內(nèi)容塊制作成表格;
5)將表格內(nèi)容轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù);
作為優(yōu)選,所述步驟2)的具體實現(xiàn)方式為:
2.1)打開PDF格式的報告文件;
2.2)使用計算機編程語言編程讀取PDF格式的報告文件;
2.3)將讀取到的PDF格式的報告文件進行文本標記。
作為優(yōu)選,所述步驟4)的具體實現(xiàn)方式為:
4.1)根據(jù)內(nèi)容塊的內(nèi)容的所在位置使用計算機編程語言編程實現(xiàn)坐標定位;
4.2)根據(jù)坐標對內(nèi)容塊進行柵格化處理;
4.3)形成表格。
作為優(yōu)選,所述步驟5)的具體實現(xiàn)方式為:
5.1)根據(jù)表格每一行的單元格使用計算機編程語言編程按照第1列內(nèi)容=屬性名1;第2列內(nèi)容=屬性值1;第3列內(nèi)容=屬性名2;第4列內(nèi)容=屬性值2的格式進行提??;
5.2)將提取后的數(shù)據(jù)重新通過編程組合成屬性名1=屬性值1;屬性名2=屬性值2的格式;
5.3)編程篩選數(shù)據(jù);
5.4)剔除無用的信息。
作為優(yōu)選,所述計算機編程語言為JAVA或C語言。
作為優(yōu)選,還包括有步驟6)將結(jié)構(gòu)化數(shù)據(jù)寫入數(shù)據(jù)庫保存。
作為優(yōu)選,所述數(shù)據(jù)庫為SQLserver數(shù)據(jù)庫或MySQL數(shù)據(jù)庫。
本發(fā)明的有益效果為:采用計算機編程讀取PDF格式的起搏器程控文件中的各項指標和參數(shù),并將文本內(nèi)容轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)格式,數(shù)據(jù)抽取效率和準確率高,徹底解決了人工抄錄模式難以管控質(zhì)量的難題,方便臨床科研工作者進行精準判斷,可以方便使用者導(dǎo)出成Excel和cvs等數(shù)據(jù)格式進行統(tǒng)計分析。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明一種針對心臟起搏器的結(jié)構(gòu)化數(shù)據(jù)提取方法制作成的表格圖;
圖2為本發(fā)明一種針對心臟起搏器的結(jié)構(gòu)化數(shù)據(jù)提取方法文件的內(nèi)容切分圖。
具體實施方式
實施例1
一種針對心臟起搏器的結(jié)構(gòu)化數(shù)據(jù)提取方法,包括以下步驟:
1)從起搏器程控器設(shè)備中導(dǎo)出PDF格式的報告文件;
2)讀取報告文件的內(nèi)容并設(shè)置文本標記;
3)根據(jù)文本標記將報告文件的內(nèi)容分切成獨立的內(nèi)容塊,如圖1所示;
4)將內(nèi)容塊制作成表格,如圖2所示;
5)將表格內(nèi)容轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù);
本實施例的有益效果為:采用計算機編程讀取PDF格式的起搏器程控文件中的各項指標和參數(shù),并將文本內(nèi)容轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)格式,數(shù)據(jù)抽取效率和準確率高,徹底解決了人工抄錄模式難以管控質(zhì)量的難題,方便臨床科研工作者進行精準判斷,可以方便使用者導(dǎo)出成Excel和cvs等數(shù)據(jù)格式進行統(tǒng)計分析。
實施例2
一種針對心臟起搏器的結(jié)構(gòu)化數(shù)據(jù)提取方法,包括以下步驟:
1)從起搏器程控器設(shè)備中導(dǎo)出PDF格式的報告文件;
2)打開PDF格式的報告文件;使用JAVA編程讀取PDF格式的報告文件;然后將讀取到的PDF格式的報告文件進行文本標記;
3)根據(jù)文本標記將報告文件的內(nèi)容分切成獨立的內(nèi)容塊,如圖1所示;
4)根據(jù)內(nèi)容塊的內(nèi)容的所在位置,使用JAVA編程實現(xiàn)坐標定位;根據(jù)坐標對內(nèi)容塊進行柵格化處理;形成表格,如圖2所示;
5)根據(jù)表格每一行的單元格,使用JAVA編程按照第1列內(nèi)容= Last Delivered Shock;第2列內(nèi)容= 24-SEP-2012 11:13;第3列內(nèi)容= Cumulative Charge Time;第4列內(nèi)容= 00:40m:s的格式進行提??;然后將提取后的數(shù)據(jù)重新通過編程組合成Last Delivered Shock =24-SEP-2012 11:13;Cumulative Charge Time =00:40m:s的格式;編程篩選數(shù)據(jù);剔除無用的信息,得到有價值的結(jié)構(gòu)化數(shù)據(jù);
6)將結(jié)構(gòu)化數(shù)據(jù)寫入SQLserver數(shù)據(jù)庫保存。
本實施例的有益效果為:采用JAVA編程讀取PDF格式的起搏器程控文件中的各項指標和參數(shù),Java 技術(shù)具有卓越的通用性和高效性,工作效率高,將文本內(nèi)容轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)格式,數(shù)據(jù)抽取效率和準確率高,徹底解決了人工抄錄模式難以管控質(zhì)量的難題,方便臨床科研工作者進行精準判斷,可以方便使用者導(dǎo)出成Excel和cvs等數(shù)據(jù)格式進行統(tǒng)計分析。
實施例3
一種針對心臟起搏器的結(jié)構(gòu)化數(shù)據(jù)提取方法,包括以下步驟:
1)從起搏器程控器設(shè)備中導(dǎo)出PDF格式的報告文件;
2)打開PDF格式的報告文件;使用C語言讀取PDF格式的報告文件;然后將讀取到的PDF格式的報告文件進行文本標記;
3)根據(jù)文本標記將報告文件的內(nèi)容分切成獨立的內(nèi)容塊,如圖1所示;
4)根據(jù)內(nèi)容塊的內(nèi)容的所在位置,使用C語言編程實現(xiàn)坐標定位;根據(jù)坐標對內(nèi)容塊進行柵格化處理;形成表格,如圖2所示;
5)根據(jù)表格每一行的單元格,使用C語音編程按照第1列內(nèi)容= Last Delivered Shock;第2列內(nèi)容= 24-SEP-2012 11:13;第3列內(nèi)容= Cumulative Charge Time;第4列內(nèi)容= 00:40m:s的格式進行提取;然后將提取后的數(shù)據(jù)重新通過編程組合成Last Delivered Shock =24-SEP-2012 11:13;Cumulative Charge Time =00:40m:s的格式;編程篩選數(shù)據(jù);剔除無用的信息,得到有價值的結(jié)構(gòu)化數(shù)據(jù);
6)將有價值的結(jié)構(gòu)化數(shù)據(jù)寫入MySQL數(shù)據(jù)庫保存。
本實施例的有益效果為:采用C語音編程讀取PDF格式的起搏器程控文件中的各項指標和參數(shù),C語音編程具有高效、靈活、功能豐富、表達力強和較高的移植性,操作方便,將文本內(nèi)容轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)格式,數(shù)據(jù)抽取效率和準確率高,徹底解決了人工抄錄模式難以管控質(zhì)量的難題,方便臨床科研工作者進行精準判斷,可以方便使用者導(dǎo)出成Excel和cvs等數(shù)據(jù)格式進行統(tǒng)計分析。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何不經(jīng)過創(chuàng)造性勞動想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。