1.一種基于結(jié)構(gòu)化電子病歷的查重方法,其特征在于,它包括文檔模板查重屬性、文檔段查重屬性和最小相似比KMP字符串匹配算法。
2.如權(quán)利要求1所述的基于結(jié)構(gòu)化電子病歷的查重方法,其特征在于,文檔模板查重屬性,即電子病歷的文檔模板類型具有支持查重的屬性。
3.如權(quán)利要求1所述的基于結(jié)構(gòu)化電子病歷的查重方法,其特征在于,文檔段查重屬性,即電子病歷的文檔模板類型中文檔段具有支持查重的屬性。
4.如權(quán)利要求1所述的基于結(jié)構(gòu)化電子病歷的查重方法,其特征在于,最小相似比KMP字符串匹配算法,即在KMP字符串匹配算法基礎(chǔ)上,增加最小相似比系數(shù)C,當(dāng)匹配目標(biāo)字符串超過1-C比例時(shí),退出匹配,其步驟如下:
1)在目標(biāo)串S和模式串T中分別設(shè)比較的起始下標(biāo)i和j,初始化最小相似比系數(shù)C,C的取值范圍為0到1;
2)計(jì)算目標(biāo)串S和模式串T的長度LS和LT;
3)采用KMP算法計(jì)算模式串T的前綴數(shù)組next[j];
4)如果目標(biāo)串S沒有比較完i<LS或模式串T沒有比較完j<LT,跳到步驟5),否則跳到步驟9);
5)如果S[i]=T[j],跳到步驟6),否則跳到步驟7);
6)目標(biāo)串S和模式串T的比較下標(biāo)都下移一位,即i加1,j加1,跳到步驟4);
7)如果目標(biāo)串S未比較部分小于最小相似長度,即LS-i<LS*C,跳到步驟9),否則跳到步驟8);
8)模式串T的比較下標(biāo)j跳至next[j],即j=next[j],跳到步驟4);
9)結(jié)束。
5.如權(quán)利要求1所述的基于結(jié)構(gòu)化電子病歷的查重方法,其特征在于,步驟如下:
1)開始;
2)檢索患者結(jié)構(gòu)化電子病歷的文件列表;
3)逐條讀取病歷文件列表,如果讀取完畢跳到步驟10);
4)判斷病歷文件的文檔模板查重屬性,如果支持查重,跳到步驟5),否則跳到步驟3);
5)檢索文檔模板類型的文檔段列表;
6)逐條讀取文檔段列表,如果讀取完畢跳到步驟3);
7)判斷文檔段查重屬性,如果支持查重,跳到步驟8),否則跳到步驟6);
8)檢索文檔段中的結(jié)構(gòu)化綁定對象;
9)加載病歷文件的相應(yīng)文檔段的文本至待查重對象列表,并去除結(jié)構(gòu)化綁定對象的部分,跳到步驟6);
10)采用最小相似比KMP字符串匹配算法,對待查重對象列表中的文本,進(jìn)行查重;
11)結(jié)束。