1.一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別方法,其特征在于,包括:
獲取原始數(shù)據(jù)中的待處理語句;
將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個文字;
根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個文字在待處理語句中的實體標(biāo)記,并確定待處理語句的實體標(biāo)記序列;
根據(jù)待處理語句的實體標(biāo)記序列,確定待處理語句的第一組候選實體;
根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實體;
根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體;
若第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體中確定醫(yī)療機(jī)構(gòu)組織類實體結(jié)果。
2.根據(jù)權(quán)利要求1所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別方法,其特征在于,所述根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體中確定醫(yī)療機(jī)構(gòu)組織類實體結(jié)果,包括:
確定待處理語句在進(jìn)行術(shù)語切分時,是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;
若待處理語句在進(jìn)行術(shù)語切分時,通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組醫(yī)療機(jī)構(gòu)組織類候選實體中的候選實體作為醫(yī)療機(jī)構(gòu)組織類實體結(jié)果;
若待處理語句在進(jìn)行術(shù)語切分時,未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組醫(yī)療機(jī)構(gòu)組織類候選實體中的候選實體作為醫(yī)療機(jī)構(gòu)組織類實體結(jié)果;
或者,確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體中,實體個數(shù)少,且實體包含的字符數(shù)多的一組實體作為醫(yī)療機(jī)構(gòu)組織類實體結(jié)果;
所述醫(yī)療機(jī)構(gòu)組織類實體結(jié)果中的實體類型包括醫(yī)院名稱實體、藥店名稱實體、科室名稱實體、生產(chǎn)企業(yè)名稱實體、其他機(jī)構(gòu)名稱實體;
在所述第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體中相對應(yīng)的實體的實體類型不一致時,選擇第二組候選實體中的實體的實體類型作為所述相對應(yīng)的實體的實體類型。
3.根據(jù)權(quán)利要求2所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別方法,其特征在于,所述原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識庫數(shù)據(jù)、文獻(xiàn)庫數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別方法,其特征在于,根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個文字在待處理語句中的實體標(biāo)記,并確定待處理語句的實體標(biāo)記序列,包括:
從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個文字的CRF統(tǒng)計特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實體、以及各語句中的實體在各語句中的位置以及實體類別;所述CRF統(tǒng)計特征值包括每個文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;
根據(jù)每個字在各語句中的CRF統(tǒng)計特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:
根據(jù)所述訓(xùn)練模型,計算待處理語句中的每個文字的實體標(biāo)記yj;
將每個文字的實體標(biāo)記進(jìn)行組合,形成待處理語句的實體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應(yīng)的文字的實體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個數(shù);n表示待處理語句中的文字位置個數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。
5.根據(jù)權(quán)利要求4所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別方法,其特征在于,根據(jù)待處理語句的實體標(biāo)記序列,確定待處理語句的第一組候選實體,包括:
在實體標(biāo)記序列中確定各文字對應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實體。
6.根據(jù)權(quán)利要求5所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別方法,其特征在于,還包括:
在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實體的不確定值;其中,IEk為第k個實體的不確定值;kstart為第k個實體的實體標(biāo)記的開始位置;kend為第k個實體的實體標(biāo)記的尾部位置;為待處理語句中s位置的文字對應(yīng)第j個實體標(biāo)記的概率;
將待處理語句中不確定值為1的實體與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫匹配,若匹配成功,則將匹配成功的實體的實體標(biāo)記進(jìn)行保存;
確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實體比例;
將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;
其中,所述預(yù)測置信度為待處理語句中各文字對應(yīng)的標(biāo)記概率的乘積;
所述字典匹配標(biāo)記的實體比例為:其中,C為待處理語句中預(yù)測出的實體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實體數(shù);B為待處理語句中預(yù)測出的實體總數(shù)。
7.根據(jù)權(quán)利要求6所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別方法,其特征在于,根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實體,包括:
將待處理語句中的標(biāo)點符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;
調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句;
將預(yù)處理后的待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫進(jìn)行匹配,將預(yù)處理后的待處理語句中與醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對應(yīng)的術(shù)語類型作為所述初步實體的實體類型;
在預(yù)處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室特征詞實體,則將所述疾病名稱實體或解剖名稱實體與所述科室特征詞實體作為整體抽出,形成重新篩選后的科室名稱實體;
在預(yù)處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室名稱實體,則將所述疾病名稱實體或解剖名稱實體與所述科室名稱實體作為整體抽出,形成重新篩選后的科室名稱實體;
在預(yù)處理后的待處理語句中的初步實體中,若存在其他機(jī)構(gòu)名稱實體,且所述其他機(jī)構(gòu)名稱實體的末尾字符串為機(jī)構(gòu)特征詞庫中的詞,則將所述其他機(jī)構(gòu)名稱實體確定為與機(jī)構(gòu)特征詞庫中的詞對應(yīng)的實體。
8.根據(jù)權(quán)利要求7所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別方法,其特征在于,根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體,包括:
判斷第一組候選實體和第二組候選實體中各候選實體的末尾字符是否為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符;
若各候選實體的末尾字符為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符,將所述候選實體舍棄。
9.一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別裝置,其特征在于,包括:
待處理語句獲取單元,用于獲取原始數(shù)據(jù)中的待處理語句;
單字切分單元,用于將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個文字;
實體標(biāo)記序列確定單元,用于根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個文字在待處理語句中的實體標(biāo)記,并確定待處理語句的實體標(biāo)記序列;
第一組候選實體確定單元,用于根據(jù)待處理語句的實體標(biāo)記序列,確定待處理語句的第一組候選實體;
第二組候選實體確定單元,用于根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實體;
候選實體篩選單元,用于根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體;
醫(yī)療機(jī)構(gòu)組織類實體結(jié)果確定單元,用于在第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體不相同時,根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體中確定醫(yī)療機(jī)構(gòu)組織類實體結(jié)果。
10.根據(jù)權(quán)利要求9所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別裝置,其特征在于,所述醫(yī)療機(jī)構(gòu)組織類實體結(jié)果確定單元,包括:
術(shù)語切分判斷模塊,用于確定待處理語句在進(jìn)行術(shù)語切分時,是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;
醫(yī)療機(jī)構(gòu)組織類實體結(jié)果確定模塊,用于在待處理語句在進(jìn)行術(shù)語切分時,通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組醫(yī)療機(jī)構(gòu)組織類候選實體中的候選實體作為醫(yī)療機(jī)構(gòu)組織類實體結(jié)果;在待處理語句在進(jìn)行術(shù)語切分時,未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組醫(yī)療機(jī)構(gòu)組織類候選實體中的候選實體作為醫(yī)療機(jī)構(gòu)組織類實體結(jié)果;
所述醫(yī)療機(jī)構(gòu)組織類實體結(jié)果確定模塊,還用于確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體中,實體個數(shù)少,且實體包含的字符數(shù)多的一組實體作為醫(yī)療機(jī)構(gòu)組織類實體結(jié)果;所述醫(yī)療機(jī)構(gòu)組織類實體結(jié)果中的實體類型包括手術(shù)操作實體、輔助檢查實體和其他類醫(yī)療機(jī)構(gòu)組織實體;
所述醫(yī)療機(jī)構(gòu)組織類實體結(jié)果中的實體類型包括醫(yī)院名稱實體、藥店名稱實體、科室名稱實體、生產(chǎn)企業(yè)名稱實體、其他機(jī)構(gòu)名稱實體;
實體類型確定模塊,用于在所述第一組醫(yī)療機(jī)構(gòu)組織類候選實體和第二組醫(yī)療機(jī)構(gòu)組織類候選實體中相對應(yīng)的實體的實體類型不一致時,選擇第二組候選實體中的實體的實體類型作為所述相對應(yīng)的實體的實體類型。
11.根據(jù)權(quán)利要求10所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別裝置,其特征在于,所述待處理語句獲取單元中的原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識庫數(shù)據(jù)、文獻(xiàn)庫數(shù)據(jù)。
12.根據(jù)權(quán)利要求11所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別裝置,其特征在于,所述實體標(biāo)記序列確定單元,包括:
CRF統(tǒng)計特征值提取模塊,用于從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個文字的CRF統(tǒng)計特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實體、以及各語句中的實體在各語句中的位置以及實體類別;所述CRF統(tǒng)計特征值包括每個文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;
訓(xùn)練模型確定模塊,用于根據(jù)每個字在各語句中的CRF統(tǒng)計特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:
實體標(biāo)記計算模塊,用于根據(jù)所述訓(xùn)練模型,計算待處理語句中的每個文字的實體標(biāo)記yj;
實體標(biāo)記序列確定模塊,用于將每個文字的實體標(biāo)記進(jìn)行組合,形成待處理語句的實體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應(yīng)的文字的實體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個數(shù);n表示待處理語句中的文字位置個數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。
13.根據(jù)權(quán)利要求12所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別裝置,其特征在于,所述第一組候選實體確定單元,具體用于:
在實體標(biāo)記序列中確定各文字對應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實體。
14.根據(jù)權(quán)利要求13所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別裝置,其特征在于,還包括語料庫更新單元,用于:
在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實體的不確定值;其中,IEk為第k個實體的不確定值;kstart為第k個實體的實體標(biāo)記的開始位置;kend為第k個實體的實體標(biāo)記的尾部位置;為待處理語句中s位置的文字對應(yīng)第j個實體標(biāo)記的概率;
將待處理語句中不確定值為1的實體與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫匹配,在匹配成功時,將匹配成功的實體的實體標(biāo)記進(jìn)行保存;
確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實體比例;
將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;
其中,所述預(yù)測置信度為待處理語句中各文字對應(yīng)的標(biāo)記概率的乘積;
所述字典匹配標(biāo)記的實體比例為:其中,C為待處理語句中預(yù)測出的實體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實體數(shù);B為待處理語句中預(yù)測出的實體總數(shù)。
15.根據(jù)權(quán)利要求14所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別裝置,其特征在于,所述第二組候選實體確定單元,包括:
預(yù)處理模塊,用于將待處理語句中的標(biāo)點符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句;
醫(yī)療機(jī)構(gòu)組織本體庫匹配模塊,用于將預(yù)處理后的待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫進(jìn)行匹配,將預(yù)處理后的待處理語句中與醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對應(yīng)的術(shù)語類型作為所述初步實體的實體類型;
實體重新篩選模塊,用于在預(yù)處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室特征詞實體,則將所述疾病名稱實體或解剖名稱實體與所述科室特征詞實體作為整體抽出,形成重新篩選后的科室名稱實體;在預(yù)處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室名稱實體,則將所述疾病名稱實體或解剖名稱實體與所述科室名稱實體作為整體抽出,形成重新篩選后的科室名稱實體;在預(yù)處理后的待處理語句中的初步實體中,若存在其他機(jī)構(gòu)名稱實體,且所述其他機(jī)構(gòu)名稱實體的末尾字符串為機(jī)構(gòu)特征詞庫中的詞,則將所述其他機(jī)構(gòu)名稱實體確定為與機(jī)構(gòu)特征詞庫中的詞對應(yīng)的實體。
16.根據(jù)權(quán)利要求15所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實體識別裝置,其特征在于,所述候選實體篩選單元,包括:
非醫(yī)療機(jī)構(gòu)組織術(shù)語字符判斷模塊,用于判斷第一組候選實體和第二組候選實體中各候選實體的末尾字符是否為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符;
候選實體舍棄模塊,用于在各候選實體的末尾字符為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符時,將所述候選實體舍棄。