本發(fā)明涉及醫(yī)療實(shí)體識(shí)別
技術(shù)領(lǐng)域:
,尤其涉及一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法及裝置。
背景技術(shù):
:目前,隨著網(wǎng)絡(luò)和醫(yī)療信息技術(shù)的發(fā)展、中國人口逐漸趨于老年化、互聯(lián)網(wǎng)醫(yī)療逐漸興起,醫(yī)療衛(wèi)生行業(yè)大數(shù)據(jù)也相繼產(chǎn)生。醫(yī)學(xué)機(jī)器翻譯、智能醫(yī)學(xué)問答、智能導(dǎo)診、輔助診療等應(yīng)用越來越普遍,作用也越來越凸顯出來。在智能醫(yī)學(xué)問答、智能導(dǎo)診等應(yīng)用過程中,醫(yī)療機(jī)構(gòu)組織例如醫(yī)院名稱、科室名稱、地址等是頻繁出現(xiàn)的詞匯,因此可以說醫(yī)療機(jī)構(gòu)組織類的實(shí)體識(shí)別是智能醫(yī)學(xué)問答、智能導(dǎo)診等的技術(shù)基礎(chǔ)。由于醫(yī)學(xué)數(shù)據(jù)是海量的、書寫格式復(fù)雜多樣的自然語言形式,計(jì)算機(jī)自動(dòng)準(zhǔn)確識(shí)別這些醫(yī)療機(jī)構(gòu)組織難度較大。而如何提高計(jì)算機(jī)識(shí)別醫(yī)療機(jī)構(gòu)組織類詞匯的成功率和準(zhǔn)確率,成為一個(gè)亟待解決的問題。近年來,作為醫(yī)療健康數(shù)據(jù)分析的重要的一步,醫(yī)療實(shí)體識(shí)別(例如醫(yī)療機(jī)構(gòu)組織類的實(shí)體識(shí)別)可以抽取出相關(guān)文本中存在的醫(yī)療術(shù)語,對后續(xù)研究的性能起到重要的作用。目前常見的實(shí)體識(shí)別技術(shù)有基于詞表的醫(yī)學(xué)實(shí)體識(shí)別和基于條件隨機(jī)場(ConditionalRandomFields,簡稱CRF)的醫(yī)學(xué)實(shí)體識(shí)別,然而基于詞表的醫(yī)學(xué)實(shí)體識(shí)別僅僅依靠術(shù)語庫匹配,缺少上下文語境識(shí)別,且術(shù)語庫匹配存在較大局限性。而基于CRF的醫(yī)學(xué)實(shí)體識(shí)別技術(shù),缺少大數(shù)據(jù)語料庫和語言規(guī)則的應(yīng)用,語料均為人工標(biāo)注后的語料,而沒有利用半監(jiān)督學(xué)習(xí)等方法,增加對數(shù)量更龐大的未標(biāo)注數(shù)據(jù)的使用,使得模型不夠完善,缺少基于語言學(xué)與醫(yī)療信息的規(guī)則,僅僅依靠模型,對數(shù)據(jù)的針對性不夠強(qiáng)。可見,當(dāng)前的實(shí)體識(shí)別方案并不能準(zhǔn)確進(jìn)行醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的實(shí)施例提供一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法及裝置,以解決當(dāng)前的實(shí)體識(shí)別方案并不能準(zhǔn)確進(jìn)行醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別的問題。為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法,包括:獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體;若第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。具體的,所述根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果,包括:確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;若待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中的候選實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果;若待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中的候選實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果;或者,確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果;所述醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果中的實(shí)體類型包括醫(yī)院名稱實(shí)體、藥店名稱實(shí)體、科室名稱實(shí)體、生產(chǎn)企業(yè)名稱實(shí)體、其他機(jī)構(gòu)名稱實(shí)體;在所述第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中相對應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對應(yīng)的實(shí)體的實(shí)體類型。具體的,所述原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識(shí)庫數(shù)據(jù)、文獻(xiàn)庫數(shù)據(jù)。具體的,根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列,包括:從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的CRF統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述CRF統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;根據(jù)每個(gè)字在各語句中的CRF統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。具體的,根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體,包括:在實(shí)體標(biāo)記序列中確定各文字對應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。進(jìn)一步的,該面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法,還包括:在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,IEk為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例;將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;其中,所述預(yù)測置信度為待處理語句中各文字對應(yīng)的標(biāo)記概率的乘積;所述字典匹配標(biāo)記的實(shí)體比例為:其中,C為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);B為待處理語句中預(yù)測出的實(shí)體總數(shù)。具體的,根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體,包括:將待處理語句中的標(biāo)點(diǎn)符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句;將預(yù)處理后的待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫進(jìn)行匹配,將預(yù)處理后的待處理語句中與醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型;在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在疾病名稱實(shí)體或解剖名稱實(shí)體之后相鄰連接有科室特征詞實(shí)體,則將所述疾病名稱實(shí)體或解剖名稱實(shí)體與所述科室特征詞實(shí)體作為整體抽出,形成重新篩選后的科室名稱實(shí)體;在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在疾病名稱實(shí)體或解剖名稱實(shí)體之后相鄰連接有科室名稱實(shí)體,則將所述疾病名稱實(shí)體或解剖名稱實(shí)體與所述科室名稱實(shí)體作為整體抽出,形成重新篩選后的科室名稱實(shí)體;在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在其他機(jī)構(gòu)名稱實(shí)體,且所述其他機(jī)構(gòu)名稱實(shí)體的末尾字符串為機(jī)構(gòu)特征詞庫中的詞,則將所述其他機(jī)構(gòu)名稱實(shí)體確定為與機(jī)構(gòu)特征詞庫中的詞對應(yīng)的實(shí)體。具體的,根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體,包括:判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符;若各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符,將所述候選實(shí)體舍棄。一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別裝置,包括:待處理語句獲取單元,用于獲取原始數(shù)據(jù)中的待處理語句;單字切分單元,用于將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;實(shí)體標(biāo)記序列確定單元,用于根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;第一組候選實(shí)體確定單元,用于根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;第二組候選實(shí)體確定單元,用于根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;候選實(shí)體篩選單元,用于根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體;醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果確定單元,用于在第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同時(shí),根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。具體的,所述醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果確定單元,包括:術(shù)語切分判斷模塊,用于確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果確定模塊,用于在待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中的候選實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果;在待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中的候選實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果;所述醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果確定模塊,還用于確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果;所述醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果中的實(shí)體類型包括醫(yī)院名稱實(shí)體、藥店名稱實(shí)體、科室名稱實(shí)體、生產(chǎn)企業(yè)名稱實(shí)體、其他機(jī)構(gòu)名稱實(shí)體;實(shí)體類型確定模塊,用于在所述第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中相對應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對應(yīng)的實(shí)體的實(shí)體類型。具體的,所述待處理語句獲取單元中的原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識(shí)庫數(shù)據(jù)、文獻(xiàn)庫數(shù)據(jù)。進(jìn)一步的,所述實(shí)體標(biāo)記序列確定單元,包括:CRF統(tǒng)計(jì)特征值提取模塊,用于從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的CRF統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述CRF統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;訓(xùn)練模型確定模塊,用于根據(jù)每個(gè)字在各語句中的CRF統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:實(shí)體標(biāo)記計(jì)算模塊,用于根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;實(shí)體標(biāo)記序列確定模塊,用于將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。此外,所述第一組候選實(shí)體確定單元,具體用于:在實(shí)體標(biāo)記序列中確定各文字對應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。進(jìn)一步的,所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別裝置,還包括語料庫更新單元,用于:在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,IEk為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫匹配,在匹配成功時(shí),將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例;將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;其中,所述預(yù)測置信度為待處理語句中各文字對應(yīng)的標(biāo)記概率的乘積;所述字典匹配標(biāo)記的實(shí)體比例為:其中,C為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);B為待處理語句中預(yù)測出的實(shí)體總數(shù)。此外,所述第二組候選實(shí)體確定單元,包括:預(yù)處理模塊,用于將待處理語句中的標(biāo)點(diǎn)符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句;醫(yī)療機(jī)構(gòu)組織本體庫匹配模塊,用于將預(yù)處理后的待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫進(jìn)行匹配,將預(yù)處理后的待處理語句中與醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型;實(shí)體重新篩選模塊,用于在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在疾病名稱實(shí)體或解剖名稱實(shí)體之后相鄰連接有科室特征詞實(shí)體,則將所述疾病名稱實(shí)體或解剖名稱實(shí)體與所述科室特征詞實(shí)體作為整體抽出,形成重新篩選后的科室名稱實(shí)體;在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在疾病名稱實(shí)體或解剖名稱實(shí)體之后相鄰連接有科室名稱實(shí)體,則將所述疾病名稱實(shí)體或解剖名稱實(shí)體與所述科室名稱實(shí)體作為整體抽出,形成重新篩選后的科室名稱實(shí)體;在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在其他機(jī)構(gòu)名稱實(shí)體,且所述其他機(jī)構(gòu)名稱實(shí)體的末尾字符串為機(jī)構(gòu)特征詞庫中的詞,則將所述其他機(jī)構(gòu)名稱實(shí)體確定為與機(jī)構(gòu)特征詞庫中的詞對應(yīng)的實(shí)體。此外,所述候選實(shí)體篩選單元,包括:非醫(yī)療機(jī)構(gòu)組織術(shù)語字符判斷模塊,用于判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符;候選實(shí)體舍棄模塊,用于在各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符時(shí),將所述候選實(shí)體舍棄。本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法及裝置,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體;若第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場CRF統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語切分方法相結(jié)合,能夠自動(dòng)識(shí)別醫(yī)療機(jī)構(gòu)組織類實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問題。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法的流程圖一;圖2為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法的流程圖二的A部分;圖3為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法的流程圖二的B部分;圖4為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別裝置的結(jié)構(gòu)示意圖一;圖5為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別裝置的結(jié)構(gòu)示意圖二。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。如圖1所示,本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法,包括:步驟101、獲取原始數(shù)據(jù)中的待處理語句。步驟102、將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。步驟103、根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列。步驟104、根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體。步驟105、根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體。步驟106、根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體。步驟107、若第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體;若第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場CRF統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語切分方法相結(jié)合,能夠自動(dòng)識(shí)別醫(yī)療機(jī)構(gòu)組織類實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問題。為了使本領(lǐng)域的技術(shù)人員更好的了解本發(fā)明,下面結(jié)合具體的實(shí)例來說明本發(fā)明。如圖2和圖3所示(其中,圖2為一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法的A部分,圖3為一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法的B部分,此處分為A、B部分是由于本發(fā)明實(shí)施例的步驟較多,并非表示實(shí)際意義上的區(qū)別,A部分與B部分形成整個(gè)步驟201至步驟221,其中圖2示出了步驟201至步驟211,圖3示出了步驟212至步驟221。),本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法,包括:步驟201、獲取原始數(shù)據(jù)中的待處理語句。具體的,所述原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識(shí)庫數(shù)據(jù)、文獻(xiàn)庫數(shù)據(jù)等,但不僅局限于此。步驟202、將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。例如,待處理語句為“建議到北京來我院眼科就診”,則單字切分后,每個(gè)文字為:“建”“議”“到”“北”“京”“來”“我”“院”“眼”“科”“就”“診”。步驟203、從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的CRF統(tǒng)計(jì)特征值。所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述CRF統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值。對于預(yù)先設(shè)置的語料庫可以由人為預(yù)先標(biāo)注,例如語句:“于2013年11月份在北京天壇糖尿病醫(yī)院住院治療”“建議到北京來我院眼科就診”則對于醫(yī)療機(jī)構(gòu)組織類實(shí)體,可以分別標(biāo)注出:c=北京天壇糖尿病醫(yī)院P=1:121:20t=醫(yī)院名稱;c=眼科P=2:92:10t=科室名稱;其中,c表示醫(yī)療機(jī)構(gòu)組織類實(shí)體,P表示醫(yī)療機(jī)構(gòu)組織類實(shí)體所在語料中句子的行號及句子中字符位置,t表示醫(yī)療機(jī)構(gòu)組織實(shí)體類別(在本發(fā)明中醫(yī)療機(jī)構(gòu)組織實(shí)體類別包括醫(yī)院名稱實(shí)體、藥店名稱實(shí)體、科室名稱實(shí)體、生產(chǎn)企業(yè)名稱實(shí)體、其他機(jī)構(gòu)名稱實(shí)體)。對于CRF統(tǒng)計(jì)特征值,例如語句“建議到北京來我院眼科就診”,其實(shí)體標(biāo)記序列為“OOOOOOOOBEOO”。例如,對于“眼”字,CRF統(tǒng)計(jì)特征說明如下表1所示:表1:步驟204、根據(jù)每個(gè)字在各語句中的CRF統(tǒng)計(jì)特征值,確定一訓(xùn)練模型。其中,所述訓(xùn)練模型為:步驟205、根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj。其中,x表示所述待處理語句;yj表示待處理語句中j位置對應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù),訓(xùn)練得到的模型參數(shù)可使句子的訓(xùn)練模型p(y|x)的和達(dá)到最大;m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。對于fi(yj,yj-1,x),其表示若yj、yj-1、x均出現(xiàn)在語料中,則fi(yj,yj-1,x)=1,否則為0。步驟206、將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列。例如語句“建議到北京來我院眼科就診”,其實(shí)體標(biāo)記序列為“OOOOOOOOBEOO”。步驟207、在實(shí)體標(biāo)記序列中確定各文字對應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。例如,對于“北京積水潭醫(yī)院的骨科在全國排名如何?”,其實(shí)體標(biāo)記序列為“BIIIIIEOBEOOOOOOOO”,因此,可識(shí)別出第一組候選實(shí)體為“北京積水潭醫(yī)院【醫(yī)院名稱】”和“骨科【科室名稱】”。步驟208、將待處理語句中的標(biāo)點(diǎn)符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母。步驟209、調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句。步驟210、將預(yù)處理后的待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫進(jìn)行匹配,將預(yù)處理后的待處理語句中與醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型。值得說明的是,預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫中可以包括例如科室詞表、醫(yī)療相關(guān)機(jī)構(gòu)表等。其中科室詞表是在國家標(biāo)準(zhǔn)《醫(yī)療機(jī)構(gòu)診療科目名錄》為基礎(chǔ)上構(gòu)建而成。其他機(jī)構(gòu)詞表是在采集了全國各類事實(shí)型數(shù)據(jù)后整理加工而成的。例如,分別如下表2和表3所示:表2:科室詞表:標(biāo)準(zhǔn)術(shù)語名稱同義詞術(shù)語編碼上位詞名稱術(shù)語類型心血管內(nèi)科心內(nèi)科;心血管科KS001.002內(nèi)科科室名稱肝膽外科肝膽科;肝臟外科KS002.001.004普外科科室名稱眼科KS004.001五官科科室名稱表3:醫(yī)療相關(guān)機(jī)構(gòu)表:另外,該解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫可以分別包括解剖詞表、疾病詞表以及機(jī)構(gòu)特征詞表,分別可以如下表4、表5和表6所示。表4:解剖詞表:標(biāo)準(zhǔn)術(shù)語名稱同義詞術(shù)語類型口腔解剖名稱牙體牙髓解剖名稱皮膚解剖名稱咽喉解剖名稱表5:疾病詞表:表6:機(jī)構(gòu)特征詞表:是指機(jī)構(gòu)名稱中具有標(biāo)志性字符和詞組成的詞表:標(biāo)準(zhǔn)術(shù)語名稱類型??瓶剖姨卣髟~門診科室特征詞中心科室特征詞科科室特征詞醫(yī)院醫(yī)院特征詞廠生成企業(yè)特征詞藥店藥店特征詞這樣,將預(yù)處理后的待處理語句中與醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型,從而得到初步實(shí)體。例如:原始數(shù)據(jù)為“北京積水潭醫(yī)院的腎積水??圃谌珖琶绾危俊?,通過步驟210抽出的實(shí)體結(jié)果為“北京積水潭醫(yī)院【醫(yī)院名稱】”,“腎積水”【疾病名稱】,“??啤薄究剖姨卣髟~】。步驟211、在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在疾病名稱實(shí)體或解剖名稱實(shí)體之后相鄰連接有科室特征詞實(shí)體,則將所述疾病名稱實(shí)體或解剖名稱實(shí)體與所述科室特征詞實(shí)體作為整體抽出,形成重新篩選后的科室名稱實(shí)體。例如,原始數(shù)據(jù)為“腎積水??啤??;诓襟E210抽取得到的實(shí)體結(jié)果為:“腎積水”【疾病名稱】,“專科”【科室特征詞】通過此處步驟211重新篩選后得到的實(shí)體為:腎積水??啤究剖颐Q】。步驟212、在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在疾病名稱實(shí)體或解剖名稱實(shí)體之后相鄰連接有科室名稱實(shí)體,則將所述疾病名稱實(shí)體或解剖名稱實(shí)體與所述科室名稱實(shí)體作為整體抽出,形成重新篩選后的科室名稱實(shí)體。例如,原始數(shù)據(jù)為“血管外科”?;诓襟E210抽取得到的結(jié)果為:“血管”【解剖名稱】,“外科”【科室名稱】。通過此處步驟212重新篩選后的實(shí)體結(jié)果為:血管外科【科室名稱】。步驟213、在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在其他機(jī)構(gòu)名稱實(shí)體,且所述其他機(jī)構(gòu)名稱實(shí)體的末尾字符串為機(jī)構(gòu)特征詞庫中的詞,則將所述其他機(jī)構(gòu)名稱實(shí)體確定為與機(jī)構(gòu)特征詞庫中的詞對應(yīng)的實(shí)體。例如,原始數(shù)據(jù)為“中醫(yī)心血管科”?;诓襟E210抽出的實(shí)體的類別為“其他機(jī)構(gòu)名稱”,但其最后字符為“科”,在特征詞表中為科室的特征詞,因此,根據(jù)此處的步驟213確定實(shí)體類別為“科室名稱”。步驟214、形成第二組候選實(shí)體。該步驟210之后,通過步驟211至步驟213的具體的規(guī)則,即可形成最終的第二組候選實(shí)體。步驟215、判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符。該預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符可以是例如“病、藥、手術(shù)、術(shù)、檢查”等。步驟216、若各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符,將所述候選實(shí)體舍棄。在步驟216之后,執(zhí)行步驟217或者步驟220。步驟217、在第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同時(shí),確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分。即是否通過上述步驟211、212、213的處理。在步驟217之后,執(zhí)行步驟218或者步驟219。步驟218、若待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中的候選實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。例如,原始數(shù)據(jù)為:血管外科。第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體為:外科【科室名稱】。第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體為:血管外科【科室名稱】。第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體是經(jīng)過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分得到的。則醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果選擇第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體:血管外科【科室名稱】。步驟219、若待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中的候選實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。例如,原始數(shù)據(jù)為“廣州市海珠區(qū)中醫(yī)院”。第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體為“廣州市海珠區(qū)中醫(yī)院【醫(yī)院名稱】”;第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體為“海珠區(qū)中醫(yī)院【醫(yī)院名稱】。第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體未經(jīng)過切分規(guī)則進(jìn)行切分。則,最終結(jié)果為“廣州市海珠區(qū)中醫(yī)院【醫(yī)院名稱】”。步驟220、在第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同時(shí),確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。例如,原始數(shù)據(jù)為“廣州市海珠區(qū)中醫(yī)院”。第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體為“廣州市海珠區(qū)中醫(yī)院【醫(yī)院名稱】”;第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體為“海珠區(qū)中醫(yī)院【醫(yī)院名稱】則,最終結(jié)果為“廣州市海珠區(qū)中醫(yī)院【醫(yī)院名稱】”。在步驟218、219和步驟220之后,執(zhí)行步驟221。步驟221、在所述第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中相對應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對應(yīng)的實(shí)體的實(shí)體類型。通過上述步驟201至步驟221,最終可以得到醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別結(jié)果。另外,為了實(shí)現(xiàn)對語料庫進(jìn)行更新,可以由人工總結(jié)發(fā)現(xiàn)新的句型特征,并人工標(biāo)注加入到語料庫中;另外,還可以在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,IEk為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對應(yīng)第j個(gè)實(shí)體標(biāo)記的概率。例如,“北京積水潭醫(yī)院的骨科在全國排名如何?”,實(shí)體標(biāo)記序列為“BIIIIIEOBEOOOOOOOO”,位置序列為“0123456789101112131415161718”,看出實(shí)體為北京積水潭醫(yī)院,位置為“0123456”,因此,Kstart為0,Kend為6。實(shí)體骨科,位置為“89”,因此Kstart為8,Kend為9。將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存。確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例。將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新。其中,所述預(yù)測置信度為待處理語句中各文字對應(yīng)的標(biāo)記概率的乘積。所述字典匹配標(biāo)記的實(shí)體比例為:其中,C為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);B為待處理語句中預(yù)測出的實(shí)體總數(shù)。可見,通過語料庫的更新,可以實(shí)現(xiàn)實(shí)體識(shí)別所需語料數(shù)據(jù)利用半監(jiān)督自學(xué)習(xí)方法,實(shí)現(xiàn)語料庫不斷豐富,解決了語料庫數(shù)目不足、不完整的問題。本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別方法,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體;若第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場CRF統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語切分方法相結(jié)合,能夠自動(dòng)識(shí)別醫(yī)療機(jī)構(gòu)組織類實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問題。對應(yīng)于上述圖1、圖2和圖3所示的方法實(shí)施例,如圖4所示,本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別裝置,包括:待處理語句獲取單元31,用于獲取原始數(shù)據(jù)中的待處理語句。單字切分單元32,用于將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。實(shí)體標(biāo)記序列確定單元33,用于根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列。第一組候選實(shí)體確定單元34,用于根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體。第二組候選實(shí)體確定單元35,用于根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體。候選實(shí)體篩選單元36,用于根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體。醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果確定單元37,用于在第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同時(shí),根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。具體的,如圖5所示,所述醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果確定單元37,包括:術(shù)語切分判斷模塊371,用于確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分。醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果確定模塊372,用于在待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中的候選實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果;在待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中的候選實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。所述醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果確定模塊372,還用于確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果;所述醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果中的實(shí)體類型包括醫(yī)院名稱實(shí)體、藥店名稱實(shí)體、科室名稱實(shí)體、生產(chǎn)企業(yè)名稱實(shí)體、其他機(jī)構(gòu)名稱實(shí)體;實(shí)體類型確定模塊373,用于在所述第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中相對應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對應(yīng)的實(shí)體的實(shí)體類型。具體的,所述待處理語句獲取單元31中的原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識(shí)庫數(shù)據(jù)、文獻(xiàn)庫數(shù)據(jù)。進(jìn)一步的,如圖5所示,所述實(shí)體標(biāo)記序列確定單元33,包括:CRF統(tǒng)計(jì)特征值提取模塊331,用于從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的CRF統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述CRF統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值。訓(xùn)練模型確定模塊332,用于根據(jù)每個(gè)字在各語句中的CRF統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:實(shí)體標(biāo)記計(jì)算模塊333,用于根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj。實(shí)體標(biāo)記序列確定模塊334,用于將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。此外,所述第一組候選實(shí)體確定單元34,具體用于:在實(shí)體標(biāo)記序列中確定各文字對應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。進(jìn)一步的,如圖5所示,所述的面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別裝置,還包括語料庫更新單元38用于:在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,IEk為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對應(yīng)第j個(gè)實(shí)體標(biāo)記的概率。將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫匹配,在匹配成功時(shí),將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存。確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例。將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新。其中,所述預(yù)測置信度為待處理語句中各文字對應(yīng)的標(biāo)記概率的乘積。所述字典匹配標(biāo)記的實(shí)體比例為:其中,C為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);B為待處理語句中預(yù)測出的實(shí)體總數(shù)。此外,如圖5所示,所述第二組候選實(shí)體確定單元35,包括:預(yù)處理模塊351,用于將待處理語句中的標(biāo)點(diǎn)符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句。醫(yī)療機(jī)構(gòu)組織本體庫匹配模塊352,用于將預(yù)處理后的待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫進(jìn)行匹配,將預(yù)處理后的待處理語句中與醫(yī)療機(jī)構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機(jī)構(gòu)特征詞庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串作為初步實(shí)體抽出,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對應(yīng)的術(shù)語類型作為所述初步實(shí)體的實(shí)體類型。實(shí)體重新篩選模塊353,用于在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在疾病名稱實(shí)體或解剖名稱實(shí)體之后相鄰連接有科室特征詞實(shí)體,則將所述疾病名稱實(shí)體或解剖名稱實(shí)體與所述科室特征詞實(shí)體作為整體抽出,形成重新篩選后的科室名稱實(shí)體;在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在疾病名稱實(shí)體或解剖名稱實(shí)體之后相鄰連接有科室名稱實(shí)體,則將所述疾病名稱實(shí)體或解剖名稱實(shí)體與所述科室名稱實(shí)體作為整體抽出,形成重新篩選后的科室名稱實(shí)體;在預(yù)處理后的待處理語句中的初步實(shí)體中,若存在其他機(jī)構(gòu)名稱實(shí)體,且所述其他機(jī)構(gòu)名稱實(shí)體的末尾字符串為機(jī)構(gòu)特征詞庫中的詞,則將所述其他機(jī)構(gòu)名稱實(shí)體確定為與機(jī)構(gòu)特征詞庫中的詞對應(yīng)的實(shí)體。此外,如圖5所示,所述候選實(shí)體篩選單元36,包括:非醫(yī)療機(jī)構(gòu)組織術(shù)語字符判斷模塊361,用于判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符。候選實(shí)體舍棄模塊362,用于在各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非醫(yī)療機(jī)構(gòu)組織術(shù)語字符時(shí),將所述候選實(shí)體舍棄。值得說明的是,本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別裝置的具體實(shí)現(xiàn)方式可以參見上述的方法實(shí)施例,此處不再贅述。本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機(jī)構(gòu)組織類實(shí)體識(shí)別裝置,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的醫(yī)療機(jī)構(gòu)組織類術(shù)語切分策略,對所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對各候選實(shí)體進(jìn)行篩選,分別形成第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體;若第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體和第二組醫(yī)療機(jī)構(gòu)組織類候選實(shí)體中確定醫(yī)療機(jī)構(gòu)組織類實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場CRF統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語切分方法相結(jié)合,能夠自動(dòng)識(shí)別醫(yī)療機(jī)構(gòu)組織類實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問題。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。本發(fā)明中應(yīng)用了具體實(shí)施例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。當(dāng)前第1頁1 2 3