本發(fā)明涉及醫(yī)療實(shí)體識(shí)別
技術(shù)領(lǐng)域:
,尤其涉及一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法及裝置。
背景技術(shù):
:近年來隨著醫(yī)療衛(wèi)生信息化的發(fā)展,醫(yī)療衛(wèi)生領(lǐng)域已進(jìn)入到了大數(shù)據(jù)時(shí)代。醫(yī)療業(yè)務(wù)過程同樣也是個(gè)醫(yī)療大數(shù)據(jù)累積的過程,并對(duì)醫(yī)療衛(wèi)生行業(yè)產(chǎn)生巨大的影響。例如,通過對(duì)醫(yī)學(xué)大數(shù)據(jù)的分析挖掘,實(shí)現(xiàn)臨床操作的比較效果研究、臨床決策支持系統(tǒng)建設(shè)、基于衛(wèi)生經(jīng)濟(jì)學(xué)和療效研究、疾病模式的分析研究等,從而促進(jìn)醫(yī)學(xué)發(fā)展、提高臨床醫(yī)學(xué)質(zhì)量。當(dāng)前的醫(yī)療大數(shù)據(jù)包括臨床數(shù)據(jù)(如電子病歷、健康檔案數(shù)據(jù)等),臨床結(jié)算數(shù)據(jù),日常生活習(xí)慣數(shù)據(jù),醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)等多種類型復(fù)雜數(shù)據(jù),具有數(shù)據(jù)量龐大、結(jié)構(gòu)復(fù)雜、分析難度大等特點(diǎn)。在實(shí)現(xiàn)對(duì)醫(yī)療大數(shù)據(jù)的利用和挖掘過程中,醫(yī)療大數(shù)據(jù)的標(biāo)準(zhǔn)化是基礎(chǔ)也是難點(diǎn)之一。目前,研究最多的是醫(yī)療大數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化的方法和技術(shù),例如,現(xiàn)有技術(shù)中有人利用基于醫(yī)學(xué)術(shù)語字典的雙向最大匹配分詞算法,對(duì)醫(yī)療文本數(shù)據(jù)進(jìn)行分詞,得到結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)了簡單意義上的醫(yī)療大數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化。然而,該方法的缺點(diǎn)是1)僅僅依靠術(shù)語字典匹配,缺少上下文語境語義識(shí)別;2)醫(yī)學(xué)術(shù)語字典即便再大,也不可能囊括所有的醫(yī)療術(shù)語,切分出術(shù)語有限,結(jié)構(gòu)化效果受限。另外,現(xiàn)有技術(shù)中還有關(guān)于醫(yī)療信息標(biāo)準(zhǔn)化的研究,典型案例如現(xiàn)有技術(shù)的一種標(biāo)準(zhǔn)化系統(tǒng),該系統(tǒng)為醫(yī)生、護(hù)士提供一套標(biāo)準(zhǔn)化術(shù)語以供他們記錄病人在就醫(yī)過程中產(chǎn)生的治療信息、護(hù)理信息以及藥物信息時(shí)使用標(biāo)準(zhǔn)術(shù)語,利于醫(yī)療信息在不同系統(tǒng)中傳輸(專利申請(qǐng)?zhí)枺?00480023968.0)。此方案的缺點(diǎn)是標(biāo)準(zhǔn)化過程是人工選擇過程,而非自動(dòng)過程,無法滿足在大數(shù)據(jù)時(shí)代的數(shù)據(jù)處理要求。可見,目前現(xiàn)有技術(shù)中還沒有關(guān)于醫(yī)療大數(shù)據(jù)的自動(dòng)術(shù)語標(biāo)準(zhǔn)化的研究,且現(xiàn)有技術(shù)的匹配分詞方式較為單一,難以針對(duì)海量醫(yī)療大數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)準(zhǔn)化處理。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的實(shí)施例提供一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法及裝置,以解決目前現(xiàn)有技術(shù)中還沒有關(guān)于醫(yī)療大數(shù)據(jù)的自動(dòng)術(shù)語標(biāo)準(zhǔn)化的研究,且現(xiàn)有技術(shù)的匹配分詞方式較為單一,難以針對(duì)海量醫(yī)療大數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)準(zhǔn)化處理的問題。為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法,包括:獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體;若第一組候選實(shí)體和第二組候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型;根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型;將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,則根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型,生成匹配失敗問題報(bào)告或者對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配;若進(jìn)行模糊匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。具體的,所述根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型,包括:確定來源于相同待處理語句的原始字符串的第一組候選實(shí)體和第二組候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為待處理語句中的實(shí)體;在所述第一組候選實(shí)體和第二組候選實(shí)體中相對(duì)應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對(duì)應(yīng)的實(shí)體的實(shí)體類型。具體的,所述原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)療結(jié)算單數(shù)據(jù)、網(wǎng)絡(luò)醫(yī)療文本數(shù)據(jù)、醫(yī)療知識(shí)庫數(shù)據(jù)以及醫(yī)療文獻(xiàn)庫數(shù)據(jù);所述非結(jié)構(gòu)化數(shù)據(jù)包括電子病例數(shù)據(jù)和健康檔案數(shù)據(jù)。具體的,根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列,包括:從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;根據(jù)每個(gè)字在各語句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。具體的,根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體,包括:在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。進(jìn)一步的,所述醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法,還包括:在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的醫(yī)學(xué)本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例;將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積;所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語句中預(yù)測出的實(shí)體總數(shù)。具體的,所述根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體,包括:將所述待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配,將所述待處理語句中與醫(yī)學(xué)本體術(shù)語庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串抽出,作為第二組候選實(shí)體,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為第二組候選實(shí)體的實(shí)體類型。具體的,根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型,包括:判斷待處理語句是否滿足預(yù)先設(shè)置的句法結(jié)構(gòu);在待處理語句滿足預(yù)先設(shè)置的句法結(jié)構(gòu)時(shí),將待處理語句中的實(shí)體舍棄;在待處理語句不滿足預(yù)先設(shè)置的句法結(jié)構(gòu)時(shí),判斷待處理語句中的實(shí)體的實(shí)體類型是否包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體;若待處理語句中的實(shí)體的實(shí)體類型包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體,且待處理語句中的實(shí)體還包括藥品名稱實(shí)體,則將藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體保留;若待處理語句中的實(shí)體的實(shí)體類型包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體,且待處理語句中的實(shí)體未包括藥品名稱實(shí)體,則將藥品的劑型實(shí)體、規(guī)格實(shí)體以及包材實(shí)體舍棄。具體的,所述預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫包括診斷詞表、診療詞表、藥品名稱表、藥品大概念表、劑型表、規(guī)格表、包裝規(guī)格表、包材表和生產(chǎn)企業(yè)表;將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配,包括:將待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與診斷詞表、診療詞表、藥品名稱表、藥品大概念表、劑型表、規(guī)格表、包裝規(guī)格表、包材表和生產(chǎn)企業(yè)表依次進(jìn)行匹配。進(jìn)一步的,所述的醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法,還包括:若待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型為產(chǎn)品名或商品名類型,通過預(yù)先設(shè)置的藥品名稱轉(zhuǎn)換表將所述產(chǎn)品名或商品名類型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語轉(zhuǎn)換為標(biāo)準(zhǔn)通用名。進(jìn)一步的,所述的醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法,還包括:若待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型包括藥品的通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型,則將藥品的通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型分別對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的藥品表中的通用名、劑型、規(guī)格、包裝規(guī)格、包材以及生產(chǎn)企業(yè)字段匹配,并在匹配成功后將藥品通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型分別對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化結(jié)果;若待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型包括藥品的通用名和劑型,則將所述藥品的通用名和劑型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的通用名加劑型加給藥途徑表進(jìn)行匹配,并在匹配成功后將所述藥品的通用名和劑型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化結(jié)果。具體的,對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配,包括:判斷匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中是否包括預(yù)先設(shè)置的可刪減字符;所述可刪減字符包括疾病限定詞、解剖詞、微生物詞、標(biāo)點(diǎn)符號(hào);若匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中包括預(yù)先設(shè)置的可刪減字符,則將匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中的可刪減字符刪除,再與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配。一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,包括:待處理語句獲取單元,用于獲取原始數(shù)據(jù)中的待處理語句;單字切分單元,用于將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;實(shí)體標(biāo)記序列確定單元,用于根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;第一組候選實(shí)體確定單元,用于根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;第二組候選實(shí)體確定單元,用于根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體;待處理語句實(shí)體確定單元,用于在第一組候選實(shí)體和第二組候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型;候選標(biāo)準(zhǔn)化術(shù)語確定單元,用于根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型;醫(yī)學(xué)本體術(shù)語庫匹配單元,用于將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配;標(biāo)準(zhǔn)化術(shù)語確定單元,用于在所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型;匹配失敗處理單元,用于在所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型,生成匹配失敗問題報(bào)告或者對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配;在進(jìn)行模糊匹配成功,將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。具體的,所述待處理語句實(shí)體確定單元,包括:待處理語句實(shí)體確定模塊,用于確定來源于相同待處理語句的原始字符串的第一組候選實(shí)體和第二組候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為待處理語句中的實(shí)體;實(shí)體類型確定模塊,用于在所述第一組候選實(shí)體和第二組候選實(shí)體中相對(duì)應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對(duì)應(yīng)的實(shí)體的實(shí)體類型。具體的,所述待處理語句獲取單元獲取的原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)療結(jié)算單數(shù)據(jù)、網(wǎng)絡(luò)醫(yī)療文本數(shù)據(jù)、醫(yī)療知識(shí)庫數(shù)據(jù)以及醫(yī)療文獻(xiàn)庫數(shù)據(jù);所述非結(jié)構(gòu)化數(shù)據(jù)包括電子病例數(shù)據(jù)和健康檔案數(shù)據(jù)。具體的,所述實(shí)體標(biāo)記序列確定單元,包括:crf統(tǒng)計(jì)特征值提取模塊,用于從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;訓(xùn)練模型確定模塊,用于根據(jù)每個(gè)字在各語句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:實(shí)體標(biāo)記計(jì)算模塊,用于根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;實(shí)體標(biāo)記序列確定模塊,用于將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。此外,所述第一組候選實(shí)體確定單元,具體用于:在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。進(jìn)一步的,所述的醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,還包括語料庫更新單元,用于:在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的醫(yī)學(xué)本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例;將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積;所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語句中預(yù)測出的實(shí)體總數(shù)。此外,所述第二組候選實(shí)體確定單元,具體用于:將所述待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配,將所述待處理語句中與醫(yī)學(xué)本體術(shù)語庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串抽出,作為第二組候選實(shí)體,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為第二組候選實(shí)體的實(shí)體類型。具體的,所述候選標(biāo)準(zhǔn)化術(shù)語確定單元,包括:句法分析模塊,用于判斷待處理語句是否滿足預(yù)先設(shè)置的句法結(jié)構(gòu);實(shí)體舍棄模塊,用于在待處理語句滿足預(yù)先設(shè)置的句法結(jié)構(gòu)時(shí),將待處理語句中的實(shí)體舍棄;實(shí)體類型判斷模塊,用于在待處理語句不滿足預(yù)先設(shè)置的句法結(jié)構(gòu)時(shí),判斷待處理語句中的實(shí)體的實(shí)體類型是否包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體;實(shí)體篩選模塊,用于在待處理語句中的實(shí)體的實(shí)體類型包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體,且待處理語句中的實(shí)體還包括藥品名稱實(shí)體,則將藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體保留;在待處理語句中的實(shí)體的實(shí)體類型包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體,且待處理語句中的實(shí)體未包括藥品名稱實(shí)體,則將藥品的劑型實(shí)體、規(guī)格實(shí)體以及包材實(shí)體舍棄。此外,所述醫(yī)學(xué)本體術(shù)語庫匹配單元中的預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫包括診斷詞表、診療詞表、藥品名稱表、藥品大概念表、劑型表、規(guī)格表、包裝規(guī)格表、包材表和生產(chǎn)企業(yè)表;所述醫(yī)學(xué)本體術(shù)語庫匹配單元,具體用于:將待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與診斷詞表、診療詞表、藥品名稱表、藥品大概念表、劑型表、規(guī)格表、包裝規(guī)格表、包材表和生產(chǎn)企業(yè)表依次進(jìn)行匹配。進(jìn)一步的,所述的醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,還包括:標(biāo)準(zhǔn)通用名轉(zhuǎn)化單元,用于在待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型為產(chǎn)品名或商品名類型時(shí),通過預(yù)先設(shè)置的藥品名稱轉(zhuǎn)換表將所述產(chǎn)品名或商品名類型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語轉(zhuǎn)換為標(biāo)準(zhǔn)通用名。進(jìn)一步的,所述的醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,還包括標(biāo)準(zhǔn)化結(jié)果確定單元,用于在待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型包括藥品的通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型時(shí),將藥品的通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型分別對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的藥品表中的通用名、劑型、規(guī)格、包裝規(guī)格、包材以及生產(chǎn)企業(yè)字段匹配,并在匹配成功后將藥品通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型分別對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化結(jié)果;在待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型包括藥品的通用名和劑型,將所述藥品的通用名和劑型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的通用名加劑型加給藥途徑表進(jìn)行匹配,并在匹配成功后將所述藥品的通用名和劑型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化結(jié)果。具體的,所述匹配失敗處理單元,包括:可刪減字符判斷模塊,用于判斷匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中是否包括預(yù)先設(shè)置的可刪減字符;所述可刪減字符包括疾病限定詞、解剖詞、微生物詞、標(biāo)點(diǎn)符號(hào);可刪減字符刪除模塊,用于在匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中包括預(yù)先設(shè)置的可刪減字符時(shí),將匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中的可刪減字符刪除,再與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配。本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法及裝置,首先獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體;若第一組候選實(shí)體和第二組候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型;根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型;將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,則根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型,生成匹配失敗問題報(bào)告或者對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配;若進(jìn)行模糊匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。這樣,采用本發(fā)明醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理,可以實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)的自動(dòng)術(shù)語標(biāo)準(zhǔn)化,且匹配過程采用了句法分析、基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別、基于醫(yī)學(xué)本體的匹配以及模糊匹配的方式,避免了現(xiàn)有技術(shù)的匹配分詞方式較為單一,難以針對(duì)海量醫(yī)療大數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)準(zhǔn)化處理的問題。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法的流程圖一;圖2為本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法的流程圖二的a部分;圖3為本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法的流程圖二的b部分;圖4為本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置的結(jié)構(gòu)示意圖一;圖5為本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置的結(jié)構(gòu)示意圖二。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。如圖1所示,本發(fā)明實(shí)施例提供一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法,包括:步驟101、獲取原始數(shù)據(jù)中的待處理語句。步驟102、將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。步驟103、根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列。步驟104、根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體。步驟105、根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體。步驟106、若第一組候選實(shí)體和第二組候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型。步驟107、根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型。步驟108、將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配。在步驟108之后執(zhí)行步驟109或者步驟110。步驟109、若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。步驟110、若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,則根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型,生成匹配失敗問題報(bào)告或者對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配。在步驟110之后,執(zhí)行步驟111。步驟111、若進(jìn)行模糊匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法,首先獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體;若第一組候選實(shí)體和第二組候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型;根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型;將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,則根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型,生成匹配失敗問題報(bào)告或者對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配;若進(jìn)行模糊匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。這樣,采用本發(fā)明醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理,可以實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)的自動(dòng)術(shù)語標(biāo)準(zhǔn)化,且匹配過程采用了句法分析、基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別、基于醫(yī)學(xué)本體的匹配以及模糊匹配的方式,避免了現(xiàn)有技術(shù)的匹配分詞方式較為單一,難以針對(duì)海量醫(yī)療大數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)準(zhǔn)化處理的問題。為了使本領(lǐng)域的技術(shù)人員更好的了解本發(fā)明,下面結(jié)合具體的實(shí)例來說明本發(fā)明。如圖2和圖3所示(其中,圖2為一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法的a部分,圖3為一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法的b部分,此處分為a、b部分是由于本發(fā)明實(shí)施例的步驟較多,并非表示實(shí)際意義上的區(qū)別,a部分與b部分形成整個(gè)步驟201至步驟224,其中圖2示出了步驟201至步驟212,圖3示出了步驟213至步驟224。),本發(fā)明實(shí)施例提供一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法,包括:步驟201、獲取原始數(shù)據(jù)中的待處理語句。具體的,所述原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)療結(jié)算單數(shù)據(jù)、網(wǎng)絡(luò)醫(yī)療文本數(shù)據(jù)、醫(yī)療知識(shí)庫數(shù)據(jù)以及醫(yī)療文獻(xiàn)庫數(shù)據(jù);所述非結(jié)構(gòu)化數(shù)據(jù)包括電子病例數(shù)據(jù)和健康檔案數(shù)據(jù)等,但不僅局限于此。步驟202、將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。例如,待處理語句為“高血壓如何治療”,則單字切分后,每個(gè)文字為:“高”“血”“壓”“如”“何”“治”“療”。步驟203、從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的crf統(tǒng)計(jì)特征值。所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值。對(duì)于預(yù)先設(shè)置的語料庫可以由人為預(yù)先標(biāo)注,例如語句:“高血壓能否吃華法林?高血壓怎么治療?”則對(duì)于實(shí)體,可以標(biāo)注出:c=高血壓p=1:01:2t=疾病c=華法林p=1:61:8t=藥品c=高血壓p=2:02:2t=疾病其中,c表示實(shí)體,p表示實(shí)體所在語料中句子的行號(hào)及句子中字符位置,t表示實(shí)體類別。對(duì)于crf統(tǒng)計(jì)特征值,例如語句“高血壓怎么治療?”,其實(shí)體標(biāo)記序列為“bieooooo”。例如,對(duì)于“壓”字,crf統(tǒng)計(jì)特征說明如下表1所示:表1:步驟204、根據(jù)每個(gè)字在各語句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型。其中,所述訓(xùn)練模型為:步驟205、根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj。其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù),訓(xùn)練得到的模型參數(shù)可使句子的訓(xùn)練模型p(y|x)的和達(dá)到最大;m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。對(duì)于fi(yj,yj-1,x),其表示若yj、yj-1、x均出現(xiàn)在語料中,則fi(yj,yj-1,x)=1,否則為0。步驟206、將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列。例如語句“高血壓怎么治療?”,其實(shí)體標(biāo)記序列為“bieooooo”。步驟207、在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。例如,對(duì)于“高血壓怎么治療?”,其實(shí)體標(biāo)記序列為“bieooooo”,因此,可識(shí)別出第一組候選實(shí)體為“高血壓”。步驟208、將所述待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配,將所述待處理語句中與醫(yī)學(xué)本體術(shù)語庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串抽出,作為第二組候選實(shí)體,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為第二組候選實(shí)體的實(shí)體類型。此處,預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫可以包括如疾病本體術(shù)語,癥狀體征本體術(shù)語,手術(shù)操作本體術(shù)語,檢查檢驗(yàn)本體術(shù)語,一般診療本體術(shù)語,藥品相關(guān)本體術(shù)語(名稱、劑型、規(guī)格),耗材本體術(shù)語,保健食品本體術(shù)語,企業(yè)機(jī)構(gòu)本體術(shù)語等。而將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為第二組候選實(shí)體的實(shí)體類型,是例如:與疾病本體匹配成功,則第二組候選實(shí)體的實(shí)體類型為疾病,與藥品的規(guī)格實(shí)體匹配成功,則第二組候選實(shí)體的實(shí)體類型為規(guī)格,與藥品的包裝規(guī)格匹配成功,則第二組候選實(shí)體的實(shí)體類型為包裝規(guī)格。步驟209、確定來源于相同待處理語句的原始字符串的第一組候選實(shí)體和第二組候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為待處理語句中的實(shí)體。步驟210、在所述第一組候選實(shí)體和第二組候選實(shí)體中相對(duì)應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對(duì)應(yīng)的實(shí)體的實(shí)體類型。例如,原始數(shù)據(jù)為“患者患有高血壓(3級(jí)),正服用高血壓速降丸”。第一組候選實(shí)體為“高血壓(3級(jí))【疾病】高血壓速降丸【藥品】”;第二組候選實(shí)體為“高血壓【疾病】高血壓速降丸【藥品】”;則,最終結(jié)果為“高血壓(3級(jí))【疾病】高血壓速降丸【藥品】”。另外,為了實(shí)現(xiàn)對(duì)語料庫進(jìn)行更新,可以由人工總結(jié)發(fā)現(xiàn)新的句型特征,并人工標(biāo)注加入到語料庫中;另外,還可以在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率。例如,“1級(jí)高血壓吃什么好?”,實(shí)體標(biāo)記序列為“oobieooooo”,位置序列為“0123456789”,看出實(shí)體為“高血壓”,位置為“234”,因此,kstart為2,kend為4。將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的醫(yī)學(xué)本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存。確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例。將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新。其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積。所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語句中預(yù)測出的實(shí)體總數(shù)??梢姡ㄟ^語料庫的更新,可以實(shí)現(xiàn)實(shí)體識(shí)別所需語料數(shù)據(jù)利用半監(jiān)督自學(xué)習(xí)方法,實(shí)現(xiàn)語料庫不斷豐富,解決了語料庫數(shù)目不足、不完整的問題。步驟211、判斷待處理語句是否滿足預(yù)先設(shè)置的句法結(jié)構(gòu)。此處,預(yù)先設(shè)置的句法結(jié)構(gòu)可以記錄于句法結(jié)構(gòu)表中,如下表2所示:表2句法結(jié)構(gòu)模式待處理語句舉例否認(rèn)…..病史/接觸史/接種史否認(rèn)高血壓、糖尿病和卒中病史無…..史無輸血史無…..病史無肝炎、結(jié)核等傳染病及遺傳病史無…..無發(fā)熱、黃疸無重大….史無重大手術(shù)史….未見異常尿常規(guī)未見異常……無明顯異常步驟212、在待處理語句滿足預(yù)先設(shè)置的句法結(jié)構(gòu)時(shí),將待處理語句中的實(shí)體舍棄。步驟213、在待處理語句不滿足預(yù)先設(shè)置的句法結(jié)構(gòu)時(shí),判斷待處理語句中的實(shí)體的實(shí)體類型是否包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體。在步驟213之后,執(zhí)行步驟214或者步驟215。步驟214、若待處理語句中的實(shí)體的實(shí)體類型包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體,且待處理語句中的實(shí)體還包括藥品名稱實(shí)體,則將藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體保留。步驟215、若待處理語句中的實(shí)體的實(shí)體類型包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體,且待處理語句中的實(shí)體未包括藥品名稱實(shí)體,則將藥品的劑型實(shí)體、規(guī)格實(shí)體以及包材實(shí)體舍棄。此處,由于待處理語句中的實(shí)體若未包括藥品名稱實(shí)體,則藥品的劑型實(shí)體、規(guī)格實(shí)體以及包材實(shí)體可能不具備實(shí)際意義,需要舍棄。在步驟214和步驟215之后繼續(xù)執(zhí)行步驟216。步驟216、將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配。此處,所述預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫可以包括診斷詞表、診療詞表、藥品名稱表、藥品大概念表、劑型表、規(guī)格表、包裝規(guī)格表、包材表和生產(chǎn)企業(yè)表,但不僅僅局限于此。需要知道的是醫(yī)學(xué)本體術(shù)語庫的內(nèi)容眾多,還可以包括如科室詞表、藥品名稱轉(zhuǎn)換表、藥品制劑表、drug(藥品)信息標(biāo)準(zhǔn)表等。例如,下面列舉幾種預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫中的詞表。表3,診斷詞表:表4,診療詞表:表5,科室詞表:表6,drug(藥品)信息標(biāo)準(zhǔn)表值得說明的是,上述表3至表6僅僅為了說明醫(yī)學(xué)本體術(shù)語庫中的詞表的內(nèi)容,其并非醫(yī)學(xué)本體術(shù)語庫的全部內(nèi)容。此處可以采用依次匹配的方式,如首先與診斷詞表匹配,匹配成功的輸出標(biāo)準(zhǔn)化術(shù)語,匹配不成功則調(diào)用診斷nlp模糊匹配接口,進(jìn)行模糊匹配,判斷模糊匹配結(jié)果是否唯一,如果唯一,輸出匹配出的標(biāo)準(zhǔn)化術(shù)語及術(shù)語類型(例如疾病或/和癥狀),如果不唯一則繼續(xù)進(jìn)行下一步匹配。下一步匹配中,與診療詞表匹配,匹配成功則輸出標(biāo)準(zhǔn)化術(shù)語及術(shù)語類型(如診療)作為標(biāo)化結(jié)果,不成功進(jìn)入下一步匹配。以此類推,直至與藥品名稱表、藥品大概念表、劑型表、規(guī)格表、包裝規(guī)格表、包材表和生產(chǎn)企業(yè)表依次匹配完畢。在步驟216之后,執(zhí)行步驟217或者步驟221,或者步驟222。步驟217、若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。步驟218、若待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型為產(chǎn)品名或商品名類型,通過預(yù)先設(shè)置的藥品名稱轉(zhuǎn)換表將所述產(chǎn)品名或商品名類型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語轉(zhuǎn)換為標(biāo)準(zhǔn)通用名。步驟219、若待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型包括藥品的通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型,則將藥品的通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型分別對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的藥品表(drug表)中的通用名、劑型、規(guī)格、包裝規(guī)格、包材以及生產(chǎn)企業(yè)字段匹配,并在匹配成功后將藥品通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型分別對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化結(jié)果。步驟220、若待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型包括藥品的通用名和劑型,則將所述藥品的通用名和劑型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的通用名加劑型加給藥途徑表進(jìn)行匹配,并在匹配成功后將所述藥品的通用名和劑型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化結(jié)果。步驟221、若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,且候選標(biāo)準(zhǔn)化術(shù)語類型不是診斷類術(shù)語,生成匹配失敗問題報(bào)告。所述匹配失敗問題報(bào)告的目的是便于后續(xù)人工處理來完成標(biāo)準(zhǔn)化術(shù)語的識(shí)別和處理。步驟222、若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,且術(shù)語類型為疾病類,判斷匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中是否包括預(yù)先設(shè)置的可刪減字符。所述可刪減字符包括疾病限定詞、解剖詞、微生物詞、標(biāo)點(diǎn)符號(hào)。步驟223、若匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中包括預(yù)先設(shè)置的可刪減字符,則將匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中的可刪減字符刪除,再與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配。例如匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語為“血壓高(3級(jí))”,在醫(yī)學(xué)本體中存在同義詞“高血壓”,對(duì)應(yīng)標(biāo)準(zhǔn)詞為“高血壓病”,則模糊匹配后的結(jié)果為“高血壓病”,術(shù)語類型為“疾病”。此處需要將(3級(jí))刪除,再與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配。步驟224、若進(jìn)行模糊匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。通過上述步驟201至步驟224,可以實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)中,數(shù)據(jù)的標(biāo)準(zhǔn)化,例如:標(biāo)準(zhǔn)化的效果展示可以如下表7所示:表7:本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法,首先獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體;若第一組候選實(shí)體和第二組候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型;根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型;將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,則根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型,生成匹配失敗問題報(bào)告或者對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配;若進(jìn)行模糊匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。這樣,采用本發(fā)明醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理,可以實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)的自動(dòng)術(shù)語標(biāo)準(zhǔn)化,且匹配過程采用了句法分析、基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別、基于醫(yī)學(xué)本體的匹配以及模糊匹配的方式,避免了現(xiàn)有技術(shù)的匹配分詞方式較為單一,難以針對(duì)海量醫(yī)療大數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)準(zhǔn)化處理的問題。對(duì)應(yīng)于上述圖1、圖2和圖3所示的方法實(shí)施例,如圖4所示,本發(fā)明實(shí)施例提供一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,包括:待處理語句獲取單元31,用于獲取原始數(shù)據(jù)中的待處理語句。單字切分單元32,用于將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。實(shí)體標(biāo)記序列確定單元33,用于根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列。第一組候選實(shí)體確定單元34,用于根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體。第二組候選實(shí)體確定單元35,用于根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體。待處理語句實(shí)體確定單元36,用于在第一組候選實(shí)體和第二組候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型。候選標(biāo)準(zhǔn)化術(shù)語確定單元37,用于根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型。醫(yī)學(xué)本體術(shù)語庫匹配單元38,用于將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配。標(biāo)準(zhǔn)化術(shù)語確定單元39,用于在所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。匹配失敗處理單元40,用于在所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型,生成匹配失敗問題報(bào)告或者對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配;在進(jìn)行模糊匹配成功,將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。具體的,如圖5所示,所述待處理語句實(shí)體確定單元36,包括:待處理語句實(shí)體確定模塊361,用于確定來源于相同待處理語句的原始字符串的第一組候選實(shí)體和第二組候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為待處理語句中的實(shí)體。實(shí)體類型確定模塊362,用于在所述第一組候選實(shí)體和第二組候選實(shí)體中相對(duì)應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對(duì)應(yīng)的實(shí)體的實(shí)體類型。具體的,所述待處理語句獲取單元31獲取的原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)療結(jié)算單數(shù)據(jù)、網(wǎng)絡(luò)醫(yī)療文本數(shù)據(jù)、醫(yī)療知識(shí)庫數(shù)據(jù)以及醫(yī)療文獻(xiàn)庫數(shù)據(jù);所述非結(jié)構(gòu)化數(shù)據(jù)包括電子病例數(shù)據(jù)和健康檔案數(shù)據(jù)。具體的,如圖5所示,所述實(shí)體標(biāo)記序列確定單元33,包括:crf統(tǒng)計(jì)特征值提取模塊331,用于從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值。訓(xùn)練模型確定模塊332,用于根據(jù)每個(gè)字在各語句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型。所述訓(xùn)練模型為:實(shí)體標(biāo)記計(jì)算模塊333,用于根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj。實(shí)體標(biāo)記序列確定模塊334,用于將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。此外,所述第一組候選實(shí)體確定單元34,具體用于:在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。進(jìn)一步的,如圖5所示,所述的醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,還包括語料庫更新單元41,用于:在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率。將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的醫(yī)學(xué)本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存。確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例。將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新。其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積。所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語句中預(yù)測出的實(shí)體總數(shù)。此外,所述第二組候選實(shí)體確定單元35,具體用于:將所述待處理語句采用逆向最大匹配原則與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配,將所述待處理語句中與醫(yī)學(xué)本體術(shù)語庫中的標(biāo)準(zhǔn)術(shù)語名稱或同義詞相匹配的字符串抽出,作為第二組候選實(shí)體,并將所述標(biāo)準(zhǔn)術(shù)語名稱或同義詞所對(duì)應(yīng)的術(shù)語類型作為第二組候選實(shí)體的實(shí)體類型。具體的,如圖5所示,所述候選標(biāo)準(zhǔn)化術(shù)語確定單元37,包括:句法分析模塊371,用于判斷待處理語句是否滿足預(yù)先設(shè)置的句法結(jié)構(gòu)。實(shí)體舍棄模塊372,用于在待處理語句滿足預(yù)先設(shè)置的句法結(jié)構(gòu)時(shí),將待處理語句中的實(shí)體舍棄。實(shí)體類型判斷模塊373,用于在待處理語句不滿足預(yù)先設(shè)置的句法結(jié)構(gòu)時(shí),判斷待處理語句中的實(shí)體的實(shí)體類型是否包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體。實(shí)體篩選模塊374,用于在待處理語句中的實(shí)體的實(shí)體類型包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體,且待處理語句中的實(shí)體還包括藥品名稱實(shí)體,則將藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體保留;在待處理語句中的實(shí)體的實(shí)體類型包括藥品的劑型實(shí)體、規(guī)格實(shí)體或者包材實(shí)體,且待處理語句中的實(shí)體未包括藥品名稱實(shí)體,則將藥品的劑型實(shí)體、規(guī)格實(shí)體以及包材實(shí)體舍棄。此外,所述醫(yī)學(xué)本體術(shù)語庫匹配單元38中的預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫包括診斷詞表、診療詞表、藥品名稱表、藥品大概念表、劑型表、規(guī)格表、包裝規(guī)格表、包材表和生產(chǎn)企業(yè)表。所述醫(yī)學(xué)本體術(shù)語庫匹配單元38,具體用于:將待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與診斷詞表、診療詞表、藥品名稱表、藥品大概念表、劑型表、規(guī)格表、包裝規(guī)格表、包材表和生產(chǎn)企業(yè)表依次進(jìn)行匹配。進(jìn)一步的,如圖5所示,所述的醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,還包括:標(biāo)準(zhǔn)通用名轉(zhuǎn)化單元42,用于在待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型為產(chǎn)品名或商品名類型時(shí),通過預(yù)先設(shè)置的藥品名稱轉(zhuǎn)換表將所述產(chǎn)品名或商品名類型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語轉(zhuǎn)換為標(biāo)準(zhǔn)通用名。進(jìn)一步的,如圖5所示,所述的醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,還包括標(biāo)準(zhǔn)化結(jié)果確定單元43,用于在待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型包括藥品的通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型時(shí),將藥品的通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型分別對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的藥品表中的通用名、劑型、規(guī)格、包裝規(guī)格、包材以及生產(chǎn)企業(yè)字段匹配,并在匹配成功后將藥品通用名、劑型、規(guī)格、包裝規(guī)格、包材和生產(chǎn)企業(yè)類型分別對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化結(jié)果;在待處理語句中被確定的標(biāo)準(zhǔn)化術(shù)語的標(biāo)準(zhǔn)化術(shù)語類型包括藥品的通用名和劑型,將所述藥品的通用名和劑型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的通用名加劑型加給藥途徑表進(jìn)行匹配,并在匹配成功后將所述藥品的通用名和劑型對(duì)應(yīng)的標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化結(jié)果。具體的如圖5所示,所述匹配失敗處理單元40,包括:可刪減字符判斷模塊401,用于判斷匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中是否包括預(yù)先設(shè)置的可刪減字符;所述可刪減字符包括疾病限定詞、解剖詞、微生物詞、標(biāo)點(diǎn)符號(hào)??蓜h減字符刪除模塊402,用于在匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中包括預(yù)先設(shè)置的可刪減字符時(shí),將匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語中的可刪減字符刪除,再與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配。值得說明的是,本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置的具體實(shí)現(xiàn)方式可以參見上述圖1至圖3所對(duì)應(yīng)的方法實(shí)施例,此處不再贅述。本發(fā)明實(shí)施例提供的一種醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理裝置,首先獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語抽詞策略,對(duì)所述待處理語句進(jìn)行抽詞,確定第二組候選實(shí)體;若第一組候選實(shí)體和第二組候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組候選實(shí)體和第二組候選實(shí)體中確定待處理語句中的實(shí)體,并確定實(shí)體類型;根據(jù)預(yù)先設(shè)置的句法分析篩選規(guī)則,對(duì)待處理語句中的實(shí)體進(jìn)行篩選,確定待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語,并根據(jù)所述實(shí)體類型確定候選標(biāo)準(zhǔn)化術(shù)語類型;將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫進(jìn)行匹配;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型;若所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語與預(yù)先設(shè)置的醫(yī)學(xué)本體術(shù)語庫匹配失敗,則根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型,生成匹配失敗問題報(bào)告或者對(duì)匹配失敗且術(shù)語類型為疾病類的候選標(biāo)準(zhǔn)化術(shù)語根據(jù)預(yù)先設(shè)置的模糊匹配策略,進(jìn)行模糊匹配;若進(jìn)行模糊匹配成功,則將所述待處理語句中的候選標(biāo)準(zhǔn)化術(shù)語確定為標(biāo)準(zhǔn)化術(shù)語,并根據(jù)候選標(biāo)準(zhǔn)化術(shù)語類型確定標(biāo)準(zhǔn)化術(shù)語類型。這樣,采用本發(fā)明醫(yī)療大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化處理,可以實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)的自動(dòng)術(shù)語標(biāo)準(zhǔn)化,且匹配過程采用了句法分析、基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別、基于醫(yī)學(xué)本體的匹配以及模糊匹配的方式,避免了現(xiàn)有技術(shù)的匹配分詞方式較為單一,難以針對(duì)海量醫(yī)療大數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)準(zhǔn)化處理的問題。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。本發(fā)明中應(yīng)用了具體實(shí)施例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。當(dāng)前第1頁12