本公開涉及醫(yī)療大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種醫(yī)療命名實體識別系統(tǒng)生成方法及醫(yī)療命名實體識別系統(tǒng)生成裝置。
背景技術(shù):
醫(yī)療過程中,會產(chǎn)生大量的醫(yī)療數(shù)據(jù),主要包含患者的病歷、醫(yī)囑、護理文書、檢查所見和檢查結(jié)論等,這些數(shù)據(jù)反映了患者的基本信息、臨床診斷、治療過程和結(jié)果。隨著醫(yī)療系統(tǒng)信息化的建立和完善,越來越多的醫(yī)療數(shù)據(jù)由人工記錄的方式轉(zhuǎn)為電子化錄入。目前,對于病歷、醫(yī)囑、護理文書和檢查報告等臨床信息主要由醫(yī)療人員通過自然語言的方式書寫而成,信息結(jié)構(gòu)較為復(fù)雜。因而如何對大量這些非結(jié)構(gòu)化數(shù)據(jù)進行處理、分析和挖掘是醫(yī)療信息化建設(shè)的重要問題。其中,進行醫(yī)療命名實體識別是必不可少的。
現(xiàn)有技術(shù)中,對命名實體的識別方法一般包括三種:基于詞典的方法、基于啟發(fā)式規(guī)則的方法和基于機器學(xué)習(xí)的方法。前兩種方法對詞典或規(guī)則有很強的依賴性,且在中文方面,可供使用的資源相對匱乏。此外,對于海量醫(yī)療自然語言文本而言,由于不同醫(yī)療人員的寫法不一,使得同一個醫(yī)療命名實體通常具有很多種寫法。而基于機器學(xué)習(xí)的方法通常都是采用有監(jiān)督的方法,需要大量人工標(biāo)注才能達到一定效果。因此,如何在大量自然語言文本中快速挖掘輸出有意義的醫(yī)療命名實體是亟待解決的技術(shù)問題。
在所述背景技術(shù)部分公開的上述信息僅用于加強對本公開的背景的理解,因此它可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實現(xiàn)要素:
本公開的目的在于提供一種醫(yī)療命名實體識別系統(tǒng)生成方法及醫(yī)療命名實體識別系統(tǒng)生成裝置,進而至少在一定程度上克服由于相關(guān)技術(shù)的限制和缺陷而導(dǎo)致的一個或者多個問題。
根據(jù)本公開的一個方面,提供一種醫(yī)療命名實體識別系統(tǒng)生成方法,包括:
通過一醫(yī)療命名實體識別系統(tǒng)接收多個醫(yī)療文本樣本,并利用機器學(xué)習(xí)從所述多個醫(yī)療文本樣本獲取多個候選醫(yī)療命名實體;
對所述多個候選醫(yī)療命名實體進行標(biāo)注,得到多個推薦醫(yī)療命名實體;
計算所述推薦醫(yī)療命名實體和所述候選醫(yī)療命名實體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值;
在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時,將所述推薦醫(yī)療命名實體輸入至所述醫(yī)療命名實體識別系統(tǒng),并據(jù)以從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體并轉(zhuǎn)至對所述多個候選醫(yī)療命名實體進行標(biāo)注的步驟;
在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時,以當(dāng)前醫(yī)療命名實體識別系統(tǒng)作為目標(biāo)醫(yī)療命名實體識別系統(tǒng)。
在本公開的一種示例性實施例中,所述利用機器學(xué)習(xí)從所述多個醫(yī)療文本樣本獲取多個候選醫(yī)療命名實體包括:
計算所述多個醫(yī)療文本樣本中各個命名實體的權(quán)重值;
選取權(quán)重值最高的多個命名實體作為所述候選醫(yī)療命名實體。
在本公開的一種示例性實施例中,計算所述多個醫(yī)療文本樣本中各個命名實體的權(quán)重值包括:
在spark環(huán)境下,通過N-Gram算法和tf-idf算法計算所述多個醫(yī)療文本樣本中各個命名實體的權(quán)重值。
在本公開的一種示例性實施例中,所述將所述多個推薦醫(yī)療命名實體輸入至所述醫(yī)療命名實體識別系統(tǒng),并據(jù)以從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體包括:
從所述多個醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實體的上下文特征相似的命名實體作為補充醫(yī)療命名實體;
增加所述補充醫(yī)療命名實體在所述多個醫(yī)療文本樣本中的權(quán)重值;
選取權(quán)重值最高的多個命名實體作為所述候選醫(yī)療命名實體。
在本公開的一種示例性實施例中,所述從所述多個醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實體的上下文特征相似的命名實體作為補充醫(yī)療命名實體包括:
根據(jù)預(yù)設(shè)模型對所述多個醫(yī)療樣本文本進行分詞,得到多個切分單元;
獲取所述多個推薦醫(yī)療命名實體的上下文特征,并分別將各所述推薦醫(yī)療命名實體的上下文特征表示為第一向量;
獲取所述多個切分單元的上下文特征,并分別將各所述切分單元的上下文特征表示為第二向量;
計算所述第一向量與所述第二向量的相似度,并判斷所述相似度是否小于第二預(yù)設(shè)值;
選取與所述第一向量的相似度不小于所述第二預(yù)設(shè)值的第二向量,并將與所述第二向量表示的上下文特征對應(yīng)切分單元作為所述候選醫(yī)療命名實體。
在本公開的一種示例性實施例中,所述預(yù)設(shè)模型為隱馬爾科夫模型。
在本公開的一種示例性實施例中,其中,通過word2vec將各所述推薦醫(yī)療命名實體的上下文特征表示為第一向量以及將各所述切分單元的上下文特征表示為第二向量。
在本公開的一種示例性實施例中,所述第一預(yù)設(shè)值為85%-90%。
在本公開的一種示例性實施例中,其中,在對所述多個候選醫(yī)療命名實體進行標(biāo)注的同時,對被標(biāo)注的所述推薦醫(yī)療命名實體進行分類;
在從所述多個醫(yī)療文本樣本中獲取所述候選醫(yī)療命名實體的同時,根據(jù)與該所述候選醫(yī)療命名實體相似的所述推薦醫(yī)療命名實體的分類對該所述候選醫(yī)療命名實體推薦分類。
根據(jù)本公開的一個方面,提供一種醫(yī)療命名實體識別系統(tǒng)生成裝置,包括:
冷啟動單元,用于通過一醫(yī)療命名實體識別系統(tǒng)接收多個醫(yī)療文本樣本,并利用機器學(xué)習(xí)從所述多個醫(yī)療文本樣本獲取多個候選醫(yī)療命名實體;
標(biāo)注單元,用于對所述多個候選醫(yī)療命名實體進行標(biāo)注,得到多個推薦醫(yī)療命名實體;
評估單元,用于計算所述推薦醫(yī)療命名實體和所述候選醫(yī)療命名實體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值;
反饋單元,用于在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時,將所述推薦醫(yī)療命名實體輸入至所述醫(yī)療命名實體識別系統(tǒng),并據(jù)以從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體并反饋至所述標(biāo)注單元;
輸出單元,用于在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時,以當(dāng)前醫(yī)療命名實體識別系統(tǒng)作為目標(biāo)醫(yī)療命名實體識別系統(tǒng)。
本公開的醫(yī)療命名實體識別系統(tǒng)生成方法及裝置,通過向醫(yī)療命名實體識別系統(tǒng)輸入大量基于自然語言的醫(yī)療文本樣本,利用機器學(xué)習(xí)獲取多個候選醫(yī)療命名實體;然后對多個候選醫(yī)療命名實體進行標(biāo)注,得到多個推薦醫(yī)療命名實體;隨后,可計算推薦醫(yī)療命名實體和候選醫(yī)療命名實體的數(shù)量之比并將其與第一預(yù)設(shè)值進行比較,當(dāng)數(shù)量之比不小于第一預(yù)設(shè)值時,說明醫(yī)療命名實體識別系統(tǒng)的性能已經(jīng)滿足需要,此時,可直接將醫(yī)療命名實體識別系統(tǒng)作為目標(biāo)醫(yī)療命名實體識別系統(tǒng)進行輸出;當(dāng)數(shù)量之比小于第一預(yù)設(shè)值時,則說明醫(yī)療命名實體識別系統(tǒng)的性能尚未滿足需要,可將多個推薦醫(yī)療命名實體輸入至醫(yī)療命名實體識別系統(tǒng)并根據(jù)多個推薦醫(yī)療命名實體從多個醫(yī)療文本樣本中獲取多個候選醫(yī)療命名實體并再次進行標(biāo)注,得到更多個推薦醫(yī)療命名實體,依此類推迭代,直至數(shù)量之比不小于第一預(yù)設(shè)值時,即醫(yī)療命名實體識別系統(tǒng)的性能已經(jīng)滿足需要時,可將醫(yī)療命名實體識別系統(tǒng)作為目標(biāo)醫(yī)療命名實體識別系統(tǒng)進行輸出。
在上述過程中,結(jié)合機器學(xué)習(xí)和人工標(biāo)注,也即結(jié)合非監(jiān)督和有監(jiān)督算法,快速生成性能滿足需要的醫(yī)療命名實體識別系統(tǒng),進而可以在最小人工標(biāo)注代價下快速產(chǎn)出的醫(yī)療命名實體,同時可以保證在海量數(shù)據(jù)集中可以達到良好的識別率。
附圖說明
通過參照附圖詳細描述其示例實施方式,本公開的上述和其它特征及優(yōu)點將變得更加明顯。
圖1是本公開實施例醫(yī)療命名實體識別系統(tǒng)生成方法的流程圖;
圖2是本公開實施例醫(yī)療命名實體識別系統(tǒng)生成方法中利用機器學(xué)習(xí)從所述多個醫(yī)療文本樣本獲取多個候選醫(yī)療命名實體的流程圖;
圖3是本公開實施例醫(yī)療命名實體識別系統(tǒng)生成方法中將所述多個推薦醫(yī)療命名實體輸入至所述醫(yī)療命名實體識別系統(tǒng),并據(jù)以從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體的流程圖;
圖4是是本公開實施例醫(yī)療命名實體識別系統(tǒng)生成裝置的原理框圖。
具體實施方式
現(xiàn)在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實施方式使得本公開將更加全面和完整,并將示例實施方式的構(gòu)思全面地傳達給本領(lǐng)域的技術(shù)人員。所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個或更多實施方式中。在下面的描述中,提供許多具體細節(jié)從而給出對本公開的實施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識到,可以實踐本公開的技術(shù)方案而省略所述特定細節(jié)中的一個或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細示出或描述公知技術(shù)方案以避免喧賓奪主而使得本公開的各方面變得模糊。
此外,附圖僅為本公開的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對它們的重復(fù)描述。附圖中所示的一些方框圖是功能實體,不一定必須與物理或邏輯上獨立的實體相對應(yīng)??梢圆捎密浖问絹韺崿F(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實現(xiàn)這些功能實體。
本示例實施方式中首先提供了一種醫(yī)療命名實體識別系統(tǒng)生成方法,參照圖1中所示,所述醫(yī)療命名實體識別系統(tǒng)生成方法可以包括以下步驟:
步驟S11,通過一醫(yī)療命名實體識別系統(tǒng)接收多個醫(yī)療文本樣本,并利用機器學(xué)習(xí)從所述多個醫(yī)療文本樣本獲取多個候選醫(yī)療命名實體。舉例而言,可向所述醫(yī)療命名實體識別系統(tǒng)輸入大量的醫(yī)療文本樣本,所述醫(yī)療文本樣本中包括大量醫(yī)療命名實體和非醫(yī)療命名實體,通過機器學(xué)習(xí)的方式從所述醫(yī)療文本樣本中篩選出多個醫(yī)療命名實體作為候選醫(yī)療命名實體。
步驟S12,對所述多個候選醫(yī)療命名實體進行標(biāo)注,得到多個推薦醫(yī)療命名實體;本示例實施方式中,對候選醫(yī)療命名實體進行標(biāo)注即標(biāo)注出候選醫(yī)療命名實體是否為真正的醫(yī)療命名實體,在候選醫(yī)療命名實體是真正的醫(yī)療命名實體時,則可以將該候選醫(yī)療命名實體作為推薦醫(yī)療命名實體。
步驟S13,計算所述推薦醫(yī)療命名實體和所述候選醫(yī)療命名實體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值;其中,所述數(shù)量之比即所述推薦醫(yī)療命名實體在所述候選醫(yī)療命名實體中所占比例,所述第一預(yù)設(shè)值可視為所述數(shù)量之比的閾值,所述第一預(yù)設(shè)值越高,所述推薦醫(yī)療命名實體在所述候選醫(yī)療命名實體中所占的比例越大,則相應(yīng)的最終得到的醫(yī)療命名實體識別系統(tǒng)的醫(yī)療命名實體識別率越高。舉例而言,本示例實施方式中,所述第一預(yù)設(shè)值為85%-90%,具體如86%、88%等,但不以此為限,所述第一預(yù)設(shè)值也可為低于85%的數(shù)值或高于90%的數(shù)值。
步驟S14,在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時,則說明所述推薦醫(yī)療命名實體在所述候選醫(yī)療命名實體中所占的比例沒有達到預(yù)定水平,即所述醫(yī)療命名實體識別系統(tǒng)的醫(yī)療命名實體識別率過低,此時可將所述推薦醫(yī)療命名實體輸入至所述醫(yī)療命名實體識別系統(tǒng),并據(jù)以從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體并轉(zhuǎn)至對所述多個候選醫(yī)療命名實體進行標(biāo)注的步驟;從而不斷循環(huán)迭代,使醫(yī)療命名實體識別系統(tǒng)的醫(yī)療命名實體識別率不斷提升,直至所述數(shù)量之比不小于所述第一預(yù)設(shè)值,即后續(xù)步驟S15。
步驟S15.在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時,則說明醫(yī)療命名實體識別系統(tǒng)的醫(yī)療命名實體識別率滿足需求,此時,可以當(dāng)前醫(yī)療命名實體識別系統(tǒng)作為目標(biāo)醫(yī)療命名實體識別系統(tǒng)。
進一步的,參照圖2,本示例實施方式中,步驟S11中的所述利用機器學(xué)習(xí)從所述多個醫(yī)療文本樣本獲取多個候選醫(yī)療命名實體可包括:
步驟S111,計算所述多個醫(yī)療文本樣本中各個命名實體的權(quán)重值,所述權(quán)重值具體可為各個所述命名實體的詞頻;以及
步驟S112,選取多個命名實體作為所述候選醫(yī)療命名實體,所選命名實體的權(quán)重值高于未被選的命名實體的權(quán)重值。從而選出多個權(quán)重值較高的命名實體,權(quán)重值較高的命名實體則有更高的可能為醫(yī)療命名實體。舉例而言,本示例實施方式中,可通過以下方式多個醫(yī)療命名實體作為所述候選醫(yī)療命名實體:
例如,可以按照權(quán)重值的大小對各個所述命名實體進行排序,再選取權(quán)重值較大的多個所述命名實體作為所述候選醫(yī)療命名實體。再例如,也可以預(yù)先設(shè)定預(yù)定權(quán)重值,將各個所述命名實體的權(quán)重值與所述預(yù)定權(quán)重值進行比較,再選取權(quán)重值不小于所述預(yù)定權(quán)重值的命名實體作為所述候選醫(yī)療命名實體。
此外,本示例實施方式中,上述計算所述多個醫(yī)療文本樣本中各個命名實體的權(quán)重值可以包括:
在spark環(huán)境下,通過N-Gram模型和tf-idf算法計算所述多個醫(yī)療文本樣本中各個命名實體的權(quán)重值。在此過程中,窗口值可取小于6的值,即命名實體詞的長度為5字之內(nèi)。但本領(lǐng)域技術(shù)人員容易理解的是,在本公開的其他示例性實施例中,根據(jù)計算環(huán)境的不同以及需求的不同等,也可以通過其他方式計算上述權(quán)重值或者通過其他機器學(xué)習(xí)方式獲取上述多個候選醫(yī)療命名實體,這些均同樣屬于本公開的保護范圍。
進一步的,參照圖3,本示例實施方式中,步驟S14中的所述將所述多個推薦醫(yī)療命名實體輸入至所述醫(yī)療命名實體識別系統(tǒng),并據(jù)以從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體可包括以下步驟:
步驟S141,從所述多個醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實體的上下文特征相似的命名實體作為補充醫(yī)療命名實體。舉例而言,對于所述多個醫(yī)療樣本文本中所述推薦醫(yī)療命名實體以外的命名實體,可以將其上下文特征與所述推薦醫(yī)療命名實體的上下文特征進行比較,獲取與所述推薦醫(yī)療命名實體的上下文特征相似的命名實體作為補充醫(yī)療命名實體。由于所述補充醫(yī)療命名實體的上下文特征與所述推薦醫(yī)療命名實體相似,因此,可以推斷所述補充醫(yī)療命名實體與所述推薦醫(yī)療命名實體相似,進而可以認為補充醫(yī)療命名實體可能為真正的醫(yī)療命名實體。
步驟S142,增加所述補充醫(yī)療命名實體在所述多個醫(yī)療文本樣本中的權(quán)重值,隨后可重新獲取所述候選醫(yī)療命名實體,由于增加了所述補充醫(yī)療命名實體的權(quán)重值,使得所述補充醫(yī)療命名實體被選為所述候選醫(yī)療命名實體的概率增大。
步驟S143,選取權(quán)重值高于其它命名實體的多個命名實體作為所述候選醫(yī)療命名實體。此時的所述候選醫(yī)療命名實體包括了所述補充醫(yī)療命名實體,因此使得下次標(biāo)注結(jié)果中,可能由補充醫(yī)療命名實體產(chǎn)生更多的推薦醫(yī)療命名實體。
更進一步的,本示例實施方式中,所述從所述多個醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實體的上下文特征相似的醫(yī)療命名實體作為補充醫(yī)療命名實體可以包括以下步驟:
根據(jù)預(yù)設(shè)模型對所述多個醫(yī)療樣本文本進行分詞,得到多個切分單元,所述切分單元可為分詞后得到的實體詞;本示例實施方式中,所述預(yù)設(shè)模型可采用隱馬爾科夫模型、最大熵模型或者條件隨機場模型等,本示例性實施例中對此不做特殊限定。
獲取所述多個推薦醫(yī)療命名實體的上下文特征,并分別將各所述推薦醫(yī)療命名實體的上下文特征表示為第一向量,將所述推薦醫(yī)療命名實體的上下文特征向量化,從而便于量化比較。舉例而言,本示例實施方式中可使用word2vec工具實現(xiàn)該過程,但并不以此為限。
獲取所述多個切分單元的上下文特征,并分別將各所述切分單元的上下文特征表示為第二向量,將各個所述切分單元向量化,從而便于量化比較。舉例而言,本示例實施方式中可使用word2vec工具實現(xiàn)該過程,但并不以此為限。
計算所述第一向量與所述第二向量的相似度,并判斷所述相似度是否小于第二預(yù)設(shè)值;所述第二預(yù)設(shè)值可有用戶自行設(shè)定,所述第二設(shè)定值越大,則第一向量和所述第二向量的相似度越高,反之,相似度越低。
選取與所述第一向量的相似度不小于所述第二預(yù)設(shè)值的第二向量,并將與所述第二向量表示的上下文特征對應(yīng)切分單元作為所述候選醫(yī)療命名實體。從而通過比較向量的相似度得出所述切分單元和所述推薦醫(yī)療命名實體的相似度。
進一步的,在所述醫(yī)療命名實體識別系統(tǒng)生成方法中,在對所述多個候選醫(yī)療命名實體進行標(biāo)注的同時,還可以對所述多個候選醫(yī)療命名實體進行分類;例如:白血病對應(yīng)的分類為病癥,發(fā)熱對應(yīng)的分類為癥狀,若所述候選醫(yī)療命名實體為無意義詞,其分類可為無意義類等等。
在從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體的同時,可以根據(jù)與該候選醫(yī)療命名實體相似的推薦醫(yī)療命名實體,即已經(jīng)被標(biāo)注的醫(yī)療命名實體的分類,對多個所述候選醫(yī)療命名實體推薦分類,從而將所述多個候選醫(yī)療命名實體與不同的分類對應(yīng),使得在生成所述醫(yī)療命名實體識別系統(tǒng)的同時,還可便于對所述醫(yī)療命名實體的分類。例如,
綜上所述,本公開實施例的醫(yī)療命名實體識別系統(tǒng)生成方法,可向所述醫(yī)療命名實體識別系統(tǒng)輸入大量基于自然語言的醫(yī)療文本樣本,通過機器學(xué)習(xí)獲取多個候選醫(yī)療命名實體;然后對所述多個候選醫(yī)療命名實體進行標(biāo)注,得到所述多個推薦醫(yī)療命名實體;隨后,可計算所述數(shù)量之比將其與所述第一預(yù)設(shè)值進行比較,當(dāng)所述數(shù)量之比不小于所述第一預(yù)設(shè)值時,說明所述推薦醫(yī)療命名實體的數(shù)量達到要求,此時,可直接將所述醫(yī)療命名實體識別系統(tǒng)作為目標(biāo)醫(yī)療命名實體識別系統(tǒng)進行輸出;當(dāng)所述數(shù)量之比小于所述第一預(yù)設(shè)值時,則說明所述推薦醫(yī)療命名實體的數(shù)量未達到要求,可將所述多個推薦醫(yī)療命名實體輸入至所述醫(yī)療命名實體識別系統(tǒng)并根據(jù)所述多個推薦醫(yī)療命名實體從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體并再次進行標(biāo)注,得到更多個所述推薦醫(yī)療命名實體,依此類推迭代,直至所述數(shù)量之比不小于所述第一預(yù)設(shè)值時,即所述推薦醫(yī)療命名實體的數(shù)量未達到要求時,可將所述醫(yī)療命名實體識別系統(tǒng)作為目標(biāo)醫(yī)療命名實體識別系統(tǒng)進行輸出。
在上述過程中,可根據(jù)醫(yī)療樣本文本中自動挖掘數(shù)量達到要求的醫(yī)療命名實體,即有意義的醫(yī)療命名實體,減少了人工標(biāo)注,降低了人力成本,并且可不斷迭代,減少人工操作。由此,可從大量自然語言文本中快速挖掘輸出有意義的醫(yī)療命名實體。
根據(jù)本公開實施方式的另一方面,提供一種醫(yī)療命名實體識別系統(tǒng)生成裝置,參照圖4中所示,所述醫(yī)療命名實體識別系統(tǒng)生成裝置包括冷啟動單元10、標(biāo)注單元20、評估單元30、反饋單元40以及輸出單元50。其中:
冷啟動單元10可以用于通過一醫(yī)療命名實體識別系統(tǒng)接收多個醫(yī)療文本樣本,并利用機器學(xué)習(xí)從所述多個醫(yī)療文本樣本獲取多個候選醫(yī)療命名實體。
標(biāo)注單元20可以用于對所述多個候選醫(yī)療命名實體進行標(biāo)注,得到多個推薦醫(yī)療命名實體。
評估單元30可以用于計算所述推薦醫(yī)療命名實體和所述候選醫(yī)療命名實體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值。
反饋單元40可以用于在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時,將所述推薦醫(yī)療命名實體輸入至所述醫(yī)療命名實體識別系統(tǒng),并據(jù)以從所述多個醫(yī)療文本樣本中獲取多個所述候選醫(yī)療命名實體并反饋至所述標(biāo)注單元。
輸出單元50可以用于在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時,以當(dāng)前醫(yī)療命名實體識別系統(tǒng)作為目標(biāo)醫(yī)療命名實體識別系統(tǒng)。
需要說明的是,上述所述醫(yī)療命名實體識別系統(tǒng)生成裝置具體實現(xiàn)細節(jié)以及有益效果已經(jīng)在對應(yīng)的所述醫(yī)療命名實體識別系統(tǒng)生成方法中進行了詳細想描述,因而不再贅述。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。