1.一種醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,包括:
通過(guò)一醫(yī)療命名實(shí)體識(shí)別系統(tǒng)接收多個(gè)醫(yī)療文本樣本,并利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體;
對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注,得到多個(gè)推薦醫(yī)療命名實(shí)體;
計(jì)算所述推薦醫(yī)療命名實(shí)體和所述候選醫(yī)療命名實(shí)體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值;
在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時(shí),將所述推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體并轉(zhuǎn)至對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注的步驟;
在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時(shí),以當(dāng)前醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)。
2.根據(jù)權(quán)利要求1所述的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,所述利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體包括:
計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值;
選取權(quán)重值最高的多個(gè)命名實(shí)體作為所述候選醫(yī)療命名實(shí)體。
3.根據(jù)權(quán)利要求2所述的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值包括:
在spark環(huán)境下,通過(guò)N-Gram算法和tf-idf算法計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值。
4.根據(jù)權(quán)利要求2或所述的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,所述將所述多個(gè)推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體包括:
從所述多個(gè)醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實(shí)體的上下文特征相似的命名實(shí)體作為補(bǔ)充醫(yī)療命名實(shí)體;
增加所述補(bǔ)充醫(yī)療命名實(shí)體在所述多個(gè)醫(yī)療文本樣本中的權(quán)重值;
選取權(quán)重值最高的多個(gè)命名實(shí)體作為所述候選醫(yī)療命名實(shí)體。
5.根據(jù)權(quán)利要求4所述的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,所述從所述多個(gè)醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實(shí)體的上下文特征相似的命名實(shí)體作為補(bǔ)充醫(yī)療命名實(shí)體包括:
根據(jù)預(yù)設(shè)模型對(duì)所述多個(gè)醫(yī)療樣本文本進(jìn)行分詞,得到多個(gè)切分單元;
獲取所述多個(gè)推薦醫(yī)療命名實(shí)體的上下文特征,并分別將各所述推薦醫(yī)療命名實(shí)體的上下文特征表示為第一向量;
獲取所述多個(gè)切分單元的上下文特征,并分別將各所述切分單元的上下文特征表示為第二向量;
計(jì)算所述第一向量與所述第二向量的相似度,并判斷所述相似度是否小于第二預(yù)設(shè)值;
選取與所述第一向量的相似度不小于所述第二預(yù)設(shè)值的第二向量,并將與所述第二向量表示的上下文特征對(duì)應(yīng)切分單元作為所述候選醫(yī)療命名實(shí)體。
6.根據(jù)權(quán)利要求5所述的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,所述預(yù)設(shè)模型為隱馬爾科夫模型。
7.根據(jù)權(quán)利要求5所述的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,其中,通過(guò)word2vec將各所述推薦醫(yī)療命名實(shí)體的上下文特征表示為第一向量以及將各所述切分單元的上下文特征表示為第二向量。
8.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,所述第一預(yù)設(shè)值為85%-90%。
9.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,其特征在于,其中,在對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注的同時(shí),對(duì)被標(biāo)注的所述推薦醫(yī)療命名實(shí)體進(jìn)行分類;
在從所述多個(gè)醫(yī)療文本樣本中獲取所述候選醫(yī)療命名實(shí)體的同時(shí),根據(jù)與該所述候選醫(yī)療命名實(shí)體相似的所述推薦醫(yī)療命名實(shí)體的分類對(duì)該所述候選醫(yī)療命名實(shí)體推薦分類。
10.一種醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成裝置,其特征在于,包括:
冷啟動(dòng)單元,用于通過(guò)一醫(yī)療命名實(shí)體識(shí)別系統(tǒng)接收多個(gè)醫(yī)療文本樣本,并利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體;
標(biāo)注單元,用于對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注,得到多個(gè)推薦醫(yī)療命名實(shí)體;
評(píng)估單元,用于計(jì)算所述推薦醫(yī)療命名實(shí)體和所述候選醫(yī)療命名實(shí)體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值;
反饋單元,用于在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時(shí),將所述推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體并反饋至所述標(biāo)注單元;
輸出單元,用于在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時(shí),以當(dāng)前醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)。