本發(fā)明涉及醫(yī)療領域,尤其涉及一種用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法和裝置、以及一種確定ocr識別結果中數(shù)據(jù)屬性的方法和裝置。
背景技術:
目前,可通過光學字符識別(opticalcharacterrecognition,ocr)算法將圖片中的文本識別出來。其中,光學字符識別(opticalcharacterrecognition,ocr)是指通過圖像處理和模式識別技術對圖片中的光學字符進行識別,并將光學字符翻譯成計算機文字的過程。
相關技術中,通過光學字符識別算法對待識別的醫(yī)學資料圖片進行識別之后,可將識別之后的結果提供至用戶,其中,ocr算法對于醫(yī)學資料圖片的識別結果是一個二維的字符串數(shù)組。但存在的問題是,通過光學字符識別算法識別待識別的醫(yī)學資料圖片之后,需要人工參與對識別結果進行進一步地標注操作才能確定該識別結果數(shù)組中每列數(shù)據(jù)的屬性,從而使得整個識別過程耗時耗力,且效率低。
技術實現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發(fā)明的一個目的在于提出一種用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法,該方法通過訓練生成決策樹模型,實現(xiàn)了對識別結果中數(shù)據(jù)屬性的自動標注的目的,有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
本發(fā)明的第二個目的在于提出一種確定ocr識別結果中數(shù)據(jù)屬性的方法。
本發(fā)明的第三個目的在于提出一種用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置。
本發(fā)明的第四個目的在于提出一種確定ocr識別結果中數(shù)據(jù)屬性的裝置。
為達上述目的,本發(fā)明第一方面實施例提出了一種用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法,包括:獲取樣本醫(yī)學資料圖片,并對所述樣本醫(yī)學資料圖片進行ocr識別以生成第一ocr識別結果,所述第一ocr識別結果為二維字符串數(shù)組,所述二維字符串數(shù)組中的每列數(shù)據(jù)用于指示屬于同一個屬性列的數(shù)據(jù);提取所述第一ocr識別結果中的各個數(shù)據(jù)的第一特征信息;獲取與所述第一ocr識別結果中的各個數(shù)據(jù)對應的第一標注數(shù)據(jù),所述第一標注數(shù)據(jù)用于指示所述各個數(shù)據(jù)所屬的屬性;根據(jù)所述第一特征信息和所述第一標注數(shù)據(jù)進行訓練以生成所述用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型。
本發(fā)明實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法,通過對獲取的樣本醫(yī)學資料圖片進行ocr識別生成第一ocr識別結果,并提取第一ocr識別結果中各個數(shù)據(jù)的第一特征信息,獲取與第一ocr識別結果中各個數(shù)據(jù)對應的第一標注數(shù)據(jù),并根據(jù)第一特征信息和第一標注數(shù)據(jù)進行訓練以生成用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型。從而通過生成的決策樹模型實現(xiàn)了對識別結果中數(shù)據(jù)屬性的自動標注的目的,有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
為達上述目的,本發(fā)明第二方面實施例提出了一種確定ocr識別結果中數(shù)據(jù)屬性的方法,包括:獲取待處理醫(yī)學資料圖片的第三ocr識別結果;提取所述第三ocr識別結果中的各個數(shù)據(jù)的第三特征信息;根據(jù)決策樹模型對所述第三特征信息進行預測以確定所述第三ocr識別結果中的各個數(shù)據(jù)的屬性,其中,所述決策樹模型是由所述的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法生成的。
本發(fā)明實施例的確定ocr識別結果中數(shù)據(jù)屬性的方法,首先獲取待處理醫(yī)學資料圖片的第三ocr識別結果,其次提取第三ocr識別結果中的各個數(shù)據(jù)的第三特征信息,最后根據(jù)決策樹模型對第三特征進行預測以確定第三ocr識別結果中的各個數(shù)據(jù)的屬性。由此,通過生成的決策樹模型對待處理圖片進行標注,從而避免了人工進行數(shù)據(jù)屬性標注的情況出現(xiàn),有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
為達上述目的,本發(fā)明第三方面實施例提出了一種用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置,包括:第一獲取模塊,用于獲取樣本醫(yī)學資料圖片;ocr識別模塊,用于對所述樣本醫(yī)學資料圖片進行ocr識別以生成第一ocr識別結果,所述第一ocr識別結果為二維字符串數(shù)組,所述二維字符串數(shù)組中的每列數(shù)據(jù)用于指示屬于同一個屬性列的數(shù)據(jù);第一提取模塊,用于提取所述第一ocr識別結果中的各個數(shù)據(jù)的第一特征信息;第二獲取模塊,用于獲取與所述第一ocr識別結果中的各個數(shù)據(jù)對應的第一標注數(shù)據(jù),所述第一標注數(shù)據(jù)用于指示所述各個數(shù)據(jù)所屬的屬性;訓練模塊,用于根據(jù)所述第一特征信息和所述第一標注數(shù)據(jù)進行訓練以生成所述用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型。
本發(fā)明實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置,通過ocr識別模塊對第一獲取模塊獲取的樣本醫(yī)學資料圖片進行ocr識別生成第一ocr識別結果,并通過第一提取模塊提取第一ocr識別結果中各個數(shù)據(jù)的第一特征信息,以及第二獲取模塊獲取與第一ocr識別結果中各個數(shù)據(jù)對應的第一標注數(shù)據(jù),并通過訓練模塊根據(jù)第一特征信息和第一標注數(shù)據(jù)進行訓練以生成用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型。從而通過生成的決策樹模型實現(xiàn)了對識別結果中數(shù)據(jù)屬性的自動標注的目的,有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
為達上述目的,本發(fā)明第四方面實施例提出了一種確定ocr識別結果中數(shù)據(jù)屬性的裝置,包括:獲取模塊,用于獲取待處理醫(yī)學資料圖片的第三ocr識別結果;提取模塊,用于提取所述第三ocr識別結果中的各個數(shù)據(jù)的第三特征信息;確定模塊,用于根據(jù)決策樹模型對所述第三特征信息進行預測以確定所述第三ocr識別結果中的各個數(shù)據(jù)的屬性,其中,所述決策樹模型是由所述的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置生成的。
本發(fā)明實施例的確定ocr識別結果中數(shù)據(jù)屬性的裝置,首先通過獲取模塊獲取待處理醫(yī)學資料圖片的第三ocr識別結果,其次根據(jù)提取模塊提取第三ocr識別結果中的各個數(shù)據(jù)的第三特征信息,最后通過確定模塊根據(jù)決策樹模型對第三特征進行預測以確定第三ocr識別結果中的各個數(shù)據(jù)的屬性。由此,通過生成的決策樹模型對待處理圖片進行標注,從而避免了人工進行數(shù)據(jù)屬性標注的情況出現(xiàn),有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明的上述和/或附加的方面和優(yōu)點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為本發(fā)明一個實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法的流程圖;
圖2為本發(fā)明另一個實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法的流程圖;
圖3為本發(fā)明一個實施例的確定ocr識別結果中數(shù)據(jù)屬性的方法的流程圖;
圖4為本發(fā)明一個實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置的結構示意圖;
圖5為本發(fā)明另一個實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置的結構示意圖;
圖6為本發(fā)明一個實施例的確定ocr識別結果中數(shù)據(jù)屬性的裝置的結構示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
下面參考附圖描述根據(jù)本發(fā)明實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型訓練方法、確定ocr識別結果中數(shù)據(jù)屬性的方法及裝置。
圖1為本發(fā)明一個實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法的流程圖。
如圖1所示,根據(jù)本發(fā)明實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法,包括以下步驟:
s101,獲取樣本醫(yī)學資料圖片,并對樣本醫(yī)學資料圖片進行ocr識別以生成第一ocr識別結果,第一ocr識別結果為二維字符串數(shù)組,二維字符串數(shù)組中的每列數(shù)據(jù)用于指示屬于同一個屬性列的數(shù)據(jù)。
具體地,在本實施例中,獲取樣本醫(yī)學資料圖片的實現(xiàn)方式可以是通過線上系統(tǒng)選取,其中,獲取的樣本醫(yī)學資料圖片數(shù)目可以為1000張,也可以為2000張,在此不作具體限制。
其中,在本實施例中,樣本醫(yī)學資料圖片為樣本健康體檢報告圖片。可以理解,樣本健康體檢報告圖片中的文本信息多為表格文本,每個表格中的每列數(shù)據(jù)屬于同一個屬性。為此,該樣本健康體檢報告圖片的ocr識別結果為一個二維的字符串數(shù)組,數(shù)組的每一列都是代表同一個屬性列的數(shù)據(jù)。
進一步地,在獲取到樣本醫(yī)學資料圖片之后可通過ocr(opticalcharacterrecognition,光學字符識別)算法對該樣本醫(yī)學資料圖片進行識別操作,以生成第一ocr識別結果。其中,通過ocr算法識別樣本醫(yī)學資料圖片具體可包括以下步驟:
步驟一,對樣本醫(yī)學資料圖片進行預處理;
其中,預處理可包括二值化處理、去噪處理、以及傾斜校正等處理。
步驟二,預處理之后,對樣本醫(yī)學資料圖片的版面進行分析;
步驟三,字符切割;
步驟四,字符切割完畢之后,執(zhí)行字符識別操作;
步驟五,版面恢復;
步驟六,后處理、校驗。
進而,根據(jù)生成的第一ocr識別結果進行進一步地的提取操作。
s102,提取第一ocr識別結果中的各個數(shù)據(jù)的第一特征信息。
其中,在本實施例中,當樣本醫(yī)學資料圖片為樣本健康體檢報告圖片時,則提取的第一特征信息至少可包括:是否包含中文、是否包含英文、是否包含字母、是否包含標點、字符串長度、與詞庫中檢測項匹配最大相似度、是否包含單位關鍵詞、是否包含參考范圍關鍵詞等。
s103,獲取與第一ocr識別結果中的各個數(shù)據(jù)對應的第一標注數(shù)據(jù),第一標注數(shù)據(jù)用于指示各個數(shù)據(jù)所屬的屬性。
其中,第一標注數(shù)據(jù)是由人工對樣本醫(yī)學資料圖片的ocr識別結果進行數(shù)據(jù)標注。
對樣本醫(yī)學資料圖片的ocr識別結果進行的數(shù)據(jù)標注,主要是用于指示各個數(shù)據(jù)所屬的屬性。其中,在本實施例中,當樣本醫(yī)學資料圖片為樣本健康體檢報告圖片時,則屬性至少可包括:檢測項名稱、檢測項英文值、檢測值、單位和參考范圍等??梢岳斫?,上述屬性和第一特征信息是與樣本醫(yī)學資料圖片的類型有直接關系的,例如,本實施例是以樣本醫(yī)學資料圖片為樣本健康體檢報告圖片為例,則其對應的屬性可包括檢測項名稱、檢測項英文值、檢測值、單位和參考范圍等,第一特征信息可包括:是否包含中文、是否包含英文、是否包含字母、是否包含標點、字符串長度、與詞庫中檢測項匹配最大相似度、是否包含單位關鍵詞、是否包含參考范圍關鍵詞等;當樣本醫(yī)學資料圖片為其他類型圖片時,則上述屬性和第一特征信息是由該其他類型圖片中的文本信息特點決定的,在此不作具體限定。
s104,根據(jù)第一特征信息和第一標注數(shù)據(jù)進行訓練以生成用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型。
具體地,在獲取到第一特征信息和第一標注數(shù)據(jù)之后,可根據(jù)第一特征信息和第一標注數(shù)據(jù)進行相應計算以生成決策樹模型。舉例說明如下:
假設獲取的第一標注數(shù)據(jù)為檢測項名稱、檢測項英文值、參考范圍,則根據(jù)第一標注數(shù)據(jù)中的屬性分別確定第一特征信息中是否包含檢測項名稱,是否包含檢測項英文值,是否包含參考范圍關鍵詞,上述整個確定過程可建立一個決策樹,并對建立的決策樹修剪以得到一個最優(yōu)的決策方案,并根據(jù)最優(yōu)的決策方案生成一個決策樹模型。
本發(fā)明實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法,通過對獲取的樣本醫(yī)學資料圖片進行ocr識別生成第一ocr識別結果,并提取第一ocr識別結果中各個數(shù)據(jù)的第一特征信息,獲取與第一ocr識別結果中各個數(shù)據(jù)對應的第一標注數(shù)據(jù),并根據(jù)第一特征信息和第一標注數(shù)據(jù)進行訓練以生成用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型。從而通過生成的決策樹模型實現(xiàn)了對識別結果中數(shù)據(jù)屬性的自動標注的目的,有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
基于上述實施例的基礎上,在根據(jù)第一特征信息和第一標注數(shù)據(jù)進行訓練以生成用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型之后,如圖2所示,該方法還可以包括:
s201,獲取測試醫(yī)學資料圖片的第二ocr識別結果,并提取第二ocr識別結果中的各個數(shù)據(jù)的第二特征信息。
具體地,在本實施例中,獲取測試醫(yī)學資料圖片可通過線上系統(tǒng)選取實現(xiàn),其中,獲取的測試醫(yī)學資料圖片數(shù)據(jù)可以為100張,或者150張,在此不作具體限制。
其中,對獲取到的測試醫(yī)學資料圖片進行ocr識別可具體參見上述實施例中的方式,在此不作過多贅述。
在得到第二ocr識別結果之后,可提取第二ocr識別結果中的各個數(shù)據(jù)的第二特征信息。其中,以測試醫(yī)學資料圖片為測試健康體檢報告圖片為例,則第二特征信息至少包括:是否包含中文、是否包含英文、是否包含字母、是否包含標點、字符串長度、與詞庫中檢測項匹配最大相似度、是否包含單位關鍵詞、是否包含參考范圍關鍵詞。
s202,獲取與第二ocr識別結果中的各個數(shù)據(jù)對應的第二標注數(shù)據(jù)。
其中,第二標注數(shù)據(jù)是由人工對測試醫(yī)學資料圖片的ocr識別結果進行的數(shù)據(jù)標注。
s203,根據(jù)決策樹模型對第二特征信息進行預測以生成預測結果。
具體地,在步驟s201提取到第二ocr識別結果中的各個數(shù)據(jù)的第二特征信息之后,可通過上述實施例中生成的決策樹模型對提取的第二特征信息進行預測以生成預測結果。
s204,根據(jù)第二標注數(shù)據(jù)對預測結果進行驗證,并根據(jù)驗證結果對決策樹模型進行優(yōu)化。
具體地,在得到預測結果之后,可根據(jù)獲取的第二標注數(shù)據(jù)對預測結果進行驗證,以確定上述實施例中生成的決策樹模型的預測正確率,并根據(jù)確定的正確率執(zhí)行相應地優(yōu)化等操作。
需要說明的是,在本實施例中,確定預測結果是否符合要求可根據(jù)預測的正確率與預設的閾值相比較來判定。其中預設閾值可以是預先設定符合要求的閾值,例如預設閾值為預測結果的正確率70%,或者75%,當然還可以根據(jù)實際需要設定不同的預設閾值,在此不做具體限制。
其中,驗證的結果具體包括以下幾種情況,舉例說明如下:
示例一,假設在本實施例中,根據(jù)獲取的第二標注數(shù)據(jù)確定出上述實施例中生成的決策樹模型的預測正確率為98%,則說明上述實施例中生成的決策樹模型符合要求,從而可根據(jù)該決策樹模型對醫(yī)學資料圖片的ocr識別結果進行數(shù)據(jù)標注。
示例二,假設在本實施例中,根據(jù)獲取的第二標注數(shù)據(jù)確定出上述實施例中生成的決策樹模型的預測正確率為46%,則說明上述實施例中生成的決策樹模型不符合要求,即預測結果中存在比較多的錯誤信息文本(badcase)。因此,需要對該決策樹模型進行優(yōu)化,以提高該決策樹模型的預測準確率。
其中,對該決策樹模型進行優(yōu)化具體可通過以下步驟實現(xiàn):在獲取測試醫(yī)學資料圖片的ocr結果中重新提取出新的第一特征信息,重新訓練該決策樹模型。優(yōu)選地,可從驗證結果中獲取錯誤信息文本,并從該錯誤信息文本中重新提取出新的第一特征信息,以使得通過該新的第一特征信息重新訓練該決策樹模型。
本實施例通過對生成的決策樹模型進行正確性驗證,以確定決策樹模型的正確率是否符合預測要求,并在確定決策樹模型不符合要求時不斷優(yōu)化決策樹模型,以提高系統(tǒng)的預測準確率。
圖3為本發(fā)明一個實施例的確定ocr識別結果中數(shù)據(jù)屬性的方法的流程圖。其中,需要說明的是,本發(fā)明實施例的確定ocr識別結果中數(shù)據(jù)屬性的方法所使用的決策樹模型是由前述實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練方法所生成的。
如圖3所示,該確定ocr識別結果中數(shù)據(jù)屬性的方法可以包括以下步驟:
s301,獲取待處理醫(yī)學資料圖片的第三ocr識別結果。
具體地,在本實施例中,獲取待處理醫(yī)學資料圖片的實現(xiàn)方式可以是通過線上系統(tǒng)選取。
其中,在本實施例中,待處理醫(yī)學資料圖片為健康體檢報告圖片。
其中,對獲取到的待處理醫(yī)學資料圖片進行ocr識別,以獲取待處理醫(yī)學圖片的第三ocr識別結果可具體參見前述實施例中的方式,在此不作過多贅述。
s302,提取第三ocr識別結果中的各個數(shù)據(jù)的第三特征信息。
其中,以待處理醫(yī)學資料圖片為健康體檢報告圖片為例,第三特征信息至少包括:是否包含中文、是否包含英文、是否包含字母、是否包含標點、字符串長度、與詞庫中檢測項匹配最大相似度、是否包含單位關鍵詞、是否包含參考范圍關鍵詞。
s303,根據(jù)決策樹模型對第三特征信息進行預測以確定第三ocr識別結果中的各個數(shù)據(jù)的屬性。
本發(fā)明實施例的確定ocr識別結果中數(shù)據(jù)屬性的方法,首先獲取待處理醫(yī)學資料圖片的第三ocr識別結果,其次提取第三ocr識別結果中的各個數(shù)據(jù)的第三特征信息,最后根據(jù)決策樹模型對第三特征進行預測以確定第三ocr識別結果中的各個數(shù)據(jù)的屬性。由此,通過生成的決策樹模型對待處理圖片進行標注,從而避免了人工進行數(shù)據(jù)屬性標注的情況出現(xiàn),有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
為了實現(xiàn)上述實施例,本發(fā)明還提出了一種用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置。
圖4為本發(fā)明一個實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置的結構示意圖。
如圖4所示,該用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置可包括:第一獲取模塊101、ocr識別模塊102、第一提取模塊103、第二獲取模塊104和訓練模塊105。
其中,第一獲取模塊101用于獲取樣本醫(yī)學資料圖片。具體地,在本實施例中,獲取樣本醫(yī)學資料圖片的實現(xiàn)方式可以是通過線上系統(tǒng)選取,其中,獲取的樣本醫(yī)學資料圖片數(shù)目可以為1000張,也可以為2000張,在此不作具體限制。
其中,在本實施例中,樣本醫(yī)學資料圖片為樣本健康體檢報告圖片??梢岳斫?,樣本健康體檢報告圖片中的文本信息多為表格文本,每個表格中的每列數(shù)據(jù)屬于同一個屬性。為此,該樣本健康體檢報告圖片的ocr識別結果為一個二維的字符串數(shù)組,數(shù)組的每一列都是代表同一個屬性列的數(shù)據(jù)。
ocr識別模塊102用于對樣本醫(yī)學資料圖片進行ocr識別以生成第一ocr識別結果,第一ocr識別結果為二維字符串數(shù)組,二維字符串數(shù)組中的每列數(shù)據(jù)用于指示屬于同一個屬性列的數(shù)據(jù)。
具體地,在獲取到樣本醫(yī)學資料圖片之后可通過ocr(opticalcharacterrecognition,光學字符識別)算法對該樣本醫(yī)學資料圖片進行識別操作,以生成第一ocr識別結果。其中,通過ocr算法識別樣本醫(yī)學資料圖片具體可包括以下步驟:
步驟一,對樣本醫(yī)學資料圖片進行預處理;
其中,預處理可包括二值化處理、去噪處理、以及傾斜校正等處理。
步驟二,預處理之后,對樣本醫(yī)學資料圖片的版面進行分析;
步驟三,字符切割;
步驟四,字符切割完畢之后,執(zhí)行字符識別操作;
步驟五,版面恢復;
步驟六,后處理、校驗。
進而,根據(jù)生成的第一ocr識別結果進行進一步地的提取操作。
第一提取模塊103用于提取第一ocr識別結果中的各個數(shù)據(jù)的第一特征信息。
其中,在本實施例中,當樣本醫(yī)學資料圖片為樣本健康體檢報告圖片時,則提取的第一特征信息至少可包括:是否包含中文、是否包含英文、是否包含字母、是否包含標點、字符串長度、與詞庫中檢測項匹配最大相似度、是否包含單位關鍵詞、是否包含參考范圍關鍵詞等。
第二獲取模塊104用于獲取與第一ocr識別結果中的各個數(shù)據(jù)對應的第一標注數(shù)據(jù),第一標注數(shù)據(jù)用于指示各個數(shù)據(jù)所屬的屬性。
其中,第一標注數(shù)據(jù)是由人工對樣本醫(yī)學資料圖片的ocr識別結果進行數(shù)據(jù)標注。
對樣本醫(yī)學資料圖片的ocr識別結果進行的數(shù)據(jù)標注,主要是用于指示各個數(shù)據(jù)所屬的屬性。其中,在本實施例中,當樣本醫(yī)學資料圖片為樣本健康體檢報告圖片時,則屬性至少可包括:檢測項名稱、檢測項英文值、檢測值、單位和參考范圍等??梢岳斫猓鲜鰧傩院偷谝惶卣餍畔⑹桥c樣本醫(yī)學資料圖片的類型有直接關系的,例如,本實施例是以樣本醫(yī)學資料圖片為樣本健康體檢報告圖片為例,則其對應的屬性可包括檢測項名稱、檢測項英文值、檢測值、單位和參考范圍等,第一特征信息可包括:是否包含中文、是否包含英文、是否包含字母、是否包含標點、字符串長度、與詞庫中檢測項匹配最大相似度、是否包含單位關鍵詞、是否包含參考范圍關鍵詞等;當樣本醫(yī)學資料圖片為其他類型圖片時,則上述屬性和第一特征信息是由該其他類型圖片中的文本信息特點決定的,在此不作具體限定。
訓練模塊105用于根據(jù)第一特征信息和第一標注數(shù)據(jù)進行訓練以生成用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型。
具體地,在獲取到第一特征信息和第一標注數(shù)據(jù)之后,可根據(jù)第一特征信息和第一標注數(shù)據(jù)進行相應計算以生成決策樹模型。舉例說明如下:
假設獲取的第一標注數(shù)據(jù)為檢測項名稱、檢測項英文值、參考范圍,則根據(jù)第一標注數(shù)據(jù)中的屬性分別確定第一特征信息中是否包含檢測項名稱,是否包含檢測項英文值,是否包含參考范圍關鍵詞,上述整個確定過程可建立一個決策樹,并對建立的決策樹修剪以得到一個最優(yōu)的決策方案,并根據(jù)最優(yōu)的決策方案生成一個決策樹模型。
在本發(fā)明的一個實施例中,在圖4所示的基礎上,如圖5所示,該裝置還可以包括第三獲取模塊106、第二提取模塊107、第四獲取模塊108、預測模塊109和驗證優(yōu)化模塊110。
其中,第三獲取模塊106用于在訓練模塊根據(jù)第一特征信息和第一標注數(shù)據(jù)進行訓練以生成決策樹模型之后,獲取測試醫(yī)學資料圖片的第二ocr識別結果。
具體地,在本實施例中,獲取測試醫(yī)學資料圖片可通過線上系統(tǒng)選取實現(xiàn),其中,獲取的測試醫(yī)學資料圖片數(shù)據(jù)可以為100張,或者150張,在此不作具體限制。
其中,對獲取到的測試醫(yī)學資料圖片進行ocr識別可具體參見上述實施例中的方式,在此不作過多贅述。
第二提取模塊107用于提取第二ocr識別結果中的各個數(shù)據(jù)的第二特征信息。
具體地,在得到第二ocr識別結果之后,可提取第二ocr識別結果中的各個數(shù)據(jù)的第二特征信息。其中,以測試醫(yī)學資料圖片為測試健康體檢報告圖片為例,則第二特征信息至少包括:是否包含中文、是否包含英文、是否包含字母、是否包含標點、字符串長度、與詞庫中檢測項匹配最大相似度、是否包含單位關鍵詞、是否包含參考范圍關鍵詞。
第四獲取模塊108用于獲取與第二ocr識別結果中的各個數(shù)據(jù)對應的第二標注數(shù)據(jù)。
其中,第二標注數(shù)據(jù)是由人工對測試醫(yī)學資料圖片的ocr識別結果進行的數(shù)據(jù)標注。
預測模塊109用于根據(jù)決策樹模型對第二特征信息進行預測以生成預測結果。
具體地,在第二提取模塊107提取到第二ocr識別結果中的各個數(shù)據(jù)的第二特征信息之后,可通過上述實施例中生成的決策樹模型對提取的第二特征信息進行預測以生成預測結果。
驗證優(yōu)化模塊110用于根據(jù)第二標注數(shù)據(jù)對預測結果進行驗證,并根據(jù)驗證結果對決策樹模型進行優(yōu)化。
具體地,在得到預測結果之后,可根據(jù)獲取的第二標注數(shù)據(jù)對預測結果進行驗證,以確定上述實施例中生成的決策樹模型的預測正確率,并根據(jù)確定的正確率執(zhí)行相應地優(yōu)化等操作。
需要說明的是,在本實施例中,確定預測結果是否符合要求可根據(jù)預測的正確率與預設的閾值相比較來判定。其中預設閾值可以是預先設定符合要求的閾值,例如預設閾值為預測結果的正確率70%,或者75%,當然還可以根據(jù)實際需要設定不同的預設閾值,在此不做具體限制。
其中,驗證的結果具體包括以下幾種情況,舉例說明如下:
示例一,假設在本實施例中,根據(jù)獲取的第二標注數(shù)據(jù)確定出上述實施例中生成的決策樹模型的預測正確率為98%,則說明上述實施例中生成的決策樹模型符合要求,從而可根據(jù)該決策樹模型對醫(yī)學資料圖片的ocr識別結果進行數(shù)據(jù)標注。
示例二,假設在本實施例中,根據(jù)獲取的第二標注數(shù)據(jù)確定出上述實施例中生成的決策樹模型的預測正確率為46%,則說明上述實施例中生成的決策樹模型不符合要求,即預測結果中存在比較多的錯誤信息文本(badcase)。因此,需要對該決策樹模型進行優(yōu)化,以提高該決策樹模型的預測準確率。
其中,對該決策樹模型進行優(yōu)化具體可通過以下步驟實現(xiàn):在獲取測試醫(yī)學資料圖片的ocr結果中重新提取出新的第一特征信息,重新訓練該決策樹模型。優(yōu)選地,可從驗證結果中獲取錯誤信息文本,并從該錯誤信息文本中重新提取出新的第一特征信息,以使得通過該新的第一特征信息重新訓練該決策樹模型。
本發(fā)明實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置,通過ocr識別模塊對第一獲取模塊獲取的樣本醫(yī)學資料圖片進行ocr識別生成第一ocr識別結果,并通過第一提取模塊提取第一ocr識別結果中各個數(shù)據(jù)的第一特征信息,以及第二獲取模塊獲取與第一ocr識別結果中各個數(shù)據(jù)對應的第一標注數(shù)據(jù),并通過訓練模塊根據(jù)第一特征信息和第一標注數(shù)據(jù)進行訓練以生成用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型。從而通過生成的決策樹模型實現(xiàn)了對識別結果中數(shù)據(jù)屬性的自動標注的目的,有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
為了實現(xiàn)上述實施例,本發(fā)明還提出了一種確定ocr識別結果中數(shù)據(jù)屬性的裝置。
圖6為根據(jù)本發(fā)明一個實施例的確定ocr識別結果中數(shù)據(jù)屬性的裝置的結構示意圖。其中,需要說明的是,本發(fā)明實施例的確定ocr識別結果中數(shù)據(jù)屬性的裝置所使用的決策樹模型是由上述任一個實施例的用于確定ocr識別結果中數(shù)據(jù)屬性的決策樹模型的訓練裝置所生成的。
如圖6所示,該確定ocr識別結果中數(shù)據(jù)屬性的裝置包括:獲取模塊201、提取模塊202和確定模塊203。
其中,獲取模塊201用于獲取待處理醫(yī)學資料圖片的第三ocr識別結果。
具體地,在本實施例中,獲取待處理醫(yī)學資料圖片的實現(xiàn)方式可以是通過線上系統(tǒng)選取。
其中,在本實施例中,待處理醫(yī)學資料圖片為健康體檢報告圖片。
其中,對獲取到的待處理醫(yī)學資料圖片進行ocr識別,以獲取待處理醫(yī)學圖片的第三ocr識別結果可具體參見前述實施例中的方式,在此不作過多贅述。
提取模塊202用于提取第三ocr識別結果中的各個數(shù)據(jù)的第三特征信息。
其中,以待處理醫(yī)學資料圖片為健康體檢報告圖片為例,第三特征信息至少包括:是否包含中文、是否包含英文、是否包含字母、是否包含標點、字符串長度、與詞庫中檢測項匹配最大相似度、是否包含單位關鍵詞、是否包含參考范圍關鍵詞。
確定模塊203用于根據(jù)決策樹模型對第三特征信息進行預測以確定第三ocr識別結果中的各個數(shù)據(jù)的屬性。
本發(fā)明實施例的確定ocr識別結果中數(shù)據(jù)屬性的裝置,首先通過獲取模塊獲取待處理醫(yī)學資料圖片的第三ocr識別結果,其次根據(jù)提取模塊提取第三ocr識別結果中的各個數(shù)據(jù)的第三特征信息,最后通過確定模塊根據(jù)決策樹模型對第三特征進行預測以確定第三ocr識別結果中的各個數(shù)據(jù)的屬性。由此,通過生成的決策樹模型對待處理圖片進行標注,從而避免了人工進行數(shù)據(jù)屬性標注的情況出現(xiàn),有效降低了待識別圖片識別過程中的消費成本,提高了識別效率。
在本發(fā)明的描述中,需要理解的是,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結合和組合。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬技術領域的技術人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設備取指令并執(zhí)行指令的系統(tǒng))使用,或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用。就本說明書而言,"計算機可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝置。計算機可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(ram),只讀存儲器(rom),可擦除可編輯只讀存儲器(eprom或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(cdrom)。另外,計算機可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因為可以例如通過對紙或其他介質(zhì)進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(pga),現(xiàn)場可編程門陣列(fpga)等。
本技術領域的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。