用于文字性試題的答案識別方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種用于文字性試題的答案識別方法及系統(tǒng),該方法包括:獲取文字性試題答案圖像;從所述答案圖像中獲得一個或多個待識別答案字符串;基于通用的聲學模型對所述待識別答案字符串進行手寫識別,得到第一識別結(jié)果;獲取文字性試題的答案信息;根據(jù)所述第一識別結(jié)果及所述文字性試題的答案信息,構建自適應聲學模型;利用所述自適應聲學模型對所述待識別答案字符串進行手寫識別,得到最終識別結(jié)果。利用本發(fā)明,可以有效提高文字性客觀題的識別準確度,進而提高閱卷效率及準確性。
【專利說明】用于文字性試題的答案識別方法及系統(tǒng)
【技術領域】
[0001] 本發(fā)明涉及信息處理【技術領域】,具體涉及一種用于文字性試題的答案識別方法及 系統(tǒng)。
【背景技術】
[0002] 隨著計算機技術和教育信息化的不斷推進,計算機和人工智能技術已經(jīng)逐步應用 于日常的教育教學各項活動中,在教學輔助、教學評測等實際應用場景下都得到了相應的 應用。國內(nèi)現(xiàn)有的基礎教育、學生學習狀況的主要考察形式仍是各種類型的考試或測試,在 此狀況下,教師背負著很大的批改作業(yè)和試卷的工作壓力。針對這種現(xiàn)象,在大中型或重要 性高的考試或測試中已經(jīng)逐漸推廣和采用了各類自動閱卷系統(tǒng),這類系統(tǒng)能夠一定程度上 減輕教師閱卷的工作量。
[0003] 然而,在現(xiàn)有的自動閱卷系統(tǒng)中,完全由計算機完成閱卷的部分多是對填涂性客 觀題(如選擇題)的閱卷,而對于文字性試題(如填空題、簡答題)的閱卷,仍主要是由教 師或受過培訓的專業(yè)人士集中進行。在傳統(tǒng)自動閱卷系統(tǒng)中,因文字性試題的計算機閱卷 識別準確率尚未達到廣泛使用的期望值,至今仍由人工進行閱卷,從而帶來了閱卷效率低、 人力資源消耗大、因閱卷人主觀性因素導致的閱卷偏差等問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實施例提供一種用于文字性試題的答案識別方法及系統(tǒng),以提高文字性客 觀題的識別準確度,進而提高閱卷效率及準確性。
[0005] 為此,本發(fā)明實施例提供如下技術方案:
[0006] -種用于文字性試題的答案識別方法,包括:
[0007] 獲取文字性試題答案圖像;
[0008] 從所述答案圖像中獲得一個或多個待識別答案字符串;
[0009] 基于通用的聲學模型對所述待識別答案字符串進行手寫識別,得到第一識別結(jié) 果;
[0010] 獲取文字性試題的答案信息;
[0011] 根據(jù)所述第一識別結(jié)果及所述文字性試題的答案信息,構建自適應聲學模型; [0012] 利用所述自適應聲學模型對所述待識別答案字符串進行手寫識別,得到最終識別 結(jié)果。
[0013] 優(yōu)選地,所述從所述答案圖像中獲得一個或多個待識別答案字符串包括:
[0014] 對于半開放式書寫布局,根據(jù)不同行字符之間的上下文結(jié)構信息以及字符部件分 布的統(tǒng)計信息,對所述答案圖像進行細切分;然后對細切分結(jié)果進行合并處理,得到一個或 多個待識別答案字符串;
[0015] 對于限定區(qū)域式書寫布局,根據(jù)答題卡的書寫布局信息,得到一個或多個待識別 答案字符串。
[0016] 優(yōu)選地,所述根據(jù)所述第一識別結(jié)果及所述文字性試題的答案信息,構建自適應 聲學模型包括:
[0017] 根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型;
[0018] 將所述第一識別結(jié)果作為模型自適應訓練樣本,確定可信訓練樣本;
[0019] 根據(jù)所述可信訓練樣本對所述需進行自適應的聲學模型進行自適應迭代訓練,得 到自適應變換矩陣;
[0020] 在所述自適應迭代訓練完成后,得到自適應聲學模型。
[0021] 優(yōu)選地,所述文字性試題包括:文字性客觀題;
[0022] 所述獲取文字性試題的答案信息包括:
[0023] 獲取客觀題標準答案字符列表Ll、以及客觀題標準答案字符對應的常錯字符列表 L2 ;
[0024] 所述根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型包括:選取字 符列表Ll和字符列表L2的并集字符對應的聲學模型作為所述需進行自適應的聲學模型。
[0025] 優(yōu)選地,所述文字性試題包括:文字性主觀題;
[0026] 所述獲取文字性試題的答案信息包括:
[0027] 獲取主觀題答案涉及范圍的字符列表L3 ;
[0028] 從所述第一識別結(jié)果中確定候選字符,生成候選字符列表L4 ;
[0029] 所述根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型包括:
[0030] 選取字符列表L3和字符列表L4的并集字符對應的聲學模型作為所述需進行自適 應的聲學模型。
[0031] 優(yōu)選地,所述文字性試題包括:文字性客觀題和文字性主觀題;
[0032] 所述獲取文字性試題的答案信息包括:
[0033] 獲取客觀題標準答案字符列表Ll、客觀題標準答案字符對應的常錯字符列表L2、 以及主觀題答案涉及范圍的字符列表L3 ;
[0034] 從所述第一識別結(jié)果中確定候選字符,生成候選字符列表L4 ;
[0035] 所述根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型包括:
[0036] 選取字符列表L1、字符列表L2、字符列表L3、以及字符列表L4的并集字符對應的 聲學模型作為所述需進行自適應的聲學模型。
[0037] 優(yōu)選地,所述將所述第一識別結(jié)果作為模型自適應訓練樣本,確定可信訓練樣本 包括:
[0038] 基于當前自適應迭代后的聲學模型,識別所述訓練樣本,得到識別首候選后驗概 率;
[0039] 如果所述首候選后驗概率大于置信度閾值,則將所述訓練樣本作為下一次自適應 迭代的可信訓練樣本。
[0040] 優(yōu)選地,所述方法還包括:
[0041] 計算全字符訓練集在通用聲學模型上的首候選后驗概率;;
[0042] 根據(jù)所述首候選后驗概率的分布圖,對所述通用聲學模型進行聚類;
[0043] 統(tǒng)計所述全字符訓練集在所述通用聲學模型上的識別率,,確定所述置信度閾值。
[0044] 一種用于文字性試題的答案識別系統(tǒng),包括:
[0045] 第一獲取模塊,用于獲取文字性試題答案圖像;
[0046] 字符串獲取模塊,用于從所述答案圖像中獲得一個或多個待識別答案字符串;
[0047] 通用識別模塊,用于基于通用的聲學模型對所述待識別答案字符串進行手寫識 另IJ,得到第一識別結(jié)果;
[0048] 第二獲取模塊,用于獲取所述文字性試題的答案信息;
[0049] 模型構建模塊,用于根據(jù)所述第一識別結(jié)果及所述文字性試題的答案信息,構建 自適應聲學模型;
[0050] 自適應識別模塊,用于利用所述自適應聲學模型對所述待識別答案字符串進行手 寫識別,得到最終識別結(jié)果。
[0051] 優(yōu)選地,所述切分模塊包括:
[0052] 第一處理單元,用于對半開放式書寫布局,根據(jù)不同行字符之間的上下文結(jié)構信 息以及字符部件分布的統(tǒng)計信息,對所述答案圖像進行細切分,并對所述細切分單元得到 的細切分結(jié)果進行合并處理,得到一個或多個待識別答案字符串;
[0053] 第二處理單元,用于對于限定區(qū)域式書寫布局,根據(jù)答題卡的書寫布局信息,得到 一個或多個待識別答案字符串。
[0054] 優(yōu)選地,所述模型構建模塊包括:
[0055] 初始化單元,用于根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模 型;
[0056] 訓練樣本確定單元,用于將所述第一識別結(jié)果作為模型自適應訓練樣本,確定可 信訓練樣本;
[0057] 訓練單元,用于根據(jù)所述可信訓練樣本對所述需進行自適應的聲學模型進行自適 應迭代訓練,得到自適應變換矩陣;并在所述自適應迭代訓練完成后,得到自適應聲學模 型。
[0058] 優(yōu)選地,所述文字性試題包括:文字性客觀題;
[0059] 所述第二獲取模塊具體用于獲取客觀題標準答案字符列表Ll、以及客觀題標準答 案字符對應的常錯字符列表L2 ;
[0060] 所述初始化單元具體用于選取字符列表Ll和字符列表L2的并集字符對應的聲學 模型作為所述需進行自適應的聲學模型。
[0061] 優(yōu)選地,所述文字性試題包括:文字性主觀題;
[0062] 所述第二獲取模塊包括:
[0063] 第一獲取單元,用于獲取主觀題答案涉及范圍的字符列表L3 ;
[0064] 列表生成單元,用于從所述第一識別結(jié)果中確定候選字符,生成候選字符列表 L4;
[0065] 所述初始化單元具體用于選取字符列表L3和字符列表L4的并集字符對應的聲學 模型作為所述需進行自適應的聲學模型。
[0066] 優(yōu)選地,所述文字性試題包括:文字性客觀題和文字性主觀題;
[0067] 所述第二獲取模塊包括:
[0068] 第二獲取單元,用于獲取客觀題標準答案字符列表L1、客觀題標準答案字符對應 的常錯字符列表L2、以及主觀題答案涉及范圍的字符列表L3 ;
[0069] 列表生成單元,用于從所述第一識別結(jié)果中確定候選字符,生成候選字符列表 L4;
[0070] 所述初始化單元具體用于選取字符列表L1、字符列表L2、字符列表L3、以及字符 列表L4的并集字符對應的聲學模型作為所述需進行自適應的聲學模型。
[0071] 優(yōu)選地,所述訓練樣本確定單元包括:
[0072] 識別子單元,用于基于當前自適應迭代后的聲學模型,識別所述訓練樣本,得到識 別首候選后驗概率;
[0073] 判斷子單元,用于在所述首候選后驗概率大于置信度閾值時,將所述訓練樣本作 為下一次自適應迭代的可信訓練樣本。
[0074] 優(yōu)選地,所述系統(tǒng)還包括:置信度閾值確定模塊,所述置信度閾值確定模塊具體包 括:
[0075] 后驗概率計算單元,用于計算全字符訓練集在通用聲學模型上的首候選后驗概 率;
[0076] 聚類單元,用于根據(jù)所述首候選后驗概率的分布圖,對所述通用聲學模型進行聚 類;
[0077] 統(tǒng)計單元,用于統(tǒng)計所述全字符訓練集在所述通用聲學模型上的識別率,確定所 述置信度閾值。
[0078] 本發(fā)明實施例提供的用于文字性試題的答案識別方法及系統(tǒng),采用無監(jiān)督自適應 技術,對用戶書寫風格進行學習,從而產(chǎn)生一個根據(jù)用戶書寫習慣定制的識別模型,大大提 高了文字性試題答案的識別準確度。將本發(fā)明實施例的方法及系統(tǒng)應用于自動閱卷系統(tǒng) 中,可以解決傳統(tǒng)自動閱卷系統(tǒng)中因答案識別率低,導致的文字性試題不能廣泛使用計算 機完全自動閱卷的問題。
【專利附圖】
【附圖說明】
[0079]為了更清楚地說明本申請實施例或現(xiàn)有技術中的技術方案,下面將對實施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一 些實施例,對于本領域普通技術人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0080] 圖1是本發(fā)明實施例用于文字性試題的答案識別方法的流程圖;
[0081] 圖2是本發(fā)明實施例中半開放式書寫布局示例;
[0082] 圖3是本發(fā)明實施例中限定區(qū)域式書寫布局示例;
[0083] 圖4是本發(fā)明實施例中構建自適應聲學模型的流程圖;
[0084] 圖5是本發(fā)明實施例中確定訓練樣本置信度閾值的流程圖;
[0085] 圖6是本發(fā)明實施例用于文字性試題的答案識別系統(tǒng)的一種結(jié)構框圖;
[0086] 圖7是本發(fā)明實施例中模型構建模塊的結(jié)構框圖;
[0087] 圖8A是本發(fā)明實施例用于文字性試題的答案識別系統(tǒng)的另一種結(jié)構框圖;
[0088] 圖8B是本發(fā)明實施例用于文字性試題的答案識別系統(tǒng)的另一種結(jié)構框圖;
[0089] 圖9是本發(fā)明實施例中置信度閾值確定模塊的結(jié)構框圖。
【具體實施方式】
[0090] 為了使本【技術領域】的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施 方式對本發(fā)明實施例作進一步的詳細說明。
[0091] 現(xiàn)有的大中型或重要考試中所采用的自動閱卷系統(tǒng),之所以未能實現(xiàn)文字性試題 (包括文字性客觀題、文字性主觀題)的自動批閱,主要是因為文字性試題的自動批閱,包 括文字性客觀題的正誤判斷和文字性主觀題的評分,都高度依賴于答案識別效果,而文字 性試題答案書寫是開放的、無拘束的,會因答題者不同,其書寫風格迥異,這使得答案識別 率大大降低,因而現(xiàn)今文字性試題答案的識別效果仍未達到實用的期望值。
[0092] 為此,本發(fā)明實施例提出了一種用于文字性試題的答案識別方法及系統(tǒng),將一種 無監(jiān)督的自適應技術應用在文字性試題的答案識別中。采用無監(jiān)督自適應技術,對用戶書 寫風格進行學習,從而產(chǎn)生一個根據(jù)用戶書寫習慣定制的識別模型,大大提高了識別準確 度,進而解決了傳統(tǒng)自動閱卷系統(tǒng)中因答案識別率低導致的文字性試題不能廣泛使用計算 機完全自動閱卷的問題。
[0093] 如圖1所示,是本發(fā)明實施例用于文字性試題的答案識別方法的流程圖,包括以 下步驟:
[0094] 步驟101,獲取文字性試題答案圖像。
[0095] 所述文字性試題答案圖像即為答案字符串圖像,在本發(fā)明實施例中,所述答案字 符串可以是中文字串、英文字串等。
[0096] 獲取答案圖像的具體過程如下:
[0097] (1)獲取答題卡圖像。
[0098] 答題卡圖像的獲取可以采用光標閱讀設備進行掃描,或者采用高拍儀、移動終端 等設備進行拍照獲取。
[0099] (2)根據(jù)答題卡布局信息,分割并提取目標答題區(qū)域。
[0100] 在實際應用中,在分割提取目標答題區(qū)域之前,可以先對答題卡圖像進行預處理, 以提取到準確的目標答題區(qū)域。所述預處理可以包括:對答題卡圖像進行定位、校準、降噪、 對比度增強、灰度化等操作,具體處理方法與現(xiàn)有的自動閱卷系統(tǒng)中答題卡圖像預處理方 法相同,在此不再贅述。
[0101] 答題卡布局信息是已知的先驗信息,如果需要對答題卡圖像進行定位,則還可獲 得答題卡圖像的定位信息,根據(jù)這些信息,再通過邊緣檢測即可準確地分割并提取目標答 題區(qū)域。
[0102] (3)從所述目標答題區(qū)域提取文字性試題答案圖像。
[0103] 在得到目標答題區(qū)域后,根據(jù)答題卡布局信息,再通過邊緣點檢測即可得到答案 圖像,該答案圖像是答案字符串的圖像。
[0104] 步驟102,從所述答案圖像中獲得一個或多個待識別答案字符串。
[0105] 由于通常答題卡的書寫布局會有半開放式和限定區(qū)域式,,圖2給出了半開放式 書寫布局示例,圖3給出了限定區(qū)域式書寫布局示例。因此,在本發(fā)明實施例,可以針對不 同的書寫布局進行不同的處理,獲得一個或多個待識別答案字符串,具體如下:
[0106] 對于限定區(qū)域式書寫布局,可以根據(jù)答題卡的書寫布局信息直接得到一個或多個 待識別答案字符串。當然,在根據(jù)答題卡的書寫布局信息獲取待識別答案字符串之前還可 以對答案圖像進行預處理,所述預處理可以包括:對答案圖像進行二值化處理、矯正手寫筆 跡傾斜、筆跡細化等。
[0107] 對于半開放式書寫布局,可以根據(jù)不同行字符之間的上下文結(jié)構信息以及字符部 件分布的統(tǒng)計信息,對所述答案圖像進行細切分;然后對細切分結(jié)果進行合并處理,得到一 個或多個待識別答案字符串;不同行字符之間的上下文結(jié)構信息包括:圖像連通體之間的 幾何信息、前景像素投影信息等。這些信息具體可以通過連通域分析、投影分析、骨架分析 等方法來獲取。
[0108] 需要說明的是,在實際應用中,在對所述答案圖像進行細切分之前,還可以對答案 圖像進行預處理,以得到更準確的切分結(jié)果。所述預處理可以包括:對答案圖像進行二值化 處理、矯正手寫筆跡傾斜、筆跡細化等。
[0109] 上述對細切分結(jié)果進行合并處理具體包括:對所述細切分結(jié)果進行窮舉性合并, 并計算合并可信度;然后根據(jù)所述可信度確定合并結(jié)果,得到一個或多個待識別答案字符 串。
[0110] 所述窮舉性合并是指將所有可能的合并都一一進行,比如有5個細切分子塊,有 以下幾種合并 :
[0111] (1)假設為一個字符,則將細切分子塊1、2、3、4、5進行合并;
[0112] (2)假設為二個字符,則將細切分子塊1、2、3、4進行合并;將細切分子塊1、2、3合 并、并將細切分子塊4、5合并;將細切分子塊1、2合并、并將細切分子塊3、4、5合并;將細切 分子塊2、3、4、5合并;
[0113] 依此類推,一直假設到為五個字符。
[0114] 所述合并可信度代表了合并后得到的字符的準確度,具體地,可以提取出合并后 字符的高度、寬度、高寬比、字符外間距、字符內(nèi)間距等字符特征,根據(jù)預先訓練得到的規(guī) 則統(tǒng)計模型和所述字符特征計算得到該合并的似然得分,并根據(jù)該似然得分確定合并可信 度,也可以直接將該似然得分作為對應的合并可信度。
[0115] 所述規(guī)則統(tǒng)計模型是根據(jù)提取出的訓練數(shù)據(jù)切分后字符的高度、寬度、高寬比、字 符外間距、字符內(nèi)間距等特征,訓練出的統(tǒng)計模型,該模型可以是GMM(Gaussian Mixture Model,高斯混合模型)或SVM(Support Vector Machine,支持向量機)等。
[0116] 如果可信度大于設定的閾值,則認為該合并是可信的,否則認為該合并是不可信 的。進而根據(jù)可信的合并結(jié)果得到一個或多個待識別答案字符串。
[0117] 需要說明的是,在實際應用中,在合并前或在判斷合并可信度時,還可以根據(jù)經(jīng)驗 或?qū)嶒炘O定一些判斷規(guī)則,比如一個漢字的筆跡不超過3個細切分子塊等,以進一步輔助 或指導完成字符串切分結(jié)果是否正確的判斷,提高判斷的準確性。
[0118] 步驟103,基于通用的聲學模型對所述待識別答案字符串進行手寫識別,得到第一 識別結(jié)果。
[0119] 所述通用的聲學模型可以是GMM(Gaussian Mixture Model,高斯混合模型),也可 以是 MQDF (Modified Quadratic Discriminant Function,改進的二次分類函數(shù))模型等。
[0120] 步驟104,獲取文字性試題的答案信息。
[0121] 對于不同類型的文字性試題,其答案信息也有各自的特點,對此將在后面詳細說 明。
[0122] 步驟105,根據(jù)所述第一識別結(jié)果及所述文字性試題的答案信息,構建自適應聲學 模型。
[0123] 自適應聲學模型的構建過程將在后面詳細描述。
[0124] 步驟106,利用所述自適應聲學模型對所述待識別答案字符串進行手寫識別,得到 最終識別結(jié)果。
[0125] 本發(fā)明實施例提供的用于文字性試題的答案識別方法,采用無監(jiān)督自適應技術, 對用戶書寫風格進行學習,從而產(chǎn)生一個根據(jù)用戶書寫習慣定制的識別模型,大大提高了 文字性試題答案的識別準確度,進而解決了傳統(tǒng)自動閱卷系統(tǒng)中因答案識別率低,導致的 文字性試題不能廣泛使用計算機完全自動閱卷的問題。
[0126] 如圖4所示,是本發(fā)明實施例中構建自適應聲學模型的具體流程,包括以下步驟:
[0127] 步驟401,根據(jù)文字性試題的答案信息確定需進行自適應的聲學模型。
[0128] 需要說明的是,在實際應用中,上述文字性試題可以只包括文字性客觀題、或者文 字性主觀題,也可以同時包括文字性客觀題和文字性主觀題,對此本發(fā)明實施例不做限定。
[0129] 由于文字性客觀題和文字性主觀題具有各自不同的特點,,比如文字性客觀題對 應有標準答案,而文字性主觀題沒有標準答案,但是有相應的關鍵詞等信息,因此,在上述 步驟401中確定需進行自適應的聲學模型時,可以分別根據(jù)這兩種試題的特點,確定適合 相應特點的需進行自適應的聲學模型。具體可以有如下幾種情況:
[0130] (1)對于文字性客觀題,上述文字性試題的答案信息可以包括:客觀題標準答案 字符列表Ll、客觀題標準答案字符對應的常錯字符列表L2。
[0131] 所述標準答案字符對應的常錯字符可以由考試歷史信息統(tǒng)計或依據(jù)教師經(jīng)驗確 定。
[0132] 相應地,在根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型時,可 以選取字符列表Ll和字符列表L2的并集字符對應的聲學模型作為所述需進行自適應的聲 學模型。
[0133] (2)對于文字性主觀題,上述文字性試題的答案信息包括:主觀題答案涉及范圍 的字符列表L3、以及候選字符列表L4。
[0134] 所述候選字符列表L4是由從所述第一識別結(jié)果中確定的候選字符生成的。所述 候選字符的確定具體可以選定第一識別結(jié)果中的置信度大于設定的置信度閾值的識別結(jié) 果作為候選字符,也可以按照識別結(jié)果置信度的高低,選取一定個數(shù)(比如50個)的識別 結(jié)果作為候選字符。
[0135] 所述主觀題答案涉及范圍的字符同樣也可以由考試歷史信息統(tǒng)計或依據(jù)教師經(jīng) 驗確定。
[0136] 相應地,在根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型時,需 要選取字符列表L3和字符列表L4的并集字符對應的聲學模型作為所述需進行自適應的聲 學模型。
[0137] (3)對于同時包括文字性客觀題和文字性主觀題的情況,上述文字性試題的答案 信息可以包括:客觀題標準答案字符列表L1、客觀題標準答案字符對應的常錯字符列表 L2、主觀題答案涉及范圍的字符列表L3、以及候選字符列表L4。
[0138] 相應地,在根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型時,需 要選取字符列表L1、字符列表L2、字符列表L3、以及字符列表L4的并集字符對應的聲學模 型作為所述需進行自適應的聲學模型。
[0139] 步驟402,將所述第一識別結(jié)果作為模型自適應訓練樣本,確定可信訓練樣本。 [0140] 具體地,將上述第一識別結(jié)果作為模型自適應訓練數(shù)據(jù),并提取訓練數(shù)據(jù)外觀特 征,所述外觀特征可以是紋理特征或梯度特征等。然后遍歷當前訓練樣本,計算其置信度, 并根據(jù)訓練樣本的置信度閾值挑選出可信訓練樣本。具體地,基于最新自適應迭代后的聲 學模型,識別當前訓練樣本,得到識別首候選(即分類器返回似然值最大的候選類別)后驗 概率,判斷首候選后驗概率是否大于該訓練樣本的置信度閾值,如果是,則確定該訓練樣本 為下次自適應迭代訓練的可信訓練樣本,否則該訓練樣本不參與下一次自適應迭代訓練。
[0141] 需要說明的是,不同的訓練樣本對應不同的置信度閾值。在進行第一次自適應迭 代前,識別訓練樣本的聲學模型為通用的聲學模型,每個訓練樣本的置信度閾值可以根據(jù) 識別結(jié)果所屬類確定,屬于同一個聚類的訓練樣本可以共享一個置信度閾值。后面將對訓 練樣本置信度閾值的計算進行詳細說明。
[0142] 步驟403,根據(jù)所述可信訓練樣本對所述需進行自適應的聲學模型進行自適應迭 代訓練,得到自適應變換矩陣。
[0143] 根據(jù)步驟402確定的可信訓練樣本,計算得到自適應變換矩陣A,更新需進行自適 應的聲學模型。具體地,利用無監(jiān)督自適應的損失函數(shù)1計算自適應變換矩陣A :
【權利要求】
1. 一種用于文字性試題的答案識別方法,其特征在于,包括: 獲取文字性試題答案圖像; 從所述答案圖像中獲得一個或多個待識別答案字符串; 基于通用的聲學模型對所述待識別答案字符串進行手寫識別,得到第一識別結(jié)果; 獲取文字性試題的答案信息; 根據(jù)所述第一識別結(jié)果及所述文字性試題的答案信息,構建自適應聲學模型; 利用所述自適應聲學模型對所述待識別答案字符串進行手寫識別,得到最終識別結(jié) 果。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述從所述答案圖像中獲得一個或多個 待識別答案字符串包括: 對于半開放式書寫布局,根據(jù)不同行字符之間的上下文結(jié)構信息W及字符部件分布的 統(tǒng)計信息,對所述答案圖像進行細切分;然后對細切分結(jié)果進行合并處理,得到一個或多個 待識別答案字符串;和/或 對于限定區(qū)域式書寫布局,根據(jù)答題卡的書寫布局信息,得到一個或多個待識別答案 字符串。
3. 根據(jù)權利要求1或2所述的方法,其特征在于,所述根據(jù)所述第一識別結(jié)果及所述文 字性試題的答案信息,構建自適應聲學模型包括: 根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型; 將所述第一識別結(jié)果作為模型自適應訓練樣本,確定可信訓練樣本; 根據(jù)所述可信訓練樣本對所述需進行自適應的聲學模型進行自適應迭代訓練,得到自 適應變換矩陣; 在所述自適應迭代訓練完成后,得到自適應聲學模型。
4. 根據(jù)權利要求3所述的方法,其特征在于,所述文字性試題包括:文字性客觀題; 所述獲取文字性試題的答案信息包括:獲取客觀題標準答案字符列表L1、W及客觀題 標準答案字符對應的常錯字符列表L2 ; 所述根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型包括: 選取字符列表L1和字符列表L2的并集字符對應的聲學模型作為所述需進行自適應的 聲學模型。
5. 根據(jù)權利要求3所述的方法,其特征在于,所述文字性試題包括:文字性主觀題; 所述獲取文字性試題的答案信息包括: 獲取主觀題答案涉及范圍的字符列表L3 ;從所述第一識別結(jié)果中確定候選字符,生成 候選字符列表L4 ; 所述根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型包括: 選取字符列表L3和字符列表L4的并集字符對應的聲學模型作為所述需進行自適應的 聲學模型。
6. 根據(jù)權利要求3所述的方法,其特征在于,所述文字性試題包括;文字性客觀題和文 字性主觀題; 所述獲取文字性試題的答案信息包括: 獲取客觀題標準答案字符列表L1、客觀題標準答案字符對應的常錯字符列表L2、W及 主觀題答案涉及范圍的字符列表L3 ; 從所述第一識別結(jié)果中確定候選字符,生成候選字符列表L4 ; 所述根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型包括: 選取字符列表L1、字符列表L2、字符列表L3、W及字符列表L4的并集字符對應的聲學 模型作為所述需進行自適應的聲學模型。
7. 根據(jù)權利要求3所述的方法,其特征在于,所述將所述第一識別結(jié)果作為模型自適 應訓練樣本,確定可信訓練樣本包括: 基于當前自適應迭代后的聲學模型,識別所述訓練樣本,得到識別首候選后驗概率; 如果所述首候選后驗概率大于置信度闊值,則將所述訓練樣本作為下一次自適應迭代 的可信訓練樣本。
8. 根據(jù)權利要求7所述的方法,其特征在于,所述方法還包括: 計算全字符訓練集在通用聲學模型上的首候選后驗概率;; 根據(jù)所述首候選后驗概率的分布圖,對所述通用聲學模型進行聚類; 統(tǒng)計所述全字符訓練集在所述通用聲學模型上的識別率,,確定所述置信度闊值。
9. 一種用于文字性試題的答案識別系統(tǒng),其特征在于,包括: 第一獲取模塊,用于獲取文字性試題答案圖像; 字符串獲取模塊,用于從所述答案圖像中獲得一個或多個待識別答案字符串; 通用識別模塊,用于基于通用的聲學模型對所述待識別答案字符串進行手寫識別,得 到第一識別結(jié)果; 第二獲取模塊,用于獲取所述文字性試題的答案信息; 模型構建模塊,用于根據(jù)所述第一識別結(jié)果及所述文字性試題的答案信息,構建自適 應聲學模型; 自適應識別模塊,用于利用所述自適應聲學模型對所述待識別答案字符串進行手寫識 另IJ,得到最終識別結(jié)果。
10. 根據(jù)權利要求9所述的系統(tǒng),其特征在于,所述字符串獲取模塊包括: 第一處理單元,用于對半開放式書寫布局,根據(jù)不同行字符之間的上下文結(jié)構信息W 及字符部件分布的統(tǒng)計信息,對所述答案圖像進行細切分,并對所述細切分單元得到的細 切分結(jié)果進行合并處理,得到一個或多個待識別答案字符串;和/或 第二處理單元,用于對于限定區(qū)域式書寫布局,根據(jù)答題卡的書寫布局信息,得到一個 或多個待識別答案字符串。
11. 根據(jù)權利要求9或10所述的系統(tǒng),其特征在于,所述模型構建模塊包括: 初始化單元,用于根據(jù)所述文字性試題的答案信息確定需進行自適應的聲學模型; 訓練樣本確定單元,用于將所述第一識別結(jié)果作為模型自適應訓練樣本,確定可信訓 練樣本; 訓練單元,用于根據(jù)所述可信訓練樣本對所述需進行自適應的聲學模型進行自適應迭 代訓練,得到自適應變換矩陣;并在所述自適應迭代訓練完成后,得到自適應聲學模型。
12. 根據(jù)權利要求11所述的系統(tǒng),其特征在于,所述文字性試題包括:文字性客觀題; 所述第二獲取模塊具體用于獲取客觀題標準答案字符列表L1、W及客觀題標準答案字 符對應的常錯字符列表L2 ;所述初始化單元具體用于選取字符列表L1和字符列表L2的并 集字符對應的聲學模型作為所述需進行自適應的聲學模型。
13. 根據(jù)權利要求11所述的系統(tǒng),其特征在于,所述文字性試題包括:文字性主觀題; 所述第二獲取模塊包括: 第一獲取單元,用于獲取主觀題答案涉及范圍的字符列表L3 ; 列表生成單元,用于從所述第一識別結(jié)果中確定候選字符,生成候選字符列表L4 ; 所述初始化單元具體用于選取字符列表L3和字符列表L4的并集字符對應的聲學模型 作為所述需進行自適應的聲學模型。
14. 根據(jù)權利要求11所述的系統(tǒng),其特征在于,所述文字性試題包括:文字性客觀題和 文字性主觀題; 所述第二獲取模塊包括: 第二獲取單元,用于獲取客觀題標準答案字符列表L1、客觀題標準答案字符對應的常 錯字符列表L2、W及主觀題答案涉及范圍的字符列表L3 ; 列表生成單元,用于從所述第一識別結(jié)果中確定候選字符,生成候選字符列表L4 ; 所述初始化單元具體用于選取字符列表L1、字符列表L2、字符列表L3、W及字符列表 L4的并集字符對應的聲學模型作為所述需進行自適應的聲學模型。
15. 根據(jù)權利要求11所述的系統(tǒng),其特征在于,所述訓練樣本確定單元包括: 識別子單元,用于基于當前自適應迭代后的聲學模型,識別所述訓練樣本,得到識別首 候選后驗概率; 判斷子單元,用于在所述首候選后驗概率大于置信度闊值時,將所述訓練樣本作為下 一次自適應迭代的可信訓練樣本。
16. 根據(jù)權利要求15所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括;置信度闊值確定模 塊,所述置信度闊值確定模塊具體包括: 后驗概率計算單元,用于計算全字符訓練集在通用聲學模型上的首候選后驗概率; 聚類單元,用于根據(jù)所述首候選后驗概率的分布圖,對所述通用聲學模型進行聚類; 統(tǒng)計單元,用于統(tǒng)計所述全字符訓練集在所述通用聲學模型上的識別率,確定所述置 信度闊值。
【文檔編號】G06K9/00GK104463101SQ201410624173
【公開日】2015年3月25日 申請日期:2014年11月6日 優(yōu)先權日:2014年11月6日
【發(fā)明者】胡雨隆, 胡金水, 竺博, 魏思, 胡國平, 胡郁, 劉慶峰 申請人:科大訊飛股份有限公司