一種識別率確定方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明實施例涉及數(shù)據(jù)處理領域,尤其涉及一種識別率確定方法及裝置。
【背景技術】
[0002] 語音識別技術是讓機器通過識別和理解過程將語音信號轉換為相應的命令或文 本的技術。目前,語音識別技術廣泛應用于語音操控、語音翻譯等語音交互產(chǎn)品。
[0003]目前,在語音識別系統(tǒng)對語音信號進行語音識別之后,為了判斷該語音識別系統(tǒng) 的性能,通常需要將語音識別結果與標準語音識別結果進行對比,并根據(jù)對比結果判斷語 音識別系統(tǒng)對語音信息識別的識別率。
[0004] 目前,在確定語音識別系統(tǒng)的識別率的過程中,由于語音識別裝置識別中英文混 合的語音時,可能將英文語音識別為中文字符,而現(xiàn)有的語音識別率檢測裝置需要將識別 后的英文字符中包含的字母以及標準語音識別結果中的英文單詞中的所有字母作為獨立 的元素進行處理,從而造成最終檢測得到的識別率中的識別錯誤率大大增加,進而使得計 算得到的語音識別裝置的識別率不準確。
[0005] 由此可見,目前獲取語音識別率的過程中,存在確定的識別率不準確的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實施例提供一種識別率確定方法及裝置,用以解決目前獲取語音識別率的 過程中,存在確定的識別率不準確的問題。
[0007] 本發(fā)明實施例提供的具體技術方案如下:
[0008] 本發(fā)明實施例提供一種識別率確定方法,包括:
[0009] 獲取對語音進行識別得到的字符串和所述語音對應的標準識別結果;其中,所述 標準識別結果中包含字符類型為表音字符類型的字符和中文字符類型的字符;
[0010] 根據(jù)所述字符串中包含的字符類型,對所述字符串進行切分,生成字符序列;其 中,當所述字符串中包含表音字符時,表示一個完整含義的多個表音字符被切分為一個識 別元素;
[0011] 計算所述字符序列和所述標準識別結果劃分后生成的標準識別結果序列之間的 最小編輯距尚;
[0012] 根據(jù)計算得到的最小編輯距離,獲取所述字符序列和所述標準識別結果序列的最 優(yōu)對齊結果;
[0013] 根據(jù)所述字符序列和所述標準識別結果序列的最優(yōu)對齊結果,確定所述字符序列 相對于所述標準識別結果序列的識別率;其中,所述識別率包括表音字符識別錯誤率和中 文識別錯誤率。
[0014] 本發(fā)明實施例提供一種識別率確定裝置,包括:
[0015] 獲取單元,用于獲取對語音進行識別得到的字符串和所述語音對應的標準識別結 果;其中,所述標準識別結果中包含字符類型為表音字符類型的字符和中文字符類型的字 符;
[0016] 序列生成單元:用于根據(jù)所述字符串中包含的字符類型,對所述字符串進行切分, 生成字符序列;其中,當所述字符串中包含表音字符時,表示一個完整含義的多個表音字符 被切分為一個識別元素;
[0017] 計算單元,用于計算所述字符序列和所述標準識別結果劃分后生成的標準識別結 果序列之間的最小編輯距離;
[0018] 最優(yōu)對齊結果確定單元,用于根據(jù)計算得到的最小編輯距離,獲取所述字符序列 和所述標準識別結果序列的最優(yōu)對齊結果;
[0019] 識別率確定單元,用于根據(jù)所述字符序列和所述標準識別結果序列的最優(yōu)對齊結 果,確定所述字符序列相對于所述標準識別結果序列的識別率;其中,所述識別率包括表音 字符識別錯誤率和中文識別錯誤率。
[0020] 本發(fā)明實施例中,識別率確定裝置獲取語音識別裝置識別得到的字符串,以及該 字符串對應的標準識別結果,其中,所述標準識別結果包括表音字符和中文字符;識別率確 定裝置根據(jù)所述字符串中包含的字符類型,對所述字符串進行切分,生成字符序列;且識別 率確定裝置根據(jù)所述標準識別結果中包含的字符類型,對所述標準識別結果進行切分,生 成標準標識結果序列,其中,當所述字符串中包含表音字符時,表示一個完整含義的多個表 音字符被切分為一個識別元素;識別率確定裝置計算生成的標準標識結果序列和字符序列 之間的最小編輯距離;根據(jù)計算得到的最小編輯距離,確定語音識別裝置的識別率。采用 本發(fā)明實施例技術方案,當表音字符為英文字符時,將識別得到的字符串和標準識別結果 中的中文字符(和數(shù)字)和英文單詞作為評測單元,在計算最小編輯距離后,回溯產(chǎn)生字符 串和標準識別結果的最優(yōu)對齊對應關系組,進而能夠分別計算得到中文字符和數(shù)字的錯誤 率、英文單詞錯誤率以及總體錯誤率,將一個英文單詞視為一個整體,避免了將單詞中的每 一個字符作為一個元素進行處理時造成的計算結果錯誤率增加的問題,提高了計算結果的 準確性。
【附圖說明】
[0021] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。
[0022] 圖1為本發(fā)明實施例中語音識別系統(tǒng)架構示意圖;
[0023] 圖2為本發(fā)明實施例中識別率確定流程圖;
[0024] 圖3為本發(fā)明實施例中最小編輯距離的計算流程圖;
[0025] 圖4為本發(fā)明實施例中二維網(wǎng)格示意圖;
[0026] 圖5為本發(fā)明實施例中錯誤類型和回溯指針形式對應表;
[0027] 圖6為本發(fā)明實施例中確定識別率的流程圖;
[0028] 圖7為本發(fā)明實施例中對齊關系組示意圖;
[0029] 圖8為本發(fā)明實施例中識別率確定裝置結構示意圖。
【具體實施方式】
[0030] 為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0031] 參閱圖1所示,為本發(fā)明實施例語音識別率確定系統(tǒng)架構示意圖,該語音識別率 確定系統(tǒng)包括語音識別裝置和識別率確定裝置;其中,語音識別裝置,用于對語音信息進行 識別,得到識別后生成的字符串,較佳的,該語音信息為訓練樣本語音信息,即該語音信息 的識別結果為標準識別結果,該標準識別結果為已知;此外,所述語音識別裝置可以識別中 文,以及表音字符對應的語言,該表音字符對應的語言即為由多個字符共同表達一個完整 字或者詞的語言,如英語,法語等;識別率確定裝置,用于獲取語音識別裝置識別得到的字 符串,并將該字符串與標準識別結果進行比較,從而確定所述語音識別裝置識別語音信息 的識別率。
[0032] 下面結合說明書附圖,對本發(fā)明實施例作進一步詳細描述。
[0033] 參閱圖2所示,本發(fā)明實施例中,識別率確定裝置獲取語音識別率的過程,包括:
[0034] 步驟200 :獲取對語音進行識別得到的字符串和所述語音對應的標準識別結果; 其中,所述標準識別結果中包含表音字符類型的字符和中文字符類型的字符。
[0035] 本發(fā)明實施例中,識別率確定裝置獲取語音識別裝置識別得到的字符串,以及該 字符串對應的標準識別結果。其中,所述標準識別結果中至少包含兩種字符類型的字符,即 表音字符類型和中文字符類型。
[0036] 步驟210 :根據(jù)所述字符串中包含的字符類型,對所述字符串進行切分,生成字符 序列;其中,當所述字符串中包含表音字符時,表示一個完整含義的多個表音字符被切分為 一個識別元素。
[0037] 本發(fā)明實施例中,識別率確定裝置獲取到語音識別得到的字符串以及相應的標 準識別結果之后,分別對所述字符串以及標準識別結果進行切分處理,進而分別得到對字 符串進行切分后生成的字符序列,以及對標準識別結果進行切分后生成的標準識別結果序 列。
[0038] 可選的,當識別率確定裝置獲取到字符串以及標準識別結果后,對所述字符串進 行切分之前,還可以對所述字符串進行歸一化處理,以及對所述標準識別結果進行歸一化 處理,以提高最終得到的識別率的準確性。
[0039] 具體的,識別率確定裝置對字符串進行歸一化處理的過程包括:剔除所述字符串 中包含的標點符號;針對所述字符串中包含的任意一中文字符,若所述任意一中文字符 表示數(shù)字,則將所述任意一中文字符轉換為相應的ASCII (American Standard Code for Information Interchange,美國標準信息交換代碼)碼字符;將所述字符串中包含的表音 字符轉換為相應的ASCII碼字符;
[0040] 進一步的,語音識別率確定單元對標準識別結果按照對字符串相同的規(guī)則進行歸 一化處理,其過程包括:剔除所述標準識別結果中包含的標點符號;針對所述標準識別結 果中包含的任意一中文字符,若所述任意一中文字符表示數(shù)字,則將所述任意一中文字符 轉換為相應的ASCII碼字符;將所述標準識別結果中包含的表音字符轉換為相應的ASCII 碼字符。
[0041] 采用上述技術方案,識別率確定裝置將字符串以及標準識別結果進行歸