一種識(shí)別率確定方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種識(shí)別率確定方法及裝置。
【背景技術(shù)】
[0002] 語音識(shí)別技術(shù)是讓機(jī)器通過識(shí)別和理解過程將語音信號(hào)轉(zhuǎn)換為相應(yīng)的命令或文 本的技術(shù)。目前,語音識(shí)別技術(shù)廣泛應(yīng)用于語音操控、語音翻譯等語音交互產(chǎn)品。
[0003]目前,在語音識(shí)別系統(tǒng)對(duì)語音信號(hào)進(jìn)行語音識(shí)別之后,為了判斷該語音識(shí)別系統(tǒng) 的性能,通常需要將語音識(shí)別結(jié)果與標(biāo)準(zhǔn)語音識(shí)別結(jié)果進(jìn)行對(duì)比,并根據(jù)對(duì)比結(jié)果判斷語 音識(shí)別系統(tǒng)對(duì)語音信息識(shí)別的識(shí)別率。
[0004] 目前,在確定語音識(shí)別系統(tǒng)的識(shí)別率的過程中,由于語音識(shí)別裝置識(shí)別中英文混 合的語音時(shí),可能將英文語音識(shí)別為中文字符,而現(xiàn)有的語音識(shí)別率檢測(cè)裝置需要將識(shí)別 后的英文字符中包含的字母以及標(biāo)準(zhǔn)語音識(shí)別結(jié)果中的英文單詞中的所有字母作為獨(dú)立 的元素進(jìn)行處理,從而造成最終檢測(cè)得到的識(shí)別率中的識(shí)別錯(cuò)誤率大大增加,進(jìn)而使得計(jì) 算得到的語音識(shí)別裝置的識(shí)別率不準(zhǔn)確。
[0005] 由此可見,目前獲取語音識(shí)別率的過程中,存在確定的識(shí)別率不準(zhǔn)確的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施例提供一種識(shí)別率確定方法及裝置,用以解決目前獲取語音識(shí)別率的 過程中,存在確定的識(shí)別率不準(zhǔn)確的問題。
[0007] 本發(fā)明實(shí)施例提供的具體技術(shù)方案如下:
[0008] 本發(fā)明實(shí)施例提供一種識(shí)別率確定方法,包括:
[0009] 獲取對(duì)語音進(jìn)行識(shí)別得到的字符串和所述語音對(duì)應(yīng)的標(biāo)準(zhǔn)識(shí)別結(jié)果;其中,所述 標(biāo)準(zhǔn)識(shí)別結(jié)果中包含字符類型為表音字符類型的字符和中文字符類型的字符;
[0010] 根據(jù)所述字符串中包含的字符類型,對(duì)所述字符串進(jìn)行切分,生成字符序列;其 中,當(dāng)所述字符串中包含表音字符時(shí),表示一個(gè)完整含義的多個(gè)表音字符被切分為一個(gè)識(shí) 別元素;
[0011] 計(jì)算所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果劃分后生成的標(biāo)準(zhǔn)識(shí)別結(jié)果序列之間的 最小編輯距尚;
[0012] 根據(jù)計(jì)算得到的最小編輯距離,獲取所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最 優(yōu)對(duì)齊結(jié)果;
[0013] 根據(jù)所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最優(yōu)對(duì)齊結(jié)果,確定所述字符序列 相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的識(shí)別率;其中,所述識(shí)別率包括表音字符識(shí)別錯(cuò)誤率和中 文識(shí)別錯(cuò)誤率。
[0014] 本發(fā)明實(shí)施例提供一種識(shí)別率確定裝置,包括:
[0015] 獲取單元,用于獲取對(duì)語音進(jìn)行識(shí)別得到的字符串和所述語音對(duì)應(yīng)的標(biāo)準(zhǔn)識(shí)別結(jié) 果;其中,所述標(biāo)準(zhǔn)識(shí)別結(jié)果中包含字符類型為表音字符類型的字符和中文字符類型的字 符;
[0016] 序列生成單元:用于根據(jù)所述字符串中包含的字符類型,對(duì)所述字符串進(jìn)行切分, 生成字符序列;其中,當(dāng)所述字符串中包含表音字符時(shí),表示一個(gè)完整含義的多個(gè)表音字符 被切分為一個(gè)識(shí)別元素;
[0017] 計(jì)算單元,用于計(jì)算所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果劃分后生成的標(biāo)準(zhǔn)識(shí)別結(jié) 果序列之間的最小編輯距離;
[0018] 最優(yōu)對(duì)齊結(jié)果確定單元,用于根據(jù)計(jì)算得到的最小編輯距離,獲取所述字符序列 和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最優(yōu)對(duì)齊結(jié)果;
[0019] 識(shí)別率確定單元,用于根據(jù)所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最優(yōu)對(duì)齊結(jié) 果,確定所述字符序列相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的識(shí)別率;其中,所述識(shí)別率包括表音 字符識(shí)別錯(cuò)誤率和中文識(shí)別錯(cuò)誤率。
[0020] 本發(fā)明實(shí)施例中,識(shí)別率確定裝置獲取語音識(shí)別裝置識(shí)別得到的字符串,以及該 字符串對(duì)應(yīng)的標(biāo)準(zhǔn)識(shí)別結(jié)果,其中,所述標(biāo)準(zhǔn)識(shí)別結(jié)果包括表音字符和中文字符;識(shí)別率確 定裝置根據(jù)所述字符串中包含的字符類型,對(duì)所述字符串進(jìn)行切分,生成字符序列;且識(shí)別 率確定裝置根據(jù)所述標(biāo)準(zhǔn)識(shí)別結(jié)果中包含的字符類型,對(duì)所述標(biāo)準(zhǔn)識(shí)別結(jié)果進(jìn)行切分,生 成標(biāo)準(zhǔn)標(biāo)識(shí)結(jié)果序列,其中,當(dāng)所述字符串中包含表音字符時(shí),表示一個(gè)完整含義的多個(gè)表 音字符被切分為一個(gè)識(shí)別元素;識(shí)別率確定裝置計(jì)算生成的標(biāo)準(zhǔn)標(biāo)識(shí)結(jié)果序列和字符序列 之間的最小編輯距離;根據(jù)計(jì)算得到的最小編輯距離,確定語音識(shí)別裝置的識(shí)別率。采用 本發(fā)明實(shí)施例技術(shù)方案,當(dāng)表音字符為英文字符時(shí),將識(shí)別得到的字符串和標(biāo)準(zhǔn)識(shí)別結(jié)果 中的中文字符(和數(shù)字)和英文單詞作為評(píng)測(cè)單元,在計(jì)算最小編輯距離后,回溯產(chǎn)生字符 串和標(biāo)準(zhǔn)識(shí)別結(jié)果的最優(yōu)對(duì)齊對(duì)應(yīng)關(guān)系組,進(jìn)而能夠分別計(jì)算得到中文字符和數(shù)字的錯(cuò)誤 率、英文單詞錯(cuò)誤率以及總體錯(cuò)誤率,將一個(gè)英文單詞視為一個(gè)整體,避免了將單詞中的每 一個(gè)字符作為一個(gè)元素進(jìn)行處理時(shí)造成的計(jì)算結(jié)果錯(cuò)誤率增加的問題,提高了計(jì)算結(jié)果的 準(zhǔn)確性。
【附圖說明】
[0021] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。
[0022] 圖1為本發(fā)明實(shí)施例中語音識(shí)別系統(tǒng)架構(gòu)示意圖;
[0023] 圖2為本發(fā)明實(shí)施例中識(shí)別率確定流程圖;
[0024] 圖3為本發(fā)明實(shí)施例中最小編輯距離的計(jì)算流程圖;
[0025] 圖4為本發(fā)明實(shí)施例中二維網(wǎng)格示意圖;
[0026] 圖5為本發(fā)明實(shí)施例中錯(cuò)誤類型和回溯指針形式對(duì)應(yīng)表;
[0027] 圖6為本發(fā)明實(shí)施例中確定識(shí)別率的流程圖;
[0028] 圖7為本發(fā)明實(shí)施例中對(duì)齊關(guān)系組示意圖;
[0029] 圖8為本發(fā)明實(shí)施例中識(shí)別率確定裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0031] 參閱圖1所示,為本發(fā)明實(shí)施例語音識(shí)別率確定系統(tǒng)架構(gòu)示意圖,該語音識(shí)別率 確定系統(tǒng)包括語音識(shí)別裝置和識(shí)別率確定裝置;其中,語音識(shí)別裝置,用于對(duì)語音信息進(jìn)行 識(shí)別,得到識(shí)別后生成的字符串,較佳的,該語音信息為訓(xùn)練樣本語音信息,即該語音信息 的識(shí)別結(jié)果為標(biāo)準(zhǔn)識(shí)別結(jié)果,該標(biāo)準(zhǔn)識(shí)別結(jié)果為已知;此外,所述語音識(shí)別裝置可以識(shí)別中 文,以及表音字符對(duì)應(yīng)的語言,該表音字符對(duì)應(yīng)的語言即為由多個(gè)字符共同表達(dá)一個(gè)完整 字或者詞的語言,如英語,法語等;識(shí)別率確定裝置,用于獲取語音識(shí)別裝置識(shí)別得到的字 符串,并將該字符串與標(biāo)準(zhǔn)識(shí)別結(jié)果進(jìn)行比較,從而確定所述語音識(shí)別裝置識(shí)別語音信息 的識(shí)別率。
[0032] 下面結(jié)合說明書附圖,對(duì)本發(fā)明實(shí)施例作進(jìn)一步詳細(xì)描述。
[0033] 參閱圖2所示,本發(fā)明實(shí)施例中,識(shí)別率確定裝置獲取語音識(shí)別率的過程,包括:
[0034] 步驟200 :獲取對(duì)語音進(jìn)行識(shí)別得到的字符串和所述語音對(duì)應(yīng)的標(biāo)準(zhǔn)識(shí)別結(jié)果; 其中,所述標(biāo)準(zhǔn)識(shí)別結(jié)果中包含表音字符類型的字符和中文字符類型的字符。
[0035] 本發(fā)明實(shí)施例中,識(shí)別率確定裝置獲取語音識(shí)別裝置識(shí)別得到的字符串,以及該 字符串對(duì)應(yīng)的標(biāo)準(zhǔn)識(shí)別結(jié)果。其中,所述標(biāo)準(zhǔn)識(shí)別結(jié)果中至少包含兩種字符類型的字符,即 表音字符類型和中文字符類型。
[0036] 步驟210 :根據(jù)所述字符串中包含的字符類型,對(duì)所述字符串進(jìn)行切分,生成字符 序列;其中,當(dāng)所述字符串中包含表音字符時(shí),表示一個(gè)完整含義的多個(gè)表音字符被切分為 一個(gè)識(shí)別元素。
[0037] 本發(fā)明實(shí)施例中,識(shí)別率確定裝置獲取到語音識(shí)別得到的字符串以及相應(yīng)的標(biāo) 準(zhǔn)識(shí)別結(jié)果之后,分別對(duì)所述字符串以及標(biāo)準(zhǔn)識(shí)別結(jié)果進(jìn)行切分處理,進(jìn)而分別得到對(duì)字 符串進(jìn)行切分后生成的字符序列,以及對(duì)標(biāo)準(zhǔn)識(shí)別結(jié)果進(jìn)行切分后生成的標(biāo)準(zhǔn)識(shí)別結(jié)果序 列。
[0038] 可選的,當(dāng)識(shí)別率確定裝置獲取到字符串以及標(biāo)準(zhǔn)識(shí)別結(jié)果后,對(duì)所述字符串進(jìn) 行切分之前,還可以對(duì)所述字符串進(jìn)行歸一化處理,以及對(duì)所述標(biāo)準(zhǔn)識(shí)別結(jié)果進(jìn)行歸一化 處理,以提高最終得到的識(shí)別率的準(zhǔn)確性。
[0039] 具體的,識(shí)別率確定裝置對(duì)字符串進(jìn)行歸一化處理的過程包括:剔除所述字符串 中包含的標(biāo)點(diǎn)符號(hào);針對(duì)所述字符串中包含的任意一中文字符,若所述任意一中文字符 表示數(shù)字,則將所述任意一中文字符轉(zhuǎn)換為相應(yīng)的ASCII (American Standard Code for Information Interchange,美國標(biāo)準(zhǔn)信息交換代碼)碼字符;將所述字符串中包含的表音 字符轉(zhuǎn)換為相應(yīng)的ASCII碼字符;
[0040] 進(jìn)一步的,語音識(shí)別率確定單元對(duì)標(biāo)準(zhǔn)識(shí)別結(jié)果按照對(duì)字符串相同的規(guī)則進(jìn)行歸 一化處理,其過程包括:剔除所述標(biāo)準(zhǔn)識(shí)別結(jié)果中包含的標(biāo)點(diǎn)符號(hào);針對(duì)所述標(biāo)準(zhǔn)識(shí)別結(jié) 果中包含的任意一中文字符,若所述任意一中文字符表示數(shù)字,則將所述任意一中文字符 轉(zhuǎn)換為相應(yīng)的ASCII碼字符;將所述標(biāo)準(zhǔn)識(shí)別結(jié)果中包含的表音字符轉(zhuǎn)換為相應(yīng)的ASCII 碼字符。
[0041] 采用上述技術(shù)方案,識(shí)別率確定裝置將字符串以及標(biāo)準(zhǔn)識(shí)別結(jié)果進(jìn)行歸