字符串進(jìn)行切分,生成字符序列,具體包括: 針對所述字符串中包含的任意一字符,當(dāng)所述任意一字符的字符類型為中文字符類型 時,將所述任意一字符確定為一個識別元素;當(dāng)所述任意一字符的字符類型為表音字符類 型時,若所述任意一字符不是所述字符串的第一個字符,且所述任意一字符位于兩個空格 之間,或者,所述任意一字符是所述字符串的第一個字符,且所述任意一字符的下一個位置 為空格,則將所述任意一字符確定為一個識別元素,否則,分別獲取距離所述任意一字符最 近的兩個空格,并將獲取的兩個空格之間的所有字符,確定為一個識別元素; 按照每一個獲取的識別元素在所述字符串中的位置,對獲取的識別元素進(jìn)行排序; 將排序后的識別元素確定為字符序列。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,計算所述字符序列和標(biāo)準(zhǔn)識別結(jié)果序列 之間的最小編輯距離,具體包括: 建立二維網(wǎng)格;其中,所述二維網(wǎng)格的第一維表示所述字符序列中包含的識別元素,所 述二維網(wǎng)格的第二維表示所述標(biāo)準(zhǔn)識別結(jié)果序列中包含的標(biāo)準(zhǔn)元素; 在所述二維網(wǎng)格中,自左向右,自上而下依次計算所述二維網(wǎng)格中每一個單元格對應(yīng) 的每一種錯誤類型的數(shù)目;其中,所述每一種錯誤類型的數(shù)目為該錯誤類型對應(yīng)的前一個 單元格中該錯誤類型的數(shù)目與該單元格對應(yīng)的識別元素相對于標(biāo)準(zhǔn)元素的該錯誤類型的 數(shù)目之和;所述前一個單元格為該錯誤類型對應(yīng)的回溯指針指向的與當(dāng)前單元格相鄰的單 元格; 將計算得到的每一個單元格對應(yīng)的每一種錯誤類型的數(shù)目添加至所述二維網(wǎng)格中的 相應(yīng)單元格中; 選取所述二維網(wǎng)格中位于最后一行且最后一列的單元格,確定選取的單元格對應(yīng)的所 有錯誤類型中,數(shù)目最小的錯誤類型;將確定的錯誤類型的數(shù)目作為所述字符序列和標(biāo)準(zhǔn) 識別結(jié)果序列之間的最小編輯距離。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,計算所述字符序列和所述標(biāo)準(zhǔn)識別結(jié)果 劃分后生成的標(biāo)準(zhǔn)識別結(jié)果序列之間的最小編輯距離,具體包括: 針對所述二維網(wǎng)格中的每一個單元格,均執(zhí)行如下操作:確定該單元格對應(yīng)的所有錯 誤類型中,數(shù)目最小的錯誤類型;將確定的錯誤類型的數(shù)目確定為該單元格對應(yīng)的最小數(shù) 目;獲取所述確定的錯誤類型對應(yīng)的回溯指針; 自所述二維網(wǎng)格中最小編輯距離對應(yīng)的單元格起,根據(jù)每一個單元格中獲取的回溯指 針的指向,確定所述字符序列對應(yīng)的每一個識別元素與所述標(biāo)準(zhǔn)識別結(jié)果對應(yīng)的每一個標(biāo) 準(zhǔn)元素之間的對齊關(guān)系組;并 將確定的所述字符序列對應(yīng)的每一個識別元素與所述標(biāo)準(zhǔn)識別結(jié)果對應(yīng)的每一個標(biāo) 準(zhǔn)元素之間的對齊關(guān)系組,作為所述字符序列和所述標(biāo)準(zhǔn)識別結(jié)果序列的最優(yōu)對齊結(jié)果。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述字符序列和所述標(biāo)準(zhǔn)識別結(jié)果 序列的最優(yōu)對齊結(jié)果,確定所述字符序列相對于所述標(biāo)準(zhǔn)識別結(jié)果序列的識別率,具體包 括: 獲取所述齊關(guān)系組中每一個對齊關(guān)系對應(yīng)的錯誤類型和錯誤類型的數(shù)目; 根據(jù)所述對齊關(guān)系組中每一個對齊關(guān)系對應(yīng)的錯誤類型的數(shù)目,確定所述字符序列相 對于所述標(biāo)準(zhǔn)識別結(jié)果序列的識別率。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述對齊關(guān)系組中每一個對齊關(guān)系 對應(yīng)的錯誤類型的數(shù)目,確定所述字符序列相對于所述標(biāo)準(zhǔn)識別結(jié)果序列的識別率,具體 包括: 從所述對齊關(guān)系組中選取中文對應(yīng)關(guān)系;其中,所述中文對應(yīng)關(guān)系包含中文標(biāo)準(zhǔn)元素; 計算選取的對應(yīng)關(guān)系中所有識別錯誤的對應(yīng)關(guān)系的數(shù)目,與中文標(biāo)準(zhǔn)元素的總數(shù)目的比 值,將所述比值確定為所述字符序列相對于所述標(biāo)準(zhǔn)識別結(jié)果序列的中文識別錯誤率; 從所述對齊關(guān)系組中選取表音字符對應(yīng)關(guān)系;其中,所述表音字符對應(yīng)關(guān)系包含表音 字符標(biāo)準(zhǔn)元素;計算選取的對應(yīng)關(guān)系中所有識別錯誤的對應(yīng)關(guān)系的數(shù)目,與表音字符標(biāo)準(zhǔn) 元素的總數(shù)目的比值,將所述比值確定為所述字符序列相對于所述標(biāo)準(zhǔn)識別結(jié)果序列的表 首字符識別錯誤率。7. -種識別率確定裝置,其特征在于,包括: 獲取單元,用于獲取對語音進(jìn)行識別得到的字符串和所述語音對應(yīng)的標(biāo)準(zhǔn)識別結(jié)果; 其中,所述標(biāo)準(zhǔn)識別結(jié)果中包含字符類型為表音字符類型的字符和中文字符類型的字符; 序列生成單元:用于根據(jù)所述字符串中包含的字符類型,對所述字符串進(jìn)行切分,生成 字符序列;其中,當(dāng)所述字符串中包含表音字符時,表示一個完整含義的多個表音字符被切 分為一個識別元素; 計算單元,用于計算所述字符序列和所述標(biāo)準(zhǔn)識別結(jié)果劃分后生成的標(biāo)準(zhǔn)識別結(jié)果序 列之間的最小編輯距離; 最優(yōu)對齊結(jié)果確定單元,用于根據(jù)計算得到的最小編輯距離,獲取所述字符序列和所 述標(biāo)準(zhǔn)識別結(jié)果序列的最優(yōu)對齊結(jié)果; 識別率確定單元,用于根據(jù)所述字符序列和所述標(biāo)準(zhǔn)識別結(jié)果序列的最優(yōu)對齊結(jié)果, 確定所述字符序列相對于所述標(biāo)準(zhǔn)識別結(jié)果序列的識別率;其中,所述識別率包括表音字 符識別錯誤率和中文識別錯誤率。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述序列生成單元,具體用于: 針對所述字符串中包含的任意一字符,當(dāng)所述任意一字符的字符類型為中文字符類型 時,將所述任意一字符確定為一個識別元素;當(dāng)所述任意一字符的字符類型為表音字符類 型時,若所述任意一字符不是所述字符串的第一個字符,且所述任意一字符位于兩個空格 之間,或者,所述任意一字符是所述字符串的第一個字符,且所述任意一字符的下一個位置 為空格,則將所述任意一字符確定為一個識別元素,否則,分別獲取距離所述任意一字符最 近的兩個空格,并將獲取的兩個空格之間的所有字符,確定為一個識別元素; 按照每一個獲取的識別元素在所述字符串中的位置,對獲取的識別元素進(jìn)行排序; 將排序后的識別元素確定為字符序列。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述計算單元,具體用于: 建立二維網(wǎng)格;其中,所述二維網(wǎng)格的第一維表示所述字符序列中包含的識別元素,所 述二維網(wǎng)格的第二維表示所述標(biāo)準(zhǔn)識別結(jié)果序列中包含的標(biāo)準(zhǔn)元素; 在所述二維網(wǎng)格中,自左向右,自上而下依次計算所述二維網(wǎng)格中每一個單元格對應(yīng) 的每一種錯誤類型的數(shù)目;其中,所述每一種錯誤類型的數(shù)目為該錯誤類型對應(yīng)的前一個 單元格中該錯誤類型的數(shù)目與該單元格對應(yīng)的識別元素相對于標(biāo)準(zhǔn)元素的該錯誤類型的 數(shù)目之和;所述前一個單元格為該錯誤類型對應(yīng)的回溯指針指向的與當(dāng)前單元格相鄰的單 元格; 將計算得到的每一個單元格對應(yīng)的每一種錯誤類型的數(shù)目添加至所述二維網(wǎng)格中的 相應(yīng)單元格中; 選取所述二維網(wǎng)格中位于最后一行且最后一列的單元格,確定選取的單元格對應(yīng)的所 有錯誤類型中,數(shù)目最小的錯誤類型;將確定的錯誤類型的數(shù)目作為所述字符序列和標(biāo)準(zhǔn) 識別結(jié)果序列之間的最小編輯距離。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述最優(yōu)對齊結(jié)果確定單元,具體用于: 針對所述二維網(wǎng)格中的每一個單元格,均執(zhí)行如下操作:確定該單元格對應(yīng)的所有錯 誤類型中,數(shù)目最小的錯誤類型;將確定的錯誤類型的數(shù)目確定為該單元格對應(yīng)的最小數(shù) 目;獲取所述確定的錯誤類型對應(yīng)的回溯指針; 自所述二維網(wǎng)格中最小編輯距離對應(yīng)的單元格起,根據(jù)每一個單元格中獲取的回溯指 針的指向,確定所述字符序列對應(yīng)的每一個識別元素與所述標(biāo)準(zhǔn)識別結(jié)果對應(yīng)的每一個標(biāo) 準(zhǔn)元素之間的對齊關(guān)系組;并 將確定的所述字符序列對應(yīng)的每一個識別元素與所述標(biāo)準(zhǔn)識別結(jié)果對應(yīng)的每一個標(biāo) 準(zhǔn)元素之間的對齊關(guān)系組,作為所述字符序列和所述標(biāo)準(zhǔn)識別結(jié)果序列的最優(yōu)對齊結(jié)果。11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述識別率確定單元,具體用于: 獲取所述齊關(guān)系組中每一個對齊關(guān)系對應(yīng)的錯誤類型和錯誤類型的數(shù)目; 根據(jù)所述對齊關(guān)系組中每一個對齊關(guān)系對應(yīng)的錯誤類型的數(shù)目,確定所述字符序列相 對于所述標(biāo)準(zhǔn)識別結(jié)果序列的識別率。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述識別率確定單元根據(jù)所述對齊關(guān) 系組中每一個對齊關(guān)系對應(yīng)的錯誤類型的數(shù)目,確定所述字符序列相對于所述標(biāo)準(zhǔn)識別結(jié) 果序列的識別率,具體包括: 從所述對齊關(guān)系組中選取中文對應(yīng)關(guān)系;其中,所述中文對應(yīng)關(guān)系包含中文標(biāo)準(zhǔn)元素; 計算選取的對應(yīng)關(guān)系中所有識別錯誤的對應(yīng)關(guān)系的數(shù)目,與中文標(biāo)準(zhǔn)元素的總數(shù)目的比 值,將所述比值確定為所述字符序列相對于所述標(biāo)準(zhǔn)識別結(jié)果序列的中文識別錯誤率; 從所述對齊關(guān)系組中選取表音字符對應(yīng)關(guān)系;其中,所述表音字符對應(yīng)關(guān)系包含表音 字符標(biāo)準(zhǔn)元素;計算選取的對應(yīng)關(guān)系中所有識別錯誤的對應(yīng)關(guān)系的數(shù)目,與表音字符標(biāo)準(zhǔn) 元素的總數(shù)目的比值,將所述比值確定為所述字符序列相對于所述標(biāo)準(zhǔn)識別結(jié)果序列的表 首字符識別錯誤率。
【專利摘要】本發(fā)明實施例提供一種識別率確定方法及裝置,方法為,獲取語音識別裝置識別得到的字符串,以及該字符串對應(yīng)的標(biāo)準(zhǔn)識別結(jié)果,其中,所述標(biāo)準(zhǔn)識別結(jié)果包括表音字符和中文字符;對所述字符串進(jìn)行切分,生成字符序列;且對所述標(biāo)準(zhǔn)識別結(jié)果進(jìn)行切分,生成標(biāo)準(zhǔn)標(biāo)識結(jié)果序列;計算生成的標(biāo)準(zhǔn)標(biāo)識結(jié)果序列和字符序列之間的最小編輯距離;根據(jù)計算得到的最小編輯距離,確定語音識別裝置的識別率。采用本發(fā)明實施例技術(shù)方案,將識別得到的字符串和標(biāo)準(zhǔn)識別結(jié)果中的中文字符(和數(shù)字)和英文單詞作為評測單元,將一個英文單詞視為一個整體,避免了將單詞中的每一個字符作為一個元素進(jìn)行處理時造成的計算結(jié)果錯誤率增加的問題,提高了計算結(jié)果的準(zhǔn)確性。
【IPC分類】G06F17/27
【公開號】CN105653517
【申請?zhí)枴?br>【發(fā)明人】王育軍
【申請人】樂視致新電子科技(天津)有限公司
【公開日】2016年6月8日
【申請日】2015年11月5日