為表音字符類型的字符和中文字符類型的 字符;
[0087] 序列生成單元81,用于根據(jù)所述字符串中包含的字符類型,對(duì)所述字符串進(jìn)行切 分,生成字符序列;其中,當(dāng)所述字符串中包含表音字符時(shí),表示一個(gè)完整含義的多個(gè)表音 字符被切分為一個(gè)識(shí)別元素;
[0088] 計(jì)算單元82,用于計(jì)算所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果劃分后生成的標(biāo)準(zhǔn)識(shí)別 結(jié)果序列之間的最小編輯距離;
[0089] 最優(yōu)對(duì)齊結(jié)果確定單元83,用于根據(jù)計(jì)算得到的最小編輯距離,獲取所述字符序 列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最優(yōu)對(duì)齊結(jié)果;
[0090] 識(shí)別率確定單元84,用于根據(jù)所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最優(yōu)對(duì)齊 結(jié)果,確定所述字符序列相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的識(shí)別率;其中,所述識(shí)別率包括表 首字符識(shí)別錯(cuò)誤率和中文識(shí)別錯(cuò)誤率。
[0091] 進(jìn)一步的,所述裝置還包括歸一化處理單元85,用于:在對(duì)所述字符串進(jìn)行切分 之前,分別對(duì)所述字符串進(jìn)行歸一化處理。
[0092] 可選的,所述歸一化處理單元85,具體用于:剔除所述字符串中包含的標(biāo)點(diǎn)符號(hào); 針對(duì)所述字符串中包含的任意一中文字符,若所述任意一中文字符表示數(shù)字,則將所述任 意一中文字符轉(zhuǎn)換為相應(yīng)的ASCII碼字符;并將所述字符串中包含的表音字符轉(zhuǎn)換為相應(yīng) 的ASCII碼字符。
[0093] 可選的,所述字符串中還包含特定符號(hào);所述歸一化處理單元85,還用于:若所述 特定符號(hào)與中文字符相鄰,或者所述特定符號(hào)位于中文字符和表音字符之間,則刪除所述 特定符號(hào);若所述特定符號(hào)位于表音字符之間或者所述特定符號(hào)位于表音字符和數(shù)字之 間,則保留所述特定符號(hào);其中,所述特定符號(hào)為空格或者制表符。
[0094] 可選的,所述序列生成單元81,具體用于:針對(duì)所述字符串中包含的任意一字符, 當(dāng)所述任意一字符的字符類型為中文字符類型時(shí),將所述任意一字符確定為一個(gè)識(shí)別元 素;當(dāng)所述任意一字符的字符類型為表音字符類型時(shí),若所述任意一字符不是所述字符串 的第一個(gè)字符,且所述任意一字符位于兩個(gè)空格之間,或者,所述任意一字符是所述字符串 的第一個(gè)字符,且所述任意一字符的下一個(gè)位置為空格,則將所述任意一字符確定為一個(gè) 識(shí)別元素,否則,分別獲取距離所述任意一字符最近的兩個(gè)空格,并將獲取的兩個(gè)空格之間 的所有字符,確定為一個(gè)識(shí)別元素;按照每一個(gè)獲取的識(shí)別元素在所述字符串中的位置,對(duì) 獲取的識(shí)別元素進(jìn)行排序;將排序后的識(shí)別元素確定為字符序列。
[0095] 可選的,所述計(jì)算單元82,具體用于:建立二維網(wǎng)格;其中,所述二維網(wǎng)格的第一 維表示所述字符序列中包含的識(shí)別元素,所述二維網(wǎng)格的第二維表示所述標(biāo)準(zhǔn)識(shí)別結(jié)果序 列中包含的標(biāo)準(zhǔn)元素;在所述二維網(wǎng)格中,自左向右,自上而下依次計(jì)算所述二維網(wǎng)格中每 一個(gè)單元格對(duì)應(yīng)的每一種錯(cuò)誤類型的數(shù)目;其中,所述每一種錯(cuò)誤類型的數(shù)目為該錯(cuò)誤類 型對(duì)應(yīng)的前一個(gè)單元格中該錯(cuò)誤類型的數(shù)目與該單元格對(duì)應(yīng)的識(shí)別元素相對(duì)于標(biāo)準(zhǔn)元素 的該錯(cuò)誤類型的數(shù)目之和;所述前一個(gè)單元格為該錯(cuò)誤類型對(duì)應(yīng)的回溯指針指向的與當(dāng)前 單元格相鄰的單元格;將計(jì)算得到的每一個(gè)單元格對(duì)應(yīng)的每一種錯(cuò)誤類型的數(shù)目添加至所 述二維網(wǎng)格中的相應(yīng)單元格中;選取所述二維網(wǎng)格中位于最后一行且最后一列的單元格, 確定選取的單元格對(duì)應(yīng)的所有錯(cuò)誤類型中,數(shù)目最小的錯(cuò)誤類型;將確定的錯(cuò)誤類型的數(shù) 目作為所述字符序列和標(biāo)準(zhǔn)識(shí)別結(jié)果序列之間的最小編輯距離。
[0096] 可選的,所述最優(yōu)對(duì)齊結(jié)果確定單元83,具體用于:針對(duì)所述二維網(wǎng)格中的每一 個(gè)單元格,均執(zhí)行如下操作:確定該單元格對(duì)應(yīng)的所有錯(cuò)誤類型中,數(shù)目最小的錯(cuò)誤類型; 將確定的錯(cuò)誤類型的數(shù)目確定為該單元格對(duì)應(yīng)的最小數(shù)目;獲取所述確定的錯(cuò)誤類型對(duì)應(yīng) 的回溯指針;自所述二維網(wǎng)格中最小編輯距離對(duì)應(yīng)的單元格起,根據(jù)每一個(gè)單元格中獲取 的回溯指針的指向,確定所述字符序列對(duì)應(yīng)的每一個(gè)識(shí)別元素與所述標(biāo)準(zhǔn)識(shí)別結(jié)果對(duì)應(yīng)的 每一個(gè)標(biāo)準(zhǔn)元素之間的對(duì)齊關(guān)系組;并將確定的所述字符序列對(duì)應(yīng)的每一個(gè)識(shí)別元素與所 述標(biāo)準(zhǔn)識(shí)別結(jié)果對(duì)應(yīng)的每一個(gè)標(biāo)準(zhǔn)元素之間的對(duì)齊關(guān)系組,作為所述字符序列和所述標(biāo)準(zhǔn) 識(shí)別結(jié)果序列的最優(yōu)對(duì)齊結(jié)果。
[0097] 可選的,所述識(shí)別率確定單元84,具體用于:獲取所述齊關(guān)系組中每一個(gè)對(duì)齊關(guān) 系對(duì)應(yīng)的錯(cuò)誤類型和錯(cuò)誤類型的數(shù)目;根據(jù)所述對(duì)齊關(guān)系組中每一個(gè)對(duì)齊關(guān)系對(duì)應(yīng)的錯(cuò)誤 類型的數(shù)目,確定所述字符序列相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的識(shí)別率。
[0098] 可選的,所述識(shí)別率確定單元84根據(jù)所述對(duì)齊關(guān)系組中每一個(gè)對(duì)齊關(guān)系對(duì)應(yīng)的 錯(cuò)誤類型的數(shù)目,確定所述字符序列相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的識(shí)別率,具體包括:從 所述對(duì)齊關(guān)系組中選取中文對(duì)應(yīng)關(guān)系;其中,所述中文對(duì)應(yīng)關(guān)系包含中文標(biāo)準(zhǔn)元素;計(jì)算 選取的對(duì)應(yīng)關(guān)系中所有識(shí)別錯(cuò)誤的對(duì)應(yīng)關(guān)系的數(shù)目,與中文標(biāo)準(zhǔn)元素的總數(shù)目的比值,將 所述比值確定為所述字符序列相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的中文識(shí)別錯(cuò)誤率;從所述對(duì) 齊關(guān)系組中選取表音字符對(duì)應(yīng)關(guān)系;其中,所述表音字符對(duì)應(yīng)關(guān)系包含表音字符標(biāo)準(zhǔn)元素; 計(jì)算選取的對(duì)應(yīng)關(guān)系中所有識(shí)別錯(cuò)誤的對(duì)應(yīng)關(guān)系的數(shù)目,與表音字符標(biāo)準(zhǔn)元素的總數(shù)目的 比值,將所述比值確定為所述字符序列相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的表音字符識(shí)別錯(cuò)誤 率。
[0099] 可選的,所述識(shí)別率還包括類型錯(cuò)誤率;所述識(shí)別率確定單元84根據(jù)所述對(duì)齊關(guān) 系組中每一個(gè)對(duì)齊關(guān)系對(duì)應(yīng)的錯(cuò)誤類型的數(shù)目,確定所述字符序列相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié) 果序列的識(shí)別率,還包括:針對(duì)所述對(duì)齊關(guān)系組中每一種錯(cuò)誤類型,均執(zhí)行如下操作:獲取 所述對(duì)齊關(guān)系組中該錯(cuò)誤類型的總數(shù)目;獲取所述對(duì)應(yīng)關(guān)系組中所有錯(cuò)誤類型的總數(shù)目; 計(jì)算該錯(cuò)誤類型的總數(shù)目和所有錯(cuò)誤類型的總數(shù)目之間的比值,將所述比值確定為該錯(cuò)誤 類型的類型錯(cuò)誤率。
[0100] 綜上所述,獲取語音識(shí)別得到的字符串和標(biāo)準(zhǔn)識(shí)別結(jié)果;其中,所述標(biāo)準(zhǔn)識(shí)別結(jié)果 中包含表音字符類型的字符和中文字符類型的字符;根據(jù)所述字符串中包含的字符類型, 對(duì)所述字符串進(jìn)行切分,生成字符序列;并根據(jù)所述標(biāo)準(zhǔn)識(shí)別結(jié)果中包含的字符類型,對(duì)所 述標(biāo)準(zhǔn)識(shí)別結(jié)果進(jìn)行切分,生成標(biāo)準(zhǔn)標(biāo)識(shí)結(jié)果序列;計(jì)算所述字符序列和標(biāo)準(zhǔn)識(shí)別結(jié)果序 列之間的最小編輯距離;根據(jù)計(jì)算得到的最小編輯距離,獲取所述字符序列和所述標(biāo)準(zhǔn)識(shí) 別結(jié)果序列的最優(yōu)對(duì)齊結(jié)果;根據(jù)所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最優(yōu)對(duì)齊結(jié) 果,確定所述字符序列相對(duì)于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的識(shí)別率;其中,所述識(shí)別率包括表音 字符識(shí)別錯(cuò)誤率和中文識(shí)別錯(cuò)誤率。采用本發(fā)明實(shí)施例技術(shù)方案,將識(shí)別得到的字符串和 標(biāo)準(zhǔn)識(shí)別結(jié)果中的中文字符(和數(shù)字)和表音單詞作為評(píng)測(cè)單元,在計(jì)算最小編輯距離后, 回溯產(chǎn)生字符串和標(biāo)準(zhǔn)識(shí)別結(jié)果的最優(yōu)對(duì)齊對(duì)應(yīng)關(guān)系組,進(jìn)而能夠分別計(jì)算得到中文字符 和數(shù)字的錯(cuò)誤率、表音單詞錯(cuò)誤率以及總體錯(cuò)誤率,將一個(gè)表音單詞視為一個(gè)整體,避免了 將單詞中的每一個(gè)字符作為一個(gè)元素進(jìn)行處理時(shí)造成的計(jì)算結(jié)果錯(cuò)誤率增加的問題,提高 了計(jì)算結(jié)果的準(zhǔn)確性。
[0101] 以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可 以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單 元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其 中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性 的勞動(dòng)的情況下,即可以理解并實(shí)施。
[0102] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可 借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件?;谶@樣的理解,上 述技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該 計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指 令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施 例或者實(shí)施例的某些部分所述的方法。
[0103] 最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明實(shí)施例的技術(shù)方案,而非對(duì)其限 制;盡管參照前述實(shí)施例對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng) 理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征 進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實(shí)施例各實(shí) 施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1. 一種識(shí)別率確定方法,其特征在于,包括: 獲取對(duì)語音進(jìn)行識(shí)別得到的字符串和所述語音對(duì)應(yīng)的標(biāo)準(zhǔn)識(shí)別結(jié)果;其中,所述標(biāo)準(zhǔn) 識(shí)別結(jié)果中包含字符類型為表音字符類型的字符和中文字符類型的字符; 根據(jù)所述字符串中包含的字符類型,對(duì)所述字符串進(jìn)行切分,生成字符序列;其中,當(dāng) 所述字符串中包含表音字符時(shí),表示一個(gè)完整含義的多個(gè)表音字符被切分為一個(gè)識(shí)別元 素; 計(jì)算所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果劃分后生成的標(biāo)準(zhǔn)識(shí)別結(jié)果序列之間的最小 編輯距離; 根據(jù)計(jì)算得到的最小編輯距離,獲取所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最優(yōu)對(duì) 齊結(jié)果; 根據(jù)所述字符序列和所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的最優(yōu)對(duì)齊結(jié)果,確定所述字符序列相對(duì) 于所述標(biāo)準(zhǔn)識(shí)別結(jié)果序列的識(shí)別率;其中,所述識(shí)別率包括表音字符識(shí)別錯(cuò)誤率和中文識(shí) 別錯(cuò)誤率。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述字符串中包含的字符類型,對(duì)所 述