語音識別系統(tǒng)和語音識別方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及一種語音識別系統(tǒng)和語音識別方法。
【背景技術(shù)】
[0002]人機(jī)界面(HMI:human-machine interface)通過視覺、聽覺或觸覺使用戶與機(jī)器進(jìn)行交互。已經(jīng)嘗試在車輛內(nèi)利用語音識別作為人機(jī)界面以便使駕駛者的注意力的轉(zhuǎn)移最小化并且提高便利性。
[0003]車輛中語音識別系統(tǒng)能夠識別的命令可以包括單音節(jié)命令和多音節(jié)命令。單音節(jié)命令是指由一個音節(jié)(例如,“Mom(媽)”,“Home (家)”)構(gòu)成的詞或者由一個雙元音(例如,“Joy (歡樂)”)構(gòu)成的詞。由于單音節(jié)命令沒有足夠的信息來識別語音,與多音節(jié)命令的語音識別性能相比,單音節(jié)命令的語音識別性能下降。
[0004]此外,在車輛的嘈雜環(huán)境中,語音識別性能的劣化變得更加嚴(yán)重。因?yàn)樵趥鹘y(tǒng)的語音識別系統(tǒng)的情況下不確定語音信號是否對應(yīng)于單音節(jié)命令,所以很難應(yīng)用專用于單音節(jié)命令的語音識別方法。
[0005]上述在背景部分公開的信息僅用于對本公開的背景做進(jìn)一步的理解,因此它可以包含對于該國本領(lǐng)域普通技術(shù)人員已知的不構(gòu)成現(xiàn)有技術(shù)的信息。
【發(fā)明內(nèi)容】
[0006]本公開致力于提供一種具有改善用于具有單音節(jié)模式的語音信號的識別性能的優(yōu)點(diǎn)的語音識別系統(tǒng)和語音識別方法。
[0007]根據(jù)本公開實(shí)施方式,一種語音識別系統(tǒng)包括:上下文(context)存儲介質(zhì),其存儲包括多個單音節(jié)命令的單音節(jié)命令上下文以及存儲包括多個多音節(jié)命令的多音節(jié)命令上下文;語音段檢測器,其通過分析具有起始點(diǎn)和結(jié)束點(diǎn)的語音段內(nèi)的語音信號來檢測語音段;音節(jié)確定器,其配置成確定語音信號是對應(yīng)于單音節(jié)模式(monosyllabic form)還是多音節(jié)模式(polysyllabic form);特征向量提取器,其通過分析語音信號來提取特征向量;以及語音識別器,其根據(jù)語音信號是對應(yīng)于單音節(jié)模式還是多音節(jié)模式的確定結(jié)果,選擇單音節(jié)命令上下文和多音節(jié)命令上下文中的一者,并且基于所提取的特征向量來識別在單音節(jié)命令上下文和多音節(jié)命令上下文中所選擇的一者中的至少一個命令。
[0008]上述音節(jié)確定器可以包括:元音/輔音檢測器,其從語音信號中檢測元音和輔音;組合計算器,其計算元音和輔音的組合的數(shù)量;以及比較器,其將該組合的數(shù)量與預(yù)定數(shù)量進(jìn)行比較。
[0009]上述元音/輔音檢測器可以利用語音信號的能量、語音信號的過零率(zerocrossing rate)、語音信號的自相關(guān)函數(shù)(auto-correlat1n funct1n)、語音信號的基頻和語音信號的頻譜傾斜(spectral tilt)中的至少一個來檢測元音和輔音。
[0010]上述語音識別系統(tǒng)還可以包括存儲用于語音識別的聲學(xué)模型(acoustic model)的聲學(xué)模型存儲介質(zhì),其中當(dāng)音節(jié)確定器確定出語音信號對應(yīng)于單音節(jié)模式時,上述語音識別器可以基于所提取的特征向量,利用單音節(jié)命令上下文和聲學(xué)模型來識別至少一個命令,并且當(dāng)音節(jié)確定器確定出語音信號對應(yīng)于多音節(jié)模式時,上述語音識別器可以基于所提取的特征向量,利用多音節(jié)命令上下文和聲學(xué)模型來識別至少一個命令。
[0011]上述語音識別系統(tǒng)還可以包括:聲學(xué)模型存儲介質(zhì),其存儲用于語音識別的聲學(xué)模型;以及識別結(jié)果處理器,其執(zhí)行對應(yīng)于所識別的命令的功能。
[0012]此外,根據(jù)本公開的實(shí)施方式,一種語音識別系統(tǒng)包括:上下文存儲介質(zhì),其存儲包括多個單音節(jié)命令的單音節(jié)命令上下文以及存儲包括多個多音節(jié)命令的多音節(jié)命令上下文;語音段檢測器,其通過分析具有起始點(diǎn)和結(jié)束點(diǎn)的語音段內(nèi)的語音信號來檢測所述語音段;音節(jié)確定器,其配置成確定語音信號是對應(yīng)于單音節(jié)模式還是多音節(jié)模式;特征向量提取器,其通過分析語音信號來提取特征向量;語音識別器,其基于所提取的特征向量來計算各單音節(jié)命令的初始置信度分?jǐn)?shù)(confidence scores)和各多音節(jié)命令的初始置信度分?jǐn)?shù);權(quán)重值設(shè)置器,其根據(jù)語音信號是對應(yīng)于單音節(jié)模式還是多音節(jié)模式的確定結(jié)果,設(shè)置施加于各單音節(jié)命令的初始置信度分?jǐn)?shù)的第一權(quán)重值和施加于各多音節(jié)命令的初始置信度分?jǐn)?shù)的第二權(quán)重值;以及權(quán)重值施加器,其通過將第一權(quán)重值施加于各單音節(jié)命令的初始置信度分?jǐn)?shù)來計算各單音節(jié)命令的最終置信度分?jǐn)?shù),并且通過將第二權(quán)重值施加于各多音節(jié)命令的初始置信度分?jǐn)?shù)來計算各多音節(jié)命令的最終置信度分?jǐn)?shù)。
[0013]上述音節(jié)確定器可以包括:元音/輔音檢測器,其從語音信號中檢測元音和輔音;組合計算器,其計算元音和輔音的組合的數(shù)量;以及比較器,其將該組合的數(shù)量與預(yù)定數(shù)量進(jìn)行比較。
[0014]上述元音/輔音檢測器可以利用語音信號的能量、語音信號的過零率、語音信號的自相關(guān)函數(shù)、語音信號的基頻和語音信號的頻譜傾斜中的至少一個來檢測元音和輔音。
[0015]上述語音識別系統(tǒng)還可以包括識別結(jié)果處理器,其基于各單音節(jié)命令的最終置信度分?jǐn)?shù)和各多音節(jié)命令的最終置信度分?jǐn)?shù)來選擇具有最高的最終置信度分?jǐn)?shù)的命令。
[0016]當(dāng)上述音節(jié)確定器確定出語音信號對應(yīng)于單音節(jié)模式時,上述權(quán)重值設(shè)置器可以將第一權(quán)重值設(shè)置為大于第二權(quán)重值。
[0017]當(dāng)上述音節(jié)確定器確定出語音信號對應(yīng)于多音節(jié)模式時,上述權(quán)重值設(shè)置器可以將第二權(quán)重值設(shè)置為大于第一權(quán)重值。
[0018]此外,根據(jù)本公開的實(shí)施方式,一種識別方法包括以下步驟:通過分析具有起始點(diǎn)和結(jié)束點(diǎn)的語音段內(nèi)的語音信號來檢測所述語音段;確定語音信號是對應(yīng)于單音節(jié)模式還是多音節(jié)模式;通過分析語音信號來提取特征向量;當(dāng)語音信號對應(yīng)于單音節(jié)模式時,選擇包括多個單音節(jié)命令的單音節(jié)命令上下文,并且基于所提取的特征向量,利用單音節(jié)命令上下文來識別至少一個命令;以及當(dāng)語音信號對應(yīng)于多音節(jié)模式時,選擇包括多個多音節(jié)命令的多音節(jié)命令上下文,并且基于所提取的特征向量,利用多音節(jié)命令上下文來識別至少一個命令。
[0019]上述確定語音信號是對應(yīng)于單音節(jié)模式還是多音節(jié)模式的步驟可以包括:從語音信號中檢測元音和輔音;計算元音和輔音的組合的數(shù)量;以及將該組合的數(shù)量與預(yù)定數(shù)量進(jìn)行比較。
[0020]上述從語音信號中檢測元音和輔音的步驟可以包括:利用語音信號的能量、語音信號的過零率、語音信號的自相關(guān)函數(shù)、語音信號的基頻和語音信號的頻譜傾斜中的至少一個來檢測元音和輔音。
[0021]此外,根據(jù)本公開的實(shí)施方式,一種語音識別方法包括以下步驟:通過分析具有起始點(diǎn)和結(jié)束點(diǎn)的語音段內(nèi)的語音信號來檢測所述語音段;確定語音信號是對應(yīng)于單音節(jié)模式還是多音節(jié)模式;通過分析語音信號來提取特征向量;基于所提取的特征向量來計算包括在單音節(jié)命令上下文中的各單音節(jié)命令的初始置信度分?jǐn)?shù)和包括在多音節(jié)命令上下文中的各多音節(jié)命令的初始置信度分?jǐn)?shù);根據(jù)語音信號是對應(yīng)于單音節(jié)模式還是多音節(jié)模式的確定結(jié)果,設(shè)置施加于各單音節(jié)命令的初始置信度分?jǐn)?shù)的第一權(quán)重值和施加于各多音節(jié)命令的初始置信度分?jǐn)?shù)的第二權(quán)重值;以及通過將第一權(quán)重值施加于各單音節(jié)命令的初始置信度分?jǐn)?shù)來計算各單音節(jié)命令的最終置信度分?jǐn)?shù),并且通過將第二權(quán)重值施加于各多音節(jié)命令的初始置信度分?jǐn)?shù)來計算各多音節(jié)命令的最終置信度分?jǐn)?shù)。
[0022]上述確定語音信號是對應(yīng)于單音節(jié)模式還是多音節(jié)模式的步驟可以包括:從語音信號中檢測元音和輔音;計算元音和輔音的組合的數(shù)量;以及將該組合的數(shù)量與預(yù)定數(shù)量進(jìn)行比較。
[0023]上述從語音信號中檢測元音和輔音的步驟可以包括:利用語音信號的能量、語音信號的過零率、語音信號的自相關(guān)函數(shù)、語音信號的基頻和語音信號的頻譜傾斜中的至少一個來檢測元音和輔音。
[0024]上述語音識別方法還可以包括以下步驟:基于各單音節(jié)命令的最終置信度分?jǐn)?shù)和各多音節(jié)命令的最終置信度分?jǐn)?shù)來選擇具有最高的最終置信度分?jǐn)?shù)的命令。
[0025]上述設(shè)置第一權(quán)重值和第二權(quán)重值的步驟可以包括:當(dāng)語音信號對應(yīng)于單音節(jié)模式時,將第一權(quán)重值設(shè)置為大于第二權(quán)重值;以及當(dāng)語音信號對應(yīng)于多音節(jié)模式時,將第二權(quán)重值設(shè)置為大于第一權(quán)重值。
【附圖說明】
[0026]圖1是根據(jù)本公開的第一示例性實(shí)施方式的語音識別系統(tǒng)的框圖。
[0027]圖2是根據(jù)本公開的第一示例性實(shí)施方式的音節(jié)確定器的框圖。
[0028]圖3是根據(jù)本公開的第一示例性實(shí)施方式的語音識別方法的流程圖。
[0029]圖4是根據(jù)本公開的第二示例性實(shí)施方式的語音識別系統(tǒng)的框圖。
[0030]圖5是根據(jù)本公開的第二示例性實(shí)施方式的語音識別方法的流程圖。
[0031]〈附圖標(biāo)記說明〉
[0032]110:上下文存儲介質(zhì) 111:單音節(jié)命令上下文
[0033]112:多音節(jié)命令上下文 120:聲學(xué)模型存儲介質(zhì)
[0034]130:語音段檢測器140:音節(jié)確定器
[0035]141:元音/輔音檢測器 142:組合計算器<