專利名稱:語音識別系統(tǒng)及語音處理系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及一種語音識別系統(tǒng)及語音處理系統(tǒng),用于從用戶的語音中識別并接受講話詞匯序列以作為系統(tǒng)的輸入。本發(fā)明特別涉及一種語音識別系統(tǒng)及語音處理系統(tǒng),其中在口誤之后可立即輸入并正確識別自我修正發(fā)音(utterance)(也稱為講話修正發(fā)音)。應該注意,在某些情況下語音識別系統(tǒng)也稱為自動講話識別系統(tǒng)或講話識別系統(tǒng)。
背景技術:
通常,作為接收用戶輸入的裝置,公知一種語音識別系統(tǒng),其利用語音識別引擎來從用戶的語音中識別并接受講話詞匯序列以作為系統(tǒng)的輸入。這種語音識別系統(tǒng)已經(jīng)在例如包括語音門戶和汽車導航系統(tǒng)的信息傳遞系統(tǒng)中商業(yè)化。
圖10示出傳統(tǒng)語音識別系統(tǒng)的示例配置。圖10所示的語音識別系統(tǒng)90包括信號處理單元91、語音區(qū)段檢測單元92、解碼器93、文法存儲單元94、聲學模型存儲單元95、詞匯辭典存儲單元96和結果輸出單元97。
當輸入用戶發(fā)出的語音時,語音區(qū)段檢測單元92檢測所輸入語音的語音區(qū)段。換句話說,語音區(qū)段檢測單元92根據(jù)每個特定時間間隔(即,每幀)的語音的功率信息(稱為幀功率信息)來估計背景噪聲水平,如果該幀功率大于估計的背景噪聲水平,并且它們之間的差值大于預定閾值,則確定該幀為語音區(qū)段。然后,在檢測該語音區(qū)段之后,如果在預定時間間隔T(講話結束檢測時間間隔)之后仍未發(fā)現(xiàn)下一語音區(qū)段,語音區(qū)段檢測單元92則確定輸入語音已經(jīng)結束。如果在預定時間間隔T內下一語音區(qū)段開始,則延長所檢測的語音區(qū)段的長度。語音區(qū)段檢測單元92以這種方式確定一個語音區(qū)段。
信號處理單元91接收由語音區(qū)段檢測單元92所確定的各語音區(qū)段中的信息,并將與各語音區(qū)段對應的語音轉換為特征。解碼器93比較通過使語音趨向成為的特征模型化而獲得的聲學模型(從聲學模型存儲單元95獲取)與由信號處理單元91計算的特征,從而計算每幀的音素分數(shù)。進而,基于該計算的分數(shù),根據(jù)存儲于文法存儲單元94中的文法以及存儲于詞匯辭典存儲單元96中的識別詞匯信息,解碼器93假定單詞序列(句子),從而計算每個單詞序列的分數(shù)。解碼器93將所獲得的單詞序列和分數(shù)發(fā)送至結果輸出單元97。當解碼器93完成對從信號處理單元91輸入的所有特征的處理時,解碼器93通知結果輸出單元97處理已經(jīng)完成。當接到來自解碼器93的處理已經(jīng)完成的通知時,結果輸出單元97輸出具有在解碼器93中計算的最佳分數(shù)的單詞序列作為識別結果候選。
如上所述,傳統(tǒng)語音識別系統(tǒng)可從用戶的語音中識別其講話詞匯序列。
在許多情況下,自然人的發(fā)音包含多余的聲音,例如口誤、猶豫或咳嗽。在人們之間的對話中,能夠準確識別口誤或猶豫之后的自我修正發(fā)音,或忽略多余的聲音。傳統(tǒng)地,在語音識別系統(tǒng)中,也有人提出幾種正確識別這種自我修正發(fā)音或忽略這種多余聲音的方案。
例如,已經(jīng)提出一種語音識別設備,其中當執(zhí)行每部分的語音識別時,根據(jù)句子中先前部分的識別結果,改變隨后部分的處理,從而提高講話者講話的自由度以及語音識別率(參見JP7(1995)-230293A)。
發(fā)明內容
但是,上述傳統(tǒng)語音識別設備的問題在于在獲得先前部分的識別結果之前,無法確定隨后部分的處理。
本發(fā)明的目的是提供一種語音識別系統(tǒng)及語音處理系統(tǒng),其中,在用戶發(fā)音過程中出現(xiàn)口誤之后立即進行自我修正發(fā)音或在猶豫之后說出原本想輸入的發(fā)音的情況下,在發(fā)生錯誤識別之前,能夠如同人們之間的對話一樣,僅輸入并且正確識別原本想輸入的發(fā)音或自我修正發(fā)音。
為實現(xiàn)上述目的,按照本發(fā)明的第一語音識別系統(tǒng)包括信號處理單元,用于將輸入的講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音區(qū)段檢測單元,用于根據(jù)預定的語音區(qū)段標準,檢測該講話語音數(shù)據(jù)中的語音區(qū)段;優(yōu)先級確定單元,用于根據(jù)預定的優(yōu)先級標準,從由該語音區(qū)段檢測單元檢測的各語音區(qū)段中選擇要給以優(yōu)先級的語音區(qū)段;解碼器,用于利用由該優(yōu)先級確定單元所選擇的語音區(qū)段的特征以及該聲學模型,計算與該識別詞匯的匹配度;以及結果輸出單元,用于輸出在由解碼器進行匹配中具有最佳分數(shù)的識別單詞序列,以作為識別結果。該優(yōu)先級確定單元使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準(1)語音區(qū)段的長度,(2)語音區(qū)段的功率或信噪比,以及(3)語音區(qū)段的時間順序。
應該注意語音區(qū)段指包含連續(xù)發(fā)音的區(qū)段,其可以與單詞區(qū)段相同或不同。
在上述方案中,通過使用選自由(1)語音區(qū)段的長度、(2)語音區(qū)段的功率或信噪比以及(3)語音區(qū)段的時間順序構成的組中的至少一個標準作為標準,可優(yōu)先選擇被認為包含自我修正發(fā)音的語音區(qū)段,即使未識別該語音區(qū)段的講話詞匯序列。本發(fā)明中的“講話詞匯序列”意指講話的內容。但是,不必識別詞匯本身的意思。利用上述方案,在用戶發(fā)音過程中于口誤之后立即進行自我修正發(fā)音情況下,在發(fā)生錯誤識別之前,能夠如同人們之間的對話一樣,輸入并正確識別自我修正發(fā)音,從而產生減少重新輸入語音所需的時間(任務完成時間)的效果。
為實現(xiàn)上述目的,按照本發(fā)明的第二語音識別系統(tǒng)包括信號處理單元,用于將輸入的講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;解碼器,用于利用該特征以及該聲學模型,計算與該識別詞匯的匹配度;語音區(qū)段檢測單元,用于檢測與該解碼器檢測的單詞相對應的區(qū)段以作為語音區(qū)段;優(yōu)先級確定單元,用于根據(jù)預定的優(yōu)先級標準,從由該語音區(qū)段檢測單元檢測的各語音區(qū)段中,選擇包含優(yōu)先用作識別結果的識別詞匯的語音區(qū)段;以及結果輸出單元,用于輸出在由解碼器進行匹配中具有最佳分數(shù)的識別單詞序列,以作為識別結果。該優(yōu)先級確定單元使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準
(1)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該解碼器檢測出預先寄存的特定詞匯,(2)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該解碼器檢測出預先寄存的長元音,以及(3)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該信號處理單元獲得的特征中的變化量在預定范圍內連續(xù)。
應該注意特定詞匯指例如被認為是用戶在口誤之后且在自我修正發(fā)音之前說出的詞匯等。在上述方案中,使用選自由(1)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該解碼器檢測出預先寄存的特定詞匯,(2)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該解碼器檢測出預先寄存的長元音,以及(3)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該信號處理單元獲得的特征中的變化量在預定范圍內連續(xù)構成的組中的至少一個標準作為標準。舉例說來,在檢測到包含特定詞匯的語音區(qū)段、包含長元音的語音區(qū)段或其中特征的變化量在預定范圍內連續(xù)的語音區(qū)段的情況下,在該語音區(qū)段之后的語音區(qū)段中可能包含自我修正講話。因而,該語音區(qū)段可優(yōu)先用作包含優(yōu)先作為識別結果的識別詞匯的語音區(qū)段。
并且,在上述第二語音識別系統(tǒng),優(yōu)選地,該優(yōu)先級確定單元也使用從由以下標準構成的組中所選擇的至少一個標準作為預定的優(yōu)先級標準(4)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該解碼器計算的匹配度低于預定閾值,以及(5)由該解碼器計算的匹配度。
此外,為實現(xiàn)上述目的,按照本發(fā)明的第一語音處理系統(tǒng)包括語音識別單元,用于從輸入的講話語音數(shù)據(jù)中識別講話詞匯序列;以及語音輸入單元,用于利用由該語音識別單元產生的講話語音數(shù)據(jù)的識別結果,執(zhí)行來自用戶的輸入。該語音識別單元包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音剪裁單元,用于根據(jù)預定的講話區(qū)段標準,檢測該講話語音數(shù)據(jù)中的講話區(qū)段;解碼器,用于匹配該特征與該聲學模型,并且計算匹配的結果與該識別詞匯之間的匹配度,以根據(jù)計算的匹配度確定識別結果候選并產生位置信息,該位置信息指示該識別結果候選在該講話區(qū)段中的位置;以及結果輸出單元,用于將由該解碼器確定的識別結果候選和該位置信息輸出至該語音輸入單元。該語音輸入單元包括特定詞匯辭典存儲單元,該單元中預先存儲特定詞匯信息;特定詞匯確定單元,用于通過查詢該特定詞匯辭典存儲單元,確定該識別結果候選是否與該特定詞匯對應;以及識別結果選擇單元,用于利用與該特定詞匯對應的識別結果候選的時間順序作為標準,根據(jù)該位置信息選擇一個識別結果候選作為采用的識別結果。
此外,為實現(xiàn)上述目的,按照本發(fā)明的第二語音處理系統(tǒng)包括語音識別單元,用于從輸入的講話語音數(shù)據(jù)中識別講話詞匯序列;以及語音輸入單元,用于利用由該語音識別單元產生的講話語音數(shù)據(jù)的識別結果,執(zhí)行來自用戶的輸入。該語音識別單元包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音剪裁單元,用于檢測講話語音數(shù)據(jù)中的講話區(qū)段;解碼器,用于匹配該特征與該聲學模型,并且計算匹配的結果與該識別詞匯的匹配度,以根據(jù)計算的匹配度確定識別結果候選并產生位置信息,該位置信息指示該識別結果候選在該講話區(qū)段中的位置;以及結果輸出單元,用于將由該解碼器確定的識別結果候選和該位置信息輸出至該語音輸入單元。該語音輸入單元包括語速計算單元,用于基于該位置信息,計算該識別結果候選的語速;以及識別結果選擇單元,用于利用該語速作為標準,選擇一個識別結果候選作為采用的識別結果。
此外,按照本發(fā)明的第一記錄介質是存儲程序的記錄介質,該程序使計算機執(zhí)行如下操作信號處理操作,將輸入的講話語音數(shù)據(jù)轉換為特征;語音區(qū)段檢測操作,根據(jù)預定的語音區(qū)段標準,檢測該講話語音數(shù)據(jù)中的語音區(qū)段;優(yōu)先級確定操作,根據(jù)預定的優(yōu)先級標準,從由該語音區(qū)段檢測操作檢測的各語音區(qū)段中選擇要給以優(yōu)先級的語音區(qū)段;匹配操作,查詢聲學模型存儲單元和詞匯辭典存儲單元,其中在該聲學模型存儲單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型,并且在該詞匯辭典存儲單元中預先存儲識別詞匯的信息;以及使用由該優(yōu)先級確定操作所選擇的語音區(qū)段的特征和該聲學模型,計算與該識別詞匯的匹配度;以及結果輸出操作,輸出在該匹配操作中具有最佳分數(shù)的單詞序列作為識別結果。在該優(yōu)先級確定操作中,該程序使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準(1)語音區(qū)段的長度,(2)語音區(qū)段的功率或信噪比,以及(3)語音區(qū)段的時間順序。
此外,按照本發(fā)明的第二記錄介質是存儲程序的記錄介質,該程序使計算機執(zhí)行如下操作信號處理操作,將輸入的講話語音數(shù)據(jù)轉換為特征;匹配操作,查詢聲學模型存儲單元和詞匯辭典存儲單元,其中在該聲學模型存儲單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型,并且在該詞匯辭典存儲單元中預先存儲識別詞匯的信息;以及使用該特征和該聲學模型,計算與該識別詞匯的匹配度;語音區(qū)段檢測操作,根據(jù)在該匹配操作中所計算的匹配度,檢測該講話語音數(shù)據(jù)中的語音區(qū)段;優(yōu)先級確定操作,根據(jù)預定的優(yōu)先級標準,從在該語音區(qū)段檢測操作中檢測的各語音區(qū)段中,選擇包含優(yōu)先用作識別結果的識別詞匯的語音區(qū)段;以及結果輸出操作,輸出在該匹配操作中具有最佳分數(shù)的單詞序列作為識別結果。在該優(yōu)先級確定操作中,使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準(1)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,該匹配操作檢測出預先寄存的特定詞匯,(2)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,該匹配操作檢測出預先寄存的長元音,以及(3)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,該信號處理操作獲得的特征中的變化量在預定范圍內連續(xù)。
此外,在上述第二記錄介質中,優(yōu)選地,該優(yōu)先級確定操作還使用從由以下標準構成的組中所選擇的至少一個標準作為預定的優(yōu)先級標準(4)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,該匹配操作計算的匹配度低于預定閾值,以及(5)在該匹配操作中計算的匹配度。
此外,按照本發(fā)明的第三記錄介質是存儲程序的記錄介質,該程序使計算機實現(xiàn)語音輸入單元的功能,該語音輸入單元用于利用由語音識別單元所產生的識別結果而執(zhí)行來自用戶的輸入,該語音識別單元用于從輸入的講話語音數(shù)據(jù)中識別講話詞匯序列。該語音識別單元包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音剪裁單元,用于根據(jù)預定的講話區(qū)段標準,檢測該講話語音數(shù)據(jù)中的各講話區(qū)段;解碼器,用于匹配該特征與該聲學模型,并且計算匹配的結果與該識別詞匯之間的匹配度,以根據(jù)計算的匹配度確定識別結果候選并產生位置信息,該位置信息指示該識別結果候選在該講話區(qū)段中的位置;以及結果輸出單元,用于輸出由該解碼器確定的識別結果候選和該位置信息,以作為識別結果。該程序使計算機執(zhí)行如下操作特定詞匯確定操作,通過查詢特定詞匯辭典存儲單元來確定該識別結果候選是否與特定詞匯對應,其中該特定詞匯辭典存儲單元中預先存儲該特定詞匯信息;以及識別結果選擇操作,利用與該特定詞匯對應的識別結果候選的時間順序作為標準,根據(jù)該位置信息選擇一個識別結果候選作為采用的識別結果。
此外,按照本發(fā)明的第四記錄介質是存儲程序的記錄介質,該程序使計算機實現(xiàn)語音輸入單元的功能,該語音輸入單元用于利用由語音識別單元所產生的識別結果而執(zhí)行來自用戶的輸入,該語音識別單元用于從輸入的講話語音數(shù)據(jù)中識別講話詞匯序列。該語音識別單元包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音剪裁單元,用于根據(jù)預定的講話區(qū)段標準,檢測該講話語音數(shù)據(jù)中的各講話區(qū)段;解碼器,用于匹配該特征與該聲學模型,并且計算匹配的結果與該識別詞匯之間的匹配度,以根據(jù)計算的匹配度確定識別結果候選并產生位置信息,該位置信息指示該識別結果候選在該講話區(qū)段中的位置;以及結果輸出單元,用于輸出由該解碼器確定的識別結果候選和位置信息,以作為識別結果。該程序使計算機執(zhí)行如下操作語速計算操作,基于該位置信息,計算該識別結果候選的語速;以及識別結果選擇操作,利用該語速作為標準,選擇一個識別結果候選作為采用的識別結果。
按照本發(fā)明,能夠提供一種語音識別系統(tǒng)及語音處理系統(tǒng),其中在用戶發(fā)音過程中于口誤之后立即進行自我修正發(fā)音的情況下,在發(fā)生錯誤識別之前,能夠如同人們之間的對話一樣,輸入并正確識別自我修正發(fā)音。
圖1為示出按照本發(fā)明的第一實施例的語音識別引擎的示意配置的框圖。
圖2為示出按照第一實施例的語音識別引擎的操作程序的流程圖。
圖3為示出按照第二實施例的語音識別引擎的示意配置的框圖。
圖4為示出按照第二實施例的語音識別引擎的操作程序的流程圖。
圖5為示出按照第三實施例的語音識別引擎的示意配置的框圖。
圖6為示出按照第三實施例的語音識別引擎的示意配置的框圖。
圖7為示出按照第四實施例的語音處理系統(tǒng)的示意配置的框圖。
圖8為示出按照第五實施例的語音識別引擎的示意配置的框圖。
圖9為示出按照第六實施例的語音處理系統(tǒng)的示意配置的框圖。
圖10為示出傳統(tǒng)語音處理系統(tǒng)的示意配置的框圖。
具體實施例方式
實施例1以下參照
本發(fā)明的實施例。圖1為示出按照本發(fā)明實施例的語音識別引擎的示意配置的框圖。圖2為示出按照本實施例的語音識別引擎的操作程序的流程圖。
換句話說,本實施例涉及一種語音識別引擎,該語音識別引擎執(zhí)行語音識別處理以從用戶的輸入語音中專門識別講話詞匯序列并且具有從上層程序(upper program)(例如語音交互應用程序)接收用戶語音并返回識別結果至該上層程序的功能。因而,如圖1所示,本實施例中的語音識別引擎10包括信號處理單元11、語音區(qū)段檢測單元12、解碼器13、文法存儲單元14、聲學模型存儲單元15、詞匯辭典存儲單元16以及結果輸出單元17。
通過在諸如個人計算機的任意計算機中安裝程序來實現(xiàn)語音識別引擎10。換句話說,通過根據(jù)實現(xiàn)這些單元的功能的程序運行計算機的CPU來具體化信號處理單元11、語音區(qū)段檢測單元12、解碼器13以及結果輸出單元17。因此,在計算機中用于實現(xiàn)信號處理單元11、語音區(qū)段檢測單元12、解碼器13以及結果輸出單元17的這些功能的程序或記錄該程序的記錄介質也是本發(fā)明的實施例。此外,通過計算機中內置的存儲裝置或該計算機可訪問的存儲裝置來具體化文法存儲單元14、聲學模型存儲單元15和詞匯辭典存儲單元16。
當輸入用戶的語音時,語音區(qū)段檢測單元12根據(jù)預定的語音區(qū)段標準檢測所輸入的語音中的語音區(qū)段。在本實例中,語音區(qū)段檢測單元12根據(jù)輸入語音中每個特定時間間隔(即,每幀)的語音的功率信息(稱為幀功率信息)來估計背景噪聲水平,如果所估計的背景噪聲水平與幀功率之間的差值大于預定閾值,則確定該幀為包含語音的幀(以下稱為語音幀)。另一方面,如果所估計的背景噪聲水平與幀功率之間的差值小于預定閾值,則語音區(qū)段檢測單元12確定該幀為無聲幀(silent frame)。
當語音區(qū)段檢測單元12在用戶輸入的語音中發(fā)現(xiàn)第一語音幀時,則確定語音區(qū)段開始。然后,該語音區(qū)段檢測單元12將其發(fā)現(xiàn)下一無聲幀的時間設定為該語音區(qū)段的結束時間候選。如果在結束時間候選之后的預定時間間隔T1(暫停檢測時間間隔)內下一語音幀開始,則語音區(qū)段檢測單元12確定語音區(qū)段繼續(xù),并清除已經(jīng)發(fā)現(xiàn)的結束時間候選,且延長檢測到的語音區(qū)段的長度。另一方面,如果在該結束時間候選之后經(jīng)過了預定時間間隔T1,則確定該語音區(qū)段結束。在即使前一語音幀的結束時間之后的預定時間間隔T2(講話結束檢測時間間隔;T2>T1)之后仍未找到下一語音幀(下一語音區(qū)段的開始時間)的情況下,則語音區(qū)段檢測單元12確定該輸入語音結束。另一方面,在預定時間間隔T2內發(fā)現(xiàn)下一語音幀的情況下,語音區(qū)段檢測單元12確定隨后的新語音區(qū)段已經(jīng)開始。
通過這種方式,語音區(qū)段檢測單元12檢測將成為語音區(qū)段的一連串語音幀或一組包含短于預定時間間隔T2的無聲幀的多個連續(xù)語音幀。因此,語音區(qū)段的長度為可變長度。包含所有語音區(qū)段的范圍被檢測作為用戶的講話區(qū)段。
此外,由于語音區(qū)段檢測單元12根據(jù)存在或不存在停頓(無發(fā)音區(qū)段)來確定語音區(qū)段,而與講話詞匯序列無關,因此該語音區(qū)段可能與單詞區(qū)段(即,由單個單詞單獨構成的區(qū)段)相同或不同。在用戶做自我修正發(fā)音的情況下,例如,說“大阪,唔,我是說新大阪”,除非在“大阪”與“唔,我是說新大阪”之間暫停足夠長的時間(等于或長于T1),否則語音區(qū)段檢測單元12將檢測到兩個語音區(qū)段,即“大阪,唔,我是說新大阪”和“新大阪”,它們與單詞區(qū)段不同。
如上所述,語音區(qū)段檢測單元12從用戶輸入的語音中確定一個語音區(qū)段或多個語音區(qū)段。語音區(qū)段檢測單元12將關于每個語音區(qū)段的語音區(qū)段信息輸出至優(yōu)先級確定單元18。舉例說來,該語音區(qū)段信息包含如下信息語音區(qū)段的開始時間、語音區(qū)段的長度以及每幀的功率或信噪比。應該注意,在語音識別引擎10中,將語音區(qū)段的開始時間和語音區(qū)段的長度用作單獨識別每個語音區(qū)段的語音區(qū)段識別信息。
信號處理單元11計算輸入語音的各幀的特征。作為特征,盡管沒有特殊限制,在許多情況下,使用MFCCC、LPC倒譜、功率、其一次或二次回歸系數(shù)以及多維向量例如通過主成分分析及判別分析所獲得所述值的維壓縮(dimensional compression)結果。上述計算的特征與各幀固有的信息(幀固有信息)一同存儲于內存(未顯示)中。應該注意,幀固有信息為代表例如幀號(表示從第一幀開始數(shù)每幀為第多少幀)、每幀的開始時間和結束時間以及功率的數(shù)據(jù)。
在輸入的語音包含多個語音區(qū)段的情況下,優(yōu)先級確定單元18基于從語音區(qū)段檢測單元12獲得的語音區(qū)段信息,選擇一個語音區(qū)段或多個語音區(qū)段,用于在解碼器13中進行匹配。然后,優(yōu)先級確定單元18從信號處理單元11獲得僅屬于上述選擇用以在解碼器13中進行匹配的語音區(qū)段的幀的特征,并將特征發(fā)送至解碼器13。以這種方式,解碼器13僅基于所述由優(yōu)先級確定單元18選擇的語音區(qū)段中的語音,執(zhí)行匹配操作,將在下文說明。
應該注意優(yōu)先級確定單元18使用以下標準中的至少一個作為標準,以在選擇語音區(qū)段時優(yōu)先選擇包含自我修正單詞的語音區(qū)段(1)語音區(qū)段的長度,(2)語音區(qū)段的功率或信噪比,以及(3)語音區(qū)段的時間順序。
在使用上述(1)作為標準的情況下,從語音區(qū)段檢測單元12發(fā)送至優(yōu)先級確定單元18的語音區(qū)段信息必須包含每個語音區(qū)段的長度、允許計算該語音區(qū)段的長度的開始時間和結束時間、指示該語音區(qū)段包括多少幀的幀的數(shù)目(幀的長度)、或開始幀號和結束幀號。對于將幀的數(shù)目的單位轉換為時間單位而言,僅需要幀移和幀寬度的時間間隔,上述值通常為預設固定值。本實施例中,包含語音區(qū)段的開始時間、結束時間和語音區(qū)段的長度,作為語音區(qū)段識別信息。
在使用上述(2)作為標準的情況下,語音區(qū)段信息必須包含關于每個語音區(qū)段的功率或信噪比的信息。作為每個語音區(qū)段的功率,可使用包含在每個語音區(qū)段中的每個幀的功率的最大值或平均值。同樣,作為每個語音區(qū)段的信噪比,可使用每個語音區(qū)段中的信噪比的最大值或平均值。由于信噪比為語音區(qū)段的功率與噪聲區(qū)段的功率之間的比率,因此適當?shù)淖龇ㄊ菍⒊Z音區(qū)段之外的幀的平均功率設定為估計的噪聲水平,然后將該估計的噪聲水平與每個語音區(qū)段的功率之間的比率作為信噪比。
在使用上述(3)作為標準的情況下,語音區(qū)段信息必須包含代表每個語音區(qū)段在時間序列上的順序的信息。每個語音區(qū)段在時間序列上的順序可根據(jù)例如編有序號的語音區(qū)段識別信息而確定。
在使用上述(1)中的語音區(qū)段的長度作為標準的情況下,為了優(yōu)先選擇包含自我修正單詞的語音區(qū)段,舉例說來,優(yōu)選地,優(yōu)先級確定單元18從輸入語音包含的多個語音區(qū)段中選擇N(N為預定的自然數(shù))個其長度順序遞減的語音區(qū)段,作為用于匹配的語音區(qū)段。這是因為包含自我修正單詞的語音區(qū)段通常長于包含猶豫的單詞或口誤的語音區(qū)段。并且,與包含咳嗽或多余聲音(例如“啊”或“嗯”)的語音區(qū)段相比,識別詞匯的語音區(qū)段由于包含多個音節(jié),所以較長。因此,通過優(yōu)先選擇長語音區(qū)段,可以預期去除多余聲音的效果。
替代地,同樣優(yōu)選地,優(yōu)先級確定單元18選擇其長度與指定發(fā)音長度接近且順序遞減的語音區(qū)段。換句話說,首先選擇其長度最接近指定發(fā)音長度的語音區(qū)段,然后選擇其長度第二接近指定發(fā)音長度的語音區(qū)段。以這種方式,選擇預定數(shù)目的語音區(qū)段。例如,在待語音輸入的內容是其文法為三級層級結構(例如,縣名、市名和鎮(zhèn)名的三層)的地址的情況下,根據(jù)經(jīng)驗,沒有口誤或猶豫的單個發(fā)音的時間間隔在3秒內。根據(jù)大量評估數(shù)據(jù),可獲得在正確說出一個任務(一個可接收句子)情況下的這種最大時間間隔的上限T3。優(yōu)先級確定單元18利用所述上限,并在語音區(qū)段的長度總和不超過本時間間隔T3的條件下選擇多個長度順序遞減的語音區(qū)段,用于優(yōu)先選擇包含自我修正單詞的語音區(qū)段,這同樣有效。相反地,在沒有短發(fā)音(即,具有少數(shù)音節(jié)的詞匯)的任務的情況下,也能夠以最短時間間隔限制語音區(qū)段。
此外,在使用上述(2)中的語音區(qū)段的功率或信噪比作為標準的情況下,為了優(yōu)先選擇包含自我修正單詞的語音區(qū)段,優(yōu)選地,優(yōu)先級確定單元18從輸入語音包含的多個語音區(qū)段中選擇N個其功率或信噪比順序遞減的語音區(qū)段,作為用于匹配的語音區(qū)段。這是因為,人們在復述時有意識地試圖正確發(fā)音,所以他/她將比猶豫和口誤的情況下更大聲地發(fā)音。
此外,在使用上述(3)中的語音區(qū)段的時間序列作為標準的情況下,為了優(yōu)先選擇包含自我修正單詞的語音區(qū)段,優(yōu)選地,優(yōu)先級確定單元18從輸入語音包含的多個語音區(qū)段中選擇在時間序列上較晚的語音區(qū)段(最優(yōu)選地,在孤立單詞辨別的情況下選擇最后的語音區(qū)段)。這是因為,由于自我修正發(fā)音不能先于口誤或猶豫,所以在時間序列上較晚的語音區(qū)段更可能包含正確發(fā)音的單詞。并且,在文法為M級分層結構(M為自然數(shù))的情況下,優(yōu)選從輸入語音包含的多個語音區(qū)段中選擇從時間序列上的最后一個開始數(shù)的M個語音區(qū)段。
此外,在使用上述(1)和(3)的組合作為標準的情況下,為了優(yōu)先選擇包含自我修正單詞的語音區(qū)段,優(yōu)選地,優(yōu)先級確定單元18從輸入語音包含的多個語音區(qū)段中,從最后語音區(qū)段開始選擇多個語音區(qū)段,這些語音區(qū)段在時間序列上按時間倒序連續(xù),以使這些語音區(qū)段的長度總和SUM符合預設條件(例如,tlower≤SUM≤tupper;tlower和tupper為與任務相關的預設值,并且可實驗獲得)。
如上所述,通過優(yōu)先級確定單元18利用上述(1)至(3)的標準,選擇待在解碼器13中進行匹配的語音區(qū)段,從而增加僅與包含待識別的單詞(正確發(fā)出的單詞)而不包含自我修正發(fā)音或口誤的語音區(qū)段相匹配的可能性。
另外,由于所有的語音區(qū)段將被選擇,所以在通常情況下,也可識別沒有口誤或猶豫的普通發(fā)音。為此,優(yōu)選地,通過實驗確定選擇標準如信噪比的閾值,以不排除正確發(fā)音。
如前所述,優(yōu)先級確定單元18從信號處理單元11獲得被選擇用于在解碼器13中進行匹配的一個語音區(qū)段或多個語音區(qū)段的特征,并將所述特征傳送至解碼器13。
當解碼器13從優(yōu)先級確定單元18接收語音區(qū)段的特征時,解碼器13基于這些特征執(zhí)行如下匹配操作。首先,解碼器13比較各個語音區(qū)段的特征與聲學模型,從而計算該語音區(qū)段中包含的每個幀的音素分數(shù)。另外通過使語音趨向成為的特征模型化而獲得該聲學模型,并且其主流為音素HMM(隱馬爾可夫模型)。該聲學模型預先存儲于聲學模型存儲單元15中。
進而,基于計算的音素分數(shù),根據(jù)存儲于文法存儲單元14中的文法以及存儲于詞匯辭典存儲單元16中的識別詞匯信息,解碼器13假定單詞序列,即句子,從而計算指示每個單詞序列的可能性的分數(shù)。識別詞匯的信息包含例如用于識別單詞的ID和讀(如何說出該單詞)或與讀等價的音素序列,并可以包含任何其它信息。解碼器13將所獲得的單詞序列和分數(shù)發(fā)送至結果輸出單元17。本發(fā)明中所用的文法可為CFG(上下文無關文法)、FSG(有限狀態(tài)文法)之類,不受特殊限制。但是,在以下的實例中,將使用FSG。
接著,當解碼器13完成對優(yōu)先級確定單元18傳送來的所有特征的處理時,解碼器13通知結果輸出單元17處理完成。當接到解碼器13發(fā)出的處理完成的通知時,結果輸出單元17輸出具有在解碼器13中計算的最佳分數(shù)的單詞序列以作為識別結果。
此處,將參照圖2說明語音識別引擎10的示意操作。當用戶開始輸入語音時(Op11),所輸入的語音被發(fā)送至信號處理單元11和語音區(qū)段檢測單元12。信號處理單元11從所輸入語音的各個幀中提取特征并將所提取的特征存儲在其內存(未示出)中(Op12)。語音區(qū)段檢測單元12根據(jù)預定的語音區(qū)段標準,確定所輸入語音中的語音區(qū)段,并輸出得到的語音區(qū)段信息至優(yōu)先級確定單元18(Op13)。應該注意,盡管在圖2涉及的模型中串行執(zhí)行操作Op12和Op13,也可以并行執(zhí)行操作Op12和Op13。
然后,當完成語音輸入時,優(yōu)先級確定單元18基于由語音區(qū)段檢測單元12提供的語音區(qū)段信息以及任何上述優(yōu)先級標準,選擇待在解碼器13進行匹配操作所使用的語音區(qū)段(Op14)。優(yōu)先級確定單元18將所選擇的語音區(qū)段的語音區(qū)段識別信息(例如,代表每個語音區(qū)段的開始時間和區(qū)段長度的數(shù)據(jù))發(fā)送至信號處理單元11?;谠撜Z音區(qū)段識別信息,信號處理單元11從內存中僅提取與這些語音區(qū)段對應的幀的特征,并將這些特征返回至優(yōu)先級確定單元18。優(yōu)先級確定單元18將這些特征傳送至解碼器13(Op15)。解碼器13基于這些特征執(zhí)行上述匹配操作(Op16)。該匹配操作的結果從解碼器13傳送至結果輸出單元17,并且結果輸出單元17輸出識別結果(Op17)。
如上所述,按照本實施例,在輸入包含猶豫或口誤之后的自我修正發(fā)音的語音的情況下,能夠優(yōu)先選擇可能包含自我修正發(fā)音的語音區(qū)段,并利用所述語音區(qū)段的特征輸出識別結果。
在語音講話中,在發(fā)音的開始、單詞和從句之類的結束時,功率趨于變小,這導致在確定某幀是否為語音幀時發(fā)生錯誤。因而,有時語音區(qū)段檢測單元12可結合被檢測為語音區(qū)段的區(qū)段前后的預定長度的保護幀(guardframe)。在語音區(qū)段之間的間隔較小的情況下,根據(jù)保護幀的長度有時可將多個語音區(qū)段組合。相反,由于過短的語音區(qū)段被認為是偶發(fā)噪聲,因而也可以添加丟棄這種語音區(qū)段的操作。
此外,取代確定每個語音區(qū)段是否應該用在解碼器13中的匹配,優(yōu)先級確定單元18可基于上述標準(1)至(3)計算每個語音區(qū)段的優(yōu)先級作為優(yōu)先級分數(shù)。在這種情況下,適當?shù)淖龇ㄊ墙獯a器13將包含每個單詞的語音區(qū)段的優(yōu)先級分數(shù)與作為識別結果候選的單詞序列的分數(shù)加和,并基于該加和結果確定識別結果。作為優(yōu)先級分數(shù)的實例,在上述(2)的情況下,信噪比可簡單地作為優(yōu)先級。此外,也可以提供這樣一種方案其中當優(yōu)先級的數(shù)值等于或小于預設值時,不將其發(fā)送至解碼器13。
通過在解碼器13中使用每個單詞不跨多個語音區(qū)段(單詞中不存在停頓)的限制,可唯一地確定單詞所在的語音區(qū)段的優(yōu)先級分數(shù)。在不使用上述限制執(zhí)行匹配的情況下,也可以提供這樣一種方案其中根據(jù)多個語音區(qū)段的平均值、語音區(qū)段中的單詞區(qū)段之間的比率等,在優(yōu)先級確定單元18中重新計算優(yōu)先級分數(shù)。
此外,在本實施例中,使用上述標準(1)至(3),優(yōu)先級確定單元18從輸入語音中包含的多個語音區(qū)段中確定待優(yōu)先選擇的語音區(qū)段。但是,相反地,依據(jù)上述標準(1)至(3),也可以從輸入語音中包含的語音區(qū)段中確定待去除的語音區(qū)段,即不應該用于在解碼器13中進行匹配的語音區(qū)段。
此外,在本實施例中,優(yōu)先級確定單元18從信號處理單元11僅獲得所選擇語音區(qū)段的特征,并將這些特征發(fā)送至解碼器13。但是,也可以提供這樣一種方案其中信號處理單元11將所有語音幀的特征輸出至優(yōu)先級確定單元18,而優(yōu)先級確定單元18僅選擇屬于所選擇語音區(qū)段的幀的特征,并將這些特征輸出至解碼器13。
此外,在本實施例中,所有處理無需等到講話區(qū)段被確定。替代地,信號處理單元11可按照在語音區(qū)段檢測單元中確定語音區(qū)段的順序而將特征順序發(fā)送至解碼器,然后解碼器可使用輸入的幀的特征,進而繼續(xù)順序執(zhí)行處理,因此減少響應時間。
此外,雖然在本實施例中計算所有輸入幀的特征,但是也可以提供這樣一種方案其中僅計算確定為講話區(qū)段的幀,從而減少處理量。在這種情況下,在圖2中,語音區(qū)段檢測(OP13)先于特征提取(OP12)。
實施例2以下參照
本發(fā)明的另一實施例。圖3為示出按照本實施例的語音識別引擎20的示意配置的框圖。這里將為與實施例1的功能相似的配置指定相同的標號,并省略其詳細說明。
如圖3所示,按照本實施例的語音識別引擎20包括信號處理單元11、語音區(qū)段檢測單元12、解碼器23、文法存儲單元14、聲學模型存儲單元15、詞匯辭典存儲單元16、結果輸出單元17以及優(yōu)先級確定單元28。
與按照實施例1的語音識別引擎10不同,在本實施例的語音識別引擎20中,語音區(qū)段檢測單元12也將講話區(qū)段(包括所有語音區(qū)段的范圍)通知至信號處理單元。信號處理單元11僅計算包含在被通知的講話區(qū)段中的各幀的特征,并將所計算的特征提供至解碼器23。
如圖3所示,解碼器23包括單詞擴展單元231和單詞辨別單元232。單詞擴展單元231首先查詢詞匯辭典存儲單元16,并按照文法的各層次將單詞候選列表呈現(xiàn)至單詞辨別單元232。
單詞辨別單元232從聲學模型存儲單元15中獲得每個音素的模型,所述每個音素對應于構成由單詞擴展單元231所呈現(xiàn)的單詞候選列表所包含的每個單詞的音素串,并且單詞辨別單元232使用所獲得的音素模型及由信號處理單元11提供的特征,通過單詞辨別技術查看在輸入語音中是否出現(xiàn)每個單詞,并且如果出現(xiàn),則計算其位置及分數(shù)。將分數(shù)等于或大于預定閾值Sw的單詞的ID、指定相關單詞區(qū)段的信息(以下稱為單詞區(qū)段信息)及其分數(shù)發(fā)送至優(yōu)先級確定單元28和單詞擴展單元231。所述單詞區(qū)段信息可為例如該單詞區(qū)段的開始時間和該區(qū)段的長度的數(shù)據(jù),或該單詞區(qū)段的開始時間和結束時間的數(shù)據(jù)。
上述單詞ID用于識別單詞,并且可以是每個單詞所固有的數(shù)值或符號。在以下說明中,為簡潔起見,在某些情況下不具體提到單詞ID。例如,單詞序列實際上為單詞ID序列。
優(yōu)先級確定單元28匹配由語音區(qū)段檢測單元12發(fā)送的語音區(qū)段信息與由單詞辨別單元232發(fā)送的單詞區(qū)段信息,確定哪個語音區(qū)段包含所述的單詞并將該語音區(qū)段與單詞分數(shù)相關聯(lián)。如果該語音區(qū)段已經(jīng)與某單詞分數(shù)關聯(lián),則采用較高的分數(shù)。通過重復上述處理,存儲與各語音區(qū)段關聯(lián)的單詞分數(shù)中的最大分數(shù)。然后,優(yōu)先級確定單元18確定僅采用其關聯(lián)分數(shù)等于或大于預定閾值SH(SH>Sw)的語音區(qū)段。條件SH>Sw用于通過單詞辨別來獲得比丟棄文法外的發(fā)音性能更好的效果。
考慮單個語音區(qū)段中包含多個單詞的情況,優(yōu)先級確定單元28也可以執(zhí)行如下處理。在單詞區(qū)段不重復的情況下組合與每個語音區(qū)段相關聯(lián)的單詞,并將該組合的單詞分數(shù)之和用作該組合的分數(shù)。選擇所有組合中分數(shù)最佳的組合。通過單詞邊界劃分該語音區(qū)段,然后計算每個語音區(qū)段的分數(shù)。當分數(shù)等于或大于預定閾值時,確定采用相應的語音區(qū)段。
盡管本發(fā)明并不特別限定于任何技術,單詞辨別單元232可使用多種單詞辨別技術(算法)(例如,參見日本模糊理論和系統(tǒng)學會期刊的1999年第11卷第3號第403-407頁Kenji Aoyama的“單詞辨別語音識別(WordSpotting Voice recognition)”)。根據(jù)單詞辨別單元232所用的算法,當信號處理單元11輸出每幀的特征時,單詞辨別單元232可同步繼續(xù)進行處理。盡管確定用于確定優(yōu)先級的語音區(qū)段的分數(shù)比特征幀的輸出晚,但是如果該確定處理的開始被延遲與確定延遲對應的時間間隔,則優(yōu)先級確定單元28和單詞擴展單元231可在單詞辨別單元232完成所有語音區(qū)段的處理之前開始處理。
在導出(develop)文法信息時,單詞擴展單元231從通過組合由單詞辨別單元232輸出的結果中的單詞所獲得的單詞序列中,選擇文法可接收的單詞序列,并將該單詞序列作為識別結果輸出至結果輸出單元17,其中在序列中的各單詞的單詞區(qū)段在時間軸上不重復,在文法上序列中的各單詞的出現(xiàn)順序與其在時間軸上的位置關系相同,單詞序列中的各單詞的單詞區(qū)段與由優(yōu)先級確定單元28采用的所有語音區(qū)段相關聯(lián),并且單詞分數(shù)的總和最佳。以下具體說明上述操作。
單詞擴展單元231參考存儲于文法存儲單元14中的文法信息以及存儲于詞匯辭典存儲單元16中的詞匯辭典,根據(jù)文法對單詞順序的限制,順序導出單詞序列,并將每個單詞序列輸入緩存器(FIFO)BA。接著,單詞擴展單元231順序取出緩存器BA中的單詞序列,檢查在由單詞辨別單元232輸出的結果中最后的單詞是否以不與其之前的單詞重復的方式存在,如果是,則將該單詞作為識別結果候選輸入緩存器BB中。
這里,舉例說來,在文法存儲單元14中假定預先寄存文法信息,該文法信息為語音輸入的地址,首先輸入的單詞(第一層)為縣名,接著輸入的單詞(第二層)為代表各縣的市名、鎮(zhèn)名或村名的單詞。在這種情況下,單詞擴展單元231首先處理縣名層,并將“沖繩縣”至“北海道”作為構成一個單詞的單詞序列順序輸入緩存器BA中。
接著,提取單獨由最先輸入緩存器BA中的“沖繩縣”構成的單詞序列,并注意位于該序列末端的“沖繩縣”。由于在“沖繩縣”之前沒有單詞,因此無論位置如何都將檢查該單詞是否存在于單詞辨別單元232的檢測結果中。如果檢測到“沖繩縣”,則與單獨由“沖繩縣”構成的單詞序列關聯(lián)地存儲“沖繩縣”單詞ID、單詞區(qū)段信息及分數(shù),并輸入緩存器BB。此處,在單詞辨別單元232的檢測結果中存在多個“沖繩縣”的情況下,所有的“沖繩縣”作為單獨的單詞序列輸入緩存器BB。此外,無論檢測結果中是否存在“沖繩縣”,均放棄已經(jīng)處理的由“沖繩縣”單獨構成的單詞序列。重復上述處理直至緩存器BA為空。
當緩存器BA為空時,提取緩存器BB中的第一單詞序列。在所提取的序列為“沖繩縣”的情況下,導出該“沖繩縣”之后的第二層中的單詞并將其存儲于緩存器BA中。以這種方式,獲得由“沖繩縣”和代表“沖繩縣”之后的市名、鎮(zhèn)名或村名的一個單詞所構成的兩個單詞序列。
由于緩存器BA不為空,執(zhí)行緩存器BA的處理。當“沖繩縣,那霸市”最先輸入緩存器BA中時,檢查在單詞辨別單元232的檢測結果中,無語音區(qū)段重復情況下,在語音區(qū)段“沖繩縣”之后是否存在“那霸市”。如果存在,則存儲其單詞ID、單詞區(qū)段信息及分數(shù),并將“沖繩縣”和“那霸市”的分數(shù)加在一起以作為“沖繩縣,那霸市”的分數(shù),并且將其與該單詞區(qū)段相關聯(lián)存儲。然后,根據(jù)文法導出后面的單詞“那霸市”并將其寄存在緩存器BB中。其后,無論語音區(qū)段“沖繩縣”之后是否存在“那霸市”,均放棄已經(jīng)處理的單詞序列“沖繩縣,那霸市”。
以這種方式,根據(jù)文法順序導出并處理單詞。在最先輸入緩存器BB中的單詞序列達到文法的終結狀態(tài)并且不能再被導出的情況下,將該單詞序列作為識別結果候選單詞序列寄存在識別結果候選列表中。當緩存器BA和緩存器BB均為空時,導出處理結束。
在上述說明中,導出(檢索)文法可接收的單詞序列的技術不受特殊限制,并且可以為其它檢索方法例如寬度優(yōu)先檢索、深度優(yōu)先檢索或基于分數(shù)的最佳優(yōu)先檢索。
此外,本發(fā)明可用的文法并不限于樹形結構。檢索技術受到文法結構的限制;例如,在具有環(huán)狀結構的文法中,深度優(yōu)先檢索可能落入死循環(huán)。但是,由于在檢查單詞辨別單元232的檢測結果中是否存在單詞時對單詞區(qū)段有限制,因此即使深度優(yōu)先檢索也不會落入死循環(huán)。
此外,也可以提供這樣一種方案其中取代使用文法(自動信息)作為語言模型,而是采用N組單詞的概率模型(N-gram),從而將單詞序列的出現(xiàn)概率與單詞分數(shù)之和作為該單詞序列的分數(shù)。
通常,在單個輸入過程中可多次說出在文法中讀音相同但位置不同的單詞。此外,即使單詞辨別技術用于檢測每個單詞,仍難以檢測單詞之間的邊界,因此當允許幾個幀的檢測區(qū)段時,可獲得更高的識別句子概率。因而,單詞辨別單元可輸出多次檢測一個單詞的結果,即便區(qū)段重復。
此外,當單詞擴展單元231在單詞辨別單元232的輸出結果中,在前一單詞的單詞區(qū)段之后發(fā)現(xiàn)多個被關注并且具有不同語音區(qū)段和可能不同分數(shù)的單詞時,單詞擴展單元231將單詞序列分成與各單詞區(qū)段相對應的多個部分。
此外,由于單詞序列的分數(shù)趨于依據(jù)發(fā)音的時間間隔而定,所以優(yōu)選還增加標準化處理,例如通過在單詞序列中的單詞的時間間隔之和劃分。
在完成導出處理之后,單詞擴展單元231從識別結果候選列表中選擇識別結果候選,其序列中的單詞均與優(yōu)先級確定單元28所采用的語音區(qū)段相關聯(lián),并將所選擇的識別結果候選中具有最佳分數(shù)的一個作為識別結果輸出至結果輸出單元17。上述分數(shù)為識別結果候選序列中包含的單詞分數(shù)的總和。此時,同樣也可以發(fā)送該分數(shù)。
利用上述配置,按照語音識別引擎20,僅使用包含其單詞分數(shù)等于或大于優(yōu)先級確定單元28中的閾值SH的單詞的語音區(qū)段,可以獲得識別結果。例如,當有口誤時,口誤的單詞不可能包含在文法的單詞候選列表中(換句話說,識別詞匯之外的發(fā)音),因此該單詞的得分小于閾值。因而,優(yōu)先級確定單元28正確丟棄包含該單詞的語音區(qū)段的概率很大。另一方面,由于自我修正單詞很可能包含在文法層級的單詞候選列表中,所以單詞分數(shù)等于或大于閾值。因而,優(yōu)先級確定單元28采用包含該單詞的語音區(qū)段的概率很大。因而,可以去除包含諸如口誤或猶豫的不期望單詞的語音區(qū)段,并且正確選擇其中包含假定被說出的識別詞匯的語音區(qū)段。
這里,參照圖4,將說明本實施例的語音識別引擎20的示意操作程序。首先,解碼器23中的單詞擴展單元231分別從文法存儲單元14獲得文法信息、從詞匯辭典存儲單元16獲得識別詞匯信息,并且單詞辨別單元232從聲學模型存儲單元15獲得聲學模型信息(Op21)。單詞擴展單元231將所獲得的識別詞匯信息發(fā)送至單詞辨別單元232(Op22)。然后,當用戶開始輸入語音(Op23)時,語音區(qū)段檢測單元12確定輸入語音中的語音區(qū)段,并將語音區(qū)段信息作為確定結果輸出至信號處理單元11和優(yōu)先級確定單元28(Op24)。信號處理單元11計算輸入語音區(qū)段的特征,并將其輸出至單詞辨別單元232(Op25)。單詞辨別單元232順序接收信號處理單元11從輸入語音中提取的特征,通過辨別處理檢測詞匯辭典中的單詞,并將所檢測單詞的單詞區(qū)段信息和單詞分數(shù)發(fā)送至優(yōu)先級確定單元28和單詞擴展單元231(Op26)。
優(yōu)先級確定單元28匹配由語音區(qū)段檢測單元12發(fā)送的語音區(qū)段信息與由單詞辨別單元232發(fā)送的單詞區(qū)段信息,如果包含在每個語音區(qū)段中的單詞中的最佳單詞分數(shù)超過預定閾值,則確定采用該語音區(qū)段(Op27)。
這里,單詞擴展單元231從通過組合由單詞辨別單元232輸出的結果中的單詞所獲得的單詞序列中,根據(jù)文法信息導出可接收的單詞序列,并將文法可接收的單詞序列寄存在識別結果候選列表中,其中在該單詞序列中序列中的各單詞的單詞區(qū)段在時間軸上不重復,并且在文法上序列中的各單詞的出現(xiàn)順序與其在時間軸上的位置關系相同(Op28)。隨后,單詞擴展單元231從識別結果候選列表中的單詞序列中選擇一個單詞序列,在該單詞序列中的各單詞的單詞區(qū)段與由優(yōu)先級確定單元28采用的所有語音區(qū)段相關聯(lián),并且單詞分數(shù)之和最佳(Op29),并將所選擇的單詞序列作為識別結果輸出至結果輸出單元17(Op30)。
如上所述,基于通過單詞辨別而在檢測詞匯辭典中的每個單詞時的單詞分數(shù),按照本實施例的語音識別引擎確定每個語音區(qū)段的分數(shù),并且僅采用分數(shù)等于或大于預定閾值的語音區(qū)段。以這種方式,能夠有效去除作為詞匯講話之外的語音區(qū)段的、包含口誤之類的語音區(qū)段。此外,由于識別詞匯在每個語音區(qū)段中被辨別,所以無自我修正發(fā)音的發(fā)音可獲得良好分數(shù),從而不丟棄而是保留所有語音區(qū)段,并且可以與傳統(tǒng)情況一樣正確識別。
實施例3以下參照
本發(fā)明的另一實施例。圖5為示出按照本實施例的語音處理系統(tǒng)(語音識別引擎30)的示意配置的框圖。這里將為與上述實施例的功能相似的配置指定相同的標號,并省略其詳細說明。
如圖5所示,語音識別引擎30還包括其中預先存儲特定詞匯辭典的特定詞匯辭典存儲單元31。特定詞匯指已經(jīng)注意到他/她的口誤的講話者能夠在自我修正發(fā)音之前立即有意或幾乎無意說出的單詞。在特定詞匯辭典中,可在制造時存儲預定的特定詞匯,或可由用戶按需要添加、刪除或改變寄存內容。特定詞匯的實例包括“再說一遍”、“不”、“我搞錯了”、“我指的是”等,但對特定詞匯沒有限制。
同樣,語音識別引擎30包括解碼器33,該解碼器33包括單詞擴展單元331和單詞辨別單元332。與實施例2不同,單詞辨別單元332根據(jù)由信號處理單元11提供的特征以及聲學模型的信息,檢測在輸入語音中除詞匯辭典中的單詞之外,是否出現(xiàn)特定詞匯辭典存儲單元31中的特定詞匯中的每個單詞,如果出現(xiàn),則計算其位置及分數(shù)。然后,如果存在分數(shù)等于或大于預定閾值的特定詞匯中的單詞,則單詞辨別單元332通知優(yōu)先級確定單元38已經(jīng)從輸入語音中檢測到特定詞匯,并通知指定包含該特定詞匯的語音區(qū)段的信息(以下稱為特定詞匯區(qū)段信息)。特定詞匯區(qū)段信息可為例如包含該特定詞匯的語音區(qū)段的開始時間和該語音區(qū)段的長度的數(shù)據(jù),或該語音區(qū)段的開始時間和結束時間的數(shù)據(jù)。當檢測到不同于特定詞匯中的單詞的詞匯辭典中的常用單詞時,與實施例2類似,將該常用單詞的單詞ID、指定相關單詞區(qū)段的信息(單詞區(qū)段信息)及分數(shù)發(fā)送至優(yōu)先級確定單元38和單詞擴展單元331。
當優(yōu)先級確定單元38從單詞辨別單元332接收到上述通知時,優(yōu)先級確定單元38僅采用在輸入語音中包含的語音區(qū)段中已經(jīng)檢測到特定詞匯的語音區(qū)段之后的語音區(qū)段。因而,優(yōu)先級確定單元38丟棄時間軸上位于其中已經(jīng)檢測到特定詞匯的語音區(qū)段之前的所有語音區(qū)段(取消已經(jīng)確定采用的語音區(qū)段)。
例如,當用戶想說“從新大阪(Shin-Osaka)到東京”時,即使他/她說出“從大阪,不,從新大阪到東京”,只要單詞“不”作為特定詞匯寄存,則丟棄與“從大阪,不,”相對應的語音區(qū)段,而僅將與自我修正發(fā)音“從新大阪到東京”相對應的語音區(qū)段作為識別主題,從而準確執(zhí)行識別。在傳統(tǒng)實例中,當用戶口誤說出“從大阪”時,他/她在此時停止講話,直至返回錯誤識別結果,然后進行自我修正發(fā)音“從新大阪到東京”作為重新輸入。因此,與傳統(tǒng)實例相比,按照本實施例,能夠非常有效地輸入語音。
在上述實例中,當用戶口誤時,取消檢測到特定詞匯的語音區(qū)段之前的所有語音區(qū)段。因此,即使輸入的句子(單詞序列)很長,用戶也必須從句子的開始進行自我修正發(fā)音。但是,本發(fā)明并不限于上述實例,也可以考慮可輸入并識別一個單詞的自我修正發(fā)音的方案。在這種情況下,優(yōu)先級確定單元38可適當?shù)厝∠麢z測到特定詞匯的語音區(qū)段以及該語音區(qū)段之前緊鄰的語音區(qū)段。以這種方式,當用戶想說“兩個成人從東京到神戶”時,即使他/她說出“一個成人,不,兩個成人從東京到神戶”,只要單詞“不”作為特定詞匯被寄存,則丟棄與“一個成人,不,”相對應的語音區(qū)段,而僅將與包含自我修正發(fā)音的“兩個成人從東京到神戶”相對應的語音區(qū)段作為識別主題,從而正確地執(zhí)行識別。
如上所述,按照本實施例的語音識別引擎30,當識別用戶口誤之后立即說出的特定詞匯時,在放棄該特定詞匯之前的至少一個語音區(qū)段之后,恢復識別處理,從而可正確丟棄包含該口誤的語音區(qū)段,并且正確輸入及識別自我修正語音區(qū)段。此外,由于不丟棄不包含特定詞匯的發(fā)音的語音區(qū)段(沒有自我修正發(fā)音),所以與傳統(tǒng)實例一樣,可正確識別這種發(fā)音。
此外,通過略微改變圖5的配置,也可以提供如圖6所示的配置。圖6中,單詞辨別單元432獨自從詞匯辭典存儲單元16和特定詞匯辭典存儲單元31讀出詞匯辭典,并且將單詞檢測結果僅輸出至優(yōu)先級確定單元48。優(yōu)先級確定單元48僅將與從輸入單詞檢測結果中確定為待采用的語音區(qū)段相關的結果輸出至單詞擴展單元431。與圖5的方案類似,利用這種方案,可正確丟棄包含口誤的語音區(qū)段,并且正確輸入和識別自我修正語音區(qū)段。
實施例4以下參照
本發(fā)明的另一實施例。圖7為示出按照本實施例的語音處理系統(tǒng)50的示意配置的框圖。這里將為與上述實施例的功能相似的配置指定相同的標號,并省略其詳細說明。
在上述實施例的方案中,語音識別引擎獨自確定應該給予優(yōu)先級的語音區(qū)段。相反,在按照本實施例的語音處理系統(tǒng)50的方案中,語音識別單元(語音識別引擎)和作為其上層應用程序的語音交互單元共同完成確定每個語音區(qū)段的優(yōu)先級的操作。因而,如圖7所示,語音處理系統(tǒng)50包括語音識別單元60和語音交互單元70,并且語音交互單元70作為語音識別單元60的上層應用程序。語音交互單元70管理語音交互的狀態(tài),并且利用來自語音識別單元60的語音識別結果執(zhí)行語音合成,從而與用戶交互。此外,盡管本實施例以語音交互單元作為上層應用程序,但是上層應用程序的功能并不限于語音交互。任何使用對用戶輸入的語音識別的應用程序均可作為上層應用程序。
通過在任意的計算機如個人計算機中安裝程序來分別實現(xiàn)語音識別單元60和語音交互單元70。應該注意,在計算機中的用于實現(xiàn)語音識別單元60和語音交互單元70的各自功能的程序或記錄該程序的記錄介質也是本發(fā)明的實施例。
與實施例3中的語音識別引擎30類似,語音識別單元60包括的信號處理單元11、文法存儲單元14、詞匯辭典存儲單元16、聲學模型存儲單元15、結果輸出單元17、特定詞匯辭典存儲單元31以及解碼器73。除了上述單元,語音識別單元60還包括語音剪裁(cut out)單元61和設定單元62。
語音交互單元70包括語音流發(fā)送單元71、指定單元72、特定詞匯確定單元710、識別結果選擇單元74、語音識別驅動單元75、交互管理單元76、語音合成驅動單元77、文法及辭典保存單元78以及特定詞匯辭典存儲單元79。
交互管理單元76根據(jù)預設的交互方案,從文法及辭典保存單元78和特定詞匯辭典存儲單元79中讀出待由語音識別單元60所用的詞匯辭典、文法及特定詞匯,并經(jīng)由指定單元72將讀出的結果發(fā)送至語音識別單元60。然后,交互管理單元76指示語音識別驅動單元75將由音頻設備輸入的語音數(shù)據(jù)從語音流發(fā)送單元71發(fā)送至語音識別單元60。
在語音識別單元60中,設定單元62將由語音交互單元70中的指定單元72發(fā)送的信息,即將此時的交互階段所用的詞匯辭典、文法和特定詞匯分別存儲于詞匯辭典存儲單元16、文法存儲單元14和特定詞匯辭典存儲單元31中。以這種方式,單詞擴展單元731和單詞辨別單元732通過參考這里指定的詞匯辭典、文法和特定詞匯辭典,執(zhí)行匹配操作。
語音剪裁單元61檢測其中存在識別句子的區(qū)段(講話區(qū)段)。換句話說,上述實施例所用的“語音區(qū)段檢測單元”檢測發(fā)音中的停頓,以檢測由停頓分開的多個語音區(qū)段,而語音剪裁單元61不檢測語音區(qū)段。因此,語音剪裁單元61基于輸入語音流的功率變化判斷發(fā)音的開始(講話區(qū)段的開始),如果在判斷該發(fā)音之后的一定時間間隔內不存在發(fā)音,則確定輸入發(fā)音結束(講話區(qū)段的結束)。然后,語音剪裁單元61將代表該講話區(qū)段的開始時間和結束時間的信息(講話區(qū)段信息)輸出至信號處理單元11。
應該注意,由語音流發(fā)送單元71發(fā)送的語音數(shù)據(jù)也提供至信號處理單元11?;谟烧Z音剪裁單元輸入的講話區(qū)段信息,信號處理單元11僅從語音區(qū)段的語音數(shù)據(jù)中提取特征,并將所述特征傳送至解碼器73。
與實施例3類似,在解碼器73中,單詞擴展單元731將識別詞匯信息發(fā)送至單詞辨別單元732。與實施例3的說明類似,單詞辨別單元732執(zhí)行詞匯辭典和特定詞匯辭典中的每個單詞的辨別處理,并輸出辨別結果至單詞擴展單元731,但不同之處在于不輸出結果至優(yōu)先級確定單元。單詞擴展單元731將識別詞匯信息發(fā)送至單詞辨別單元732,并且一旦接收到來自單詞辨別單元732的識別結果,單詞擴展單元731就在導出文法信息時,從通過組合由單詞辨別單元輸出的結果中的單詞所獲得的單詞序列中,選擇文法上可接收的單詞序列,在該單詞序列中,序列中各單詞的單詞區(qū)段在時間軸上不重復,并且在文法中的出現(xiàn)順序與在時間軸上的位置關系相同,從而將該單詞序列輸出至結果輸出單元17。可能該單詞序列會包含特定詞匯。
此外,上述文法必須為考慮到在自我修正發(fā)音時說出特定詞匯的可能性的文法。例如,通過添加轉換處理,能夠響應一個單詞的自我修正發(fā)音,該轉換處理經(jīng)由特定詞匯從未考慮自我修正發(fā)音的文法的每個狀態(tài)返回至之前緊鄰單詞。類似地,通過添加經(jīng)由特定詞匯返回至開始狀態(tài)的轉換處理,能夠從講話的開始響應自我修正發(fā)音。
基于由語音剪裁單元61發(fā)送的講話區(qū)段信息及解碼器73的匹配結果,結果輸出單元17生成指示識別結果中每個單詞序列包含的單詞位于時間軸上的信息(單詞區(qū)段信息)。進而,結果輸出單元17計算從解碼器73所接收的多個單詞序列中的每一個單詞序列的單詞分數(shù)的總和(單詞序列的分數(shù))。然后,結果輸出單元17將多個單詞序列中的N個按分數(shù)降序排列的單詞序列返回至語音交互單元70,作為候選識別結果(N最佳處理)。應該注意,根據(jù)交互狀態(tài),N可為常數(shù),或者由交互管理單元76動態(tài)可變。從結果輸出單元17返回至語音交互單元70的識別結果候選的信息也包含每個單詞序列包含的單詞的單詞區(qū)段信息。
識別結果選擇單元74將由語音識別單元60返回的每個單詞序列作為識別結果候選而發(fā)送至特定詞匯確定單元710。特定詞匯確定單元710查詢特定詞匯辭典存儲單元79,并且檢查作為識別結果候選的每個單詞序列中是否包含特定詞匯,如果包含,則確定包含特定詞匯的單詞區(qū)段。在從特定詞匯確定單元710接收到包含特定詞匯的回答的情況下,識別結果選擇單元74將預定分數(shù)添加至包含特定詞匯的單詞區(qū)段之后緊鄰的單詞區(qū)段中包含的單詞的分數(shù),從而為所有上述N個單詞序列重新打分。這是因為在特定詞匯之后緊鄰的單詞區(qū)段中可能包含自我修正詞匯。同時,由于不需要特定詞匯本身及待自我修正的區(qū)段,所以從單詞序列中刪除他們。這里,在將特定詞匯之前的所有單詞作為待自我修正的區(qū)段刪除的情況下,用戶必須從句子的開始做自我修正發(fā)音。在僅刪除特定詞匯之前緊鄰的單詞的情況下,用戶可改正一個單詞的口誤。
識別結果選擇單元74將在為N個單詞序列重新打分時發(fā)現(xiàn)的具有最佳分數(shù)的單詞序列返回至語音識別驅動單元75,作為最終識別結果。當接收到上述識別結果時,語音識別驅動單元75指示語音流發(fā)送單元71停止發(fā)送語音數(shù)據(jù)至語音識別單元60,并將最終識別結果返回至交互管理單元76。交互管理單元76使語音合成驅動單元77根據(jù)最終識別結果合成適當?shù)膽鹫Z音。
利用上述方案,在說出自我修正發(fā)音如“再說一遍”、“我搞錯了”、“我指的是”之前緊鄰的特定詞匯的情況下,能夠丟棄該詞匯及其之前緊鄰的語音區(qū)段或單詞,并且允許語音交互單元70給予該詞匯之后緊鄰的單詞區(qū)段優(yōu)先級。因而,可認為增加接收自我修正發(fā)音的可能性。
同樣優(yōu)選地,語音交互單元70可根據(jù)交互狀態(tài)(例如,語音輸入的信息的復雜度等)來調整增加多少分數(shù),以給予自我修正發(fā)音之后緊鄰的單詞優(yōu)先級。
實施例5以下參照
本發(fā)明的另一實施例。圖8為示出按照本實施例的語音識別引擎80的示意配置的框圖。這里將為與上述實施例的功能相似的配置指定相同的標號,并省略其詳細說明。
如圖8所示,本實施例的語音識別引擎80包括信號處理單元11、語音區(qū)段檢測單元12、解碼器83、文法存儲單元14、聲學模型存儲單元15、詞匯辭典存儲單元16、結果輸出單元17以及優(yōu)先級確定單元88。解碼器83包括單詞擴展單元831、單詞辨別單元832和長音檢測單元833。
長音檢測單元833比較由信號處理單元11發(fā)送的特征與從聲學模型存儲單元15獲得的聲學模型,并且當檢測到包含連續(xù)長音的語音區(qū)段時,將指定該語音區(qū)段的信息通知優(yōu)先級確定單元88。優(yōu)先級確定單元88采用檢測到最后的長音的語音區(qū)段之后緊鄰的語音區(qū)段。替代地,優(yōu)先級確定單元88還可以為檢測到最后的長音的語音區(qū)段之后緊鄰的語音區(qū)段的單詞分數(shù)增加優(yōu)先級分數(shù),以使該語音區(qū)段優(yōu)先。
包含連續(xù)長音的語音區(qū)段可能包含猶豫的發(fā)音,例如“啊”或“嗯”。因此,利用上述方案,通過采用檢測到最后的長音的語音區(qū)段之后緊鄰的語音區(qū)段或給予其優(yōu)先級,可顯著增加接收發(fā)音的可能性。
以上說明了提供用于檢測包含連續(xù)長音的語音區(qū)段的長音檢測單元833的方案。但是,本發(fā)明并不限于以上說明,利用如下方案也可以獲得類似效果取代長音檢測單元833,而提供利用輸入語音的特征中的較小變化來檢測語音區(qū)段的功能塊。
此外,優(yōu)選地,優(yōu)先級確定單元僅將持續(xù)至少預定時間間隔的長音認為是猶豫,從而不應答識別詞匯中的長音。替代地,同樣優(yōu)選地,將由長音檢測單元檢測到的連續(xù)長音的時間間隔設定為至少預定時間間隔。此外,優(yōu)選地,通過實驗計算該預定時間間隔的最優(yōu)值。
實施例6以下參照
本發(fā)明的另一實施例。圖9為示出按照本實施例的語音處理系統(tǒng)90的示意配置的框圖。這里將為與上述實施例的功能相似的配置指定相同的標號,并省略其詳細說明。
如圖9所示,按照本實施例的語音處理系統(tǒng)90包括語音識別單元100和作為其上層應用程序的語音交互單元110。語音交互單元110管理語音交互的狀態(tài),并利用來自語音識別單元100的語音識別結果執(zhí)行語音合成,從而與用戶交互。
通過在任意的計算機如個人計算機中安裝程序來分別實現(xiàn)語音識別單元100和語音交互單元110。應該注意,計算機中的用于實現(xiàn)語音識別單元100和語音交互單元110的各自功能的程序或記錄該程序的記錄介質也是本發(fā)明的實施例。
在語音處理系統(tǒng)90中,語音交互單元110通過使用由語音識別單元100返回的識別結果(單詞序列及其讀音、和時間軸上的單詞的位置(講話時間間隔)),計算每個語音區(qū)段(單詞區(qū)段)的語速,估計用于自我修正發(fā)音的慢速說出的語音區(qū)段,并給以該語音區(qū)段優(yōu)先級。
因此,語音處理系統(tǒng)90具有如下配置。語音識別單元100包括與實施例3的語音識別引擎30類似的信號處理單元11、文法存儲單元14、詞匯辭典存儲單元16、聲學模型存儲單元15、結果輸出單元17以及解碼器93。此外,語音識別單元100還包括語音剪裁單元61和設定單元62。語音交互單元110包括語音流發(fā)送單元71、指定單元72、識別結果選擇單元74、語音識別驅動單元75、交互管理單元76、語音合成驅動單元77、以及文法及辭典保存單元78。這里將為與實施例4的功能相似的配置指定相同的標號,并省略其詳細說明。
語音交互單元110中的交互管理單元76根據(jù)預定的交互方案,從文法及辭典保存單元78中讀出語音識別單元100所用的詞匯辭典和文法,并經(jīng)由指定單元72將讀出的結果發(fā)送至語音識別單元100。然后,交互管理單元76指示語音識別驅動單元75將由音頻設備輸入的語音數(shù)據(jù)從語音流發(fā)送單元71發(fā)送至語音識別單元100。
在語音識別單元100中,設定單元62將由語音交互單元110中的指定單元72發(fā)送的信息,即,將此時的交互階段所用的詞匯辭典和文法分別存儲于詞匯辭典存儲單元16和文法存儲單元14。以這種方式,單詞擴展單元931和單詞辨別單元932通過參考這里指定的詞匯辭典和文法,執(zhí)行匹配操作。
語音剪裁單元61基于輸入語音流的功率變化判斷發(fā)音的開始。如果在判斷該發(fā)音之后的一定時間間隔內不存在發(fā)音,則語音剪裁單元61確定輸入發(fā)音結束,并將該確定結果通知結果輸出單元17。
單詞擴展單元931將作為識別候選的單詞序列發(fā)送至結果輸出單元17,并在此時添加每個單詞的讀音及語音區(qū)段信息。在結果輸出單元17從語音剪裁單元61接收到發(fā)音結束的通知時,結果輸出單元17從由解碼器93接收到的作為識別結果的單詞序列中,將N個按分數(shù)降序排列的單詞序列與每個單詞的讀音和語音區(qū)段信息一同發(fā)送至語音交互單元110。
語速計算單元111根據(jù)讀音及語音區(qū)段長度,計算從結果輸出單元17接收到的所有單詞序列中每個單詞的語速(例如,音節(jié)數(shù)/毫秒),并將該語速與相應的單詞組合發(fā)送至優(yōu)先級確定單元112。
優(yōu)先級確定單元112蓋寫(重新打分)所接收的單詞序列中的單詞的分數(shù),以給予語速較低的語音區(qū)段的分數(shù)優(yōu)先級。這是因為講話者在做自我修正發(fā)音時,常慢速發(fā)音且仔細地不再出現(xiàn)口誤。換句話說,這是因為語速較慢的語音區(qū)段可能包含自我修正有效單詞。重新打分的方案不受特殊限制,舉例說來,可以為如下處理方案以關于預設標準語速的比率除單詞分數(shù),從而降低語速較快的單詞的分數(shù),而增加語速較慢的單詞的分數(shù)。
識別結果選擇單元74為每個單詞序列合計由優(yōu)先級確定單元112重新打分的單詞分數(shù),并重新計算單詞序列的分數(shù)。然后,識別結果選擇單元74將具有最佳分數(shù)的單詞序列作為最終識別結果通知語音識別驅動單元75。
利用上述方案,期望將更容易地輸入及識別慢速自我修正發(fā)音部分。
同樣優(yōu)選地,優(yōu)先級確定單元112不僅給予語速較慢的語音區(qū)段的分數(shù)優(yōu)先級,而且將語速較慢的語音區(qū)段之前緊鄰的語音區(qū)段(單詞)確定為口誤并將其刪除。此外,在解碼器93具有忽略文法之外的講話(單詞)功能的情況下,同樣優(yōu)選地,識別結果選擇單元74選擇其中忽略語速較慢的語音區(qū)段之前緊鄰的語音區(qū)段的識別候選。
上述為本發(fā)明幾個實施例的說明。但是,本發(fā)明并不限于上述實施例,而可以在本發(fā)明范圍內以多種方式修改。
例如,每個實施例中的解碼器中的匹配單位并不限于音素,也可以是音節(jié)、短音節(jié)、半音節(jié)或單詞。此外,可以每K個音素、音節(jié)、短音節(jié)、半音節(jié)或單詞為組執(zhí)行匹配(K為自然數(shù)),例如,以三個音素為單位的三音素。
此外,現(xiàn)有技術已經(jīng)提出多種算法,作為根據(jù)音素中各幀的分數(shù)(可能性)計算單詞的分數(shù)或單詞序列的分數(shù)的技術。本發(fā)明中,當計算單詞的分數(shù)或單詞序列的分數(shù)時,可使用任何算法。
此外,實施例1至4也可以與實施例5或6中包括的語音剪裁單元組合。此外,也可以提供根據(jù)語音剪裁單元的內部信息檢測語音區(qū)段的方案。
本發(fā)明也可以用作語音識別引擎或語音處理系統(tǒng),用于從用戶的語音中識別講話詞匯序列,并接受該講話詞匯序列以作為系統(tǒng)的輸入。
在不脫離本發(fā)明的精神或實質特征的情況下,本發(fā)明也可以其它形式實施。本申請中公開的實施例在所有方面均應視為示例性而非限制性的。本發(fā)明的范圍如所附權利要求書而非前述說明所示,并且落人權利要求書的等同含義與范圍內的所有改變均被認為包含在本發(fā)明的范圍內。
權利要求
1.一種語音識別系統(tǒng),包括信號處理單元,用于將輸入的講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音區(qū)段檢測單元,用于根據(jù)預定的語音區(qū)段標準,檢測該講話語音數(shù)據(jù)中的語音區(qū)段;優(yōu)先級確定單元,用于根據(jù)預定的優(yōu)先級標準,從由該語音區(qū)段檢測單元檢測的各語音區(qū)段中選擇要給以優(yōu)先級的語音區(qū)段;解碼器,用于利用由該優(yōu)先級確定單元所選擇的語音區(qū)段的特征以及該聲學模型,計算與該識別詞匯的匹配度;以及結果輸出單元,用于輸出在由解碼器進行匹配中具有最佳分數(shù)的識別單詞序列,以作為識別結果;其中該優(yōu)先級確定單元使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準(1)語音區(qū)段的長度,(2)語音區(qū)段的功率或信噪比,以及(3)語音區(qū)段的時間順序。
2.一種語音識別系統(tǒng),包括信號處理單元,用于將輸入的講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;解碼器,用于利用該特征以及該聲學模型,計算與該識別詞匯的匹配度;語音區(qū)段檢測單元,用于檢測與該解碼器檢測的單詞相對應的區(qū)段以作為語音區(qū)段;優(yōu)先級確定單元,用于根據(jù)預定的優(yōu)先級標準,從由該語音區(qū)段檢測單元檢測的各語音區(qū)段中,選擇包含優(yōu)先用作識別結果的識別詞匯的語音區(qū)段;以及結果輸出單元,用于輸出在由解碼器進行匹配中具有最佳分數(shù)的識別單詞序列,以作為識別結果;其中該優(yōu)先級確定單元使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準(1)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該解碼器檢測出預先寄存的特定詞匯,(2)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該解碼器檢測出預先寄存的長元音,以及(3)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該信號處理單元獲得的特征中的變化量在預定范圍內連續(xù)。
3.根據(jù)權利要求2所述的語音識別系統(tǒng),其中該優(yōu)先級確定單元還使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準(4)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,由該解碼器計算的匹配度低于預定閾值,以及(5)由該解碼器計算的匹配度。
4.一種語音處理系統(tǒng),包括語音識別單元,用于從輸入的講話語音數(shù)據(jù)中識別講話詞匯序列;以及語音輸入單元,用于利用由該語音識別單元產生的講話語音數(shù)據(jù)的識別結果,執(zhí)行來自用戶的輸入;其中該語音識別單元包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音剪裁單元,用于根據(jù)預定的講話區(qū)段標準,檢測該講話語音數(shù)據(jù)中的講話區(qū)段;解碼器,用于匹配該特征與該聲學模型,并且計算匹配的結果與該識別詞匯之間的匹配度,以根據(jù)計算的匹配度確定識別結果候選并產生位置信息,該位置信息指示該識別結果候選在該講話區(qū)段中的位置;以及結果輸出單元,用于將由該解碼器確定的識別結果候選和該位置信息輸出至該語音輸入單元,并且該語音輸入單元包括特定詞匯辭典存儲單元,該單元中預先存儲特定詞匯信息;特定詞匯確定單元,用于通過查詢該特定詞匯辭典存儲單元,確定該識別結果候選是否與該特定詞匯對應;以及識別結果選擇單元,用于利用與該特定詞匯對應的識別結果候選的時間順序作為標準,根據(jù)該位置信息選擇一個識別結果候選作為采用的識別結果。
5.一種語音處理系統(tǒng),包括語音識別單元,用于從輸入的講話語音數(shù)據(jù)中識別講話詞匯序列;以及語音輸入單元,用于利用由該語音識別單元產生的講話語音數(shù)據(jù)的識別結果,執(zhí)行來自用戶的輸入;其中該語音識別單元包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音剪裁單元,用于檢測講話語音數(shù)據(jù)中的講話區(qū)段;解碼器,用于匹配該特征與該聲學模型,并且計算匹配的結果與該識別詞匯的匹配度,以根據(jù)計算的匹配度確定識別結果候選并產生位置信息,該位置信息指示該識別結果候選在該講話區(qū)段中的位置;以及結果輸出單元,用于將由該解碼器確定的識別結果候選和該位置信息輸出至該語音輸入單元;并且該語音輸入單元包括語速計算單元,用于基于該位置信息,計算該識別結果候選的語速;以及識別結果選擇單元,用于利用該語速作為標準,選擇一個識別結果候選作為采用的識別結果。
6.根據(jù)權利要求1所述的語音識別系統(tǒng),其中(1)語音區(qū)段的長度用作該預定的優(yōu)先級標準,并且該優(yōu)先級確定單元按其長度的降序排列選擇預定數(shù)目的語音區(qū)段。
7.根據(jù)權利要求1所述的語音識別系統(tǒng),其中(1)語音區(qū)段的長度用作該預定的優(yōu)先級標準,并且該優(yōu)先級確定單元按其長度接近預定發(fā)音長度的降序排列選擇預定數(shù)目的語音區(qū)段。
8.根據(jù)權利要求1所述的語音識別系統(tǒng),其中(1)語音區(qū)段的長度用作該預定的優(yōu)先級標準,并且該優(yōu)先級確定單元在語音區(qū)段的各長度總和不超過預定時間間隔的條件下,按其長度的降序排列選擇預定數(shù)目的語音區(qū)段。
9.根據(jù)權利要求1所述的語音識別系統(tǒng),其中(2)語音區(qū)段的功率或信噪比用作該預定的優(yōu)先級標準,并且該優(yōu)先級確定單元按功率或信噪比的降序排列選擇預定數(shù)目的語音區(qū)段。
10.根據(jù)權利要求1所述的語音識別系統(tǒng),其中(3)語音區(qū)段的時間順序用作該預定的優(yōu)先級標準,并且該優(yōu)先級確定單元從講話語音數(shù)據(jù)所包含的多個語音區(qū)段中,從按時間序列上的最后一個語音區(qū)段開始選擇預定數(shù)目的語音區(qū)段。
11.根據(jù)權利要求1所述的語音識別系統(tǒng),其中(3)語音區(qū)段的時間順序用作該預定的優(yōu)先級標準,并且當該解碼器中所用的文法為M層層級結構時,該優(yōu)先級確定單元從輸入語音所包含的多個語音區(qū)段中,從按時間序列上的最后一個語音區(qū)段開始選擇M個語音區(qū)段,其中M為自然數(shù)。
12.根據(jù)權利要求1所述的語音識別系統(tǒng),其中(1)語音區(qū)段的長度和(3)語音區(qū)段的時間順序的組合用作該預定的優(yōu)先級標準,并且該優(yōu)先級確定單元選擇在時間序列上連續(xù)的多個語音區(qū)段,這種選擇是在輸入語音所包含的多個語音區(qū)段中從最后一個語音區(qū)段開始倒序進行的,以使所選擇的語音區(qū)段的長度總和落入預定范圍內。
13.一種存儲程序的記錄介質,該程序使計算機執(zhí)行如下操作信號處理操作,將輸入的講話語音數(shù)據(jù)轉換為特征;語音區(qū)段檢測操作,根據(jù)預定的語音區(qū)段標準,檢測該講話語音數(shù)據(jù)中的語音區(qū)段;優(yōu)先級確定操作,根據(jù)預定的優(yōu)先級標準,從由該語音區(qū)段檢測操作檢測的各語音區(qū)段中選擇要給以優(yōu)先級的語音區(qū)段;匹配操作,查詢聲學模型存儲單元和詞匯辭典存儲單元,其中在該聲學模型存儲單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型,并且在該詞匯辭典存儲單元中預先存儲識別詞匯的信息;以及使用由該優(yōu)先級確定操作所選擇的語音區(qū)段的特征和該聲學模型,計算與該識別詞匯的匹配度;以及結果輸出操作,輸出在該匹配操作中具有最佳分數(shù)的單詞序列作為識別結果;其中在該優(yōu)先級確定操作中,該程序使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準(1)語音區(qū)段的長度,(2)語音區(qū)段的功率或信噪比,以及(3)語音區(qū)段的時間順序。
14.一種存儲程序的記錄介質,該程序使計算機執(zhí)行如下操作信號處理操作,將輸入的講話語音數(shù)據(jù)轉換為特征;匹配操作,查詢聲學模型存儲單元和詞匯辭典存儲單元,其中在該聲學模型存儲單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型,并且在該詞匯辭典存儲單元中預先存儲識別詞匯的信息;以及使用該特征和該聲學模型,計算與該識別詞匯的匹配度;語音區(qū)段檢測操作,根據(jù)在該匹配操作中所計算的匹配度,檢測該講話語音數(shù)據(jù)中的語音區(qū)段;優(yōu)先級確定操作,根據(jù)預定的優(yōu)先級標準,從在該語音區(qū)段檢測操作中檢測的各語音區(qū)段中,選擇包含優(yōu)先用作識別結果的識別詞匯的語音區(qū)段;以及結果輸出操作,輸出在該匹配操作中具有最佳分數(shù)的單詞序列作為識別結果;其中在該優(yōu)先級確定操作中,使用從由以下標準構成的組中所選擇的至少一個標準作為該預定的優(yōu)先級標準(1)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,該匹配操作檢測出預先寄存的特定詞匯,(2)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,該匹配操作檢測出預先寄存的長元音,以及(3)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,該信號處理操作獲得的特征中的變化量在預定范圍內連續(xù)。
15.根據(jù)權利要求14所述的記錄介質,其中該優(yōu)先級確定操作還使用從由以下標準構成的組中所選擇的至少一個標準作為預定的優(yōu)先級標準(4)相對于一個語音區(qū)段的時間順序,在該語音區(qū)段中,該匹配操作計算的匹配度低于預定閾值,以及(5)在該匹配操作中計算的匹配度。
16.一種存儲程序的記錄介質,該程序使計算機實現(xiàn)語音輸入單元的功能,該語音輸入單元用于利用由語音識別單元所產生的識別結果而執(zhí)行來自用戶的輸入,該語音識別單元用于從輸入的講話語音數(shù)據(jù)中識別講話詞匯序列,其中該語音識別單元包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音剪裁單元,用于根據(jù)預定的講話區(qū)段標準,檢測該講話語音數(shù)據(jù)中的各講話區(qū)段;解碼器,用于匹配該特征與該聲學模型,并且計算匹配的結果與該識別詞匯之間的匹配度,以根據(jù)計算的匹配度確定識別結果候選并產生位置信息,該位置信息指示該識別結果候選在該講話區(qū)段中的位置;以及結果輸出單元,用于輸出由該解碼器確定的識別結果候選和該位置信息,以作為識別結果,并且該程序使計算機執(zhí)行如下操作特定詞匯確定操作,通過查詢特定詞匯辭典存儲單元來確定該識別結果候選是否與特定詞匯對應,其中該特定詞匯辭典存儲單元中預先存儲該特定詞匯信息;以及識別結果選擇操作,利用與該特定詞匯對應的識別結果候選的時間順序作為標準,根據(jù)該位置信息選擇一個識別結果候選作為采用的識別結果。
17.一種存儲程序的記錄介質,該程序使計算機實現(xiàn)語音輸入單元的功能,該語音輸入單元用于利用由語音識別單元所產生的識別結果而執(zhí)行來自用戶的輸入,該語音識別單元用于從輸入的講話語音數(shù)據(jù)中識別講話詞匯序列,其中該語音識別單元包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;聲學模型存儲單元,該單元中預先存儲通過使語音趨向成為的特征模型化而獲得的聲學模型;詞匯辭典存儲單元,該單元中預先存儲識別詞匯的信息;語音剪裁單元,用于根據(jù)預定的講話區(qū)段標準,檢測該講話語音數(shù)據(jù)中的各講話區(qū)段;解碼器,用于匹配該特征與該聲學模型,并且計算匹配的結果與該識別詞匯之間的匹配度,以根據(jù)計算的匹配度確定識別結果候選并產生位置信息,該位置信息指示該識別結果候選在該講話區(qū)段中的位置;以及結果輸出單元,用于輸出由該解碼器確定的識別結果候選和位置信息,以作為識別結果,并且該程序使計算機執(zhí)行如下操作語速計算操作,基于該位置信息,計算該識別結果候選的語速;以及識別結果選擇操作,利用該語速作為標準,選擇一個識別結果候選作為采用的識別結果。
全文摘要
本發(fā)明提供一種語音識別系統(tǒng)及語音處理系統(tǒng),其中,在用戶進行自我修正發(fā)音的情況下,如同人們之間的對話一樣,可輸入并正確識別自我修正發(fā)音。所述系統(tǒng)包括信號處理單元,用于將講話語音數(shù)據(jù)轉換為特征;語音區(qū)段檢測單元,用于檢測講話語音數(shù)據(jù)中的語音區(qū)段;優(yōu)先級確定單元,用于根據(jù)預定的優(yōu)先級標準,從由語音區(qū)段檢測單元檢測的語音區(qū)段中選擇要給予優(yōu)先級的語音區(qū)段;以及解碼器,用于利用由優(yōu)先級確定單元所選擇的語音區(qū)段的特征以及聲學模型,計算與識別詞匯的匹配度。優(yōu)先級確定單元從由下標準構成的組中所選擇的至少一個標準作為預定的優(yōu)先級標準語音區(qū)段的長度,語音區(qū)段的功率或信噪比,以及語音區(qū)段的時間順序。
文檔編號G10L15/00GK1920948SQ20061000695
公開日2007年2月28日 申請日期2006年1月26日 優(yōu)先權日2005年8月24日
發(fā)明者鷲尾信之, 原田將治 申請人:富士通株式會社