語音識別裝置、語音識別方法及存儲語音識別程序的記錄介質的制作方法

文檔序號：2829632閱讀：481來源：國知局

專利名稱：語音識別裝置、語音識別方法及存儲語音識別程序的記錄介質的制作方法
技術領域：
本發(fā)明涉及用于識別用戶說出的連續(xù)的多個單詞的語音識別裝置、語音識別方法以及語音識別程序。
背景技術：
在主存儲裝置(主存儲器(以下稱為“存儲器”))內布置有語音識別裝置，其中中央處理器(CPU)可直接讀取或寫入包含大量單詞的詞典數(shù)據(jù)，從而用于語音識別處理。在常規(guī)的語音識別裝置中，將詞典分成多個文件并記錄到輔助存儲裝置(例如HDD、DVD或ROM)中，僅將所需文件從輔助存儲裝置讀取到用于識別處理的存儲器。這樣可以削減(suppress)要用于語音識別處理的存儲器的容量。但是，在將詞典數(shù)據(jù)從輔助存儲裝置讀取(加載)到存儲器的過程中，識別處理不能繼續(xù)進行。這會導致語音識別處理中的延遲。
例如，在地址識別裝置中，將轄區(qū)名字典和城市名字典分別作為文件記錄到輔助存儲裝置中。當對其中依次說出轄區(qū)名和城市名(例如，“AICHIKEN”，“NAGOYASHI”)的語音進行識別時，地址識別裝置識別出轄區(qū)名“AICHIKEN”，并且隨后將對應于該轄區(qū)名的城市名字典讀取到存儲器。在讀取該城市名字典的過程中，地址識別裝置不能繼續(xù)進行識別處理，直到讀取完成為止。因此，在地址識別處理中會造成延遲。
已經(jīng)提出一種采取措施克服這種延遲的語音識別裝置(參見，例如，JP2002-268673A)。在從諸如DVD的輔助存儲裝置中讀取字典數(shù)據(jù)的過程中，語音識別裝置利用提前從RAM讀取的匹配數(shù)據(jù)執(zhí)行匹配處理。將讀取的字典數(shù)據(jù)記錄到延遲匹配數(shù)據(jù)記錄裝置中，并在完成讀取之后，執(zhí)行利用該延遲匹配數(shù)據(jù)記錄裝置內記錄的數(shù)據(jù)的匹配處理。在此之后，合并延遲匹配數(shù)據(jù)和匹配數(shù)據(jù)。
但是，上述語音識別裝置需要將匹配過程中的結果與具有延遲的匹配之后所得到的結果進行合并。因此，就需要一種方法，該方法用于通過與上述語音識別裝置的方法不同的方法，來減少由于從輔助存儲裝置中讀取字典數(shù)據(jù)的等待時間所造成的處理中的延遲。

發(fā)明內容
因此，基于上述想法，本發(fā)明的目的是提供一種能夠減少由從輔助存儲裝置讀取字典數(shù)據(jù)的等待時間所造成的語音識別處理中的延遲的語音識別裝置，語音識別程序和語音識別方法。
根據(jù)本發(fā)明的語音識別裝置對輸入的語音中所包含的多個連續(xù)關聯(lián)的單詞進行識別，并且輸出其識別結果。該語音識別裝置包括聲學模型讀取部分，用于將預先記錄在輔存儲裝置內的聲學模型讀入主存儲裝置內；字典管理部分，用于將包括起始部分字典、結尾部分字典、詞序數(shù)據(jù)和對應關系數(shù)據(jù)的字典數(shù)據(jù)從輔助存儲裝置讀取到主存儲裝置，其中起始部分字典表示作為要識別的單詞的候選項(candidate)的一組單詞的起始部分，結尾部分字典表示該組單詞的結尾部分，詞序數(shù)據(jù)表示單詞順序，對應關系數(shù)據(jù)表示起始部分字典和結尾部分字典之間的對應關系；和識別部分，利用讀入主存儲裝置內的聲學模型和對應數(shù)據(jù)，通過將由讀入主存儲裝置內的起始部分字典和結尾部分字典表示的該組單詞與所輸入的語音進行匹配，對在所輸入的語音內包含的多個連續(xù)關聯(lián)的單詞進行依次識別。該字典數(shù)據(jù)包括至少一個起始部分字典，其存儲有表示多個單詞的起始部分的數(shù)據(jù)；和一組結尾部分字典，其將表示與由起始部分字典表示的一組起始部分對應的一組結尾部分的數(shù)據(jù)作為多個結尾部分字典存儲進行存儲。字典管理部分將詞序數(shù)據(jù)和起始部分字典(其包含要作為輸入語音內包含的多個單詞中的至少一個單詞的候選項的一組單詞的起始部分)讀入主存儲裝置內，并且在該識別部分正利用讀入主存儲裝置內的起始部分字典對單詞進行識別時，基于該詞序數(shù)據(jù)讀取結尾部分字典和/或起始部分字典。
輔助存儲裝置是聲學模型讀取部分、字典管理部分和識別部分不能針對其進行高速讀取或寫入的存儲設備，輔助存儲裝置的示例包括硬盤、DVD、MO、CD、軟盤、磁帶和ROM。也可以將輔助存儲裝置稱為外部存儲設備。
字典管理部分或聲學模型讀取部分讀數(shù)據(jù)的操作指的是將記錄到輔助存儲裝置內的數(shù)據(jù)加載到主存儲裝置(主存儲器，以下僅稱為“存儲器”)的操作。該存儲器是聲學模型讀取部分、字典管理部分和識別部分能夠針對其直接和快速地進行讀取或寫入數(shù)據(jù)的存儲器。作為存儲器，例如，采用利用半導體裝置電式記錄數(shù)據(jù)的記錄介質。存儲器的示例包括RAM。
起始部分字典包括以邏輯組織的方式記錄的表示多個單詞的起始部分的數(shù)據(jù)。結尾部分字典包括以邏輯組織的方式記錄的表示多個單詞的結尾部分的數(shù)據(jù)。例如，一個起始部分字典或一個結尾部分字典可以由一個文件構成或者可以由數(shù)據(jù)庫內的一個表構成。另選地，例如，一個文件可以包括多個起始部分字典或結尾部分字典。
字典管理部分將詞序數(shù)據(jù)和起始部分字典讀入存儲器內，其中該起始部分字典包括一組單詞的起始部分，這組單詞是在所輸入的語音中包含的多個單詞中的至少一個單詞的候選項。因此，識別部分可將與在所輸入的語音內包括的多個單詞的起始部分對應的部分與存儲器的起始部分字典進行匹配。在識別部分正對單詞的起始部分進行識別時，字典管理部分可基于詞序數(shù)據(jù)讀取結尾部分字典或起始部分字典。這就減少了由于為了進行語音識別而從輔助存儲裝置中讀取字典數(shù)據(jù)所造成的語音識別處理中的延遲。尤其是，在其中由于對存儲器的限制而不能將用于語音識別的所有字典數(shù)據(jù)都記錄到主存儲裝置上的語音識別裝置中，可減少由于從輔助存儲裝置中讀取字典數(shù)據(jù)所造成的語音識別處理中的延遲。
在根據(jù)本發(fā)明的語音識別裝置中，以下情況是優(yōu)選的。起始部分字典存儲關于一整組單詞(其作為要識別的多個連續(xù)關聯(lián)的單詞的候選項)的起始部分。在識別部分開始識別所輸入的語音之前，字典管理部分讀取一組單詞(其作為在所述語音中包含的多個單詞中的第一個單詞的候選項)的起始部分字典和結尾部分字典。當識別部分識別第N(N＝1，2，3，…)個單詞時，字典管理部分基于第N個單詞和詞序數(shù)據(jù)，從多個結尾部分字典中選擇包括作為第(N+1)個單詞的候選項的一組單詞的結尾部分的結尾部分字典，并開始讀取。在讀取過程中，識別部分利用起始部分字典對第(N+1)個單詞的起始部分進行識別。
起始部分字典存儲關于一整組單詞(其作為要識別的多個連續(xù)的單詞的候選項)的起始部分。因此，當字典管理部分基于第N個單詞和詞序數(shù)據(jù)，正進行讀取包含作為第(N+1)個單詞的候選項的一組單詞的結尾部分字典時，識別部分可利用起始部分字典識別第(N+1)個單詞。因此，字典管理部分可根據(jù)由識別部分識別的單詞，在適當時機讀取所需的結尾部分字典。因此，在削減存儲器上的結尾部分字典內數(shù)據(jù)量的同時，可執(zhí)行有效的語音識別。
在根據(jù)本發(fā)明的語音識別裝置中，優(yōu)選地，在識別部分開始識別之前，字典管理部分讀取結尾部分字典(其包括作為在所輸入的語音中包含的多個單詞中的第一個單詞的候選項的一組單詞的結尾部分)和起始部分字典(其包括作為第一和第二個單詞的候選項的一組單詞的起始部分)，當識別部分識別第N(N＝1，2，3，…)個單詞時，字典管理部分讀取包括作為第(N+1)個單詞的候選項的一組單詞的結尾部分的結尾部分字典和包括作為第(N+2)個單詞的候選項的一組單詞的起始部分的起始部分字典。
根據(jù)上述結構，字典管理部分讀取包括作為第一個單詞的候選項的一組單詞的結尾部分的結尾部分字典和包括作為第一與第二個單詞的候選項的一組單詞的起始部分的起始部分字典。因此，在識別部分識別第一個連續(xù)單詞時，可以開始對第二個單詞的識別處理。另外，當識別部分識別第N個單詞時，字典管理部分讀取包括作為第(N+1)個單詞的候選項的一組單詞的結尾部分的結尾部分字典和包括作為第(N+2)個單詞的候選項的一組單詞的起始部分的起始部分字典。由此，識別部分可以通過與識別第二個及后續(xù)單詞相同的方式開始識別后續(xù)單詞。更特別地是，字典管理部分可根據(jù)由識別部分識別的單詞，在適當時機讀取由識別部分要求的結尾部分字典和起始部分字典。
在根據(jù)本發(fā)明的語音識別裝置中，優(yōu)選地，當識別部分利用讀入主存儲裝置內的起始部分字典，將單詞的起始部分的一部分與語音進行匹配時，字典管理部分基于該匹配結果，開始讀取結尾部分字典和/或起始部分字典。
根據(jù)上述結構，字典管理部分可讀取與匹配結果所顯示的結尾部分的一部分對應的結尾部分字典。這能夠實現(xiàn)有效地讀取適當?shù)慕Y尾部分字典。
在根據(jù)本發(fā)明的語音識別裝置中，優(yōu)選地，將詞序數(shù)據(jù)記錄到結尾部分字典中，從而與各個單詞結尾部分對應，作為表示起始部分字典(其包括可能在單詞結尾部分之后的一組單詞的起始部分)或結尾部分字典(其包括該組單詞結尾部分)的字典識別數(shù)據(jù)，并且字典管理部分基于與識別部分所識別的單詞的結尾部分對應的字典識別數(shù)據(jù)，讀取該起始部分字典或該結尾部分字典。
字典管理部分使用與識別部分識別的單詞的結尾部分相關聯(lián)的字典識別數(shù)據(jù)，從而讀取起始部分字典(其包括可能在該單詞之后的一組單詞的起始部分)或結尾部分字典(其包括該組單詞的結尾部分)。
在根據(jù)本發(fā)明的語音識別裝置中，優(yōu)選地，字典數(shù)據(jù)包括多個起始部分字典，并且基于與所識別單詞的結尾部分對應的字典識別數(shù)據(jù)，識別部分從多個起始部分字典中選擇包括可能在所識別單詞之后的一組單詞的起始部分的起始部分字典，并利用所選的起始部分字典，對所識別單詞之后的單詞進行識別。
識別部分可基于與已識別的單詞的結尾部分相關聯(lián)的字典識別數(shù)據(jù)，選擇包括可能在隨后識別的單詞之后的一組單詞的起始部分的起始部分字典。因此，利用適當?shù)钠鹗疾糠肿值洌梢杂行У貓?zhí)行對已識別單詞之后的單詞進行識別的處理。
在根據(jù)本發(fā)明的語音識別裝置中，優(yōu)選地，字典管理部分從主存儲裝置中刪除讀入到主存儲裝置內的結尾部分字典和起始部分字典中的、在識別部分用于識別單詞之后變成不需要的結尾部分字典或起始部分字典。刪除存儲器上不需要的數(shù)據(jù)，從而可刪除可用存儲器的容量。
在根據(jù)本發(fā)明的語音識別裝置中，優(yōu)選地，字典數(shù)據(jù)包括可能包含在語音中的一組單詞，其中，根據(jù)音位數(shù)、音節(jié)數(shù)、摩爾(molar)數(shù)、單詞出現(xiàn)頻率和可用存儲器容量中的至少一個，將這些單詞劃分成起始部分和結尾部分，并將所述起始部分和結尾部分以分別包含到起始部分字典和結尾部分字典中的方式進行記錄。
根據(jù)本發(fā)明的語音識別方法使計算機對所輸入的語音中包含的多個連續(xù)關聯(lián)的單詞進行識別并輸出其識別結果，該方法包括聲學模型讀取操作，使計算機將預先記錄到輔助存儲裝置內的聲學模型讀入主存儲裝置內；字典管理操作，使計算機將字典數(shù)據(jù)從輔助存儲裝置讀取到主存儲裝置，所述字典數(shù)據(jù)包括表示作為要識別單詞的候選項的一組單詞的起始部分的起始部分字典，表示該組單詞的結尾部分的結尾部分字典，表示詞序的詞序數(shù)據(jù)以及表示起始部分字典和結尾部分字典之間的對應關系的對應關系數(shù)據(jù)；以及識別操作，使計算機通過利用讀入主存儲裝置的聲學模型和對應關系數(shù)據(jù)，將由讀入主存儲裝置的起始部分字典和結尾部分字典所表示的一組單詞與所輸入的語音進行匹配，來連續(xù)識別在所輸入的語音中包含的多個連續(xù)關聯(lián)的單詞。該字典數(shù)據(jù)包括至少一個起始部分字典，其存儲有表示多個單詞的起始部分的數(shù)據(jù)；和一組結尾部分字典，其存儲有表示與所述起始部分字典表示的一組起始部分對應的一組結尾部分的數(shù)據(jù)，作為多個結尾部分字典。在字典管理操作中，計算機將詞序數(shù)據(jù)和起始部分字典(其包括一組單詞的起始部分，這組單詞是在所輸入的語音中包含的多個單詞中的至少一個單詞的候選項)讀入主存儲裝置內，并且當在識別操作中，正利用讀入主存儲裝置內的起始部分字典識別單詞時，計算機基于該詞序數(shù)據(jù)讀取結尾部分字典和/或起始部分字典。
根據(jù)本發(fā)明的記錄在記錄介質上的語音識別程序使計算機執(zhí)行以下處理對所輸入的語音中包括的多個連續(xù)關聯(lián)的單詞進行識別并輸出其識別結果。該程序使計算機執(zhí)行聲學模型讀取處理，將在輔助存儲裝置內預先記錄的聲學模型讀入主存儲裝置內；字典管理處理，將字典數(shù)據(jù)從輔助存儲裝置讀取到主存儲裝置，所述字典數(shù)據(jù)包括起始部分字典(表示作為要識別單詞的候選項的一組單詞的起始部分)，結尾部分字典(表示該組單詞的結尾部分)，詞序數(shù)據(jù)(表示單詞順序)和對應關系數(shù)據(jù)(表示起始部分字典和結尾部分字典之間的對應關系)；和識別處理，利用讀入主存儲裝置內的聲學模型和對應關系數(shù)據(jù)，通過將由讀入主存儲裝置的起始部分字典和結尾部分字典所表示的一組單詞與所輸入的語音進行匹配，來對在所輸入的語音中包含的多個連續(xù)關聯(lián)的單詞進行連續(xù)識別。所述字典數(shù)據(jù)包括至少一個起始部分字典(存儲有表示多個單詞的起始部分的數(shù)據(jù))，以及一組結尾部分字典(存儲有表示與由起始部分字典表示的一組起始部分對應的一組結尾部分的數(shù)據(jù)，作為多個結尾部分字典)。在所述字典管理處理中，所述程序使計算機將詞序數(shù)據(jù)和起始部分字典(其包括作為在所輸入的語音內包含的多個單詞中的至少一個單詞的候選項的一組單詞的起始部分)讀入主存儲裝置內，并且當在識別處理中正利用讀入主存儲裝置內的起始部分字典對單詞進行識別時，所述程序使計算機基于所述詞序數(shù)據(jù)讀取所述結尾部分字典和/或起始部分字典。
根據(jù)本發(fā)明，可提供一種語音識別裝置、語音識別程序和語音識別方法，其中可減少由于從輔助存儲裝置中讀取字典數(shù)據(jù)的等待時間所造成的語音識別處理中的延遲。

圖1是示出了實施例1中的語音識別裝置的示例性結構的功能性框圖；圖2是示出了在字典數(shù)據(jù)中包含的起始部分字典和結尾部分字典的具體示例的圖；圖3是示出了語音識別裝置識別語音的示例性處理的流程圖；圖4是表示圖3中所示處理相對于時間軸的執(zhí)行狀態(tài)的圖；圖5是示出了一個示例性情況的圖，在該情況中將在圖2中所示的結尾部分字典20b-1中包含的結尾部分分成多個結尾部分字典。
圖6是表示圖3中所示處理相對于時間軸的另一個執(zhí)行狀態(tài)的圖；圖7是示出了實施例2中的起始部分字典和結尾部分字典的具體示例的圖；圖8是示出了實施例2中的識別語音的示例性處理的流程圖；圖9是示出了實施例3中的起始部分字典和結尾部分字典的具體示例的圖；圖10是示出了實施例3中的識別語音的示例性處理的流程圖；圖11是示出了起始部分字典、結尾部分字典和語法文件的示例的圖。
具體實施例方式
實施例1圖1是示出了本實施例中的語音識別裝置的示例性配置的功能性框圖。圖1中所示的語音識別裝置1對在輸入語音中包含的多個序列單詞進行識別并輸出其識別結果。語音識別裝置1可對通過諸如擴音器的輸入裝置輸入的語音進行識別，并將識別結果輸出到諸如顯示器、揚聲器或打印機的輸出裝置。另外，如另一個示例，語音識別裝置1可從上級應用程序(higher-order application)中接收語音數(shù)據(jù)，并將語音數(shù)據(jù)的識別結果返回到該上級應用程序。
語音識別裝置1包括語音分析部分3、聲學模型讀取部分5、識別部分7、存儲器8和字典管理部分9。將語音識別裝置1連接到輔助存儲裝置2。在本實施例中，輔助存儲裝置2存儲有聲學模型11和字典數(shù)據(jù)12。
語音識別裝置1由至少包括CPU和存儲器8的計算機構成。當CPU執(zhí)行加載到存儲器8內的預定程序時，實現(xiàn)了語音分析部分3、聲學模型讀取部分5、識別部分7和字典管理部分9的各自功能。盡管圖1示出了這樣的配置聲學模型讀取部分5、識別部分7和字典管理部分9針對一個存儲器8進行讀取數(shù)據(jù)或寫入數(shù)據(jù)，但可以設置多個存儲器8。
輔助存儲裝置2可以是例如通過總線連接到語音識別裝置1的CPU的存儲裝置，或者是通過網(wǎng)絡連接到語音識別裝置1的存儲裝置。
語音識別裝置1可以是由例如通用計算機(諸如個人計算機)構成。另外，語音識別裝置1也可以由置入電子裝置(例如汽車導航裝置、移動電話、個人數(shù)字助理(PDA)或顯示器)的計算機構成。
字典管理部分9從字典數(shù)據(jù)12中讀取所需數(shù)據(jù)。更具體地，字典管理部分9在任何時間從字典數(shù)據(jù)12中僅讀取識別處理所需的數(shù)據(jù)，并將其配置到語音識別裝置1的計算機內設置的存儲器8上。字典數(shù)據(jù)12表示作為要識別的單詞的候選項的一組單詞。字典數(shù)據(jù)12包括，例如各單詞的字符串數(shù)據(jù)、表示對各單詞的讀取的信息以及表示各單詞順序的語法信息。表示對各單詞的讀取的信息的示例包括諸如音位串、音節(jié)串和音符串的數(shù)據(jù)。另外，表示各單詞順序的語法信息的示例包括上下文無關(context-free)語法和有限狀態(tài)語法。
字典數(shù)據(jù)包括至少一個起始部分字典和多個結尾部分字典。起始部分字典是表示多個單詞起始部分的數(shù)據(jù)。結尾部分字典是表示與起始部分字典表示的一組起始部分對應的一組結尾部分的數(shù)據(jù)。將一組結尾部分分別地記錄到多個結尾部分字典中。下面將對字典數(shù)據(jù)的具體示例進行說明。
聲學模型11例如是其中針對各音位以統(tǒng)計的方式對語音特性建模的數(shù)據(jù)。聲學模型11的示例包括隱式馬爾可夫模型(Hidden Markov Model(HMM))。聲學模型讀取部分5將聲學模型11從輔助存儲裝置2讀入到主存儲裝置內。
識別部分7從字典管理部分9中接收作為要識別單詞的候選項的一組單詞的起始部分和結尾部分的音位串。識別部分7從聲學模型11中提取對應于所接收的起始部分和結尾部分的音位串的數(shù)據(jù)，并生成起始部分的聲學模型串和結尾部分的聲學模型串。
當將語音輸入到語音識別裝置1時，語音分析部分3分析所輸入的語音并將其轉換成語音特征值。將該語音特征值提供給識別部分7。
識別部分7將所輸入語音的語音特征值與起始部分組的聲學模型串和結尾部分組的聲學模型串進行匹配，由此針對作為候選項的各個單詞的起始部分和結尾部分計算出相似性?；谶@些相似性，識別出在語音中包含的單詞。識別部分7從輸入語音的前沿開始按順序連續(xù)識別單詞，直到該語音結束為止。識別部分7將表示所識別單詞的數(shù)據(jù)提供給字典管理部分9。
字典管理部分9根據(jù)由識別部分7識別的單詞，讀取作為下一個要說出的單詞的候選項的一組單詞的起始部分或結尾部分的音位串，并將音位串提供給識別部分7。識別部分7和字典管理部分9重復以上識別處理，直到所輸入的語音結束為止。當所輸入的語音結束時，識別部分7輸出所識別的單詞串作為識別結果。將該識別結果例如作為字符串數(shù)據(jù)輸出。
(字典數(shù)據(jù)的具體示例)圖2是示出了在字典數(shù)據(jù)12中包括的起始部分字典和結尾部分字典的具體示例的圖。圖2示出了在將地址作為語音輸入到語音識別裝置1的情況中用于識別日本地址的字典數(shù)據(jù)的示例。表示該地址的語音包括多個連續(xù)的單詞(例如，表示轄區(qū)名的單詞→表示城市名的單詞→表示行政區(qū)名的單詞→表示區(qū)域名的單詞)。在此，假設該區(qū)域名為排在城市/行政區(qū)/城鎮(zhèn)/村莊名之后并且不包括街道編號和住宅編號的地名。
圖2中所示的起始部分字典10是表示可能包含在語音中的整組單詞的起始部分的數(shù)據(jù)。在起始部分字典10中，針對各起始部分記錄有起始部分的音位串和將起始部分與結尾部分相關聯(lián)的數(shù)據(jù)。例如，起始部分字典10中的第一個數(shù)據(jù)“ai→1”是其中將單詞“AICHIKEN”中的起始部分“AI”的音位串“ai”與數(shù)字“1”相關聯(lián)(為了將起始部分“AI”和結尾部分“CHIKEN”相關聯(lián))的數(shù)據(jù)。在圖2中，部分地省略了起始部分字典10的內容的顯示。
結尾部分字典20a、20b-1、20b-2、20c-1和20c-2是表示與由起始部分字典10表示的起始部分對應的結尾部分的數(shù)據(jù)。結尾部分字典20b-1、20b-2、20c-1和20c-2包含用于識別各個結尾部分字典的字典識別數(shù)據(jù)“C1”、“C2”、“E1”和“E11”。
在結尾部分字典20a、20b-1、20b-2、20c-1和20c-2中，針對各結尾部分，記錄結尾部分的音位串、將結尾部分與起始部分相關聯(lián)的數(shù)據(jù)、由結尾部分表示的單詞的字符串以及與結尾部分相關聯(lián)的字典識別數(shù)據(jù)。例如，與結尾部分相關聯(lián)的字典識別數(shù)據(jù)表示包含作為在該結尾部分之后的單詞的候選項的一組單詞的結尾部分字典。
例如，在結尾部分字典20a中，收集有表示轄區(qū)名的結尾部分的數(shù)據(jù)。結尾部分字典20a中的第一個數(shù)據(jù)“1.tiken→AICHIKENC1”包含結尾部分的音位串“tiken”、用于將結尾部分“CHIKEN”與起始部分“AI”相關聯(lián)的數(shù)字“1”、表示單詞的字符串“AICHIKEN”以及字典識別數(shù)據(jù)“C1”。字典識別數(shù)據(jù)“C1”表示包含作為“AICHIKEN”之后的單詞的候選項的一組單詞的結尾部分字典(在此，其為城市名AICHIKEN的結尾部分字典20b-1)。
結尾部分字典20b-1包含用于識別結尾部分字典的識別數(shù)據(jù)“C1”和表示AICHIKEN內的城市名(包括城鎮(zhèn)和村莊)的結尾部分的數(shù)據(jù)。類似地，結尾部分字典20b-2包含識別數(shù)據(jù)“C2”和表示城市名(包括城鎮(zhèn)、村莊和縣)的結尾部分的數(shù)據(jù)。結尾部分字典20c-1包含識別數(shù)據(jù)“E1”和表示NAGOYASHI內的行政區(qū)名的數(shù)據(jù)。結尾部分字典20c-2包含識別數(shù)據(jù)“E11”和表示AOMORISHI內的區(qū)域名的結尾部分的數(shù)據(jù)。
可將起始部分字典10和結尾部分字典20a、20b-1、20b-2、20c-1和20c-2例如記錄為用于各字典的文件或者記錄為用于各字典的表。另外，可將多個字典記錄作為一個文件，或者可在將一個字典分成多個文件的情況下進行記錄。此外，例如，也可以將可同時讀取的一組字典記錄到一個文件或表中，如在轄區(qū)名的起始部分字典10和結尾部分字典20a之間的組合。也就是，可將字典數(shù)據(jù)構成，使得當字典管理部分9從字典數(shù)據(jù)12中讀取所需數(shù)據(jù)時，可針對各字典識別數(shù)據(jù)。
因此，考慮到單詞的意義，將在語音中可能包含的這組單詞的結尾部分在被分成多個結尾部分字典的情況下進行記錄。在圖2所示的示例中，沒有示出與起始部分字典10對應的所有結尾部分字典，并且被部分地省略掉。另外，也部分地省略掉對包含在各結尾部分字典內的數(shù)據(jù)的顯示。此外，結尾部分字典和起始部分字典的數(shù)據(jù)結構并不限于圖2中所示的示例。
(將單詞分成起始部分和結尾部分的方法)如圖2中所示，為了生成起始部分字典和結尾部分字典，必須在將單詞分成起始部分和結尾部分的情況下記錄該單詞。在此，對用于將單詞分成起始部分和結尾部分的方法的示例進行說明。作為一種方法，在聲學模型(音位、音節(jié)或摩爾數(shù))的基礎上劃分單詞，并且可將任何劃分位置設定為起始部分和結尾部分的劃分位置。例如，在以音節(jié)劃分單詞的情況中，可將從單詞前沿起的兩個音節(jié)設定為起始部分，并且可將第三個及后續(xù)的音節(jié)設定為結尾部分?？筛鶕?jù)例如存儲器8的可用容量、從外部存儲裝置讀取的時間、出現(xiàn)頻率等，來確定應該將從該前沿起的哪個或哪些音節(jié)設定為起始部分。另外，在具有足夠可用存儲容量的情況中，可通過延長起始部分來增加處理延遲的減少量。例如，對于具有比其他單詞更高的說出頻率的單詞，與其他單詞相比，可增加該單詞起始部分的長度。
(語音識別裝置的操作示例)圖3是示出了其中語音識別裝置1識別語音的示例性處理的流程圖。在該操作示例中，以具體示例的方式對將日本地址作為語音輸入并進行識別的情況進行說明。該操作示例中的語音識別裝置1識別語音的前提是在所輸入的語音中包含的第一個單詞表示轄區(qū)名，隨后的單詞表示在該轄區(qū)內包括的城市、城鎮(zhèn)、縣或村莊的名稱，并且再隨后的單詞表示在該城市、城鎮(zhèn)、縣或村莊內包括的行政區(qū)或區(qū)域的名稱。因此，在本實施例中，前提是通過表示詞序等的語法將作為要識別的多個獨立連續(xù)的單詞的候選項的一組單詞進行關聯(lián)。以下對關聯(lián)的具體示例進行說明，其示出了日本的轄區(qū)、Aichi轄區(qū)內的城市、Nagoya市內的行政區(qū)等。
在將語音輸入到語音識別裝置1之前，首先，字典管理部分9將起始部分字典從輔助存儲裝置2讀入作為主存儲裝置的存儲器8內(Op1)。在此要讀取的起始部分字典包括表示可能包含在該語音中的所有單詞的起始部分的數(shù)據(jù)。
字典管理部分9還讀取包含一組單詞(其作為在所輸入語音的起始部分內可能說出的單詞的候選項)的結尾部分的結尾部分字典(Op2)。依據(jù)語音識別裝置1的規(guī)格，預先確定作為在最前面部分中可能說出的單詞的候選項的該組單詞。例如，在語音識別裝置1的規(guī)格為識別地址的情況中，將要在最前面部分中說出的單詞確定為轄區(qū)名。作為Op1和Op2的具體示例，字典管理部分9首先讀取圖2中所示的表示所有單詞的起始部分的起始部分字典10和表示轄區(qū)名的結尾部分的結尾部分字典20a。
聲學模型讀取部分5將聲學模型11從輔助存儲裝置2讀入存儲器8(Op3)。由此，針對至少最前面的單詞的起始部分和結尾部分，識別部分7可利用讀入存儲器8的聲學模型、起始部分字典和結尾部分字典來執(zhí)行識別處理。另外，針對在最前面部分中的單詞之后的單詞的起始部分，可利用讀入存儲器8內的聲學模型和起始部分字典來執(zhí)行識別處理。
當開始語音輸入時(Op4)，語音分析部分3分析所輸入的語音并將其轉換成語音特征值(Op5)。在此，語音分析部分3將所輸入的語音沿著時間軸劃分為一些幀，并針對各幀計算語音特征值。語音特征值的示例包括頻譜和倒頻譜(cepstrum)。
識別部分7將變量i初始化為1(Op6)。識別部分7將由在Op1中讀入存儲器8的起始部分字典表示的單詞的起始部分與對應于從所輸入語音的前沿起的第i個單詞的開始部分的那一幀的語音特征值進行匹配(Op7)。在該匹配中，使用在Op3中讀取的聲學模型。
在起始部分字典中，以音位串表示各起始部分。識別部分7利用聲學模型11，生成與包含在起始部分字典中的各音位串對應的聲學模型串。在圖2所示的示例中，生成與包含在起始部分字典10內的各個音位串“ai”、“ao”、“ak”、“na”…(省略了后續(xù)音位串)對應的聲學模型串。識別部分7將對應于各音位串的聲學模型串與對應于從所輸入的語音的前沿起的第i個單詞的起始部分的那一幀的語音特征值進行匹配，由此計算對應于各音位串的聲學模型串與語音特征值之間的相似性。在i＝1的情況中，識別部分7計算對應于所輸入的語音的前沿的那一幀的特征值與聲學模型串之間的相似性。
下面，識別部分7利用聲學模型，對由讀入存儲器8內的結尾部分字典表示的單詞的結尾部分和對應于從所輸入的語音的前沿起的第i個單詞的結尾部分的那一幀的語音特征值進行匹配(Op8)。在此，用于匹配的結尾部分字典是包含作為識別部分7要在第i個時間進行識別的單詞的候選項的一組單詞的結尾部分的結尾部分字典(以下，稱為“第i個單詞的結尾部分字典”)。如果還沒有將第i個單詞的結尾部分字典讀入存儲器8內，則識別部分7等待，直到字典管理部分9完成該讀取為止。在i＝1的情況中，在Op2中已讀取第一個單詞的結尾部分字典20a。因此，識別部分7可利用結尾部分字典20a識別第一個單詞的結尾部分而不需要等待。在圖2所示的示例中，計算對應于已讀取的轄區(qū)名的結尾部分字典20a的各音位串“tiken”、“moriken”、“itaken”…(省略后續(xù)音位串)的聲學模型串，以及這些聲學模型串與對應于第一個單詞結尾部分的那一幀的語音特征值之間的相似性。
識別部分7基于在Op7中計算的起始部分字典的各音位串的相似性和在Op8中計算的結尾部分字典的各音位串的相似性，來識別從所輸入語音的前沿起的第i個單詞(Op9)。在例如通過將起始部分字典中包含的多個起始部分和結尾部分字典中包含的多個結尾部分進行組合所得到的多個單詞中，識別部分7可將其中起始部分的相似性和結尾部分的相似性之和最高的音位串的單詞識別作為第i個單詞。
在圖2所示的示例中，在i＝1的情況中，識別部分7將在起始部分字典10中包含的起始部分和在結尾部分字典20a中包含的結尾部分進行組合以生成轄區(qū)名的音位串。在此，例如，在起始部分字典10中的音位串“ai”中，記錄有將起始部分和結尾部分相關聯(lián)的數(shù)據(jù)“1”。因此，識別部分7可將起始部分字典10的起始部分“ai”和結尾部分字典20a中的結尾部分“1.tiken”進行組合，以生成轄區(qū)名的音位串“aitiken”。
因此，針對由此生成的轄區(qū)名的各個音位串“aitiken”、“aomoriken”、“akitaken”、“naganoken”…(省略了后續(xù)的音位串)，計算起始部分的聲學模型串的相似性和結尾部分的聲學模型串的相似性之和，由此將具有最高相似性的音位串的轄區(qū)名識別為所輸入語音的第一個單詞。
還可執(zhí)行如下。計算所連接的聲學模型串(其中將起始部分的聲學模型串連接到結尾部分的聲學模型串)和所輸入的語音之間的相似性，并且將與具有最高相似性的所連接的聲學模型串對應的單詞識別為所輸入語音的單詞。
識別部分7將如上所述識別的單詞提供給字典管理部分9。字典管理部分9基于所給定的單詞，確定包括作為第(i+1)個單詞的候選項的一組單詞的結尾部分字典(Op10)?；谂c已讀取的結尾部分字典中的給定單詞的結尾部分相關聯(lián)的字典識別數(shù)據(jù)，字典管理部分9可確定第(i+1)個結尾部分字典。將該字典識別數(shù)據(jù)記錄成與結尾部分字典中的各結尾部分相關聯(lián)，并且表示包括作為該結尾部分之后的單詞的候選項的一組單詞的結尾部分字典。
例如，在圖2所示的轄區(qū)名的結尾部分字典20a中，記錄有分別對應于音位串“tiken”、“moriken”…(省略了后續(xù)的音位串)的字典識別數(shù)據(jù)“C1”、“C2”…。在圖2所示的示例中，字典識別數(shù)據(jù)“C1”和“C2”分別表示結尾部分字典20b-1和20b-2。例如，在將“aitiken”提供給字典管理部分9作為第i個單詞的情況下，字典管理部分9查詢與結尾部分字典20a的音位串“tiken”相關聯(lián)的字典識別數(shù)據(jù)“C1”。由此，字典管理部分9確定，以“C1”作為字典識別數(shù)據(jù)的結尾部分字典20b-1(包含AICHIKEN的城市名的結尾部分字典)是包含作為隨后的第(i+1)個單詞的候選項的一組單詞的結尾部分字典(例如，第(i+1)個單詞的結尾部分字典)。由此，通過確定用于識別隨后的單詞的結尾部分字典，可以在適當?shù)臅r間僅讀取識別單詞所需的結尾部分字典。
另外，例如，在圖2所示的結尾部分字典20c-1和20c-2中，可能存在沒有指定后續(xù)字典的情況。在這種情況下，確定要識別的所有單詞都已進行了識別，并且結束語音識別處理。更具體地，在不存在第(i+1)個單詞的結尾部分字典的情況中(Op11為否)，結束語音識別處理。
當確定了第(i+1)個單詞的結尾部分字典時(Op11為是)，字典管理部分9從存儲器8中刪除用于匹配第i個單詞的結尾部分字典。從存儲器8中刪除不再使用的字典可削減可用存儲器的容量。例如，當將轄區(qū)名識別為所輸入的語音的第一個單詞(i＝1)時，字典管理部分9從存儲器8中刪除轄區(qū)名的結尾部分字典20a。
在Op11之后，變量i遞增1(Op12)。之后，字典管理部分9開始讀取在Op10中確定的結尾部分字典(例如，第i個單詞的結尾部分字典)(Op13)。與結尾部分字典的讀取(Op13)幾乎同時地，識別部分7將由起始部分字典表示的單詞的起始部分與對應于第i個單詞的那一幀的語音特征值進行匹配(Op7)。
對將轄區(qū)名“aitiken”(AICHIKEN)識別為圖2所示示例中的第一個單詞的情況(i＝2)進行說明。在該情況中，字典管理部分9將由結尾部分字典20a的“tiken”的字典識別數(shù)據(jù)“C1”所表示的結尾部分字典20b-1從輔助存儲裝置2讀入存儲器8內。與此幾乎同時地，識別部分7將結尾部分字典10中的音位串與對應于從所輸入的語音的前沿起的第二個單詞的那一幀的語音特征值進行匹配。由此，基于在識別部分7內識別的轄區(qū)名，與字典管理部分9執(zhí)行的對要在轄區(qū)名之后說出的城市名的結尾部分字典20b-1的讀取處理并行地，識別部分7執(zhí)行對城市名的起始部分的匹配。
重復從Op7至Op13的處理，直到在Op11中確定沒有后續(xù)字典為止。由此，連續(xù)識別在該語音中包含的連續(xù)單詞串。例如，在i＝2時，在將從所輸入的語音的前沿起的第二個單詞識別為由起始部分“na”(參見圖2中的起始部分字典10)和結尾部分“goyasi”(參見結尾部分字典20b-1)組合的單詞“nagoyasi”的情況中，字典管理部分9讀取表示在Nagoya市中的行政區(qū)名的結尾部分字典20c-1。與此同時，識別部分7將行政區(qū)名的起始部分與起始部分字典10匹配。另外，識別部分7利用所讀取的結尾部分字典20c-1，對行政區(qū)名的結尾部分進行匹配。例如，假設得到“nakaku”作為識別結果。在不存在包含作為行政區(qū)名之后的行政區(qū)的候選項的一組單詞的結尾部分字典的情況中(Op11為否)，輸出“AICHIKEN、NAGOYASHI、NAKAKU”作為識別結果。由此，連續(xù)識別出表示轄區(qū)名、城市名和行政區(qū)名的單詞。
圖4是表示圖3中所示的處理相對于時間軸的執(zhí)行狀態(tài)的圖。在圖4中，T軸表示時間。在圖4中，分別由箭頭表示在執(zhí)行圖3中所示的從Op7至Op13的處理過程的時間。作為示例，分別由箭頭表示出在i＝1時在Op7、8、9、10-12中的處理的執(zhí)行時間以及在i＝2時在Op13、7和8中的處理的執(zhí)行時間。在i＝1時，在Op7、8、9和Op10-12中的處理是連續(xù)執(zhí)行的，并且在T1完成了Op12中的處理。使Op13的將第二個單詞的結尾部分字典讀入存儲器8的處理和Op7的匹配第二個單詞的起始部分的處理同時開始。在此，即使在Op13中在對結尾部分字典進行讀取的處理期間，也仍然繼續(xù)Op7中的處理，從而減少處理中的延遲。在時間T2完成Op13中的處理。更具體地，在時間T2完成對結尾部分字典的讀取。從時間T2開始，利用在Op13中讀取的結尾部分字典來執(zhí)行Op8中的匹配處理。
圖4中所示的處理的執(zhí)行時間是一個示例，并且語音識別裝置1的操作并不限于此。例如，在圖4中，盡管在i＝2時，Op7中的處理完成得早于Op13中的處理，但Op13中的處理也可能完成得早于Op7中的處理。
另外，在圖3中所示的上述處理也示出了語音識別裝置1的操作的示例，并且根據(jù)本發(fā)明的語音識別裝置的操作并不限于此。例如，在圖3所示的處理中，基于利用起始部分字典計算的相似性和利用結尾部分字典計算的相似性之和，識別部分7識別單詞。另選地，可以實現(xiàn)如下利用起始部分字典僅識別起始部分，以及利用結尾部分字典僅識別結尾部分，由此將通過將所識別的起始部分和結尾部分進行組合所得到的單詞確定為識別結果。
另外，在字典數(shù)據(jù)12中包含的起始部分字典和結尾部分字典的結構并不限于圖2中所示的那些。圖2中所示的結尾部分字典具有這樣的結構將表示包含在一個上位概念中的下位概念的多個單詞收集到一個結尾部分字典中。更具體地，在圖2所示的示例中，提供了表示轄區(qū)名的單詞的結尾部分，并且此外，針對各轄區(qū)提供了表示在各轄區(qū)內包含的城市的單詞的結尾部分字典。但是，可將具有不同概念的多個單詞包含在一個字典中。例如，可以在一個字典中包括作為某一單詞之后的多個候選項的一組單詞，并且可利用將該字典和單詞相關聯(lián)的數(shù)據(jù)來記錄該字典。
(結尾部分字典的改進例)另外，作為圖2中所示的結尾部分字典的改進例，也可以將表示包含在一個上位概念中的多個下位概念的多個單詞在根據(jù)這些單詞的起始部分而劃分成多個結尾部分字典的情況下進行記錄。圖5是示出了其中將在圖2中所示的結尾部分字典20b-1中包括的結尾部分劃分成多個結尾部分字典的示例性情況的圖。在圖5中，將包括在結尾部分字典20b-1中的結尾部分在被劃分成結尾部分字典20b-11(包含與起始部分“n”對應的結尾部分“goyasi”、“gakutecho”…)、結尾部分字典20b-12(包含與起始部分“t”對應的結尾部分“yotasi”、“yohasisi”、“yokawasi”…)以及其他結尾部分字典(未示出)的情況下進行記錄。
由此，通過記錄其中收集有對應于各起始部分的結尾部分的結尾部分字典，每當識別部分7對單詞起始部分的一部分進行匹配時，基于匹配結果，字典管理部分9可選擇要讀取的結尾部分字典。例如，識別部分7將表示城市名的單詞的起始部分的第一個音位識別為“n”，字典管理部分9可選擇圖5中所示的結尾部分字典20b-11作為要讀取的結尾部分字典。這就減少了要讀取的結尾部分字典的大小。因此，縮短了用于讀取結尾部分字典的時間，并且可節(jié)省可用存儲器的容量。
圖6是表示圖3中所示的處理相對于時間軸的執(zhí)行狀態(tài)的圖，其中基于單詞起始部分的上述匹配結果來選擇要讀取的結尾部分字典。在圖6所示的執(zhí)行狀態(tài)中，盡管在i＝1時Op10-12完成的時間T1上開始i＝2時Op7中的處理，但Op13中的處理沒有開始。在時間T1’開始Op13。時間T1’是由Op7中的匹配處理獲得第二個單詞的起始部分的匹配結果的時間。基于第二個匹配結果執(zhí)行Op13中的結尾部分字典讀取處理。
實施例2在實施例1中，對在字典數(shù)據(jù)內僅包括一個起始部分字典的情況中的語音識別處理已經(jīng)進行了說明。在實施例2中，對在字典數(shù)據(jù)中包括多個起始部分字典的情況中的語音識別處理進行說明。在本實施例中，識別部分1通過從多個起始部分字典中適當?shù)剡x擇合適的起始部分字典，來執(zhí)行語音識別處理。本實施例中語音識別裝置的結構與圖1中所示的語音識別裝置1的相同。
圖7示出了實施例2中的包括在字典數(shù)據(jù)中的起始部分字典和結尾部分字典的具體示例。在圖7中，包括與圖2中所示的字典相同內容的字典由與圖2中相同的標號表示，并省略對其的說明。圖7中所示的字典數(shù)據(jù)中的起始部分字典包括多個起始部分字典100-1、100-2、100-3和100-4。這些起始部分字典是這樣的數(shù)據(jù)將可能包含在所輸入的語音中的所有單詞的起始部分在被劃分成多個起始部分字典的情況下進行記錄。在此，作為示例，將一組單詞的起始部分在被劃分成起始部分字典100-1(包括表示轄區(qū)名的單詞的起始部分)、起始部分字典100-2、100-3…(包括表示在各轄區(qū)中包含的城市、城鎮(zhèn)和村莊的名稱的單詞的起始部分)以及起始部分字典100-4(包括表示在各城市中包含的行政區(qū)名或區(qū)域名的單詞的起始部分)的情況下進行記錄。
如以下所述，在將一組單詞的起始部分劃分成多個起始部分字典的情況下記錄該組單詞的起始部分的目的是為了使識別部分7能夠根據(jù)要識別的單詞的候選項，僅參考所需的那組起始部分。因此，優(yōu)選地，對應于作為要識別的各個連續(xù)的單詞的候選項的一組單詞，提供起始部分字典。
可將多個起始部分字典100-1、100-2、100-3和100-4例如記錄為用于各字典的文件，或者可記錄為用于各字典的表。此外，可將多個字典記錄到一個文件中，或者可以在將一個字典劃分成多個文件的情況下進行記錄。另外，可將可同時讀取的一組字典(例如，轄區(qū)名的起始部分字典100-1和轄區(qū)名的結尾部分字典20a的組合)記錄在一個文件或表中。
圖8是示出了實施例2中的語音識別裝置識別語音的示例性處理的流程圖。在圖8中，用與圖2中相同的標號表示與圖2中所示的相同的處理，并且省略詳細說明。
如圖8中所示，字典管理部分9首先將在字典數(shù)據(jù)12中包含的所有的多個起始部分字典讀入存儲器8內(Op12)。將在所輸入的語音中可能包含的所有單詞的起始部分在被劃分成多個起始部分字典(此處所讀取的)的情況下進行記錄。要讀取的多個起始部分字典的一部分的具體示例是起始部分字典100-1、100-2、100-3和100-4(圖7中所示)。
Op2至6中的處理和圖2中的相同。在Op7a中，識別部分7利用聲學模型，將由起始部分字典表示的單詞的起始部分和與從所輸入的語音的前沿起的第i個單詞的起始部分對應的那一幀的語音特征值進行匹配。此匹配中所使用的起始部分字典是包括作為第i個單詞的候選項的一組單詞的起始部分的起始部分字典(以下稱為第i個單詞的起始部分字典)。識別部分7將與在第i個起始部分字典內包括的各音位串對應的聲學模型串和與從所輸入的語音的前沿起的第i個單詞的起始部分對應的那一幀的語音特征值進行匹配，以計算兩者之間的相似性。
在i＝1的情況中，第一個起始部分字典的具體示例為圖7中所示的起始部分字典100-1。起始部分字典100-1包括表示轄區(qū)名(可能在語音中首先說出)的單詞的起始部分的音位串“ai”、“ao”、“ak”…(省略后續(xù)的音位串)。識別部分7計算與各音位串對應的聲學模型串和與語音的最前面部分對應的那一幀的特征值之間的相似性。
下面，識別部分7利用聲學模型，對由結尾部分字典表示的單詞的結尾部分和與第i個單詞的結尾部分對應的那一幀的語音特征值進行匹配(Op8)。在此用于匹配的結尾部分字典為第i個單詞的結尾部分字典。
識別單元7基于在Op7a中計算的起始部分字典的各音位串的相似性以及在Op8中計算的結尾部分字典的各音位串的相似性，來識別從所輸入的語音的前沿起的第i個單詞(Op9)。
當識別出第i個單詞時，字典管理部分9基于第i個單詞，確定包含作為第(i+1)個單詞的候選項的一組單詞的結尾部分的結尾部分字典(以下稱為“第(i+1)個單詞的結尾部分字典”)(Op10)。在存在第(i+1)個單詞的結尾部分字典的情況中(Op11為是)，字典管理部分9還確定包含作為第(i+1)個單詞的候選項的一組單詞的起始部分的起始部分字典(以下稱為“第(i+1)個單詞的起始部分字典”)(Op10a)。字典管理部分9可基于與已讀取的結尾部分字典中的給定單詞的結尾部分相關聯(lián)的字典識別數(shù)據(jù)，來確定第(i+1)個起始部分字典和第(i+1)個結尾部分字典。
例如，在圖7所示的轄區(qū)名的結尾部分字典20a中，記錄有與音位串“tiken”…(省略后續(xù)音位串)對應的字典識別數(shù)據(jù)“C1”。在圖7所示的示例中，字典識別數(shù)據(jù)“C1”表示結尾部分字典20b-1和起始部分字典100-2。例如，在將“aitiken”提供給字典管理部分9作為第一個單詞的情況中，字典管理部分9可確定以“C1”作為字典識別數(shù)據(jù)的起始部分字典100-2為隨后第(i+1)個單詞的起始部分字典。另外，字典管理部分9確定以“C1”作為字典識別數(shù)據(jù)的結尾部分字典20b-1為第(i+1)個結尾部分字典。通過確定用于識別后續(xù)單詞的起始部分字典和結尾部分字典，可以在適當時機僅將識別單詞所需的結尾部分字典讀入存儲器8內，并且可以通過僅參考識別所需的起始部分字典來識別單詞。
在Op10之后，字典管理部分9從存儲器8內刪除用于匹配第i個單詞的結尾部分字典。在i＝1的情況中，當針對第一個單詞的Op10中的處理完成時，字典管理部分9從存儲器8內刪除轄區(qū)名的起始部分字典100-1和轄區(qū)名的結尾部分字典20a。因此，通過從存儲器8內刪除已由識別部分7識別的單詞的起始部分字典和結尾部分字典，可節(jié)省可用存儲器的容量。
之后，變量i遞增1(Op12)，并且與字典管理部分9讀取結尾部分字典(Op13)幾乎同時地，識別部分7對由Op10a中確定的起始部分字典(例如，第i個單詞的起始部分字典)所表示的單詞的起始部分和對應于第i個單詞的那一幀的語音特征值進行匹配(Op7a)。
對其中i＝2時將轄區(qū)名“aitiken”(AICHIKEN)識別為圖7中所示示例中的第一個單詞的情況進行說明。在該情況中，字典管理部分9將由結尾部分字典20a的“tiken”的字典識別數(shù)據(jù)“C1”所表示的結尾部分字典20b-1從輔助存儲裝置2讀入存儲器8內。幾乎與此同時，識別部分7將由字典識別數(shù)據(jù)“C1”表示的起始部分字典100-2中的音位串與對應于第二個單詞的那一幀的語音特征值進行匹配。由此，基于識別部分7所識別的轄區(qū)名，執(zhí)行對可能在轄區(qū)名之后說出的城市名的結尾部分字典20b-1進行讀取的處理。另外，與此并行地，識別部分7對可能在轄區(qū)名之后說出的城市名的起始部分字典100-2與對應于該轄區(qū)名之后的語音的那一幀的語音特征值進行匹配。因此，識別部分7可以僅針對多個起始部分字典中進行識別所需的起始部分字典執(zhí)行匹配處理(Op7a)。因此，縮短了語音識別處理所需的時間。
重復Op7a至Op13的處理，直到在Op11中確定沒有后續(xù)字典為止。由此，對語音中包含的連續(xù)的單詞串進行了連續(xù)識別。
實施例3在實施例1和2中，對預先讀取包含所有單詞起始部分的起始部分字典的情況中的語音識別處理已經(jīng)進行了說明。在實施例3中，字典管理部分9預先讀取在字典數(shù)據(jù)12中包含的多個起始部分字典的一部分。更具體地，在本實施例中，字典管理部分9根據(jù)識別部分7內的處理，在任何時機讀取適當?shù)钠鹗疾糠肿值?。本實施例中的語音識別裝置的結構與圖1中所示的語音識別裝置1的相同。
圖9示出了實施例3中的在字典數(shù)據(jù)內包含的起始部分字典和結尾部分字典的具體示例。在圖9中，采用與圖7內相同的標號來表示包含與圖7中所示的字典內的相同內容的字典，并且省略詳細說明。圖9中所示的字典數(shù)據(jù)中的起始部分字典包括多個起始部分字典100-1、100-2、100-3、100-4和100-5。
其中，在輸入語音之前由字典管理部分9預先讀取的起始部分字典是轄區(qū)名的起始部分字典100-1和各轄區(qū)內的城市名(也包括城鎮(zhèn)名)的起始部分字典100-2和100-3。因此，字典管理部分9讀取包括作為兩個連續(xù)單詞(例如，表示轄區(qū)名的單詞和表示城市名的單詞)的候選項的一組單詞的起始部分的起始部分字典。
圖10是示出了實施例3中的語音識別裝置識別語音的示例性處理的流程圖。在圖10中，采用與圖8中相同的標號來表示與圖8中所示的相同的處理，并且省略對其的詳細說明。
如圖10中所示，字典管理部分9首先將包含作為兩個連續(xù)的單詞的候選項的一組單詞的起始部分字典讀入存儲器8內(Op1b)。將處于所輸入語音的前沿的單詞和作為第二個單詞的候選項的所有單詞的起始部分在被劃分成多個起始部分字典(讀入存儲器8)的情況下進行記錄。要讀入存儲器8內的多個起始部分字典的具體示例為起始部分字典100-1、100-2和100-3(圖9中所示)。在圖9所示的示例中，起始部分字典100-1包括作為表示語音前沿處轄區(qū)名的單詞的候選項的一組單詞的起始部分。起始部分字典100-2、100-3…包括作為表示城市、城鎮(zhèn)、縣或村莊的名稱(其可能在轄區(qū)名之后說出)的單詞的候選項的一組單詞的起始部分。
Op2至Op11的處理與圖8中的相同。
在存在第(i+1)個結尾部分字典的情況中(Op11為是)，在Op10b中字典管理部分9確定第(i+1)個起始部分字典。另外，字典管理部分9還確定包括作為第(i+2)個單詞的候選項的一組單詞的起始部分的起始部分字典(以下，也稱為第(i+2)個單詞的起始部分字典)。在已讀取的結尾部分字典中，基于與給定單詞的結尾部分相關聯(lián)的字典識別數(shù)據(jù)，字典管理部分9可確定第(i+2)個起始部分字典。
例如，在圖9所示的轄區(qū)名的結尾部分字典20a中，對與結尾部分的音位串“tiken”…(省略后續(xù)的音位串)相關聯(lián)的字典識別數(shù)據(jù)“C1”進行記錄。在圖9所示的示例中，字典識別數(shù)據(jù)“C1”表示結尾部分字典20b-1和起始部分字典100-2。例如，在將“aitiken”提供給字典管理部分9作為第一個單詞的情況中，字典管理部分9可確定，字典識別數(shù)據(jù)中具有“C1”的起始部分字典100-2是隨后的第(i+1)個起始部分字典。另外，字典管理部分9確定，以“C1”作為字典識別數(shù)據(jù)的結尾部分字典20b-1是第(i+1)個結尾部分字典。
另外，字典管理部分9參考與在結尾部分字典20b-1中包括的結尾部分的各音位串相關聯(lián)的字典識別數(shù)據(jù)“E1”和“E2”?；谶@些字典識別數(shù)據(jù)，字典管理部分9確定第(i+2)個單詞的起始部分字典。在此情況中，第(i+2)個單詞的起始部分字典為由字典識別數(shù)據(jù)“E1”和“E2”表示的起始部分字典100-4和100-5。關于在結尾部分字典20b-1中包括的結尾部分，為簡便起見僅顯示了兩個結尾部分“goyasi”和“gakute”，并省略其余顯示。
在Op10b之后，字典管理部分9從存儲器8內刪除用于匹配第i個單詞的起始部分字典和結尾部分字典。在圖9所示的示例中，在i＝1時將轄區(qū)名識別為第一個單詞的情況中，字典管理部分9從存儲器8內刪除轄區(qū)名的起始部分字典100-1和轄區(qū)名的結尾部分字典20a。
在Op10b之后，變量i遞增1(Op12)，并且字典管理部分9開始讀取在Op10中所確定的結尾部分字典，即，第i個單詞的結尾部分字典(Op13b)。另外，在Op13b中，字典管理部分9還開始讀取在Op10b中所確定的第(i+1)個單詞的起始部分字典。
與起始部分字典和結尾部分字典的讀取(Op13b)幾乎同時地，識別部分7對Op11b中確定的起始部分字典(即，由第i個單詞的起始部分字典表示的單詞的起始部分)和對應于第i個單詞的那一幀的語音特征值進行匹配(Op7a)。
對i＝2時將轄區(qū)名“aitiken”(AICHIKEN)識別為圖9中所示示例中的第一個單詞的情況進行說明。在該情況中，字典管理部分9將由字典識別數(shù)據(jù)“C1”(與結尾部分字典20a的“tiken”相關聯(lián))表示的結尾部分字典20b-1從輔助存儲裝置2讀入存儲器8內。另外，字典管理部分9還將起始部分字典100-4和100-5讀入存儲器8內。幾乎與此同時地，識別部分7對由字典識別數(shù)據(jù)“C1”表示的起始部分字典100-2的語音串和對應于第二個單詞的那一幀的語音特征值進行匹配。
由此，基于識別部分7所識別的轄區(qū)名，執(zhí)行讀取城市名(在轄區(qū)名之后可能說出的)的結尾部分字典20b-1的處理。另外，還執(zhí)行讀取在該城市名之后可能說出的單詞的起始部分字典100-4和100-5的處理。此外，與這些處理并行地，識別部分7對城市名(在轄區(qū)名之后可能說出的)的起始部分字典100-2和與該轄區(qū)名之后的語音對應的那一幀的語音特征值進行匹配。
如上所述，根據(jù)本實施例，除了結尾部分字典以外，還根據(jù)識別處理在任何時間讀取起始部分字典。因此，不必預先讀取關于所有單詞的候選項的起始部分字典。僅僅通過讀取關于至少兩個連續(xù)的單詞的候選項的起始部分字典，在任何時間(如果需要的話)讀取起始部分字典。這樣能夠節(jié)省可用存儲器的容量。
在本實施例中，盡管對讀取關于兩個連續(xù)的單詞的候選項的起始部分字典的示例已經(jīng)進行了說明，但要讀取的起始部分字典并不限于用于兩個連續(xù)的單詞的候選項的起始部分字典。如果字典管理部分9將包括一組單詞(作為至少兩個連續(xù)的單詞的候選項)的起始部分的起始部分字典讀入存儲器內，則識別部分7可將與在所輸入的語音中包含的至少兩個連續(xù)的單詞的起始部分對應的部分與讀入存儲器的起始部分字典進行匹配。因此，在識別部分7識別一個單詞之后，當字典管理部分9正根據(jù)所識別單詞讀取結尾部分字典和/或起始部分字典時，所識別單詞之后的語音能夠與包括作為所識別單詞之后的單詞的候選項的單詞的起始部分的起始部分字典相匹配。
在語音識別裝置由如并入的設備的具有較少資源(CPU、存儲器)的平臺構成的情況中，根據(jù)實施例1-3的語音識別裝置明顯表現(xiàn)出減少響應(從講話結束到給出識別結果的時間)的效果。
在上述實施例1-3中，盡管對識別地址的示例已經(jīng)進行了說明，但作為根據(jù)本發(fā)明的語音識別裝置的對象的語音的內容并不限于地址。本發(fā)明可應用于識別包括連續(xù)的單詞(其中作為各單詞的候選項的一組單詞與前面的單詞相關聯(lián))的語音的語音識別裝置。說出這種連續(xù)單詞的情況的示例包括連續(xù)說出藝術家姓名、畫冊名稱和標題名稱的情況，連續(xù)說出公司名、部門名、標題名和全名的情況，以及連續(xù)說出的所需時間或距離和設施名的情況。
另外，在上述實施例1-3中，對通過一個接一個地識別單詞來識別多個單詞的情況已經(jīng)進行了說明。但是，識別連續(xù)單詞的處理并不限于這種處理。
(表示詞序的數(shù)據(jù)的改進例)另外，在實施例1-3中，將表示詞序的數(shù)據(jù)記錄到結尾部分字典中，作為與各結尾部分相關聯(lián)的字典識別數(shù)據(jù)。但是，在表示詞序的數(shù)據(jù)被包含在結尾部分字典內的情況下，不必對這些數(shù)據(jù)記錄。例如，可以提供存儲有表示詞序的數(shù)據(jù)的語法文件。
圖11是示出了起始部分字典、結尾部分字典以及表示字典內包含的詞序的語法文件30的示例的圖。在圖11所示的起始部分字典中，分別記錄有“0”、“23”、“12”、“13”和“2301”作為字典識別數(shù)據(jù)。另外，在與這些起始部分字典對應的結尾部分字典中，還記錄有“1”、“23”、“12”、“13”和“2301”作為字典識別數(shù)據(jù)。
在語法文件30中，第一行中記錄有包含作為在所輸入語音中要首先識別的單詞的候選項的一組單詞的字典的字典識別數(shù)據(jù)“0”。更具體地，將要首先讀取的字典的字典識別數(shù)據(jù)記錄在第一行中。第二行中的“0-1”表示由字典識別數(shù)據(jù)“0”表示的字典內的第一個單詞。在圖2中，“0-1”表示由起始部分字典“0”中的第一個起始部分“ai”和結尾部分字典“0”內的第一個結尾部分“tiken”組成的單詞“aitiken”?！?-1”旁邊的“23”(兩者之間插入有→)是包含作為在“aitiken”之后的單詞的候選項的一組單詞的字典的字典識別數(shù)據(jù)。
在語法文件30的第三至第五行中，通過與第二行相同的方式，將表示某單詞的數(shù)據(jù)和包含作為在所述某單詞之后的單詞的候選項的一組單詞的字典的字典識別數(shù)據(jù)以彼此相關聯(lián)的方式進行記錄。第六行中的“2301-1→-1”意思是，在由字典識別數(shù)據(jù)“2301”表示的字典中在第一個單詞“nakaku”后面沒有單詞，并且完成了要識別的單詞。由此，例如，識別部分7可識別出按照“aitiken”、“nagoyasi”、“nakaku”的順序說出的語音。
通過參考語法文件30，字典管理部分9可獲得要首先讀取的字典、識別部分7在識別單詞之后要讀取的字典以及表示識別單詞完成的信息。另外，如果重寫語法文件30的內容，則可利用相同的起始部分字典和相同的結尾部分字典來識別不同的發(fā)音。例如，在可能首先說出單詞“nakaku”、然后說出“nagoyasi”的情況中，可將包括“nakaku”的字典的字典識別數(shù)據(jù)“2301”記錄到語法文件30的第一行內。通過將“2301-1→23”記錄到第二和后續(xù)的行內，以使作為在“nakaku”之后的單詞的候選項的字典為包括“nagoyasi”的字典，可以通過記錄“2301-1→23”來識別發(fā)音“nakaku nagoyasi”。
本發(fā)明用作語音識別裝置、語音識別程序、語音識別方法以及存儲所使用的字典數(shù)據(jù)的記錄介質，其能夠在對用戶說出的連續(xù)單詞進行識別的語音識別處理(其中不能將所有的語音識別字典放在主存儲裝置上并對存儲器有所限制)中，減少由于從具有用于進行單詞識別的單詞字典的輔助存儲裝置進行加載的等待時間所造成的識別時間中的延遲。
在不脫離本發(fā)明的精神或基本特點的情況下可以通過其他方式實施本發(fā)明。要從各個方面考慮該申請中揭示的實施例，作為示例但并不限定。本發(fā)明的范圍由所附權利要求而非上述說明來表明，并且在權利要求等同物的意義和范圍之內的所有變化都應該包括在內。
權利要求
1.一種語音識別裝置，用于識別包含在所輸入的語音中的多個連續(xù)關聯(lián)的單詞并輸出其識別結果，所述裝置包括聲學模型讀取部分，用于將預先記錄在輔助存儲裝置內的聲學模型讀入主存儲裝置內；字典管理部分，用于將字典數(shù)據(jù)從所述輔助存儲裝置讀入主存儲裝置內，所述字典數(shù)據(jù)包括起始部分字典，表示作為要識別單詞的候選項的一組單詞的起始部分；結尾部分字典，表示所述一組單詞的結尾部分；詞序數(shù)據(jù)，表示單詞順序；以及對應關系數(shù)據(jù)，表示所述起始部分字典與所述結尾部分字典之間的對應關系；以及識別部分，用于通過利用讀入所述主存儲裝置內的所述聲學模型和所述對應關系數(shù)據(jù)，將由讀入所述主存儲裝置內的所述起始部分字典和所述結尾部分字典表示的所述一組單詞與所述輸入語音進行匹配，來連續(xù)識別包含在所述輸入語音中的所述多個連續(xù)關聯(lián)單詞，其中所述字典數(shù)據(jù)包括至少一個起始部分字典，所述起始部分字典存儲有表示多個單詞起始部分的數(shù)據(jù)；和一組結尾部分字典，所述結尾部分字典存儲有表示與由所述起始部分字典表示的一組起始部分對應的一組結尾部分的數(shù)據(jù)，作為多個結尾部分字典，并且所述字典管理部分將所述詞序數(shù)據(jù)和所述起始部分字典讀入主存儲裝置，所述起始部分字典包括作為包含在所述輸入語音中的多個單詞中的至少一個單詞的候選項的一組單詞的起始部分，并且當所述識別部分利用讀入所述主存儲裝置內的所述起始部分字典識別單詞時，所述字典管理部分基于所述詞序數(shù)據(jù)，讀取所述結尾部分字典和/或所述起始部分字典。
2.根據(jù)權利要求1所述的語音識別裝置，其中所述起始部分字典存儲有針對作為要識別的多個連續(xù)關聯(lián)單詞的候選項的整組單詞的起始部分，并且在所述識別部分開始識別所述輸入語音之前，所述字典管理部分讀取作為包含在所述語音中的多個單詞中的第一個單詞的候選項的一組單詞的所述起始部分字典和所述結尾部分字典，當所述識別部分識別第N個單詞時，其中N為自然數(shù)，所述字典管理部分基于所述第N個單詞和所述詞序數(shù)據(jù)，從所述多個結尾部分字典中選出包括作為第(N+1)個單詞的候選項的一組單詞的結尾部分的所述結尾部分字典，并開始讀取，以及在所述讀取過程中，所述識別部分利用所述起始部分字典，來識別所述第(N+1)個單詞的起始部分。
3.根據(jù)權利要求1所述的語音識別裝置，其中在所述識別部分開始識別之前，所述字典管理部分讀取包括作為包含在所述輸入語音中的多個單詞中的第一個單詞的候選項的一組單詞的結尾部分的所述結尾部分字典，和包括作為第一與第二個單詞的候選項的一組單詞的起始部分的所述起始部分字典，當所述識別部分識別第N個單詞時，其中N為自然數(shù)，所述字典管理部分讀取包括作為第(N+1)個單詞的候選項的一組單詞的結尾部分的所述結尾部分字典，和包括作為第(N+2)個單詞的候選項的一組單詞的起始部分的所述起始部分字典。
4.根據(jù)權利要求1所述的語音識別裝置，其中當所述識別部分利用讀入所述主存儲裝置內的所述起始部分字典，將所述單詞的所述起始部分的一部分與所述語音進行匹配時，所述字典管理部分基于所述匹配結果，開始讀取所述結尾部分字典和/或所述起始部分字典。
5.根據(jù)權利要求1所述的語音識別裝置，其中將所述詞序數(shù)據(jù)以與各個單詞結尾部分相對應的方式記錄到所述結尾部分字典內，作為字典識別數(shù)據(jù)，所述字典識別數(shù)據(jù)表示包括可能跟在所述單詞結尾部分之后的一組單詞的起始部分的起始部分字典或者包括所述一組單詞的結尾部分的結尾部分字典，并且所述字典管理部分基于與由所述識別部分識別的所述單詞的所述結尾部分對應的所述字典識別數(shù)據(jù)，來讀取所述起始部分字典或所述結尾部分字典。
6.根據(jù)權利要求5所述的語音識別裝置，其中所述字典數(shù)據(jù)包括多個起始部分字典，并且基于與所述所識別單詞的所述結尾部分對應的所述字典識別數(shù)據(jù)，所述識別部分從所述多個起始部分字典中選擇出包括可能跟在所識別單詞之后的一組單詞的起始部分的所述起始部分字典，并利用所選擇的起始部分字典，識別所述跟在所識別單詞之后的單詞。
7.根據(jù)權利要求1所述的語音識別裝置，其中所述字典管理部分從所述主存儲裝置中刪除讀入所述主存儲裝置內的所述結尾部分字典和所述起始部分字典中的、在用于識別部分識別單詞之后變?yōu)椴恍枰乃鼋Y尾部分字典或所述起始部分字典。
8.根據(jù)權利要求1所述的語音識別裝置，其中在根據(jù)音位數(shù)、音節(jié)數(shù)、摩爾數(shù)、單詞出現(xiàn)頻率和可用存儲器的容量中的至少一個來將可能包含在語音中的一組單詞劃分成多個起始部分和多個結尾部分的情況下，所述字典數(shù)據(jù)包含有所述一組單詞，并且將所述起始部分和所述結尾部分以分別被包括在所述起始部分字典和所述結尾部分字典中的方式進行記錄。
9.一種語音識別方法，用于使計算機識別包含在所輸入語音中的多個連續(xù)關聯(lián)的單詞并且輸出其識別結果，所述方法包括聲學模型讀取操作，使所述計算機將預先記錄在輔助存儲裝置內的聲學模型讀入主存儲裝置內；字典管理操作，使所述計算機將字典數(shù)據(jù)從所述輔助存儲裝置讀入主存儲裝置內，所述字典數(shù)據(jù)包括起始部分字典，表示作為要識別單詞的候選項的一組單詞的起始部分；結尾部分字典，表示所述一組單詞的結尾部分；詞序數(shù)據(jù)，表示單詞順序；以及對應關系數(shù)據(jù)，表示起始部分字典與結尾部分字典之間的對應關系；以及識別操作，使所述計算機通過利用讀入所述主存儲裝置內的所述聲學模型和所述對應關系數(shù)據(jù)，將由讀入所述主存儲裝置內的所述起始部分字典和所述結尾部分字典表示的一組單詞與所述輸入語音進行匹配，來連續(xù)識別包含在所述輸入語音中的多個連續(xù)關聯(lián)的單詞，其中所述字典數(shù)據(jù)包括至少一個起始部分字典，所述起始部分字典存儲有表示多個單詞的起始部分的數(shù)據(jù)；和一組結尾部分字典，所述結尾部分字典存儲有表示與由所述起始部分字典表示的一組起始部分對應的一組結尾部分的數(shù)據(jù)，作為多個結尾部分字典，并且在所述字典管理操作中，所述計算機將所述詞序數(shù)據(jù)和所述起始部分字典讀入主存儲裝置，所述起始部分字典包括作為包含在所輸入語音的所述多個單詞中的至少一個單詞的候選項的一組單詞的起始部分，并且當在所述識別操作中利用讀入所述主存儲裝置內的所述起始部分字典識別單詞時，所述計算機基于所述詞序數(shù)據(jù)來讀取所述結尾部分字典和/或所述起始部分字典。
10.一種存儲有語音識別程序的記錄介質，所述語音識別程序用于使計算機執(zhí)行對包含在輸入語音中的多個連續(xù)關聯(lián)單詞進行識別并輸出其識別結果的處理，所述語音識別程序使所述計算機執(zhí)行聲學模型讀取處理，將預先記錄在輔助存儲裝置內的聲學模型讀入主存儲裝置內；字典管理處理，將字典數(shù)據(jù)從所述輔助存儲裝置讀入所述主存儲裝置內，所述字典數(shù)據(jù)包括起始部分字典，表示作為要識別單詞的候選項的一組單詞的起始部分；結尾部分字典，表示所述一組單詞的結尾部分；詞序數(shù)據(jù)，表示單詞順序；以及對應關系數(shù)據(jù)，表示所述起始部分字典與所述結尾部分字典之間的對應關系；以及識別處理，通過利用讀入所述主存儲裝置內的所述聲學模型和所述對應關系數(shù)據(jù)，將由讀入所述主存儲裝置內的所述起始部分字典和所述結尾部分字典表示的一組單詞與所述輸入語音進行匹配，來連續(xù)識別包含在所述輸入語音中的多個連續(xù)關聯(lián)的單詞，其中所述字典數(shù)據(jù)包括至少一個起始部分字典，所述起始部分字典存儲有表示多個單詞的起始部分的數(shù)據(jù)；和一組結尾部分字典，所述結尾部分字典存儲有表示與由所述起始部分字典表示的一組起始部分對應的一組結尾部分的數(shù)據(jù)，作為多個結尾部分字典，并且在所述字典管理處理中，所述程序使所述計算機將所述詞序數(shù)據(jù)和所述起始部分字典讀入主存儲裝置，所述起始部分字典包括作為包含在所述輸入語音中的所述多個單詞中的至少一個單詞的候選項的一組單詞的起始部分，并且當在所述識別處理中利用讀入所述主存儲裝置內的所述起始部分字典識別單詞時，所述計算機基于所述詞序數(shù)據(jù)來讀取所述結尾部分字典和/或所述起始部分字典。
全文摘要
語音識別裝置、語音識別方法及存儲語音識別程序的記錄介質。一種語音識別裝置，用于識別包含在語音中的多個連續(xù)關聯(lián)的單詞，該裝置包括聲學模型讀取部分，用于讀取聲學模型；字典管理部分，用于從字典數(shù)據(jù)中讀取所需數(shù)據(jù)；和識別部分，用于利用所述聲學模型，通過將由字典數(shù)據(jù)表示的一組單詞與所輸入的語音進行匹配來連續(xù)識別所述多個連續(xù)單詞，其中，所述字典數(shù)據(jù)包括表示單詞起始部分的起始部分字典和存儲有表示結尾部分的數(shù)據(jù)的一組結尾部分字典，根據(jù)所述識別部分識別的所述單詞來讀取所述結尾部分字典和/或所述起始部分字典，并且當所述字典管理部分讀取所述結尾部分字典和/或所述起始部分字典時，所述識別部分將后續(xù)語音與包含在所述起始部分字典內的單詞起始部分進行匹配。由此，所述語音識別裝置可消除由于從對存儲器有所限制的設備內的輔助存儲裝置中讀取單詞字典所造成的語音識別處理中的延遲。
文檔編號G10L15/06GK101046957SQ20061010898
公開日2007年10月3日申請日期2006年7月31日優(yōu)先權日2006年3月30日
發(fā)明者原田將治申請人:富士通株式會社

完整全部詳細技術資料下載